version originale de C’est l’histoire apparu Magazine Quanta.
Laquelle des innombrables capacités humaines est uniquement humaine ? Le langage est l’un des principaux candidats depuis au moins Aristote, qui a écrit que l’humanité était « des animaux dotés d’un langage ». Même avec de grands modèles de langage comme ChatGPT qui reproduisent la parole normale, les chercheurs veulent savoir s’il existe certains aspects du langage humain qui n’ont pas d’équivalent dans les systèmes de communication d’autres animaux ou dans des appareils artificiellement intelligents.
Les chercheurs étudient notamment comment les modèles linguistiques peuvent raisonner sur le langage lui-même. Pour certaines communautés linguistiques, le modèle linguistique n’est pas le seul Non Ils ont un pouvoir de raisonnement ne peut pas. Ce point de vue a été résumé par l’éminent linguiste Noam Chomsky et deux coauteurs en 2023, lorsqu’ils a écrit Le New York Times que « les interprétations exactes du langage sont complexes et ne peuvent pas être apprises simplement en marinant dans le Big Data ». Les modèles d’IA sont peut-être capables d’utiliser le langage, affirment ces chercheurs, mais ils ne sont pas capables d’analyser le langage de manière sophistiquée.
Ce point de vue a récemment été contesté papier par Gaspar Béguslinguiste à l’Université de Californie à Berkeley ; Maximilien Dubkovskiqui a récemment reçu un doctorat en linguistique de Berkeley ; Et Ryan Rhodes Université Rutgers. Les chercheurs ont soumis plusieurs grands modèles de langage, ou LLM, à des expériences linguistiques, dont l’une, le LLM, est une généralisation des règles d’un langage construit. Alors que la plupart des LLM ne parvenaient pas à analyser les règles linguistiques comme le pouvaient les humains, l’un d’entre eux possédait une capacité impressionnante qui dépassait les attentes. Il était capable d’analyser le langage de la même manière qu’un étudiant diplômé en linguistique : en schématisant des phrases, en résolvant de multiples significations ambiguës et en utilisant des caractéristiques linguistiques complexes comme la répétition. Cette découverte, a déclaré Begus, « remet en question notre compréhension de ce que l’IA peut faire ».
Ce nouveau travail arrive à point nommé et est « très important », a-t-il déclaré. Tom McCoyest un linguiste informatique à l’Université de Yale qui n’a pas participé à la recherche. “À mesure que la société devient de plus en plus dépendante de cette technologie, il est de plus en plus important de comprendre où elle peut réussir et où elle peut échouer.” L’analyse linguistique, a-t-il ajouté, constitue le banc d’essai idéal pour évaluer dans quelle mesure ces modèles de langage peuvent raisonner comme les humains.
Une complexité infinie
L’un des défis liés à la soumission de modèles linguistiques à un test linguistique rigoureux est de s’assurer qu’ils ne connaissent pas déjà les réponses. Ces systèmes sont généralement formés sur de grandes quantités de données écrites – pas seulement la grande majorité d’Internet, dans des dizaines de langues, mais aussi des éléments tels que les manuels de linguistique. Les modèles peuvent, en théorie, simplement mémoriser et réorganiser les informations qui leur sont fournies lors de la formation.
Pour éviter cela, Begus et ses collègues ont développé un test linguistique en quatre parties. Dans trois des quatre parties, le modèle a été invité à analyser des phrases spécialement construites à l’aide d’arbres, introduits pour la première fois dans le livre historique de Chomsky de 1957, Structure syntaxique. Ces diagrammes divisent les phrases en phrases nominales et phrases verbales, puis les subdivisent en noms, verbes, adjectifs, adverbes, prépositions, conjonctions, etc.
Une partie du test se concentre sur la répétition, c’est-à-dire la capacité à intégrer des phrases dans des phrases. “Le ciel est bleu” est une simple phrase anglaise. “Jane a dit que le ciel était bleu” intègre la phrase originale dans une phrase légèrement plus complexe. Il est important de noter que ce processus de répétition peut durer indéfiniment : « Maria se demandait si Sam savait qu’Omar avait entendu dire que Jane avait dit que le ciel était bleu » est également une phrase répétitive grammaticalement correcte, bien que maladroite.






