Une nouvelle façon d’augmenter la puissance des grands modèles de langage MIT News

La plupart des langues utilisent la position des mots et la structure des phrases pour en tirer le sens. Par exemple, « Le chat était assis sur la boîte » n’est pas la même chose que « La boîte était sur le chat ». Au fil d’un texte plus long, comme un document financier ou un roman, la syntaxe de ces mots est susceptible d’évoluer.

De même, une personne suit des variables dans un morceau de code ou suit des instructions contenant des actions conditionnelles. Ce sont des exemples de transitions d’état et de logique séquentielle qui, nous l’espérons, amélioreront les systèmes d’intelligence artificielle de pointe ; Cependant, le système d’attention de pointe existant dans les transformateurs (principalement des architectures utilisées dans les grands modèles de langage (LLM) pour déterminer l’importance des mots) présente des limites théoriques et empiriques à ces capacités.

Un processus d’attention permet à un LLM de revenir sur les parties antérieures d’une question ou d’un document et, sur la base de sa formation, de déterminer quels détails et quels mots sont les plus importants ; Cependant, ce processus ne peut à lui seul comprendre les séquences de mots. Il « voit » tous les mots saisis, c’est-à-dire les jetons, en même temps et les traite dans l’ordre dans lequel ils sont présentés. Les chercheurs ont donc développé des techniques pour coder les informations de localisation. Ceci est important pour les domaines hautement structurés comme la langue. Mais la principale méthode de codage de position, appelée codage de position rotative (RoPE), ne prend en compte que la distance relative entre les jetons d’une séquence et est indépendante des données d’entrée. Cela signifie que, par exemple, les mots espacés de quatre positions, comme « chat » et « boîte » dans l’exemple ci-dessus, recevront la même rotation arithmétique fixe spécifique à cette distance relative.

Aujourd’hui, des recherches menées par le MIT et le MIT-IBM Watson AI Lab ont développé une technique de codage appelée « attention au chemin » qui rend les informations de position adaptatives et contextuelles, plutôt que statiques, comme RoPE.

“Les transformateurs permettent une modélisation précise et évolutive de nombreux domaines, mais ils présentent ces limites par rapport au suivi d’état, une classe de phénomènes censés représenter des capacités importantes que nous souhaitons dans nos systèmes d’IA. La question cruciale est donc la suivante : comment pouvons-nous maintenir l’évolutivité et l’efficacité des transformateurs tout en permettant le suivi d’état ?” a déclaré l’auteur principal de l’article, Yoon Kim, professeur agrégé au Département de génie électrique et d’informatique (EECS), membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et chercheur au laboratoire d’IA Watson du MIT-IBM.

Un nouvel article sur ces travaux a été présenté plus tôt ce mois-ci lors de la conférence Neural Information Processing Systems (NeuriIPS). Les co-auteurs de Kim incluent l’auteur principal Songlin Yang, étudiant diplômé de l’EECS et ancien stagiaire du programme d’été du MIT-IBM Watson AI Lab ; Kaiyu Wen de l’Université de Stanford ; Liliang Ren de Microsoft ; et Yikang Shen, Sean Tan, Mayank Mishra et Rameshwar Panda d’IBM Research et du MIT-IBM Watson AI Lab.

façon de comprendre

Au lieu d’attribuer une rotation spécifique à chaque mot en fonction de la distance relative entre les jetons, comme le fait RoPE, PaTH considère les mots intermédiaires comme un chemin composé de transformations flexibles, courtes et dépendantes des données. Chaque transition, basée sur une opération mathématique appelée Householder Reflection, agit comme un petit miroir qui s’ajuste en fonction du contenu de chaque jeton qu’il traverse. Chaque étape d’une séquence peut affecter la manière dont le modèle interprète les données ultérieures. Le système d’effets cumulatifs modélise la façon dont le sens change tout au long du chemin entre les mots, et non seulement jusqu’où. Cette approche permet aux Transformers de suivre la façon dont les entités et les relations changent au fil du temps, offrant ainsi une sensation de « mémoire positionnelle ». Pensez-y comme si vous parcouriez un chemin tout en découvrant votre environnement et comment il vous affecte. En outre, l’équipe a développé un algorithme matériel efficace pour calculer plus efficacement les scores d’attention entre chaque paire de jetons afin que la transformation mathématique incrémentielle de PaTH Attention soit compressée et décomposée en calculs plus petits afin qu’elle soit compatible avec un traitement plus rapide sur les GPU.

Les chercheurs du MIT-IBM ont ensuite exploré les performances de PaTH Attention sur des tâches synthétiques et réelles, notamment le raisonnement, les tests de contexte long et la formation LLM complète, pour voir si la capacité du modèle à suivre les informations s’est améliorée au fil du temps. L’équipe a testé la capacité à suivre des commandes « écrites » récentes malgré de nombreuses étapes distrayantes et des tâches difficiles pour les méthodes de codage de position standard telles que le test de rappel en plusieurs étapes, RoPE. Les chercheurs ont formé des LLM de taille moyenne et les ont comparés à d’autres méthodes. PaTH a amélioré le biais attentionnel et a surpassé les autres méthodes sur des critères de raisonnement sur lesquels il n’avait pas été formé. Ils ont évalué la récupération, la logique et la stabilité avec des entrées de milliers de jetons. Il a toujours été prouvé que l’attention PaTH permettait la sensibilisation au contenu.

“Nous avons constaté que tant dans les tâches de diagnostic visant à tester les limitations des transformateurs que dans les tâches de modélisation de langage du monde réel, notre nouvelle approche était capable de surpasser les processus d’attention existants tout en maintenant leur efficacité”, a déclaré Kim. De plus, “je serais ravi de voir si de tels codages de position dépendants des données, comme PATH, améliorent les performances des transformateurs dans les domaines structurels de la biologie (analyse) des protéines ou de l’ADN.”

Pensez plus grand et plus efficacement

Les chercheurs ont ensuite étudié comment le processus d’attention PaTH fonctionnerait s’il imitait de la même manière la cognition humaine, où nous ignorons les informations anciennes ou moins pertinentes lors de la prise de décisions. Pour ce faire, ils ont combiné l’attention du chemin avec un autre système de codage de localisation connu sous le nom de transformateurs d’oubli (FOX), qui permettent aux modèles d’« oublier » de manière sélective. Le système PaTH-FoX qui en résulte ajoute une pondération des informations en fonction des données, obtenant ainsi des résultats robustes en matière de raisonnement, de compréhension de contextes longs et de références de modélisation du langage. Ainsi, PaTH étend la puissance expressive de l’architecture du transformateur d’attention.

Kim a déclaré que de telles recherches font partie d’un effort plus large visant à développer la « prochaine grande nouveauté » en matière d’IA. Il explique que l’un des principaux moteurs des révolutions de l’apprentissage profond et de l’IA générative sont « des éléments de base à usage général qui peuvent être appliqués à de vastes domaines », tels que « les couches de convolution, les couches RNN (réseau neuronal récurrent) » et, plus récemment, les transformateurs. Pour l’avenir, Kim note que des considérations telles que la précision, l’expressivité, la flexibilité et l’évolutivité du matériel étaient et seront essentielles. Comme il le dit : « L’objectif principal de la recherche architecturale moderne est d’essayer de proposer de nouvelles primitives qui maintiennent ou améliorent l’expressivité, tout en étant évolutives. »

Ce travail a été soutenu en partie par le MIT-IBM Watson AI Lab et le programme AI2050 de Schmidt Sciences.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici