Ces chercheurs Google Cloud Et UCLA proposé un nouveau cadre d’apprentissage par renforcement qui améliore considérablement la capacité des modèles de langage à apprendre des tâches de raisonnement en plusieurs étapes très difficiles. Apprentissage par renforcement supervisé (SRL) recadre la résolution de problèmes comme une séquence d’« actions » logiques, fournissant de riches indices d’apprentissage pendant le processus de formation.

Cette approche permet aux petits modèles d’apprendre des problèmes complexes qui étaient auparavant hors de portée d’autres techniques de formation simples. Les expériences montrent que le SRL se généralise efficacement non seulement aux tests de raisonnement mathématique, mais également aux tâches d’ingénierie logicielle agentique.

Le SRL est un cadre de formation polyvalent qui permet de mettre à niveau des modèles petits et moins coûteux vers des capacités de raisonnement plus élevées.

Limites actuelles de la formation au raisonnement LLM

Les progrès récents dans la formation de grands modèles de langage (LLM) pour le raisonnement ont été largement motivés par l’apprentissage par renforcement avec récompense vérifiable (RLVR), une méthode dans laquelle un modèle est récompensé en fonction de l’exactitude de sa réponse finale. En essayant à plusieurs reprises de résoudre le problème et en recevant des commentaires sur le résultat final, le modèle apprend progressivement des stratégies efficaces de résolution de problèmes.

Cependant, le succès de cette approche basée sur les résultats dépend de la capacité du modèle à découvrir une solution précise en un nombre limité de tentatives ou de « déploiements ». Chaque déploiement étant coûteux en termes de calcul, les modèles ne peuvent pas être essayés indéfiniment. Cette approche se heurte à un mur lorsque les problèmes sont si difficiles que le modèle trouve rarement, voire jamais, la bonne réponse dans les limites de son budget.

Cela crée un obstacle critique à l’apprentissage. Dans de nombreux problèmes de raisonnement en plusieurs étapes, un modèle peut résoudre correctement plusieurs étapes mais déraille à cause d’une erreur, ce qui entraîne une réponse incorrecte. Avec RLVR, cet effort complet obtient une récompense négative et le modèle n’apprend rien de son travail partiellement correct. Il s’agit d’une approche tout ou rien qui ne parvient pas à fournir un feedback granulaire et qui rapporte de rares récompenses.

Une approche alternative est le réglage fin supervisé (SFT), dans lequel le modèle apprend à partir d’exemples contenant des processus de raisonnement complets définis par des experts. Bien que SFT puisse développer des capacités de raisonnement, cela conduit souvent à un surajustement (le modèle apprend à simuler des trajectoires dans les données d’entraînement au lieu d’apprendre à généraliser aux problèmes au-delà des exemples qu’il a vus). Ce problème est exacerbé par le fait que la génération de données de formation de haute qualité générées par l’homme est rare et coûteuse.

Comme le note le document, ces limitations « laissent un vide critique pour la formation de petits modèles open source afin d’apprendre efficacement des problèmes difficiles ».

Comment fonctionne l’apprentissage par renforcement supervisé

SRL introduit un cadre qui recadre la résolution de problèmes comme un « processus de prise de décision séquentiel », équilibrant entre une RL pure basée sur les résultats et un pur apprentissage par imitation. Au lieu d’optimiser uniquement pour la réponse finale ou de forcer le modèle à simuler l’intégralité du processus de réflexion d’un expert, le SRL apprend au modèle à reproduire une séquence d’actions clés qui constituent l’épine dorsale du raisonnement de l’expert. Cela permet au modèle d’apprendre à agir comme un expert tout en développant son propre style de raisonnement interne.

Dans le cadre du SRL, les performances des experts se décomposent en une série d’actions intermédiaires spécifiques, chacune représentant une étape significative. Pour un problème mathématique, une opération peut être une manipulation algébrique. Pour un agent de génie logiciel, il peut s’agir d’une commande exécutée dans un référentiel de code. Pour générer des données de formation, SRL utilise un modèle d’enseignant robuste pour générer des trajectoires de solution, qui sont ensuite utilisées pour former un modèle plus petit.

Selon I-Hung Hsu, chercheur chez Google et co-auteur de l’article, cette approche intermédiaire est la clé de son efficacité dans des situations réelles. “SRL se situe au milieu : il capture la flexibilité structurelle de la résolution de problèmes du monde réel, où il existe plusieurs stratégies valides mais aussi une compréhension claire de ce à quoi ressemble un ‘bon raisonnement’ à chaque étape”, a déclaré Hsu à VentureBeat. “Cela rend le SRL bien adapté à des domaines tels que l’automatisation de la science des données ou peut-être l’optimisation de la chaîne d’approvisionnement, des tâches qui récompensent un raisonnement intermédiaire plutôt que de simples réponses finales.”

Lors de l’entraînement, le modèle génère d’abord un « monologue interne » (son processus de raisonnement interne, lié à tag) avant une action. A chaque étape, le SRL fournit une récompense basée sur la correspondance entre l’action prédite du modèle et l’action de l’expert. Ce système de récompense par étapes fournit un feedback dense et précis, permettant au modèle d’apprendre et de s’améliorer, même si la solution globale n’est pas parfaite. Cela résout le rare problème de récompense du RLVR.

La SRL en action

Les tests des chercheurs montrent que le SRL surpasse considérablement les lignes de base robustes, tant sur le plan du raisonnement mathématique que sur celui du génie logiciel agent. Ils notent également que le SRL encourage des schémas de raisonnement plus flexibles et plus sophistiqués dans les modèles, tels que la planification entrelacée et l’auto-vérification, qui améliorent la qualité des solutions sans simplement allonger les résultats.

Pour les dirigeants d’entreprise, les gains de performances ne sont utiles que s’ils ne s’accompagnent pas de coûts incontrôlables. Hsu précise que les modèles formés au SRL sont plus efficaces dans leur raisonnement. “Les gains viennent de la qualité et de la structure des bons arguments, et non de la formulation”, a-t-il déclaré. “En termes d’efficacité, les modèles formés par le SRL sont à peu près équivalents au modèle de base en termes d’utilisation des jetons… Bien que le SRL ne soit pas conçu pour minimiser le coût d’estimation, il atteint des performances de raisonnement robustes sans l’augmenter.”

Pour les épreuves de mathématiques, les équipes sont peaufinées Instructions Qwen2.5-7B Sur un ensemble de données de 1 000 questions mathématiques difficiles. Ils ont comparé ses performances avec des modèles entraînés avec SFT et RLVR (c’est-à-dire des modèles utilisant l’algorithme général GRPO). DeepSeek-R1) sur quatre normes mathématiques de niveau compétition. Le modèle formé par le SRL a obtenu une augmentation moyenne substantielle des performances de 3,0 % par rapport aux autres méthodes.

L’équipe a étendu le SRL au génie logiciel agent, un domaine essentiel à l’automatisation d’entreprise. Ils ont formé un modèle spécifique au codage, Qwen2.5-coder-7B-instructions5 000 trajectoires expertes d’agents interagissant avec un environnement de codage. Le modèle formé par le SRL a été comparé au modèle de base d’origine et au SWE-Gym-7B, une base de référence robuste affinée avec SFT. SRL a atteint un taux de résolution de tâches de 14,8 %, ce qui représente une amélioration relative de 74 % par rapport au modèle basé sur SFT. Cela démontre la capacité du SRL à former des agents d’IA plus efficaces pour des tâches de programmation complexes et réelles.

Un nouveau standard pour une IA à enjeux élevés ?

Les résultats les plus marquants de l’article proviennent d’une approche combinée : d’abord, utiliser le SRL pour enseigner le raisonnement fondamental, puis utiliser le RLVR pour affiner cette compétence. Dans leur expérience, lorsque les chercheurs ont utilisé le SRL comme pré-formation et appliqué le RLVR après la formation, ils ont observé une augmentation moyenne de 3,7 %, démontrant une puissante stratégie d’apprentissage du programme.

Cela soulève la question de savoir s’il pourrait s’agir d’un nouveau modèle pour construire une IA spécialisée.

“Nous considérons le SRL comme une base solide”, a déclaré Hsu. “Dans un sens, le SRL propose un programme – enseignant au modèle à penser et à agir étape par étape – avant d’affiner ces comportements grâce à un apprentissage par renforcement basé sur les résultats. Cette approche axée sur le SRL non seulement stabilise les étapes ultérieures du RL, mais rend également le raisonnement plus interprétable et généralisable, ce qui est important pour les applications à enjeux élevés. “

Pour l’avenir, Hsu reconnaît que la mise à l’échelle de ce pipeline reste confrontée à des défis, en particulier le coût élevé et la complexité du RLVR de bout en bout pour les tâches agentiques. Mais il est optimiste quant à la voie à suivre. “Bien que les trajectoires d’experts de haute qualité restent importantes”, a-t-il conclu, “nous pensons que le prochain grand pas viendra de l’automatisation de leur génération et de leur filtrage, en utilisant des modèles d’enseignants robustes ou même des modèles d’étudiants auto-développés pour amorcer de nouvelles données.”

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici