À mesure que l’écosystème d’outils et de frameworks agentiques explose en taille, les nombreuses options permettant de créer des systèmes d’IA deviennent de plus en plus difficiles à naviguer, laissant les développeurs confus et paralysés lorsqu’ils choisissent les bons outils et modèles pour leurs applications.
UN Nouvelle rechercheDes chercheurs de plusieurs institutions présentent un cadre complet pour démêler ce réseau complexe. Ils classent les frameworks agentiques en fonction de leur objectif et de leurs domaines de compromis, fournissant ainsi aux développeurs un guide pratique pour choisir les bons outils et techniques pour leurs applications.
Pour les équipes d’entreprise, cela fait passer l’IA agentique d’un problème de sélection de modèle à une décision architecturale sur l’endroit où dépenser le budget de formation, le degré de modularité à préserver et les compromis qu’elles sont prêtes à faire entre coût, flexibilité et risque.
Orientation agent versus outil
Les chercheurs divisent le paysage en deux dimensions principales : Orientation des agents Et Orientation de l’outil.
L’adaptation des agents modifie le modèle fondamental qui sous-tend les systèmes agentiques. Cela se fait en mettant à jour les paramètres ou les politiques internes de l’agent via des méthodes telles que le réglage fin ou l’apprentissage par renforcement pour mieux s’aligner sur des tâches spécifiques.
L’orientation outil, en revanche, déplace l’attention vers l’environnement autour de l’agent. Au lieu de recycler des modèles de base volumineux et coûteux, les développeurs optimisent les outils externes tels que la récupération de recherche, les modules de mémoire ou les sous-agents. Dans cette technique, l’agent principal reste « figé » (inchangé). Cette approche permet au système d’évoluer sans l’énorme coût de calcul lié au recyclage du modèle d’origine.
L’étude les décompose en quatre stratégies distinctes :
A1 : Signal d’exécution de l’outil : Dans cette stratégie, l’agent apprend en faisant. Il est optimisé à l’aide de retours directement vérifiables issus de l’exécution d’un outil, comme un compilateur de code interagissant avec un script ou une recherche dans une base de données renvoyant des résultats. Il enseigne à l’agent les « mécanismes » permettant d’utiliser correctement un outil.
Un excellent exemple est DeepSeek-R1où le modèle a été formé par apprentissage par renforcement avec des récompenses vérifiables pour générer du code exécuté avec succès dans un bac à sable. Le signal de réponse est binaire et objectif (le code s’est-il exécuté ou est-il tombé en panne ?). Cette approche développe de solides compétences de bas niveau dans des domaines stables et vérifiables comme le codage ou SQL.
A2 : Signal de sortie de l’agent : Ici, l’agent est optimisé en fonction de la qualité de sa réponse finale, quel que soit le nombre d’étapes intermédiaires et d’appels d’outils. Il apprend à l’agent comment combiner différents outils pour prendre une décision correcte.
Un exemple est Recherche-R1Agent qui effectue une récupération en plusieurs étapes pour répondre aux requêtes. Le modèle ne reçoit une récompense que si la réponse finale est correcte, ce qui l’oblige implicitement à apprendre de meilleures stratégies de recherche et de raisonnement pour maximiser cette récompense. A2 est idéal pour l’orchestration au niveau du système, permettant aux agents de gérer des flux de travail complexes.
T1 : indépendant de l’agent : Dans cette section, les outils sont formés indépendamment sur de nombreuses données, puis « branchés » à un agent de congélation. Pensez à la récupération dense classique utilisée dans les systèmes RAG. Un modèle de récupération standard est formé sur des données de recherche génériques. Un LLM fortement gelé peut utiliser cette récupération pour rechercher des informations, bien que la récupération ne soit pas spécifiquement conçue pour ce LLM.
T2 : Agent supervisé : Cette technique implique un équipement de formation spécifiquement destiné à servir un agent de congélation. Les signaux de supervision proviennent des propres résultats de l’agent, créant une relation symbiotique dans laquelle l’outil apprend à fournir exactement ce dont l’agent a besoin.
Par exemple, le s3logique Entraîne un petit modèle de « chercheur » pour récupérer des documents. Ce petit modèle est attribué selon qu’un « logicien » figé (un grand LLM) peut répondre correctement aux questions à l’aide de ces documents. L’outil est efficacement adapté pour combler les lacunes spécifiques des connaissances de l’agent principal.
Les systèmes d’IA complexes peuvent utiliser une combinaison de ces paradigmes d’adaptation. Par exemple, un système de recherche approfondie pourrait utiliser des outils de récupération de style T1 (récupérateurs denses pré-entraînés), des agents de recherche adaptatifs de style T2 (formés via un feedback LLM gelé) et des agents de raisonnement de style A1 (affinés avec le feedback de la direction) dans un système minutieusement orchestré.
Coûts et compromis cachés
Pour les décideurs d’entreprise, le choix entre ces stratégies se résume souvent à trois facteurs : le coût, la généralisabilité et la modularité.
Coût vs flexibilité : L’adaptation de l’agent (A1/A2) offre une flexibilité maximale car vous réutilisez le cerveau de l’agent. Cependant, le coût est élevé. Par exemple, Search-R1 (un système A2) a nécessité 170 000 exemples de formation pour internaliser la capacité de recherche. Cela nécessite des calculs massifs et des ensembles de données spécialisés. D’un autre côté, les modèles peuvent être beaucoup plus efficaces en termes de temps d’estimation car ils sont beaucoup plus petits que les modèles généralistes.
En revanche, l’adaptation des outils (T1/T2) est bien plus efficace. Le système s3 (T2) a formé un chercheur léger en utilisant seulement 2 400 exemples (environ 70 fois moins de données que Search-R1) tout en obtenant des performances comparables. En optimisant les écosystèmes plutôt que les agents, les entreprises peuvent atteindre de meilleures performances à moindre coût. Cependant, cela s’accompagne d’un temps d’estimation des frais généraux, car s3 nécessite une coordination avec un modèle plus grand.
Généralisation: Les méthodes A1 et A2 risquent un « surajustement », lorsqu’un agent devient tellement spécialisé dans une tâche qu’il perd ses capacités générales. L’étude a révélé que même si Search-R1 excellait dans ses tâches de formation, il éprouvait des difficultés avec l’assurance qualité médicale spécialisée, atteignant une précision de seulement 71,8 %. Cela ne pose pas de problème lorsque votre agent est conçu pour effectuer un ensemble spécifique de tâches.
À l’inverse, le système s3 (T2), qui utilisait un agent réfrigérant à usage général assisté par un outil entraîné, a mieux généralisé, atteignant une précision de 76,6 % dans les mêmes tâches de traitement. L’agent gelé conserve sa vaste connaissance du monde, tandis que l’outil gère des mécanismes de récupération spécifiques. Cependant, les systèmes T1/T2 reposent sur la connaissance de l’agent de congélation et seront inutiles si le modèle sous-jacent ne peut pas gérer la tâche spécifique.
Modularité : Les techniques T1/T2 permettent le « hot-swapping ». Vous pouvez mettre à niveau un module de mémoire ou un détecteur sans toucher au moteur logique principal. Par exemple, souvenirs Optimise un module de mémoire pour récupérer les cas passés ; Si les exigences changent, vous mettez à jour le module, pas le planificateur.
Les systèmes A1 et A2 sont exclusifs. Enseigner à un agent une nouvelle compétence (telle que le codage) grâce à un réglage fin peut provoquer un « oubli catastrophique », dans lequel il perd une compétence précédemment acquise (telle que les mathématiques) car ses poids internes sont écrasés.
Un cadre stratégique pour l’adoption par les entreprises
Sur la base de l’étude, les développeurs devraient considérer ces techniques comme une échelle progressive, passant de solutions modulaires à faible risque à une personnalisation haut de gamme.
Commencez par T1 (outils indépendants des agents) : Équipez un modèle gelé et puissant (comme le Gemini ou le Claude) d’un équipement du commerce comme un restaurateur dense ou un Connecteur MCP. Il ne nécessite aucune formation et convient au prototypage et aux applications générales. C’est le fruit à portée de main qui peut vous mener loin dans la plupart des tâches.
Allez au T2 (équipement supervisé par un agent) : Si l’agent a du mal à utiliser des outils génériques, ne recyclez pas le modèle d’origine. Au lieu de cela, formez un petit sous-agent spécialisé (tel qu’un chercheur ou un gestionnaire de mémoire) pour filtrer et formater les données exactement comme le préfère l’agent principal. Il est très efficace en matière de données et convient aux données d’entreprise propriétaires et aux applications à volume élevé et sensibles aux coûts.
Utilisez A1 (Tool Execution Signaled) pour la spécialisation : Si l’agent échoue dans une tâche technique fondamentale (par exemple, écrire du code non fonctionnel ou effectuer des appels d’API incorrects), vous devez alors reconstruire sa compréhension des « mécanismes » de l’outil. A1 est idéal pour former des experts dans des domaines vérifiables tels que SQL ou Python ou dans les outils que vous possédez. Par exemple, vous pouvez optimiser un petit modèle pour votre ensemble d’outils spécifique, puis l’utiliser comme plugin T1 pour un modèle général.
Réserver A2 (signal de sortie d’agent) comme « alternative nucléaire » : Formez un agent monolithique de bout en bout uniquement si vous en avez besoin pour effectuer des manœuvres complexes et des transformations internes autocorrectives. Il nécessite beaucoup de ressources et est rarement nécessaire pour les applications d’entreprise standard. En réalité, vous avez rarement besoin de vous lancer seul dans une formation de modèle.
À mesure que le paysage de l’IA mûrit, l’accent passe de la construction d’un modèle géant et parfait à la construction d’un écosystème intelligent d’outils spécialisés autour d’un noyau stable. Pour la plupart des entreprises, la voie la plus efficace vers l’IA agentique n’est pas de construire un cerveau plus gros mais de lui donner de meilleurs outils.







