UN nouveau papier Dans un Large Language Model (LLM) qui étudie l’utilisation des outils par les agents, des chercheurs de Google et de l’UC Santa Barbara ont développé un cadre qui permet aux agents d’utiliser les outils plus efficacement et de calculer des budgets. Les chercheurs ont introduit deux nouvelles techniques : un simple « suivi du budget » et un cadre plus complet appelé « mise à l’échelle du temps de test en fonction du budget ». Ces stratégies rendent les agents implicitement conscients de leur logique résiduelle et de leurs marges d’utilisation des outils.
Alors que les agents d’IA s’appuient sur des appels d’outils pour effectuer des tâches dans le monde réel, la mise à l’échelle du temps de test concerne moins les modèles intelligents que le contrôle des coûts et de la latence.
Pour les dirigeants d’entreprise et les développeurs, les stratégies de mise à l’échelle soucieuses du budget constituent un moyen pratique de déployer des agents d’IA efficaces sans encourir de coûts inattendus ni perdre de revenus liés aux coûts de calcul.
Défis liés à l’utilisation d’outils de mise à l’échelle
traditionnel Mise à l’échelle pendant les tests L’objectif est de faire « penser » davantage les modèles. Cependant, pour les tâches agents telles que la navigation Web, le nombre d’appels à l’outil détermine directement la profondeur et l’étendue de l’exploration.
Cela entraîne des frais opérationnels importants pour l’entreprise. “Les appels d’outils tels que la navigation sur des pages Web consomment plus de jetons, augmentent la longueur du contexte et entraînent des retards supplémentaires”, ont déclaré à VentureBeat les co-auteurs de l’article, Jifeng Wang et Tengjiao Liu. “L’appel de l’outil lui-même introduit des coûts d’API supplémentaires.”
Les chercheurs ont découvert que fournir aux agents davantage de temps de test ne garantit pas de meilleures performances. “Dans une tâche de recherche approfondie, si l’agent n’a aucune idée du budget, il est souvent aveugle”, ont expliqué Wang et Liu. “Il trouve une piste quelque peu connexe, puis passe 10 ou 20 appels d’outils à la creuser, pour se rendre compte que tout le chemin était une impasse.”
Optimiser les ressources avec le suivi du budget
Pour évaluer comment optimiser les budgets d’utilisation des outils, les chercheurs ont d’abord essayé une approche légère appelée « suivi budgétaire ». Ce module agit comme un plug-in qui fournit un signal continu de disponibilité des ressources à l’agent, permettant ainsi une utilisation de l’outil respectueuse du budget.
L’équipe a émis l’hypothèse que « fournir des signaux budgétaires clairs permet au modèle d’internaliser les contraintes de ressources et d’adapter sa stratégie sans avoir besoin de formation supplémentaire ».
Budget Tracker fonctionne entièrement au niveau de l’invite, ce qui le rend facile à mettre en œuvre. (Le document fournit tous les détails sur les invites utilisées pour le suivi du budget, ce qui facilite sa mise en œuvre.)
Dans la mise en œuvre de Google, Tracker fournit un bref guide politique qui décrit les règles budgétaires et les recommandations associées pour l’utilisation des outils. À chaque étape du processus de feedback, le suivi du budget informe clairement l’agent de son utilisation des ressources et du budget restant, lui permettant de conditionner les étapes logiques suivantes sur l’état des ressources mis à jour.
Pour tester cela, les chercheurs ont expérimenté deux paradigmes : la mise à l’échelle séquentielle, dans laquelle le modèle affine ses résultats de manière itérative, et la mise à l’échelle parallèle, dans laquelle plusieurs exécutions indépendantes sont effectuées et combinées. Ils ont mené des expérimentations sur des agents de recherche équipés d’outils de recherche et de navigation suivant une boucle de style ReAct. ReAct (Reasoning + Acting) est une méthode populaire dans laquelle le modèle alterne entre réflexion interne et action externe. Pour tracer une véritable tendance d’évolution coût-performance, ils ont développé une mesure de coût unifiée qui prend en compte conjointement le coût de la consommation interne des jetons et des interactions avec les outils externes.
Ils ont testé Budget Tracker sur trois ensembles de données d’assurance qualité de recherche d’informations nécessaires aux recherches externes, notamment BrowseComp et HLE-Search, en utilisant des modèles tels que Gémeaux 2.5 ProGemini 2.5 Flash, et Claude Sonnet4. Les tests montrent que ce simple plug-in améliore les performances malgré diverses contraintes budgétaires.
“L’ajout de Budget Tracker a permis d’obtenir une précision comparable en utilisant 40,4 % d’appels de recherche en moins, 19,9 % d’appels de navigation en moins et une réduction des coûts globaux de… 31,3 %”, ont déclaré les auteurs à VentureBeat. Enfin, le suivi du budget a tendance à évoluer à mesure que le budget augmente, tandis que Plain React se stabilise après un certain seuil.
BATS : un cadre complet pour une mise à l’échelle soucieuse du budget
Pour améliorer encore l’optimisation des ressources utilisées dans l’utilisation des outils, les chercheurs ont introduit la mise à l’échelle du temps de test (BATS) en fonction du budget, un cadre conçu pour maximiser les performances des agents quel que soit le budget donné. BATS maintient un signal continu des ressources restantes et utilise ces informations pour adapter dynamiquement le comportement de l’agent au fur et à mesure qu’il génère ses réponses.
BATS utilise plusieurs modules pour orchestrer les opérations des agents. Un module de planification ajuste les efforts étape par étape pour correspondre au budget actuel, tandis qu’un module de validation décide s’il faut « approfondir » une piste prometteuse ou « pivoter » vers une voie alternative en fonction de la disponibilité des ressources.
Compte tenu d’une requête de recherche d’informations et d’un budget d’appel d’outils, BATS commence par utiliser le module de planification pour formuler un plan d’action structuré et décider quels outils utiliser. Lorsque les outils sont invoqués, leurs réponses sont ajoutées à la séquence d’arguments pour fournir un contexte avec de nouvelles preuves. Lorsque l’agent propose une réponse candidate, le module de validation la vérifie et décide de continuer la séquence en cours ou de lancer une nouvelle tentative avec le budget restant.
Le processus itératif se termine lorsque les ressources budgétisées sont épuisées, moment auquel un LLM en tant que juge sélectionne la meilleure réponse parmi toutes les réponses validées. Pendant l’exécution complète, le suivi du budget met continuellement à jour l’utilisation des ressources et le budget restant à chaque itération.
Les chercheurs ont testé BATS par rapport aux références avec ReAct standard et divers agents basés sur la formation sur les benchmarks BrowseComp, BrowseComp-ZH et HLE-Search. Leurs tests montrent que BATS utilise moins d’appels d’outils et atteint des performances plus élevées tout en engendrant des coûts globaux inférieurs à ceux des méthodes concurrentes. En utilisant Gemini 2.5 Pro comme épine dorsale, BATS a atteint une précision de 24,6 % sur BrowseComp, contre 12,6 % pour ReAct standard et une précision de 27,0 % sur HLE-Search, contre 20,5 % pour ReAct.
BATS améliore non seulement les performances dans le cadre des contraintes budgétaires, mais offre également de meilleurs compromis coût-performance. Par exemple, sur l’ensemble de données BrowseComp, BATS a atteint une plus grande précision pour un coût d’environ 23 cents par rapport à une ligne de base de mise à l’échelle parallèle qui nécessitait plus de 50 cents pour obtenir des résultats similaires.
Selon les auteurs, cette efficacité rend efficaces des flux de travail auparavant coûteux. “Il débloque une gamme d’applications d’entreprise à long terme et gourmandes en données… telles que la maintenance de bases de code complexes, les enquêtes de diligence raisonnable, la recherche sur le paysage concurrentiel, les audits de conformité et l’analyse de documents en plusieurs étapes”, déclarent-ils.
Alors que les entreprises cherchent à déployer des agents qui gèrent leurs propres ressources, la capacité à équilibrer précision et coût deviendra une exigence de conception essentielle.
“Nous pensons que la relation entre la logique et l’économie deviendra indissociable”, ont déclaré Wang et Liu. “A l’avenir, (les modèles) devront raisonner sur les valeurs.”







