Les agents IA échouent à des tâches complexes dans 63 % des cas. Patronus AI affirme que ses nouveaux mondes de formation « vivants » peuvent résoudre ce problème.

Patronus IASoutenu par une startup d’évaluation de l’intelligence artificielle 20 millions de dollars de la part d’autres investisseurs Partenaires Lightspeed Venture Et Chien de donnéesL’entreprise a dévoilé mardi une nouvelle architecture de formation qui, selon elle, représente un changement fondamental dans la façon dont les agents d’IA apprennent à effectuer des tâches complexes.

technologie, que l’entreprise appelle “Simulateur génératif“, crée des environnements de simulation adaptatifs qui posent constamment de nouveaux défis, mettent à jour les règles de manière dynamique et évaluent les performances d’un agent au fur et à mesure de son apprentissage, le tout en temps réel. Cette approche marque une rupture avec les références statiques qui ont longtemps servi de norme de l’industrie pour mesurer les capacités de l’IA, mais qui se rapprochent de plus en plus des performances du monde réel.

« Les mesures traditionnelles mesurent des capacités discrètes, mais elles ne tiennent pas compte des goulots d’étranglement, des changements de contexte et de la prise de décision à plusieurs niveaux qui définissent le travail réel », a déclaré Anand Kannapan, PDG et co-fondateur de Patronus AI, dans une interview exclusive avec VentureBeat. « Pour que les agents puissent fonctionner à un niveau humain, ils doivent apprendre comme les humains, grâce à une expérience dynamique et un feedback continu. »

L’annonce intervient à un moment charnière pour l’industrie de l’IA. Les agents d’IA remodèlent le développement logiciel, de l’écriture de code au suivi d’instructions complexes. Pourtant, les agents basés sur LLM sont sujets aux erreurs et fonctionnent souvent mal sur des tâches complexes en plusieurs étapes. Une recherche publiée plus tôt cette année a révélé qu’un agent n’est qu’un seul Taux d’erreur de 1 % par étape La centième étape peut augmenter le risque d’échec jusqu’à 63 % – une statistique qui donne à réfléchir pour les entreprises qui cherchent à déployer des systèmes d’IA autonomes à grande échelle.

Pourquoi les benchmarks statiques de l’IA échouent – ​​et quelle est la prochaine étape ?

L’approche de Patronus AI répond à ce que l’entreprise décrit comme un écart croissant entre la manière dont les systèmes d’IA sont évalués et leurs performances réelles en production. Selon l’entreprise, les benchmarks traditionnels fonctionnent comme des tests standardisés : ils mesurent des capacités spécifiques à des moments précis mais ont du mal à capturer la nature compliquée et imprévisible du travail réel.

nouveau Simulateur génératif L’architecture renverse ce modèle. Au lieu de présenter aux agents un ensemble fixe de questions, le système génère à la volée des missions, des conditions environnementales et des processus de supervision, puis s’adapte en fonction du comportement de l’agent.

“Au cours de l’année écoulée, nous avons assisté à un abandon des références statiques traditionnelles au profit de domaines d’apprentissage plus interactifs”, a déclaré Rebecca Qian, directrice de la technologie et co-fondatrice de Patronus AI, à VentureBeat. “Cela est dû en partie à l’innovation que nous avons constatée de la part des développeurs de modèles : l’évolution vers l’apprentissage par renforcement, la post-formation et l’apprentissage continu, et l’abandon de l’ajustement pédagogique supervisé. Cela signifie qu’il y a eu un effondrement de la distinction entre formation et évaluation. Les points de référence sont devenus l’environnement.”

La technologie s’appuie sur l’apprentissage par renforcement, une méthode dans laquelle les systèmes d’IA apprennent par essais et erreurs, récompensés pour les actions correctes et punis pour les erreurs. L’apprentissage par renforcement est une méthode par laquelle les systèmes d’IA apprennent à prendre des décisions optimales en recevant des récompenses ou des pénalités pour leurs actions, en s’améliorant par essais et erreurs. RL peut aider à améliorer les agents, mais cela nécessite généralement que les développeurs réécrivent en profondeur leur code. Cela décourage l’adoption, même si les données générées par ces agents peuvent améliorer considérablement les performances avec la formation RL.

Patronus AI a également introduit un nouveau concept appelé «Ouvert à l’auto-amélioration itérative“, ou ORSI – des environnements dans lesquels les agents peuvent s’améliorer continuellement grâce à l’interaction et au feedback sans nécessiter un cycle de recyclage complet entre les tentatives. L’entreprise le positionne comme une infrastructure critique pour développer des systèmes d’IA capables d’apprendre continuellement plutôt que d’être gelés à un moment donné.

À l’intérieur de la « zone Boucle d’or » : comment la formation adaptative en IA trouve le point idéal

au coeur Simulateur génératif Patronus AI l’appelle un « ajusteur de programme » – un composant qui analyse le comportement des agents et modifie dynamiquement la difficulté et la nature des scénarios de formation. La méthode inspire la manière dont les enseignants humains efficaces adaptent leur enseignement en fonction des performances des élèves.

Qian explique la méthode en utilisant une analogie : « Vous pouvez la considérer comme un modèle enseignant-élève, dans lequel nous formons le modèle et le professeur adapte constamment le programme. »

Cette approche adaptative résout un problème que Kannappan décrit comme la recherche de la « zone Boucle d’or » dans les données d’entraînement, garantissant que les exemples ne sont ni trop faciles ni trop difficiles à apprendre efficacement pour un modèle donné.

“Ce qui compte, ce n’est pas seulement de savoir si vous pouvez vous entraîner sur un ensemble de données, mais aussi de savoir si vous pouvez vous entraîner sur un ensemble de données de haute qualité qui correspond à votre modèle – c’est de cela que l’on apprend réellement”, a déclaré Kannapan. “Nous voulons nous assurer que les exemples ne sont ni trop difficiles ni trop faciles à modéliser.”

La société a déclaré que les résultats préliminaires montrent des améliorations significatives des performances des agents. La formation dans l’environnement de Patronus AI a augmenté les taux d’achèvement des tâches de 10 à 20 % dans des tâches réelles, notamment l’ingénierie logicielle, le service client et l’analyse financière, selon l’entreprise.

Le problème de triche de l’IA : comment les environnements « cibles mobiles » récompensent le piratage

L’un des défis les plus persistants dans la formation des agents d’IA grâce à l’apprentissage par renforcement est un phénomène qui, selon les chercheurs, «Piratage de récompense« – où les systèmes apprennent à exploiter les erreurs de leur environnement de formation au lieu de réellement résoudre les problèmes. Des exemples célèbres incluent les premiers agents qui ont appris à se cacher dans les coins au lieu de jouer à des jeux vidéo.

Les simulateurs génératifs résolvent ce problème en faisant de l’environnement de formation lui-même une cible mouvante.

“Le piratage de récompenses est fondamentalement un problème lorsque les systèmes sont statiques. C’est comme si les étudiants apprenaient à tricher aux examens”, a déclaré Qian. “Mais lorsque nos environnements évoluent constamment, nous pouvons réellement voir des parties du système qui doivent s’adapter et évoluer. Les références statiques sont des objectifs fixes ; les environnements de simulation génératifs sont des objectifs mouvants.”

Patronus a annoncé une croissance de son chiffre d’affaires multipliée par 15 en raison de la demande accrue des entreprises en matière de formation d’agents IA.

Patronus AI positionne les simulateurs génératifs comme base d’une nouvelle gamme de produits appelée «Environnements RL” – des laboratoires modèles de base pour des domaines spécifiques et des bases de formation conçues pour les agents de création d’entreprises. La société affirme que cette offre représente une expansion stratégique au-delà de son orientation initiale sur les outils d’évaluation.

“Nous avons multiplié par 15 nos revenus cette année, en grande partie grâce à l’amélioration de notre environnement de qualité, qui s’est révélé hautement apprenable grâce à une variété de modèles pionniers”, a déclaré Kannapan.

Le PDG a refusé de citer des chiffres de chiffre d’affaires absolus, mais a déclaré que le nouveau produit permettait à l’entreprise de “passer au sommet de la hiérarchie en termes d’endroits où nous vendons et à qui nous vendons”. La plate-forme de la société est utilisée par de nombreuses entreprises Fortune 500 et par les principales sociétés d’IA du monde entier.

Pourquoi OpenAI, Anthropic et Google ne peuvent-ils pas tout construire en interne ?

Une question centrale se pose Patronus IA Pourquoi les laboratoires aux poches profondes développent des modèles pionniers, comme les organisations OpenAI, anthropologiqueEt Google DeepMind – Accordera des licences plutôt que de construire lui-même une infrastructure de formation.

Kannapan a reconnu que ces entreprises « investissent de manière significative dans l’environnement », mais a fait valoir que l’étendue des domaines nécessitant une formation spécialisée crée une ouverture naturelle pour les fournisseurs tiers.

« Ils souhaitent améliorer les agents dans de nombreux domaines différents, qu’il s’agisse du codage, de l’utilisation d’outils, de la navigation dans des navigateurs ou des flux de travail dans les domaines de la finance, de la santé, de l’énergie et de l’éducation », a-t-il déclaré. “Il est très difficile pour une seule entreprise de résoudre tous ces différents problèmes opérationnels.”

Le paysage concurrentiel s’intensifie. Microsoft a récemment publié Agent FoudreUn framework open source qui effectue un apprentissage par renforcement pour n’importe quel agent d’IA sans réécriture. NVIDIA gymnase némo Agentic propose une infrastructure RL modulaire pour développer des systèmes d’IA. Les méta-chercheurs ont publié DreamGym en novembre, un framework qui simule les environnements RL et ajuste dynamiquement la difficulté des tâches à mesure que les agents s’améliorent.

« L’environnement est le nouveau pétrole » : le pari audacieux de Patronus AI sur l’avenir de la formation en IA

Pour l’avenir, le Patronus AI définit sa mission en termes clairs. L’entreprise souhaite « servir toutes les données du monde » en transformant les flux de travail humains en systèmes structurés capables d’apprendre de l’IA.

“Nous pensons que tout devrait être une question d’environnement. En interne, nous plaisantons en disant que l’environnement est le nouveau pétrole”, déclare Kannapan. “L’apprentissage par renforcement n’est qu’une méthode de formation, mais la construction d’un environnement est vraiment importante.”

Qian a décrit l’opportunité en termes généraux : « Il s’agit d’un domaine de recherche complètement nouveau, qui ne se produit pas tous les jours. La simulation générative s’inspire des premières recherches en robotique et en agents incarnés. C’était une chimère depuis des décennies, et nous ne sommes en mesure de réaliser ces idées que maintenant grâce à la puissance des modèles actuels.

La société a été lancée en septembre 2023 en mettant l’accent sur l’évaluation – aidant les entreprises à détecter les hallucinations et les problèmes de sécurité dans les résultats de l’IA. Cette mission s’étend désormais à la formation. Patronus AI affirme que la séparation traditionnelle entre l’évaluation et la formation est en train de s’effondrer – et que quiconque contrôle l’environnement dans lequel les agents d’IA apprennent façonnera leurs capacités.

“Nous sommes vraiment à ce moment critique, à ce point critique, où ce que nous faisons maintenant affectera l’apparence du monde pour les générations à venir.”

si Simulateur génératif Reste à savoir s’il pourra tenir cette promesse. La croissance des revenus de l’entreprise par 15 suggère que les entreprises clientes sont avides de solutions, mais que les acteurs aux poches profondes le sont. Microsoft depuis méta Courir pour résoudre le même problème de base. Si les deux dernières années ont appris quelque chose à l’industrie, c’est bien qu’en matière d’IA, l’avenir a tendance à arriver plus tôt que prévu.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici