Avec une précision de 91 %, la mémoire agentique rétrospective open source fournit une vision 20/20 aux agents IA confrontés à des échecs RAG.

Il est devenu de plus en plus clair en 2025 que la génération augmentée par récupération (RAG) n’est pas suffisante pour répondre aux besoins croissants en données de l’IA agentique.

RAG est apparu au cours des dernières années pour devenir la méthode par défaut pour relier les LLM aux connaissances externes. Le modèle est simple : regroupez les documents, intégrez-les dans des vecteurs, stockez-les dans une base de données et récupérez les passages les plus similaires lorsque la requête est posée. Cela fonctionne correctement pour les requêtes ponctuelles sur des documents statiques. Mais l’architecture s’effondre lorsque les agents d’IA doivent travailler sur plusieurs sessions, maintenir le contexte au fil du temps ou distinguer ce qu’ils observent de ce qu’ils croient.

Une nouvelle architecture de mémoire open source appelée Hindsight relève ce défi en organisant la mémoire des agents IA en quatre réseaux distincts qui séparent les informations mondiales, l’expérience de l’agent, l’essence de l’entité synthétisée et les croyances évoluées. système développé par Vectoriser.io En collaboration avec Virginia Tech et le Washington Post, LongMemeval a atteint une précision de 91,4 % dans les tests de référence, surpassant ainsi les systèmes de mémoire existants.

“RAG est sous assistance respiratoire et Agent Memory va le tuer complètement”, a déclaré Chris Latimer, co-fondateur et PDG. Vectoriser.ioa déclaré VentureBeat dans une interview exclusive. “La plupart des infrastructures RAG existantes que les gens ont mises en place ne fonctionnent pas au niveau souhaité.”

Pourquoi RAG ne peut-il pas gérer la mémoire des agents à long terme ?

RAG a été développé à l’origine comme une méthode permettant aux LLM d’accéder à des informations en dehors de leurs données de formation sans recycler le modèle.

Le principal problème est que RAG traite toutes les données récupérées de la même manière. Un événement observé il y a six mois reçoit le même traitement qu’une opinion formée hier. Les faits qui contredisent les déclarations précédentes ne comportent aucun mécanisme permettant de correspondre aux affirmations initiales. Il n’existe aucun moyen de représenter l’incertitude dans le système, de suivre l’évolution des croyances ou de comprendre pourquoi ils sont parvenus à une conclusion particulière.

Le problème devient aigu dans les conversations multi-sessions. Lorsqu’un agent doit rappeler des détails provenant de dizaines de milliers de jetons répartis sur des dizaines de sessions, les systèmes RAG inondent la fenêtre contextuelle d’informations non pertinentes ou manquent complètement de détails. La similarité des vecteurs ne peut à elle seule déterminer ce qui est important pour une question donnée lorsque cette question nécessite une compréhension des relations temporelles, des chaînes causales ou du contexte spécifique à une entité accumulé au fil des semaines.

“Si vous avez une approche universelle de la mémoire, soit vous transportez trop de contexte que vous ne devriez pas transporter, soit vous transportez trop peu de contexte”, a déclaré à VentureBeat Naren Ramakrishnan, professeur d’informatique à Virginia Tech et directeur du Sangani Center for AI and Data Analytics.

Passer de RAG à la mémoire agentique avec le recul

Le passage de RAG à la mémoire d’agent représente un changement architectural fondamental.

Plutôt que de traiter la mémoire comme une couche de récupération externe qui dépose des morceaux de texte dans des invites, le recul intègre la mémoire comme une couche structurée de premier ordre pour le raisonnement.

L’innovation clé de Hindsight est la division des connaissances en quatre réseaux logiques. Le World Wide Web stocke des informations objectives sur l’environnement externe. Bank Network capture les propres expériences et actions de l’agent, écrites à la première personne. Les réseaux d’opinion maintiennent des jugements subjectifs avec des scores de confiance qui s’actualisent à mesure que de nouvelles preuves arrivent. Les réseaux d’observation contiennent des résumés a priori neutres d’entités synthétisées à partir d’informations sous-jacentes.

Cette séparation est ce que les chercheurs appellent la « clarté épistémique » en séparant structurellement les preuves des hypothèses. Lorsqu’un agent se forme une opinion, cette croyance est stockée séparément des informations à l’appui avec un score de confiance. À mesure que de nouvelles informations arrivent, le système peut renforcer ou affaiblir les opinions existantes, plutôt que de traiter toutes les informations stockées comme étant également certaines.

L’architecture se compose de deux éléments qui imitent le fonctionnement de la mémoire humaine.

TEMPR (Temporal Entity Memory Priming Retrieval) gère la rétention et le rappel de la mémoire en exécutant quatre recherches parallèles : correspondance de vecteurs sémantiques, correspondance de mots clés via BM25, parcours de graphiques via des entités partagées et filtrage temporel pour les requêtes limitées dans le temps. Le système combine les résultats en utilisant la fusion de rangs réciproques et applique un reclassement neuronal pour une précision ultime.

CARA (Coherent Adaptive Reasoning Agents) mène une réflexion consciente des choix en intégrant des paramètres de disposition configurables dans le raisonnement : scepticisme, littéralisme et empathie. Cela résout la logique incohérente entre les sessions. Sans conditionnement des préférences, l’agent produit des réponses localement rationnelles mais globalement incohérentes car le LLM sous-jacent n’a pas de vision stable.

Hindsight a obtenu le score LongMemEval le plus élevé, soit 91 %

Le recul n’est pas seulement une recherche universitaire théorique ; La technologie open source a été évaluée sur les benchmarks LongMemory. Le test évalue les agents sur des conversations couvrant jusqu’à 1,5 million de jetons sur plusieurs sessions, leur capacité à rappeler des informations, à raisonner dans le temps et à maintenir des perspectives cohérentes.

Le benchmark LongMemEval teste si les agents IA peuvent gérer des scénarios de déploiement réels. L’un des principaux défis pour les entreprises réside dans les agents qui fonctionnent bien lors des tests mais échouent en production. Hindsight a atteint une précision de 91,4 % sur le benchmark, le score le plus élevé enregistré dans le test.

L’ensemble plus large de résultats montre où la mémoire structurée apporte les gains les plus importants : les requêtes multisessions ont augmenté de 21,1 % à 79,7 % ; Le raisonnement temporel est passé de 31,6 % à 79,7 % ; Et les questions de mise à jour des connaissances sont passées de 60,3 % à 84,6 %.

« Cela signifie que vos agents seront en mesure d’effectuer davantage de tâches, avec plus de précision et de cohérence que jamais auparavant », a déclaré Latimer. “Cela vous permet d’obtenir des agents plus précis, capables de gérer des processus métier plus critiques.”

Déploiement en entreprise et intégration hyperscalaire

Pour les entreprises qui envisagent de déployer Hindsight, le chemin vers la mise en œuvre est simple. Le système fonctionne comme un conteneur Docker unique et s’intègre à l’aide d’un wrapper LLM qui fonctionne avec n’importe quel modèle de langage.

“Il s’agit d’un remplacement immédiat de vos appels API, et vous commencez immédiatement à créer des souvenirs”, a déclaré Latimer.

La technologie cible les entreprises qui ont déjà déployé une infrastructure RAG et qui ne bénéficient pas des performances dont elles ont besoin. « La plupart des infrastructures RAG existantes que les gens ont déployées ne fonctionnent pas au niveau souhaité, et ils recherchent des solutions plus robustes qui peuvent résoudre les problèmes auxquels les entreprises sont confrontées, qui sont généralement l’incapacité de récupérer les bonnes informations pour accomplir une tâche ou répondre à une série de questions », a déclaré Latimer.

Vectorize travaille avec HyperScaler pour intégrer la technologie dans les plateformes cloud. La société s’associe activement à des fournisseurs de cloud pour prendre en charge leur LLM avec des capacités de mémoire d’agent.

Ce que cela signifie pour les entreprises

Pour les entreprises leader dans l’adoption de l’IA, Hindsight présente une voie au-delà des limites des déploiements RAG actuels.

Les organisations qui ont investi dans la génération étendue de récupération et qui constatent des performances d’agent incohérentes doivent évaluer si la mémoire structurée peut répondre à leurs modes de défaillance spécifiques. La technologie est particulièrement adaptée aux applications dans lesquelles les agents doivent maintenir le contexte sur plusieurs sessions, gérer des informations contradictoires au fil du temps ou expliquer leur raisonnement.

“RAG est mort et je pense que l’agent Memory va le tuer complètement”, a déclaré Latimer.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici