Au cours des deux dernières années, l’unité fondamentale du développement de l’IA générative a été la « perfection ».
Vous envoyez une invite texte à un modèle, il renvoie du texte et la transaction se termine. Si vous souhaitez poursuivre la conversation, vous devez renvoyer l’intégralité de l’historique au modèle. Cette architecture « sans état », incarnée par l’héritage de Google generateContent Endpoint : était parfait pour les chatbots simples. Mais à mesure que les développeurs se tournent vers des agents autonomes qui utilisent des outils, maintiennent des états complexes et « réfléchissent » sur de longs horizons, ce modèle sans état est devenu un obstacle évident.
La semaine dernière, Google DeepMind a enfin comblé cette lacune d’infrastructure Lancement bêta public de l’API Interaction (/interactions)
Alors qu’OpenAI a entamé ce changement avec son API Response en mars 2025, l’entrée de Google a marqué ses propres efforts pour améliorer l’état de l’art. L’API Interaction n’est pas seulement un outil de gestion d’état ; Il s’agit d’une interface unifiée conçue pour que LLM se comporte moins comme un générateur de texte que comme un système d’exploitation distant.
Le modèle de « calcul à distance »
L’innovation clé de l’API Interaction est l’introduction de l’état côté serveur comme comportement par défaut.
Auparavant, un développeur créant un agent complexe devait gérer manuellement une liste JSON croissante de chaque instance « utilisateur » et « modèle », envoyant des mégaoctets d’historique à chaque requête. Avec la nouvelle API, les développeurs n’en transmettent qu’un previous_interaction_id. L’infrastructure de Google conserve l’historique des conversations de bout en bout, les résultats des outils et le processus de « réflexion ».
“Les modèles deviennent des systèmes et, avec le temps, pourraient même devenir eux-mêmes des agents”, ont écrit Ali Sevic et Philip Schmid de DeepMind, une société officielle. Article de blog Sur le nouveau paradigme. “Essayer de forcer ces pouvoirs generateContent cela donnerait lieu à une API trop complexe et fragile.”
Ce changement permet l’exécution en arrière-plan, une fonctionnalité importante à l’ère agentique. Les flux de travail complexes, tels que naviguer sur le Web pendant une heure pour synthétiser un rapport, déclenchent souvent des délais d’attente HTTP dans les API standard. L’API Interaction permet aux développeurs de déclencher un agent background=true, Déconnectez-vous et interrogez les résultats plus tard. Cela transforme efficacement l’API en une file d’attente de tâches pour l’intelligence.
“Recherche approfondie” native et prise en charge MCP
Google utilise cette nouvelle infrastructure pour proposer son premier agent intégré : Gemini Deep Research
accessible par le même /interactions Endpoint, cet agent est capable d’effectuer des « tâches de recherche à long terme ». Contrairement à un modèle standard qui prédit le prochain jeton en fonction de vos invites, l’agent Deep Research exécute une boucle de recherche, de lecture et de synthèse.
Surtout, Google adopte également l’écosystème ouvert en ajoutant la prise en charge native du Model Context Protocol (MCP). Cela permet aux modèles Gemini d’appeler directement des outils externes hébergés sur des serveurs distants – tels qu’un service météo ou une base de données – sans que le développeur ait besoin d’écrire du code Glue personnalisé pour analyser les appels d’outils.
Paysage : Google rejoint OpenAI à l’ère du « avec état »
Google est sans doute en train de rattraper son retard, mais avec une touche nettement philosophique. OpenAI s’est éloigné de l’apatridie il y a neuf mois en lançant l’API Response en mars 2025.
Bien que les deux géants résolvent le problème de la saturation du contexte, leurs solutions diffèrent en termes de transparence :
OpenAI (méthode de compression) : L’API Response d’OpenAI a introduit le compactage, une fonctionnalité qui compresse l’historique des conversations en remplaçant les résultats de l’outil et les chaînes de raisonnement par des « éléments de compactage cryptés » opaques. Cela donne la priorité à l’efficacité des jetons mais crée une « boîte noire » dans laquelle la logique passée du modèle est cachée au développeur.
Google (approche hébergée) : L’API Interaction de Google conserve l’intégralité de l’historique disponible et accessible en écriture. Le modèle de données permet aux développeurs de « déboguer, manipuler, diffuser et raisonner sur des messages entrelacés ». Il donne la priorité à l’inspectabilité plutôt qu’à la compacité.
Modèles pris en charge et disponibilité
L’API Interaction est actuellement en version bêta publique (Voici le document) et est immédiatement disponible via Google AI Studio. Il prend en charge la gamme complète des modèles de dernière génération de Google, garantissant ainsi que les développeurs adaptent la bonne taille de modèle à leurs tâches d’agent spécifiques :
-
Gémeaux 3.0 : Aperçu de Gemini 3 Pro.
-
Gémeaux 2.5 : Flash, Flash Lite et Pro.
-
Agent: Aperçu de la recherche approfondie (
deep-research-pro-preview-12-2025)
Commercialement, l’API s’intègre à la structure tarifaire existante de Google : vous payez des tarifs standard pour les jetons d’entrée et de sortie en fonction du modèle que vous avez choisi. Cependant, la proposition de valeur change avec les nouvelles politiques de conservation des données. Étant donné que cette API est avec état, Google doit stocker votre historique d’interactions pour activer des fonctionnalités telles que la mise en cache implicite et la récupération de contexte.
L’accès à ce stockage est déterminé par votre niveau. Les développeurs de l’offre gratuite sont limités à une politique de rétention d’un jour, adaptée aux tests transitoires mais insuffisante pour la mémoire des agents à long terme.
Les développeurs aux niveaux payants débloquent une politique de rétention de 55 jours. Cette conservation étendue ne concerne pas uniquement les audits ; Cela minimise efficacement votre coût total de possession en maximisant les accès au cache. En gardant environ deux mois d’historique « chaud » sur le serveur, vous évitez de payer pour retraiter d’énormes fenêtres de contexte pour les utilisateurs réguliers, ce qui rend la couche donnée beaucoup plus efficace pour les agents de production.
Remarque : étant donné qu’il s’agit d’une version bêta, Google indique que les fonctionnalités et les schémas sont sujets à des modifications majeures.
“Vous interagissez avec un système”
Sam Witteven, développeur Google expert en apprentissage automatique et PDG de Red Dragon AI, considère cette version comme une évolution nécessaire de la pile des développeurs.
“Si nous remontons dans l’histoire… l’idée générale était une simple entrée et sortie de texte”, a noté Wittven dans un article. Répartition technique de la publication sur YouTube. “Mais maintenant… vous interagissez avec un système. Un système qui peut utiliser plusieurs modèles, appeler plusieurs boucles, utiliser des outils et exécuter du code sur le backend.”
Wittven souligne l’avantage économique immédiat de cette architecture : la mise en cache implicite. Étant donné que l’historique des conversations réside sur les serveurs de Google, les développeurs ne sont pas facturés pour le téléchargement répété du même contexte. “Vous n’avez pas à payer autant pour les jetons que vous appelez”, a-t-il expliqué.
Cependant, la libération ne se fait pas sans frictions. Witteven a critiqué la mise en œuvre actuelle du système de citation des agents de recherche approfondie. Lors de la fourniture de sources d’agent, les URL renvoyées sont souvent enveloppées dans des liens de redirection internes de Google/Vertex AI au lieu d’URL brutes et utilisables.
“Mon plus gros reproche concerne… ces URL, si je les enregistre et que j’essaie de les utiliser dans une autre session, elles ne fonctionneront pas”, a prévenu Wittven. “Si je veux faire un rapport pour quelqu’un avec une citation, je veux qu’il puisse cliquer sur l’URL d’un fichier PDF… Avoir quelque chose comme medium.com comme citation (sans lien direct) n’est pas très bon.”
Qu’est-ce que cela signifie pour votre équipe ?
Axée sur le déploiement rapide de modèles et le réglage fin pour les principaux ingénieurs en IA, cette version fournit une solution architecturale simple au problème persistant de « délai d’attente » : l’exécution en arrière-plan.
Au lieu de créer des gestionnaires asynchrones complexes ou de gérer des files d’attente de travail distinctes pour les tâches logiques de longue durée, vous pouvez désormais confier cette complexité directement à Google. Cependant, cet avantage introduit un compromis stratégique.
Bien que le nouveau Deep Research Agent permette un déploiement rapide de capacités de recherche sophistiquées, il agit comme une « boîte noire » par rapport aux flux Langchain ou Langgraph personnalisés. Les ingénieurs devraient utiliser un prototype de fonctionnalité « à réflexion lente » background=true Paramètres permettant d’évaluer si la rapidité de mise en œuvre l’emporte sur la perte de contrôle précis sur la boucle de recherche.
Les ingénieurs seniors gérant l’orchestration et la budgétisation de l’IA seront migrés vers l’état côté serveur previous_interaction_id Débloque la mise en cache implicite, un avantage considérable en termes de mesures de coût et de latence.
En référençant l’historique stocké sur les serveurs de Google, vous évitez automatiquement les coûts de jetons associés au nouveau téléchargement d’énormes fenêtres contextuelles, répondant directement aux contraintes budgétaires tout en maintenant des performances élevées.
Le défi ici se situe au sein de la chaîne d’approvisionnement ; L’intégration de Remote MCP (Model Context Protocol) signifie que si vos agents se connectent directement à des outils externes, vous devez vérifier strictement que ces services distants sont sécurisés et authentifiés. Il est temps d’auditer vos dépenses actuelles en jetons pour renvoyer l’historique des conversations. Si elles sont élevées, donner la priorité au passage à l’API Stateful Interaction peut générer des économies significatives.
Pour les ingénieurs de données seniors, l’API Interaction offre un modèle de données plus robuste que les journaux de texte brut. Le schéma structuré permet de déboguer et de rationaliser des historiques complexes, améliorant ainsi l’intégrité globale des données dans votre pipeline. Il faut cependant être attentif à la qualité des données, un problème soulevé notamment par l’expert en citations Sam Wittven.
Deep Research Agent renvoie actuellement des URL « encapsulées » qui peuvent expirer ou se rompre à la place des liens sources bruts. Si vos pipelines reposent sur le scraping ou l’archivage de ces sources, vous devrez peut-être créer une étape de nettoyage pour extraire les URL utilisables. Vous devez vérifier la capacité de sortie structurelle (response_format) pour voir s’ils peuvent remplacer l’analyse fragile des expressions régulières dans votre pipeline ETL actuel.
Enfin, pour les responsables de la sécurité informatique, déplacer l’État vers les serveurs centralisés de Google présente un paradoxe. Cela peut améliorer la sécurité en gardant les clés API et l’historique des conversations hors des appareils clients, mais cela introduit un nouveau risque de résidence des données. Le test important ici concerne les politiques de conservation des données de Google : alors que le niveau gratuit ne conserve les données que pendant une journée, le niveau payant conserve l’historique des interactions pendant 55 jours.
Cela contraste avec l’option d’entreprise « Zero Data Retention » (ZDR) d’OpenAI. Vous devez vous assurer que le stockage de l’historique des conversations sensibles pendant environ deux mois est conforme à votre gouvernance interne. S’il enfreint votre politique, vous devez configurer les appels avec celui-ci store=falseCependant, cela désactiverait les fonctionnalités dynamiques – et les avantages en termes de coûts – qui rendent cette nouvelle API si précieuse.






