À mesure que les systèmes logiciels deviennent plus complexes et que les outils d’IA génèrent du code plus rapidement que jamais, un problème fondamental s’aggrave : Les ingénieurs se noient dans les tâches de débogageIls passent la moitié de leur temps à rechercher la cause d’une panne logicielle au lieu de créer de nouveaux produits. Le défi est devenu si aigu qu’il crée une nouvelle catégorie d’outils : des agents d’IA capables de diagnostiquer les défaillances de fabrication en quelques minutes au lieu d’heures.

IA déductiveUne startup issue du mode furtif mercredi pense avoir trouvé une solution en appliquant l’apprentissage par renforcement – ​​la même technologie qui alimente les systèmes d’IA de jeu – au monde désordonné et aux enjeux élevés des événements logiciels de production. La société a annoncé avoir levé 7,5 millions de dollars en financement de démarrage. CRVavec la participation de Entreprises Databricks, Thomvest VenturesEt ensemble principalLa commercialisation s’appelle «Agent IA SRE” qui peut aider à diagnostiquer et à réparer les pannes logicielles à la vitesse de la machine

Ce discours fait écho à une frustration croissante au sein du monde de l’ingénierie : les outils de surveillance modernes peuvent montrer que quelque chose est cassé, mais ils expliquent rarement pourquoi. Lorsqu’un système de production tombe en panne à 3 heures du matin, les ingénieurs doivent encore faire des heures de travail de détection manuel, croiser les journaux, les métriques, l’historique de déploiement et les modifications de code pour identifier la cause première.

“La complexité et l’interdépendance des infrastructures modernes signifient que trouver la cause profonde d’une panne ou d’un incident peut être comme chercher une aiguille dans une botte de foin, sauf que la botte de foin a la taille d’un terrain de football, elle est composée d’un million d’aiguilles supplémentaires, elle change constamment et prend feu – et à chaque seconde, vous ne constatez pas de perte de revenus”, a déclaré Sawal, co-fondateur et directeur de la technologie, dans une interview exclusive avec VentureBeat.

Les systèmes déductifs créent ce que l’entreprise appelle un « graphe de connaissances » qui cartographie les relations entre les bases de code, les données de télémétrie, les discussions d’ingénierie et la documentation interne. Lorsqu’un incident se produit, plusieurs agents d’IA travaillent ensemble pour générer des hypothèses, les tester par rapport aux preuves réelles du système et converger vers une cause profonde, simulant le flux de travail d’enquête d’ingénieurs expérimentés en fiabilité du site, mais complétant le processus en quelques minutes plutôt qu’en quelques heures.

La technologie a déjà démontré un impact mesurable dans les environnements de fabrication les plus exigeants au monde. La plateforme publicitaire de DoorDashIl intègre la déduction à son flux de travail de réponse aux événements, qui exécute des enchères en temps réel qui doivent se terminer en 100 millisecondes. L’entreprise s’est fixé un objectif ambitieux d’ici 2026 : résoudre les incidents de fabrication en 10 minutes.

“Notre plateforme publicitaire fonctionne à une vitesse telle que les enquêtes manuelles et lentes ne sont plus viables. Chaque minute d’arrêt affecte directement les revenus de l’entreprise”, a déclaré Shahroz Ansari, directeur principal de l’ingénierie chez DoorDash, dans une interview avec VentureBeat. « Deductive est devenue une extension essentielle de notre équipe, synthétisant rapidement les signaux provenant de dizaines de services et mettant en avant des informations importantes, en quelques minutes. »

Tableau de bord En estimant que Deductive a généré environ 100 incidents de production au cours des derniers mois, cela se traduit par plus de 1 000 heures de productivité annuelle en ingénierie et un impact sur les revenus « se chiffrant en millions de dollars », selon Ansari. Agence de renseignement géographique FoursquareDeductive Apache Spark a réduit le temps de diagnostic des échecs de tâches de 90 %, révélant un processus qui prenait auparavant des heures, voire des jours, en 10 minutes, générant plus de 275 000 $ d’économies annuelles.

Pourquoi le code généré par l’IA crée une crise de débogage

Le moment choisi pour le lancement de Deductive reflète un bouleversement dans le développement logiciel : les assistants de codage IA permettent aux ingénieurs de coder plus rapidement que jamais, mais le logiciel qui en résulte est souvent plus difficile à comprendre et à maintenir.

Codage vibratoire“Un terme popularisé par les chercheurs en IA Andreï KarpathiL’IA fait référence à l’utilisation d’invites en langage naturel pour générer du code via un assistant. Bien que ces outils accélèrent le développement, ils peuvent introduire ce qu’Agarwal décrit comme « des redondances, des limites architecturales, des hypothèses ou des modèles de conception négligés » qui s’accumulent au fil du temps.

“La plupart des codes générés par l’IA introduisent encore de la redondance, brisent les frontières architecturales, font des hypothèses ou ignorent les modèles de conception établis”, a déclaré Aggarwal à VentureBeat. “À bien des égards, nous avons désormais besoin de l’IA pour nettoyer les dégâts qu’elle crée elle-même.”

L’affirmation selon laquelle les ingénieurs consacrent près de la moitié de leur temps au débogage n’est pas une hyperbole. L’Association for Computing Machinery rapporte que les développeurs dépensent 35 % à 50 % du temps est consacré à leur logiciel de validation et de débogage. plus récemment, Exploitez l’état de la livraison de logiciels 2025 Le rapport révèle que 67 % des développeurs consacrent plus de temps au débogage du code généré par l’IA.

« Nous avons vu des ingénieurs de classe mondiale passer la moitié de leur temps à déboguer au lieu de construire », a déclaré Rakesh Kothari, co-fondateur et PDG de Deductive. “Et avec le vibe coding générant du nouveau code à un rythme que nous n’avons jamais vu, ce problème ne fera qu’empirer.”

Comment les agents IA de Deductive enquêtent réellement sur les échecs de production

L’approche technique de Deductive est sensiblement différente des fonctionnalités d’IA ajoutées aux plateformes d’observabilité existantes Chien de données ou Nouvelle relique. La plupart de ces systèmes utilisent de grands modèles de langage pour résumer les données ou identifier des corrélations, mais ils manquent de ce qu’Agarwal appelle un « raisonnement sensible au code » : la capacité de comprendre non seulement que quelque chose est cassé, mais aussi la capacité de comprendre pourquoi le code se comporte comme il le fait.

« La plupart des entreprises utilisent plusieurs outils de surveillance au sein de différentes équipes et services, de sorte qu’aucun fournisseur n’a une vision globale unique de la façon dont leurs systèmes se comportent, échouent et récupèrent, et n’est pas non plus en mesure d’ajouter une compréhension du code qui définit le comportement du système », a expliqué Agarwal. “Ce sont les ingrédients clés pour résoudre les phénomènes logiciels, et cela comble exactement le vide déductif.”

Le système se connecte à l’infrastructure existante à l’aide d’un accès API en lecture seule aux plates-formes d’observabilité, aux référentiels de code, aux outils de gestion des incidents et aux systèmes de discussion. Il crée et met ensuite à jour en permanence son graphe de connaissances, cartographiant les dépendances entre les services et suivant l’historique de déploiement.

Lorsqu’une alerte est déclenchée, Deductive lance ce que l’entreprise décrit comme une enquête multi-agents. Différents agents se spécialisent dans différents aspects du problème : l’un peut analyser les modifications récentes du code, un autre examine les données de trace, tandis qu’un troisième corrèle le timing des événements avec les déploiements récents. Les agents partagent leurs résultats et affinent leurs estimations de manière itérative.

Une différence importante par rapport à l’automatisation basée sur des règles réside dans l’utilisation déductive de l’apprentissage par renforcement. Le système apprend de chaque cas quelles étapes d’investigation ont conduit au diagnostic correct et lesquelles se sont terminées. Lorsque les ingénieurs fournissent des commentaires, le système intègre ces commentaires dans son modèle d’apprentissage.

“Chaque fois qu’il surveille une enquête, il apprend quelles actions, sources de données et décisions ont conduit au résultat correct”, a déclaré Agarwal. “C’est apprendre à réfléchir aux problèmes, pas seulement à les signaler.”

Chez DoorDash, un récent pic de latence dans une API semblait initialement être un problème de service isolé. L’enquête de Deductive a révélé que la cause première était en fait une erreur de timing dans une plateforme d’apprentissage automatique en aval lors d’un déploiement. Le système relie ces points en analysant les volumes de journaux, les traces et les métadonnées de déploiement sur plusieurs services.

“Sans déduction, notre équipe aurait dû corréler manuellement les pics de latence dans tous les journaux, traces et historiques de déploiement”, a déclaré Ansari. “Deductive a pu expliquer non seulement ce qui a changé, mais aussi comment et pourquoi cela a affecté le comportement de production.”

L’entreprise tient les gens informés – pour l’instant

Alors que la technologie de Deductive pourrait théoriquement apporter des correctifs directement aux systèmes de production, la société a délibérément choisi de garder les humains au courant – du moins pour le moment.

“Bien que notre système soit capable d’une automatisation approfondie et puisse transmettre des correctifs à la production, nous recommandons actuellement des correctifs et des atténuations spécifiques que les ingénieurs peuvent examiner, vérifier et mettre en œuvre”, a déclaré Agarwal. « Nous pensons qu’il est essentiel de garder un humain informé pour assurer la confiance, la transparence et la sécurité opérationnelle. »

Cependant, il a reconnu qu’« avec le temps, nous pensons qu’une automatisation plus poussée viendra et fera évoluer la façon dont les gens travaillent dans la boucle ».

Les vétérans de Databricks et de ThoughtSpot misent sur la logique plutôt que sur l’observabilité

L’équipe fondatrice apporte une expertise approfondie dans la création de certaines des plates-formes d’infrastructure de données les plus performantes de la Silicon Valley. Aggarwal a obtenu son doctorat. à l’UC Berkeley, où il a créé ClignotementDBUn système puissant pour le traitement approximatif des requêtes. Il fut parmi les premiers ingénieurs Briques de donnéesqu’il a contribué à construire Apache Spark. Kothari était l’un des premiers ingénieurs Spot de penséeoù il a dirigé des équipes axées sur le traitement distribué des requêtes et l’optimisation des systèmes à grande échelle.

Les syndicats d’investisseurs reflètent à la fois la crédibilité technique et les opportunités de marché. En dehors du CRV Max GajorComprend la participation aux tours Ion StoicaFondateur de Databricks et Anyscale ; Ajit SinghFondateur de Nutanix et ThoughtSpot ; Et Ben SiegelmanFondateur de Lightstep.

que la concurrence comme les plateformes Chien de données ou service de téléavertisseurLes positions déductives se positionnent comme une couche complémentaire qui s’ajoute aux outils existants. Le modèle de tarification reflète cela : au lieu de facturer en fonction du volume de données, des frais déductifs basés sur le nombre d’incidents enquêtés et des frais de base pour la plateforme.

La société propose des options de déploiement hébergées dans le cloud et auto-hébergées et souligne qu’elle ne stocke pas les données des clients sur ses serveurs et ne les utilise pas pour former des modèles pour d’autres clients – une assurance essentielle compte tenu de la nature propriétaire du code et du comportement du système de production.

Y compris de nouveaux capitaux et une attraction initiale de clients dans des entreprises comme celle-ci Tableau de bord, FoursquareEt douxLa planification déductive approfondit la capacité de raisonnement du système pour élargir son équipe et la prévention proactive à partir de l’analyse réactive des incidents. Vision à court terme : aider les équipes à prévoir les problèmes avant qu’ils ne surviennent.

Ansari de DoorDash donne un clin d’œil réaliste à l’état actuel de la technologie : “Les enquêtes qui étaient auparavant manuelles et fastidieuses sont désormais automatisées, permettant aux ingénieurs de réorienter leurs énergies vers la prévention, l’impact commercial et l’innovation.”

Dans un secteur où chaque seconde d’arrêt se traduit par une perte de revenus, la transition du métier de pompier au bâtiment ressemble de moins en moins à un luxe qu’à un enjeu de table.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici