ce week-end, Andreï KarpathiL’ancien directeur de l’IA chez Tesla et membre fondateur d’OpenAI a décidé qu’il voulait lire un livre. Mais il ne voulait pas étudier seul. Il a voulu le lire avec un comité d’intelligence artificielle, chacun offrant son propre point de vue, critiquant les autres et synthétisant enfin une réponse finale sous la direction d’un « président ».

Pour que cela se produise, Karpathi a écrit ce qu’il a appelé «Projet de code vibratoire“- écrire rapidement un logiciel, essentiellement des assistants IA, destiné au plaisir plutôt qu’à la fonction. Il a publié le résultat, un référentiel appelé “Conseil LLM“, avec un avertissement sévère à GitHub : “Je ne vais en aucun cas le prendre en charge… le code est maintenant transitoire et la bibliothèque est terminée.”

Pourtant, pour les décideurs technologiques du monde de l’entreprise, regarder au-delà du simple avertissement révèle quelque chose de bien plus important qu’un jouet du week-end. en plusieurs centaines de lignes Python Et JavascriptKarpathi esquisse une architecture de référence pour la couche la plus critique et indéfinie de la pile logicielle moderne : le middleware d’orchestration qui se situe entre le marché volatile des applications d’entreprise et les modèles d’IA.

Alors que les entreprises finalisent leurs investissements dans les plateformes pour 2026, Conseil LLM L’IA offre un regard simplifié sur la réalité « construire ou acheter » de l’infrastructure. Cela prouve que même si la logique derrière le routage et l’intégration des modèles d’IA est étonnamment simple, la véritable complexité réside dans le wrapper opérationnel nécessaire pour le rendre prêt pour l’entreprise.

Comment fonctionne le LLM Council : quatre modèles d’IA débattent, critiquent et synthétisent les réponses

Pour l’observateur occasionnel, Conseil LLM L’application Web est presque identique à ChatGPT. Un utilisateur saisit une question dans une boîte de discussion. Mais en coulisses, l’application déclenche un flux de travail sophistiqué en trois étapes qui reflète le fonctionnement des organisations de prise de décision humaine.

Tout d’abord, le système envoie la requête de l’utilisateur à un panel de modèles frontières. Dans la configuration par défaut de Karpathy, cela inclut OpenAI GPT-5.1Google Gémeaux 3.0 Prod’anthropologie Claude Sonnet 4.5et de xAI Grok 4. Ces modèles génèrent leur réponse initiale en parallèle.

Dans un deuxième temps, le logiciel est soumis à un examen par les pairs. Chaque modèle reçoit des commentaires anonymes de ses pairs et est invité à les évaluer en fonction de leur exactitude et de leur perspicacité. Cette décision transforme l’IA de générateur en critique, imposant un niveau de contrôle de qualité rare dans les interactions de chatbot standard.

Enfin, un « Chairman LLM » désigné – actuellement configuré comme Gemini 3 de Google – reçoit des questions clés, des réponses individuelles et un classement par ses pairs. Il synthétise cette masse de contexte en une réponse unique et faisant autorité pour l’utilisateur.

Karpathi a noté que les résultats étaient souvent surprenants. “Souvent, les modèles sont étonnamment disposés à choisir la réponse d’un autre LLM comme étant supérieure à la leur”, a écrit X (précédemment sur Twitter). Il a décrit l’utilisation de l’outil pour lire des chapitres du livre, observant que les modèles ont systématiquement évalué GPT-5.1 comme le plus perspicace tout en attribuant à Claude la note la plus basse. Cependant, la propre évaluation qualitative de Karpathi s’écarte de celle de son conseil numérique ; Il a trouvé le GPT-5.1 « trop bruyant » et a apprécié la sortie « dense et traitée » du Gemini.

En considérant les modèles FastAPI, OpenRouter et Border comme des composants interchangeables

Pour les CTO et les architectes de plateforme, sa valeur Conseil LLM Non pas dans sa critique littéraire, mais dans sa construction. Le référentiel sert de document préliminaire montrant à quoi pourrait ressembler une pile d’IA moderne et minimale d’ici la fin de 2025.

L’application est construite sur une architecture « fine ». en utilisant le back-end API rapideUn moderne Python framework, alors que le frontend est un standard réponse Application construite avec rapidement. Le stockage des données est géré par des bases de données simples et non complexes Fichier JSON écrit sur le disque local.

La clé de voûte de toute l’opération Routeur ouvertUn agrégateur d’API qui normalise les différences entre les différents fournisseurs de modèles. En acheminant les requêtes via ce courtier unique, Karpathi évite d’écrire un code d’intégration distinct pour OpenAI, GoogleEt anthropologique. L’application ne sait pas et ne se soucie pas de quelle entreprise fournit les renseignements ; Il envoie simplement une invite et attend une réponse.

Ce choix de conception met en évidence une tendance croissante dans l’architecture d’entreprise : la banalisation de la couche modèle. En traitant les modèles Frontier comme des composants interchangeables qui peuvent être remplacés en modifiant une seule ligne dans le fichier de configuration (en particulier la liste COUNCIL_MODELS dans le code backend), l’architecture protège l’application du verrouillage du fournisseur. Si c’est un nouveau modèle méta ou Mistral En tête du classement la semaine prochaine, il pourra être ajouté au conseil en quelques secondes.

Ce qui manque du prototype à la production : authentification, correction des informations personnelles et conformité

Quand l’argument principal Conseil LLM Élégant, il constitue un exemple clair de l’écart entre un « hack du week-end » et un système de production. Pour une équipe de plateforme d’entreprise, le clonage du référentiel Karpathi n’est qu’une étape dans un marathon.

Un audit technique du code révèle l’absence d’une infrastructure « ennuyeuse » que les vendeurs commerciaux vendent à un prix élevé. Le système manque d’authentification ; Tout le monde peut interroger les modèles ayant accès à l’interface web. Il n’y a pas de notion de rôles d’utilisateur, ce qui signifie qu’un développeur junior a les mêmes droits d’accès que le CIO.

De plus, il n’y a aucun niveau de gouvernance. Dans un environnement d’entreprise, l’envoi simultané de données à quatre fournisseurs d’IA externes différents déclenche des problèmes de conformité immédiats. Il n’existe aucun mécanisme permettant de supprimer les informations personnelles identifiables (PII) avant qu’elles ne quittent le réseau local, ni de journal d’audit permettant de savoir qui a demandé quoi.

La fiabilité est une autre question ouverte. Estimation du système API OpenRouter Toujours prêt et les modèles répondront à temps. Il manque de disjoncteurs, de mécanismes de secours et de logique de nouvelle tentative qui maintiennent les applications critiques pour l’entreprise en marche en cas de panne du fournisseur.

Ces absences ne constituent pas des défauts dans le code de Karpathi (il a clairement déclaré qu’il ne souhaitait pas soutenir ou améliorer le projet), mais elles définissent la proposition de valeur du marché des infrastructures commerciales d’IA.

Les entreprises préfèrent Longue chaîne, Base AWSEt diverses startups de passerelles IA vendent essentiellement de la « dureté » autour de l’argument principal avancé par Carpathi. Ils fournissent des wrappers de sécurité, d’observabilité et de conformité qui transforment un script d’orchestration brut en une plate-forme d’entreprise viable.

Ken Karpathi estime que le code est désormais « éphémère » et que les bibliothèques de logiciels traditionnelles sont obsolètes

L’aspect le plus passionnant du projet est peut-être la philosophie selon laquelle il a été construit. Karpathi décrit le processus de développement comme «99 % codé par Vibe“, indiquant qu’il s’appuyait fortement sur les assistants IA pour générer du code plutôt que de l’écrire ligne par ligne lui-même.

“Le code est désormais éphémère et les bibliothèques sont obsolètes, demandez à votre LLM de les modifier à votre guise”, écrit-il dans la documentation du référentiel.

Cette déclaration marque un changement radical dans les capacités du génie logiciel. Traditionnellement, les entreprises construisaient des bibliothèques et des abstractions internes pour gérer la complexité, et les conservaient pendant des années. Karpathi suggère un avenir dans lequel le code est traité comme un « échafaudage rapide » – jetable, facilement réécrit par l’IA et non censé être permanent.

Pour les décideurs des entreprises, cela soulève une question stratégique difficile. Si l’équipement interne peut être “ambiance codée« En un week-end, est-il judicieux d’acheter des suites logicielles coûteuses et rigides pour les flux de travail internes ? Ou les équipes de plateforme devraient-elles permettre à leurs ingénieurs de créer des outils personnalisés et jetables qui répondent exactement à leurs besoins pour une fraction du coût ?

Quand les modèles d’IA jugent l’IA : le fossé dangereux entre les préférences des machines et les besoins humains

au-delà de l’architecture, Conseil LLM Le projet met en évidence un risque particulier lié au déploiement par inadvertance d’une IA automatisée : l’écart entre le jugement humain et celui de la machine.

L’observation de Karpathi selon laquelle ses modèles préfèrent GPT-5.1, alors qu’il préfère Gemini, suggère que les modèles d’IA peuvent avoir des biais communs. Ils peuvent privilégier le jargon, les formats fixes ou les confidences rhétoriques qui ne correspondent pas nécessairement aux besoins commerciaux des gens en matière de concision et de précision.

Les entreprises dépendent de plus en plus de «LL.M.-en-juge« Pour que les systèmes évaluent la qualité de leurs robots destinés aux clients, cet écart est important. Si les évaluateurs automatisés récompensent systématiquement les réponses « verbeuses et complètes » lorsque les clients humains souhaitent des solutions brèves, les mesures montreront le succès alors que la satisfaction des clients diminue. Le test de Karpathi suggère que le recours aux techniques d’IA est un problème d’alignement caché.

Ce que les équipes de plateforme d’entreprise peuvent apprendre d’un hack du week-end avant de construire leur pile 2026

à la fin, Conseil LLM L’IA sert de test de Rorschach pour l’industrie. Pour les amateurs, c’est une façon amusante de lire des livres. Pour l’éditeur, il s’agit d’une menace, prouvant que les fonctionnalités de base de ses produits peuvent être répliquées en quelques centaines de lignes de code.

Mais pour le leader technologique d’entreprise, il s’agit d’une architecture de référence. Cela rend la couche d’orchestration invisible, montrant que le défi technique ne consiste pas à acheminer les invites, mais à gérer les données.

Alors que les équipes de plateforme se dirigent vers 2026, beaucoup se tournent probablement vers le code de Karpathi, non pas pour le déployer, mais pour le comprendre. Cela démontre qu’une stratégie multimodèle n’est pas techniquement hors de portée. La question reste de savoir si les entreprises construiront elles-mêmes la couche de gouvernance ou paieront quelqu’un d’autre pour envelopper le « code vibratoire » dans une armure de niveau entreprise.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici