Il existe OpenAI GPT-5.1-Codex-Max a été introduitUn nouveau modèle de codage agent Frontier est désormais disponible dans son environnement de développement Codex. Cette version marque une avancée significative dans l’ingénierie logicielle assistée par l’IA, offrant des capacités avancées de raisonnement à long terme, d’efficacité et d’interactivité en temps réel. GPT-5.1-Codex-Max remplacera désormais GPT-5.1-Codex comme modèle par défaut sur les surfaces intégrées au Codex.

Le nouveau modèle est conçu pour agir comme un agent de développement logiciel persistant et hautement contextuel, capable de gérer des refactors complexes, de déboguer des flux de travail et de gérer des tâches à l’échelle d’un projet sur plusieurs fenêtres contextuelles.

Cela fait suite à la sortie hier par Google de son nouveau modèle puissant Gemini 3 Pro, tout en le comparant ou en le faisant correspondre à des références de codage clés :

sur Vérifié par le banc SWE, GPT‑5.1-Codex-Max a atteint une précision de 77,9 % En termes d’effort logique très élevé, le Gemini 3 a surpassé le Pro de 76,2 %.

Cela a également conduit Terminal-Bench 2.0, précision de 58,1 % contre 54,2 % pour Gemini, Et cela correspond au score de 2 439 du Gemini sur LiveCodeBench Pro, une référence compétitive de codage elo.

Comparé à la configuration la plus avancée du Gemini 3 Pro – son modèle Deep Thinking – Codex-Max détient également un léger avantage dans les tests de codage agent.

Benchmarks de performance : gains progressifs dans les tâches principales

GPT-5.1-Codex-Max présente des améliorations mesurables par rapport à GPT-5.1-Codex dans une gamme de références standard en matière d’ingénierie logicielle.

Dans SWE-Lancer IC SWE, il a atteint une précision de 79,9 %, une augmentation significative par rapport aux 66,3 % du GPT-5.1-Codex. Vérifié par SWE-Bench (n = 500), il a atteint une précision de 77,9 % avec un effort de raisonnement très élevé, surpassant les 73,7 % du GPT‑5.1-Codex.

Terminal Bench 2.0 (n = 89) a montré une amélioration plus modeste des performances, GPT-5.1-Codex-Max atteignant une précision de 58,1 %, contre 52,8 % pour GPT-5.1-Codex.

Toutes les évaluations ont été exécutées avec le compactage et un effort logique très élevé activés.

Ces résultats indiquent que le nouveau modèle offre un plafond élevé en termes de précision de référence et d’utilisabilité dans le monde réel sous une charge de raisonnement accrue.

Architecture technique : raisonnement à long horizon via le compactage

Une amélioration architecturale majeure de GPT-5.1-codex-max est la capacité de raisonner efficacement sur des sessions d’entrée-sortie étendues à l’aide d’un mécanisme. compactage.

Cela permet au modèle de conserver les informations clés pertinentes tout en ignorant les détails non pertinents à l’approche de la limite de sa fenêtre contextuelle, ce qui permet effectivement un fonctionnement continu sur des millions de jetons sans dégradation des performances.

Le modèle a été surveillé en interne pour effectuer des tâches sur 24 heures, y compris des refactors en plusieurs étapes, des itérations pilotées par des tests et un débogage autonome.

Le compactage améliore l’efficacité des jetons. Avec un effort logique modéré, GPT-5.1-Codex-Max a utilisé environ 30 % de jetons de pensée en moins que GPT-5.1-Codex pour une précision comparable ou supérieure, ce qui a des implications à la fois sur le coût et la latence.

Intégration de la plateforme et cas d’utilisation

GPT‑5.1-Codex-Max est actuellement disponible dans plusieurs environnements basés sur le Codex, ce qui indique les propres outils et interfaces intégrés d’OpenAI spécifiquement conçus pour les agents d’IA centrés sur le Codex. Ceux-ci incluent :

  • CLI du CodexL’outil de ligne de commande officiel d’OpenAI (@openai/codex), où GPT‑5.1-Codex-Max est déjà en ligne.

  • Extension EDIVraisemblablement développé ou maintenu par OpenAI, bien qu’aucune intégration IDE tierce spécifique ne soit nommée.

  • Environnement de codage interactifUtilisé pour démontrer des applications de simulation frontale telles que Cartpol ou Snell’s Law Explorer

  • Outils de révision du code interneUtilisé par l’équipe d’ingénierie d’OpenAI.

Pour l’instant, GPT‑5.1-Codex-Max n’est pas encore disponible via l’API publique, bien qu’OpenAI indique qu’il le sera bientôt. Les utilisateurs qui souhaitent aujourd’hui travailler avec des modèles dans un environnement de terminal peuvent le faire en installant et en utilisant la CLI Codex.

Il n’est pas actuellement confirmé si et comment le modèle sera intégré dans des IDE tiers jusqu’à ce que la CLI ou les futures API soient construites dessus.

Le modèle est capable d’interagir avec des outils et des simulations en direct. Les exemples présentés dans la version incluent :

  • Un simulateur interactif de gradient de politique cartpole, qui visualise la formation et les activations d’apprentissage par renforcement.

  • Un explorateur optique de la loi de Snell prend en charge le traçage de rayons dynamique sur les indices de réfraction.

Ces interfaces illustrent la capacité du modèle à raisonner en temps réel tout en maintenant une session de développement interactive, reliant efficacement le calcul, la visualisation et la mise en œuvre en une seule boucle.

Cybersécurité et limites de sécurité

Bien que GPT‑5.1-Codex-Max ne réponde pas au seuil de capacité « élevé » d’OpenAI en matière de cybersécurité dans son cadre de préparation, il s’agit du modèle de cybersécurité le plus performant actuellement déployé par OpenAI. Il prend en charge des cas d’utilisation tels que la détection et la correction automatisées des vulnérabilités, mais avec un sandboxing strict et un accès réseau désactivé par défaut.

OpenAI n’a signalé aucune augmentation des utilisations malveillantes à grande échelle, mais a introduit des systèmes de surveillance avancés, notamment des mécanismes de routage des activités et de perturbation des comportements suspects. Le codex reste isolé dans un espace de travail local à moins que les développeurs n’acceptent un accès plus large, réduisant ainsi les risques tels qu’une injection rapide de contenu non fiable.

Contexte de déploiement et utilisation des développeurs

GPT‑5.1-Codex-Max est actuellement disponible pour les utilisateurs ChatGPT Plus, Pro, Business, Edu et Enterprise Il est prévu de devenir la nouvelle norme par défaut dans les environnements basés sur des codecs, en remplacement de GPT-5.1-Codex, qui était un modèle plus général.

OpenAI affirme que 95 % de ses ingénieurs internes utilisent Codex chaque semaine et que depuis son adoption, ces ingénieurs ont envoyé en moyenne environ 70 % de demandes d’extraction supplémentaires, soulignant l’impact de l’outil sur la vitesse de développement interne.

Malgré son autonomie et sa persistance, OpenAI insiste sur le fait que Codex-Max doit être considéré comme un assistant de codage et non comme un substitut à l’examen humain. Le modèle génère des journaux de terminal, des extraits de tests et des résultats d’appels d’outils pour prendre en charge la transparence dans le code généré.

Perspectives

GPT‑5.1-Codex-Max représente une évolution significative de la stratégie d’OpenAI vers des outils de développement agent, offrant une plus grande profondeur logique, une plus grande efficacité des jetons et des capacités interactives dans les tâches d’ingénierie logicielle. En étendant ses techniques de gestion de contexte et de compactage, le modèle est positionné pour gérer des tâches à l’échelle de l’ensemble du référentiel plutôt que des fichiers ou des extraits individuels.

En mettant continuellement l’accent sur les flux de travail agents, les bacs à sable sécurisés et les mesures d’évaluation du monde réel, Codex-Max ouvre la voie à la prochaine génération d’environnements de programmation assistés par l’IA, tout en soulignant l’importance de la supervision dans des systèmes de plus en plus autonomes.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici