anthropologique a dévoilé lundi son modèle d’intelligence artificielle le plus performant, réduisant les prix de près de deux tiers tout en revendiquant des performances de pointe dans les tâches d’ingénierie logicielle – une décision stratégique qui intensifie la concurrence de la startup d’IA avec ses rivaux aux poches profondes OpenAI et Google.
nouveau modèle, Arrêter le travail 4.5A obtenu un score plus élevé lors de l’évaluation d’ingénierie interne la plus difficile d’Anthropic que n’importe quel candidat humain dans l’histoire de l’entreprise, selon les documents examinés par VentureBeat. Le résultat souligne à la fois les capacités de progression rapide des systèmes d’IA et les questions croissantes sur la manière dont la technologie va remodeler les métiers des cols blancs.
Claude, société soutenue par Amazon, fixe le prix de l’Opus 4.5 5 $ par million de jetons d’entrée Et 25 $ par million de jetons de sortie – Une réduction spectaculaire par rapport aux tarifs de 15 $ et 75 $ du prédécesseur, Arrêter le travail 4.1Sorti plus tôt cette année. Cette décision rend les capacités d’IA de pointe accessibles à un segment plus large de développeurs et d’entreprises, tout en faisant pression sur les concurrents pour qu’ils égalent à la fois les performances et les prix.
“Nous voulons nous assurer que cela fonctionne vraiment pour les personnes qui souhaitent travailler avec ces modèles”, a déclaré Alex Albert, responsable des relations avec les développeurs d’Anthropic, dans une interview exclusive avec VentureBeat. « C’est vraiment notre objectif : comment pouvons-nous permettre à Claude de mieux vous aider à faire les choses que vous ne voulez pas faire dans votre travail ?
Cette annonce intervient alors que l’anthropologie s’efforce de maintenir sa position dans un domaine de plus en plus encombré. OpenAI est sorti récemment GPT-5.1 et est appelé un modèle de codage spécial Codex Max Cela peut fonctionner de manière autonome pendant de longues périodes. Google dévoilé Gémeaux d La semaine dernière, Même en exprimant les inquiétudes d’OpenAI Selon un récent rapport de The Information sur les progrès du géant de la recherche.
L’Opus 4.5 démontre un jugement amélioré dans les tâches du monde réel, disent les développeurs
Les tests internes d’Anthropic ont révélé ce que l’entreprise a décrit comme un saut qualitatif dans les capacités de raisonnement de Claude Opus 4.5. Le modèle a atteint une précision de 80,9 % Vérifié par le banc SWEUn benchmark qui mesure les tâches réelles d’ingénierie logicielle surpasse le GPT-5.1-Codex-Max d’OpenAI (77,9 %), le Sonnet 4.5 d’Anthropic (77,2 %) et le Gemini 3 Pro de Google (76,2 %), selon les données de l’entreprise. Le résultat marque une avancée significative par rapport au modèle de pointe actuel d’OpenAI, publié il y a à peine cinq jours.
Mais les normes techniques ne racontent qu’une partie de l’histoire. Albert a déclaré que les employés testeurs rapportaient systématiquement que le modèle démontrait un jugement et une perspicacité améliorés dans une variété de tâches – un changement qu’il a décrit comme le modèle comprenant ce qui est important dans un contexte réel.
“Le modèle comprend en quelque sorte”, a déclaré Albert. “Il a apporté ce genre de vision et de jugement sur beaucoup de choses dans le monde réel qui, qualitativement, semblent être un grand pas en avant par rapport aux modèles précédents.”
Il a cité son propre flux de travail comme exemple. Auparavant, a déclaré Albert, il demandait aux modèles d’IA de collecter des données, mais hésitait à faire confiance à leur synthèse ou à leur priorisation. Avec Opus 4.5, il délègue un travail plus complet, en le reliant à Slack et aux documents internes pour créer des synthèses cohérentes et correspondant à ses priorités.
Opus 4.5 a surpassé tous les candidats humains lors des tests d’ingénierie les plus exigeants de l’entreprise.
Les performances du modèle marquent une étape importante dans l’évaluation technique interne d’Anthropic. Le test à emporter, conçu pour les candidats potentiels en ingénierie de performance, évalue les capacités techniques et le jugement sous pression de temps dans un délai prescrit de deux heures.
En utilisant une technique appelée calcul parallèle au moment du test – qui combine plusieurs tentatives du modèle et sélectionne le meilleur résultat – Opus 4.5 Selon l’entreprise, les candidats ont obtenu des résultats supérieurs à ceux de n’importe quel candidat humain. Sans limite de temps, le modèle atteint les meilleures performances de candidat humain jamais réalisées lorsqu’il est utilisé dans le code cloud, l’environnement de codage d’Anthropic.
L’entreprise a reconnu que le test ne mesure pas d’autres compétences professionnelles importantes telles que la collaboration, la communication ou les instincts qui se développent au fil des années d’expérience. Pourtant, Anthropic a déclaré que les résultats “soulèvent des questions sur la manière dont l’IA va changer l’ingénierie en tant que profession”.
Albert a souligné l’importance des résultats. “Je pense que c’est peut-être une sorte de signe de ce que ces modèles peuvent réellement être dans le contexte de notre travail et de leur efficacité pour notre travail”, a-t-il déclaré. “Évidemment, il s’agissait d’un travail d’ingénierie, et je dirais que les modèles sont relativement avancés en ingénierie par rapport à d’autres domaines, mais je pense que c’est un signal important auquel il faut prêter attention.”
Des améliorations spectaculaires de l’efficacité ont réduit la consommation de jetons jusqu’à 76 % dans les tests clés
Au-delà des performances brutes, Anthropic parie que les améliorations d’efficacité se démarqueront Arrêter le travail 4.5 La société a déclaré sur le marché que le modèle utilise beaucoup moins de jetons (unités de texte traitées par les systèmes d’IA) pour obtenir des résultats similaires ou meilleurs que ses prédécesseurs.
A effort modéré, l’Opus 4.5 égale le précédent Sonnet 4.5 Le meilleur score du modèle Vérifié par le banc SWE Selon Anthropic, 76 % de production en moins lors de l’utilisation de jetons. Au niveau d’effort le plus élevé, l’Opus 4.5 surpasse les performances du Sonnet 4.5 de 4,3 points de pourcentage tout en utilisant 48 % de jetons en moins.
Pour donner plus de contrôle aux développeurs, Anthropic a introduit un « paramètre d’effort » qui permet aux utilisateurs d’ajuster la quantité de travail de calcul que le modèle applique à chaque tâche, en équilibrant les performances, la latence et le coût.
Les clients Entreprise fournissent la validation principale des revendications de compétences. “Opus 4.5 bat Sonnet 4.5 et rivalise avec nos benchmarks internes, en utilisant moins de jetons pour résoudre les mêmes problèmes”, a déclaré Michele Catasta, président de la plateforme de codage basée sur le cloud Replite, dans une déclaration à VentureBeat. “À grande échelle, cette efficacité s’accroît.”
Mario Rodriguez, directeur produit de GitHub, a déclaré que les tests initiaux ont montré qu’Opus 4.5 “surpasse les références de codage internes tout en réduisant de moitié l’utilisation des jetons et est particulièrement bien adapté à des tâches telles que la migration et la refactorisation de code”.
Les premiers clients signalent des agents IA qui apprennent de l’expérience et affinent leurs propres compétences
L’une des capacités les plus intéressantes démontrées par les premiers clients comprend ce qu’Anthropic appelle des « agents auto-améliorés » : des systèmes d’IA capables d’affiner leurs propres performances grâce à un apprentissage itératif.
rakutenEntreprise japonaise de e-commerce et Internet, Claude Opus 4.5 testée sur la bureautique. “Nos agents ont pu affiner leurs propres capacités de manière autonome, atteignant des performances maximales en 4 itérations alors que d’autres modèles ne pouvaient pas atteindre cette norme après 10”, a déclaré Yusuke Kaji, directeur général des affaires de Rakuten.
Albert a expliqué que le modèle ne met pas à jour ses propres pondérations – les paramètres fondamentaux qui définissent le comportement d’un système d’IA – mais améliore plutôt de manière itérative les outils et les méthodes qu’il utilise pour résoudre les problèmes. “Il s’agissait d’affiner de manière itérative une compétence pour une tâche et d’essayer d’optimiser cette compétence pour obtenir de meilleures performances afin de pouvoir accomplir le travail”, a-t-il déclaré.
Les capacités vont au-delà du codage. Albert a déclaré qu’Anthropic avait constaté des améliorations significatives dans la création de documents, feuilles de calcul et présentations professionnels. “Ils disent que c’est la plus grande avancée dans la génération de modèles qu’ils aient vue”, a déclaré Albert. “Donc, même en passant du Sonnet 4.5 à l’Opus 4.5, c’est un saut plus important que l’un ou l’autre des deux modèles précédents.”
Laboratoire de recherche fondamentaleSelon le co-fondateur Nico Christie, une société de modélisation financière, a rapporté que « la précision de nos évaluations internes s’est améliorée de 20 %, l’efficacité a augmenté de 15 % et des tâches complexes qui semblaient autrefois hors de portée sont devenues réalisables ».
Les nouvelles fonctionnalités ciblent les utilisateurs d’Excel et suppriment les limites des flux de travail Chrome et de la durée des discussions.
En plus de la version du modèle, Anthropic a déployé une suite de mises à jour de produits destinées aux utilisateurs professionnels. Claude pour Excel devient généralement disponible pour les utilisateurs Max, Team et Enterprise avec une nouvelle prise en charge des tableaux croisés dynamiques, des graphiques et des téléchargements de fichiers. L’extension du navigateur Chrome est désormais disponible pour tous les utilisateurs Mac.
Peut-être plus particulièrement, l’introduction de l’anthropologie “Chat infini“- une fonctionnalité qui raccourcit automatiquement les premières parties de la conversation à mesure qu’elles s’allongent et élimine les limitations de la fenêtre contextuelle. “Dans Cloud AI, au sein du produit, vous disposez effectivement de ce type de fenêtre contextuelle infinie en raison du compactage et de certaines tâches de mémoire que nous effectuons”, a expliqué Albert.
Pour les développeurs, Anthropic a publié le « Programmatic Calling Tool », qui permet à Claude d’écrire et d’exécuter du code qui appelle directement des fonctions. Cloud Code a obtenu un « Mode Plan » mis à jour et est disponible sur le bureau dans Research Preview, qui permet aux développeurs d’exécuter plusieurs sessions d’agent IA en parallèle.
Le marché s’échauffe alors qu’OpenAI se bat pour égaler les performances et le prix de Google
L’anthropologie est arrivée 2 milliards de dollars de revenus annuels au premier trimestre 2025, soit plus du double du milliard de dollars de la période précédente. Le nombre de clients dépensant plus de 100 000 $ par an a été multiplié par huit d’une année sur l’autre.
Sa libération rapide Opus 4.5 – Quelques semaines plus tard Haïku 4.5 et en octobre Sonnet 4.5 En septembre – reflétant la dynamique plus large du secteur. OpenAI a publié plusieurs variantes de GPT-5 tout au long de 2025, dont une spéciale Modèle Codex Max En novembre, il peut fonctionner de manière autonome jusqu’à 24 heures. Google a livré Gemini 3 à la mi-novembre après des mois de développement.
Albert a attribué le rythme accéléré d’Anthropic en partie à la vitesse de son propre développement avec Claude. “Nous constatons beaucoup de soutien et d’accélération de la part de Claude lui-même, qu’il s’agisse de la construction du produit lui-même ou de la recherche de modèles”, a-t-il déclaré.
Une baisse de prix de l’Opus 4.5 pourrait réduire les marges tout en élargissant potentiellement le marché adressable. “J’espère que de nombreuses startups commenceront à l’intégrer beaucoup plus dans leurs produits et à le mettre en évidence”, a déclaré Albert.
Pourtant, la rentabilité reste difficile à atteindre pour les principaux laboratoires d’IA, qui investissent massivement dans l’infrastructure informatique et les talents de recherche. D Le marché de l’IA devrait générer un chiffre d’affaires supérieur à 1 000 milliards de dollars En une décennie, aucun fournisseur n’avait établi à lui seul une position dominante sur le marché, même si les modèles atteignaient un point où ils pouvaient automatiser de manière significative des tâches cognitives complexes.
Michael Truel, PDG de Cursor, un éditeur de code basé sur l’IA, a qualifié Opus 4.5 de « amélioration significative par rapport aux modèles cloud précédents de Cursor, avec une valeur et une intelligence améliorées pour les tâches de codage difficiles ». Scott Wu, PDG de Cognition, une startup de codage d’IA, a déclaré que le modèle « fournit des résultats robustes sur notre évaluation la plus rigoureuse et des performances constantes grâce à des sessions de codage autonomes de 30 minutes ».
Pour les entreprises et les promoteurs, la concurrence se traduit par des améliorations rapides des capacités à des prix en baisse. Mais à mesure que l’efficacité de l’IA dans les tâches techniques se rapproche – et parfois dépasse – du niveau d’expertise humaine, l’impact de la technologie sur le travail professionnel devient moins théorique.
Interrogé sur les résultats des tests d’ingénierie et sur ce qu’ils indiquent sur la trajectoire de l’IA, Albert a répondu sans ambages : “Je pense que c’est un signal important auquel il faut prêter attention.”







