Nous recherchonsLa startup d’intelligence artificielle basée à San Francisco a publié mardi un système de raisonnement mathématique open source. Nom 1 C’est la performance humaine la plus proche de l’élite de cette année. Concours mathématique William Lowell PutnamL’un des concours de mathématiques de premier cycle les plus prestigieux et notoirement difficiles au monde.
Putnam est connu pour sa difficulté : bien qu’un score parfait soit de 120, le score le plus élevé cette année était de 90 et la médiane n’était que de 2. Nomos, en revanche, a marqué 1,87 points, ce qui le place au deuxième rang sur 3 988 participants au concours de 2024, selon l’entreprise.
Cette version marque un point d’inflexion dans la course qui s’accélère rapidement pour construire des systèmes d’IA capables d’un raisonnement mathématique sophistiqué. Contrairement aux modèles massifs et gourmands en calcul déployés par les grandes entreprises technologiques, Nom 1 obtient ses résultats avec une architecture relativement compacte : 30 milliards de paramètres dont environ 3 milliards actifs à tout moment en utilisant un mix d’experts basés sur Alibaba Modèle Qwen3.
“Ce score sera classé n°2/3988 en 2024 et marque notre première étape avec Hillclimb AI vers la construction d’un mathématicien SOTA AI”, Nous Research annonce sur les réseaux sociaux mardi.
Le même modèle de base a obtenu 24 points sans la formation spéciale de Noose Research
Le plus intéressant est peut-être l’écart entre Nom 1 et son modèle de base. Alors que Nous Research gère le même Modèle Qwen3-30B-A3B-Thinking-2507 Selon un ensemble de tests identiques, il n’a obtenu que 24 sur 120, un résultat qui souligne l’importance cruciale de l’optimisation post-formation et des techniques logiques spécialisées à l’échelle du modèle brut.
“Nomos 1 a obtenu un 87/120 avec 8 scores parfaits”, note la société, soulignant que la différence de performances est “due à l’exploitation plutôt qu’à la post-formation et à la qualité des données”.
Les résultats ont été vérifiés par notation aveugle par un expert humain qui avait déjà terminé dans le Top 200 de Putnam. Nous recherchons Soumis anonymement à Grader, puis publié l’ensemble complet des fichiers désanonymisés et les runbooks utilisés pour les créer sur GitHub.
Pourquoi le concours Putnam est considéré comme le test ultime du raisonnement mathématique
D Concours mathématique William Lowell Putnam Un concours annuel de mathématiques destiné aux étudiants de premier cycle inscrits dans des établissements d’enseignement supérieur aux États-Unis et au Canada. Il est largement considéré comme le concours de mathématiques de niveau universitaire le plus prestigieux au monde.
Le concours mathématique notoirement brutal William Lowell Putnam est plus un événement sportif mathématique qu’un test académique. Le test se compose de deux séances de 3 heures séparées par une pause de 2 heures. Total de 12 questions de 6 chacune pour chaque session. Chaque question vaut 10 points, pour un total de 120 points.
Les questions Putnam ne sont pas du genre de celles qui figurent dans les tests ou les manuels réguliers. Ils ressemblent plus à des énigmes qu’à des calculs, obligeant souvent les élèves à trouver différentes façons de représenter les choses avant de découvrir une solution.
L’année dernière, près de 4 000 étudiants de tout le continent ont écrit à Putnam. 61 pour cent ont obtenu trois points ou moins, selon Société mathématique américainequi organise des compétitions. La note la plus élevée était de 90 sur 120.
De nombreux boursiers Putnam sont devenus d’éminents chercheurs en mathématiques et dans d’autres domaines, notamment trois lauréats de la médaille Fields – John Milnor, David Mumford et Daniel Quillen – et deux lauréats du prix Nobel de physique – Richard Feynman et Kenneth Wilson.
À l’intérieur du système logique en deux étapes qui alimente les progressions mathématiques de Nomos 1
Nom 1 Une spécialisation de Kuenn Modèle de réflexion Qwen3-30B-A3BOptimisé pour la résolution de problèmes mathématiques et la rédaction d’épreuves en langage naturel. Le système a été développé en collaboration avec IA de course de côte.
Ce qui distingue NOMOS 1 de l’estimation de modèle classique, c’est son faisceau de raisonnement de pointe : un cadre open source qui orchestre la manière dont le modèle arrive et résout les problèmes. Le harnais fonctionne en deux étapes distinctes sur une période de trois heures, reflétant la structure de la compétition Putnam actuelle.
Dans la phase de solution, les travailleurs parallèles s’attaquent simultanément aux problèmes en utilisant un système basé sur les priorités. Chaque travailleur choisit un problème, crée une soumission, puis note son propre travail sur une échelle de 1 à 7. Les problèmes avec les notes parfaites les plus basses sont priorisés, garantissant que le système concentre ses calculs sur les défis difficiles. Ce processus se poursuit jusqu’à ce que tous les problèmes atteignent l’objectif de scores parfaits d’autocritique ou que le temps soit écoulé.
La phase de finalisation commence 15 minutes avant la date limite (ou 50 % pour les courts tirages) et utilise un processus de sélection en deux étapes. Premièrement, une étape d’agrégation soumet les groupes par déduction et tente d’identifier le bon groupe – et surtout, pas nécessairement le groupe majoritaire. Ensuite, un tournoi par paires utilisant l’élimination simple détermine la soumission finale pour chaque problème.
“Notre système de raisonnement open source consiste en une phase de solution, au cours de laquelle les travailleurs tentent de résoudre un problème minimalement résolu et de s’auto-évaluer, suivi d’une phase finale, qui consolide les soumissions pour choisir une soumission finale pour chaque problème”, Naus Research expliqué.
Comment Nomos 1 se compare aux systèmes d’IA mathématique de Dipsic, Google et OpenAI
Les résultats de NOMOS 1 surviennent au milieu d’une vague d’avancées dans le modèle de raisonnement mathématique d’AI Dipsic, DeepSeekMath-V22024 William Lowell Putnam a obtenu 118 points sur 120 à la question du concours de mathématiques, battant le score humain le plus élevé de 90. Le modèle a également obtenu la médaille d’or à l’Olympiade mathématique internationale.
Cette année, le programme avancé de Google Modèle Gémeaux Mené de bout en bout en langage naturel, générez des preuves mathématiques rigoureuses directement à partir des descriptions officielles des problèmes, le tout dans le délai de compétition de 4,5 heures. Ils ont obtenu les résultats de cette année en utilisant une version améliorée Les Gémeaux réfléchissent profondément.
Ce qui rend les performances du Nomos 1 remarquables, ce ne sont pas ses performances brutes – il est à la traîne du 118/120 de Dipsic – mais plutôt son accessibilité et son efficacité. Avec 30 milliards de paramètres dont seulement 3 milliards actifs, le modèle peut fonctionner sur du matériel grand public, ce qui contraste fortement avec les clusters de calcul massifs requis par OpenAI et les modèles Frontier de Google.
Hermes 4.3 est arrivé il y a seulement six jours, formé sur un réseau blockchain décentralisé
L’annonce de Nomos 1 fait suite à la sortie de Noos Research le 3 décembre. Hermès 4.3Un modèle de langage à usage général qui a marqué une autre étape importante pour l’entreprise.
Basé sur Hermès 4.3, ByteDance Modèle de base Seed-OSS-36BNous Research est le premier modèle de production entièrement formé là-dessus Réseau Psyché — une infrastructure de formation distribuée qui utilise un nouvel optimiseur appelé DisTrO pour coordonner la formation sur les nœuds répartis dans les centres de données sur l’Internet ouvert, sécurisée par consensus sur la blockchain Solana.
L’institut a dispensé une formation Hermès 4.3 À travers et sur les systèmes centralisés traditionnels Réseau PsychéPlus précisément, pour vérifier que la formation distribuée peut égaler ou dépasser les performances centralisées pour les charges de travail de production. La version formée par Psyche a surpassé la version centralisée dans une série de tâches en aval, a indiqué la société.
“Les cycles de formation se sont révélés stables, avec une moyenne de 144 000 jetons/seconde répartis sur 24 nœuds Psyche”, a déclaré Nous Research. “Grâce à la technique conjointe superposée de DisTrO, l’intégralité de la communication P2P a été masquée par le temps de formation, atteignant ainsi un débit équivalent à une formation traditionnelle et centralisée.”
Hermès 4.3 Nous avons également obtenu des résultats de pointe sur RefusalBench, un nouveau benchmark qui mesure la volonté du modèle à être utile dans une variété de situations généralement limitées par d’autres modèles. Le modèle a répondu à 74,60 % des questions de RefusalBench en mode non-raisonnement, battant son prédécesseur le Hermes 4 70B (59,50 %) et surpassant les modèles fermés dont le Grok 4 (51,30 %) et le Gemini 2.5 Pro (24,23 %).
Les petits modèles dotés d’une formation intelligente réduisent l’écart avec les géants aux milliards de paramètres
Ensemble, les deux versions en une semaine signalent le pari stratégique de Nous Research : des modèles plus petits et plus efficaces dotés de techniques de post-formation sophistiquées et de harnais rationnels peuvent rivaliser – et dans certains cas surpasser – avec des modèles plus grands construits par des concurrents mieux financés.
Pour les décideurs d’entreprise, les implications sont significatives. Les capacités de raisonnement mathématique ont des applications au-delà de la compétition académique : elles sont essentielles pour la vérification formelle, la preuve de théorèmes, la modélisation scientifique, l’analyse cryptographique et tout domaine nécessitant une déduction logique rigoureuse.
La nature open source des deux versions — Nomos 1 est disponible sur Hugging Face sous la licence Apache 2.0 Harnais logique complet sur GitHub — signifie que les organisations peuvent déployer ces fonctionnalités sur leur propre infrastructure sans recourir aux appels API des principaux fournisseurs de cloud.
“Pour la première fois, n’importe qui peut diriger ou accéder à des mathématiciens de pointe en IA”, a noté un observateur sur les réseaux sociaux. “Cela réduit les obstacles à la recherche mathématique sérieuse, à la vérification des preuves, à la modélisation de systèmes complexes et au travail de raisonnement avancé.”
Les principaux contributeurs à NOMOS 1 incluent Roger Jean, qui a dirigé la formation ; Jeffrey Quesnel et Dakota Mahan, qui ont construit l’infrastructure ; Chen Guang, qui a conseillé ; et Ryan Technium et Jeffrey Quesnel, qui ont assuré le leadership. Le modèle a été développé avec les contributions de Hillclimb AI et d’une équipe d’experts en mathématiques, dont Samuel Kim, Miron Yarkevich et d’autres.
La course pour former des mathématiciens en IA va plus vite que prévu
D 86e Concours Putnam a eu lieu le samedi 6 décembre 2025, soit trois jours seulement avant la sortie de Nous Research Nomos 1. Le temps indique à quelle vitesse le domaine progresse : les entreprises lancent désormais des systèmes d’IA mathématique capables d’atteindre des performances humaines proches de celles de l’élite, quelques jours seulement après des compétitions conçues pour les résoudre.
La concurrence dans le domaine de l’IA mathématique s’est considérablement intensifiée ces derniers mois. En juillet, une version améliorée de Modèle Gemini de Google DeepMind et un modèle de raisonnement empirique de OpenAI Tous deux ont obtenu le statut d’or à l’OMI 2025. Le nouveau modèle de Dipsik Leurs performances étaient à la hauteur, résolvant 5 problèmes sur 6.
Mais les besoins en ressources pour ces systèmes frontaliers sont prohibitifs pour la plupart des organisations. L’o1-pro d’OpenAI estime plus de 1,8 billion de paramètres ; Le Gemini 2.5 Pro de Google dépasse probablement les 400 milliards. En revanche, le Nomos 1 obtient des résultats compétitifs avec une fraction de cet encombrement.
L’écart entre les modèles frontières massifs et les alternatives open source efficaces se réduit. Et pour les organisations qui ont besoin de capacités de raisonnement mathématique sans disposer du budget nécessaire au calcul à grande échelle, cet écart s’est probablement considérablement réduit.
comme un observateur Dites-le sur les réseaux sociaux : “Cela marque un pas en avant significatif pour les modèles mathématiques d’IA suffisamment petits pour fonctionner sur votre ordinateur portable.”
Un ordinateur portable qui peut désormais dépasser celui de près de 4 000 des meilleurs mathématiciens diplômés du continent.






