Accueil Technologie Le nouvel Olmo 3.1 d’Ai2 étend la formation d’apprentissage par renforcement à...

Technologie

Le nouvel Olmo 3.1 d’Ai2 étend la formation d’apprentissage par renforcement à des critères de raisonnement robustes

Par

December 12, 2025

L’Allen Institute for AI (Ai2) a récemment publié ce qu’il appelle le plus puissant Toujours dans la famille des modèles, l’Olmo 3. Mais l’entreprise a continué à itérer sur les modèles, étendant ses exécutions d’apprentissage par renforcement (RL) pour créer Olmo 3.1.

Les nouveaux modèles Olmo 3.1 se concentrent sur l’efficacité, la transparence et le contrôle pour les entreprises.

Ai2 a mis à jour deux des trois versions d’Olmo 2 : Olmo 3.1 Think 32B, le modèle phare optimisé pour la recherche avancée, et Olmo 3.1 Instruct 32B, conçu pour le suivi d’instructions, les dialogues multitours et l’utilisation d’outils.

Il existe une troisième version d’Olmo 3, Olmo 3-Base pour la programmation, la compréhension et les mathématiques. Cela fonctionne également bien pour continuer à peaufiner.

Ai2 affirme que pour mettre à niveau l’Olmo 3 Think 32B vers l’Olmo 3.1, ses chercheurs ont étendu ses meilleures courses RL avec un programme d’entraînement plus long.

“Après le lancement initial d’Olmo 3, nous avons repris notre formation RL pour Olmo 3 32B Think, en nous entraînant pendant 21 jours supplémentaires sur 224 GPU avec des époques supplémentaires de notre ensemble de données Dolci-Think-RL”, a déclaré Ai2 dans un message. Article de blog. « Cela a donné l’Olmo 3.1 32B Think, qui a apporté des gains substantiels dans les tests de mathématiques, de logique et de suivi des instructions : une amélioration de plus de 5 points dans AIME, de plus de 4 points dans ZebraLogic, de plus de 4 points dans IFEval et de plus de 20 points dans IFBench ainsi que des performances complexes dans IFBench.

Quant à l’instruction Olmo 3.1, Ai2 a déclaré que ses chercheurs avaient appliqué la recette derrière la petite taille d’instruction, 7B, au modèle plus grand.

L’Olmo 3.1 Instruct 32B est « optimisé pour le chat, l’utilisation d’outils et le dialogue multidirectionnel, ce qui en fait le frère le plus performant de l’Olmo 3 Instruct 7B et prêt pour les applications du monde réel », a déclaré Ai2 dans un message. Publié le X.

Pour l’instant, les nouveaux points de contrôle sont disponibles sur Ai2 Playground ou Hug Face, avec un accès API bientôt disponible.

Meilleures performances dans les benchmarks

Les modèles Olmo 3.1 ont obtenu de bons résultats lors des tests de référence, battant, comme on pouvait s’y attendre, les modèles Olmo 3.

L’Olmo 3.1 a surpassé les modèles Qwen 3 32B dans le benchmark Think AIME 2025, et le Gemma a réalisé des performances proches du 27B.

Olmo 3.1 Instruct a réalisé de solides performances par rapport à ses pairs open source, battant même des modèles comme Gemma 3 sur les benchmarks mathématiques.

« Quant à Olmo 3.1 32B Instruct, il s’agit d’un modèle d’instructions à plus grande échelle pour le chat, l’utilisation d’outils et le dialogue multi-tours. Olmo 3.1 32B Instruct est notre modèle de chat entièrement ouvert le plus performant à ce jour et, selon notre évaluation, le modèle entièrement ouvert le plus puissant à l’échelle 32B Instruct », a déclaré la société.

Ai2 a également mis à niveau ses modèles RL-Zero 7B pour les mathématiques et le codage. La société X a déclaré que les deux modèles bénéficiaient d’une formation plus longue et plus stable.

Engagement envers la transparence et l’open source

Ai2 a précédemment déclaré à VentureBeat qu’elle avait conçu la famille de modèles Olmo 3 pour donner aux entreprises et aux laboratoires de recherche plus de contrôle et de compréhension sur les données et la formation entrant dans le modèle.

Les organisations peuvent ajouter les données du modèle au mélange et les recycler pour tirer les leçons de ce qui a été ajouté.

C’est une promesse depuis longtemps pour Ai2, qui en propose également une Un outil appelé OlmoTrace Il suit la manière dont la sortie LLM correspond à ses données de formation.

« Ensemble, Olmo 3.1 Think 32B et Olmo 3.1 Instruct 32B montrent que l’ouverture et les performances peuvent aller de pair. En étendant le même flux de modèle, nous continuons à améliorer les capacités tout en maintenant une transparence de bout en bout sur les données, le code et les décisions de formation », a déclaré Ai2.

Le nouvel Olmo 3.1 d’Ai2 étend la formation d’apprentissage par renforcement à des critères de raisonnement robustes

Meilleures performances dans les benchmarks

Engagement envers la transparence et l’open source

LAISSER UN COMMENTAIRE Annuler la réponse

Best Buy Black Friday Ads 2025 : meilleures offres pour acheter tôt

5 meilleurs moniteurs pour Mac Mini (2025), testés et examinés

L’iPhone pliable d’Apple sera dévoilé en 2026 – avec des retards...

Meilleures performances dans les benchmarks

Engagement envers la transparence et l’open source

Related Posts:

ARTICLES CONNEXESPLUS DE L'AUTEUR

Les 3 meilleurs écouteurs de sommeil, essayés et testés (et un à éviter)

Jensen Huang affirme que les nouvelles puces Vera Rubin de Nvidia sont « en pleine production »

Le plus gros disque dur de Seagate arrive discrètement dans les magasins japonais, avec une capacité énorme, des spécifications limitées et un prix choquant.

LAISSER UN COMMENTAIRE Annuler la réponse

Best Buy Black Friday Ads 2025 : meilleures offres pour acheter tôt

5 meilleurs moniteurs pour Mac Mini (2025), testés et examinés

L’iPhone pliable d’Apple sera dévoilé en 2026 – avec des retards...

ARTICLES CONNEXES PLUS DE L'AUTEUR