Nvidia lance Nemotron 3 avec MoE hybride et Mamba-Transformer pour piloter une IA agentique efficace

La dernière version de Nvidia de ses modèles Frontier, Nemotron 3, s’appuie sur une architecture de modèle qui, selon l’entreprise la plus précieuse au monde, offre une plus grande précision et fiabilité aux agents.

Nemotoron 3 sera disponible en trois tailles : Nemotoron 3 Nano avec paramètres 30B, principalement pour un travail ciblé et très efficace ; Nemotoron 3 Super, qui est un modèle de paramètres de 100 B pour les applications multi-agents et la logique de haute précision, et Nemotoron 3 Ultra, son moteur logique plus grand et environ 500 B de paramètres pour les applications plus complexes.

Pour construire les modèles Nemotron 3, Nvidia a déclaré s’être tourné vers une architecture hybride mixte d’experts (MoE) pour améliorer l’évolutivité et l’efficacité. Grâce à cette architecture, Nvidia a déclaré dans un communiqué de presse que ses nouveaux modèles offrent aux entreprises une plus grande ouverture et de meilleures performances lors de la construction de systèmes autonomes multi-agents.

Kari Brisky, vice-président de Nvidia pour les logiciels d’IA générative, a déclaré aux journalistes lors d’un point de presse que la société souhaitait démontrer son engagement à apprendre et à améliorer les itérations précédentes de ses modèles.

“Nous pensons que nous sommes dans une position unique pour servir un large éventail de développeurs qui souhaitent une flexibilité totale pour personnaliser des modèles afin de créer une IA spécialisée en combinant ce nouveau mélange hybride de notre architecture experte avec 1 million de longueurs de contexte de jetons”, a déclaré Briskey.

Nvidia a déclaré que les premiers utilisateurs du modèle Nimotron 3 incluent Accenture, CrowdStrike, Cursor, Deloitte, EY, Oracle Cloud Infrastructure, Palantir, Perplexity, ServiceNow, Siemens et Zoom.

Une architecture révolutionnaire

Nvidia utilise une architecture hybride mixte Mamba-Transformer pour plusieurs de ses modèles, Avec Nemotoron-Nano-9B-v2.

L’architecture est basée sur des recherches de l’Université Carnegie Mellon et de Princeton, qui intègrent des modèles d’espace d’état sélectifs pour gérer de longues informations tout en conservant l’état. Cela peut également réduire le coût de calcul dans le cadre de contextes longs.

Nvidia note que sa conception « permet d’atteindre un débit de jetons jusqu’à 4 fois supérieur » à celui du Nemotoron 2 Nano et affirme qu’elle peut réduire considérablement les coûts d’inférence en réduisant la génération de jetons de 60 %.

“Nous devons vraiment être en mesure d’augmenter cette efficacité et de réduire le coût par jeton. Et vous pouvez le faire de plusieurs manières, mais nous le faisons vraiment en innovant dans cette architecture de modèle”, a déclaré Briskey. “L’architecture hybride Mamba Transformer fonctionne plusieurs fois plus rapidement avec moins de mémoire, car elle évite cette énorme carte d’attention et ce cache de valeurs clés pour chaque jeton.”

Nvidia a également introduit une innovation supplémentaire pour les modèles Nemotron 3 Super et Ultra. Pour ceux-ci, Briskey a déclaré que Nvidia avait déployé « une percée appelée MOE latent ».

“Tous ces experts de votre modèle partagent un noyau commun et n’en gardent qu’une petite partie privée. C’est un peu comme des chefs partageant une grande cuisine, mais ils ont leur propre étagère à épices”, a ajouté Brisky.

Nvidia n’est pas la seule entreprise à utiliser ce type d’architecture pour créer des modèles. AI21 Labs l’utilise pour son modèle Jamba, plus récemment Dans son modèle Jamba Reasoning 3B.

Les modèles Nemotron 3 bénéficient d’un apprentissage par renforcement amélioré. Les modèles plus grands, Super et Ultra, utilisaient le format de formation NVFP4 4 bits de la société, leur permettant de s’entraîner sur l’infrastructure existante sans compromettre la précision.

Les tests de référence issus de l’analyse synthétique ont classé les modèles Nemotron supérieurs parmi les modèles de taille similaire.

Nouvel environnement pour que les modèles puissent « s’entraîner »

Dans le cadre du lancement de Nemotoron 3, Nvidia publiera des documents de recherche utilisateur et des exemples d’invites, proposera des ensembles de données ouverts où les gens pourront utiliser et visualiser des jetons de pré-formation et des échantillons de post-formation, et plus important encore, un nouveau NeMo Gym où les clients pourront « entraîner » leurs modèles et agents.

NeMo Gym est un laboratoire d’apprentissage par renforcement où les utilisateurs peuvent laisser leurs modèles fonctionner dans un environnement simulé pour tester leurs performances après l’entraînement.

Un outil similaire a été annoncé par AWS Plateforme Nova ForgeDestiné aux entrepreneurs qui souhaitent tester leurs distillats nouvellement développés ou leurs petits modèles.

L’échantillon de données post-formation que Nvidia prévoit de publier est « d’un ordre de grandeur plus grand que n’importe quel ensemble de données post-formation disponible, et il est très permissif et ouvert », a déclaré Briskey.

Nvidia s’adresse aux développeurs à la recherche de modèles ouverts hautement intelligents et performants, afin qu’ils puissent mieux comprendre comment guider leurs modèles si nécessaire, comme base pour publier plus d’informations sur la façon de les former.

“Les développeurs de modèles se trouvent aujourd’hui confrontés à ce trio difficile. Ils doivent trouver des modèles très ouverts, très intelligents et très efficaces”, a-t-il déclaré. “La plupart des modèles ouverts obligent les développeurs à faire des compromis douloureux entre l’efficacité, comme la consommation de jetons, la latence et le débit.”

Les développeurs veulent savoir comment un modèle a été formé, d’où proviennent les données de formation et comment les évaluer, a-t-il déclaré.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici