Nvidia vient d’admettre que l’ère des GPU à usage général touche à sa fin

L’accord de licence stratégique de 20 milliards de dollars entre Nvidia et Groq représente l’une des premières étapes claires d’une bataille sur quatre fronts pour la pile d’IA du futur. C’est en 2026 que cette lutte deviendra évidente pour les créateurs d’entreprises.

Pour les décideurs techniques avec qui nous parlons quotidiennement – ​​les personnes qui créent des applications d’IA et pilotent des pipelines de données – cet accord est le signal que l’ère des GPU universelles comme réponse par défaut à l’hypothèse de l’IA touche à sa fin.

Nous entrons dans l’ère Architecture d’inférence discrèteOù le silicium lui-même se divise en deux types différents pour s’adapter à un monde qui exige à la fois un contexte plus large et une logique immédiate.

Pourquoi deviner divise les architectures GPU en deux

Pour comprendre pourquoi le PDG de Nvidia, Jensen Huang, en a abandonné un tiers Un tas de liquidités de 60 milliards de dollars annoncé Dans un accord de licence, il faut examiner l’existence de menaces intégrées dans le rapport de son entreprise 92% de part de marché.

L’industrie a atteint un point de bascule fin 2025 : pour la première fois, des estimations (les étapes auxquelles les modèles formés s’exécutent réellement) Dépasse la formation en termes de revenus totaux du centre de donnéesSelon Deloitte. Les métriques ont changé dans ce nouveau « retournement d’inférence ». Si la précision reste la référence, la bataille se livre désormais sur la latence et la capacité des agents autonomes à maintenir « l’état ».

Il y a quatre fronts dans cette bataille, et chaque front mène à la même conclusion : les charges de travail d’inférence se fragmentent plus rapidement que les GPU ne peuvent généraliser.

1. Diviser le GPU en deux parties : pré-remplissage et décodage

Gavin Baker, investisseur dans Groq (et donc partial, mais inhabituellement compétent en architecture), bref Le facteur clé de Groq est clairement traité : “l’estimation consiste à séparer le pré-remplissage et le décodage”.

Préremplir Et décoder Deux phases distinctes :

  • Phase de pré-remplissage : Considérez-le comme l’étape « invite » de l’utilisateur. Le modèle doit intégrer de grandes quantités de données – qu’il s’agisse d’une base de code de 100 000 lignes ou d’une heure de vidéo – et en tirer une compréhension pertinente. Il est « lié au calcul », nécessitant une multiplication matricielle massive dans laquelle les GPU de Nvidia ont historiquement excellé.

  • Étape de génération (décodage) : Il s’agit d’une véritable « génération » jeton par jeton. Une fois l’invite saisie, le modèle génère un mot (ou un jeton) à la fois, renvoyant chacun d’entre eux au système pour effectuer la prédiction suivante. Il est « lié à la bande passante mémoire ». Si les données ne peuvent pas passer assez rapidement de la mémoire au processeur, le modèle bégaie, quelle que soit la puissance du GPU. (C’est là que Nvidia était faible, et là où l’unité de traitement de langage spécial (LPU) de Groq et la mémoire SRAM associée brillent. Nous en parlerons davantage dans un instant.)

Il y a nvidia Une annonce à venir Véra Rubin Famille de chips Il est spécifiquement conçu pour gérer cette fragmentation. D Rubin CPX Les composants de cette famille sont désignés comme des bêtes de somme « pré-remplies », optimisées pour les grandes fenêtres contextuelles de 1 million de jetons ou plus. Pour fonctionner à ce niveau d’abordabilité, il évite les coûts exorbitants. Mémoire à large bande passante (HBM) – La mémoire de référence actuelle de Nvidia qui se trouve juste à côté de la puce GPU – et utilise à la place un nouveau type de mémoire à 128 Go, GDDR7. Bien que HBM offre une vitesse extrême (mais pas aussi rapide que la mémoire vive statique (SRAM) de Groq), sa disponibilité sur les GPU est limitée et son coût constitue un obstacle à l’évolutivité ; GDDR7 offre un moyen plus rentable de consommer de grands ensembles de données.

Pendant ce temps, le silicium « à saveur Groq », que Nvidia intègre dans sa feuille de route projetée, servira de moteur de « décodage » à grande vitesse. Il s’agit de neutraliser et de dominer une menace provenant d’architectures alternatives comme le TPU de Google Putain L’écosystème logiciel de Nvidia constitue son principal bastion depuis plus d’une décennie.

Tout cela a suffi à l’investisseur de Groq, Becker, pour prédire que la décision de Nvidia d’obtenir une licence pour Groq invaliderait toutes les autres puces spécialisées en IA, c’est-à-dire en dehors du TPU de Google, de l’AI5 de Tesla et du Trainium d’AWS.

2. Capacité de différenciation de SRAM

Au cœur de la technologie Groq SRAM. Contrairement à la DRAM trouvée dans votre PC ou au HBM d’un GPU Nvidia H100, la SRAM est écrite directement dans la logique du processeur.

Michael Stewart, associé directeur de M12, le fonds de capital-risque de Microsoft, a décrit la SRAM comme étant optimale pour déplacer des données sur de courtes distances avec une consommation minimale. “La capacité de bouger un peu dans la SRAM est de 0,1 picojoule ou moins”, a déclaré Stewart. “Le déplacer entre la DRAM et le processeur est 20 à 100 fois pire.”

Dans le monde de 2026, où les agents doivent raisonner en temps réel, SRAM constitue le « bloc-notes » ultime : un espace de travail à grande vitesse où le modèle peut gérer des opérations symboliques et des processus logiques complexes sans le « cycle de perte » de navette de mémoire externe.

Cependant, la SRAM présente un inconvénient majeur : elle est physiquement encombrante et coûteuse à fabriquer, ce qui signifie que sa capacité est limitée par rapport à la DRAM. C’est là que Val Bercovici, directeur de l’IA chez Wacker, une autre société qui propose de la mémoire pour les GPU, voit le marché segmenté.

Les charges de travail d’IA compatibles avec Groq – pour lesquelles SRAM a un avantage – sont celles qui utilisent de petits modèles de 8 milliards de paramètres et moins, a déclaré Bercovici. Ce n’est cependant pas un petit marché. “Il s’agit simplement d’un énorme segment de marché qui n’était pas servi par Nvidia, à savoir l’estimation des limites, la faible latence, la robotique, la voix, les appareils IoT – des choses que nous voulons exécuter sur nos téléphones sans le cloud pour des raisons de commodité, de performances ou de confidentialité”, a-t-il déclaré.

Ce « sweet spot » 8B est significatif car une explosion se produira en 2025 Distillation modèleAlors que de nombreuses entreprises réduisent leurs énormes modèles en versions plus petites et très efficaces. Bien que la SRAM ne soit pas pratique pour les modèles « frontières » comportant des milliers de milliards de paramètres, elle convient à ces petits modèles à grande vitesse.

3. Menaces anthropiques : montée en puissance des « piles portables »

Le facteur le plus sous-estimé de cet accord est peut-être le succès d’Anthropic à rendre sa pile portable sur tous les accélérateurs.

Il y a des entreprises Pionnier d’une approche d’ingénierie portable pour la formation et l’inférence – essentiellement une couche logicielle qui permet à ses modèles cloud de s’exécuter sur plusieurs familles d’accélérateurs d’IA – y compris les GPU de Nvidia et les TPU Ironwood de Google. Jusqu’à récemment, la domination de Nvidia était protégée car exécuter des modèles hautes performances en dehors de la pile Nvidia était un cauchemar technique. “C’est anthropomorphique”, m’a dit Waker Bercovici. “Anthropic… a été capable de créer une pile logicielle capable de fonctionner sur les TPU et les GPU, je ne pense pas que cela soit suffisamment apprécié sur le marché.”

(Divulgation : Weka a sponsorisé l’événement VentureBeat.)

Anthropic s’est engagé à accéder jusqu’à récemment 1 million de TPU Selon Google, cela représente plus d’un gigawatt de puissance de calcul. Cette approche multiplateforme garantit que l’entreprise n’est pas prise en otage par les contraintes de prix ou d’approvisionnement de Nvidia. Ainsi, pour Nvidia, l’accord Grok est également une mesure défensive. En intégrant l’IP d’inférence ultra-rapide de Groq, Nvidia garantit que les charges de travail les plus sensibles aux performances – telles que l’exécution de petits modèles ou dans le cadre d’agents en temps réel – peuvent être prises en charge au sein de l’écosystème CUDA de Nvidia, même si les concurrents tentent de se lancer dans le TPU Ironwood de Google. CUDA est un logiciel spécialisé que Nvidia propose aux développeurs pour intégrer les GPU

4. Guerres d’« État » agentiques : Manus et la cache KV

Le timing de ce contrat Groq coïncide avec la méta-acquisition de l’agent pionnier personnes Il y a à peine deux jours. La signification de Manus était en partie son obsession indépendance.

Si un agent ne se souvient pas de ce qu’il a fait il y a 10 étapes, cela est inutile pour des tâches réelles comme des études de marché ou le développement de logiciels. Cache KV (cache clé-valeur) “Mémoire à court terme” qui s’accumule lors d’une phase de pré-remplissage LLM.

personnes Rapport Pour ces agents de qualité production, Le rapport entre les jetons d’entrée et les jetons de sortie peut atteindre 100 : 1. Cela signifie que pour chaque mot prononcé par un agent, il « pense » et « se souvient » de 100 autres. Dans cet environnement, le taux de réussite du cache KV est la mesure la plus importante pour un agent de production, a déclaré Manus. Si ce cache est « expulsé » de la mémoire, l’agent perd le fil de ses pensées et le modèle doit dépenser beaucoup d’énergie pour recalculer l’invite.

La SRAM de Groq peut être un « bloc-notes » pour ces agents – mais encore une fois, principalement pour les modèles plus petits – car elle permet une récupération quasi instantanée de ces conditions. combiné avec de nvidia Dynamo Structure Et KVBM, Nvidia développe un « système d’exploitation d’inférence » qui permet aux serveurs d’inférence de superposer cet état sur SRAM, DRAM, HBM et d’autres offres basées sur Flash comme Weka de Bercovici.

Thomas Jorgensen, directeur principal des capacités technologiques chez SuperMicro, spécialisé dans la création de clusters de GPU pour les grandes entreprises, m’a déclaré en septembre que le calcul n’était plus le principal obstacle aux clusters avancés. L’alimentation des données vers le GPU constituait le goulot d’étranglement, et de la mémoire était nécessaire pour résoudre ce goulot d’étranglement.

“L’ensemble du cluster est désormais un ordinateur”, a déclaré Jorgensen. “Le réseau est devenu une partie intrinsèque de la bête… il devient de plus en plus difficile de nourrir la bête en données car la bande passante entre les GPU augmente plus rapidement que toute autre chose.”

C’est pourquoi Nvidia avance des hypothèses différentes. En séparant les charges de travail, les applications d’entreprise peuvent utiliser des couches de stockage spécialisées pour introduire les données dans des performances de classe mémoire, tandis que le silicium spécialisé « Groq-inside » gère la génération de jetons à grande vitesse.

Verdict pour 2026

Nous entrons dans une ère de spécialisation extrême. Pendant des décennies, les opérateurs historiques peuvent gagner en proposant une architecture polyvalente dominante – et leur angle mort est souvent négligé à la périphérie. La longue négligence d’Intel en matière de faible consommation en est l’exemple classique, m’a dit Michael Stewart, associé directeur du fonds de capital-risque M12 de Microsoft. Nvidia signale qu’il ne répétera pas cette erreur. “Si le leader, même le lion de la jungle, acquiert du talent, acquiert de la technologie, c’est le signe que l’ensemble du marché demande simplement plus d’options”, a déclaré Stewart.

Pour les leaders technologiques, le message est le suivant : Arrêtez de concevoir votre pile comme si c’était un rack, un accélérateur, une réponse. En 2026, les avantages iront aux équipes qui étiquetent clairement les charges de travail et les adaptent au bon niveau :

  • Beaucoup de pré-remplissage ou de décodage

  • Contexte long ou contexte court

  • Interactif ou par lots

  • Petit modèle vs grand modèle

  • Contraintes de périphérie par rapport aux hypothèses du centre de données

Votre architecture suivra ces étiquettes. En 2026, la « stratégie GPU » cesse d’être une décision d’achat et devient une décision de routage. Les gagnants ne demanderont pas quels jetons ils ont achetés – ils demanderont où est allé chaque jeton et pourquoi.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici