Démarrage chinois de l’IA GPU AI aka Z.ai a lancé sa série GLM-4.6VUne nouvelle génération de modèles de langage de vision (VLM) open source optimisés pour le raisonnement multimodal, l’automatisation frontale et les déploiements à haute efficacité.
La version comprend deux modèles en tailles « grande » et « petite » :
-
GLM-4,6 V (106B)Un modèle de paramètres plus vaste de 106 milliards destiné à l’estimation à l’échelle des nuages
-
GLM-4.6V-Flash (9B)Un petit modèle de seulement 9 milliards de paramètres est conçu pour les applications locales à faible latence
Notez que de manière générale, les modèles avec plus de paramètres (ou de paramètres internes régissant leur comportement, tels que les poids et les biais) sont plus robustes, plus performants et capables de fonctionner à des niveaux généraux plus élevés sur des tâches plus diverses.
Cependant, des modèles plus petits peuvent offrir une meilleure efficacité pour les applications en périphérie ou en temps réel où les contraintes de latence et de ressources sont critiques.
Ceci est l’introduction de l’innovation déterminante de cette série Appel de fonction native Un modèle de langage visuel permet d’utiliser directement des outils tels que la recherche, le recadrage ou la reconnaissance de graphiques avec entrée visuelle.
Avec une longueur de contexte de 128 000 jetons (équivalent au texte d’un roman de 300 pages dans une seule interaction entrée/sortie avec l’utilisateur) et des résultats de pointe (SoTA) sur plus de 20 tests de référence, la série GLM-4.6V est positionnée pour les applications open source hautement compétitives et fermées. Il est disponible dans les formats suivants :
-
Accès aux API Via une interface compatible OpenAI
-
Essayez la démo Dans l’interface Web de Zhipu
-
Téléchargez le poids Des câlins de la bouche
-
Disponible dans l’application Desktop Assistant Espace visage câlin
Licences et utilisation en entreprise
Distribué sous GLM-4.6V et GLM-4.6V-Flash mon permisUne licence open source permissive qui permet l’utilisation gratuite, commerciale et non commerciale, la modification, la redistribution et le déploiement local d’œuvres dérivées open source sans engagement.
Ce modèle de licence rend la série adaptée à l’adoption par les entreprises, y compris dans les situations nécessitant un contrôle total sur l’infrastructure, le respect de la gouvernance interne ou des environnements isolés.
Les poids des modèles et la documentation sont hébergés publiquement visage câlinAvec code de support et outils disponibles GitHub.
La licence MIT garantit une flexibilité maximale pour l’intégration dans des systèmes propriétaires, y compris les équipements internes, les pipelines de production et les déploiements périphériques.
Capacités architecturales et techniques
Les modèles GLM-4.6V suivent une architecture d’encodeur-décodeur conventionnelle avec une adaptation significative pour l’entrée multimodale.
Les deux modèles incluent un encodeur Vision Transformer (ViT) – basé sur AIMv2-Huge – et un projecteur MLP pour aligner les caractéristiques visuelles avec un décodeur Large Language Model (LLM).
Les entrées vidéo bénéficient de la convolution 3D et de la compression temporelle, tandis que l’encodage spatial est géré à l’aide d’une interpolation bicubique avec 2D-RoPE et d’une intégration spatiale absolue.
Une caractéristique technique clé est la prise en charge par le système de résolutions d’image et de formats d’image arbitraires, y compris une entrée panoramique large jusqu’à 200:1.
En plus de l’analyse statique d’images et de documents, le GLM-4.6V peut accepter des séquences temporelles d’images vidéo avec des jetons d’horodatage explicites, permettant ainsi un raisonnement temporel puissant.
Du côté du décodage, le modèle prend en charge la génération de jetons alignée sur les protocoles d’appel de fonctions, permettant une logique structurée à travers le texte, les images et la sortie des outils. Il est pris en charge par un vocabulaire étendu de tokenizer et des modèles de formatage de sortie pour garantir une compatibilité cohérente des API ou des agents.
Utiliser des outils multimodaux natifs
GLM-4.6V introduit l’appel de fonction multimodal natif, qui permet de transmettre directement des ressources visuelles, telles que des captures d’écran, des images et des documents, aux outils en tant que paramètres. Cela élimine le besoin de conversions intermédiaires en texte uniquement, qui ont historiquement introduit une perte de données et une complexité.
Le mécanisme d’invocation de l’outil fonctionne de deux manières :
-
Les outils de saisie peuvent transmettre directement des images ou des vidéos (par exemple, pour recadrer ou analyser des pages de documents).
-
Les outils de sortie tels que les moteurs de rendu de graphiques ou les utilitaires d’instantanés Web renvoient des données visuelles, que GLM-4.6V intègre directement dans la chaîne logique.
En pratique, cela signifie que le GLM-4.6V peut effectuer des tâches telles que :
-
Création de rapports structurés à partir de documents aux formats mixtes
-
Audit visuel de la photographie du candidat
-
Recadrer automatiquement les statistiques du papier pendant la génération
-
Effectuer des recherches visuelles sur le Web et répondre aux requêtes multimodales
Des références de performances plus élevées que d’autres modèles de taille similaire
Le GLM-4.6V a été évalué sur plus de 20 références publiques couvrant le VQA général, la compréhension des graphiques, l’OCR, le raisonnement STEM, la réplication frontale et les agents multimodaux.
Selon le graphique de référence publié par Zhipu AI :
-
GLM-4.6V (106B) obtient des scores SoTA ou quasi-SoTA parmi les modèles open source de taille comparable (106B) dans MMBench, MathVista, MMLongBench, ChartQAPro, RefCOCO, TreeBench, et plus encore.
-
Le GLM-4.6V-Flash (9B) a surpassé les autres modèles légers (par exemple, Qwen3-VL-8B, GLM-4.1V-9B) dans presque toutes les catégories testées.
-
La fenêtre de 128 000 jetons du modèle 106B lui permet de surpasser les modèles plus grands tels que le Step-3 (321B) et le Qwen3-VL-235B dans les tâches de documents à contexte long, la synthèse vidéo et le raisonnement multimodal structuré.
Voici des exemples de scores du classement :
-
MathVista : 88,2 (GLM-4,6V) contre 84,6 (GLM-4,5V) contre 81,4 (Qwen3-VL-8B)
-
WebVoyager : 81,0 contre 68,4 (Qwen3-VL-8B)
-
Test Ref-L4 : 88,9 contre 89,5 (GLM-4,5 V), mais avec une meilleure fiabilité de mise à la terre à 87,7 (flash) contre 86,8
Les deux modèles ont été évalués à l’aide du backend d’inférence VLLM et prennent en charge SGlang pour les tâches basées sur la vidéo.
Automatisation du frontend et workflows à contexte long
Zhipu souligne la capacité du GLM-4.6V à prendre en charge les flux de travail de développement front-end de l’IA. Le modèle peut :
-
Répliquez le code HTML/CSS/JS au pixel près à partir des captures d’écran de l’interface utilisateur
-
Acceptez la commande d’édition en langage naturel pour changer le format
-
Identifier visuellement et manipuler des éléments spécifiques de l’interface utilisateur
Cette fonctionnalité est intégrée dans une interface de programmation visuelle de bout en bout, dans laquelle le modèle parcourt la mise en page, l’intention de conception et le code de sortie en utilisant une compréhension native de la capture d’écran.
Dans les scénarios de documents longs, GLM-4.6V peut traiter jusqu’à 128 000 jetons, permettant une seule passe d’inférence :
-
150 pages de texte (saisie)
-
200 jeux de diapositives
-
1 heure de vidéo
Zhipu AI rapporte une utilisation réussie du modèle dans l’analyse financière de corpus multi-documents et dans la synthèse d’émissions sportives complètes avec détection d’événements horodatés.
Formation et apprentissage par renforcement
Le modèle a été formé à l’aide d’une pré-formation en plusieurs étapes suivie d’un réglage fin supervisé (SFT) et d’un apprentissage par renforcement (RL). Les principales innovations comprennent :
-
Curriculum Sampling (RLCS) : ajuste dynamiquement la difficulté des échantillons de formation en fonction de la progression du modèle
-
Système de récompense multi-domaines : vérificateurs spécifiques à des tâches pour STEM, raisonnement graphique, agents GUI, assurance qualité vidéo et mise à la terre spatiale
-
Formation orientée fonction : utilisation de balises structurelles (par exemple,
, , <|begin_of_box|>) pour aligner les arguments et les formats de réponse
Le pipeline d’apprentissage par renforcement met l’accent sur la récompense vérifiable (RLVR) plutôt que sur la rétroaction humaine (RLHF) pour l’évolutivité et évite la perte de KL/entropie pour stabiliser la formation dans les domaines multimodaux.
Tarification (API)
Zhipu AI propose des prix compétitifs pour la série GLM-4.6V, positionnant à la fois le modèle phare et sa variante légère pour une grande accessibilité.
-
GLM-4.6V : 0,30 $ (entrée) / 0,90 $ (sortie) par 1 million de jetons
-
GLM-4.6V-Flash : Gratuit
Comparé au LLM principal basé sur la vision et le texte, le GLM-4.6V est le plus rentable pour le raisonnement multimodal à grande échelle. Vous trouverez ci-dessous un aperçu comparatif des prix des différents fournisseurs :
1 million de jetons par USD – triés le plus bas → coût total le plus élevé
|
modèle |
saisir |
sortir |
coût total |
la source |
|
Qwen 3 Turbo |
0,05 $ |
0,20 $ |
0,25 $ |
|
|
ERNIE 4.5 Turbo |
0,11 $ |
0,45 $ |
0,56 $ |
|
|
GLM-4.6V |
0,30 $ |
0,90 $ |
1,20 $ |
|
|
Grok 4.1 plus rapide (logique) |
0,20 $ |
0,50 $ |
0,70 $ |
|
|
Grok 4.1 est rapide (non logique) |
0,20 $ |
0,50 $ |
0,70 $ |
|
|
chat de recherche profonde (V3.2-Exp) |
0,28 $ |
0,42 $ |
0,70 $ |
|
|
raisonneur de recherche profonde (V3.2-Exp) |
0,28 $ |
0,42 $ |
0,70 $ |
|
|
Qwen3 Plus |
0,40 $ |
1,20 $ |
1,60 $ |
|
|
ERNIE 5.0 |
0,85 $ |
3,40 $ |
4,25 $ |
|
|
Kuen Max |
1,60 $ |
6,40 $ |
8,00 $ |
|
|
GPT-5.1 |
1,25 $ |
10,00 $ |
11,25 $ |
|
|
Gémeaux 2.5 Pro (≤200K) |
1,25 $ |
10,00 $ |
11,25 $ |
|
|
Gémeaux 3 Pro (≤200K) |
2,00 $ |
12,00 $ |
14,00 $ |
|
|
Gémeaux 2.5 Pro (>200K) |
2,50 $ |
15,00 $ |
17,50 $ |
|
|
Grok 4 (0709) |
3,00 $ |
15,00 $ |
18,00 $ |
|
|
Gémeaux 3 Pro (>200K) |
4,00 $ |
18,00 $ |
22,00 $ |
|
|
Arrêter le travail 4.1 |
15,00 $ |
75,00 $ |
90,00 $ |
Version précédente : série GLM-4.5 et applications d’entreprise
Avant GLM-4.6V, Z.ai a lancé la famille GLM-4.5 à la mi-2025, faisant de l’entreprise un concurrent sérieux dans le développement LLM open source.
Le produit phare GLM‑4.5 et son jeune frère GLM‑4.5‑Air prennent en charge le raisonnement, l’utilisation des outils, le codage et le comportement agent, tout en offrant de solides performances dans les tests standards.
Les modèles introduisent des modes logiques doubles (« pensée » et « non-réflexion ») et peuvent générer automatiquement des présentations PowerPoint entières à partir d’une seule invite – une fonctionnalité positionnée pour être utilisée dans les flux de travail de reporting, d’éducation et de commerce interne d’entreprise. Z.ai a également élargi la série GLM-4.5 avec des variantes supplémentaires telles que GLM‑4.5‑X, AirX et Flash destinées à une estimation ultra-rapide et à des scénarios à faible coût.
Ensemble, ces fonctionnalités positionnent la série GLM-4.5 comme une option rentable, ouverte et prête pour la production pour les entreprises nécessitant une autonomie en matière de déploiement de modèles, de gestion du cycle de vie et de pipelines d’intégration.
Effets sur l’écosystème
La version GLM-4.6V représente une avancée significative dans l’IA multimodale open source. Bien que de grands modèles de langage visuel aient proliféré au cours de la dernière année, certains proposent :
-
Utilisation d’outils visuels intégrés
-
Génération multimodale structurée
-
Mémoire basée sur les agents et raisonnement décisionnel
L’accent mis par Zhipu AI sur « boucler la boucle » de la perception à l’action via l’appel de fonctions natives marque une étape vers des systèmes multimodaux agentiques.
L’architecture du modèle et le pipeline de formation montrent une évolution continue de la famille GLM, la positionnant de manière compétitive avec des offres telles que GPT-4V d’OpenAI et Gemini-VL de Google DeepMind.
Points à retenir pour les dirigeants d’entreprise
Avec GLM-4.6V, Zhipu AI introduit un VLM open source capable d’utiliser des outils visuels natifs, de raisonner en contexte long et d’automatiser le frontend. Il établit de nouvelles références de performances parmi des modèles de taille similaire et fournit une plate-forme évolutive pour la création de systèmes d’IA agentiques et multimodaux..







