Accueil Nouvelles Z.ai lance le GLM-4.6V Open Source, un modèle de vision natif appelant...

Nouvelles

Z.ai lance le GLM-4.6V Open Source, un modèle de vision natif appelant des outils pour le raisonnement multimodal

Par

December 9, 2025

Démarrage chinois de l’IA GPU AI aka Z.ai a lancé sa série GLM-4.6VUne nouvelle génération de modèles de langage de vision (VLM) open source optimisés pour le raisonnement multimodal, l’automatisation frontale et les déploiements à haute efficacité.

La version comprend deux modèles en tailles « grande » et « petite » :

GLM-4,6 V (106B)Un modèle de paramètres plus vaste de 106 milliards destiné à l’estimation à l’échelle des nuages
GLM-4.6V-Flash (9B)Un petit modèle de seulement 9 milliards de paramètres est conçu pour les applications locales à faible latence

Notez que de manière générale, les modèles avec plus de paramètres (ou de paramètres internes régissant leur comportement, tels que les poids et les biais) sont plus robustes, plus performants et capables de fonctionner à des niveaux généraux plus élevés sur des tâches plus diverses.

Cependant, des modèles plus petits peuvent offrir une meilleure efficacité pour les applications en périphérie ou en temps réel où les contraintes de latence et de ressources sont critiques.

Ceci est l’introduction de l’innovation déterminante de cette série Appel de fonction native Un modèle de langage visuel permet d’utiliser directement des outils tels que la recherche, le recadrage ou la reconnaissance de graphiques avec entrée visuelle.

Avec une longueur de contexte de 128 000 jetons (équivalent au texte d’un roman de 300 pages dans une seule interaction entrée/sortie avec l’utilisateur) et des résultats de pointe (SoTA) sur plus de 20 tests de référence, la série GLM-4.6V est positionnée pour les applications open source hautement compétitives et fermées. Il est disponible dans les formats suivants :

Accès aux API Via une interface compatible OpenAI
Essayez la démo Dans l’interface Web de Zhipu
Téléchargez le poids Des câlins de la bouche
Disponible dans l’application Desktop Assistant Espace visage câlin

Licences et utilisation en entreprise

Distribué sous GLM-4.6V et GLM-4.6V-Flash mon permisUne licence open source permissive qui permet l’utilisation gratuite, commerciale et non commerciale, la modification, la redistribution et le déploiement local d’œuvres dérivées open source sans engagement.

Ce modèle de licence rend la série adaptée à l’adoption par les entreprises, y compris dans les situations nécessitant un contrôle total sur l’infrastructure, le respect de la gouvernance interne ou des environnements isolés.

Les poids des modèles et la documentation sont hébergés publiquement visage câlinAvec code de support et outils disponibles GitHub.

La licence MIT garantit une flexibilité maximale pour l’intégration dans des systèmes propriétaires, y compris les équipements internes, les pipelines de production et les déploiements périphériques.

Capacités architecturales et techniques

Les modèles GLM-4.6V suivent une architecture d’encodeur-décodeur conventionnelle avec une adaptation significative pour l’entrée multimodale.

Les deux modèles incluent un encodeur Vision Transformer (ViT) – basé sur AIMv2-Huge – et un projecteur MLP pour aligner les caractéristiques visuelles avec un décodeur Large Language Model (LLM).

Les entrées vidéo bénéficient de la convolution 3D et de la compression temporelle, tandis que l’encodage spatial est géré à l’aide d’une interpolation bicubique avec 2D-RoPE et d’une intégration spatiale absolue.

Une caractéristique technique clé est la prise en charge par le système de résolutions d’image et de formats d’image arbitraires, y compris une entrée panoramique large jusqu’à 200:1.

En plus de l’analyse statique d’images et de documents, le GLM-4.6V peut accepter des séquences temporelles d’images vidéo avec des jetons d’horodatage explicites, permettant ainsi un raisonnement temporel puissant.

Du côté du décodage, le modèle prend en charge la génération de jetons alignée sur les protocoles d’appel de fonctions, permettant une logique structurée à travers le texte, les images et la sortie des outils. Il est pris en charge par un vocabulaire étendu de tokenizer et des modèles de formatage de sortie pour garantir une compatibilité cohérente des API ou des agents.

Utiliser des outils multimodaux natifs

GLM-4.6V introduit l’appel de fonction multimodal natif, qui permet de transmettre directement des ressources visuelles, telles que des captures d’écran, des images et des documents, aux outils en tant que paramètres. Cela élimine le besoin de conversions intermédiaires en texte uniquement, qui ont historiquement introduit une perte de données et une complexité.

Le mécanisme d’invocation de l’outil fonctionne de deux manières :

Les outils de saisie peuvent transmettre directement des images ou des vidéos (par exemple, pour recadrer ou analyser des pages de documents).
Les outils de sortie tels que les moteurs de rendu de graphiques ou les utilitaires d’instantanés Web renvoient des données visuelles, que GLM-4.6V intègre directement dans la chaîne logique.

En pratique, cela signifie que le GLM-4.6V peut effectuer des tâches telles que :

Création de rapports structurés à partir de documents aux formats mixtes
Audit visuel de la photographie du candidat
Recadrer automatiquement les statistiques du papier pendant la génération
Effectuer des recherches visuelles sur le Web et répondre aux requêtes multimodales

Des références de performances plus élevées que d’autres modèles de taille similaire

Le GLM-4.6V a été évalué sur plus de 20 références publiques couvrant le VQA général, la compréhension des graphiques, l’OCR, le raisonnement STEM, la réplication frontale et les agents multimodaux.

Selon le graphique de référence publié par Zhipu AI :

GLM-4.6V (106B) obtient des scores SoTA ou quasi-SoTA parmi les modèles open source de taille comparable (106B) dans MMBench, MathVista, MMLongBench, ChartQAPro, RefCOCO, TreeBench, et plus encore.
Le GLM-4.6V-Flash (9B) a surpassé les autres modèles légers (par exemple, Qwen3-VL-8B, GLM-4.1V-9B) dans presque toutes les catégories testées.
La fenêtre de 128 000 jetons du modèle 106B lui permet de surpasser les modèles plus grands tels que le Step-3 (321B) et le Qwen3-VL-235B dans les tâches de documents à contexte long, la synthèse vidéo et le raisonnement multimodal structuré.

Voici des exemples de scores du classement :

MathVista : 88,2 (GLM-4,6V) contre 84,6 (GLM-4,5V) contre 81,4 (Qwen3-VL-8B)
WebVoyager : 81,0 contre 68,4 (Qwen3-VL-8B)
Test Ref-L4 : 88,9 contre 89,5 (GLM-4,5 V), mais avec une meilleure fiabilité de mise à la terre à 87,7 (flash) contre 86,8

Les deux modèles ont été évalués à l’aide du backend d’inférence VLLM et prennent en charge SGlang pour les tâches basées sur la vidéo.

Automatisation du frontend et workflows à contexte long

Zhipu souligne la capacité du GLM-4.6V à prendre en charge les flux de travail de développement front-end de l’IA. Le modèle peut :

Répliquez le code HTML/CSS/JS au pixel près à partir des captures d’écran de l’interface utilisateur
Acceptez la commande d’édition en langage naturel pour changer le format
Identifier visuellement et manipuler des éléments spécifiques de l’interface utilisateur

Cette fonctionnalité est intégrée dans une interface de programmation visuelle de bout en bout, dans laquelle le modèle parcourt la mise en page, l’intention de conception et le code de sortie en utilisant une compréhension native de la capture d’écran.

Dans les scénarios de documents longs, GLM-4.6V peut traiter jusqu’à 128 000 jetons, permettant une seule passe d’inférence :

150 pages de texte (saisie)
200 jeux de diapositives
1 heure de vidéo

Zhipu AI rapporte une utilisation réussie du modèle dans l’analyse financière de corpus multi-documents et dans la synthèse d’émissions sportives complètes avec détection d’événements horodatés.

Formation et apprentissage par renforcement

Le modèle a été formé à l’aide d’une pré-formation en plusieurs étapes suivie d’un réglage fin supervisé (SFT) et d’un apprentissage par renforcement (RL). Les principales innovations comprennent :

Curriculum Sampling (RLCS) : ajuste dynamiquement la difficulté des échantillons de formation en fonction de la progression du modèle
Système de récompense multi-domaines : vérificateurs spécifiques à des tâches pour STEM, raisonnement graphique, agents GUI, assurance qualité vidéo et mise à la terre spatiale
Formation orientée fonction : utilisation de balises structurelles (par exemple, , , <|begin_of_box|>) pour aligner les arguments et les formats de réponse

Le pipeline d’apprentissage par renforcement met l’accent sur la récompense vérifiable (RLVR) plutôt que sur la rétroaction humaine (RLHF) pour l’évolutivité et évite la perte de KL/entropie pour stabiliser la formation dans les domaines multimodaux.

Tarification (API)

Zhipu AI propose des prix compétitifs pour la série GLM-4.6V, positionnant à la fois le modèle phare et sa variante légère pour une grande accessibilité.

GLM-4.6V : 0,30 $ (entrée) / 0,90 $ (sortie) par 1 million de jetons
GLM-4.6V-Flash : Gratuit

Comparé au LLM principal basé sur la vision et le texte, le GLM-4.6V est le plus rentable pour le raisonnement multimodal à grande échelle. Vous trouverez ci-dessous un aperçu comparatif des prix des différents fournisseurs :

1 million de jetons par USD – triés le plus bas → coût total le plus élevé

modèle	saisir	sortir	coût total	la source
Qwen 3 Turbo	0,05 $	0,20 $	0,25 $	Alibaba Nuage
ERNIE 4.5 Turbo	0,11 $	0,45 $	0,56 $	Qianfan
GLM-4.6V	0,30 $	0,90 $	1,20 $	Z. IA
Grok 4.1 plus rapide (logique)	0,20 $	0,50 $	0,70 $	xAI
Grok 4.1 est rapide (non logique)	0,20 $	0,50 $	0,70 $	xAI
chat de recherche profonde (V3.2-Exp)	0,28 $	0,42 $	0,70 $	dipsique
raisonneur de recherche profonde (V3.2-Exp)	0,28 $	0,42 $	0,70 $	dipsique
Qwen3 Plus	0,40 $	1,20 $	1,60 $	Alibaba Nuage
ERNIE 5.0	0,85 $	3,40 $	4,25 $	Qianfan
Kuen Max	1,60 $	6,40 $	8,00 $	Alibaba Nuage
GPT-5.1	1,25 $	10,00 $	11,25 $	OpenAI
Gémeaux 2.5 Pro (≤200K)	1,25 $	10,00 $	11,25 $	Google
Gémeaux 3 Pro (≤200K)	2,00 $	12,00 $	14,00 $	Google
Gémeaux 2.5 Pro (>200K)	2,50 $	15,00 $	17,50 $	Google
Grok 4 (0709)	3,00 $	15,00 $	18,00 $	xAI
Gémeaux 3 Pro (>200K)	4,00 $	18,00 $	22,00 $	Google
Arrêter le travail 4.1	15,00 $	75,00 $	90,00 $	anthropologique

Version précédente : série GLM-4.5 et applications d’entreprise

Avant GLM-4.6V, Z.ai a lancé la famille GLM-4.5 à la mi-2025, faisant de l’entreprise un concurrent sérieux dans le développement LLM open source.

Le produit phare GLM‑4.5 et son jeune frère GLM‑4.5‑Air prennent en charge le raisonnement, l’utilisation des outils, le codage et le comportement agent, tout en offrant de solides performances dans les tests standards.

Les modèles introduisent des modes logiques doubles (« pensée » et « non-réflexion ») et peuvent générer automatiquement des présentations PowerPoint entières à partir d’une seule invite – une fonctionnalité positionnée pour être utilisée dans les flux de travail de reporting, d’éducation et de commerce interne d’entreprise. Z.ai a également élargi la série GLM-4.5 avec des variantes supplémentaires telles que GLM‑4.5‑X, AirX et Flash destinées à une estimation ultra-rapide et à des scénarios à faible coût.

Ensemble, ces fonctionnalités positionnent la série GLM-4.5 comme une option rentable, ouverte et prête pour la production pour les entreprises nécessitant une autonomie en matière de déploiement de modèles, de gestion du cycle de vie et de pipelines d’intégration.

Effets sur l’écosystème

La version GLM-4.6V représente une avancée significative dans l’IA multimodale open source. Bien que de grands modèles de langage visuel aient proliféré au cours de la dernière année, certains proposent :

Utilisation d’outils visuels intégrés
Génération multimodale structurée
Mémoire basée sur les agents et raisonnement décisionnel

L’accent mis par Zhipu AI sur « boucler la boucle » de la perception à l’action via l’appel de fonctions natives marque une étape vers des systèmes multimodaux agentiques.

L’architecture du modèle et le pipeline de formation montrent une évolution continue de la famille GLM, la positionnant de manière compétitive avec des offres telles que GPT-4V d’OpenAI et Gemini-VL de Google DeepMind.

Points à retenir pour les dirigeants d’entreprise

Avec GLM-4.6V, Zhipu AI introduit un VLM open source capable d’utiliser des outils visuels natifs, de raisonner en contexte long et d’automatiser le frontend. Il établit de nouvelles références de performances parmi des modèles de taille similaire et fournit une plate-forme évolutive pour la création de systèmes d’IA agentiques et multimodaux..

Z.ai lance le GLM-4.6V Open Source, un modèle de vision natif appelant des outils pour le raisonnement multimodal

Licences et utilisation en entreprise

Capacités architecturales et techniques

Utiliser des outils multimodaux natifs

Des références de performances plus élevées que d’autres modèles de taille similaire

Automatisation du frontend et workflows à contexte long

Formation et apprentissage par renforcement

Tarification (API)

Version précédente : série GLM-4.5 et applications d’entreprise

Effets sur l’écosystème

Points à retenir pour les dirigeants d’entreprise

LAISSER UN COMMENTAIRE Annuler la réponse

Dernières Nouvelles

Meilleures jumelles (2025) : Zeiss, Swarovski, Leica

Minnesota fraud committee chair claims Walz 'turned a blind eye' to fraud warnings for...

NYT Connection d’aujourd’hui : conseils sur l’édition sportive, réponse n° 449 du 16 décembre

Les meilleurs téléphones de 2025 étaient aussi les pires

John Lennon et Dave Grohl sont tous deux d’accord pour dire que l’album des...

Code promotionnel et réduction Ring : jusqu’à 50 % de réduction

OpenAI accepte désormais les soumissions d’applications ChatGPT de développeurs tiers, en lançant le répertoire...

Anthropic Enterprise lance « Agent Skills » et remet en question les normes OpenAI en matière...

TikTok supprime les publicités de perte de poids IA des faux comptes de démarrage

William Kikau des Canterbury Bulldogs a signé une prolongation de contrat de deux ans

Les membres de la famille de Carolyn Levitt sont envahis par des agents de...

L’acteur de “The Mask” et “Pulp Fiction” Peter Green a été retrouvé mort

Instacart va payer à ses clients 60 millions de dollars en règlement FTC

Nvidia lance Nemotron 3 avec MoE hybride et Mamba-Transformer pour piloter une IA agentique...

Nouvelles Populaires

Liverpool veut recruter le défenseur de la Liga pour un transfert...

un élément essentiel de notre identité

Choc de l’Australia Day alors que les contribuables déboursent 1,5 million...

Le nouveau cadre simplifie le paysage complexe de l’IA agentique

Licences et utilisation en entreprise

Capacités architecturales et techniques

Utiliser des outils multimodaux natifs

Des références de performances plus élevées que d’autres modèles de taille similaire

Automatisation du frontend et workflows à contexte long

Formation et apprentissage par renforcement

Tarification (API)

Version précédente : série GLM-4.5 et applications d’entreprise

Effets sur l’écosystème

Points à retenir pour les dirigeants d’entreprise

Related Posts:

LAISSER UN COMMENTAIRE Annuler la réponse

Dernières Nouvelles

Nouvelles Populaires