Gemini 3 Flash est doté d’un faible coût et d’une faible latence : une combinaison puissante pour les entreprises

Les entreprises peuvent désormais exploiter la puissance d’un grand modèle de langage proche du Gemini 3 Pro de Google, mais à une fraction du coût et avec une vitesse accrue, grâce à Le nouveau Gemini 3 Flash.

Le modèle rejoint les produits phares Gemini 3 Pro, Gemini 3 Deep Think et Gemini Agent, qui ont tous été annoncés et publiés le mois dernier.

Gemini 3 Flash, désormais disponible en avant-première dans Gemini Enterprise, Google AntiGravity, Gemini CLI, AI Studio et Vertex AI, traite les données en temps réel et permet de créer des applications agentiques rapides et réactives.

Entreprise dit dans un article de blog Ce Gemini 3 Flash « s’appuie sur la série de modèles que les développeurs et les entreprises aiment déjà, optimisés pour les flux de travail à haute fréquence qui nécessitent de la vitesse, sans sacrifier les personnes.

Le modèle est également le modèle par défaut pour le mode IA dans les applications Google Search et Gemini.

Tulsi Doshi, directeur principal de la gestion des produits de l’équipe Mithun, a déclaré : Article de blog séparé Ce modèle « prouve que la vitesse et l’échelle ne doivent pas nécessairement se faire au détriment de l’intelligence ».

« Gemini 3 Flash est conçu pour le développement itératif, offrant les performances de codage de niveau professionnel de Gemini 3 avec une faible latence : il est capable de raisonner et de résoudre des tâches plus rapidement dans des flux de travail à haute fréquence », a déclaré Doshi. “Il constitue un équilibre idéal entre le codage agent, les systèmes prêts pour la production et les applications interactives réactives.”

L’adoption précoce par des cabinets spécialisés prouve la fiabilité du modèle dans des dossiers à enjeux élevés. Harvey, une plateforme d’IA pour les cabinets d’avocats, a signalé une augmentation de 7 % du raisonnement sur son « banc BigLaw » interne, tandis que Resemble AI a découvert que Gemini 3 Flash pouvait traiter des données médico-légales complexes 4 fois plus rapidement que Gemini 2.5 Pro pour la détection des deepfakes. Il ne s’agit pas seulement de gains de vitesse ; Ils permettent des flux de travail « en temps quasi réel » qui étaient auparavant impossibles.

Plus efficace à moindre coût

Les développeurs d’IA d’entreprise sont devenus plus conscients des coûts d’exécution des modèles d’IA, d’autant plus qu’ils tentent de convaincre les parties prenantes d’investir davantage de budget dans les flux de travail agents exécutés sur des modèles coûteux. Les organisations se tournent vers des modèles plus petits ou distillés, se concentrant sur des modèles ouverts ou d’autres recherches et demandant des stratégies pour les aider à gérer les coûts excessifs de l’IA.

Pour les entreprises, la plus grande proposition de valeur de Gemini 3 Flash est qu’il offre le même niveau de fonctionnalités multimodales avancées, telles que l’analyse vidéo complexe et l’extraction de données, que ses homologues Gemini plus grands, mais il est beaucoup plus rapide et moins cher.

Bien que les documents internes de Google mettent en évidence une augmentation de vitesse de 3 fois par rapport à la série 2.5 Pro, les données d’Independent Analyse synthétique des sociétés d’analyse comparative Ajoute une couche de nuance importante.

Lors des tests préliminaires de cette dernière organisation, Gemini 3 Flash Preview a enregistré un débit brut de 218 jetons de sortie par seconde. Cela le rend 22 % plus lent que le précédent flash Gemini 2.5 « sans raisonnement », mais toujours nettement plus rapide que ses rivaux dotés du GPT-5.1 élevé d’OpenAI (125 t/s) et de la logique DeepSeek V3.2 (30 t/s).

Plus particulièrement, l’analyse synthétique a couronné le Gemini 3 Flash comme nouveau leader dans leur référence de connaissances AA-OmniScience, où il a atteint la précision des connaissances la plus élevée de tous les modèles testés à ce jour. Cependant, cette intelligence s’accompagne d’une « taxe de raisonnement » : le modèle double son utilisation de jetons par rapport à la série Flash 2,5 lorsqu’il s’agit d’indices complexes.

Cette densité élevée de jetons est compensée par la tarification agressive de Google : lorsqu’il est accessible via l’API Gemini, Gemini 3 Flash coûte 0,50 $ pour 1 million de jetons d’entrée, contre 1,25 $/1 million de jetons d’entrée et 10 $/1 million de jetons de sortie pour Gemini 2.5 Pro. Cela permet au Gemini 3 Flash de revendiquer le titre de modèle le plus rentable pour son niveau d’intelligence, même s’il s’agit de l’un des modèles les plus « négociables » en termes de volume brut de jetons. Voici comment il se compare aux offres LLM concurrentes :

modèle

Entrée (/1M)

Sortie (/1M)

coût total

la source

Qwen 3 Turbo

0,05 $

0,20 $

0,25 $

Alibaba Nuage

Grok 4.1 plus rapide (logique)

0,20 $

0,50 $

0,70 $

xAI

Grok 4.1 est rapide (non logique)

0,20 $

0,50 $

0,70 $

xAI

chat de recherche profonde (V3.2-Exp)

0,28 $

0,42 $

0,70 $

dipsique

raisonneur de recherche profonde (V3.2-Exp)

0,28 $

0,42 $

0,70 $

dipsique

Qwen3 Plus

0,40 $

1,20 $

1,60 $

Alibaba Nuage

ERNIE 5.0

0,85 $

3,40 $

4,25 $

Qianfan

Aperçu Flash de Gemini 3

0,50 $

3,00 $

3,50 $

Google

Claude Haïku 4.5

1,00 $

5,00 $

6,00 $

anthropologique

Kuen Max

1,60 $

6,40 $

8,00 $

Alibaba Nuage

Gémeaux 3 Pro (≤200K)

2,00 $

12,00 $

14,00 $

Google

GPT-5.2

1,75 $

14,00 $

15,75 $

OpenAI

Claude Sonnet 4.5

3,00 $

15,00 $

18,00 $

anthropologique

Gémeaux 3 Pro (>200K)

4,00 $

18,00 $

22,00 $

Google

Arrêter le travail 4.5

5,00 $

25,00 $

30,00 $

anthropologique

GPT-5.2 Pro

21,00 $

168,00 $

189,00 $

OpenAI

Plus de façons d’économiser

Mais les développeurs et les utilisateurs d’entreprise peuvent réduire davantage les coûts en éliminant l’écart entre l’utilisation des jetons dans les modèles les plus importants. Google affirme que le modèle est « capable de modifier son degré de réflexion », de sorte qu’il utilise plus de réflexion, et donc plus de jetons, pour des tâches plus complexes que des invites rapides. La société note que Gemini 3 Flash utilise 30 % de jetons en moins que Gemini 2.5 Pro.

Pour équilibrer cette nouvelle puissance logique avec les exigences strictes de latence de l’entreprise, Google a introduit un paramètre de « niveau de réflexion ». Les développeurs peuvent basculer entre « faible » (pour minimiser le coût et la latence des tâches de chat simples) et « élevé » (pour maximiser la profondeur logique pour l’extraction de données complexes). Ce contrôle granulaire permet aux équipes de créer des applications « à vitesse variable » qui n’utilisent que des « jetons de réflexion » coûteux lorsqu’un problème nécessite réellement un niveau de doctorat.

L’histoire économique va au-delà de la simple valeur symbolique. Grâce à l’inclusion standard de la mise en cache contextuelle, les entreprises traitant de grands ensembles de données statiques, tels que des bibliothèques juridiques entières ou des référentiels de base de code, peuvent constater une réduction de 90 % des coûts liés aux requêtes répétitives. Combiné à une remise de 50 % sur les API par lots, le coût total de possession des agents basés sur Gemini tombe nettement en dessous du seuil des modèles Frontier concurrents.

“Gemini 3 Flash offre des performances exceptionnelles dans les tâches de codage et d’agent, combinées à un prix bas, permettant aux équipes de déployer une consommation logique sophistiquée dans des processus à grand volume sans goulots d’étranglement”, a déclaré Google.

En proposant un modèle offrant de solides performances multimodales à un prix plus abordable, Google fait valoir que les entreprises soucieuses de contrôler les coûts de l’IA devraient choisir ses modèles, en particulier le Gemini 3 Flash.

Forte performance de référence

Mais comment le Gemini 3 Flash se compare-t-il aux autres modèles en termes de performances ?

Doshi dit que le modèle a obtenu un score de 78 % au test de référence vérifié SWE-Bench pour Coding Agent, surpassant à la fois la précédente famille Gemini 2.5 et le nouveau Gemini 3 Pro !

Pour les entreprises, cela signifie que de gros volumes de tâches de maintenance logicielle et de correction de bogues peuvent désormais être transférés vers un modèle à la fois plus rapide et moins cher que les modèles phares précédents, sans aucune dégradation de la qualité du code.

Le modèle a également obtenu de bons résultats dans d’autres benchmarks, avec un score de 81,2 % dans le benchmark MMMU Pro, comparable au Gemini 3 Pro.

Alors que la plupart des modèles de type Flash sont clairement optimisés pour des tâches courtes et rapides comme la génération de code, Google affirme que les performances de Gemini 3 Flash sont « idéales pour les développeurs cherchant à effectuer des analyses vidéo plus complexes, une extraction de données et des questionnements visuels avec une logique, une utilisation d’outils et des capacités multimodales, ce qui signifie qu’il peut en permettre davantage, comme des tests intelligents ou des expériences avec des réponses rapides utiles et un raisonnement approfondi.

Premières impressions des premiers utilisateurs

Jusqu’à présent, les premiers utilisateurs ont été impressionnés par le modèle, notamment par ses performances de référence.

Ce que cela signifie pour l’utilisation de l’IA en entreprise

Avec Gemini 3 Flash servant désormais de moteur par défaut dans les applications de recherche Google et Gemini, nous assistons à la « Flash-ification » de l’intelligence de pointe. En faisant de la logique professionnelle la nouvelle référence, Google crée un piège pour les opérateurs historiques lents.

L’intégration dans des plateformes comme Google AntiGravity suggère que Google ne se contente pas de vendre un modèle ; Elle vend des infrastructures pour les entreprises autonomes.

Alors que les développeurs fonctionnent 3 fois plus vite et continuent de réduire la mise en cache contextuelle de 90 %, la stratégie « Gemini-first » est devenue un argument financier convaincant. Dans la course à grande vitesse pour la domination de l’IA, Gemini 3 Flash pourrait être le modèle qui transformera enfin le « codage vibratoire » d’un passe-temps expérimental en une réalité prête pour la production.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici