Les références d’IA générative conçues pour mesurer l’efficacité et la précision d’un modèle donné pour accomplir diverses tâches de support de l’entreprise ne manquent pas – de Codage depuis Suivez les instructions depuis Navigation Web agentique Et Utiliser l’outil. Mais bon nombre de ces benchmarks présentent un défaut majeur : ils mesurent la capacité de l’IA à résoudre des problèmes et des demandes spécifiques, et non la manière dont elle le fait. réel Le modèle se compose de ses résultats – dans quelle mesure il produit des informations objectivement précises liées à des données du monde réel – en particulier lorsqu’il s’agit d’informations contenues dans des images ou des graphiques.
Pour les secteurs où la précision est primordiale – juridique, financière et médicale – il manque un moyen standardisé de la mesurer. la réalité Il existe un angle mort critique.
Cela a changé aujourd’hui : l’équipe FACTS de Google et son unité de science des données Kaggle FACTS a publié Benchmark Suite, un cadre d’évaluation complet Conçu pour combler cet écart.
lié à Documents de recherche Exprime une définition plus nuancée du problème, divisant la « factualité » en deux situations opérationnelles distinctes : la « réalité contextuelle » (fonder les réponses à des données données) et la « réalité de la connaissance mondiale » (récupérer des informations de la mémoire ou du Web).
Alors que l’actualité principale est le placement de premier plan du Gemini 3 Pro, l’histoire la plus profonde pour les constructeurs est le « mur de réalité » à l’échelle de l’industrie.
Selon les résultats préliminaires, aucun des modèles, y compris Gemini 3 Pro, GPT-5 ou Cloud 4.5 Opus, n’a été en mesure d’atteindre un score de précision de 70 % sur l’ensemble des problèmes. Pour les leaders technologiques, c’est un signal : l’ère du « faire confiance mais vérifier » n’est pas révolue.
Déconstruire le benchmark
La suite FACTS va au-delà des simples questions et réponses. Il se compose de quatre tests distincts, chacun simulant un mode de défaillance réel différent que les développeurs rencontrent en production :
-
Benchmarks paramétriques (connaissances internes) : Le modèle peut-il répondre correctement à des questions de type triviale en utilisant uniquement ses données d’entraînement ?
-
Rechercher des benchmarks (à l’aide de l’outil) : Le modèle peut-il utiliser efficacement un outil de recherche Web pour récupérer et synthétiser des données en direct ?
-
Benchmark multimodal (Vision) : Le modèle peut-il interpréter correctement des graphiques, des diagrammes et des illustrations sans hallucinations ?
-
Grounding Benchmark v2 (contexte) : Le modèle peut-il s’en tenir strictement au texte source donné ?
Google a rendu public 3 513 exemples, tandis que Kaggle a conservé un ensemble privé pour empêcher les développeurs de se former sur les données de test – un problème courant connu sous le nom de « contamination ».
Classement : un jeu de pouces
Lors d’une première série de benchmarks, Gemini 3 Pro était en tête avec un score FACTS global de 68,8 %, suivi de Gemini 2.5 Pro (62,1 %) et du GPT-5 d’OpenAI (61,8 %). Cependant, un examen plus attentif des données révèle où se situe le véritable champ de bataille pour l’équipe d’ingénierie.
|
modèle |
NOTE DES FAITS (MOYENNE) |
Recherche (capacité RAG) |
multimodal (vision) |
|
Gémeaux 3 Pro |
68,8 |
83,8 |
46.1 |
|
Gémeaux 2.5 Pro |
62.1 |
63,9 |
46,9 |
|
GPT-5 |
61,8 |
77,7 |
44.1 |
|
Grok 4 |
53,6 |
75.3 |
25,7 |
|
4.5 Cessation des travaux |
51.3 |
73.2 |
39.2 |
Informations provenant des notes de version de l’équipe FACTS.
Pour les constructeurs : l’écart entre « exploratoire » et « paramétrique »
Pour les développeurs créant des systèmes RAG (Recovery-Augmented Generation), les références de recherche sont la mesure la plus importante.
Les données montrent une énorme différence entre la capacité d’un modèle à « connaître » des choses (paramétrique) et sa capacité à « trouver » des choses (exploratoire). Par exemple, le Gemini 3 Pro a obtenu un score élevé de 83,8 % pour la tâche de recherche, mais seulement de 76,4 % pour la tâche paramétrique.
Cela valide la norme actuelle de l’architecture d’entreprise : ne comptez pas sur la mémoire interne du modèle pour les informations critiques.
Si vous créez un robot de connaissances interne, les résultats de FACTS suggèrent que la connexion de votre modèle à un outil de recherche ou à une base de données vectorielles n’est pas facultative : c’est le seul moyen d’augmenter la précision vers des niveaux de production acceptables.
Alertes multimodales
Le point de données qui préoccupe le plus les chefs de produit est la performance des tâches multimodales. Les scores ici sont universellement faibles. Même le leader de la catégorie, le Gemini 2.5 Pro, n’a atteint qu’une précision de 46,9 %.
Les tâches de référence comprenaient la lecture de graphiques, l’interprétation de diagrammes et l’identification d’objets dans la nature. Avec une précision globale inférieure à 50 %, cela suggère que l’IA multimodale n’est pas encore prête pour l’extraction de données non supervisée.
Conclusion : Si la feuille de route de votre produit implique que l’IA récupère automatiquement les données des factures ou interprète des tableaux financiers sans examen humain, Vous introduisez probablement des taux d’erreur importants dans votre pipeline.
Pourquoi c’est important pour votre stack
FACTS peut devenir un point de référence idéal pour des achats de référence. Lors de l’évaluation des modèles destinés à une utilisation en entreprise, les responsables technologiques doivent regarder au-delà du score composite et explorer des sous-références spécifiques qui correspondent à leurs cas d’utilisation :
-
Créer un robot de support client ? Vérifiez le score de mise à la terre pour vous assurer que les robots respectent votre document de politique. (Le Gemini 2.5 Pro bat ici le Gemini 3 Pro, 74,2 contre 69,0).
-
Construire un assistant de recherche ? Donnez la priorité aux scores de recherche.
-
Construire un outil d’analyse d’images ? Procédez avec une extrême prudence.
Comme l’a noté l’équipe FACTS dans son communiqué, « tous les modèles évalués ont atteint une précision globale inférieure à 70 %, laissant une marge considérable pour de futurs progrès. » Pour l’instant, le message adressé à l’industrie est clair : les modèles deviennent plus intelligents, mais ils ne sont toujours pas précis. Concevez vos systèmes en supposant que, environ un tiers du temps, le modèle brut peut être erroné.







