Accueil Nouvelles Plafond de réalité de 70 % : pourquoi le nouveau benchmark « FACTS » de Google...

Nouvelles

Plafond de réalité de 70 % : pourquoi le nouveau benchmark « FACTS » de Google est un signal d’alarme pour l’IA d’entreprise

Par

December 11, 2025

Les références d’IA générative conçues pour mesurer l’efficacité et la précision d’un modèle donné pour accomplir diverses tâches de support de l’entreprise ne manquent pas – de Codage depuis Suivez les instructions depuis Navigation Web agentique Et Utiliser l’outil. Mais bon nombre de ces benchmarks présentent un défaut majeur : ils mesurent la capacité de l’IA à résoudre des problèmes et des demandes spécifiques, et non la manière dont elle le fait. réel Le modèle se compose de ses résultats – dans quelle mesure il produit des informations objectivement précises liées à des données du monde réel – en particulier lorsqu’il s’agit d’informations contenues dans des images ou des graphiques.

Pour les secteurs où la précision est primordiale – juridique, financière et médicale – il manque un moyen standardisé de la mesurer. la réalité Il existe un angle mort critique.

Cela a changé aujourd’hui : l’équipe FACTS de Google et son unité de science des données Kaggle FACTS a publié Benchmark Suite, un cadre d’évaluation complet Conçu pour combler cet écart.

lié à Documents de recherche Exprime une définition plus nuancée du problème, divisant la « factualité » en deux situations opérationnelles distinctes : la « réalité contextuelle » (fonder les réponses à des données données) et la « réalité de la connaissance mondiale » (récupérer des informations de la mémoire ou du Web).

Alors que l’actualité principale est le placement de premier plan du Gemini 3 Pro, l’histoire la plus profonde pour les constructeurs est le « mur de réalité » à l’échelle de l’industrie.

Selon les résultats préliminaires, aucun des modèles, y compris Gemini 3 Pro, GPT-5 ou Cloud 4.5 Opus, n’a été en mesure d’atteindre un score de précision de 70 % sur l’ensemble des problèmes. Pour les leaders technologiques, c’est un signal : l’ère du « faire confiance mais vérifier » n’est pas révolue.

Déconstruire le benchmark

La suite FACTS va au-delà des simples questions et réponses. Il se compose de quatre tests distincts, chacun simulant un mode de défaillance réel différent que les développeurs rencontrent en production :

Benchmarks paramétriques (connaissances internes) : Le modèle peut-il répondre correctement à des questions de type triviale en utilisant uniquement ses données d’entraînement ?
Rechercher des benchmarks (à l’aide de l’outil) : Le modèle peut-il utiliser efficacement un outil de recherche Web pour récupérer et synthétiser des données en direct ?
Benchmark multimodal (Vision) : Le modèle peut-il interpréter correctement des graphiques, des diagrammes et des illustrations sans hallucinations ?
Grounding Benchmark v2 (contexte) : Le modèle peut-il s’en tenir strictement au texte source donné ?

Google a rendu public 3 513 exemples, tandis que Kaggle a conservé un ensemble privé pour empêcher les développeurs de se former sur les données de test – un problème courant connu sous le nom de « contamination ».

Classement : un jeu de pouces

Lors d’une première série de benchmarks, Gemini 3 Pro était en tête avec un score FACTS global de 68,8 %, suivi de Gemini 2.5 Pro (62,1 %) et du GPT-5 d’OpenAI (61,8 %). Cependant, un examen plus attentif des données révèle où se situe le véritable champ de bataille pour l’équipe d’ingénierie.

modèle	NOTE DES FAITS (MOYENNE)	Recherche (capacité RAG)	multimodal (vision)
Gémeaux 3 Pro	68,8	83,8	46.1
Gémeaux 2.5 Pro	62.1	63,9	46,9
GPT-5	61,8	77,7	44.1
Grok 4	53,6	75.3	25,7
4.5 Cessation des travaux	51.3	73.2	39.2

Informations provenant des notes de version de l’équipe FACTS.

Pour les constructeurs : l’écart entre « exploratoire » et « paramétrique »

Pour les développeurs créant des systèmes RAG (Recovery-Augmented Generation), les références de recherche sont la mesure la plus importante.

Les données montrent une énorme différence entre la capacité d’un modèle à « connaître » des choses (paramétrique) et sa capacité à « trouver » des choses (exploratoire). Par exemple, le Gemini 3 Pro a obtenu un score élevé de 83,8 % pour la tâche de recherche, mais seulement de 76,4 % pour la tâche paramétrique.

Cela valide la norme actuelle de l’architecture d’entreprise : ne comptez pas sur la mémoire interne du modèle pour les informations critiques.

Si vous créez un robot de connaissances interne, les résultats de FACTS suggèrent que la connexion de votre modèle à un outil de recherche ou à une base de données vectorielles n’est pas facultative : c’est le seul moyen d’augmenter la précision vers des niveaux de production acceptables.

Alertes multimodales

Le point de données qui préoccupe le plus les chefs de produit est la performance des tâches multimodales. Les scores ici sont universellement faibles. Même le leader de la catégorie, le Gemini 2.5 Pro, n’a atteint qu’une précision de 46,9 %.

Les tâches de référence comprenaient la lecture de graphiques, l’interprétation de diagrammes et l’identification d’objets dans la nature. Avec une précision globale inférieure à 50 %, cela suggère que l’IA multimodale n’est pas encore prête pour l’extraction de données non supervisée.

Conclusion : Si la feuille de route de votre produit implique que l’IA récupère automatiquement les données des factures ou interprète des tableaux financiers sans examen humain, Vous introduisez probablement des taux d’erreur importants dans votre pipeline.

Pourquoi c’est important pour votre stack

FACTS peut devenir un point de référence idéal pour des achats de référence. Lors de l’évaluation des modèles destinés à une utilisation en entreprise, les responsables technologiques doivent regarder au-delà du score composite et explorer des sous-références spécifiques qui correspondent à leurs cas d’utilisation :

Créer un robot de support client ? Vérifiez le score de mise à la terre pour vous assurer que les robots respectent votre document de politique. (Le Gemini 2.5 Pro bat ici le Gemini 3 Pro, 74,2 contre 69,0).
Construire un assistant de recherche ? Donnez la priorité aux scores de recherche.
Construire un outil d’analyse d’images ? Procédez avec une extrême prudence.

Comme l’a noté l’équipe FACTS dans son communiqué, « tous les modèles évalués ont atteint une précision globale inférieure à 70 %, laissant une marge considérable pour de futurs progrès. » Pour l’instant, le message adressé à l’industrie est clair : les modèles deviennent plus intelligents, mais ils ne sont toujours pas précis. Concevez vos systèmes en supposant que, environ un tiers du temps, le modèle brut peut être erroné.

Plafond de réalité de 70 % : pourquoi le nouveau benchmark « FACTS » de Google est un signal d’alarme pour l’IA d’entreprise

Déconstruire le benchmark

Classement : un jeu de pouces

Pour les constructeurs : l’écart entre « exploratoire » et « paramétrique »

Alertes multimodales

Pourquoi c’est important pour votre stack

LAISSER UN COMMENTAIRE Annuler la réponse

Dernières Nouvelles

Les sociétés d’IA affirment que les espions chinois ont utilisé leur technologie pour automatiser...

Vingt-cinq ans après être devenue la première championne de Qui veut gagner des millions…...

Les Cubs signent Carlos Santana et ajoutent Aaron Sivale aux dérogations

La plateforme de streaming Twitch a ajouté l’interdiction des médias sociaux pour les adolescents...

Les meilleures caméras de sécurité domestique de 2025 : nos meilleurs choix de vacances pour...

L’épisode 8 de Robin Hood prouve que nous devrions « célébrer notre force »...

Les phases de la Lune expliquées aujourd’hui : à quoi ressemblera la Lune le...

4 morceaux entraînants avec des chœurs de Michael Stipe en l’honneur du 66e anniversaire...

Le pape Léon XIV au Liban : « La seule solution en Palestine, ce...

Problèmes de sécurité concernant les systèmes au cœur de l’identification numérique

35 meilleurs jeux de société familiaux (2025) : Catan, Ride Ticket, Codename

La résistance californienne de Battlefield 6 ressemble à une cible à des kilomètres

Justin Verlander a livré une performance vintage lors de la victoire des Giants contre...

Né ce jour-là en 1947, chanteur country et cousin de Kenny Loggins, dont tous...

Nouvelles Populaires

Cette startup veut créer un logiciel de voiture autonome, très rapidement

Réponses aux mini mots croisés du NYT d’aujourd’hui pour le 14...

Barcelone s’est distancé du sponsor de la crypto-monnaie après une réaction...

Vidéo. Le festival Tori-no-Ichi de Tokyo, vieux de plusieurs siècles, attire...

Déconstruire le benchmark

Classement : un jeu de pouces

Pour les constructeurs : l’écart entre « exploratoire » et « paramétrique »

Alertes multimodales

Pourquoi c’est important pour votre stack

Related Posts:

LAISSER UN COMMENTAIRE Annuler la réponse

Dernières Nouvelles

Nouvelles Populaires