Il y a quelques semaines à peine, Google faisait ses débuts Gémeaux d modèle, affirme avoir atteint des positions de leader dans plusieurs benchmarks en matière d’IA. Mais le défi avec les benchmarks fournis par les fournisseurs est qu’ils ne sont que cela : fournis par les fournisseurs.

Une nouvelle évaluation neutre du fournisseur joyeuxCependant, Gemini 3 le place en tête du classement. Il ne s’agit pas d’un ensemble de critères académiques ; Il s’agit plutôt d’un ensemble de fonctionnalités du monde réel qui intéressent les vrais utilisateurs et les organisations.

Prolific a été fondée par des chercheurs de l’Université d’Oxford. La société fournit des données humaines fiables et de haute qualité pour une recherche rigoureuse et un développement éthique de l’IA. L’entreprise “Référence humaine” a appliqué cette approche pour comparer rigoureusement les modèles d’IA dans différents scénarios d’utilisation en utilisant un échantillonnage humain représentatif et des tests aveugles, mesurant non seulement les performances techniques, mais également la confiance, l’adaptabilité et le style de communication des utilisateurs.

Le dernier essai HUMAINE a évalué 26 000 utilisateurs dans le cadre d’un test aveugle du modèle. Lors de l’évaluation, le score de confiance du Gemini 3 Pro est passé de 16 % à 69 %, le plus élevé jamais enregistré par Prolific. Gemini 3 est désormais numéro un en matière de confiance, d’éthique et de sécurité dans tous les sous-groupes démographiques 69 % du temps, par rapport à son prédécesseur Gemini 2.5 Pro, qui n’occupait la première place que 16 % du temps.

Dans l’ensemble, le Gemini 3 s’est classé premier dans trois des quatre catégories d’évaluation : performance et raisonnement, interaction et adaptation, et confiance et sécurité. Il n’a perdu que face au style de communication, où Dipsik V3 est arrivé en tête des préférences avec 43 %. Le test HUMAINE a également montré que Gemini 3 a toujours obtenu de bons résultats auprès de 22 groupes démographiques d’utilisateurs différents, y compris une variété d’âge, de sexe, d’origine ethnique et d’orientation politique. L’évaluation a également révélé que les utilisateurs sont désormais cinq fois plus susceptibles de choisir le modèle lors d’une comparaison aveugle directe.

Mais le classement est moins important que ça pourquoi C’est gagné

“Il s’agit d’une très large gamme de cohérence dans différents cas d’utilisation, ainsi que d’une personnalité et d’un style qui plaisent à un large éventail de types d’utilisateurs”, a déclaré Felim Bradley, co-fondateur et PDG de Prolific, à VentureBeat. “Bien que dans certains cas, d’autres modèles soient préférés soit par de petits sous-groupes, soit par un type de conversation spécifique, c’est l’étendue des connaissances et la flexibilité du modèle dans une gamme de cas d’utilisation et de types d’audience qui lui permettent de remporter ce critère particulier.”

Comment les tests aveugles révèlent ce qui manque aux références académiques

L’approche d’HUMAINE révèle des lacunes dans la façon dont l’industrie évalue les modèles. Dans les conversations à plusieurs tours, les utilisateurs interagissent simultanément avec deux modèles. Ils ne savent pas quels fournisseurs sont capables de répondre à chaque fois. Ils discutent de sujets qui sont importants pour eux et non de questions d’examen prédéterminées.

Il est important que l’échantillon lui-même. HUMAINE utilise des échantillons représentatifs des populations des États-Unis et du Royaume-Uni, en contrôlant l’âge, le sexe, l’origine ethnique et l’orientation politique. Cela révèle quelque chose que les benchmarks statiques ne peuvent pas capturer : les performances des modèles varient selon le public.

“Si vous prenez un classement de l’IA, la plupart d’entre elles peuvent toujours avoir une liste assez statique”, a déclaré Bradley. “Mais pour nous, si vous contrôlez l’audience, nous nous retrouvons avec un classement légèrement différent, vous avez des échantillons de gauche, des échantillons de droite, les États-Unis, le Royaume-Uni.

Pour les entreprises qui déploient l’IA auprès de diverses populations d’employés, cela est important. Un modèle qui fonctionne bien pour une population peut être peu performant pour une autre.

L’approche répond également à une question fondamentale dans l’évaluation de l’IA : pourquoi utiliser des juges humains alors que l’IA peut s’évaluer elle-même ? Bradley a noté que son entreprise utilise des juges d’IA dans certains cas d’utilisation, tout en soulignant que l’évaluation humaine reste un facteur important.

« Nous constatons le plus grand bénéfice d’une orchestration intelligente des juges LLM et des données humaines, qui présentent toutes deux des forces et des faiblesses qui, lorsqu’elles sont intelligemment combinées, peuvent faire mieux ensemble », a déclaré Bradley. “Mais nous pensons toujours que les données humaines sont là où se trouve l’alpha. Nous sommes toujours très optimistes sur le fait que les données humaines et l’intelligence humaine doivent être intégrées.”

Que signifie la confiance dans les évaluations de l’IA ?

La confiance, l’éthique et la sécurité garantissent aux utilisateurs la fiabilité, l’exactitude des faits et un comportement responsable. Dans l’approche d’HUMAINE, la confiance n’est pas une revendication du fournisseur ou une mesure technique : c’est ce que les utilisateurs rapportent après des conversations aveugles avec des modèles concurrents.

Le chiffre de 69 % représente le potentiel des différents groupes démographiques. Cette cohérence est plus importante que le score global car les organisations peuvent servir différentes populations.

“On ne savait pas qu’ils utilisaient Gemini dans cette scène”, a déclaré Bradley. “C’était simplement basé sur une rétroaction aveugle à plusieurs tours.”

Il distingue la confiance perçue de la confiance gagnée. Les utilisateurs jugent les résultats du modèle sans savoir quel fournisseur les a créés, éliminant ainsi l’avantage de la marque Google. Pour les déploiements orientés client où le fournisseur d’IA est invisible pour les utilisateurs finaux, cette distinction est importante.

Que doivent faire les entreprises maintenant ?

L’une des choses les plus importantes que les entreprises devraient faire dès maintenant lorsqu’elles envisagent différents modèles est de disposer d’un cadre d’évaluation qui fonctionne.

“Évaluer des modèles basés uniquement sur l’ambiance est de plus en plus difficile”, a déclaré Bradley. “Je pense que nous avons de plus en plus besoin d’une approche scientifique plus rigoureuse pour vraiment comprendre les performances de ces modèles.”

Les données HUMAINE fournissent un cadre : tester la compatibilité entre les cas d’utilisation et les populations d’utilisateurs, et pas seulement les performances maximales dans des tâches spécifiques. Testez en aveugle pour distinguer la qualité du modèle de la perception de la marque. Utilisez des échantillons représentatifs qui correspondent à votre population d’utilisateurs réelle. Planifiez une évaluation continue à mesure que le modèle change.

Les entreprises souhaitent déployer l’IA à grande échelle, ce qui signifie passer de « quel modèle est le meilleur » à « quel modèle est le mieux adapté à notre cas d’utilisation spécifique, à la démographie de nos utilisateurs et aux fonctionnalités requises ».

L’échantillonnage représentatif et la rigueur des tests aveugles fournissent les données nécessaires pour prendre cette décision – ce que les critères techniques et les évaluations basées sur les vibrations ne peuvent pas fournir.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici