À mesure que les LLM continuent d’évoluer, des discussions ont eu lieu dans l’industrie sur le besoin continu d’outils indépendants d’étiquetage des données, car les LLM sont de plus en plus capables de travailler avec tous les types de données. signal humain, Le principal fournisseur commercial derrière le programme open source Label Studio a une approche différente. Plutôt que de constater une baisse de la demande en matière d’étiquetage des données, l’entreprise en constate davantage.
Plus tôt ce mois-ci, HumanSignal a acquis Erud AI et a lancé son Physical Frontier Data Lab pour collecter de nouvelles données. Mais générer des données ne représente que la moitié du défi. Aujourd’hui, l’entreprise s’attaque à l’étape suivante : prouver que les systèmes d’IA formés sur ces données fonctionnent réellement. De nouvelles capacités d’évaluation d’agents multimodèles permettent aux entreprises de valider des agents d’IA complexes en créant des applications, des images, du code et des vidéos.
“Si vous vous concentrez sur les segments des entreprises, toutes les solutions d’IA qu’ils construisent doivent encore être évaluées, ce qui est plutôt un mot pour l’étiquetage des données par des humains et des experts”, a déclaré Michael Maluk, co-fondateur et PDG de HumanSignal, à VentureBeat dans une interview exclusive.
L’intersection de l’étiquetage des données et de l’évaluation de l’IA agentique
Disposer de données précises est une bonne chose, mais ce n’est pas l’objectif final d’une entreprise. Alors que l’étiquetage moderne des données est une évaluation.
Il s’agit d’un changement fondamental que les entreprises doivent vérifier : non pas si leur modèle a correctement classé une image, mais si leur agent IA a pris de bonnes décisions tout au long d’une tâche complexe en plusieurs étapes impliquant le raisonnement, l’utilisation d’outils et la génération de code.
Si l’évaluation consiste uniquement à l’étiquetage des données pour les résultats de l’IA, alors la transition du modèle à l’agent représente un changement radical dans les exigences d’étiquetage. Alors que l’étiquetage traditionnel des données peut impliquer l’identification d’images ou la classification de texte, l’évaluation d’agent nécessite des chaînes logiques en plusieurs étapes, des décisions de sélection d’outils et l’évaluation de résultats multi-modèles, le tout en une seule interaction.
“Il y a un très grand besoin d’experts au courant, et pas seulement de personnes au courant”, a déclaré Malyuk. Il cite les applications à enjeux élevés, comme les soins de santé et le conseil juridique, comme exemples de cas dans lesquels le coût des erreurs est prohibitif.
Le lien entre l’étiquetage des données et l’évaluation de l’IA va plus loin que la sémantique. Les deux activités nécessitent les mêmes capacités de base :
-
Interface structurée pour le jugement humain: Que les évaluateurs étiquetent des images pour les données de formation ou évaluent si un agent a correctement organisé plusieurs outils, ils ont besoin d’interfaces spécialement conçues pour capturer systématiquement leurs évaluations.
-
Consensus multi-examinateurs: Des ensembles de données de formation de haute qualité nécessitent plusieurs étiqueteurs qui réconcilient les désaccords. Les évaluations de haute qualité exigent la même chose : plusieurs experts évaluent les résultats et résolvent les différences de jugement.
-
Compétences de domaine à grande échelle: La formation de systèmes d’IA modernes nécessite des experts en la matière, et pas seulement des travailleurs qui cliquent sur des boutons. L’évaluation des résultats de l’IA en production nécessite une expertise similaire.
-
Des boucles de rétroaction dans le système d’IA: Développement d’un modèle de flux de données de formation labellisé. Les données d’évaluation alimentent l’amélioration continue, le réglage fin et l’analyse comparative.
Évaluation complète de la trace de l’agent
Le défi des agents d’évaluation ne réside pas seulement dans la quantité de données, mais aussi dans la complexité des données qu’ils doivent évaluer. L’agent ne produit pas de sortie en texte brut ; Ils créent des chaînes logiques, sélectionnent des outils et créent des artefacts à travers plusieurs méthodes.
Nouvelles fonctionnalités pour les exigences de vérification de l’agent d’adresse de Label Studio Enterprise :
-
Inspection de trace multimodale : La plateforme fournit une interface unifiée pour examiner la trace complète de l’exécution de l’agent, à travers les étapes logiques, les appels d’outils et les sorties. Cela résout un problème courant où les équipes doivent analyser des flux de journaux distincts.
-
Évaluation interactive multi-tours : Les évaluateurs évaluent les flux conversationnels dans lesquels les agents maintiennent leur état pendant plusieurs tours, validant ainsi le suivi du contexte et l’interprétation de l’intention à travers les séquences d’interaction.
-
Arène des agents: Cadre d’évaluation comparatif pour tester différentes configurations d’agents (modèle de base, modèle d’invite, implémentation de rails) dans des conditions identiques.
-
Rubriques d’évaluation flexibles: Les équipes définissent par programmation des critères d’évaluation spécifiques au domaine plutôt que d’utiliser des métriques prédéfinies, en utilisant des exigences de support telles que l’exactitude de la compréhension, la pertinence de la réponse ou la qualité des résultats pour des cas d’utilisation spécifiques.
L’évaluation des agents est le nouveau champ de bataille pour les fournisseurs d’étiquettes de données
HumanSignal n’est pas le seul à représenter la prochaine phase du marché de l’étiquetage des données d’évaluation des agents. Les concurrents effectuent des changements similaires à mesure que l’industrie réagit à la fois aux changements technologiques et aux perturbations du marché.
boîte à étiquettes A lancé son studio d’évaluation en août 2025 en se concentrant sur l’évaluation basée sur des rubriques. À l’instar de HumanSignal, l’entreprise va au-delà de l’étiquetage traditionnel des données pour se lancer dans la vérification de l’IA en production.
Le paysage concurrentiel global de l’étiquetage des données a radicalement changé en juin lorsque Metascale a investi 14,3 milliards de dollars pour acquérir une participation de 49 % dans AI, l’ancien leader du marché. L’accord a déclenché l’exode de certains des plus gros clients de Scale. Alors que HumanSignal profite de cette perturbation, Maliuk affirme que son entreprise a réussi à remporter plusieurs contrats compétitifs au dernier trimestre. Maluk cite la maturité de la plateforme, la flexibilité de la configuration et le support client comme différenciateurs, bien que les concurrents fassent des affirmations similaires.
Ce que cela signifie pour les développeurs d’IA
L’intégration des systèmes d’IA de fabrication, des infrastructures d’étiquetage et d’évaluation des données pour la fabrication en entreprise a plusieurs implications stratégiques :
Commencez par la vérité terrain. Investir dans la création d’ensembles de données étiquetés de haute qualité avec plusieurs évaluateurs experts qui résolvent les désaccords porte ses fruits tout au long du cycle de vie du développement de l’IA, de la formation initiale à l’amélioration continue de la production.
L’observabilité s’est avérée nécessaire mais insuffisante. Importants lors de la surveillance de ce que font les systèmes d’IA, les outils d’observabilité mesurent l’activité et non la qualité. Les initiatives nécessitent une infrastructure d’évaluation dédiée pour évaluer les résultats et favoriser l’amélioration. Ce sont des problèmes distincts qui nécessitent des capacités différentes
L’infrastructure de données de formation sert également d’infrastructure d’évaluation. Les entreprises qui ont investi dans des plateformes d’étiquetage de données pour le développement de modèles peuvent étendre la même infrastructure à l’évaluation de la production. Il ne s’agit pas de problèmes distincts nécessitant des outils distincts : il s’agit du même flux de travail de base appliqué à différentes étapes du cycle de vie.
Pour les entreprises déployant l’IA à grande échelle, l’obstacle est passé de la création de modèles à leur validation. Les entreprises qui reconnaissent ce changement bénéficient des premiers progrès réalisés dans les systèmes d’IA de production maritime.
La question cruciale pour les entreprises a évolué : non pas si les systèmes d’IA sont suffisamment sophistiqués, mais si les organisations peuvent systématiquement prouver qu’elles répondent aux exigences de qualité de domaines spécifiques à enjeux élevés.







