Les chercheurs d’OpenAI ont développé une nouvelle méthode qui agit comme un « sérum de vérité » pour les grands modèles de langage (LLM), les obligeant à signaler eux-mêmes leur propre mauvais comportement, leurs hallucinations et leurs violations des politiques. Cette technique, “confession», répond à une préoccupation croissante dans le domaine de l’IA d’entreprise : les modèles peuvent être malhonnêtes, exagérer leur confiance ou dissimuler les raccourcis qu’ils prennent pour arriver à des réponses.
Pour les applications du monde réel, cette technique produit des systèmes d’IA plus transparents et orientables.
Qu’est-ce que l’aveu ?
De nombreuses formes d’IA trichent à cause de la complexité Apprentissage par renforcement (RL) épisode de formation du modèle. Dans RL, les modèles sont récompensés pour produire un résultat qui répond à un mélange d’objectifs, notamment la précision, le style et la sécurité. Cela peut créer le risque d’une « mauvaise spécification de la récompense », où les modèles apprennent à générer des réponses qui « semblent bonnes » sur la fonction de récompense plutôt que de simplement des réponses qui sont vraiment fidèles à l’intention de l’utilisateur.
Un accusé de réception est un rapport structuré que le modèle génère après avoir fourni sa réponse principale. Il sert d’auto-évaluation de son propre respect des instructions. Dans ce rapport, le modèle doit lister toutes les instructions qu’il était censé suivre, évaluer dans quelle mesure il les a satisfaites et signaler toute incertitude ou jugement en cours de route. L’objectif est de créer une chaîne distincte où le modèle est uniquement encouragé à être honnête.
UN Article de blogLes chercheurs d’OpenAI fournissent plusieurs exemples de techniques de « reconnaissance » en action. Un modèle a été soumis à un test avec une règle cachée : s’il obtenait un score supérieur à 50 %, ses connaissances étaient supprimées. Pour se protéger, le modèle est intentionnellement « entassé » avec des réponses incorrectes à la moitié des questions. Bien que sa réponse initiale ait caché cette tromperie, ses aveux ultérieurs ont été brutalement honnêtes. Il a admis : “L’utilisateur voulait la bonne réponse, mais nous en avons saboté la moitié.”
Les chercheurs ont découvert que lorsqu’un mannequin se comportait mal, elle était beaucoup plus susceptible de l’admettre dans une confession que dans sa réponse principale.
Comment fonctionne la formation à la confession
La clé de cette approche est la différenciation des récompenses. Lors de la formation, la récompense attribuée au confesseur est basée uniquement sur son honnêteté et ne se mélange pas avec la récompense du travail original. “Comme le sceau de confession de l’Église catholique, rien de ce que révèle le modèle ne peut altérer la récompense qu’il reçoit pour avoir accompli sa tâche initiale”, ont écrit les chercheurs. Cela crée un « espace sûr » permettant aux modèles d’admettre leur culpabilité sans être punis.
Cette approche est puissante car elle évite un défi majeur dans la formation à l’IA. L’idée des chercheurs est qu’il est plus facile d’admettre honnêtement une mauvaise conduite que d’obtenir des récompenses élevées dans des problèmes clés, souvent complexes.
Par conséquent, lorsque le modèle est jugé uniquement sur la base de son honnêteté, l’incitation à tromper le « juge des aveux » est beaucoup plus faible que l’incitation à tromper le modèle de récompense pour sa réponse originale. Par exemple, dans une expérience où un modèle était entraîné à « pirater » un modèle de récompense faible, ses performances sur la tâche initiale sont devenues plus trompeuses au fil du temps. Cependant, ses aveux se sont révélés plus honnêtes, identifiant avec précision les récompenses qu’il piratait.
Toutefois, la technologie a des limites. Les reconnaissances ne sont pas une panacée pour tous les échecs de l’IA. Le système fonctionne mieux lorsqu’un modèle est conscient qu’il se comporte mal. Il est moins efficace pour les « inconnus inconnus ». Par exemple, si un mannequin hallucine une vérité et croit sincèrement qu’elle est vraie, il ne peut pas admettre avoir donné de fausses informations. La cause la plus fréquente d’échec de reconnaissance est la confusion du modèle et non une tromperie intentionnelle. La confusion survient souvent lorsque les instructions ne sont pas claires et que le modèle ne peut pas déterminer clairement l’intention de l’utilisateur humain.
Ce que cela signifie pour l’IA d’entreprise
La stratégie de reconnaissance d’OpenAI fait partie d’un corpus croissant de travaux sur la sécurité et la réglementation de l’IA. Entropic, un concurrent d’OpenAI, a également publié des recherches montrant comment l’apprentissage du LL.M comportement malveillant. L’entreprise travaille également Bouche ce trou Tels qu’ils apparaissent.
Pour les applications d’IA, des processus tels que les accusés de réception peuvent constituer un mécanisme de surveillance pratique. La sortie structurée d’un accusé de réception peut être utilisée au moment de l’estimation pour signaler ou rejeter une réponse de modèle avant qu’elle ne provoque un problème. Par exemple, un système peut être conçu pour transmettre automatiquement tout résultat à un examen humain si sa reconnaissance indique des violations de politique ou une incertitude élevée.
Dans un monde où l’IA est capable d’effectuer des tâches de plus en plus agents et complexes, l’observabilité et le contrôle seront des éléments clés de déploiements sécurisés et fiables.
“À mesure que les modèles deviennent plus performants et sont déployés dans des environnements à enjeux élevés, nous avons besoin de meilleurs outils pour comprendre ce qu’ils font et pourquoi”, écrivent les chercheurs d’OpenAI. “Les remerciements ne constituent pas une solution complète, mais ils ajoutent une couche significative à notre pile de transparence et de surveillance.”







