Meta vient d’en sortir un nouveau Système de reconnaissance automatique de la parole (ASR) multilingue Prend en charge plus de 1 600 langues, éclipsant le modèle open source Whisper d’OpenAI, qui n’en prend en charge que 99.

L’architecture permet aux développeurs d’étendre cette prise en charge à des milliers d’autres. Grâce à une fonctionnalité appelée apprentissage contextuel zéro tir, les utilisateurs peuvent fournir quelques paires d’exemples audio et texte dans une nouvelle langue tout en faisant des prédictions, permettant au modèle de reproduire des énoncés supplémentaires dans cette langue sans aucun recyclage.

En pratique, cela étend la couverture potentielle à plus de 5 400 langues, soit presque toutes les langues parlées avec une écriture connue.

Il s’agit d’un passage des capacités d’un modèle statique à un cadre flexible auquel les communautés peuvent s’adapter. Ainsi, alors que 1 600 langues reflètent la couverture officielle de la formation, le tableau plus large représente la capacité de l’ASR omnilingue à généraliser à la demande, ce qui en fait le système de reconnaissance vocale le plus complet jamais commercialisé.

Meilleur : open source sous celui-ci Une licence générale Apache 2.0 – pas la licence Llama restrictive et semi-open source comme les versions précédentes de la société, qui limitaient son utilisation par les grandes entreprises à moins qu’elles ne paient des frais de licence – ce qui signifie que les chercheurs et les développeurs sont libres de l’utiliser et de l’implémenter gratuitement, sans restrictions, même dans des projets commerciaux et d’entreprise !

Sorti le 10 novembre Site Internet de Mater, GitHubavec un Placez la démo sur le visage câlin Et Document techniqueLa suite ASR omnilingue de Meta comprend une famille de modèles de reconnaissance vocale, un modèle de représentation audio multilingue de 7 milliards de paramètres et un corpus vocal massif couvrant plus de 350 langues jusqu’alors non développées.

Toutes les ressources sont disponibles gratuitement sous licence ouverte et les modèles prennent en charge la transcription parole-texte prête à l’emploi.

“En open source ces modèles et ensembles de données, nous visons à éliminer les barrières linguistiques, à étendre l’accès numérique et à responsabiliser les communautés du monde entier”, a déclaré Meta dans son message. Compte @AIatMeta sur X

Conçu pour la transcription parole-texte

À la base, l’ASR multilingue est un système de synthèse vocale.

Les modèles sont formés pour convertir la langue parlée en texte écrit, en prenant en charge des applications telles que les assistants vocaux, les outils de transcription, le sous-titrage, la numérisation des archives orales et les fonctionnalités d’accessibilité pour les langues à faibles ressources.

Contrairement aux modèles ASR précédents qui nécessitaient de nombreuses données de formation étiquetées, l’ASR omnilingue comprend une variante sans tir.

Cette version peut transcrire un langage qu’elle n’a jamais vu auparavant – en utilisant quelques paires d’exemples audio et de texte associé

Cela réduit considérablement les obstacles à l’ajout de langues nouvelles ou menacées, éliminant ainsi le besoin de grands corpus ou de recyclage.

Famille de modèles et conception technique

La suite Omnilingual ASR comprend plusieurs familles de modèles formés sur plus de 4,3 millions d’heures d’audio dans plus de 1 600 langues :

  • Modèle wav2vec 2.0 pour l’apprentissage auto-supervisé de la représentation vocale (paramètres 300M-7B)

  • Modèle ASR basé sur CTC pour une réplication supervisée efficace

  • Les modèles LLM-ASR combinent un encodeur vocal avec un décodeur de texte basé sur un transformateur pour une transcription sophistiquée.

  • Le modèle LLM-Zeroshot ASR permet une adaptation du temps d’estimation dans des langues invisibles

Tous les modèles suivent une conception d’encodeur-décodeur : l’audio brut est converti en une représentation indépendante de la langue, puis décodé en texte écrit.

Pourquoi l’échelle est importante

Bien que Whisper et les modèles similaires disposent de capacités ASR avancées pour les langues mondiales, ils ne sont pas à la hauteur de la longue traîne des variations linguistiques humaines. Whisper prend en charge 99 langues. Métasystème :

  • Prend en charge directement plus de 1 600 langues

  • Peut généraliser à plus de 5 400 langues grâce à l’apprentissage en contexte

  • 78 % des langues prises en charge atteignent des taux d’erreur de caractère (CER) inférieurs à 10 %

Selon le document de recherche Mater, plus de 500 des langues prises en charge ne sont auparavant couvertes par aucun modèle ASR.

Cet élargissement ouvre de nouvelles possibilités aux communautés dont les langues sont souvent exclues des outils numériques.

Voici la section de contexte révisée et élargie, intégrant un contexte plus complet sur la stratégie d’IA de Mater 2025, les transitions de leadership et la réception de Llama 4, avec des citations et des liens dans le texte :

Contexte : refonte de Metar AI et rebond de Lama 4

Après une année marquée par des troubles organisationnels, des changements de direction et une exécution inégale des produits, la sortie de l’ASR multilingue arrive à un moment charnière dans la stratégie d’IA de Meta.

L’ASR omnilingue est la première version majeure d’un modèle open source depuis le déploiement de Llama 4, le dernier modèle de langage majeur de Meta, qui Débuts en avril 2025 Le modèle open source chinois a suscité des critiques mitigées, voire médiocres, avec moins d’adoption par les entreprises que ses concurrents.

Cet échec a conduit le fondateur et PDG de Meta, Mark Zuckerberg, à embaucher Alexander Wang, co-fondateur et ancien PDG du fournisseur de données d’IA Scale AI. En tant que directeur de l’IAEt grimpe sur un Jeu de recrutement étendu et coûteux Cela a choqué l’IA et la communauté des affaires Des salaires alléchants pour les meilleurs chercheurs en IA.

En revanche, l’ASR omnilingue représente une réinitialisation stratégique et de réputation. Cela ramène Meta dans un domaine où l’entreprise a toujours été leader – l’IA multilingue – et offre une pile communautaire véritablement extensible avec des barrières à l’entrée minimes.

La prise en charge du système pour plus de 1 600 langues et son extensibilité à 5 000 langues supplémentaires grâce à un apprentissage en contexte sans tir rétablissent la crédibilité technique de Meta en matière de technologie linguistique.

Il est important de noter qu’il le fait sous Apache 2.0, une version gratuite et sous licence permissive avec un approvisionnement transparent en ensembles de données et des protocoles de formation reproductibles.

Ce changement s’aligne sur les grands thèmes de la stratégie Matter 2025. La société a recentré son discours autour d’une vision de « superintelligence personnelle », en investissant massivement dans l’infrastructure (y compris la sortie en septembre d’un accélérateur d’IA personnalisé et d’une pile d’inférence basée sur ARM). la source Il est temps d’abandonner le métaverse au profit de capacités fondamentales d’IA. Le retour aux données publiques de formation en Europe après une interruption réglementaire montre également clairement son intention de rivaliser à l’échelle mondiale malgré un examen minutieux de la vie privée. la source.

L’ASR omnilingue est donc plus qu’une version de modèle : c’est une démarche calculée pour reprendre le contrôle du récit : une contribution très utilisée et basée sur la recherche issue du déploiement fragmenté de Llama 4 qui s’aligne sur la stratégie de plate-forme d’IA à long terme de Meta.

Collecte d’ensembles de données axée sur la communauté

Pour atteindre cette échelle, Meta s’est associé à des chercheurs et des organisations communautaires en Afrique, en Asie et ailleurs pour créer le Corpus Omnilingual ASR, un ensemble de données de 3 350 heures couvrant 348 langues à faibles ressources. Les contributeurs ont été rémunérés par des conférenciers locaux et les enregistrements ont été collectés en collaboration avec des groupes tels que :

  • La prochaine voix africaine: Un consortium soutenu par la Fondation Gates comprenant l’Université Masseno (Kenya), l’Université de Pretoria et Data Science Nigeria

  • Voix commune de la Fondation MozillaSoutenu par le Fonds ouvert pour les conférences multilingues

  • Lanfrica/Nice Voicesqui a produit des données pour 11 langues africaines, dont l’igala, le sérère et l’urhobo

La collecte de données se concentre sur le discours naturel et non scénarisé. Les invites ont été conçues pour être pertinentes sur le plan culturel et ouvertes, telles que « Vaut-il mieux avoir quelques amis proches ou de nombreuses connaissances occasionnelles ? Pourquoi ? Les transcriptions utilisaient des systèmes d’écriture établis avec une assurance qualité à chaque étape.

Considérations sur les performances et le matériel

Le plus grand modèle de la suite, omniASR_LLM_7B, nécessite environ 17 Go de mémoire GPU pour l’estimation, ce qui le rend adapté au déploiement sur du matériel haut de gamme. Les modèles plus petits (300M-1B) peuvent fonctionner sur des appareils à faible consommation et fournir des vitesses de transcription en temps réel.

Les critères de performance montrent des résultats solides, même dans des conditions de faibles ressources :

  • CER < 10 % dans 95 % des langues haut de gamme et milieu de gamme

  • 36% des langues à faible revenu ont un CER <10%

  • Robustesse dans les situations bruyantes et les domaines invisibles, notamment avec des réglages fins

Le système zéro tir, omniASR_LLM_7B_ZS, peut répliquer de nouvelles langues avec une configuration minimale. Les utilisateurs fournissent quelques exemples de paires audio-texte et le modèle génère des transcriptions pour les nouveaux énoncés dans la même langue.

Open Access et outils de développement

Tous les modèles et ensembles de données sont sous licence selon les conditions suivantes :

L’installation est prise en charge via PyPI et uv :

pip install omnilingual-asr

Meta fournit également :

  • Une intégration de l’ensemble de données HuggingFace

  • Pipeline d’estimation prédéfini

  • Conditionnement du code de langue pour une précision améliorée

Les développeurs peuvent consulter la liste complète des langues prises en charge à l’aide de l’API :

from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs

print(len(supported_langs))
print(supported_langs)

Influence généralisée

L’ASR omnilingue recadre la couverture linguistique d’une liste spécifique à une seule dans l’ASR Cadre extensible. Il permet :

  • Inclusion de langues inclusives pilotées par la communauté

  • Accès numérique aux langues orales et en voie de disparition

  • Recherche sur la technologie vocale dans des contextes linguistiquement divers

Fondamentalement, Meta met l’accent sur les considérations éthiques – en favorisant la participation open source et la collaboration avec les communautés de langue maternelle.

“Aucun modèle ne peut prédire et inclure toutes les langues du monde”, déclare le document Omnilingual ASR, “mais Omnilingual ASR permet aux communautés d’étendre la reconnaissance grâce à leurs propres données.”

Accéder à l’outil

Toutes les ressources sont désormais disponibles ici :

Ce que cela signifie pour l’entreprise

Pour les développeurs d’entreprise, en particulier ceux travaillant sur des marchés multilingues ou internationaux, l’ASR omnilingue réduit considérablement les obstacles au déploiement de systèmes de synthèse vocale sur un large éventail de clients et de zones géographiques.

Au lieu de s’appuyer sur des API ASR commerciales qui ne prennent en charge qu’un ensemble restreint de langages haut de gamme, les équipes peuvent désormais intégrer un pipeline open source couvrant plus de 1 600 langues prêtes à l’emploi, avec la possibilité de l’étendre à des milliers d’autres grâce à un apprentissage zéro-shot.

Cette flexibilité est particulièrement précieuse pour les entreprises travaillant dans des secteurs tels que le support client vocal, les services de transcription, l’accessibilité, l’éducation ou la technologie civique, où la couverture en langue locale peut constituer une exigence concurrentielle ou réglementaire. Étant donné que les modèles sont publiés sous la licence permissive Apache 2.0, les entreprises peuvent les affiner, les déployer ou les intégrer dans des systèmes propriétaires sans conditions restrictives.

Cela représente un changement dans le paysage ASR – d’offres centralisées et sécurisées dans le cloud à une infrastructure extensible par la communauté. En rendant la reconnaissance vocale multilingue plus accessible, personnalisable et abordable, Omnilingual ASR ouvre la porte à une nouvelle génération d’applications vocales d’entreprise construites autour de l’inclusion linguistique plutôt que des limitations linguistiques.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici