L’architecture Ballmore permet une formation LM efficace au niveau des octets sans sacrifier la qualité

Les entreprises qui souhaitent un modèle multilingue sans tokenizer se tournent de plus en plus vers des modèles linguistiques au niveau de l’octet qui réduisent la fragilité des lectures bruyantes ou à faibles ressources. Pour exploiter ce créneau – et le rendre pratique à grande échelle – l’Allen Institute of AI (Ai2) a lancé BolmoUne nouvelle famille de modèles qui en profitent Modèle Olmo 3 En les « bitifiant » et en réutilisant leur colonne vertébrale et leurs capacités.

La société a présenté deux versions, Bolmo 7B et Bolmo 1B, qui étaient « les premiers modèles de langage entièrement ouverts au niveau des octets ». D’après Ai2. La société a déclaré que les deux modèles étaient compétitifs – et dans certains cas surpassés – avec d’autres modèles basés sur les octets et les caractères.

Les modèles de langage au niveau octet fonctionnent directement sur les octets UTF-8 bruts, éliminant ainsi le besoin d’un vocabulaire ou d’un tokenizer prédéfini. Cela leur permet de gérer de manière plus fiable les fautes d’orthographe, les langues rares et les textes obsolètes – des exigences clés pour la modération, le déploiement en périphérie et les applications multilingues.

Pour les entreprises déployant l’IA dans plusieurs langues, des entrées utilisateur bruyantes ou des environnements contraints, les modèles sans tokenizer offrent un moyen de réduire la complexité opérationnelle. Le Bolmo d’Ai2 tente de rendre cette approche pratique à grande échelle, sans se recycler à partir de zéro.

Comment fonctionne Bolmo et comment il a été construit

Ai2 a déclaré avoir formé des modèles Balmo à l’aide de son mélange de données Dolma 3, ce qui l’a aidé à former Modèle phare d’Olmoet certains ensembles de données en code ouvert et données au niveau des caractères.

La société affirme que son objectif est de « fournir un modèle reproductible et inspectable pour des modèles de langage de sous-mots robustes que la communauté peut adopter et étendre ». Pour atteindre cet objectif, Ai2 vérifiera, codera et publiera Un article complet Aider d’autres entreprises à créer des modèles au niveau octet au-dessus de son écosystème Olmo.

Étant donné que la formation d’un modèle au niveau octet entièrement à partir de zéro peut être coûteuse, les chercheurs d’Ai2 ont plutôt choisi un point de contrôle Olmo 3 7B existant pour le bytéifier en deux étapes.

Dans la première étape, Ai2 est gelé Olmo 3 se transforme de manière à n’entraîner que certaines parties, telles que les encodeurs et décodeurs locaux, les prédicteurs de limites et les têtes de modélisation du langage. Il est conçu pour être « bon marché et rapide » et ne nécessite que 9,8 milliards de jetons.

L’étape suivante débloque le modèle et l’entraîne avec des jetons supplémentaires. Ai2 affirme que l’approche au niveau octet permet à Balmo d’éviter les contraintes de vocabulaire qui limitent les modèles de sous-mots traditionnels.

Forte performance parmi ses pairs

Les modèles linguistiques au niveau octet ne sont pas aussi courants que les petits modèles linguistiques ou LLM, mais constituent un domaine de recherche en pleine croissance. Meta a publié son architecture BLT La recherche de l’année dernière, visant à proposer un modèle robuste, traitait des données brutes et ne s’appuyait pas sur des vocabulaires spécifiques.

Autres modèles de recherche dans cet espace Comprend ByT5, MrT5 de StanfordEt canin.

Ai2 a évalué Bolmo à l’aide de sa suite d’évaluation, couvrant les mathématiques, le raisonnement STEM, la réponse aux questions, les connaissances générales et le code.

Le Bolmo 7B a montré de solides performances, surpassant les références centrées sur les personnages comme CUTE et EXECUTE, et a également amélioré la précision par rapport au LLM Olmo 3 de base.

Le Bolmo 7B surpasse les modèles de taille comparable en termes de codage, de mathématiques, d’assurance qualité à choix multiples et de compréhension au niveau des caractères.

Pourquoi les entreprises peuvent choisir des modèles au niveau octet

Les entreprises trouvent de la valeur dans un cadre de modèle hybride utilisant une combinaison de modèles et de tailles de modèles.

Ai2 fait valoir que les organisations devraient envisager des modèles au niveau octet non seulement pour leur robustesse et leur compréhension multilingue, mais aussi parce qu’ils « se connectent naturellement aux écosystèmes de modèles existants ».

“L’un des principaux avantages de la configuration hiérarchique dynamique est que la compression devient un bouton activable”, a déclaré la société.

Pour les entreprises qui utilisent déjà des piles de modèles hétérogènes, Ballmo suggère que les modèles au niveau octet ne soient peut-être plus entièrement académiques. En réutilisant un modèle de sous-mots robuste plutôt qu’en formant à partir de zéro, Ai2 signale une voie à faible risque pour les organisations qui souhaitent de la robustesse sans abandonner l’infrastructure existante.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici