Dans un nouveau papier Publié ce mois-ci, les chercheurs d’Apple révèlent qu’ils ont développé de nouvelles méthodes pour entraîner de grands modèles de langage en utilisant à la fois des informations textuelles et visuelles. Selon les chercheurs d’Apple, cela représente un moyen d’obtenir des résultats de pointe.
Comme repéré pour la première fois par EntrepriseBeatl’idée de la recherche est de démontrer « à quel point la combinaison minutieuse de différents types de données de formation et d’architectures de modèles peut conduire à des performances de pointe sur une gamme de références d’IA ».
L’article a été publié la semaine dernière et s’intitule «MM1 : Méthodes, analyses et informations issues de la pré-formation multimodale LLM.» Les chercheurs d’Apple expliquent dans le résumé de l’article :
Dans ce travail, nous discutons de la création de modèles multimodaux multimodaux (MLLM) performants. En particulier, nous étudions l’importance de divers composants d’architecture et choix de données. Grâce à des ablations minutieuses et complètes de l’encodeur d’image, du connecteur de langage de vision et de divers choix de données de pré-formation, nous avons identifié plusieurs leçons de conception cruciales.
Par exemple, nous démontrons que pour un pré-entraînement multimodal à grande échelle, l’utilisation d’un mélange savant de données de légende d’image, de texte d’image entrelacé et de données textuelles uniquement est cruciale pour obtenir l’état de l’art (SOTA). résultats sur plusieurs benchmarks, par rapport à d’autres résultats publiés avant la formation.
MM1 est décrit comme une « famille de modèles multimodaux » qui sont à la pointe de la technologie et possèdent « des propriétés attrayantes telles qu’un apprentissage amélioré en contexte et un raisonnement multi-images, permettant une incitation en chaîne de pensée en quelques étapes. »
Les capacités d’apprentissage en contexte du modèle MM1 sont particulièrement impressionnantes :
MM1 peut effectuer des prédictions en contexte grâce à son pré-entraînement multimodal à grande échelle. Cela permet à MM1 de (a) compter des objets et de suivre un formatage personnalisé, (b) de faire référence à des parties des images et d’effectuer une OCR, (c) de démontrer le bon sens et la connaissance des mots sur les objets du quotidien, et (d) d’exécuter des fonctions mathématiques de base. Les images proviennent de l’ensemble de validation COCO 2014.
Les chercheurs concluent que cette famille de modèles « produit des performances compétitives sur un large éventail de critères, tout en permettant un raisonnement multi-images et des invites sur quelques prises de vue ».
En savoir plus: