Apple développe un modèle d'IA capable d'interpréter des images et de compter des objets Apple développe un modèle d'IA capable d'interpréter des images et de compter des objets

Apple développe un modèle d’IA capable d’interpréter des images et de compter des objets

Des chercheurs d’Apple ont mis au point une nouvelle méthode pour former de grands modèles de langage (LLM) qui intègrent de manière transparente des informations textuelles et visuelles.

Le modèle, appelé Apple MM1, entre dans le monde des modèles multimodaux (tels que Google Gemini) avec jusqu’à 30 milliards de paramètres. Apple MM1 démontre sa multimodalité en utilisant un ensemble de données composé de paires d’images et de légendes, de documents image-texte et de données textuelles.

Nouveau modèle d’intelligence artificielle d’Apple

i5 6Q2jCQD2chJUtsr62vw

Il existe des différences importantes entre les grands modèles de langage multimodaux (MLLM) et les grands modèles de langage (LLM), et les IA avancées actuelles sont désormais multimodales.

Le prix du Bitcoin dépasse les 63 000 dollars : une ascension sans précédent (thecrypto.fr)

Alors que les chatbots tels que ChatGPT (gratuit) n’acceptent que des entrées textuelles, les IA telles que Apple MM1 ou Gemini et Copilot peuvent traiter des contenus visuels ou audio en plus du texte.

djjddkldldl

Apple affirme que MM1 est capable de compter des objets, d’identifier des parties d’images et d’exécuter des fonctions mathématiques de base.

Il prend également en charge l’apprentissage en contexte, ce qui signifie que le modèle n’a pas besoin d’être réentraîné ou affiné pour chaque requête. MM1 est également capable de raisonner sur plusieurs images, ce qui lui permet d’interpréter et de tirer des conclusions à partir de plusieurs images.

skllslszp

L’article met également en évidence les capacités d’apprentissage en contexte du modèle MM1, en particulier dans la configuration la plus large du modèle, soit 30 milliards de paramètres.

Cette version permet à l’IA de résoudre des problèmes complexes et ouverts à partir d’un minimum d’exemples. Dans l’article de recherche, les chercheurs demandent au modèle combien il devrait payer pour toutes les bières sur la table dans la photo qu’ils montrent. Cette question est également posée à Emu-Chat-37B et LLaVA-NeXT-34B. Et seul Apple MM1 semble répondre correctement.