Octopus V2-2B
Nexa AI présente Octopus V2, un modèle de langage sur appareil pour super agent.

Octopus-V2-2B, un modèle de langage open source avancé avec 2 milliards de paramètres, marque une percée dans l’application des grands modèles de langage (LLMs) pour l’appel de fonctions, spécifiquement conçu pour les API Android. Contrairement aux méthodes de génération assistée par recherche (RAG), Octopus-V2-2B introduit une stratégie unique de jeton fonctionnel, lui permettant d’atteindre des performances comparables à celles de GPT-4, mais avec une vitesse d’inférence significativement améliorée, particulièrement bénéfique pour les appareils de calcul périphériques.
Applications sur appareil
Octopus-V2-2B est conçu pour fonctionner de manière transparente sur les appareils Android, étendant son utilité à une large gamme d’applications, de la gestion système Android à l’orchestration de plusieurs appareils.

Vitesse d’inférence
Octopus-V2-2B a démontré une vitesse d’inférence remarquable, surpassant la combinaison « Llama7B + solution RAG » d’un facteur de 36X sur un seul GPU A100. Cette efficacité est attribuée à notre conception de jeton fonctionnel.
Précision
Octopus-V2-2B excelle non seulement en vitesse mais aussi en précision, dépassant la solution « Llama7B + RAG » en précision d’appel de fonction de 31 %.

Il atteint une précision d’appel de fonction comparable à GPT-4 et RAG + GPT-3.5, avec des scores allant de 98 % à 100 % sur des ensembles de données de référence.

Un nouveau venu dans la musique générative
Des rumeurs circulent sur Twitter concernant une nouvelle venue dans le domaine de la musique générée par IA, qui pourrait rivaliser avec Sunno AI. Cette mystérieuse compétitrice, dont l’origine reste anonyme, est apparue sur la scène avec des échantillons de chansons diffusés en ligne.
Bien que nous ne puissions pas confirmer l’identité de cette nouvelle concurrente, les rumeurs suggèrent qu’il s’agit d’un générateur de musique AI en version bêta fermée, accessible uniquement sur invitation. Ces échantillons musicaux, enregistrés à partir de l’application, dévoilent des performances vocales et instrumentales impressionnantes, surpassant même celles de Sunno AI dans certains cas.
Cependant, il est important de noter que la qualité audio des enregistrements peut varier en raison de leur nature non officielle. Malgré cela, ces leaks ont suscité un vif intérêt et une discussion animée parmi les amateurs de musique générée par IA.
Les réactions sont mitigées, certains louant la profondeur et la qualité des compositions, tandis que d’autres restent sceptiques quant à l’authenticité et à la portée réelle de ces fuites. Alors que l’identité de cette nouvelle concurrente reste entourée de mystère, une chose est sûre : la concurrence dans le domaine de la musique AI est en pleine expansion, promettant des avancées significatives dans un avenir proche.
META OpenEQA
Meta annonce le lancement du benchmark OpenEQA (Open-Vocabulary Embodied Question Answering), destiné à évaluer la compréhension d’un agent d’intelligence artificielle des espaces physiques à travers des questions telles que « Où ai-je laissé mon badge ? ». Cette initiative vise à stimuler la recherche ouverte pour aider les agents IA à comprendre et à communiquer sur le monde qu’ils voient, une composante essentielle de l’intelligence artificielle générale.
OpenEQA est conçu pour évaluer la capacité d’un agent d’IA à comprendre son environnement en lui posant des questions ouvertes. Il contient deux tâches : la mémoire épisodique EQA, où l’agent doit répondre en se basant sur ses expériences passées, et l’EQA actif, où l’agent doit agir dans son environnement pour collecter des informations nécessaires et répondre aux questions.
Cette démarche vise à créer un modèle du monde interne de l’agent, qui peut être interrogé par le langage naturel. Cependant, même les modèles linguistiques les plus avancés peinent à atteindre les performances humaines en matière de EQA, révélant un défi de recherche majeur dans le domaine de l’intelligence artificielle.
OpenEQA représente le premier benchmark en vocabulaire ouvert pour l’EQA, avec plus de 1 600 paires de questions et réponses non modélisées, ainsi qu’un outil d’évaluation automatique LLM-Match. Les résultats montrent un écart significatif entre les performances des modèles VLM (Vision + Language Models) actuels et celles des humains, en particulier pour les questions nécessitant une compréhension spatiale.
Cette initiative vise à encourager la recherche supplémentaire pour aider les agents IA à comprendre et à communiquer sur le monde qu’ils voient, une étape essentielle vers l’intelligence artificielle générale.
L’article scientifique est disponible, ainsi que le jeu de données.
Grok-1.5 Vision
Le 12 avril 2024, X.ai présente un aperçu de la vision de Grok-1.5.

En plus de ses solides capacités textuelles, Grok peut désormais traiter une grande variété d’informations visuelles, notamment des documents, des diagrammes, des graphiques, des captures d’écran et des photographies. Grok-1.5V sera bientôt disponible pour nos testeurs précoces et les utilisateurs existants de Grok.
Ce nouveau modèle se distingue par ses performances dans la compréhension du monde réel. Grok surpasse ses pairs dans le nouveau benchmark RealWorldQA, qui mesure la compréhension spatiale du monde réel. X.ai a évalué Grok sur les jeux de données ci-dessous.

Dans le domaine de la compréhension réelle du monde, Grok-1.5V obtient un score de 68,7%, dépassant largement ses concurrents, notamment GPT-4V, Claude 3 Sonnet, Claude 3 Opus et Gemini Pro 1.5.

Le nouveaux benchmark RealWorldQA, conçu pour évaluer les capacités de compréhension spatiale du monde réel des modèles multimodaux a également été introduit par X.ai. Ce benchmark initial comprend plus de 700 images, avec une question et une réponse facilement vérifiable pour chaque image. X.ai met RealWorldQA à la disposition de la communauté, et prévoit de l’étendre à mesure que leurs modèles multimodaux s’améliorent.
Laisser un commentaire