Stable Audio 2.0
Aujourd’hui, Stable Audio 2.0 est dévoilé, offrant une nouvelle norme dans la génération audio par IA en produisant des pistes complètes de haute qualité avec une structure musicale cohérente pouvant aller jusqu’à trois minutes de longueur à 44,1 kHz en stéréo à partir d’une simple instruction en langage naturel.
Ce nouveau modèle va au-delà de la simple conversion texte-en-audio en introduisant la capacité de génération audio-en-audio. Les utilisateurs peuvent désormais télécharger des échantillons audio et, à travers des instructions en langage naturel, transformer ces échantillons en une variété de sons. Cette mise à jour élargit également la génération d’effets sonores et le transfert de style, offrant aux artistes et musiciens plus de flexibilité, de contrôle et un processus créatif amélioré.
Stable Audio 2.0 construit sur le précédent Stable Audio 1.0, qui a fait ses débuts en septembre 2023 en tant qu’outil de génération de musique par IA capable de produire de la musique en 44,1 kHz de haute qualité, en utilisant la technologie de diffusion latente. Ce nouveau modèle est disponible dès aujourd’hui gratuitement sur le site web de Stable Audio et sera bientôt disponible sur l’API de Stable Audio.
Stable Audio 2.0 offre un éventail de nouvelles fonctionnalités pour les artistes et musiciens, avec des capacités de conversion texte-en-audio et audio-en-audio. Les utilisateurs peuvent produire des mélodies, des pistes d’accompagnement, des pistes et des effets sonores, améliorant ainsi leur processus créatif. Stable Audio 2.0 se distingue par sa capacité à générer des chansons complètes jusqu’à trois minutes avec des compositions structurées comprenant une introduction, un développement et une conclusion, ainsi que des effets sonores en stéréo.
Stable Audio 2.0 prend désormais en charge le téléchargement de fichiers audio pour transformer les idées en échantillons entièrement produits. Ce modèle amplifie la production de sons et d’effets sonores, offrant de nouvelles façons d’améliorer les projets audio. Cette nouvelle fonctionnalité permet de personnaliser le thème de la sortie pour s’aligner sur le style et le ton spécifiques d’un projet.
L’architecture du modèle Stable Audio 2.0 est conçue pour permettre la génération de pistes complètes avec des structures cohérentes. Des détails techniques supplémentaires seront disponibles dans un document de recherche à venir. Pour protéger les droits d’auteur des créateurs, tous les fichiers audio utilisés sont exempts de matériel protégé par des droits d’auteur.
Stable Radio diffuse en continu des pistes exclusivement générées par Stable Audio sur la chaîne YouTube de Stable Audio.
Étude sur l’efficacité des outils de détection de texte face à la génération de contenu par IA
Une étude récente examine l’efficacité de six principaux outils de détection de texte génératif par IA (GenAI) confrontés à du contenu généré par machine modifié à l’aide de techniques visant à échapper à la détection par ces outils (n = 805). Les résultats démontrent que les taux de précision déjà faibles des détecteurs (39,5%) subissent des réductions significatives de précision (17,4%) lorsqu’ils sont confrontés à du contenu manipulé, certaines techniques se révélant plus efficaces que d’autres pour éviter la détection.
Les limitations de précision et le potentiel de fausses accusations démontrent que ces outils ne peuvent actuellement pas être recommandés pour déterminer si des violations de l’intégrité académique ont eu lieu, soulignant les défis auxquels les éducateurs sont confrontés pour maintenir des pratiques d’évaluation inclusives et équitables. Cependant, ils peuvent jouer un rôle dans le soutien à l’apprentissage des étudiants et le maintien de l’intégrité académique lorsqu’ils sont utilisés de manière non punitive.
Ces résultats soulignent la nécessité d’une approche combinée pour relever les défis posés par la GenAI dans le milieu universitaire afin de promouvoir l’utilisation responsable et équitable de ces technologies émergentes. L’étude conclut que les limitations actuelles des détecteurs de texte par IA exigent une approche critique pour toute implémentation éventuelle dans l’enseignement supérieur et met en lumière des alternatives possibles aux stratégies d’évaluation par IA.
Street Fighter III contre les LLMs
Un nouveau benchmark d’intelligence artificielle (IA) basé sur le célèbre jeu d’arcade Street Fighter III a été conçu lors du hackathon Mistral AI à San Francisco la semaine dernière. Le benchmark open-source LLM Colosseum a été développé par Stan Girard et Quivr Brain. Le jeu fonctionne sur un émulateur, permettant aux LLMs de s’affronter de manière peu conventionnelle mais spectaculaire.
Il ne s’agit pas d’un benchmark LLM typique. Les modèles plus petits ont généralement un avantage en termes de latence et de vitesse, ce qui se traduit par plus de victoires dans ce jeu. Les joueurs humains de jeux de combat bénéficient de réactions rapides pour contrer les mouvements de leurs adversaires, et il en va de même dans cette action IA contre IA.
Les LLM prennent des décisions en temps réel sur la façon de combattre. En tant que modèles basés sur du texte, ils ont été incités à réagir à l’action du jeu après avoir d’abord analysé l’état du jeu, puis avoir envisagé leurs options de mouvement. Les options de mouvement incluent; se rapprocher, s’éloigner, boule de feu, méga coup de poing, ouragan et méga boule de feu.
Dans la vidéo, on peut voir que les combats sont fluides, et les joueurs semblent être stratégiques dans leurs contres, blocages et utilisation de mouvements spéciaux. Cependant, au moment de la rédaction de l’article, le projet ne permet l’utilisation que du personnage de Ken.
Alors, quel est le meilleur Street Fighter III AI? Selon les tests effectués par Girard, le GPT 3.5 Turbo d’OpenAI est le vainqueur (ELO 1776) parmi les huit LLM qu’ils ont opposés les uns aux autres. Dans une série de tests distincte, menée par Banjo Obayomi d’Amazon, nous avons vu 14 LLMs s’affronter à travers 314 matchs individuels, avec finalement la victoire de claude_3_haiku d’Anthropic (ELO 1613).
Fait intéressant, Banjo a également observé que des bogues/caractéristiques des LLM comme des hallucinations entravent parfois les performances de combat d’un modèle particulier. Enfin, la question se pose de savoir si ceci est un benchmark utile pour les LLMs, ou simplement une distraction intéressante. Des jeux plus complexes pourraient fournir des analyses plus enrichissantes, mais les résultats seraient probablement plus difficiles à interpréter.
Leave a Comment