OpenAI Synthetic Voices
Une nouvelle ère s’ouvre dans le domaine des voix synthétiques avec la présentation par OpenAI des enseignements issus d’une prévisualisation à petite échelle de Voice Engine, un modèle permettant de créer des voix personnalisées.
OpenAI, affirmant être engagé dans le développement d’une IA sûre, partage aujourd’hui des aperçus préliminaires et des résultats de cette prévisualisation de Voice Engine. Ce modèle utilise une entrée textuelle et un seul échantillon audio de 15 secondes pour générer une parole naturelle qui ressemble étroitement à celle du locuteur original. Il est remarquable qu’un modèle de petite taille avec un seul échantillon de 15 secondes puisse créer des voix expressives et réalistes.
Le développement initial de Voice Engine remonte à la fin de l’année 2022. Depuis lors, il a été utilisé pour alimenter les voix prédéfinies disponibles dans l’API de synthèse vocale, ainsi que ChatGPT Voice et Read Aloud. Toutefois, en raison du potentiel de mauvais usage des voix synthétiques, OpenAI adopte une approche prudente et réfléchie quant à un déploiement plus large. Cette démarche vise à susciter un dialogue sur le déploiement responsable des voix synthétiques et sur la manière dont la société peut s’adapter à ces nouvelles capacités.
Les premières applications de Voice Engine ont été explorées à travers des tests privés avec un petit groupe de partenaires de confiance. Ces déploiements à petite échelle ont permis de mieux comprendre les utilisations potentielles de cette technologie et ont contribué à informer l’approche, les sauvegardes et la réflexion sur la manière dont Voice Engine pourrait être utilisé de manière positive dans divers secteurs.
Parmi les premiers exemples figurent la fourniture d’une assistance à la lecture aux non-lecteurs et aux enfants, la traduction de contenu pour atteindre un public mondial, l’amélioration de la prestation de services essentiels dans des environnements éloignés. Ces applications préliminaires illustrent le potentiel transformateur de Voice Engine dans une multitude de contextes.
Cette technologie soulève des questions cruciales sur la sécurité et la responsabilité. En encourageant des mesures telles que l’abandon progressif de l’authentification vocale pour des applications sensibles, l’exploration de politiques de protection des voix individuelles et l’éducation du public sur les capacités et les limites de l’IA, OpenAI affirme aspirer à un dialogue continu avec les parties prenantes sur les défis et les opportunités des voix synthétiques.
Des nouvelles de Sora
Depuis son introduction le mois dernier, Sora a suscité l’intérêt et la participation active de la communauté créative, offrant ainsi des perspectives précieuses pour son amélioration.
Sora, le modèle récemment dévoilé par OpenAI, a déjà commencé à susciter l’intérêt de divers acteurs de l’industrie créative, notamment des artistes visuels, des designers, des réalisateurs et des cinéastes. Ensemble, ils explorent les multiples façons dont Sora pourrait enrichir leur processus créatif.
Alors que Sora continue son évolution, les premiers retours des utilisateurs mettent en lumière sa capacité à donner vie à des idées nouvelles et inédites, souvent jugées impossibles auparavant. Des professionnels de divers domaines artistiques expriment leur enthousiasme quant à la liberté créative que Sora leur offre, soulignant son potentiel à transcender les limites traditionnelles de l’expression artistique.
Des exemples concrets de l’impact de Sora commencent à émerger. Des entreprises de production multimédia aux agences créatives en passant par les artistes indépendants, tous découvrent de nouvelles possibilités pour leurs projets, libérés des contraintes temporelles, financières et techniques habituelles.
Alors que Sora continue à se développer, il suscite un vif intérêt quant à son potentiel futur et à son rôle dans la transformation du paysage créatif contemporain. Les premières impressions témoignent d’une technologie prometteuse qui ouvre de nouvelles perspectives pour l’expression artistique et la narration visuelle.
Suno V3
Suno V3 : La Révolution de la Création Musicale Instantanée
Suno franchit une nouvelle étape dans la démocratisation de la création musicale avec le lancement de Suno V3. Cette version permet désormais à chacun de produire des chansons de qualité radiophonique en quelques secondes seulement.
Que ce soit pour un combat héroïque dans le désert, une opéra métal sur les lundis moroses, ou encore une session d’étude dominicale, Suno V3 offre une variété de styles et de genres musicaux pour accompagner chaque moment de la vie quotidienne.
Avec une meilleure qualité audio, une plus grande variété de styles musicaux, et une amélioration de l’adhérence aux directives de création, Suno V3 ouvre de nouveaux horizons pour les musiciens amateurs et professionnels. Toutefois, la société affirme rester engagée dans la sécurité et la protection contre les abus, en développant une technologie de tatouage numérique inaudible pour détecter toute utilisation abusive de ses services.
Changement de direction chez Stability AI
Une annonce inattendue a secoué le monde de l’intelligence artificielle avec la démission d’Emad Mostaque de son poste de PDG de Stability AI, ainsi que de son siège au conseil d’administration de l’entreprise. Mostaque, fondateur de la start-up britannique connue pour son générateur d’images Stable Diffusion, a choisi de poursuivre une nouvelle voie en faveur de ce qu’il appelle une « IA décentralisée ».

Dans ses messages publiés sur le réseau X, Mostaque a souligné les enjeux de la concentration du pouvoir dans le domaine de l’IA et a exprimé sa conviction que des modèles plus transparents et distribués sont nécessaires pour l’avenir de cette technologie. Il affirme également que la centralisation croissante dans le secteur de l’IA pose un défi majeur, mais reste convaincu qu’il est possible de le surmonter.
Cependant, cette transition survient dans un contexte où Stability AI faisait déjà face à des difficultés. Des rapports indiquent que l’entreprise, qui a connu un exode important de ses employés ces derniers mois, avait des défis financiers et juridiques à relever. Des procédures judiciaires pour violation de propriété intellectuelle, ainsi que des difficultés à lever de nouveaux fonds, ont contribué à une période tumultueuse pour la société.
Stability AI dévoile Stable Code Instruct 3B
Stability AI a introduit Stable Code Instruct 3B, un modèle de langage de programmation (LM) à instruction optimisée construit sur la base de Stable Code 3B. Ce modèle, conçu pour améliorer la complétion de code et soutenir les interactions en langage naturel, représente un bond significatif dans les tâches de programmation et de développement logiciel. Notamment, Stable Code Instruct 3B présente des performances de pointe à l’échelle de 3 milliards de paramètres (3B), surpassant des modèles plus volumineux comme CodeLlama 7B Instruct et se comparant à StarChat 15B dans les tâches liées au génie logiciel. Il est désormais disponible à des fins commerciales avec une adhésion à Stability AI, ses poids et son code étant accessibles sur Hugging Face.

S’appuyant sur les insights de l’enquête Stack Overflow 2023 Developer Survey, Stable Code Instruct 3B se concentre sur des langages de programmation populaires tels que Python, JavaScript, Java, C, C++ et Go, répondant ainsi à une gamme diversifiée de développeurs. De plus, le modèle inclut une formation sur d’autres langages largement adoptés comme SQL, PHP et Rust. Sa compétence s’étend au-delà de l’ensemble de données d’entraînement initial, démontrant de solides performances même dans des langages comme Lua, illustrant ainsi son adaptabilité et sa compréhension des principes de codage dans différents environnements de programmation.

Stable Code Instruct 3B excelle non seulement dans la génération de code, mais aussi dans des tâches telles que les compléments au milieu de code (FIM), les requêtes de base de données, la traduction de code, l’explication et la création. Son accordage d’instructions permet une interprétation et une exécution nuancées de demandes complexes, améliorant ainsi la productivité des développeurs et facilitant un large éventail de tâches de codage.

À travers des tests rigoureux décrits dans le rapport technique, Stable Code Instruct 3B a prouvé sa supériorité par rapport aux modèles leaders en termes de précision de la complétion de code, de compréhension des instructions en langage naturel et de polyvalence dans différents langages de programmation.
SD3-Turbo
Une nouvelle méthode de distillation basée sur la diffusion adversaire latente (LADD) a été présentée dans un pré-imprimé par d’anciens collègues travaillant sur le projet Stable Diffusion 3. Cette méthode, baptisée SD3-Turbo, vise à améliorer la vitesse de génération d’images haute résolution tout en maintenant leur qualité. Contrairement à l’approche précédente, SD3-Turbo utilise un discriminateur travaillant dans l’espace latent, ce qui accélère le processus et réduit la consommation de mémoire. De plus, la distillation est effectuée sur des données synthétiques générées par l’enseignant, ce qui élargit les possibilités de création.

Les résultats préliminaires suggèrent que le modèle SD3-Turbo est capable de produire des images de qualité comparable à son enseignant en seulement 4 étapes, surpassant même certains modèles concurrents comme Midjourney 6 en termes de qualité d’image et d’alignement des instructions.

Cependant, des évaluations humaines montrent que l’alignement des instructions du modèle étudiant est encore perfectible, soulignant ainsi les défis persistants dans ce domaine de recherche.

Cette avancée témoigne des progrès constants dans le domaine de la synthèse d’images et ouvre de nouvelles perspectives pour la création automatisée d’images de haute qualité à grande échelle. Toutefois, des tests supplémentaires seront nécessaires pour évaluer pleinement les performances et la fiabilité de ce nouveau modèle avant sa mise en œuvre généralisée dans des applications réelles.
Databricks Dévoile DBRX : Un Nouveau Modèle de Langage de Pointe et Ouvert
DBRX : un nouveau modèle de langage de pointe et Open Source
Databricks a annoncé aujourd’hui le lancement de DBRX, un modèle de langage de grande envergure et ouvert. DBRX établit un nouveau standard de qualité pour les LLM ouverts établis, dépassant même GPT-3.5 et rivalisant avec Gemini 1.0 Pro. Avec une architecture fine et diversifiée de mélange d’experts, DBRX offre des performances d’entraînement et d’inférence améliorées, tout en consommant moins de ressources par rapport à d’autres modèles de taille similaire.

Les poids du modèle de base (DBRX Base) et du modèle finetuned (DBRX Instruct) sont disponibles sous licence ouverte sur Hugging Face, offrant ainsi à la communauté la possibilité de les explorer et de les utiliser dans diverses applications.

DBRX excelle particulièrement dans les domaines de la programmation et des mathématiques, surpassant même des modèles spécialisés comme CodeLLaMA-70B sur certains benchmarks. Il se distingue également par ses performances sur des tâches nécessitant un contexte étendu, rivalisant avec les modèles les plus avancés sur des tâches complexes de raisonnement et de compréhension.

Avec des améliorations constantes de l’efficacité d’entraînement et d’inférence, DBRX ouvre de nouvelles possibilités pour les entreprises et la communauté de développeurs qui souhaitent explorer et exploiter les capacités de modélisation du langage de pointe.

Le lancement de DBRX marque une étape importante dans l’évolution des modèles de langage ouverts, offrant des performances et une accessibilité accrues tout en restant fidèle aux principes de transparence et de collaboration. Alors que Databricks continue d’explorer de nouvelles avenues dans le domaine de l’intelligence artificielle et du traitement du langage naturel, DBRX promet d’être un outil puissant pour stimuler l’innovation et résoudre des problèmes complexes à l’échelle mondiale.









Laisser un commentaire