Les limites de la génération vidéo par IA : une révolution en demi-teinte ?
Sora123 d’OpenAI, Runway45, Mochi1… Ces noms résonnent comme les symboles d’une nouvelle ère technologique. Ces outils, capables de générer des vidéos à partir de simples commandes textuelles, ont envahi nos écrans, fascinant autant qu’ils interrogent.
Plus récemment, Genie 2 de Google DeepMind678 a attiré l’attention. Sa capacité à créer des mondes virtuels à partir de simples photos a déclenché un véritable buzz. Certains y voient déjà la mort programmée d’Hollywood. En 2023, les grèves massives qui ont secoué l’industrie cinématographique, notamment sur la montée en puissance de l’IA, n’ont fait qu’accentuer ces inquiétudes910.
Mais derrière cette effervescence, une question cruciale demeure : jusqu’où ces modèles génératifs peuvent-ils réellement aller ?
Créer une vidéo crédible ne se limite pas à produire des images réalistes. Pour qu’un modèle génératif devienne un outil véritablement utile, il doit être capable d’apprendre et de reproduire les lois fondamentales qui régissent notre monde11. Et c’est là que le défi se corse. Comprendre les lois de la physique signifie pouvoir prédire ce qui va se passer ensuite, même dans des situations totalement inédites, à partir de simples conditions initiales.
C’est exactement ce que cherchent à accomplir les « modèles de monde » (World Models12). Historiquement, ces systèmes étaient conçus pour l’apprentissage par renforcement13, où ils simulaient des environnements simplifiés afin que des agents puissent s’entraîner à optimiser leurs actions.
Aujourd’hui, une approche différente émerge : utiliser la génération vidéo pour créer ces modèles de monde14. L’idée est simple en théorie : en prédisant les frames d’une vidéo, les modèles pourraient apprendre à simuler l’évolution des environnements physiques. OpenAI, avec Sora, explore cette voie en misant sur le scaling de ces modèles pour en faire des simulateurs universels capables de comprendre et de prédire le monde réel.
Augmenter l’échelle des modèles de génération vidéo est une voie prometteuse pour construire des simulateurs polyvalents du monde physique – OpenAI Technical Report, SORA
Les applications potentielles sont impressionnantes. Imaginez une voiture autonome capable d’anticiper la trajectoire d’un piéton ou un robot qui prévoit avec précision les conséquences de ses actions dans un espace complexe. Mais pour cela, ces modèles doivent atteindre une nouvelle dimension : celle où ils reproduisent fidèlement les phénomènes naturels, non pas grâce à des interventions humaines, mais en s’appuyant uniquement sur les principes fondamentaux de la physique.
Alors, la génération vidéo peut-elle devenir la clé pour créer de tels modèles de monde ? Est-il possible pour ces systèmes de découvrir les lois fondamentales de la physique simplement en regardant des vidéos ? Et si non, quelles sont les limites actuelles de ces technologies qui prétendent révolutionner notre manière de comprendre et d’interagir avec le monde ?
Ces questions sont au cœur des débats actuels dans le domaine de l’IA. Dans cet article, nous plongeons dans ces interrogations pour explorer jusqu’où la génération vidéo peut nous mener.
Physique et modèles génératifs
Les modèles de génération vidéo, comme Sora d’OpenAI ou Runway, suscitent un engouement croissant. Ils sont régulièrement mis en avant pour leur capacité à créer des vidéos spectaculaires à partir de simples prompts textuels. Mais comme pour leurs cousins, les modèles de langage (LLMs), une question cruciale persiste : ces systèmes peuvent-ils vraiment généraliser à des situations qu’ils n’ont jamais rencontrées (out-of-distribution, OOD), ou se contentent-ils de recycler des motifs mémorisés pendant leur entraînement ?
Prenons l’exemple des modèles de langage. Ils ont été présentés comme une révolution, capables de raisonner de manière quasi-humaine et annoncés comme étant aux portes de l’intelligence artificielle générale (AGI). Pourtant, la réalité est plus complexe15. Ces modèles excellent dans des tests conçus pour des humains, mais principalement grâce à leur immense capacité de mémorisation et de reconnaissance de motifs. Lorsque les tâches sortent du cadre strict de leur entraînement, leurs limites deviennent évidentes. Ils échouent à généraliser16, révélant ainsi une incapacité fondamentale à comprendre des concepts au-delà de leurs données d’entraînement.
La capacité à généraliser, particulièrement face à des données hors distribution (OOD), est un critère clé en intelligence artificielle. Et cette même problématique s’étend aux modèles de génération vidéo. Bien qu’ils impressionnent par leurs démos visuellement bluffantes, relayées en masse sur Internet, ces démonstrations cachent souvent des failles majeures. Hallucinations, incohérences temporelles, objets qui disparaissent ou changent de couleur… autant de défauts qui révèlent les limites actuelles. Ajoutons à cela que ces vidéos restent très courtes, quelques secondes à peine, en raison des contraintes des architectures utilisées.
Mais pour réellement dépasser ces obstacles, ces modèles doivent évoluer. Ils ne peuvent pas se contenter de générer des séquences d’images cohérentes. Ils doivent devenir des modèles de monde : des systèmes capables de prédire l’évolution de situations inédites à partir d’observations initiales, en capturant les lois fondamentales de l’univers. Sans cette compréhension, impossible de générer des vidéos crédibles ou de créer des mondes virtuels suffisamment réalistes pour entraîner des agents intelligents, comme des robots ou des véhicules autonomes.
Cette question soulève un débat fondamental dans la recherche actuelle. Certains, comme Yann LeCun, considèrent que les modèles génératifs ne sont pas adaptés pour créer de véritables modèles de monde17. Ils défendent des approches alternatives, comme celles explorées avec DINO World Model18 ou I-JEPA1920, qui consistent à prédire directement dans un espace latent plutôt que de produire des pixels.
Alors, les modèles de génération vidéo peuvent-ils vraiment découvrir les lois fondamentales de la physique21 ?
Méthodologie
Comprendre les limites de la génération vidéo par IA : une exploration physique
Pour répondre à la question des capacités réelles des modèles de génération vidéo, les auteurs de l’article “How Far Is Video Generation From World Model: A Physical Law Perspective”22 ont adopté une approche simple et contrôlable. Plutôt que d’analyser des vidéos du monde réel, avec leurs innombrables variables et leur complexité, ils se sont tournés vers un simulateur physique : Box2D23.
Box2D permet de créer des simulations réalistes en deux dimensions, offrant un environnement idéal pour tester les limites des modèles. Les scénarios générés sont variés, définis par plusieurs degrés de liberté comme la masse ou la vélocité initiale des objets. Cela permet d’explorer des comportements fondamentaux tels qu’une balle en chute libre ou deux objets entrant en collision. En complément, le benchmark PHYRE24 a été utilisé. Ce dernier propose des puzzles physiques conçus pour tester la capacité des modèles à raisonner et à généraliser, que ce soit dans des contextes similaires ou totalement inédits.
Les modèles évalués incluent des architectures bien connues comme les modèles de diffusion (Diffusion Transformers25), similaires à ceux utilisés dans Sora d’OpenAI26. Ces modèles fonctionnent en partant d’un bruit initial, qu’ils débruitent itérativement pour produire des vidéos. Cependant, contrairement à la génération d’images, la vidéo nécessite également de modéliser la dimension temporelle, ce qui complexifie la tâche. Si cette méthode limite les incohérences temporelles, elle restreint également la durée des vidéos générées.
DeepMind, avec Genie2, explore une autre approche en entraînant des modèles à prédire une image à partir d’un contexte limité (généralement les frames précédentes). Bien que cette méthode permette de produire des contenus divers, elle augmente le risque d’incohérences temporelles.
Pour tester ces modèles, trois scénarios physiques simples ont été conçus :
- Mouvement uniforme : Les objets se déplacent horizontalement à vitesse constante. Ce test vérifie si le modèle peut comprendre le principe d’inertie : un objet continue de se déplacer en ligne droite tant qu’aucune force extérieure ne l’influence (figure 2, gauche).
- Collisions élastiques : Deux balles de tailles différentes entrent en collision. Ici, on évalue si le modèle peut intégrer les principes de conservation de l’énergie et de la quantité de mouvement (figure 2, centre).
- Trajectoire parabolique : Une balle, lancée horizontalement, chute sous l’effet de la gravité. Ce scénario teste la capacité du modèle à saisir le second principe de Newton, où une force modifie la trajectoire d’un objet (figure 2, droite).
Ces simulations permettent de distinguer deux types d’évaluations :
- Interpolation (ID) : Le modèle est testé sur des données provenant de la même distribution statistique que celles de son entraînement. Les masses et vélocités initiales des objets restent dans des plages connues.
- Extrapolation (OOD) : Le modèle doit prédire des résultats pour des scénarios où les propriétés des objets dépassent les limites des données d’entraînement, par exemple des vitesses ou des masses très différentes de celles déjà vues.
Un troisième test, plus complexe, a été conçu pour explorer la généralisation combinatoire. Contrairement à l’extrapolation, où les propriétés physiques changent, ce test examine la manière dont un modèle peut manipuler des combinaisons inédites d’objets et d’interactions déjà apprises. Par exemple, un modèle ayant appris séparément le comportement d’une balle, d’une jarre et d’un mur doit prédire correctement une scène où ces trois éléments interagissent pour la première fois. Le benchmark PHYRE a été utilisé pour générer ces scénarios, impliquant des collisions, des trajectoires paraboliques, des rotations et des frictions.
Pour évaluer si les modèles apprennent réellement des lois fondamentales ou se contentent de reproduire des motifs, les prédictions du modèle (par exemple, les positions et vitesses des objets) sont comparées aux calculs exacts du simulateur.
Enfin, cette étude s’attaque à une question clé dans la recherche en IA : les fameuses scaling laws27. Ces lois postulent qu’en augmentant la taille des modèles et des données, leurs performances devraient s’améliorer, leur permettant de généraliser à des situations inédites. Bien que séduisante, cette promesse se heurte souvent à des limites pratiques28. L’étude explore précisément cette question : est-ce que les lois d’échelle tiennent lorsqu’il s’agit de modéliser le monde physique par la génération vidéo ? Les résultats montrent qu’ajouter plus de données et de puissance de calcul ne suffit pas toujours pour produire des modèles de monde véritablement intelligents.
Les modèles génératifs actuels sont-ils de bons physiciens ?
Les résultats sont clairs : l’échelle seule ne suffit pas. Même si les lois d’échelle ont contribués au succès de modèles comme Sora, elles sont insuffisantes pour permettre aux modèles de découvrir des lois physiques fondamentales. Il y a des limites profondes aux capacités de généralisation des modèles actuels.
Pour voir ça, commençons par l’analyse des erreurs de vitesse, représentées dans la Figure 5. Ici, les chercheurs ont comparé les prédictions des modèles avec les états réels simulés, pour les trois scénarios. Sur l’axe horizontal, on voit la taille des jeux de données d’entraînement, de 30 000 à 3 millions de vidéos. Sur l’axe vertical, l’erreur de vitesse : plus la courbe est basse, mieux c’est.
Les courbes pleines montrent les résultats in-distrubtion (ID), alors que les pointillées montrent les résultats out-of-distribution (OOD). Dans chaque cas, trois tailles de modèles ont été évaluées: le Diffusion Transformers small, big et large (tableau 1).
En in-distribution (ID), les courbes pleines montrent que les modèles s’améliorent de manière significative à mesure qu’on augmente la taille des jeux de données et des modèles. Avec suffisamment de données, les modèles atteignent presque la perfection, reproduisant les lois physiques avec une précision remarquable.
Mais en out-of-distribution (OOD), c’est une autre histoire. Les courbes pointillées révèlent des erreurs importantes et persistantes, même en augmentant la taille des modèles et des données. En clair, dès que les scénarios testés s’écartent des données d’entraînement, ces modèles échouent à généraliser et aucune amélioration n’est observable. Ces premiers indices pointent là aussi vers une invalidité des lois d’échelle.
La généralisation combinatoire offre un autre angle tout aussi intéressant. Ici, les chercheurs ont généré des scénarios impliquant plusieurs objets, en variant les tailles, les positions et les interactions. L’idée était de tester si les modèles pouvaient combiner des concepts qu’ils connaissaient déjà pour prédire des situations nouvelles. Les résultats montrent des tendances intéressantes. Prenez la colonne « Abnormal » du tableau 2, qui mesure le taux de vidéos jugées incohérentes ou physiquement impossibles par des évaluateurs humains.
Avec seulement six templates, le modèle DiT-XL produit des vidéos incohérentes dans 67 % des cas lorsqu’il est confronté à des situations qu’il n’a jamais vues. En revanche, pour les scénarios correspondant aux templates d’entraînement, ce taux tombe à seulement 3 %. Mais qu’est-ce qu’un template, au juste ? Dans cette étude, un template c’est une configuration spécifique d’objets, par exemple une boule rouge interagit avec quatre objets choisis parmi huit types possibles, comme des barres fixes, des jarres dynamiques ou des groupes de boules.
Quand on passe de six à 60 templates, le modèle est exposé à une plus grande variété de combinaisons d’objets. Résultat ? Le taux d’erreurs dans les scénarios inédits chute drastiquement, passant de 67 % à seulement 10 %. Preuve que la diversité, bien plus que la simple quantité, est essentielle.
Cependant, même avec des templates variés, on observe une limite au scaling. Au-delà d’un certain point, ajouter des données ou des templates n’améliore plus significativement les performances. Cela montre que la diversité seule ne suffit pas ; il faut aussi repenser les architectures et les méthodologies pour aller au-delà de ces plafonds.
Un point frappant est que les modèles plus grands, comme le DiT-XL, surclassent systématiquement les modèles plus petits, surtout sur des tâches complexes. Cela confirme que la taille des modèles joue un rôle crucial dans leur capacité à capturer et interpréter des interactions complexes. Mais cette montée en puissance a un coût et des limites. Plus de données, des modèles plus grands, des besoins en calcul toujours plus élevés : on atteint rapidement des limites pratiques pour des gains de performances toujours plus petits.
Dans la tête des modèles de diffusion
La recherche en IA s’oriente de plus en plus vers des méthodes qui privilégient la qualité des données plutôt que leur simple quantité. Il ne s’agit plus d’empiler des montagnes de vidéos, mais de sélectionner intelligemment les données qui apportent un véritable gain en performance. Ces résultats nous montrent qu’en optimisant la diversité et la pertinence des données, on peut aider les modèles à combiner divers concepts.
De nouveau, évaluer la capacité de généralisation est essentiel. Et pour tester ça plus profondément, les chercheurs ont volontairement retiré certaines valeurs pour des propriétés des simulations lors de l’entraînement. Par exemple, l’entraînement peut contenir que des objets se déplaçant très lentement ou très rapidement, mais qui ne rencontre jamais de vitesses intermédiaires. Ensuite, on lui demande de prédire des scénarios où ces vitesses inconnues apparaissent. Cela permet de voir si le modèle peut interpoler – deviner des valeurs intermédiaires entre ce qu’elle connaît déjà – ou si elle échoue, incapable de combler les « trous » dans ses connaissances. Et on peut faire ça avec d’autres propriétés comme la masse, la forme ou la couleur des objets pour voir comment les modèles réagissent.
Dans les premiers graphiques de la Figure 6 on voit les résultats pour la vitesse dans un scénario de mouvement uniforme. Les zones gris c’est les valeurs données pendant l’entraînement, et les zones blanches les valeurs manquantes qu’on lui demande de combler. On voit dans le premier graphique que quand les « trous » dans les données sont larges, le modèle est confronté à des vitesses moyennes qu’il n’a jamais vues. Plutôt que de s’en tenir à la loi de l’inertie, représentée par la ligne rouge en pointillés, il « triche ». Il s’appuie sur ce qu’il connaît – soit des vitesses lentes, soit des vitesses rapides – pour faire ses prédictions. Le résultat ? Une déviation significative par rapport aux valeurs idéales (la ligne rouge), avec des prédictions qui sont représentées par les points noirs.
Dans ce premier cas, on voit clairement que le modèle est incapable de prédire correctement les vitesses dans ces zones manquantes. Il fait des erreurs, influencé par les vitesses qu’il a déjà vues.
À mesure que l’écart entre les vitesses connues et inconnues se réduit – comme dans les graphiques suivants de la figure 6 – le modèle parvient à interpoler plus précisément et à deviner les vitesses manquantes.
Que peut-on en conclure ? Plus les trous dans les données sont grands, moins le modèle est capable de généraliser. La diversité des données d’entraînement semble jouer un rôle clé. Même sans augmenter la quantité totale de données, élargir les plages couvertes permet au modèle de mieux appréhender des situations inédites.
Comment agit un modèle de génération lorsqu’il génère une vidéo ? Quel est son modus operandi ? Quelles informations privilégie-t-il ?
D’abord, ces modèles ne semblent pas abstraire de règles universelles mais plutôt s’appuyer sur une mémorisation et une imitation basées sur des cas spécifiques. Par exemple, lorsqu’un modèle est entraîné sur des vidéos de mouvements uniformes dans des directions limitées, il génère des résultats biaisés en se basant sur les exemples d’entraînement les plus proches. Si les données incluent des vitesses élevées mais pas des vitesses basses, le modèle tentera de combler les lacunes en associant des exemples similaires mais incorrects, par exemple en inversant la direction d’un mouvement. Cette stratégie de « pattern matching » limite sévèrement leurs capacités à généraliser en dehors de ses données d’entraînement. Et c’est une phénomène qu’on retrouve exactement dans les LLMs.
Ensuite, lorsqu’il s’agit de choisir quelles informations privilégier, les modèles de génération vidéo montrent une hiérarchie claire : ils priorisent la couleur avant tout, suivie de la taille, puis de la vélocité, et enfin de la forme. Par exemple, dans des tests où des balles changent de couleur ou de forme, les modèles respectent toujours la couleur mais négligent souvent la forme. De même, dans des scénarios combinant taille et vélocité, une légère préférence pour la taille est observée. Cette priorisation des attributs explique pourquoi ces modèles ont du mal à préserver des détails comme les formes dans des situations générées en dehors des données d’entraînement.
Cependant, l’étude met en lumière des limites profondes. Les modèles échouent à abstraire des règles physiques générales, se contentant d’un comportement de généralisation basé sur des cas spécifiques, en imitant l’exemple d’entraînement le plus proche. Lorsqu’ils tentent de généraliser, ils priorisent de manière inattendue certains facteurs : la couleur en premier, suivie de la taille, puis de la vélocité, et enfin de la forme.
Les limites majeures des modèles de génération vidéo
Au final, cette étude met en évidence deux limites majeures des modèles de génération vidéo. La première est l’ambiguïté visuelle : pour modéliser la physique de manière précise, une représentation visuelle doit fournir des informations suffisamment claires et détaillées. Or, les expériences montrent que ces modèles échouent souvent face à des détails subtils. Par exemple, il peut être difficile de déterminer si une balle peut passer à travers un espace entre deux objets simplement en se basant sur la vision quand les différences sont inférieures à un pixel. Cela conduit à des résultats visuellement plausibles, mais physiquement incorrects. Ces imprécisions révèlent que s’appuyer uniquement sur des représentations visuelles reste insuffisant pour capturer la complexité du monde physique.
La deuxième limite est ce qu’on appelle en physique le découplage des échelles : on ne peut pas déduire les lois fondamentales qui régissent le monde simplement à partir d’observations macroscopiques. Ces représentations ne capturent qu’une approximation simplifiée de la réalité sous-jacente. Tout comme il a fallu construire des outils comme les accélérateurs de particules pour révéler les lois fondamentales, le futur de l’IA pourrait nécessiter des données bien plus riches, et surtout directement connectées au monde réel. Comme des interactions directes avev le monde environnant. Surmonter cette barrière exige non seulement plus de données, mais des données qualitatives qui traduisent fidèlement les lois physiques.
Une piste intéressante pour surmonter ces limites est l’intégration de modèles physiques au sein des modèles de génération vidéo. En combinant des approches basées sur des lois physiques incomplètes avec des architectures d’apprentissage profond, comme les autoencodeurs variationnels (VAEs), il est possible de rendre les modèles plus robustes et interprétables29. Par exemple, en ancrant une partie de l’espace latent dans des principes physiques, on peut guider les modèles pour qu’ils apprennent à générer des vidéos qui respectent mieux les lois fondamentales. Cette approche permet non seulement d’améliorer la précision des prédictions, mais aussi d’élargir leur capacité à extrapoler à des situations inédites tout en offrant une meilleure compréhension des mécanismes sous-jacents. La connaissance et le travail humain restent donc indispensables.
En fin de compte, d’autres modèles comme DINO-V2 et I-JEPA ouvrent des voies peut-être plus prometteuses en se détournant du côté purement génératif. Alors, la prochaine révolution viendra-t-elle de ceux qui génèrent ou de ceux qui comprennent ? Dites-moi ce que vous en pensez dans les commentaires, j’aimerais vraiment connaître votre avis.
Références
- Creating video from text Sora is an AI model that can create realistic and imaginative scenes from text instructions: https://openai.com/index/sora/ ↩︎
- OpenAI lance Sora, interface capable de générer des séquences vidéo: https://www.allnews.ch/content/news/openai-lance-sora-interface-capable-de-g%C3%A9n%C3%A9rer-des-s%C3%A9quences-vid%C3%A9o ↩︎
- Sora, le générateur vidéo d’OpenAI dévoilé : Révolte dans la communauté IA: https://citizenpost.fr/sora-le-generateur-video-dopenai-devoile-revolte-dans-la-communaute-ia/ ↩︎
- Tools for human imagination: https://runwayml.com/product ↩︎
- Introducing Gen-3 Alpha: https://runwayml.com/ ↩︎
- DeepMind crée Genie 2, un modèle générant des mondes interactifs en 3D: https://mondetech.fr/deepmind-cree-genie-2-un-modele-generant-des-mondes-interactifs-en-3d/ ↩︎
- Un open world généré par IA ? Google DeepMind s’en rapproche: https://www.numerama.com/tech/1859866-un-open-world-genere-par-ia-google-deepmind-sen-rapproche.html ↩︎
- Quand l’IA crée un mini-jeu vidéo à partir d’une image: https://www.20min.ch/fr/story/alphabet-quand-l-ia-cree-un-mini-jeu-video-a-partir-d-une-image-103233543 ↩︎
- À Hollywood, la fin de la grève des scénaristes par une victoire en demi-teinte sur l’IA: https://www.usine-digitale.fr/article/a-hollywood-la-fin-d-une-greve-historique-des-scenaristes-avec-une-victoire-en-demi-teinte-sur-l-ia.N2175637 ↩︎
- Grève des scénaristes : bientôt le remplacement par l’IA ?: https://www.france24.com/fr/am%C3%A9riques/20230806-gr%C3%A8ve-des-sc%C3%A9naristes-bient%C3%B4t-le-remplacement-par-l-ia ↩︎
- OpenAI Sora – Modèles de génération vidéo comme simulateurs du monde: https://www.metamorphose47.com/2024/02/17/openai-sora-modeles-de-generation-video-comme-simulateurs-du-monde/ ↩︎
- World Models: https://arxiv.org/pdf/1803.10122 ↩︎
- Qu’est-ce que l’apprentissage par renforcement ?: https://www.ibm.com/fr-fr/topics/reinforcement-learning ↩︎
- OpenAI Sora – Modèles de génération vidéo comme simulateurs du monde: https://www.metamorphose47.com/2024/02/17/openai-sora-modeles-de-generation-video-comme-simulateurs-du-monde/ ↩︎
- Intelligence Artificielle: la fin du bullshit ? (AI News): https://youtu.be/L449Qrc0U4k?si=4i7xvjKVHWm8I__r ↩︎
- Faith and Fate: Limits of Transformers on Compositionality: https://arxiv.org/pdf/2305.18654 ↩︎
- Comment les machines pourraient-elles atteindre l’intelligence humaine? Conférence de Yann LeCun: https://www.youtube.com/watch?v=eDY9FUT5ces ↩︎
- DINO-WM: WORLD MODELS ON PRE-TRAINED VISUAL FEATURES ENABLE ZERO-SHOT PLANNING: https://arxiv.org/pdf/2411.04983 ↩︎
- I-JEPA: The first AI model based on Yann LeCun’s vision for more human-like AI: https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/ ↩︎
- Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture: https://arxiv.org/pdf/2301.08243 ↩︎
- How Far is Video Generation from World Model: A Physical Law Perspective: https://www.chatpaper.com/chatpaper/fr/paper/73484 ↩︎
- How Far is Video Generation from World Model: A Physical Law Perspective: https://arxiv.org/pdf/2411.02385 ↩︎
- Box2D – A 2D Physics Engine for Games: https://box2d.org/ ↩︎
- Benchmark Phyre: https://phyre.ai/ ↩︎
- Scalable Diffusion Models with Transformers: https://arxiv.org/pdf/2212.09748 ↩︎
- Diffusion transformers are the key behind OpenAI’s Sora — and they’re set to upend GenAI: https://techcrunch.com/2024/02/28/diffusion-transformers-are-the-key-behind-openais-sora-and-theyre-set-to-upend-genai/ ↩︎
- Scaling Laws for Neural Language Models: https://arxiv.org/pdf/2001.08361 ↩︎
- Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve: https://arxiv.org/pdf/2309.13638 ↩︎
- Physics-Integrated Variational Autoencoders for Robust and Interpretable Generative Modeling: https://arxiv.org/pdf/2102.13156 ↩︎
Leave a Comment