Retrouvez cet article en vidéo sur la chaîne Artificialis Code.
Yann LeCun, figure emblématique de l’intelligence artificielle et pionnier dans le domaine, ne manque jamais une occasion pour entrer dans des débats de fonds sur nos méthodes d’IA actuelles. Récemment, il a rappelé l’un des grands défis de l’IA : dépasser les limites imposées par ce que l’on appelle les lois d’échelle, cette idée selon laquelle toujours plus de données et de puissance informatique permettraient d’avoir des systèmes plus intelligents1. Une idée séduisante, mais qui, selon Ilya Sutskever, co-fondateur d’OpenAI, a atteint ses limites, nous faisant entrer dans une nouvelle ère de découvertes et d’émerveillement.
Les performances des grands modèles de langage (LLMs) stagnent malgré des investissements faramineux. Dans ce contexte, LeCun propose une autre approche : le Dino World Model2, un pas vers des systèmes capables de planifier, loin des modèles gigantesques et peu efficaces dans ce domaine qui monopolisent aujourd’hui l’attention.
Mais tandis que certains cherchent à réinventer l’IA, d’autres nourrissent des récits alarmistes. Entre les « AI doomers« , qui multiplient les prédictions apocalyptiques sur une super-intelligence imminente, et les influenceurs fraîchement débarqués, qui vendent des formations en prompt engineering pour profiter de la vague, le paysage de l’intelligence artificielle est saturé de buzz et de désinformation.
Face à cette cacophonie, une question fondamentale émerge : l’ère des promesses grandioses et des récits simplistes touche-t-elle à sa fin ? Ou devons-nous encore naviguer dans un monde où le narratifs d’une super-IA alimente le déni des défis scientifiques réels ? Cet article plonge au cœur des enjeux, entre lois d’échelle, benchmarks et nouvelles approches prometteuses, pour comprendre où en est réellement l’intelligence artificielle aujourd’hui.
Les limites des lois d’échelle et la désillusion des modèles géants
Dans un article de Reuters qui a surpris le monde de l’intelligence artificielle, Ilya Sutskever, cofondateur d’OpenAI, a admis que la stratégie du pré-entraînement massif – basée sur l’ingestion de quantités astronomiques de données non labellisées – avait atteint ses limites3. Cet aveu, particulièrement significatif venant de l’un des plus fervents défenseurs de cette approche, met en lumière un tournant dans la recherche en intelligence artificielle. Depuis les premiers modèles de langage basés sur l’architecture Transformer4, cette méthode avait été érigée en solution miracle pour repousser les limites des LLMs. Aujourd’hui, elle se révèle comme une solution peu soutenable sur le long terme.
Pourtant, cette remise en question ne fait pas l’unanimité. Sam Altman, PDG d’OpenAI et figure controversée du domaine, persiste à défendre les lois d’échelle, affirmant qu’il n’y a « aucun mur à l’horizon« 5. Une déclaration qui, bien que rassurante pour les investisseurs, semble contredire les réalités techniques, scientifiques et économiques.
Le mur du scaling : le fin d’un modèle ?
Les géants de l’IA, tels qu’OpenAI, se heurtent à des défis de plus en plus coûteux : infrastructures matérielles surchargées, coûts d’entraînement qui n’en finissent pas d’augmenter et pénurie de données exploitables. En d’autres termes, l’idée d’une intelligence émergente par le simple ajout de puissance et de données montre ses limites6.
Les années 2010 étaient celles du scaling. Maintenant, on est de retour à l’ère de la découverte et de l’émerveillement – Ilya Sutskever
Ce constat pousse des figures influentes comme Yann LeCun, chef de l’IA chez Meta et lauréat du Prix Turing, à remettre en question cette course au gigantisme. Selon lui, le vrai défi reste inchangé : concevoir des machines capables de raisonner et de planifier de manière efficace7. Une solution ne viendra pas d’une accumulation brute de puissance de calcul, mais de nouvelles approches plus intelligentes et efficientes.
Les lois d’échelle reposent sur une idée séduisante mais simpliste : « plus de données et de puissance = plus d’intelligence« . Pourtant, cette logique est de plus en plus critiquée pour ses limites fondamentales. Elle a non seulement nourri les promesses marketing des entreprises technologiques, mais aussi le narratif d’une super-intelligence incontrôlable.
Les partisans de cette hypothèse, qui se présentent souvent comme les résistants face aux dangers de l’IA, alimentent des récits alarmistes. Un exemple frappant est celui de Leopold Aschenbrenner8, ancien employé d’OpenAI, qui prédit l’émergence d’une super-intelligence d’ici 2027 grâce à des infrastructures coûtant des centaines de milliards de dollars9. Si ces prédictions spectaculaires peuvent attirer l’attention, elles s’apparentent davantage à des arguments marketing qu’à des réalités scientifiques.
Ces narratifs alarmistes ne restent pas confinés au domaine anglophone. Ils trouvent écho dans la sphère francophone10, où des influenceurs reprennent ces scénarios pour alimenter un discours de peur autour des dangers d’une super-IA. Une peur qui, pourtant, repose sur des bases spéculatives qui ont peu de rapports avec les réalités scientifiques et techniques d’aujourd’hui.
Des gains de performances en baisse
Malgré des investissements massifs, les limites des modèles de langage comme GPT-4 et Gemini deviennent de plus en plus évidentes. Les gains de performance entre les générations sont faibles11, les hallucinations restent fréquentes, et les tâches sortant du cadre d’entraînement (out-of-distribution, OOD) demeurent très difficiles. Selon des fuites rapportées par The Information, le prochain modèle phare d’OpenAI, Orion, n’offrirait que des améliorations marginales12. Pire encore, ses performances en programmation – un domaine clé – ne surpasseraient pas celles de GPT-4, se contentant d’améliorations des capacités linguistiques13.
Pour essayer de dépasser ces limites, OpenAI avait introduit le Test Time Compute (TTC)14, une méthode visant à améliorer la précision des modèles en leur permettant de passer par des étapes intermédiaires avant de fournir une réponse. Si cette technique offre des gains impressionnants sur certaines tâches spécifiques, elle masque mal les failles fondamentales des modèles.
Prenons l’exemple du modèle o1-preview d’OpenAI, basé sur le TTC. Sur des exercices de manipulation de blocs, il atteint un taux de réussite de 97,8 %, surpassant largement Claude 3.5, qui plafonne à 54,8 %. Impressionnant ? Pas tout à fait.
Dans l’article “LLMs still can’t plan; can LRMs?”15, des chercheurs montrent qu’un outil algorithmique classique, Fast Downward16, développé il y a plus de 20 ans, atteint un taux de réussite parfait de 100 % sur toutes les tâches évaluées. En plus, il accomplit ces performances en seulement 0,265 seconde par instance, alors que les modèles d’OpenAI, comme o1-preview, mettent plus de 40 secondes pour une tâche similaire. Ces résultats, illustrés dans Table 2, soulignent l’énorme écart d’efficacité entre les modèles modernes de langage et des approches algorithmiques bien établies.
Pour bien comprendre ces tests, il faut savoir que Blocksworld, Mystery Blocksworld et Randomized Mystery Blocksworld sont des environnements classiques dans le domaine de la planification. Blocksworld consiste en des tâches où des blocs doivent être empilés ou manipulés selon une séquence définie. Mystery Blocksworld, une variante dérivée, modifie la syntaxe des problèmes tout en conservant leur structure logique. Cela introduit une couche supplémentaire de complexité pour tester si les modèles peuvent généraliser au-delà de la simple reconnaissance de schémas. Enfin, Randomized Mystery Blocksworld augmente encore la difficulté en appliquant des permutations aléatoires pour rendre la structure du problème moins reconnaissable.
Les performances des LLMs sur ces tâches sont décevantes. Comme le montre Table 1, le meilleur score obtenu sur Blocksworld en mode zéro-shot est de 62,6 %, atteint par LLaMA 3.1 (405B). Cependant, aucun modèle ne dépasse 5 % sur Mystery Blocksworld, ce qui révèle une incapacité flagrante à généraliser. Les résultats ne s’améliorent pas significativement même avec des exemples de « one-shot prompts ». Ces chiffres confirment que les modèles actuels peinent à effectuer des tâches impliquant un raisonnement planifié, et leur performance est très sensible aux variations de la présentation des problèmes.
Face à ces limites, des approches hybrides comme les solutions LLM-modulo17 apportent des améliorations substantielles. Contrairement au Test-Time Compute (TTC), qui applique des calculs supplémentaires sans modifier fondamentalement le modèle, LLM-modulo combine la puissance générative des modèles de langage avec des algorithmes spécialisés comme Fast Downward pour la résolution efficace des sous-tâches critiques. Cette méthode, en s’appuyant sur la robustesse des outils traditionnels tout en tirant parti des capacités prédictives des LLMs, surpasse largement le TTC, offrant une solution bien plus fiable et performante dans des environnements comme Blocksworld et ses variantes.
Ces observations mettent en lumière la faiblesse des approches traditionnelles de scaling et de fine-tuning des LLMs : sans une capacité intégrée à raisonner et à planifier, même les modèles les plus avancés restent inadaptés pour des tâches nécessitant une généralisation robuste et une planification complexe.
Des problèmes méthodologiques sérieux
Les preuves des performances des méthodes d’intelligence artificielle reposent souvent sur des bancs d’essai, ou benchmarks, qui posent un problème méthodologique majeur. Ces benchmarks, bien qu’utiles pour évaluer la capacité des modèles à optimiser des tâches spécifiques, échouent à mesurer leur capacité fondamentale à généraliser. Cette faiblesse est exacerbée par l’utilisation de données synthétiques qui, en amplifiant les biais existants, créent une véritable « boucle d’erreurs ». En conséquence, les résultats obtenus par les modèles sont souvent une illusion de performance, masquant les lacunes structurelles des systèmes actuels.
Le journal Le Temps souligne18, dans un article récent, qu’on ne saurait plus comment tester des systèmes d’intelligence artificielle devenus « trop performants ». Mais si nous avons besoin de créer des tests toujours plus complexes, ce n’est pas parce que les modèles deviennent plus intelligents. C’est souvent parce que les benchmarks actuels échouent à capturer leur véritable capacité à généraliser. Ces tests sont vulnérables à la mémorisation, et les modèles réussissent en exploitant des schémas déjà appris.
Une initiative récente, portée par le Center for AI Safety (CAIS)19, illustre bien cette course aux tests toujours plus exigeants. Ce concours, appelé « Le dernier examen de l’humanité »20, vise à concevoir « le test d’IA le plus difficile du monde ». Mais soyons clairs : il n’y a pas de « test ultime ». Une fois qu’un test devient une cible explicite pour les équipes de recherche et développement, il est immédiatement optimisé et perd toute valeur pour évaluer la véritable capacité des modèles. Les benchmarks statiques ne peuvent pas capturer la complexité d’une intelligence qui doit s’adapter à des situations nouvelles. Chaque fois qu’un test est « résolu », il devient obsolète, forçant les chercheurs à en introduire de nouveaux pour mesurer ce qui compte vraiment : la capacité des modèles à apprendre et à généraliser.
Plutôt que d’accumuler des benchmarks comme des sparadraps sur une fracture, le véritable défi consiste à concevoir des modèles qui résistent aux biais et s’attaquent aux problèmes fondamentaux de généralisation et de raisonnement abstrait. Tant que ce cap ne sera pas franchi, les progrès resteront superficiels, loin des promesses d’une intelligence artificielle véritablement généralisée.
Ce problème méthodologique est illustré par la loi de Goodhart : lorsqu’une métrique devient une cible explicite, elle cesse d’être une bonne métrique. Appliquée aux benchmarks d’IA, cette loi explique pourquoi des tests initialement conçus pour évaluer la performance générale des modèles finissent par perdre leur pertinence. En optimisant les modèles spécifiquement pour exceller sur ces tests, les équipes de R&D créent des systèmes qui brillent sur des tâches spécifiques, sans pour autant développer une réelle capacité à généraliser ou à raisonner. Cela impose une course sans fin pour introduire de nouveaux tests capables de véritablement différencier l’intelligence des modèles.
Quand une métrique devient un objectif, elle cesse d’être une bonne métrique – Loi de Boodhart
François Chollet21, chercheur, illustre parfaitement cette faiblesse. Posez une question simple, comme : “Qu’est-ce qui est plus lourd, 10 kilos d’acier ou 1 kilo de plumes ?”, à une ancienne version de ChatGPT. La réponse ? “Ils sont semblables.” Pourquoi ? Parce que la question piège “Qu’est-ce qui est plus lourd, 1 kilo d’acier ou 1 kilo de plumes ?” est omniprésente sur Internet et donc bien représentée dans les données d’entraînement22. Changez légèrement les chiffres ou reformulez, et le modèle se trompe. Cela révèle que ces systèmes ne font pas de raisonnement, mais de la correspondance de schémas – du pattern matching sophistiqué – consistant à retrouver les transformations correspondantes dans l’ensemble des patterns appris – qui s’effondre dès que les transformations apprises ne sont plus applicables.
Un autre cas emblématique des limites de ces modèles est le chiffrement de César23, une méthode de codage où les lettres sont décalées selon un certain nombre de positions dans l’alphabet. ChatGPT décode sans problème des messages encodés avec une clé courante, comme 3 ou 5, ce qui peut donner l’illusion d’une capacité de généralisation. Mais demandez-lui de résoudre le même problème avec des clés moins fréquentes, comme 4, 9 ou 13, et les erreurs explosent. Pourquoi ? Parce que les clés 3 et 5 apparaissent souvent dans les données d’entraînement, tandis que les autres non. Ces résultats soulignent une fois de plus que ces modèles ne raisonnent pas mais exploitent leur vaste mémoire des transformations apprises.
François Chollet résume bien cette limite : ces systèmes brillent dans des tâches spécifiques pour lesquelles ils ont été optimisés, mais cela ne reflète en rien une véritable capacité à généraliser ou à raisonner comme un humain.
Ces observations mettent en lumière l’illusion entretenue par ce qu’on appelle les lois d’échelle24. En augmentant la taille des modèles et le volume des données, on améliore leur capacité à mémoriser d’énormes quantités de transformations, mais pas à raisonner. Ce phénomène peut se résumer simplement : “Plus on triche, plus on gagne.” Les tests standardisés ne résistent pas à cette triche, car ils peuvent être « cassés » par une gigantesque capacité à mémoriser et à optimiser des tâches spécifiques, plutôt qu’à réfléchir ou à généraliser.
Pour approfondir, l’étude Alice in Wonderland (AIW) met en évidence les lacunes des LLMs face à des tâches nécessitant un raisonnement élémentaire25. Le test pose une question d’apparence triviale : “Alice a N frères et M sœurs. Combien de sœurs a le frère d’Alice ?” Alors que cette question ne pose aucun problème à un humain adulte, les modèles peinent à fournir une réponse correcte. Pire encore, ils persistent souvent dans leurs erreurs, même lorsqu’on leur fournit des indices explicites.
Les problèmes AIW reposent sur une logique de bon sens qui suppose que tous les frères et sœurs partagent les mêmes parents. La réponse correcte est obtenue en calculant simplement M+1 (Alice et ses sœurs), ce qui donne directement le nombre de sœurs du frère d’Alice. Par exemple, si Alice a 4 frères et 1 sœur, le frère d’Alice a alors 2 sœurs (Alice + sa sœur). À première vue, un tel problème ne devrait pas poser de difficulté à des modèles d’IA modernes. Pourtant, les résultats des expérimentations montrent une réalité surprenante : même avec des valeurs simples comme N=4 et M=1, la plupart des modèles échouent systématiquement à répondre correctement.
Ces échecs s’aggravent lorsqu’on introduit des variations légères dans les nombres ou l’ordre des éléments dans l’énoncé. Par exemple, quatre variations principales du problème ont été définies pour évaluer la robustesse des modèles :
- Variation 1 : N=3,M=6,C=7
- Variation 2 : N=4,M=2,C=3
- Variation 3 : N=1,M=4,C=5
- Variation 4 : N=4,M=1,C=2
Ces variations ont été spécifiquement conçues pour réduire la probabilité qu’un modèle devine accidentellement la réponse correcte en exécutant des calculs arithmétiques simples sur les nombres présents dans l’énoncé. Malgré cela, les modèles se montrent incapables de généraliser correctement. Les réponses erronées résultent souvent de tentatives maladroites d’additionner, multiplier ou soustraire des nombres présents dans l’énoncé sans aucun lien logique avec la structure réelle du problème.
Les résultats obtenus dans le cadre des tests Alice in Wonderland (AIW) mettent en lumière des faiblesses fondamentales des LLMs. Les modèles semblent souvent s’appuyer sur des calculs arithmétiques simples plutôt que sur un raisonnement logique cohérent. Par exemple, une addition ou une multiplication accidentelle des nombres mentionnés dans le problème peut parfois aboutir à une réponse correcte, mais cela relève plutôt du hasard.
Comme le montre la Figure 7, même les modèles les plus performants, tels que GPT-4 et Claude Opus 3, affichent des résultats extrêmement fluctuants d’une variation à l’autre. Par exemple, GPT-4o atteint presque 100 % de réussite sur certaines variations, comme la deuxième (AIW v2) et la quatrième (AIW v4), mais chute à des taux proches de 20 % pour d’autres, notamment la première (AIW v1). Claude Opus 3 présente des performances tout aussi incohérentes, alternant entre des résultats élevés et de faibles scores sur des tâches aux structures similaires. Les modèles de plus petite taille, comme Llama-3 70b26 et 8b, ne parviennent à aucun moment à produire des résultats convaincants, leurs performances restant globalement marginales.
Ces incohérences soulignent un défaut majeur des modèles actuels : leur incapacité à généraliser de manière robuste à partir de variations mineures dans les données. Elles démontrent également que les limites de ces systèmes ne peuvent être résolues par une simple augmentation de leur taille ou de leurs données d’entraînement. Pour atteindre des capacités de raisonnement véritablement fiables, il est clair que des approches méthodologiques différentes seront nécessaires.
Les promesses difficiles à tenir de la génération de vidéos
Si les modèles de langage peinent à raisonner, les modèles de génération vidéo, comme SORA ou Runway, échouent à respecter les lois fondamentales de la physique. Bien qu’impressionnants au premier abord, ils produisent souvent des séquences marquées par des incohérences visuelles flagrantes : bras qui changent de taille, objets qui disparaissent, ou mouvements impossibles.
L’article “How Far Is Video Generation From World Models: A Physical Law Perspective” explore ces limites27. Il démontre que ces modèles, malgré leur taille et les ressources massives utilisées pour leur entraînement, sont incapables d’apprendre les lois fondamentales de la physique, comme l’inertie ou la conservation du mouvement. Peu importe la quantité de données ajoutées ou la taille des modèles, ils ne parviennent pas à acquérir ces notions essentielles. Ce sont des machines à interpoler des données statistiques dans de très grandes dimensions, avec des capacités limitées à saisir la complexité du monde réel.
Ces limites montrent qu’il est urgent de revoir nos approches dans le domaine de l’intelligence artificielle. Augmenter aveuglément la taille des modèles et des données ne suffira pas. Il faut également réinventer les outils d’évaluation pour dépasser les simples benchmarks basés sur la mémorisation et s’attaquer aux véritables défis que sont la généralisation et le raisonnement abstrait.
Les modèles actuels sont des outils puissants, mais loin d’être des solutions universelles. Pour avancer, il faudra repenser les bases méthodologiques de l’intelligence artificielle et la traiter enfin comme une science, rigoureuse et ambitieuse. Pas comme une sorte de magie, faites de prophètes, d’évaluations bancales et de preuves basées sur des anecdotes.
ARC : Un défi pour dépasser les limites de la mémorisation
L’évaluation des capacités réelles des modèles d’intelligence artificielle reste un défi majeur. François Chollet critique vivement les benchmarks actuels: ils favoriseraient la mémorisation au détriment de la généralisation. Selon lui, ces tests mesurent avant tout la capacité des modèles à optimiser des tâches spécifiques, mais ignorent leur aptitude à véritablement raisonner ou à s’adapter à des situations inédites.
C’est pour répondre à cette lacune fondamentale qu’est né ARC28 (Abstraction and Reasoning Corpus).29 Conçu comme un outil pour mesurer la capacité d’un modèle à généraliser, ARC s’éloigne des benchmarks traditionnels. Ici, pas question de mémorisation ou de triche : chaque tâche est conçue pour nécessiter un raisonnement abstrait basé sur des concepts fondamentaux.
Le principe d’ARC repose sur des tâches uniques et inédites. Chaque défi est présenté sous la forme de deux séries : une séquence d’entraînement et une séquence de test. Ces tâches prennent la forme de grilles où chaque carré peut être rempli d’une couleur parmi dix possibles. Le but ? Que le modèle devine la sortie correcte pour chaque pixel en se basant uniquement sur les exemples fournis dans la séquence d’entraînement.
Prenons un exemple proposé sur le site d’ARC : dans une tâche, la séquence d’entraînement montre qu’il faut remplir les espaces vides d’une forme donnée avec la couleur jaune. La séquence de test propose une entrée similaire, mais avec des variations, que le modèle doit analyser et résoudre. Ce type de défi, apparemment simple pour un humain, exige du modèle une capacité d’adaptation et d’abstraction qu’il ne peut pas puiser dans des schémas mémorisés.
Les performances des modèles actuels sur ARC sont sans appel. Claude 3.5 atteint un score plafonnant à 21 %, GPT-4 oscille entre 5 et 9 %, tandis que des humains, même non spécialistes, réalisent des performances impressionnantes, atteignant entre 97 et 98 %. Même des approches algorithmiques traditionnelles, comme la recherche de programmes, dépassent les modèles de langage avec un score de 50 %. Ces résultats démontrent clairement que les modèles d’IA modernes, aussi puissants soient-ils, échouent à généraliser face à des tâches qu’ils n’ont jamais rencontrées30.
Pourquoi un tel écart ? Parce qu’ARC élimine toute possibilité de s’appuyer sur des schémas répétitifs ou des données déjà mémorisées. Chaque tâche est totalement nouvelle et oblige les algorithmes à comprendre et à résoudre le problème en temps réel, sans recourir à des astuces ou des approximations.
Pour aller encore plus loin, François Chollet a lancé le ARC Prize en 202431. Doté d’une récompense d’un million de dollars, ce défi ambitieux vise à encourager la recherche sur des approches capables de briser les limites actuelles de l’IA. Les règles sont strictes : les solutions proposées doivent être entièrement autonomes, fonctionner en moins de 12 heures sur un GPU standard, et résoudre des tâches entièrement inédites. L’objectif est clair : concevoir des systèmes capables de véritable généralisation, bien au-delà des capacités des modèles actuels.
ARC pose une question fondamentale : les modèles d’IA modernes peuvent-ils réellement généraliser ? Jusqu’à présent, la réponse est sans équivoque : les capacités de généralisation est limitée. Les modèles de langage, aussi sophistiqués soient-ils, restent essentiellement des outils de modélisation statistique, incapables de dépasser les schémas appris lors de leur entraînement. ARC met en lumière cette limite et nous rappelle qu’une véritable intelligence artificielle nécessitera bien plus que des données massives et des architectures toujours plus complexes.
Pour surmonter ces obstacles, il faudra repenser en profondeur nos méthodes et nos priorités en matière de recherche en intelligence artificielle. En attendant, ARC nous offre un aperçu des défis à venir et des opportunités pour redéfinir ce que signifie vraiment « penser » pour une machine.
Le Test-Time Training : améliorer l’inférence
Pour dépasser les limites des modèles d’intelligence artificielle, une approche novatrice commence à se démarquer : le Test-Time Training, ou TTT. Détaillée dans l’article “The Surprising Effectiveness of Test-Time Training for Abstract Reasoning”32, cette méthode propose une alternative intéressante aux techniques traditionnelles d’inférence.
Le Test-Time Training (TTT) se distingue du Test-Time Compute (TTC) par sa manière d’aborder l’inférence. Là où le TTC se limite à effectuer des calculs supplémentaires au moment du test, sans toucher aux paramètres du modèle, le TTT va plus loin. Il adapte activement les paramètres du modèle en temps réel, comme une mini-séance d’entraînement sur la tâche spécifique. En d’autres termes, le TTT apprend à chaque étape, tandis que le TTC exploite simplement les connaissances déjà engrangées par le modèle.
Cette distinction est cruciale : elle place le TTT comme une approche dynamique, capable d’affiner ses performances en temps réel pour répondre aux exigences d’une tâche donnée. À l’inverse, le TTC reste statique, optimisant simplement les processus sans réelle adaptation.
Les performances du TTT sur le benchmark ARC (Abstraction and Reasoning Corpus), où les modèles classiques peinent à généraliser, parlent d’elles-mêmes. Là où ces derniers échouent, le TTT a permis de multiplier par six la précision sur certaines tâches. Avec un modèle de 8 milliards de paramètres, il a atteint 53 % de réussite sur la validation publique d’ARC, établissant un record. Et ce n’est pas tout : combiné à des techniques de génération de programmes, ce score grimpe encore à 61,9 %, bien que toujours loin des performances humaines, qui dépassent 90 %.
Pourquoi le TTT fonctionne si bien ? Le succès du Test-Time Training repose sur plusieurs facteurs clés.
- Un modèle préalablement fine-tuné : Le TTT s’appuie sur des modèles bien préparés, capables de tirer parti d’une base solide de connaissances.
- Des données d’entraînement soigneusement conçues : Les exemples sont enrichis par des transformations qui rendent le modèle plus adaptable.
- Une capacité à s’ajuster à chaque tâche : Le TTT adapte ses stratégies comme s’il abordait un casse-tête unique à chaque fois, au lieu de s’appuyer sur des solutions pré-apprises.
En somme, le TTT représente un pas en avant vers des modèles capables de réellement apprendre en situation, plutôt que de simplement reproduire des schémas mémorisés. Il s’agit d’une approche qui ouvre de nouvelles perspectives pour résoudre des problèmes complexes nécessitant un raisonnement adaptatif, et qui pourrait redéfinir la manière dont nous abordons le développement des IA.
DINO World Model
L’innovation en intelligence artificielle ne cesse de repousser les frontières. Alors que les modèles de langage actuels (LLMs) impressionnent par leur capacité à traiter de vastes quantités de données textuelles, leur incapacité à planifier de manière efficace reste une faiblesse majeure. C’est précisément sur ce point que DINO-WM propose une alternative prometteuse.
Lors d’une récente conférence, Yann LeCun a présenté les travaux autour de DINO-WM (DINO World Model). Le papier détaillant cette approche a été publié récemment, révélant des résultats qui ouvrent des perspectives fascinantes, notamment pour la robotique et les tâches de planification. Alors, en quoi DINO-WM diffère-t-il des méthodes existantes et quelles sont ses forces ?
Une approche qui dépasse les limites traditionnelles ?
Les approches traditionnelles de planification en intelligence artificielle reposent souvent sur deux paradigmes : les modèles online et les modèles offline. Dans un cadre online, les agents collectent en continu des données sur leur environnement, ce qui permet d’améliorer leurs modèles de monde. Cependant, ces modèles restent étroitement liés à la politique optimisée pendant leur entraînement, nécessitant souvent un nouveau processus d’apprentissage pour chaque tâche spécifique.
À l’inverse, les modèles offline s’appuient sur des ensembles de données préexistants, ce qui supprime la dépendance à l’environnement lors de l’entraînement. Mais pour résoudre des tâches spécifiques, ils requièrent souvent des informations auxiliaires, comme des démonstrations d’experts, des données structurés ou des fonctions de récompense. Ces contraintes limitent leur généralité et leur application à des environnements diversifiés.
C’est ici que DINO-WM se distingue. Contrairement aux méthodes précédentes, il utilise des représentations compactes du monde basées sur des embeddings visuels préentraînés par DINOv233 34. Cette méthode permet de modéliser la dynamique d’un environnement sans dépendre des observations brutes ni de données labellisées spécifiques à une tâche. En exploitant ces embeddings riches en informations spatiales et orientées objet, DINO-WM génère des modèles de monde robustes et cohérents qui relâchent la nécessité de données labellisées.
Comment fonctionne DINO-WM ?
DINO-WM repose sur une architecture Transformer Vision (ViT) pour prédire les futurs embeddings à partir des observations actuelles et des actions effectuées. Une fois le modèle entraîné, la planification des tâches est formulée comme un problème de « visual goal reaching« . Autrement dit, il s’agit de trouver le chemin optimal pour atteindre une observation cible donnée, en partant d’une observation initiale.
Grâce à la qualité élevée des prédictions de DINO-WM, cette planification s’effectue par contrôle prédictif basé sur un modèle (Model Predictive Control, ou MPC), sans nécessiter d’informations supplémentaires au moment des tests. Cela permet à DINO-WM de résoudre des tâches complexes sans dépendre d’énormes quantités de données labellisées ou de feedbacks spécifiques.
Des résultats impressionnants
Les performances de DINO-WM surpassent celles des méthodes actuelles sur plusieurs fronts :
- Qualité de la modélisation du monde : Les prédictions futures produites par DINO-WM atteignent une qualité supérieure, mesurée par des reconstructions visuelles améliorées à l’aide de décodeurs entraînés. Sur les tâches les plus difficiles, DINO-WM améliore les métriques LPIPS de 56 % par rapport aux travaux antérieurs.
- Planification : Sur les tâches les plus complexes, DINO-WM affiche un taux de réussite moyen 45 % plus élevé que les méthodes de pointe précédentes pour atteindre des objectifs visuels arbitraires.
- Généralisation à des variations d’environnements : Entraîné sur des familles de tâches avec des variations d’environnement (par exemple, différents labyrinthes ou formes d’objets), DINO-WM atteint des taux de succès supérieurs aux approches existantes.
Ces résultats démontrent la capacité de DINO-WM à exceller dans des environnements variés et à généraliser au-delà des configurations spécifiques vues pendant l’entraînement. En effet, il est capable de naviguer dans des labyrinthes inédits ou de manipuler des objets de formes différentes, là où les modèles traditionnels peinent.
Une avancée pour la robotique ?
En dépassant les limites des approches traditionnelles de modélisation du monde, DINO-WM ouvre de nouvelles perspectives pour les robots autonomes et les systèmes de planification. Sa capacité à apprendre des représentations générales et à planifier efficacement sans dépendre de données labellisées ou de tâches spécifiques le positionne comme une avancée significative dans le domaine de l’intelligence artificielle incarnée.
Avec des résultats aussi prometteurs, DINO-WM redéfinit ce que l’on peut attendre d’un modèle de monde. La combinaison de représentations visuelles pré-entraînées et de planification optimisée pourrait bien devenir un standard dans le développement de systèmes d’IA capables de naviguer dans des environnements complexes et variés.
Une perspective pour l’avenir
Les limites des modèles actuels, qu’il s’agisse des LLMs ou des approches classiques de planification, sont bien réelles. Cependant, des innovations comme DINO-WM montrent qu’il est possible d’aller plus loin. Bien que l’AGI (intelligence artificielle générale) ne soit pas encore à portée de main, chaque avancée technologique nous rapproche un peu plus de cet objectif ambitieux.
Si cette exploration des nouveaux horizons de l’IA vous a captivé, n’hésitez pas à partager vos réflexions en commentaire. Et pour ne rien manquer des prochaines actualités sur l’intelligence artificielle, restez connecté à mon blog et n’hésitez pas à vous abonner aux chaînes Artificialis et Artificialis Code.
Références
- Thread de Yann Lecun: https://www.threads.net/@yannlecun/post/DCTeagdN_th?xmt=AQGzwugSx2clYnCPrawJ8Ait-sjxVVyyDLUThj1y7YGM5w ↩︎
- DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning ↩︎
- OpenAI and others seek new path to smarter AI as current methods hit limitations ↩︎
- Attention Is All You Need: https://arxiv.org/pdf/1706.03762 ↩︎
- « there is no wall »: https://x.com/sama/status/1856941766915641580 ↩︎
- Scaling Laws for Neural Language Models: https://arxiv.org/pdf/2001.08361 ↩︎
- Comment les machines pourraient-elles atteindre l’intelligence humaine? Conférence de Yann LeCun: https://youtu.be/eDY9FUT5ces?si=TA8Zf4U76VxffXbT ↩︎
- Leopold Aschenbrenner: https://x.com/leopoldasch ↩︎
- SITUATIONAL AWARENESS: The Decade Ahead: https://www.forourposterity.com/situational-awareness-the-decade-ahead/ ↩︎
- Ouss en Débat: l’IA va-t-elle détruire l’humanité ? (Avec Maxime Fournes): https://youtu.be/zZtpVZTQR2k?si=RcRcj8oSiRGSuI1Q ↩︎
- https://x.com/OpenAI/status/1778574613813006610 et https://github.com/openai/simple-evals ↩︎
- OpenAI Shifts Strategy as Rate of ‘GPT’ AI Improvements Slows: https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows ↩︎
- OpenAI’s new « Orion » model reportedly shows small gains over GPT-4: https://the-decoder.com/openais-new-orion-model-reportedly-shows-small-gains-over-gpt-4/ ↩︎
- Learning to Reason with LLMs: https://openai.com/index/learning-to-reason-with-llms/ ↩︎
- LLMs still can’t plan; cam LRMs ? A preliminary evaluation of OpenAI’S O1 on planbench: https://arxiv.org/pdf/2409.13373 ↩︎
- Fast-Downward: https://www.fast-downward.org/ ↩︎
- Position: LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks: https://arxiv.org/pdf/2402.01817 ↩︎
- Les systèmes d’intelligence artificielle sont devenus si performants qu’on ne sait plus comment les tester: https://www.letemps.ch/cyber/les-systemes-d-intelligence-artificielle-sont-devenus-si-performants-qu-on-ne-sait-plus-comment-les-tester?srsltid=AfmBOoqKXngGHkJVQw7O07xOMTmvBEdKIDust6kjnkFB3HFTUGAI-ndG ↩︎
- Center for AI Safety: https://www.safe.ai/ ↩︎
- Humanity’s Last Exam: https://www.safe.ai/blog/humanitys-last-exam ↩︎
- François Chollet: https://fr.wikipedia.org/wiki/Fran%C3%A7ois_Chollet ↩︎
- General Intelligence: Define it, measure it, build it: https://youtu.be/nL9jEy99Nh0?si=8kBOk6BOTskQ-Hgg ↩︎
- Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve: https://arxiv.org/abs/2309.13638 ↩︎
- Scaling Laws for Neural Language Models: https://arxiv.org/pdf/2001.08361 ↩︎
- Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models: https://arxiv.org/pdf/2406.02061 ↩︎
- META Llama-3 70B: https://huggingface.co/meta-llama/Meta-Llama-3-70B ↩︎
- How Far Is Video Generation From World Model: A Physical Law Perspective: https://arxiv.org/pdf/2411.02385 ↩︎
- Loi de Goodhart: https://fr.wikipedia.org/wiki/Loi_de_Goodhart ↩︎
- ARC Prize: https://arcprize.org/ ↩︎
- ARC Leaderboard: https://arcprize.org/leaderboard ↩︎
- ARC Prize 2024: https://arcprize.org/competition ↩︎
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning: https://arxiv.org/pdf/2411.07279 ↩︎
- Apprendre aux machines à voir sans supervision: DINOv2 (5mn1p): https://youtu.be/0cgIMir8cq4?si=z5cpXlm1l3JIIIek ↩︎
- DINOv2: A Self-supervised Vision Transformer Model: https://dinov2.metademolab.com/ ↩︎
Leave a Comment