En résumé
- Modèle de monde visuel généraliste
DINO-WM est un world model entraîné à prédire l’évolution de ce qu’un robot perçoit (visuellement), sans récompense ni supervision de tâche. - Formulation en POMDP
L’environnement est vu comme un processus de décision de Markov partiellement observable, où l’agent ne perçoit qu’un flux d’observations incomplètes. - Trois composants clés
Le pipeline comprend :
→ un encodeur visuel gelé (DINOv2),
→ un modèle de transition (Transformer causal),
→ un décodeur optionnel pour reconstruction. - Apprentissage offline
Le modèle est entièrement entraîné sur des trajectoires offline (observation + action), sans interaction avec l’environnement pendant l’apprentissage. - Planification à l’inférence
Une fois entraîné, DINO-WM est utilisé pour planifier des séquences d’actions en test-time à partir d’un objectif visuel, via MPC + CEM. - Pas besoin de reconstruction
Le décodeur est optionnel : la qualité des prédictions du modèle de transition ne dépend pas de la capacité à reconstruire l’image. - Résultats impressionnants sur 6 environnements
DINO-WM atteint des scores de succès proches ou supérieurs aux SOTA sur des tâches de navigation, de manipulation fine, et de contrôle robotique. - Importance des représentations visuelles
Les représentations DINOv2 surpassent largement les alternatives (ImageNet ResNet, R3M, etc.) dès que les environnements deviennent complexes. - Capacité de généralisation
Le modèle généralise bien à des tâches ou environnements jamais vus : il comprend des concepts abstraits (portes, murs, formes) et les applique ailleurs. - Limites et perspectives
Le modèle nécessite un dataset avec des actions explicites — donc difficilement applicable à des vidéos sans annotation.
Prochaine étape : des stratégies d’exploration actives et du planning hiérarchique, du but jusqu’au contrôle moteur.
Après les révolutions du langage et de l’image, celle de la robotique incarnée (embodied AI) s’annonce. Mais cette fois, il ne s’agit plus seulement de prédire ou de générer : il faut percevoir, agir, et s’adapter dans un monde réel, complexe, partiellement observable.
Les progrès en apprentissage par renforcement et par imitation ont permis à des agents d’apprendre des comportements variés sur une grande diversité de tâches. Pourtant, la plupart des approches actuelles reposent sur des politiques entraînées hors-ligne qui, une fois déployées, se contentent de réagir aux observations — sans optimisation en ligne, sans raisonnement, sans adaptation.
Un robot vraiment autonome doit pourtant aller plus loin : il doit pouvoir anticiper, explorer, improviser. Cela exige une capacité à simuler les conséquences de ses actions dans l’environnement, à raisonner dans le temps, à s’adapter face à l’inattendu.
Le succès spectaculaire des grands modèles de langage (LLMs) a pu faire croire qu’ils pourraient aussi servir de fondation à l’intelligence robotique. Des projets comme Robot F-1 cherchent déjà à les utiliser comme cerveaux génériques pour des agents physiques. Mais cette extrapolation est trompeuse.
Les LLMs, même multimodaux, restent fondamentalement déconnectés des contraintes du monde réel : perception bruitée, temps réel, incertitude, interactions physiques. Leur architecture même — pensée pour compléter des séquences symboliques — ne permet ni la gestion fine de l’incertitude, ni la rétroaction dynamique propre aux systèmes embarqués.
Aussi puissants soient-ils, les LLMs montrent leurs limites dès qu’il s’agit de perception ou d’action. Privés de toute représentation sensorielle, ils manipulent des abstractions symboliques sans lien direct avec la physique ou la spatialité. Leur raisonnement repose sur des corrélations statistiques, ce qui les rend vulnérables aux hallucinations, aux erreurs systémiques, et à une généralisation hors distribution très faible (Chang et al., 2024). Même dans les LLMs multimodaux, les représentations visuelles issues de CLIP sont souvent trop bruitées, peu localisées, et manquent de structure spatiale (Jiang et al., 2023). Sur des tâches comme le dénombrement, les relations spatiales ou les propriétés visuelles, les modèles multimodaux dotés d’encodeurs visuels spécialisés comme DINO surpassent les LLMs textuels de 15 à 30 % (Wang et al., 2023).
Pour surmonter ces limites, il ne suffit pas d’ajouter quelques images à un modèle textuel. Ce qu’il faut, c’est une capacité à représenter le monde, à modéliser sa dynamique, à simuler l’impact d’une action avant même qu’elle ne soit effectuée. Autrement dit, ce qu’il faut, c’est un modèle du monde (world model).
Un world model est un système capable de prédire l’évolution de l’environnement à partir des actions entreprises. C’est une forme élémentaire mais cruciale de raisonnement physique : si je pousse une boîte, où va-t-elle ? Si je tends le bras, que puis-je atteindre ? Ce type de raisonnement est indispensable pour planifier, mais extrêmement difficile à apprendre, surtout à partir de données visuelles ou proprioceptives brutes.
La planification — choisir une séquence d’actions pour atteindre un objectif — est pourtant au cœur de l’intelligence. Pour permettre aux machines d’agir, vraiment, dans le monde physique, il faudra aller au-delà du langage. Il faudra des agents capables de simuler l’évolution du monde, d’anticiper les conséquences de leurs actions, et de s’adapter à des situations nouvelles — sans supervision, sans démonstration, sans récompense prédéfinie.
C’est le pari de DINO-WM, un modèle qui réconcilie vision par ordinateur, prédiction temporelle et contrôle optimal. En s’appuyant sur les représentations visuelles riches et localisées de DINOv2, DINO-WM apprend à prédire l’évolution du monde dans un espace latent structuré. Il permet ainsi à un agent de raisonner par simulation, d’imaginer différentes séquences d’actions possibles, et de planifier efficacement sans entraîner de politique explicite. Une approche sobre, mais puissante — et peut-être le vrai retour de la cybernétique.
Comprendre le monde, c’est le prédire
Prédire les conséquences d’une action : voilà la base de tout raisonnement physique. Si je pousse une boîte, que va-t-il se passer ? Où va-t-elle aller ? Cette capacité R3m: A universal visual representation for robot manipulationd’anticipation dynamique est essentielle pour qu’un agent interagisse intelligemment avec son environnement.
On appelle world model un modèle capable de simuler l’évolution d’un environnement en fonction des actions entreprises. Ces modèles prédictifs sont couramment utilisés en robotique, mais restent aujourd’hui fortement limités. La plupart sont spécifiques à une tâche ou à une politique : ils prédisent bien les transitions connues, mais échouent dès que le contexte change.
Prenons un exemple simple : un robot a appris à saisir des objets cubiques sur une table. Mais dès qu’on remplace le cube par une balle, ou la table par une étagère, son modèle interne devient inutile. Il n’a pas appris le monde, seulement une tâche dans un monde restreint.
Pourquoi ce problème persiste ? Parce que les approches dominantes s’appuient sur le reinforcement learning : l’agent apprend une politique déterministe, c’est-à-dire une règle fixe qui associe à chaque observation une action. Une fois entraînée, cette politique est exécutée de manière réactive, sans réflexion supplémentaire. Elle ne planifie rien. Et surtout, elle suppose que tous les cas de figure ont été vus pendant l’entraînement.
Une alternative consiste à apprendre un modèle de dynamique, puis à optimiser le comportement au moment de l’exécution. Cette méthode — parfois appelée test-time training — offre une forme d’adaptabilité : le système peut réfléchir en fonction de son but actuel, même s’il ne l’a jamais rencontré auparavant.
Mais ce paradigme soulève une question cruciale : comment apprendre un world model généraliste sans supervision forte ? En ligne, l’agent peut ajuster son modèle à mesure qu’il collecte des données. Mais cela rend le modèle dépendant de la politique utilisée pendant l’apprentissage — donc peu transférable. À l’inverse, un modèle appris offline, sur un jeu de trajectoires fixes, ne dépend plus de la tâche, à condition que ces trajectoires couvrent suffisamment de situations diverses.
Malheureusement, la couverture est rarement suffisante. Pour compenser, les approches existantes introduisent des signaux auxiliaires : démonstrations expertes, modèles inverses pré-entraînés, récompenses denses ou structures explicites (points clés, cartes sémantiques, etc.). Mais ces aides extérieures réduisent l’autonomie du système, et le rendent difficile à réutiliser dans d’autres contextes.
Alors, la vraie question devient :
Peut-on apprendre un World Model directement à partir de trajectoires visuelles, sans supervision explicite, et l’utiliser pour de la planification sur de exemples hors-distribution ?
On peut approcher cette question sous l’angle du model-based learning: une tradition ben ancrée dans la robotique.
Dans cette approche, on n’apprend pas une politique qui dicte quoi faire, mais un modèle prédictif de l’environnement : une fonction qui, à partir d’un état et d’une action, prédit l’état suivant. Cela permet à un agent de simuler mentalement les effets d’une séquence d’actions, avant même de les exécuter. Cette capacité à anticiper est précieuse pour de nombreuses tâches : navigation, manipulation, exploration.
Traditionnellement, ces modèles étaient appris dans l’espace des états — un espace symbolique ou numérique où chaque variable (position, orientation, vitesse…) est connue ou estimée. Mais dans le cas des agents basés sur la vision, ces états ne sont pas directement accessibles. On peut alors essayer de prédire l’évolution dans l’espace des pixels, image par image. Hélas, cette approche est coûteuse, peu stable, et rarement utile pour la prise de décision.
Une solution intermédiaire consiste à encoder les observations dans un espace latent compressé, puis à apprendre les dynamiques dans cet espace. Mais la qualité de ce latent dépend de la manière dont il est appris. Lorsqu’il est optimisé pour reconstruire l’image, il peut négliger les aspects dynamiquement pertinents. Lorsqu’il est appris via une récompense, il devient trop focalisé sur la tâche et perd sa généralité.
Dans ce contexte, plusieurs travaux récents ont tenté d’utiliser des modèles génératifs comme world models. L’idée : entraîner un modèle vidéo conditionné sur les actions de l’agent pour générer une séquence d’images futures. Des modèles comme SORA (OpenAI) ou GENIE (Google DeepMind) illustrent cette tendance. Mais ces générateurs nécessitent de grandes quantités de données annotées, avec descriptions textuelles précises des actions. Et surtout, rien ne garantit qu’ils modélisent correctement la physique ou les interactions causales. Dans un précédent article, nous avions montré que ces modèles échouaient systématiquement à généraliser des dynamiques simples hors distribution. Sans compter qu’ils sont beaucoup trop lents pour servir en temps réel : générer une vidéo par diffusion prend plusieurs secondes — bien trop pour une planification test-time.
Face à ces limites, une voie beaucoup plus prometteuse repose sur le self-supervised learning (SSL) appliqué aux images. Des modèles comme I-JEPA ou DINOv2 apprennent à structurer la perception visuelle sans labels, en exploitant les régularités de l’image elle-même. Ces encodeurs, basés sur des Vision Transformers (ViT), génèrent une grille de représentations par patch qui capturent des relations spatiales riches, bien au-delà de simples textures ou contours.
Ces représentations sont denses, globales, robustes, et surtout indépendantes de la tâche. Exactement le type de représentation qu’on souhaiterait voir évoluer dans un world model. Et c’est précisément sur cette base que DINO-WM va bâtir un modèle prédictif sobre et efficace : plutôt que d’apprendre quoi faire, il apprend ce qui se passerait si une action était entreprise.
Car un modèle capable de prédire l’évolution du monde dans un espace visuel riche et structuré ouvre la voie à une planification flexible, indépendante de toute politique préapprise, et capable de s’adapter à des objectifs visuels inédits. Il devient alors possible de raisonner en images, de simuler l’avenir à partir de ce que l’on perçoit, et de choisir quoi faire non pas en reproduisant le passé, mais en anticipant le futur.
DINO-WM, comment ça marche ?
DINO-WM cherche à modéliser la dynamique du monde dans un espace latent structuré et visuellement riche, sans supervision explicite. L’architecture repose sur trois modules fondamentaux :
- Un modèle d’observation: $z_t \sim \mathrm{enc}_\theta(z_t \mid o_t)$
qui projette chaque observation $o_t$ (ex. image RGB) dans un espace latent $z_t \in \mathbb{R}^{N \times E}$, où $N$ est le nombre de patchs et $E$ la dimension d’un embedding. Cet encodeur est gelé (DINOv2), garantissant que l’espace latent reste stable et généraliste. - Un modèle de transition $z_{t+1} \sim p_\phi(z_{t+1} \mid z_{t-H:t}, a_{t-H:t})$
qui apprend à prédire le prochain état latent à partir d’un historique de représentations latentes et d’actions. Il constitue le cœur du world model, celui qui apprend la dynamique perceptive de l’environnement. - Un décodeur optionnel $\hat{o}_t \sim q_\psi(o_t \mid z_t)$
utilisé uniquement pour reconstruire l’observation à partir du latent. Il n’est pas requis pour l’utilisation du modèle une fois entraîné.
L’entraînement de DINO-WM s’effectue sur des trajectoires visuelles collectées offline. À chaque pas de temps, l’encodeur produit une représentation $z_t$, et le modèle de transition apprend à prédire $z_{t+1}$.

L’objectif est de minimiser l’écart entre cette prédiction et la représentation cible extraite par l’encodeur, sans jamais observer l’état réel du monde.

Une fois entraîné, ce modèle devient un simulateur différentiable du monde latent. À l’inférence, il permet de planifier une séquence d’actions pour atteindre un but visuel $o_g$, en optimisant les actions directement à test-time. Deux stratégies principales sont possibles :
- MPC (Model Predictive Control) : on génère plusieurs séquences candidates, et on choisit celles qui mènent le plus près du but dans l’espace latent puis on en génère de nouvelles à de ce point.
- Optimisation par gradient : on ajuste la séquence d’actions en minimisant directement la distance entre le latent prédit $\hat{z}_T$ et la cible $z_g \sim \mathrm{enc}_\theta(o_g)$.
Ce découplage entre perception, dynamique et planification rend DINO-WM à la fois flexible, task-agnostic, et adapté à des objectifs visuels nouveaux sans supervision supplémentaire.
Modèle d’observation
Pour comprendre le fonctionnement de DINO-WM, il faut d’abord poser les bases : comment représenter un environnement, ce qu’on observe, et ce qu’on cherche à prédire.
La plupart des environnements robotiques sont partiellement observables : l’agent n’a accès qu’à une image incomplète du monde, souvent via des capteurs visuels, proprioceptifs, ou tactiles. On modélise alors l’environnement comme un processus de décision de Markov partiellement observable, ou POMDP (Partially Observable Markov Decision Process).
Formellement, un POMDP est défini par un triplet $(\mathcal{O}, \mathcal{A}, p)$ :
- $\mathcal{O}$ est l’espace des observations (ex. : les images perçues par l’agent),
- $\mathcal{A}$ est l’espace des actions (ex. : translations, rotations, commandes moteurs),
- et $p$ est une fonction de transition : $p(o_{t+1} \mid o_{\leq t}, a_{\leq t})$ Cette distribution modélise l’observation future $o_{t+1}$, conditionnée par tout ce que l’agent a vu $(o_0, \dots, o_t)$ et fait $(a_0, \dots, a_t)$ jusque-là.
Autrement dit : « que vais-je voir ensuite, sachant ce que j’ai vu et fait jusqu’à maintenant ? »
Dans ce cadre, l’objectif de DINO-WM est d’apprendre un modèle d’observation généraliste — c’est-à-dire une fonction qui approxime cette dynamique, sans être spécialisée pour une tâche particulière, ni pour un environnement en particulier. Un tel modèle doit fonctionner offline, à partir d’un dataset de trajectoires collectées dans divers environnements, et sans apprentissage complémentaire une fois déployé.
Pourquoi cette généralité est-elle cruciale ? Parce que dans le monde réel, on ne peut pas se permettre de réentraîner un modèle de dynamique à chaque fois que l’environnement change. Dans des contextes ouverts — maisons, usines, zones sinistrées, espaces publics — l’agent doit pouvoir raisonner à partir de ce qu’il perçoit, sans dépendre d’une politique figée ou d’un modèle spécifique au contexte.
Le modèle d’observation de DINO-WM répond à cette contrainte. Il se base sur des représentations visuelles riches, extraites par un encodeur gelé (DINOv2), qui permettent de modéliser la dynamique dans un espace latent visuellement structuré. Ce modèle apprend ainsi à prédire les futurs « états perceptifs » d’un agent, simplement à partir de séquences visuelles et des actions correspondantes.

Et c’est cette capacité à simuler ce que l’agent verra ensuite — sans connaître l’état complet du monde, sans accès au « state » réel — qui rend le système si puissant.
Concrètement, chaque observation visuelle $o_t$ est transformée en une représentation latente structurée $z_t$, selon la relation suivante :
$$\Large z_t \sim \text{enc}_{\theta}(z_t \mid o_t)$$
Autrement dit, on tire un vecteur $z_t$ depuis un encodeur visuel paramétrique (noté ici $\text{enc}_{\theta}$) conditionné par l’observation à l’instant $t$. Ce rôle est assuré par DINOv2, un Vision Transformer auto-supervisé, dont les poids sont gelés pendant tout l’entraînement de DINO-WM.
Chaque image est découpée en patchs, et pour chaque patch, on obtient un vecteur dans un espace d’embedding. Cela donne un tenseur latent de forme : $z_t \in \mathbb{R}^{N \times E}$.
où :
- $N$ est le nombre de patchs (par exemple $N = 14 \times 14$ pour une image 224×224 divisée en patchs 16×16),
- et $E$ est la dimension de l’espace d’embedding (souvent 384 ou 768 selon la version de DINOv2 utilisée).
Cette représentation conserve à la fois la structure spatiale de l’image et une richesse sémantique issue du pré-entraînement auto-supervisé. Elle constitue la base du raisonnement temporel qui va suivre : simuler, dans cet espace visuel latent, l’évolution de ce que l’agent percevra dans le futur.
Le modèle de transition
Une fois les observations projetées dans l’espace latent via l’encodeur visuel, DINO-WM apprend à prédire l’évolution de ces représentations dans le temps. L’objectif du modèle de transition est d’approximer la dynamique du monde dans cet espace visuel compact, en tenant compte à la fois de l’historique perceptif et des actions prises par l’agent.
Formellement, le modèle apprend une distribution conditionnelle :
$$\large z_{t+1} \sim p_\theta(z_{t+1} \mid z_{t-H:t}, a_{t-H:t})$$
où :
- $z_{t-H:t} = (z_{t-H}, \dots, z_t)$ est la séquence des représentations latentes passées,
- $a_{t-H:t} = (a_{t-H}, \dots, a_t)$ sont les actions correspondantes,
- $z_{t+1} \in \mathbb{R}^{N \times E}$ est la représentation latente de l’observation suivante (avec $N$ le nombre de patchs et $E$ la dimension de l’embedding),
- et $\theta$ sont les paramètres appris du modèle.
Ce prédicteur temporel est un Vision Transformer avec attention causale : chaque patch vectoriel $z^i_t$ (le iᵉ patch de l’image au temps t) prend en entrée les patchs précédents $z^i_{t-H:t-1}$, mais pas le futur. Contrairement à IRIS (Micheli et al., 2023), qui prédit chaque patch séparément de manière autoregressive, DINO-WM prédit le frame entier à la fois, en considérant tous les patchs comme un tout. Cette prédiction par trame permet de mieux capturer les dépendances globales et la dynamique temporelle — un facteur clé pour généraliser hors distribution.

Pour que le modèle tienne compte des actions prises, chaque vecteur de patch est concaténé à une version encodée de l’action à ce pas de temps :
- $a_t \in \mathbb{R}^A$ est l’action brute,
- elle est projetée par un MLP : $a^e_t = \phi(a_t) \in \mathbb{R}^K$,
- et concaténée à chaque patch : $\tilde{z}^i_t = [z^i_t; a^e_t] \in \mathbb{R}^{E + K}$.
S’il existe une observation proprioceptive $s_t$ (par ex. les positions articulaires), elle est encodée de la même manière et concaténée aussi aux patchs, ce qui permet au modèle de modéliser les effets des actions et de l’état interne sur la perception future. Cela renforce l’alignement spatial entre perception et action : chaque région visuelle peut intégrer comment elle est affectée par les mouvements.
L’apprentissage du modèle repose sur la consistance des latents prédits. À l’entraînement, on découpe les trajectoires en segments de $H + 1$ pas. Pour chaque segment, on entraîne le modèle à prédire le prochain état latent $z_{t+1}$ à partir de l’historique, et on le compare au vecteur cible obtenu directement par l’encodeur visuel :
$$\large \mathcal{L}_{\text{trans}} = \left\| p_\theta(z_{t-H:t}, \phi(a_{t-H:t})) – \mathrm{enc}_\theta(o_{t+1}) \right\|^2$$
où :
- $p_\theta(\cdot)$ est le modèle de transition,
- $\phi(\cdot)$ est l’encodeur d’actions (MLP),
- et $\mathrm{enc}_\theta(o_{t+1})$ est la vérité terrain visuelle à prédire dans l’espace latent.
Cette perte ne requiert ni labels, ni reconstruction d’image, ni signal de récompense. Elle repose uniquement sur la cohérence entre la prédiction latente et l’encodage visuel futur, ce qui rend l’apprentissage entièrement auto-supervisé et hautement généralisable.
Décoder pour interpréter
DINO-WM propose un décodeur d’observation entièrement optionnel, destiné à projeter les représentations latentes $z_t$ de nouveau dans l’espace visuel. Son but n’est pas d’améliorer la performance du modèle, mais d’offrir un outil d’interprétation du comportement latent appris. Il permet, par exemple, de visualiser ce que le modèle « imagine » à partir d’une séquence d’actions simulée.
Ce décodeur $q_\theta$ est un simple empilement de couches convolutionnelles transposées (transposed convolutions), qui reconstruit une observation approximative $\hat{o}_t$ à partir d’un vecteur latent donné :
$$\large \hat{o}_t = q_\theta(z_t)$$
et l’apprentissage se fait via une perte de reconstruction classique :
$$\large \mathcal{L}_{\text{rec}} = \left\| q_\theta(z_t) – o_t \right\|^2$$
où $\theta$ représente ici les paramètres du décodeur uniquement. Ce module est entraîné indépendamment, sans rétropropagation dans le reste du pipeline. Trois raisons justifient ce choix :
- L’ajout du décodeur n’influence pas les capacités de planification du modèle : il n’intervient ni dans le raisonnement, ni dans les décisions d’action.
- Propager la perte de reconstruction dans le modèle de transition nuit aux performances : cela pousse les latents à capturer des détails visuellement fidèles mais inutiles pour la dynamique.
- La reconstruction d’image n’est pas nécessaire pour la planification : tout le raisonnement se fait dans l’espace latent, sans jamais nécessiter de reconstituer l’image elle-même.
Ainsi, le décodeur reste un outil d’analyse, non une composante essentielle du fonctionnement de DINO-WM — preuve que des représentations visuelles riches peuvent suffire à simuler, comprendre et planifier sans jamais reconstruire.
Planifier à l’inférence
Une fois entraîné, DINO-WM permet de planifier des actions vers un but sans supervision. L’agent ne reçoit ni récompense, ni démonstration experte. Tout ce qu’il a, ce sont deux images RGB : l’état actuel $o_0$, et une image cible $o_g$ représentant l’objectif à atteindre. La question devient alors :
quelles actions faut-il exécuter pour transformer ce que je vois maintenant en ce que je veux voir ?
C’est là qu’intervient la planification à l’inférence, via un outil classique du contrôle optimal : Model Predictive Control (MPC). Utilisé dans des domaines comme la trajectoire de fusées, la chimie moléculaire ou les systèmes énergétiques, MPC permet de prédire les conséquences de plusieurs séquences d’actions, d’évaluer leur efficacité, et de choisir la meilleure à chaque étape. Le tout en boucle.
Voici comment DINO-WM s’en sert :
- Encodage des observations
On encode les observations de départ et d’objectif en états latents : $\hat{z}_0 = \text{enc}(o_0), \quad z_g = \text{enc}(o_g)$ - Objectif de planification
Le but est de minimiser la distance entre le dernier état latent simulé $\hat{z}_T$ et celui du but $z_g$. On définit le coût : $C = \left\| \hat{z}_T – z_g \right\|^2 \quad$ où $\quad \hat{z}_t = p_\theta(\hat{z}_{t-1}, a_{t-1})$. Ici, $p_\theta$ est le modèle de transition appris, qui prédit le prochain état latent à partir de l’état précédent et de l’action. - Optimisation via CEM
Pour trouver les actions optimales, on utilise la méthode de cross-entropie (CEM), une méthode d’optimisation stochastique par population :- On initialise une distribution gaussienne sur les actions.
- On échantillonne $N$ séquences d’actions de longueur $T$.
- Pour chaque séquence $\{a_0, \dots, a_{T-1}\}$, on prédit la trajectoire latente associée avec le modèle $p_\theta$, puis on calcule le coût $C$.
- On sélectionne les $K$ meilleures séquences (plus bas coût), et on met à jour la moyenne et la covariance de la distribution.
- On répète jusqu’à convergence ou nombre d’itérations fixé.
- Exécution
À la fin, seule la première action (ou les $k$ premières) est exécutée dans l’environnement réel. Puis, le processus redémarre avec la nouvelle observation.
Ce mécanisme transforme DINO-WM en un simulateur visuel différentiable dans l’espace latent. L’agent apprend à « réfléchir » ses propres actions vers le but visuel, sans jamais voir l’état réel du monde. C’est une alternative radicale aux politiques RL classiques, souvent figées et peu généralistes.
Une alternative : la descente de gradient
Puisque le modèle est entièrement différentiable, on pourrait imaginer optimiser les actions par descente de gradient (SGD) directement sur le coût :
$$\large C = \left\| \hat{z}_T – z_g \right\|^2$$
Cependant, les auteurs observent empiriquement que CEM surpasse SGD dans leurs expériences, probablement en raison des plateaux ou minima locaux dans l’espace d’action. CEM, avec sa nature échantillonnée, explore mieux l’espace, surtout dans les environnements complexes.
Résultats
Les expériences menées dans l’article visent à évaluer DINO-WM selon quatre axes majeurs, chacun correspondant à une question fondamentale pour la robotique visuelle :
- Peut-on entraîner DINO-WM sur des datasets offline, sans exploration active ni supervision ?
- Une fois entraîné, le modèle permet-il une planification visuelle efficace, à partir d’un but spécifié par une image ?
- Quel est l’impact des représentations visuelles pré-entraînées (notamment DINOv2) sur la qualité de la modélisation dynamique ?
- Le modèle généralise-t-il à des configurations ou tâches nouvelles, jamais vues pendant l’entraînement ?
Pour répondre à ces questions, les auteurs testent DINO-WM sur six environnements issus de D4RL et de la DeepMind Control Suite, couvrant un large spectre de situations robotiques :
- Maze et Wall : navigation visuelle dans des labyrinthes partiellement observables.
- PushT : contrôle précis de la position d’un objet à l’aide d’un bras rigide.
- Reach : déplacement d’un bras robotique pour atteindre une cible spécifique.
- Rope et Granular : manipulation d’objets mous et déformables à l’aide d’un bras XArm.
Pour chaque tâche, l’objectif est le suivant : partant d’un état initial aléatoire, l’agent doit planifier une séquence d’actions lui permettant d’atteindre un état cible spécifié uniquement par une observation visuelle.

Aucun reward n’est fourni, aucune démonstration n’est utilisée. Toute l’intelligence vient de la simulation interne apprise par DINO-WM.
DINO-WM est comparé à plusieurs méthodes de pointe représentant différents paradigmes du learning for control :
- IRIS (Micheli et al., 2023) encode les observations via un autoencodeur discret, puis prédit les tokens futurs avec un Transformer de type GPT.
- DreamerV3 (Hafner et al., 2024) apprend un modèle du monde dans un espace catégoriel, prédit récompenses et dynamiques, et optimise une politique actor-critic à partir de trajectoires imaginées.
- TD-MPC2 (Hansen et al., 2024) apprend un modèle de transition dans l’espace latent sans décodeur, guidé par un signal de récompense, et planifie via MPC.
- AVDC (Ko et al., 2023) repose sur un modèle de diffusion vidéo conditionné par une observation initiale et une instruction texte décrivant la tâche à accomplir.
Ces méthodes permettent de situer DINO-WM dans le paysage actuel des approches de planification et de contrôle, entre modèles prédictifs, politiques apprises et générations conditionnelles.
Planification visuelle sans supervision : DINO-WM à l’épreuve
Une fois le modèle du monde entraîné à prédire la dynamique sur les six environnements, DINO-WM est directement utilisé pour planifier, sans réentraînement ni ajustement spécifique, ni récompense ou exemple : c’est du zéro-shot planning dans l’espace latent. L’évaluation est menée sur des tâches tenues à part (jeu de test) et repose uniquement sur des observations visuelles, sans accès à des états symboliques ni récompenses.
Pour les environnements Maze, Wall, Reach et PushT, les auteurs échantillonnent 50 paires (état initial, but) et calculent le taux de succès — c’est-à-dire la proportion de tentatives où l’agent atteint l’objectif spécifié par l’image cible. Pour les environnements plus complexes Rope et Granular, où l’objectif est une configuration fine d’objets déformables ou granuleux, la performance est mesurée par la Chamfer Distance (CD) entre l’état atteint et l’état objectif. Cette métrique quantifie la dissimilarité géométrique entre deux nuages de points — ici, les positions des pixels ou particules — plus elle est faible, plus l’alignement est précis.

Sur les environnements simples de navigation (Wall, PointMaze), DINO-WM atteint presque la perfection : 96–98 % de succès, très proche des 100 % obtenus par DreamerV3.
Mais c’est sur les environnements de manipulation que DINO-WM se distingue nettement :
- Reach (contrôle d’un bras robotique) : 92 % de succès, contre 64 % pour DreamerV3.
- PushT (déplacement d’objet) : 90 % contre seulement 32 % pour IRIS.
- Rope (manipulation de corde) : Chamfer Distance de 0.41 contre 1.11 pour IRIS.
- Granular (placement de billes) : 0.26 contre 0.37, signe d’une meilleure précision.
Les auteurs explorent ensuite l’effet de la taille du dataset d’entraînement. Sans surprise : plus le dataset est grand, plus les prédictions sont précises et la planification performante. Le modèle profite pleinement de la diversité des trajectoires pour apprendre des dynamiques robustes.
Enfin, une version alternative du modèle — où la prédiction est supervisée à la fois par les observations futures et par une reconstruction explicite — est testée. Elle donne des résultats corrects (notamment sur PushT), mais reste inférieure au modèle standard. Cela confirme un point clé du design de DINO-WM : ne pas propager le loss de reconstruction permet d’obtenir des représentations plus efficaces pour le raisonnement et la planification.
Quel est l’impact des représentations visuelles sur la qualité du world model ?
Un des objectifs centraux de DINO-WM est d’explorer dans quelle mesure les représentations visuelles pré-entraînées, et en particulier DINOv2, influencent la qualité de la modélisation dynamique du monde.

Pour cela, les auteurs ont testé plusieurs encodeurs visuels, tous gelés (frozen), dans le pipeline de modélisation :
- DINOv2 — encodeur par défaut de DINO-WM, produisant des représentations spatiales riches.
- R3M (Nair et al., 2022) — encodeur pré-entraîné pour la perception générale en robotique.
- ResNet-18 (Russakovsky et al., 2015) — pré-entraîné sur ImageNet.
- DINO CLS token (Caron et al., 2021) — représentation condensée en un seul vecteur latent par image.
Les résultats sont sans appel : si toutes les méthodes donnent de bonnes performances sur des environnements simples (comme Maze), le gap se creuse dès que la complexité augmente.
Par exemple :
- Sur Wall, DINOv2 atteint 96 % de succès, contre 58 % pour DINO CLS.
- Sur Reach, 92 % contre 60 %.
- Sur PushT, l’écart est similaire.
Les performances chutent particulièrement lorsque l’observation est projetée sur un vecteur unique, comme avec le CLS token, au lieu d’une carte de patchs. Cela montre que la structure spatiale des représentations est cruciale pour modéliser la dynamique de manière expressive et transférable.
Le modèle généralise-t-il à des configurations ou tâches nouvelles, jamais vues pendant l’entraînement ?
L’une des questions les plus critiques pour tout modèle du monde est la suivante : peut-il généraliser au-delà de ce qu’il a vu pendant l’apprentissage ? Autrement dit, est-il capable de raisonner sur des scénarios hors distribution (OOD), en appliquant des régularités apprises à des environnements ou des configurations nouvelles ?

Pour évaluer cela, les auteurs ont conçu trois environnements spécifiques, distincts de ceux utilisés lors de l’entraînement :
- WallRandom — navigation dans des labyrinthes aux structures aléatoires.
- PushObj — manipulation de nouveaux objets, aux dynamiques variées.
- GranularRandom — manipulation de billes disposées aléatoirement, avec pour objectif de les rassembler en un carré.
Contrairement aux environnements précédents, ici le modèle n’a jamais vu ces scènes ni ces dynamiques exactes lors de l’entraînement. C’est donc un test direct de ses capacités de généralisation.
Résultats :
- WallRandom : DINO-WM atteint 82 % de taux de succès, contre 76 % pour DreamerV3, et bien moins pour les autres. Le modèle montre qu’il a compris des concepts abstraits comme les murs ou les portes, et peut naviguer dans des structures jamais rencontrées.
- PushObj : tâche plus difficile, avec des objets inconnus et des dynamiques différentes. Malgré cela, DINO-WM atteint 34 % de réussite, là où DreamerV3 plafonne à 18 %. Cela confirme une forme de généralisation sémantique, même sans supervision directe.
- GranularRandom : on mesure ici la distance de Chamfer entre la configuration finale des billes et un carré cible. DINO-WM obtient 0.63, la meilleure performance, et est le seul modèle à réellement parvenir à structurer les billes comme attendu.
Ces résultats soulignent la capacité du modèle à modéliser des dynamiques générales, transférables à des scènes nouvelles. Et cela, sans adaptation ou fine-tuning — uniquement via son mécanisme de planification dans l’espace latent.
Conclusion
DINO-WM démontre qu’il est possible de construire un modèle du monde généraliste, pré-entraîné sur des trajectoires visuelles, capable de raisonner et de planifier dans des environnements variés — sans supervision de tâche ni adaptation spécifique. En combinant des représentations visuelles puissantes (DINOv2), une architecture de type Transformer pour modéliser la dynamique, et une approche de planification basée sur le Model Predictive Control, le système atteint des performances remarquables, parfois supérieures aux méthodes SOTA, y compris sur des environnements complexes ou jamais vus.
Les expériences menées montrent que :
- DINO-WM peut être entraîné offline, sur des jeux de données collectés indépendamment de la tâche cible.
- Il permet une planification visuelle zéro-shot, à partir d’un but spécifié par image.
- Les représentations visuelles pré-entraînées jouent un rôle critique dans la qualité de la modélisation.
- Le modèle est capable de généraliser à de nouveaux objectifs et de nouveaux environnements, sans re-entraînement.
Limites actuelles
Mais tout n’est pas résolu. Le paradigme repose encore sur plusieurs hypothèses fortes :
- Accès à des trajectoires action-observation : DINO-WM a besoin d’actions pour apprendre la dynamique (i.e., comment les actions modifient l’état latent). Cela limite sa capacité à être entraîné sur des vidéos non annotées, contrairement aux LLMs qui apprennent en SSL pur.
- Pas de mise à jour continue : Le modèle est figé une fois entraîné. Il ne s’adapte pas automatiquement à de nouvelles expériences, ni ne développe de stratégie d’exploration active.
Ces limitations soulèvent un défi central pour la suite : comment apprendre un modèle du monde sans accès aux actions, ou à partir de simples vidéos ? Et comment l’enrichir en ligne, au fur et à mesure des interactions ?
Perspectives
Un axe prometteur serait de développer des architectures hiérarchiques, où le modèle planifie à un niveau abstrait (ex. : « ouvrir la porte ») et délègue l’exécution à un contrôleur bas niveau. Cela permettrait de relier des capacités de planification globale à des modules spécialisés en contrôle moteur, ouvrant la voie à des agents vraiment autonomes — adaptables, curieux, et surtout, déployables dans le monde réel.
Sources
- From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models ? Dongsheng Jiang, Yuchen Liu, Songlin Liu, Jin’e Zhao, Hao Zhang, Zhen Gao, Xiaopeng Zhang, Jin Li, Hongkai Xiong.
- What Makes for Good Visual Tokenizers for Large Language Models ? Guangzhi Wang, Yixiao Ge, Xiaohan Ding, Mohan Kankanhalli, Ying Shan
- A Survey on Evaluation of Large Language Models ? Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Linyi Yang, Kaijie Zhu, Hao Chen, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, Wei Ye, Yue Zhang, Yi Chang, Philip S. Yu, Qiang Yang, Xing Xie
- Case study on the applicability of a construction site layout planning system. Jiyu Shin, Jongwoo Cho, Tae Wan Kim
- Robotic world models—conceptualization, review, and engineering best practices. Sakagami, R., Lay, F. S., Dömel, A., Schuster, M. J., Albu-Schäffer, A., & Stulp, F.
- Micheli, Vincent, Eloi Alonso, and François Fleuret. « Transformers are sample-efficient world models. » arXiv preprint arXiv:2209.00588 (2022).
- Hafner, D., Pasukonis, J., Ba, J., & Lillicrap, T. (2023). Mastering diverse domains through world models. arXiv preprint arXiv:2301.04104.
- Hansen, N., Su, H., & Wang, X. (2023). Td-mpc2: Scalable, robust world models for continuous control. arXiv preprint arXiv:2310.16828.
- Ko, P. C., Mao, J., Du, Y., Sun, S. H., & Tenenbaum, J. B. (2023). Learning to act from actionless videos through dense correspondences. arXiv preprint arXiv:2310.08576.
- Nair, S., Rajeswaran, A., Kumar, V., Finn, C., & Gupta, A. (2022). R3m: A universal visual representation for robot manipulation. arXiv preprint arXiv:2203.12601.
Laisser un commentaire