En résumé
- Des modèles massifs peuvent être entraînés efficacement sur de très petits jeux de données, sans sur-apprentissage.
- Le pré-entraînement par prédiction de token n’est pas toujours supérieur pour les tâches discriminatives simples.
- Les modèles spécialisés entraînés from scratch peuvent surpasser des LLMs pré-entraînés dans certains cas bien définis.
- L’apprentissage auto-supervisé (SSL) et supervisé (SL) partagent une structure théorique commune : seule la nature des étiquettes change.
- Le SSL peut être vu comme une forme de SL avec des labels ultra-fins, ce qui favorise une meilleure généralisation.
- La plupart des objectifs SSL actuels supposent une distribution équilibrée, ce qui pose problème dans les jeux de données réels.
- Les techniques de pondération issues du SL peuvent être transposées au SSL pour corriger les biais de distribution.
- Le pré-entraînement massif gaspille des ressources à apprendre des tokens rares souvent inutiles pour les tâches cibles.
- Un entraînement multitâche ciblé sur quelques tâches représentatives peut suffire à produire des représentations robustes.
- La future efficacité en IA ne viendra pas forcément de modèles plus grands, mais d’une meilleure conception du pipeline d’apprentissage.
Faut-il vraiment des milliards de tokens et des datacenters entiers pour faire de l’intelligence artificielle ? Depuis quelques années, une forme de consensus s’est imposée : il faut voir grand. Plus de données, plus de paramètres, plus de GPU, plus de pré-entraînement. À l’ère des modèles de fondation (foundation models), toute tâche semble devoir passer par une étape sacrificielle de prédiction de tokens sur Internet avant de devenir utile.
À l’occasion du Self-Supervised Learning Workshop de NeurIPS, plusieurs travaux viennent bousculer les fondements de ce paradigme [1, 2]. Ils suggèrent que, pour certaines tâches bien cadrées, de simples modèles initialisés aléatoirement, entraînés avec quelques dizaines de milliers d’exemples, peuvent rivaliser — voire dépasser — leurs cousins pré-entraînés pendant des semaines. Pire (ou mieux) : l’auto-supervision, loin d’être un mystère séparé, pourrait n’être qu’une forme déguisée d’apprentissage supervisé.
Alors, faut-il vraiment tout désapprendre ? Dans cet article, on explore ces résultats qui remettent à plat nos croyances sur le rôle du pré-entraînement, la nature du biais inductif, l’équivalence entre supervision explicite et implicite, et les stratégies d’entraînement possibles dans un monde qui cherche à optimiser… tout, sauf sa consommation énergétique.
Petits datasets, gros modèles : une surprise expérimentale
Une série d’expériences présentées lors du Self-Supervised Learning Workshop à NeurIPS a mis en évidence un phénomène inattendu : des modèles massivement sur-paramétrés — de l’ordre de 7 milliards de paramètres — peuvent être entraînés efficacement sur de très petits jeux de données supervisées, de l’ordre de 20 000 exemples, sans ajustement particulier des hyper-paramètres, et sans manifestation marquée de sur-apprentissage. Les courbes d’entraînement obtenues sont à la fois stables et régulières, ce qui contredit l’intuition selon laquelle un tel ratio paramètres/données devrait conduire à un sur-ajustement immédiat ou à une instabilité des gradients.
Ce phénomène a notamment été documenté dans l’étude “For Perception Tasks: Is LLM Pretraining by Next-Token Prediction Worth Its Cost?” (Balestriero & Huang, 2024), qui compare, sur 12 jeux de données de classification et 11 architectures de LLMs, les performances de modèles pré-entraînés via next-token prediction (avec fine-tuning LoRA) à celles de modèles entraînés from scratch à partir d’une initialisation aléatoire. Résultat : les performances finales sont souvent équivalentes, voire légèrement supérieures dans certains cas pour les modèles sans pré-entraînement, malgré l’absence d’optimisation fine des hyperparamètres. Cette observation, confirmée sur des jeux comme IMDB, Rotten Tomatoes, WikiToxic ou Bias in Bios, suggère que l’apport du pré-entraînement massif est minime pour des tâches de perception discriminative fermées (classification binaire ou catégorielle).

Ce tableau présente les scores F1 obtenus sur l’ensemble des jeux de données de classification utilisés par Balestriero & Huang (2024), pour différents modèles de langage (LLMs) testés selon deux configurations : (1) pré-entraînement par prédiction de token suivi d’un fine-tuning via LoRA ; (2) entraînement complet depuis une initialisation aléatoire, avec les mêmes hyperparamètres. Les résultats montrent que les écarts de performance entre les deux approches sont généralement faibles, remettant en question la pertinence du pré-entraînement massif pour les tâches discriminatives fermées.
Ce constat remet en question une hypothèse fondatrice du paradigme actuel : celle de la nécessité du pré-entraînement massif par prédiction de token (next-token prediction) sur des corpus à l’échelle du web. Pour des tâches discriminatives simples — comme la classification de sentiments ou la catégorisation de professions — ces modèles, même initialisés aléatoirement, atteignent des performances comparables, voire supérieures, à celles des modèles pré-entraînés. Cela suggère que la capacité de généralisation ne dépend pas uniquement du volume de données vu en amont, mais pourrait reposer sur des propriétés structurelles de l’architecture elle-même.
L’hypothèse d’un biais inductif implicite — c’est-à-dire une forme de régularisation inhérente à l’architecture des modèles — est avancée pour expliquer ces résultats. En effet, alors que les transformers sont connus pour surajuster plus facilement que des réseaux de type ResNet en vision, ce comportement ne se manifeste pas dans ce contexte NLP. Ce paradoxe apparent pourrait refléter un équilibre particulier entre capacité d’expression, stabilité de l’optimisation, et contrainte structurelle sur les représentations internes.
Ces observations soulèvent également des questions fondamentales sur la nature de l’apprentissage dans les modèles de grande taille :
- quels paramètres sont réellement utiles à l’apprentissage d’une tâche donnée ?
- Les premières couches apprennent-elles des représentations pertinentes ou la spécialisation est-elle cantonnée aux couches finales ?
- Assiste-t-on à une forme de collapse structurel (neural collapse) ou à l’émergence d’un sous-réseau optimal, à l’image de l’hypothèse du « lottery ticket » ?
- Enfin, ces résultats invitent à reconsidérer la place du pré-entraînement dans les pipelines modernes, notamment pour des tâches bien définies où la généralisation hors distribution n’est pas critique.
Enfin, ces résultats invitent à reconsidérer la place du pré-entraînement dans les pipelines modernes, notamment pour des tâches bien définies où la généralisation hors distribution n’est pas critique.
Le pré-entraînement n’est pas toujours roi
L’idée que les grands modèles doivent être systématiquement pré-entraînés sur des corpus gigantesques pour exceller semble moins solidement étayée, du moins pour les tâches discriminatives simples. Cette conclusion repose sur un constat empirique : pour ces tâches fermées, où la réponse attendue est un label unique, la richesse sémantique supposée acquise lors du pré-entraînement par next-token prediction n’est pas toujours exploitée. Un modèle initialisé aléatoirement, entraîné avec supervision directe sur un jeu de données spécifique, peut converger rapidement vers une solution efficace, sans avoir besoin de « comprendre » le langage dans sa complexité globale.
L’étude de Balestriero et Huang [2] détaille les conditions de cette efficacité : les modèles sont entraînés avec une perte en cross-entropie, et évalués par un classifieur linéaire recevant à la fois la sortie du dernier token de la dernière couche, et la moyenne des poids d’attention de cette même couche sur tous les tokens. Ces deux vecteurs sont concaténés avant classification. Aucun token spécial CLS
n’est utilisé, évitant ainsi tout biais liés au tokenizer.
Le setup est volontairement sobre : 10 000 pas d’entraînement, AdaFactor, décroissance cosinus avec warmup linéaire sur 5 %, batch de 8, pas d’accumulation de gradient. Résultat : les performances finales du fine-tuning avec LoRA et de l’entraînement from scratch sont dans la plupart des cas équivalentes — un constat renforcé par les résultats du tableau 1.
Fait intéressant : même le tokenizer pré-entraîné, réutilisé avec un modèle initialisé aléatoirement, n’améliore en rien les performances finales, indiquant que son entraînement massif sur des corpus web ne transmet pas d’information utile dans ces contextes supervisés.
Enfin, les auteurs cherchent à quantifier dans quels cas le pré-entraînement conserve un avantage. Ils identifient une corrélation modérée entre la richesse du dataset (mesurée par le log du nombre total de tokens) et l’écart de performance entre fine-tuning et full training. Comme montré dans la figure 1, cette variable explique environ 34,2 % de la variance observée — suggérant qu’au-delà d’un certain seuil de diversité linguistique, le pré-entraînement peut encore offrir un gain marginal.

Ces résultats remettent aussi sur le devant de la scène les modèles spécialisés, longtemps relégués au second plan. Il ne s’agit plus de revenir aux vieux MLP d’antan, mais d’imaginer des architectures modernes — typiquement des Transformers — taillées pour des tâches précises, et entraînées de manière ciblée. En contrepartie, on perd la malléabilité comportementale des grands modèles génératifs : un classifieur supervisé ne pourra pas être « aligné » à coups de fine-tuning s’il doit changer de ton ou d’intention. Il dit « oui », « non », ou « positif/négatif », point.
La conclusion s’impose donc avec nuance : le pré-entraînement par prédiction de token conserve tout son intérêt pour la génération, le raisonnement multi-tâches ou les applications en environnement ouvert. Mais pour les tâches simples, précises, bien cadrées ? Rien n’interdit — bien au contraire — de s’en passer.

Apprentissage supervisé, auto-supervisé : un même objectif ?
Pendant longtemps, l’apprentissage auto-supervisé (SSL) a été perçu comme une approche fondamentalement différente de l’apprentissage supervisé (SL). Mais une autre publication de Balestriero et Huang [1] remet en cause cette séparation : elle démontre que, sous certaines conditions, SSL et SL poursuivent en réalité le même objectif de structuration de l’espace représentationnel — seule la forme des annotations change, passant d’un label explicite à une relation implicite entre échantillons.
Cette équivalence conceptuelle s’accompagne d’une clarification technique : les auteurs montrent que de nombreuses composantes modernes du SSL — tête de projection, méthode anti-collapse, approches teacher/student — n’améliorent pas nécessairement la qualité des représentations lorsque le pré-entraînement est réalisé sur des jeux de données de taille modérée (jusqu’à quelques centaines de milliers d’exemples). En d’autres termes, la sophistication croissante des pipelines SSL pourrait masquer une réalité plus simple : l’architecture backbone est responsable de l’essentiel de la représentation, et les autres éléments (comme la tête de projection ou l’utilisation d’un teacher MoA) introduisent plus de sensibilité aux hyperparamètres qu’ils n’apportent de gains substantiels.
Cette observation réconcilie la théorie et la pratique. Elle légitime les études formelles qui analysent le SSL de manière épurée — en l’absence de projecteur ou de normalisation explicite — et fournit un cadre plus sobre pour déployer le SSL dans des contextes où les ressources sont limitées. En ce sens, le SSL ne se distingue pas du SL par son absence de supervision, mais par la nature implicite ou relationnelle de cette supervision : il apprend à représenter non pas ce qu’un exemple est, mais en quoi il est semblable ou différent des autres.
Ce constat met aussi en lumière une forme de sur-spécialisation du SSL contemporain. Poussé par la recherche industrielle, le domaine s’est centré sur des cas d’usage à grande échelle (vision naturelle, audio, vidéo), au point que les méthodes deviennent souvent dépendantes d’une architecture, d’un jeu de données, voire d’un jeu d’hyperparamètres spécifiques. Dans la pratique, cela se traduit par plusieurs obstacles :
- des métriques peu informatives (souvent influencées par la tête de projection supprimée après entraînement) ;
- une instabilité des performances face à des variations mineures des paramètres ;
- une faible transférabilité des configurations d’un domaine à l’autre ;
- et enfin, une complexité de mise en œuvre élevée (duo de réseaux, génération de paires positives, entraînement distribué), qui limite fortement l’accessibilité du SSL à des communautés disposant de moyens techniques réduits.
Ces limites posent une question fondamentale : le SSL a-t-il complexifié à outrance ce qui pourrait être, dans bien des cas, une simple optimisation de relation dans l’espace latent ? En réduisant la dépendance à l’ingénierie algorithmique, les travaux récents ouvrent la voie à un SSL plus minimaliste, plus stable, et donc plus largement applicable.
Plutôt que d’associer une entrée à un label explicite (« ceci est un chat« ), le SSL encode des relations implicites entre échantillons (« ces deux images sont-elles similaires ?« ). Cette reformulation permet de dériver, à partir d’objectifs supervisés classiques, des variantes auto-supervisées équivalentes, sans modifier le cœur du problème. Les représentations produites sont alors identiques à une transformation près — transformation qui devient négligeable lorsqu’on les évalue via des classifieurs linéaires.
Cette équivalence éclaire l’un des grands malentendus de la littérature récente : ce n’est pas l’absence d’annotations qui distingue le SSL du SL, mais la manière dont on effectue la supervision. Et c’est précisément cette structure implicite — ce graphe de similarités entre exemples — qui porte l’apprentissage. Lorsqu’on pousse la granularité à l’extrême, en traitant chaque exemple comme une classe unique, le modèle apprend des représentations plus riches et moins sujettes au sur-apprentissage.
Mais cette élégance théorique s’est trouvée noyée dans une complexité algorithmique croissante : têtes de projection, normalisation, stratégies teacher-student, estimation d’entropie… autant de mécanismes introduits pour stabiliser ou régulariser l’entraînement, mais qui se sont multipliés sans preuve claire de leur utilité dans des contextes réalistes. L’étude de Balestriero et Huang montre que sur des jeux de données de taille modérée (quelques centaines de milliers d’exemples), ces mécanismes n’apportent aucun gain substantiel sur la qualité des représentations. Pire : ils complexifient inutilement les pipelines, introduisent des hyperparamètres sensibles, et rendent l’implémentation coûteuse, limitant l’accessibilité du SSL.
Grâce au cadre théorique unifié, on peut aussi importer dans le SSL les outils classiques du supervisé. Pondérer les fonctions de perte permet de traiter des distributions non-balancées — un problème récurrent du SSL actuel, qui suppose souvent un équilibre irréaliste entre classes. Et dans les scénarios semi-supervisés, cette formulation permet de combiner les deux types de signaux de façon rigoureuse.
Au final, la séparation conceptuelle entre SSL et SL s’efface. Ce qui compte, ce n’est pas la présence ou l’absence d’annotations, mais le type d’information structurelle que l’on injecte. Vue sous cet angle, le SSL n’est plus une alternative exotique, mais une forme généralisée de supervision — plus souple, mais aussi plus exigeante sur le plan conceptuel.

Vers une stratégie d’entraînement plus sobre et ciblée
Faut-il nécessairement entraîner un modèle à prédire tous les tokens du monde pour lui apprendre quelque chose d’utile ? Rien n’est moins sûr.
Les auteurs de The Fair Language Model Paradox [5] introduisent un problème structurel peu discuté : dans les approches classiques de type next-token prediction, le modèle doit apprendre à prédire l’ensemble du vocabulaire — y compris les tokens extrêmement rares. Or, ces tokens à faible fréquence, souvent absents des tâches cibles, subissent une double pénalité : leur rareté rend leur apprentissage coûteux, et les techniques de régularisation standards comme le weight decay aggravent encore leur sous-apprentissage.
De manière insidieuse, cette dégradation ne se voit pas dans les métriques agrégées : la loss moyenne reste stable, masquant un effondrement de la performance sur la majorité silencieuse des tokens. Comme le montre la Figure 2, l’augmentation du weight decay affecte surtout les tokens rares, tandis que les tokens fréquents restent performants. Or, dans des corpus comme IMDB, 95 % des tokens n’appartiennent qu’aux 0.01 % les plus fréquents — rendant ce biais d’autant plus problématique à grande échelle.

Ce biais n’est pas une anomalie passagère : il est inhérent à la combinaison du next-token prediction, d’un vocabulaire très large, et d’une régularisation uniforme. Plus le vocabulaire augmente — comme c’est le cas dans les LLMs récents (de 32k pour LLaMA-1 à 256k pour Gemma-2) — plus ce déséquilibre s’aggrave.
Dès lors, pourquoi continuer à entraîner des modèles sur la totalité du spectre lexical si seule une infime fraction est pertinente pour une tâche donnée ? Plutôt que d’imposer à chaque modèle de prédire tout, une approche plus sobre consisterait à cibler l’apprentissage sur des représentations utiles, apprises à partir de tâches bien choisies, ou d’un nombre réduit de tâches représentatives.
Cette stratégie intermédiaire — entre pré-entraînement massif et apprentissage spécialisé — permet de former des modèles performants, tout en réduisant les coûts de calcul et en évitant les biais structurels inutiles. Car oui, la génération mot-à-mot — bien qu’impressionnante — n’est peut-être qu’un artefact de formulation technique. Elle impose une granularité syntaxique extrême, alors même que la compréhension humaine repose davantage sur des structures sémantiques de plus haut niveau. La question reste ouverte : peut-on entraîner un modèle puissant sans lui faire générer de texte ?
Le compromis proposé dans l’article n’est pas un retour en arrière, mais un recentrage stratégique : former des modèles qui comprennent, plutôt que des modèles qui verbalisent tout. Des modèles sobres, modulaires, alignés sur l’usage plutôt que sur l’aspect génératif.
Références
- Occam’s Razor for Self Supervised Learning: What is Sufficient to Learn Good Representations? Randall Balestriero, Hai Huang. https://arxiv.org/abs/2406.10743
- For Perception Tasks: The Cost of LLM Pretraining by Next-Token Prediction Outweigh its Benefits. Randall Balestriero, Hai Huang. https://openreview.net/forum?id=wYGBWOjq1Q
- The Birth of Self Supervised Learning: A Supervised Theory. https://openreview.net/pdf?id=NhYAjAAdQT
- Exploring the Equivalence of Siamese Self-Supervised Learning via A Unified Gradient Framework. https://openaccess.thecvf.com/content/CVPR2022/papers/Tao_Exploring_the_Equivalence_of_Siamese_Self-Supervised_Learning_via_a_Unified_CVPR_2022_paper.pdf
- The Fair Language Model Paradox. Andrea Pinto, Tomer Galanti, Randall Balestriero. https://arxiv.org/abs/2410.11985
Laisser un commentaire