>> REV 1 (09/05/2025 16:02) DIFF: ajouter image de titre, liens.
>> REV 2 (10/05/2025 11.45) DIFF: sections 3 et 4 complétées.
Des modèles puissants, mais structurellement injustes
La modélisation climatique consiste à simuler numériquement l’évolution de la planète dans le temps. C’est un outil devenu indispensable pour anticiper les risques environnementaux, guider les politiques publiques ou préparer l’adaptation des infrastructures. Pourtant, les modèles actuels — aussi complexes soient-ils — restent profondément incertains. Ils produisent souvent une large gamme de prédictions, notamment à l’échelle régionale, ce qui fragilise leur utilisation dans les décisions concrètes. Ces modèles divisent la planète en grilles grossières de plus de 100 kilomètres, lissant les dynamiques locales et rendant invisibles de nombreux phénomènes extrêmes, comme les pluies diluviennes, les sécheresses ou les inondations.
C’est dans ce contexte que l’intelligence artificielle ouvre de nouvelles perspectives. En particulier, les représentations neuronales implicites (Implicit Neural Representations, ou INRs) attirent de plus en plus d’attention. Contrairement aux grilles classiques, ces modèles apprennent à représenter des champs physiques — comme la température ou les précipitations — sous forme de fonctions continues, capables de générer une valeur pour n’importe quel point de la Terre à n’importe quelle date, sans grille fixe. En d’autres termes, ce sont des modèles continus, compressés, qui peuvent interpoler des données là où aucun capteur n’est présent, ou extrapoler dans le futur en s’appuyant sur les dynamiques physiques apprises.
Cette approche, déjà explorée dans des projets comme le SFNO de NVIDIA [1] ou OMG-HD de Microsoft [2], permet de produire des prédictions plus précises, plus rapides et à plus haute résolution que les modèles traditionnels. Mais elle soulève aussi de nouvelles questions sur les biais, la robustesse, et la façon dont ces architectures généralisent… ou échouent, selon les régions du monde.

Selon l’architecture choisie — la manière dont la position est encodée, ou les fonctions de base utilisées pour représenter l’espace — ces modèles peuvent afficher de très bonnes performances en moyenne globale, tout en s’effondrant localement. Les régions insulaires, les zones côtières ou à forte variabilité spatiale deviennent des points aveugles, où les prédictions sont incohérentes, voire aléatoires. Et lorsque ces modèles alimentent des décisions politiques ou économiques, l’aléatoire devient un risque pour des populations bien réelles.
Ce phénomène ne s’explique pas uniquement par une absence de données. En réalité, deux facteurs principaux sont à l’origine de ces écarts de performance :
- Chaos: d’une part, certaines dynamiques régionales sont intrinsèquement plus dures à modéliser (zones chaotiques ou peu observées).
- Biais structurels: d’autre part, les choix techniques dans la conception du modèle peuvent introduire des biais profonds. Par exemple, beaucoup de modèles utilisent ce qu’on appelle une décomposition en série de Fourier — une méthode mathématique qui représente un signal en le décomposant en une somme d’ondes régulières, un peu comme si l’on essayait de recréer une mélodie en combinant des notes pures. C’est efficace pour des phénomènes qui évoluent de manière lisse et répétitive. Mais le climat, lui, ne fonctionne pas comme ça : les événements extrêmes, comme des précipitations violentes ou des sécheresses localisées, ne suivent pas ces schémas réguliers. Résultat : ces modèles lissent les détails et passent à côté de signaux très localisés — précisément ceux qui sont les plus importants pour comprendre les risques et les impacts concrets.
Des pistes d’amélioration existent. Par exemple, certains chercheurs remplacent les fonctions de Fourier par ce qu’on appelle des ondelettes. Contrairement aux ondes régulières de Fourier, qui s’étendent sur toute la planète comme une vibration uniforme, les ondelettes sont des motifs plus concentrés dans l’espace. Imaginez-les comme des zooms locaux : elles permettent de repérer des anomalies ou des pics de température dans une zone précise, sans diluer l’information dans une moyenne globale. Ce changement rend le modèle plus sensible aux variations locales, ce qui réduit partiellement le biais géographique. C’est une preuve que les outils mathématiques qu’on choisit ne sont pas neutres. Ils façonnent littéralement ce que le modèle voit… et ce qu’il ignore.
Mais ce n’est pas suffisant. Tant que ces représentations restent figées à l’avance, le modèle est guidé par des hypothèses implicites qui peuvent fausser les résultats. L’idéal serait que l’intelligence artificielle apprenne directement à partir des données la manière la plus juste de représenter le monde, sans qu’on lui impose une vision préconçue. Or, pour l’instant, en particulier dans les applications climatiques, ce niveau de flexibilité reste hors de portée. Et c’est là que la technique rejoint la politique : le choix de représentation détermine les zones qui seront bien modélisées — et celles qui seront laissées dans l’ombre. Autrement dit, une décision mathématique apparemment neutre peut conduire à invisibiliser certains territoires, et donc à les exclure des décisions fondées sur ces modèles.
Vers une évaluation systématique des injustices géographiques
C’est précisément cette invisibilisation que cherche à rendre mesurable l’étude No Location Left Behind: Measuring and Improving the Fairness of Implicit Representations for Earth Data. Face à l’absence d’outils pour évaluer les inégalités spatiales dans les représentations neuronales implicites, les auteurs introduisent FAIR-EARTH, un jeu de données conçu pour diagnostiquer les biais géographiques dans les modèles climatiques basés sur l’IA.
FAIR-EARTH repose sur une idée simple : évaluer les performances des modèles non pas en moyenne globale, mais en les décomposant selon des sous-groupes géographiques — comme les îles, les côtes, les grandes masses continentales ou les régions peu peuplées. Et les résultats sont inquiétants.
Les chercheurs montrent par exemple que les modèles classiques, fondés sur des encodages dits sphériques harmoniques, échouent systématiquement à bien représenter à la fois les continents et les zones plus fines comme les îles ou les littoraux. Quand le modèle essaie de capturer précisément la forme des îles, il commence à produire des artefacts autour des côtes. Autrement dit, plus on force le modèle à coller aux détails d’un littoral, plus il “déraille” ailleurs.
L’étude révèle aussi des pertes de précision bien plus élevées dans les zones à forte variabilité spatiale, comme les côtes méditerranéennes ou les régions où terre et mer alternent sur de petites distances. Par exemple, dans le cas de la température de surface, l’erreur moyenne est beaucoup plus importante dans les zones côtières que dans les zones maritimes ou continentales stables.
Même à l’échelle des pays, ces biais persistent : l’ensemble des modèles testés échouent à bien représenter des zones comme la côte méditerranéenne espagnole, précisément à cause de ces transitions brutales entre terre et mer.
Pour y remédier, les chercheurs proposent une innovation technique : l’encodage par ondelettes sphériques. Cette approche améliore la précision sur l’ensemble du globe, y compris dans les zones jusqu’ici marginalisées, tout en restant compétitive sur les benchmarks existants.
Mais au-delà des améliorations techniques, cette contribution montre l’importance de penser une méthodologie plus éthique en IA : systématiser la mesure des biais, les documenter, les corriger — non pas a posteriori, mais dès la conception des modèles. Des contributions comme FAIR-EARTH offre un cadre pour rendre visible l’invisible, en posant les bases d’une évaluation fine et transparente de l’équité spatiale des modèles climatiques.
Données manquantes, zones négligées et biais anthropocentré
Les représentations neuronales implicites (INRs) savent gérer l’absence de données : si un capteur cesse d’enregistrer, la période concernée est simplement exclue de l’apprentissage. Cela les rend robustes face aux jeux de données incomplets ou bruités. Mais cette souplesse ne corrige pas un biais fondamental : la surconcentration des données dans les zones densément peuplées, au détriment des espaces inhabités ou faiblement connectés.
Ce déséquilibre est accentué par le crowdsourcing, où la densité des données suit celle des utilisateurs. Les modèles deviennent performants dans les centres urbains… mais aveugles ailleurs. Des régions entières — forêts, archipels isolés, zones rurales — sont littéralement invisibilisées dans les représentations apprises. Cette logique anthropocentrée soulève une question essentielle : faut-il modéliser uniquement ce qui est habité ? Ou aussi ce qui est écologiquement crucial ?
Une stratégie consisterait à construire un dataset hybride : 10 % de données de haute qualité et uniformément réparties, servant d’ancrage, combinées à 90 % de données crowdsourcées. Ce type d’approche a déjà montré des résultats prometteurs. Par exemple, une étude a réussi à améliorer la modélisation des îlots de chaleur urbains en combinant des données d’occupation du sol à haute résolution (100 m) avec plus de 500 stations météo citoyennes, malgré des écarts initiaux de qualité. Dans un tout autre domaine, IBM a conçu le dataset Diversity in Faces, en intégrant 1 million d’images annotées pour réduire les biais raciaux dans la reconnaissance faciale, démontrant comment une diversité structurée peut partiellement corriger les distorsions introduites par des données collectées de manière non uniforme. Mais transposer cette logique à l’échelle planétaire reste un chantier ouvert, à la croisée de la recherche, de l’ingénierie des données et des politiques publiques.
Ce biais géographique se manifeste aussi dans les grands modèles de langage. Dans Large Language Models are Geographically Biased, les auteurs montrent que les LLMs sous-estiment systématiquement la densité de population en Afrique et en Inde, ou surestiment le niveau d’urbanisation dans des régions peu développées. Ces erreurs ne sont pas dues à une ignorance des faits (les modèles peuvent donner les bons chiffres si on les interroge), mais à une mauvaise “intuition” spatiale, ancrée dans les représentations internes.
Plus frappant encore : sur des sujets subjectifs sensibles comme la moralité, l’intelligence ou l’attractivité, les modèles attribuent des scores systématiquement plus faibles à des régions comme l’Afrique subsaharienne, le Moyen-Orient ou l’Asie du Sud, et des scores plus élevés à l’Amérique du Nord, l’Europe et l’Australie.
Pour mesurer cela, les chercheurs ont demandé aux modèles de noter des milliers de points géographiques sur une échelle de 1 à 10, en zero-shot, à partir de prompts standardisés donnant uniquement des coordonnées et un thème. Les réponses ont ensuite été analysées statistiquement, en particulier via la corrélation avec des indicateurs socio-économiques réels comme la survie infantile. Résultat : ces jugements subjectifs sont très fortement corrélés au niveau de vie des régions concernées.

Corrélation entre les prédictions de GPT-4 Turbo (zero-shot) et les données réelles sur plusieurs variables objectives. Chaque point correspond à une localisation géographique, colorée selon l’erreur de rang : vert = faible erreur, rouge = forte erreur. Malgré de bonnes corrélations globales (ρ ~ 0.8), le modèle présente des biais géographiques systématiques, notamment en Afrique, Asie du Sud et Amérique latine. Source: Large Language Models are Geographically Biased
Les auteurs introduisent un bias score combinant la corrélation avec ces variables, la dispersion des réponses et leur fréquence. GPT-4 Turbo et LLaMA 2 70B s’avèrent être les modèles les moins biaisés, tandis que d’autres présentent des écarts marqués. Même lorsque les réponses semblent cohérentes, l’analyse fine des log-probabilités (valeurs continues des réponses) révèle des biais subtils jusque dans la quatrième décimale.
Enfin, ces biais ne sont pas seulement spatiaux, ils sont aussi temporels. Lorsqu’un modèle est utilisé pour allouer des ressources ou anticiper des risques climatiques, ce qui paraît équitable aujourd’hui peut générer de nouvelles inégalités demain. L’équité algorithmique devient ainsi dynamique, instable — et profondément politique.
Vers une responsabilité partagée et une IA plus équitable
Face à ces biais structurels, la question de la responsabilité devient inévitable. Doit-on blâmer les chercheurs, les ingénieurs, les décideurs politiques ? En réalité, les designers de modèles ne peuvent pas toujours anticiper tous les usages. Mais dès que l’on sait comment un modèle va être utilisé, la responsabilité devient plus claire. Il faut alors établir un pipeline d’évaluation robuste, capable d’identifier les points de défaillance, et de les rendre visibles pour améliorer les générations futures.
Ce processus doit être itératif : le déploiement alimente l’évaluation, qui alimente le développement, jusqu’à ce que la confiance dans le modèle soit suffisante pour prendre des décisions concrètes. Cela exige une transparence sur les modes d’échec, et une volonté de corriger — au lieu de dissimuler. Mais surtout, une IA libre et ouverte, permettant la collaboration totale dans l’évaluation des modèles.
Et surtout, ce biais géographique n’est pas propre aux modèles climatiques. Il traverse tous les domaines de l’IA, comme l’a montré une étude de Mark Ibrahim et al. sur la vision par ordinateur. En analysant les performances de modèles entraînés sur ImageNet, ils ont constaté qu’un modèle pouvait atteindre 90 % de précision pour reconnaître des objets comme des chaises ou des voitures — mais uniquement les versions nord-américaines de ces objets. Appliqué en Afrique centrale ou en Asie de l’Est, le même modèle s’effondre. Cela révèle une vérité dérangeante : le biais géographique est un problème systémique, multi-modal, enraciné dans l’écosystème même de la recherche en IA.
Les représentations neuronales implicites et les LLMs offrent des outils puissants, mais ces outils reproduisent les inégalités de leur époque. Zones oubliées, régions mal modélisées, décisions fondées sur des prédictions faussées : les biais algorithmiques ont des conséquences réelles. Corriger cela demande plus que de meilleurs algorithmes. Cela exige une transformation culturelle dans la manière dont nous concevons, entraînons, évaluons et utilisons l’IA.
Et surtout, cela commence par reconnaître cette évidence : toute cartographie du monde, automatisée ou non, est aussi un choix politique.
Références
- Modeling Earth’s Atmosphere with Spherical Fourier Neural Operators: https://developer.nvidia.com/blog/modeling-earths-atmosphere-with-spherical-fourier-neural-operators/
- OMG-HD: A High-Resolution AI Weather Model for End-to-End Forecasts from Observations: https://arxiv.org/html/2412.18239v1
- No Location Left Behind: Measuring and Improving the Fairness of Implicit Representations for Earth Data: https://arxiv.org/abs/2502.06831
- Large Language Models are Geographically Biased: https://arxiv.org/html/2402.02680v2
- Combining High-Resolution Land Use Data With Crowdsourced Air Temperature to Investigate Intra-Urban Microclimate: https://www.frontiersin.org/journals/environmental-science/articles/10.3389/fenvs.2021.720323/full
- IBM Research releases ‘Diversity in Faces’ dataset to advance study of fairness in facial recognition systems: https://research.ibm.com/blog/diversity-in-faces
Laisser un commentaire