ChatGPT, Gemini, LLaMA : comment l'intelligence artificielle utilise vos données ?

Les intelligences artificielles (IA) se sont imposées dans nos quotidiens à une vitesse fulgurante. Ces systèmes sont utilisés pour générer des photos, pour programmer ses futures vacances, pour poser ses questions les plus intimes… sans vraiment savoir ce qui est fait de nos données. Alors on a fait le travail pour vous. Décryptage.

Pendant des mois, nos équipes ont analysé l’envers des principaux systèmes d’IA générative. Comment ? Elles ont notamment décortiqué, lorsqu’elles étaient disponibles, les politiques internes des entreprises qui déploient les outils d’IA. Objectif : exposer, simplement, les étapes de collecte, d’analyse et de traitement de vos données par ces géants technologiques. Et pointer les problèmes que ça pose en termes de droits humains.

Nos équipes se sont concentrées sur les systèmes d’IA générative autonomes et non sur les fonctionnalités d’IA intégrées dans certaines de vos applications ou logiciels.

Mais concrètement, c’est quoi une IA générative autonome ? Ce sont des systèmes d’IA capables de produire du contenu – texte, image, vidéo, audio – à partir des milliards de modèles sur lesquels elles ont été entrainées. Elles s’appuient sur ce qu’on appelle des LLM, des « grands modèles de langage ». Ne vous y trompez pas : les IA ne créent pas du contenu, elles imitent du contenu. Plus vous soumettez de requêtes, plus elles deviennent performantes. Et plus elles deviennent performantes, plus les entreprises investissent. C’est précisément pour ça qu’on assiste à une véritable course technologique. Mais à quel prix ?

Chronologie des modèles d’IA depuis 2022

Juillet 2022 : lancement de MidJourney (générateur d’images à partir d’un texte)

Novembre 2022 : lancement de ChatGPT par Open AI

Février 2023 : lancement de LlaMA par Meta

Mars 2023 : lancement de Claude par Anthropic

Octobre 2023 : lancement de Dall-E-3 par Open AI

Novembre 2023 : lancement de Gemini par Google

Janvier 2025 : lancement de DeepSeek par une start-up basée en Chine

Cette liste est non-exhaustive.

L’IA aspire nos données : l’envers du « web scraping »

Scraping  vient de l’anglais to scrape qui signifie racler. Et c’est exactement ce que font les outils d’IA génératives autonomes : racler des données sur le web.

Imaginez des millions d’insectes invisibles, des bots, programmes automatisés qui grouillent sur tous les recoins d’Internet : chaque page web, commentaire, photo publiée publiquement peut être collectée. C’est sur ce gigantesque ensemble de données que les systèmes d’IA génératives sont entraînées. Sauf que cette pratique est illégale car repose sur une intrusion massive dans la vie privée, souvent à l’insu des utilisateurs.

OpenAI : vous n’êtes jamais vraiment anonyme

ChatGPT a été entraîné sur une grande variété de sources : données publiques et données sous licence comme des romans, des scénarios ou des œuvres d’art. Parmi elles, une base tentaculaire baptisée Common Crowl. Une base de plus 60 millions de domaines collectés sur 12 ans. Des rapports indiquent que jusqu’à 60 % des données d’entraînement de ChatGPT proviennent de Common Crawl.

Mais ChatGPT se nourrit d’autres sources : vos requêtes. Dès que vous utilisez ChatGPT, OpenAI peut utiliser vos conversations pour améliorer la performance de ses modèles. Chaque question que vous posez, chaque message que vous envoyez est conservé. Même si vous n’êtes pas connecté à un compte, vous laissez des traces : adresse IP, type de navigateur, informations sur votre téléphone ou ordinateur. Il est impossible d’utiliser ChatGPT de façon totalement anonyme.

Meta : votre vie sociale leur appartient

Facebook ou Instagram, tout ce que vous avez publié au fil des années – photos de vacances, commentaires, réactions – sert à entraîner l’IA de Meta, intitulée LLaMA. Meta collecte le contenu des utilisateurs, leurs interactions, leurs données comportementales sur l’ensemble de ses plateformes. En 2024, Mark Zuckerberg l’a lui-même revendiqué sans détour :

Sur Facebook et Instagram, il y a des centaines de milliards d'images partagées publiquement et des dizaines de milliards de vidéos publiques. Nous estimons que [cette quantité] est supérieure à l’ensemble de données Common Crawl.

Mark Zuckerberg, PDG du groupe Meta

60 millions

de données sur le web collectées par Common Crowl sur 12 ans

250 milliards

de données sur le web collectées par Meta sur 17 ans

Ce qu’il faut retenir c’est que vos comptes sur les réseaux sociaux sont devenus l’un des gisements de données les plus précieux au monde pour alimenter les outils d’IA générative. Ils utilisent vos anciennes publications, vos moments les plus intimes, les grands évènements de votre vie et s’en servent pour construire des modèles d’IA toujours plus performants monétisés à des milliards de dollars. Le danger ? Surveillance et collecte de quantités massives de vos données personnelles. Des pratiques illégales puisque faites sans cotre consentement. Elles contreviennent au droit à la vie privée tel que garantit par le droit international.

Gemini de Google : l’un des corpus de données les plus vastes

L’outil d’IA générative autonome de Google, nommé Gemini, s’appuie sur l’infrastructure existante de Google Search. Résultat : Gemini a accès à l’un des corpus de contenus les plus vastes disponibles sur le Web – comprenant du texte, de l’audio, des images, des vidéos et du code informatique – pour alimenter son ensemble de données d’entraînement.

Gemini, collecte l’historique de vos requêtes, vos données de localisation, vos commentaires, vos habitudes pour personnaliser l’expérience et améliorer ses modèles. Si l’outil d’IA générative de Google a un corpus de données aussi vaste c’est aussi parce que ce modèle a été entraîné sur un corpus multilingue et multimodal – pas seulement avec du texte mais aussi avec des images, des sons, des vidéos.

Actualité

06 février, 2025

Intelligence artificielle : les 7 choses qu'on ne vous dit pas

Bien que ces technologies offrent des avancées dans plusieurs domaines dont celui de la médecine, elles présentent aussi des menaces pour les droits humains. Avec plusieurs organisations de la société civile, nous listons ici les dangers de l’IA.

Voir la suite

L’IA traite nos données : le renforcement des discriminations

Quand un outil d’IA générative absorbe des milliards de textes, images, vidéos, il absorbe aussi les préjugés, stéréotypes, discriminations que ces contenus contiennent. Il va alors les inclure dans ses réponses, tels des biais automatisés. Les modèles d’IA générative reposent sur une logique simple : ils ne créent pas de contenus, ils calculent une moyenne. Face à chaque requête, ils répondent en réalité à cette question : quelle est la réponse la plus probable ?

Or, la grande majorité des modèles d’IA disponibles aujourd’hui sont entraînés principalement sur des contenus en anglais, issus de la culture occidentale. Un biais insidieux : ces outils donnent une impression de neutralité et de fiabilité. Mais ces systèmes passent sous silence des points de vue minoritaires en raison de leur sous-représentation dans les données. Cela renforce la domination culturelle et linguistique occidentale et anglophone, tout en discriminant et en négligeant les langues, les cultures, les idées et la représentation du reste du monde. Des contenus non occidentaux risquent d’être analysés à tort comme offensants, violents ou problématiques.

Dans les sociétés où le racisme systémique perdure la « vision moyenne » que génère l’IA reflétera des présupposés racistes, non pas parce que quelqu’un l’a programmé ainsi, mais parce que ces biais racistes étaient déjà dans le corpus de données qui l’ont nourrie. Pire : à mesure que les ensembles de données grossissent, la présence de contenus haineux et discriminatoires augmente également. Dans un contexte où les systèmes d’IA générative ne cessent de se développer, cela laisse planer la fausse perception selon laquelle un modèle et des données d’entraînement plus volumineux serait synonymes de plus grande précision. Cette prétendue fiabilité ouvre la voie à une inhibition de l’esprit critique et à une manipulation délibérée qui doit appeler à notre plus grande vigilance.

L’IA stocke nos données : le désastre écologique des data centers

Des infrastructures immenses, érigées comme des forteresses digitales : bienvenu dans les data centers, le cœur battant de l’intelligence artificielle. À l’intérieur de ces centres ? Des milliers d’ordinateurs qui fonctionnent jour et nuit pour stockent les milliards de données utilisées par l’IA. Pour refroidir ces habitants digitaux qui chauffent en permanence, il faut de l’eau. Beaucoup d’eau.

À mesure que la demande en outils d’IA générative augmente, les besoins augmentent également : besoin de toujours plus de puissance de traitement, d’énergie, de refroidissement. Les chiffres donnent le vertige : « En 2023, les prélèvements associés aux centres de données auraient déjà dépassé les 5 000 milliards de litres, selon les  calculs de l’Agence internationale de l’énergie (AIE). Soit l’équivalent de toute l’eau potable puisée en France en une année. » rapporte Le Monde.

Le rapport de développement durable de Google de 2024 fait état d’une augmentation stupéfiante de 48 % des émissions de gaz à effet de serre depuis 2019, imputables aux émissions de ses centres de données. Chez Microsoft, entre 2020 et 2024, l’augmentation est de 29 %.

Des data centers ravagent des communautés

Les data centers s’installent souvent là où les communautés sont déjà les plus vulnérables. Ces forteresses digitales pompent les sols de communautés historiquement marginalisées qui subissent de plein fouet les effets dévastateurs de ces infrastructures.

Au Chili, des communautés se battent contre la construction d’un data center de Google, à Cerrillos, dans la banlieue de Santiago, une zone industrielle et résidentielle confrontée depuis des années à de graves sécheresses. Le cas chilien n’est malheureusement pas un cas isolé. De Cerrillos à Querétaro au Mexique, en passant par l’Arizona, des communautés se sont mobilisées contre l’installation des data center dans des zones déjà gravement touchées par des sécheresses et des pénuries d’électricité.

Et en France ? Lors du sommet Choose France, organisé au Château de Versailles le 1^er juin 2026, le géant japonais SoftBank a annoncé investir 75 milliards d’euros en France dans des projets de data centers. Un chiffre record. Trois nouvelles infrastructures sont déjà prévues dans les Hauts de France d’ici à 2031. Voir que la France pourrait devenir un eldorado pour les data centers doit nous alerter collectivement.

En quoi les modèles d’IA génératives sont incompatibles avec nos droits ?

Droit à la vie privée : Le recours à des techniques de web scraping dotées de ressources importantes pour collecter des quantités massives de données afin d’entraîner des modèles d’IA générative sont incompatibles avec le droit à la vie privée.

Droit à l’égalité et à la non-discrimination : Les systèmes d’IA générative actuels présentent des risques significatifs pour le droit à l’égalité et à la non-discrimination, tels que protégés par la Convention internationale sur l’élimination de toutes les formes de discrimination raciale (ICERD), la Convention sur l’élimination de toutes les formes de discrimination à l’égard des femmes (CEDAW) et le PIDCP.

Droit à la liberté d’expression : La modération automatisée des contenus à l’aide de systèmes d’IA générative peut conduire à une censure excessive, affectant particulièrement les communautés historiquement marginalisées.

Droit à la liberté de pensée : La manipulation des intentions et des processus de pensée des utilisateurs par le biais de suggestions prédictives peut constituer une contrainte au sens de l’article 18 du PIDCP, tandis que l’exposition répétée à des contenus synthétiques et à des biais algorithmiques peut façonner les croyances et les modèles mentaux à l’insu de l’utilisateur, ce qui constitue une forme de manipulation.

Ce qu’on demande

Les droits humains et la justice environnementale doivent être placés au cœur de la régulation de l’intelligence artificielle. Concrètement, on demande :

La transparence sur les pratiques de collecte et de traitement des données
La fin de l’extraction illégale de données personnelles sans consentement à des fins d’entraînement (le web scraping)

Sans changements significatifs dans la manière dont ces systèmes sont développés et déployés, ils continueront à porter atteinte aux droits à la vie privée, à l’égalité, à la non-discrimination, à la liberté d’expression et de pensée. Pour ne pas totalement perdre le contrôle de nos données, notre vigilance est primordiale et notre action, urgente.

Notre rapport

« Unlawful by Design » : le coût sur les droits des humains de l'IA générative

Si vous souhaitez approfondir le sujet, notre rapport complet est à télécharger ici [version en anglais].

Voir la suite

L’IA aspire nos données : l’envers du « web scraping »

OpenAI : vous n’êtes jamais vraiment anonyme

Meta : votre vie sociale leur appartient