Comment fonctionne vraiment l’intelligence artificielle
Derrière la magie apparente des assistants qui « comprennent » et « répondent », une mécanique étonnamment simple dans son principe — et pleine d’angles morts.
On les dit intelligents, on les croit conscients. Pourtant, les grands modèles de langage — ceux qui font tourner ChatGPT, Claude ou Mistral — ne « comprennent » rien au sens humain. Leur principe tient en une phrase : prédire le mot suivant.
Entraînés sur des quantités colossales de textes, ces modèles apprennent des régularités statistiques : quels mots ont tendance à suivre quels autres, dans quels contextes. Interrogés, ils ne récitent pas une base de connaissances ; ils calculent, un fragment après l’autre, la suite la plus probable. De cette simple mécanique de prédiction émergent des phrases cohérentes, parfois brillantes.
Le moteur de cette prouesse s’appelle le « transformer », une architecture de réseau de neurones apparue en 2017, capable de peser l’importance relative de chaque mot d’un texte. Plus le modèle est grand, plus il a lu, plus ses prédictions sont fines. Mais la taille a un coût : des puces, de l’énergie et des données à une échelle industrielle.
Des chercheuses ont forgé une image devenue célèbre : ces modèles seraient des « perroquets stochastiques » — capables de répéter avec brio, sans comprendre.— d’après Emily Bender et ses coauteurs (2021)
Cette nature explique leurs travers. Un modèle peut « halluciner » — inventer une source, une date, un fait — avec le même aplomb qu’une vérité, parce qu’il ne distingue pas le vrai du plausible. Il n’a ni mémoire des faits, ni conscience, ni intention : seulement une extraordinaire capacité à imiter.
Comprendre cela, c’est mieux s’en servir. L’IA générative est un outil puissant pour dégrossir, reformuler, explorer — à condition de garder la main sur la vérification et le jugement. La machine imite ; c’est encore à l’humain de savoir.
Il faut distinguer deux moments dans la vie d’un modèle. L’entraînement, d’abord : une phase colossale, longue de plusieurs mois, où le système ingère des montagnes de données pour ajuster des milliards de paramètres — un investissement en puces et en énergie qui se chiffre en centaines de millions. L’utilisation, ensuite : chaque fois que vous posez une question, le modèle « infère », c’est-à-dire calcule sa réponse à partir de ce qu’il a appris, sans jamais réapprendre.
Une loi empirique gouverne le domaine : plus on augmente la taille du modèle, la quantité de données et la puissance de calcul, meilleurs sont les résultats. C’est cette « loi d’échelle » qui a déclenché la course aux géants. Pour affiner le comportement, on ajoute une couche d’apprentissage guidé par des humains, qui notent les réponses pour orienter le modèle vers ce qui est utile et acceptable. Mais rien de tout cela ne crée une compréhension : la machine reste un imitateur d’une virtuosité stupéfiante, dont la première qualité — prédire le plausible — est aussi le premier défaut. D’où ces « hallucinations » énoncées avec l’aplomb de la vérité.
Sources : littérature sur les modèles de langage ; Bender et al., « On the Dangers of Stochastic Parrots » (2021).