SÉRIE — LES COUCHES DE L'IA · 03 / 06 — DEEP LEARNING
Septembre 2012. Le concours ILSVRC — ImageNet Large Scale Visual Recognition Challenge — rassemble les meilleures équipes mondiales de vision par ordinateur. Les experts attendent une amélioration marginale : un ou deux points de mieux que le vainqueur précédent. Ce qui se produit redéfinit un domaine entier. Trois chercheurs de l'Université de Toronto — Krizhevsky, Sutskever, Hinton — soumettent AlexNet. Taux d'erreur top-5 : 15,3 %. Le second concurrent : 26,1 %. Soixante millions de paramètres répartis sur deux cartes graphiques grand public à trois Go de mémoire chacune. La rumeur, dans les couloirs de NeurIPS, met deux mois à devenir un consensus : la vision par ordinateur vient de basculer. Pour comprendre pourquoi ce chiffre a tout changé, il faut remonter cinquante-quatre ans en arrière, et suivre une chaîne d'idées qui a mis trois décennies à devenir industrielle.
Dix virgule huit points d'écart. Une équipe de trois chercheurs, deux cartes graphiques à 500 dollars, et trente ans d'algorithmes ignorés venaient de redéfinir la vision par ordinateur.
Avant 2012 : perceptron, backprop, hivers de l'IA
Frank Rosenblatt présente le perceptron en 1958, dans un laboratoire de Cornell financé par l'US Navy. Le modèle tient en une ligne d'algèbre : une somme pondérée des entrées, une fonction de seuil, une règle d'ajustement des poids quand la prédiction est fausse. Une précision pédagogique s'impose dès maintenant : l'analogie avec le neurone biologique a été utile aux origines pour donner un nom à l'objet, mais les neurosciences contemporaines ont depuis montré que les unités de calcul d'un réseau profond ne reproduisent pas le fonctionnement réel d'un neurone — il s'agit d'un schéma mathématique inspiré métaphoriquement, pas d'une copie. Onze ans plus tard, en 1969, Marvin Minsky et Seymour Papert démontrent la limite mathématique de ce neurone unique : il ne peut pas apprendre une simple porte logique XOR. Faute de méthode pour entraîner des réseaux à plusieurs couches, le financement de la recherche connexionniste s'effondre. C'est le premier hiver de l'IA.
Cet hiver ne suspend cependant pas toute la recherche en intelligence artificielle. Pendant que la voie connexionniste sommeille, l'IA symbolique reste le paradigme dominant — et elle ne se contente pas de survivre, elle structure tout le champ jusqu'au milieu des années 1980. Les systèmes experts médicaux comme MYCIN (Stanford, 1972, raisonnement bayésien sur règles pour le diagnostic d'infections), le langage Prolog (Colmerauer, 1972, programmation par la logique du premier ordre), et la planification automatique avec STRIPS (Fikes & Nilsson, 1971, encore citée dans tous les manuels d'IA aujourd'hui) constituent l'ossature opérationnelle de l'IA classique. La distinction qui sépare ces approches du connexionnisme n'est pas une simple succession technologique — c'est une différence épistémologique. L'IA symbolique procède par raisonnement déductif à partir de règles formelles ; les réseaux de neurones procèdent par induction statistique à partir d'exemples. Les deux familles n'ont jamais cessé de coexister, et la confusion entretenue par la vulgarisation moderne — qui présente l'histoire de l'IA comme une succession linéaire de connexionnisme — efface cette dualité fondatrice.
L'hiver dure presque vingt ans. En 1986, David Rumelhart, Geoffrey Hinton et Ronald Williams publient dans Nature un algorithme qui résout le credit assignment problem : la rétropropagation du gradient. L'idée — appliquer la règle de la chaîne du calcul différentiel pour propager l'erreur couche par couche, depuis la sortie vers les couches cachées, et ajuster chaque poids en proportion de sa contribution à l'erreur finale. La mécanique est correcte, et les réseaux multicouches deviennent théoriquement entraînables. Mais en pratique, les gradients s'amenuisent exponentiellement à mesure qu'ils traversent les couches profondes — c'est le problème du vanishing gradient. Sans données massives, sans puissance de calcul parallèle, sans fonction d'activation adaptée, la profondeur utile reste plafonnée à deux ou trois couches pendant un quart de siècle. La recette existait. Il manquait les ingrédients.
CNN : quand les features cessent d'être ingéniées
Note d'arrière-plan importante : avant 2012, la vision par ordinateur n'était pas « symbolique » mais déjà très largement statistique — descripteurs manuels comme SIFT (Lowe, 1999) ou HOG (Dalal & Triggs, 2005), suivis d'un classifieur appris (SVM, Random Forest, AdaBoost). Ce que change le CNN n'est donc pas le passage du symbolique au statistique, c'est l'automatisation de l'extraction de features — qui jusque-là constituait le travail laborieux d'ingénieurs de vision spécialisés, capables de passer six mois à concevoir le bon descripteur pour une tâche donnée. La rupture est dans le « qui décide quoi regarder », pas dans le passage d'un paradigme à un autre.
Le premier ingrédient apparaît à Bell Labs, en 1998. Yann LeCun, Léon Bottou, Yoshua Bengio et Patrick Haffner publient LeNet-5, premier réseau convolutionnel opérationnel. Cinq couches, environ soixante mille paramètres, un taux d'erreur sous le pour-cent sur la base MNIST de chiffres manuscrits, et un déploiement en production dans les distributeurs bancaires américains pour lire les chèques. Les ingrédients conceptuels du CNN sont posés : convolution locale (un même filtre balaie toute l'image), partage de poids, invariance à la translation, et opérateur de pooling qui agrège les activations voisines. Un CNN n'apprend pas « l'image » — il apprend une hiérarchie de filtres : bords, textures, motifs, parties d'objets, objets complets, à mesure que l'on monte dans la profondeur.
Quatorze ans plus tard, AlexNet hérite de cette architecture et y ajoute trois mutations qui transforment l'expérimentation en industrie. Première mutation : l'activation ReLU — sortie nulle pour les valeurs négatives, identité pour les positives — popularisée en deep learning par Nair et Hinton en 2010. Le gradient vaut un partout où l'unité est active, ce qui élimine la saturation des sigmoïdes et accélère l'entraînement d'un facteur six selon le papier d'origine. Deuxième mutation : le Dropout, publié en 2014 par Srivastava et collègues, qui désactive aléatoirement la moitié des neurones pendant l'entraînement — une régularisation puissante. Troisième mutation : la data augmentation, multiplication artificielle du jeu d'entraînement par recadrages, miroirs et perturbations de couleur. AlexNet pèse soixante millions de paramètres, dépasse la mémoire d'une seule GTX 580, et tourne sur deux GPU en parallèle pendant cinq à six jours.
Trois ans plus tard, en décembre 2015, Kaiming He et son équipe de Microsoft Research publient Deep Residual Learning for Image Recognition. Le problème qu'ils attaquent est contre-intuitif : empiler davantage de couches dégrade la précision plutôt que de l'améliorer. Leur réponse — la connexion résiduelle, ou skip connection. Au lieu d'apprendre une transformation complète F(x), le bloc apprend un delta F(x) + x — une addition shortcut qui laisse le gradient circuler directement à travers le réseau. ResNet permet d'entraîner des réseaux de cent cinquante-deux couches sans dégradation, abaisse le taux d'erreur top-5 ImageNet à 3,57 %, et remporte le concours 2015. La connexion résiduelle sera l'un des composants importés sans modification dans le transformer.
RNN / LSTM : le défi des séquences
Le CNN traite l'espace, pas le temps. Pour comprendre une phrase, traduire un texte ou modéliser une série temporelle, il faut une architecture capable de mémoriser ce qui précède. Les réseaux récurrents — RNN — font passer un état caché d'un pas de temps au suivant. La même cellule est appliquée à chaque token, et l'état caché accumule l'information du contexte. Les conséquences pratiques sont sévères. Le gradient qui revient depuis la fin de la séquence vers le début traverse autant de multiplications qu'il y a de pas — il s'amenuise ou explose, et le réseau « oublie » au-delà d'une dizaine de tokens. Et le calcul est séquentiel par construction : impossible de calculer le pas t avant d'avoir le pas t-1. Le GPU, machine massivement parallèle, reste sous-utilisé.
En 1997, Sepp Hochreiter et Jürgen Schmidhuber publient dans Neural Computation le Long Short-Term Memory. La cellule LSTM remplace la simple addition d'état par un dispositif à trois portes — forget, input, output — plus un cell state qui circule en parallèle. Le résultat, un « carrousel d'erreur constante » selon le terme du papier, permet de mémoriser des dépendances sur plus de mille pas de temps. Le LSTM règle le problème de la mémoire ; il ne règle pas la séquentialité. En 2014, Sutskever, Vinyals et Le, à Google Brain, publient l'architecture Sequence to Sequence : un encodeur LSTM compresse une phrase source en un vecteur de contexte fixe, un décodeur LSTM le déroule en phrase cible. Les premiers résultats en traduction machine sont compétitifs, mais une faiblesse structurelle apparaît : tout le sens d'une phrase de cinquante mots se trouve écrasé dans un unique vecteur. Quelques mois plus tard, Dzmitry Bahdanau, Kyunghyun Cho et Yoshua Bengio publient le premier mécanisme d'attention — à chaque pas de génération, le décodeur peut interroger l'ensemble des états cachés de l'encodeur et pondérer leur importance. Le bottleneck du vecteur fixe disparaît. L'attention résout le problème de la mémoire. Elle ne résout pas encore le problème de la vitesse.
Transformer : « Attention is All You Need »
Le 12 juin 2017, huit chercheurs de Google Brain, Google Research et de l'Université de Toronto déposent sur arXiv un papier au titre provocateur : Attention Is All You Need. La proposition est radicale : supprimer la récurrence et la convolution, bâtir l'architecture sur l'attention seule. Le modèle de référence pèse environ cent millions de paramètres et atteint un score BLEU de 28,4 sur la traduction anglais-allemand WMT 2014, en s'entraînant en douze heures sur huit GPU. Le papier figure aujourd'hui dans le top dix des articles les plus cités du XXIe siècle, toutes disciplines confondues. Pour comprendre ce qu'il a changé, il faut suivre le parcours d'un texte qui entre dans le modèle.
Première étape, la tokenization. Le texte est découpé en sous-mots — algorithmes BPE ou WordPiece — et chaque token reçoit un identifiant entier dans un vocabulaire de quelques dizaines de milliers d'entrées. Le mot « transformer » peut devenir ["Trans", "##former"] sous BERT. Deuxième étape, les embeddings : chaque identifiant est mappé sur un vecteur dense de dimension cinq cent douze (dans le transformer original), appris pendant l'entraînement. Troisième étape, le positional encoding. Puisque le modèle traite tous les tokens en parallèle, il ne « sait » pas l'ordre. La solution du papier original consiste à ajouter aux embeddings des fonctions sinusoïdales à différentes fréquences ; les variantes modernes — BERT, GPT — utilisent des embeddings de position appris. L'ordre est ainsi préservé malgré le parallélisme.
Quatrième étape, le cœur du modèle : la self-attention. Pour chaque token, le réseau calcule une pertinence vis-à-vis de tous les autres tokens de la séquence. Trois projections linéaires des embeddings produisent trois matrices : Q (Query, ce que ce token cherche), K (Key, ce que chaque token propose), V (Value, l'information à récupérer). La formule centrale s'écrit softmax(QK^T / √d_k) × V. Le produit scalaire QK^T mesure l'affinité entre chaque paire de tokens, le facteur d'échelle √d_k empêche les gradients de saturer dans le softmax, et la multiplication par V agrège l'information. Cinquième étape, la multi-head attention : plutôt qu'une seule attention, le modèle exécute h=8 attentions en parallèle dans des sous-espaces différents, ce qui lui permet d'apprendre simultanément syntaxe, coréférence, sémantique. Les huit têtes sont concaténées, projetées une dernière fois.
Sixième étape, l'organisation en encoder et decoder. L'encodeur empile six couches identiques — multi-head self-attention bidirectionnelle (chaque token voit tous les autres) suivie d'un réseau feed-forward. Le décodeur empile six couches contenant une self-attention masquée (le masque causal interdit de regarder le futur), une cross-attention dont les Queries viennent du décodeur et les Keys/Values de l'encodeur, et un feed-forward. Septième étape, les connexions résiduelles et la layer normalization, importées de ResNet et de Ba et al. 2016 : chaque sous-couche s'écrit LayerNorm(x + Sublayer(x)). Le réseau apprend un delta plutôt qu'une transformation complète, et le gradient circule sans s'évanouir. Huitième étape, la spécialisation. BERT, publié par Google en octobre 2018, ne garde que l'encodeur — il est bidirectionnel, pré-entraîné par masquage de tokens, et excelle en compréhension. GPT, publié par OpenAI la même année, ne garde que le décodeur — il est autorégressif et excelle en génération. C'est l'architecture decoder-only qui s'est imposée pour la lignée des grands modèles de langage modernes.
Les RNN étaient condamnés à attendre token après token. La self-attention transforme toute la séquence en une multiplication matricielle — le GPU peut enfin travailler à pleine capacité.
Architecture transformer (Vaswani et al., 2017) : encodeur bidirectionnel à gauche, décodeur auto-régressif à droite — une multiplication matricielle à chaque couche, la parallélisation GPU en prime.
Le deep learning, démystifié, n'est rien d'autre que cela : l'empilement de couches paramétriques différentiables, entraînées de bout en bout par descente de gradient, où chaque couche apprend des représentations un peu plus abstraites que la précédente. Les CNN apprennent des hiérarchies visuelles, les LSTM apprenaient des dépendances temporelles, le transformer apprend des dépendances positionnelles arbitraires en une seule opération matricielle. L'insight technique du papier de 2017 tient en une phrase : un GPU est une machine à multiplication de matrices ; il fallait donc concevoir une architecture qui soit, fondamentalement, une multiplication de matrices.
Sur le plan de la classification scientifique, le Deep Learning est une sous-famille du Machine Learning : il en partage les fondements (descente de gradient, fonction de perte, régularisation, validation croisée) ; il s'en distingue par la profondeur des architectures et par sa capacité à apprendre les représentations elles-mêmes plutôt qu'à les recevoir d'un ingénieur. Tout ce qui suit dans la série — LLM, modèles d'image, agents — repose sur cette branche du ML.
GPU, CUDA et la course aux puces
La deuxième moitié de la révolution est matérielle. NVIDIA lance CUDA en 2006 — une plateforme de calcul général sur GPU qui en démocratise l'accès. Pendant cinq ans, l'usage reste largement académique. AlexNet en 2012 est le premier signal industriel : deux GTX 580 grand public suffisent à battre l'état de l'art mondial. NVIDIA prend acte, et chaque génération suivante est conçue de plus en plus explicitement pour le deep learning. Le V100 (Volta, annoncé en mai 2017 — la même année que le papier transformer) embarque six cent quarante Tensor Cores de première génération et atteint cent vingt-cinq téraflops en précision mixte. Le A100 (Ampere, annoncé en mai 2020) triple environ cette puissance. Le H100 (Hopper, annoncé à la GTC de mars 2022, disponible au second semestre 2022) la triple à nouveau, jusqu'à près de mille téraflops. Le B200 (Blackwell, annoncé à la GTC du 18 mars 2024) double encore, avec deux cent huit milliards de transistors et cent quatre-vingt-douze gigaoctets de mémoire HBM3e.
Cette escalade n'est pas un caprice de marketing. En janvier 2020, Jared Kaplan et ses collègues d'OpenAI publient Scaling Laws for Neural Language Models. Le papier établit empiriquement, sur sept ordres de grandeur, que la perte d'un modèle de langage suit une loi de puissance avec le nombre de paramètres, la quantité de données et le budget de calcul. Doubler le compute, à architecture identique, réduit la perte d'un montant prévisible. Cette régularité justifie l'industrialisation : si la performance se prédit à partir d'un budget de FLOPS, la course n'est plus algorithmique mais industrielle. Les chiffres exacts d'entraînement des modèles frontière ne sont presque jamais officiels — pour GPT-3, selon des estimations non officielles de tiers (Lambda Labs), plusieurs millions de dollars, un chiffre qu'OpenAI n'a jamais confirmé. Mais l'ordre de grandeur est lisible dans le catalogue NVIDIA : un cluster de quelques milliers de H100 constitue le datacenter d'un LLM frontière en 2026.
Ce qui reste à inventer
L'architecture transformer est devenue le point fixe du paysage. Elle propulse les modèles de texte (GPT, Claude, Gemini, Llama, Mistral), les modèles de vision (Vision Transformer, DALL-E), les modèles audio (Whisper), et la biologie computationnelle : AlphaFold 2, qui replie les protéines avec une précision proche de la cristallographie, repose sur une architecture d'attention spécialisée. Une seule famille mathématique — empilée différemment, conditionnée différemment — couvre désormais des modalités que dix architectures distinctes traitaient en 2015.
Les questions ouvertes ne manquent pas. La complexité quadratique de la self-attention en longueur de séquence (n² produits scalaires pour n tokens) reste un goulot d'étranglement, malgré les variantes éparses ou linéaires. L'interprétabilité des têtes d'attention progresse sans être complète. Le coût d'inférence se réduit régulièrement, sans encore approcher celui d'un service web classique. Le lecteur dispose maintenant de la mécanique. L'article suivant montre comment elle a été étendue à cent soixante-quinze milliards de paramètres, et ce que ce passage à l'échelle change concrètement.
Une question, un projet IA ?
Vous explorez une architecture, évaluez un modèle ou planifiez un déploiement — échangeons sur votre contexte.
Prendre contact →