Sous le mot « IA » : 6 couches empilées

Hub introductif — six couches techniques empilées qui rendent l'IA d'aujourd'hui possible.

30 avril 2026 by

AISkillsPro

SÉRIE — LES COUCHES DE L'IA · 00 / 06 — HUB

Sous le mot « IA » cohabitent silencieusement six réalités techniques radicalement différentes — et presque personne ne sait les distinguer. Un filtre anti-spam et un agent autonome capable de réserver un vol et de rédiger le rapport de voyage portent la même étiquette. Ce n'est pas un problème de marketing : c'est une carte à six territoires distincts, certains imbriqués (les LLM sont du Deep Learning, qui est lui-même un cas particulier du Machine Learning), d'autres en dialogue (les agents enveloppent un LLM mais réutilisent des techniques d'orchestration vieilles de cinquante ans), et chacun reste vivant et utile en 2026. Cette série les démonte un par un — en commençant par la carte d'ensemble.

Le problème du mot « IA »

Le terme « intelligence artificielle » est devenu un mot-éponge. Il désigne, dans la même journée, la recommandation de série Netflix, le filtre qui range les courriels en pourriel, le modèle qui rédige un courriel commercial, le système qui détecte une fraude bancaire, l'agent qui exécute du code, et l'algorithme qui replie des protéines. Ces systèmes n'ont en commun que leur étiquette ; leurs ressorts techniques diffèrent à un point qui rend toute conversation fertile presque impossible.

Pour un professionnel technique, l'absence de distinction n'est pas un détail rhétorique. Elle empêche d'évaluer un fournisseur, de dimensionner un projet, de comprendre pourquoi un cas d'usage tabulaire ne « mérite » pas un grand modèle de langage et pourquoi, à l'inverse, un agent autonome n'est pas une simple itération d'un classifieur. Sans carte mentale partagée, les choix d'architecture deviennent des paris.

L'objet de cette série tient en une promesse : poser une fois pour toutes le vocabulaire des six territoires qui composent l'IA contemporaine. Cet article — le hub — fournit la vue d'ensemble. Les six suivants en détaillent chacun un territoire.

Penser la carte : six territoires, deux relations

Une analogie utile, mais à manier avec précaution : ces six territoires forment moins un empilement vertical qu'une suite de cercles concentriques et d'anneaux voisins. Le Machine Learning englobe le Deep Learning, qui englobe à son tour les grands modèles de langage. Les agents, eux, enveloppent un LLM dans une orchestration qui a ses racines dans des courants antérieurs — IA symbolique, planification, recherche opérationnelle. Aucune couche n'a remplacé celle qui précédait : toutes coexistent, et la valeur d'usage d'un Random Forest sur tabulaire en 2026 reste supérieure à celle d'un LLM sur le même problème.

La métaphore du stack web (HTML pour la structure, CSS pour la présentation, JavaScript pour l'interaction) peut sembler tentante pour décrire l'IA. Elle est ici trompeuse : elle suggère que chaque couche est techniquement distincte de la précédente, alors que le Deep Learning est du Machine Learning et que les LLM sont du Deep Learning. La carte qui suit n'est donc pas un empilement, mais une géographie d'inclusions et d'adjacences.

Mythe vs réalité

Le mythe : "L'IA se construit comme une pyramide où chaque couche supplémentaire dépasse la précédente — donc l'IA générative et les agents sont supérieurs au ML classique."

La réalité : Le Deep Learning est une sous-famille du Machine Learning, pas une couche posée au-dessus. Les LLM sont une spécialisation du Deep Learning. Les agents enveloppent un LLM avec des techniques anciennes (planification, perception-décision-action, recherche opérationnelle). Aucune couche n'a remplacé celle qui précédait : un Random Forest sur données tabulaires en 2026 reste plus précis, plus rapide et moins cher qu'un LLM sur le même problème.

Source : Goodfellow, Bengio & Courville, Deep Learning, MIT Press, 2016 (chapitre 1, classification IA → ML → représentation learning → DL). Russell & Norvig, Artificial Intelligence: A Modern Approach, Pearson 2020.

L'IA en 2026 : territoires imbriqués (IA contient ML qui contient DL qui contient les Transformers et LLMs), avec l'IA non-statistique adjacente — L'IA contemporaine n'est pas un empilement vertical mais une carte de territoires : certains imbriqués (LLM ⊂ DL ⊂ ML), d'autres adjacents (logique formelle, planification, recherche opérationnelle), tous habités en 2026.

Axe épistémologique de l'IA : déductif (règles → cas), hybride, inductif (cas → règles) — Une autre lecture, complémentaire : l'axe épistémologique. À gauche, l'approche déductive (du général au particulier). À droite, l'approche inductive (du particulier au général). Au milieu, les architectures hybrides — RAG sous contraintes, neuro-symbolique, agents avec planification.

Précision importante : imbriquer ne veut pas dire remplacer. Chaque territoire reste habité et utile. Les bases de données ne sont pas devenues obsolètes parce qu'on construit aujourd'hui des agents. Les régressions logistiques font tourner des pans entiers de l'industrie financière. Le hub se lit donc comme une carte de territoires aux frontières souples — certains imbriqués les uns dans les autres, d'autres adjacents, tous habités et utiles en 2026.

Les deux territoires que personne ne mentionne

Les deux premiers territoires — données et machine learning classique — sont rarement les vedettes des conférences. Ils produisent pourtant la majorité de la valeur en production aujourd'hui.

Une donnée, au sens utile pour l'IA, prend trois formes : structurée (tables relationnelles, colonnes typées, contraintes), semi-structurée (JSON, XML, logs), non structurée (textes, images, audio, vidéo). Selon une analyse IBM du Stanford AI Index 2025, près de 90 % des données mondiales sont non structurées et croissent quatre fois plus vite que les données structurées. Cette inflation déséquilibrée explique l'attention portée aux modèles capables de traiter directement du texte ou de l'image.

Le cas d'ImageNet illustre la dépendance de toute la suite : 14,2 millions d'images annotées en 21 841 classes, dont une version à 1 000 classes utilisée pour la compétition annuelle ILSVRC. Sans cette base de données ouverte, la percée de 2012 — sur laquelle reposent les territoires suivants — n'aurait simplement pas eu lieu. La qualité de la donnée — complétude, fraîcheur, traçabilité de l'origine — conditionne directement la qualité du modèle.

Un modèle brillant nourri de données médiocres produit des erreurs brillamment formulées.

Le machine learning classique opère un cran plus loin sur la carte. Il regroupe les algorithmes qui apprennent des motifs depuis des features — c'est-à-dire des colonnes structurées extraites manuellement par un ingénieur. Régression linéaire et logistique, arbres de décision, forêts aléatoires (Random Forest), gradient boosting (XGBoost, LightGBM), regroupement automatique (k-means, DBSCAN). La bibliothèque scikit-learn en reste la référence en Python.

Une nuance qu'on entend trop peu : le ML classique n'est pas dépassé. Sur les données tabulaires — tableurs de comportements clients, séries comptables, capteurs industriels — il continue de battre les grands modèles plus récents en performance, en coût d'inférence et en explicabilité. Pour prédire un risque de désabonnement à partir de douze colonnes propres, déployer un LLM relève du marteau-piqueur sur une punaise. Cette famille suppose des données proprement normalisées : sans elles, aucun apprentissage.

2012 : le moment où tout a basculé

Avant 2012, la vision par ordinateur reposait sur des descripteurs manuels : SIFT, HOG, et d'autres acronymes qu'on n'apprend plus à l'école. Un humain choisissait les caractéristiques à extraire des images, puis un algorithme classique apprenait à les classer. Les progrès stagnaient.

Précision indispensable : le Deep Learning est une sous-famille du Machine Learning, pas une couche posée au-dessus. Il partage les mêmes fondements mathématiques (descente de gradient, fonction de perte, régularisation) ; ce qui le distingue, c'est la profondeur et la capacité à apprendre directement depuis des données brutes. En décembre 2012, à la conférence NeurIPS, Alex Krizhevsky, Ilya Sutskever et Geoffrey Hinton présentent AlexNet : un réseau de neurones convolutionnel à 60 millions de paramètres, entraîné cinq à six jours sur deux cartes graphiques GTX 580. Sur le défi ImageNet, le taux d'erreur top-5 tombe à 15,3 %, contre 26,2 % pour le second concurrent. L'écart n'est pas marginal — il est tectonique. La communauté de la vision par ordinateur, jusque-là sceptique vis-à-vis des réseaux profonds, bascule en quelques mois.

La rupture conceptuelle dépasse le score. AlexNet apprend ses représentations directement depuis les pixels, sans qu'un ingénieur ait à choisir les caractéristiques pertinentes. Le deep learning — c'est-à-dire l'usage de réseaux de neurones à plusieurs couches profondes — automatise ce qui était jusque-là la part la plus laborieuse du métier : l'extraction manuelle de features.

Cette capacité à apprendre des représentations hiérarchiques se généralise rapidement. À la vision succèdent l'audio (reconnaissance vocale moderne), le texte (RNN, LSTM, puis Transformer), la vidéo. Les frameworks suivent : PyTorch apparaît en 2016 et devient le standard de fait pour la recherche en deep learning. Le calcul sur GPU passe d'une optimisation à une condition d'existence.

La parenté avec le ML classique est mathématique : Deep Learning et arbres de décision partagent la descente de gradient, la fonction de perte, la régularisation. Ce qui distingue le DL, c'est la profondeur des architectures et la capacité à apprendre les représentations elles-mêmes — pas une rupture conceptuelle, mais un changement d'échelle qui débloque des modalités jusque-là hors de portée (vision, audio, langage).

Du Transformer à GPT-3 : 175 milliards de raisons de s'y intéresser

En juin 2017, une équipe de Google Brain publie un article au titre désormais célèbre, « Attention Is All You Need ». L'idée : abandonner la récurrence des LSTM, qui obligeait à traiter les séquences mot après mot, au profit d'un mécanisme d'attention capable de regarder tous les mots d'une phrase en parallèle. Le modèle de base — environ 100 millions de paramètres, entraîné en douze heures — n'est pas spectaculaire en taille. Sa nouveauté est ailleurs : il se parallélise efficacement sur GPU, et donc passe à l'échelle.

Trois ans plus tard, en juin 2020, OpenAI publie « Language Models are Few-Shot Learners ». GPT-3 : 175 milliards de paramètres, entraîné sur environ 300 milliards de tokens issus de Common Crawl, WebText2, livres numérisés et Wikipedia. Pour la première fois, un modèle de langage généraliste peut générer du code Python fonctionnel, traduire entre langues ou résumer un texte sans entraînement spécifique — uniquement à partir de quelques exemples glissés dans son invite. Les paramètres de GPT-4 et des modèles propriétaires ultérieurs n'ont jamais été divulgués par OpenAI ; GPT-3 reste donc la référence chiffrée publique.

175 milliards de paramètres pour prédire le mot suivant — et cette fonction a changé l'industrie mondiale.

Un LLM n'est pas une rupture par rapport au Deep Learning : c'est une spécialisation industrielle d'une architecture DL particulière (le Transformer), entraînée à très grande échelle sur du texte. Toute IA générative — texte, image, audio, code — est, techniquement, du Deep Learning. Une démystification s'impose à ce stade. Un grand modèle de langage — un LLM, pour large language model — est une fonction paramétrique. Elle prend une séquence de tokens en entrée, et produit une distribution de probabilités sur le prochain token. C'est tout. Cette opération, répétée des milliers de fois, génère un texte cohérent. La capacité est remarquable ; elle reste distincte de la « compréhension » au sens cognitif humain. Confondre les deux mène droit aux déceptions de production.

Le coût d'usage suit une trajectoire vertigineuse. Selon le Stanford AI Index 2025, le prix d'inférence pour un modèle atteignant le score MMLU de GPT-3.5 (64,8) est passé de 20 dollars par million de tokens en novembre 2022 à 0,07 dollar en octobre 2024 — une division par 280 en dix-huit mois. L'écosystème ouvert suit la même courbe : la plate-forme Hugging Face Hub dépasse en 2025 le million de checkpoints de modèles publiés, couvrant texte, vision, audio et multimodal.

Agir et converger : agents et état de l'art 2026

Un LLM isolé produit du texte, pas d'action. Pour qu'il agisse, on l'enveloppe dans une architecture qui combine outils externes, mémoire et boucle de planification — exécution — observation. Le mot « agent » n'est pas neuf : il désigne depuis les années 1970-90 des systèmes capables de percevoir, décider et agir dans un environnement (agents BDI, planification STRIPS/PDDL, systèmes multi-agents, recherche opérationnelle). Ce qui change avec les LLM, c'est le moteur cognitif central — généraliste, capable de raisonner en langage naturel — et l'écosystème d'outils qui se branche dessus. La boucle, elle, est ancienne. Un agent contemporain combine donc un LLM jouant le rôle de moteur cognitif, augmenté d'une mémoire, d'outils externes (API, exécuteur de code, navigateur, accès aux fichiers) et d'une boucle de planification, exécution, observation, ajustement.

L'adoption en entreprise est rapide. Selon des études relayées par Landbase en 2026, environ 48 % des grandes entreprises auraient déjà des déploiements agentiques en production — chiffre à prendre avec la prudence d'usage pour ce type de baromètres. Le marché des plateformes agentiques était évalué à 7,06 milliards de dollars en 2025 par cette même source. Les exemples documentés vont du traitement de dossier de souscription financière (réduction de temps de l'ordre de 67 % rapportée) à la génération de code accompagnée. La maturité des LLM conditionne directement celle des agents : sans moteur cognitif assez fiable, pas d'enveloppe agentique opérationnelle.

Le sixième territoire — l'état de l'art 2026 — n'est pas, à proprement parler, un territoire technique distinct. C'est le résultat cumulatif de l'accélération simultanée des cinq précédents : modèles raisonnants, multimodalité native (texte, image, audio, vidéo), agents intégrés, contextes longs (un million de tokens et au-delà), à coût décroissant. Selon le Stanford AI Index 2025, le compute d'entraînement des modèles notables double tous les cinq mois, les tailles de jeux de données tous les huit mois. L'écart de performance entre le premier et le dixième modèle mondial s'est réduit de 11,9 à 5,4 points en un an. L'article de clôture de cette série dresse la carte détaillée de cette convergence — Claude, GPT, Gemini, Llama, Mistral, modèles chinois.

Les six territoires en six phrases — et la suite

Pour clore cette carte d'ensemble, six définitions opérationnelles, une par territoire :

Territoire 1 — Données : les bases qui stockent et organisent le carburant de tout modèle, structuré, semi-structuré ou non.
Territoire 2 — ML classique : les algorithmes qui apprennent des motifs depuis des features tabulaires, encore dominants en production.
Territoire 3 — Deep Learning : sous-famille du Machine Learning fondée sur les réseaux de neurones empilés en plusieurs couches profondes — capable d'apprendre les représentations directement depuis les données brutes (pixels, audio, texte).
Territoire 4 — LLM : cas industriel emblématique du Deep Learning — un Transformer entraîné à très grande échelle sur du texte. Le Transformer, lui, traverse plusieurs domaines : vision (ViT, DALL-E), audio (Whisper), biologie (AlphaFold), code.
Territoire 5 — Agents : les LLM augmentés d'outils, de mémoire et de boucles d'action pour exécuter, pas seulement répondre — réutilisant des schémas d'orchestration antérieurs à l'ère neuronale.
Territoire 6 — IA cumulée 2026 : la convergence raisonnement, multimodalité, agentique, à coût en chute libre.

Six articles suivent ce hub. Chacun prend un territoire, l'ouvre, montre ses pièces, signale ses pièges. Le lecteur pressé peut sauter directement au territoire qui le concerne ; le lecteur curieux gagnera à les lire dans l'ordre. La prochaine livraison commence par le socle — celui que tout le monde oublie.

Une question, un projet IA ?

Vous explorez une architecture, évaluez un modèle ou planifiez un déploiement — échangeons sur votre contexte.

Prendre contact →

Pour aller plus loin

Côté pratique : Pourquoi un agent IA n'est pas un chatbot.

Suite de la série « Les couches de l'IA »

Le socle invisible : pourquoi sans données, pas d'IA — Le socle invisible : pourquoi sans données, pas d'IA
Le ML classique : régressions, arbres et k-means en 2026 — Le ML classique : régressions, arbres et k-means en 2026
Du neurone au transformer : la rupture du Deep Learning — Du neurone au transformer : la rupture du Deep Learning
Les LLM démontés : pre-training, fine-tuning, RAG — Les LLM démontés : pre-training, fine-tuning, RAG
Les agents : du chat statique à l'IA qui exécute — Les agents : du chat statique à l'IA qui exécute
État de l'art 2026 : Claude, GPT, Gemini, Llama, Mistral, modèles chinois — État de l'art 2026 : Claude, GPT, Gemini, Llama, Mistral, modèles chinois

in Concepts

# Concepts

Prouver qu'un contenu vient d'une IA : filigranes et provenance