Le ML classique : régressions, arbres et k-means en 2026

Random Forest, XGBoost, LightGBM, k-means — pourquoi les arbres battent encore les LLM sur tabulaire.

30 avril 2026 by

AISkillsPro

SÉRIE — LES COUCHES DE L'IA · 02 / 06 — ML

Un chef de projet data reçoit quarante mille lignes — historique de prêts bancaires, revenu, ancienneté, défaut de paiement. Son premier réflexe, en 2026, consiste à fine-tuner un grand modèle de langage. Trois semaines plus tard, l'AUC plafonne à 0,71 et la facture GPU dépasse quatre mille euros. Un collègue pose XGBoost sur les mêmes données en deux heures, sans GPU. AUC : 0,84. La scène se rejoue chaque semaine dans les équipes data du monde entier — pour de bonnes raisons techniques, pas par paresse intellectuelle. Un Random Forest n'est pas plus simple qu'un transformer ; il est juste mieux adapté aux données tabulaires. Et pour le chiffrer, un papier NeurIPS 2022 signé Grinsztajn, Oyallon et Varoquaux a brûlé vingt mille heures de calcul sur quarante-cinq jeux de données réels.

La carte du ML : supervisé, non-supervisé, et ce qu'on oublie

Avant d'entrer dans les algorithmes, une carte mentale. Le machine learning classique se range en trois grandes familles, plus une quatrième à part — et confondre les quatre revient à choisir un mauvais outil avant même de commencer.

L'apprentissage supervisé couvre les cas où chaque exemple vient avec une étiquette : historique de prêts dont on sait qui a remboursé, courriels marqués comme pourriels, images annotées. Le modèle apprend à reproduire l'étiquette à partir des features. C'est la famille la plus représentée en production — scoring crédit, churn, prévision de demande, détection de fraude.

L'apprentissage non-supervisé opère sans étiquette. Le modèle découvre la structure intrinsèque des données : grouper les clients par comportement d'achat, réduire la dimensionnalité, repérer des anomalies. La segmentation RFM — récence, fréquence, montant — en est l'archétype : on ignore quels segments existent, l'algorithme les révèle.

L'apprentissage semi-supervisé combine les deux quand l'étiquetage coûte cher mais que les données brutes abondent : cinq cents diagnostics médicaux validés et cinquante mille scanners en attente. Un modèle initial étiquette les non-annotés, puis un second apprend sur l'ensemble enrichi. Sur tabulaire, ces méthodes restent moins matures qu'en vision ou en texte.

Une quatrième famille — l'apprentissage par renforcement — mérite mention sans s'aligner sur l'axe étiquettes / pas d'étiquettes : un agent y agit dans un environnement et apprend à maximiser une récompense cumulée. Le RL classique (Q-learning, bandits, méthodes Monte-Carlo) appartient pleinement au ML ; sa version « Deep RL » combine ces principes avec des réseaux de neurones profonds, et les agents LLM modernes en réutilisent une partie de la machinerie.

Apprentissage supervisé vs non-supervisé : deux mécaniques distinctes — exemples étiquetés vs découverte de structures — Deux familles, deux mécaniques. Le supervisé apprend à reproduire une vérité terrain connue (classification email/spam, prédiction de prix). Le non-supervisé révèle des structures cachées (segmentation client, détection d'anomalies de fraude bancaire). En 2026, le ML classique reste majoritairement supervisé en production B2B — parce que la vérité terrain coûte cher à étiqueter, mais reste l'investissement le plus rentable.

Quatre paradigmes, un seul repère : l'axe étiquettes croise l'axe objectif — l'apprentissage par renforcement reste à part, et son versant Deep RL relève des familles voisines explorées plus loin dans la série.

Les briques fondatrices : régressions et arbres

Le ML classique se construit sur trois familles d'algorithmes anciennes mais toujours utiles. Les négliger au prétexte qu'elles datent des années 1950 à 1980 mène à des architectures sur-dimensionnées qui n'apportent rien.

La régression linéaire cherche l'hyperplan qui minimise la somme des carrés des résidus — la fameuse OLS. L'équation s'écrit y = w₀ + w₁x₁ + … + wₙxₙ et la solution est analytique. Elle reste le bon outil quand la relation suspectée entre features et cible est effectivement linéaire : prévision de délai logistique, consommation électrique, prix immobilier au mètre carré sur un marché homogène. Le piège classique consiste à interpréter les coefficients sans avoir standardisé les features ; un coefficient en euros et un autre en millimètres ne se comparent pas.

La régression logistique n'est pas une régression au sens strict — c'est un classifieur probabiliste. Une sigmoïde transforme une combinaison linéaire des features en probabilité d'appartenance à la classe positive. Pour toute classification binaire — spam, churn, crédit accordé ou refusé — elle reste la baseline obligatoire avant d'envisager un modèle plus complexe. Deux pièges récurrents : confondre un coefficient corrélatif avec un effet de causalité, et oublier class_weight='balanced' sur des données très déséquilibrées comme la détection de fraude où le taux de positif tombe sous un pour cent.

L'arbre de décision partitionne récursivement l'espace des features par seuils binaires. À chaque nœud, l'algorithme CART de scikit-learn teste toutes les valeurs possibles et retient le seuil qui maximise la réduction d'impureté de Gini — G = 1 − Σpᵢ². Chaque feuille porte une décision. L'avantage est l'explicabilité : on lit l'arbre comme un organigramme métier. Le danger est l'overfitting absolu — sans max_depth, l'arbre mémorise parfaitement le training set. Si chaque feuille contient un ou deux échantillons, le modèle a appris par cœur plutôt qu'appris à généraliser.

Arbre de décision sur données de crédit : chaque nœud partitionne par seuil (critère CART/Gini), chaque feuille rend un verdict — l'overfitting se lit dans la profondeur.

Un arbre seul, fragile, instable, varie fortement avec un changement minime des données d'entraînement. C'est précisément cette instabilité qui ouvre la voie à la technique suivante.

Random Forest : la sagesse des foules

L'intuition tient en une phrase : cinq cents experts imparfaits mais indépendants prédisent mieux qu'un seul expert quasi-parfait. Le bagging — Bootstrap Aggregating — applique cette idée aux arbres via deux sources de randomisation. Chaque arbre s'entraîne sur un tirage avec remise du jeu d'entraînement, et à chaque split, seul un sous-ensemble aléatoire des features est considéré — typiquement la racine carrée du nombre total. La prédiction finale agrège les arbres : vote majoritaire en classification, moyenne en régression.

Cette double randomisation décorrèle les arbres et réduit drastiquement la variance sans augmenter le biais, ce qui place le Random Forest parmi les baselines les plus robustes sur tabulaire de taille moyenne — entre mille et cinq cent mille lignes. Les hyperparamètres clés se comptent sur une main : n_estimators avec rendements décroissants au-delà de cinq cents, oob_score qui active une évaluation gratuite hors-bag, et monotonic_cst — ajouté en scikit-learn 1.4 — pour imposer des contraintes métier de monotonie, par exemple forcer le score de risque à croître avec l'endettement.

Un piège fréquent : feature_importances_ par défaut, basé sur l'impureté moyenne décroissante, surestime systématiquement les features à haute cardinalité. La permutation importance, fournie par sklearn.inspection.permutation_importance, donne une mesure plus fiable au prix d'un calcul supplémentaire.

Le trio GBDTs : XGBoost, LightGBM, CatBoost

Le boosting renverse la logique du bagging. Au lieu d'arbres parallèles indépendants, il les construit séquentiellement — chaque arbre corrige les erreurs résiduelles du précédent en prédisant le gradient du résidu. La somme pondérée des arbres forme la prédiction finale. Trois bibliothèques dominent cette famille en 2026, et chacune occupe un créneau distinct.

XGBoost, publié par Chen et Guestrin en 2016, reste la référence généraliste. La version 3.x stabilisée en 2025-2026 apporte le support GPU unifié via device='cuda', l'external-memory GPU pour les datasets de plusieurs téraoctets, et le support natif des catégorielles via enable_categorical=True. Hyperparamètres critiques : learning_rate entre 0,01 et 0,3, max_depth entre 3 et 10, et surtout early_stopping_rounds couplé à un eval_set — sans cela, un n_estimators trop grand mène à l'overfitting.

LightGBM, sorti chez Microsoft en 2017, vise la vitesse pure. Sa croissance par feuilles — leaf-wise plutôt que level-wise — combinée à GOSS et EFB le rend souvent deux à sept fois plus rapide qu'XGBoost sur grands datasets selon les benchmarks publics. La version 4.6.0 (février 2025) reste la stable de référence. Son hyperparamètre central n'est pas max_depth mais num_leaves, dont le défaut à 31 doit être réduit sur petits datasets — au-delà de soixante-quatre feuilles sur quelques milliers de lignes, l'overfitting devient sévère.

CatBoost, développé par Yandex la même année, occupe le créneau des données mixtes riches en catégorielles. Son algorithme Ordered Target Statistics encode les catégories sans target leakage. C'est la seule des trois bibliothèques à accepter directement des colonnes string via cat_features, sans LabelEncoder préalable. Ses arbres symétriques le rendent plus lent à entraîner que LightGBM mais souvent meilleur sur catégorielles à forte cardinalité. La version 1.2.x couvre 2025-2026.

La règle pratique de choix tient en trois lignes : XGBoost pour la généralité et le tuning fin en compétition, LightGBM dès que le dataset dépasse cent mille lignes, CatBoost quand les colonnes catégorielles dominent. Sur les podiums Kaggle, les trois bibliothèques cohabitent — souvent ensemblées dans la solution gagnante.

Compromis biais-variance : sous-apprentissage, sweet spot, sur-apprentissage avec MAE train/test — Le compromis biais-variance en trois régimes. À gauche, modèle trop simple : il rate la structure. Au centre, le sweet spot : il capte le signal sans coller au bruit. À droite, sur-apprentissage : le modèle mémorise chaque point d'entraînement et s'effondre sur de nouvelles données. La régularisation (L1, L2, dropout) sert à pousser un modèle vers le centre.

Pourquoi les arbres battent les LLMs sur tabulaire

Sur quarante-cinq jeux de données du monde réel, les modèles à base d'arbres surpassent systématiquement les meilleurs réseaux de neurones disponibles — même sans tenir compte de leur vitesse supérieure.
— Grinsztajn, Oyallon, Varoquaux · NeurIPS 2022 · arXiv:2207.08815

L'argument scientifique vient d'un protocole rigoureux. Les chercheurs de l'INRIA ont sélectionné quarante-cinq jeux tabulaires variés, d'environ dix mille échantillons chacun, et consacré près de vingt mille heures de calcul à la recherche d'hyperparamètres pour chaque famille de modèles. Le résultat NeurIPS 2022 — peer-reviewed sur le track Datasets & Benchmarks — donne XGBoost et Random Forest devant les meilleurs réseaux de neurones disponibles. Trois raisons structurelles l'expliquent. Les arbres sont robustes aux features non-informatives qu'ils ignorent à la sélection au split. Ils préservent l'orientation des features — la direction de chaque colonne porte un sens en tabulaire, alors que les réseaux sont conçus pour être invariants par rotation, propriété utile en vision mais nuisible ici. Enfin, les arbres apprennent naturellement les fonctions irrégulières — un seuil de crédit exact, une coupure d'âge — que les réseaux lissent contre leur gré.

L'argument empirique vient des compétitions. Sur les 390 compétitions analysées par mlcontests.com en 2025, XGBoost compte 14 utilisations dans des solutions gagnantes, LightGBM 14 également, CatBoost 8. PyTorch domine en vision et en NLP — pas en tabulaire. Le rapport 2024 donnait LightGBM à 16 wins, CatBoost à 13, XGBoost à 8. La position relative change d'une année à l'autre, mais la conclusion globale ne bouge pas : les GBDTs trustent les podiums tabulaires, le deep learning généraliste y reste marginal.

La cause sous-jacente est conceptuelle, pas anecdotique. Un LLM a été pré-entraîné sur du texte. Ses représentations internes sont optimisées pour la sémantique lexicale et la syntaxe — pas pour discriminer un revenu de 35 000 euros d'un revenu de 36 000 euros dans un contexte de scoring crédit. Les arbres partitionnent directement l'espace des features numériques et catégorielles : c'est leur biais inductif natif. Demander à un LLM de faire ce travail revient à demander à un linguiste de jouer aux échecs sans avoir lu les règles.

Une nuance s'impose pour 2026. Une revue arXiv publiée en 2024 indique que sur des datasets de plus de cent mille lignes, les architectures DL spécialisées tabulaires comme FT-Transformer ou TabM deviennent compétitives. Pour la taille entreprise typique — moins de cent mille lignes — les arbres restent la référence. Au-delà, la course se rouvre.

Clustering : k-means et DBSCAN

Quand les étiquettes n'existent pas, le clustering prend le relais. Deux algorithmes couvrent l'essentiel des cas pratiques.

k-means partitionne N points en K clusters en minimisant l'inertie intra-cluster. Il alterne deux étapes : assigner chaque point au centroïde le plus proche, puis recalculer les centroïdes. L'initialisation k-means++ par défaut dans scikit-learn évite les minima locaux médiocres. Le choix de K reste la décision sensible : la méthode du coude sur la courbe d'inertie ou le silhouette score donnent des indications fiables. Cas d'usage canonique — la segmentation clients RFM en e-commerce. L'hypothèse implicite : k-means suppose des clusters convexes et de taille comparable. Sur des données en forme de lune ou de spirale, il échoue.

DBSCAN attaque les cas où k-means cale. Il définit les clusters comme des régions denses séparées par des zones de faible densité, sans imposer K à l'avance. Les points isolés sont marqués bruit avec l'étiquette -1. Le paramètre critique, eps, fixe le rayon du voisinage. Trop petit, tout devient bruit ; trop grand, tous les points fusionnent. La règle pratique : tracer le graphe des k-distances et chercher le coude. DBSCAN est l'outil de choix pour la détection d'anomalies géographiques — hotspots d'accidents routiers, regroupements GPS — mais il exige une standardisation impeccable des features.

Le bon outil, pas le dernier outil

Le ML classique n'est pas une technologie en fin de cycle, écrasée par le deep learning. C'est l'outil approprié à des centaines de problèmes en production en 2026 — partout où les données sont tabulaires, structurées, et de taille raisonnable. Une régression logistique fait tourner un système de scoring crédit pour des millions de demandes par mois. Un Random Forest prédit la rotation du personnel dans des grands groupes industriels. Un XGBoost détecte les transactions frauduleuses dans des banques. Aucun de ces déploiements n'aurait gagné quoi que ce soit à embarquer un grand modèle de langage.

La discipline professionnelle qui sépare les bons résultats des mauvais consiste à commencer par les arbres, valider sur un benchmark sérieux, et n'envisager des architectures plus complexes que si le gap mesuré le justifie. Cette règle tient toujours en 2026, après un cycle entier de hype LLM.

Et pourtant, certains problèmes — reconnaître une image, comprendre une phrase, générer du texte cohérent — ont rendu les arbres de décision et les autres techniques classiques structurellement insuffisants. Les caractéristiques utiles n'y sont plus des colonnes propres extraites par un ingénieur, mais des structures hiérarchiques que seuls des modèles très profonds peuvent apprendre. C'est l'objet de l'article suivant — qui examine non pas une « couche au-dessus » du ML, mais sa branche la plus active depuis 2012 : le Deep Learning, sous-famille du ML qui apprend ses propres features. Et elle a fait basculer l'industrie en l'espace de quelques mois en 2012.

Une question, un projet IA ?

Vous explorez une architecture, évaluez un modèle ou planifiez un déploiement — échangeons sur votre contexte.

Prendre contact →

Pour aller plus loin

Côté pratique : Pourquoi un agent IA n'est pas un chatbot.

in Concepts

# Concepts

Le socle invisible : pourquoi sans données, pas d'IA

Données, ETL/ELT, lakehouse, feature store : la couche que tout le monde oublie.