État de l'art 2026 : Claude, GPT, Gemini, Llama, Mistral, modèles chinois

Avril 2026, semaine de tous les paris : Claude Opus 4.7, GPT-5.5, DeepSeek V4-Pro.

30 avril 2026 by

AISkillsPro

SÉRIE — LES COUCHES DE L'IA · 06 / 06 — SoA 2026

Avril 2026, dix-sept jours qui ont rebattu les cartes. Le 7 avril, Anthropic publie un avertissement inhabituel sur Mythos Preview — un modèle jugé suffisamment dangereux pour ne pas être diffusé publiquement, accessible uniquement via un programme restreint baptisé Project Glasswing. Neuf jours plus tard, le 16 avril, Claude Opus 4.7 sort en disponibilité générale avec un score de 87,6 % sur SWE-Bench Verified. Le 23 avril, OpenAI publie GPT-5.5, première architecture unifiée traitant texte, image, audio et vidéo de bout en bout. Le lendemain, le 24 avril, DeepSeek met en ligne V4-Pro sous licence MIT — 1,6 trillion de paramètres, 0,2 point d'écart seulement avec Claude Opus 4.6 sur le même benchmark de référence. Quatre releases majeures en moins de trois semaines, dont une non-publication. La question utile pour 2026 n'est plus de savoir quel modèle est le plus puissant. Elle est devenue : quelle combinaison de modèles, pour quel budget, pour quel usage ?

Le club propriétaire : Anthropic, OpenAI, Google

Trois laboratoires occupent encore la frontière des modèles fermés. Leurs trajectoires de 2026 dessinent trois philosophies distinctes — et un signal commun.

Anthropic — Famille Claude 4. Claude Opus 4.7, sorti le 16 avril 2026, atteint l'état de l'art au lancement sur le code complexe avec 87,6 % sur SWE-Bench Verified et 64,3 % sur SWE-Bench Pro multi-langages. Le modèle introduit un niveau de raisonnement inédit baptisé « xhigh », situé entre les paliers « high » et « max », et sa vision passe en haute définition — images jusqu'à 2 576 pixels de côté, soit environ 3,3 fois la résolution des Claude antérieurs. Le tarif reste identique à celui de Claude Opus 4.6 : 5 dollars par million de tokens en entrée, 25 dollars en sortie. En amont de ce flagship, Claude Sonnet 4.6 (février 2026) a posé un jalon distinct sur l'usage agent — 72,5 % sur le benchmark OSWorld de computer use, soit le niveau le plus élevé documenté pour un modèle commercial.

Mais le signal saillant d'avril 2026 n'est pas Opus 4.7. C'est Mythos Preview, dévoilé le 7 avril sans diffusion publique — Anthropic décrit des capacités jugées trop préoccupantes pour une mise à disposition large, notamment dans la découverte autonome de vulnérabilités zero-day. L'accès est cantonné à un programme nommé Project Glasswing.

Pour la première fois, un laboratoire choisit de ne pas publier un modèle non pas parce qu'il est insuffisant, mais parce qu'il est trop capable.

OpenAI — Famille GPT-5.x. GPT-5.5, sorti le 23 avril 2026, marque la première architecture commerciale véritablement unifiée — texte, image, audio et vidéo traités par un même réseau de bout en bout, sans pipeline séparé pour chaque modalité. Tarification API à 5 dollars par million de tokens en entrée, 30 en sortie ; fenêtre de contexte de 1 million de tokens. Les chiffres qui retiennent l'attention sont ailleurs : 82,7 % sur Terminal-Bench 2.0, 93,6 % sur GPQA Diamond, et surtout 85,0 % sur ARC-AGI-2 — premier modèle nu, sans méta-système d'augmentation, à atteindre le seuil du grand prix défini par la fondation ARC Prize. Sur l'index Intelligence d'Artificial Analysis, GPT-5.5 occupe le rang numéro un (score 60) au 27 avril 2026.

Google DeepMind — Famille Gemini. Gemini 2.5 Pro, sorti en mars 2025, reste à ce jour numéro un du classement préférence humaine LMArena, avec une fenêtre de contexte d'1 million de tokens et un score de 78 % sur SWE-Bench Verified. Son atout distinctif tient à un attribut peu disputé : 2 millions de tokens de contexte sur l'offre entreprise, configuration unique sur le marché. Gemini 3.1 Pro (Preview), référencé sur les classements indépendants sans annonce officielle Google clairement datée, vient se positionner aux côtés de Claude Opus 4.7 sur GPQA Diamond — 94,3 % en co-tête — et atteint 77,1 % sur ARC-AGI-2 en mode standard.

L'offensive open-source : Llama, Mistral, DeepSeek, Qwen

La frontière entre modèles propriétaires et modèles ouverts s'est resserrée à un point qui mérite d'être nommé. Quatre familles tirent cette dynamique en 2026.

DeepSeek — Famille V4. DeepSeek V4-Pro, publié le 24 avril 2026 sous licence MIT, mobilise 49 milliards de paramètres actifs sur 1,6 trillion totaux selon une architecture Mixture-of-Experts — seule une fraction des paramètres est activée à chaque inférence, comme si le modèle mobilisait des experts spécialisés selon la question posée plutôt que l'équipe entière à chaque appel. Score SWE-Bench Verified : 80,6 %. La référence Claude Opus 4.6 du même benchmark culmine à 80,8 %. Soit deux dixièmes de point d'écart, sous une licence MIT qui autorise l'usage commercial, la modification et la redistribution sans contrepartie. La tarification API DeepSeek se fixe à 0,27 dollar par million de tokens en entrée et 1,10 dollar en sortie — un facteur de 18 en dessous de GPT-5.5.

Meta — Llama 4. Llama 4 Scout et Maverick, sortis le 5 avril 2025, inaugurent la première architecture MoE open-source nativement multimodale chez Meta. Scout pousse la fenêtre de contexte à 10 millions de tokens — record absolu sur le marché — pour 17 milliards de paramètres actifs sur 109 milliards totaux. Maverick, à 17 milliards actifs sur 400 milliards totaux, tient un contexte d'1 million et se compare, selon Meta, à DeepSeek V3 sur le raisonnement et le code. La précaution s'impose : les benchmarks publiés par Meta ont été contestés par plusieurs évaluations indépendantes, et Meta n'a pas publié de score SWE-Bench officiel pour Llama 4. Sur les indicateurs plus stables — MMLU-Pro, GPQA Diamond — Maverick atteint respectivement 80,5 et 69,8 selon Meta.

Alibaba — Famille Qwen. Deux générations cohabitent et il faut les distinguer. Qwen3, sorti fin avril 2025 sous licence Apache 2.0, comprend notamment Qwen3-235B (22 milliards actifs sur 235 milliards totaux, MoE) et atteint 77,2 % sur GPQA Diamond. Qwen3.6, publié au cours d'avril 2026, pousse la pression sur le code agentic — la déclinaison Qwen3.6-27B (Apache 2.0) obtient 77,2 % sur SWE-Bench Verified, soit un score équivalent à celui d'un Claude Opus de génération antérieure pour un modèle ouvert dix fois plus petit en paramètres totaux.

Mistral AI — Large 3. Mistral Large 3, sorti le 2 décembre 2025 sous licence Apache 2.0, articule 41 milliards de paramètres actifs sur 675 milliards totaux en MoE, avec un contexte de 256 000 tokens. Tarification API : 2 dollars en entrée, 6 en sortie par million de tokens. Le rapport performance / coût et la possibilité d'auto-hébergement en font le pilier européen actuel de l'écosystème ouvert.

0,2 point d'écart SWE-bench entre Claude Opus 4.6 et DeepSeek V4-Pro MIT — la frontière propriétaire/open-source a quasi disparu sur le code agentic.

Matrice capacités 2026 : 7 modèles (Claude/GPT/Gemini/DeepSeek/Llama/Mistral/Qwen) × 5 axes (raisonnement, code, vision, contexte long, coût) — Comparer Claude, GPT, Gemini, Llama, Mistral, Qwen et DeepSeek sur un seul axe est une caricature. Sur chaque capacité, un modèle différent est en tête : Claude pour le code, Gemini pour la vision et le contexte long, GPT-5 pour le raisonnement général, DeepSeek pour le ratio prix-performance. Le choix d'un modèle dépend de l'usage, pas d'un classement universel.

Graphique coût × performance : modèles propriétaires premium (haut-droite) vs open challengers (haut-gauche, sweet spot prix/perf) — L'arène 2026 telle que la cartographie LMSYS Arena combinée aux tarifs publics. Le coût d'une capacité marginale explose à mesure qu'on s'approche du leader (zone propriétaire premium, à droite), pendant que les modèles open atteignent 90 à 95 % de la performance des meilleurs propriétaires pour 1 à 5 % du prix. Le marché se segmente par niveau de criticité métier, pas par hiérarchie de marque.

Décoder les benchmarks : lesquels regarder en 2026

L'inflation des annonces s'accompagne d'une inflation des chiffres — souvent sur des benchmarks dont la valeur informative est devenue marginale. Trois constats structurent la lecture utile en 2026.

D'abord, MMLU et HumanEval sont saturés. La quasi-totalité des modèles frontier dépassent 88 % sur MMLU et 94 % sur HumanEval — les écarts résiduels relèvent du bruit statistique, pas de la discrimination utile. Ces deux benchmarks, longtemps étalons médiatiques, ne séparent plus les modèles haut de gamme. Ensuite, GPQA Diamond approche la saturation. Claude Opus 4.7, Gemini 3.1 Pro (Preview) et GPT-5.5 logent tous au-dessus de 93 % alors que le plafond humain expert mesuré sur ce benchmark se situe autour de 60 %.

Deux benchmarks tiennent encore le rôle d'étalon discriminant. SWE-Bench Verified — corpus de bugs réels extraits de dépôts GitHub, avec patchs validés par humains — donne le meilleur signal disponible sur la qualité du code agentic. Les écarts y sont significatifs : 87,6 % pour Claude Opus 4.7, 80,6 % pour DeepSeek V4-Pro, 78 % pour Gemini 2.5 Pro, 77,2 % pour Qwen3.6-27B. ARC-AGI-2 reste le seul benchmark où le plafond humain (60 %) n'est pas dépassé par les modèles nus. GPT-5.5 atteint 85 % en modèle seul — sans augmentation système — ce qui marque le seuil du grand prix défini par la fondation ARC Prize. Distinction importante : les méta-systèmes assemblés (par exemple Confluence Lab à 97,9 %) ne sont pas comparables au modèle isolé. Enfin, Terminal-Bench 2.0 — agents en ligne de commande — gagne en importance opérationnelle, avec GPT-5.5 à 82,7 % et Claude Opus 4.7 à 69,4 %.

Benchmark	Statut 2026	Pouvoir discriminant
MMLU	Saturé (>88 % frontier)	Nul
HumanEval	Saturé (>94 % frontier)	Nul
GPQA Diamond	Quasi-saturé	Faible
SWE-Bench Verified	Actif	Fort (code agentic)
ARC-AGI-2	Non saturé	Très fort
Terminal-Bench 2.0	Actif	Fort (agents terminal)

MMLU et HumanEval ne discriminent plus les modèles frontier en 2026. La vraie question est : SWE-Bench Verified ou ARC-AGI-2 — et pour quel cas d'usage ?

Mythe vs réalité

Le mythe : "GPT est le meilleur modèle, point final." Ou son inverse : "Les modèles chinois (DeepSeek, Qwen) sont moins fiables que les modèles américains."

La réalité : Aucune des deux affirmations ne tient en 2026 selon les classements LMSYS Arena. Sur le leaderboard général, GPT-5 et Gemini Pro sont statistiquement à égalité au sommet. Sur le coding, c'est Claude qui mène. Sur le ratio prix-performance, c'est DeepSeek. Sur le contexte long, c'est Llama 4 Scout. Le biais géopolitique "modèle US = meilleur" n'est plus défendable techniquement — il a été ébranlé en janvier 2025 quand DeepSeek R1, open source et entraîné pour une fraction du coût occidental, a rivalisé avec les meilleurs modèles propriétaires américains.

Source : LMSYS Arena leaderboards 2026 ; rapport DeepSeek R1 (janvier 2025) ; benchmarks ARC-AGI 2 et SWE-Bench 2026.

Carte radar : 5 axes pour choisir son modèle

Aucun benchmark seul ne capture le profil d'un modèle. Pour comparer des familles aux trajectoires divergentes, cinq axes suffisent : raisonnement (synthèse GPQA / AIME), code agentic (SWE-Bench Verified), coût (inverse normalisé du tarif d'entrée), contexte (taille de fenêtre log-normalisée), multimodalité (texte seul → vision → audio + vidéo natifs). Le radar ci-dessous superpose sept modèles sur ces cinq dimensions. Les valeurs sont des indices relatifs construits pour la lecture comparative — pas des pourcentages de benchmark stricts.

Sept modèles, cinq axes : raisonnement, code agentic, économie, contexte, multimodalité — aucun profil parfait n'existe, chaque modèle est un compromis.

Quatre tendances qui définissent 2026

Au-delà du palmarès des modèles, quatre dynamiques structurent l'année — et conditionnent le choix d'architecture pour les douze prochains mois.

Test-time compute : du module séparé à l'intégration native. Fin 2024, OpenAI lançait o1 comme modèle reasoning distinct, séparé de la lignée GPT-4. En 2026, ce statut autonome a disparu — le raisonnement étendu est intégré nativement dans GPT-5.5, dans Claude Opus 4.7 (avec le palier xhigh introduit entre high et max), et dans Gemini 2.5 Pro via le mode Deep Think. Mécanique : le modèle génère, en amont de sa réponse visible, des « tokens de pensée » qui constituent un budget allouable au problème. Plus de tokens consommés en interne = meilleure performance sur math olympique, code complexe, raisonnement logique multi-étapes. Limite documentée à connaître, relayée notamment par le Stanford AI Index 2026 (Microsoft Research 2025) : le test-time compute est inefficace — voire nuisible — sur les tâches knowledge-intensive, où il peut accroître le taux d'hallucinations en construisant des chaînes de raisonnement plausibles mais factuellement fausses. Pour ces cas, le RAG reste la solution adaptée.

Agents natifs : de la démo à l'infrastructure. Les protocoles standardisés de connexion d'outils se sont imposés en moins d'un an comme socle cross-industrie pour l'accès des modèles aux outils externes. Sept design patterns d'agents sont désormais stabilisés (ReAct, Reflection, Tool Use, Planning, Multi-Agent, Sequential, Human-in-the-Loop), au point que Gartner anticipe que 40 % des applications enterprise intégreront des agents IA spécialisés d'ici fin 2026. L'économie qui se dessine est celle des architectures hétérogènes en couches — un modèle frontier pour l'orchestration, un modèle mid-tier pour les tâches standard, un Small Language Model pour l'exécution haute fréquence — chacun choisi sur son profil coût / latence / capacité.

Multimodalité totale. Le passage de la multimodalité combinée (un pipeline texte + un pipeline image) à la multimodalité native (préentraînement conjoint sur texte, image, audio, vidéo) s'achève en 2026. GPT-5.5 incarne cette transition par une architecture end-to-end unique. Llama 4 a posé en avril 2025 la première architecture MoE open-source nativement multimodale. Claude Opus 4.7 pousse l'axe vision à 2 576 pixels en haute définition (~3,75 mégapixels), soit 3,3 fois la résolution des modèles précédents.

Contexte 1M+ tokens. Six modèles principaux franchissent ou dépassent désormais le seuil d'1 million de tokens — Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.5, DeepSeek V4-Pro, Gemini 2.5 Pro, Llama 4 Maverick. Llama 4 Scout monte à 10 millions, record absolu. Cette capacité ouvre l'ingestion de codebases entières, de mois de logs ou de livres complets en un seul appel. Caveat documenté : pour la majorité des modèles, la précision de récupération se dégrade au-delà de 800 000 tokens — l'exception notable étant Gemini, mesuré avec une précision préservée jusqu'à des seuils plus élevés.

Clôture de série : naviguer dans la carte

Cette série a cartographié six territoires de l'IA contemporaine — données, machine learning classique, deep learning, LLM, agents, état de l'art 2026. Ces territoires ne sont pas empilés en couches successives mais imbriqués et adjacents : le Deep Learning est une sous-famille du Machine Learning ; les LLM sont une spécialisation industrielle du Deep Learning ; les agents enveloppent un LLM dans une orchestration dont les principes (planification, perception-décision-action) précèdent l'ère neuronale. Le meilleur modèle du monde ne produit rien sans données de qualité, sans les fondements statistiques du Machine Learning, sans les architectures profondes apprises depuis 2012, sans le passage à l'échelle des Transformers, et sans la toolchain agentique qui leur permet d'agir.

Pour le lecteur qui doit choisir un modèle aujourd'hui, cinq combinaisons couvrent l'essentiel des cas pratiques en 2026 :

Code critique, raisonnement intense : Claude Opus 4.7 ou GPT-5.5
Budget contraint avec besoin de code agentic : DeepSeek V4-Pro (MIT)
Multi-langues et contexte ultra-long : Gemini 2.5 Pro
Auto-hébergement et contrôle des données : Mistral Large 3 ou Llama 4 Scout
Prototypage rapide et itération : Claude Sonnet 4.6 ou Qwen3.6-27B

La carte est complète — au lecteur d'y tracer son chemin. Un guide compagnon dédié au choix et à l'usage des modèles, La Boussole IA, est en cours de production et viendra prolonger cette série.

Une question, un projet IA ?

Vous explorez une architecture, évaluez un modèle ou planifiez un déploiement — échangeons sur votre contexte.

Prendre contact →

Pour aller plus loin

Côté pratique : Faire une revue de marché en 1h avec l'IA.

in Concepts

# Concepts

Les agents : du chat statique à l'IA qui exécute

Tool calling, protocoles d'outils, frameworks, garde-fous — le passage du chat passif à l'agent qui agit.