Skip to Content

Nettoyer un fichier de données en désordre avec l'IA

4 juillet 2026 by
Nettoyer un fichier de données en désordre avec l'IA
AISkillsPro

Un export client de 12 000 lignes : des dates au format américain mélangées au format français, des doublons, des « PARIS » et des « paris », des cases vides. Avant d'en tirer la moindre analyse, il faut le nettoyer — la corvée que personne ne réclame. L'IA dotée d'un interpréteur de code abat ce travail en minutes : elle écrit et exécute le code de nettoyage sur votre fichier, puis vous rend le résultat et le script. À une condition : ne jamais la laisser deviner vos données.

Pourquoi le nettoyage mange votre temps

« Garbage in, garbage out » : une analyse vaut ce que valent ses données. D'où l'effort. Les enquêtes de référence divergent sur le chiffre exact — de l'ordre de 45 % du temps consacré à la préparation des données selon une étude de 2020, jusqu'à 60 % pour le seul nettoyage selon une enquête de 2016. Le fameux « 80 % du temps » souvent cité n'a jamais reposé sur une mesure solide. Peu importe le chiffre : préparer les données reste l'étape la plus lourde et la moins aimée du travail sur la donnée. C'est exactement là que l'IA fait gagner du temps.

Ce que l'IA sait faire sur un fichier sale

Les assistants dotés d'un interpréteur de code ne se contentent pas de « lire » votre fichier : ils exécutent du code Python dans un bac à sable, sur les données que vous déposez (Fig. 1).

Schéma avant-après : à gauche un fichier sale (dates en formats mélangés, doublons, casse incohérente, cellules vides) ; au centre l'IA écrit et exécute du code de nettoyage ; à droite deux sorties, le fichier nettoyé et le script Python qui a produit la transformation
Fig. 1 — L'IA ne devine pas le fichier propre : elle écrit le code qui le produit, et vous rend les deux.

Concrètement, l'analyse de données de ChatGPT et l'exécution de code de Claude savent dédupliquer, uniformiser les dates et la casse, corriger les types, repérer les valeurs aberrantes — puis vous proposer le fichier nettoyé en téléchargement avec le code utilisé. Côté tableurs, Gemini s'intègre dans Google Sheets pour des opérations assistées. Gardez en tête les limites de taille de fichier : de l'ordre de quelques dizaines de méga-octets pour un tableur sur les offres grand public — au-delà, il faut découper ou passer par un outil dédié.

📖 Interpréteur de code, en clair

C'est un environnement isolé où l'assistant écrit du code Python et l'exécute réellement sur votre fichier — au lieu de « raisonner » sur son contenu de tête. La différence est capitale : une déduplication ou un reformatage de dates devient une opération déterministe, reproductible, et non une réécriture approximative cellule par cellule.

La règle d'or : faire calculer, pas deviner

Voici le piège central. Un modèle de langage produit du texte plausible, pas forcément vrai : laissé à lui-même, il peut « combler » une cellule vide avec une valeur inventée mais crédible, ou réécrire des lignes en silence. Le risque culmine sur les valeurs manquantes : demander à l'IA de « deviner » l'e-mail ou la ville absents, c'est fabriquer de la donnée (Fig. 2).

Comparaison de deux approches du nettoyage : à gauche deviner, le modèle réécrit les cellules de tête et invente des valeurs manquantes, ce qui fabrique des données ; à droite calculer, un code Python déterministe applique des règles explicites, le script devient le livrable auditable
Fig. 2 — Deviner fabrique de la donnée ; calculer la transforme selon une règle explicite.

La parade : exiger que chaque correction passe par du code, avec une règle explicite. Une valeur manquante ne se « devine » pas — on décide d'une stratégie (laisser vide, marquer « inconnu », exclure la ligne) et on l'applique par programme. Formulez vos demandes en ce sens : « écris et exécute un script qui déduplique sur la colonne e-mail, normalise les dates en AAAA-MM-JJ, et liste les lignes au format invalide » — pas « nettoie ce fichier ».

Gardez le script, validez le résultat

Le vrai livrable n'est pas le fichier propre : c'est le script qui l'a produit. Récupérez-le systématiquement. Sans lui, votre nettoyage est une boîte noire impossible à rejouer le mois prochain sur le nouvel export ; avec lui, il devient reproductible et auditable.

⚠️ Comptez les lignes avant de faire confiance

Un modèle peut supprimer des lignes sans le dire. Validez toujours : nombre de lignes avant / après (une chute inexpliquée = alerte), vérification d'un échantillon à la main, contrôle des totaux de colonnes, et comparaison avec l'original que vous avez pris soin de conserver. Sur un gros fichier, méfiez-vous aussi de l'inspection « visuelle » : demandez que les contrôles soient calculés sur tout le fichier, pas sur un aperçu.

Avant d'uploader : le réflexe RGPD

Un fichier client à nettoyer contient presque toujours des données personnelles (noms, e-mails, téléphones). Le déposer dans un outil IA est un traitement : vous restez responsable de traitement, l'outil agit comme sous-traitant. Trois réflexes avant l'envoi :

  • Minimiser : ne chargez que les colonnes utiles au nettoyage, pas tout le fichier par défaut.
  • Pseudonymiser : retirez ou masquez les identifiants directs quand le nettoyage ne porte pas sur eux.
  • Choisir la bonne offre : les offres professionnelles / entreprise n'utilisent en principe pas vos données pour entraîner les modèles ; les versions grand public le peuvent, sauf désactivation. Vérifiez le réglage et encadrez le fournisseur par un contrat adapté.

La méthode, en cinq étapes

Méthode en cinq étapes : copier l'original en lecture seule, diagnostiquer le fichier par le code, nettoyer en faisant écrire et exécuter le script, valider en comparant le nombre de lignes et un échantillon, puis documenter les décisions de nettoyage pour pouvoir les rejouer
Fig. 3 — Cinq étapes, deux livrables : le fichier propre et le script qui le reproduit.
  1. Copiez l'original et gardez-le en lecture seule. On ne nettoie jamais sur l'unique exemplaire.
  2. Diagnostiquez par le code : nombre de lignes, cellules vides par colonne, doublons, formats — calculés, pas estimés à l'œil.
  3. Nettoyez en faisant écrire et exécuter le code, avec des règles explicites. Récupérez le fichier et le script.
  4. Validez : lignes avant/après, échantillon vérifié, totaux contrôlés, comparaison à l'original.
  5. Documentez vos décisions (déduplication, valeurs manquantes, anomalies) pour pouvoir les rejouer.

Pour les fichiers volumineux ou les nettoyages récurrents, des outils dédiés complètent l'IA : OpenRefine (open source), Power Query dans Excel ou la fonction « Nettoyer les données » de Google Sheets — non destructifs et répétables par nature. L'IA brille pour aller vite et générer le script ; ces outils, pour industrialiser.

🎯 À retenir
  • Le nettoyage est l'étape la plus lourde du travail sur la donnée (de l'ordre de 45 à 60 % du temps) — l'IA y fait gagner le plus.
  • Interpréteur de code : ChatGPT (analyse de données) et Claude (exécution de code) écrivent et exécutent du Python sur votre fichier, et rendent le résultat plus le script.
  • Faire calculer, pas deviner : chaque correction passe par du code et une règle explicite ; ne laissez jamais le modèle inventer une valeur manquante.
  • Gardez le script, validez : comptez les lignes avant/après, vérifiez un échantillon, conservez l'original.
  • Réflexe RGPD : minimisez, pseudonymisez, et préférez une offre pro qui n'entraîne pas sur vos données.
📖 Pour prolonger côté data

Une fois le fichier propre : l'interroger en langage naturel. Sur ce que vous avez le droit d'y confier : RGPD, ce qu'on met (ou pas) dans une IA. Et pour replacer vos données dans leur marché : une revue de marché en une heure.

Cette analyse fait partie de notre veille Outils & IA. Pour aller plus loin sur l'analyse de données assistée par IA, téléchargez l'Atlas IA 2026 et abonnez-vous à la newsletter AISKILLSPRO.

💼 Vous travaillez avec Odoo ?

Au-delà de l'IA, retrouvez nos guides, tutoriels et modules Odoo sur OdooSkills, le blog Odoo ↗ (nouvel onglet).

Décliner un contenu en dix formats avec l'IA