Détection des erreurs de données à l’aide d’explications de modèle basées sur l’influence
L’article s’attaque au problème de la détection de données erronées (ou data glitches) dans les ensembles d'entraînement de modèles d’apprentissage automatique, notamment les exemples mal étiquetés et les anomalies. Ces erreurs de données peuvent compromettre la qualité du modèle, entraînant des performances réduites, des biais, voire des comportements dangereux.

Les auteurs proposent une nouvelle méthodologie basée sur les fonctions d'influence, une technique permettant d'estimer dans quelle mesure la perte d’un modèle est affectée par la suppression d’un échantillon d’entraînement donné. Contrairement aux méthodes classiques d’identification d’anomalies, leur approche est explainable-by-design : elle fournit des signaux directement liés au comportement du modèle entraîné.

Trois nouveaux signaux basés sur l’influence sont introduits pour : Ces signaux permettent de détecter des erreurs de manière plus cohérente avec la frontière de décision du modèle, contrairement à d'autres méthodes qui traitent les données indépendamment du modèle.

Les auteurs démontrent, à travers des expériences sur des données tabulaires et des images, que leur approche surpasse les signaux d’influence existants (jusqu’à un facteur 6 dans certains cas) et est compétitive par rapport aux détecteurs spécialisés (comme ceux dédiés à la détection d’anomalies ou d’étiquettes erronées). De plus, les signaux proposés permettent de suggérer des corrections d’étiquettes précises pour les échantillons mal étiquetés.

L’article ouvre ainsi la voie à une nouvelle méthode de debugging de données explicable adaptée aux contextes multi-modaux, en rendant les processus de détection et de correction plus transparents et intégrés à l’entraînement des modèles.
Accéder à l'article