Les auteurs proposent une nouvelle méthodologie basée sur les fonctions d'influence, une technique permettant d'estimer dans quelle mesure la perte d’un modèle est affectée par la suppression d’un échantillon d’entraînement donné. Contrairement aux méthodes classiques d’identification d’anomalies, leur approche est explainable-by-design : elle fournit des signaux directement liés au comportement du modèle entraîné.
Trois nouveaux signaux basés sur l’influence sont introduits pour :
- détecter les glitches,
- les caractériser,
- proposer des corrections.
Les auteurs démontrent, à travers des expériences sur des données tabulaires et des images, que leur approche surpasse les signaux d’influence existants (jusqu’à un facteur 6 dans certains cas) et est compétitive par rapport aux détecteurs spécialisés (comme ceux dédiés à la détection d’anomalies ou d’étiquettes erronées). De plus, les signaux proposés permettent de suggérer des corrections d’étiquettes précises pour les échantillons mal étiquetés.
L’article ouvre ainsi la voie à une nouvelle méthode de debugging de données explicable adaptée aux contextes multi-modaux, en rendant les processus de détection et de correction plus transparents et intégrés à l’entraînement des modèles.