Newsroom

La détection d’anomalies : un domaine en exploration

Si la collecte, le stockage et l’analyse sont les premiers traitements appliqués aux données massives qui viennent à l’esprit, ils ne sont pas les seuls. La détection des anomalies (valeurs aberrantes, valeurs rarement rencontrées, fraudes, défauts de qualité) est une fonction qui intéresse de nombreux secteurs comme l’industrie, la médecine, la finance, les assurances, les transports, les réseaux de communication et d’énergie, les bâtiments et ouvrages d’art, les chaînes de production, et bien sûr la défense et la recherche. Savoir observer et reconnaître ces données permet d’effectuer de la maintenance prédictive, de réagir le plus tôt possible, de prévenir des risques ou de préparer des équipements robustes.

C’est là un des axes de la chaire Data Science and Artificial Intelligence for Digitalized Industry and Services créée fin 2018 à Télécom Paris. Certains de ses chercheurs sont spécialistes de cette question critique des anomalies, un domaine de recherche très sollicité depuis quelques années. Il s’agit de problèmes assez difficiles, pour lesquels les données nominales sont majoritairement présentes tandis que les données anormales sont rarement étiquetées comme telles, les anomalies dépendant qui plus est du contexte. Et s’il existe des jeux de données publics bien connus pour élaborer des solutions et faire avancer la théorie, il reste encore beaucoup à inventer.

Le cas des données fonctionnelles

Dans certains cas les données sont collectées à travers le temps, décrivant le comportement d’un composant lors de son utilisation ou le parcours d’un produit lors de sa fabrication. Détecter les anomalies dans ce type de données suscite un intérêt évident pour la maintenance (préventive ou opérationnelle) dans les projets industriels menés avec les partenaires de la chaire comme Airbus ou Valeo. Pavlo Mozharovskyi, maître de conférences au sein de l’équipe S²A, est ainsi investi avec son doctorant Guillaume Staerman dans un projet « qui nécessite de collecter des données à chaque étape possible, pour identifier les anomalies ». Des capteurs de données le font à haute-fréquence et en temps réel, « littéralement des millions de données, pour tenir compte de l’historique, car elles évoluent avec le temps. »

L’enjeu pour ces données, appelées données fonctionnelles, est de mener sur elles un apprentissage statistique. Le domaine de recherche est assez actif, mais avec encore peu de jeux de données satisfaisants. La détection des anomalies ayant été beaucoup plus, et bien mieux étudiée dans le cas des données multivariées, une première idée a été historiquement de transformer des données fonctionnelles en données multivariées, via une certaine projection mathématique. « Hélas, cela ne fonctionne pas très bien, car on perd de l’information en raison du nombre trop important de modèles et de paramètres à choisir », explique le chercheur, qui mène ces travaux avec les professeurs Florence d’Alché-Buc et Stephan Clémençon.

Pavlo Mozharovskyi s’intéresse depuis 10 ans aux statistiques robustes, y compris la détection d’anomalies, et aux données fonctionnelles depuis la fin de sa thèse. Arrivé début septembre 2018 à Télécom Paris, il a renforcé cette composante de la chaire. Celle-ci développe une approche plus récente consistant à traiter ces données fonctionnelles dans leur propre espace fonctionnel, et à leur appliquer des méthodes nouvelles, avec des avantages qui s’avèrent nombreux (dans les cas favorables : meilleur taux de détection, meilleure sensibilité à l’anormalité, temps d’exécution réduit). Ce faisant, elle rejoint les autres équipes dans le monde qui s’attachent à explorer cette voie. Le chercheur et son doctorant ont ainsi récemment étendu l’approche isolation forest aux données fonctionnelles [1], et également proposé une approche fondée sur la profondeur de données [2] (data depth ; rangement des observations par leur probabilité d’arrivée).

L’observation des valeurs extrêmes

Une question se pose toujours : qu’est-ce qu’une anomalie, au fond ? Pour caractériser des données comme aberrantes, on pourrait se reposer sur de l’apprentissage supervisé. Malheureusement, ces données étant rares, par définition, les classes d’apprentissage sont très déséquilibrées. « Sur quelques millions d’observations, il peut y avoir seulement quelques dizaines d’anomalies », non étiquetées en tant que telles. Il manque quelque chose pour relever ce caractère « anormal », « et c’est là que l’observation dans les régions avec petite probabilité de données est utile. » C’est un axe de recherche pour Anne Sabourin, maître de conférences à Télécom Paris dans l’équipe S²A et membre de la chaire, spécialiste de modèles pour des valeurs extrêmes [3]. Il s’agit dans un premier temps de dire à quel point une observation est exceptionnelle. Puis, placer des lois de probabilités sur ces données qui sortent de l’ordinaire et faire des hypothèses, c’est-à-dire « créer des modèles pour décrire des observations dans les endroits extrêmes de l’espace de données. »

Produire du logiciel pour implémenter

Ces deux chercheurs qui collaborent sur des projets industriels ne proposent pas seulement de nouvelles méthodes ou des avancées dans la théorie. Utilisant des outils logiciels pour leurs propres recherches, ils les emploient pour rendre accessibles leurs travaux. Que ce soit grâce à de nouveaux paquetages R, pour Anne Sabourin et Pavlo Mozharovskyi, ou en programmation Python, un des langages largement utilisés dans la chaire, ils ont à cœur de rendre l’implémentation de leurs travaux aisément réalisable. Parmi les objectifs se trouve la création d’un framework unifié pour travailler sur la profondeur des données (data depth ; rangement des observations par leur probabilité d’arrivée), que les données soient multivariées ou fonctionnelles, avec des méthodes marchant dans les deux cas. Voire même pour des cas plus complexes, comme celui des courbes en espace multivarié, relaté dans [4].

_____________________________________________________________________

Par Aymeric Poulain Maubant, Nereÿs

_____________________________________________________________________

 

[1] Staerman, G., Mozharovskyi, P., Clémençon, S., and d’Alché-Buc, F. (2019): Functional isolation forest. In: Proceedings of Machine Learning Research (ACML 2019), 101, 332-347. https://arxiv.org/abs/1904.04573

[2] Staerman, G., Mozharovskyi, P., and Clémençon, S. (2020): The area of the convex hull of sampled curves: a robust functional statistical depth measure. In: Proceedings of Machine Learning Research (AISTATS 2020), 108, 570-579. https://arxiv.org/abs/1910.04085

[3] Chiapino, M., Clémençon, S., Feuillard, V., and Sabourin, A. (2020). A multivariate extreme value theory approach to anomaly clustering and visualization. Computational Statistics, 35, 607-628. https://arxiv.org/abs/1907.07523

[4] Lafaye De Micheaux, P., Mozharovskyi, P., and Vimond, M. (2020): Depth for curve data and applications. Journal of the American Statistical Association, in press. https://arxiv.org/abs/1901.00180