Porfolio artistique
Projets
Surveillance de l'entrefer dans des turbines hydro-électriques compactes
traitement du signal, visualisation
2023-*
Déplié 3D de la valeur d'entrefer dans une turbine hydroélectrique.
La solution proposée dans ce projet permet de traiter automatiquement les données des capteurs d'entrefer dans le cas d'une déformation du stator avec une excentricité dynamique du rotor. L'objectif est de fournir des données qualitatives et interprétables en un temps raisonnable. En particulier, la qualité des résultats doit être facilement évaluée par les experts du domaine, sans avoir besoin de connaissances préalables sur les techniques employées. Notre proposition permet également de réduire la taille des données et donc de faciliter leur stockage. Nous utilisons une combinaison de techniques de science des données issues du traitement du signal, de la géométrie et de la visualisation.
Analyse automatique de mise en page PDF et système RAG
analyse d'image, traitement automatique du langage naturel
2024-*
Exemple de pdf analysé par l'outil développé dans ce projet.
Dans un second temps, nous avons développé un système de RAG (retrieval-augmented generation) pour permettre l'interrogation de très grands documents. Ce système regroupe plusieurs outils de traitement automatique du langage naturel, basés sur les avancées les plus récentes de la littérature.
Détection automatique des phases d’éveil/sommeil en pédiatrie à partir d’enregistrements audio
traitement du signal, classification
2024 (3 mois)
Visualisation du spectrograme de MEL d'un enregistrement de sommeil avec labels médicaux sur le dessous.
La cohorte étudiée est constituée de 1388 enfants âgés de 1 an et demi à 17 ans, dont 62 % de garçons, avec un IMC moyen de 19,82. Les antécédents médicaux des participants sont variés. Les annotations éveil / sommeil proviennent d’une double lecture par des praticiens certifiés du sommeil. Après expérimentation, le modèle de machine learning retenu est XGBoost, reconnu pour sa robustesse et l'explicabilité de ses résultats. Pour l’entraînement, un échantillon aléatoire de 500 individus, représentant 8150 heures d’audio, a été utilisé. Le son a été découpé en époques standards et un ensemble d’attributs temporels et fréquentiels a été extrait.
Une fois le modèle entraîné dans les conditions décrites, il a été testé sur un autre échantillon aléatoire de 500 individus, atteignant une accuracy de 92.1%. Cette performance est au moins équivalente à celle rapportée dans la littérature sur les cohortes adultes plus petites et moins variées.
La détection automatique des phases d’éveil et de sommeil à partir d’enregistrements audio chez les enfants semble prometteuse. Nos résultats ouvrent la voie à une réduction significative des délais d’examen, facilitant la prise en charge des enfants atteints de SAS.
Analyse automatique de pièces d'usinage 3D
analyse d'image, classification, clustering
2024 (2 mois)
Visualisation TSNE des pièces 3D dans l'espace des embeddings. Les couleurs représentent les classes des pièces.
Dans un second temps, nous avons utilisé un jeu de données labellisé pour proposer un système de classification automatique des pièces (vis, boulons, écrous...).
Recherche avancée de profils scientifiques
traitement automatique du langage naturel, scrapping
2024 (3 mois)
Exemple de résultat d'une requête à l'outil développé dans ce projet.
L'outil final permet d'effectuer des recherches à l'aide de requêtes en langage naturel. Il repose sur une agrégation d'embeddings multilingues par auteur et une recherche des plus proches voisins approximée. Ce système permet également d'évaluer la pertinence des publications individuelles et d'assister la lecture des articles en surlignant les sections les plus pertinentes par rapport à la requête. Enfin, un processus de mise à jour a été intégré pour la base de données, permettant d'ajouter de nouveaux articles et de maintenir l'indexation de recherche à jour de manière efficace.
Recherche
Connaissances du Domaine et Fonctions en Science des Données
Application à la Production d'Hydroélectricité
2020-23
Vasile-Marian Scuturici
Jean-Marc Petit
Amer-Yahia Sihem
Themis Palpanas
Marius Bozga
Frédérique Laforest
Pierre Senellart
Pierre Roumieu
Scatter plot du graphe de contre-exemples d'un jeu de données issu d'une centrale hydro-électrique.
Premièrement, nous examinons la complexité du calcul du g3. Il est connu que g3 peut être calculé en temps polynomial lorsqu'on utilise l'égalité, alors qu'il devient NP-difficile lorsqu'on utilise des prédicats généraux. Nous proposons d'affiner cette dichotomie en étudiant l'impact des propriétés communes suivantes : réflexivité, transitivité, symétrie et antisymétrie. Nous montrons que la symétrie et la transitivité sont suffisantes pour garantir que l'erreur g3 puisse être calculée en temps polynomial. Cependant, la suppression de l'une d'entre elles rend le problème difficile.
Deuxièmement, nous étudions le calcul de g3 dans les cas polynomial et NP-difficile identifiés dans la première partie. Nous proposons différentes solutions exactes et approximées pour le calcul de g3 dans les deux cas. Nous comparons ces solutions dans une étude expérimentale détaillée des performances temporelles et d'approximation. Tous les algorithmes sont également disponibles via fastg3, une librairie Python open-source implémentée en C++.
Troisièmement, nous connectons l'étude des contre-exemples et l'indicateur g3 à l'apprentissage supervisé à l'aide d'une application web appelée ADESIT. ADESIT est destinée à faire partie d'un processus itératif de raffinement des données juste après la sélection des données et juste avant le processus d'apprentissage lui-même. Elle permet d'évaluer la capacité d'un ensemble de données à donner de bons résultats pour un problème d'apprentissage supervisé par le biais de statistiques et d'une exploration visuelle.
Enfin, nous validons notre approche par une application au problème industriel de la surveillance de l'entrefer dans les générateurs hydrauliques compacts et développons une solution pour le traitement automatique des données enregistrées.
Apprentissage Profond pour la Détection et l'Identification Automatique de Diatomées
pour le Diagnostic Écologique des Milieux d'Eau Douce
2020 (6 mois)
Cédric Pradalier
Ghassan AlRegib
Joseph Montoya
Exemple d'image de microscope synthétique générée dans cette étude.
Afin de réduire le nombre d'images annotées manuellement nécessaires à l'entraînement, nous utilisons un ensemble de données synthétiques en parallèle avec un ensemble de données réelles, ce qui permet de gagner plus de 10 % de précision et 5 % de rappel. Cet ensemble de données synthétiques représente un gain de temps significatif, d'autant plus qu'il est constitué d'images disponibles publiquement fournies par des atlas de diatomées, évitant ainsi la tâche laborieuse d'acquisition d'images microscopiques. La détection des diatomées peut être utilisée pour de nombreuses tâches, notamment pour la classification ultérieure des vignettes extraites, soit manuellement, soit par apprentissage automatique. Pour illustrer cette utilisation, nous proposerons également une mise à jour sur la classification automatique des diatomées en utilisant les dernières avancées en matière de classification d'images. Enfin, nous discuterons également des applications de la taxonomie artificielle dans le cas de la classification hiérarchique des diatomées.
Publications, séminaires...
/// Publications
Manuscrit de thèse
Domain Knowledge and Functions in Data Science, Application to Hydroelectricity Production
| Manuscrit de thèse
Papier long
Functional dependencies with predicates: what makes the g3-error easy to compute?
| Papier long
Résumé étendu
Automatic Processing of Air Gap Monitoring Signals in Hydro-Generators
| Résumé étendu
Article de journal
Usefulness of synthetic datasets for diatom automatic detection using a deep-learning approach
| Article de journal
Papier long
Assessing the Existence of a Function in your Dataset with the g3 Indicator
| Papier long
Papier de démonstration
ADESIT: Visualize the Limits of your Data in a Machine Learning Process
| Papier de démonstration
Thèse de master
Deep-Learning for Automated Diatom Detection and Identification for the Ecological Diagnosis of Fresh-water Environments
| Thèse de master
/// Séminaires
Automatic air gap monitoring in compact hydro-generators
Global industrie (Lyon, France) • présentation orale • 2023
Assessing the existence of a function in a dataset: complexity, algorithmics and visualization
Graph and Databases Workshop [ANR GrR] (Lyon, France) • présentation orale • 2023
MaDICS Défis théoriques pour les sciences du climat (Paris, France) • poster • 2022
MaDICS Symposium [4e étition] (Lyon, France) • poster • 2022
MaDICS BigData4Astro (Lyon, France) • présentation orale • 2021
Usefulness of synthetic datasets for diatom automatic detection using a deep-learning approach
5ème colloque biennal des Zones Ateliers-CNRS (en ligne) • poster • 2020