Veille et analyses de l'ifé

Entre recherches et pratiques

   Vous êtes ici : Accueil » Actualités des thèses » Détails de la thèse

     Langue(s) : français 

Apprentissage et exploitation de représentations sémantiques pour la classification multi-label hiérarchique et la recherche d'objets de formation dans le domaine de l'éducation et de la formation professionnelle


Auteur(s) :  LEFEBVRE Guillaume

Date de soutenance :  2024

Thèse délivrée par :  Université Claude Bernard-Lyon 1

Section(s) CNU :  section 27 : Informatique

Sous la direction de :  Alexandre AUSSEM & Haytham ELGHAZEL

Jury de thèse :  Alexandre Aussem ; Haytham Elghazel ; Malika Smaïl-Tabbone ; Engelbert Mephu-Nguifo ; Hanene Azzag ; Farah Benamara

 

"Inokufu est née de la rencontre de deux expertises portées par les cofondateurs : l'andragogie et les data sciences. L’idée est de combiner le traitement algorithmique des données éducatives avec un système d’audits humains, pédagogique et métier. Malgré le surcoût significatif que cela représente, les données éducatives ainsi traitées sont de meilleure qualité et peuvent être utilisées pour développer des algorithmes de catégorisation et de recommandation, spécifiques au domaine de l’éducation et de la formation professionnelle. L'objectif principal de ce projet de thèse est d'explorer, d'adapter et de développer des méthodes avancées pour la classification multi-label hiérarchique et la recherche d'objets de formation (Learning Objects), tout en répondant aux spécificités du domaine éducatif. En particulier, cette thèse se concentre sur l'apprentissage de représentations sémantiques adaptées à ces tâches, en s'appuyant sur des méthodes de Traitement Automatique des Langues adaptés aux nuances linguistiques et sémantiques propres au domaine. Étant donné la nature complexe de ces données, les besoins exprimés par Inokufu couvrent donc les aspects suivants :1. Capacité de traiter des terminologies spécialisées : les textes issus du domaine de l'éducation et de la formation professionnelle utilisent des termes spécifiques souvent absents des corpus généraux. Il est essentiel de disposer d'un modèle capable de comprendre et d'exploiter ces terminologies spécialisées, garantissant ainsi que les contenus soient correctement représentés et recherchés. Cela améliore la précision des correspondances entre l'offre de formation et les besoins exprimés par les utilisateurs.2. Classification hiérarchique et structurée des contenus : les données éducatives et professionnelles se caractérisent par des hiérarchies complexes (compétences, certifications, parcours de formation). Afin de pouvoir naviguer efficacement dans ces structures et aider les utilisateurs à trouver les ressources adéquates, il est crucial d'avoir une classification qui respecte et reflète ces hiérarchies. La solution doit permettre de classifier les contenus de manière à préserver les relations entre niveaux (par exemple, des catégories générales et leurs sous-thèmes).3. Efficacité de la recherche sémantique : pour améliorer l'expérience des utilisateurs, la recherche d'objets de formation doit aller au-delà de la simple recherche par mots-clés. Il est indispensable d'implémenter une recherche sémantique qui soit capable de comprendre les intentions des utilisateurs, même lorsque ceux-ci utilisent des termes approximatifs ou des expressions variées pour décrire leurs besoins.Pour répondre à ces besoins, deux contributions majeures ont été développées dans cette thèse :1. BERTEPro : un nouveau cadre de représentation sémantique adapté aux textes du domaine de l'éducation et de la formation professionnelle. En combinant une phase de pré-entraînement spécifique sur des corpus du domaine avec un affinage sur des tâches générales, BERTEPro permet de mieux saisir les subtilités sémantiques et de produire des représentations précises et pertinentes, améliorant ainsi la capacité à classifier et à rechercher des contenus pédagogiques.2. HMCCCProbT : un cadre de classification hiérarchique multi-étiquette, capable de modéliser les dépendances locales et globales au sein des structures hiérarchiques de manière efficace. En utilisant un mécanisme de transmission probabiliste, HMCCCProbT permet une précision accrue tout en évitant les erreurs liées à la propagation de décisions erronées à chaque niveau de la hiérarchie.Ces deux approches complémentaires ont été validées par des expériences sur des ensembles de données réelles issues du domaine de l'éducation et de la formation professionnelle. Elles ont démontré leur capacité à améliorer la qualité de la classification et de la recherche d'objets de formation dans un contexte éducatif."

Learning and exploiting semantic representations for hierarchical multi-label classification and learning object retrieval in the field of education and professional training

"Inokufu was born from the convergence of two areas of expertise that were shared by the co-founders: andragogy and data sciences. The objective of the company is to combine extensive algorithmic analysis of educational data with a system of human, pedagogical, and business audits. In this manner, the educational data processed is of superior quality and can be utilized to develop Machine Learning and recommendation algorithms tailored to the domain of education and professional training.The principal objective of this thesis project is to investigate, adapt, and develop sophisticated techniques for Hierarchical Multi-label Classification and Learning Objects retrieval, while addressing the specific characteristics of the educational and professional training domain. In particular, this thesis concentrates on learning semantic representations suitable for these tasks, based on Natural Language Processing methods adapted to the linguistic and semantic nuances specific to the domain of education and professional training.Given the complex nature of this data, the requirements articulated by Inokufu encompass the following aspects:1. The capacity to process specialized terminology: texts from the domain of education and professional training employ specific terms that are frequently absent from general corpora. It is essential to obtain a model capable of understanding and exploiting these specialized terminologies, thereby ensuring that content is correctly represented and searchable. This enhances the precision of alignments between training offerings and user-expressed requirements.2. Hierarchical classification of educational and professional data: educational contents are often characterized by complex hierarchies (skills, certifications, and training paths). In order to navigate these structures in an efficient manner and assist users in locating the appropriate resources, it is essential to have a classification system that respects and reflects these hierarchies. The solution must enable content to be classified in a manner that preserves the relationships between different hierarchical levels, such as between general categories and their sub-themes.3. Effectiveness of semantic search: To enhance the user experience, it is essential to implement a semantic search that is capable of understanding the intentions of the users, even when they use approximate terms or varied expressions to describe their needs.In order to address these requirements, this thesis presents two significant contributions:1. BERTEPro: a novel semantic representation framework tailored to texts within the domain of education and professional training. By combining a specific pre-training phase on domain-specific corpora with fine-tuning on general tasks, BERTEPro facilitates a more nuanced comprehension of semantic nuances and the generation of precise and relevant representations, thereby enhancing the capacity to classify and search for educational content.2. HMCCCProbT: a Hierarchical Multi-label Classification framework that is capable of modeling both local and global dependencies within hierarchical structures in an efficient manner. By employing a probabilistic transmission mechanism, HMCCCProbT facilitates enhanced accuracy while limiting errors associated with the propagation of erroneous decisions at each level of the hierarchy.These two complementary approaches have been validated by experiments on real-world datasets from the domain of education and professional training. They have demonstrated their capacity to enhance the quality of classifications and the search for Learning Object in an educational context."



URL :  https://theses.hal.science/tel-05026565


mot(s) clé(s) :  orientation professionnelle, orientation scolaire