Ifé - Veille et analyses

Vous êtes ici : Accueil » Actualités des thèses » Détails de la thèse

Pays : France Langue(s) : français

Apprentissage incrémental pour la construction de bases lexicales évolutives : application en désambiguïsation d'entités nommées

Auteur(s) : GIRAULT Thomas

Date de soutenance : 2010

Thèse délivrée par : Université Rennes 1

Section(s) CNU : section 27 : Informatique

Sous la direction de : Pascale SEBILLOT

« Certaines applications du traitement automatique des langues sont amenées à traiter des flux de données textuelles caractérisés par l'emploi d'un vocabulaire en perpétuelle évolution, que ce soit au niveau de la création des mots que des sens de ceux existant déjà. En partant de ce constat, nous avons mis au point un algorithme incrémental pour construire automatiquement et faire évoluer une base lexicale qui répertorie des unités lexicales non étiquetées sémantiquement observées dans des flux. Cette base lexicale est représentée par un treillis de Galois qui organise des concepts formels (assimilés à des unités de sens) sur des niveaux de granularité allant du très spécifique au très général. Cette représentation est complétée par une modélisation vectorielle visualisable qui tient compte des aspects continus du sens et de la proximité sémantique entre concepts. Ce modèle est alors exploité pour propager l'étiquetage manuel d'un petit nombre d'entités nommées (EN : unités lexicales qui se référent habituellement à des personnes, des lieux, des organisations...) à d'autres EN non étiquetées observées dans un flux pendant la construction incrémentale du treillis. Les concepts de ce treillis sont enrichis avec les étiquettes d'EN observées dans un corpus d'apprentissage. Ces concepts et leurs étiquettes attachées sont respectivement employés pour l'annotation non supervisée et la classification supervisée des EN d'un corpus de test. »

Abstract
Incremental machine learning for the construction of evolving lexical databases : application to named entity disambiguation
« Some natural language processing applications have to deal with textual data streams characterized by the use of an evolving vocabulary, whether at the creation of words as at the change in the meaning of already existing words. In light of those observations, we have developed an incremental algorithm which can build automatically an evolving lexical database for identifying lexical units observed in a textual data stream. We used a concept lattice to build the lexical database from semantically unlabelled corpus. It allows us to infer formal concepts (similar to meaning units) organized into several granularity levels ranging from very specific to very general. This structured representation is completed with a cartographic model taking into account the continuous aspects of meaning and semantic proximity between concepts. This property is exploited to propagate the classification of a small number of named entities (NEs : lexical units which usually refer to people, places, organizations...) to others NEs observed in unlabelled data streams during the incremental construction of the lattice. Once the lexical database is built, the concepts are enriched with NEs labels observed in a training corpus. The concepts and their attached labels are then respectively used for unsupervised annotation and supervised classification of NEs in test corpus. »

mot(s) clé(s) : langues vivantes

Veille et analyses de l'ifé

Entre recherches et pratiques

Apprentissage incrémental pour la construction de bases lexicales évolutives : application en désambiguïsation d'entités nommées

Publications récentes

Derniers billets

Autres sites V&A