Offre de stage : Reconnaissance et désambiguïsation des entités

Reconnaissance et désambiguïsation des entités
Stage proposé par le laboratoire ERTIM (INALCO)

Contexte

Les entités nommées sont des éléments linguistiques utilisés par de nombreuses applications en TAL, telles quelles (indexation de documents, recherche et extraction d'information, etc.) ou comme éléments exploités pour de nombreuses autres tâches. Leur détection et leur catégorisation sont aujourd'hui assez bien maîtrisées.

Ces dernières années, de nombreux travaux de recherche ont porté sur la désambiguïsation (ou liaison, résolution) d'entités. Il s'agit alors de déterminer à quel référent d'une base de connaissances une expression linguistique fait mention (ou NIL si le référent n'existe pas). Cela concerne une plus large gamme d'expressions linguistiques que les "entités nommées".

Dans le cadre du projet TALAD (https://web.u-cergy.fr/anr-talad/) nous exploitons les entités pour l'étude des "nominations" (diversité d'expressions linguistiques qui réfèrent à une même entité). La détection, reconnaissance et désambiguïsation des entités est une brique importante dans ce projet, en interaction avec la coréférence. L'objectif du projet est de déterminer quelles entités sont mentionnées dans un texte, par quelles expressions linguistiques, et dans quels contextes.

Par ailleurs, le traitement des entités nécessite de s'appuyer sur un corpus à large couverture, contenant de nombreuses mentions. À cet effet, les travaux initialisés récemment par l'entreprise Emvista exploitent les liens contenus dans les résumés d'articles Wikipedia afin de constituer un corpus volumineux, en français, contenant des annotations collectées automatiquement, qui peuvent être utilisées pour la détection, la reconnaissance et la désambiguisation des entités.

Sujet de stage

En premier lieu, il s'agira d'exploiter le corpus fourni dans le cadre du projet TALAD (transcription d'interviews matinales), en interaction avec des collègues linguistes de l'équipe PraxiLing, afin d'y caractériser les entités d'intérêt (entités nommées, entités collectives, nominations et dénominations) et de déterminer les méthodes adéquates pour les repérer automatiquement.

Pour ce qui concerne les ressources extraites depuis Wikipedia, on cherchera à évaluer la qualité des ressources, à prototyper un système de désambiguïsation des entités pour le français en utilisant les méthodes état de l'art de machine learning et à l'évaluer comparativement à d'autres systèmes existants, avec une attention particulière portée au cas difficile des organisations.

Objectifs principaux

- Caractérisation des entités d'intérêt pour le projet TALAD
- Expérimentation de la détection automatiques d'entités pour la nomination
- Participation à l'extraction et l'évaluation du corpus de référence depuis Wikipedia
- Prototypage d'un système de désambiguïsation à base de machine learning
- Implémentation et évaluation comparative des systèmes de désambiguisation

Profil recherché

- M2 TAL, ou informatique avec for intérêt pour le TAL
- Programmation en python
- Méthodes de machine learning (CRF, LSTM, SVM, etc.)
- Intérêt pour la reconnaissance et la désambiguïsation des entités

Précisions sur l'offre

- Durée du stage : 5 ou 6 mois à temps plein
- Date de début : mars ou avril 2019
- Rémunération : tarif en vigueur (~550€/mois, rbst de 50% navigo)
- Lieu : Inalco, 3bis rue Taylor, 75010 Paris

Candidature

Envoyez votre CV et faites part de vos motivations à Damien Nouvel : damien.nouvel@inalco.fr

Références

- Named Entities for Computational Linguistics. Damien Nouvel, Maud Ehrmann, Sophie Rosset. John Wiley & Sons, 2016.
- Dénomination référentielle, désignation, nomination. Pierre Frath. Langue française 4, 2015.
- Data Adaptation for Named Entity Recognition in Twitter with Features-Rich CRF. Ngoc Tan Le, Fatiha Sadat, Damien Nouvel. WiNLP 2018.
- Learning Multilingual Named Entity Recognition from Wikipedia. Joel Nothman et. al. Artificial Intelligence 194 2013.
- Evaluating Entity Linking: An Analysis of Current Benchmark Datasets and a Roadmap for Doing a Better Job. Marieke Van Erp et. al. LREC 2016.