Mémoires 2013-2014

Vers une génération automatique en ROBRA d'analyseurs et de générations syntaxiques pour des systèmes de traduction automatique

Année: 2014
Mots clés : traduction automatique, RBMT, Ariane, Héloïse, ROBRA, grammaires statiques, GSCS, STCG, SSTC, GETA, GETALP, INaLCO, langues peu dotées, grammaires d'unification, langage de spécification, XML, Bidirectional Correspondence Grammar (BCG)
:
Ariane est un environnement de développement de systèmes de traduction automatique par règles. Les grammaires statique sont un élément-clé pour le développement de tels systèmes dans la mesure où en décrivant la langue, elles servent de spécification pour les phases structurales écrites en ROBRA : les programmes d'analyse de l'énoncé en langue source et de génération de l'énoncé en langue cible. Ces grammaires statiques présentent néanmoins deux inconvénients qui sont d'être difficiles à prendre en main et pas assez formelles.
L'objectif de ce travail est donc de proposer une alternative aux grammaires statiques afin de permettre de rédiger plus facilement des spécifications linguistiques et d'intégrer de nouvelles langues dans un système. La solution que nous proposerons devra par ailleurs être manipulable informatiquement, tant par sa formalisation que dans son format de stockage interne.

Télécharger le mémoire

Collecte et analyse exploratoire de données issues de Twitter sur le thème de la mobilité

Année: 2014
Mots clés : Twitter, mobilité, textométrie, analyse qualitative, transports.
Résumé du mémoire:
L'étude des pratiques de mobilité des voyageurs se fait majoritairement
au travers d'enquêtes ou de données quantitatives. Or, les utilisateurs
des réseaux sociaux, et notamment de Twitter, sont prompts à partager
sur le web leurs habitudes de déplacement et leurs itinéraires ponctuels
ou quotidiens. Quels types d'informations peut-on repérer sur Twitter
afin de mieux connaître la mobilité, d'un point de vue à la fois
géographique et socio-économique ? Ce mémoire, réalisé dans le cadre
d'un stage à la Direction de l'Innovation et de la Recherche de la SNCF,
présente une stratégie de collecte de tweets en rapport avec la
mobilité, ainsi que des analyses thématiques sur le corpus obtenu qui
montrent le potentiel de ces données. Ces analyses ont également servi
de base pour établir une typologie des tweets "Expérience Voyageur" qui
nous permet d'organiser les différents types d'informations que
partagent les utilisateurs à travers leurs messages ; à partir de cette
typologie, nous avons pu amorcer un travail de classification
automatique des tweets. A terme, ce projet pourra être couplé à d'autres
travaux d'analyse de données hétérogènes afin de produire de nouveaux
indicateurs de l'évolution des pratiques de mobilité.

Télécharger le mémoire

La pertinence des termes filtrants

Année: 2014
Mots clés :
Base de connaissance, classement automatique, moteur de recherche sémantique, gestion des connaissances, mémoire d'entreprise.
Résumé du mémoire:
Lors d'un stage au CNES sur l'enrichissement d'une base de connaissance à
partir de textes, j'ai eu l'occasion de travailler sur toutes les
étapes de la gestion de connaissances. En étudiant deux domaines
"Ballon, Nacelles pointées" et "Radar" j'ai été amené à travailler sur
la création de corpus, leurs nettoyages pré-traitement, le découpage
taxinomique des domaines lors d'interviews et avec le logiciel Alsceste.
J'ai été amené à proposer des solutions pour la réduction de sorties
Talismane mal-formées. J'ai effectué des études contrastives avec les
concordanciers AntConc et Lexico3. J'ai également travaillé sur les
techniques de présentation des listes à l'expert en vue de la validation
de la qualité de nos extractions.
Ce tour d'horizon des différentes étapes de la gestion des connaissances
m'a permis de proposer diverses solutions méthodologiques à plusieurs
niveaux et notamment lors du classement automatique des documents au
niveau des termes filtrants.

Télécharger le mémoire

Traduire la parole émotionnelle.
Étude contrastive de l'arabe et du français

Année: 2014
Mots clés:
Traduction, lexique, parole émotionnelle, locutions, procédés de traduction.
Résumé du mémoire:
Ce travail s’inscrit dans le cadre d’une étude contrastive entre les
locutions et collocations exprimant les sentiments dans un contexte
bilingue arabe et français et leur traduction dans les deux langues. Il
s’agit une analyse descriptive du lexique des sentiments dans la langue
française et une tentative de transposition de la parole émotionnelle
en arabe tout en prenant en considération les spécificités inhérentes à
chaque langue, avec ses convergences et ses divergences.

Développement d'une maquette de traduction automatique khmer-français comme modèle pour des langues peu dotées

Année: 2014
Mots clés : Traduction automatique, langues peu dotées, segmentation, méthodologie, khmer.
Résumé du mémoire:
Cette étude vise à définir une méthodologie pour la création de systèmes
de traduction automatique pour les langues peu dotées. Les systèmes de
traduction automatique à base de statistiques ont permis des progrès
considérables, mais sont peu adaptés aux langues peu dotées pour
lesquelles il n'existe que peu de données. C'est pourquoi nous avons
choisi un système à règle (Ariane-H), issu du GETA (laboratoire pionnier
en traduction automatique en France). Pour la méthodologie, nous avons
décidé de prendre un corpus exemple, qui sera Le Petit Prince d'Antoine
de Saint-Exupéry, qui a l'avantage d'être traduit dans 270 langues. Dans
un premier temps, nous avons créé une maquette khmer-français. Nous
nous sommes servis des difficultés rencontrées pour définir la marche à
suivre pour d'autres langues, et les phénomènes linguistiques traités
serviront d'exemples. Nous avons ensuite mis ces travaux à l'épreuve, en
démarrant la création de systèmes pour d'autres langues.

Télécharger le mémoire

Études contextuelles des émissions avant les publicités de la télé (DRTV) pour augmenter la performance des plans d'achat

Année: 2014
Mots clés : Campagne publicitaire, Ecran publicitaire, spot télé, DRTV, réseaux de Neurones, Perceptron, textométrie.
Résumé du mémoire:
Au cours du projet de ce mémoire, nous allons étudier l’impact des
écrans publicitaires sur le trafic des sites e-commerces. À ces écrans
sont associés certains types d’information, comme les émissions avant et
après le passage de l’écran publicitaire. Chacune de ces informations
peut impacter la performance de ces écrans.
Dans un premier temps, le but de ce mémoire est de présenter un modèle
prédictif de la performance des écrans publicitaires par le biais des
émissions, avant ou après le passage de ceux-ci. Dans un second temps,
nous nous pencherons sur la description de ces émissions pour mettre
l’accent sur l’analyse des mots utilisés.
Enfin, nous verrons s’il existe un lien établi entre le contexte de l’émission et la réussite de ces écrans.

Télécharger le mémoire

La reconnaissance des entités nommées chinoises basée sur une combinaison de règles et de statistique

Année: 2014
Mots clés: Reconnaissance des entités nommées, noms de personnes, Unitex, étiquettes grammaticales, post-traitement statistique.
Résumé du mémoire:
La réussite de la reconnaissance des entités nommées (REN) intéresse à la fois
les chercheurs et les entreprises. À partir d'un
état de l’art, ce mémoire utilise les principes de
différentes approches en combinant les règles, les dictionnaires et
aussi la statistique pour reconnaître les entités nommées de personnes dans
un corpus chinois. L’objectif du mémoire est de trouver une meilleure
approche face à toutes les difficultés particulières du chinois. Dans la première phase Le travail consiste à utiliser l’outil Unitex, à construire les graphes et les dictionnaires et dans la deuxième phase à ajouter un post-traitement statistique. À travers des expérimentations variées et des analyses apportées sur les doubles sous-catégories de personne, le meilleur résultat est obtenu par une approche hybride avec F-mesure de 0.769.

Télécharger le mémoire

La segmentation pour la recherche d'information et/ou l'extraction d'information en langue chinoise avec l'outil Mecab

Année: 2014
Mots clés: Traitement automatique de la langue chinoise, Mecab, segmentation, recherche d’information.
Résumé du mémoire:
La segmentation reste toujours un défi pour le traitement automatique du
chinois. Cette tâche est également le point de départ d'
autres traitements sophistiqués. Dans cette recherche, nous aborderons
la question de la meilleure segmentation à l’aide de modèles divers.
Ensuite, nous utiliserons ce modèle de la meilleure segmentation pour
entraîner le Sinequa ES (moteur de recherche). Puis, nous évaluerons la
pertinence de la recherche d’information. Enfin, nous effectuerons une
comparaison de ce résultat avec la pertinence de la recherche
d’information basée sur un modèle précédent.

Télécharger le mémoire

L’intégration du thésaurus dans le traitement de la catégorisation automatique

Année: 2014
Mots clés: Machine learning, clustering, catégorisation automatique, thésaurus
Résumé du mémoire:
Ce mémoire étudie le projet « catégorisation automatique » sur la
plateforme LEOnard du département Etudes économiques de BNP Paribas.
Ainsi il étudie le schéma du site LEOnard afin de comprendre les
caractéristiques du corpus à catégoriser et afin de trouver la meilleure
stratégie. Cependant, la richesse et la variété d’information rendent
la catégorisation automatique plus complexe. Après avoir examiné
l’approche de l’apprentissage automatique, nous nous rendons compte que
cette approche n’est plus suffisante. Nous avons introduit le thésaurus
dans la chaîne de traitement afin d’affiner l’extraction de termes dans
le corpus. En calculant le score de termes dans le thésaurus, nous avons
réussi à obtenir un résultat très satisfaisant.

Télécharger le mémoire

Définition d'un modèle d'émotions
pour la catégorisation de textes narratifs courts

Année: 2014
Mots clés: Emotions, textes littéraires, édition numérique, textométrie, modèle émotionnel, processus d'annotation.
Résumé du mémoire:
Les plates-formes communautaires relatives à l'industrie culturelle sont
aujourd'hui largement répandues. Si les plus connues d'entre elles
concernent la musique ou les vidéos, certaines innovent et cherchent à
exploiter le domaine de la littérature. Ainsi, Short Edition se présente
comme l'éditeur communautaire de la littérature courte. Bien que le
domaine soit novateur et les acteurs présents peu nombreux, la
concurrence est déjà forte et la course à l'innovation fait rage. Dans
ce contexte, Short Edition cherche à explorer de nouvelles voies, comme
celle qui nous intéresse : la classification automatique des textes du
site selon les émotions. Afin d'atteindre cet objectif, il est
nécessaire de mettre en place un processus d'annotation manuelle des
textes d'après un modèle original et encadré par des directives
spécialement conçues.
Les enjeux et les contraintes de ce projet sont multiples et complexes :
projet novateur ne pouvant donc pas s'appuyer entièrement sur des
travaux antérieurs, recours à des annotateurs bénévoles ayant pour effet
de limiter les possibilités d'action, pluridisciplinarité de la
problématique.
Ce mémoire présente le travail réalisé dans le cadre de ce projet. Après
avoir réalisé un état de l'art, nous présentons Short Edition et les
données d'étude. Nous définissons ensuite un nouveau modèle et ses
paramètres, ainsi que les documents et interfaces nécessaires au
processus d'annotation. Enfin, nous procédons à la validation du modèle
construit par une étude textométrique.

Télécharger le mémoire

Étude des forums de santé pour la détection d’événements secondaires

Année: 2014
Mots clés: extraction d’information, champs aléatoires conditionnels (CRF), forums de santé, pharmacovigilance, événements secondaires.
Résumé du mémoire:
De nombreux travaux sur l’état de l’art biomédical ont porté sur la
détection d’événements secondaires à partir des rapports médicaux ou des
réseaux sociaux à des fins de pharmacovigilance. L’objectif de ce
mémoire consiste à construire, en s’appuyant sur certains de ces
travaux, un système à base d’apprentissage statistique pour l’extraction
des événements secondaires à partir des messages déposés par les
patients sur les forums de santé. La méthode implémentée à cet égard
repose sur deux grandes étapes, la première est consacrée à l’annotation
d’une sous-partie du corpus choisie aléatoirement pour constituer une
référence. Cette annotation est en effet effectuée selon un guide
élaboré et une grammaire d’annotation définie. Elle comporte deux
phases, une sans pré-annotation et une autre avec pré-annotation
automatique, et est suivie d’une phase d’adjudication puis d’évaluation.
La deuxième étape de la méthode mise en oeuvre est dédiée à la création
d’un modèle CRF et au choix de ces caractéristiques. Ces dernières sont
choisies selon leurs pertinences par rapport au corpus étudié et
conformément aux types d’entités qui se rapportent aux catégories
traitées. Des expériences sont ensuite menées en vue d’évaluer plusieurs
hypothèses de travail et tester la validité de la méthode adoptée. Les
résultats de ces expériences varient selon la taille du corpus, la
qualité des annotations de la référence ainsi que le sujet du forum
traité. Les meilleurs résultats sont obtenus par un modèle global appris
sur les deux forums étudiés (51.6 de F-mesure pour le corpus
antidépresseurs-anxiolytiques et 65.52 pour le corpus migraine).

Télécharger le mémoire

La détection des prédicats complexes hindi dans le cadre d’un outil d’aide à la lecture

Année: 2014
Mots clés: Prédicats complexes, hindi, ALAO, aide à la lecture, elearning, DEJALU.
Résumé du mémoire:
L’apprentissage des Langues Assisté par Ordinateur est en plein essor,
la mise au point de programme à ce propos nécessite en amont l’analyse
et la résolution de problèmes, l’intégration de paramètres propres à
chaque langue.
Le traitement automatique du hindi et l’Apprentissage des Langues
Assisté par Ordinateur sont les deux principaux domaines d’études
abordés dans ce mémoire. Celui-ci est composé de plusieurs parties,
exploration des outils d’aide à la lecture existants, description
détaillée du système verbal hindi, proposition d’une méthode permettant
d’intégrer la détection des prédicats complexes hindi dans un dispositif
d’aide à la lecture, ce en vue de les annoter et de les mettre en
valeur. Un état de l’art sur la détection des prédicats complexes hindi,
jouant un rôle clé dans cette étude, est également présent.

L’outil évoqué et sur lequel les travaux ont été effectués est le
dispositif DEJALU, celui-ci est actuellement en phase de développement à
l’ER-TIM (Equipe de Recherche Textes, Informatique, Multilinguisme).

Télécharger le mémoire

Evolution et visualisation des émotions dans les forums de santé

Année: 2014
Mots clés: Traitement automatique de la langue, forum de santé, émotions, évolution, visualisation.
Résumé du mémoire:
Les forums médicaux permettent aux patients d'exprimer leurs ressentis
par rapport à leur maladie ou leur traitement, et sont souvent teintés
d'émotions. De ce fait, ils constituent une source précieuse
d'informations pour les professionnels de la santé car offrent des
indications sur la vie et le comportement des patients. Les discussions
sur les forums sont souvent nuancées par la présence de marqueurs
linguistiques comme des modifieurs d'intensité, des indicateurs
d'incertitude ou encore la présence de négation. Grâce à des traitements
automatiques dédiés à ces caractéristiques sémantiques, nous proposons
différentes visualisations des émotions et des incertitudes afin d'en
étudier leur évolution dans les interactions entre
patients/professionnels et patients/patients.

Télécharger le mémoire