Mémoires 2012-2013

*LEXICOGRAPHIE BILINGUE POUR LA TRADUCTION AUTOMATIQUE : *ÉLABORATION ET
ENRICHISSEMENT DE DICTIONNAIRES GENERAUX ANGLAIS-FRANÇAIS ET
FRANÇAIS-ANGLAIS

Nom: CHANCERELLE
Prénom: -
Année: 2013
Mots clés:
Traduction automatique – lexicographie bilingue – désambiguïsation - corpus
Résumé du mémoire:
Un dictionnaire bilingue est souvent considéré comme un outil de travail, mais il est également le résultat de recherches lexicographiques importantes. Lorsqu’il est destiné à un système de traduction automatique de type linguistique (comme celui de Reverso), le dictionnaire est construit selon une méthodologie bien définie.
Dans cette étude, nous revenons sur ce qui différencie un dictionnaire traditionnel d’un dictionnaire de traduction automatique (éléments qui y figurent, cible etc.), ainsi que sur la question de la désambiguïsation, procédé qui permet de gérer la polysémie en traduction automatique. Les recherches lexicographiques étant essentiellement manuelles, nous proposons également dans ce mémoire des façons de les automatiser à l’aide de différentes ressources afin de gagner en productivité.

Tags Traduction automatique – lexicographie bilingue –
désambiguïsation - corpus



ÉTUDES LEXICO-MORPHOSYNTAXIQUE DES ERREURS DES
SYSTEMES DE RECONNAISSANCE DE LA PAROLE

Nom: GORYAINOVA
Prénom: -
Année: 2013
Mots clés:
Reconnaissance automatique de la parole, erreurs de transcription
automatique, analyse lexicale et morphosyntaxique, analyse statistique,
distance d’édition, zone d’erreur, gravité d’erreur.
Résumé du mémoire:
Le mémoire porte sur les études lexico-morphosyntaxiques des erreurs de système de reconnaissance de la parole. Le travail effectué consiste en différentes analyses des erreurs de transcription automatique de la parole. Les analyses en question représentent notamment une étude lexicale et morphosyntaxique des mots se trouvant dans les zones d’erreur de la transcription, dans le contexte gauche et le contexte droit. De même l’analyse lexicale a été réalisée sur les cas de substitution de mots dans des zones d’erreur. Ces analyses ont été complétées par le calcul de la distance d’édition des zones d’erreur. Au final, l’analyse lexicale et morphosyntaxique a été appliquée sur le corpus supplémentaire qui était annoté par des humains au niveau de gravité d’erreur.
Les résultats révélés ont été comparés avec ceux qui étaient observés dans des articles mentionnés.

Tags Reconnaissance automatique de la parole, erreurs de transcription
automatique, analyse lexicale et morphosyntaxique, analyse statistique, distance d’édition, zone d’erreur, gravité d’erreur.



ÉTUDE DE POSSIBILITES D’AMELIORATION DE L’APPRENTISSAGE SUPERVISE D’ENTITES NOMMEES POUR LES INSTITUTIONS FINANCIERES
Nom: HE
Prénom: -
Année: 2013
Mots clés:
Classification, réseaux bayésiens, probabilité, reconnaissance d’entités nommées, solution opérationnelle
Résumé du mémoire:
Ce mémoire porte sur les possibilités d’augmenter le taux de reconnaissance des institutions financières désignées comme récepteurs dans les messages de paiement bancaire, dans le but de réaliser le STP (anglicisme qui signifie traitement sans rupture ni délai), c’est-à-dire la « réparation » et le routage automatique de ces messages. Les messages de paiement sont écrits par des êtres humains en langage naturel, ce qui fait que la reconnaissance des informations que ceux-ci contiennent nécessite des connaissances en traitement automatique des langues. Plus précisément, certaines techniques de classification sont utilisées pour reconnaître les catégories auxquelles les informations dans les messages de paiement appartiennent, afin de trouver l’entrée correspondante dans la base de référence fournie par le client et effectuer le routage de messages vers l’institution sélectionnée par le programme comme solution. La chaîne de STP est composée de plusieurs processus : la normalisation des champs extraits des messages de paiement, le découpage de champs en segments, l’étiquetage de segments, la requête à la base de référence, la décision à l’aide des réseaux de neurones et le renvoi de solution. Dans le cadre de ce mémoire
seuls le découpage et l’étiquetage (en l’occurrence désignés par un seul terme « classification ») sont discutés. Afin de mieux comprendre le mécanisme de classification, plusieurs classifieurs (modèles graphiques) courants sont abordés : CRF, SVM et réseaux bayésiens renforcés par des fonctions de croyance. Ces derniers sont utilisés à FircoSoft parce qu’ils correspondent bien à notre besoin spécifique. Les problèmes existants de reconnaissance nous incitent à chercher des solutions adaptées. Cependant, les contraintes opérationnelles nous empêchent d’effectuer des changements profonds (notamment modification d’algorithmes) et nous optons pour des ajustements locaux tels que la manipulation de statistiques et la transformation virtuelle de corpus de test. Néanmoins, l’amélioration d’algorithme et la réorganisation de fichiers de ressource sont envisageables pour la nouvelle version de l’application de STP.

Tags Classification, réseaux bayésiens, probabilité, reconnaissance d’entités nommées, solution opérationnelle



*MACHINE TRANSLATION IN THE COLLOQUIAL DOMAIN* (EN FRANÇAIS: /LA
TRADUCTION AUTOMATIQUE DANS LE DOMAINE DU LANGAGE FAMILIER/)

Nom: KHALSA
Prénom: -
Année: 2013
Mots clés:
traduction automatique, système fondé sur des règles,
rule-based, colloquial, langage familier, anglais-espagnol
Résumé du mémoire:
Les présentes recherches visent à optimiser la traduction automatique sur un corpus parallèle constitué d'expressions colloquiales (anglais-espagnol). Ce corpus est constitué en partie de sites traitant le tourisme et de courriels. Le discours présente dans le corpus comprend notamment du langage parlé et du langage SMS. La méthode proposée est fondée sur des règles (rule-based machine translation) avec une dernière phase statistique complémentaire. Les règles sont définies dans des dictionnaires bilingues et monolingues qui sont appliqués à différents stades de la traduction. Les dictionnaires traitent des problèmes de normalisation de texte (erreurs orthographiques, orthographe non-standard, abréviations, etc.), d'ambiguïtés, et des traductions spécifiques au domaine, parmi d'autres particularités de la traduction automatique. Ce mémoire apporte également une évaluation sur le test que j'ai effectué selon cette méthode.

Tags traduction automatique, système fondé sur des règles, rule-based, colloquial, langage familier, anglais-espagnol



ADAPTATION DES OUTILS D’AIDE A LA REDACTION AU MILIEU INDUSTRIEL
Nom: SAHIN
Prénom: -
Année: 2013
Mots clés:
aide à la rédaction, langage contrôlé, rédaction technique, grammaires formelles, correcteur, documents

Résumé du mémoire:
La démarche décrite dans ce travail relève de l’étape d’évaluation de l’outil académique, Lélie, un outil d’aide à la rédaction en phase de développement par l'Institut de Recherche en Informatique de Toulouse (IRIT). EDF avec ses rédacteurs techniques intervient en tant que terrain d’expérimentation pour le déploiement de cet outil vers un milieu industriel. Partant de l'exemple d'EDF, l'objectif est de saisir les critères qu'il faut pour choisir l'outil le mieux adapté à un environnement industriel.

Tags aide à la rédaction, langage contrôlé, rédaction technique, grammaires formelles, correcteur, documents




LES MOTS DU LUXE. ANALYSE DU VOCABULAIRE DANS LES TEXTES DE MARKETING EN FRANÇAIS ET LOCALISES EN RUSSE.
Nom: ARNAL
Prénom: -
Année: 2013
Mots clés:
Lexicométrie, luxe, marketing, russe, Dior
Résumé du mémoire:
Le luxe est un domaine en plein développement qui produit un grand nombre de textes dans de nombreuses langues. Ces textes, publiés entre autre sur internet, rédigés dans la langue du pays dont est issue la marque, sont localisés pour les clients étrangers qui lisent ces textes dans leurs langues. L’étude est réalisée sur un échantillon de textes aux sujets variés avec un contenu à caractère marketing publiés de juillet 2013 à octobre 2013 sur le site internet d’une marque de luxe, rédigés en français et localisés en russe. En nous guidant des principes de l’analyse sémantique de F.Rastier, nous essayons d’établir les
catégories de termes caractéristiques de ces textes et des correspondances lexicales parfois asymétriques entre les deux langues.

Tags Lexicométrie, luxe, marketing, russe, Dior




CRITERES ACOUSTIQUES ET LINGUISTIQUES POUR LA CONSTRUCTION D’UNE BONNE ALERTE AUDIO DANS LES
COCKPITS DES AVIONS COMMERCIAUX)

Nom: JAHCHAN
Prénom: -
Année: 2013
Mots clés:
Alarmes cockpit, aviation, facteurs humains, psycholinguistique, interactions audio-visuel, prosodie, perception
d’urgence, précision de compréhension, désambiguïsation, compréhension phonétique, urgence dans la sémantique, explicitation, rythme, vitesse d'élocution, compréhension de mots-clés versus phrases
Résumé du mémoire:
Cette étude est une première approche pour le développement d'un ensemble plus cohérent et adéquat d'alarmes dans les cockpits des avions commerciaux d'Airbus. Les critères linguistiques et acoustiques du design et la construction des alarmes seront étudiés, et des suggestions pour des futures recherches vont être donnés.

Cette étude est faite dans le but de réduire les ambiguïtés potentielles dans les alarmes pour une meilleure compréhension et détection de signal par les pilotes, et ce pour réduire des potentiel erreurs de pilotage
humaines. Le manque d'un système d'alarmes adapté aux besoins intuitifs des pilotes peut influencer la perception de degré d'urgence du message dans une situation de vol, qui peut potentiellement être dangereuse si
la bonne action n'est pas exécutée. Dans ce mémoire, une expérience psycholinguistique sur la perception
d'urgence dans les acoustiques d'une voix d'homme versus une voix de femme, et la précision/l’exactitude de la compréhension pour des locuteurs non-natifs de l'anglais est proposée. Le poids de la sémantique des mots sur la perception d'urgence était aussi mesuré.

Tags Alarmes cockpit, aviation, facteurs humains, psycholinguistique, interactions audio-visuel, prosodie, perception d’urgence, précision de compréhension, désambiguïsation, compréhension phonétique, urgence dans la sémantique, explicitation, rythme, vitesse d'élocution, compréhension de mots-clés versus phrases


L’INGENIEURIE LINGUISTIQUE APPLIQUEE A L’ANALYSE AUTOMATIQUE MULTILINGUE D’OPINIONS SUR CORPUS FRANCAIS ET CHINOIS.
Nom: SISAVANH
Prénom: -
Année: 2013
Mots clés:
Opinion mining, e-réputation, Sentiment analysis, automatisation d’analyse de tonalités, analyse sémantique
Résumé du mémoire:
De nos jours, de plus en plus de personnes laissent leurs avis sur le web afin de parler d’une expérience ou de partager une opinion sur un service ou un produit.
En outre, l'analyse d'opinion reste une activité qui nécessite encore de la recherche et du progrès, et les outils actuellement proposés ne sont pas encore au point (version béta).
Pour mieux comprendre leurs attentes, nous avons tenté d’effectuer une veille et une analyse d’opinions automatisée et dans différentes langues. Pour cela, nous avons également développé un outil en Perl pour pré-catégoriser les opinions en positif / neutre / négatif.
La méthode développée est adaptable à la plupart des domaines et des langues.

Tags Opinion mining, e-réputation, Sentiment analysis, automatisation d’analyse de tonalités, analyse sémantique