Segmentation

Grammaires

La segmentation en unités pertinentes et leur étiquetage en catégories morphosyntaxiques constituent les tâches basiques de l’analyse automatique des langues. Dès que l’on travaille sur des fragments de données ou de textes multilingues, des incertitudes surgissent : la simple comparaison physique de lexies en allemand, en anglais et en français révèle l’ampleur des problèmes épistémologiques sous-jacents.

Etude comparative de deux outils de TAO

Nom: 
NC
Prénom: 
-
Année: 
2003
Résumé du mémoire: 

Le service de traduction du Parlement européen est une structure unique qui présente des caractéristiques très spécifiques. En effet, il faut gérer un très grand nombre de couples de langues et les documents sont d'une diversité extrêmement grande. Les outils pour aider le traducteur dans sa tâche sont très nombreux et variés. C'est la traduction assistée qui se prête le mieux aux besoins internes des traducteurs. L'outil utilisé jusqu'à présent était le TWB de la société Trados. Cependant, un autre programme a été mis au point en interne et il est actuellement en phase finale de test. Le travail de recherche que j'ai effectué au sein de cette institution pendant mon stage consiste à confronter le TWB avec FUSE, le nouvel outil de traduction assistée mis au point par un informaticien interne. Dans mon étude je cherche à savoir pourquoi un outil généraliste tel que le TWB ne s'est pas montré totalement efficace pour certains documents et a nécessité la création d'un nouvel outil. S'agit-il d'une faille au niveau du programme lui-même (problème structurel) ou bien, est-ce dû au contexte dans lequel cet outil est utilisé (problème environnemental) ? A travers une étude comparative des performances de ces deux outils sur un type de document particulier j'essaierai de montrer les aspects positifs et négatifs de chacun d'eux.

Traitement automatique de l’arabe – Problématique de l’étiquetage grammaticale

Nom: 
NC
Prénom: 
-
Année: 
2003
Résumé du mémoire: 

Notre étude consistera à traiter la question de l’étiquetage grammaticale de la langue arabe en insistant sur la problématique que posent les deux spécificités inhérentes à cette langue, à savoir : l’agglutination et la non voyellation ou la voyellation partielle des textes. L’étiquetage d’un texte en arabe requiert la restitution des voyelles. Mais comment restituer les voyelles puisque cette opération dépend de la détermination des étiquettes grammaticales ? Nous sommes donc confronté à un cercle vicieux. Le problème d’ambiguïté est ainsi posé. En effet, étiqueter un texte dépourvu de voyelles, c’est étiqueter un texte grammaticalement ambigu. Il s’agit donc de lever cette ambiguïté, qu’elle soit lexicale ou grammaticale. De nombreux efforts ont été déployés dans ce sens. Nous ferons donc un état de l’art, présentant les différentes approches appliquées jusqu’à ce jour, les différentes grammaires et modèles adoptés ainsi que les différents outils développés en vue d’effectuer une analyse syntaxique, voire morphosyntaxique d’un texte donné, dans le but de venir à bout de ce problème. Nous mettrons en évidence les points forts, mais également, les limites des travaux effectués. A partir de là nous tenterons de proposer une solution potentielle.

Constitution de ressources pour l'élaboration d'un lexique français-anglais-chinois du commerce international

Nom: 
NC
Prénom: 
-
Année: 
2004
Résumé du mémoire: 

Ce mémoire présente une méthode de construction d'un lexique trilingue à partir de corpus. Nous utilisons un ensemble de documents juridique de l'OMC traduits dans les 3 langues. Nous examinons d'abord la définition du terme dans les trois langues, puis nous survolons les travaux déjà réalisés en acquisition automatique de terminologies à partir de corpus. Etant données les caractéristiques différentes des trois langues traitées, différents outils ont été utilisés dans le but d'automatiser l'étape d'extraction de termes. Durant la tâche d'acquisition de termes chinois, les complexités posées par cette langue sont mises en lumière.

Analyse des problèmes posés par le Japonais dans un contexte de recherche d’informations

Nom: 
NC
Prénom: 
-
Année: 
2004
Résumé du mémoire: 

Le moteur de recherche Google s’est imposé ces dernières années comme l’outil de recherche d’information le plus performant pour le grand public. Ce mémoire propose de tester la version japonaise du moteur et d’en analyser les faiblesses. Nous nous pencherons tout d’abord sur les problèmes que pose la pluralité des écritures : en quoi l’utilisateur peut il passer à côté de résultats pertinents en effectuant des requêtes dans une langue où jusqu’à 4 graphies différentes peuvent être utilisées dans un même corpus ? Vient alors la question de la segmentation en Japonais : comment le moteur réagit il face à une langue où les espaces n’existent pas ? Enfin, notre travail se terminera par une étude des ambiguïtés phonétiques et lexicales propres à la langue de Mishima : comment peut on améliorer le traitement des néologismes et des transcription phonétiques à partir d’autres langues ? Après avoir effectué plusieurs tests sur le moteur, nous analyserons les problèmes pour finalement proposer des méthodes et solution permettant d’améliorer la pertinence des résultats.

Approche textométrique de l’analyse de la presse : la Russie selon « Le Monde »

Nom: 
SEMENOVA
Prénom: 
-
Année: 
2006
Résumé du mémoire: 

Ce travail vise à étudier les représentations thématiques de la Russie dans la version électronique du journal "Le Monde".

Nous avons élaboré un procédé textométrique d’analyse de la presse qui pourrait être facilement généralisé à d’autres types de corpus journalistiques.

Exploitation d’un corpus parallèle trilingue : le travail du Centre d’Ingénierie Hydraulique d’Edf en Chine

Nom: 
GUIRAUD
Prénom: 
-
Année: 
2006
Résumé du mémoire: 

Nous présentons ici les différentes étapes du traitement d’un corpus parallèle multilingue issu de la pratique professionnelle d’ingénieurs en mission d’expertise en Chine.

Nous étudions les particularités d’un corpus à la fois relativement hétérogène et rare, et cherchons des solutions aux problèmes posés par ces caractéristiques.
Notre approche étant avant tout pratique, nous mettons en œuvre une chaîne de traitement permettant d’extraire de ces documents le plus de données exploitables possible, et cherchons à évaluer, lors de l’alignement du corpus jusqu’au niveau des mots et des caractères chinois, les impacts des choix faits durant les étapes de préparation du corpus

Syndiquer le contenu