corpus parallèles

Fichier aligné français-arabe avec surlignement des termes


AUX ORIGINES DE LA GUERRE ANTITERRORISTE

Linguistique de corpus

La pratique monolingue ou bilingue (essentiellement français-anglais) a conduit à sous-estimer l’impact des différences linguistiques et sémio-textuelles sur l’alignement de corpus. L’optique multilingue remet en question le biais auquel on a indistinctement recours en ingénierie linguistique, à savoir l’alignement de textes parallèles (textes traduits, le plus souvent de l’anglais). Il s’agit aujourd’hui de faire des propositions opérationnelles sur la typologie des corpus de textes bi- et multi-lingues en vue de leur traitement et de leur exploitation.

Etude du Present Perfect anglais à partir de corpus parallèles

Nom: 
NC
Prénom: 
-
Année: 
2004
Résumé du mémoire: 

L’objectif de ce mémoire est d’étudier un phénomène linguistique qui s’appelle «The Present Perfect Puzzle » à travers l’analyse d’un corpus parallèle anglais – français de 15Mo.

Pour illustrer ce phénomène, rappelons qu’à la différence du Passé composé français, le Present Perfect anglais ne peut pas apparaître avec les adverbes ponctuels. Un alignement de corpus dans les deux langues permettra d’étudier les cas précis de ce phénomène et de déterminer quels groupes d’adverbes peuvent apparaître avec ce temps dans chaque langue.

A l’aide de programmes créés en langage « perl », j’ai normalisé le corpus et j’en ai extrait toutes les phrases contenant plus particulièrement des adverbes temporels, y compris les expressions adverbiales. Le résultat de l’extraction comprend désormais deux fichiers, un pour chaque langue. Les phrases extraites sont alignées dans une interface Access pour permettre l’analyse linguistique proprement dite.

Alignement de mots dans un corpus parallèle pour l'enrichissement de la terminologie médicale

Nom: 
DELEGER
Prénom: 
-
Année: 
2005
Résumé du mémoire: 

Ce mémoire présente une méthode pour repérer des termes médicaux dans un corpus parallèle français-anglais par alignement de mots.

Nous avons deux objectifs: la détection de nouveaux termes médicaux français et la création d'une liste de termes médicaux bilingue.

Aprés avoir exposé nos objectifs et le contexte dans lequel ils s'inscrivent, nous procédons à un état de l'art du domaine de l'alignement puis à la description pratique de la méthode employée (alignement de phrases, alignement de mots puis sélection de termes médicaux).

Nous évaluons les résultats obtenus, qui sont prometteurs (parmi les termes médicaux sélectionnés, nous calculons une précision de 48%) méme si sujets à amélioration.

Nous tentons ensuite d'appliquer notre méthode à un corpus français-hindi en introduisant une difficulté nouvelle, celle posée par une langue "peu dotée".

Nous terminons en discutant les résultats et en proposant des pistes d'amélioration de la méthode.

Syndiquer le contenu