corpus parallèle

Fichier aligné français-arabe


transformation vers tableau francais-arabe

AUX ORIGINES DE LA GUERRE ANTITERRORISTE
L'histoire secrète des négociations entre Washington et les talibans

Constitution d’un corpus bilingue aligné français-persan

Nom: 
NC
Prénom: 
-
Année: 
2003
Résumé du mémoire: 

Ce mémoire présente une méthode d’alignement de corpus parallèles. Nous utiliserons un corpus journalistique bilingue français-persan constitué à partir des numéros d’avril à septembre 2003 du Monde diplomatique. La première phase consistera à aligner deux corpus, paragraphe par paragraphe. Ensuite, nous procéderons à une évaluation des problèmes rencontrés et nous proposerons des critères permettant d’améliorer les performances de cette méthode.

Notre objectif est d’aligner deux langues de système graphique différent, en l’occurrence le persan et le français, et d’en présenter les limites et par la même occasion, les outils qui ont été utilisés pour mener à bien ce travail. Après une brève description de la structure du persan, nous tâcherons de décrire les différences morpho-syntaxiques par rapport au français. Et enfin, l’analyse des résultats de l’alignement permettra de mettre en lumière les difficultés et les complexités de notre démarche.

Traitement d’un corpus quadrilingue parallèle (anglais, polonais, français et allemand), portant sur le domaine de la programmation

Nom: 
NC
Prénom: 
-
Année: 
2004
Résumé du mémoire: 

Puisque les chercheurs se concentrent plus sur les corpus bilingues, nous nous intéressons dans un premier temps à la situation des outils de traitement des corpus multilingues (plus de trois langues), y compris les langues slaves. Les outils pris en compte concernent l'alignement et l'extraction des termes, mais nous nous intéressons aussi aux concordanciers. Dans un second temps, nous appliquons les outils accessibles à notre corpus pour observer les occurrences extraites du corpus dans leur contexte immédiat et ensuite, l'alignement effectué pour analyser des équivalences en traductions. A l’avenir, le traitement de ce corpus pourrait aboutir à un lexique quadrilingue spécialisé en programmation.

Extraction d’un lexique français-anglais relatif à la sécurité internationale à partir d’un corpus parallèle

Nom: 
PICHON
Prénom: 
-
Année: 
2007
Résumé du mémoire: 

Le propos de cette expérimentation est d’établir un lexique français – anglais à l’aide d’outils textométriques.

Après une brève exploration des méthodes de textométrie pure dans une optique d’extraction terminologique, cette expérimentation portera plus particulièrement sur une approche hybride alliant textométrie et filtrage morphosyntaxique. Il sera alors procédé à un étiquetage morphosyntaxique du texte source afin d’effectuer sur celui-ci une extraction de syntagmes français selon des patrons morpho-syntaxiques choisis.

Des termes relevant du domaine de la sécurité internationale seront ensuite sélectionnés parmi ces instances de patrons français puis leurs équivalents traductionnels seront recherchés dans le texte cible anglais, préalablement aligné au texte source français.

Extraction d'une terminologie bilingue à partir d'un corpus parallèle regroupant les ressources produites suite à un projet de localisation en arabe de l’environnement Linux

Nom: 
MAAFA
Prénom: 
-
Année: 
2006
Résumé du mémoire: 

Arabeyes est un projet qui vise à produire, et à maintenir à jour, une distribution arabe du système Linux. Ceci nécessite d’importants efforts de traduction, et le développement d’outils logiciels spécifiques. L’objectif de notre travail est d’exploiter tous les travaux de traduction, réalisés dans le cadre de ce projet, afin d’extraire des ressources terminologiques anglais /arabe concernant la localisation des logiciels libres.

La première étape du travail consiste à récupérer, et à filtrer, tous les fichiers contenant les traductions, puis ensuite regrouper les messages provenant de ces fichiers dans un seul corpus parallèle. Pour former une première liste de candidats termes bilingues, nous récupérons tous les messages susceptibles de contenir un seul terme, puis à l’aide d'outils d’analyse morphosyntaxique, nous isolons, dans cette liste, les suites de mots correspondant aux catégories qui présentent plus d’intérêts terminologiques. 

La deuxième étape consiste à implémenter une méthode d’alignement basée sur le calcul des fréquences des cooccurrences. Cette technique d’alignement sera exploitée pour obtenir de nouveaux couples de candidats termes à partir du corpus. Pour filtrer les résultats, nous  comparons les catégories  des suites de mots obtenues, et nous gardons les couples de candidats termes qui se correspondent le plus

Exploitation d’un corpus parallèle trilingue : le travail du Centre d’Ingénierie Hydraulique d’Edf en Chine

Nom: 
GUIRAUD
Prénom: 
-
Année: 
2006
Résumé du mémoire: 

Nous présentons ici les différentes étapes du traitement d’un corpus parallèle multilingue issu de la pratique professionnelle d’ingénieurs en mission d’expertise en Chine.

Nous étudions les particularités d’un corpus à la fois relativement hétérogène et rare, et cherchons des solutions aux problèmes posés par ces caractéristiques.
Notre approche étant avant tout pratique, nous mettons en œuvre une chaîne de traitement permettant d’extraire de ces documents le plus de données exploitables possible, et cherchons à évaluer, lors de l’alignement du corpus jusqu’au niveau des mots et des caractères chinois, les impacts des choix faits durant les étapes de préparation du corpus

Evaluation d'un nouveau logiciel d'aide à la traduction par le biais de la création d'un glossaire juridique trilingue

Nom: 
LENTING
Prénom: 
-
Année: 
2005
Résumé du mémoire: 

L'étude porte sur l'évaluation d'un nouveau logiciel de TAO en vue de la création d'un glossaire juridique trilingue français-anglais-néerlandais.

Les diverses fonctions du logiciel sont analysées dont notamment l'extraction de terminologie à partir de corpus paralléles.

Dans un second temps sera évoquée la problématique de la constitution d'une terminologie juridique trilingue : la linguistique juridique, la constitution de corpus, le filtrage de la terminologie extraite et la concordance entre les différentes langues.

Syndiquer le contenu