corpus comparables

Linguistique de corpus

La pratique monolingue ou bilingue (essentiellement français-anglais) a conduit à sous-estimer l’impact des différences linguistiques et sémio-textuelles sur l’alignement de corpus. L’optique multilingue remet en question le biais auquel on a indistinctement recours en ingénierie linguistique, à savoir l’alignement de textes parallèles (textes traduits, le plus souvent de l’anglais). Il s’agit aujourd’hui de faire des propositions opérationnelles sur la typologie des corpus de textes bi- et multi-lingues en vue de leur traitement et de leur exploitation.

Le Projet Pertomed. Création d'une terminologie français/russe dans le domaine de la pharmacovigilance à partir de corpus comparables

Nom: 
NC
Prénom: 
-
Année: 
2004
Résumé du mémoire: 

Nous avons élaboré une terminologie bilingue français / russe susceptible de faciliter l'automatisation des traductions dans le domaine de la pharmacovigilance – qui relève du domaine biomédical et pharmacologique –, mais aussi l’uniformisation du codage de l’information biomédicale en russe, qui reste pour l’instant très hétérogène compte tenu du manque de données spécifiques à cette langue dans les grandes bases de données internationales. En partant d’un corpus déjà défini en français, composé principalement des Résumés des Caractéristiques du Produit, nous avons constitué un corpus comparable pour le russe de 14 000 mots. Les résultats se présentent sous la forme d’un tableau où figurent en version bilingue 485 mots-vedettes, tous des substantifs, les syntagmes nominaux où ceux-ci apparaissent en tête ou en expansion, ainsi que les références permettant de rattacher ces termes aux sous-domaines auxquels ils appartiennent.

Exploitation de critéres de distinction automatique des textes scientifiques et vulgarisés autour des notions "diabéte / régime alimentaire"

Nom: 
TOMIMITSU
Prénom: 
-
Année: 
2005
Résumé du mémoire: 

Aprés avoir constitué deux corpus japonais (scientifique et vulgarisé) dans le cadre du projet DECO, diverses analyses ont été effectuées sur ces corpus pour en dégager des critéres de la distinction automatique des textes scientifiques et vulgarisés.

Des critéres proposés par des études précédentes comme quelques critéres originaux (dont celui de la mise en rapport des styles "neutre / poli" avec les catégories "scientifique / vulgarisé") ont été examinés et exploités.

Syndiquer le contenu