Linguistique de corpus

Recherche

自然语言处理曾长时间停留在单语应用,而当下纷繁交错的多语数码文件则给自然语言处理语言学家开阔了的新视野,同时更丰富了其科研前景。这一观念的转变反映在语言处理几个不同的层面, 从文字编码问题到数码文件形式和内容问题。我们的研究正是这些问题一个综合, 即从多学科的角度(语言,信息,文档)来对以上问题进行分析和处理。
因此,我们倡导的研究方案结合形态元素(文件结构,编码)和内容元素 (语义)这两个层面。这两个不可分离的层面既具有重大的理论意义, 又开拓了技术、教学及其他研究的范围。
多语言多媒体数码文件的性质是我们所面对的一项复杂课题, 其实质在于衡量这类文件所具有的应用前景。
问题1:多语现象的关键
1. 文字的编码,转码
该课题是CRIM/TIM科研组成立以来的基础研究之一. INaLCO学院内100种语言的编码、转码需求就足以证明该研究的意义。我们已开发了一些专用的编码/转码程序,包括特别针对阿拉伯语,西里尔语,希腊语以及非洲语言(如EVALDA,ATOS或ALPCU项目)... (阅读更多)
近几年的思考表明,针对多语现象,编码的多重多样性和应用的多样化等问题, 其解决方案在于对对象符号综合表现形式的运用。
数十年在多语种、多类文字背景下的研究,使我们从“文字即图形标志”这一定义发展认识到了另一复杂概念,即把文字作为虚拟对象(所有不同程度的属性)。

Terminologie d'entreprise : recherche de solutions pour la refonte de l'existant : proposition d'un outil de gestion de bases de données terminologiques

Nom: 
NC
Prénom: 
-
Année: 
2002
Résumé du mémoire: 

Les besoins en terminologie deviennent de plus en plus importants dans les entreprises. En effet, de nombreuses données terminologiques multilingues coexistent sans pour autant être homogènes et normalisées. Dans ce mémoire, nous nous interrogeons donc sur la méthodologie à utiliser afin d'obtenir une base de données terminologique structurée et de qualité. D'autre part, nous posons la question de savoir comment procéder pour éviter la « pollution » de la future base ? Nous comparons trois solutions différentes : extraction terminologique à partir de corpus, tri des données, reprise de l'existant. La première solution serait idéale. Cependant, dans quelle mesure est-il possible de changer les pratiques existantes au profit de la construction terminologique à partir des corpus textuels ? Plusieurs contraintes nous font pencher vers la deuxième solution à savoir tri et récupération d'un fond terminologique en associant un code de fiabilité à chaque terme par exemple.

Parallèlement à cette réflexion, nous proposons un modèle d'un outil de gestion de bases de données terminologiques accessible via l'Intranet. Il est nécessaire que cet outil tienne compte des évolution en matière d'échanges de données terminologiques au format XML (MARTIF, GENETER etc.).

Constituer une ressource terminologique : exemple des thesauri bilingues pour Thales

Nom: 
NC
Prénom: 
-
Année: 
2003
Résumé du mémoire: 

Ce mémoire est l’objet d’une réflexion sur les méthodes de conception des ressources terminologiques, de la collecte du vocabulaire au codage des données au sein d’un réseau terminologique. Nous restituons un panorama non exhaustif de différents types de ressources terminologiques, c’est-à-dire leurs propriétés, leurs fonctions, leurs contextes d’application notamment pour les dictionnaires, lexiques, classifications ou thesauri. Nous présentons également quelques méthodes d’acquisition automatique de terminologie : par exemple, le repérage des segments répétés dans un corpus et qui seraient des termes du domaine étudié ou le repérage de syntagmes nominaux à l’aide de marqueurs qui permet de relever des termes complexes dans un corpus. Nous présentons aussi quelques outils développés en fonction de ces méthodes.

Par ailleurs, le sujet de notre mémoire est lié au projet de gestion de bases documentaires disponibles sur l’intranet chez Thales. L’un des objectifs du département gestion des connaissances est de faciliter l’indexation des documents et l’interrogation de ces bases par les usagers eux-mêmes. Ceci peut être fait en mettant à disposition des thesauri. Si la langue officielle du groupe est l’anglais, l’idéal d’une langue unique est difficile à atteindre et nombreux sont les documents français présents dans les bases documentaires. Afin de faciliter l’indexation, des thesauri bilingues anglais / français sont réalisés ab initio pendant le stage pour deux communautés pilotes.

Nous commençons donc par présenter les activités de ces deux communautés, l’existant en matière de plan de classement chez Thales et les besoins des utilisateurs pour la recherche documentaire notamment. De là, en découle une méthode de conception de thesaurus en fonction du contexte applicatif de l’entreprise : nous proposons un thesaurus qui possède les propriétés du thesaurus et la structure d’une classification.

Constitution de ressources pour l'élaboration d'un lexique français-anglais-chinois du commerce international

Nom: 
NC
Prénom: 
-
Année: 
2004
Résumé du mémoire: 

Ce mémoire présente une méthode de construction d'un lexique trilingue à partir de corpus. Nous utilisons un ensemble de documents juridique de l'OMC traduits dans les 3 langues. Nous examinons d'abord la définition du terme dans les trois langues, puis nous survolons les travaux déjà réalisés en acquisition automatique de terminologies à partir de corpus. Etant données les caractéristiques différentes des trois langues traitées, différents outils ont été utilisés dans le but d'automatiser l'étape d'extraction de termes. Durant la tâche d'acquisition de termes chinois, les complexités posées par cette langue sont mises en lumière.

Le Projet Pertomed. Création d'une terminologie français/russe dans le domaine de la pharmacovigilance à partir de corpus comparables

Nom: 
NC
Prénom: 
-
Année: 
2004
Résumé du mémoire: 

Nous avons élaboré une terminologie bilingue français / russe susceptible de faciliter l'automatisation des traductions dans le domaine de la pharmacovigilance – qui relève du domaine biomédical et pharmacologique –, mais aussi l’uniformisation du codage de l’information biomédicale en russe, qui reste pour l’instant très hétérogène compte tenu du manque de données spécifiques à cette langue dans les grandes bases de données internationales. En partant d’un corpus déjà défini en français, composé principalement des Résumés des Caractéristiques du Produit, nous avons constitué un corpus comparable pour le russe de 14 000 mots. Les résultats se présentent sous la forme d’un tableau où figurent en version bilingue 485 mots-vedettes, tous des substantifs, les syntagmes nominaux où ceux-ci apparaissent en tête ou en expansion, ainsi que les références permettant de rattacher ces termes aux sous-domaines auxquels ils appartiennent.

Syndiquer le contenu