classification

Problèmes de classification dans les dictionnaires électroniques

Nom: 
NC
Prénom: 
-
Année: 
2002
Résumé du mémoire: 

Ce document porte sur la place des locutions dans les dictionnaires électroniques. Les locutions sont des unités mal définies et souvent malmenées. Dans les dictionaires de langue, elles n'ont pas droit à une entrée individuelle  et elles se trouvent à un endroit (lequel ?) de l'article concernant un des mots (lequel ?) qui les constituent. Nous discuterons la possibilité et la pertinence d'une classification des locutions dans les dictionnnaires électroniques. Pour cela, il nous faudra au préalable définir les locutions, en les distinguant des autres unités avec lesquelles elles peuvent être confondues, comme les collocations, les métaphores, voire certains mots composés. Nous décrirons aussi les différents types de locutions. Ensuite, nous discuterons les choix réalisés pour l'index de locutions du dictionnaire électronique Le Robert & Collins. Enfin, sur la base de ces observations, nous établirons la pertinence des différentes définitions et hypothèses pour une classification efficace des locutions dans les dictionnaires électroniques.

Constituer une ressource terminologique : exemple des thesauri bilingues pour Thales

Nom: 
NC
Prénom: 
-
Année: 
2003
Résumé du mémoire: 

Ce mémoire est l’objet d’une réflexion sur les méthodes de conception des ressources terminologiques, de la collecte du vocabulaire au codage des données au sein d’un réseau terminologique. Nous restituons un panorama non exhaustif de différents types de ressources terminologiques, c’est-à-dire leurs propriétés, leurs fonctions, leurs contextes d’application notamment pour les dictionnaires, lexiques, classifications ou thesauri. Nous présentons également quelques méthodes d’acquisition automatique de terminologie : par exemple, le repérage des segments répétés dans un corpus et qui seraient des termes du domaine étudié ou le repérage de syntagmes nominaux à l’aide de marqueurs qui permet de relever des termes complexes dans un corpus. Nous présentons aussi quelques outils développés en fonction de ces méthodes.

Par ailleurs, le sujet de notre mémoire est lié au projet de gestion de bases documentaires disponibles sur l’intranet chez Thales. L’un des objectifs du département gestion des connaissances est de faciliter l’indexation des documents et l’interrogation de ces bases par les usagers eux-mêmes. Ceci peut être fait en mettant à disposition des thesauri. Si la langue officielle du groupe est l’anglais, l’idéal d’une langue unique est difficile à atteindre et nombreux sont les documents français présents dans les bases documentaires. Afin de faciliter l’indexation, des thesauri bilingues anglais / français sont réalisés ab initio pendant le stage pour deux communautés pilotes.

Nous commençons donc par présenter les activités de ces deux communautés, l’existant en matière de plan de classement chez Thales et les besoins des utilisateurs pour la recherche documentaire notamment. De là, en découle une méthode de conception de thesaurus en fonction du contexte applicatif de l’entreprise : nous proposons un thesaurus qui possède les propriétés du thesaurus et la structure d’une classification.

Critéres pour la catégorisation automatique des documents numériques

Nom: 
KRIVINE
Prénom: 
-
Année: 
2005
Résumé du mémoire: 

La recherche d'information par mots-clefs, essentiellement basée sur des informations lexicales, n'offre pas une caractérisation  suffisamment efficace des documents retournés.

Afin d'améliorer les performances des systèmes de recherche d'information, l'ingénierie documentaire se tourne vers une approche plus globale du texte, prenant en considération sa dimension sociolinguistique.

La théorie des genres, longtemps réservée au domaine de la littérature, offre des perspectives intéressantes, car les notions de genre et de discours constituent des points d'entrée vers l'identification d'informations pertinentes, autres que thématiques, au sein des textes.

Dans ce mémoire, nous étudions la pertinence de certains de critéres linguistiques et extralinguistiques pour la caractérisation des discours scientifique et vulgarisé russe du Web et les moyens à mettre en oeuvre pour leur acquisition automatique.

Cette étude a été réalisée dans le cadre d'un projet TCAN (Traitement des connaissances et NTIC) du CNRS, sur la Découverte et l'exploration des corpus comparables pour l'accés à l'information multilingue (DECO), débuté en 2004.

Syndiquer le contenu