Mémoires 2004-2005

  • Dans le présent mémoire nous proposons une méthodologie de création de ressources lexicales (glossaires, lexiques etc.) par extraction terminologique automatique à partir de corpus parallèles français-macédonien.

    Une telle méthodologie contribuera à l'enrichissement du fond modeste des ressources lexicales existant pour ce couple de langues.

    Dans un premier temps nous allons décrire le processus de constitution et de prétraitement du corpus. Ensuite, nous allons nous pencher sur l'extraction terminologique et l'alignement des candidats termes.

    Nous présentons les outils de TAL utilisés à ce propos, leurs points forts et leurs limites. Les difficultés rencontrées lors de la démarche entreprise seront également traitées. Enfin nous allons dresser un bilan du travail effectué et de la possibilité d'automatisation du processus de création de ressources lexicales français-macédonien.

    2005
  • Le mémoire tente de répondre à la question suivante : comment tirer profit des avancées de l'ingénierie des connaissances pour répondre à un besoin stratégique : gérer une base de connaissances dont le but final est de satisfaire les clients afin d'augmenter les ventes dans une entreprise multinationale.
    Le projet comprend trois parties : la première est un état de l'art de la gestion des connaissances (historique, acteurs, étapes, outils) ; la deuxième traite de la problématique de la capitalisation des connaissances (recherche d'informations, validation des connaissances auprès des experts, diffusion de l'information) dans l'entreprise Renault. La troisième partie traite de l'implémentation d'un outil de gestion de contenu, Tridion, pour gérer la base de connaissances centrale et les bases des filiales pays.

    2005
  • L'avénement de la société de l'information redéfinit l'économie en une 'nouvelle économie' numérique. L'entreprise doit apprendre à communiquer différemment pour profiter des opportunités commerciales que lui offre le Web. Le consommateur, quant à lui, ne se contente plus de subir l'information en spectateur passif.

    Les outils de recherches 'moteurs de recherche en téte' ont remplacé les documentalistes et sont aujourd'hui plébiscités. Les modéles économiques qui y sont rattachés introduisent des biais supplémentaires dans la recherche et le traitement de l'information par le consommateur final.

    2005
  • Ce mémoire présente une méthode pour repérer des termes médicaux dans un corpus parallèle français-anglais par alignement de mots.

    Nous avons deux objectifs: la détection de nouveaux termes médicaux français et la création d'une liste de termes médicaux bilingue.

    Aprés avoir exposé nos objectifs et le contexte dans lequel ils s'inscrivent, nous procédons à un état de l'art du domaine de l'alignement puis à la description pratique de la méthode employée (alignement de phrases, alignement de mots puis sélection de termes médicaux).

    Nous évaluons les résultats obtenus, qui sont prometteurs (parmi les termes médicaux sélectionnés, nous calculons une précision de 48%) méme si sujets à amélioration.

    Nous tentons ensuite d'appliquer notre méthode à un corpus français-hindi en introduisant une difficulté nouvelle, celle posée par une langue "peu dotée".

    Nous terminons en discutant les résultats et en proposant des pistes d'amélioration de la méthode.

    2005
  • Dans le cadre du présent mémoire, nous nous proposons de rapprocher les conventions de l'écriture tamoule de celles du codage Unicode.

    Ainsi, aprés avoir longuement dressé les principes de base de la norme Unicode ainsi que ceux du tamoul et des autres écritures indiennes, nous nous efforcerons de les vérifier auprés de différentes applications informatiques supposées supporter Unicode.

    Enfin, la derniére partie, quant à elle, fera état des principales critiques formulées à l'égard du standard Unicode quant au traitement du tamoul, mettant ainsi en relief certains aspects restés encore aujourd'hui problématiques.

    2005
  • A travers l'exemple du logiciel Lexico 3 et d'un roman anglais du XVIIIéme siècle, The Vicar of Wakefield, cette étude essaie de dégager quelques pistes d'utilisation des outils lexicométriques sur des corpus littéraires à des fins d'analyse stylistique.

    Les outils lexicométriques opèrent dans le corpus des repérages automatiques et des calculs statistiques, en travaillant sur différentes unités  : occurrences de formes simples, segments répétés, groupes de formes. Gràce au balisage du corpus, l'outil peut réaliser de multiples partitions et comparer les caractéristiques lexicométriques des sections obtenues.

    Les résultats de ces opérations, présentés sous des formes synthétiques telles que tableaux des fréquences, concordanciers et graphes de ventilations, constituent des données facilement exploitables par le commentateur dans le cadre d'une analyse stylistique des textes qui forment le corpus, par exemple pour l'exploration des thèmes littéraires à travers les champs lexicaux ou les familles de mots.

    L'outil lexicométrique est alors utile pour vérifier ou falsifier des intuitions, et peut méme donner l'occasion de formuler de nouvelles hypothèses, mais il ne saurait pallier une connaissance insuffisante du corpus. Ses atouts majeurs, l'exhaustivité et le rendement, ne servent de rien au commentateur si celui-ci n'a pas construit au préalable un projet de recherche cohérent.

    2005
  • La création d'un glossaire bilingue nécessite le choix judicieux du corpus à partir duquel la terminologie est extraite. Pour une extraction de terminologie efficace, les textes sont soigneusement préparés, segmentés avant qu'ils ne soient traités.
    Une selection d'outils informatiques est accessible pour l'extraction de terminologie. L'efficacité de l'extraction dépend de la transformation du texte en format le mieux supporté par le logiciel et les réglages des paramétres de ce dernier. L'alignement des termes à l'aide des extracteurs actuels n'est pas au point.

    Le nettoyage et la rationalisation des termes représentent un travail manuel important. La création d'un glossaire bilingue peut se faire également par l'alignement des textes bilingues. Elle nécessite non seulement la bonne préparation du texte mais un travail "manuel" important.

    Php et Mysql sont des languages conviviaux pour la mise en ligne du glossaire bien préparé.

    2005
  • Aprés avoir constitué deux corpus japonais (scientifique et vulgarisé) dans le cadre du projet DECO, diverses analyses ont été effectuées sur ces corpus pour en dégager des critéres de la distinction automatique des textes scientifiques et vulgarisés.

    Des critéres proposés par des études précédentes comme quelques critéres originaux (dont celui de la mise en rapport des styles "neutre / poli" avec les catégories "scientifique / vulgarisé") ont été examinés et exploités.

    2005
  • La terminologie et la constuction de ressources terminologiques sont des activités qui se développent de plus en plus dans les entreprises. Leurs applications sont diverses: capitalisation des connaissances, outils d'aide à la traduction...
    Par ailleurs, les entreprises s'orientent vers la mise en place de pratiques collaboratives et de communautés de pratique pour faciliter la communication interne.
    Le travail présenté dans ce mémoire a donc tenté d'aborder ces deux problématiques dans le cadre de la construction d'une base de données terminologique pour un portail Intranet Collaboratif dans une grande entreprise.

    Comment construire cette terminologie?

    Comment envisager sa maintenance et son évolution dans un contexte collaboratif?

    Telles sont les questions qui ont été soulevées dans ce mémoire.

    2005
  • Ce travail porte sur une proposition de pédagogie (ou méthode) pour un cd-rom d'apprentissage du roumain.

    Destinée à des débutants autodidactes, cette pédagogie se propose d'inculquer les bases de la langue ainsi que quelques points de connaissance du pays dans le but d'inciter l'utilisateur à découvrir par lui-méme la Roumanie.

    Articulée autour de dialogues, cette pédagogie servirait donc de base à un apprentissage plus poussé de la langue, de l'histoire et de la culture du pays.

    2005
  • Les connaissances se renouvellent à un rythme accéléré et les dictionnaires 'papier' ne suffisent pas pour répondre aux besoins des traducteurs en matiére d'innovation.

    De nombreuses ressources multilingues accessibles sur le Net  sont destinées à aider les traducteurs. Cependant, face à la quantité d'informations disponibles sur le web, trois questions principales se posent:

    Quelles sont ces ressources et pourquoi sont-elles publiées sur l'Internet ?

    Comment les trouver ?

    Comment les évaluer ?

    Dans notre étude nous tenterons de traiter ces trois questions, en donnant un aperçu et une typologie de ressources linguistiques disponibles sur le web russophone, les méthodes de leur recherche et les principes de leur évaluation.

    2005
  • La recherche d'information par mots-clefs, essentiellement basée sur des informations lexicales, n'offre pas une caractérisation  suffisamment efficace des documents retournés.

    Afin d'améliorer les performances des systèmes de recherche d'information, l'ingénierie documentaire se tourne vers une approche plus globale du texte, prenant en considération sa dimension sociolinguistique.

    La théorie des genres, longtemps réservée au domaine de la littérature, offre des perspectives intéressantes, car les notions de genre et de discours constituent des points d'entrée vers l'identification d'informations pertinentes, autres que thématiques, au sein des textes.

    Dans ce mémoire, nous étudions la pertinence de certains de critéres linguistiques et extralinguistiques pour la caractérisation des discours scientifique et vulgarisé russe du Web et les moyens à mettre en oeuvre pour leur acquisition automatique.

    Cette étude a été réalisée dans le cadre d'un projet TCAN (Traitement des connaissances et NTIC) du CNRS, sur la Découverte et l'exploration des corpus comparables pour l'accés à l'information multilingue (DECO), débuté en 2004.

    2005
  • L'acquisition de noms de personnes peut être nécessaire pour des applications en ingénierie linguistique.

    Nous avons constitué un lexique de noms de famille de personnes norvégiennes pour un système de reconnaissance d'écriture à l'aide d'une méthode simple qui nous semble manquer de robustesse. Pour essayer de trouver des méthodes alternatives, nous avons étudié la tâche de reconnaissance des entités nommées et les systémes dédiés à celle-ci, ainsi que quelques méthodes d'acquisition d'entités nommées à partir du WEB.

    Nous en avons tiré un certain nombre de pistes éventuellement exploitables pour constituer des listes de noms de famille de personnes habitant un pays donné.
    Ces derniéres sont : l'utilisation de dictionnaires de prénoms, de listes de mots déclencheurs, d'informations de capitalisation et d'informations de formatage des documents HTML.

    2005
  • Ce mémoire traite des flux RSS.

    Les flux RSS utilisent la description synthétique du contenu ou d'une partie du contenu d'un site web, dans un fichier au format XML.

    Les flux RSS permettent une diffusion simple et rapide de l'Information(texte/audio/vidéo). Lorsqu'une information est mise à jour sur un site diffuseur, un fil est alors créé et diffusé en temps réel. L'utilisateur a besoin pour lire les flux d'un lecteur de flux.

    Cette technologie commence à trouver de multiples applications dans le domaine du marketing. Le développement d'applications combinant fils RSS et outils TAL reste malheureusement encore peu répandu. Cependant, ce format est aujourd'hui trés populaire, et va assurément jouer un réle majeur dans l'avenir du Web.

    2005
  • L'étude porte sur l'évaluation d'un nouveau logiciel de TAO en vue de la création d'un glossaire juridique trilingue français-anglais-néerlandais.

    Les diverses fonctions du logiciel sont analysées dont notamment l'extraction de terminologie à partir de corpus paralléles.

    Dans un second temps sera évoquée la problématique de la constitution d'une terminologie juridique trilingue : la linguistique juridique, la constitution de corpus, le filtrage de la terminologie extraite et la concordance entre les différentes langues.

    2005
  • Notre recherche a consisté à développer une méthode pour constituer des ressources lexicales à l'usage d'interprétes bénévoles français-chinois d'une mission de Médecins du Monde auprés de femmes chinoises qui se prostituent.

    Les questions abordées dans le cadre du travail sur le terrain ayant souvent trait à l'intime, il a fallu trouver des solutions pour aborder des thématiques à premiére vue scabreuses.

    Nous avons analysé des cas très précis et proposé des solutions sur mesures.

    2005
  • Connues comme réponse aux problèmes posés par l'intégration de connaissances au sein des systèmes informatiques, les ontologies apparaissent désormais comme une clé pour la manipulation automatique de l'information au niveau sémantique.
    Dans ce mémoire, nous présentons deux types d'ontologies : les ontologies générales ou de représentation qui décrivent des concepts généraux et les ontologies de domaine qui décrivent des domaines particuliers.

    Bien qu'il n'existe pas de méthode de construction d'ontologies unanimement acceptée, nous présentons en détail les deux principales approches basées sur les notions de terminologie conceptuelle ou de terminologie textuelle. Pour chacune de ces deux approches, nous présentons la méthodologie d'acquisition et de traitement des connaissances.
    Nous montrons que chacune des deux approches a ses limites que nous présentons en détail.
    Nous pouvons considérer que le type d'applications et les objectifs visés permettent de choisir entre les différentes approches.
    Quelle que soit, la méthodologie adoptée, le processus de construction d'une ontologie est une collaboration qui réunit des experts du domaine de connaissance, des ingénieurs de la connaissance, voire les futurs utilisateurs de l'ontologie. Cette collaboration ne peut être fructueuse que si les objectifs du processus ont été clairement définis, ainsi que les besoins qui en découlent.

    2005