Mémoires 2003-2004

  • L’objectif de ce mémoire est d’étudier un phénomène linguistique qui s’appelle «The Present Perfect Puzzle » à travers l’analyse d’un corpus parallèle anglais – français de 15Mo.

    Pour illustrer ce phénomène, rappelons qu’à la différence du Passé composé français, le Present Perfect anglais ne peut pas apparaître avec les adverbes ponctuels. Un alignement de corpus dans les deux langues permettra d’étudier les cas précis de ce phénomène et de déterminer quels groupes d’adverbes peuvent apparaître avec ce temps dans chaque langue.

    A l’aide de programmes créés en langage « perl », j’ai normalisé le corpus et j’en ai extrait toutes les phrases contenant plus particulièrement des adverbes temporels, y compris les expressions adverbiales. Le résultat de l’extraction comprend désormais deux fichiers, un pour chaque langue. Les phrases extraites sont alignées dans une interface Access pour permettre l’analyse linguistique proprement dite.

    2004
  • Dans mon mémoire de DESS, j'aborde la problématique linguistique (traduction) dans la perspective du développement informatique (nouvelles technologies-logiciels de traduction automatique). Il s'agit de traiter la question de la traduction « traditionnelle » vs la traduction automatique. L'enjeu de mon travail est de démontrer quels sont les points forts et les points faibles ainsi que les limites et les difficultés liés à ces deux façons de traduire: humaine et informatisée.
    Pour illustrer mes observations, je m'appuie sur les exemples précis. J'établis un corpus bilingue (langue source français-langue cible anglais) extrait du Journal Officiel de la Communauté européenne et j'examine les traductions: premièrement traditionnelle publiée dans une version anglaise du Journal Officiel, ensuite celle traitée par le logiciel de traduction automatique REVERSO et celle traitée par le logiciel de traduction gratuit disponible sur le moteur de recherche YAHOO. Par la suite, je procède à l’extraction terminologique en établissant une liste des termes et des expressions que je compare premièrement avec la terminologie traditionnelle du dictionnaire-papier, et ensuite avec le dictionnaire en ligne FREELANG et la base terminologique de la Communauté européenne - EUROVOC. Les commentaires des résultats obtenus me servent de conclusion : quels sont la place et le rôle du traducteur face à la prolifération des outils de traduction automatique, quel est l’avenir de la TA et de la TAO de point de vue de l’efficacité, de la disponibilité, du coût et du temps de traduction ? Est-ce que le progrès technologique accompagne les méthodes traditionnelles et en quoi est-il complémentaire? Arrivera-t-on à maîtriser l’ambiguïté du langage humain du point de vue de la traduction?

    2004
  • Cette étude présente une approche linguistique pour l’extraction d’information ouïghour. Le domaine d’extraction d’information des langues courantes a récemment eu des succès phénoménaux. Mais, actuellement aucune étude n’est consacrée à l’analyse linguistique pour le traitement du ouïghour. Ainsi, l’objectif serait d’apporter une contribution à la connaissance des concepts liés à la morphologie du ouïghour. Tout d’abord, nous allons présenter les caractéristiques et la structure de la langue ouïghour en faisant une étude des suffixes de dérivation verbale et nominale. Ensuite, nous apporterons une vision novatrice, en proposant des nouveaux modèles expérimentaux, qui faciliteront la réalisation et l’adaptation des systèmes d’extraction d’information ouïghour. Nous ferons également une démonstration d’extraction d’entités nommées en utilisant un outil d’extraction, afin d’expérimenter les conceptions et les théories proposées dans ce rapport. Enfin, nous mentionnerons les problèmes techniques posés par la langue ouïghour au TAL, et nous proposerons des solutions afin de les résoudre.

    2004
  • L’étude du logiciel de TAO - Transit de Star pour utilisation dans une entreprise sino-française dans le domaine de l’acier. L’étude porte sur la constitution de terminologie, les fonctions de logiciel, les problèmes rencontrés dans l’utilisation de la traduction des textes anglais- chinois. Quelles taches supplémentaires sous Transit doit-on effectuer pour la traduction de la langue chinoise en langues européennes et réciproquement.

    2004
  • La Gestion de l’Information dans le domaine des média audiovisuels est le pilier de la fabrication du Journal Télévisé. Dans la chaîne documentaire (de l’étape de l’acquisition de l’information jusqu’à sa recherche par les journalistes) il y a différents systèmes qui doivent fonctionner de façon cohérente et homogène. Pour d’avantage de performances du fonctionnement de la chaîne documentaire, les méthodes et les spécificités d’indexation doivent être en harmonie et en correspondance avec les outils de traitement de fiches et de recherche dans la base de données. L’objectif de notre étude est d’analyser la méthodologie d’indexation des documents textuels et vidéo, de détecter les failles dans la chaîne et/ou d’établire les incohérences, et par la suite de faire des propositions d’améliorations en application à la recherche.

    2004
  • Le mémoire porte sur l’étude de la néologie dans le pamphlet. Le corpus étudié est composé principalement de textes racistes. Après avoir détaillé quelles sont les stratégies rhétoriques caractéristiques du pamphlet, nous étudions la place et la foncion qu’occupe la néologie au sein même de cette rhétorique particulière. Enfin, dans le cadre d’une application liée au projet PRINCIP, nous envisagerons la néologie d’un point de vue différentiel et tenterons d’appliquer nos observations à la détection automatique de position idéologique.

    2004
  • Pour mener à bien des travaux de traitements linguistiques sur des données textuelles, de nombreux outils ont déjà été développés et permettent d'obtenir diverses informations, notamment morphosyntaxiques et sémantiques. La plupart de ces outils ne sont cependant pas conçus pour être combinés entre eux. Leur utilisation conjointe est par conséquent loin d'être triviale. En effet, de nombreux problèmes se posent: la plupart du temps, ce que fournit un outil en sortie ne correspond pas du tout à ce que nécessite un autre outil en entrée, aussi bien en terme de niveau d'information que de format des données. Notre objectif dans ce mémoire est de décrire l'intégration d'outils de TAL dans une plate-forme d'enrichissement de corpus en tenant compte des contraintes liées à leur adéquation. Nous présentons les problèmes qui peuvent être rencontrés aussi bien sur le plan théorique, comme par exemple l'adéquation des jeux d'étiquettes morphosyntaxiques utilisés, que sur le plan informatique, comme par exemple les très grands temps de calcul, ou la complexité du format d'annotations. Nous apportons également un regard critique sur l'enrichissement linguistique de corpus textuels, tout en nous appuyant sur des expériences menées autour d'outils et plate-formes déjà existants. Nous dressons dans la première partie du mémoire un état de l'art sur les plate-formes et outils d'analyse de corpus textuels. Puis, nous décrivons la plate-forme que nous avons élaborée dans le cadre du projet européen de moteur de recherche sémantique ALVIS. Enfin, dans une troisième partie, nous exposons les résultats de notre travail sur la plate-forme ALVIS. Nous avons utilisé une DTD XML afin de décrire l'ensemble des annotations linguistiques liées au corpus.

    2004
  •  

    2004
  • Tentative de composition et d'analyse des corpus comparables français/russe constitués par les textes de nature économique traitant de 2 sociétés industrielles, Arcelor et Severstal. Utilisation des outils informatiques conçus à cet effet et disponibles à ce jour pour ces deux langues. Analyse lexicologique. Approche lexicométrique et statistique.

    2004
  • Présentation d'une problématique donnée telle que l'alignement d'un corpus franco-arabe sous un double aspect : identification des principaux problèmes spécifiques à l'alignement de corpus bilingue à l'aide d'outils de traitement automatique des langues et identification des problèmes spécifiques à un corpus franco-arabe donné à l'aide d'un outil de segmentation automatique donné (AlignEdit). Identification des repères fiables et non-fiables (tels que les chiffres, les nombres, les dates et les entités nommées) susceptibles d'être utilisés par des outils de segmentation et d'analyse syntaxique automatique en fonction des particularités de la structure grammaticale et syntaxique de la langue arabe mise en comparaison avec celles de la langue française dans un corpus obtenu à l'aide d'un outil automatique de capture et constitution de corpus électroniques.

    2004
  • L’objectif de notre étude est l’indexation d’un corpus d’images conservées dans une banque de données afin de les retrouver au travers de ressources textuelles qui leur sont liées. Le corpus est constitué de 897 photos d’objets d’art (tableaux, dessins, sculptures…) issus de la collection du Musée International d’Art Naïf de Vicq. Une typologie des textes et fragments textuels liés au corpus d’images a été établie, avant de définir des méthodes et outils de TAL pour leur traitement. L’outil principal créé est une hiérarchie de mots-clés. Il s’agit d’une version simplifiée et très réduite du thesaurus iconographique de François Garnier, réalisée après adaptation au corpus d’images et enrichissement au moyen d’un traitement automatique de ressources textuelles liées à ce corpus.

    2004
  • Ce mémoire propose une méthode pour constituer des ressources lexicales type glossaire, lexique etc. bilingues japonais français. Dans ce but, un outil d’extraction terminologique pour le japonais, ACABIT, y sera présenté et testé. Sur la base des termes extraits à partir d’un corpus à l’origine bilingue et ensuite alignés, nous avons pu élaborer des unités de traduction qui peuvent servir de base à la construction de ressources lexicales bilingues. Ce mémoire apporte également une évaluation et une critique des outils et logiciels étudiés et de la méthode envisagée.

    2004
  • Nous avons élaboré une terminologie bilingue français / russe susceptible de faciliter l'automatisation des traductions dans le domaine de la pharmacovigilance – qui relève du domaine biomédical et pharmacologique –, mais aussi l’uniformisation du codage de l’information biomédicale en russe, qui reste pour l’instant très hétérogène compte tenu du manque de données spécifiques à cette langue dans les grandes bases de données internationales. En partant d’un corpus déjà défini en français, composé principalement des Résumés des Caractéristiques du Produit, nous avons constitué un corpus comparable pour le russe de 14 000 mots. Les résultats se présentent sous la forme d’un tableau où figurent en version bilingue 485 mots-vedettes, tous des substantifs, les syntagmes nominaux où ceux-ci apparaissent en tête ou en expansion, ainsi que les références permettant de rattacher ces termes aux sous-domaines auxquels ils appartiennent.

    2004
  • Réflexion sur le projet et la mise en place d'une translittération officielle et de référence du thaï pour la base de données xtrans de l'Index Translationum (la bibliographie internationale des ouvrages traduits et publiés dans les Etats membres, qui est disponible sur Internet et accessible à un large public). Après une étude comparative des diverses romanisations existantes, comme notamment celles que proposent The Library of Congress et l'Institut National des Langues et Civilisations Orientales (INALCO). Ainsi qu'une comparaison minutieuse avec les notices elles-même translittérées par la Bibliothèque Nationale de Thaïlande. Mise en application de cette nouvelle translittération sur les données de ces deux dernières années et qui proviennent des contributions annuelles de la Bibliothèques Nationale de Thaïlande. La seconde étape consiste à normaliser les notices plurilingues déjà présentes dans cette base, à savoir les contributions des années 1979 à 1992. Suivant les limites technique de l'informatique et des codages qui sont à notre disposition. Ceci étant, la notion d'une translittération universelle constitue une réelle problématique, car il serait présomptueux d'affirmer que la translittération que nous avons élaborée est totalement viable. Car jusqu'à présent il semblerait que les Thaïs se sont toujours référés au système de translittération proposé par les pays anglophones plutôt que celle des francophones. A travers ce travail de recherche linguistique, il s'agira précisément de tenter de convaincre les Thaïs qu'il existe une vaste possibilité de translittération autre que anglophone.

    2004
  • L’ouverture de la Chine au monde est bien là mais au-delà de l’image et des perceptions dont l’actualité se fait l’écho, la Chine est un pays en pleine mutation et son entrée sur la scène mondiale a impliqué de nombreux changements dans la société chinoise. Parmi les secteurs qui prennent de plus en plus de place dans la société chinoise, celui du luxe est en pleine expansion. Comment la société fait-elle face à la montée de ce secteur qui suscite à la fois un nouvel intérêt mais implique également l’utilisation d’une terminologie spécifique? A travers une étude comparative des termes du luxe extraits des versions française et chinoise de sites Web d'entreprises de luxe français, nous tenterons d’établir un glossaire terminologique du luxe en français et en chinois. Pour ce faire, il est important de s’interroger dans un premier temps sur la place du marché du luxe en Chine et dans un deuxième temps, sur les différences linguistiques qu’il existe entre les termes français et les termes chinois.

    2004
  • Le mémoire voudrait proposer une réflexion méthodologique et des outils informatiques permettant la constitution de lexiques électroniques bilingues. Une première phase du projet a trait à la méthodologie et aux techniques de collecte automatisée de corpus bilingues sur le Web. Elle explicite le choix du/des corpus sélectionnés. La constitution de lexique bilingue passe ensuite par l’alignement des couples de pages parallèles bilingues recueillies. Dans cette deuxième phase du projet, sont élaborées les différentes étapes (niveaux) de cet alignement, les techniques et les outils informatiques que l’on veut utiliser pour celles-ci. On cherchera à savoir également s’il existe un standard de codage pour ces niveaux d’alignement. L’alignement des couples de pages lui-même suppose une réflexion sur le travail de prétraitement des textes (sur la disposition formelle des textes notamment ). Une dernière phase concerne la mise au point des outils pour la collecte du lexique mis en correspondance dans les deux langues. Les correspondances observées seront comparées aux mots et termes des lexiques médicaux actuellement en cours.

    2004
  • Le moteur de recherche Google s’est imposé ces dernières années comme l’outil de recherche d’information le plus performant pour le grand public. Ce mémoire propose de tester la version japonaise du moteur et d’en analyser les faiblesses. Nous nous pencherons tout d’abord sur les problèmes que pose la pluralité des écritures : en quoi l’utilisateur peut il passer à côté de résultats pertinents en effectuant des requêtes dans une langue où jusqu’à 4 graphies différentes peuvent être utilisées dans un même corpus ? Vient alors la question de la segmentation en Japonais : comment le moteur réagit il face à une langue où les espaces n’existent pas ? Enfin, notre travail se terminera par une étude des ambiguïtés phonétiques et lexicales propres à la langue de Mishima : comment peut on améliorer le traitement des néologismes et des transcription phonétiques à partir d’autres langues ? Après avoir effectué plusieurs tests sur le moteur, nous analyserons les problèmes pour finalement proposer des méthodes et solution permettant d’améliorer la pertinence des résultats.

    2004
  • Puisque les chercheurs se concentrent plus sur les corpus bilingues, nous nous intéressons dans un premier temps à la situation des outils de traitement des corpus multilingues (plus de trois langues), y compris les langues slaves. Les outils pris en compte concernent l'alignement et l'extraction des termes, mais nous nous intéressons aussi aux concordanciers. Dans un second temps, nous appliquons les outils accessibles à notre corpus pour observer les occurrences extraites du corpus dans leur contexte immédiat et ensuite, l'alignement effectué pour analyser des équivalences en traductions. A l’avenir, le traitement de ce corpus pourrait aboutir à un lexique quadrilingue spécialisé en programmation.

    2004
  • Ce mémoire tente une analyse et une évaluation de l’utilisation de fonctions lexicales dans la constitution d’une ressource de collocations. Les fonctions lexicales utilisées s’inspirent des fonctions lexicales du Dictionnaire Explicatif et Combinatoire de Igor Mel’cuk et al. mais s’en éloignent. Ce travail explique la démarche adoptée pour la constitution de la ressource et évalue l’intérêt de l’utilisation des fonctions lexicales.

    2004
  • Ce mémoire présente une méthode de construction d'un lexique trilingue à partir de corpus. Nous utilisons un ensemble de documents juridique de l'OMC traduits dans les 3 langues. Nous examinons d'abord la définition du terme dans les trois langues, puis nous survolons les travaux déjà réalisés en acquisition automatique de terminologies à partir de corpus. Etant données les caractéristiques différentes des trois langues traitées, différents outils ont été utilisés dans le but d'automatiser l'étape d'extraction de termes. Durant la tâche d'acquisition de termes chinois, les complexités posées par cette langue sont mises en lumière.

    2004