Mémoires 2006-2007

  • Nous présentons une méthode originale pour la reconnaissance de la structure grammaticale «shi...de» couramment utilisée à l'oral en chinois contemporain.

    Le problème est abordé sous l'angle de la catégorisation automatique. Nous décrivons les éléments linguistiques qui permettent la définition des critères de reconnaissance de la structure «shi...de». Nous détaillons l'ensemble du processus de conception du classificateur : constitution de corpus, apprentissage et test. Nous utilisons les Machines à à Vecteur Support (SVM) pour mettre au point le classificateur de structure «shi...de».

    2007
  • Catégorisation, Chinois contemporain, Structure "shi...de", Langue parléeNous présentons une méthode originale pour la reconnaissance de la structure grammaticale «shi...de» couramment utilisée à l'oral en chinois contemporain. Le problème est abordé sous l'angle de la catégorisation automatique. Nous décrivons les éléments linguistiques qui permettent la définition des critères de reconnaissance de la structure «shi...de». Nous détaillons l'ensemble du processus de conception du classificateur : constitution de corpus, apprentissage et test. Nous utilisons les Machines à à Vecteur Support (SVM) pour mettre au point le classificateur de structure «shi...de».

    2007
  • Elaboration d'une terminologie de la conception web simple, fonctionnelle et accessible au plus grand nombre, à partir d'un corpus de textes bilingues.
    La partie théorique est complétée par l'élaboration d'un site visible sur la toile.
    Ce mémoire allie recherche la recherche d'information à l'ingénierie multilingue.

    2007
  • Ce mémoire présente la construction d'une nouvelle ressource lexicale dans le cadre du projet DIXEM (ATILF).

    Nous montrons en quoi ce lexique est alternative et complémentaire aux ressources existantes et quelles sont les utilisations envisagées. Nous présentons aussi de manière succincte les aspects de notre cadre théorique majeur (i.e. la sémantique textuelle) qui sont directement liés à la construction de la ressource.

    La partie principale est consacrée à la description des stratégies mises en œuvre pour normaliser et structurer les données (semi)brutes issues de la conversion du TLFi.

    La normalisation consiste surtout à regrouper les formes morphologiquement apparentées utilisées pour désigner les traits sémantiques des unités lexicales.

    La structuration s'applique aux définitions lexicographiques. L'objectif est de récupérer le plus possible l'information sémantique encodée dans les structures formelles des définitions.

    A la fin, nous décrivons quantitativement les résultats obtenus et nous donnons quelques exemples de sémèmes pour illustrer le travail 
    effectué.

    2007
  • Les systèmes de dialogue homme machine tout public par téléphone, connus sous le nom de serveurs vocaux interactifs, ont bénéficié ces dernières années des progrès en reconnaissance vocale.

    Cependant, les systèmes les plus robustes fonctionnant sur des modèles statistiques et nécessitant de constituer des corpus conséquents difficilement réutilisables d'une application à une autre, leur réalisation reste longue et coûteuse. Afin de réduire ce problème, ce mémoire proposera une méthode basée sur la génération automatique d'un corpus d'apprentissage, reposant très fortement sur le formalisme des grammaires d'arbres adjoints (TAG).

    Les domaines d'application très restreints des serveurs vocaux interactifs se prêtent en effet très bien à la génération automatique (GAT). Ce sera aussi pour nous l'occasion de présenter de manière générale le dialogue homme-machine et la GAT.

    2007
  • Le propos de cette expérimentation est d’établir un lexique français – anglais à l’aide d’outils textométriques.

    Après une brève exploration des méthodes de textométrie pure dans une optique d’extraction terminologique, cette expérimentation portera plus particulièrement sur une approche hybride alliant textométrie et filtrage morphosyntaxique. Il sera alors procédé à un étiquetage morphosyntaxique du texte source afin d’effectuer sur celui-ci une extraction de syntagmes français selon des patrons morpho-syntaxiques choisis.

    Des termes relevant du domaine de la sécurité internationale seront ensuite sélectionnés parmi ces instances de patrons français puis leurs équivalents traductionnels seront recherchés dans le texte cible anglais, préalablement aligné au texte source français.

    2007
  • Après une brève introduction au domaine de la recherche d’information, nous nous intéresserons à l’un de ses sous-domaines, la recherche d’information multilingue.

    Nous étudierons dans un premier temps les systèmes les plus aboutis dans le domaine. Nous examinerons les obstacles qui empêchent ces outils de coupler une requête avec un document cible. Nous verrons ensuite comment les corpus multilingues, source de terminologies, interviennent dans le processus de désambiguïsation et de traduction automatique des requêtes.

    La seconde partie sera centrée sur un utilisateur de ces technologies en particulier, le traducteur. Nous décomposerons ses démarches et décrirons pour quels besoins il a recours aux moteurs de recherche interlingues et multilingues. En portant une attention particulière à la traduction spécialisée, nous verrons à travers quelques exemples concrets les limites des outils de recherche documentaire sur l’intranet et sur l’Internet. Nous proposerons en outre quelques techniques de recherche. Nous rapprocherons les mécanismes de telles applications des mécanismes de la TAO. Par la suite nous aborderons la question de la fiabilité des résultats des recherches que récolte l’interrogation des outils.

    Enfin, nous suggérerons quelques axes de réflexion, notamment un outil dans le poste de travail du traducteur qui combinerait la fonction d’un outil de TAO et celle d’un moteur de recherche interlingue et multilingue.

    2007
  • Ce mémoire a pour objectif la conception d'un outil d'aide à la construction d'une ontologie des entités nommées (EN) pour une application en désambiguïsation sémantique.

    C'est un outil qui s'appuie sur les données structurées de Wikipedia, ayant pour fonction d'extraire des faits (entités et relations entre ces entités), de les injecter dans une base de données pour permettre de les interroger, et enfin de proposer des étiquettes à adjoindre aux entités qui aideront à les conceptualiser.

    2007
  • Le présent travail présente une approche linguistique d’une nouvelle pratique sur Internet, le networking social professionnel. Notre étude est basée tout particulièrement sur des observations relatives au fonctionnement, à la structure et au contenu des sites de réseaux sociaux pour les professionnels.

    Elle est accompagnée d'une analyse de corpus et d'une exploration lexicométrique par Lexico 3 dont les résultats nous ont permis d’établir un lexique bilingue.

    2007
  • Le but de ce projet était d'automatiser l’extraction d’entités nommées en japonais afin de faciliter leur reconnaissance dans une autre langue et ce, dans le cadre d’un alignement textuel.
    L'outil créé prend donc en entrée un couple de textes alignés japonais-langue2 et effectue l'extraction des entités en japonais. L'utilisation de l'unicode pour les traitements et l'affichage autorise l'utilisateur à choisir en langue2 la langue de son choix.
    Un affichage sous forme de tableau html permet ensuite à l'utilisateur de visualiser les phrases japonaises contenant ces entités surlignées ainsi que les phrases équivalentes dans la deuxième langue.

    2007
  • L'indexation s'inscrit dans le domaine de la documentation et plus particulièrement de la recherche d'information.

    C'est un champ trés large dans lequel l'indexation manuelle a dû laisser sa place à l'indexation automatique, plus rapide et économique. Pourtant, certaines difficultés inhérentes au language naturel n'ont pas pu être contournées. L'indexation automatique semble n'être accéssible que grâce à des logiciels performants.

    L'indexation du projet Graine de Genie propose un autre mode d'accès à l'indexation automatique tout en introduisant l'aspect pédagogique. En effet, un index destiné à un jeune public ne tiendra pas compte des mêmes exigences qu'un autre, employé par des adultes.

    2007