Safir

nom du projet

Safir (Système multi-Agent de Filtrage d'Information sur les Réseaux)

type du projet

Safir est un projet national sélectionné dans le cadre de l'appel à propositions TIM '99 (Traiement de l'information multilingue sur les réseaux).

date debut - date fin

01/2000 - 12/2002
prolongation : 04/2003

objectifs

L'objectif de ce projet est de proposer un méta-moteur sémantique pour la recherche et le filtrage d'information sur des réseaux Internet et Intranet.

partenaires

  • LIP6
    Système multi-agent :
    • Coordinateur du projet
    • Responsable du système multi-agent
  • CRIM/INaLCO
    Création de terminologies :
    • Proposition d'une méthodologie pour la constitution de terminologies multilingues structurées
    • Création d'une terminologie multilingues structurées du domaine de la cogénération. Langues traitées : français, anglais, allemand
  • Xerox Grenoble
    Livraison d'outils linguistiques :
    • boite à outils Xelda (traitement automatique de langues : segmentation, étiquetage morpho-syntaxique, extraction de groupes nominaux),
    • méta-moteur de recherche AskOnce
    • module d'expansion de la requête Lirix
  • EDF
    Interface utilisateur :
    • Création de l'interface utilisateur (interrogation du moteur de recherche Safir)
    • fourniture des experts du domaine de la cogénération pour la validation et enrichissemnt de la terminologie
  • DIP system :
    • Réalisation de l'étude du marché sur les moteurs sémantiques de recherche d'information

    description du projet

    Le projet Safir a proposé de développer un logiciel visant à améliorer la recherche d'information sur les réseaux. L'application est conçue autour d'un contexte d'utilisation précis : un utilisateur francophone lance une requête assez vague, mais attend une réponse précise, focalisée sur son domaine d'activité.

    L'aide à l'utilisateur porte sur la formulation de la requête, la recherche d'informations multilingues (si cette option est demandée), la validation et le tri des résultats. La formulation de la requête est faite à travers une interface adaptée.

    L'outil répond aux besoins de la veille technologique. La connaissance propre au domaine investi est prise en compte à travers une terminologie de ce domaine. Le domaine étudié est la cogénération, une technique de production combinée d'électricité et de chaleur (vapeur, eau chaude).

    L'intégration d'outils linguistiques robustes et validés permet de traiter les requêtes et d'accroître la pertinence de l'information rapatriée en mode multilingue (français, anglais, allemand).

    role de crim dans le projet

    Le Centre de Recherche en Ingénierie Multilingue (CRIM) de l'INaLCO est responsable de la tâche de constitution d'une terminologie multilingue et structurée du domaine de la cogénération (une technique de production combinée de l'électricite et de la chaleur).
    Cette tâche pratique a donnée lieu à une réflexion profonde sur les méthodologies de constitution de telles terminologies à partir de documents textuels.

    Les méthodologies investies se placent dans l'approche de la terminologie textuelle telle que proposée par le groupe TIA (voir par exemple [D. Bourigault et M. Slodzian, TIA 1999]). Cette approche suppose que les informations nécessaires à la constitution de terminologies (termes et relations entre ces termes) peuvent être trouvées dans un corpus de documents produits dans le domaine étudié.

    Dans le cadre du projet Safir, la tâche globale de la constitution de terminologies a été décomposée en sous-tâches suivantes :

    1. Constitution de corpus.
    2. Exploration des corpus pour l'acquisition terminologique, prévalidation de résultats de cette acquisition.
    3. Exploration des corpus pour l'acquisition de relations entre les unités terminologiques, prévalidation de résultats de cette acquisition.
    4. Validation de candidats termes prévalidés et de relations entre ces candidats termes avec un expert du domaine.
    5. Exploration des corpus pour la détection d'équivalents multilingues de termes de la langue pivot et validation de ces propositions par des experts.

     

    Cette méthodologie a servi de base pour la travail de l'équipe du CRIM. Nous présentons ici quelques remarques concernant les différentes sous-tâches.

    La constitution du corpus a été amorcée avec une dizaine de mots clés qui nous ont été fournis par les consultants en information d'EDF (en particulier Martine Le Corroller). Ces mots clés ont servi pour constituer un premier corpus, que nous avons utilisé pour effectuer une première acquisition terminologique et élargir ainsi la liste de mots clés pour la constitution d'un corpus plus conséquent.
    C'est également à cette étape que nous avons établi un premier lexique trilingue (à partir de documents parallèles) pour la constitution de corpus dans les deux autres langues traitées : anglais et allemand.
    Ces listes de mots clés, enrichie pour le français, et constituées pour l'anglais et l'allemand, nous ont permis de collecter des textes relatifs au domaine de la cogénération sur l'Internet. Les textes ont été collectés sur l'Internet essentiellement parce que l'application finale est destinée à fonctionner sur l'Internet, mais aussi parce que c'est une source ouverte d'informations dont les domaines et les orientations sont très variées et riches.
    Le fait de pouvoir accéder à ces textes n'est pas sans défaut car les informations contenues dans ces textes ne sont pas de qualité technique et de spécificité domaniale égales. Ainsi, pour obtenir un corpus d'une meilleure qualité, d'une part nous avons enrichi le corpus avec des documents de ProDec (une base de données interne d'EDF) et d'autre part, nous avons effectué un travail sur l'homogénéisation des documents. L'homogénéisation a consisté en sélection de documents les plus représentatifs por notre tâche :

    • Détection de documents doublons et inclusions et leur élimination
    • Détection de pages de liens (non pertinentes si l'on vise l'acquisition terminologique) et leur élimination pour ne garder que les documents textuels
    • Etablissement de l'ordre de pertinence des documents qui permet de présenter les documents dans l'ordre décroissant de leur centralité par rapport au domaine : les documents les plus pertinents apparaissent en premiers

    Le corpus français ainsi pré-traité a été soumis pour la validation par l'expert de la cogénération d'EDF (Clément Boré). La validation a consisté à (1) définir si le document est pertinent ou non pour le domaine de la cogénération et, (2) s'il est pertinent, lui assigner un des sous-domaine distingué : écologie, économie, réglementation, technique.
    Les documents des deux autres corpus (anglais et allemand) ont également été homogénéisés. Clément Boré a catégorisé les documents du corpus anglais.
    A l'issue de cette sous-tâche, nous obtenons un corpus trilingue. Ce corpus comporte des textes parallèles (traductions réciproques) et des textes comparables (documents qui portent sur le même sujet).
    Pour préparer l'étape d'acquisition terminologique les documents HTML des corpus sont convertis au format texte, prétraités et formatés.

     

    Pour l'acquisition terminologique nous utilisons deux types d'outils :

    • pour le français : Lexter [D. Bourigault, TAL 1994]
    • pour l'anglais et l'allemand : module d'extraction de groupes nominaux de Xelda [Xerox]

    Les résultats d'acquisition terminologique dans chaque corpus sont prévalidés par les linguistes dans le but d'éliminer le bruit le plus grossier dû aux erreurs d'étiquetage et de segmentation en groupes nominaux. Notons que cette étape de prévalidation, et de validation de candidats termes en général, reste le "point noir" de l'approche et correspond à sa lourdeur principale. Elle mériterait donc d'être approfondie et constitue une des perspectives de ce travail.
    Un travail séparé a été réalisé pour la détection d'entités nommées (villes, sociétés, associations, unités de mesure, etc.). Pour le faire, nous sommes parties des résultats obtenus avec Semtex [T. Poibeau, thèse 2001] que nous avons nettoyés, affinés et enrichis.

     

    Pour l'acquisition de relations candidates nous avons exploité le corpus de documents en français. La structure qui émerge de ce corpus est ensuite adaptée à deux autres langues.
    Nous avons combiné plusieurs outils :

    • Synoterm [T. Hamon, thèse 2000] pour la détection de relations de synonymie
    • Patrons lexico-syntaxiques de Caméléon [P. Séguéla, thèse 2001] pour la détection de relations hiérarchiques, méronimiques, synonymiques, etc.
    • Inclusions lexicales [N. Grabar et P. Zweigenbaum, COMPUTERM 2002] pour la détection de relations hiérarchiques et transversales

    Les résultats générés avec chaque outil ont dus être filtrés. Comme pour l'acquisition et prévalidation de candidats termes, le filtrage et prévalidation de relations candidates s'avère être une tâche très lourde. Une assistance automatique de cette tâche serait une aide très appréciable. Ceci constitue une autre perspective du travail.
    Les relations détectées sont variées. Nous avons distingué les relations suivantes :

    • Relations taxinomiques : relations hiérarchiques (est-un) et partitives (partie-de). Ces relations servent pour construire la colonne vertébrale de la terminologie.
    • Relations lexicales : relations synonymiques et antonymiques. Les relations de synonymie servent pour l'expansion de la requête. Les relations d'antonymie sont utiles si une négation (exclusion) est nécessaire dans la formulation de la requête.
    • Relations transversales : relations propres au domaine, par exemple produit, consomme, règle, punit, augmente, protège, etc. Dans ce projet, les relations transversales n'étaient pas connues à l'avance. Leur détection est devenue possible grâce à une conceptualisation progressive.

     

    La validation des candidats termes et de relations candidates acquises lors des deux étapes précédents est effectuée avec Clement Boré (département SPE d'EDF), expert du domaine de la cogénération. Pour des sous-domaines ponctuels de la cogénération (moteur à combustible, biomasse, secteurs d'activité, etc) nous avons solicité d'autres experts dont le travail a été intégré par Clément Boré.
    Afin que la validation des candidats termes puisse tenir compte de toute l'information disponible et pour ne pas mobiliser trop l'expert, nous avons décidé d'effectuer la validation des candidats termes et des relations candidates en même temps.
    Si la validation des candidats termes peut aisément être faite sous forme de liste, pour la validation des relations candidates une présentation graphique est préférable. Nous avons choisi l'outil WorldTrek Edition [EDF] pour cette tâche, il offre les possibilités suivantes lors de la validation et constitution de la terminologie :

    • Validation des candidats termes et des relations candidates
    • Modification des candidats termes et des relations candidates existants
    • Ajout des termes et des relations
    • Suppression des termes et des relations
    • Gestion des termes avec des espaces de travail

    Ces fonctions peuvent être effectuées dans la table de termes ou bien dans lors de la visualisation des relations entre termes sous forme de graphe.
    L'objectif de WorldTrek Edition est d'aider la constitution de terminologies à travers une édition graphique et en liste de ces terminologies. WorldTrek Edition n'effectue aucun contrôle sur les termes ni les liens entre ces termes : aucun formalisme logique n'étant implémenté.

     

    La consitution de terminologies multilingues passe par l'alignement des équivalents multilingues des termes. L'alignement des termes peut être fait avec des corpus parallèles ou bien des corpus comparables. Dans les deux cas, de grands corpus permettent d'acquérir les alignements de termes plus fiables. On distingue deux contextes d'alignement : mots simples et termes complexes.
    La spécificité de notre travail fait que nous avons besoin d'aligner les termes complexes à partir de petit corpus (le domaine exploré étant un domaine émergeant).
    Pour commencer le travail, nous utilisons les corpus parallèles avec lesquels nous cherchons à projeter et à aligner les candidats termes prévalidés.

    stages, communications et publications

    Le projet Safir a donné lieu à plusieurs stages effectués par les étudiants du CRIM. Nous les remercions de leur aide et présentons brièvement les aspects qu'ils ont traités :

    • Sophie Berland (mai 2000 - mars 2001) :
      • Collecte des documents concernant le domaine de la cogénération sur l'Internet pour les trois langues traitées (français, anglais, allemand).
      • Filtrage et homogénéisation des corpus pour l'acquisition terminologique

      Constitution de corpus à partir du Web pour l'acquisition terminologique : une expérience. Sous la direction de Benoît Habert. Mémoire de DESS en Ingénierie Multilingue, CRIM/INaLCO, année universitaire 1999 - 2000

    • Thomas Beauvisage (mai 2000 - juillet 2000)
      • Réalisation d'une évaluation de la boîte à outils Xelda de Xerox

      Évaluation du logiciel Xelda (Xerox Linguistic Development Architecture) dans le cadre du projet Safir. Rapport de stage.

    • Céline Kaléka (juin 2000 - juillet 2000)
      • Préparation de ressources pour la constitution de corpus anglais et allemands :
        exploitation des corpus parallèles pour la recherche d'équivalent des termes français dans les textes anglais et allemands
    • Magali Antic (mai 2001 - juillet 2001)
      • Exploitation de bases de données utilisées par les experts et consultants en information d'EDF pour l'enrichissement de corpus (français et anglais)
      • Prévalidation des candidats termes français

      Rapport de stage.

    • Blandine Jeannin (septembre 2001 - juin 2002)
      • Filtrage supplémentaire des candidats termes français
      • Filtrage des relations candidates entre les candidats termes français générées avec :
        • Synoterm (Thierry Hamon) : relations de synonymie
        • Patrons lexico-syntaxiques de Caméléon (Patrick Séguéla) : relations hiérarchiques, méronimiques, de synonymie
        • Inclusions lexicales (Natalia Grabar et Pierre Zweigenbaum) : relations hiérarchiques, relations transversales
        • Participation à la prévalidation des candidats termes anglais

      Structuration des termes de la cogénération en français. Rapport de stage.

    • Krisina Haag (mai 2002 - août 2002)
      • Exploitation des corpus parallèles du corpus pour l'acquisition d'équivalents des candidats termes français en anglais et en allemand

      Constitution d'une Terminologie Multilingue français - anglais - allemand. Application au Domaine de la Cogénération Sous la direction de Monique Slodzian et Natalia Grabar. Mémoire de DESS en Ingénierie Multilingue, CRIM/INaLCO, année universitaire 2001 - 2002

    • Amélie Gautier (mai 2002 - mars 2003)
      • Apport de relations transversales pour la recherche d'information
      • Participation dans la validation de candidats termes et de relations candidates en français

      L'apport des relations transversales à la recherche d'information. Une expérience dans le cadre du projet Safir. Sous la direction de Natalia Grabar. Mémoire de DESS en Ingénierie Multilingue, CRIM/INaLCO, année universitaire 2001 - 2002

     

    Publications faites dans le cadre du projet Safir

    Natalia Grabar & Sophie Berland.
    Construire un corpus Web pour l'acquisition terminologique.
    Terminologie et Intelligence artificielle (TIA), 3-4 mai 2001.

    Sophie Berland & Natalia Grabar.
    Assistance automatique pour l'homogénéisation d'un corpus Web de spécialité.
    Journées internationales d'Analyse statistique des Données Textuelles (JADT), Saint-Malo, 13-15 mars 2002.

    Natalia Grabar & Bladine Jeannin.
    Contribution de différents outils à la construction d'une terminologie pour la recherche d'information.
    Ingénierie de la Connaissance (IC), Rouen, 28-30 mai 2002.

    Natalia Grabar & Kristina Haag.
    Des textes parallèles vers une terminologie trilingue.
    Terminologie et Intelligenec artificielle (TIA), Strasbourg, 31 mars - 1 avril 2003.
    A paraître.

    Natalia Grabar & Thierry Hamon.
    Les relations dans les terminologies structurées : de la théorie à la pratique.
    Revue d'intelligence artificielle (RIA).
    Sous presse.

     

    perspectives

    Le projet Safir a permis à l'équipe du CRIM de mener de bout en bout une tâche de constitution d'une terminologie multilingue et structurée à partir de corpus et de voir ainsi en pratique les faiblesses et les points forts de l'approche textuelle. Cette approche s'est avérée efficace pour la constitution de telles terminologies. Il serait intéressant de creuser ces points faibles (validation des données induites automatiquement) afin de rendre la tâche de constitution de terminologies à partir de corpus plus accessibles aux chercheurs et industriels.
    Les expériences dans la détection de relations transversales, l'étude de leur nature, de comportement linguistique et de leur validité d'un expert à l'autre et d'une application à l'autre constituent une autre perspective intéressante.
    Le côté très intéressant était la collaboration avec une équipe d'informaticiens (LIP6) qui ont intégré le produit terminologique dans le méta-moteur de recherche.
    Une autre perspecive concerne l'évaluation de ce produit terminologique pour la recherche d'information, en particulier en ce qui concerne l'utilisation et l'apport de relations transversales.