VIGITERMES

L'objectif du projet VIGITERMES est de concevoir une plate-forme informatique permettant la détection automatique des effets secondaires des médicaments dans les documents médicaux. L'objectif spécifique de l'équipe ER-TIM est de réaliser un plug-in permettant, en cas de silence de la plate-forme, d'interroger des textes médicaux en japonais.

Type du projet

Projet ANR/Décision ANR-07-TECSAN-026-09/PC
 

Durée du projet

Janvier 2008 - Décembre 2009
 

Partenaires

-DSPIM
-SPIM
-LIM (Rennes)
-Laboratoire d’Informatique Médicale & Bio-Informatique (LIM&BIO) EA3969, UFR SMBH, Université de Paris 13
-CRPV - HEGP
-TEMIS
-MONDECA
-LORIA
-ER-TIM
-WHO-UMC

 

Responsables du projet

 

Slodzian
Daube
Marchal
Terrail-Lormel
Ishibashi
Tomimitsu

 

Objectifs

L'objectif du projet VIGITERMES est de concevoir une plate-forme informatique permettant la détection automatique des effets secondaires des médicaments dans les documents médicaux. L'objectif spécifique de l'équipe ER-TIM est de réaliser un plug-in permettant, en cas de silence de la plate-forme, d'interroger des textes médicaux en japonais.
 

Description du projet

L'objectif est de faciliter le travail des médecins pharmacovigilants, qu'ils soient issus du secteur pharmaceutique ou des agences nationales de sécurité du médicament, confrontés à des masses de documents concernant la pharmacovigilance. Ces documents peuvent être ceux transmis par les entreprises pharmaceutiques (résumé des caractéristiques produit), ceux traitant des effets indésirables déjà enregistrés (Bases de Données) ou des documents publiés (revues médicales). La fouille de tels documents doit permettre d'améliorer le repérage automatique d'un effet indésirable, en particulier en confrontant les documents aux ressources lexicales et terminologiques existantes en pharmacovigilance (RCP par exemple). 4 livrables sont prévus :

  • WP1: Evaluation, amélioration et validation des ressources terminologiques actuelles (WHO-ART, MedDRA, ATC) - Evaluation des ressources terminologiques liées aux effets indésirables, obtenues par extraction de connaissances à partir de UMLS et règles morpho-syntaxiques - Conception de nouvelles ressources terminologiques portant sur les effets indésirables, fondées sur des regroupements de médicaments possédant les mêmes propriétés toxicologiques

     

  • WP2: Aide à l'accès aux rapports patients - Accès automatique aux nouveaux articles médicaux concernant la pharmacovigilance à partir du serveur PUBMED - Modélisation des effets indésirables pour faciliter l'accès aux informations médicaments (comme le résumé des caractéristiques produit)

     

  • WP3: Inférences à partir des rapports patients - Construction d'une ontologie à partir de rapports patients - Extraction d'information à partir de textes (rapports patients, articles médicaux) - Ingénierie multilingue appliquée à des documents écrits en français, anglais et japonais

     

  • WP4: Construction d'une plate-forme d'intégration - Intégration à Intelligent Topic Manager (ITM , la plate-forme de gestion des connaissances de Mondeca construite à partir des modèles terminologiques construits en WP1) - Intégration des outils de TAL construits en WP2 et WP3 - Intégration de l'outil d'analyse de données et de détection du signal PharmaMiner mis au point dans des projets antérieurs(ACI Masses de Données, projet EI-Xplore) - Intégration de l'outil Pharm’ARTS facilitant l'accès aux ressources de phramacoviliance par regroupement de rapports patients grâce à l'ontologie mise au point en WP1 - Le plan d'exploitation de la plate-forme sera fait durant la phase d'intégration

 

Rôle de ER-TIM/CRIM dans le projet

Le Centre de Recherche en Ingénierie Multilingue (CRIM) de l’INaLCO est responsable d’un module spécifique de la plate-forme VIGITERMES : celui qui permettra l’interrogation d’articles scientifiques en japonais au cas où les interrogations des médecins pharmacovigilants en français et en anglais resteraient muettes.
Le CRIM a donc d’abord lancé une étude sur les sources d’information pertinentes en matière de pharmacovigilance au Japon et s’est intéressé à leur mode de classement (partie du corps concerné par ex.). Parallèlement, le CRIM a entrepris une étude des ressources terminologiques bilingues disponibles au Japon en matière de pharmacovigilance (de façon à traduidre les requêtes des médecins phramacovigilants de et vers le japonais). Enfin, le CRIM a lancé une étude linguistique sur les articles médicaux issus de PUBMED et écrits en japonais, de façon à pouvoir formaliser l’interrogation de ces textes. La livraison du livrable sur le « text mining en japonais » en septembre 2008 a permis de cerner les difficultés présentées par la langue japonaise dans le cadre de l’analyse automatique : en particulier les problèmes de transformation de documents pdf vers des documents au format texte, les problèmes de segmentation inhérents à une langue où il n’y a pas d’espace entre les « mots » et le repérage précis dans les textes de la notion d’effets secondaires.
A partir de là, notre contribution au projet a pris une dimension plus applicative : nous avons réuni un certain nombre de données lexicales et terminologiques permettant de repérer dans les textes en japonais un certain nombre d’entités intéressant la pharmacovigilance, en particulier les données bilingues (français/japonais) de l’UMLS. Nous avons alors construit une première application qui permet le repérage automatique dans les textes des données de l’UMLS, avec la traduction en français. L’idée est de permettre à des médecins pharmacovigilants français de connaître rapidement la présence ou l’absence d’informations médicales susceptibles de les intéresser dans les textes japonais. Parallèlement à cette dimension applicative, nous continuons à annoter à la main une dizaine de textes médicaux en japonais pour y repérer les informations intéressant la phramacovigilance (sexe et âge du patient, début du traitement, fin du traitement, dosage, etc.). Ce travail manuel permettra d’avoir un étalon. Les mêmes textes seront ensuite annotés avec l’application décrite ci-dessus et les differences entre annotation manuelle et annotation automatique permettront de mesurer la qualité des ressources lexicales et terminologiques réunies et de proposer des solutions linguistiques pour pallier leurs déficiences.
La troisième étape permettra la mise en oeuvre d'une vraie analyse linguistique, allant au-delà de la simple correspondance entre terminologies et textes. Des règles spécifiques permettant de trouver dans les textes des informations sur des éléments non stables (comme la durée du traitement ou les antécédents du patient) seront implémentées dans le prototype, en utilisant les outils déjà disponibles (Chasen).
 

Communications et publications

 

Perspectives

  • Des contacts ont déjà été établis avec Sanofi-Aventis pour la mise à disposition de l'outil, appliqué à des tâches de repérage de noms de médicaments.