Princip

Plateforme pour la Recherche, l'identification et la Neutralisation des Contenus Illégaux et préjudiciables sur l'internet

type du projet

Projet européen du Safer Internet Action Plan

date debut - date fin

01/2002 - 07/2004

partenaires

- CRIM-INaLCO (France)
- Dublin City University, (Irlande)
- Universität Otto-von-Guericke, Magdeburg (Allemagne)
- Laboratoire d'Informatique de Paris 6 (France)
- ADI Informatik-Akademie gGmbH (Allemagne)
- Ligue des Droits de l'Homme (Belgique)

objectifs

Mise au point un système de détection automatique des contenus racistes et révisionnistes sur Internet à base de règles linguistiques.

description du projet

Le projet PRINCIP (Plateforme pour la Recherche, l'Identification et la Neutralisation des Contenus Illégaux et Préjudiciables sur l'internet) répond à l'appel d'offre Safer Internet Action Plan Project de l'Union Européenne.

Il s'agit de réaliser un système multilingue (anglais, allemand, français) de détection des documents racistes et révisionnistes sur Internet, visant à pallier les insuffisances des systèmes de filtrages ordinaires reposant, le plus souvent, sur une liste de mots-clés ou sur un catalogue figé d'adresses interdites.

Les linguistes associés à ce projet ont pour tâches de caractériser l'écriture raciste et xénophobe, et de constituer une base de connaissance qui sera encapsulée dans un système Multi-Agent (SMA) développé par le Laboratoire d'Informatique de Paris 6 (LIP6).

Le racisme présente la particularité de ne pas relever d'une thématique, ou d'une ontologie particulière. Les cibles et les sources varient selon les époques, les cultures, les langues. Par ailleurs, la présence sur Internet de sites antiracistes complique le travail de détection dans la mesure où les auteurs antiracistes recourent abondamment à la citation. En bref, les méthodes d'analyse classiques (du type extraction d'une terminologie spécifique) se révèlent impropres à la caractérisation linguistique du racisme.

Les solutions mises en place dans le cadre du projet PRINCIP visent à contourner ces difficultés en recourant à une analyse différentielle des textes racistes et antiracistes pris dans leur globalité (c'est-à-dire pas seulement au niveau lexical) de manière à mettre en évidence les spécificités de ces différents discours, indépendamment des thèmes abordés.

Les tâches des linguistes sont :

- La constitution de corpus d'apprentissage (janvier 2002 - juillet 2003),
- L'analyse logicielle des corpus (août 2002 - janvier 2003),
- La constitution d'une base de connaissance linguistique (décembre 2002 - février 2004),
- La mise au point des règles d'implémentations de la base de connaissance, en collaboration avec le LIP6 (février 2003 - juillet 2004).

rôle de crim dans le projet

Le CRIM est à l'initiative du projet. Deux mémoires de DESS des promotions 2000 et 2001 ont servi de base à la constitution d'une problématique et à l'esquisse d'une méthodologie d'analyse. Le projet a ensuite été proposé au Laboratoire d'Informatique de Paris 6 (LIP6) avec lequel le CRIM a déjà eu l'occasion de s'associer, puis à d'autres organismes scientifiques européens.

Les auteurs racistes sur l'Internet francophone ont l'habitude de manier l'euphémisme, et l'implicite, pour ne pas tomber sous le coup de la législation française contre le racisme (essentiellement les lois du 29 juillet 1881 et du 1er juillet 1972). Cette rhétorique rend difficile une détection par simples mots-clés, d'autant plus que ceux-ci donnent également accès aux sites consacrés à la lutte contre le racisme et le révisionnisme qui pratiquent la citation pour démonter les arguments de leurs adversaires.

Pour contourner cette difficulté, les linguistes du CRIM s'inspirent de la méthodologie mise en place par François Rastier et son équipe de recherche dans le cadre de la sémantique interprétative et différentielle. L'enjeu est de caractériser en les contrastant les textes racistes et les textes antiracistes.

Dans le cadre de PRINCIP, le CRIM développe une méthodologie d'analyse globale des contenus sur Internet où sont pris en compte les différents éléments métatextuels qui constituent, en plus du texte proprement dit, la page web. (étude de la structure HTML des documents, typologie et description sémantique des images).

communications et publications

  • François Rastier, Natalia Grabar, Thomas Beauvisage, Caractérisation des contenus de l'Internet : au-delà du lexique, l'approche sémantique, journée d'étude de l'ATALA, 31 janvier 2004.

  • Mathieu Valette, « Détection et interprétation automatique de contenus illicites et préjudiciables sur Internet. L'exemple de la plate-forme PRINCIP » (en lecture – en ligne sur Texto!)

  • Mathieu Valette and Natalia Grabar, « caractérisation de textes à contenus idéologiques: statistique textuelle ou extraction de syntagme ? l'exemple du projet PRINCIP ». 7èmes Journées internationales d'Analyse statistique des Données Textuelles (JADT 2004), 10-12 mars 2004 (à paraître)

  • Romain Vinot, Natalia Grabar, Mathieu Valette, 2003, « Application d'algorithmes de classification automatique pour la détection des contenus racistes sur l'Internet » TALN 2003, Batz-sur-Mer (France), 11-14 juin 2003.

perspectives pour l'INaLCO et le CRIM

Avec PRINCIP, le CRIM acquiert un savoir-faire en matière de caractérisation des contenus de l'Internet d'une part, et en matière de détection automatique d'autre part. PRINCIP jette les bases d'une veille d'un nouveau type, d'avantage attentive à la nature textuelle des informations.

Des études ont été réalisées (ou sont en cours de réalisation) à la croisée du projet de recherche européen, des travaux scientifiques menés par les chercheurs associés au CRIM, et de la formation professionnelle qui y est proposée (DESS Ingénierie Multilingue et Traductique et gestion de l'information) : Typologie et description sémantique des images utilisées dans les sites racistes, exploration de champs connexes (caractérisation du racisme lusophone, caractérisation du discours sectaires, analyse du discours homophobe).