Genres et discours

La demande sociale portant massivement sur les besoins documentaires et traductionnels, les ressources que l’on cherche majoritairement à constituer concernent les terminologies scientifiques et techniques. Jusqu’à une date récente, il était aisé de recueillir un corpus de textes spécialisés, de taille limité, préalablement indexé par des documentalistes avant de mettre en œuvre l’extraction des termes d’un domaine après un rapide typage discursif. Cette approche est révolue. Dès lors que l’on constitue son corpus à partir du Web, l’hétérogénéité des textes (résumés, index, textes traduits, fragments hybrides, etc.), jointe à la difficulté à en identifier la source et l’auteur (type discursif), demande d’autres propositions si l’on veut caractériser les documents en vue de leur sélection. Ces questions, que nous avons déjà affrontées lors du projet Princip, constituent à nos yeux un chantier prioritaire.

La manière dont il y sera répondu concerne directement les enjeux du filtrage d’informations et plus généralement la constitution de données pertinentes pour plusieurs classes d’application.

Le débat actuel sur la création d’ontologies pratiques autour du Web sémantique peut être considéré comme un versant du même problème. En mettant les textes au centre de nos travaux, nous nous mettons en situation de dépasser le simplisme d’une ingénierie linguistique ayant le mot isolé pour seul horizon.