Doctorat

Au sein de l'équipe ERTIM, la recherche doctorale se situe au carrefour des problématiques traditionnelles du laboratoire : le multilinguisme, l'ingénierie linguistique, le document électronique décliné sur différents supports (web, mobile, etc.).
La plupart des doctorants actuellement en thèse sont financés dans leurs travaux par des entreprises partenaires (ARISEM, AMI Software) par l'intermédiaire de bourses CIFRE, par des contrats de recherche ou des financements type ATER.
Plusieurs étudiants en doctorat sont actuellement en thèse au sein de l'équipe ERTIM , voici leurs travaux :

Détection de personnes influentes dans une sélection de médias sociaux
Kevin Deturck (date de soutenance prévue : 2020)
Codirection de Recherche : Mathieu Valette, Frédérique Segond et Damien Nouvel

Résumé :
Dans cette thèse, nous développerons un cadre théorique pour identifier automatiquement les personnes influentes dans les médias sociaux à partir de leurs manifestations en termes d’interaction avec les autres utilisateurs et de leur profil aux traits particuliers.
Globalement, les approches à la détection d’influence se distinguent par le type de données auquel elles s’intéressent : structurées ou non structurées. Le cadre théorique retenu pour notre thèse a la particularité de combiner ces deux types de données pour tenter d’en obtenir la meilleure complémentarité et monter le système le plus performant. Nous traduirons les traits généraux de l’influenceur d’une part en des marqueurs discursifs qui demandent d’analyser des données non structurées comme le texte, d’autre part en des caractéristiques structurelles qui feront appel à des données structurées comme les métadonnées.
Notre thèse s’inscrit dans un contexte de TAL sur le français et les corpus déjà disponibles sont en français, nous travaillerons donc majoritairement sur cette langue. Toutefois, nous veillerons à ce que les modèles implémentés puissent être adaptés dans un contexte multilingue ; les technologies des médias sociaux restent les mêmes quelle que soit la langue des messages.
Nos travaux pourront s’intégrer dans deux projets déjà amorcés à Viseo Technologies : l’un traite de l’enrichissement d’outil CRM (Customer Relationship Management) en y ajoutant les consommateurs les plus influents, l’autre a pour but la détection du recrutement des jeunes par les djihadistes, ajoutant une dimension politico-sociétale à l’application commerciale du projet.
Les médias sociaux sont cruciaux pour le dynamisme des interactions entre leurs utilisateurs et donc l’influence qui peut s’y manifester. Notre projet permettra de mieux appréhender les mécanismes pour la transmission d’information sur ces supports.

Elaboration d’une terminologie localisée pour l’aide à l’accès au droit des migrants hindiphones, ourdouphones et pendjabiphones
Bénédicte Diot-Parvaz (date de soutenance prévue : 2019)
Codirection de Recherche : Annie Montaut et Mathieu Valette

Résumé :
Nul n’est censé ignorer la loi. Il est pourtant souvent difficile de comprendre le droit, discipline à la réputation absconse, surtout lorsqu’on est migrant dans un pays dont on ne maîtrise ni la langue, ni les codes culturels. Concerné par la garantie des droits du justiciable, l’Etat français prévoit la mise à disposition d’interprètes et de traducteurs pour ceux, défendants, plaignants ou victimes, qui ne comprennent pas le français afin de les intégrer au processus judiciaire. Le droit est un domaine technique qui impose un double niveau d’interprétation : heuristique (interprétation des textes) et sociolinguistique (d’une langue et d’un système culturel à l’autre), ce dernier aspect imposant l’adaptation du message pour en faciliter la compréhension par le public. Ce projet de thèse s’inscrit dans la continuité d’un master professionnel TRM et d’un master recherche en sciences du langage ciblant les communautés parlant le hindi, l’ourdou ou le pendjabi afin de leur rendre le droit accessible et faciliter leur intégration. En effet, si les populations venues d’Asie du Sud connaissent un contexte juridique empreint de common law (système anglo-saxon) et de droit coutumier spécifique à chaque religion pour le droit personnel (droit de la famille en général), de nombreux concepts du droit français leur semblent inintelligibles. Quelques pays à forte tradition migratoire dont le Canada ont toutefois développé des ressources et des techniques d’aménagement terminologique ou localisation terminologique. Par un travail de collection et d’étude de corpus du domaine judiciaire ainsi que d’une adaptation de la terminologie tenant compte des facteurs socio-culturels et linguistiques mis en jeux chez ces population migrantes, ce projet vise la production d’un dictionnaire qui servira d’interface entre les populations migrantes concernées et les intervenants sociaux.

Fréquence lexicale et lisibilité de textes en L2 : une étude comparative de textes birmans et anglais
Jennifer Lewis-Wong (date de soutenance prévue : 2018)
Codirection de Recherche : San San Hnin Tun et Mathieu Valette

Résumé :
Pour les apprenants comme pour les enseignants, les informations sur la fréquence lexicale des mots d’un texte, son ​​
profil lexical, permettent d’évaluer la difficulté relative des vocables à l’intérieur d’un texte. Ces informations peuvent s’utiliser pour calculer un indice de lisibilité, fournissant ainsi un moyen pratique de choisir automatiquement un texte qui correspondrait aux compétences linguistiques de l’apprenant en L2. Nous proposons d’examiner l’apport de la fréquence lexicale à l’évaluation du niveau de difficulté de textes pour les textes en birman. Nous testerons la méthode sur un corpus de textes en anglais déjà classifiés par niveau de difficulté avant de l’appliquer aux textes birmans de façon à avoir une base de comparaison. Ceci nous permettra non seulement d’élaborer une liste de fréquence lexicale de la langue birmane, mais aussi un dispositif qui fournira à la fois le profil lexical d’un texte en birman et un indice de lisibilité indiquant son niveau de difficulté.

Développement des méthodes linguistiques pour la fouille d’opinion en chinois (pour l’application XXX du Systran)
Liyun YAN (date de soutenance prévue : 2018)
Directeur de Recherche : Mathieu Valette Co-encadrant : François Stuck

Résumé :
La fouille d’opinion intéresse à la fois la recherche académique et l’industrie. Son application au chinois apparaît nécessaire compte tenu de la croissance des masses de données sur internet et de l’insuffisance des recherches actuelles sur cette langue, par rapport aux langues européennes par exemple. Dans le cadre de l’entreprise, l’objectif de la fouille d’opinion est de développer des applications avec lesquelles les entreprises ou les clients peuvent obtenir une analyse synthétique des commentaires d’internautes permettant d’identifier leurs états subjectifs relatifs à des événements, objets, personnes, etc.
À partir de l’état de l’art, j’envisage d’adopter les méthodologies qui ont fait leur preuve dans les recherches existantes et d’innover en matière de méthodes linguistiques dans la lignée de travaux de sémantique effectués notamment à l’ERTIM. À travers des expérimentations variées, la solution validée sera intégrée à l’application du l’entreprise Systran dans laquelle je réaliserai ma thèse. Le corpus de l’expérimentation est constitué des commentaires du site Booking qui fournit des services du voyage, des hôtels et des locations en 41 langues, y compris le chinois.
La première étape de mon travail consistera à affiner le programme de recherche et de constituer et normaliser les corpus. La 2e année sera consacrée à l’élaboration d’une méthode ou d’une combinaison de méthodes de fouille d’opinion à base de règles linguistiques. La 3e année sera consacrée à la rédaction de la thèse. Parallèlement, je développerai une application industrielle à partir des méthodes validées.

Analyse textuelle de corpus de discours écologiques relatifs au wu mai (brouillard de pollution) en Chine au moyen de méthodes de fouilles de textes
Qinran DANG (date de soutenance prévue : 2019)
Directeur de Recherche : Mathieu Valette Co-encadrant : Nicolas Turenne

Résumé :
Du fait que la dégradation de l'environnement en Chine liée aux activités industrielles et à l’expansion de l’économie, le mot wù maí (le brouillard de pollution) est, depuis 2008, omniprésent sur les sites web, dans la presse, les réseaux sociaux, les forums, et les blogs, etc. Ce problème de pollution de l'air de Chine a non seulement suscité l’attention des instituts et médias chinois mais aussi celle de la presse occidentale. Notre projet est d'analyser les discours écologiques dans un corpus large et varié pour y relever la diversité des positions idéologiques et de leur expression. Les comparaisons s'effectueront selon les types de sites (institutionnel, médiatiques, informels), d’une part, et selon les contextes idéologiques (chinois ou occidental), d’autre part. Les méthodes d’analyses mettent en oeuvre l'analyse statistique des données textuelles (textométrie) et s'appuient sur un fond théorique articulant sémantique textuelle et analyse du discours.

Méthodologie d'analyse textuelle semi-automatisée des discours voyageurs pour la qualification des déplacements multimodaux
Amélie MARTIN (date de soutenance prévue : 2018)
Codirection de Recherche : Frédérique Segond et Mathieu Valette

Résumé :
Le secteur du transport de voyageurs cherche aujourd'hui à proposer des services de plus en plus fins et personnalisés, basés sur une meilleure connaissance des clients. Ces derniers s'expriment de plus en plus en discours libre sur le web, mais aussi via des canaux plus traditionnels tels que les réclamations et les questions ouvertes d'enquêtes. Ils y décrivent notamment leurs itinéraires, quotidiens ou ponctuels, unimodaux ou intermodaux, combinant modes de transport classiques et modes émergents (comme le covoiturage, le vélopartage, etc), et y précisent parfois leur ressenti et leur opinion vis-à-vis de ces parcours.
Cette thèse (réalisée à la SNCF) vise donc à proposer une stratégie d'analyse qualitative semi-automatisée de la représentation des chaînes de déplacement des voyageurs à partir de ces discours. Il s'agit de mettre en œuvre des approches issues de la recherche d'information, de l'ingénierie des connaissances, de la sémantique de corpus et l'analyse de discours outillée afin de, dans un premier temps, reconstituer et comprendre les itinéraires des individus, puis de comprendre leurs motivations, leurs préférences, ou encore leurs habitudes de voyage à partir de ce premier socle d’analyse. Cette méthodologie pourra s'intégrer dans un outil d'aide à la décision de la SNCF pour évaluer, adapter dynamiquement et personnaliser l'offre de transport multimodale ainsi que les services de mobilité porte-à-porte.

Lisibilité de textes et recherche automatique de contenus pédagogiques : le cas du hindi et de l'arménien
Satenik MKHITARYAN (date de soutenance prévue : 2017)
Directeur de Recherche : Mathieu VALETTE Co-encadrant : François Stuck

Résumé :
Cette thèse vise à concevoir une formule de lisibilité afin de faciliter l’élaboration des
contenus pédagogiques destinés à la lecture. Cette dernière a sa place particulière dans
l’apprentissage d’une langue. De nombreux travaux ont montré que la pratique de la lecture
en langue étrangère favorise son acquisition et améliore notamment la compréhension
écrite. Mais la lecture peut ne pas atteindre son objectif
pédagogique si les textes choisis sont trop faciles ou trop difficiles. Il est donc crucial que le
texte soit adapté au niveau de l’apprenant ce qui n’est pas toujours
le cas. La sélection des ressources textuelles en fonction du niveau des apprenants est
souvent complexe et chronophage. Pour cette raison, de nombreux chercheurs ont tenté de
trouver des moyens afin de rendre la tâche moins contraignante pour les enseignants. La
mesure de lisibilité est un moyen pratique et efficace permettant d’évaluer la difficulté
textes. (François, 1993) résume la lisibilité comme « un domaine qui étudie comment
associer des textes à une catégorie de lecteurs, en fonction des aspects lexicaux,
syntaxiques, de cohérence et de cohésion présents dans ces textes ».
Ainsi, cette thèse permettra de créer une plateforme de recherche en ligne intégrant une
formule de lisibilité qui aura deux fonctionnalités majeures : évaluation du niveau de
difficulté du texte donné ; recherche de documents en ligne et classification automatique
par niveau.

Méthodes de fouille de textes pour la caractérisation d’opinions politiques : application à l’analyse des stratégies de communication sur les réseaux sociaux en Tunisie
Asma ZAMITI (2015-)
Directeur de Recherche : Mathieu VALETTE

Résumé :
Etude d’un corpus en tunisien issu du web dans le but de cerner la mise en place et l’évolution de la stratégie de communication du parti islamiste Ennahdha après la révolution tunisienne de 2011. Notre projet s’articule autour de deux objectifs clés :
    - le TAL du tunisien, langue peu dotée et non codifiée dont l’écriture sur les réseaux sociaux est diverses (arabizi, alphabet arabe, emprunts, etc.). Elle est peu étudiée malgré une quantité grandissante de données en tunisien disponibles notamment grâce à l’essor des réseaux sociaux. Le traitement automatique du tunisien est par ailleurs encore balbutiant. A l’échelle de l’état de l’art du TAL, les publications le concernant restent mineures
    - l’analyse du discours politique tunisien outillée : le cas du parti Ennahdha Première force politique de Tunisie après les élections de 2011, le parti islamiste Ennahdha enregistre une forte baisse lors des élections législatives de 2014 en raison notamment de votes sanctions après trois années de gouvernance agitées. Le parti se distingue cependant par une stratégie de communication très soignée aussi bien pour mener des campagnes que pour répondre aux polémiques. C’est l’étude qualitative et quantitative de ce discours politique sur le web et notamment sur le réseau social Facebook que nous souhaitons effectuer.


Acquisition de schémas prédicatifs verbaux en japonais
Pierre MARCHAL (thèse soutenue le 15 octobre 2015)
Directeur de Recherche : Thierry POIBEAU

Résumé :
L'acquisition de connaissances relatives aux constructions verbales est une question importante pour le traitement automatique des langues, mais aussi pour la lexicographie qui vise à documenter les nouveaux usages linguistiques. Cette tâche pose de nombreux enjeux, techniques et théoriques. Dans le cadre de cette thèse, nous nous intéressons plus particulièrement à deux aspects fondamentaux de la description du verbe : la notion d'entrée lexicale et la distinction entre arguments et circonstants. A la suite de précédentes études en traitement automatique des langues et en linguistique nous posons qu'il existe un continuum entre homonymes et monosèmes ; de même nous faisons l'hypothèse qu’il n’y a pas de distinction marquée entre arguments et circonstants. Nous proposons une chaîne de traitement complète pour l'acquisition de schémas prédicatifs verbaux en japonais à partir d'un corpus non étiqueté de textes journalistiques. Cette chaîne de traitement intègre la notion d'argumentalité au processus de création des entrées lexicales et met en œuvre une modélisation de ces deux continuums. La ressource produite a fait l'objet d'une évaluation comparative qualitative, qui a permis de mettre en évidence la difficulté des ressources linguistiques à décrire de nouvelles données, plaidant par là même pour une lexicologie s'inscrivant dans le cadre épistémologique de la linguistique de corpus.


Mesure de la distance sociale dans les récits d'expérience issus de forums de discussion
(susceptible d'évoluer)
Jugurtha Aït-Hamlat (2011-)
Directeur de Recherche : Mathieu Valette

Résumé :
Les formes textuelles apparues avec le web 2.0 représentent aujourd'hui une source de données très prisée dans divers domaines (Text-Mining, Analyse d'Opinions/Sentiments, Veille économique..). Elles incarnent pour la plupart l'expression d'une subjectivité donnant lieu à des productions appelées "égodocuments". A l'intérieur de ce genre textuel, nous nous intéressons aux « récits d'expérience » issus de forums de discussion. L'objectif sera de mettre au point une méthode d'analyse permettant la détection d’affinités entre les narrateurs dans un cadre applicatif du web social.
En partant du postulat selon lequel la ressemblance entre deux récits peut être considérée en terme de distance et à l'aide des outils de la linguistique de corpus, l’objectif de la thèse sera de formaliser des relations sémantiques donnant lieu à profils des narrateurs comparables.


Méthodes et outils pour le traitement automatique du vietnamien - application en humanités numériques : fouille comportementale sur le web social
Océane Hô Dinh (soutenance prévue en 2015)
Directeur de recherche : Mathieu Valette

Résumé :
Cette thèse propose d'adapter et de développer des méthodes et des outils de traitement automatique de la langue vietnamienne, langue peu dotée, pour des applications de fouille de données extraites de forums de discussion sur Internet.
L'objectif est d'outiller au moyen de la linguistique de corpus l'étude des sociétés contemporaines afin d'appréhender les mutations sociétales les plus récentes, telles qu'elles sont rendues perceptibles par les technologies d'information et de communication (TIC).
En ce qui concerne le cadre applicatif, nous nous situons dans le contexte d'un pays en voie de développement et d'ouverture à la globalisation, qui voit sa société évoluer rapidement et nous cherchons à étudier comment la jeunesse vietnamienne s'approprie les TIC comme nouveaux moyens d'expression et de partage de l'information, en mettant en valeur les tensions qu'elle subit entre traditions profondément ancrées et modernité attrayante. Dans ce but, le thème du VIH/SIDA a été choisi pour les nombreux enjeux de société qu'il recouvre (sanitaire et social, conflits générationnels, évolutions des mœurs, etc.) et les différents types de discours qui s'en emparent.

Sémantique des textes et didactique des langues-cultures : Application à un corpus de discours journalistiques et politiques en arabe moderne et contemporain
Nadia Makouar, thèse soutenue en 2014
Codirection de Recherche : Mathieu Valette & Driss El-Khattab

Résumé :
Aujourd’hui, les recherches en didactique des langues étrangères s’accordent à dire que les matériaux langagiers authentiques sont indispensables pour accéder à la réalité et aux représentations socio-culturelles véhiculées par la langue en question.
Aussi pouvoir lire et comprendre la langue à partir de ce type de contenus est plus facile grâce aux Technologies de l’Information et de la Communication et notamment par l’intermédiaire des outils d’exploration ciblée des textes pour une interprétation assistée. A partir d’un corpus journalistique et politique en langue arabe moderne et contemporaine et avec les instruments théoriques de la sémantique des textes de François Rastier, l’objectif de cette thèse est de proposer des pistes d’exploitation didactique pour la langue-culture arabe et un accès sémantique des textes numériques via les logiciels de textométrie.
Il s’agit d’évaluer ces propositions pédagogiques et ainsi de donner à des étudiants de niveau intermédiaire et avancé la possibilité d’utiliser des contenus et des outils afin d’améliorer leur apprentissage et leur compétence en compréhension et production écrite de la langue-culture arabe dans une perspective plus globale d’une didactique des textes.

Caractérisation sémantique de la subjectivité dans les textes pour la recherche d'information
Egle Eensoo (2007-)
Directeur de Recherche : Mathieu Valette

Résumé :
Longtemps, la recherche d'information s'est focalisée sur la thématique pour définir le contenu informationnel des documents et déterminer sa pertinence à une demande d'information. A partir des années 2000 ce domaine d'applications a été confronté à un nouveau besoin : l'extraction des informations subjectives (opinions, sentiments, etc.).
Dans cette thèse, nous nous intéressons aux phénomènes textuels qui contribuent à l'interprétation de l'information subjective. Plus précisément, nous tentons de mettre en évidence des indices complexes relevant de plusieurs niveaux – lexical, morphosyntaxique, argumentatif, structurel – qui nous permettent de caractériser la subjectivité des textes de différentes thématiques et de différents genres. Nous nous appuyons en particulier sur la notion du genre qui permet de caractériser les textes en prenant en compte les normes de leur élaboration, lesquelles ont une incidence directe sur leur interprétation, ce qui est peu pris en compte par la plupart des méthodes qui supposent que l'expression des opinions est détachée des conditions d'énonciation. Par exemple, même si l'objectif est de qualifier l'opinion de "positive" ou de "négative" vis à vis d'un objet, nous considérons que l'on ne peut pas traiter de la même manière les critiques de films (commentaires d'internautes) et les postes de forums parlant d'une problématique sociétale. Notre objectif est d'élucider le rôle des indices complexes de chaque niveau dans l'interprétation de l'information subjective et de les modéliser de manière à pouvoir les extraire automatiquement.

Extraction en langue chinoise d'actions spatio-temporalisées réalisées par des personnes ou des organismes
Zhen Wang (2011-)
Directeur de Recherche : Pierre Zweigenbaum

Résumé :
l'objectif final de cette thèse est l'extraction à partir de textes en chinois provenant du web, d'actions ayant pour agent et/ou pour objet une entité nommée de type personne ou organisme(chinois ou non). on y associe dans la mesure du possible un lien précis(géolocalisable) et un temps précis(date, heure).pour cela, on doit identifier et extraire les parties de la chaîne de caractères chinois correspondant à des noms propres ou des dates.on doit typer ces entités comme des personnes, des lieux, des organismes, des quantités numériques, des dates/heures.dans un même texte d'une occurrence à l'autre, on doit identifier une même entité même si elle est écrite de différentes manières. cela demande aussi de résoudre les anaphores.ensuite il faut identifier l'entité comme étant une personne, un organisme ou un lieu particulier. pour cela on s'appuiera sur des connaissances extérieures (répertoire de lieux, connaissances encyclopédiques structurées, etc.) qui seront mises sous forme d'ontologies. de plus les connaissances associées aux entités dans les différents textes doivent permettre d'une part de compléter certaines informations sur des faits qui sont relatés à différents endroits et aussi d'envisager de distinguer des activités qui ne peuvent être faites par la même personne (par exemple action en même temps en des lieux très distants).

Extraction interactive et non supervisée de lexique en chinois contemporain appliquée à la constitution de ressources linguistiques dans un domaine spécialisé
Gaël Patin, thèse soutenue le 31 janvier 2013
Directeur de Recherche : Pierre Zweigenbaum

Résumé :
Les lexiques sont des ressources indispensables aux systèmes de recherche d'information. ils permettent d'améliorer notablement les résultats des procédés automatiques d'analyse linguistique— étiquetage morpho-syntaxique, interprétation sémantique ou indexation — dans des domaines particuliers. or la constitution de lexiques est confrontée à deux types de difficultés : les unes d'ordre pragmatique, telles que le coût de leur élaboration ou leur réutilisabilité, sont d'une grande importance pour la mise en oeuvre industrielle ; les autres d'ordre théorique, comme la définition de l'unité lexicale dans différentes langues ou la caractérisation des particularitéslexicales d'un corpus spécialisé, sont primordiales pour la pertinence et la validité des résultats. cette confrontation entre intérêt économique et qualitatif est une problématique récurrente dans le milieu de l'entreprise. la recherche scientifique appliquée doit être à même de proposer des solutions pour répondre à cette double exigence. cette étude propose un élément de réponse au problème de l'identification de lexique dans un corpus spécialisé en chinois contemporain via un système de classement de lexies (unités lexicales) candidates. cette étude s'intéresse en particulier au cas du chinois contemporain, langue pour laquelle nous ne disposons que de peu de ressources lexicales.

Passage de données non structurées à des données structurées : extraction de relation entre entités à partir de corpus
Mani Ezzat, thèse soutenue le 06 mai 2014
Directeur de Recherche : Thierry POIBEAU

Résumé :
Le développement des données disponibles sur Internet a considérablement changé le domaine du traitement des langues. Les systèmes qui traitaient, il y a peu encore, quelques phrases isolées, doivent maintenant faire face à des déluges de documents variés. Initié par les conférences MUC ( Message Understanding Conference ) au début des années 90, de nombreux travaux ont porté sur un type d’unités appelées entités nommées. Elles correspondent généralement à l’ensemble des noms propres (nom de personne, nom de lieu, etc…). L’état actuel des technologies montre une maîtrise satisfaisante pour la reconnaissance de séquences isolées, notamment pour les entités nommées et les termes techniques. Ces éléments sont importants pour indexer les textes et aider les analystes à en prendre connaissance. Cependant, ces séquences ne deviennent pleinement significatives que lorsqu’elles sont reliées entre elles. Il est par exemple intéressant de savoir qu’un texte contient des occurrences des mots Google et Youtube ; mais l’analyse devient beaucoup plus intéressante si le système est capable de détecter une relation entre ces deux éléments, voire de la typer comme étant une relation d’achat ( Google ayant acheté Youtube il y a maintenant deux ans).
Le projet Infom@gic, au sein du pôle de Compétitivité Cap Digital, a permis d’explorer différentes techniques de reconnaissance des entités nommées. Ce point est loin d’être complètement maîtrisé : les performances sont très variables selon le type d’entité considéré, le genre du texte à analyser et la granularité des types considérés. Les performances sont toutefois suffisamment robustes pour qu’il soit permis d’aller plus loin vers la détection de relation.

Evolution du buzz sur internet - identification, analyse, modélisation et représentation dans un contexte de veille
Aurélien LAUF, thèse soutenue le 14 octobre 2014
Directeur de Recherche: Mathieu Valette

Résumé :
S'inscrivant principalement dans un contexte de veille informationnelle sur Internet, l'objectif de cette thèse est d'élaborer des outils et des méthodes permettant d'identifier, d'analyser, de modéliser et de représenter le cheminement d'une information circulant sur Internet (le buzz). Ces méthodes sont issues notamment de la linguistique de corpus et de la théorie des graphes. Il s'agit ici de remonter jusqu'aux sources primaires, ainsi qu'aux sources nécessaires et suffisantes d'une information, d'en dégager des sous-thématiques ainsi que des communautés de discours, et d'analyser les différences sémantiques pouvant apparaitre entre ces sources tout au long du cycle de vie de l'information.