Séminaire de recherche : Des formules de lisibilité à l'analyse de la difficulté (Thomas François, CENTAL, IL&C)

L'équipe ERTIM de l'Inalco a le plaisir de vous inviter à son séminaire de recherche mardi 28 mars à 14h30, au 2 rue de Lille, Paris 7e :

Des formules de lisibilité à l'analyse de la difficulté
(Thomas François, CENTAL, IL&C)

Présentation du séminaire consultable en ligne (cliquez ici).

Résumé

Depuis presque un siècle, les recherches en lisibilité ont visé à proposer des modèles mathématiques capables de prédire automatiquement le niveau de difficulté de textes à la lecture. Parmi les plus connus de ces modèles, aussi appelés formules de lisibilité, citons ceux de Flesch (1948), Dale et Chall (1948), Gunning (1952), etc. À l'aube du 21e siècle, ce domaine a connu un renouveau sous l'impulsion des recherches en traitement automatique du langage, qui ont permis de mettre au point des formules de lisibilités capables de prendre davantage de dimensions textuelles en compte, d'appréhender des phénomènes linguistiques plus complexes et reposant sur des algorithmes statistiques plus performants.

Toutefois, leur objectif n'a pas varié depuis l'apparition de la discipline, c'est-à-dire associer un score global à l'ensemble du texte. Si cet objectif paraît adéquat à des tâches de type recherche d'information (trouver des textes adéquats à un lecteur ou une classe donnée), il n'apporte finalement que très peu d'information sur ce qui fait la difficulté d'un texte. Or, il existe bien des cas – par exemple, lors de la rédaction – où l'utilisateur d'une formule de lisibilité serait plus intéressé d'identifier précisément les phénomènes linguistiques qui rendent la lecture d'un texte ardue (ex. termes rares ou spécialisés, structures syntaxiques complexes, etc.).

Dans cette communication, nous retraçons rapidement les grandes lignes de la lisibilité jusqu'à ce jour, afin de mettre en lumière les limites des approches actuelles. Nous proposons ensuite une approche alternative de l'évaluation de la complexité linguistique, qui vise à identifier précisément les phénomènes linguistiques complexes au sein des textes. Nous présenterons plusieurs recherches réalisées au Cental qui s'intègrent dans cette approche : (1) AMesure, un logiciel pour l'aide à la rédaction claire des textes administratifs (François et al., 2014) ; (2) le projet CEFRLex (François et al., 2014 ; 2016 ; Tack et al., 2017), un ensemble de lexiques gradués pour l'apprentissage des langues étrangères ; (3) le projet PrediComplex (Tack et al., 2016), qui vise à prédire automatiquement la difficulté lexicale d'un texte pour un lecteur donné (modèle personnalisé).

Bio

Thomas François est chargé de recherche au FNRS et rattaché à l'université catholique de Louvain (UCL). Il a réalisé une thèse de doctorat en 2011, sur l'apport des techniques de TAL à la lisibilité du français langue étrangère, qui s'est vue décernée le prix de la meilleure thèse 2012 par l'ATALA. Il a également été récipiendaire des prestigieuses bourses de la Fulbright Foundation et de la Belgium American Educational Foundation (BAEF) qui lui ont permis de poursuivre ses recherches à l'Université de Pennsylvanie pendant un an. De retour à l'UCL, il poursuit depuis lors ses recherches sur la complexité linguistique, s’intéressant à des problèmes tels que la lisibilité, la simplification automatique, ou encore la complexité lexicale. Ses recherches sur la prédiction automatique de la difficulté lexicale se sont vu décerner le prix du meilleur papier à la conférence TALN 2016.

Informations pratiques

Le séminaire aura lieu mardi 28 mars, 14h30, à l'Inalco Recherche, 2 rue de Lille, Paris (salons d'honneur). Accès : Musée d'Orsay (RER C), Saint Germain des Prés (ligne 4), Rue du Bac (ligne 12), Palais Royal - Musée du Louvre (ligne 1).