Mémoires 2015-2016

Génération de frises narratives en utilisant des données alignées depuis des corpus comparables monolingues


Année: 2016
Mots clés : Alignement des corpus, Extraction d’information, Corpus comparables, Frise narrative, Dynamic Time Warping, Game of Thrones
Résumé :Le but de cette étude est de créer une représentation visuelle, sous la forme de frise narrative, des épisodes de la première saison de Game of Thrones (Le trône de fer). Ce type de représentation permet de clarifier les interactions entre les personnages et la chronologie des événements dans une fiction au récit particulièrement complexe. Pour réaliser cette tâche, nous utilisons différentes méthodes d’alignement et d’extraction sur des corpus comparables liés à Game of Thrones. Au fur et à mesure, nous retenons les résultats les plus pertinents pour améliorer notre frise. La frise finale contient les personnages alignés par scènes (qu’ils aient des dialogues ou non), les informations de lieu pour les situer, et des listes de termes caractéristiques qui décrivent les personnages et concepts clé de chaque épisode. .

Télécharger le mémoire


Étude sur l’apport de la sélection des caractéristiques dans la classification multi-classe des textes


Année: 2016
Mots clés : classification multi-classe des textes, sélection de caractéristiques, apprentissage supervisé, validation croisée, régularisation
Résumé : Ce travail porte sur l’étude de l’apport de la sélection de caractéristiques pour la classification multi-classe de textes. Quatre méthodes de sélection ont été comparées : la spécificité lexicale, le TF-IDF, l’information mutuelle, et la différence proportionnelle catégorique. Pour éviter l’effet du sur-apprentissage, la sélection des caractéristiques a été intégrée à la validation croisée pour chaque sous-échantillon d’apprentissage. L’évaluation est réalisée principalement par un algorithme Bayésien Naïf Multinomial, et des tests sur les Machines à Vecteurs de Support ont été menés pour étudier l’effet de la régularisation. Selon des résultats expérimentaux, la spécificité lexicale, qui a obtenu une micro-moyenne F-mesure de 72.14% avec une réduction de 57% de caractéristiques, est la méthode la plus performante. .

Télécharger le mémoire


Extraction de citations dans le domaine de la presse avec la résolution d’anaphores


Année: 2016
Mots clés : extraction d’informations, fouille de texte, citations, anaphores, presse
Résumé : L’extraction d’informations est un domaine très vaste. Et en tant qu’informations, les citations sont de plus en plus demandées. Elles sont la preuve écrite de ce qu’une personne a dit. Ce travail s’inscrit donc dans l’objectif de fournir les meilleurs résultats possibles pour répondre à cette question : qui a dit quoi ? Pour ce faire, nous avons implémenté une chaîne de traitement qui permet d’extraire la citation et son auteur. Que la citation soit directe (avec des guillemets), indirecte (sans guillemets) ou avec des anaphores à résoudre, nous couvrirons ici le maximum de cas possible. Et pour un résultat optimal, il est nécessaire de pouvoir résoudre les anaphores et les coréférences car la presse les utilise régulièrement.

Télécharger le mémoire


Comparaison des résultats de trois outils de segmentation en mots du Chinois sur un corpus issu de forums sur le diabète


Année: 2016
Mots clés : comparaison, segmentation, chinois, mandarin, forum, diabète,hoix outil de TAL, démarche pragmatique
Résumé : Ce travail rend compte de la comparaison entre les résultats de trois outils de segmentation automatique en mots du Chinois. L'intérêt est de montrer comment les trois outils diffèrent dans leur interprétation de particularités linguistiques de la langue chinoise, entre eux et par rapport à une segmentation humaine. Pour cela un corpus brut a été constitué par extraction d'un forum chinois traitant du diabète ; ce corpus de taille limitée contient des tournures et du vocabulaire spécifiques à la langue chinoise et au domaine. L'analyse de quelques exemples linguistiquement représentatifs montre qu'aucun des outils de segmentation n'est entièrement fiable et que les erreurs entre eux ne sont pas homogènes. En conclusion, une démarche pragmatique est proposée pour guider le choix d'un outil de segmentation en mots comme préalable aux traitements automatiques à réaliser sur des textes chinois.

Télécharger le mémoire


Création semi-automatique d'un thésaurus du domaine bancaire et application à la fouille d'opinion


Année: 2016
Mots clés : opinion mining, fouille d’opinion, thésaurus, banque, polarité, relations
Résumé : La fouille d’opinion devient une approche de plus en plus intéressante pour les entreprises qui souhaitent évaluer la qualité de leurs produits auprès de leurs clients. Notre travail consiste à évaluer des relations, c’est-à-dire des opinions émises précisément sur des objets appelés cibles. Nous créons un thésaurus sur le domaine bancaire afin d’avoir des cibles prédéfinies. Nous nous basons sur un corpus composé d’avis clients récupérés sur internet. Nous abordons deux approches, une à base d’un module d’extraction déjà existant et une autre à base de règles que nous allons développer nous-mêmes. Nous ne pouvons présenter de résultats pour l’approche à base de règles pour cause d’incompatibilité des sorties des différents outils. Nous obtenons un rappel plus faible par rapport à l’état de l’art sur une problématique similaire avec l’approche utilisant le thésaurus. Mais nos résultats globaux sont supérieurs, avec une F-mesure de 70,1%.

Télécharger le mémoire


Translittération et normalisation de la langue arabe pour l’analyse de sentiments dans les médias sociaux


Année: 2016
Mots clés : translittération, langue arabe, arabizi, analyse des sentiments, distance de Levenshtein, apprentissage automatique.
Résumé : Ce travail aborde le sujet de la translittération et la lemmatisation de la langue arabe pour l’analyse des sentiments des messages issues du web social. Nous avons développé un système de translittération à base de règles et contribué à l’amélioration du système de lemmatisation. Les règles morphologiques et grammaticales ont été implémentées sous forme d’une chaîne de traitement. Pour la translittération on s’est intéressé à l’arabizi, un arabe dialectal écrit en lettres latines, vers l’arabe en caractères standards. Pour pouvoir transcrire l’arabizi, on a besoin d’abord de l’identifier,ceci étant réalisé par un algorithme d’apprentissage automatique, à l’aide de l’outil Keras. La translittération et la lemmatisation sont des structures interconnectées qui sont exploitées pour le but final du projet, la détection des sentiments dans les documents issues de médias sociaux. L’approche de l’analyse des sentiments est réalisée par une méthode hybride reposant sur un lexique et de l’apprentissage automatique. La mesure d’évaluation des systèmes de translittération et de lemmatisation a été effectué avec la distance de Levenshtein. La performance du système est améliorée après chaque évaluation en définissant des règles plus précises et plus puissantes. Après toutes les expérimentations, nous avons atteint une de F-mesure de 75,23% pour la translitération, 93% pour la lemmatisation et 92% pour la détection des sentiments.

Télécharger le mémoire


Etude d'une méthode de sélection de documents macroéconomiques au sein d'un corpus d'articles de presse économique


Année: 2016
Mots clés : catégorisation de textes, fouille de texte, plan d’annotation, text mining, thésaurus, hiérarchie de concepts, ingénierie des connaissances.
Résumé : Ce travail porte sur la sélection d’articles macroéconomiques au sein d’un module de catégorisation destiné à classifier la presse macroéconomique. Ce module reçoit en entrée un flux de presse économique et doit permettre de catégoriser les documents dans quatre classes principales, sachant que certains documents n’appartiennent à aucune d’entre elles (les documents microéconomiques).

Ce travail retranscrit le cheminement vers l’identification de la méthode proposée et son implémentation. Cette méthode repose sur l’identification, d’une part, d’une classe de contextes pertinente propre aux documents macroéconomiques, et d’autre part d’un seuil optimal de fréquence de contextes, permettant de distinguer les documents microéconomiques des documents macroéconomiques.

Cette méthode exploitant des techniques d’ingénierie des connaissances et d’analyse textométrique et ne nécessitant pas d’apprentissage, permet de sélectionner les documents macroéconomiques avec une précision de 89% et un rappel de 64%.


Modèle de reconnaissance statistique pour le turc oral


Année: 2016
Mots clés : Traitement de la parole, reconnaissance automatique de la parole, modèle de langage, recherche de l'information, turc, polonais
Résumé : Kristina est un agent social capable d'interagir avec les humains. Le système ASR a besoin de trois modèles: modèle de langage modèle acoustique et lexique de prononciation. Le but du travail est de collecter des données en ligne et de trouver les meilleures données pour KRISTINA. Nous utilisons deux façons différentes de comparaison: selection par perplexité et par recherche de l'information.