Mémoires 2010-2011

SPECIFICATION STRUCTURELLES ET REDACTIONNELLES DES CORPUS ISSUS DU WEB : DU TEXT MINING AU WEB MINING
Nom: DUTREY
Prénom: -
Année: 2011
Mots clés:
textes sales, données bruitées, nettoyage de texte, fouille de t ext e, fouille
du contenu du Web, dirty text s, noisy data, text cleaning, text mining, Web cont ent mining.
Résumé du mémoire:
L'utilisation du Web comme reservoir de donnees confronte les outils de text mining à de nouveaux cas d'usages. Ces outils attendent généralement des documents conformes aux normes de la langue française écrite (ponctuation, orthographe, syntaxe, etc.) et non bruités, mais les corpus issus du Web ne correspondent pas à cette attente car ils comprennent de nouveaux usages structurels et rédactionnels : leur traitement nécessite une adaptation des techniques classiques de text mining. Pour répondre à cette problématique, nous avons conçu un ensemble de briques logicielles : de la structuration des corpus, enrichie d'une phase de nettoyage visant à rapprocher les textes de la norme , à l'extraction de leurs spécificités rédactionnelles, nous proposons dans cette étude une solution de text mining adaptée aux données du Web.
Abst ract: Using the Web as a data source brings the text mining tools new use cases. These tools usually expect documents compliant with the French language conventions for writing (punctuation, spelling, syntax, etc .) and not noisy. However the Web corpora contain new structural and editorial uses and do not match that expectation: their treatment requires an adaptation of the classic text mining techniques. To address this problem, we designed a set of software components: from the structure of corpora, combined by a cleaning task to bring the texts of the standard, to the extraction of their specific wording, we propose in this study a text mining solution for data from the Web.

Tags textes sales, données bruitées, nettoyage de texte, fouille de t ext e, fouille
du contenu du Web, dirty text s, noisy data, text cleaning, text mining, Web cont ent mining.



« NORMALISATION DES EXPRESSIONS TEMPORELLES »
Nom: Yankova
Prénom: -
Année: 2011
Mots clés:
expression temporelie, TimeML, expression calendaire, trait/annotation/étiquetage sémantique, annotation automatique dans le texte, grammaire d'annotation, modélisation de ressources linguistiques, normalisation d'une expression temporelle, format d'écriture.

Résumé du mémoire:
Le contexte des travaux réalisés est I’ enrichissement d'une plateforme d'analyse et de traitements de grands volumes d'information de la filiale de Thales - Arisem (ARtificial Intelligence & SEMantic). Dans ce Mémoire de recherche, nous suggérons un module pour attribuer aux expressions de temps repérées dans des textes, un format d'écriture réutilisable a des différents niveaux des traitements dans la plateforme. En matière de principes d'annotation et de représentation des expressions temporelles, nous nous sommes inspires principalement de deux modèles de représentations de la
temporalité : la norme TimeML et les expressions calendaires (Battistelli, Couto, Minel, Schwer). En analysant un corpus de textes journalistiques courts, nous avons étudié et formalisé des relations entre les expressions temporelles dans le but de prendre en considération la granularité du temps, I’ ordre et la position des occurrences des expressions temporelles composantes dans une unité temporelle plus large, et aussi dans une phrase. Nous avons formulé des actions sur I ‘axe de temps, telles que: le déplacement par rapport a un point de repère «( iI y un an», « l'année prochaine »), la fraction et la quantification des unités «( trois quarts d'heures »), la substitution d'expressions de célébrations d'événements répétitives à l'année «( Noel», « Pentecôte). Nous avons transformés les relations identifiées entre les unités temporelles en grammaires d'annotation de type Arisem.
Notre recherche s'est déployée aussi sur la construction de nouvelles ressources Linguistiques pour I’ annotation des expressions temporelles et la modélisation d 'algorithmes de calcul (en langage de programmation Java). Enfin, nous avons réalisé une démonstration de la normalisation, notamment sur les expressions temporelles complètes (comportant des expressions pour année, mois et jour).
Notre approche par flux , permet de modifier ou d'ajouter des traitements à des différentes étapes dans la chaine des transformations. Nous relevons aussi un certain nombre de points pouvant aider à améliorer la méthode de normalisation des expressions temporelles proposée.
Tags expression temporelie, TimeML, expression calendaire, trait/annotation/étiquetage sémantique, annotation automatique dans le texte, grammaire d'annotation, modélisation de ressources linguistiques, normalisation d'une expression temporelle, format d'écriture.