Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe

Show full item record


Title: Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe
Author: Hadni, Meryeme
Abstract: La grande quantité d’information textuelle en langue arabe disponible sur le web a permis l’expansion et le développement des applications de Traitement Automatique des Langues Naturelles (TALN) et de Fouille de Textes (FdT) telle que la Recherche d’Information, la Catégorisation des documents, etc. La langue arabe présente de nombreux défis, pour de telles applications, compte tenu de sa riche et complexe morphologie qui génère beaucoup d’ambigüités et d’irrégularités. Dans ce travail de thèse, nous avons abordé plusieurs problé- matiques liées au prétraitement et à la représentation des documents textes en langue arabe. En ce qui concerne le prétraitement, au niveau morphologique, nous avons proposé une nouvelle méthode de racinisation pour les mots arabes. Cette méthode permet d’identifier la racine d’un mot selon des règles linguistiques appuyées par des méthodes statistiques. Notre technique est inspirée de trois approches, les plus connues dans la littérature : l’approche basée racine, la lemmatisation assouplie et l’approche statistique "N-Gram". Dans le même processus de prétraitement, et afin de pallier le problème d’ambigüité morphosyntaxique, nous avons amélioré la perfor- mance d’une méthode d’étiquetage à base de règles. Notre méthode repose sur une approche statistique pour identifier avec plus de pertinence la catégorie grammaticale des mots arabes contenus dans les documents du corpus. Au niveau de la représentation des textes, notre première contribution consiste à représenter les documents du corpus par des termes composés (TC) au lieu des termes simples. Cela s’explique par le fait que les termes simples isolés de leur contexte sont ambigus et moins précis pour représenter le contenu des documents. Notre méthode hybride permet l’extraction de termes composés en langue arabe, en combinant des propriétés lin- guistiques et des modèles statistiques. Le filtre linguistique se base sur notre étiqueteur morphosyntaxique, un ensemble de patrons syntaxiques et la prise en compte des variations pour l’identification des séquences de TC. Le modèle statistique s’appuie à la fois sur l’information contextuelle et les deux mesures Termhood et Uni- thood. Dans la même optique, dans le but d’améliorer davantage la pertinence de la représentation en "sac de mots", nous avons intégré l’aspect sémantique. Cette deuxième solution consiste en la représentation concep- tuelle des documents et se base principalement sur les ressources sémantiques Arabic WordNet et WordNet. De plus, une stratégie de désambigüisation sémantique est proposée pour attribuer le concept le plus approprié aux termes ambigus. Enfin, les représentations en "sac de mots" et en "sac de concepts" ont été intégrées et évaluées dans notre système de catégorisation des documents textes arabes. Les résultats obtenus concernant nos contri- butions montrent l’intérêt de notre propos.
Date: 2015

Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account