Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe

Toubkal : Le Catalogue National des Thèses et Mémoires

Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe

dc.contributor.author	Hadni, Meryeme
dc.description.collaborator	Meknassi, Mohammed (Président)
dc.description.collaborator	El Alaoui Ouatik, Said (Directeur de thèse)
dc.description.collaborator	Lachkar, Abdelmonaime (Co-Directeur)
dc.description.collaborator	Hamdani, Abdelfettah (Rapporteur)
dc.description.collaborator	Ouhbi, Brahim (Rapporteur)
dc.description.collaborator	Behja, Hicham (Rapporteur)
dc.description.collaborator	Frikh, Bouchra (Examinateur)
dc.description.collaborator	Zidani Alaoui, Khalid (Examinateur)
dc.date.accessioned	2018-09-27T13:36:44Z
dc.date.available	2018-09-27T13:36:44Z
dc.date.issued	2015
dc.identifier.uri	http://toubkal.imist.ma/handle/123456789/11458
dc.description.abstract	La grande quantité d’information textuelle en langue arabe disponible sur le web a permis l’expansion et le développement des applications de Traitement Automatique des Langues Naturelles (TALN) et de Fouille de Textes (FdT) telle que la Recherche d’Information, la Catégorisation des documents, etc. La langue arabe présente de nombreux défis, pour de telles applications, compte tenu de sa riche et complexe morphologie qui génère beaucoup d’ambigüités et d’irrégularités. Dans ce travail de thèse, nous avons abordé plusieurs problé- matiques liées au prétraitement et à la représentation des documents textes en langue arabe. En ce qui concerne le prétraitement, au niveau morphologique, nous avons proposé une nouvelle méthode de racinisation pour les mots arabes. Cette méthode permet d’identifier la racine d’un mot selon des règles linguistiques appuyées par des méthodes statistiques. Notre technique est inspirée de trois approches, les plus connues dans la littérature : l’approche basée racine, la lemmatisation assouplie et l’approche statistique "N-Gram". Dans le même processus de prétraitement, et afin de pallier le problème d’ambigüité morphosyntaxique, nous avons amélioré la perfor- mance d’une méthode d’étiquetage à base de règles. Notre méthode repose sur une approche statistique pour identifier avec plus de pertinence la catégorie grammaticale des mots arabes contenus dans les documents du corpus. Au niveau de la représentation des textes, notre première contribution consiste à représenter les documents du corpus par des termes composés (TC) au lieu des termes simples. Cela s’explique par le fait que les termes simples isolés de leur contexte sont ambigus et moins précis pour représenter le contenu des documents. Notre méthode hybride permet l’extraction de termes composés en langue arabe, en combinant des propriétés lin- guistiques et des modèles statistiques. Le filtre linguistique se base sur notre étiqueteur morphosyntaxique, un ensemble de patrons syntaxiques et la prise en compte des variations pour l’identification des séquences de TC. Le modèle statistique s’appuie à la fois sur l’information contextuelle et les deux mesures Termhood et Uni- thood. Dans la même optique, dans le but d’améliorer davantage la pertinence de la représentation en "sac de mots", nous avons intégré l’aspect sémantique. Cette deuxième solution consiste en la représentation concep- tuelle des documents et se base principalement sur les ressources sémantiques Arabic WordNet et WordNet. De plus, une stratégie de désambigüisation sémantique est proposée pour attribuer le concept le plus approprié aux termes ambigus. Enfin, les représentations en "sac de mots" et en "sac de concepts" ont été intégrées et évaluées dans notre système de catégorisation des documents textes arabes. Les résultats obtenus concernant nos contri- butions montrent l’intérêt de notre propos.	fr_FR
dc.language.iso	fr	fr_FR
dc.publisher	Université sidi mohammed ben abdellah, Faculté des sciences Dhar El Mahraz-Fès	fr_FR
dc.subject	Lemmatisation,	fr_FR
dc.subject	Etiquetage morphosyntaxique,	fr_FR
dc.subject	TAL arabe,	fr_FR
dc.subject	Terme composé,	fr_FR
dc.subject	WordNet et Arabic WordNet,	fr_FR
dc.subject	Représentation conceptuelle,	fr_FR
dc.subject	Fouille de texte.	fr_FR
dc.title	Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe	fr_FR
dc.description.laboratoire	Informatique et modélisation (LAB.)	fr_FR

Files in this item

Files	Size	Format	View
There are no files associated with this item.

This item appears in the following Collection(s)

Faculté des Sciences Dhar El Mahraz - Fès - Doctorat ou Doctorat National [458]

Show simple item record

Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe

DSpace/Manakin Repository

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account