Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe

Show simple item record


dc.contributor.author Hadni, Meryeme
dc.description.collaborator Meknassi, Mohammed (Président)
dc.description.collaborator El Alaoui Ouatik, Said (Directeur de thèse)
dc.description.collaborator Lachkar, Abdelmonaime (Co-Directeur)
dc.description.collaborator Hamdani, Abdelfettah (Rapporteur)
dc.description.collaborator Ouhbi, Brahim (Rapporteur)
dc.description.collaborator Behja, Hicham (Rapporteur)
dc.description.collaborator Frikh, Bouchra (Examinateur)
dc.description.collaborator Zidani Alaoui, Khalid (Examinateur)
dc.date.accessioned 2018-09-27T13:36:44Z
dc.date.available 2018-09-27T13:36:44Z
dc.date.issued 2015
dc.identifier.uri http://toubkal.imist.ma/handle/123456789/11458
dc.description.abstract La grande quantité d’information textuelle en langue arabe disponible sur le web a permis l’expansion et le développement des applications de Traitement Automatique des Langues Naturelles (TALN) et de Fouille de Textes (FdT) telle que la Recherche d’Information, la Catégorisation des documents, etc. La langue arabe présente de nombreux défis, pour de telles applications, compte tenu de sa riche et complexe morphologie qui génère beaucoup d’ambigüités et d’irrégularités. Dans ce travail de thèse, nous avons abordé plusieurs problé- matiques liées au prétraitement et à la représentation des documents textes en langue arabe. En ce qui concerne le prétraitement, au niveau morphologique, nous avons proposé une nouvelle méthode de racinisation pour les mots arabes. Cette méthode permet d’identifier la racine d’un mot selon des règles linguistiques appuyées par des méthodes statistiques. Notre technique est inspirée de trois approches, les plus connues dans la littérature : l’approche basée racine, la lemmatisation assouplie et l’approche statistique "N-Gram". Dans le même processus de prétraitement, et afin de pallier le problème d’ambigüité morphosyntaxique, nous avons amélioré la perfor- mance d’une méthode d’étiquetage à base de règles. Notre méthode repose sur une approche statistique pour identifier avec plus de pertinence la catégorie grammaticale des mots arabes contenus dans les documents du corpus. Au niveau de la représentation des textes, notre première contribution consiste à représenter les documents du corpus par des termes composés (TC) au lieu des termes simples. Cela s’explique par le fait que les termes simples isolés de leur contexte sont ambigus et moins précis pour représenter le contenu des documents. Notre méthode hybride permet l’extraction de termes composés en langue arabe, en combinant des propriétés lin- guistiques et des modèles statistiques. Le filtre linguistique se base sur notre étiqueteur morphosyntaxique, un ensemble de patrons syntaxiques et la prise en compte des variations pour l’identification des séquences de TC. Le modèle statistique s’appuie à la fois sur l’information contextuelle et les deux mesures Termhood et Uni- thood. Dans la même optique, dans le but d’améliorer davantage la pertinence de la représentation en "sac de mots", nous avons intégré l’aspect sémantique. Cette deuxième solution consiste en la représentation concep- tuelle des documents et se base principalement sur les ressources sémantiques Arabic WordNet et WordNet. De plus, une stratégie de désambigüisation sémantique est proposée pour attribuer le concept le plus approprié aux termes ambigus. Enfin, les représentations en "sac de mots" et en "sac de concepts" ont été intégrées et évaluées dans notre système de catégorisation des documents textes arabes. Les résultats obtenus concernant nos contri- butions montrent l’intérêt de notre propos. fr_FR
dc.language.iso fr fr_FR
dc.publisher Université sidi mohammed ben abdellah, Faculté des sciences Dhar El Mahraz-Fès fr_FR
dc.subject Lemmatisation, fr_FR
dc.subject Etiquetage morphosyntaxique, fr_FR
dc.subject TAL arabe, fr_FR
dc.subject Terme composé, fr_FR
dc.subject WordNet et Arabic WordNet, fr_FR
dc.subject Représentation conceptuelle, fr_FR
dc.subject Fouille de texte. fr_FR
dc.title Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe fr_FR
dc.description.laboratoire Informatique et modélisation (LAB.) fr_FR

Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account