Information retrieval : Applications to English and Arabic documents

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

Information retrieval : Applications to English and Arabic documents

Show full item record


Title: Information retrieval : Applications to English and Arabic documents
Author: Ataa Allah, Fadoua
Abstract: La recherche d'information en langue Arabe est devenue de plus en plus importante. Néanmoins, peu de moteurs de recherche spécialisés existent dans cette langue. Face à ce besoin, nous avons focalisé nos travaux sur trois axes de recherche conjointement liés : la recherche d'information, le regroupement des documents et la réduction de la taille de la base d’index.Concernant la recherche d'information, nous avons proposé un système de recherche d’information pour la langue Arabe, fondé sur la pseudo-racinisation dans la phase de prétraitement, et sur la pondération Okapi BM-25 et le modèle d'analyse de la sémantique latente dans la phase du traitement. Cette proposition est le résultat d’un certain nombre d’expérimentations portant sur le traitement de la langue arabe et des différents schémas de pondération trouvés dans la littérature. Par ailleurs, nous avons évalué les performances de ce système dans le cas d’une indexation par syntagmes nominaux. Dans l’axe du regroupement des documents, nous avons proposé l'utilisation de l'espace diffusion map basée sur le noyau de cosinus et la décomposition en valeurs singulières. Nous avons expérimentalement illustré, en utilisant l’algorithme k-means, la robustesse de l'indexation des documents dans cet espace par rapport à l'espace de Salton. En plus, nous avons adopté une méthode statistique pour comparer la performance du k-means dans l’espace du modèle d'analyse de la sémantique latente et dans l’espace de la diffusion map à base de cosinus. Nous avons discuté le problème de la détermination de la dimension représentative de l’espace et le choix du nombre des groupes, en proposant des solutions à ces problèmes. En outre, nous avons proposé une nouvelle approche pour le regroupement en ligne, fondée sur la diffusion map à base de cosinus et la mise à jour du modèle de la décomposition en valeurs singulières. Quant à l’axe de la réduction de la taille de la base d’index, nous avons utilisé la technique de la décomposition en valeurs singulières pour la transformation des attributs, et nous avons proposé d’étendre cette réduction par la sélection des termes dans le contexte de la recherche d'information, en utilisant l'algorithme de l’extraction des termes génériques.
Date: 2008-05-23

Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account