Contributions à l’Accès à l’Information en Langue Arabe : Regroupement Thématique des Résultats de Recherche et Indexation à base des Phrases-Clés

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

Contributions à l’Accès à l’Information en Langue Arabe : Regroupement Thématique des Résultats de Recherche et Indexation à base des Phrases-Clés

Show full item record


Title: Contributions à l’Accès à l’Information en Langue Arabe : Regroupement Thématique des Résultats de Recherche et Indexation à base des Phrases-Clés
Author: Sahmoudi Issam
Abstract: Cette thèse s’inscrit dans le cadre d’un projet, qui vise à améliorer les différents composants d’un Système d’Indexation et de Recherche d’Information pour la langue arabe, dans le but de remédier aux différents problèmes résultant de la complexité de cette langue dans le domaine de la fouille de textes. Pour cette raison, dans notre travail et lors de l’élaboration de l’état d’art et l’étude des systèmes existants, nous avons pu recenser et catégoriser l’ensemble des problèmes liés d’une part au processus de consultation des résultats de recherche web et d’autre part au processus d’indexation des documents. Notons que dans le cadre de la consultation, les moteurs de recherche existants tel que Google, Yahoo, Bing retournent une liste ordonnée d’une dizaine de milliers de snippets (métas-données), les utilisateurs ne consultent que les premières pages, et par conséquent les documents situés à la fin de la liste que très rarement consultables bien qu’ils puissent être pertinents. Au niveau du processus d’indexation, la méthode d’indexation basée sur les mots-clés pose un problème d’ambiguïté, ce qui influence négativement les résultats des systèmes de recherche d’information pour les différentes langues en particulier la langue arabe. Pour remédier aux problèmes de consultation et d’indexation nous proposons dans le cadre de cette thèse différentes contributions pour soutenir le domaine de Recherche d’Information pour la langue arabe. Nous avons commencé par un système basé sur l’algorithme STC « Suffix Tree Clustering », permettant le regroupement thématique des résultats de recherche pour les utilisateurs arabes, une deuxième contribution est un système basé sur le FCA « Formal Concept Analysis » qui permet un regroupement conceptuel et fournit une interface de consultation hiérarchique sur deux niveaux. Après, nous avons proposé une nouvelle approche qui permet l’extraction de phrases-clés, basé sur l’algorithme d’arbre de suffixes dans un nouveau système nommé KpST. Par la suite, nous avons apporté des améliorations au système KpST, en ajoutant une couche de filtrage linguistique, et en utilisant une nouvelle mesure pour le calcul de score basée sur la C-Value, ce système est nommé improved-KpST.
Date: 2018-07-07

Files in this item

Files Size Format View
THESE_SAHMOUDI.pdf 4.427Mb PDF View/Open or Preview

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account