"Accès à l'information dans les grandes collections textuelles en langue arabe "

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

"Accès à l'information dans les grandes collections textuelles en langue arabe "

Show full item record


Title: "Accès à l'information dans les grandes collections textuelles en langue arabe "
Author: El Mahdaouy Abdelkader
Abstract: Face `a la quantit´e d’information textuelle disponible sur le web en langue arabe, le d´eveloppement des Syst`emes de Recherche d’Information (SRI) efficaces est devenu incontournable pour retrouver l’information pertinente. La plupart des SRIs actuels de la langue arabe reposent sur la repr´esentation par sac de mots et l’indexation des documents et des requˆetes est effectu´ee souvent par des mots bruts ou des racines. Ce qui conduit `a plusieurs probl`emes tels que l’ambig¨uit´e et la disparit´e des termes, etc. Dans ce travail de th`ese, nous nous sommes int´eress´es `a apporter des solutions aux probl`emes d’ambig¨uit´e et de disparit´e des termes pour l’am´elioration de la repr´esentation des documents et le processus de l’appariement des documents et des requˆetes. Nous apportons quatre contributions au niveau de processus de repr´esentation, d’indexation et de recherche d’information en langue arabe. La premi`ere contribution consiste `a repr´esenter les documents `a la fois par des termes simples et des termes complexes. Cela est justifi´e par le fait que les termes simples seuls et isol´es de leur contexte sont ambigus et moins pr´ecis pour repr´esenter le contenu des documents. Ainsi, nous avons propos´e une m´ethode hybride pour l’extraction de termes complexes en langue arabe, en combinant des propri´et´es linguistiques et des mod`eles statistiques. Le filtre linguistique repose `a la fois sur l’´etiquetage morphosyntaxique et la prise en compte des variations pour s´electionner les termes candidats. Pour sectionner les termes candidats pertinents, nous avons introduit une mesure d’association permettant de combiner l’information contextuelle avec les degr´es de sp´ecificit´e et d’unit´e. La deuxi`eme contribution consiste `a explorer et ´evaluer les syst`emes de recherche d’informations permettant de tenir compte de l’ensemble des ´el´ements d’indexation (termes simples et complexes). Par cons´equent, nous ´etudions plusieurs extensions des mod`eles existants de RI pour l’int´egration des termes complexes. En outre, nous explorons une panoplie de mod`eles de proximit´e. Pour la prise en compte des d´ependances de termes dans les mod`eles de RI, nous introduisons une condition caract´erisant de tels mod`ele et leur validation th´eorique. La troisi`eme contribution permet de pallier le probl`eme de disparit´e des termes en proposant une m´ethode pour int´egrer la similarit´e entre les termes dans les mod`eles de RI en s’appuyant sur les repr´esentations distribu´ees des mots (RDMs). L’id´ee sous-jacente consiste `a permettre aux termes similaires `a ceux de la requˆete de contribuer aux scores des documents. Les extensions des mod`eles de RI propos´ees dans le cadre de cette m´ethode sont valid´ees en utilisant les contraintes heuristiques d’appariement s´emantique. La derni`ere contribution concerne l’am´elioration des mod`eles de r´etro-pertinence (Pseudo Relevance Feedback PRF). Etant bas´ee ´egalement ´ sur les RDM, notre m´ethode permet d’int´egrer la similarit´e entre les termes d’expansions et ceux de la requˆete dans les mod`eles standards PRF. La validation exp´erimentale de l’ensemble des contributions apport´ees dans le cadre de cette th`ese est effectu´ee en utilisant la collection standard TREC 2002/2001 de la langue arabe.
Date: 2017-12-16

Files in this item

Files Size Format View
These_ELMAHDAOUY.pdf 7.537Mb PDF View/Open or Preview

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account