"Accès à l'information dans les grandes collections textuelles en langue arabe "
fr
Loading...
Authors
Collections
Journal Title
Journal ISSN
Volume Title
Publisher
Université Sidi Mohamed Ben Abdellah, Faculté des Sciences - Dhar El Mahraz -, Fès
Department
Supervisor
Date
Abstract
Face `a la quantit´e d’information textuelle disponible sur le web en langue
arabe, le d´eveloppement des Syst`emes de Recherche d’Information (SRI) efficaces est
devenu incontournable pour retrouver l’information pertinente. La plupart des SRIs actuels
de la langue arabe reposent sur la repr´esentation par sac de mots et l’indexation des
documents et des requˆetes est effectu´ee souvent par des mots bruts ou des racines. Ce qui
conduit `a plusieurs probl`emes tels que l’ambig¨uit´e et la disparit´e des termes, etc.
Dans ce travail de th`ese, nous nous sommes int´eress´es `a apporter des solutions aux
probl`emes d’ambig¨uit´e et de disparit´e des termes pour l’am´elioration de la repr´esentation
des documents et le processus de l’appariement des documents et des requˆetes. Nous
apportons quatre contributions au niveau de processus de repr´esentation, d’indexation et
de recherche d’information en langue arabe. La premi`ere contribution consiste `a repr´esenter
les documents `a la fois par des termes simples et des termes complexes. Cela est justifi´e
par le fait que les termes simples seuls et isol´es de leur contexte sont ambigus et moins
pr´ecis pour repr´esenter le contenu des documents. Ainsi, nous avons propos´e une m´ethode
hybride pour l’extraction de termes complexes en langue arabe, en combinant des propri´et´es
linguistiques et des mod`eles statistiques. Le filtre linguistique repose `a la fois sur l’´etiquetage
morphosyntaxique et la prise en compte des variations pour s´electionner les termes
candidats. Pour sectionner les termes candidats pertinents, nous avons introduit une
mesure d’association permettant de combiner l’information contextuelle avec les degr´es
de sp´ecificit´e et d’unit´e. La deuxi`eme contribution consiste `a explorer et ´evaluer les
syst`emes de recherche d’informations permettant de tenir compte de l’ensemble des
´el´ements d’indexation (termes simples et complexes). Par cons´equent, nous ´etudions
plusieurs extensions des mod`eles existants de RI pour l’int´egration des termes complexes.
En outre, nous explorons une panoplie de mod`eles de proximit´e. Pour la prise en compte
des d´ependances de termes dans les mod`eles de RI, nous introduisons une condition
caract´erisant de tels mod`ele et leur validation th´eorique. La troisi`eme contribution permet
de pallier le probl`eme de disparit´e des termes en proposant une m´ethode pour int´egrer la
similarit´e entre les termes dans les mod`eles de RI en s’appuyant sur les repr´esentations
distribu´ees des mots (RDMs). L’id´ee sous-jacente consiste `a permettre aux termes similaires
`a ceux de la requˆete de contribuer aux scores des documents. Les extensions des mod`eles
de RI propos´ees dans le cadre de cette m´ethode sont valid´ees en utilisant les contraintes
heuristiques d’appariement s´emantique. La derni`ere contribution concerne l’am´elioration
des mod`eles de r´etro-pertinence (Pseudo Relevance Feedback PRF). Etant bas´ee ´egalement ´
sur les RDM, notre m´ethode permet d’int´egrer la similarit´e entre les termes d’expansions
et ceux de la requˆete dans les mod`eles standards PRF.
La validation exp´erimentale de l’ensemble des contributions apport´ees dans le cadre de
cette th`ese est effectu´ee en utilisant la collection standard TREC 2002/2001 de la langue
arabe.
Description
Keywords
Informatique, Recherche d’Information, Traitement Automatique de la Langue Arabe, dépendance de termes, Terme Complexe, Proximité de Terme, Disparité des représentation distribuée des Mots, Modèle probabiliste de RI, Racinisation Légère