"Accès à l'information dans les grandes collections textuelles en langue arabe  "

El Mahdaouy Abdelkader

"Accès à l'information dans les grandes collections textuelles en langue arabe "

dc.contributor.author	El Mahdaouy Abdelkader
dc.date.accessioned	2021-02-18T11:29:44Z
dc.date.accessioned	2026-01-26T12:36:07Z
dc.date.available	2021-02-18T11:29:44Z
dc.date.issued	2017-12-16
dc.description.abstract	Face `a la quantit´e d’information textuelle disponible sur le web en langue arabe, le d´eveloppement des Syst`emes de Recherche d’Information (SRI) efficaces est devenu incontournable pour retrouver l’information pertinente. La plupart des SRIs actuels de la langue arabe reposent sur la repr´esentation par sac de mots et l’indexation des documents et des requˆetes est effectu´ee souvent par des mots bruts ou des racines. Ce qui conduit `a plusieurs probl`emes tels que l’ambig¨uit´e et la disparit´e des termes, etc. Dans ce travail de th`ese, nous nous sommes int´eress´es `a apporter des solutions aux probl`emes d’ambig¨uit´e et de disparit´e des termes pour l’am´elioration de la repr´esentation des documents et le processus de l’appariement des documents et des requˆetes. Nous apportons quatre contributions au niveau de processus de repr´esentation, d’indexation et de recherche d’information en langue arabe. La premi`ere contribution consiste `a repr´esenter les documents `a la fois par des termes simples et des termes complexes. Cela est justifi´e par le fait que les termes simples seuls et isol´es de leur contexte sont ambigus et moins pr´ecis pour repr´esenter le contenu des documents. Ainsi, nous avons propos´e une m´ethode hybride pour l’extraction de termes complexes en langue arabe, en combinant des propri´et´es linguistiques et des mod`eles statistiques. Le filtre linguistique repose `a la fois sur l’´etiquetage morphosyntaxique et la prise en compte des variations pour s´electionner les termes candidats. Pour sectionner les termes candidats pertinents, nous avons introduit une mesure d’association permettant de combiner l’information contextuelle avec les degr´es de sp´ecificit´e et d’unit´e. La deuxi`eme contribution consiste `a explorer et ´evaluer les syst`emes de recherche d’informations permettant de tenir compte de l’ensemble des ´el´ements d’indexation (termes simples et complexes). Par cons´equent, nous ´etudions plusieurs extensions des mod`eles existants de RI pour l’int´egration des termes complexes. En outre, nous explorons une panoplie de mod`eles de proximit´e. Pour la prise en compte des d´ependances de termes dans les mod`eles de RI, nous introduisons une condition caract´erisant de tels mod`ele et leur validation th´eorique. La troisi`eme contribution permet de pallier le probl`eme de disparit´e des termes en proposant une m´ethode pour int´egrer la similarit´e entre les termes dans les mod`eles de RI en s’appuyant sur les repr´esentations distribu´ees des mots (RDMs). L’id´ee sous-jacente consiste `a permettre aux termes similaires `a ceux de la requˆete de contribuer aux scores des documents. Les extensions des mod`eles de RI propos´ees dans le cadre de cette m´ethode sont valid´ees en utilisant les contraintes heuristiques d’appariement s´emantique. La derni`ere contribution concerne l’am´elioration des mod`eles de r´etro-pertinence (Pseudo Relevance Feedback PRF). Etant bas´ee ´egalement ´ sur les RDM, notre m´ethode permet d’int´egrer la similarit´e entre les termes d’expansions et ceux de la requˆete dans les mod`eles standards PRF. La validation exp´erimentale de l’ensemble des contributions apport´ees dans le cadre de cette th`ese est effectu´ee en utilisant la collection standard TREC 2002/2001 de la langue arabe.	fr_FR
dc.description.collaborator	Ouçamah Cherkaoui Malki, Mohammed (Président et Rapporteur)
dc.description.collaborator	Boughanem, Mohand (Rapporteur)
dc.description.collaborator	Zweigenbaum, Pierre (Rapporteur)
dc.description.collaborator	Ouhbi, Brahim (Examinateur)
dc.description.collaborator	Ouatik El Aloui, Saïd (Directeur de la thèse)
dc.description.collaborator	Gaussier, Eric (Directeur de la thèse)
dc.description.laboratoire	I n f o r m a t i q u e e t M o d é l i s a t i o n ( L I M ), (LAB.)	fr_FR
dc.description.laboratoire	I n f o r m a t i q u e d e G r e n o b l e ( L I G ), (LAB.)	fr_FR
dc.identifier.uri	https://toubkal.imist.ma/handle/123456789/12739
dc.identifier.uri	https://doi.org/10.83129/toubkal-19901
dc.language.iso	fr	fr_FR
dc.publisher	Université Sidi Mohamed Ben Abdellah, Faculté des Sciences - Dhar El Mahraz -, Fès	fr_FR
dc.relation.ispartofseries	12/2021;
dc.subject	Informatique	fr_FR
dc.subject	Recherche d’Information	fr_FR
dc.subject	Traitement Automatique de la Langue Arabe	fr_FR
dc.subject	dépendance de termes	fr_FR
dc.subject	Terme Complexe	fr_FR
dc.subject	Proximité de Terme	fr_FR
dc.subject	Disparité des représentation distribuée des Mots	fr_FR
dc.subject	Modèle probabiliste de RI	fr_FR
dc.subject	Racinisation Légère	fr_FR
dc.title	"Accès à l'information dans les grandes collections textuelles en langue arabe "	fr_FR

Files

Original bundle

Now showing 1 - 1 of 1

Name:: these-USMBA-FS.pdf
Size:: 7.19 MB
Format:: Adobe Portable Document Format

Download

Collections

Faculté des Sciences - Dhar El Mahraz - Fès