"Accès à l'information dans les grandes collections textuelles en langue arabe "

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

"Accès à l'information dans les grandes collections textuelles en langue arabe "

Show simple item record


dc.contributor.author El Mahdaouy Abdelkader
dc.description.collaborator Ouçamah Cherkaoui Malki, Mohammed (Président et Rapporteur)
dc.description.collaborator Boughanem, Mohand (Rapporteur)
dc.description.collaborator Zweigenbaum, Pierre (Rapporteur)
dc.description.collaborator Ouhbi, Brahim (Examinateur)
dc.description.collaborator Ouatik El Aloui, Saïd (Directeur de la thèse)
dc.description.collaborator Gaussier, Eric (Directeur de la thèse)
dc.date.accessioned 2021-02-18T11:29:44Z
dc.date.available 2021-02-18T11:29:44Z
dc.date.issued 2017-12-16
dc.identifier.uri http://toubkal.imist.ma/handle/123456789/12739
dc.description.abstract Face `a la quantit´e d’information textuelle disponible sur le web en langue arabe, le d´eveloppement des Syst`emes de Recherche d’Information (SRI) efficaces est devenu incontournable pour retrouver l’information pertinente. La plupart des SRIs actuels de la langue arabe reposent sur la repr´esentation par sac de mots et l’indexation des documents et des requˆetes est effectu´ee souvent par des mots bruts ou des racines. Ce qui conduit `a plusieurs probl`emes tels que l’ambig¨uit´e et la disparit´e des termes, etc. Dans ce travail de th`ese, nous nous sommes int´eress´es `a apporter des solutions aux probl`emes d’ambig¨uit´e et de disparit´e des termes pour l’am´elioration de la repr´esentation des documents et le processus de l’appariement des documents et des requˆetes. Nous apportons quatre contributions au niveau de processus de repr´esentation, d’indexation et de recherche d’information en langue arabe. La premi`ere contribution consiste `a repr´esenter les documents `a la fois par des termes simples et des termes complexes. Cela est justifi´e par le fait que les termes simples seuls et isol´es de leur contexte sont ambigus et moins pr´ecis pour repr´esenter le contenu des documents. Ainsi, nous avons propos´e une m´ethode hybride pour l’extraction de termes complexes en langue arabe, en combinant des propri´et´es linguistiques et des mod`eles statistiques. Le filtre linguistique repose `a la fois sur l’´etiquetage morphosyntaxique et la prise en compte des variations pour s´electionner les termes candidats. Pour sectionner les termes candidats pertinents, nous avons introduit une mesure d’association permettant de combiner l’information contextuelle avec les degr´es de sp´ecificit´e et d’unit´e. La deuxi`eme contribution consiste `a explorer et ´evaluer les syst`emes de recherche d’informations permettant de tenir compte de l’ensemble des ´el´ements d’indexation (termes simples et complexes). Par cons´equent, nous ´etudions plusieurs extensions des mod`eles existants de RI pour l’int´egration des termes complexes. En outre, nous explorons une panoplie de mod`eles de proximit´e. Pour la prise en compte des d´ependances de termes dans les mod`eles de RI, nous introduisons une condition caract´erisant de tels mod`ele et leur validation th´eorique. La troisi`eme contribution permet de pallier le probl`eme de disparit´e des termes en proposant une m´ethode pour int´egrer la similarit´e entre les termes dans les mod`eles de RI en s’appuyant sur les repr´esentations distribu´ees des mots (RDMs). L’id´ee sous-jacente consiste `a permettre aux termes similaires `a ceux de la requˆete de contribuer aux scores des documents. Les extensions des mod`eles de RI propos´ees dans le cadre de cette m´ethode sont valid´ees en utilisant les contraintes heuristiques d’appariement s´emantique. La derni`ere contribution concerne l’am´elioration des mod`eles de r´etro-pertinence (Pseudo Relevance Feedback PRF). Etant bas´ee ´egalement ´ sur les RDM, notre m´ethode permet d’int´egrer la similarit´e entre les termes d’expansions et ceux de la requˆete dans les mod`eles standards PRF. La validation exp´erimentale de l’ensemble des contributions apport´ees dans le cadre de cette th`ese est effectu´ee en utilisant la collection standard TREC 2002/2001 de la langue arabe. fr_FR
dc.language.iso fr fr_FR
dc.publisher Université Sidi Mohamed Ben Abdellah, Faculté des Sciences - Dhar El Mahraz -, Fès fr_FR
dc.relation.ispartofseries 12/2021;
dc.subject Informatique fr_FR
dc.subject Recherche d’Information fr_FR
dc.subject Traitement Automatique de la Langue Arabe fr_FR
dc.subject dépendance de termes fr_FR
dc.subject Terme Complexe fr_FR
dc.subject Proximité de Terme fr_FR
dc.subject Disparité des représentation distribuée des Mots fr_FR
dc.subject Modèle probabiliste de RI fr_FR
dc.subject Racinisation Légère fr_FR
dc.title "Accès à l'information dans les grandes collections textuelles en langue arabe " fr_FR
dc.description.laboratoire I n f o r m a t i q u e e t M o d é l i s a t i o n ( L I M ), (LAB.) fr_FR
dc.description.laboratoire I n f o r m a t i q u e d e G r e n o b l e ( L I G ), (LAB.) fr_FR

Files in this item

Files Size Format View
These_ELMAHDAOUY.pdf 7.537Mb PDF View/Open or Preview

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account