"Accès à l'information dans les grandes collections textuelles en langue arabe "

dc.contributor.authorEl Mahdaouy Abdelkader
dc.date.accessioned2021-02-18T11:29:44Z
dc.date.accessioned2026-01-26T12:36:07Z
dc.date.available2021-02-18T11:29:44Z
dc.date.issued2017-12-16
dc.description.abstractFace `a la quantit´e d’information textuelle disponible sur le web en langue arabe, le d´eveloppement des Syst`emes de Recherche d’Information (SRI) efficaces est devenu incontournable pour retrouver l’information pertinente. La plupart des SRIs actuels de la langue arabe reposent sur la repr´esentation par sac de mots et l’indexation des documents et des requˆetes est effectu´ee souvent par des mots bruts ou des racines. Ce qui conduit `a plusieurs probl`emes tels que l’ambig¨uit´e et la disparit´e des termes, etc. Dans ce travail de th`ese, nous nous sommes int´eress´es `a apporter des solutions aux probl`emes d’ambig¨uit´e et de disparit´e des termes pour l’am´elioration de la repr´esentation des documents et le processus de l’appariement des documents et des requˆetes. Nous apportons quatre contributions au niveau de processus de repr´esentation, d’indexation et de recherche d’information en langue arabe. La premi`ere contribution consiste `a repr´esenter les documents `a la fois par des termes simples et des termes complexes. Cela est justifi´e par le fait que les termes simples seuls et isol´es de leur contexte sont ambigus et moins pr´ecis pour repr´esenter le contenu des documents. Ainsi, nous avons propos´e une m´ethode hybride pour l’extraction de termes complexes en langue arabe, en combinant des propri´et´es linguistiques et des mod`eles statistiques. Le filtre linguistique repose `a la fois sur l’´etiquetage morphosyntaxique et la prise en compte des variations pour s´electionner les termes candidats. Pour sectionner les termes candidats pertinents, nous avons introduit une mesure d’association permettant de combiner l’information contextuelle avec les degr´es de sp´ecificit´e et d’unit´e. La deuxi`eme contribution consiste `a explorer et ´evaluer les syst`emes de recherche d’informations permettant de tenir compte de l’ensemble des ´el´ements d’indexation (termes simples et complexes). Par cons´equent, nous ´etudions plusieurs extensions des mod`eles existants de RI pour l’int´egration des termes complexes. En outre, nous explorons une panoplie de mod`eles de proximit´e. Pour la prise en compte des d´ependances de termes dans les mod`eles de RI, nous introduisons une condition caract´erisant de tels mod`ele et leur validation th´eorique. La troisi`eme contribution permet de pallier le probl`eme de disparit´e des termes en proposant une m´ethode pour int´egrer la similarit´e entre les termes dans les mod`eles de RI en s’appuyant sur les repr´esentations distribu´ees des mots (RDMs). L’id´ee sous-jacente consiste `a permettre aux termes similaires `a ceux de la requˆete de contribuer aux scores des documents. Les extensions des mod`eles de RI propos´ees dans le cadre de cette m´ethode sont valid´ees en utilisant les contraintes heuristiques d’appariement s´emantique. La derni`ere contribution concerne l’am´elioration des mod`eles de r´etro-pertinence (Pseudo Relevance Feedback PRF). Etant bas´ee ´egalement ´ sur les RDM, notre m´ethode permet d’int´egrer la similarit´e entre les termes d’expansions et ceux de la requˆete dans les mod`eles standards PRF. La validation exp´erimentale de l’ensemble des contributions apport´ees dans le cadre de cette th`ese est effectu´ee en utilisant la collection standard TREC 2002/2001 de la langue arabe.fr_FR
dc.description.collaboratorOuçamah Cherkaoui Malki, Mohammed (Président et Rapporteur)
dc.description.collaboratorBoughanem, Mohand (Rapporteur)
dc.description.collaboratorZweigenbaum, Pierre (Rapporteur)
dc.description.collaboratorOuhbi, Brahim (Examinateur)
dc.description.collaboratorOuatik El Aloui, Saïd (Directeur de la thèse)
dc.description.collaboratorGaussier, Eric (Directeur de la thèse)
dc.description.laboratoireI n f o r m a t i q u e e t M o d é l i s a t i o n ( L I M ), (LAB.)fr_FR
dc.description.laboratoireI n f o r m a t i q u e d e G r e n o b l e ( L I G ), (LAB.)fr_FR
dc.identifier.urihttps://toubkalpreprod.imist.ma/handle/123456789/12739
dc.language.isofrfr_FR
dc.publisherUniversité Sidi Mohamed Ben Abdellah, Faculté des Sciences - Dhar El Mahraz -, Fèsfr_FR
dc.relation.ispartofseries12/2021;
dc.subjectInformatiquefr_FR
dc.subjectRecherche d’Informationfr_FR
dc.subjectTraitement Automatique de la Langue Arabefr_FR
dc.subjectdépendance de termesfr_FR
dc.subjectTerme Complexefr_FR
dc.subjectProximité de Termefr_FR
dc.subjectDisparité des représentation distribuée des Motsfr_FR
dc.subjectModèle probabiliste de RIfr_FR
dc.subjectRacinisation Légèrefr_FR
dc.title"Accès à l'information dans les grandes collections textuelles en langue arabe "fr_FR

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
these-USMBA-FS.pdf
Size:
7.19 MB
Format:
Adobe Portable Document Format