Toubkal : Le Catalogue National des Thèses et Mémoires
"Accès à l'information dans les grandes collections textuelles en langue arabe "
dc.contributor.author | El Mahdaouy Abdelkader | |
dc.description.collaborator | Ouçamah Cherkaoui Malki, Mohammed (Président et Rapporteur) | |
dc.description.collaborator | Boughanem, Mohand (Rapporteur) | |
dc.description.collaborator | Zweigenbaum, Pierre (Rapporteur) | |
dc.description.collaborator | Ouhbi, Brahim (Examinateur) | |
dc.description.collaborator | Ouatik El Aloui, Saïd (Directeur de la thèse) | |
dc.description.collaborator | Gaussier, Eric (Directeur de la thèse) | |
dc.date.accessioned | 2021-02-18T11:29:44Z | |
dc.date.available | 2021-02-18T11:29:44Z | |
dc.date.issued | 2017-12-16 | |
dc.identifier.uri | http://toubkal.imist.ma/handle/123456789/12739 | |
dc.description.abstract | Face `a la quantit´e d’information textuelle disponible sur le web en langue arabe, le d´eveloppement des Syst`emes de Recherche d’Information (SRI) efficaces est devenu incontournable pour retrouver l’information pertinente. La plupart des SRIs actuels de la langue arabe reposent sur la repr´esentation par sac de mots et l’indexation des documents et des requˆetes est effectu´ee souvent par des mots bruts ou des racines. Ce qui conduit `a plusieurs probl`emes tels que l’ambig¨uit´e et la disparit´e des termes, etc. Dans ce travail de th`ese, nous nous sommes int´eress´es `a apporter des solutions aux probl`emes d’ambig¨uit´e et de disparit´e des termes pour l’am´elioration de la repr´esentation des documents et le processus de l’appariement des documents et des requˆetes. Nous apportons quatre contributions au niveau de processus de repr´esentation, d’indexation et de recherche d’information en langue arabe. La premi`ere contribution consiste `a repr´esenter les documents `a la fois par des termes simples et des termes complexes. Cela est justifi´e par le fait que les termes simples seuls et isol´es de leur contexte sont ambigus et moins pr´ecis pour repr´esenter le contenu des documents. Ainsi, nous avons propos´e une m´ethode hybride pour l’extraction de termes complexes en langue arabe, en combinant des propri´et´es linguistiques et des mod`eles statistiques. Le filtre linguistique repose `a la fois sur l’´etiquetage morphosyntaxique et la prise en compte des variations pour s´electionner les termes candidats. Pour sectionner les termes candidats pertinents, nous avons introduit une mesure d’association permettant de combiner l’information contextuelle avec les degr´es de sp´ecificit´e et d’unit´e. La deuxi`eme contribution consiste `a explorer et ´evaluer les syst`emes de recherche d’informations permettant de tenir compte de l’ensemble des ´el´ements d’indexation (termes simples et complexes). Par cons´equent, nous ´etudions plusieurs extensions des mod`eles existants de RI pour l’int´egration des termes complexes. En outre, nous explorons une panoplie de mod`eles de proximit´e. Pour la prise en compte des d´ependances de termes dans les mod`eles de RI, nous introduisons une condition caract´erisant de tels mod`ele et leur validation th´eorique. La troisi`eme contribution permet de pallier le probl`eme de disparit´e des termes en proposant une m´ethode pour int´egrer la similarit´e entre les termes dans les mod`eles de RI en s’appuyant sur les repr´esentations distribu´ees des mots (RDMs). L’id´ee sous-jacente consiste `a permettre aux termes similaires `a ceux de la requˆete de contribuer aux scores des documents. Les extensions des mod`eles de RI propos´ees dans le cadre de cette m´ethode sont valid´ees en utilisant les contraintes heuristiques d’appariement s´emantique. La derni`ere contribution concerne l’am´elioration des mod`eles de r´etro-pertinence (Pseudo Relevance Feedback PRF). Etant bas´ee ´egalement ´ sur les RDM, notre m´ethode permet d’int´egrer la similarit´e entre les termes d’expansions et ceux de la requˆete dans les mod`eles standards PRF. La validation exp´erimentale de l’ensemble des contributions apport´ees dans le cadre de cette th`ese est effectu´ee en utilisant la collection standard TREC 2002/2001 de la langue arabe. | fr_FR |
dc.language.iso | fr | fr_FR |
dc.publisher | Université Sidi Mohamed Ben Abdellah, Faculté des Sciences - Dhar El Mahraz -, Fès | fr_FR |
dc.relation.ispartofseries | 12/2021; | |
dc.subject | Informatique | fr_FR |
dc.subject | Recherche d’Information | fr_FR |
dc.subject | Traitement Automatique de la Langue Arabe | fr_FR |
dc.subject | dépendance de termes | fr_FR |
dc.subject | Terme Complexe | fr_FR |
dc.subject | Proximité de Terme | fr_FR |
dc.subject | Disparité des représentation distribuée des Mots | fr_FR |
dc.subject | Modèle probabiliste de RI | fr_FR |
dc.subject | Racinisation Légère | fr_FR |
dc.title | "Accès à l'information dans les grandes collections textuelles en langue arabe " | fr_FR |
dc.description.laboratoire | I n f o r m a t i q u e e t M o d é l i s a t i o n ( L I M ), (LAB.) | fr_FR |
dc.description.laboratoire | I n f o r m a t i q u e d e G r e n o b l e ( L I G ), (LAB.) | fr_FR |
Files in this item
Files | Size | Format | View | |
---|---|---|---|---|
These_ELMAHDAOUY.pdf | 7.537Mb |
View/ |
||