Contributions to the Improvement of Automatic Summarization of Arabic Texts

Toubkal : Le Catalogue National des Thèses et Mémoires

Contributions to the Improvement of Automatic Summarization of Arabic Texts

dc.contributor.author	Alami Nabil
dc.description.collaborator	Satori, Khalid (Président)
dc.description.collaborator	Ouhbi, Brahim (Rapporteur)
dc.description.collaborator	Zarghili, Arsalane (Rapporteur)
dc.description.collaborator	Aouragh, Si Lhoussain (Rapporteur)
dc.description.collaborator	Ouatik El Alaoui, Saïd (Examinateur)
dc.description.collaborator	Alaoui Zidani, Khalid (Examinateur)
dc.description.collaborator	En Nahnahi, Noureddine (Examinateur)
dc.description.collaborator	Meknassi, Mohammed (Directeur de la thèse)
dc.date.accessioned	2021-02-23T10:18:29Z
dc.date.available	2021-02-23T10:18:29Z
dc.date.issued	2018-12-22
dc.identifier.uri	http://toubkal.imist.ma/handle/123456789/12743
dc.description.abstract	Ce travail de thèse s’inscrit dans le cadre du résumé automatique des textes en langue Arabe (RAT). Nous nous sommes particulièrement intéressés à l’amélioration des méthodes extractives en s'appuyant sur des approches statistique, sémantique et d'apprentissage automatique. Dans un premier temps, nous présentons un état de l’art concernant les principales méthodes de RAT et notamment celles dédiées à la langue Arabe. Ensuite, nous décrivons quatre contributions permettant d'améliorer la performance des méthodes existantes. Dans la première contribution, nous proposons une nouvelle méthode de RAT modélisant le texte sous forme de graphe bidimensionnel dont les nœuds représentent les phrases du texte et les arcs sont étiquetés par des scores statistique et sémantique relatifs au degré de similarité entre chaque paire de phrases. De plus, nous avons intégré un algorithme d'élimination de la redondance et une phase préalable de prétraitement (stemming) permettant d'améliorer davantage la performance de la méthode proposée. Dans la deuxième contribution, nous proposons une méthode de RAT basée sur l’apprentissage profond. Elle consiste à utiliser le variational autoencoder (VAE) en tant que technique d'apprentissage non supervisée des caractéristiques afin de générer, pour chaque phrase, une représentation abstraite. Celle-ci est exploitée pour classer les phrases du texte selon la similarité par rapport à une requête et par la suite extraire celles les plus pertinentes. Une autre alternative proposée consiste à intégrer cette représentation dans le calcul de la similarité entre chaque paire de phrases en adoptant le modèle de graphe précédent (sans l'usage de la requête utilisateur). Cette méthode permet, d'une part, la réduction de la dimensionnalité, et d'autre part, l'amélioration du processus d'extraction des phrases pertinentes. Dans notre troisième contribution, nous adoptons la représentation distribuée des mots (Word2vec) comme entrée pour l’entrainement de plusieurs modèles de réseaux de neurones non supervisés. Les nouvelles représentations obtenues des phrases sont utilisées pour calculer la similarité entre les paires des phrases pour construire le graphe précédent. Nous proposons également des modèles d’apprentissage ensembliste pour améliorer la qualité des RAT Arabe. Enfin, notre quatrième contribution consiste à adopter les techniques de clustering pour regrouper les textes en plusieurs clusters pour lesquels nous identifions l’espace des sujets associés (thématiques) par la méthode d’allocation de Dirichlet latente. Ensuite, nous utilisons la représentation des textes de chaque cluster comme données d’entrainement des réseaux de neurones non supervisés et des techniques ensemblistes pour l’apprentissage de nouvelles représentations abstraites. Celles-ci sont exploitées pour classer les phrases du texte à résumer selon un modèle basé sur les graphes. L'ensemble des méthodes proposées est évalué en utilisant plusieurs corpus. Les résultats obtenus montrent l'intérêt de nos propos.	fr_FR
dc.language.iso	en	fr_FR
dc.publisher	Université Sidi Mohamed Ben Abdellah, Faculté des Sciences - Dhar El Mahraz -, Fès	fr_FR
dc.relation.ispartofseries	16/2021;
dc.subject	Informatique	fr_FR
dc.subject	Résumé automatique	fr_FR
dc.subject	Texte Arabe	fr_FR
dc.subject	Traitement automatique du langage naturel	fr_FR
dc.subject	Sémantique	fr_FR
dc.subject	Représentation distribuée	fr_FR
dc.subject	Apprentissage automatique	fr_FR
dc.subject	Réseau de neurone	fr_FR
dc.subject	Apprentissage profond	fr_FR
dc.subject	Apprentissage ensembliste	fr_FR
dc.title	Contributions to the Improvement of Automatic Summarization of Arabic Texts	fr_FR
dc.description.laboratoire	Informatique et Modélisation, (LAB.)	fr_FR

Files in this item

Files	Size	Format	View
THESE_ALAMI.pdf	5.840Mb	PDF	View/Open or Preview

This item appears in the following Collection(s)

Faculté des Sciences Dhar El Mahraz - Fès - Doctorat ou Doctorat National [458]

Show simple item record

Contributions to the Improvement of Automatic Summarization of Arabic Texts

DSpace/Manakin Repository

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

Contributions to the Improvement of Automatic Summarization of Arabic Texts

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account