Contributions to the Improvement of Automatic Summarization of Arabic Texts

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

Contributions to the Improvement of Automatic Summarization of Arabic Texts

Show simple item record


dc.contributor.author Alami Nabil
dc.description.collaborator Satori, Khalid (Président)
dc.description.collaborator Ouhbi, Brahim (Rapporteur)
dc.description.collaborator Zarghili, Arsalane (Rapporteur)
dc.description.collaborator Aouragh, Si Lhoussain (Rapporteur)
dc.description.collaborator Ouatik El Alaoui, Saïd (Examinateur)
dc.description.collaborator Alaoui Zidani, Khalid (Examinateur)
dc.description.collaborator En Nahnahi, Noureddine (Examinateur)
dc.description.collaborator Meknassi, Mohammed (Directeur de la thèse)
dc.date.accessioned 2021-02-23T10:18:29Z
dc.date.available 2021-02-23T10:18:29Z
dc.date.issued 2018-12-22
dc.identifier.uri http://toubkal.imist.ma/handle/123456789/12743
dc.description.abstract Ce travail de thèse s’inscrit dans le cadre du résumé automatique des textes en langue Arabe (RAT). Nous nous sommes particulièrement intéressés à l’amélioration des méthodes extractives en s'appuyant sur des approches statistique, sémantique et d'apprentissage automatique. Dans un premier temps, nous présentons un état de l’art concernant les principales méthodes de RAT et notamment celles dédiées à la langue Arabe. Ensuite, nous décrivons quatre contributions permettant d'améliorer la performance des méthodes existantes. Dans la première contribution, nous proposons une nouvelle méthode de RAT modélisant le texte sous forme de graphe bidimensionnel dont les nœuds représentent les phrases du texte et les arcs sont étiquetés par des scores statistique et sémantique relatifs au degré de similarité entre chaque paire de phrases. De plus, nous avons intégré un algorithme d'élimination de la redondance et une phase préalable de prétraitement (stemming) permettant d'améliorer davantage la performance de la méthode proposée. Dans la deuxième contribution, nous proposons une méthode de RAT basée sur l’apprentissage profond. Elle consiste à utiliser le variational autoencoder (VAE) en tant que technique d'apprentissage non supervisée des caractéristiques afin de générer, pour chaque phrase, une représentation abstraite. Celle-ci est exploitée pour classer les phrases du texte selon la similarité par rapport à une requête et par la suite extraire celles les plus pertinentes. Une autre alternative proposée consiste à intégrer cette représentation dans le calcul de la similarité entre chaque paire de phrases en adoptant le modèle de graphe précédent (sans l'usage de la requête utilisateur). Cette méthode permet, d'une part, la réduction de la dimensionnalité, et d'autre part, l'amélioration du processus d'extraction des phrases pertinentes. Dans notre troisième contribution, nous adoptons la représentation distribuée des mots (Word2vec) comme entrée pour l’entrainement de plusieurs modèles de réseaux de neurones non supervisés. Les nouvelles représentations obtenues des phrases sont utilisées pour calculer la similarité entre les paires des phrases pour construire le graphe précédent. Nous proposons également des modèles d’apprentissage ensembliste pour améliorer la qualité des RAT Arabe. Enfin, notre quatrième contribution consiste à adopter les techniques de clustering pour regrouper les textes en plusieurs clusters pour lesquels nous identifions l’espace des sujets associés (thématiques) par la méthode d’allocation de Dirichlet latente. Ensuite, nous utilisons la représentation des textes de chaque cluster comme données d’entrainement des réseaux de neurones non supervisés et des techniques ensemblistes pour l’apprentissage de nouvelles représentations abstraites. Celles-ci sont exploitées pour classer les phrases du texte à résumer selon un modèle basé sur les graphes. L'ensemble des méthodes proposées est évalué en utilisant plusieurs corpus. Les résultats obtenus montrent l'intérêt de nos propos. fr_FR
dc.language.iso en fr_FR
dc.publisher Université Sidi Mohamed Ben Abdellah, Faculté des Sciences - Dhar El Mahraz -, Fès fr_FR
dc.relation.ispartofseries 16/2021;
dc.subject Informatique fr_FR
dc.subject Résumé automatique fr_FR
dc.subject Texte Arabe fr_FR
dc.subject Traitement automatique du langage naturel fr_FR
dc.subject Sémantique fr_FR
dc.subject Représentation distribuée fr_FR
dc.subject Apprentissage automatique fr_FR
dc.subject Réseau de neurone fr_FR
dc.subject Apprentissage profond fr_FR
dc.subject Apprentissage ensembliste fr_FR
dc.title Contributions to the Improvement of Automatic Summarization of Arabic Texts fr_FR
dc.description.laboratoire Informatique et Modélisation, (LAB.) fr_FR

Files in this item

Files Size Format View
THESE_ALAMI.pdf 5.840Mb PDF View/Open or Preview

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account