Contributions to the Improvement of Automatic Summarization of Arabic Texts
en
Loading...
Authors
Collections
Journal Title
Journal ISSN
Volume Title
Publisher
Université Sidi Mohamed Ben Abdellah, Faculté des Sciences - Dhar El Mahraz -, Fès
Department
Supervisor
Date
Abstract
Ce travail de thèse s’inscrit dans le cadre du résumé automatique des textes en langue Arabe
(RAT). Nous nous sommes particulièrement intéressés à l’amélioration des méthodes
extractives en s'appuyant sur des approches statistique, sémantique et d'apprentissage
automatique. Dans un premier temps, nous présentons un état de l’art concernant les principales
méthodes de RAT et notamment celles dédiées à la langue Arabe. Ensuite, nous décrivons
quatre contributions permettant d'améliorer la performance des méthodes existantes. Dans la
première contribution, nous proposons une nouvelle méthode de RAT modélisant le texte sous
forme de graphe bidimensionnel dont les nœuds représentent les phrases du texte et les arcs
sont étiquetés par des scores statistique et sémantique relatifs au degré de similarité entre chaque
paire de phrases. De plus, nous avons intégré un algorithme d'élimination de la redondance et
une phase préalable de prétraitement (stemming) permettant d'améliorer davantage la
performance de la méthode proposée. Dans la deuxième contribution, nous proposons une
méthode de RAT basée sur l’apprentissage profond. Elle consiste à utiliser le variational autoencoder (VAE) en tant que technique d'apprentissage non supervisée des caractéristiques afin
de générer, pour chaque phrase, une représentation abstraite. Celle-ci est exploitée pour classer
les phrases du texte selon la similarité par rapport à une requête et par la suite extraire celles les
plus pertinentes. Une autre alternative proposée consiste à intégrer cette représentation dans le
calcul de la similarité entre chaque paire de phrases en adoptant le modèle de graphe précédent
(sans l'usage de la requête utilisateur). Cette méthode permet, d'une part, la réduction de la
dimensionnalité, et d'autre part, l'amélioration du processus d'extraction des phrases pertinentes.
Dans notre troisième contribution, nous adoptons la représentation distribuée des mots
(Word2vec) comme entrée pour l’entrainement de plusieurs modèles de réseaux de neurones
non supervisés. Les nouvelles représentations obtenues des phrases sont utilisées pour calculer
la similarité entre les paires des phrases pour construire le graphe précédent. Nous proposons
également des modèles d’apprentissage ensembliste pour améliorer la qualité des RAT Arabe.
Enfin, notre quatrième contribution consiste à adopter les techniques de clustering pour
regrouper les textes en plusieurs clusters pour lesquels nous identifions l’espace des sujets
associés (thématiques) par la méthode d’allocation de Dirichlet latente. Ensuite, nous utilisons
la représentation des textes de chaque cluster comme données d’entrainement des réseaux de
neurones non supervisés et des techniques ensemblistes pour l’apprentissage de nouvelles
représentations abstraites. Celles-ci sont exploitées pour classer les phrases du texte à résumer
selon un modèle basé sur les graphes. L'ensemble des méthodes proposées est évalué en utilisant
plusieurs corpus. Les résultats obtenus montrent l'intérêt de nos propos.
Description
Keywords
Informatique, Résumé automatique, Texte Arabe, Traitement automatique du langage naturel, Sémantique, Représentation distribuée, Apprentissage automatique, Réseau de neurone, Apprentissage profond, Apprentissage ensembliste