Contribution à l’amélioration des techniques de NLP pour la langue Amazigh basée sur Deep Learning

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

Contribution à l’amélioration des techniques de NLP pour la langue Amazigh basée sur Deep Learning

Show full item record


Title: Contribution à l’amélioration des techniques de NLP pour la langue Amazigh basée sur Deep Learning
Author: Otman MAAROUF
Abstract: Dans la recherche scientifique, il y a quelques langues qui sont moins traitées, parmi elles on trouve la langue Amazigh, cette dernière souffre du manque d’outils intelligents de traitement. La résolution de ce problème représente l’objectif de cette thèse, qui s’intéresse à la création d’un framework de TALN (Traitement Automatique de la Langue Naturelle) regroupant un ensemble d’outils pour le traitement de la langue Amazigh. Les tâches du framework réalisées jusqu’à présent sont : la correction de la sortie d’un OCR (Optical Character Recognition), l’étiquetage, la détermination des entités nommées et la traduction. La réalisation de ce framework a nécessité les approches de TALN, Machine Learning et Deep Learning. Comme toutes les langues, un corpus est nécessaire à l’aboutissement d’un projet dans le domaine de TALN, c’est pour cela un corpus annoté de la langue Amazigh écrit en Tifinagh est élaboré. Un OCR est un système qui permet de reconnaitre le contenu d’un document scanné, le résultat de ce système nécessite parfois une correction, alors comme première contribution, une approche de correction est proposée basée sur les n-grammes. Comme deuxième contribution, l’étiquetage morpho-syntaxique est une opération primordiale du TALN, à ce niveau, un ensemble de modèles ont été élaborés et testés afin d’avoir des résultats performants, ces modèles sont basés sur les approches de Machine Learning (Arbre de décision et Conditional Random Fields) et les approches de Deep Learning (RNN, LSTM, GRU et Bi-LSTM). En plus, dans la troisième contribution, le problème de la détermination du type d’entité nommé est résolu via la préparation des données et la proposition de cinq modèles de classification des entités nommées, ces modèles sont fondés sur l’architecture des réseaux de neurones récurrente (RNN, LSTM, GRU, Bi-LSTM et Bi-GRU). La dernière contribution concerne la traduction de la langue Amazigh en Anglais, cet outil a exigé en premier lieu un corpus parallèle Amazigh-Anglais, et en seconde lieu la proposition des modèles de traduction automatique en se basant sur GRU, LSTM et Transformateurs.
Date: 2023

Files in this item

Files Size Format View
480-23-Otman MAAROUF.pdf 4.614Mb PDF View/Open or Preview

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account