reconnaissance automatique de l’écriture imprimée arabe

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

reconnaissance automatique de l’écriture imprimée arabe

Show simple item record


dc.contributor.advisor Mohamed FAKIR
dc.contributor.author SAID NOURI
dc.description.collaborator Mohamed FAKIR
dc.description.collaborator Mohamed OUKESSOU
dc.description.collaborator Lalla Saadia Chadli
dc.description.collaborator Brahim Minaoui
dc.description.collaborator Rachid Elayachi
dc.description.collaborator Khalid Nafil
dc.description.collaborator Ali Rachidi
dc.date.accessioned 2023-10-31T14:05:49Z
dc.date.available 2023-10-31T14:05:49Z
dc.date.issued 2018
dc.identifier.uri http://toubkal.imist.ma/handle/123456789/25478
dc.description.abstract Les travaux présentés dans cette thèse se situent dans le cadre de la reconnaissance de l‘écriture imprimée Arabe, en utilisant un ensemble d‘approches au niveau de la phase de classification, à savoir l‘algorithme Support Vecteur Machine (SVM) et K-Plus-Proche-Voisin (KPPV). L‘objectif consiste à reconnaitre le contenu d‘une image d‘entrée. Ce dernier est réalisé via un système de reconnaissance constitué principalement de trois phases : prétraitement, extraction et classification. Dans la première phase, nous avons traité le problème de la segmentation du texte arabe imprimé en caractères. Le processus de la segmentation commence par la détection des paragraphes en calculant l‘histogramme horizontal et les interlignes du document pour déterminer les espaces verticaux séparant les paragraphes. Chaque paragraphe est segmenté en lignes en utilisant la projection horizontale de l‘histogramme, en calculant cette fois-ci l‘espace interligne du même paragraphe. Chaque ligne du paragraphe est segmentée en mots ou pseudo-mots, cela est réalisé à l‘aide de l‘histogramme vertical pour estimer l‘espace inter mots dans la même ligne. La segmentation des mots en caractères est basée sur la suppression de la ligne de base et la projection de l‘histogramme verticale. Les tests réalisés montrent des résultats très encourageants pour la segmentation du texte en lignes et la ligne en mots, par contre la segmentation des mots en caractères présente quelques difficultés. Une deuxième approche a été proposée pour la reconnaissance des caractères isolés arabes. En effet; nous avons proposé une méthode d'extraction des caractéristiques appelée « Cadre de Niveau » pour la discrimination des caractères arabes imprimés, cette technique adopte une approche statistique basée sur des positions pouvant donner quelques informations sur la morphologie de la forme. Le processus de cette technique divise l‘image binaire normalisée en une matrice carré d‘ordre 100 d'un caractère en 100 ou 64 zones. Chacune d‘elle est subdivisée en 5 niveaux, pour chaque niveau, des calculs sont effectués pour décrire la distribution et la densité des pixels, la moyenne des 5 valeurs extraites (une valeur pour chaque niveau) est retenue pour représenter une zone, ce qui donne un vecteur de 100 ou 64 variables caractérisant un caractère. Cette technique a été appliquée sur une base de données locale composée de : 105 classes des caractères arabes, 33 classes de différents caractères. Pour prédire les classes d‘appartenance des caractères, nous avons utilisé l‘approche de K-plus-proche-voisin en se basant sur trois types de distance (Correlation, Citybloc et Spearman). Les résultats obtenus sont très encourageants vis-à-vis la simplicité d‘implémentation et la capacité discriminante de la méthode. Dans la troisième approche, nous présentons une nouvelle méthode appelée « zigzag de poids de densité » pour la reconnaissance des mots arabes imprimés. Cette technique s‘opère en deux étapes: - La première vise à réduire la taille de la matrice d‘image normalisée 96x96 en 12x12, en utilisant la technique de poids de densité. - Dans la deuxième étape, la dernière matrice (12x12) a été utilisée, pour extraire 144 séquences suivant le chemin zigzag. Les 144 primitives calculées sont adoptées pour représenter chaque mot dans la base de données. Cette technique a été testée sur les noms des villes et villages du Maroc en utilisant KPPV avec la règle de vote majoritaire et le classificateur SVM. Les meilleurs résultats ont été obtenus avec KPPV (k = 9) et SVM (noyau linéaire). La dernière approche s‘est focalisée sur la reconnaissance de la fonte des mots ou pseudo-mots de différentes fontes arabes appliquées sur plusieurs familles de fontes, tailles et styles. L‘algorithme d‘extraction proposé est basé sur la continuité des pixels pour les quatre directions matricielles et huit paramètres statistiques de l‘histogramme pour extraire en total 20 primitives des dix derniers pixels du mot. L‘algorithme proposé a été testé sur la base des mots arabe imprimés de basse résolution APTI. Les meilleurs résultats sont obtenus avec l‘algorithme de classification KPPV.
dc.language.iso Fr
dc.publisher Faculté des Sciences et des Techniques, Béni Mellal - Doctorat ou Doctorat National fr_FR
dc.subject Histogramme vertical fr_FR
dc.subject Histogramme horizontal fr_FR
dc.subject Cadre de Niveau fr_FR
dc.subject K-Plus-Proche-Voisin fr_FR
dc.subject Correlation distance fr_FR
dc.subject Cityblock distance fr_FR
dc.subject Spearman distance fr_FR
dc.subject zigzag de poids de densité fr_FR
dc.subject support vecteur machine (SVM). APTI fr_FR
dc.subject reconnaissance de l‘écriture imprimée fr_FR
dc.subject Continuité des pixels fr_FR
dc.subject caractères Arabes. fr_FR
dc.subject.other 2. Engineering and Technology
dc.title reconnaissance automatique de l’écriture imprimée arabe fr_FR
dc.subject.specific 1.2 Computer and information sciences

Files in this item

Files Size Format View
155-18 NOURI SAID.pdf 4.289Mb PDF View/Open or Preview

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account