reconnaissance automatique de l’écriture imprimée arabe

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

reconnaissance automatique de l’écriture imprimée arabe

Show full item record


Title: reconnaissance automatique de l’écriture imprimée arabe
Author: SAID NOURI
Abstract: Les travaux présentés dans cette thèse se situent dans le cadre de la reconnaissance de l‘écriture imprimée Arabe, en utilisant un ensemble d‘approches au niveau de la phase de classification, à savoir l‘algorithme Support Vecteur Machine (SVM) et K-Plus-Proche-Voisin (KPPV). L‘objectif consiste à reconnaitre le contenu d‘une image d‘entrée. Ce dernier est réalisé via un système de reconnaissance constitué principalement de trois phases : prétraitement, extraction et classification. Dans la première phase, nous avons traité le problème de la segmentation du texte arabe imprimé en caractères. Le processus de la segmentation commence par la détection des paragraphes en calculant l‘histogramme horizontal et les interlignes du document pour déterminer les espaces verticaux séparant les paragraphes. Chaque paragraphe est segmenté en lignes en utilisant la projection horizontale de l‘histogramme, en calculant cette fois-ci l‘espace interligne du même paragraphe. Chaque ligne du paragraphe est segmentée en mots ou pseudo-mots, cela est réalisé à l‘aide de l‘histogramme vertical pour estimer l‘espace inter mots dans la même ligne. La segmentation des mots en caractères est basée sur la suppression de la ligne de base et la projection de l‘histogramme verticale. Les tests réalisés montrent des résultats très encourageants pour la segmentation du texte en lignes et la ligne en mots, par contre la segmentation des mots en caractères présente quelques difficultés. Une deuxième approche a été proposée pour la reconnaissance des caractères isolés arabes. En effet; nous avons proposé une méthode d'extraction des caractéristiques appelée « Cadre de Niveau » pour la discrimination des caractères arabes imprimés, cette technique adopte une approche statistique basée sur des positions pouvant donner quelques informations sur la morphologie de la forme. Le processus de cette technique divise l‘image binaire normalisée en une matrice carré d‘ordre 100 d'un caractère en 100 ou 64 zones. Chacune d‘elle est subdivisée en 5 niveaux, pour chaque niveau, des calculs sont effectués pour décrire la distribution et la densité des pixels, la moyenne des 5 valeurs extraites (une valeur pour chaque niveau) est retenue pour représenter une zone, ce qui donne un vecteur de 100 ou 64 variables caractérisant un caractère. Cette technique a été appliquée sur une base de données locale composée de : 105 classes des caractères arabes, 33 classes de différents caractères. Pour prédire les classes d‘appartenance des caractères, nous avons utilisé l‘approche de K-plus-proche-voisin en se basant sur trois types de distance (Correlation, Citybloc et Spearman). Les résultats obtenus sont très encourageants vis-à-vis la simplicité d‘implémentation et la capacité discriminante de la méthode. Dans la troisième approche, nous présentons une nouvelle méthode appelée « zigzag de poids de densité » pour la reconnaissance des mots arabes imprimés. Cette technique s‘opère en deux étapes: - La première vise à réduire la taille de la matrice d‘image normalisée 96x96 en 12x12, en utilisant la technique de poids de densité. - Dans la deuxième étape, la dernière matrice (12x12) a été utilisée, pour extraire 144 séquences suivant le chemin zigzag. Les 144 primitives calculées sont adoptées pour représenter chaque mot dans la base de données. Cette technique a été testée sur les noms des villes et villages du Maroc en utilisant KPPV avec la règle de vote majoritaire et le classificateur SVM. Les meilleurs résultats ont été obtenus avec KPPV (k = 9) et SVM (noyau linéaire). La dernière approche s‘est focalisée sur la reconnaissance de la fonte des mots ou pseudo-mots de différentes fontes arabes appliquées sur plusieurs familles de fontes, tailles et styles. L‘algorithme d‘extraction proposé est basé sur la continuité des pixels pour les quatre directions matricielles et huit paramètres statistiques de l‘histogramme pour extraire en total 20 primitives des dix derniers pixels du mot. L‘algorithme proposé a été testé sur la base des mots arabe imprimés de basse résolution APTI. Les meilleurs résultats sont obtenus avec l‘algorithme de classification KPPV.
Date: 2018

Files in this item

Files Size Format View
155-18 NOURI SAID.pdf 4.289Mb PDF View/Open or Preview

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account