reconnaissance automatique de l’écriture imprimée arabe

Toubkal : Le Catalogue National des Thèses et Mémoires

reconnaissance automatique de l’écriture imprimée arabe

dc.contributor.advisor	Mohamed FAKIR
dc.contributor.author	SAID NOURI
dc.description.collaborator	Mohamed FAKIR
dc.description.collaborator	Mohamed OUKESSOU
dc.description.collaborator	Lalla Saadia Chadli
dc.description.collaborator	Brahim Minaoui
dc.description.collaborator	Rachid Elayachi
dc.description.collaborator	Khalid Nafil
dc.description.collaborator	Ali Rachidi
dc.date.accessioned	2023-10-31T14:05:49Z
dc.date.available	2023-10-31T14:05:49Z
dc.date.issued	2018
dc.identifier.uri	http://toubkal.imist.ma/handle/123456789/25478
dc.description.abstract	Les travaux présentés dans cette thèse se situent dans le cadre de la reconnaissance de l‘écriture imprimée Arabe, en utilisant un ensemble d‘approches au niveau de la phase de classification, à savoir l‘algorithme Support Vecteur Machine (SVM) et K-Plus-Proche-Voisin (KPPV). L‘objectif consiste à reconnaitre le contenu d‘une image d‘entrée. Ce dernier est réalisé via un système de reconnaissance constitué principalement de trois phases : prétraitement, extraction et classification. Dans la première phase, nous avons traité le problème de la segmentation du texte arabe imprimé en caractères. Le processus de la segmentation commence par la détection des paragraphes en calculant l‘histogramme horizontal et les interlignes du document pour déterminer les espaces verticaux séparant les paragraphes. Chaque paragraphe est segmenté en lignes en utilisant la projection horizontale de l‘histogramme, en calculant cette fois-ci l‘espace interligne du même paragraphe. Chaque ligne du paragraphe est segmentée en mots ou pseudo-mots, cela est réalisé à l‘aide de l‘histogramme vertical pour estimer l‘espace inter mots dans la même ligne. La segmentation des mots en caractères est basée sur la suppression de la ligne de base et la projection de l‘histogramme verticale. Les tests réalisés montrent des résultats très encourageants pour la segmentation du texte en lignes et la ligne en mots, par contre la segmentation des mots en caractères présente quelques difficultés. Une deuxième approche a été proposée pour la reconnaissance des caractères isolés arabes. En effet; nous avons proposé une méthode d'extraction des caractéristiques appelée « Cadre de Niveau » pour la discrimination des caractères arabes imprimés, cette technique adopte une approche statistique basée sur des positions pouvant donner quelques informations sur la morphologie de la forme. Le processus de cette technique divise l‘image binaire normalisée en une matrice carré d‘ordre 100 d'un caractère en 100 ou 64 zones. Chacune d‘elle est subdivisée en 5 niveaux, pour chaque niveau, des calculs sont effectués pour décrire la distribution et la densité des pixels, la moyenne des 5 valeurs extraites (une valeur pour chaque niveau) est retenue pour représenter une zone, ce qui donne un vecteur de 100 ou 64 variables caractérisant un caractère. Cette technique a été appliquée sur une base de données locale composée de : 105 classes des caractères arabes, 33 classes de différents caractères. Pour prédire les classes d‘appartenance des caractères, nous avons utilisé l‘approche de K-plus-proche-voisin en se basant sur trois types de distance (Correlation, Citybloc et Spearman). Les résultats obtenus sont très encourageants vis-à-vis la simplicité d‘implémentation et la capacité discriminante de la méthode. Dans la troisième approche, nous présentons une nouvelle méthode appelée « zigzag de poids de densité » pour la reconnaissance des mots arabes imprimés. Cette technique s‘opère en deux étapes: - La première vise à réduire la taille de la matrice d‘image normalisée 96x96 en 12x12, en utilisant la technique de poids de densité. - Dans la deuxième étape, la dernière matrice (12x12) a été utilisée, pour extraire 144 séquences suivant le chemin zigzag. Les 144 primitives calculées sont adoptées pour représenter chaque mot dans la base de données. Cette technique a été testée sur les noms des villes et villages du Maroc en utilisant KPPV avec la règle de vote majoritaire et le classificateur SVM. Les meilleurs résultats ont été obtenus avec KPPV (k = 9) et SVM (noyau linéaire). La dernière approche s‘est focalisée sur la reconnaissance de la fonte des mots ou pseudo-mots de différentes fontes arabes appliquées sur plusieurs familles de fontes, tailles et styles. L‘algorithme d‘extraction proposé est basé sur la continuité des pixels pour les quatre directions matricielles et huit paramètres statistiques de l‘histogramme pour extraire en total 20 primitives des dix derniers pixels du mot. L‘algorithme proposé a été testé sur la base des mots arabe imprimés de basse résolution APTI. Les meilleurs résultats sont obtenus avec l‘algorithme de classification KPPV.
dc.language.iso	Fr
dc.publisher	Faculté des Sciences et des Techniques, Béni Mellal - Doctorat ou Doctorat National	fr_FR
dc.subject	Histogramme vertical	fr_FR
dc.subject	Histogramme horizontal	fr_FR
dc.subject	Cadre de Niveau	fr_FR
dc.subject	K-Plus-Proche-Voisin	fr_FR
dc.subject	Correlation distance	fr_FR
dc.subject	Cityblock distance	fr_FR
dc.subject	Spearman distance	fr_FR
dc.subject	zigzag de poids de densité	fr_FR
dc.subject	support vecteur machine (SVM). APTI	fr_FR
dc.subject	reconnaissance de l‘écriture imprimée	fr_FR
dc.subject	Continuité des pixels	fr_FR
dc.subject	caractères Arabes.	fr_FR
dc.subject.other	2. Engineering and Technology
dc.title	reconnaissance automatique de l’écriture imprimée arabe	fr_FR
dc.subject.specific	1.2 Computer and information sciences

Files in this item

Files	Size	Format	View
155-18 NOURI SAID.pdf	4.289Mb	PDF	View/Open or Preview

This item appears in the following Collection(s)

Faculté des Sciences et des Techniques, Béni Mellal - Doctorat ou Doctorat National [472]

Show simple item record

reconnaissance automatique de l’écriture imprimée arabe

DSpace/Manakin Repository

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

reconnaissance automatique de l’écriture imprimée arabe

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account