reconnaissance automatique de l’écriture imprimée arabe

SAID NOURI

reconnaissance automatique de l’écriture imprimée arabe

dc.contributor.advisor	Mohamed FAKIR
dc.contributor.author	SAID NOURI
dc.date.accessioned	2023-10-31T14:05:49Z
dc.date.accessioned	2025-11-07T11:39:54Z
dc.date.available	2023-10-31T14:05:49Z
dc.date.issued	2018
dc.description.abstract	Les travaux présentés dans cette thèse se situent dans le cadre de la reconnaissance de l‘écriture imprimée Arabe, en utilisant un ensemble d‘approches au niveau de la phase de classification, à savoir l‘algorithme Support Vecteur Machine (SVM) et K-Plus-Proche-Voisin (KPPV). L‘objectif consiste à reconnaitre le contenu d‘une image d‘entrée. Ce dernier est réalisé via un système de reconnaissance constitué principalement de trois phases : prétraitement, extraction et classification. Dans la première phase, nous avons traité le problème de la segmentation du texte arabe imprimé en caractères. Le processus de la segmentation commence par la détection des paragraphes en calculant l‘histogramme horizontal et les interlignes du document pour déterminer les espaces verticaux séparant les paragraphes. Chaque paragraphe est segmenté en lignes en utilisant la projection horizontale de l‘histogramme, en calculant cette fois-ci l‘espace interligne du même paragraphe. Chaque ligne du paragraphe est segmentée en mots ou pseudo-mots, cela est réalisé à l‘aide de l‘histogramme vertical pour estimer l‘espace inter mots dans la même ligne. La segmentation des mots en caractères est basée sur la suppression de la ligne de base et la projection de l‘histogramme verticale. Les tests réalisés montrent des résultats très encourageants pour la segmentation du texte en lignes et la ligne en mots, par contre la segmentation des mots en caractères présente quelques difficultés. Une deuxième approche a été proposée pour la reconnaissance des caractères isolés arabes. En effet; nous avons proposé une méthode d'extraction des caractéristiques appelée « Cadre de Niveau » pour la discrimination des caractères arabes imprimés, cette technique adopte une approche statistique basée sur des positions pouvant donner quelques informations sur la morphologie de la forme. Le processus de cette technique divise l‘image binaire normalisée en une matrice carré d‘ordre 100 d'un caractère en 100 ou 64 zones. Chacune d‘elle est subdivisée en 5 niveaux, pour chaque niveau, des calculs sont effectués pour décrire la distribution et la densité des pixels, la moyenne des 5 valeurs extraites (une valeur pour chaque niveau) est retenue pour représenter une zone, ce qui donne un vecteur de 100 ou 64 variables caractérisant un caractère. Cette technique a été appliquée sur une base de données locale composée de : 105 classes des caractères arabes, 33 classes de différents caractères. Pour prédire les classes d‘appartenance des caractères, nous avons utilisé l‘approche de K-plus-proche-voisin en se basant sur trois types de distance (Correlation, Citybloc et Spearman). Les résultats obtenus sont très encourageants vis-à-vis la simplicité d‘implémentation et la capacité discriminante de la méthode. Dans la troisième approche, nous présentons une nouvelle méthode appelée « zigzag de poids de densité » pour la reconnaissance des mots arabes imprimés. Cette technique s‘opère en deux étapes: - La première vise à réduire la taille de la matrice d‘image normalisée 96x96 en 12x12, en utilisant la technique de poids de densité. - Dans la deuxième étape, la dernière matrice (12x12) a été utilisée, pour extraire 144 séquences suivant le chemin zigzag. Les 144 primitives calculées sont adoptées pour représenter chaque mot dans la base de données. Cette technique a été testée sur les noms des villes et villages du Maroc en utilisant KPPV avec la règle de vote majoritaire et le classificateur SVM. Les meilleurs résultats ont été obtenus avec KPPV (k = 9) et SVM (noyau linéaire). La dernière approche s‘est focalisée sur la reconnaissance de la fonte des mots ou pseudo-mots de différentes fontes arabes appliquées sur plusieurs familles de fontes, tailles et styles. L‘algorithme d‘extraction proposé est basé sur la continuité des pixels pour les quatre directions matricielles et huit paramètres statistiques de l‘histogramme pour extraire en total 20 primitives des dix derniers pixels du mot. L‘algorithme proposé a été testé sur la base des mots arabe imprimés de basse résolution APTI. Les meilleurs résultats sont obtenus avec l‘algorithme de classification KPPV.
dc.description.collaborator	Mohamed FAKIR
dc.description.collaborator	Mohamed OUKESSOU
dc.description.collaborator	Lalla Saadia Chadli
dc.description.collaborator	Brahim Minaoui
dc.description.collaborator	Rachid Elayachi
dc.description.collaborator	Khalid Nafil
dc.description.collaborator	Ali Rachidi
dc.identifier.uri	https://toubkal.imist.ma/handle/123456789/25478
dc.identifier.uri	https://doi.org/10.83129/toubkal-3833
dc.language.iso	Fr
dc.publisher	Faculté des Sciences et des Techniques, Béni Mellal - Doctorat ou Doctorat National	fr_FR
dc.subject	Histogramme vertical	fr_FR
dc.subject	Histogramme horizontal	fr_FR
dc.subject	Cadre de Niveau	fr_FR
dc.subject	K-Plus-Proche-Voisin	fr_FR
dc.subject	Correlation distance	fr_FR
dc.subject	Cityblock distance	fr_FR
dc.subject	Spearman distance	fr_FR
dc.subject	zigzag de poids de densité	fr_FR
dc.subject	support vecteur machine (SVM). APTI	fr_FR
dc.subject	reconnaissance de l‘écriture imprimée	fr_FR
dc.subject	Continuité des pixels	fr_FR
dc.subject	caractères Arabes.	fr_FR
dc.subject.other	2. Engineering and Technology
dc.subject.specific	1.2 Computer and information sciences
dc.title	reconnaissance automatique de l’écriture imprimée arabe	fr_FR

Files

Original bundle

Now showing 1 - 1 of 1

Name:: 155-18 NOURI SAID.pdf
Size:: 4.09 MB
Format:: Adobe Portable Document Format

Download

Collections

Faculté des Sciences et des Techniques, Béni Mellal