reconnaissance automatique de l’écriture imprimée arabe

dc.contributor.advisorMohamed FAKIR
dc.contributor.authorSAID NOURI
dc.date.accessioned2023-10-31T14:05:49Z
dc.date.accessioned2025-11-07T11:39:54Z
dc.date.available2023-10-31T14:05:49Z
dc.date.issued2018
dc.description.abstractLes travaux présentés dans cette thèse se situent dans le cadre de la reconnaissance de l‘écriture imprimée Arabe, en utilisant un ensemble d‘approches au niveau de la phase de classification, à savoir l‘algorithme Support Vecteur Machine (SVM) et K-Plus-Proche-Voisin (KPPV). L‘objectif consiste à reconnaitre le contenu d‘une image d‘entrée. Ce dernier est réalisé via un système de reconnaissance constitué principalement de trois phases : prétraitement, extraction et classification. Dans la première phase, nous avons traité le problème de la segmentation du texte arabe imprimé en caractères. Le processus de la segmentation commence par la détection des paragraphes en calculant l‘histogramme horizontal et les interlignes du document pour déterminer les espaces verticaux séparant les paragraphes. Chaque paragraphe est segmenté en lignes en utilisant la projection horizontale de l‘histogramme, en calculant cette fois-ci l‘espace interligne du même paragraphe. Chaque ligne du paragraphe est segmentée en mots ou pseudo-mots, cela est réalisé à l‘aide de l‘histogramme vertical pour estimer l‘espace inter mots dans la même ligne. La segmentation des mots en caractères est basée sur la suppression de la ligne de base et la projection de l‘histogramme verticale. Les tests réalisés montrent des résultats très encourageants pour la segmentation du texte en lignes et la ligne en mots, par contre la segmentation des mots en caractères présente quelques difficultés. Une deuxième approche a été proposée pour la reconnaissance des caractères isolés arabes. En effet; nous avons proposé une méthode d'extraction des caractéristiques appelée « Cadre de Niveau » pour la discrimination des caractères arabes imprimés, cette technique adopte une approche statistique basée sur des positions pouvant donner quelques informations sur la morphologie de la forme. Le processus de cette technique divise l‘image binaire normalisée en une matrice carré d‘ordre 100 d'un caractère en 100 ou 64 zones. Chacune d‘elle est subdivisée en 5 niveaux, pour chaque niveau, des calculs sont effectués pour décrire la distribution et la densité des pixels, la moyenne des 5 valeurs extraites (une valeur pour chaque niveau) est retenue pour représenter une zone, ce qui donne un vecteur de 100 ou 64 variables caractérisant un caractère. Cette technique a été appliquée sur une base de données locale composée de : 105 classes des caractères arabes, 33 classes de différents caractères. Pour prédire les classes d‘appartenance des caractères, nous avons utilisé l‘approche de K-plus-proche-voisin en se basant sur trois types de distance (Correlation, Citybloc et Spearman). Les résultats obtenus sont très encourageants vis-à-vis la simplicité d‘implémentation et la capacité discriminante de la méthode. Dans la troisième approche, nous présentons une nouvelle méthode appelée « zigzag de poids de densité » pour la reconnaissance des mots arabes imprimés. Cette technique s‘opère en deux étapes: - La première vise à réduire la taille de la matrice d‘image normalisée 96x96 en 12x12, en utilisant la technique de poids de densité. - Dans la deuxième étape, la dernière matrice (12x12) a été utilisée, pour extraire 144 séquences suivant le chemin zigzag. Les 144 primitives calculées sont adoptées pour représenter chaque mot dans la base de données. Cette technique a été testée sur les noms des villes et villages du Maroc en utilisant KPPV avec la règle de vote majoritaire et le classificateur SVM. Les meilleurs résultats ont été obtenus avec KPPV (k = 9) et SVM (noyau linéaire). La dernière approche s‘est focalisée sur la reconnaissance de la fonte des mots ou pseudo-mots de différentes fontes arabes appliquées sur plusieurs familles de fontes, tailles et styles. L‘algorithme d‘extraction proposé est basé sur la continuité des pixels pour les quatre directions matricielles et huit paramètres statistiques de l‘histogramme pour extraire en total 20 primitives des dix derniers pixels du mot. L‘algorithme proposé a été testé sur la base des mots arabe imprimés de basse résolution APTI. Les meilleurs résultats sont obtenus avec l‘algorithme de classification KPPV.
dc.description.collaboratorMohamed FAKIR
dc.description.collaboratorMohamed OUKESSOU
dc.description.collaboratorLalla Saadia Chadli
dc.description.collaboratorBrahim Minaoui
dc.description.collaboratorRachid Elayachi
dc.description.collaboratorKhalid Nafil
dc.description.collaboratorAli Rachidi
dc.identifier.urihttps://toubkal.imist.ma/handle/123456789/25478
dc.identifier.urihttps://doi.org/10.83129/toubkal-3833
dc.language.isoFr
dc.publisherFaculté des Sciences et des Techniques, Béni Mellal - Doctorat ou Doctorat Nationalfr_FR
dc.subjectHistogramme verticalfr_FR
dc.subjectHistogramme horizontalfr_FR
dc.subjectCadre de Niveaufr_FR
dc.subjectK-Plus-Proche-Voisinfr_FR
dc.subjectCorrelation distancefr_FR
dc.subjectCityblock distancefr_FR
dc.subjectSpearman distancefr_FR
dc.subjectzigzag de poids de densitéfr_FR
dc.subjectsupport vecteur machine (SVM). APTIfr_FR
dc.subjectreconnaissance de l‘écriture impriméefr_FR
dc.subjectContinuité des pixelsfr_FR
dc.subjectcaractères Arabes.fr_FR
dc.subject.other2. Engineering and Technology
dc.subject.specific1.2 Computer and information sciences
dc.titlereconnaissance automatique de l’écriture imprimée arabefr_FR

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
155-18 NOURI SAID.pdf
Size:
4.09 MB
Format:
Adobe Portable Document Format