reconnaissance des caractères manuscrits tifinagh par logique floue et modèles de langage n-grammes
FR
Loading...
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Faculté des Sciences et des Techniques, Béni Mellal - Doctorat ou Doctorat National
Department
Supervisor
Date
Abstract
Dans la littérature, on trouve une panoplie d’algorithmes et de techniques pour la
conception des systèmes de reconnaissance des caractères manuscrits. Le paramétrage de ces
systèmes se base sur un ensemble d’algorithmes d’entraînement. Ainsi, ces systèmes peuvent
être considérés comme des boîtes noires, ce qui rend leur maintenance une tâche fastidieuse voir
même impossible. En outre, une discrimination des caractères basée uniquement sur les
connaissances acquises de leurs différentes formes est imparfaite. En effet, dans certains cas,
même un être humain n’arrive pas à classer correctement un caractère manuscrit. Ainsi, on a
souvent recours au contexte, donc à la position de ce caractère dans le mot et parfois même la
position du mot dans la phrase entière pour décider la classe exacte du caractère en question.
Ainsi, l’objectif de ce travail de thèse est la mise en œuvre d’un système de
reconnaissance automatique hors ligne des caractères manuscrits Tifinagh, transparent,
interprétable et maniable par un être humain. Pour aboutir à ce but, nous avons développé un
système basé essentiellement sur : (1) une méthode d'extraction des caractéristiques sous forme
d'une combinaison linéaire de la méthode des densités de pixels et la méthode des distances des
centres de gravité; (2) deux algorithmes de classification connues par leur simplicité
d’implémentation et de paramétrage; l’algorithme des c-moyennes floues et l’algorithme des kplus proches voisins flous; et (3) les modèles de langage N-grammes pour représenter les
connaissances linguistiques de la langue Amazighe.
La phase d'entrainement de ce système se fait en deux étapes : (1) A partir d'une large
base d'exemples constituée de 8847 images de caractères manuscrits Tifinagh isolés, développée
au laboratoire de Traitement de l'Information et d'Aide à la Décision (TIAD), l’algorithme des
c-moyennes floues est utilisé pour éliminer les données redondantes et les intrus et génère ainsi
un nombre réduit des prototypes les plus représentatifs possibles; (2) à partir d'un large corpus
constitué de 133178 instances des mots Amazighe, on estime les probabilités de tous les Ngrammes possibles.
Ainsi, pour une image d’un mot inconnu, l’algorithme des k-plus proches voisins flous
génère un ensemble de propositions pour chacun des caractères de ce mot, muni de leurs degrés
d’appartenance aux différentes classes. Ensuite, à partir de ces propositions, on construit les
ii
différents mots possibles avec leur poids. Le modèle N-gramme du langage Amazighe est
ensuite utilisé pour attribuer une probabilité à chacun de ces mots. Le produit de cette probabilité
et le poids affecté par l’algorithme des k-plus proches voisins sera le facteur clé pour le choix
de la séquence des caractères la plus adéquate au mot en question.
Enfin, pour tester notre système nous avons construit une autre base de test composée
d’un ensemble d’images des mots Amazighe en Tifinagh contenant 3965 caractères. Avec ce
système, nous avons obtenu des résultats meilleurs que ceux obtenus par l’algorithme des k-plus
proches voisins flous, les perceptrons multicouches ou les SVM.
Description
Keywords
Reconnaissance de formes, caractères manuscrits Tifinagh, distances des centres de gravité, densité de pixels, c-moyennes floues, k-plus proches voisins flous, modèles Ngrammes, SVM, Réseaux de neurones, MMC.