La reconnaissance optique des caractères : Cas de la langue Amazighe

fre
Loading...
Thumbnail Image

Journal Title

Journal ISSN

Volume Title

Publisher

Faculté des Sciences de Rabat

Department

Date

Abstract

La reconnaissance optique des caractères est un processus qui permet de convertir un texte présenté par une image numérique en un texte modifiable. Le problème de l’OCR a été exploré en profondeur pour plusieurs langues. Néanmoins, il n’y a pas beaucoup de systèmes OCR fiables disponibles pour la langue amazighe. Les études concernant les systèmes existants d’OCR pour cette langue se sont intéressées à l’écriture amazighe en alphabet tifinaghe. Cependant, cet alphabet n’a été généralisé que récemment avec la création de l’Institut Royal de la Culture Amazighe en 2001. D’où l’intérêt de traiter les documents amazighs écrits en alphabet latin/arabe, qui représentaient les alphabets les plus utilisés au Maroc. Dans cette thèse, nous avons étudié le système OCR ainsi que ses différents modules à savoir le prétraitement, la segmentation, l’extraction des caractéristiques, la classification/le post-traitement. L’objectif de cette thèse est d’élaborer un système capable de reconnaitre des documents scannés anciens/récents, rédigés en amazighe transcrite en caractères latin. Dans ce cadre, nous nous sommes concentrés, en premier lieu, sur la construction d’un corpus représentatif avec différents niveaux : ligne, mot/caractère. Puis, nous avons proposé des systèmes OCR dédiés principalement à notre langue étudiée. Ils sont composés des principaux modules du système OCR/se basent sur les approches les plus pertinentes dans la littérature,/ce dans le but d’étudier leurs comportements par rapport aux caractéristiques de cette langue. Les expérimentations ont été menées sur les systèmes/ont données des résultats satisfaisants exprimés par un taux de reconnaissance qui atteint 98%.

Description

Keywords

la reconnaissance optique des caractères, OCR, écriture Amazighe, réseau de neurones, classification, prétraitement

Citation