Introduction de l'énergie et de la vitesse d'élocution dans un modèle de reconnaissance automatique de la parole

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

Introduction de l'énergie et de la vitesse d'élocution dans un modèle de reconnaissance automatique de la parole

Show full item record


Title: Introduction de l'énergie et de la vitesse d'élocution dans un modèle de reconnaissance automatique de la parole
Author: Yousfi, Abdellah
Abstract: Les modèles de Markov cachés (MMC) restent avec succès, les modèles les plus utilisés en reconnaissance automatique de la parole. Leur utilisation nécessite la construction d’une manière hiérarchique, d’un réseau en utilisant les connaissances de tous les niveaux. Au niveau phonétique chaque mot est représenté par une suite d’unités phonétiques élémentaires. Un modèle MMC est ensuite associé à chacune de ces unités pour donner le réseau acoustique global. Une des faiblesses des MMC standard est que les observations sont traitées à un seul niveau : le niveau acoustique. Or l’énergie et la durée sont des paramètres qui dépendent aussi du niveau phonétique. Afin de donner une modélisation (plus précise et plus simple) des paramètres qui dépendent du niveau phonétique, nous avons proposé un nouveau modèle à deux niveaux basé sur un pré-traitement centiseconde du signal de parole. Ce modèle est nommé Semi Modèle de Markov Caché à deux niveaux Centiseconde. Comme application de ce modèle nous avons étudié les cas de l’introduction de l’énergie et/ou la durée au niveau phonétique dans le modèle MMC. Dans la deuxième partie de cette thèse, nous avons étudié l’influence de l’introduction de la vitesse d’élocution dans le modèle TLHMM centiseconde (développé par Meziane). Deux alternatives sont envisagées. La première consiste à introduire la vitesse d’élocution en cours de reconnaissance en utilisant les filtres de Kalman, par contre la deuxième tient compte de ce facteur dans une espace de post-traitement. Ces approches sont évaluées sur un vocabulaire qui se comporte de 20 chiffres de 0 à 19, extrait de la base de données (BDSONS). Les résultats obtenus lors des tests de reconnaissance montrent l’intérêt de l’introduction de l’énergie et de la vitesse d’élocution dans les modèles de reconnaissance de la parole.
Date: 2001-06-19

Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account