Contribution à l’amélioration du taux de reconnaissance automatique de la parole par des modèles hybrides

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

Contribution à l’amélioration du taux de reconnaissance automatique de la parole par des modèles hybrides

Show full item record


Title: Contribution à l’amélioration du taux de reconnaissance automatique de la parole par des modèles hybrides
Author: Abdelkbir OUISAADANE
Abstract: L’amélioration des systèmes de reconnaissance automatique de la parole est l’un des défis actuels les plus importants, spécialement au milieu réel où des bruits ambiants élevés nous entourent de tous côtés, peuvent conduire donc à une dégradation des performances dans des conditions acoustiques défavorables. Pour résoudre ce problème, nous avons proposé et évalué dans le cadre de cette thèse la combinaison de deux grandes approches des systèmes RAP à savoir : l’approche d’entraînement multi-styles et les approches traditionnelles hybrides. Le but de l’approche d’entraînement bruités (multi-styles) est d’injecter de manière aléatoire des bruits à plusieurs niveaux SNR dans les données d’entraînement pour les systèmes de reconnaissance automatique de la parole (SRAP). Cette approche a été abordée spécialement pour la langue arabe standard et pour le dialecte marocain dans un milieu bruité. Nous avons construit dans un premier temps quatre corpus que nous avons utilisé dans les expériences. Deux ont été modifiés (SDDN et NASCIW) et deux nous les avions enregistré (ARADIGITS et DARIJA_Mo) dans des conditions différentes. Ensuite, ces bases de données ont été utilisé pour évaluer plusieurs systèmes (sept systèmes au total) avec plusieurs tests et par différents outils et techniques. Cette diversité des techniques de mise en œuvre de chaque module a été exploitée pour construire différents systèmes. Nous avons réalisé aussi en utilisant l’approche d’entraînement bruité une étude comparative entre quatre outils open source les plus connus (PocketSphinx, Kaldi, HTK et Matlab) et cinq modèles de classification (DNN-HMM, GMM-HMM, HMM, VQ-GMM et CNN). De plus, nous avons présenté les étapes intermédiaires suivies pour la formation des modèles, y compris les modèles acoustiques et linguistique de chaque système. Nous avons analysé l’effet du bruit de fond à différents niveaux sur les corpus NASCIW et DARIJA_Mo. L’extraction des paramètres acoustique, y compris en cas de bruit, se fait par les coefficients cepstraux MFCC. Les résultats obtenus montrent que l’outils Kaldi et PocketSphinx sont plus robuste au bruits avec meilleurs performances par rapport aux outils HTK et Matlab selon l’entraînement avec le corpus NASCIW. Ensuite, les expériences présentées dans cette thèse confirment que l’approche d’entraînement bruité fonctionne bien pour le modèle hybride DNN-HMM. Des améliorations significatives du WRR ont été observées sur les systèmes RAP basés sur DNN-HMM par rapport aux autres classificateurs avec une augmentation d’environ 5 %. Enfin, Les résultats obtenus suggèrent qu’une augmentation substantielle du taux de reconnaissance de mots (WRR) est obtenue lorsque l’entraînement se fait avec les données bruitées par rapport à celle fondé sur des données propres. Le meilleur taux de reconnaissance obtenu par le système basé sur le modèle DNN-HMM dans les conditions de test propres est de 97.10%.
Date: 2021

Files in this item

Files Size Format View
382-21-Abdelkbir OUISAADANE.pdf 4.622Mb PDF View/Open or Preview

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account