Generative AI for Modeling Spatiotemporal Dynamics in 2D/3D Human Emotions and Actions: Analysis and Synthesis

en
Loading...
Thumbnail Image

Journal Title

Journal ISSN

Volume Title

Publisher

Faculté des Sciences, Rabat

Department

Supervisor

Date

Abstract

Les expressions faciales jouent un rôle crucial dans la communication non verbale humaine, et leur intégration dans les systèmes de vision par ordinateur est essentielle pour améliorer les interactions homme-machine. L’analyse automatique des expressions faciales a depuis longtemps attiré l’attention de la communauté de la vision par ordinateur, ouvrant des perspectives dans des domaines tels que la sécurité, la robotique et l’AR/VR. Cette thèse explore deux applications aux défis interconnectés : la reconnaissance et la génération d’expressions faciales, avec des extensions vers les actions humaines. Notre objectif est de d´développer des modèles d’apprentissage profond qui capturent efficacement à la fois les informations spatiales et l’évolution temporelle, tout en optimisant l’utilisation des ressources. Nous présentons d’abord FEV-GAN, un modèle qui utilise des GAN convolutifs spatio-temporels pour générer des vidéos d’expressions faciales à partir d’images neutres tout en préservant l’identité. Bien que performant, ce modèle produit des vidéos de basse résolution. Pour pallier cette limitation, nous introduisons FacEnhance, qui exploite un modèle de diffusion pour améliorer la résolution et la qualité des vidéos générées. Nous proposons ensuite LMDM, un modèle de diffusion latente pour générer des expressions faciales et des actions humaines, en s´eparant les espaces de contenu et de mouvement afin de produire des mouvements variés. Enfin, nous explorons le domaine 3D avec SpATr, un modèle basé sur des convolutions spirales et des Transformers pour la classification des expressions faciales et des actions humaines dans des séquences de maillages 3D. Nous présentons également LM3DM, un modèle de diffusion latente pour la génération d’expressions faciales en 3D, qui applique directement la diffusion dans l’espace latent afin de capturer les dynamiques des expressions. Ce travail approfondit la compréhension, la synthèse et l’application des communications non verbales humaines en vision par ordinateur. Les travaux futurs viseront à améliorer la génération de vidéos haute résolution et de scans 3D.

Description

Keywords

Sciences de l’ingénieur, Informatique, Intelligence Artificielle Générative, Réseaux Antagonistes Génératifs (GAN), Modèles de Diffusion, Transformers, Analyse des Expressions Faciales, Apprentissage Profond, Génération de Maillages 3D

Citation