Generative AI for Modeling Spatiotemporal Dynamics in 2D/3D Human Emotions and Actions: Analysis and Synthesis

dc.contributor.authorHamza BOUZID
dc.date.accessioned2025-11-07T13:31:47Z
dc.date.accessioned2026-01-24T08:38:29Z
dc.date.available2025-11-07T13:31:47Z
dc.date.issued2024
dc.description.abstractLes expressions faciales jouent un rôle crucial dans la communication non verbale humaine, et leur intégration dans les systèmes de vision par ordinateur est essentielle pour améliorer les interactions homme-machine. L’analyse automatique des expressions faciales a depuis longtemps attiré l’attention de la communauté de la vision par ordinateur, ouvrant des perspectives dans des domaines tels que la sécurité, la robotique et l’AR/VR. Cette thèse explore deux applications aux défis interconnectés : la reconnaissance et la génération d’expressions faciales, avec des extensions vers les actions humaines. Notre objectif est de d´développer des modèles d’apprentissage profond qui capturent efficacement à la fois les informations spatiales et l’évolution temporelle, tout en optimisant l’utilisation des ressources. Nous présentons d’abord FEV-GAN, un modèle qui utilise des GAN convolutifs spatio-temporels pour générer des vidéos d’expressions faciales à partir d’images neutres tout en préservant l’identité. Bien que performant, ce modèle produit des vidéos de basse résolution. Pour pallier cette limitation, nous introduisons FacEnhance, qui exploite un modèle de diffusion pour améliorer la résolution et la qualité des vidéos générées. Nous proposons ensuite LMDM, un modèle de diffusion latente pour générer des expressions faciales et des actions humaines, en s´eparant les espaces de contenu et de mouvement afin de produire des mouvements variés. Enfin, nous explorons le domaine 3D avec SpATr, un modèle basé sur des convolutions spirales et des Transformers pour la classification des expressions faciales et des actions humaines dans des séquences de maillages 3D. Nous présentons également LM3DM, un modèle de diffusion latente pour la génération d’expressions faciales en 3D, qui applique directement la diffusion dans l’espace latent afin de capturer les dynamiques des expressions. Ce travail approfondit la compréhension, la synthèse et l’application des communications non verbales humaines en vision par ordinateur. Les travaux futurs viseront à améliorer la génération de vidéos haute résolution et de scans 3D.fr_FR
dc.description.collaboratorFaissal EL BOUANANI
dc.description.collaboratorStefano BERRETTI
dc.description.collaboratorMohammed El HASSOUNI
dc.description.collaboratorSanaa EL FKIHI
dc.description.collaboratorAladine CHETOUANI
dc.description.collaboratorGhizlane ORHANOU
dc.description.collaboratorNaima OTBERDOUT
dc.description.collaboratorLahoucine BALLIHI
dc.description.laboratoireRecherche en Informatique et Télécommunicationsfr_FR
dc.identifier.urihttps://toubkal.imist.ma/handle/123456789/37206
dc.identifier.urihttps://doi.org/10.83129/toubkal-14973
dc.language.isoenfr_FR
dc.publisherFaculté des Sciences, Rabatfr_FR
dc.subjectSciences de l’ingénieurfr_FR
dc.subjectInformatiquefr_FR
dc.subjectIntelligence Artificielle Générativefr_FR
dc.subjectRéseaux Antagonistes Génératifs (GAN)fr_FR
dc.subjectModèles de Diffusionfr_FR
dc.subjectTransformersfr_FR
dc.subjectAnalyse des Expressions Facialesfr_FR
dc.subjectApprentissage Profondfr_FR
dc.subjectGénération de Maillages 3Dfr_FR
dc.titleGenerative AI for Modeling Spatiotemporal Dynamics in 2D/3D Human Emotions and Actions: Analysis and Synthesisfr_FR

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
these-fsr.pdf
Size:
3.47 MB
Format:
Adobe Portable Document Format