modélisation bayésienne par les modèles avec changement de régimes pour l’étude de la progression des maladies

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

modélisation bayésienne par les modèles avec changement de régimes pour l’étude de la progression des maladies

Show full item record


Title: modélisation bayésienne par les modèles avec changement de régimes pour l’étude de la progression des maladies
Author: HIBBAH EL HOUCINE
Abstract: Les modèles de Markov sont largement utilisés dans les sciences de la santé; où le suivi de la progression des maladies est d’une grande importance pour les médecins et les patients. Ils offrent une manière très efficace de décrire le comportement de transition à travers les états d’un patient, dans le but de comparer les traitements pour différents médicaments et de choisir le traitement le plus convenable afin d’améliorer l’état sanitaire du malade (voir, Chunling et Tsokos [36] et les références y figurant). Malheureusement, on ne peut observer l’état du malade directement. En fait l’état sanitaire du malade est souvent caché. Par conséquent, nous faisons recours à des éléments intermédiaires; qui one une forte corrélation avec les états du malade. Ces éléments sont quantifiables et peuvent être mesurés; ils sont présents dans le corps ou le sang des malades, ils sont appelés marqueurs biologiques. Ces marqueurs ont prouvés qui’ils ont une forte dépendance avec l’évolution de l’état du malade; particulièrement pour les deux important maladies sujets de cette thèse: le cancer du sein, et la maladie pulmonaire obstructive chronique (COPD). Par exemple, pour le cancer du sein; les antigènes tumoraux 15-3 (CA15 − 3) et l’antigène carcino-embryonnaire (CEA) ont été associés à l’évolution du cancer du sein métastatique, d’un stade à l’autre (voir, Laessig et al [90]). Notre motivation provient alors du fait que les stades de la maladie sont cachés, ils seront donc modélisés par des états Markoviens de premier ordre. Les biomarqueurs sont observés; ils seront modélisés par des observations continues; telles que les observations autorégressives, les observations ARMA et les observations par diffusion (par exemple, voir Kim et Kim [81]). Ainsi, la modélisation sera effectuée par des versions du modèle de Markov caché (HMM) tels que les modèles avec changement de régimes Markoviens, ou leurs variantes stochastiques; les processus de diffusion avec changement de régimes Markoviens. Dans un premier temps, nous nous intéresserons dans cette thèse au modèle autorégressive avec changement de régimes Markoviens de premier ordre (MSAR(1)). Semblable aux modèles HMM, le MSAR(1) a des états cachés Markoviens de premier ordre. Mais contrairement aux modèles HMM, où les observations sont indépendantes; nous verrons qu’étant donné l’état caché actuel, l’observation actuelle dépend de la précédente via un processus autorégressif de premier ordre. Il convient de souligner que notre modélisation concerne de nombreuses personnes avec un nombre de temps de suivi différent d’un patient à l’autre. Dans cette thèse, nous commencerons par discuter le cas des temps discrets du modèle MSAR(1); appelé model de Markov caché autorégressif multi-varié de premier ordre (MAR(1)HMM). Ce modèle est similaire au modèle multi-varié à double chaînes de Markov (DCMM); où les observations sont considérées comme discrètes et Markoviennes. Cependant, dans notre cas, les observations sont continues et autorégressives de premier ordre. 2 Synthèse Nous aborderons ensuite la version des temps continues du MSAR(1); le modèle autorégressif à temps continu de premier ordre (CTMSAR(1)). Le cadre temporel continu est mieux convenable à l’analyse des phénomènes, car il prend en compte les intervalles de temps irréguliers. Bien que nous ayons des paramètres autorégressifs similaires pour le deux cas discret et continu, nous nous concentrons sur les probabilités de transition du processus de Markov dans le cas discret et sur les intensités de transition pour le cas continu. Cependant, la plupart du temps nous devons nous rapprocher la densité du processus avec changement de régimes Markoviens (MSM). De plus, nous aimerions ajouter plus de dynamique stochastique au processus d’observations, ou simplement avoir des petits intervalles de temps nécessaires pour toute approximation. Ainsi, nous obtenons la version stochastique du MSM; qui est le processus de diffusion hybride avec changement de régimes (HSD). Dans le processus HSD, nous avons deux composantes: les observations qui sont supposées provenir d’un processus de diffusion qui dépend du processus Markovien; et le processus avec changement de régimes qui’est régi par une matrice Markovienne d’intensités, supposée être dépendente du processus de diffusion, conservatrice et irréductible. Concernant les méthodes d’estimation, on peut utiliser les méthodes classiques telles que la méthode du maximum de vraisemblance (ML) où les méthodes d’espérance-maximisation (EM) ; en raison de leur efficacité. Néanmoins, pour les modèles MSM, la fonction de vraisemblance est insoluble la plupart du temps, en plus d’un nombre de paramètres tres élevé, ça rend l’inférence peu pratique. Nous utilisons donc les méthodes Bayésiennes de Monte Carlo avec chaîne de Markov (MCMC) ; qui supposent que la fonction de vraisemblance ne soit connue que proportionnellement. De plus pour les modèles MSM, les états cachés sont manquants et sont ainsi considérés comme des quantités aléatoires; et MCMC permet d’augmenter la fonction de vraisemblance avec les états manquants grâce à l’outil d’augmentation de données (par exemple, voir Hobert [72]). Enfin, notre choix pour les méthodes MCMC découle du fait que l’inférence Bayésienne permet d’introduire des connaissances à priori dans la fonction de vraisemblance. Dans le contexte MCMC, l’objectif est de construire une distribution Markovienne stationnaire pour les paramètres et les états cachés. En fait, l’algorithme procède en alternant la simulation des états cachés et le calcul des paramètres. Les états cachés sont calculés conjointement à l’aide d’un algorithme progressifrétrogressif (FFBS). Pour bien comprendre cet algorithme, on peut se référer à Chib [31]. Quant à l’inférence des paramètres, nous utilisons soit l’échantillonnage de Gibbs lorsqu’on obtient une densité à postériori connue à partir de laquelle on peut échantillonner; sinon, nous faisons appel à l’algorithme Metropolis Hastings (MHA). Néanmoins, l’estimation Bayésienne pour le HSD processus est un autre défi à relever ; car la plupart du temps, nous devons approximer la densité de diffusion. En fait, nous sommes généralement confrontés à des données à basse fréquence. Pour surmonter ce problème, nous devons introduire des Synthèse 3 données virtuelles ou latentes entre les observations successives via le mécanisme d’imputation des données (par exemple, voir Elerian et al [46]). Par conséquent, notre algorithme MCMC alternera entre la simulation des données imputées, les états cachés et le calcul de l’estimation des paramètres. Bien que la simulation des paramètres et des états cachés soit semblable au cas de MSAR(1), la nouveauté ici réside dans le fait que pour les données imputées, nous optons pour l’algorithme d’imputation temporelle aléatoire telle qu’il est décrit par Blackwell et al. [16] au lieu de l’algorithme d’imputation temporelle fixe. De plus, dans notre cas, la matrice d’intensités est mise à jour après l’actualisation des observations par les nouvelles données imputées, car la matrice d’intensités dépend du processus de diffusion. Enfin, nous testons notre algorithme MCMC par des études de simulation pour le cas du MSM, tandis que le processus HSD est illustré par une application à la maladie COPD. Le but de cette thèse concerne l’utilisation des méthodes MCMC pour estimer les processus MSM ou leur variante stochastique; les modèles HSD, pour l’étude de la progression des maladies. Au chapitre 2, nous passons en revue les principes de base de l’inférence Bayésienne et des règles de convergence des methodes MCMC; avec une description des principaux algorithmes considérés tels que les algorithmes Gibbs Sampler et MHA. Nous terminerons par un préliminaire sur les équations différentielles stochastiques. Au chapitre 3, et après un exposé préalable sur les modèles HMM et la spécificité des modèles MSAR(1), nous décrivons brièvement le problème d’idenfication des paramètres rencontré dans les modèles MSM. Ensuite, nous décrirons notre MSM à la fois dans le cadre du temps discret et du temps continu. Plus tard, nous fournissons les détails de l’inférence Bayésienne pour les paramètres et les états de Markov cachés. Dans ce chapitre, nous verrons combien il est important d’évaluer les probabilités de transition dans le cas des temps discrets, tandis que nous nous concentrerons sur les intensités de transition dans le cadre de temps continu. Ensuite, l’inférence est validée par une simulation. Au chapitre 4, nous nous intéressons aux méthodes MCMC pour les processus HSD. Le défi ici est que nous imputons des données latentes entre des observations successives pour résoudre le problème des intervalles de temps grands et pour permettre une approximation aisée de la densité de diffusion. Nous verrons comment l’algorithme MCMC alterne entre la computation des paramètres, les états cachés et les données imputées. Ensuite, nous donnons un cas de simulation avec une application à la progression de la maladie COPD. Dans le dernier chapitre, nous fournissons une conclusion et des perspectives. Enfin, dans les annexes, nous passons en revue quelques propriétés de base de convergence des variables aléatoires dans l’annexe A; en annexe B, nous fournissons quelques preuves importantes relatives à la condition de la balance détaillée nécessaire à la convergence de l’algorithme MCMC. L’annexe C fournit les détails concernant la propriété de Chapman Kolmogorov pour les modèles Markoviens, et 4 Synthèse en annexe D, nous passons en revue la formulation de la fonction de vraisemblance pour les processus de diffusion avec changement de régime indépendant, ainsi que l’algorithme progressif-rétrogressif (FFBS) de ce processus stochastique. En annexe E, nous présentons la forme numérique de Peng: pour l’exponentielle de la matrice d’intensités de transition. Annexe F donne un extrait des observations du marqueur FEV1 concernant la progression de la maladie COPD. Enfin, les annexes G et H fournissent respectivement les programmes de simulation Matlab pour les processus MAR(1)HMM et HSD
Date: 2019

Files in this item

Files Size Format View
224-19-HIBBAH EL HOUCINE.pdf 4.313Mb PDF View/Open or Preview

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account