Extraction des Règles d’Association et Prédiction du Diabète par les Algorithmes de Machine Learning
FR
Loading...
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Faculté des Sciences et des Techniques, Béni Mellal - Doctorat ou Doctorat National
Department
Supervisor
Date
Abstract
La découverte de connaissances à partir de bases de données médicales est importante pour établir
un diagnostic médical efficace. Le but de l'exploration de données est d'extraire des informations
de la base de données et de générer une description claire et compréhensible des modèles.
Le travail présenté avait un double objectif. Le premier est d’appliquer les outils de clustering et de
classification à notre base de données. Le second objectif était d’identifier les variables ayant le plus
d’impact sur les patients diabétiques à partir des règles d’association extraites, suite à l’extraction
des motifs fréquents par un ensemble d’algorithmes que nous comparons les uns aux autres. Nous
avons d'abord converti les attributs numériques en une forme catégorique. Des algorithmes basés
sur l’algorithme Apriori ont été utilisés pour générer des règles sur les données relatives au diabète
des Indiens Pima, afin de selectionner les algorithmes les plus performants. L'ensemble de données
a été extrait du référentiel d'apprentissage automatique UCI contenant un total d'instances 768 et 8
attributs numériques. Nous avons découvert que les étapes de prétraitement, souvent négligées dans
la découverte des connaissances sont les éléments les plus critiques pour déterminer le succès d'une
application d'exploration de données. Enfin, nous avons généré les règles d'association qui sont
utiles pour identifier des associations générales dans les données, afin de comprendre les relations
entre les champs mesurés et le fait que le patient développe ou non un diabète. Pour remedier aux
limites des algorithmes sur les données massives, nous avons adopté la plateform Spark afin de
réduire le temps d’execution. Nous avons appliqué trois algorithmes (YAFIM, DFPS et R APRIORI) sur une base de données des patients diabétiques de 253680 instances.
En utilisant les motifs extraits de la base de données PIMA, la prédiction du diabète est effectuée à
l'aide des algorithmes d'apprentissage automatique tels que Forêts aléatoires, Decision Tree, les
réseaux de neuronnes, Naive Bayes et K-plus proche voisins.
Les performances de chaque algorithme sont analysées pour déterminer celui qui présente la
meilleure exactitude, précision, sensibilité et spécificité. Nous avons constaté que l’algorithme
Forêts aléatoires fonctionne bien que les autres algorithmes avec une exactitude de 88.31%.
Description
Keywords
ataminng, motifs, Apriori, FP-Growth, Charm, Eclat, CPF-Growth, Yafim, R Apriori, DFPS, Régles d’association, Algorithmes de Machine learning, Prédiction du Diabète.