Extraction des Règles d’Association et Prédiction du 
Diabète par les Algorithmes de Machine Learning

La découverte de connaissances à partir de bases de données médicales est importante pour établir un diagnostic médical efficace. Le but de l'exploration de données est d'extraire des informations de la base de données et de générer une description claire et compréhensible des modèles. Le travail présenté avait un double objectif. Le premier est d’appliquer les outils de clustering et de classification à notre base de données. Le second objectif était d’identifier les variables ayant le plus d’impact sur les patients diabétiques à partir des règles d’association extraites, suite à l’extraction des motifs fréquents par un ensemble d’algorithmes que nous comparons les uns aux autres. Nous avons d'abord converti les attributs numériques en une forme catégorique. Des algorithmes basés sur l’algorithme Apriori ont été utilisés pour générer des règles sur les données relatives au diabète des Indiens Pima, afin de selectionner les algorithmes les plus performants. L'ensemble de données a été extrait du référentiel d'apprentissage automatique UCI contenant un total d'instances 768 et 8 attributs numériques. Nous avons découvert que les étapes de prétraitement, souvent négligées dans la découverte des connaissances sont les éléments les plus critiques pour déterminer le succès d'une application d'exploration de données. Enfin, nous avons généré les règles d'association qui sont utiles pour identifier des associations générales dans les données, afin de comprendre les relations entre les champs mesurés et le fait que le patient développe ou non un diabète. Pour remedier aux limites des algorithmes sur les données massives, nous avons adopté la plateform Spark afin de réduire le temps d’execution. Nous avons appliqué trois algorithmes (YAFIM, DFPS et R APRIORI) sur une base de données des patients diabétiques de 253680 instances. En utilisant les motifs extraits de la base de données PIMA, la prédiction du diabète est effectuée à l'aide des algorithmes d'apprentissage automatique tels que Forêts aléatoires, Decision Tree, les réseaux de neuronnes, Naive Bayes et K-plus proche voisins. Les performances de chaque algorithme sont analysées pour déterminer celui qui présente la meilleure exactitude, précision, sensibilité et spécificité. Nous avons constaté que l’algorithme Forêts aléatoires fonctionne bien que les autres algorithmes avec une exactitude de 88.31%.

Keywords

ataminng, motifs, Apriori, FP-Growth, Charm, Eclat, CPF-Growth, Yafim, R Apriori, DFPS, Régles d’association, Algorithmes de Machine learning, Prédiction du Diabète.

Full item page

Extraction des Règles d’Association et Prédiction du Diabète par les Algorithmes de Machine Learning

Authors

Files

Collections

Journal Title

Journal ISSN

Volume Title

Publisher

Department

Supervisor

URI

Date

Abstract

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By