Design and Development of new heuristics for clustering Big Data based on Artificial Intelligence

eng
Loading...
Thumbnail Image

Journal Title

Journal ISSN

Volume Title

Publisher

Faculté des Sciences de Rabat

Department

Supervisor

Date

Abstract

Cette thèse se concentre sur le développement de nouvelles heuristiques pour le clustering de Big Data basées sur l'Intelligence Artificielle afin de répondre à certaines des questions soulevées dans la littérature. A cet égard, la première contribution proposée concerne un aperçu technique des derniers algorithmes de clustering parallèles catégorisés en fonction des plateformes de calcul. La deuxième contribution consiste à développer une heuristique de clustering appelée E-Transitive, une version améliorée de l'heuristique Transitive, conçue pour traiter des ensembles de données catégoriques basés sur l'approche de l'analyse relationnelle. La troisième proposition est un algorithme de clustering sans paramètre basé sur les k-means (PFK-means), visant à générer les centres de clusters initiaux progressivement jusqu'à ce que le nombre approprié de clusters soit automatiquement détecté. La dernière contribution vise à fournir un nouvel algorithme de clustering parallèle basé sur Spark, conçu pour améliorer l'algorithme séquentiel PFK-means dans le but d'exploiter les systèmes distribués/de traiter les Big Data. Les expériences menées sur des ensembles de données réelles/synthétiques ont démontré que les méthodes proposées donnent des résultats de bonne qualité dans un temps de calcul raisonnable sans recourir à des paramètres d'entrée complexes.

Description

Keywords

Artificial Intelligence, Clustering, Big data, k, means, Parallel computing, MapReduce, Spark

Citation