Design and Development of new heuristics for clustering Big Data based on Artificial Intelligence
eng
Loading...
Authors
Files
Collections
Journal Title
Journal ISSN
Volume Title
Publisher
Faculté des Sciences de Rabat
Department
Supervisor
Date
Abstract
Cette thèse se concentre sur le développement de nouvelles heuristiques pour le clustering de Big Data basées sur l'Intelligence Artificielle afin de répondre à certaines des questions soulevées dans la littérature. A cet égard, la première contribution proposée concerne un aperçu technique des derniers algorithmes de clustering parallèles catégorisés en fonction des plateformes de calcul. La deuxième contribution consiste à développer une heuristique de clustering appelée E-Transitive, une version améliorée de l'heuristique Transitive, conçue pour traiter des ensembles de données catégoriques basés sur l'approche de l'analyse relationnelle. La troisième proposition est un algorithme de clustering sans paramètre basé sur les k-means (PFK-means), visant à générer les centres de clusters initiaux progressivement jusqu'à ce que le nombre approprié de clusters soit automatiquement détecté. La dernière contribution vise à fournir un nouvel algorithme de clustering parallèle basé sur Spark, conçu pour améliorer l'algorithme séquentiel PFK-means dans le but d'exploiter les systèmes distribués/de traiter les Big Data. Les expériences menées sur des ensembles de données réelles/synthétiques ont démontré que les méthodes proposées donnent des résultats de bonne qualité dans un temps de calcul raisonnable sans recourir à des paramètres d'entrée complexes.
Description
Keywords
Artificial Intelligence, Clustering, Big data, k, means, Parallel computing, MapReduce, Spark