Conception et Développement de Nouveaux Algorithmes de Machine Learning pour une meilleure Classification des Données

fr
Loading...
Thumbnail Image

Journal Title

Journal ISSN

Volume Title

Publisher

Université Mohamed V, Faculté des Sciences, Rabat

Department

Supervisor

Abstract

Actuellement, la science de donn´ees est un axe de recherche en plein essor gr^ace `a la grande quantit´e de donn´ees g´en´er´ees quotidiennement par les diff´erents moyens technologiques. Cet axe vise `a extraire les informations pertinentes `a partir des donn´ees brutes. Une description en amont de ces donn´ees est souvent indisponible y compris les classes des ´echantillons. Par cons´equent, il est plus judicieux d’adopter des m´ethodes appropri´ees, en l’occurrence la classification non supervis´ee (dite Clustering en anglais) qui consiste `a regrouper les donn´ees sous forme de classes homog`enes appel´ees Clusters. Dans la pr´esente th`ese, nous nous sommes int´eress´es `a l’am´elioration de l’algorithme de clustering DENCLUE qui appartient `a la famille de m´ethodes bas´ees sur la densit´e. Cet algorithme a d´ej`a prouv´e sa robustesse surtout dans le cas des donn´ees bruit´ees multi-dimensionnelles. Cependant, il n’est pas assez performant en termes de temps d’ex´ecution en particulier pour classifier une grande quantit´e de donn´ees. Pour rem´edier `a cela, nous avons propos´e trois nouvelles am´eliorations de DENCLUE qui ont montr´e leur performance `a trouver un bon compromis entre le temps d’ex´ecution et la qualit´e du clustering. En plus des am´eliorations consid´erables apport´ees, notre analyse de r´esultats nous a conduit `a la d´etection d’un probl`eme de chevauchement entre les clusters obtenus dans certains ensembles de donn´ees. Pour r´epondre `a ce probl`eme, nous avons propos´e une mise en ´echelle des donn´ees en se basant sur leurs distributions de densit´es. Les r´esultats quantitatifs et visuels se sont av´er´es plus int´eressants prouvant ainsi le grand int´er^et de la m´ethode propos´ee. La deuxi`eme partie de nos contributions s’est focalis´ee sur l’application de nos algorithmes tout en les adaptant `a des domaines bien sp´ecifiques, notamment la recherche et la s´election des services dans le Could Computing, l’analyse de sentiments dans le r´eseau social Twitter, et le cancer du nasopharynx (domaine m´edical).

Description

Keywords

Informatique, Intelligence Artificielle, Science de données, Machine Learning, Clustering, Algorithmes basés sur la Densité, Cloud Computing, Analyse de Sentiments

Citation