Conception et Développement de Nouveaux Algorithmes de Machine Learning pour une meilleure Classification des Données
fr
Loading...
Authors
Files
Collections
Journal Title
Journal ISSN
Volume Title
Publisher
Université Mohamed V, Faculté des Sciences, Rabat
Department
Supervisor
Date
Abstract
Actuellement, la science de donn´ees est un axe de recherche en plein essor gr^ace `a la
grande quantit´e de donn´ees g´en´er´ees quotidiennement par les diff´erents moyens technologiques. Cet axe vise `a extraire les informations pertinentes `a partir des donn´ees brutes.
Une description en amont de ces donn´ees est souvent indisponible y compris les classes
des ´echantillons. Par cons´equent, il est plus judicieux d’adopter des m´ethodes appropri´ees,
en l’occurrence la classification non supervis´ee (dite Clustering en anglais) qui consiste `a
regrouper les donn´ees sous forme de classes homog`enes appel´ees Clusters. Dans la pr´esente
th`ese, nous nous sommes int´eress´es `a l’am´elioration de l’algorithme de clustering DENCLUE qui appartient `a la famille de m´ethodes bas´ees sur la densit´e. Cet algorithme a
d´ej`a prouv´e sa robustesse surtout dans le cas des donn´ees bruit´ees multi-dimensionnelles.
Cependant, il n’est pas assez performant en termes de temps d’ex´ecution en particulier
pour classifier une grande quantit´e de donn´ees. Pour rem´edier `a cela, nous avons propos´e
trois nouvelles am´eliorations de DENCLUE qui ont montr´e leur performance `a trouver un
bon compromis entre le temps d’ex´ecution et la qualit´e du clustering. En plus des am´eliorations consid´erables apport´ees, notre analyse de r´esultats nous a conduit `a la d´etection
d’un probl`eme de chevauchement entre les clusters obtenus dans certains ensembles de
donn´ees. Pour r´epondre `a ce probl`eme, nous avons propos´e une mise en ´echelle des donn´ees en se basant sur leurs distributions de densit´es. Les r´esultats quantitatifs et visuels
se sont av´er´es plus int´eressants prouvant ainsi le grand int´er^et de la m´ethode propos´ee. La
deuxi`eme partie de nos contributions s’est focalis´ee sur l’application de nos algorithmes
tout en les adaptant `a des domaines bien sp´ecifiques, notamment la recherche et la s´election des services dans le Could Computing, l’analyse de sentiments dans le r´eseau social
Twitter, et le cancer du nasopharynx (domaine m´edical).
Description
Keywords
Informatique, Intelligence Artificielle, Science de données, Machine Learning, Clustering, Algorithmes basés sur la Densité, Cloud Computing, Analyse de Sentiments