Feature Selection Methods for High Dimensional Data

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

Feature Selection Methods for High Dimensional Data

Show full item record


Title: Feature Selection Methods for High Dimensional Data
Author: Akhiat Yassine
Abstract: Avec la croissance rapide des données de grande dimension, de nombreuses attributs sont généralement non pertinentes, redondantes et bruyantes pour une tâche d’apprentissage donnée, ce qui a des conséquences néfastes en termes de performances et / ou de coût de calcul. De plus, un grand nombre d’attributs nécessite une grande quantité de mémoire ou d’espace de stockage. Par conséquent, la ré- duction de la dimensionnalité des données est devenue indispensable dans les scénarios du monde réel pour réussir à construire des modèles plus simples et précis, à améliorer les performances d’exploration de données et à améliorer l’interprétabilité des modèles. La sélection de caractéristiques est l’une des techniques de réduction de dimensionnalité les plus fondamentales dans de nombreux domaines, notamment : la classification de texte, la reconnaissance d’images, les puces à ADN et la bio-informatique. Il peut être défini comme le processus d’identification et de sélection des caractéristiques pertinentes et de suppression de celles qui ne sont pas pertinentes et bruyantes, dans le but d’obtenir un petit sousensemble (dimensionnalité inférieure) de caractéristiques qui décrit correctement un problème donné en maintenant ou même en améliorant les performances. Ce travail de thèse s’inscrit dans le cadre de la réduction de la dimensionnalité en particulier, il est consacré à la recherche de sélection des attributs fonctionnels et à son application à des données réelles de haute dimension où plusieurs défis spécifiques sont abordés. La première partie de ce travail présente une analyse approfondie de la procédure de sélection des fonctionnalités et fournit un examen critique de ses méthodes de pointe et de sa catégorisation afin de fournir aux lecteurs et aux chercheurs une vision claire, des recommandations pertinente et quelques lignes directrices pour une sélection d’attributs efficace. La deuxième partie de cette thèse est consacrée à la proposition de nouvelles techniques de sé- lection de fonctionnalités visant à résoudre certains des problèmes détectés sur le terrain. Dans ce stade, nous avons proposé cinq contributions différentes pour améliorer la sélection des attributs dans les grandes dimensions. Les expérimentations menées prouvent que les résultats sont prometteurs. La première proposition est une méthode de sélection de caractéristiques d’enveloppe de filtre hybride basée sur l’évaluation de caractéristiques par paires. Il bé- néficie de la simplicité des filtres ainsi que de la haute performance des méthodes wrappers. La deuxième proposition repose sur une représentation graphique où chaque nœud correspond à chaque caractéristique, et le score par paire entre deux caractéristiques est utilisé comme poids de l’arête entre deux nœuds. Puisque la stabilité de l’algorithme de sélection de caractéristiques est un problème souvent négligé dans la littérature, le troisième algorithme proposé consiste à utiliser une technique d’ensemble pour assurer la stabilité de la sélection de caractéristiques.vi Parfois, le modèle de forêt aléatoire (RF) surajuste les caractéristiques bruyantes, ce qui conduit à choisir les caractéristiques bruyantes comme variables informatives et à éliminer les plus significatives. Pour résoudre ce problème, nous avons proposé une nouvelle variante de RF qui fournit une sélection de variables non biaisée où une astuce de fonctionnalité bruyante est utilisée. Ensuite, le meilleur sous-ensemble de caractéristiques est sélectionné parmi les caractéristiques les mieux classées en ce qui concerne l’impureté Gini de cette nouvelle variante de RF. Enfin, dans la cinquième contribution, nous avons développé une nouvelle approche basée sur l’apprentissage par renforcement pour la sélection de caracté- ristiques. Ce dernier agit comme un agent qui parcourt l’espace des fonctionnalités pour apprendre et explorer en permanence des règles (sous-ensembles) afin de sélectionner correctement les fonctionnalités les plus performantes. Nos propositions sont évaluées sur une configuration expérimentale de référence qui prend en compte de grands ensembles de données standard et largement utilisé pour la sélection des attributs qui sont accessibles au public sur le référentiel UCI et la plate-forme kaggle. Les résultats expérimentaux confirment la validité de nos contributions.
Date: 2021-12-31

Files in this item

Files Size Format View
THESE_AKHIAT.pdf 8.311Mb PDF View/Open or Preview

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account