Sélection des échantillons pour le problème de classification en distributions déséquilibrées

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

Sélection des échantillons pour le problème de classification en distributions déséquilibrées

Show full item record


Title: Sélection des échantillons pour le problème de classification en distributions déséquilibrées
Author: Chairi Ikram
Abstract: Le domaine de l’intelligence artificielle a pour objectif le développement de systèmes informatiques capables de simuler des comportements normalement associés à l’intelligence humaine. On aimerait entre autres pouvoir construire une machine qui puisse résoudre des tâches liées à la vision (la reconnaissance d’objet), au traitement de la langue (l’identification du sujet d’un texte) ou au traitement de signaux sonores (la reconnaissance de la parole).Une approche développée afin de résoudre ce genre de tâches est basée sur l’apprentissage automatique de modèles à partir de données étiquetées reflétant le comportement intelligent à simuler. Il s'agit de la classification automatique des données. Or, les techniques de classification montrent une détérioration de performance face à la croissance exponentielle que le domaine d'information a connue. En effet, les bases de données sont de plus en plus grandes et montrent des anomalies qui nuisent ces classifieurs. L'un des aspects le plus répandu est celui du déséquilibre entre les classes. Néanmoins, plusieurs études ont montré que le prétraitement des données et l'application des techniques de sélection des échantillons permettent d’accroitre la qualité de la classification. Ainsi, l'idée principale de cette thèse est d'intégrer les techniques de sélection des échantillons dans le processus de classification, afin de résoudre le problème du déséquilibre des données. Nous présentons dans cette thèse trois méthodes pour traiter cette problématique: La première approche se base sur le critère de l'erreur d'apprentissage d'un réseau de neurones, pour effectuer la sélection des échantillons. C'est une méthode qui réalise un sous-échantillonnage ciblé au fur et à mesure de l'entraînement du classifieur La deuxième approche permet de sélectionner les clusters les plus proches à la frontière sans avoir recours au classifieur. Elle se base seulement sur le critère de la distance et des paires opposées les plus proches. Tandis que la dernière approche, utilise une mesure se basant sur la distance (fonction indicatrice) permettant de sélectionner les centres étendus tout au long de la frontière, nous permettant ainsi, de garder la distribution initiale des données autour de la frontière. De cette manière nous avons réalisé un équilibrage des données en se basant sur des méthodes de sélection des échantillons.
Date: 2014-07-25

Files in this item

Files Size Format View
THESE_CHAIRI.pdf 3.191Mb PDF View/Open or Preview

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account