Classification de données multidimensionnelles : Méthodes de chaînages basée sur l'ordre d'un modèle statistique : Méthode des scores

DSpace/Manakin Repository

Aide Aide Aide

Nos fils RSS

Toubkal : Le Catalogue National des Thèses et Mémoires

Classification de données multidimensionnelles : Méthodes de chaînages basée sur l'ordre d'un modèle statistique : Méthode des scores

Show full item record


Title: Classification de données multidimensionnelles : Méthodes de chaînages basée sur l'ordre d'un modèle statistique : Méthode des scores
Author: Iraqui, Samir
Abstract: Les méthodes de classification automatique consistent à découvrir, au sein d’un ensemble d’observations multidimensionnelles, la présence de classes qui regroupent des observations semblables. Ces observations sont généralement constituées d’un ensemble de mesures recueillies sur des objets que l’on désire regrouper en fonction de leurs similarités. Il existe un très grand nombre de méthodes de classification dont une grande partie correspond à deux approches fondamentales : l’approche métrique et l’approche statistique. Quand il s’agit de découvrir l’organisation de données multidimensionnelles en faisant appel à des concepts d’ordre statistique, l’analyse se base en général sur une estimation de la fonction de densité de probabilité sous-jacente à la distribution des données. Quand le nombre d’observations disponibles est limité, l’analyse a tout intérêt à faire appel à des méthodes métriques où la similarité entre deux observations est quantifiée en évaluant la distance qui les sépare. Nous proposons dans la première partie de cette thèse une nouvelle méthode de classification automatique basée sur une procédure de chaînage séquentiel. Cette méthode repose sur une approche métrique basée l’analyse de la distance entre les observations et sur une approche statistique faisant appel à la théorie de l’information. Cette méthode est basée sur une notion de voisinage défini par une hyper sphère de rayon r. Nous proposons une technique d’ajustement de la taille du voisinage utilisé, basée sur la recherche du minium d’un critère informationnel. La méthode proposée est évaluée en utilisant des données générées artificiellement et des données réelles. Ces simulations montrent l’intérêt de l’approche qui est simple, robuste, et qui ne nécessite aucune connaissance à priori sur le nombre de classes en présence, ni sur leur distribution. La deuxième partie de cette thèse, est consacrée à la méthode des scores. Il s’agit d’une méthode qui consiste à mesurer le risque de défaillance d’une entreprise. Cette méthode repose sur une série de rations, affectés de coefficients de pondération et, sur l’observation de séries statistiques élaborées à partir d’échantillons représentatifs d’entreprises. Nous présentons les outils mathématiques existants et nous proposons la régression PLS comme alternative à l’analyse discriminante et à la régression logistique afin de déterminer la fonction score et de procéder à une décision relative à l’octroi de crédit à l’entreprise. L’intérêt de la régression score et de procéder à une décision relative à l’octroi de crédit à l’entreprise. L’intérêt de la régression PLS est qu’elle s’adapte bien échantillons de faibles tailles et de grandes dimensions. Une application des différents outils mathématiques est faite sur les données réelles. Ces données concernent les dossiers de demande d’octroi de crédit présentés à un organisme financier. Au total 216 demandes ont été étudiées. Chaque entreprise sollicitant l’octroi de crédit est caractérisée par 15 indicateurs issus des bilans annuels des trois dernières années.
Date: 2004-07-28

Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account