Classification de données multidimensionnelles : Méthodes de chaînages basée sur l'ordre d'un modèle statistique : Méthode des scores

dc.contributor.authorIraqui, Samir
dc.date.accessioned2010-06-14T13:49:07Z
dc.date.accessioned2026-01-22T14:16:17Z
dc.date.available2010-06-14T13:49:07Z
dc.date.issued2004-07-28
dc.description.abstractLes méthodes de classification automatique consistent à découvrir, au sein d’un ensemble d’observations multidimensionnelles, la présence de classes qui regroupent des observations semblables. Ces observations sont généralement constituées d’un ensemble de mesures recueillies sur des objets que l’on désire regrouper en fonction de leurs similarités. Il existe un très grand nombre de méthodes de classification dont une grande partie correspond à deux approches fondamentales : l’approche métrique et l’approche statistique. Quand il s’agit de découvrir l’organisation de données multidimensionnelles en faisant appel à des concepts d’ordre statistique, l’analyse se base en général sur une estimation de la fonction de densité de probabilité sous-jacente à la distribution des données. Quand le nombre d’observations disponibles est limité, l’analyse a tout intérêt à faire appel à des méthodes métriques où la similarité entre deux observations est quantifiée en évaluant la distance qui les sépare. Nous proposons dans la première partie de cette thèse une nouvelle méthode de classification automatique basée sur une procédure de chaînage séquentiel. Cette méthode repose sur une approche métrique basée l’analyse de la distance entre les observations et sur une approche statistique faisant appel à la théorie de l’information. Cette méthode est basée sur une notion de voisinage défini par une hyper sphère de rayon r. Nous proposons une technique d’ajustement de la taille du voisinage utilisé, basée sur la recherche du minium d’un critère informationnel. La méthode proposée est évaluée en utilisant des données générées artificiellement et des données réelles. Ces simulations montrent l’intérêt de l’approche qui est simple, robuste, et qui ne nécessite aucune connaissance à priori sur le nombre de classes en présence, ni sur leur distribution. La deuxième partie de cette thèse, est consacrée à la méthode des scores. Il s’agit d’une méthode qui consiste à mesurer le risque de défaillance d’une entreprise. Cette méthode repose sur une série de rations, affectés de coefficients de pondération et, sur l’observation de séries statistiques élaborées à partir d’échantillons représentatifs d’entreprises. Nous présentons les outils mathématiques existants et nous proposons la régression PLS comme alternative à l’analyse discriminante et à la régression logistique afin de déterminer la fonction score et de procéder à une décision relative à l’octroi de crédit à l’entreprise. L’intérêt de la régression score et de procéder à une décision relative à l’octroi de crédit à l’entreprise. L’intérêt de la régression PLS est qu’elle s’adapte bien échantillons de faibles tailles et de grandes dimensions. Une application des différents outils mathématiques est faite sur les données réelles. Ces données concernent les dossiers de demande d’octroi de crédit présentés à un organisme financier. Au total 216 demandes ont été étudiées. Chaque entreprise sollicitant l’octroi de crédit est caractérisée par 15 indicateurs issus des bilans annuels des trois dernières années.en
dc.description.collaboratorOuazzani Chahdi, T. (Président)
dc.description.collaboratorAkkarif, A. (Examinateur)
dc.description.collaboratorAllal, J. (Examinateur)
dc.description.collaboratorBenslimane, R. (Examinateur)
dc.description.collaboratorLamrini, M. (Examinateur)
dc.description.collaboratorRais, N. (Examinateur)
dc.description.collaboratorRifi, K. (Examinateur et Directeur de la thèse)
dc.format.extent26112 bytes
dc.format.mimetypeapplication/msword
dc.identifier.urihttps://toubkal.imist.ma/handle/123456789/6109
dc.identifier.urihttps://doi.org/10.83129/toubkal-20237
dc.language.isofren
dc.publisherUniversité Sidi Mohamed Ben Abdellah, Faculté des Sciences Dhar Mahraz, Fèsen
dc.relation.ispartofseriesTh-510/IRA
dc.subjectMathématiqueen
dc.subjectClassification non superviséen
dc.subjectGroupementen
dc.subjectChaînageen
dc.subjectCritère informationnelen
dc.subjectFonction scoreen
dc.subjectRégression PLSen
dc.titleClassification de données multidimensionnelles : Méthodes de chaînages basée sur l'ordre d'un modèle statistique : Méthode des scoresen

Files

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
115 B
Format:
Plain Text
Description: