Show simple item record

Symbolic decision trees, tools for validation and interpretation assistance

dc.contributor.advisorDiday, Edwin
dc.contributor.authorSeck, Djamal*
dc.date.accessioned2013-09-24T10:19:33Z
dc.date.available2013-09-24T10:19:33Z
dc.date.issued2012-12
dc.identifierhttp://basepub.dauphine.fr/theses/2012PA090067
dc.identifierhttp://www.theses.fr/2012PA090067
dc.identifier2012PA090067
dc.identifier.urihttps://basepub.dauphine.fr/handle/123456789/11702
dc.description.abstractfrNous proposons dans cette thèse la méthode STREE de construction d'arbres de décision avec des données symboliques. Ce type de données permet de caractériser des individus de niveau supérieur qui peuvent être des classes ou catégories d’individus ou des concepts au sens des treillis de Galois. Les valeurs des variables, appelées variables symboliques, peuvent être des ensembles, des intervalles ou des histogrammes. Le critère de partitionnement récursif est une combinaison d'un critère par rapport aux variables explicatives et d'un critère par rapport à la variable à expliquer. Le premier critère est la variation de la variance des variables explicatives. Quand il est appliqué seul, STREE correspond à une méthode descendante de classification non supervisée. Le second critère permet de construire un arbre de décision. Il s'agit de la variation de l'indice de Gini si la variable à expliquer est nominale et de la variation de la variance si la variable à expliquer est continue ou bien est une variable symbolique. Les données classiques sont un cas particulier de données symboliques sur lesquelles STREE peut aussi obtenir de bons résultats. Il en ressort de bonnes performances sur plusieurs jeux de données UCI par rapport à des méthodes classiques de Data Mining telles que CART, C4.5, Naive Bayes, KNN, MLP et SVM. STREE permet également la construction d'ensembles d'arbres de décision symboliques soit par bagging soit par boosting. L'utilisation de tels ensembles a pour but de pallier les insuffisances liées aux arbres de décisions eux-mêmes et d'obtenir une décision finale qui est en principe plus fiable que celle obtenue à partir d'un arbre unique.en
dc.languagefr
dc.language.isofren
dc.subjectArbre de décisionen
dc.subjectDonnées symboliquesen
dc.subjectVariable à expliqueren
dc.subjectVariables explicativesen
dc.subjectIndice de Ginien
dc.subjectVarianceen
dc.subjectÉlagageen
dc.subjectCourbe ROCen
dc.subjectBaggingen
dc.subjectBoostingen
dc.subjectDecision treeen
dc.subjectSymbolic dataen
dc.subjectDependant variableen
dc.subjectExplanatory variablesen
dc.subjectGini indexen
dc.subjectVarianceen
dc.subjectPruningen
dc.subjectROC curveen
dc.subjectBaggingen
dc.subjectBoostingen
dc.subject.ddc519en
dc.titleArbres de décisions symboliques, outils de validations et d'aide à l'interprétationen
dc.titleSymbolic decision trees, tools for validation and interpretation assistanceen
dc.typeThèseen
dc.subject.classificationrameauGini, Indice de
dc.subject.classificationrameauAnalyse des données symboliques
dc.subject.classificationrameauVariables (mathématiques)
dc.subject.classificationrameauCourbe ROC
dc.subject.classificationrameauBoosting (algorithmes)
dc.subject.classificationrameauAnalyse de variance
dc.subject.classificationrameauInformatique
dc.contributor.editoruniversityUniversité Paris Dauphine
dc.description.abstractenIn this thesis, we propose the STREE methodology for the construction of decision trees with symbolic data. This data type allows us to characterize individuals of higher levels which may be classes or categories of individuals or concepts within the meaning of the Galois lattice. The values of the variables, called symbolic variables, may be sets, intervals or histograms. The criterion of recursive partitioning is a combination of a criterion related to the explanatory variables and a criterion related to the dependant variable. The first criterion is the variation of the variance of the explanatory variables. When it is applied alone, STREE acts as a top-down clustering methodology. The second criterion enables us to build a decision tree. This criteron is expressed as the variation of the Gini index if the dependant variable is nominal, and as the variation of the variance if thedependant variable is continuous or is a symbolic variable. Conventional data are a special case of symbolic data on which STREE can also get good results. It has performed well on multiple sets of UCI data compared to conventional methodologies of Data Mining such as CART, C4.5, Naive Bayes, KNN, MLP and SVM. The STREE methodology also allows for the construction of ensembles of symbolic decision trees either by bagging or by boosting. The use of such ensembles is designed to overcome shortcomings related to the decisions trees themselves and to obtain a finaldecision that is in principle more reliable than that obtained from a single tree.en
dc.identifier.citationpages147en
dc.identifier.theseid2012PA090067en
dc.subject.ddclabelProbabilités et mathématiques appliquéesen
dc.rights.intranetouien
hal.person.labIds*


Files in this item

FilesSizeFormatView

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record