Author
Tortora, Cristina
Palumbo, Francesco
Gettler-Summa, Mireille
Type
Communication / Conférence
Abstract (FR)
Les méthodes de classification non supervisée ont pour but de révéler une structure
entre des éléments, selon les associations qu’on peut y détecter par leurs valeurs sur un
ensemble de variables. Lorsque l’on s’intéresse à des grands ensembles d’unités, il est
nécessaire d’en réduire la dimensionnalité avant le processus de classification. Quand les
variables présentent des liens non linéaires, les approches classiques sont inopérantes. Les
classifications de variables qualitatives soulèvent dans ce sens de nombreux problèmes ;
les associations sont en général non linéaires. Avec un recodage binaire de l’ensemble des
modalités des variables, on obtient le plus souvent des matrices très creuses et de grande
dimension. Pour contourner la situation, quand le nombre de variables est important,
l’approche plus utilisée est de transformer les variables qualitatives en variables continues,
puis de faire la classification sur les valeurs de ces dernières. Notre travail s’attache à clas-
sifier de façon non supervisée des variables qualitatives dans le contexte général suivant
: il n’y a pas de liens linéaires entre les variables et elles sont en grand nombre. Nous
proposons une approche en plusieurs étapes: Analyse factorielle, redéploiement des coor-
données des premiers axes factoriel dans un espace de dimension supérieure, construction
des classes dans ce dernier espace, enfin visualisation des classes obtenues dans l’espace
des facteurs. On appliquera cette approche sur les données "epub" du "CRAN-R", et nous
nous intéresserons sur cet exemple à la comparaison entre l’approche par le détour des
vecteurs de support et celle classique d’un arbre hiérarchique.