Partition BIC optimale de l’espace des pr´edicteurs Gilbert Ritschard ∗D´epartement d’´econom´etrie, Universit´e de Gen`eve gilbert.ritschard@themes.unige.ch R´esum´e. Cet article traite du partitionnement optimal de l’espace de pr´edicteurs cat´egoriels dans le but de pr´edire la distribution a poste- riori d’une variable r´eponse elle-mˆeme cat´egorielle. Cette partition op- timale doit r´epondre `a un double crit`ere d’ajustement et de simplicit´e que prennentpr´ecis´ementencomptelescrit`eresd’informationd’Akaike(AIC) ou bay´esien (BIC). Apr`es avoir montr´e comment ces crit`eres s’appliquent dans notre contexte, on s’int´eresse a` la recherche de la partition qui mi- nimise le crit`ere retenu. L’article propose une heuristique rudimentaire et d´emontre son efficacit´e par une s´erie de simulations qui comparent le quasi optimum trouv´e au vrai optimum. Plus que pour la partition elle- mˆeme, la connaissance de cet optimum s’av`ere pr´ecieuse pour juger du potentiel d’am´elioration d’une partition, notamment celle fournie par un algorithme d’induction d’arbre. Un exemple sur donn´ees r´eelles illustre ce dernier point. 1 Introduction Enapprentissagesupervis´e,destechniquescommel’analysediscriminante,lar´egres- sion logistique multinomiale, les mod`eles bay´esiens ou les arbres de d´ecisions induits de donn´ees (arbres d’induction) apprennent la distribution a posteriori de la variable a` pr´edire, l’objectif ´etant d’affecter un cas avec profil x en termes de pr´edicteurs ...
R´esum´e.Cet article traite du partitionnement optimal de l’espace de pr´edicteurscat´egorielsdanslebutdepr´edireladistributionaposte-riorid’unevariabler´eponseelle-mˆemecate´gorielle.Cettepartitionop-timaledoitre´pondrea`undoublecrit`ered’ajustementetdesimplicite´que prennentpre´cise´mentencomptelescrite`resd’informationd’Akaike(AIC) oubaye´sien(BIC).Apre`savoirmontre´commentcescrit`eress’appliquent dansnotrecontexte,ons’inte´ressea`larecherchedelapartitionquimi-nimiselecrit`ereretenu.L’articleproposeuneheuristiquerudimentaire etd´emontresonefficacite´parunese´riedesimulationsquicomparentle quasioptimumtrouve´auvraioptimum.Plusquepourlapartitionelle-meˆme,laconnaissancedecetoptimums’av`erepr´ecieusepourjugerdu potentield’ame´liorationd’unepartition,notammentcellefournieparun algorithmed’inductiond’arbre.Unexemplesurdonn´eesr´eellesillustrece dernier point.
Introduction
Enapprentissagesupervis´e,destechniquescommel’analysediscriminante,lare´gres-sionlogistiquemultinomiale,lesmode`lesbay´esiensoulesarbresdede´cisionsinduits dedonn´ees(arbresd’induction)apprennentladistributionaposterioridelavariable `apr´edire,l’objectife´tantd’affecteruncasavecprofilxuetca`srrpedide´teenesrmla classeyiiorriteosap´eitiletrpbobapaulfsroayantlp(Y=yi|xe´raL.)eu,stiqlogisiongres l’analysediscriminanteetlesmode`lesbaye´siensparexemple,mode´lisentladistribution a posteriori sous forme d’une fonction vectorielle continue dex. Par contraste, les arbres d’inductionconduisenta`unensemblefinidedistributions,chaquedistributione´tant associ´eea`uneclassed’unepartition«apprise»de l’ensemble des profilsxadmissibles. Nousnouspla¸consdanscederniercontexteetnousint´eressonsa`lad´eterminationdela partitionoptimale.Nousexaminonstoutd’abordlescrit`eresd’optimalit´equipeuvent s’ave´rerpertinents.Parmiceux-ci,nousporteronsuninte´rˆetparticulierauxcrit`eres d’informationdutypeAICetBICquipermettentd’arbitrerentrequalit´ed’ajuste-mentetcomplexite´.LecalculdesAICetBICpourunepartitionquelconquesefait parsimpleadaptationduprincipedel’arbre´etenduintroduitdansRitschardetZighed (2003, 2002) pour le cas des arbres. La recherche de la partition optimale par exploration exhaustive des partitions ´etantdecomplexite´nonpolynomiale,ilconvientderecourir`adesheuristiques.Pour cettepremi`ereapprocheduprobl`eme,onenvisageiciuneproce´dureascendantedont on examine les performances par une analyse de simulations. L’heuristique est rudi-
Onseplacedanslecadredel’apprentissagesupervis´eavecunevariablere´ponse Yetprseuctdie´rpx1, . . . , xpenabeutodnnesedd’ap´eestissprendegaiateelln. On conside`repluspre´cise´mentlecaso`ulavariable`apre´direYeltserpe´dicteurssonttous cat´egoriels.Onnote`le nombre de valeurs distinctes deY,ck, le nombre de valeurs Q distinctesdupre´dicteurxk,k= 1, . . . , p, etc≤ckle nombre de profils admissibles k 1 x= (x1, . . . , xp). Sil’objectifdel’apprentissageestenr`egleg´ene´ralelaconstructiond’unclassifieur f(xiableeslue´atdtlevaraatuiibtrunueunetq)Ylfi`oachaqueprx, les connaissances recherche´espeuventdanscertainscasportersurlesprobabilite´sdesdiverse´tatsdeY conditionnellement aux valeursxddansecasierllucitrapnetseice.Crseuctdi´epres les sciences de comportement (sociologie, sciences politiques, marketing, histoire, ...) quicherche`ade´crirelesm´ecanismesquire´gissentlesph´enom`enese´tudie´s.Nousnous pla¸consdanscecontexteestconsid´eronsdoncleproble`medelapr´edictiondeladistri-butiondeprobabilit´eaposteriorideYr,id-sae`’-ctedep(Y|x) = (p1(x), . . . , p`(Yx)), ou`l’onnotepi(x)lapbilirobae´tp(Y=yi|x). Notonsquedenombreusestechniquesdeclassifications’appuientdefac¸onplusou moins explicite sur la distribution a posteriorip(Y|xnatsa`tcnoiisnosiasatfic),clla attribuerlescas`alacat´egorielaplusprobableargmaxipi(x) compte tenu dex. C’est lecasnotammentdelar´egressionlogistique,del’analysediscriminanteline´aireou quadratique, deskplus proches voisins, des arbres et graphes d’induction ou encore desr´eseauxbay´esiens.Cetaspectestenparticulierbienmisene´videncedansHastie et al. (2001). Danslecasdevariablescate´gorielles,lesdonn´eesd’apprentissagepeuventeˆtrere-pr´esente´esdefac¸onsynth´etiquesousformed’unetabledecontingenceTde taille`×c 1 Lecroisementdetouslespre´dicteurspeutdonnerlieua`desprofilsnonadmissiblesd’effectif structurellementnul,parexemple(homme,enceinte).Ceciexpliquel’in´egalit´eutilis´eeici.