Description statistique des classes d’une partition
Olivier Sautory
Cette note présente un certain nombre d'indicateurs statistiques permettant de décrire les classes d'une partition, disponibles dans les macros SAS PARTNUM, PARTQUAL, DESNUM et DESQUAL.
Soit PC= KKCC une partition d’un ensemble de n individus Ii= 1KKnsur lequel sont mesurées [] {} 1 kK des variables numériques ou qualitatives. Ces variables peuvent avoir participé ou non à la construction de la partition : elles sont actives ou supplémentaires.
On cherche à identifier les variables, ou les modalités des variables qualitatives, qui :
caractérisent le mieux la partition, i.e. celles qui discriminent le mieux les différentes classes, d’un point de vue global ;
caractérisent le mieux chacune des classes : pour une classe donnée, on repère
− les variables numériques dont la moyenne dans la classe est "très différente" de la moyenne dans l’ensemble I,
− les variables qualitatives dont la distribution dans la classe est "très différente" de la distribution dans I,
− les modalités dont la fréquence dans la classe est "très différente" de la fréquence dans I.
On note la variable de classe associée à la partition, i.e. la variable qualitative qui à chaque individu associe la classe à laquelle il appartient :
Description statistique des classes d’une partition
Olivier Sautory
Cette note présente un certain nombre d'indicateurs statistiques permettant de décrire les classes d'une partition, disponibles dans les macros SAS PARTNUM, PARTQUAL, DESNUM et DESQUAL. SoitP=CKCKCune partition d’un ensemble de n individusI={1KiKn}sur lequel sont mesurées [1 k K] des variables numériques ou qualitatives. Ces variables peuvent avoir participé ou non à la construction de la partition : elles sontactivesousupplémentaires. On cherche à identifier les variables, ou les modalités des variables qualitatives, qui : •caractérisent le mieux la partition, i.e. celles qui discriminent le mieux les différentes classes, d’un point de vue global ; •caractérisent le mieux chacune des classes : pour une classe donnée, on repère −les variables numériques dont la moyenne dans la classe est "très différente" de la moyenne dans l’ensemble I, −les variables qualitatives dont la distribution dans la classe est "très différente" de la distribution dans I, −les modalités dont la fréquence dans la classe est "très différente" de la fréquence dans I. On note lavariable de classeà la partition, i.e. la variable qualitative qui à chaque individu associée associe la classe à laquelle il appartient : ∀i∈I(i)=C⇔i∈C k k On notenl’effectif de la classeC. kk I. Cas d'une variable numérique Soit X une variable numérique définie sur I. On note : 2 •X et Sla moyenne et la variance empiriques de X dans l’ensemble I 2 •pourk=1KK : X et Sla moyenne et la variance empiriques de X dans la classeC. k kk On a les relations : K n k X=Xk∑ n k=1 K K 2 n n 2 k 2 k S=S+X−X ∑ ∑ k(k) k=1nk=1n2 2 =S+S intra inter
1
I.1. Caractérisation de la partition par la variable On cherche à répondre à la question : "estce que la variable Xexpliquebien la partition ?", en comparant les moyennes par classeX. On utilise pour cela un test classique d’analyse de la variance (présenté dans k tout bon ouvrage de statistique mathématique), qui va permettre de juger si les écarts observés entre les moyennesXsontsignificatifs. k Méthodologie du test 2 On suppose que X est une variable aléatoire suivant une loi normale,N ( m σ)la classe dans Ckk (k=1KK). On teste l’hypothèse d’égalité des espérances de X dans chaque classe : H :( m=K=m=K=m ) contreH :(∃tq mk ,k' ≠m )0 1 k K 1 k k' On calcule la statistique : 2 n−K Sinte r F= ∈0 ,+ ∞2[ [ K−1 S intra SousH, F suit une loi de Fisher à−1 etn− degrés de liberté. On rejetteH si F est élevée. Le 0 0 niveau de significativité du test vaut : P=Prob Fisher ( K−1,n−K )>F[ ] InterprétationLa statistique de Fisher F est liée à indicateur classique de statistique descriptive, le rapport de corrélation, 22 S 2 intern−Kη η = ∈0 ,1, par la relation :F=. 2[ ] 2 SK−1 1− η Cet indicateur permet de mesurer l'intensité de la relation entre une variable qualitative (ici la variable de classe) et une variable numérique (ici la variable X). 22 On admet que la variable Xexpliquebien la partition siη, ou F (ouS) est suffisamment élevé (ou P inter faible, par exemple < 5%), i.e. lorsque les moyennes par classeXsont suffisamment dispersées. k
2
I.2. Caractérisation d’une classe par la variable Pour une classeCdonnée, on cherche à répondre à la question : "estce que la variable Xcaractérisebien k la classe ?", en comparant la moyenne dans la classeXla moyenne générale à X; le test présenté ci k dessous va permettre de juger si l’écart entreXetXestsignificatif. k Méthodologie du test On teste l’hypothèseH: lesnindividus de la classeCsont issus d’un tirage équiprobable sans remise 0kk parmi les n individus de I. SiH est vraie, d’après un résultat classique présenté dans tout bon ouvrage de théorie des sondages, la 0 moyenneXcalculée sur lesnindividus tirés est une variable aléatoire d’espéranceXet de variance : kk n−nk 2 V=Sk n ( n−1) k X−X k Avec l’approximation normale habituelle,Uk=sous suit H0loi normale centrée réduite une V k N(0,1). On rejetteHsiUest élevée. Le niveau de significativité du test vaut : 0k P=Prob N(0,1)>U[k] Interprétation Plus la valeur testUélevée (en valeur absolue), i.e. plus P est faible, plus l’hypothèse que les est nkk valeurs de la variable X dans la classeCproviennent d’un tirage équiprobable sans remise est douteuse : k Xestsignificativementdifférente deX, et la variable Xcaractérisela classeC. kk Limite du test Ce test n’est valide que pour une variablesupplémentaire, i.e. une variable n’ayant pas joué de rôle dans la constitution de la partition. Pour une variable active, on peut toutefois utiliser la valeurtest, ou le niveau de significativité, comme indicateur numérique, permettant en particulier de classer les différentes variables actives pour caractériser la classe.
3
II. Cas d'une variable qualitative Soit une variable qualitative définie sur I, de modalitésXKXKX. 1 j J On considère le tableau de contingence croisant la variable de classe et la variable: Variable qualitative XKKJX1Xj C.........1 Mnn kjk. Variable f fk. kjdeCk...... f j/ k classe f k / j MC.........K n. j n f. j On note : n nombre d'individus de la classeCprenant la modalitéXkjkj n kj f=de la case (k,j) fréquence kj n n effectif de la classeCk. k n k . f=de la classe fréquence Ck.k n nde la modalité effectif X. jj n . j f= fréquence de la modalitéX. jj n n f kj kj fj/ k= =de la modalité fréquence Xjdans la classeCknk.fk . n f kj kj f= = fréquence de la classeCdans la modalitéXk / jkj n f . j . j Ce tableau va être analysé successivement selon 4 approches : •et ?globalement : y atil une relation entre les deux variables •par classe sontelles différentes de sapar ligne : les distributions conditionnelles de distribution marginale ? •les distributions conditionnelles de par colonne : par modalité sontelles différentes de sa distribution marginale ? •par case : y atil "surreprésentation", ou "sousreprésentation", dans la case ?
4
II.1. Caractérisation de la partition par la variable On cherche à répondre à la question : "estce que la variableexplique bien la partition ?", à l’aide d’un test classique d’indépendance du khideux (présenté dans tout bon ouvrage de statistique mathématique) réalisé sur le tableau de contingence cidessus ; ce test va permettre de juger si les distributions de dans les K classes sontsignificativementdifférentes les unes des autres. Méthodologie du test On teste l’hypothèseHd’indépendance entre la variableet la variable de classe.0 On calcule la statistique du khideux : 2 nk⋅n⋅j nkj− 2 K J K J 2n(fkj−fkfj) ⋅ ⋅ D= =n∑ ∑ ∑ ∑ nknjf f ⋅ ⋅ k=1 j=1 k=1 j=1 k⋅ ⋅j n 2 SousH0est une loi du khideux à, la loi asymptotique de K−1)J−1)degrés de liberté. On rejette 2 Hélevée. Le niveau de significativité du test vaut :si est 0 2 2 P=ProbχK−1)J−1)> D[ ] Interprétation La statistique du khideux mesure l’intensité de la liaison entre la variable et la variable associée à la partition : elle quantifie l’écart à la situation d’indépendance, dans laquelle la distribution de la variable serait identique dans chaque classe (ou bien, de façon équivalente, la répartition selon les différentes classes serait identique au sein de chaque modalité de ). Remarques 1. Le test du khideux étant un test asymptotique, il n’est utilisable que pour de gros échantillons. Plus précisément, on ne peut l’appliquer que si le nombre de cases du tableau de contingence ayant un effectif inférieur à 5 est faible (disons inférieur à 10% du nombre total de cases). 2. Si l’on veut comparer, d’un point de vue descriptif, l’intensité des liaisons entre la variable de classe et plusieurs variables qualitatives, la comparaison des khideux de contingence respectifs n’est pas pertinente, car leurs valeurs maximales dépendent du nombre de modalités des variables. Il est préférable d’utiliser les V de Cramer, définis par : 2 D V=n inf(K−1, J−1) qui sont compris entre 0 (indépendance entre et dans l’échantillon) et 1 (liaison parfaite entre et dans l’échantillon). Pour repérer les variables qui expliquent le mieux la partition, on peut alors les classer par V de Cramer décroissants.
5
II.2. Caractérisation d’une classe par la variable Pour une classeCdonnée, on cherche à répondre à la question : "estce que la variablecaractérisebienk laclasse ?", en comparant la distribution dela classe à sa distribution dans I, à l’aide d’un test dans d’homogénéité du khideux. Méthodologie du test On teste l’hypothèseH: les distributions de dansCet dans I sont identiques. 0k On calcule la distance du khideux entre ces deux distributions, centrée sur la distribution dans I : 2 n n kj⋅j − 2 −f J J n⋅n(fj / k⋅j) 2 k D=n=n∑ ∑ k k⋅k⋅ j=1n⋅j j=1f⋅j n 2 2 SousH, la loi asymptotique deDest une loi du khideux à−1degrés de liberté. On rejetteHsiD0k0k est élevée. Le niveau de significativité du test vaut : 2 2 P=Probχ(J−1)>D[ ] k k Interprétation 2 La statistiqueDmesure la distance entre les deux distributions. Si la probabilitéPest faible (< 0.05), on kk considère que les écarts entre ces deux distributions sont significatifs, et que la variablecaractérisebien la classe. Remarques Les conditions d’application de ce test ne sont pas rigoureusement vérifiées, car la "distribution de référence" est ellemême issue d’un échantillon, et de plus cet échantillon contient des individus de la classe C. On peut néanmoins utiliserPindicateur de l’écart entre les deux distributions de : à une comme kk faible valeur dePcorrespond un écart élevé. k Si l’on veut repérer les variables les plus significatives pour une classe parmi un ensemble de variables qualitatives, on les classe par niveaux de significativité croissants.
6
II.3. Caractérisation de la partition par une modalité Pour une modalitéX de donnée, on cherche à répondre à la question : "estce que la répartition par j classe des individus prenant cette modalité est différente de la répartition par classe de l'ensemble I ?", i.e. estce que la modalitéXjcaractérisebien la partition ; pour cela, on compare ces deux distributions de la variable de classe , à l'aide d'un test d'homogénéité du khideux. Méthodologie du test On teste l’hypothèseH: les distributions de dansXet dans I sont identiques. 0j On calcule la distance du khideux entre ces deux distributions, centrée sur la distribution dans I : 2 n kjn k⋅ −2 − K K n⋅jn(fk / jfk⋅) 2 D'=n=n∑ ∑ j⋅j⋅j n k=1 k⋅k=1fk⋅ n 2 SousH, la loi asymptotique deD'une loi du khideux à est −1 degrés de liberté. On rejetteHsi 0j0 2 D'est élevée. Le niveau de significativité du test vaut : j 2 2 P=Probχ(K−1)>D'[ ] j j Interprétation 2 La statistiqueD'mesure la distance entre les deux distributions. Si la probabilitéPest faible (< 0.05), on jj considère que les écarts entre ces deux distributions sont significatifs, et que la modalitéXcaractérisej bien la partition. Remarques Les conditions d’application de ce test ne sont pas rigoureusement vérifiées, car la "distribution de référence" est ellemême issue d’un échantillon, et de plus cet échantillon contient des individus prenant la modalitéX. On peut néanmoins utiliserPcomme indicateur de l’écart entre les deux distributions de : à j j une faible valeur dePcorrespond un écart élevé. j Si l’on veut repérer les modalités les plus significatives pour la partition parmi toutes les modalités d’un ensemble de variables qualitatives, on les classe par niveaux de significativité croissants (ou, ce qui est 2 équivalent, car le nombre de degrés de libertéK−1est constant, parD'décroissants). j
7
II.4. Caractérisation d'une classe par une modalité Pour une modalitéX de et une classeCkdedonnées, on cherche à répondre à la question : "estce j que la modalitéXest significativement plus (ou moins) fréquente dans la classeCque dans l'ensemble jk n kj I ?", en comparant la fréquence de la modalitéXla classe dans C(f=) à sa fréquence dans la jkj/ k n k⋅ n ⋅j population(f=). ⋅j n Méthodologie du test On teste l’hypothèseH : les individus de la classeCissus d'un tirage équiprobable sans remise sont 0k parmi les n individus de I. On considère le tableau de contingence condensé suivant : modalité autres ensemble és Xj modalit . classeCknkj ..nk .autres classes ... ... le ensembn. jn ... SoitNla variable aléatoire : nombre d’individus de la classeCprenant la modalitéX. kjkj
SousH, la loi suivie par la variableN, les effectifsnetnétant considérés comme fixés, est une loi 0kjk⋅⋅j
n ⋅j hypergéométrique H(n,n, ), telle que : k⋅ n x n−x k⋅ C C n ⋅jn−n⋅ j P N=x=(k)n⋅ j k C n
n nN k . . jkj En particulier :)E( N =, i.e.E= f : les deux fréquencesf etfêtre "peu doivent kj. jj / k⋅j nnk . différentes". Sif>f, on choisit comme hypothèse alternativeH : la proportion d’individus de la classeCj / k⋅j1 k prenant la modalitéXest plus élevée que dans I. j Le niveau de significativité du test est :
min n ,n (k⋅ ⋅j = ≥ PkjProb(Nkjnkj)= P(Nkj=x)∑ x=n kj
8
Sif<f, on choisit comme hypothèse alternativeH : la proportion d’individus de la classeCj / k⋅j1k
prenant la modalitéXest moins élevée que dans I. j
Le niveau de significativité du test est : n kj Pkj=Prob(Nkj≤nkj)=P(Nkj=x)∑ x=0 La probabilitéPest égaleà la probabilité, sousH, d'apparition de la configuration observée, ou d'une kj0 configuration encore plus "significative". Interprétation Si lafréquencefj/ kde la modalitéXjdans la classeCkest suffisamment élevée (resp. faible) par rapport à sa fréquencefdans la population, i.e. si la probabilitéPest faible (< 0.05), on considère que la modalité ⋅j kj Xest significativement "surreprésentée" (resp. sousreprésentée) dans la classeC: ellecaractérisedonc jk cette classe. Remarques 1. Pour "faciliter" la lecture des résultats du test, certains logiciels ou programmes calculent unevaleurtest, égale par définition à la valeur d'une loi normale centrée réduite conduisant au même niveau de significativité. Cette valeurtest est positive sif>f, négative dans le cas contraire. j/ k⋅j 2. Ce test n’est valide que pour une modalité d'une variablesupplémentaire, i.e. une variable n’ayant pas joué de rôle dans la constitution de la partition. Pour les modalités des variables actives, on peut toutefois utiliser la valeurtest, ou le niveau de significativité, comme indicateur numérique. On peut ainsi repérer les modalités les plus caractéristiques d’une classe, parmi toutes les modalités d’un ensemble de variables qualitatives, actives ou supplémentaires, en les classant en deux groupes : •les modalités "surreprésentées" dans la classe, telles quef>fj/ k⋅j •les modalités "sousreprésentées" dans la classe, telles quef<fj/ k⋅j et en les triant dans chaque groupe par niveaux de significativité croissants. 3. Lorsque les effectifs ne sont pas trop faibles, on peut utiliser une approximation normale de la loi hypergéométrique. Remarque générale sur l'utilisation des résultats des tests Lorsque l’on ne se trouve pas dans un contexte d’application des procédures de test (par exemple si les données décrivent une population exhaustive, et non un échantillon), les tests présentés cidessus n'ont pas de justification théorique. On peut néanmoins, avec un peu de hardiesse, utiliser le niveau de significativité d'un test commeindicateur de liaisonentre la partition (ou la classe) et la variable (ou la modalité).