Précédent / Suivant / Table des matières

Chapitre VIII

Analyse des comparaisons a posteriori

El Methni M.

 

VIII-1. Généralités

Dans le chapitre précédent on a distingué les comparaisons a priori, définies avant la collecte des données des comparaisons a posteriori, planifiées lorsque l'expérimentateur a rassemblé et examiné les données.

L’utilisation des contrastes et des tests étudiés précédemment est conseillée lorsqu'il est possible de spécifier a priori un nombre relativement réduit de comparaisons. Par contre, il n'est pas rare que des expériences impliquent de nombreuses hypothèses qui n'apparaissent qu'au terme de l'examen des données. Dans ce cas, plusieurs procédures a posteriori  sont disponibles.

 

VIII-2 Le test de Sheffé

Le test de Sheffé est conçu pou pouvoir tester tous les contrastes possibles en contrôlant α(EE).

Sheffé raisonne comme suit :

Si l'hypothèse nulle complète (H0 : µ1 = µ2 = … = µk) est vraie, alors tous les contrastes possibles entre les moyennes sont nuls aussi. Il suffit alors que le plus grand contraste (Cmax) observé  soit non significatif pour que tous les autres le soient aussi.

Considérons A un facteur à effets fixes et à k modalités et C un contraste quelconque, on a toujours SCC  SCA

L’idée de Scheffé est de déterminer le contraste Cmax dont la Somme des Carrés est maximum.

Proposition : Soit Cmax le contraste défini par les coefficients :  

Alors : SCmax = SCA

Remarque : les coefficients du contraste Cmax sont définis à partir des observations (ni), il s'agit donc d'un contraste a posteriori.

On sait que le degré de liberté de SCC (quel que soit le contraste y compris Cmax) est égal à 1, tandis que le degré de liberté de SCA est égal (k-1). On a alors la relation entre les statistiques de test concernant Cmax et le facteur A :

 

   et   

Test de Sheffé : Considérons un ensemble de contrastes a posteriori ou bien une comparaison multiple définie à partir d’un grand nombre de contrastes a priori. Le test de Sheffé consiste alors à rejeter l’hypothèse H0 : C = 0 contre H1 : C  0 d’un contraste C quelconque de l’ensemble si :  λα est la valeur critique du test d'existence d’un effet global du facteur A donnée par la table de Fisher-Snedecor à ν1 = (k-1) et ν2 = ddl(MCR) degrés de liberté pour un seuil de signification α

Proposition : Une telle règle de décision garantit :   α(EE)  α.

Application à l’exemple de la tolérance à la morphine : Reprenons les résultats de l'exemple de tolérance à la morphine et les contrastes associés aux hypothèses de recherche formulée par Seigel :

 

M-S

M-M

S-S

S-M

Mc-M

 

 

Moyennes

4

10

11

24

29

 

 

C1

-3

2

-3

2

2

30

81

C2

0

-1

0

0

1

2

19

C3

-1

0

1

0

0

2

7

C4

0

1

-1

0

0

2

-1

 

Le calcul de  la statistique  donne

 

Pour un seuil de signification α=0,05 nous avons  λα = F(4 ; 35 ; 0,95) = 2,64. Pour chacun des quatre contrastes, la règle de décision du test de Sheffé est donnée par :

Si  FCobs   (k-1).λα = 4×2,64 = 10,56   on rejette H0.

On constate que seuls les deux premiers contrastes sont significativement différents de 0. En comparaison avec les  résultats des tests utilisés précédemment,  le test de Sheffé apparaît comme conservateur.

 

VIII-3 Comparaison des moyennes par paires

Dans le cas où les comparaisons multiples sont nombreuses, et puisque les tests définis précédemment sont applicables à tout type de comparaisons, ils sont peu puissants. On peut remédier ce problème et augmenter la puissance des tests en construisant des tests adaptés à un certain type de comparaisons. Nous allons présenter des procédures de tests adaptées au cas où l’ensemble des comparaisons multiples est réduit à l’ensemble des comparaisons par paires de toutes les moyennes. Ces procédures peuvent être étendues à des comparaisons plus complexes.

VIII-3-1 La  statistique  d’écart  studentisée

Un grand nombre de tests a posteriori se basent sur la statistique appelée écart studentisé définie par :   où  et  représentent respectivement la plus grande et la plus petite des moyennes empiriques dans la comparaison de r moyennes. La statistique T de Student pour comparer deux moyennes est donnée par : . Alors : .

Bien qu’il existe une relation simple entre les deux statistiques les lois de probabilité sous l’hypothèse H0 sont différentes. Lorsque nous n’avons que = 2 moyennes ou lorsque nous choisissons a priori deux moyennes parmi l’ensemble de toutes les moyennes disponibles, le test basé sur la statistique T est le test adéquat.

Supposons que nous examinons un ensemble de > 2 moyennes et choisissons délibérément la moyenne la plus grande et la moyenne la plus petite pour les comparer. Il est évident que nous avons considérablement modifié la probabilité de commettre une erreur de première espèce. Étant donné que H0 est vraie, la moyenne la plus grande et la moyenne la plus petite ont certainement plus de chance d'être qualifiées de "différentes à un niveau significatif donné" que les moyennes adjacentes dans une série ordonnée de moyennes. C'est ici que la statistique d'écart studentisée présente un intérêt.

Dans le cadre du modèle d'analyse de la variance, la loi de Qr sous l'hypothèse H0 est tabulée (voir le tableau en annexe). On la note Q(r,ν). Elle dépend de deux paramètres :

le nombre r de moyennes à comparer et le degré de liberté ν de MCR.

Proposition : Considérons λα = qα(r,ν) le réel (la valeur critique) vérifiant : P(Qr  qα(r,ν)) = α

Alors λα = qα(r,ν) est une fonction croissante de r.

Autrement dit plus il y a de comparaisons à faire, plus il est difficile de rejeter l’hypothèse H0

Application à l’exemple de la tolérance à la morphine : Rangeons les moyennes des différents groupes par ordre croissant :  

Nous avons n = 8, ddl(MCR) = 35 et MCR = 32. La plus grande moyenne est égale à 29 et la plus petite est égale à 4, et il y a r = 5 moyennes dans l'ensemble (selon la terminologie liée à la plupart des tables, on dit que ces moyennes sont distantes de r = 5 échelons).

 

Il est à noter que r n'intervient pas dans le calcul de la statistique de test. Par contre, il intervient dans la lecture de la valeur critique λα = qα(r,ν) dans la table. Pour r = 5 et ddl(MCR) = 35, nous pouvons lire la valeur critique dans la table d’écart studentisé la valeur critique λα = 4,07. Comme qr = 12,5 > λα = 4,07, nous rejetons H0 et concluons qu’il existe une différence significative entre la plus grande et la plus petite moyenne.

Remarque : La plus petite différence significative

Une autre façon de conclure avec la distribution d’écart studentisé est de rechercher la plus petite différence qui serait significative puis de comparer notre différence réelle à la différence significative minimale.

Cette approche est souvent adoptée dans le cas des procédures a posteriori.

Puisque la statistique d’écart studentisée est donnée par :  

nous en déduisons :                 

 est la différence minimale entre deux moyennes qui sera significative.

Nous savons qu’avec cinq moyennes, la valeur critique est égale à λα = q 0,05(5 ; 35) = 4,07. Dans ce cas, pour nos données, la différence minimale significative est : .

Donc, une différence de moyennes supérieure ou égale à 8,14 sera jugée significative. Comme, dans notre exemple, la différence entre la plus grande moyenne et la plus petite est égale à 29 - 4 = 25, nous rejetterons H0, pour conclure que la différence est significative à un niveau α = 0,05.

La statistique d’écart studentisée forme la base des quelques tests que nous allons étudier par la suite.

VIII-3-2 Le test de Tukey

Le test de Tukey consiste à comparer chaque paire de moyennes comme si ces deux moyennes pouvaient être la plus grande et la plus petite dans l'ensemble des r moyennes à comparer.

Pour la comparaison de tout couple (µi , µj), les hypothèses à tester sont :

                   H0 :  µi = µj

contre         H1 :  µi  µj

La statistique de test est donnée par : . Puisque nous avons considéré que  et  sont la plus grande et la plus petite des r moyennes à comparer, la statistique Qi,j a comme distribution d'échantillonnage la distribution de la statistique d'écart studentisée. De ce fait, le test sera défini par la règle de décision suivante :

Si   λα = qα(r,ν), on rejette H0.

Ou de façon équivalente : Si    = qα(r,ν) , on rejette H0

Application à l’exemple de la tolérance à la morphine : pour r = 5 et ν = 35, nous pouvons lire dans la table de l'écart studentisé, q0,05(5 ; 35) = 4,07 et q0,01(5 ; 35) = 4,99. Nous avons alors :   et  Nous pouvons construire le tableau de toutes les comparaisons par paires comme suit :

 

 

 

M-S

M-M

S-S

S-M

Mc-M

 

 

4

10

11

24

29

M-S

4

-

6

7

20**

25**

M-M

10

 

-

1

14**

19**

S-S

11

 

 

-

13**

18**

S-M

24

 

 

 

-

5

Dans ce tableau, le symbole ** signifie que la différence est significative au seuil de α = 1%.

Nous pouvons représenter graphiquement ces résultats en soulignant les sous-ensembles de modalités (groupes) homogènes :

                                   M-S       M-M       S-S       S-M      Mc-M

Les modalités qui ne sont pas soulignées par une ligne commune diffèrent significativement.

Nous remarquons que ce test ne permet pas de confirmer l'hypersensibilité de groupe M-S. Ceci résulte du fait que le test de Tukey est conservateur. Ce test est construit en effet pour garantir α(EE)  α pour toutes les hypothèses nulles possibles et pas seulement l'hypothèse nulle complète. Ce contrôle ce fait alors au détriment de la puissance du test.

VIII-3-3 Le test de Newman-Keuls

Le test de Newman-Keuls est l'un des tests les plus utilisés. Il est plus puissant que le test de Tukey mais il ne permet pas de garantir le niveau de l'erreur de l'ensemble α(EE).

Ce test a pour objectif de classer tous les k moyennes µ1, µ2, …, µk en sous-ensembles homogènes.

La procédure de Newman-Keuls consiste à effectuer des tests de Tukey sur des sous-ensembles décroissants de moyennes. Ainsi à chaque étape, la valeur critique du test de Tukey est ajustée selon le nombre de moyennes contenues dans le sous-ensemble.

Afin de ne pas obtenir des conclusions incompatibles, une fois qu’un sous-ensemble de moyennes est jugé homogène plus aucune comparaison n'est faite entre les moyennes du sous-ensemble. Cette règle de conduite nous amène à organiser les étapes de la procédure de la façon suivante :

Considérons un ensemble de k moyennes à comparer. On commence par classer l’ensemble des moyennes empiriques par ordre croissant de la plus petite à la plus grande :  

Les indices entre parenthèses renvoient maintenant à la position de cette moyenne dans la série ainsi ordonnée.

Première étape : On compare la différence  à la valeur critique : .

Si cette différence n’est pas significative, la procédure s’arrête et on conclut à l’absence de différence entre les k moyennes. Si cette différence est significative, on passe à l’étape suivante.

Deuxième étape : On compare chacune des deux différences  et  à la valeur critique :  

Lorsqu’une différence est jugée non significative, toutes les comparaisons impliquées par cette différence sont jugées non significatives. Si ce n’est pas le cas, on réitère cette procédure à partir de la différence jugée significative.

Les étapes de la procédure peuvent être décrites à l’aide d’un arbre que nous illustrons sur un exemple :

 Exemple : Reprenons l’exemple de la tolérance à la morphine.

On classe par ordre croissant les moyennes de différents groupes :

Traitements

M-S

M-M

S-S

S-M

Mc-M

 

 

 

 

 

4

10

11

24

29

On calcule toutes les différences entre les moyennes prises deux à deux pour les présenter dans le tableau suivant :

Différence entre les moyennes et les valeurs critiques associées

 

 

 

M-S

M-M

S-S

S-M

Mc-M

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

10

11

24

29

r

q0,05(r;35)

λr

M-S

 

4

-

6

7

20

25

5

4,070

8,14

M-M

 

10

 

-

1

14

19

4

3,815

7,63

S-S

 

11

 

 

-

13

18

3

3,465

6,93

S-M

 

24

 

 

 

-

5

2

2,875

5,75

Afin de juger la significativité des différences entre moyennes, nous avons calculé les valeurs de λα en fonction de r, qα(r ;35) sur la partie droite du tableau des différences. Les lignes en pointillés indiquent les différences et les valeurs de r et λα concernés.

Schéma des différences significatives

 

 

 

M-S

M-M

S-S

S-M

Mc-M

 

 

 

 

 

 

 

 

 

 

 

4

10

11

24

29

M-S

 

4

-

*

*

*

*

M-M

 

10

 

-

 

*

*

S-S

 

11

 

 

-

*

*

S-M

 

24

 

 

 

-

 

On peut représenter les différentes étapes de la procédure à l’aide de l’arbre suivant :

 

 

 

 

 

 

 

 

 

 

r

λα

 

 

 

 

 

 

 

 

 

 

5

8,14

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

7,63

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

6,93

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

5,75

Le test de Newman-Keuls permet de confirmer les hypothèses de Siegel et de construire les trois sous-ensembles homogènes de moyennes :

M-S       M-M      S-S       S-M       Mc-M

 4           10         11          24            29

On remarque que le test de Newman-Keuls, à la différence de celui de Tukey, permet de confirmer l’hypersensibilité du groupe M-S. Il est donc plus puissant.

Bien que la procédure de Newman-Keuls ait pour but de contrôler le taux d’erreur de l’ensemble, elle ne parvient pas à le contrôler entièrement. En fait, sous certaines conditions, le taux d’erreur peut être assez élevé. Si l’hypothèse nulle complète est vraie (c’est-à-dire µ= µ= … = µk), le test de Newman-Keuls fixe α(EE) = 0,05, en supposant qu’il s’agit là de notre seuil de signification choisi. Si nous avons par exemple cinq moyennes et une hypothèse nulle complète vraie, notre premier test comparera µ(1) à µ(5), et comme nous utilisons la statistique d’écart studentisée, la probabilité de commettre une erreur de première espèce s'élèvera à 0,05. Si nous ne trouvons pas de différence significative, nous arrêtons le test et ne risquons donc plus de commettre une erreur de première espèce. Si nous trouvons une différence significative, par contre, nous avons déjà commis une erreur de première espèce (puisque l’hypothèse nulle complète est vraie), et α(EE) n’est pas affecté par le nombre d’erreurs supplémentaires que nous allons commettre (Il s’agit de la probabilité de commettre au moins une erreur de première espèce).

Supposons toutefois qu’un autre cas se présente ; par exemple, que

µ(1)  µ(2) = µ(3)  µ(4) = µ(5).

Dans ce cas, notre premier test sera vraisemblablement significatif, puisque µ(1)  µ(5). Cependant, il y a deux hypothèses nulles vraies à tester et nous avons une probabilité de 0,05 de commettre une erreur de première espèce pour chacune. α(EE) sera dès lors proche de 1-(1-0,05)2, soit approximativement 0,10. En général, le α(EE) maximal pour le test de Newman-Keuls est environ α fois le nombre maximal d’hypothèses nulles qui pourraient être vraies, ce qui correspond au nombre de paires impliquant des moyennes différentes.

Dès lors  

Cela signifie qu’avec trois moyennes, α(EE) = 0,05 parce qu'il y a au moins une hypothèse nulle vraie pouvant être déclarée «significative», tandis qu’avec quatre ou cinq moyennes, α(EE)  0,10 (il y a au plus deux hypothèses nulles vraies).

VIII-3-3 Le test de Ryan

Nous avons remarqué que la procédure de Tukey permet de contrôler α(EE) l’erreur de première espèce de l’ensemble fixée à α indépendamment du nombre d’hypothèses nulles vraies (pas uniquement pour l’hypothèse nulle globale), mais au détriment de la puissance de test. Au contraire, la procédure de Newman-Keuls donne un test plus puissant mais ne garantit pas α(EE) l’erreur de première espèce de l’ensemble.

Le principe de test de Newman-Keuls est de maintenir le taux α(EE) à α pour chaque ensemble de r moyennes ordonnées. Cela permet aux valeurs critiques de diminuer au fur et à mesure que r diminue, mais ces valeurs deviennent en fait trop petites pour que le taux d’erreur de toutes les comparaisons reste inférieur à α, lorsque plusieurs hypothèses nulles sont vraies.

Ryan propose de modifier la valeur du seuil α pour chaque valeur de r de façon à ce que α(EE) reste inchangée.

Les étapes de la procédure du test de Ryan sont les mêmes que celles de Newman-Keuls, mais le seuil de signification dans la comparaison de r moyennes est donné ainsi par :  

au lieu de toujours utiliser qr au seuil de signification α.

Cette procédure (et aussi d’autres variantes) nous suggère en fait de continuer à utiliser les tables de la distribution d’écart studentisée, mais, plutôt que de toujours chercher qr à α = 0,05, de par exemple chercher qr à α = αr, qui sera probablement une valeur fractionnaire inhabituelle. Cependant, aucune table ne nous donne qr à des valeurs autres que α = 0,05 ou α = 0,01. Cela ne pose pas de problèmes si vous utilisez un logiciel statistique qui peut calculer ces valeurs (et mieux le seuil de signification pour l’écart observé).

Exemple : Reprenons l’exemple de la tolérance à la morphine pour illustrer l’application des différentes étapes de la procédure de Ryan.

Différence entre les moyennes et les valeurs critiques associées

 

 

 

M-S

M-M

S-S

S-M

Mc-M

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

10

11

24

29

r

αr=rα/k     qαr(r;35)

λr

M-S

 

4

-

6

7

20

25

5

0,05             4,070

8,14

M-M

 

10

 

-

1

14

19

4

0,04(1)          3,815

7,63

S-S

 

11

 

 

-

13

18

3

0,03(1)          3,67

7,54

S-M

 

24

 

 

 

-

5

2

0,02(1)          3,44

6,88

 

(1) On ne peut lire les valeurs de qαr(r;35) par défaut de tables disponibles.

Schéma des différences significatives

 

 

 

M-S

M-M

S-S

S-M

Mc-M

 

 

 

 

 

 

 

 

 

 

 

4

10

11

24

29

M-S

 

4

-

 

 

*

*

M-M

 

10

 

-

 

*

*

S-S

 

11

 

 

-

*

*

S-M

 

24

 

 

 

-

 

On retrouve dans cet exemple les mêmes conclusions que pour le test de Tukey. Toutefois on remarque que les valeurs critiques λr sont inférieures à celles données par le test de Tukey, ce qui confirme une plus grande puissance du test.