II-1-1 Généralités
G est un facteur à r modalités (groupes) g1, g2, … gr d’effectifs respectifs n1, n2, … nr . N=n1+n2+ … +nr. Y est la variable dépendante et ys(i) est le score du sujet s dans le groupe gi (c’est l’observation associée au sujet s dans la modalité gi).
|
|
Facteur G (groupe) |
|
||||||||
Sujets |
g1 |
g2 |
… |
gi |
… |
gr |
|
|
|||
1 2 … s … … …
|
…
…
|
…
…
… |
… … … … … … … |
…
…
|
… … … … … … … |
…
…
… |
|
|
|||
Effectif |
n1 |
n2 |
… |
ni |
… |
nr |
|
|
|||
Moyenne |
|
|
… |
|
… |
|
|
|
|||
Variance |
s'1 |
s'2 |
… |
s'i |
… |
s'r |
s' |
|
|||
On veut étudier l’effet du facteur G sur la variable réponse Y.
Pour cela on testera l’hypothèse nulle : H0
: le facteur n’a pas d’effet sur Y
contre l’hypothèse alternative : H1 : le facteur a de l’effet
sur Y.
II-1-2 Décomposition de la variance (Rappel)
Variance totale = Var Inter + Var Intra
II-1-3 Modèle statistique (Modèle du score, modèle linéaire)
On veut étudier l’effet d’un facteur G à r modalités sur une variable réponse Y. On dispose pour chaque modalité i du facteur G de ni observations. On note ys(i) l’observation du sujet s dans la modalité i.
ys(i) est la réalisation de la variable aléatoire Ys(i) décrite par le modèle suivant : Ys(i) = μ+αi+εs(i)
où :
· μ s’interprète comme un niveau général.
· αi mesure l’effet de la ième modalité du facteur G.
· les variables aléatoires εs(i) sont indépendantes et de même loi N(0, σ2)
· Pour tout i=1, 2,…, r. Les variances des r groupes sont homogènes (homoscédasticité)
·
On rajoute une contrainte d’identifiabilité: (en moyenne les effets sont nuls)
On peut écrire l’hypothèse nulle et l’hypothèse alternative sous la forme suivante :
hypothèse nulle : H0 : αi=0 pour tout i = 1, 2,…, r
hypothèse alternative : H1
: l’un au moins des αi est non nul
On montre alors les résultats suivants :
Remarque : Il est clair que les
valeurs des variations (totale, inter et intra) dépendent des effectifs des
modalités du facteur G. Aussi pour
apprécier plus justement les grandeurs relatives à ces variations (en
particulier pour comparer la variation due au facteur à la variation
résiduelle), on calcule les carrés moyens des écarts, en divisant chaque
variation par son nombre de degrés de liberté (ddl) :
·
carrés moyens (total) : MCT
La variation totale concerne N scores
(observations) ys(i) liés par une relation donc présente N - 1 ddl et on a :
·
carrés moyens inter : MCG
La variation inter(-groupes) concerne r
groupes liés par une relation donc présente r - 1 ddl et on a :
·
carrés moyens intra (résiduels) : MCR
La variation intra (résiduelle) concerne N
scores (observations) liés par r
relations donc présente N - r ddl et on a :
Remarque : Tout comme les variations, les degrés de liberté sont additifs
ddl total = ddl inter + ddl intra N - 1 = r - 1 + N - r
Mais les carrés moyens ne sont pas additifs. En général MCT ≠ MCG + MCR.
Par conséquent : MCR est une estimation sans
biais de la variance σ2 et MCG est une estimation de σ2
augmentée d’un terme positif fonction des effets de groupe ( ).
Sous l’hypothèse nulle ( αi = 0 pour tout i = 1,2,…,r) MCG est aussi une estimation de σ2.
Théorème :
Dans le cadre du modèle statistique, la
statistique suit une loi du χ2 à N - r ddl et sous
l’hypothèse nulle la statistique
suit une loi du χ2 à r - 1 ddl et ces deux statistiques sont indépendantes.
Corollaire :
Sous l’hypothèse nulle la statistique suit une loi de Fischer à r - 1 et N - r ddl, notée F(r - 1, N - r).
Conclusion :
Le test d’hypothèse est alors défini au seuil de signification α par la règle de décision suivante :
Si Fobs ≥ λα alors on rejette l’hypothèse nulle. λα étant donné par l’équation : α = P(F≥λα).
II-1-4 Tableau d’analyse de la variance
Les résultats sont souvent présentés sous forme d’un tableau :
Source de variation |
Somme des carrés des écarts observés SCobs |
ddl |
Carrés moyens observés MCobs |
F |
G, Facteur, Inter-groupes, ... |
SCG |
r - 1 |
MCG |
|
S<G>, Résiduelle, Intra |
SCR |
N - r |
MCR |
Flu = α = |
Totale |
SCT |
N - 1 |
|
|
II-1-5 Exemple :
Pour étudier l’influence du facteur « intensité du bruit environnant » sur la capacité d’un sujet à résoudre un problème, l’expérimentateur construit l’expérience suivante : 24 écoliers sont répartis de façon aléatoire dans quatre pièces. Des bruits de la rue ont été enregistrés et sont diffusés dans chaque pièce avec un niveau sonore particulier. Les enfants doivent résoudre une série de problèmes. La variable réponse est la note finale obtenue à la série d’épreuves.
|
Niveau sonore |
|
|||
|
1 |
2 |
3 |
4 |
|
|
62 60 63 59
|
56 62 60 61 63 64 63 59 |
63 67 71 64 65 66
|
68 66 71 67 68 68
|
|
ni |
4 |
8 |
6 |
6 |
N = 24 |
|
61 |
61 |
66 |
68 |
|
Variance |
10/4 |
48/8 |
40/6 |
14/6 |
SCIntra= SCR = 112 |
|
36 |
72 |
24 |
96 |
SCInter=
|
SCT = N×variance totale = 340
.
On peut présenter les résultats dans le tableau d'analyse de variance :
Sources de variations |
SCobs |
ddl |
MCobs |
Statistique de test = Q |
Facteur = Inter = G |
228 |
r-1 = 3 |
76 |
|
S(G) = Intra |
112 |
N-r = 20 |
5,6 |
- |
Total |
340 |
N-1 = 23 |
- |
- |
En prenant un niveau de signification α=0,05=5%, on peut lire la valeur de λα dans la table de Fischer à r-1 = 3 et N-r = 20 degrés de liberté : λα = F(3 ; 20 ; 0,95) = 3,10. Donc, si Fobs, la valeur observée de la statistique de test, est supérieure ou égale à 3,10 on rejette H0 et dans le cas contraire, on conserve l'hypothèse H0.
Conclusion : Comme Fobs=13,5714 > λα=3,10, on rejette H0 pour accepter H1 ; C’est-à-dire qu’il y a effectivement un effet du bruit environnant sur la capacité de résolution des problèmes. On rejette H0 même avec un α=0,01=1%.
II-2-1 Modèle statistique
On choisit un échantillon de r modalités g1, g2, … gr du facteur G. On dispose pour chaque modalité échantillonnée de ni observations de la variable dépendante (N=n1+n2+ … +nr). On note ys(i) l’observation du sujet s dans le groupe gi. Chaque observation ys(i) est la réalisation d’une variable aléatoire Ys(i) décrite par le modèle : Ys(i) = μ + Γi + εs(i)
où :
μ est une constante mesurant le niveau général de la réponse
Γi est une variable aléatoire qui mesure l’effet aléatoire de G.
εs(i) est une variable aléatoire représentant le résidu.
On suppose réalisées les trois hypothèses suivantes :
· les εs(i) sont des variables aléatoires indépendantes et de même loi N(0, σ2)
· les Γi (i=1, 2, …, r) sont des variables aléatoires indépendantes de même loi N(0, σG2)
· les Γi sont indépendantes des εs(i).
Le test d’hypothèse s’écrira alors :
H0
: G n’a pas d’effet σG2
= 0
H1
: G a un effet σG2
> 0
On montre alors les résultats suivants :
Théorème :
· E(MCR) = σ2 ou encore E(SCR) = (N - r)σ2
· E(MCG) = σ2 + KσG2 où K est une constante.
II-2-2 Test statistique
On
se ramène donc au cas précédent et on utilisera la même statistique pour réaliser le test.
II-2-3 Exemple :
On veut vérifier que l’intensité de traitement perceptif d’un visage dépend du visage examiné (certains visages retiennent plus l’attention que d’autres). Pour mettre à l’épreuve cette hypothèse de recherche, on construit l’expérience suivante :
40 sujets sont choisis au hasard et répartis de façon aléatoire dans 5 groupes de 8 sujets chacun. Chaque groupe examine un visage choisi par l’expérimentateur au hasard dans l’ensemble de visages disponibles.
L’expérimentateur mesure l’intensité du traitement perceptif en observant la dilatation de la pupille lors de l’examen du visage. Il obtient les résultats suivants :
|
Groupe des visages |
|
||||
Sujets |
g1 |
g2 |
g3 |
g4 |
g5 |
|
1 |
58 |
60 |
63 |
64 |
57 |
|
2 |
51 |
61 |
55 |
64 |
59 |
|
3 |
57 |
66 |
57 |
65 |
65 |
|
4 |
59 |
65 |
60 |
61 |
63 |
|
5 |
56 |
59 |
61 |
66 |
62 |
|
6 |
54 |
59 |
62 |
59 |
64 |
|
7 |
53 |
64 |
58 |
67 |
60 |
|
8 |
52 |
63 |
56 |
60 |
63 |
|
ni |
8 |
8 |
8 |
8 |
8 |
N=40 |
|
55 |
62,125 |
59 |
63,25 |
61,625 |
|
s’²i |
7,5 |
6,6094 |
7,5 |
7,4375 |
6,4844 |
s’²=15,81 |
SCT = N s' 2 = 40 × 15,81 = 632,4
SCG
= N = N
= 40 × 8,7038 =
348,15
SCR = N = 8 × [7,5+6,6094+7,5+7,4375+6,4844] = 8 × 35,5313
= 284,25
On vérifie que : SCR = SCT - SCG = 632,4 - 348,15 = 284,25.
On peut présenter les résultats dans le tableau d'analyse de variance :
Sources de variations |
SCobs |
ddl |
MCobs |
Statistique de test = Q |
Facteur = Inter = G |
348,15 |
r-1 = 4 |
87,0375 |
Fobs= |
S(G) = Intra |
284,25 |
N-r = 35 |
8,1214 |
- |
Total |
632,4 |
N-1 = 39 |
- |
- |
En prenant un niveau de signification α=0,05=5%, on peut lire la
valeur de λα dans la table de Fischer à r-1 = 4 et N-r = 35
degrés de liberté : λα = F(4
; 35 ; 0,95) = 2,64
Conclusion : Comme Fobs=10,717> λα=2,64, on rejette H0 pour accepter H1 ; C’est-à-dire qu’il y a effectivement un effet du
facteur visage. ( )
Remarque : En prenant un niveau de signification α=0,01=1%, on peut lire la valeur de λα dans la table de Fischer à r-1 = 4 et N-r = 35 degrés de liberté : λα = F(4 ; 35 ; 0,99) = 3,91 et on tire la même conclusion.