Biostatistique
objectifs
espace_L2
defis_L2
je_vous_recommande
supports_cours
projets
contrôle des connaissances
examen_distant
Data Sciences
Data Base
Base on Web
Web Design
Machine_Learning
sondages
forum
video teaching
exercices
tables
Séances_salles_info
divers
autoformation
datafiles
autoform_database
F - ANOVA

1. ANOVA - Analyse de variance à un et à deux facteurs

 


Analyse de Variance (ANOVA)

 

1. ANOVA - Analyse de variance à un et à deux facteurs

 

Variance inter - échantillons

Comparaison de 3 machines. Dans l’espoir que les fluctuations aléatoires se compensent en moyenne, on prélève sur chaque machine un échantillon aléatoire de la production obtenue au cours de 5 périodes différentes (V.A. : X = ‘Volume déposé (en ml) dans flacon de contenance 50 ml ‘).

 

Les différences entre les moyennes Xi sont-elles assez grandes pour indiquer une différence entre les mi sous-jacents ?

Comparaison de 3 machines. on prélève sur chaque machine un échantillon aléatoire de la production obtenue au cours de 5 périodes différentes (V.A. : X = ‘Volume déposé (en ml) dans flacon de contenance 50 ml ‘).

Variance intra - échantillons

La variance entre machines, qui vient d’être calculée, n’est pas la seule source de variation. Il faut également évaluer les fluctuations aléatoires à l’intérieur de chaque échantillon. Intuitivement, la mesure de ces fluctuations semble être la dispersion (plus exactement la variance) des valeurs observées au sein de chaque échantillon.
On calcule les carrés des écarts au sein de chaque échantillon en utilisant le tableau :
Pour les n observations (indice j) de l’échantillon 1 ,

On calcule de même les carrés des écarts dans les 2èmes et 3èmes échantillons et on en fait la somme. Puis on divise par le nombre total de degrés de libertés pour l’ensemble des trois échantillons (n-1 = 4 ddl).
On obtient ainsi la variance commune (exactement comme dans le cas de 2 échantillons)

On appelle cette variance commune , la variance inexpliquée parce qu’elle est la variation aléatoire qui ne peut être expliquée systématiquement (par les différences entre machine)
La généralisation s’obtient en considérant l’expression pour k échantillons ayant chacun n observations :

 

 

Le Test F

 

Pour mesurer la crédibilité de Ho, on calcule sa probabilité critique (probabilité de la queue de distribution de F située au delà de la valeur observée). Lecture de la table de Fisher dépendant des degrés de libertés de la variance du numérateur (k-1) et de ceux de la variance du dénominateur k(n-1)

Table F à double entrée ddl : colonne k-1 et lignes k(n-1)

Résolution du test :

F = 5x13 / 7.83 = 8.3
ddl : (3-1) = 2 au numérateur et 3x(5-1)=12 au dénominateur
La table de Fisher révèle que F=8.3 est supérieur à F0.01=6.93 pour ces ddl
Cela signifie que, sous Ho, il y a moins de 1% de chances d’obtenir des moyennes
d’échantillon qui diffèrent d’autant.
  On rejette donc Ho

Conclusion : les productions des 3 machines sont significativement différentes (avec un risque inférieur à 1% de se tromper en rejetant Ho)

Le test avec R

Etape 1 : créer le fichier texte des données (2 colonnes, 2 titres de colonnes, ils deviendront 2 variables sous R).



Analysis of Variance Table

Response: volume
Df Sum Sq Mean Sq F value Pr(>F)
facmac 2 130.000 65.000 8.2979 0.005461 **
Residuals 12 94.000 7.833
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Lorsque Ho est rejetée,
on peut comparer toutes les moyennes 2 à 2 à l’aide d’un test t de Student pour en déterminer la cause, il est également utile de procéder à des combinaisons linéaires de moyennes permettant la comparaison de 2 moyennes à partir d’un ensemble de plus de 2 moyennes (contraste).
On rajoute une étape mais c’est indispensable pour conclure. Exemple de contraste :
Un biochimiste mesure la solubilité d’acides aminés dans un solvant organique. Il obtient des mesures pour la glycine (solubilité moyenne m1), la phénylalanine (m2), la tyrosine (m3) et le tryptophane (m4).
Il est logique de tester 

Autrement dit, la solubilité d’une petite chaîne latérale comme la glycine est la même que celle d’une grande chaîne latérale contenant un cycle aromatique hydrophobe.

Plusieurs facteurs impliqués dans la même analyse
… ce sera pour une prochaine fois!