Biostatistique
objectifs
espace_L2
defis_L2
je_vous_recommande
supports_cours
projets
contrôle des connaissances
examen_distant
Data Sciences
Data Base
Base on Web
Web Design
Machine_Learning
sondages
forum
video teaching
exercices
tables
Séances_salles_info
divers
autoformation
datafiles
autoform_database
A - Introduction

1. Préambule : de l'influence des chiffres
2. Un outil d'aide à la décision
3. Comment la biologie en est-elle venue à utiliser les statistiques ?
4. Le modèle statistique - Facteurs de variabilité dans une expérience
5. Variables statistiques et variables aléatoires
6. Echantillons, Population et Echantillonnage

 

1. Préambule : de l'influence des chiffres

Chikungunya : confusion sur la moralité
- 10 000 personnes malades en 2005,
- plus de 130 000 en février 2006
- 22 000 nouveaux cas par semaine avant le printemps 2006.
Les épidémiologistes ont recensé 8 décès directement provoqués par l'infection, 60 autres associés au virus.

Aucune publication sur le sujet ne rapporte d'épidémie d'une telle ampleur, ni de cas mortels. Une étude doit vérifier si la hausse des décès à la Réunion est due au virus.

Le groupe britannique GlaxoSmithKline, numéro un européen de la pharmacie, annonce une hausse de 21% de son bénéfice par action annuel

Dans le même temps Glaxo demandait l'homologation du Cervarix, un vaccin contre le cancer du col de l'utérus, en Europe et aux Etats-Unis. Ce vaccin s'est avéré à 100% efficace pour prévenir quatre types de virus du papillome humain, pouvant causer, outre le cancer du col de l'utérus, des condylomes et des verrues congénitales.

 

2. Un outil d'aide à la décison

Une entité singulière souvent mise au pluriel ...

Statistique(s)
de l'allemand Statistik et Staat et du latin status
Ensemble de méthodes mathématiques qui, à partir de l'acquisition et de l'analyse de données réelles, permettent l'élaboration de modèles probabilistes autorisant les prévisions

Statistiques
Ensemble de données d'observation relatives à un groupe d'individus (ensemble ; échantilon ; population ; espèce).
Ex : Statistiques démographiques, statistiques sur la croissance d'une plante, statistiques sur l'enseignement des biotechnologies en Europe ...)

- Il ne s'agit en aucun cas d'une science exacte
- Un outil d’aide à la décision
- Ne doit pas se départir de conscience ni d’intuition
- Leur champ d'application s'étend à tous les domaines
- Technique d'interprétation basée sur la connaissance des "lois du hasard"
- Les statistiques : bien adaptées et indispensables aux sciences du vivant

  • Pas de limites à la statistique
  • Par une analyse subtile, tirer parti du moindre nombre de données (judicieusement choisies)
  • Pour éviter que les chiffres tels quels demeurent au mieux muets, au pire trompeurs, ils demandent une méthode pour être récoltés puis pour être traités
  • En règle générale, nous ne pouvons travailler que sur des évènements,
          - un phénomène touchant une population
          - à partir d’informations récoltées sur des échantillons représentatifs.

C'est à l'humain d'apprécier le risque avant d'agir ! Les statistiques permettent de chiffrer ce risque.

Les trois composantes de la Statistique

- Collecte des informations : combien de nombres faut-il recueillir et comment faut-ils s'y prendre pour que les résultats soient significatifs ?

- Induction statistique / inférence statistique / apprentissage statistique : établir, ou tenter d'établir des certitudes sur les accumulations de nombres. Quelles connaissances se dégagent des nombres ? Quelle légitimité faut-il attribuer à ces connaissances ? Comment procéder pour arriver à de telles conclusions ?

- Analyse et présentation des données : envisage les différents modes de description des données. Comment suggérer, par une présentation appropriée, la signification globale des quantités énormes de chiffres amassés au cours du temps par les spécialistes ? Comment dessiner, à partir d'une foison de nombres des tendances générales ? Comment rendre visibles et lisibles ces tendances ?

 

3. Comment la biologie en est-elle venue à utiliser les statistiques ?

Besoins nouveaux et conséquents en acquisition et analyse, diversification de la biologie

Acquisition de données expérimentales

  • de + en + nombreuses (volume que l'humain ne peut plus traiter seul)
  • en temps réel
  • de + en + précises

Analyse et traitement des données

  • obtenir des données exploitables
  • entrées complexes liées à des expériences impliquant diverses technologies
  • analyse de spectres, recherche d'informations
  • statistiques
  • Tableurs - graphes

Modélisations

  • des données brutes acquises sur le terrain ou au laboratoire (observations / expériences) au  modèle biologique rendant compte de ces données

Liaisons des informations obtenues les unes aux autres

  • Interdisciplinarité

Banques de données

  • Archiver, comparer, calculer, rechercher, afficher, ...
  • consultation / dépôt d'informations
  • création / modernisation
  • Fichiers, liens, Programmes

- La biologie est un domaine dans lequel le grand nombre et l’enchevêtrement des facteurs de variation exigent une technique d’interprétation basée sur la connaissance des lois du hasard.
- Développement d’outils statistiques spécialement dédiés à la biologie.
- Les pionniers du perfectionnement du calcul des probabilités : Pascal, Fermat, Bernouilli, Laplace, Gauss ....
- Importance de la loi de Gauss en biologie (on peut en faire l’hypothèse).
- Création et développement des statistiques mathématiques.
- L’école anglaise : Pearson, Yule, Fisher ....
- L’école américaine : Neyman, Wald, Student ....
- Les statistiques : bien adaptées et indispensables à l’analyse des données en biologie.


Cheminement des données en biologie – Des données brutes au modèle interprétable

 

4. Le modèle statistique - Facteurs de variabilité dans une expérience

Contexte : étude d'un phénomène biologique

ETAPE A

Prodéder à plusieurs expériences, en faisant varier certains paramètres, ceux qui influent notablement sur l'observation du phénomène.
- Origine et nature des paramètres impliqués, du moins de ceux que l'on a repéré ou de ceux qui sont les plus importants (c'est-à-dire responsables de l'essentiel de la variabilité des résultats obtenus lors de l'expérience).
- Chiffrer les limites des intervalles de variation de ces paramètres.

ETAPE B

Répéter les même expériences (terrain ou au laboratoire), dans les même conditions, un certain nombre de fois.
On fait ainsi jouer le hasard du comportement statistique des données enregistrées.

      Reproductibilité de l'expérience
      Loi de distribution de la grandeur étudiée (forme, type, ordre de grandeur, dispersion par rapport à cette valeur).

Cette étape est associée aux petites variations, non contrôlées, des différents paramètres impliqués dans le phénomène observé. Comme on ne peut fixer précisément la valeur chacun (l'exactitude est une mission impossible en biologie) et qu'ils agissent de façon indépendante, les contributions de leurs petites variations (d'une expérience à l'autre) s'ajoutent de façon aléatoire. La conséquence est que l'on n'obtient jamais tout à fait les mêmes résultats d'une expérience à l'autre. On parle plutôt de tendance centrale et de dispersion par rapport à cette tendance.

Intéressons-nous à une expérience de Cristallisation
Pré requis à la résolution de la structure 3D d’une protéine (labo, une protéine donnée ...)

Les critères sélectionnés, à travers lesquels la population est observée, sont appelés des caractères. Les caractères peuvent être qualitatifs ou quantitatifs. Les valeurs possibles d’un caractère sont appelés modalités. A chaque caractère est associé un ensemble de modalités, appelé souvent ensemble des possibles.

Exemple d'une expérience de cristallisation

Caractères sélectionnés : Protéine : point isoélectrique, nombre de résidus d’acide aminé [quantitatifs]
Agent précipitant :nature [qualitatif]
Paramètres thermodynamiques : température, volume de la goutte expérimentale, concentration de la protéine, concentration de l’agent précipitant, pH [quantitatifs]

Expérience de cristallisation d’une protéine

Les caractères pertinents : Concernant la protéine : nature, masse moléculaire (daltons), point isoélectrique PI, charge électrostatique (Cb), nombre de résidus d’acide aminé, superfamille à laquelle à laquelle elle peut être affiliée, nature de  l’agent d’expression, âge de la préparation de purification (jours), température de stockage (°C ou K), présence d’agents stabilisants, nombres de domaines, famille ou super-famille, etc.

Concernant l’agent précipitant : nature, présence d’additifs, utilisation de tampon, etc.

Concernant le tampon : concentration, pH et nature du tampon utilisé, etc.

Concernant les paramètres thermodynamiques : température, volume de la goutte expérimentale, volume du puits, méthode de cristallisation choisie (phase vapeur, microdialyse, …), automatisation, concentration de la protéine (mg/ml), concentration de l’agent précipitant (mM), pH, temps, etc.

Humain : expérience du manipulateur, expertise, état de stress, sérieux, moyens humains déployés …

Matériel : micropipette, type de matériel, qualité, âge, moyens financiers, automates, qualité et état du matériel employé …

Autres : reproductibilité, purification et en général conditions en amont expérience, saison …

etc.

Ensemble des possibles :

PI : Réel positif
Nombre de résidus d’acide aminé : Entier compris entre 20 et 10000
Température : Réel
Concentration de la protéine : Réel positif
Nature de l’agent précipitant : identificateur de type texte issu d’une liste usuelle.

Il est clair sur cet exemple, que ces ensembles ne possèdent pas la même structure et donc que les opérations les concernant ne seront pas les mêmes. Il est ainsi impossible d’envisager même une simple addition sur le caractère Nature de l’agent précipitant.

 

5. Variables statistiques et variables aléatoires

Variable
Toute caractéristique mesurable ou observable sur un élément d'échantillonnage ou sur son environnement.

Synonymes : Descripteur, caractère, attribut, observation, trait, profile (en géophysique), item (dans les questionnaires de psychologie), stimulus (en étude du comportement).

Variables quantitatives continues
      l’ensemble des possibles est l’ensemble des nombres réels
Variables quantitatives discrètes
      l’ensemble des possibles est limité à quelques valeurs (typiquement : Entiers)
Variables qualitatives
      variables se référant à une qualité

Lorsqu’il est possible de définir une relation (pré-ordre permettant de classer les variables) sur des variables, elles sont qualifiées de qualitatives ordonnées.
Ex : pouvoir précipitant dans une expérience de cristallisation il a été donné d’observer que du point de vue de la rapidité de la cristallisation : sels > polyéthylène Glycols 4OOO > DMSO.

Variable aléatoire
Variable dont la valeur (ou l’état) est le résultat d’un processus aléatoire. Pour un élément donné, la valeur précise prise par une variable aléatoire n’est pas connue avant qu’une observation (par ex une mesure) n’ait été faite.

Définition mathématique : Une variable aléatoire est une fonction à valeurs numériques, définie sur un espace échantillon.

Définition : Notons Ω l'ensemble de tous les résultats possibles d'une expérience aléatoire (expérience dont on ne peut prévoir à l'avance le résultat).

Toute fonction X : Ω -> R est dite variable aléatoire associée à Ω.

Si l'ensemble X(Ω) des réalisations possibles de X a un nombre fini ou infini dénombrable d'éléments, X est dite discrète. Dans le cas contraire, X est dite continue.

Notation : Bien qu'on puisse identifier de la façon que l'on veut (au moins explicite) une telle fonction lettre majuscule (par exemple X) pour représenter une variable aléatoire (fonction) et les lettres minuscules (xi, k, ...) pour représenter une réalisation de cette VA
 ex : p(X=k).

Remarque : Les mathématiques nécessaires pour traiter les variables continues utilisent, au lieu des sommations, le calcul intégral.

Observation
Pour un individu i,  couple (i, Xi) est appelé observation. Très souvent le terme observation est employé pour désigner la seconde composante Xi du couple.

Mesure
Deux mesures sont couramment utilisées : les mesures effectif et fréquence.
Qui donnent respectivement à considérer (à une dimension) la distribution en effectif ou la distribution en fréquence de la variable aléatoire associée au caractère étudié.

Exemple traité en cours :
X= "note sur 10 obtenue à l’examen de BioCell pour les 14 étudiants du Gr B"
- nature et domaine de variation
- quelques définitions
- implications sur l’échantillon
- comparaison avec la distribution théorique (population)
- limites atteintes

Essayons-nous à définir des exemples de variables et variable aléatoires
- Milieu scientifique
- Monde de l’entreprise
- Biotechnologies
- Nature de ces variables ?

6. Echantillons, Population et Echantillonnage

Quelle que soit la nature des objets observés : êtres vivants, produits, habitations, monnaies, etc., ces objets sont désignés par le terme individu.

Population
Ensemble d'individus que l'on peut regrouper et qui présentent un caractère commun.
Exemples : la population française, l'ensemble des ingénieurs et des chercheurs en Biotechnologie, la souche ECM 234, les doses de Tamiflu stockées en France en 2006, les malades ayant contracté la grippe cet hiver, les arbres de la forêt amazonienne, l'équipe de France de boarder cross présente aux Jeux de Turin ...

ra : la taille de la population observée est souvent trop importante pour qu'on l'étudie directement (population inaccessible, ex.: population européenne). De la même façon rien n'est figé, une population donnée peut changer d'effectif avec le temps (ex.: ensemble des produits agro-alimentaires "Bio" fabriqués par une grande marque, ou encore macromolécules dont la structure est connue)

Echantillon
Sous-ensemble d'une population, tiré au hasard dans la population pour être représentatif.
Indépendance = critère important.

taille : N        "N-échantillon" [sous-entend N observations indépendantes]

Ex.: la classe, promo 11 du Magistère de Biotechnologies, les parcelles du champ en expérimentation, les cristaux observés dans la goutte de cristallisation ...

ATTENTION :

  • Une population répond finalement à une définition plus ou moins précise
  • Il ne doit y avoir aucune discrimination quant à la nature des individus
  • A la taille des échantillons : trop petits -> statistiques imprécises
    trop grands -> sans intérêt ou impossible

Nous verrons que N>30 est une situation idéale en statistique (application du théorème central limite)

Fluctuations d'échantillonnage

Pour une grande population, il y a une infinité de façons de tirer un N-échantillon.
Les différents échantillons possibles d’un tirage au hasard étant plus ou moins proches, on parle de fluctuations d’échantillonnage.

Les indicateurs (proportion p / moyenne µ / écart type σ) exacts des populations sont, en fait, dans la plupart des cas, des estimations obtenues grâce à des tests effectués sur des échantillons.

On étudie les populations à partir d'échantillons (représentatifs)
(ex : sondages)

Nous en reparlerons à propos des lois de probabilités ...