Taille des échantillons

Parent Previous Next

Définir la taille d'un échantillon est complexe et différents facteurs affectent le choix d'une taille d'échantillon. Il existe par ailleurs différentes formules et techniques pour estimer la taille de l'échantillon. L'analyse de ces méthodes montre que pour fixer la taille d'un échantillon on doit prend en compte :

Remarques

Les exemples les plus fameux dans ce domaine concernent les premiers sondages et enquêtes préélectorales effectués aux USA. Il est rapporté plus particulièrement celui concernant l'élection présidentielle opposant Roosevelt à Landon. Un journal a effectué un sondage auprès de 3 millions de personnes et donnait Landon gagnant, or, Gallup, avec un sondage auprès de 4500 personnes, donnait avec raison Roosevelt gagnant. Le biais du premier sondage était simple à repérer : l'enquête avait été faite par téléphone auprès des abonnés du journal, et les personnes interrogées n'étaient pas représentatives de la population américaine même si elles étaient 665 fois plus nombreuses.



Pour aller plus loin ....

Illustration de l'effet des différentes facteurs dans la détermination de la taille d'un échantillon (par simulation)

Pour cette simulation, nous nous plaçons dans un cadre simple, celui d'une enquête qui cherche à savoir si dans une population on préfère le produit A ou le produit B. Pour calculer la taille de l'échantillon (population parente finie), la formule utilisée est  :

avec :        N = taille de la population parente

n = taille de l'échantillon

p  = proportion attendue de choix A  dans la population

1-α = degré de confiance (probabilité)

i = fourchette (intervalle de confiance pour p, +/- i%)

zα = valeur z lu dans la table de la loi normale


Cette formule, va nous permettre d'illustrer les effets des différentes variables (taille de l'échantillon, de la population parente, etc.) sur le degré de confiance dans les résultats. Vous pouvez aussi avec un tableur faire d'autres simulations. En fait, le principe est de faire varier, un paramètre et on regarde l'effet sur un autre paramètre (en laissant les autres paramètres constants).

Simulation 1 : pour une taille de population donnée (N), plus l'échantillon est grand (n), meilleure est la précision  (fourchette i diminue)


Simulation 2 : la taille de la population parente (N) a une importance toute relative dans le degré de confiance (i.e précision, fourchette i) à taille d'échantillon suffisante (n=1000). En fait, avec 1000 individus, la précision du résultat est similaire pour une population parente de 200 000 individus et pour une population parente de 100 000 000 individus !

Simulation 3 : pour un degré de précision fixé (ici  i= 3%), la taille de l'échantillon (n) pour une population de référence constante (N=100 000) dépend de la proportion de choix A (p) dans la population parente. En fait, la taille de l'échantillon est maximum pour p=50% (donc quand la dispersion est maximum). Comme avant une étude on ne connaît pas p, on se met toujours dans ce cadre pour calculer la taille de l'échantillon.