Corrélations partielles

La corrélation observée entre deux variables peut être artificielle (cf. exemple ci-dessous), masquée ou sur-évaluée en raison d'une ou plusieurs variables confondantes. Selon la nature de/des variable(s) confondante(s), la stratégie d'analyse est différente :

-La variable confondante est une échelle d'intervalle.

Le principe est alors de calculer un coefficient de corrélation partielle en retirant la variance qui est due à une troisième variable Z (corrélation partielle entre X et Y notée alors rXY.Z). Cet indice de corrélation partielle permet par exemple de calculer la corrélation entre deux tests après avoir retiré l'effet de l'âge, c'est à dire après avoir retiré la variance des notes due à l'âge des sujets. La formule de calcul est simple :

Lorsque qu'il existe plusieurs variables confondantes qui sont des échelles d'intervalles, la corrélation partielle est alors une corrélation partielle d'ordre p (rxy.z1z2...zp) et la formule est alors plus complexe. Il est souvent préférable si p est supérieur à 3 de passer par des techniques de régression (non présentée dans ce cours).

-La variable confondante est qualitative

Une variable qualitative ((qui permet de distinguer différents groupes) conduit à calculer la corrélation pour chaque groupe. On peut ainsi avoir des surprises avec par exemple une corrélation négative entre deux variables x et y, qui devient positive pour chacun des groupes (c'est une des expressions du paradoxe de Simpson*, cf. figure B-5) ou encore des corrélations qui varient selon les groupes et qui sont très différentes de celles observées globalement.

(*) Le paradoxe de Simpson (ou effet de Yule-Simpson) a été décrit initialement par Udny Yule en 1903 puis repris par Edward Simpson en 1951. De façon générale, cet effet correspond à l'inversion d'un effet (fréquence de guérison, corrélation, etc.) observé dans plusieurs groupes lorsque l'on regroupe toutes les données (par exemple une différence de moyennes entre deux conditions est positive dans un premier groupe, positive dans le second groupe mais s'inverse quand on combine les deux groupes). Pour ceux qui veulent mieux comprendre ce paradoxe ou voir des exemples surprenants, cf. https://www.youtube.com/watch?time_continue=11&v=vs_Zzf_vL2I

Pour aller plus loin :

Il est très important de prendre en compte une variable confondante surtout lorsque l'on a des données provenant de différents groupes bien identifiés. En effet, on observe parfois des résultats très surprenants sur les moyennes, les fréquences (exemple les plus fréquents pour illustrer le paradoxe Simpson). Cependant, cet effet existe aussi pour les corrélations, la figure B-5 en est l'illustration. Ce paradoxe n'est n'est pas vraiment un. Dans l'exemple donné (figure B-5) les moyennes des scores sur la variable X augmentent avec l'âge et alors qu'ils diminue pour Y avec l'âge. Si l'on regarde la relation entre x et y tout âge confondu, la corrélation devient négative (alors qu'elle était positive pour chaque groupe d'âge). Cet effet particulier est donc toujours à prendre en compte surtout dans les études développementales.

Figure B-5 : Illustration du paradoxe de Simpson (dans le domaine des corrélations). La corrélation entre X et Y est négative (nuage de points orienté vers la gauche) mais pour les 4 groupes distingués par la variable Z (4 groupes d'âge correspondant aux 4 couleurs dans le nuage de points), les corrélations entre X et Y sont toutes positives ! (adapté de Rücker & Schumacher, 2008)