En résumé (à savoir)

Parent Previous Next

Pour résumer, la pratique de l'analyse factorielle (ACP et AFE) comme l'analyse critique de résultats demande une expertise minimum. Avec Tabachnik et Fidell (2013) on peut résumer les points à vérifier  systématiquement :

Les variables présentes dans une analyse factorielle doivent avoir une sensibilité suffisante (doivent discriminer les positions des individus).

Pour qu'une solution factorielle soit prise en considération stable, il faut un nombre suffisant d'observations. La règle veut qu'il y ait un minimum de 5 observations par variable (ce qui est vraiment un minimum). 

Les variables utilisées pour l'analyse devraient se distribuer normalement. Toutefois, on peut "transgresser" cette règle (en mode exploratoire) en utilisant des procédure d'extraction* qui prennent en compte les caractéristiques ces distributions. On peut aussi effectuer des transformations normalisant les distributions.

La relation entre les variables est supposée linéaire.

La matrice de corrélation ne doit pas être singulière (une variable ne peut pas être une combinaison linéaire d'une ou plusieurs autres variables). Lorsqu'une variable est trop fortement corrélée avec une ou plusieurs autres variables on peut avoir un problème de calcul de la solution factorielle (cas Heywood) avec des saturations qui deviennent supérieures à 1 (ce qui est théoriquement impossible) !

Certains ensembles de variables doivent corrélés entre eux (l'indice Kaiser-Meyer-Olkin [KMO] doit être suffisant et devrait être supérieur à .60).

La solution factorielle doit expliquer une proportion suffisante de la variance (sinon la perte d'information est trop importante).

Toutes les variables doivent faire partie de la solution factorielle (elles doivent avoir au moins une saturation supérieure à .20 ou .30 sur un des facteurs retenus dans l'AFE).

Après rotation, un facteur doit saturer suffisamment (supérieure à .20 ou .30) plus d'une variable. On doit en général avoir au moins deux variables, sinon 3 qui ont des saturations suffisantes dans chaque facteur.

Dans l'interprétation des données, on doit connaître (et prendre en compte) les caractéristiques des variables mais aussi celle de la population. L'analyse factorielle exploratoire reste une statistique descriptive.

Une structure factorielle peut être différente pour différentes populations. Comme pour les corrélations (paradoxe de Simpson**), on ne doit pas regrouper dans une analyse des populations trop différentes.

Comparatif analyse en composantes principales et Analyse Factorielle Exploratoire


Aspect

ACP

AFE

Objectif

Résumer les données, maximiser la variance expliquée

Identifier des facteurs latents expliquant les corrélations

Variance prise en compte

Toute la variance (100%)

Uniquement la variance à expliquer par les facteurs.

Méthode de calcul

Décomposition en valeurs propres

Estimation par moindres carrés, maximum de vraisemblance, etc.

Résultat

Composantes principales

Facteurs + charges factorielles

Rotations

Rotations orthogonales

Rotations obliques ou orthogonales

Usage


Analyse exploratoire descriptive


Psychométrie, sciences sociales, tests, questionnaires


----------------

(*) La méthode du  maximum de vraisemblance (ML pour maximum likelihood en anglais) est sensible aux déviations à la normalité des distributions. Pour des échelles ordinales (type likert) ou lorsque les distributions ne sont pas normales, on peut utiliser par exemple la méthode des moindres carrés non pondérés (ULS = Unweighted Least Square en anglais) qui minimise les résidus. 

(**) Le paradoxe de Simpson est un paradoxe statistique décrit en 1951 par Edward Simpson (mais aussi par George U. Yule en 1903) dans lequel un résultat observé sur plusieurs groupes s'inverse lorsque les groupes sont combinés. Ce paradoxe est souvent rencontré en sciences sociales (et souvent oublié !). On trouve de nombreux exemple de ce paradoxe sur le web.