Nombre de facteurs

Parent Previous Next

Un des points les plus délicats de l'analyse factorielle est de fixer le nombre de facteurs à retenir dans l'analyse (on dit parfois le nombre des facteurs à extraire). Pour fixer ce nombre on doit apprécier la perte d'information induite par le fait que l'on réduit le nombre de dimensions. Par exemple si on a 15 variables, ne retenir que 4 facteurs supposent que le nuage de points dans cet espace à 4 dimensions n'est pas trop éloigné du nuage initial et que les variables sont suffisamment "expliquées" par ce système de facteurs. Il faudra prendre en compte (d'une façon ou d'une autre) :

Règles  pour définir le nombre des facteurs extraits

Soit la table des valeurs propres suivantes (indiquant pour chacun des 10 facteurs, la valeur propre, le pourcentage de variance expliqué par le facteur (taux d'inertie) et le pourcentage cumulé de variance expliquée.

Facteurs

Valeur propre

% Variance

expliquée

% cumulé

F1

2,32

23,2%

23,2%

F2

1,45

14,5%

37,7%

F3

1,37

13,7%

51,4%

F4

1,17

11,7%

63,1%

F5

0,75

7,5%

70,6%

F6

0,62

6,2%

76,8%

F7

0,61

6,1%

82,9%

F8

0,59

5,9%

88,8%

F9

0,57

5,7%

94,5%

F10

0,55

5,5%

100,0%

Il n'existe pas une seule méthode mais plusieurs pas toujours convergentes et pas toutes recommandées. Les principales méthodes sont :

Ce critère simple est souvent évoqué (et utilisé) est imparfait (et ne devrait pas être utilisé). On ne retient que les facteurs dont la valeur propre est supérieure à 1. Dans l'exemple précédent on ne retient que les 4 premiers facteurs. Cette méthode n'est pas une méthode recommandée.

Le scree-test (test d'accumulation de variance de Cattell, 1966) consiste à regarder comment évoluent les valeurs propres en fonction de leur ordre d'extraction. Le terme « scree » fait référence à l'accumulation de dépôts rocheux au pied d'une montagne créant ainsi un petit promontoire à l'endroit où le dénivelé de la montagne se transforme en une pente plus douce.  On ne retient justement que les facteurs précédents le passage à cette pente douce.

Dans la figure suivante, représentant l'évolution des valeurs propres pour les facteurs extraits (du premier au 10ème), le changement de pente s'effectue avec le 5ème facteur, on devrait donc ne retenir que les 4 premiers facteurs. Cette technique (avec celle de l'analyse parallèle) est souvent utilisée. Facile à mettre en œuvre elle devrait être utilisée en complément d'autres techniques.

Remarque : le graphique des valeurs propres s'appelle aussi parfois en français "l'éboulis des valeurs propres".

Cette approche proposée par Horn (1965) s'appuie sur le fait que même en partant de données générées au hasard, il est possible d'observer une composante pouvant expliquer une proportion de variance supérieure à 1.  L'analyse parallèle consiste donc à mener, en plus de l'analyse normale, une série importante (1000 ou plus) d'ACP sur une matrice de corrélations générée au hasard mais comportant le même nombre de variables et le même nombre de participants que l'étude principale.  La série des valeurs propres est comparée à celle issue des valeurs propres calculées sur les données aléatoires (il existe plusieurs programmes, faciles à trouver sur le web, permettant de calculer ces valeurs). On ne conserve que les composantes dont la variance est significativement supérieure à celle obtenue avec la matrice de corrélations générée au hasard.  La figure suivante illustre ce processus de décision. On ne retient que les 4 premiers facteurs. Cette technique fait partie des techniques recommandées.


Très ambigu, ce critère consiste à retenir les facteurs de façon à expliquer au moins un certain pourcentage de variance. Selon la nature des mesures et de leur fidélité la valeur de ce critère peut varier. Ici, si on fixe le critère à 70% de variance expliquée, il faudrait retenir 5 facteurs. Cette méthode peu être utilisée en complément des méthodes précédentes comme "regard" sur la qualité de la représentation des facteurs retenus dans l'analyse. A elle seule, elle n'est pas recommandée pour déterminer le nombre de facteurs.

Contrôle de la pertinence du nombre des facteurs sélectionnés.

Pour ceux qui veulent aller plus loin

Ils existent de nombreux articles sur la façon de déterminer le nombre de facteurs. L'analyse parallèle de Horn est celle qui semble la plus appropriée. Cependant, dans des simulations récentes, la méthode CD (comparative data) semble préférable. Cette méthode est plus complexe à mettre en œuvre mais  Ruscio (auteur de la méthode avec Roche) a déposé un script sous R* permettant de déterminer ce nombre de facteurs (http://ruscio.pages.tcnj.edu/quantitative-methods-program-code/). Vous pouvez toujours, pour ceux qui connaissent R, en profiter pour voir comment on simule des données et la méthode utilisée.

(*) R est un système d'analyse statistiques et un langage dérive de S. Il est distribué librement sous les termes de la GNU General Public Licence et est disponible pour plusieurs environnements (Windows, Linux, MacIntosh).