Introduction à l'analyse factorielle

Parent Previous Next

En France, le terme analyse factorielle désigne une famille de méthodes d’analyse de données qui regroupe, souvent à tort, à la fois l’analyse en composantes principales (ACP) et l’analyse factorielle exploratoire (AFE). L’objectif général de ces techniques est non seulement la réduction de la dimensionnalité (dans le cas de l’ACP), mais aussi l’identification des facteurs d’organisation d’un nuage de points dans un espace à k dimensions, afin de résumer l’information à l’aide d’un nombre restreint de variables. Concrètement, ces méthodes visent à rendre intelligible soit la variance des scores (ACP), soit la structure des corrélations entre variables (AFE), en construisant un ensemble réduit de composantes ou de variables latentes non corrélées. En résumé, l’analyse factorielle regroupe des techniques destinées à révéler les structures sous-jacentes d’un ensemble de données, qu’il s’agisse de composantes principales ou de facteurs latents.. 

L'accès à ces techniques d'analyse n'est pas toujours aisé même si l'explosion des logiciels, dédiés ou non, a facilité leur mise en œuvre (et parfois une utilisation incorrecte). Nous présenterons ici l'analyse en composantes principales et l'analyse en facteurs communs et spécifiques qui ne sont pas des méthodes inférentielles mais  des méthodes descriptives. Elles ne spécifient pas à l'avance quelles variables doivent être associées à tels facteurs ou composantes et elles décrivent les données concernant la population sur laquelle ces données ont été recueillies.

Actuellement, il existe des développements importants en analyse de données et par exemple des techniques dites d'analyse factorielle confirmatoire qui permettent de tester des hypothèses a priori concernant à la fois le nombre de facteurs et l'appartenance de chaque variable à un facteur. On peut aussi, avec des techniques plus complexes (modèles d'équations structurales) tester des relations ou des rapports de causalités multiples entre facteurs (variables latentes non observables). Nous ne ferons  qu'aborder ("effleurer") ici les techniques confirmatoires même si actuellement ces méthodes deviennent  les outils les plus utilisés dans la construction des tests (sélection des items et études de la validité). 

Remarque

Il a été ajouté quelques définitions formelles dans ce cours pour ceux qui auraient un minimum de connaissances en algèbre linéaire. L'objectif cependant est de donner des définitions "simplifiées" des principaux concepts utilisés pour comprendre les résultats de ces techniques d'analyse de données. Il n'est pas demandé de connaître ou comprendre ses définitions formelles pour ceux qui n'auraient pas les prérequis en algèbre linéaire.


Un peu d'histoire

Les méthodes d'analyse de données (analyse factorielle exploratoire) remontent au travaux de Spearman (1904) avec le concept de facteur. Le terme d'analyse factorielle reviendrait à Thurstone (1931) et  celui d'analyse en composante principale à Hotelling (1933). Depuis, le nombre des méthodes a explosé mais une bonne compréhension de l'ACP et de l'AFE permet facilement d'aller plus loin ensuite. Les techniques d'analyse factorielle ne concernent pas que les échelles ordinales ou d'intervalles. Par exemple,  l'analyse factorielle des correspondances concerne les grandes tables de contingence et a été introduite par par Benzecri dans les années 60 (Benzecri, 1982).