Introduction à l'analyse factorielle

Le terme analyse factorielle (en France) fait référence à une famille de méthodes d'analyse de données qui recouvrent souvent à la fois (et à tort) l'analyse en composantes principales (ACP) et l'analyse factorielle exploratoire (AFE) au sens anglo-saxon du terme. L'objectif général de ces techniques est non seulement la réduction de données (pour l'ACP) mais se veulent être un moyen d'identifier les facteurs d'organisation d'un nuage de points pour réduire le nombre de variables (recherches de composantes pour l'ACP, recherche de variables latentes en AFE). Pour résumer, ces techniques permettent donc la "condensation de l'information initiale" et surtout de découvrir les structures d'organisation des données (composantes ou variables latentes).

L'accès à ces techniques d'analyse n'est pas toujours aisé même si l'explosion des logiciels dédiés ou non a facilité leur mise en œuvre (et parfois une utilisation incorrecte). Nous présenterons ici l'analyse en composantes principales et l'analyse en facteurs communs et spécifiques qui sont des méthodes exploratoires. Elles ne spécifient pas à l'avance quelles variables doivent être associées à tels facteurs ou composantes et elles décrivent les données pour la population sur laquelle ces données ont été recueillies.

Actuellement, il existe des développements importants en analyse de données et par exemple des techniques dites d'analyse factorielle confirmatoire qui permettent de tester des hypothèses a priori concernant à la fois le nombre de facteurs et l'appartenance de chaque variable à un facteur. On peut aussi, avec des techniques plus complexes (modèles d'équations structurales) tester des relations ou des rapports de causalités multiples entre facteurs (variables latentes non observables). Nous ne ferons qu'aborder ("effleurer") ici les techniques confirmatoires qui sont avec les techniques exploratoires. Ce sont actuellement les outils les plus utilisés dans la construction des tests (sélection des items et études de la validité).

Remarque

Il a été ajouté quelques définitions formelles dans ce cours pour ceux qui auraient un minimum de connaissances en algèbre linéaire. L'objectif cependant est de donner des définitions "simplifiées" des principaux concepts utilisés pour comprendre les résultats de ces techniques d'analyse de données. Il n'est pas demandé de connaître ou comprendre ses définitions formelles pour ceux qui n'auraient pas les prérequis en algèbre linéaire.

Un peu d'histoire

Les méthodes d'analyse de données (analyse factorielle exploratoire) remontent au travaux de Spearman (1904) avec le concept de facteur. Le terme d'analyse factorielle reviendrait à Thurstone (1931) et et celui d'analyse en composante principale à Hotelling (1933). Depuis, le nombre des méthodes a explosé mais une bonne compréhension de l'ACP et de l'AFE permet facilement d'aller plus loin ensuite. Les techniques d'analyse factorielle ne concernent pas que les échelles ordinales ou d'intervalles. Par exemple, l'analyse factorielle des correspondances concerne les grandes tables de contingence et a été introduite par par Benzecri dans les années 60 (Benzecri, 1982).