Introduction à l'analyse factorielle

Previous Next

L'analyse factorielle (en France) fait référence à une famille de méthodes d'analyse de données qui recouvrent à la fois l'analyse en composantes principales et l'analyse factorielle au sens anglo-saxon du terme. L'objectif général de l'analyse factorielle est de décrire, de résumer des données et de fournir un moyen d'identifier les facteurs d'organisation d'un nuage de points (tableau de données) ou de réduire le nombre de variables. Elle doit être comprise comme un ensemble de techniques permettant d'une part la "condensation de l'information initiale" et/ou d'autre part de découvrir les structures d'organisation des données.

L' accès à ces techniques d'analyse n'est pas toujours aisé même si l'explosion des logiciels dédiés ou non a facilité leur mise en œuvre. Nous présenterons ici uniquement l'analyse en composantes principales et l'analyse en facteurs communs et spécifiques (de façon plus succincte pour cette dernière).

Remarque : il a été ajouté quelques définitions formelles dans ce cours pour ceux qui auraient un minimum de connaissances en algèbre linéaire. L'objectif cependant est de donner des définitions "simplifiées" des principaux concepts utilisés en analyse factorielle pour comprendre les résultats de ces techniques d'analyse de données. Il n'est pas demandé de connaître ou comprendre ses définitions formelles pour ceux qui n'auraient pas les prérequis en algèbre linéaire.

L'intérêt de l'analyse factorielle : faire face à l'explosion du nombre d'indicateurs pour résumer les données.

En statistique descriptive, la mesure (une VD) sur un grand nombre de personnes (par exemple la taille, le poids ou une aptitude comme la mémoire, l'attention ou l'intelligence) peut être résumée par un indicateur de tendance centrale (ex. : la moyenne ou la médiane) et un indicateur de la dispersion de la distribution (ex. : l'écart-type ou l'écart interquartile). Pour une dimension mesurée, c'est-à-dire une variable, deux nombres a minima sont donc nécessaires pour résumer les données.

Si on étudie deux variables (la taille et le poids, les temps de réponse dans une tâche de mémorisation et la qualité de la réponse, les performances dans des tâches verbales et non verbales, etc.), 5 nombres seront nécessaires pour résumer les données : un indice de tendance centrale et un indice de dispersion pour chacune des deux variables, mais aussi un indice d'association (coefficient de corrélation de Bravais-Pearson par exemple) entre ces deux variables. Le nombre des descripteurs pour résumer les données explose avec le nombre des variables (cf. tableau ci-dessous). Les techniques d'analyse factorielle auront pour intérêt (entre autres) de permettre de résumer et réduire les données.

Nombre de VD

  Nombre de résumés

1 variable ->

2

1 tendance centrale et 1 dispersion

2 variables ->

5

2 tendances centrales, 2 dispersions, 1 corrélation

3 variables ->

9

3 tendances centrales, 3 dispersions, 3 corrélations

10 variables ->

65

10 tendances centrales, 10 dispersions, 45 corrélations

n variables ->

n*(n+1)/2

n tendances centrales, n dispersions, n*(n-1)/2 corrélations