Indice de puissance (p-index)

L'indice de difficulté ou p-index (power en anglais) est aussi appelé en français indice de puissance. Ce p-index (p) est simplement le rapport entre le nombre de personnes qui réussissent l'item et le nombre de personnes qui l'ont passé (p x 100 donne donc directement le pourcentage de réussite à l'item). Cet indice de difficulté varie entre 0 et 1 (0 signifiant qu'un item est systématiquement échoué [0% de réussite] et à l'inverse 1 [100% de réussite] signifie qu'il est systématiquement réussi).

Utilisation du p-index lors de la sélection des items.

Si l'on ne prend que des items d'indice p élevé (items faciles) l'épreuve ne permettra de différencier que les sujets les plus en difficulté (les autres réussiront). A l'inverse si l'on ne prend que des items difficiles (à l'indice p trop faible), l'épreuve trop difficile ne discriminera que les très bons (les autres échoueront à tous les items). Sachant que l'objectif est de maximiser la sensibilité de l'épreuve lors de la sélection des items, on choisit une majorité d'items dont le p-index est proche de .50 et on en prend de moins en moins au fur et à mesure que l'on s'éloigne de cette valeur vers 1 ou 0. On fait l'hypothèse que la majorité des personnes se trouvent dans une zone centrale (on maximise à ce niveau la sensibilité du test) et on a besoin de moins d'items lorsque l'on s'éloigne de cette moyenne, car les personnes seraient moins nombreuses. On peut aussi, en manipulant cet index, construire des tests plus sensibles pour les personnes ayant des scores élevés ou inversement plus sensibles pour les personnes ayant des difficultés.

Remarques

■Cet indice dépend directement de l'échantillon. Si les personnes sont plus performants que la moyenne, les items sont jugés faciles et l'épreuve sera trop difficile (donc peu sensible pour différencier les personnes). Inversement si l'échantillon est constitué de personnes peu performantes sur cette épreuve, les items seront jugés difficiles et la sélection des items conduira à construire une épreuve facile (donc à nouveau peu sensible pour différencier les personnes).

■Cette dépendance à l'échantillon lors de la sélection des items est forte. Il existe un modèle d'analyse des items qui permet de dépasser ce problème (les modèles de réponses à l'item) et qui rend les critères de sélection des items partiellement indépendant de l'échantillon.

■En éducation, pour les questionnaires à choix multiples, l'indice de difficulté (appelé DIFF I) est parfois calculé non pas sur la totalité de l'échantillon mais les sur les 33% des participants ayant les scores les plus élevés et les 33% ayant les scores les plus faibles (cette pratique est spécifique au QCM et en édumétrie).