Détermination d'un score critique (seuil)

Étalonnage ››
Parent Previous Next

Certains tests proposent des valeurs seuils ou critiques permettant de définir un risque (difficulté d'apprentissage de la lecture, pronostic de démence, dépression, etc.). Ces valeurs seuils sont parfois fixées a priori à partir de critères comme un score inférieur ou supérieur à 2 écarts-types à celui observé en moyenne. Cependant, quand un test permet de prédire l'apparition d'une maladie ou des difficultés d'apprentissage, il est possible, d'utiliser les notions de sensibilité et spécificité telles que nous les avons vues dans le chapitre (Qualités métrologiques - Sensibilité et spécificité).

Pour rappel la sensibilité dans ce contexte est la capacité de l'instrument à identifier correctement les personnes présentant la caractéristique que l'on souhaite étudier et la spécificité est la capacité de l'instrument à identifier correctement les personnes ne portant pas cette caractéristique.

Supposons que nous construisions une batterie permettant d'évaluer la mémoire sous toutes ses formes et donnant un score global de mémoire pour les personnes âgées entre 70 et 75 ans qui présentent des plaintes mnésiques (vie quotidienne). On pense que les résultats à cette batterie, lorsqu'ils sont élevées (scores de performances inversés), devraient être aussi prédicteurs d'une évolution vers une démence dans les années à venir (exemple fictif). Dans ce cadre on va faire passer à un échantillon représentatif de cette population l'épreuve et regarder, deux ou trois ans après, l'évolution de ces personnes. Nous aurons alors deux groupes de personnes, celles présentant une démence et celles ne présentant pas de démence. Nous pourrons représenter les résultats initiaux à cette batterie sur un graphique en séparant ceux qui présentent un trouble et ceux qui n'en présentent pas :

Figure F.2 :  Distribution des scores (proportions) des personnes qui présentent un trouble (T) et de ceux qui n'en présentent pas (NT)


On observe bien entendu le plus souvent, que parmi ceux qui présentent des troubles, le score initial était faible (sans difficulté particulière initialement) et inversement, parmi ceux qui ne présentent pas de trouble, le score initial pouvait être élevé. Si les deux courbes sont confondues ou presque confondues (moyenne proche) il ne sera pas possible de trouver une valeur critique. Si ces deux courbes sont suffisamment distinctes, il faudra se fixer une valeur critique en minimisant les faux positifs (FP) et les faux négatifs (FN).

Le graphique précédent permet de comprendre que selon la valeur seuil que l'on prendra, soit on diminue la probabilité de FP (faux positifs) mais on on augmente la probabilité d'avoir des FN (faux négatifs), soit on diminue la probabilité des FN mais on augmente celle des FP. Le bon positionnement dépend des risques que l'on veut prendre et de la nature de la décision à prendre. Si, comme dans notre exemple, on cherche une valeur critique pour identifier les personnes à risque de démences ne vaut-il pas mieux faire des FN plutôt que des faux positifs connaissant l'impact du diagnostic dans l'évolution de ces maladies (une discussion sur ce sujet n'est pas l'objet de ce cours, mais regarder ce qu'il en est par exemple pour la maladie d'Alzheimer). A l'inverse, si l'objet est d'identifier des possibles troubles d'apprentissage ultérieurs (lors de la scolarisation obligatoire), n'est-il pas à l'inverse préférable de faire un minimum de faux négatifs.

Ce rapport entre FN et FP et la qualité diagnostic de l'épreuve peut être évaluée au moyen de courbes que l'on appelle les courbes ROC (Receiver Operating Charateristic). Pour tracer cette courbe, on met en abscisse la spécificité (plus exactement 1-la spécificité) et en ordonnée la sensibilité (pour le calcul de ces valeurs, voir Qualités métrologiques - Sensibilité et spécificité). Cette technique revient à représenter l'évolution des FP et FN en fonction de la valeur critique choisie.

Plus la courbe se rapprochera de la diagonale, plus la classification est faite au hasard. Un bon test diagnostic doit donc présenter une courbe ROC plus haute que cette diagonale. L'aire entre la courbe  la courbe et la diagonale peut-être calculée. En fonction des risques que l'on veut prendre, on choisira la valeur critique qui convient le mieux (souvent celle le plus proche du point (0,1) qui sera un bon  compromis entre spécificité et sensibilité.

Figure F.3 :  Exemples de deux courbes ROC. En rouge (pointillé) une courbe ROC associée à un mauvais test diagnostic et en noir (traitillé)
une courbe ROC associé à un meilleur test diagnostic (rem : la spécificité et la sensibilité varient entre 0 et 1)