QU’EST-CE QU’UN TEST ?

QU’EST-CE QU’UN TEST ?

« On appelle test mental une situation expérimentale standardisée servant de stimulus à un comportement. Ce comportement est évalué par une comparaison statistique avec celui d’autres individus placés dans la même situation, permettant ainsi de classer le sujet examiné, soit quantitativement, soit typologiquement » (P. PICHOT Les tests mentaux en psychiatrie. PUF 1949).

Cette définition implique plusieurs choses :

- la situation expérimentale doit être parfaitement définie et reproduite à l’identique dans tous les cas (milieu, matériel, consigne…).

- l’enregistrement du comportement déclenché chez le sujet doit être aussi précis et objectif que possible (qu’il s’agisse d’écrire, de dessiner, de parler, d’exécuter une tâche manuelle…).

- le comportement enregistré doit être évalué statistiquement par rapport à celui d’un groupe d’individus (sinon il ne s’agit pas d’un test mental).

- le classement du sujet examiné par rapport au groupe de référence est le but final du test. Il en ressort que, contrairement aux idées reçues, un score à un test n’est pas une note absolue mais un rang dans la population.

page21image15312
page21image15584
page21image15856

Un test mental n’est donc ni un examen clinique ni un examen scolaire. C’est une situation identique pour tous les sujets, donc standardisée, et qui sert de comparaison, il est donc étalonné.

3.1.1 La standardisation

Dans le livre de M. Reuchlin « La psychologie différentielle », on trouve également le terme de normalisation définie comme étant la « fixation de normes définissant les conditions de l’application des tests et des codages des observations qu’ils permettent ». Un test permet de transformer des comportements, des aptitudes, en nombres. On peut ainsi faire un traitement statistique des mesures, ce qui entraîne quelques contraintes. Il faut que les réponses fournies le soient dans des conditions identiques pour tous ; il faut faire très attention aux effets d’éventuelles variations dans les conditions d’application du test. Il faut que les questions soient suffisamment explicites et non ambiguës pour être comprises de la même façon par tous, ce qui pose un problème quand on a des sujets de niveaux différents (des âges différents par exemple) ; si l’on adapte l’épreuve à chaque niveau, est-on encore sûr qu’il s’agit de la même mesure ?

En fait, il faut pouvoir comparer des données comparables, c’est-à-dire donner un fondement à l’interprétation des résultats statistiques en termes de différences individuelles et non situationnelles.

Un autre aspect important de la standardisation est celui de la cotation, du codage des réponses. Dans certains tests, la réponse est sous forme oui/non et ne souffre d’aucune interprétation possible. Dans d’autres tests, la réponse est sous forme de phrases plus ou moins complexes qu’il faut alors coder bonne ou mauvaise une réponse parfois ambiguë (cela peut être le cas quand on demande de donner une définition ou pire, de décrire une situation). Il faut donc que les consignes de correction soient suffisamment objectives, claires et explicites pour que deux psychologues codant le même résultat observé attribuent la même note.

Matériel, consigne et codage sont donc les trois aspects fondamentaux de la standardisation. Toute situation ne respectant pas cette condition de standardisation ne peut être nommée « test mental ».

page22image18088
page22image18360

21

page23image496

3.1.2 L’étalonnage

L’étalonnage est la deuxième condition pour qu’une épreuve mentale puisse être appelée test et soit donc distinguée des jeux de magazines ou des « tests » scolaires. C’est à l’aide de l’histogramme que l’on va procéder à l’étalonnage. En effet, la note brute obtenue par un sujet ne prend sa signification que par rapport aux scores obtenus par les sujets d’une population définie. Il s’agit donc de situer une note parmi un ensemble de notes, c’est-à-dire d’attribuer à un sujet particulier un rang. Etalonner un test c’est fractionner un ensemble de scores en catégories ordonnées. Les différents types d’étalonnages seront abordés un peu plus tard dans ce cours.

3.2 LESQUALITÉSPSYCHOMÉTRIQUESDESTESTS

En tant qu’instrument de mesure, les tests ont certaines qualités métriques (mesurables) que l’on doit contrôler. On distingue ainsi trois qualités : la sensibilité, la fidélité et la validité.

3.2.1 La sensibilité

« Mesurer c’est faire correspondre des nombres aux choses selon certaines règles », Reuchlin (1997).

L’une de ces règles est la sensibilité, c’est-à-dire la finesse discriminative. On dit qu’un test est sensible quand il discrimine correctement les sujets, qu’il les différencie du point de vue de la dimension mesurée.

En effet, le but d’un test est de classer un individu parmi un groupe : si tous les individus ont le même score au test, s’il n’y a que des ex aequo, aucun classement ne peut être effectué et le test ne sert à rien. Il faut donc que l’on puisse rendre compte des différences individuelles avec un test sensible.

La sensibilité maximale est représentée par une distribution rectangulaire sur l’étendue maximum, c’est-à-dire du premier au dernier score possible.

Vous verrez que le plus souvent, dans la construction d’un test, et plus largement d’une épreuve psychologique, on recherche une distribution gaussienne, en forme de cloche, bien que cela ne représente donc pas la sensibilité la plus grande. La première raison est qu’une distribution gaussienne discrimine mieux les sujets extrêmes qui sont souvent les plus

22

page24image496

intéressants. La deuxième raison est qu’il existe beaucoup plus d’outils statistiques concernant les distributions gaussiennes que les distributions rectangulaires. Or, l’outil statistique est l’un des plus importants en psychologie scientifique.

Comme vous le verrez lors de la construction d’un questionnaire de connaissances en TD, on obtient une plus ou moins grande sensibilité en jouant sur la difficulté des questions : il en faut des faciles, des moyennes et des difficiles si l’on veut être sûr de discriminer les sujets.

3.2.2 La fidélité

Les scores obtenus par les sujets peuvent être entachés de toutes sortes d’erreurs de mesure aléatoires. Par exemple, le ton avec lequel l’expérimentateur a présenté l’épreuve était plus ou moins autoritaire ce qui a eu pour effet d’angoisser plus ou moins le sujet examiné, et on sait que l’angoisse ou l’anxiété sont des facteurs déterminants de la performance. On peut aussi penser que le moment de la journée est plus ou moins favorable pour le sujet en fonction de sa concentration, de sa fatigue… Toutes ces fluctuations imprévisibles constituent des erreurs de mesure, elles sont en partie inévitables. En effet, en psychologie, il est impossible de mesurer un comportement, une aptitude, une performance, comme si le sujet examiné était un robot et n’éprouvait jamais aucune sensation ou aucun sentiment. On peut cependant essayer de minimiser ces fluctuations, ces erreurs de mesures.

Un test est d’autant plus fidèle qu’il comporte une faible part d’erreur de mesure. On estime cette erreur de mesure, et donc la fidélité, en calculant la corrélation entre deux séries de mesure chez les mêmes sujets.

La méthode la plus couramment employée est celle dite du « test-retest » : on fait passer le même test deux fois aux mêmes sujets. Si le test est fidèle, il comporte une faible erreur de mesure, la mesure que l’on fait est proche de la mesure vraie et doit donc être la même deux fois. Dans ce cas de figure, le classement des sujets est à peu près le même pour la première et la deuxième passation et le coefficient de corrélation sera alors proche de 1.

La méthode du test-retest pose deux problèmes. Le premier est qu’il peut y avoir eu apprentissage entre la première et la deuxième passation (surtout s’il s’agit d’un test de connaissance), on va donc observer une amélioration moyenne des résultats, mais on risque de ne plus mesurer tout à fait la même chose la seconde fois. Pour palier aux effets

d’apprentissage, il suffit d’allonger le délai entre les deux passations. En effet, on peut supposer que les effets d’apprentissage ne subsisteront pas plusieurs mois. On se heurte alors au problème de la variation de la mesure avec le temps. Avec l’âge, par des actions du milieu, des apprentissages, de nouvelles situations vécues, il est presque sûr que les dimensions mesurées vont, au moins légèrement, se modifier chez les sujets. Si l’on applique la méthode du test-retest, il faut donc que le délai entre les deux passations ne soit ni trop court, pour éviter les effets d’apprentissage, ni trop long, pour éviter de trop grandes modifications de la mesure.

Une autre méthode consiste à faire passer, en même temps que le test, une autre épreuve censée mesurer la même dimension que le test. On appelle cette méthode celle des formes parallèles. Une fois que les deux mesures sont recueillies, il suffit, comme pour le test- retest, de procéder au calcul de la corrélation entre les deux séries de mesure. L’hypothèse sous-jacente est que, si le test n’est pas entaché d’une forte erreur de mesure (et qu’il mesure bien la même dimension que l’autre épreuve), les classements des sujets devraient être semblables dans les deux cas.

Le problème majeur posé par cette méthode est tout simplement qu’il n’existe pas toujours d’épreuve parallèle mesurant la même dimension que le test.

On dispose alors d’une troisième méthode, sans aucun doute la plus économique, la méthode dite du split-half ou division par moitié. Si l’on ne dispose pas d’une seconde mesure, qu’elle provienne d’une deuxième passation ou d’un deuxième test, on peut diviser le test en deux parties équivalentes, attribuant ainsi deux scores à chaque sujet, pour ensuite procéder à la corrélation entre ces deux séries de notes.

Le premier problème que peut poser cette méthode est celui de la nature de la partition. Si l’on partage le test en sa première moitié et sa seconde moitié, on s’expose à leur non-équivalence: les effets de fatigue, d’attention, de lassitude…, peuvent jouer dans n’importe quel sens, selon les sujets, au cours de la passation. Il vaut alors mieux procéder à une partition pair/impair. Cela consiste à mettre tous les items pairs d’un côté et tous les items impairs de l’autre. On peut penser que les deux parties ainsi constituées seront plus équivalentes.

Le deuxième problème est que la fidélité d’une épreuve augmente si l’on augmente son nombre d’items. Or, le nombre d’items est par définition divisé par deux avec la méthode de partition par moitié. Il faut donc souvent recourir à une correction du coefficient de corrélation à l’aide de la formule de Spearman-Brown.

24

page26image496

Enfin, il est important de noter que pour que l’on puisse estimer une quelconque corrélation, c’est-à-dire pour que l’on puisse comparer deux classements, il est nécessaire que l’on puisse établir un classement, que les sujets soient correctement différenciés. Autrement dit, il est nécessaire qu’un test soit sensible si l’on veut qu’il soit fidèle.

3.2.3 La validité

« Un test sera valide si les résultats qu’il fournit s’avèrent compatibles avec les hypothèses qui ont présidé à sa construction » (Reuchlin, 1997, p.63). Autrement dit, un test est valide s’il mesure bien ce qu’il est censé mesurer. Par exemple, un test de connaissances en géographie qui porterait essentiellement sur des connaissances en économie ne serait pas valide.

Il existe plusieurs types de validité.

On peut tout d’abord estimer la validité de critère. Il s’agit d’évaluer la validité d’un test à l’aide d’un critère externe. Par exemple, si un test est censé évaluer la réussite scolaire, on pourra choisir comme critère externe la moyenne des notes d’un trimestre. Si le test est valide, c’est-à-dire s’il mesure bien la réussite scolaire qu’il est censé mesurer, la corrélation entre les scores obtenus au test et les notes scolaires devrait être bonne.

Dans le cadre de la validité de critère, on distingue la validité concourante et la validité prédictive. La différence entre les deux se situe au niveau du délai qui sépare la passation du test de celle du critère. Si les deux sont passés en même temps (c’est-à-dire à quelques minutes ou jours d’intervalle, pas exactement en même temps bien sûr !), on parlera de validité concourante. Si le test est passé avant le critère (plusieurs semaines ou mois avant), on parlera de validité prédictive car le test aura alors pour fonction de prédire le critère.

Par exemple, il n’est pas rare que l’on souhaite savoir, à la fin du CM2, si les enfants réussiront ou non en 6ème. On fera alors passer un test en fin de CM2 et s’il est valide, il sera capable de prédire la réussite des élèves en 6ème, c’est-à-dire un an plus tard.

Il est également important que le test possède une certaine validité interne ou de contenu. La validité de contenu est la représentativité des questions posées dans un test par rapport à l’ensemble des questions qui pourraient être posées. Par exemple, si l’on veut construire un test de connaissances en géographie (toujours le même), sur la géographie du monde entier, et que l’on ne pose que des questions sur la géographie de l’Europe. Le test n’aura pas une bonne validité de contenu car les items qui le composent (les questions sur la géographie de l’Europe) ne sont pas représentatifs de l’ensemble des questions qui recouvrent le domaine choisi (la géographie du monde).

Il n’est pas possible d’évaluer la validité de contenu à l’aide d’un coefficient de corrélation comme pour les autres qualités psychométriques. En fait, il n’est pas possible d’avoir une estimation chiffrée de la validité de contenu. On peut en revanche faire appel à des experts de la discipline choisie et qui sauront juger de la représentativité des items sélectionnés.

Pour mémoire, sachez que l’on peut aussi parler de validité convergente, divergente et de construit. Si vous souhaitez en savoir plus sur ces types de validité, vous pouvez consulter l’ouvrage de Reuchlin.

De même qu’un test doit être sensible pour être fidèle, il est nécessaire qu’il soit fidèle pour être valide. En effet, un test peut difficilement mesurer ce qu’il est censé mesurer s’il estime principalement de l’erreur aléatoire. Lors de la construction d’un test, on s’emploiera donc à vérifier les qualités psychométriques dans l’ordre dans lequel on les a présentées.

3.3 LES ÉTALONNAGES

Le score brut obtenu à la fin de la correction du test donne une indication sur la performance du sujet, mais il ne signifie pas grand chose en soi. On va donc transformer ce score brut en une note étalonnée en comparant la performance du sujet (le score brut) à celle des sujets d’un groupe de référence. Il s’agit de déterminer dans quelle classe (ou catégorie) de l’étalonnage se situe la note brute du sujet.

3.3.1 L’importancedugroupederéférence

Il s’agit en fait de situer la note brute du sujet testé dans la distribution de la variable mesurée sur un échantillon représentatif de la population à laquelle ce sujet appartient. Cette distribution comprend des mesures qui se situent de façon plus ou moins dispersée autour de valeurs centrales.

26

page28image496

Construire un étalonnage, c’est construire ce barème de référence. La qualité de l’étalonnage dépend du caractère représentatif du groupe de référence. Il n’y a pas d’étalonnage universel ou permanent. Il faut tout d’abord déterminer avec précision à quelle population le test s’adresse et s’assurer alors que le groupe de référence sur lequel on étalonne le test est représentatif de cette population.

Par exemple, pour la WAIS-III, chaque groupe d’âge est un échantillon représentatif de la population française de cet âge pour le sexe, la catégorie socioprofessionnelle et la taille de la commune de résidence.

Quand on utilise un étalonnage, il faut vérifier :
- la taille de l’échantillon de référence,
- la représentativité de cet échantillon par rapport à la population sur laquelle on

travaille,
- la date de l’étalonnage. Ceci est plus important pour certains tests qui vieillissent

plus mal que d’autres.

3.3.2 Lessortesd’étalonnages

On distingue habituellement deux types d’étalonnage selon que les catégories ordonnées sont de même effectif (quantilages) ou correspondent à une partition d’une distribution de Laplace-Gauss (échelles normalisées).

3.3.2.1 Lesquantilages

L’étalonnage par quantilage consiste, à partir de la distribution des notes brutes, à construire une échelle dont chaque classe comprend le même nombre de sujets.

Dans les quantilages on appelle « quantile » la limite entre 2 catégories. Mais, il est devenu d’usage d’appeler quantiles les catégories elles-mêmes.

Selon la précision souhaitée pour l’étalonnage, on trouve des quantilages à 4, 5, 10 ou 100 classes. Chacune des classes comprend un pourcentage identique de la distribution. Ce pourcentage dépend de la finesse de l’étalonnage choisi. Les noms des différents quantilages sont précisés dans le tableau ci-dessous.

page29image1096

page29image1904

Quantilages

page29image3688

Quantiles

page29image5200

Nombre de classes

page29image6680

% de la distribution par classe

page29image8504
page29image9048

Quartilage

page29image10832

Quartiles

page29image12344

4

page29image13856

25 %

page29image15152
page29image15696

Quintilage

page29image17480

Quintiles

page29image18992

5

page29image20504

20 %

page29image21824
page29image22368

Décilage

page29image23744
page29image24288
page29image24984

Déciles

page29image26360
page29image27056

10

page29image28432
page29image29128

10 %

page29image30544

Centilage

page29image31960

page29image32768

Centiles

page29image34280

100

page29image35792

1%

page29image37192

Les quantiles sont toujours numérotés en partant des notes faibles. Dire que la note d’un sujet se situe dans le 3ème décile signifie qu’elle est dans une classe représentant 10 % de la population de l’étalonnage et que 70 % des sujets du groupe de référence ont une note supérieure ou égale à celle du sujet et que 20 % des sujets du groupe de référence ont une note inférieure à celle du sujet.

La construction d’un tel étalonnage est simple : il suffit de fixer les limites de chaque classe en tentant d’être le plus proche possible de la répartition idéale correspondant à l’étalonnage choisi.

Si l’on a un groupe de référence de 150 sujets, on va d’abord ordonner les notes obtenues de la plus faible à la plus élevée et tenter ensuite de les répartir en 10 catégories, chacune des catégories comprenant 150/10 = 15 sujets.

Comments are closed.

This entry was posted on Dimanche, novembre 20th, 2011 at 20 h 27 min and is filed under quotient intellectuel . You can follow any responses to this entry through the RSS 2.0 feed. Both comments and pings are currently closed.