La fiabilité est le degré auquel un instrument de mesure donne les mêmes résultats chaque fois qu'il est utilisé, en supposant que l'élément sous-jacent mesuré ne change pas.
Imaginez que vous essayez d'évaluer la fiabilité d'un thermomètre dans votre maison. Si la température dans une pièce reste la même, un thermomètre fiable donnera toujours la même lecture. Un thermomètre qui manque de fiabilité changerait même lorsque la température ne change pas. Notez, cependant, que le thermomètre n'a pas besoin d'être précis pour être fiable. Par exemple, il peut toujours enregistrer trois degrés trop élevés. Son degré de fiabilité tient plutôt à la prévisibilité de sa relation avec tout ce qui est testé.
Afin d'évaluer la fiabilité, la chose mesurée doit être mesurée plus d'une fois. Par exemple, si vous souhaitez mesurer la longueur d'un canapé pour vous assurer qu'il passe à travers une porte, vous pouvez le mesurer deux fois. Si vous obtenez deux fois une mesure identique, vous pouvez être sûr d'avoir mesuré de manière fiable.
Il existe quatre procédures pour évaluer la fiabilité d'un test. (Ici, le terme «test» fait référence à un groupe de déclarations sur un questionnaire, à une évaluation quantitative ou qualitative d'un observateur ou à une combinaison des deux.)
Ici, le même test est effectué deux fois ou plus. Par exemple, vous pouvez créer un questionnaire avec un ensemble de dix déclarations pour évaluer la confiance. Ces dix déclarations sont ensuite données à un sujet deux fois à deux moments différents. Si le répondant donne des réponses similaires les deux fois, vous pouvez supposer que les questions évaluées de manière fiable les réponses du sujet.
Un avantage de cette méthode est qu'un seul test doit être développé pour cette procédure. Cependant, il existe quelques inconvénients à la procédure test-retest. Des événements peuvent survenir entre les périodes de test et affecter les réponses des répondants; les réponses peuvent changer avec le temps simplement parce que les gens changent et grandissent avec le temps; et le sujet pourrait s'adapter au test la deuxième fois, réfléchir plus profondément aux questions et réévaluer leurs réponses. Par exemple, dans l'exemple ci-dessus, certains répondants pourraient être devenus plus confiants entre la première et la deuxième session de test, ce qui rendrait plus difficile l'interprétation des résultats de la procédure test-retest.
Dans la procédure des formes alternatives (également appelée fiabilité des formes parallèles), deux tests sont donnés. Par exemple, vous pouvez créer deux ensembles de cinq instructions mesurant la confiance. Les sujets seraient invités à répondre à chacun des questionnaires à cinq énoncés. Si la personne donne des réponses similaires pour les deux tests, vous pouvez supposer que vous avez mesuré le concept de manière fiable. Un avantage est que le repérage sera moins important car les deux tests sont différents. Cependant, il est important de s'assurer que les deux versions alternatives du test mesurent effectivement la même chose.
Dans cette procédure, un seul test est administré une fois. Une note est attribuée à chaque moitié séparément et les notes sont comparées à partir de chaque moitié. Par exemple, vous pourriez avoir un ensemble de dix déclarations sur un questionnaire pour évaluer la confiance. Les répondants passent le test et les questions sont ensuite divisées en deux sous-tests de cinq éléments chacun. Si le score de la première moitié reflète le score de la seconde moitié, vous pouvez présumer que le test a mesuré le concept de manière fiable. Du côté positif, l'histoire, la maturation et les repères ne sont pas en jeu. Cependant, les scores peuvent varier considérablement en fonction de la façon dont le test est divisé en deux.
Ici, le même test est administré une fois et le score est basé sur la similitude moyenne des réponses. Par exemple, dans un questionnaire à dix énoncés pour mesurer la confiance, chaque réponse peut être considérée comme un sous-test à un énoncé. La similitude des réponses à chacun des dix énoncés est utilisée pour évaluer la fiabilité. Si le répondant ne répond pas aux dix énoncés de la même manière, alors on peut supposer que le test n'est pas fiable. Les chercheurs peuvent évaluer la cohérence interne en utilisant un logiciel statistique pour calculer l'alpha de Cronbach.
Avec la procédure de cohérence interne, l'historique, la maturation et les repères ne sont pas pris en compte. Cependant, le nombre de déclarations dans le test peut affecter l'évaluation de la fiabilité lors de l'évaluation interne.