Toutes les données ne sont pas créées de manière égale. Il est utile de classer les ensembles de données selon différents critères. Certains sont quantitatifs et d'autres qualitatifs. Certains ensembles de données sont continus et certains sont discrets.
Une autre façon de séparer les données consiste à les classer en quatre niveaux de mesure: nominal, ordinal, intervalle et ratio. Différents niveaux de mesure nécessitent différentes techniques statistiques. Nous examinerons chacun de ces niveaux de mesure.
Le niveau nominal de mesure est la plus faible des quatre façons de caractériser les données. Nominal signifie «au nom seulement» et cela devrait aider à se rappeler ce qu'est ce niveau. Les données nominales concernent les noms, les catégories ou les étiquettes.
Les données au niveau nominal sont qualitatives. Les couleurs des yeux, les réponses oui ou non à une enquête et les céréales pour petit-déjeuner préférées traitent toutes du niveau de mesure nominal. Même certaines choses avec des numéros qui leur sont associés, comme un numéro au dos d'un maillot de football, sont nominales car elles sont utilisées pour "nommer" un joueur individuel sur le terrain..
Les données à ce niveau ne peuvent pas être ordonnées de manière significative, et cela n'a aucun sens de calculer des choses telles que les moyennes et les écarts-types.
Le niveau suivant est appelé le niveau ordinal de mesure. Les données à ce niveau peuvent être commandées, mais aucune différence significative entre les données ne peut être prise..
Ici, vous devriez penser à des choses comme une liste des dix meilleures villes à vivre. Les données, ici dix villes, sont classées de un à dix, mais les différences entre les villes n'ont pas beaucoup de sens. Il n'y a aucun moyen de regarder uniquement les classements pour savoir à quel point la vie est meilleure dans la ville numéro 1 que dans la ville numéro 2.
Un autre exemple de cela est les notes alphabétiques. Vous pouvez ordonner des choses pour que A soit supérieur à un B, mais sans aucune autre information, il n'y a aucun moyen de savoir à quel point un A est meilleur d'un B.
Comme pour le niveau nominal, les données au niveau ordinal ne doivent pas être utilisées dans les calculs.
Le niveau d'intervalle de mesure concerne les données qui peuvent être ordonnées et dans lesquelles les différences entre les données ont un sens. Les données à ce niveau n'ont pas de point de départ.
Les échelles de température Fahrenheit et Celsius sont toutes deux des exemples de données au niveau d'intervalle de mesure. Vous pouvez parler de 30 degrés à 60 degrés de moins que 90 degrés, donc les différences ont du sens. Cependant, 0 degré (dans les deux échelles) aussi froid qu'il soit ne représente pas l'absence totale de température.
Les données au niveau de l'intervalle peuvent être utilisées dans les calculs. Cependant, les données à ce niveau manquent d'un type de comparaison. Même si 3 x 30 = 90, il n'est pas correct de dire que 90 degrés Celsius est trois fois plus chaud que 30 degrés Celsius.
Le quatrième et le plus haut niveau de mesure est le niveau du rapport. Les données au niveau du rapport possèdent toutes les caractéristiques du niveau d'intervalle, en plus d'une valeur nulle. En raison de la présence d'un zéro, il est désormais logique de comparer les rapports de mesure. Des expressions telles que «quatre fois» et «deux fois» sont significatives au niveau du rapport.
Les distances, dans tout système de mesure, nous donnent des données au niveau du rapport. Une mesure telle que 0 pied a du sens, car elle ne représente aucune longueur. En outre, 2 pieds est deux fois plus long que 1 pied. Ainsi, des ratios peuvent être formés entre les données.
Au niveau du rapport de mesure, non seulement les sommes et les différences peuvent être calculées, mais aussi les ratios. Une mesure peut être divisée par n'importe quelle mesure non nulle, et un nombre significatif résultera.
Compte tenu d'une liste de numéros de sécurité sociale, il est possible de faire toutes sortes de calculs avec eux, mais aucun de ces calculs ne donne quoi que ce soit de significatif. Qu'est-ce qu'un numéro de sécurité sociale divisé par un autre? Une perte de temps totale, car les numéros de sécurité sociale sont au niveau nominal de mesure.
Lorsque vous recevez des données, pensez avant vous calculez. Le niveau de mesure avec lequel vous travaillez déterminera ce qu'il est logique de faire.