Une explication du codage de caractères Unicode

Pour qu'un ordinateur puisse stocker du texte et des nombres que les humains peuvent comprendre, il doit y avoir un code qui transforme les caractères en nombres. La norme Unicode définit un tel code en utilisant le codage de caractères.

La raison pour laquelle le codage des caractères est si important est que chaque appareil peut afficher les mêmes informations. Un schéma de codage de caractères personnalisé peut fonctionner brillamment sur un ordinateur, mais des problèmes se produisent lorsque vous envoyez ce même texte à quelqu'un d'autre. Il ne saura de quoi vous parlez que s'il comprend également le schéma de codage.

Encodage de caractère

Tout l'encodage de caractères ne fait qu'attribuer un numéro à chaque caractère qui peut être utilisé. Vous pouvez créer un encodage de caractères dès maintenant.

Par exemple, je pourrais dire que la lettre UNE devient le nombre 13, a = 14, 1 = 33, # = 123, etc..

C'est là que les normes de l'industrie entrent en jeu. Si toute l'industrie informatique utilise le même schéma de codage de caractères, chaque ordinateur peut afficher les mêmes caractères.

Qu'est-ce que l'Unicode?

ASCII (American Standard Code for Information Interchange) est devenu le premier schéma de codage répandu. Cependant, il est limité à seulement 128 définitions de caractères. C'est bien pour les caractères anglais les plus courants, les chiffres et la ponctuation, mais c'est un peu limitant pour le reste du monde.

Naturellement, le reste du monde veut également le même schéma de codage pour leurs personnages. Cependant, pendant un petit moment, tout en fonction de l'endroit où vous vous trouviez, un caractère différent peut avoir été affiché pour le même code ASCII.

En fin de compte, les autres parties du monde ont commencé à créer leurs propres schémas d'encodage, et les choses ont commencé à devenir un peu confuses. Non seulement les schémas de codage étaient de différentes longueurs, mais les programmes devaient déterminer quel schéma de codage ils étaient censés utiliser.

Il est devenu évident qu'un nouveau schéma de codage des caractères était nécessaire, c'est à ce moment que la norme Unicode a été créée. L'objectif d'Unicode est d'unifier tous les différents schémas d'encodage afin de limiter au maximum la confusion entre ordinateurs.

De nos jours, la norme Unicode définit des valeurs pour plus de 128 000 caractères et peut être consultée au Consortium Unicode. Il a plusieurs formes d'encodage de caractères:

  • UTF-8: Utilise uniquement un octet (8 bits) pour coder les caractères anglais. Il peut utiliser une séquence d'octets pour coder d'autres caractères. UTF-8 est largement utilisé dans les systèmes de messagerie et sur Internet.
  • UTF-16: Utilise deux octets (16 bits) pour coder les caractères les plus couramment utilisés. Si nécessaire, les caractères supplémentaires peuvent être représentés par une paire de nombres de 16 bits.
  • UTF-32: Utilise quatre octets (32 bits) pour coder les caractères. Il est devenu évident qu'au fur et à mesure que la norme Unicode se développait, un nombre de 16 bits était trop petit pour représenter tous les caractères. UTF-32 est capable de représenter chaque caractère Unicode comme un seul chiffre.

Remarque: UTF signifie unité de transformation Unicode.

Points de code

Un point de code est la valeur donnée à un caractère dans la norme Unicode. Les valeurs selon Unicode sont écrites sous forme de nombres hexadécimaux et ont un préfixe de U+.

Par exemple, pour coder les caractères que nous avons examinés précédemment:

  • UNE est U + 0041
  • une est U + 0061
  • 1 est U + 0031
  • # est U + 0023