Pour qu'un ordinateur puisse stocker du texte et des nombres que les humains peuvent comprendre, il doit y avoir un code qui transforme les caractères en nombres. La norme Unicode définit un tel code en utilisant le codage de caractères.
La raison pour laquelle le codage des caractères est si important est que chaque appareil peut afficher les mêmes informations. Un schéma de codage de caractères personnalisé peut fonctionner brillamment sur un ordinateur, mais des problèmes se produisent lorsque vous envoyez ce même texte à quelqu'un d'autre. Il ne saura de quoi vous parlez que s'il comprend également le schéma de codage.
Tout l'encodage de caractères ne fait qu'attribuer un numéro à chaque caractère qui peut être utilisé. Vous pouvez créer un encodage de caractères dès maintenant.
Par exemple, je pourrais dire que la lettre UNE devient le nombre 13, a = 14, 1 = 33, # = 123, etc..
C'est là que les normes de l'industrie entrent en jeu. Si toute l'industrie informatique utilise le même schéma de codage de caractères, chaque ordinateur peut afficher les mêmes caractères.
ASCII (American Standard Code for Information Interchange) est devenu le premier schéma de codage répandu. Cependant, il est limité à seulement 128 définitions de caractères. C'est bien pour les caractères anglais les plus courants, les chiffres et la ponctuation, mais c'est un peu limitant pour le reste du monde.
Naturellement, le reste du monde veut également le même schéma de codage pour leurs personnages. Cependant, pendant un petit moment, tout en fonction de l'endroit où vous vous trouviez, un caractère différent peut avoir été affiché pour le même code ASCII.
En fin de compte, les autres parties du monde ont commencé à créer leurs propres schémas d'encodage, et les choses ont commencé à devenir un peu confuses. Non seulement les schémas de codage étaient de différentes longueurs, mais les programmes devaient déterminer quel schéma de codage ils étaient censés utiliser.
Il est devenu évident qu'un nouveau schéma de codage des caractères était nécessaire, c'est à ce moment que la norme Unicode a été créée. L'objectif d'Unicode est d'unifier tous les différents schémas d'encodage afin de limiter au maximum la confusion entre ordinateurs.
De nos jours, la norme Unicode définit des valeurs pour plus de 128 000 caractères et peut être consultée au Consortium Unicode. Il a plusieurs formes d'encodage de caractères:
Remarque: UTF signifie unité de transformation Unicode.
Un point de code est la valeur donnée à un caractère dans la norme Unicode. Les valeurs selon Unicode sont écrites sous forme de nombres hexadécimaux et ont un préfixe de U+.
Par exemple, pour coder les caractères que nous avons examinés précédemment: