UTF 7 contre UTF 8

Artiste chinois tenant un pinceau

Les caractères chinois doivent être encodés en Unicode et non en ASCII.

Crédit d'image : Blue Jean Images/Photodisc/Getty Images

UTF-7 et UTF-8 sont deux types de format de transformation Unicode, la norme utilisée pour coder l'Unicode 16 bits des caractères tels que des lettres internationales et des symboles spéciaux dans un format pouvant être transmis via 7 bits ou systèmes 8 bits. UTF-8 est le format de codage le plus couramment utilisé, populaire dans les pages Web et de nombreux programmes de messagerie. UTF-7 fournit un codage pour certains protocoles de messagerie qui ne fonctionneront pas avec UTF-8.

Unicode

Unicode est une norme internationale pour représenter les caractères sous forme d'entiers. Il utilise 16 bits par caractère contre les sept bits utilisés par ASCII, le code standard américain pour l'échange d'informations. L'ASCII ne peut reproduire que 128 caractères contre 65 000 caractères uniques disponibles en Unicode. Cette plus large gamme de caractères rend Unicode plus approprié pour les langues d'Asie de l'Est et d'autres avec une grande jeux de caractères, mais les caractères Unicode doivent être codés s'ils doivent être transmis via 7 bits ou 8 bits canaux.

Vidéo du jour

UTF-8

UTF-8 est le format de transformation universel le plus courant utilisé pour convertir les caractères Unicode en segments 8 bits pour une transmission sur le Web via e-mail ou via d'autres canaux 8 bits. Ce format de codage transforme chaque caractère Unicode en un à quatre octets, selon la valeur entière du Caractère Unicode, et il est très efficace pour les documents qui utilisent principalement des lettres également trouvées dans le caractère ASCII ensemble. UTF-8 a tendance à prendre plus de place que l'encodage sur un seul octet pour les alphabets non occidentaux.

UTF-7

UTF-7 est une variante spéciale du format de transformation universel proposé pour la première fois au milieu des années 1990. Il a été conçu pour représenter du texte Unicode avec une chaîne de caractères ASCII, produisant un méthode d'encodage pour le courrier électronique que UTF-8 plus l'encodage imprimable indiqué nécessaire pour transmettre sur des données 7 bits chemin. L'utilisation de l'encodage UTF-7 réduit considérablement la taille des caractères encodés.

Considérations

Bien que UTF-7 soit plus efficace sur les canaux 7 bits que UTF-8 plus quoted-printable, la plupart des autorités y compris Internet Mail Consortium et Microsoft Developer Network recommandent d'utiliser UTF-8 sur UTF-7 chaque fois que possible. En effet, UTF-7 crée des problèmes de sécurité et de robustesse qui ne sont pas présents dans son parent 8 bits. L'IMC recommande également que tous les programmes d'affichage de courrier créés après le 1er janvier 1999 soient capables d'afficher le courrier en UTF-8.