Los caracteres chinos deben codificarse mediante Unicode, no ASCII.
Credito de imagen: Imágenes de Blue Jean / Photodisc / Getty Images
UTF-7 y UTF-8 son ambos tipos de formato de transformación Unicode, el estándar utilizado para codificar Unicode de 16 bits. caracteres como letras internacionales y símbolos especiales en un formato que se puede transmitir a través de 7 bits o Sistemas de 8 bits. UTF-8 es el formato de codificación más utilizado, popular en páginas web y muchos programas de correo electrónico. UTF-7 proporciona codificación para algunos protocolos de correo electrónico que no funcionan con UTF-8.
Unicode
Unicode es un estándar internacional para representar caracteres como números enteros. Utiliza 16 bits por carácter frente a los siete bits utilizados por ASCII, el código estándar estadounidense para el intercambio de información. ASCII solo puede reproducir 128 caracteres frente a los 65.000 caracteres únicos disponibles en Unicode. Esta gama más amplia de caracteres hace que Unicode sea más apropiado para los idiomas de Asia oriental y otros con grandes juegos de caracteres, pero los caracteres Unicode deben codificarse si se van a transmitir a través de bits de 7 u 8 bits canales.
Video del día
UTF-8
UTF-8 es el formato de transformación universal más común que se utiliza para convertir caracteres Unicode en segmentos de 8 bits para su transmisión a través de la Web por correo electrónico o por otros canales de 8 bits. Este formato de codificación cambia cada carácter Unicode en uno a cuatro octetos, dependiendo del valor entero del Carácter Unicode, y es muy eficaz para documentos que utilizan principalmente letras que también se encuentran en el carácter ASCII colocar. UTF-8 tiende a ocupar más espacio que la codificación de un solo byte para alfabetos no occidentales.
UTF-7
UTF-7 es una variante especial del Formato de transformación universal propuesto por primera vez a mediados de la década de 1990. Fue diseñado para representar texto Unicode con una cadena de caracteres ASCII, produciendo una método de codificación para correo electrónico que UTF-8 más la codificación imprimible entre comillas necesaria para transmitir sobre datos de 7 bits sendero. El uso de la codificación UTF-7 reduce significativamente el tamaño de los caracteres codificados.
Consideraciones
Aunque UTF-7 es más eficiente en canales de 7 bits que UTF-8 más imprimible entre comillas, la mayoría de las autoridades incluido el Consorcio de correo de Internet y la Red de desarrolladores de Microsoft recomiendan usar UTF-8 sobre UTF-7 siempre que posible. Esto se debe a que UTF-7 crea problemas de seguridad y solidez que no están presentes en su pariente de 8 bits. El IMC también recomienda que todos los programas de visualización de correo creados después del 1 de enero de 1999 sean capaces de mostrar el correo en UTF-8.