UTF 7 vs. UTF 8

Artista chinesa segurando um pincel

Os caracteres chineses devem ser codificados usando Unicode, não ASCII.

Crédito da imagem: Imagens Blue Jean / Photodisc / Getty Images

UTF-7 e UTF-8 são os dois tipos de Unicode Transformation Format, o padrão usado para codificar Unicode de 16 bits caracteres como letras internacionais e símbolos especiais em um formato que pode ser transmitido por meio de 7 bits ou Sistemas de 8 bits. UTF-8 é o formato de codificação mais comumente usado, popular em páginas da Web e em muitos programas de e-mail. UTF-7 fornece codificação para alguns protocolos de e-mail que não funcionam com UTF-8.

Unicode

Unicode é um padrão internacional para representar caracteres como inteiros. Ele usa 16 bits por caractere contra os sete bits usados ​​pelo ASCII, o código padrão americano para intercâmbio de informações. ASCII pode reproduzir apenas 128 caracteres contra os 65.000 caracteres exclusivos disponíveis em Unicode. Esta gama mais ampla de caracteres torna o Unicode mais apropriado para idiomas do Leste Asiático e outros com grande conjuntos de caracteres, mas os caracteres Unicode devem ser codificados se forem transmitidos por meio de bits de 7 ou 8 bits canais.

Vídeo do dia

UTF-8

UTF-8 é o Formato de Transformação Universal mais comum usado para converter caracteres Unicode em segmentos de 8 bits para transmissão pela Web por e-mail ou por outros canais de 8 bits. Este formato de codificação muda cada caractere Unicode em um a quatro octetos, dependendo do valor inteiro do Caractere Unicode, e é muito eficiente para documentos que usam principalmente letras também encontradas no caractere ASCII definir. UTF-8 tende a ocupar mais espaço do que a codificação de byte único para alfabetos não ocidentais.

UTF-7

UTF-7 é uma variante especial do Formato de Transformação Universal proposto pela primeira vez em meados da década de 1990. Ele foi projetado para representar texto Unicode com uma string de caracteres ASCII, produzindo uma método de codificação para e-mail do que UTF-8 mais a codificação imprimível entre aspas necessária para transmitir dados de 7 bits caminho. O uso da codificação UTF-7 reduz significativamente o tamanho dos caracteres codificados.

Considerações

Embora o UTF-7 seja mais eficiente em canais de 7 bits do que o UTF-8 mais imprimível entre aspas, a maioria das autoridades incluindo o Internet Mail Consortium e a Microsoft Developer Network, recomenda o uso de UTF-8 em vez de UTF-7 sempre possível. Isso ocorre porque o UTF-7 cria problemas de segurança e robustez não presentes em seu parente de 8 bits. O IMC também recomenda que todos os programas de exibição de correspondência criados após 1o de janeiro de 1999 sejam capazes de exibir correspondência em UTF-8.