UTF 7 vs. UTF 8

Китайский художник держит кисть

Китайские символы должны кодироваться с использованием Unicode, а не ASCII.

Кредит изображения: Blue Jean Images / Фотодиск / Getty Images

UTF-7 и UTF-8 являются типами формата преобразования Unicode, стандарта, используемого для кодирования 16-битного Unicode. символы, такие как международные буквы и специальные символы в формате, который может передаваться через 7-битный или 8-битные системы. UTF-8 - наиболее часто используемый формат кодирования, популярный на веб-страницах и во многих программах электронной почты. UTF-7 обеспечивает кодировку для некоторых протоколов электронной почты, которые не работают с UTF-8.

Юникод

Юникод - это международный стандарт представления символов в виде целых чисел. Он использует 16 бит на символ по сравнению с семью битами, используемыми ASCII, американским стандартным кодом для обмена информацией. ASCII может воспроизводить только 128 символов по сравнению с 65 000 уникальных символов, доступных в Unicode. Этот более широкий диапазон символов делает Unicode более подходящим для языков Восточной Азии и других языков с большим наборы символов, но символы Unicode должны быть закодированы, если они должны передаваться через 7-битный или 8-битный бит каналы.

Видео дня

UTF-8

UTF-8 - наиболее распространенный универсальный формат преобразования, используемый для преобразования символов Unicode в 8-битные сегменты для передачи через Интернет по электронной почте или по другим 8-битным каналам. Этот формат кодирования изменяет каждый символ Unicode на от одного до четырех октетов, в зависимости от целочисленного значения Символ Юникода, и он очень эффективен для документов, в которых в основном используются буквы, также встречающиеся в символе ASCII. набор. UTF-8 обычно занимает больше места, чем однобайтовая кодировка для незападных алфавитов.

UTF-7

UTF-7 - это особый вариант универсального формата преобразования, впервые предложенный в середине 1990-х годов. Он был разработан для представления текста Unicode строкой символов ASCII, что обеспечивает более эффективную метод кодирования для электронной почты, чем UTF-8, плюс кодировка с возможностью печати в кавычках, необходимая для передачи 7-битных данных дорожка. Использование кодировки UTF-7 значительно уменьшает размер закодированных символов.

Соображения

Хотя UTF-7 более эффективен для 7-битных каналов, чем UTF-8 плюс возможность печати в кавычках, большинство авторитетных источников Консорциум Internet Mail и Microsoft Developer Network рекомендуют использовать UTF-8 вместо UTF-7 всякий раз, когда возможный. Это связано с тем, что UTF-7 создает проблемы с безопасностью и надежностью, которых нет в его 8-битном родственнике. IMC также рекомендует, чтобы все программы отображения почты, созданные после 1 января 1999 г., могли отображать почту в UTF-8.