![Китайский художник держит кисть](/f/245efa214e07ff32a403964fc5a6e4c2.jpg)
Китайские символы должны кодироваться с использованием Unicode, а не ASCII.
Кредит изображения: Blue Jean Images / Фотодиск / Getty Images
UTF-7 и UTF-8 являются типами формата преобразования Unicode, стандарта, используемого для кодирования 16-битного Unicode. символы, такие как международные буквы и специальные символы в формате, который может передаваться через 7-битный или 8-битные системы. UTF-8 - наиболее часто используемый формат кодирования, популярный на веб-страницах и во многих программах электронной почты. UTF-7 обеспечивает кодировку для некоторых протоколов электронной почты, которые не работают с UTF-8.
Юникод
Юникод - это международный стандарт представления символов в виде целых чисел. Он использует 16 бит на символ по сравнению с семью битами, используемыми ASCII, американским стандартным кодом для обмена информацией. ASCII может воспроизводить только 128 символов по сравнению с 65 000 уникальных символов, доступных в Unicode. Этот более широкий диапазон символов делает Unicode более подходящим для языков Восточной Азии и других языков с большим наборы символов, но символы Unicode должны быть закодированы, если они должны передаваться через 7-битный или 8-битный бит каналы.
Видео дня
UTF-8
UTF-8 - наиболее распространенный универсальный формат преобразования, используемый для преобразования символов Unicode в 8-битные сегменты для передачи через Интернет по электронной почте или по другим 8-битным каналам. Этот формат кодирования изменяет каждый символ Unicode на от одного до четырех октетов, в зависимости от целочисленного значения Символ Юникода, и он очень эффективен для документов, в которых в основном используются буквы, также встречающиеся в символе ASCII. набор. UTF-8 обычно занимает больше места, чем однобайтовая кодировка для незападных алфавитов.
UTF-7
UTF-7 - это особый вариант универсального формата преобразования, впервые предложенный в середине 1990-х годов. Он был разработан для представления текста Unicode строкой символов ASCII, что обеспечивает более эффективную метод кодирования для электронной почты, чем UTF-8, плюс кодировка с возможностью печати в кавычках, необходимая для передачи 7-битных данных дорожка. Использование кодировки UTF-7 значительно уменьшает размер закодированных символов.
Соображения
Хотя UTF-7 более эффективен для 7-битных каналов, чем UTF-8 плюс возможность печати в кавычках, большинство авторитетных источников Консорциум Internet Mail и Microsoft Developer Network рекомендуют использовать UTF-8 вместо UTF-7 всякий раз, когда возможный. Это связано с тем, что UTF-7 создает проблемы с безопасностью и надежностью, которых нет в его 8-битном родственнике. IMC также рекомендует, чтобы все программы отображения почты, созданные после 1 января 1999 г., могли отображать почту в UTF-8.