Китайските знаци трябва да бъдат кодирани с помощта на Unicode, а не ASCII.
Кредит на изображението: Blue Jean Images/Photodisc/Getty Images
UTF-7 и UTF-8 са и двата типа Unicode Transformation Format, стандартът, използван за кодиране на 16-битов Unicode символи като международни букви и специални символи във формат, който може да се предава чрез 7-битова или 8-битови системи. UTF-8 е най-често използваният формат за кодиране, популярен в уеб страниците и много програми за електронна поща. UTF-7 предоставя кодиране за някои имейл протоколи, които няма да работят с UTF-8.
Unicode
Unicode е международен стандарт за представяне на знаци като цели числа. Той използва 16 бита на знак срещу седемте бита, използвани от ASCII, американския стандартен код за обмен на информация. ASCII може да възпроизвежда само 128 знака срещу 65 000 уникални знака, налични в Unicode. Този по-широк набор от знаци прави Unicode по-подходящ за източноазиатски езици и други с големи набори от символи, но символите на Unicode трябва да бъдат кодирани, ако трябва да се предават чрез 7-битов или 8-битов бит канали.
Видео на деня
UTF-8
UTF-8 е най-разпространеният универсален формат за трансформация, използван за преобразуване на символи на Unicode в 8-битови сегменти за предаване през мрежата по имейл или през други 8-битови канали. Този формат на кодиране променя всеки символ на Unicode в един до четири октета, в зависимост от целочислената стойност на Unicode символ и е много ефективен за документи, които основно използват букви, намиращи се и в ASCII знака комплект. UTF-8 има тенденция да заема повече място от еднобайтово кодиране за незападни азбуки.
UTF-7
UTF-7 е специален вариант на универсалния формат за трансформация, предложен за първи път в средата на 90-те години. Той е проектиран да представя Unicode текст с низ от ASCII знаци, което води до по-ефективно метод за кодиране за имейл от UTF-8 плюс кодирането с цитати за печат, необходимо за предаване на 7-битови данни пътека. Използването на UTF-7 кодиране намалява значително размера на кодираните знаци.
Съображения
Въпреки че UTF-7 е по-ефективен при 7-битови канали от UTF-8 плюс възможност за печат в цитати, повечето власти включително Консорциумът за интернет поща и Microsoft Developer Network препоръчват използването на UTF-8 над UTF-7 винаги, когато възможен. Това е така, защото UTF-7 създава проблеми със сигурността и стабилността, които не присъстват в неговия 8-битов роднина. IMC също така препоръчва всички програми за показване на поща, създадени след 1 януари 1999 г., да могат да показват поща в UTF-8.