UTF 7 проти UTF 8

Китайський художник тримає пензлик

Китайські символи мають бути закодовані за допомогою Unicode, а не ASCII.

Авторство зображення: Blue Jean Images/Photodisc/Getty Images

UTF-7 і UTF-8 обидва типи формату перетворення Unicode, стандарт, який використовується для кодування 16-бітового Unicode символи, такі як міжнародні літери та спеціальні символи у форматі, який можна передавати через 7-бітовий або 8-розрядні системи. UTF-8 є найбільш часто використовуваним форматом кодування, популярним на веб-сторінках і в багатьох програмах електронної пошти. UTF-7 забезпечує кодування для деяких протоколів електронної пошти, які не працюватимуть з UTF-8.

Unicode

Unicode є міжнародним стандартом для представлення символів у вигляді цілих чисел. Він використовує 16 біт на символ проти семи біт, які використовуються в ASCII, американському стандартному коді для обміну інформацією. ASCII може відтворювати лише 128 символів проти 65 000 унікальних символів, доступних у Unicode. Цей більш широкий діапазон символів робить Unicode більш придатним для східноазіатських мов та інших мов з великим набори символів, але символи Unicode повинні бути закодовані, якщо вони мають передаватися через 7- або 8-бітовий біт канали.

Відео дня

UTF-8

UTF-8 є найпоширенішим універсальним форматом трансформації, який використовується для перетворення символів Unicode у 8-бітові сегменти для передачі через Інтернет електронною поштою або через інші 8-бітові канали. Цей формат кодування перетворює кожен символ Unicode на один-чотири октети, залежно від цілого значення Символ Unicode, і це дуже ефективно для документів, які в основному використовують літери, які також містяться в символі ASCII набір. UTF-8, як правило, займає більше місця, ніж однобайтове кодування для незахідних алфавітів.

UTF-7

UTF-7 є особливим варіантом універсального формату трансформації, вперше запропонованого в середині 1990-х років. Він був розроблений для представлення тексту Unicode з рядком символів ASCII, створюючи більш ефективний метод кодування для електронної пошти, ніж UTF-8 плюс кодування в лапках, необхідне для передачі 7-бітових даних шлях. Використання кодування UTF-7 значно зменшує розмір закодованих символів.

Міркування

Хоча UTF-7 є ефективнішим для 7-бітових каналів, ніж UTF-8 плюс друкується в лапках, більшість авторитетних у тому числі Консорціум Інтернет-пошти та Microsoft Developer Network рекомендують використовувати UTF-8 замість UTF-7, коли можливо. Це пов’язано з тим, що UTF-7 створює проблеми з безпекою та надійністю, яких немає у його 8-бітному відносному. IMC також рекомендує, щоб усі програми для відображення пошти, створені після 1 січня 1999 року, мали можливість відображати пошту в UTF-8.