UTF 7 kontra UTF 8

click fraud protection
Chiński artysta trzymający pędzel

Chińskie znaki muszą być zakodowane przy użyciu Unicode, a nie ASCII.

Źródło obrazu: Obrazy Blue Jean/Photodisc/Getty Images

UTF-7 i UTF-8 to oba typy formatu transformacji Unicode, standardu używanego do kodowania 16-bitowego Unicode znaki, takie jak litery międzynarodowe i symbole specjalne w formacie, który może być przesyłany przez 7-bitowy lub Systemy 8-bitowe. UTF-8 to najczęściej używany format kodowania, popularny na stronach internetowych i wielu programach pocztowych. UTF-7 zapewnia kodowanie dla niektórych protokołów poczty e-mail, które nie działają z UTF-8.

Unicode

Unicode to międzynarodowy standard reprezentacji znaków jako liczb całkowitych. Używa 16 bitów na znak w porównaniu z siedmioma bitami używanymi przez ASCII, American Standard Code for Information Interchange. ASCII może odtworzyć tylko 128 znaków w porównaniu do 65 000 unikalnych znaków dostępnych w Unicode. Ten szerszy zakres znaków sprawia, że ​​Unicode jest bardziej odpowiedni dla języków wschodnioazjatyckich i innych z dużymi zestawy znaków, ale znaki Unicode muszą być zakodowane, jeśli mają być przesyłane za pomocą bitów 7-bitowych lub 8-bitowych kanały.

Wideo dnia

UTF-8

UTF-8 jest najpopularniejszym formatem Universal Transformation Format używanym do konwersji znaków Unicode na 8-bitowe segmenty w celu transmisji przez Internet za pośrednictwem poczty e-mail lub innych kanałów 8-bitowych. Ten format kodowania zmienia każdy znak Unicode na jeden do czterech oktetów, w zależności od wartości całkowitej Znak Unicode i jest bardzo wydajny w przypadku dokumentów, które używają głównie liter znajdujących się również w znaku ASCII ustawić. UTF-8 zajmuje więcej miejsca niż kodowanie jednobajtowe dla alfabetów innych niż zachodnie.

UTF-7

UTF-7 to specjalny wariant Universal Transformation Format, zaproponowany po raz pierwszy w połowie lat 90. XX wieku. Został zaprojektowany do reprezentowania tekstu Unicode za pomocą ciągu znaków ASCII, tworząc bardziej wydajną metoda kodowania wiadomości e-mail niż UTF-8 plus kodowanie do druku, potrzebne do przesyłania danych 7-bitowych ścieżka. Korzystanie z kodowania UTF-7 znacznie zmniejsza rozmiar kodowanych znaków.

Rozważania

Chociaż UTF-7 jest bardziej wydajny w przypadku kanałów 7-bitowych niż UTF-8 i można go drukować w cudzysłowie, większość autorytetów w tym Internet Mail Consortium i Microsoft Developer Network zalecają używanie UTF-8 zamiast UTF-7 za każdym razem możliwy. Dzieje się tak, ponieważ UTF-7 stwarza problemy z bezpieczeństwem i odpornością, których nie ma w jego 8-bitowym względnym. IMC zaleca również, aby wszystkie programy wyświetlające pocztę utworzone po 1 stycznia 1999 r. były w stanie wyświetlać pocztę w UTF-8.