UTF 7 vs. UTF 8

Čínsky umelec drží štetec

Čínske znaky musia byť kódované pomocou Unicode, nie ASCII.

Kredit za obrázok: Blue Jean Images/Photodisc/Getty Images

UTF-7 a UTF-8 sú oba typy Unicode Transformation Format, štandard používaný na kódovanie 16-bitového Unicode znaky ako medzinárodné písmená a špeciálne symboly vo formáte, ktorý je možné prenášať cez 7-bitové resp 8-bitové systémy. UTF-8 je najbežnejšie používaný formát kódovania, populárny na webových stránkach a mnohých e-mailových programoch. UTF-7 poskytuje kódovanie pre niektoré e-mailové protokoly, ktoré nefungujú s UTF-8.

Unicode

Unicode je medzinárodný štandard pre reprezentáciu znakov ako celých čísel. Používa 16 bitov na znak oproti siedmim bitom, ktoré používa ASCII, americký štandardný kód pre výmenu informácií. ASCII dokáže reprodukovať iba 128 znakov oproti 65 000 jedinečným znakom dostupným v Unicode. Vďaka tejto širšej škále znakov je Unicode vhodnejší pre východoázijské jazyky a iné s veľkými znakové sady, ale znaky Unicode musia byť zakódované, ak sa majú prenášať cez 7-bitový alebo 8-bitový bit kanály.

Video dňa

UTF-8

UTF-8 je najbežnejší univerzálny transformačný formát používaný na konverziu znakov Unicode na 8-bitové segmenty na prenos cez web prostredníctvom e-mailu alebo prostredníctvom iných 8-bitových kanálov. Tento formát kódovania mení každý znak Unicode na jeden až štyri oktety v závislosti od celočíselnej hodnoty Unicode a je veľmi efektívny pre dokumenty, ktoré primárne používajú písmená nachádzajúce sa aj v znaku ASCII nastaviť. UTF-8 má tendenciu zaberať viac miesta ako jednobajtové kódovanie pre iné ako západné abecedy.

UTF-7

UTF-7 je špeciálny variant formátu Universal Transformation Format, ktorý bol prvýkrát navrhnutý v polovici 90. rokov. Bol navrhnutý tak, aby reprezentoval text Unicode s reťazcom znakov ASCII, čím bol efektívnejší metóda kódovania pre e-maily ako UTF-8 plus citované kódovanie pre tlač potrebné na prenos cez 7-bitové dáta cesta. Použitie kódovania UTF-7 výrazne znižuje veľkosť kódovaných znakov.

Úvahy

Hoci je UTF-7 efektívnejšie v porovnaní so 7-bitovými kanálmi ako UTF-8 plus je možné tlačiť v úvodzovkách, väčšina autorít vrátane Internet Mail Consortium a Microsoft Developer Network odporúčajú používať UTF-8 nad UTF-7 kedykoľvek možné. Je to preto, že UTF-7 vytvára problémy so zabezpečením a robustnosťou, ktoré nie sú prítomné v jeho 8-bitovom príbuznom. IMC tiež odporúča, aby všetky programy na zobrazovanie pošty vytvorené po 1. januári 1999 boli schopné zobrazovať poštu v UTF-8.