UTF 7 vs. UTF 8

Čínský umělec drží štětec

Čínské znaky musí být kódovány pomocí Unicode, nikoli ASCII.

Kredit obrázku: Blue Jean Images/Photodisc/Getty Images

UTF-7 a UTF-8 jsou oba typy Unicode Transformation Format, což je standard používaný ke kódování 16bitového Unicode. znaky, jako jsou mezinárodní písmena a speciální symboly ve formátu, který lze přenášet prostřednictvím 7bitové resp 8bitové systémy. UTF-8 je nejběžněji používaný formát kódování, oblíbený na webových stránkách a v mnoha e-mailových programech. UTF-7 poskytuje kódování pro některé e-mailové protokoly, které nefungují s UTF-8.

Unicode

Unicode je mezinárodní standard pro reprezentaci znaků jako celých čísel. Používá 16 bitů na znak oproti sedmi bitům používaným ASCII, americkým standardním kódem pro výměnu informací. ASCII dokáže reprodukovat pouze 128 znaků oproti 65 000 jedinečným znakům dostupným v Unicode. Díky tomuto širšímu rozsahu znaků je Unicode vhodnější pro východoasijské jazyky a další s velkým znakové sady, ale znaky Unicode musí být zakódovány, pokud mají být přenášeny prostřednictvím 7bitového nebo 8bitového bitu kanály.

Video dne

UTF-8

UTF-8 je nejběžnější formát Universal Transformation Format používaný k převodu znaků Unicode na 8bitové segmenty pro přenos přes web prostřednictvím e-mailu nebo prostřednictvím jiných 8bitových kanálů. Tento formát kódování mění každý znak Unicode na jeden až čtyři oktety v závislosti na celočíselné hodnotě Unicode a je velmi efektivní pro dokumenty, které primárně používají písmena, která se nacházejí také ve znaku ASCII soubor. UTF-8 má tendenci zabírat více místa než jednobajtové kódování pro jiné než západní abecedy.

UTF-7

UTF-7 je speciální varianta Universal Transformation Format poprvé navržená v polovině 90. let. Byl navržen tak, aby reprezentoval text Unicode s řetězcem znaků ASCII, čímž byl efektivnější metoda kódování pro e-mail než UTF-8 plus citované tisknutelné kódování potřebné pro přenos přes 7bitová data cesta. Použití kódování UTF-7 výrazně snižuje velikost kódovaných znaků.

Úvahy

Ačkoli je UTF-7 účinnější než 7bitové kanály než UTF-8 plus tisknutelné v kotacích, většina autorit včetně Internet Mail Consortium a Microsoft Developer Network doporučují používat UTF-8 oproti UTF-7 kdykoli možný. Je to proto, že UTF-7 vytváří problémy se zabezpečením a robustností, které se u jeho 8bitového příbuzného nevyskytují. IMC také doporučuje, aby všechny programy pro zobrazování pošty vytvořené po 1. lednu 1999 byly schopny zobrazovat poštu v UTF-8.