UTF 7 vs. UTF 8

Kitajski umetnik drži čopič

Kitajski znaki morajo biti kodirani z uporabo Unicode, ne ASCII.

Zasluga slike: Blue Jean Images/Photodisc/Getty Images

UTF-7 in UTF-8 sta obe vrsti Unicode Transformation Format, standard, ki se uporablja za kodiranje 16-bitnega Unicode znaki, kot so mednarodne črke in posebni simboli v formatu, ki se lahko prenaša preko 7-bitnega oz 8-bitni sistemi. UTF-8 je najpogosteje uporabljen format kodiranja, priljubljen na spletnih straneh in številnih e-poštnih programih. UTF-7 zagotavlja kodiranje za nekatere e-poštne protokole, ki ne bodo delovali z UTF-8.

Unicode

Unicode je mednarodni standard za predstavitev znakov kot cela števila. Uporablja 16 bitov na znak v primerjavi s sedmimi biti, ki jih uporablja ASCII, ameriška standardna koda za izmenjavo informacij. ASCII lahko reproducira le 128 znakov v primerjavi s 65.000 edinstvenimi znaki, ki so na voljo v Unicode. Zaradi tega širšega nabora znakov je Unicode bolj primeren za vzhodnoazijske jezike in druge jezike z velikimi naborov znakov, vendar morajo biti znaki Unicode kodirani, če naj se prenašajo prek 7-bitnih ali 8-bitnih bitov kanalov.

Video dneva

UTF-8

UTF-8 je najpogostejši univerzalni format transformacije, ki se uporablja za pretvorbo znakov Unicode v 8-bitne segmente za prenos prek spleta po e-pošti ali po drugih 8-bitnih kanalih. Ta oblika kodiranja spremeni vsak znak Unicode v enega do štiri oktete, odvisno od celotne vrednosti Znak Unicode in je zelo učinkovit za dokumente, ki uporabljajo predvsem črke, ki jih najdemo tudi v znaku ASCII set. UTF-8 običajno zavzame več prostora kot enobajtno kodiranje za nezahodne abecede.

UTF-7

UTF-7 je posebna različica univerzalnega formata transformacije, ki je bil prvič predlagan sredi devetdesetih let prejšnjega stoletja. Zasnovan je bil tako, da predstavlja besedilo Unicode z nizom znakov ASCII, kar je bolj učinkovito način kodiranja za e-pošto kot UTF-8 plus kodiranje v navedbah za tiskanje, potrebno za prenos prek 7-bitnih podatkov pot. Uporaba kodiranja UTF-7 znatno zmanjša velikost kodiranih znakov.

Premisleki

Čeprav je UTF-7 učinkovitejši v 7-bitnih kanalih kot UTF-8 plus natisljiv v navedbah, večina organov vključno s konzorcijem internetne pošte in Microsoft Developer Network priporočata uporabo UTF-8 namesto UTF-7 kadar koli možno. To je zato, ker UTF-7 ustvarja težave z varnostjo in robustnostjo, ki niso prisotne v njegovem 8-bitnem sorodniku. IMC prav tako priporoča, da bi vsi programi za prikaz pošte, ustvarjeni po 1. januarju 1999, morali biti sposobni prikazovanja pošte v UTF-8.