UTF 7 vs. UTF 8

Kinijos menininkas, laikantis teptuką

Kinų simboliai turi būti užkoduoti naudojant Unicode, o ne ASCII.

Vaizdo kreditas: Blue Jean Images/Photodisc/Getty Images

UTF-7 ir UTF-8 yra Unicode transformacijos formato tipai, standartas, naudojamas koduoti 16 bitų Unicode. simboliai, tokie kaip tarptautinės raidės ir specialūs simboliai tokiu formatu, kuris gali būti perduodamas 7 bitų arba 8 bitų sistemos. UTF-8 yra dažniausiai naudojamas kodavimo formatas, populiarus tinklalapiuose ir daugelyje el. pašto programų. UTF-7 suteikia kai kurių el. pašto protokolų, kurie neveikia su UTF-8, kodavimą.

Unikodas

Unikodas yra tarptautinis simbolių vaizdavimo sveikaisiais skaičiais standartas. Jis naudoja 16 bitų vienam simboliui, palyginti su septyniais bitais, kuriuos naudoja ASCII, Amerikos standartinis informacijos mainų kodas. ASCII gali atkurti tik 128 simbolius, palyginti su 65 000 unikalių simbolių, prieinamų Unikode. Dėl šio platesnio simbolių asortimento Unikodas labiau tinka Rytų Azijos kalboms ir kitoms didelėms kalboms simbolių rinkinius, bet Unicode simboliai turi būti užkoduoti, jei jie turi būti perduodami 7 arba 8 bitų bitais kanalai.

Dienos vaizdo įrašas

UTF-8

UTF-8 yra labiausiai paplitęs universalus transformacijos formatas, naudojamas Unicode simboliams konvertuoti į 8 bitų segmentus, kad būtų galima perduoti internetu el. paštu arba kitais 8 bitų kanalais. Šis kodavimo formatas pakeičia kiekvieną Unikodo simbolį į vieną ar keturis oktetus, atsižvelgiant į sveikojo skaičiaus reikšmę. Unicode simbolis, ir jis yra labai efektyvus dokumentams, kuriuose pirmiausia naudojamos raidės, taip pat esančios ASCII simboliuose rinkinys. UTF-8 paprastai užima daugiau vietos nei vieno baito kodavimas ne vakarietiškoms abėcėlėms.

UTF-7

UTF-7 yra specialus universalaus transformavimo formato variantas, pirmą kartą pasiūlytas dešimtojo dešimtmečio viduryje. Jis buvo sukurtas taip, kad atvaizduotų unikodo tekstą su ASCII simbolių eilute, kad būtų efektyvesnis el. pašto kodavimo metodas nei UTF-8 ir cituojama spausdinama koduotė, reikalinga 7 bitų duomenims perduoti kelias. Naudojant UTF-7 kodavimą žymiai sumažėja užkoduotų simbolių dydis.

Svarstymai

Nors UTF-7 yra efektyvesnis 7 bitų kanaluose nei UTF-8 ir cituojamas, dauguma institucijų įskaitant „Internet Mail Consortium“ ir „Microsoft Developer Network“ rekomenduoja naudoti UTF-8, o ne UTF-7 galima. Taip yra todėl, kad UTF-7 sukuria saugumo ir patikimumo problemų, kurių nėra jo 8 bitų giminaityje. IMC taip pat rekomenduoja, kad visos pašto rodymo programos, sukurtos po 1999 m. sausio 1 d., galėtų rodyti laiškus UTF-8 formatu.