UTF 7 vs. UTF 8

Hiina kunstnik, kes hoiab käes pintslit

Hiina tähemärgid peavad olema kodeeritud Unicode'i, mitte ASCII-ga.

Pildi krediit: Blue Jean Images/Photodisc/Getty Images

UTF-7 ja UTF-8 on mõlemad Unicode'i teisendusvormingu tüübid, standard, mida kasutatakse 16-bitise Unicode'i kodeerimiseks märgid, nagu rahvusvahelised tähed ja erisümbolid vormingus, mida saab edastada 7-bitise või 7-bitise kaudu 8-bitised süsteemid. UTF-8 on kõige sagedamini kasutatav kodeerimisvorming, mis on populaarne veebilehtedel ja paljudes meiliprogrammides. UTF-7 pakub kodeeringut mõnele e-posti protokollile, mis UTF-8-ga ei tööta.

Unicode

Unicode on rahvusvaheline standard märkide esitamiseks täisarvudena. See kasutab 16 bitti märgi kohta, võrreldes seitsme bitiga, mida kasutab ASCII, Ameerika standardne teabevahetuse kood. ASCII suudab reprodutseerida ainult 128 tähemärki, võrreldes Unicode'is saadaoleva 65 000 unikaalse tähemärgiga. See laiem tähemärkide valik muudab Unicode'i sobivamaks Ida-Aasia keelte ja muude suurte keelte jaoks märgikomplektid, kuid Unicode'i märgid peavad olema kodeeritud, kui neid soovitakse edastada 7-bitise või 8-bitise biti kaudu kanalid.

Päeva video

UTF-8

UTF-8 on kõige levinum universaalne teisendusvorming, mida kasutatakse Unicode'i märkide teisendamiseks 8-bitisteks segmentideks, et neid edastada veebis e-posti või muude 8-bitiste kanalite kaudu. See kodeerimisvorming muudab iga Unicode'i märgi üheks kuni neljaks oktetiks, olenevalt koodi täisarvu väärtusest. Unicode-märk ja see on väga tõhus dokumentide puhul, mis kasutavad peamiselt ASCII-märgis leiduvaid tähti seatud. UTF-8 kipub võtma rohkem ruumi kui ühebaidine kodeering mitte-lääne tähestiku puhul.

UTF-7

UTF-7 on universaalse teisendusvormingu erivariant, mida pakuti esmakordselt välja 1990. aastate keskel. See oli mõeldud Unicode'i teksti esitamiseks ASCII-märkide stringiga, mis muudab tõhusamaks e-posti kodeerimismeetod kui UTF-8 pluss tsiteeritud prinditav kodeering, mis on vajalik 7-bitiste andmete edastamiseks tee. UTF-7 kodeeringu kasutamine vähendab oluliselt kodeeritud märkide suurust.

Kaalutlused

Kuigi UTF-7 on 7-bitiste kanalite puhul tõhusam kui UTF-8 pluss tsiteeritud prinditav, on enamik ametiasutusi sealhulgas Internet Mail Consortium ja Microsoft Developer Network soovitavad kasutada UTF-8 üle UTF-7 alati võimalik. Selle põhjuseks on asjaolu, et UTF-7 tekitab turva- ja töökindlusprobleeme, mida selle 8-bitises sugulases ei esine. Samuti soovitab IMC, et kõik pärast 1. jaanuari 1999 loodud kirjade kuvamise programmid suudaksid kuvada kirju UTF-8 vormingus.