UTF 7 vs. UTF 8

click fraud protection
Kiinalainen taiteilija pitelee sivellintä

Kiinalaiset merkit on koodattava Unicodella, ei ASCII: lla.

Kuvan luotto: Blue Jean Images/Photodisc/Getty Images

UTF-7 ja UTF-8 ovat molemmat Unicode Transformation Format -tyyppejä, standardia, jota käytetään 16-bittisen Unicoden koodaamiseen. merkit, kuten kansainväliset kirjaimet ja erikoissymbolit muodossa, joka voidaan lähettää 7-bittisenä tai 8-bittiset järjestelmät. UTF-8 on yleisimmin käytetty koodausmuoto, suosittu web-sivuilla ja monissa sähköpostiohjelmissa. UTF-7 tarjoaa koodauksen joillekin sähköpostiprotokolloille, jotka eivät toimi UTF-8:n kanssa.

Unicode

Unicode on kansainvälinen standardi merkkien esittämiseen kokonaislukuina. Se käyttää 16 bittiä per merkki verrattuna seitsemään bittiin, joita käyttää ASCII, American Standard Code for Information Interchange. ASCII voi toistaa vain 128 merkkiä verrattuna Unicodessa käytettävissä olevaan 65 000 ainutlaatuiseen merkkiin. Tämä laajempi merkkivalikoima tekee Unicodesta sopivamman Itä-Aasian kielille ja muille suurille kielille merkistöjä, mutta Unicode-merkit on koodattava, jos ne lähetetään 7- tai 8-bittisen bitin kautta kanavia.

Päivän video

UTF-8

UTF-8 on yleisin universaali muunnosmuoto, jota käytetään Unicode-merkkien muuntamiseen 8-bittisiksi segmenteiksi lähetettäväksi verkon kautta sähköpostitse tai muiden 8-bittisten kanavien kautta. Tämä koodausmuoto muuttaa jokaisen Unicode-merkin yhdestä neljään oktettiksi, riippuen kokonaisluvun arvosta. Unicode-merkki, ja se on erittäin tehokas asiakirjoille, joissa käytetään ensisijaisesti kirjaimia, jotka löytyvät myös ASCII-merkistä aseta. UTF-8 vie enemmän tilaa kuin yksitavuinen koodaus ei-länsimaisille aakkosille.

UTF-7

UTF-7 on Universal Transformation Formatin erityinen muunnelma, jota ehdotettiin ensimmäisen kerran 1990-luvun puolivälissä. Se on suunniteltu edustamaan Unicode-tekstiä ASCII-merkkijonolla, mikä tekee siitä tehokkaamman sähköpostin koodausmenetelmä kuin UTF-8 sekä lainattu tulostettava koodaus, jota tarvitaan 7-bittisen tiedon lähettämiseen polku. UTF-7-koodauksen käyttö pienentää koodattujen merkkien kokoa merkittävästi.

Pohdintoja

Vaikka UTF-7 on tehokkaampi 7-bittisillä kanavilla kuin UTF-8 plus lainaustulostettavissa, useimmat viranomaiset mukaan lukien Internet Mail Consortium ja Microsoft Developer Network suosittelevat UTF-8:n käyttöä UTF-7:n sijaan aina mahdollista. Tämä johtuu siitä, että UTF-7 luo tietoturva- ja kestävyysongelmia, joita ei ole sen 8-bittisessä suhteessa. IMC suosittelee myös, että kaikki 1. tammikuuta 1999 jälkeen luodut sähköpostin näyttöohjelmat pystyvät näyttämään postin UTF-8-muodossa.