Kineski znakovi moraju biti kodirani koristeći Unicode, a ne ASCII.
Zasluga slike: Blue Jean Images/Photodisc/Getty Images
UTF-7 i UTF-8 su obje vrste Unicode formata transformacije, standarda koji se koristi za kodiranje 16-bitnog Unicodea znakova kao što su međunarodna slova i posebni simboli u formatu koji se može prenositi kroz 7-bitni ili 8-bitni sustavi. UTF-8 je najčešće korišteni format kodiranja, popularan na web stranicama i mnogim programima za e-poštu. UTF-7 omogućuje kodiranje za neke protokole e-pošte koji neće raditi s UTF-8.
Unicode
Unicode je međunarodni standard za predstavljanje znakova kao cijelih brojeva. Koristi 16 bitova po znaku u odnosu na sedam bitova koje koristi ASCII, američki standardni kod za razmjenu informacija. ASCII može reproducirati samo 128 znakova naspram 65.000 jedinstvenih znakova dostupnih u Unicodeu. Ovaj širi raspon znakova čini Unicode prikladnijim za istočnoazijske jezike i druge jezike s velikim skupovi znakova, ali Unicode znakovi moraju biti kodirani ako se žele prenijeti putem 7-bitnog ili 8-bitnog bita kanali.
Video dana
UTF-8
UTF-8 je najčešći univerzalni format transformacije koji se koristi za pretvaranje Unicode znakova u 8-bitne segmente za prijenos preko weba putem e-pošte ili putem drugih 8-bitnih kanala. Ovaj format kodiranja mijenja svaki Unicode znak u jedan do četiri okteta, ovisno o cjelobrojnoj vrijednosti Unicode znak, a vrlo je učinkovit za dokumente koji prvenstveno koriste slova koja se također nalaze u ASCII znaku skupa. UTF-8 obično zauzima više prostora od jednobajtnog kodiranja za nezapadne abecede.
UTF-7
UTF-7 je posebna varijanta Univerzalnog transformacijskog formata koji je prvi put predložen sredinom 1990-ih. Dizajniran je za predstavljanje Unicode teksta nizom ASCII znakova, što je učinkovitije metoda kodiranja za e-poštu od UTF-8 plus kodiranje s navodnim ispisom potrebno za prijenos preko 7-bitnih podataka staza. Korištenje UTF-7 kodiranja značajno smanjuje veličinu kodiranih znakova.
Razmatranja
Iako je UTF-7 učinkovitiji na 7-bitnim kanalima od UTF-8 plus koji se može ispisati kao navod, većina autoriteta uključujući konzorcij internetske pošte i Microsoft Developer Network preporučuju korištenje UTF-8 umjesto UTF-7 kad god moguće. To je zato što UTF-7 stvara probleme sa sigurnošću i robusnošću koji nisu prisutni u njegovom 8-bitnom relativnom. IMC također preporučuje da svi programi za prikaz pošte kreirani nakon 1. siječnja 1999. budu sposobni prikazivati poštu u UTF-8.