A kínai karaktereket Unicode-dal kell kódolni, nem ASCII-vel.
Kép jóváírása: Blue Jean Images/Photodisc/Getty Images
Az UTF-7 és az UTF-8 egyaránt a Unicode Transformation Format típusa, a 16 bites Unicode kódolására használt szabvány. karakterek, például nemzetközi betűk és speciális szimbólumok olyan formátumban, amely 7 bites, ill 8 bites rendszerek. Az UTF-8 a leggyakrabban használt kódolási formátum, amely népszerű a weboldalakon és számos levelezőprogramban. Az UTF-7 kódolást biztosít bizonyos e-mail protokollokhoz, amelyek nem működnek UTF-8-cal.
Unicode
A Unicode egy nemzetközi szabvány a karakterek egész számként történő megjelenítésére. Karakterenként 16 bitet használ, szemben az ASCII, az információcsere amerikai szabványos kódja által használt hét bittel. Az ASCII csak 128 karaktert képes reprodukálni, szemben a Unicode-ban elérhető 65 000 egyedi karakterrel. A karakterek szélesebb skálája alkalmasabbá teszi a Unicode-ot a kelet-ázsiai nyelvekhez és más nagy nyelvekhez karakterkészletek, de a Unicode karaktereket kódolni kell, ha 7 bites vagy 8 bites biten akarják továbbítani őket csatornák.
A nap videója
UTF-8
Az UTF-8 a legelterjedtebb univerzális átalakítási formátum, amelyet a Unicode karakterek 8 bites szegmensekké alakítására használnak az interneten e-mailben vagy más 8 bites csatornákon keresztül történő továbbításhoz. Ez a kódolási formátum minden Unicode karaktert 1-4 oktettre változtat, a karakter egész értékétől függően. Unicode karakter, és nagyon hatékony azoknál a dokumentumoknál, amelyek elsősorban az ASCII karakterben is megtalálható betűket használnak készlet. Az UTF-8 általában több helyet foglal el, mint az egybájtos kódolás a nem nyugati ábécék esetében.
UTF-7
Az UTF-7 az 1990-es évek közepén először javasolt Universal Transformation Format speciális változata. Úgy tervezték, hogy Unicode-szöveget ASCII-karakterekkel jelenítsen meg, ezáltal hatékonyabban tudjon működni kódolási módszer az e-mailekhez, mint az UTF-8, valamint a 7 bites adatátvitelhez szükséges idézett nyomtatható kódolás pálya. Az UTF-7 kódolás használata jelentősen csökkenti a kódolt karakterek méretét.
Megfontolások
Bár az UTF-7 hatékonyabb 7 bites csatornákon, mint az UTF-8 plusz idézőjeles nyomtatható, a legtöbb hatóság beleértve az Internet Mail Consortiumot és a Microsoft Developer Networköt is, az UTF-8 használatát javasolja az UTF-7 helyett, amikor lehetséges. Ennek az az oka, hogy az UTF-7 biztonsági és robusztussági problémákat okoz, amelyek a 8 bites rokonaiban nem jelennek meg. Az IMC azt is javasolja, hogy az 1999. január 1. után létrehozott összes levélmegjelenítő program képes legyen UTF-8 formátumban megjeleníteni a leveleket.