UTF 7 vs. UTF 8

Kinesisk konstnär som håller penseln

Kinesiska tecken måste kodas med Unicode, inte ASCII.

Bildkredit: Blue Jean Images/Photodisc/Getty Images

UTF-7 och UTF-8 är båda typerna av Unicode Transformation Format, standarden som används för att koda 16-bitars Unicode tecken som internationella bokstäver och specialsymboler i ett format som kan överföras genom 7-bitars eller 8-bitars system. UTF-8 är det vanligaste kodningsformatet, populärt på webbsidor och många e-postprogram. UTF-7 tillhandahåller kodning för vissa e-postprotokoll som inte fungerar med UTF-8.

Unicode

Unicode är en internationell standard för att representera tecken som heltal. Den använder 16 bitar per tecken jämfört med de sju bitar som används av ASCII, American Standard Code for Information Interchange. ASCII kan endast reproducera 128 tecken jämfört med de 65 000 unika tecken som finns tillgängliga i Unicode. Detta bredare utbud av tecken gör Unicode mer lämplig för östasiatiska språk och andra med stora teckenuppsättningar, men Unicode-tecken måste kodas om de ska överföras via 7-bitars eller 8-bitarsbitar kanaler.

Dagens video

UTF-8

UTF-8 är det vanligaste universella transformationsformatet som används för att konvertera Unicode-tecken till 8-bitarssegment för överföring över webben via e-post eller via andra 8-bitarskanaler. Detta kodningsformat ändrar varje Unicode-tecken till en till fyra oktetter, beroende på heltalsvärdet för Unicode-tecken, och det är mycket effektivt för dokument som i första hand använder bokstäver som också finns i ASCII-tecknet uppsättning. UTF-8 tenderar att ta upp mer utrymme än enkelbytekodning för icke-västerländska alfabet.

UTF-7

UTF-7 är en speciell variant av Universal Transformation Format som först föreslogs i mitten av 1990-talet. Den designades för att representera Unicode-text med en sträng av ASCII-tecken, vilket ger en mer effektiv kodningsmetod för e-post än UTF-8 plus den citerade-utskrivbara kodningen som behövs för att överföra över en 7-bitars data väg. Användning av UTF-7-kodning minskar storleken på de kodade tecknen avsevärt.

Överväganden

Även om UTF-7 är effektivare över 7-bitars kanaler än UTF-8 plus citerad-utskrivbar, är de flesta myndigheter inklusive Internet Mail Consortium och Microsoft Developer Network rekommenderar att du använder UTF-8 över UTF-7 när som helst möjlig. Detta beror på att UTF-7 skapar säkerhets- och robusthetsproblem som inte finns i dess 8-bitars släkting. IMC rekommenderar också att alla e-postvisande program skapade efter 1 januari 1999 ska kunna visa e-post i UTF-8.