UTF 7 vs. UTF 8

Kinesisk kunstner som holder pensel

Kinesiske tegn må kodes med Unicode, ikke ASCII.

Bildekreditt: Blue Jean Images/Photodisc/Getty Images

UTF-7 og UTF-8 er begge typer Unicode Transformation Format, standarden som brukes til å kode 16-bits Unicode tegn som internasjonale bokstaver og spesialsymboler i et format som kan overføres gjennom 7-bit eller 8-bits systemer. UTF-8 er det mest brukte kodingsformatet, populært på nettsider og mange e-postprogrammer. UTF-7 gir koding for noen e-postprotokoller som ikke fungerer med UTF-8.

Unicode

Unicode er en internasjonal standard for å representere tegn som heltall. Den bruker 16 biter per tegn mot de syv bitene som brukes av ASCII, den amerikanske standardkoden for informasjonsutveksling. ASCII kan bare reprodusere 128 tegn mot de 65 000 unike tegnene som er tilgjengelige i Unicode. Dette bredere spekteret av tegn gjør Unicode mer passende for østasiatiske språk og andre med store tegnsett, men Unicode-tegn må kodes hvis de skal overføres via 7-bit eller 8-bit kanaler.

Dagens video

UTF-8

UTF-8 er det vanligste universelle transformasjonsformatet som brukes til å konvertere Unicode-tegn til 8-bits segmenter for overføring over nettet via e-post eller gjennom andre 8-biters kanaler. Dette kodeformatet endrer hvert Unicode-tegn til én til fire oktetter, avhengig av heltallsverdien til Unicode-tegn, og det er veldig effektivt for dokumenter som primært bruker bokstaver som også finnes i ASCII-tegnet sett. UTF-8 har en tendens til å ta opp mer plass enn enkeltbyte-koding for ikke-vestlige alfabeter.

UTF-7

UTF-7 er en spesiell variant av Universal Transformation Format først foreslått på midten av 1990-tallet. Den ble designet for å representere Unicode-tekst med en streng med ASCII-tegn, noe som gir en mer effektiv kodemetode for e-post enn UTF-8 pluss den angitte utskrivbare kodingen som trengs for å overføre over en 7-bits data sti. Bruk av UTF-7-koding reduserer størrelsen på de kodede tegnene betydelig.

Betraktninger

Selv om UTF-7 er mer effektiv over 7-bits kanaler enn UTF-8 pluss sitert-utskrivbare, er de fleste myndigheter inkludert Internet Mail Consortium og Microsoft Developer Network anbefaler å bruke UTF-8 over UTF-7 når som helst mulig. Dette er fordi UTF-7 skaper sikkerhets- og robusthetsproblemer som ikke er tilstede i sin 8-bits slektning. IMC anbefaler også at alle e-postvisningsprogrammer opprettet etter 1. januar 1999 skal være i stand til å vise e-post i UTF-8.