Kinesiske tegn skal kodes med Unicode, ikke ASCII.
Billedkredit: Blue Jean Images/Photodisc/Getty Images
UTF-7 og UTF-8 er begge typer Unicode Transformation Format, standarden, der bruges til at kode 16-bit Unicode tegn som internationale bogstaver og specielle symboler i et format, der kan overføres gennem 7-bit eller 8-bit systemer. UTF-8 er det mest almindeligt anvendte kodningsformat, populært på websider og mange e-mail-programmer. UTF-7 giver kodning til nogle e-mail-protokoller, der ikke fungerer med UTF-8.
Unicode
Unicode er en international standard til at repræsentere tegn som heltal. Den bruger 16 bit pr. tegn i forhold til de syv bit, der bruges af ASCII, den amerikanske standardkode for informationsudveksling. ASCII kan kun gengive 128 tegn mod de 65.000 unikke tegn, der er tilgængelige i Unicode. Dette bredere udvalg af tegn gør Unicode mere passende til østasiatiske sprog og andre med store sprog tegnsæt, men Unicode-tegn skal kodes, hvis de skal transmitteres via 7-bit eller 8-bit bit kanaler.
Dagens video
UTF-8
UTF-8 er det mest almindelige universelle transformationsformat, der bruges til at konvertere Unicode-tegn til 8-bit segmenter til transmission over internettet via e-mail eller gennem andre 8-bit kanaler. Dette kodningsformat ændrer hvert Unicode-tegn til en til fire oktetter, afhængigt af heltalsværdien af Unicode-tegn, og det er meget effektivt for dokumenter, der primært bruger bogstaver, der også findes i ASCII-tegnet sæt. UTF-8 har en tendens til at fylde mere end enkeltbyte-kodning for ikke-vestlige alfabeter.
UTF-7
UTF-7 er en speciel variant af Universal Transformation Format først foreslået i midten af 1990'erne. Det blev designet til at repræsentere Unicode-tekst med en streng af ASCII-tegn, hvilket giver en mere effektiv kodningsmetode for e-mail end UTF-8 plus den citerede-udskrivbare kodning, der er nødvendig for at overføre over en 7-bit data sti. Brug af UTF-7-kodning reducerer størrelsen af de kodede tegn betydeligt.
Overvejelser
Selvom UTF-7 er mere effektiv over 7-bit kanaler end UTF-8 plus citeret-printbar, er de fleste myndigheder inklusive Internet Mail Consortium og Microsoft Developer Network anbefaler at bruge UTF-8 over UTF-7 når som helst muligt. Dette skyldes, at UTF-7 skaber sikkerheds- og robusthedsproblemer, der ikke er til stede i dens 8-bit relative. IMC anbefaler også, at alle e-mail-visningsprogrammer oprettet efter 1. januar 1999 skal være i stand til at vise e-mail i UTF-8.