UTF7 vs. UTF 8

Chinesischer Künstler mit Pinsel

Chinesische Zeichen müssen mit Unicode codiert werden, nicht mit ASCII.

Bildnachweis: Blue Jean Images/Photodisc/Getty Images

UTF-7 und UTF-8 sind beide Arten von Unicode Transformation Format, dem Standard zum Kodieren von 16-Bit-Unicode Zeichen wie internationale Buchstaben und Sonderzeichen in einem Format, das über 7-Bit oder. übertragen werden kann 8-Bit-Systeme. UTF-8 ist das am häufigsten verwendete Kodierungsformat, das in Webseiten und vielen E-Mail-Programmen beliebt ist. UTF-7 bietet Codierung für einige E-Mail-Protokolle, die mit UTF-8 nicht funktionieren.

Unicode

Unicode ist ein internationaler Standard für die Darstellung von Zeichen als ganze Zahlen. Es verwendet 16 Bits pro Zeichen im Vergleich zu den sieben Bits, die von ASCII, dem American Standard Code for Information Interchange, verwendet werden. ASCII kann nur 128 Zeichen reproduzieren, im Gegensatz zu den 65.000 einzigartigen Zeichen, die in Unicode verfügbar sind. Dieser größere Zeichenbereich macht Unicode besser für ostasiatische Sprachen und andere mit großen Zeichensätze, aber Unicode-Zeichen müssen verschlüsselt werden, wenn sie über 7-Bit- oder 8-Bit-Bit übertragen werden sollen Kanäle.

Video des Tages

UTF-8

UTF-8 ist das gebräuchlichste Universal Transformation Format, das zum Konvertieren von Unicode-Zeichen in 8-Bit-Segmente für die Übertragung über das Web per E-Mail oder über andere 8-Bit-Kanäle verwendet wird. Dieses Codierungsformat ändert jedes Unicode-Zeichen in ein bis vier Oktette, abhängig vom ganzzahligen Wert des Unicode-Zeichen, und es ist sehr effizient für Dokumente, die hauptsächlich Buchstaben verwenden, die auch im ASCII-Zeichen vorkommen einstellen. UTF-8 nimmt für nicht-westliche Alphabete tendenziell mehr Platz ein als die Einzelbyte-Kodierung.

UTF-7

UTF-7 ist eine spezielle Variante des Universal Transformation Format, das erstmals Mitte der 1990er Jahre vorgeschlagen wurde. Es wurde entwickelt, um Unicode-Text mit einer Folge von ASCII-Zeichen darzustellen, wodurch ein effizienteres Codierungsmethode für E-Mails als UTF-8 plus die quotierte-druckbare Codierung, die für die Übertragung über 7-Bit-Daten erforderlich ist Weg. Die Verwendung der UTF-7-Kodierung reduziert die Größe der kodierten Zeichen erheblich.

Überlegungen

Obwohl UTF-7 über 7-Bit-Kanäle effizienter ist als UTF-8 plus Quoted-Printable, die meisten Behörden einschließlich des Internet Mail Consortium und des Microsoft Developer Network empfehlen die Verwendung von UTF-8 über UTF-7, wann immer möglich. Dies liegt daran, dass UTF-7 Sicherheits- und Robustheitsprobleme verursacht, die bei seinem 8-Bit-Verwandten nicht vorhanden sind. Der IMC empfiehlt außerdem, dass alle E-Mail-Anzeigeprogramme, die nach dem 1. Januar 1999 erstellt wurden, in der Lage sein sollten, E-Mails in UTF-8 anzuzeigen.