UTF7 vs. UTF 8

Chinese kunstenaar met penseel

Chinese karakters moeten worden gecodeerd met Unicode, niet met ASCII.

Afbeelding tegoed: Blue Jean-afbeeldingen/Photodisc/Getty Images

UTF-7 en UTF-8 zijn beide typen Unicode Transformation Format, de standaard die wordt gebruikt om 16-bits Unicode te coderen tekens zoals internationale letters en speciale symbolen in een formaat dat kan worden verzonden via 7-bits of 8-bits systemen. UTF-8 is het meest gebruikte coderingsformaat, populair in webpagina's en veel e-mailprogramma's. UTF-7 biedt codering voor sommige e-mailprotocollen die niet werken met UTF-8.

Unicode

Unicode is een internationale standaard voor het weergeven van karakters als gehele getallen. Het gebruikt 16 bits per teken versus de zeven bits die worden gebruikt door ASCII, de American Standard Code for Information Interchange. ASCII kan slechts 128 tekens reproduceren tegenover de 65.000 unieke tekens die beschikbaar zijn in Unicode. Dit grotere aantal tekens maakt Unicode geschikter voor Oost-Aziatische talen en andere met grote tekensets, maar Unicode-tekens moeten worden gecodeerd als ze via 7-bits of 8-bits bits moeten worden verzonden kanalen.

Video van de dag

UTF-8

UTF-8 is het meest voorkomende universele transformatieformaat dat wordt gebruikt om Unicode-tekens om te zetten in 8-bits segmenten voor verzending via het web via e-mail of via andere 8-bits kanalen. Dit coderingsformaat verandert elk Unicode-teken in één tot vier octetten, afhankelijk van de gehele waarde van de Unicode-teken, en het is zeer efficiënt voor documenten die voornamelijk letters gebruiken die ook in het ASCII-teken voorkomen set. UTF-8 heeft de neiging om meer ruimte in beslag te nemen dan enkelbyte-codering voor niet-westerse alfabetten.

UTF-7

UTF-7 is een speciale variant van het Universal Transformation Format dat voor het eerst werd voorgesteld in het midden van de jaren negentig. Het is ontworpen om Unicode-tekst weer te geven met een reeks ASCII-tekens, waardoor een efficiëntere coderingsmethode voor e-mail dan UTF-8 plus de geciteerde afdrukbare codering die nodig is om via 7-bits gegevens te verzenden pad. Het gebruik van UTF-7-codering verkleint de grootte van de gecodeerde tekens aanzienlijk.

Overwegingen

Hoewel UTF-7 efficiënter is over 7-bits kanalen dan UTF-8 plus geciteerd-afdrukbaar, zijn de meeste autoriteiten inclusief het Internet Mail Consortium en Microsoft Developer Network raden aan om altijd UTF-8 boven UTF-7 te gebruiken: mogelijk. Dit komt omdat UTF-7 beveiligings- en robuustheidsproblemen veroorzaakt die niet aanwezig zijn in zijn 8-bits relatieve. De IMC beveelt ook aan dat alle programma's voor het weergeven van e-mail die na 1 januari 1999 zijn gemaakt, in staat moeten zijn om e-mail in UTF-8 weer te geven.