UTF 7 vs. UTF 8

Artist chinez ținând o pensulă

Caracterele chinezești trebuie să fie codificate folosind Unicode, nu ASCII.

Credit imagine: Blue Jean Images/Photodisc/Getty Images

UTF-7 și UTF-8 sunt ambele tipuri de format de transformare Unicode, standardul folosit pentru a codifica Unicode pe 16 biți caractere precum litere internaționale și simboluri speciale într-un format care poate fi transmis prin 7 biți sau sisteme pe 8 biți. UTF-8 este cel mai des folosit format de codare, popular în paginile Web și în multe programe de e-mail. UTF-7 oferă codificare pentru unele protocoale de e-mail care nu vor funcționa cu UTF-8.

Unicode

Unicode este un standard internațional pentru reprezentarea caracterelor ca numere întregi. Folosește 16 biți pe caracter față de cei șapte biți utilizați de ASCII, Codul standard american pentru schimbul de informații. ASCII poate reproduce doar 128 de caractere față de cele 65.000 de caractere unice disponibile în Unicode. Această gamă mai largă de caractere face ca Unicode să fie mai potrivit pentru limbile din Asia de Est și altele cu dimensiuni mari seturi de caractere, dar caracterele Unicode trebuie să fie codificate dacă urmează să fie transmise pe 7 biți sau 8 biți canale.

Videoclipul zilei

UTF-8

UTF-8 este cel mai comun format de transformare universal utilizat pentru a converti caracterele Unicode în segmente de 8 biți pentru transmitere pe Web prin e-mail sau prin alte canale de 8 biți. Acest format de codare schimbă fiecare caracter Unicode într-unul până la patru octeți, în funcție de valoarea întregului Caracter Unicode și este foarte eficient pentru documentele care folosesc în principal litere găsite și în caracterul ASCII a stabilit. UTF-8 tinde să ocupe mai mult spațiu decât codificarea pe un singur octet pentru alfabetele non-occidentale.

UTF-7

UTF-7 este o variantă specială a formatului universal de transformare propus pentru prima dată la mijlocul anilor 1990. A fost conceput pentru a reprezenta textul Unicode cu un șir de caractere ASCII, producând un text mai eficient metoda de codificare pentru e-mail decât UTF-8 plus codificarea imprimabilă citată necesară pentru a transmite date pe 7 biți cale. Utilizarea codării UTF-7 reduce semnificativ dimensiunea caracterelor codificate.

Considerații

Deși UTF-7 este mai eficient pe canalele pe 7 biți decât UTF-8 plus citat-printable, majoritatea autorităților inclusiv Internet Mail Consortium și Microsoft Developer Network recomandă utilizarea UTF-8 peste UTF-7 oricând posibil. Acest lucru se datorează faptului că UTF-7 creează probleme de securitate și robustețe care nu sunt prezente în relativul său de 8 biți. De asemenea, IMC recomandă ca toate programele de afișare a e-mailurilor create după 1 ianuarie 1999 să fie capabile să afișeze e-mailurile în UTF-8.