I caratteri cinesi devono essere codificati utilizzando Unicode, non ASCII.
Credito immagine: Immagini Blue Jean/disco fotografico/immagini Getty
UTF-7 e UTF-8 sono entrambi tipi di Unicode Transformation Format, lo standard utilizzato per codificare Unicode a 16 bit caratteri come lettere internazionali e simboli speciali in un formato che può essere trasmesso tramite 7 bit o Sistemi a 8 bit. UTF-8 è il formato di codifica più comunemente usato, popolare nelle pagine Web e in molti programmi di posta elettronica. UTF-7 fornisce la codifica per alcuni protocolli di posta elettronica che non funzionano con UTF-8.
Unicode
Unicode è uno standard internazionale per rappresentare i caratteri come numeri interi. Utilizza 16 bit per carattere rispetto ai sette bit utilizzati da ASCII, il codice standard americano per lo scambio di informazioni. ASCII può riprodurre solo 128 caratteri contro i 65.000 caratteri univoci disponibili in Unicode. Questa gamma più ampia di caratteri rende Unicode più appropriato per le lingue dell'Asia orientale e altre con caratteri grandi set di caratteri, ma i caratteri Unicode devono essere codificati se devono essere trasmessi tramite bit a 7 o 8 bit canali.
Video del giorno
UTF-8
UTF-8 è il formato di trasformazione universale più comune utilizzato per convertire i caratteri Unicode in segmenti a 8 bit per la trasmissione sul Web tramite e-mail o altri canali a 8 bit. Questo formato di codifica cambia ogni carattere Unicode in uno o quattro ottetti, a seconda del valore intero del Carattere Unicode ed è molto efficiente per i documenti che utilizzano principalmente lettere che si trovano anche nel carattere ASCII impostato. UTF-8 tende a occupare più spazio rispetto alla codifica a byte singolo per alfabeti non occidentali.
UTF-7
UTF-7 è una variante speciale dell'Universal Transformation Format proposta per la prima volta a metà degli anni '90. È stato progettato per rappresentare il testo Unicode con una stringa di caratteri ASCII, producendo un'immagine più efficiente metodo di codifica per e-mail diverso da UTF-8 più la codifica stampabile tra virgolette necessaria per trasmettere su dati a 7 bit sentiero. L'utilizzo della codifica UTF-7 riduce significativamente la dimensione dei caratteri codificati.
Considerazioni
Sebbene UTF-7 sia più efficiente sui canali a 7 bit rispetto a UTF-8 più quotato stampabile, la maggior parte delle autorità inclusi Internet Mail Consortium e Microsoft Developer Network consigliano di utilizzare UTF-8 su UTF-7 ogni volta che possibile. Questo perché UTF-7 crea problemi di sicurezza e robustezza non presenti nel suo parente a 8 bit. L'IMC consiglia inoltre che tutti i programmi di visualizzazione della posta creati dopo il 1 gennaio 1999 siano in grado di visualizzare la posta in UTF-8.