UTF 7 vs. UTF 8

Κινέζος καλλιτέχνης που κρατά το πινέλο

Οι κινεζικοί χαρακτήρες πρέπει να κωδικοποιούνται με χρήση Unicode και όχι ASCII.

Πίστωση εικόνας: Εικόνες Blue Jean/Photodisc/Getty Images

Το UTF-7 και το UTF-8 είναι και οι δύο τύποι Unicode Transformation Format, το πρότυπο που χρησιμοποιείται για την κωδικοποίηση Unicode 16-bit χαρακτήρες όπως διεθνή γράμματα και ειδικά σύμβολα σε μορφή που μπορεί να μεταδοθεί μέσω 7-bit ή Συστήματα 8 bit. Το UTF-8 είναι η πιο συχνά χρησιμοποιούμενη μορφή κωδικοποίησης, δημοφιλής σε ιστοσελίδες και πολλά προγράμματα email. Το UTF-7 παρέχει κωδικοποίηση για ορισμένα πρωτόκολλα email που δεν λειτουργούν με το UTF-8.

Unicode

Το Unicode είναι ένα διεθνές πρότυπο για την αναπαράσταση χαρακτήρων ως ακεραίων. Χρησιμοποιεί 16 bit ανά χαρακτήρα έναντι των επτά bit που χρησιμοποιούνται από τον ASCII, τον αμερικανικό τυπικό κώδικα για την ανταλλαγή πληροφοριών. Το ASCII μπορεί να αναπαράγει μόνο 128 χαρακτήρες έναντι των 65.000 μοναδικών χαρακτήρων που είναι διαθέσιμοι στο Unicode. Αυτή η ευρύτερη γκάμα χαρακτήρων κάνει το Unicode πιο κατάλληλο για γλώσσες της Ανατολικής Ασίας και άλλες με μεγάλες γλώσσες σύνολα χαρακτήρων, αλλά οι χαρακτήρες Unicode πρέπει να κωδικοποιηθούν εάν πρόκειται να μεταδοθούν μέσω 7-bit ή 8-bit καναλιών.

Το βίντεο της ημέρας

UTF-8

Το UTF-8 είναι η πιο κοινή μορφή καθολικής μετατροπής που χρησιμοποιείται για τη μετατροπή χαρακτήρων Unicode σε τμήματα 8 bit για μετάδοση μέσω του Web μέσω email ή μέσω άλλων καναλιών 8 bit. Αυτή η μορφή κωδικοποίησης αλλάζει κάθε χαρακτήρα Unicode σε μία έως τέσσερις οκτάδες, ανάλογα με την ακέραια τιμή του Χαρακτήρας Unicode και είναι πολύ αποτελεσματικός για έγγραφα που χρησιμοποιούν κυρίως γράμματα που βρίσκονται επίσης στον χαρακτήρα ASCII σειρά. Το UTF-8 τείνει να καταλαμβάνει περισσότερο χώρο από την κωδικοποίηση ενός byte για μη δυτικά αλφάβητα.

UTF-7

Το UTF-7 είναι μια ειδική παραλλαγή του Universal Transformation Format που προτάθηκε για πρώτη φορά στα μέσα της δεκαετίας του 1990. Σχεδιάστηκε για να αντιπροσωπεύει κείμενο Unicode με μια σειρά χαρακτήρων ASCII, παράγοντας πιο αποτελεσματικό μέθοδος κωδικοποίησης για email από το UTF-8 συν την εκτυπώσιμη κωδικοποίηση που απαιτείται για τη μετάδοση δεδομένων 7 bit μονοπάτι. Η χρήση κωδικοποίησης UTF-7 μειώνει σημαντικά το μέγεθος των κωδικοποιημένων χαρακτήρων.

Θεωρήσεις

Αν και το UTF-7 είναι πιο αποτελεσματικό σε κανάλια 7-bit από το UTF-8 plus εκτυπώσιμο σε εισαγωγικά, οι περισσότερες αρχές συμπεριλαμβανομένου του Internet Mail Consortium και του Microsoft Developer Network συνιστούν τη χρήση του UTF-8 έναντι του UTF-7 όποτε δυνατόν. Αυτό συμβαίνει επειδή το UTF-7 δημιουργεί ζητήματα ασφάλειας και ευρωστίας που δεν υπάρχουν στον συγγενή του στα 8 bit. Το IMC συνιστά επίσης ότι όλα τα προγράμματα εμφάνισης αλληλογραφίας που δημιουργήθηκαν μετά την 1η Ιανουαρίου 1999 θα πρέπει να μπορούν να εμφανίζουν αλληλογραφία σε UTF-8.