יש לקודד תווים סיניים באמצעות Unicode, לא ASCII.
קרדיט תמונה: Blue Jean Images/Photodisc/Getty Images
UTF-7 ו-UTF-8 הם שני סוגים של פורמט טרנספורמציה של Unicode, התקן המשמש לקידוד Unicode של 16 סיביות תווים כגון אותיות בינלאומיות וסמלים מיוחדים בפורמט שניתן לשדר באמצעות 7-bit or מערכות 8 סיביות. UTF-8 הוא פורמט הקידוד הנפוץ ביותר, פופולרי בדפי אינטרנט ובתוכניות דוא"ל רבות. UTF-7 מספק קידוד לפרוטוקולי דוא"ל מסוימים שלא יעבדו עם UTF-8.
Unicode
Unicode הוא תקן בינלאומי לייצוג תווים כמספרים שלמים. הוא משתמש ב-16 סיביות לתו לעומת שבעת הסיביות המשמשות את ASCII, הקוד האמריקני ל-Information Interchange. ASCII יכול לשחזר רק 128 תווים לעומת 65,000 התווים הייחודיים הזמינים ב-Unicode. מגוון רחב יותר זה של תווים הופך את Unicode למתאים יותר עבור שפות מזרח אסיה ואחרות עם גדולות ערכות תווים, אבל תווי Unicode חייבים להיות מקודדים אם הם אמורים להיות מועברים באמצעות 7-bit או 8-bit ערוצים.
סרטון היום
UTF-8
UTF-8 הוא פורמט הטרנספורמציה האוניברסלית הנפוץ ביותר המשמש להמרת תווי Unicode למקטעים של 8 סיביות לשידור דרך האינטרנט באמצעות דואר אלקטרוני או דרך ערוצי 8 סיביות אחרים. פורמט קידוד זה משנה כל תו Unicode לאחד עד ארבע אוקטטים, בהתאם לערך השלם של ה- תו Unicode, והוא יעיל מאוד עבור מסמכים שמשתמשים בעיקר באותיות שנמצאות גם בתו ASCII מַעֲרֶכֶת. UTF-8 נוטה לתפוס יותר מקום מאשר קידוד של בייט בודד עבור אלפבית לא מערבי.
UTF-7
UTF-7 הוא גרסה מיוחדת של פורמט הטרנספורמציה האוניברסלית שהוצעה לראשונה באמצע שנות ה-90. זה תוכנן לייצג טקסט Unicode עם מחרוזת של תווי ASCII, לייצר טקסט יעיל יותר שיטת קידוד לאימייל מאשר UTF-8 בתוספת הקידוד הניתן להדפסה במצוטט הדרוש להעברת נתונים של 7 סיביות נָתִיב. שימוש בקידוד UTF-7 מקטין את גודל התווים המקודדים באופן משמעותי.
שיקולים
למרות ש-UTF-7 יעיל יותר בערוצים של 7 סיביות מאשר UTF-8 בתוספת ציטוט-ניתן להדפסה, רוב הרשויות כולל Internet Mail Consortium ו-Microsoft Developer Network ממליצים להשתמש ב-UTF-8 על פני UTF-7 בכל עת אפשרי. הסיבה לכך היא ש-UTF-7 יוצר בעיות אבטחה וחוסן שאינן קיימות בקרב משפחתו של 8 סיביות. ה-IMC גם ממליץ שכל התוכנות להצגת דואר שנוצרו לאחר 1 בינואר 1999 יהיו מסוגלות להציג דואר ב-UTF-8.