漢字は、ASCIIではなくUnicodeを使用してエンコードする必要があります。
画像クレジット: ブルージーンズ画像/フォトディスク/ゲッティイメージズ
UTF-7とUTF-8はどちらもUnicode変換形式の一種であり、16ビットUnicodeのエンコードに使用される標準です。 7ビットまたは7ビットで送信できる形式の国際文字や特殊記号などの文字 8ビットシステム。 UTF-8は最も一般的に使用されるエンコード形式であり、Webページや多くの電子メールプログラムで人気があります。 UTF-7は、UTF-8では機能しない一部の電子メールプロトコルのエンコーディングを提供します。
Unicode
Unicodeは、文字を整数として表すための国際標準です。 情報交換用の米国標準コードであるASCIIで使用される7ビットに対して、1文字あたり16ビットを使用します。 ASCIIは、Unicodeで使用可能な65,000の一意の文字に対して、128文字しか再現できません。 この幅広い文字範囲により、Unicodeは東アジアの言語やその他の言語に適しています。 文字セット。ただし、7ビットまたは8ビットビットを介して送信する場合は、Unicode文字をエンコードする必要があります。 チャネル。
今日のビデオ
UTF-8
UTF-8は、Unicode文字を8ビットセグメントに変換して、電子メールまたは他の8ビットチャネルを介してWeb経由で送信するために使用される最も一般的なユニバーサル変換形式です。 このコーディング形式は、の整数値に応じて、各Unicode文字を1〜4オクテットに変更します。 Unicode文字であり、ASCII文字にも含まれる文字を主に使用するドキュメントに非常に効率的です。 セットする。 UTF-8は、非西洋アルファベットのシングルバイトエンコーディングよりも多くのスペースを占める傾向があります。
UTF-7
UTF-7は、1990年代半ばに最初に提案されたUniversal TransformationFormatの特別なバリアントです。 これは、ASCII文字の文字列でUnicodeテキストを表すように設計されており、より効率的になります。 UTF-8よりも電子メールのエンコード方法に加えて、7ビットデータを介して送信するために必要なquoted-printableエンコード 道。 UTF-7エンコーディングを使用すると、エンコードされた文字のサイズが大幅に削減されます。
考慮事項
UTF-7は、UTF-8とquoted-printableよりも7ビットチャネルで効率的ですが、ほとんどの当局は インターネットメールコンソーシアムやMicrosoftDeveloper Networkを含め、UTF-7ではなくUTF-8を使用することをお勧めします。 可能。 これは、UTF-7が8ビット相対には存在しないセキュリティと堅牢性の問題を引き起こすためです。 IMCは、1999年1月1日以降に作成されたすべてのメール表示プログラムがUTF-8でメールを表示できるようにすることも推奨しています。