シングルバイトおよびマルチバイト文字集合

ASCII 文字集合は,0 ~ 127 の文字と,128 ~ 255 の拡張集合を定義しています。ヨーロッパ言語を含むいくつかの代替シングルバイト文字集合は,0 ~ 127 の文字については ASCII と同じ文字を定義し,128 ~ 255 の文字については ASCII とは異なる文字を定義しています。この拡張を利用すれば,8 ビットの表現で,ほとんどのヨーロッパ言語に必要な文字を十分に定義することができます。しかし,日本語の漢字などの一部の言語は,1 バイトで表現できる以上の文字を含んでいます。これらの言語ではマルチバイト・コーディングが必要となります。

マルチバイト文字集合は,1 バイトと 2 バイトの両方の文字から構成されています。マルチバイト文字は,シングルバイト文字と 2 バイト文字の混在したものを含むことができます。2 バイト文字は先頭バイトと後続バイトを持ちます。一部のマルチバイト文字集合では,先頭バイトと後続バイトが重複することがあるため,バイトの文脈をもとにそれが先頭バイトと後続バイトのどちらなのかを判断する必要があります。