Next: 表現の選択, Previous: マルチバイト文字の無効化, Up: 非ASCII文字 [Contents][Index]
Emacsはユニバイトテキストをマルチバイトに変換できます。マルチバイトテキストに含まれるのがASCIIと8ビットrawバイトだけという条件つきでマルチバイトテキストからユニバイトへの変換もできます。一般的にこれらの変換はバッファーへのテキスト挿入時、または複数の文字列を1つの文字列に合成してテキストにputするときに発生します。文字列のコンテンツを明示的にいずれかの表現に変換することもできます。
Emacsはそのテキストの構成にもとづいて文字列の表現を選択します。一般的なルールではユニバイトテキストが他のマルチバイトテキストと組み合わされていればマルチバイト表現のほうがより一般的であり、ユニバイトテキストのすべての文字を保有できるのでユニバイトテキストをマルチバイトテキストに変換します。
バッファーへのテキスト挿入時にEmacsはそのバッファーのenable-multibyte-characters
の指定にしたがってテキストをそのバッファーの表現に変換します。特にユニバイトバッファーにマルチバイトテキストを挿入する際には、たとえ一般的にはマルチバイトテキスト内のすべての文字を保持することはできなくてもEmacsはテキストをユニバイトに変換します。バッファーコンテンツをマルチバイトに変換するという自然な代替方法は、そのバッファーの表現が自動的にオーバーライドできないユーザーによる選択にもとづく表現であるため許容されません。
ユニバイトテキストからマルチバイトテキストへの変換ではASCII文字は未変更のまま残されて、128から255のコードをもつバイトが8ビットrawバイトのマルチバイト表現に変換されます。
マルチバイトテキストからユニバイトテキストへの変換では、すべてのASCIIと8ビット文字が、それらの1バイト形式に変換されますが、各文字のコードポイントの下位8ビット以外は破棄されるために非ASCII文字の情報は失われます。ユニバイトテキストからマルチバイトテキストに変換してそれをユニバイトに戻せば、元のユニバイトテキストが再生成されます。
以下の2つの関数は引数string、またはテキストプロパティをもたない新たに作成された文字列のいずれかをリターンします。
この関数はstringと同じ文字シーケンスを含むマルチバイト文字列をリターンする。stringがマルチバイト文字列なら未変更のままそれがリターンされる。この関数はstringがASCII文字と8ビットrawバイトだけを含むと仮定する。後者は#x3FFF80
から#x3FFFFF
(両端を含む)に対応する8ビットrawバイトのマルチバイト表現に変換される(codepointsを参照)。
この関数はstringと同じ文字シーケンスを含むユニバイト文字列をリターンする。stringがユニバイト文字列なら変更せずにそれをリターンする。それ以外の場合にはASCII文字とeight-bit
文字セットの文字を、それらに応じたバイト値に変換する。ASCII文字と8ビット文字だけを含むstring引数にたいしてのみこの関数を使用すること。これら以外の文字に遭遇すると、この関数はエラーをシグナルする。
この関数は文字データbyteの単一バイトを含むユニバイト文字列をリターンする。byteが0から255までの整数でなければ、エラーをシグナルする。
これはマルチバイト文字charをユニバイト文字に変換してその文字をリターンする。charがASCIIと8ビットのいずれでもなければこの関数は-1をリターンする。
これはcharがASCIIか8ビットrawバイトのいずれかであると仮定してユニバイト文字ASCIIをマルチバイト文字に変換する。