Next: 文字および文字列の変換, Previous: 文字列の変更, Up: 文字列と文字 [Contents][Index]
この関数は引数が同じ文字を表すならt
、それ以外はnil
をリターンする。case-fold-search
が非nil
なら、この関数はcaseの違いを無視する。
(char-equal ?x ?x) ⇒ t (let ((case-fold-search nil)) (char-equal ?x ?X)) ⇒ nil
この関数は、2つの文字列の文字が正確にマッチすればt
をリターンする。引数にはシンボルも指定でき、この場合はそのシンボル名が使用される。case-fold-search
とは無関係にcaseは常に意味をもつ。
この関数は、equal
で2つの文字列を比較するのと等価である(同等性のための述語を参照)。特に、2つの文字列のテキストプロパティーは無視される。テキストプロパティーだけが異なる文字列を区別する必要があるならequal-including-properties
を使用すること。しかしequal
とは異なり、いずれかの引数が文字列でもシンボルでもなければ、string=
はエラーをシグナルする。
(string= "abc" "abc") ⇒ t (string= "abc" "ABC") ⇒ nil (string= "ab" "ABC") ⇒ nil
技術的な理由により同一の文字コードのシーケンスを含み、かつそれらのコード範囲が0から127(ASCII)または160から255(eight-bit-graphic
)の場合に限り、ユニバイト文字列とマルチバイト文字列はequal
となる。ただしユニバイト文字列をマルチバイト文字列に変換する際にはASCII文字は無変換のままだが、160から255の範囲のコードをもつ文字はすべてより大きいコードをもつ文字へと変換される。したがってユニバイト文字列とそれをマルチバイトに変換した文字列がequal
になるのは、その文字列がすべてASCIIの場合だけである。マルチバイト文字列内に160から255の文字コードは出現し得るが、完全に適正という訳ではない。結果としてすべてASCIIという訳ではないにも関わらずユニバイト文字列とマルチバイト文字列がequal
となるのは、Emacs
Lispのほとんどが直面したことがないような技術的に稀有な状況と言える。テキストの表現方法を参照のこと。
string-equal
はstring=
の別名である。
この関数はlocaleで指定されたの照合ルール(collation
rule)にもとづいて、string1とstring2が等しければt
をリターンする。照合ルールはstring1とstring2に含まれる文字の辞書順だけではなく、それらの文字間の関係に関する他のルールにより判断される。これは通常はEmacs実行中のlocale環境、およびEmacsがリンクされた標準Cライブラリー3により決定される。
たとえばUnicode文字の異なるグレイブアクセントのように、コーディングポイントが異なっても意味が同じなら、一部のlocaleでは等しいとみなされるかもしれない。
(string-collate-equalp (string ?\uFF40) (string ?\u1FEF)) ⇒ t
オプション引数locale(文字列)は、照合用のカレントlocale識別子(current locale
identifier)をオーバーライドする。値はシステムに依存する。たとえばPOSIXシステムでは"en_US.UTF-8"
、MS-Windowsシステムでは"enu_USA.1252"
のlocaleが適用できるだろう。
ignore-caseが非nil
の場合には、比較の前に小文字に変換する。
MS-WindowsシステムでUnicode互換の照合をエミュレートする場合、MS-Windowsではlocaleのコードセット部分を"UTF-8"
にできないので、w32-collate-ignore-punctuation
に非nil
値をバインドすること。
あるlocale環境をシステムがサポートしなれければ、この関数はstring-equal
と同様に振る舞う。
一般的にファイルシステムは照合ルールが実装するような文字列の言語学的な等価性を尊重しないので、この関数をファイル名の等価性の比較に使用しないこと。
この関数は2つの文字列を1文字ずつ比較する。この関数は同時に2つの文字列をスキャンして、対応する文字同士がマッチしない最初のペアを探す。2つの文字列内で小さいほうの文字がstring1の文字ならstring1が小さいことになり、この関数はt
をリターンする。小さいほうの文字がstring2の文字ならstring1が大きいことになり、この関数はnil
をリターンする。2つの文字列が完全にマッチしたら値はnil
になる。
文字のペアーは文字コードで比較される。ASCII文字セットでは英小文字は英大文字より高い数値をもつことに留意されたい。数字と区切り文字の多くは英大文字より低い数値をもつ。ASCII文字は任意の非ASCII文字より小さくなる。ユニバイトの非ASCII文字は、任意のマルチバイト非ASCII文字より常に小さくなります(テキストの表現方法を参照)。
(string< "abc" "abd") ⇒ t (string< "abd" "abc") ⇒ nil (string< "123" "abc") ⇒ t
文字列の長さが異なり、string1の長さまでマッチする場合、結果はt
になる。string2の長さまでマッチする場合、結果はnil
になる。文字を含まない文字列は、他の任意の文字列より小さくなる。
(string< "" "abc") ⇒ t (string< "ab" "abc") ⇒ t (string< "abc" "") ⇒ nil (string< "abc" "ab") ⇒ nil (string< "" "") ⇒ nil
引数としてシンボルを指定することもでき、この場合はシンボルのプリント名が比較される。
string-lessp
はstring<
の別名である。
この関数は逆順でstring1とstring2を比較した結果をリタンーする。つまりこれは(string-lessp
string2 string1)
を呼び出すのと等価である。
この関数は指定されたlocaleの照合順において、string1がstring2より小さければt
をリターンする。照合順はstring1とstring2に含まれる文字の辞書順だけではなく、それらの文字間の関係に関するルールによっても判断される。これは通常はEmacs実行中のlocale環境によって決定される。
たとえばソートでは区切り文字と空白文字は無視されるだろう(シーケンスを参照)。
(sort (list "11" "12" "1 1" "1 2" "1.1" "1.2") 'string-collate-lessp) ⇒ ("11" "1 1" "1.1" "12" "1 2" "1.2")
この振る舞いはシステム依存であり、例えばCygwinではlocaleに関係なく区切り文字と空白文字が無視されることは一切ない。
オプション引数locale(文字列)は、照合用のカレントlocale識別子(current locale
identifier)をオーバーライドする。値はシステムに依存する。たとえばPOSIXシステムでは"en_US.UTF-8"
、MS-Windowsシステムでは"enu_USA.1252"
のlocaleが適用できるだろう。localeの値を"POSIX"
か"C"
にすると、string-collate-lessp
はstring-lessp
と同様に振る舞う。
(sort (list "11" "12" "1 1" "1 2" "1.1" "1.2") (lambda (s1 s2) (string-collate-lessp s1 s2 "POSIX"))) ⇒ ("1 1" "1 2" "1.1" "1.2" "11" "12")
ignore-caseが非nil
の場合には、比較の前に小文字に変換する。
MS-WindowsシステムでUnicode互換の照合をエミュレートする場合、MS-Windowsではlocaleのコードセット部分を"UTF-8"
にできないので、w32-collate-ignore-punctuation
に非nil
値をバインドすること。
locale環境をサポートしないシステムでは、この関数はstring-lessp
と同様に振る舞う。
この関数は文字列を辞書順で比較するが、数字のシーケンスを10進数で構成されているかのように扱い、その数値を比較する。つまりたとえ辞書順で‘12’が‘2’より“小”だとしても、この述語に応じて‘foo12.png’より‘foo2.png’が“小”になる。
この関数はstring1がstring2のプレフィクス(たとえばstring2がstring1で始まる)なら、非nil
をリターンする。オプションの引数ignore-caseが非nil
なら、比較においてcaseの違いは無視される。
この関数はsuffixがstringのサフィックス(たとえばstringがsuffixで終わる)なら、非nil
をリターンする。オプションの引数ignore-caseが非nil
なら、比較においてcaseの違いは無視される。
haystack内で最初にneedle
(いずれも文字列)が出現する位置をリターンする。start-posが非nil
なら、検索はneedle内のその位置から開始される。マッチ(一致するもの)が見つからなければnil
をリターンする。この関数は比較を行う際にはテキストプロパティは無視して、文字列内の文字だけを考慮する。マッチングでは常にcaseを区別する。
この関数はstring1の指定部分をとstring2指定部分を比較する。string1の指定部分とは、インデックスstart1(その文字を含む)から、インデックスend1(その文字を含まない)まで。start1にnil
を指定すると文字列の最初という意味になり、end1にnil
を指定すると文字列の長さを意味する。同様にstring2の指定部分とはインデックスstart2からインデックスend2まで。
文字列は文字列内の文字の数値により比較される。たとえばstr1とstr2は、最初に異なる文字でstr1の文字の数値が小さければ小さいと判断される。ignore-caseが非nil
なら比較を行なう前に、カレントバッファーのcaseテーブル(caseテーブルを参照)を使用して大文字に変換される。比較用にユニバイト文字列はマルチバイト文字列に変換されるので(テキストの表現方法を参照)、ユニバイト文字列とそれを変換したマルチバイト文字列は常に等しくなる。
2つの文字列の指定部分がマッチ(一致)した場合、値はt
になる。それ以外なら値は整数で、何文字が一致してどちらの文字が小さいかを示す。この値の絶対値は、2つの文字列の先頭から一致した文字数に1加えた値になる。string1(または指定部分)のほうが小さければ符号は負になる。
この関数はソース文字列string1とターゲット文字列string2の間のレーベンシュタイン距離(Levenshtein distance)をリターンする。レーベンシュタイン距離はソース文字列をターゲット文字列に変換(削除、挿入、置換)するために必要な単一文字の個数。これは文字列間の編集距離(edit distance)として使用可能な定義の1つである。
計算距離にとって文字列の英字のcase(大文字小文字)は意味をもつが、テキストプロパティは無視される。オプション引数bytecompareが非nil
なら、この関数は文字ではなくバイトで計算する。バイト単位での比較はEmacsの内部的な文字表現を使用するので、rawバイトを含むマルチバイト文字列では不正確な結果を生成するかもしれない(テキストの表現方法を参照)。rawで正確な結果が必要なら、エンコードして文字列をユニバイトにすること(明示的なエンコードとデコードを参照)。
この関数はassoc
と同様に機能するが、keyは文字列かシンボルでなければならず、比較はcompare-strings
を使用して行なわれる。テストする前にシンボルは文字列に変換される。case-foldが非nil
なら、keyとalistの要素は比較前に大文字に変換される。assoc
とは異なり、この関数はコンスではない文字列またはシンボルのalist要素もマッチできる。特にalistは実際のalistではなく、文字列またはリストでも可。連想リストを参照のこと。
バッファー内のテキストを比較する方法として、テキストの比較の関数compare-buffer-substrings
も参照してください。文字列にたいして正規表現のマッチを行なう関数string-match
も、ある種の文字列比較に使用することができます。正規表現の検索を参照してください。
照合ルールとlocaleにたいする依存関係についての詳細はThe Unicode Collation Algorithmを参照のこと。GNU Cライブラリー(glibcとも呼ばれる)のような一部の標準CライブラリーはUCA(Unicode Collation Algorithm: Unicode照合アルゴリズム)の大部分を実装しており、関連のあるlocaleデータやCLDR(Common Locale Data Repository: 共通ロケールデータレポジトリー)を使用する。
Next: 文字および文字列の変換, Previous: 文字列の変更, Up: 文字列と文字 [Contents][Index]