Splitterの選択
Up to table of contents手軽さでは CJKSplitter +カタカナパッチ をお勧めします。
Spiltterは大別して形態素解析タイプとN-gramタイプがあり、形態素解析タイプは辞書のメンテナンスが必要だったり、辞書に無い文字列の扱いがユーザーの期待に沿わない場合があるようです。
Spiltterの比較については、 fukamachiさんの日記 が詳しいので参照してみてください。またCJKSpiltterのカタカナパッチについても同サイトに記述があります。このパッチについては、以前に lirisさん が作者にパッチを送っているようですが、まだ反映して貰えていないようです。
Mac OS X用には、ことえりを辞書に使用した形態素解析タイプのSplitter、 AJModule があります。詳しくはmooyaさんのサイト UkiUki を参照してください。
Note
Splitterは文字列を分割するプログラムです。この分割方法が、検索を行っ たときに期待する単語が正しくヒットするかどうかに影響します。英語文章 の場合、例えば forward と for は違う単語なのでforを検索した ときにはforwardが検索対象にならない方が良い場合が多いことになります。 このようなことが起こらないように、英語であれば空白を単語の区切りとし て分割するSplitterを利用して、単語が完全一致するものを検索対象として 抽出することになります。
しかし、日本語の場合区切りを簡単には判別できません。そこで形態素解析 を用いたり、ローマ字・平仮名・カタカナ・漢字を文字の境界としたり、と いう工夫をする必要があります。
このように、Plone-2.1.2標準では日本語などの空白区切りではない文章を うまく分割できないため、上記で説明したようなSplitterを導入しないとう まく検索できません。
This FAQ applies to: Plone 2.1.x, Plone 2.0.5