estraier開発メモでの言語の自動判定について

全文検索システムHyper Estraier開発メモでの言語判定についてのメモ。結局言語と文字コードの自動判定は完全ではないので,実用上はユーザが指定するのが望ましいとしていて,言語の自動判定は難しいとのこと。

"また、いわゆる文系の研究者が全文検索のヘビーユーザとして想定されるが、彼らにとってはフランス語やドイツ語や中国語の文献も扱えることが必要だろう。
ここで、文書の言語を判定する処理を考えねばならない。言語を判定しないと、形態素解析器を連携させられないからだ。"

こういうシステム的な事情をユーザに説明するのって心苦しいなぁ。ギャザラとインデクサの両方で言語判定をやっていることになるから、モジュール化の観点からも美しくない。いわゆるバッドノウハウはこういうとこから生まれるのかな。とはいえ、俺の頭ではこれ以上の妙案は思い付かない。大人の事情ってことにして、妥協するしかないのが現状だ。

http://qdbm.sourceforge.net/mikio/rbbs.cgi
http://chinese.g.hatena.ne.jp/Ctrans/20050114#p1