中国版茶筅の開発

茶筅を元にした利用制限のない中国語形態素解析システムを開発するプロジェクト。生テキストから抽出された語を人手でチェックして語彙を増やし、継続的に辞書のメンテナンスを行なうことにより清華大学のCseg & Tag1.0や北京大学のSLex1.1に匹敵するような形態素解析器を構成したいとしていて,やはり未知語を辞書にするには人手をかけて地道に構築していくしかないようだ。

未知語抽出器を用い、大量の生テキストから未知語を抽出し、人手でチェックして新たな語彙を獲得する方法を提案した。各要素技術の精度を表にまとめる。現在の登録語彙数は依然少ないが、今後引き続き作業を続けていくことにより、大規模な辞書を構成していきたいと考えている。

http://cl.naist.jp/~ling-g/
http://cl.naist.jp/~ling-g/doc/NL-2005.pdf