googleの中国語分詞処理

機械翻訳か音声識別などの応用別によって中国語の分詞処理は異なるように、googleの中国語分詞処理は葛顕平や朱安による独自の分詞処理系統を使っている。中国語分詞処理の意外な応用方法としては、英語の手書き書体識別がある。英語の単語間のスペースが判別しにくいので中国語分詞処理の助けを借りることになる。またgoogleでは言語処理のアルゴリズムを設計する際には100以上になる他の自然言語にも適用できないかを考えながら設計している。

用 “查字典” 法,其实就是我们把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如 “上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词,于是简单的分词就完成了。这种简单的分词方法完全能处理上面例子中的句子。八十年代,哈工大的王晓龙博士把它理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串。这种方法一个明显的不足是当遇到有二义性(有双重理解意思)的分割时就无能为力了。比如,对短语 “发展中国家” 正确的分割是“发展-中-国家”,而从左向右查字典的办法会将它分割成“发展-中国-家”,显然是错了。另外,并非所有的最长匹配都一定是正确的。比如 “上海大学城书店”的正确分词应该是 “上海-大学城-书店,” 而不是 “上海大学-城-书店”。
九十年代以前,海内外不少学者试图用一些文法规则来解决分词的二义性问题,都不是很成功。90年前后,清华大学的郭进博士用统计语言模型成功解决分词二义性问题,将汉语分词的错误率降低了一个数量级。

http://googlechinablog.com/2006/04/blog-post_10.html