海量haylandaとautonomyの合作した中国語データマイニング技術

ポータルサイトが競争の激しいインターネットにおいて勝つにはナレッジ・マネジメントが大切で,ナレッジ・マネジメントにはデータマイニングが欠かせない。中国語のデータマイニングにおいては単語分割技術を掌握しているかが鍵になる。海量haylandaの単語分割技術は中国で新華字典や現代漢語詞典を出している商務印書館の辞書制作のコーパス構築に採用されているほど水準が高い。世界でトップ水準にあるイギリスのautonomyは今年3月に正式に中国市場に進出したが,実は2年も前に海量と合作し海量がautonomyに提供したのが単語分割技術だった。現在,海量の単語分割技術は新華社,CRI,中国捜索などのサイトに応用されてきわめて好評だという。

实际上,基于语义的搜索,不过是“知识管理”众多技术中的一项。“知识管理”包括的内容非常丰富,如自动分类、自动聚类、自动查重、内容特征比对、内容识别与分析等都是其中重要的部分。目前,国内以海量公司为代表,已掌握了基于“语义数据挖掘”的成熟中文信息处理技术,这家公司也是目前唯一一家拥有此项产品的自主知识产权的提供商。
基于“语义词的数据挖掘技术”所推出的“竞争情报”系统,可以带给企业更为准确的中文信息内容,国外基于“语义数据挖掘技术”早已有应用,如著名的autonomy即是其中的代表。英国 Autonomy是世界上技术最为领先,产品最为优秀的不规整信息智能处理软件公司。该公司早就窥视到中文信息应用的巨大市场,并于今年3月,正式全面进驻中国市场。而鲜为人知的是,早在两年前,autonomy公司就与海量公司展开了合作,海量公司依靠优秀的海量中文智能分词技术,为Autonomy 提供全球范围内的中文语义计算的基础技术−分词。
“海量公司中文分词技术的精准率,大大超出了我们的预估,其中,基于语义数据挖掘的技术应用,对自然语言的理解精确度达99%以上。” autonomy底层技术研发中心的一位开发人员,在赞叹之余解释,这项技术的实现,绝非一年两年短时间内能完成,其中内容分工的细致与繁琐,超出了人们的想象;它不仅需要的是大量致力于“中文分词”相关技术的研究人员作日积月累的工作,同时,还得经历漫长的应用测试过程,可以说,技术应用的实现,堪称中文分词工程的“万里长城”。
据了解,目前海量公司中文分词技术基础之上已开发出的“竞争情报”系统,包括有自动聚类、自动分类、通过手工来进行情报管理和内部知识管理、关键词检索、逻辑检索、自然语言检索、相关文档等,并成功地应用于新华社、国际广播电台、中国搜索等网站,获得用户的极大肯定,基于海量中文分词技术更多方面的后续合作还在进行当中。

2001年海量依靠优秀的中文智能分词技术、中文自动词性标注技术、全文检索技术,中标《商务印书馆辞书语料库及编篡系统》。为商务印书馆开发《语料自动分词及标注系统》和《语料库全文检索系统》。系统实施后可以显著缩短辞书编纂周期,提高编辑工作效率。

http://it.sohu.com/20041010/n222406553.shtml
http://www.hylanda.com/market/shwysh.htm
http://www.hylanda.com/home.htm