捜狗実験室の中国語データ

uof

中国語のピンイン入力法である捜狗輸入法やウェブページの自動分類を公開している捜狗実験室だが他にも重要なデータを公開している。中でも最もよく使われる中国語約15万語の使用頻度と品詞分類を記したデータベースや4千万のウェブページから採集された中国語コーパスのデータベースが注目される。これらデータは捜狗のクレジットさえ入れればどんな非商用プロジェクトにも自由に使用できる。

互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。
语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。
应用案例:中文词性标注、词频分析等。

http://www.sogou.com/labs/dl/w.html
http://www.sogou.com/labs/dl/t.html