中国語ギガワードコーパス

中国語ギガワードコーパスは二種類のサブコーパスから構成されていて、ひとつは台湾の中央通信社、もうひとつは中国の新華社通信のサブコーパス。つまりギガワードコーパスは北京官話の二つの変種に関する巨大な新聞記事コーパスとのこと。

ギガワードコーパスでは、人手処理を介さずに、いかに高精度の研究用情報を付与するかが問題になる。現在の標準的な情報付与方式(特に品詞情報付与におけるそれ)では、自動解析結果を人間が修正している。しかしこの標準方法をギガワードコーパスに適用することは人間にとって負担が高すぎるため現実的でない。代替方式として、我々は台湾中央研究院で開発した自動品詞解析システムを利用した。このシステムはシニカコーパスのために開発されたものであるが、後にシニカコーパス全体(500万語)を用いた統計的学習を施し、さらに辞書適応モジュールと未知語検出モジュールとを追加実装している。その結果、自動的かつ効果的な品詞情報付与システムと完全なタグ付コーパスを提供することができている。
結論として、近年のコーパス言語学は、10億語規模のコーパス構築、その完全自動解析、そして言語知識の自動獲得を志向している。これらの方向の延長線上に将来のコーパスの姿が浮かびあがってくるであろう。

http://www.ilcc.com/language-corpora/abstract.html