ネット上の少数言語救済する長岡技科大の言語天文台研究

文字コードが未開発のため,ネットで疎外されている少数言語を救済しようという「言語天文台」研究。カンボジア語ビルマ語あると便利だな。

世界中のホームページ(HP)を“観測”して言語情報を収集、集めた言語が何語かを自動判別する独自の手法を開発、データは各言語の文字コード開発に役立てる。研究を行っているのは三上喜貴教授(経営情報系)の研究室。世界に100億以上あるHPを検索ソフトで3年間かけて巡回。コードがない言語でも「言語の指紋」ともいわれる文字の配列、分布の特徴で何語かを自動的に判別する。同研究室はこの手法を特許申請した。

http://it.nikkei.co.jp/it/news/index.cfm?i=2004021807877j0
http://www.amazon.co.jp/exec/obidos/ASIN/432012040X/249-4111303-1644350