ウェブページから自動的に情報抽出するTextRunner

5億以上のウェブページで使われている言葉の関係を自動的に分析して情報を抽出するツールがワシントン大学によって作られている。このツールは同大学で開発されたテキストランナーTextRunnerをスケールアップしたもので,分析するウェブページの数と扱うトピックの範囲の広さのいずれにおいても向上している。こうした自動的情報抽出は,いままで以上に賢い次世代のウェブ検索の基礎をなすものとされている。TextRunnerで注目される点は,人の手を介さないのでスケープアップがいくらでも可能なこと。TextRunnerの分析に使われているウェブページのデータベースはgoogleが提供している。またgoogleにおいても同様な方法が限定的にではあるけれども実際に使われている。TextRunnerは英語の特徴的パターンである主語述語目的語というトリプルに注目して情報を取り出すほか,自然言語分析による類推エンジンとしての起点ともなる。

A software engine that pulls together facts by combing through more than 500 million Web pages has been developed by researchers at the University of Washington. The tool extracts information from billions of lines of text by analyzing basic relationships between words. Some experts say that this kind of "automated information extraction" will likely form the basis for far more intelligent next-generation Web search, in which nuggets of information are first gleaned and then combined intelligently.

http://beta.technologyreview.com/computing/22773/
http://research.google.com/pubs/NaturalLanguageProcessing.html