yahooがtwitterでニュースをフィルタリング

google newsやyahoo newsなどのサービスは往々にしてtwitterなどの速報性の高いサービスよりも遅めになる。ページランク・スタイルのアルゴリズムは新しいurlが十分なリンクをかき集めるまで時間が必要であるし、googleが採用しているクラスター・サイズをもとにニュースの注目度を図るやり方でも別のソースが同じニュースを取り上げて初めて成り立つものだ。そこでyahooはニュースの重要性と速報性でまさるtwitterをもとにyahoo newsをランク付けするサーチ・エンジンであるtweetNewsをリリースしたもの。yahoo newsはニュースが出たときのタイムスタンプを見てランク付けしているが、それだとニュース内容の関連性は無視されてしまう。これを補うためにyahooのエンジニアVik SinghによるtweetNewsではyahooのオープンソースのサーチ・エンジンであるBOSSを利用して直近のtweetsをモニタリングして最も新しいトピックを特定しyahoo newsの中から選び出すようにした。

Now, Yahoo is using the immediacy of Twitter to make its own news service better: the company's researchers have launched a simple search engine called TweetNews that ranks Yahoo News stories by using information about the most recent, frequently-tweeted topics on Twitter. [...] Yahoo researcher Vik Singh explains in a blog post that normally, "recent" Yahoo News stories are ranked according to the time at which they are published--a measure that effectively ignores the wider relevance of a story. To get around this problem, Singh tapped BOSS, Yahoo's open-source search engine, to built a specialized search engine that monitors recent tweets to determine breaking topics and select relevant stories from Yahoo News.

http://www.technologyreview.com/blog/editors/22511/

Freshness (especially in the context of search) is a challenging problem. Traditional PageRank style algorithms don't really work here as it takes time for a fresh URL to garner enough links to beat an older high ranking URL. One approach is to use cluster sizes as a feature for measuring the popularity of a story (i.e. Google News). Although quite effective IMO this may not be fast enough all the time. For the cluster size to grow requires other sources to write about the same story. Traditional media can be slow however, especially on local topics. I remember when I saw breaking Twitter messages describing the California Wildfires. When I searched Google/Yahoo/Microsoft right at that moment I barely got anything (< 5 results spanning 3 search results pages).

http://zooie.wordpress.com/2009/01/15/twitter-boss-real-time-search/
http://tweetnews.appspot.com/fresh?q=yahoo