MapReduceに代わる新しいインデックスシステムPercolator

グーグルの新しいインデックスシステムであるカフェインCaffeineで、グーグルはMapReduceに代わりまだ人に知られていないPercolatorを採用した。Percolatorはインクリメンタル処理する検索インフラストラクチャーで持続的にインデックスを更新するため、一から再度インデックスし直す必要がない。MapReduceのようなバッチ処理システムでは大量のデータを生み出し、小規模のデータ更新はできない。Percolatorはこの問題を解決し、一日で同数量のドキュメントを処理したとき、Percolatorでは検索結果ページのドキュメント年齢を半減することができるという。

Google Caffeine ― the revamped search infrastructure recently rolled out across Google's worldwide network of data centers ― is based on a distributed data-processing system known as Percolator. Designed by Google and, until now, jealously guarded by Google, Percolator is a platform for "incremental processing" ― a means of continually updating the company's epic search index without reprocessing the entire thing from scratch.

http://www.theregister.co.uk/2010/09/24/google_percolator/

By replacing a batch-based indexing system with an indexing system based on incremental processing using Percolator, we process the same number of documents per day, while reducing the average age of documents in Google search results by 50%.

http://research.google.com/pubs/pub36726.html