オープンソースとなったFiveFilters

google readerにおいてサマリーなfeedをフルテキストrssで読めるようにするには、firefoxgreasemonkeyのユーザースクリプトgoogle reader full feed changer使う方法がある。しかし、xpathを見てコンテンツ部分を自分で探し出してから、firefoxのプロファイル・フォルダの中にあるgm_scriptsフォルダのスクリプト・ファイルをテキストエディタで開き、SITE_INFOの部分にフルテキストで読みたいfeedの情報を書き加えていくなど手順を踏まなければならない。また必ずしもすべてのサイトで成功するとも限らないなど不便もある。今年3月には部分的feedから全文feedを書き出すFiveFiltersがオープンソースとなりすべてのコードを公開しており、PHP 5.2を支持するマシン上で使えるようになっている。しかしその核心部分はreadability.phpで、ここにフルテキストで読みたいfeedの情報を書き加えていくことで全文feedを書き出しを実現している。FiveFiltersが正常に書き出せない場合には自分でreadability.php中の該当サイトの書き出しルールを修正していく必要があり、とどのつまりはgoogle reader full feed changerと同じ手間を踏むことになる。readability.phpはarc90のreadabilityを原則としている。readabilityは元来ウェブサイトをきれいに簡潔に表示するためのブックマークレットなのだが、readabilityがウェブの変更部分のコンテナを表示してくれるサービスを加えてくれれば、全文feedを書き出しで非常に便利に使えるようになることだろう。

这个程序的核心是readability.php文件,它负责判断当前网页中,那一部分属于页面的主要内容,然后将其抓取出来。实现原理照搬了arc90的ReadAbility脚本。简单说,思路是这样的:1)检查页面中所有p元素的父容器;2)根据相关特征,为每一个父容器计算一个特征值;3)特征值最大的容器,就是放置主要内容的容器。具体实现请阅读代码,源码写得非常清晰,而且有详细的注释。如果遇到不能抓取全文的Feed,你就要自己修改readability.php,增加相应的规则。比如,在我提供下载的代码中,我就设置了新浪网的规则,新浪网的全文Feed就能自动生成了。

http://www.ruanyifeng.com/blog/2010/04/the_solution_of_full_text_feed.html
http://d.hatena.ne.jp/huixing/20080616/fulltext
http://userscripts.org/scripts/show/19949