![]() | 1 zhendi 2011-04-03 18:16:45 +08:00 ![]() |
![]() | 2 xinzhi 2011-04-03 18:19:26 +08:00 各种Readability实现都是获取页面容器包含内容长度最大的部分。 |
3 disinfeqt 2011-04-03 18:55:45 +08:00 ![]() 其实是 Marco 手动复制粘贴的。 |
![]() | 4 lianghai 2011-04-03 19:07:39 +08:00 ![]() 其实是 Marco 高薪吸引全球点击工跳槽。 |
![]() | 5 iiduce OP |
![]() | 7 xds2000 2011-04-03 21:34:06 +08:00 贴点硬头货 /* * Readability. An Arc90 Lab Experiment. * Website: http://lab.arc90.com/experiments/readability * Source: http://code.google.com/p/arc90labs-readability * * "Readability" is a trademark of Arc90 Inc and may not be used without explicit permission. * * Copyright (c) 2010 Arc90 Inc * Readability is licensed under the Apache License, Version 2.0. * * This version has been modified by Instapaper, LLC. * Uncompressed source of the modified version is available at: * http://www.instapaper.com/Javascript/ipreadability-1.7.1.js **/ // DEFLATE, base64 by Dan Kogai http://github.com/dankogai/ 还是有点意思的。 |
![]() | 8 claliu 2011-04-13 19:01:13 +08:00 http://www.keyvan.net/2010/08/php-readability/ 这里有Readability PHP移植 并公布了源代码 Keyvan是 http://fivefilters.org/ 的作者 |
![]() | 9 mywaiting 2011-04-13 20:03:45 +08:00 Mark 一下,马上就要用到这个。。。 |
![]() | 10 sogood 2011-04-14 08:49:36 +08:00 哇,居然有开源代码,不错。 不知道跟神经网络的联系在哪里,回头看下源码。 感谢各位的分享。 |
![]() | 11 xatest 2011-10-16 13:24:15 +08:00 Instapaper对于豆瓣条目的评论识别正文经常出错~ |
![]() | 12 ywjno 2011-10-16 13:42:39 +08:00 也有可能是通过正则来取得正文的,请看这个项目,http://github.com/plukevdh/readability |
![]() | 13 XnEnokq9vkvVq4 2011-10-16 14:05:59 +08:00 根据我的使用经验,Readability比Instapaper Text的准确率高一些。后者可能是一种秘而不宣的技术。。 |
![]() | 14 Numbcoder 2011-10-16 21:27:27 +08:00 以前还以为是通过RSS识别的。 |
![]() | 15 xohen 2011-10-16 21:35:16 +08:00 一直用read it later http://readitlaterlist.com/ 浏览器插件抓取,android上通过app阅读。 感觉Instapaper在V2EX受众更多一些? |
![]() | 16 xohen 2011-10-16 21:36:23 +08:00 在我记忆中,readitlaterlist不能抓取的页面包括豆瓣日记和新浪博客的文章 |
![]() | 17 acdea4effdbb420d 2011-10-16 21:40:13 +08:00 @xohen 我之前也一直用的readitlater,instapaper出来之后我发现它能导出到epub,这对eink用户来说是福音,就换到instapaper了 |
![]() | 18 leojoy710 2011-10-16 21:45:16 +08:00 |
![]() | 19 ywjno 2011-10-17 11:06:11 +08:00 抱歉之前写的那个是错的项目,这个才是我说的通过正则查询正文的东东, https://github.com/scyclops/Readable-Feeds/blob/master/readability/hn.py |