RT。求推荐,Lucene+、utch 太老了

1 marchtea Nov 22, 2013 关注,同求解答 |
2 9hills Nov 22, 2013 定向抓取,问问Spider的RD就好了。 不过自己搞的话量不大的用Scrapy不错,有个参考 https://github.com/gnemoug/distribute_crawler 用Mongodb做存储,Redis做分布式队列 |
3 binux Nov 23, 2013 我开源一个吧,特性: * web方式写脚本+调试(甚至支持webdav通过外部编辑器编辑) * web管理查看进度,调整抓取速度,异常监控(用于监控模板变化) * 脚本支持定时,完全的抓取控制 * 多种调度方式(时间,etag,前链特殊标记调度) * 单机或分布式部署方式 * 支持多种底层存储方式,多种QUEUE方案,多下游 |
4 richiefans Nov 23, 2013 @binux 太支持了 |
5 jiankangxin OP 最后自己写了个简单的spider |