1 simapple 2015-03-10 08:29:59 +08:00 简单的做urllib+re就可以,scrapy是一套框架,如果是工程项目,要考虑的深度 广度 并发控制 作业调度 等等 |
![]() | 2 limbo0 2015-03-10 08:44:46 +08:00 感觉xpath特别方便,是lz没找对方法把 |
![]() | 3 raptor 2015-03-10 08:51:45 +08:00 如果你的需求用requests+beautifulsoup就可以解决,那就这样做好了,最多加上gevent。 scrapy的强大在于配套功能非常多 |
![]() | 4 crazycookie/strong> 2015-03-10 10:58:46 +08:00 为啥不用xpath? |
![]() | 5 professorz 2015-03-10 14:07:29 +08:00 |
![]() | 6 yetone 2015-03-10 14:42:52 +08:00 pyquery 秒一切 |
![]() | 7 crazyxin1988 2015-03-10 14:44:41 +08:00 赶脚requests+beautifulsoup 就蛮好的 |
8 fumer 2015-03-10 16:05:13 +08:00 不需要用beautifulsoup |
![]() | 9 rhythmer 2015-03-10 18:17:56 +08:00 @limbo0 感觉xpath对于标准的html网页的处理还可以,但对于很奇怪的html网页我还不知道怎么抓取数据。最近打算从花瓣去抓图片,huaban.com/favorite/home,用scrapy的xpath就觉得很麻烦 |
![]() | 14 raptor 2015-03-11 10:42:52 +08:00 @professorz 官方文档说了很多啊,举例而言就有:它自带一个WEB管理界面,支持TELNET登录管理,有交互式SHELL可以调试对抓取内容的解析,内置多种中间件可处理SESSION,COOKIE,HTTP压缩,身份验证…… |
![]() | 15 raptor 2015-03-11 10:44:35 +08:00 顺便问一句,beatifulsoup真有这么好?我怎么觉得还是pyquery用起来更简单。 |
16 kingname 2015-03-11 12:33:10 +08:00 xpath秒杀bs4,beaitifulsoup4还是感觉不好用。 |