
1 vibbow 2013-09-09 04:13:39 +08:00 我觉得直接抓包android版的API更具有可行性...... |
2 byron OP @vibbow 这点儿还没睡? 我目前就会做个简单的爬虫,像抓包什么的api什么的安卓什么?的,实在是心有余而力不足啊。 |
3 Gawie 2013-09-09 08:32:20 +08:00 同样学习python爬虫中~~~ |
4 missdeer 2013-09-09 08:37:06 +08:00 整天只用ssh登录控制台使用机器的表示感谢! |
5 Ansen 2013-09-09 08:44:34 +08:00 python新新手学习了, |
6 roricon 2013-09-09 12:46:02 +08:00 用scrapy呗。很好的爬虫框架,简单易用。 说实话,用re直接处理html实在是太痛苦了。 用scrapy可用它内建的XPathSelector。 不想用框架的话可以用beautifulsoup。 |
7 byron OP |
8 yanwen 2013-09-09 12:55:40 +08:00 py 3 可以用?? |
9 byron OP |
12 chunchu 2013-09-10 11:06:24 +08:00 为什么我看到的是乱码? |
13 byron OP |
14 zhttty 2013-09-10 12:26:26 +08:00 写的不错,可以用...不过有些内容会被截断,就是一句完整的话有部分不见了... 不过建议作者可以将图片链接也抓出来,保存成形如 [http://xxx.jpg] 形式,这样可以复制链接在浏览器上看。 |
15 csx163 2013-09-10 12:39:13 +08:00 我记得他的RSS有当日热门的 |
18 spark 2013-09-11 12:16:16 +08:00 via iPhone 楼主可以尝试Pyquery |
20 pandada8 2013-09-11 21:19:06 +08:00 via Android @byron bs4基于正则 嗯 are you sure?bs4是基于dom的吧 如果觉得慢的话可以使用lxml + bs4的组合 soup = BeautifulSoup(html,“lxml”) #如果我没记错的话 |
21 fengyuanjs 2013-09-11 23:22:23 +08:00 在oschina也看到楼主发了 |
22 byron OP |
25 guangwong 2013-09-18 01:40:16 +08:00 pyquery、phantomjs、pyv8些多好 = =。 |
26 Crossin 2013-09-18 01:46:08 +08:00 via Android 这不是byron嘛,来顶你一下 |