关于数据采集需求的讨论帖

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3203 天前的主题，其中的信息可能已经有所发展或是发生改变。

我们是马不停蹄不停迭代产品的小团队！感谢大家的各种意见。这个帖子里，我想跟大家认真讨论一下，大家平时写爬虫会是想采集什么数据，对一个通用爬虫，或者如果你们想定制爬虫，又会有什么要求。

另外，欢迎来看我们的新 ui ：全新 ui 的造数页面在这里

论坛已经搭建好了，正在构思放什么资源上来方便大家，也欢迎意见。

第 1 条附言 2017-01-11 11:38:32 +08:00

搭了一个论坛，准备发布资源，也方便大家讨论数据方面信息。

https://forum.zaoshu.io/

第 2 条附言 2017-02-06 11:58:52 +08:00

我们精心制作了功能视频：

?from=s1.8-1-1.2&spm=a2h0k.8191407.0.0

采集

讨论

意见

虫

62 条回复 2017-01-20 14:42:05 +08:00

Powered

2017-01-10 12:18:41 +08:00 via iPhone

爬虫没太大技术含量

syk

2017-01-10 12:19:07 +08:00

在一家在线销售餐饮设备的公司干过，主要收集的最多就是淘宝同类商品价格，图片，商品链接。其次就是同类竞争商家网站销售的设备设备种类！

GrahamCloud

2017-01-10 12:56:00 +08:00

@Powered 你这个没说错，技术含量体现应该是通用性，优化存取和针对策略上。

GrahamCloud

2017-01-10 12:56:16 +08:00

@syk 求使用建议

xiamx

2017-01-10 13:31:18 +08:00

希望定价能显示在主页上

imn1

2017-01-10 13:49:42 +08:00

简单说，数据有效期达到按年为单位的，都是值得保留的
时效越短，其专用性质越强，就是使用人群越单一

GrahamCloud

2017-01-10 14:04:22 +08:00

@imn1 这个点非常对。

GrahamCloud

2017-01-10 14:04:36 +08:00

@xiamx 什么定价

langmoe

2017-01-10 14:07:54 +08:00

通用的。。比如这货？
http://www.shenjianshou.cn

yuntong

2017-01-10 14:11:55 +08:00

不好用...

zhaixiaohu

2017-01-10 17:40:31 +08:00

怎么一直都是正在爬取，看不了结果

GrahamCloud

2017-01-10 18:09:12 +08:00

@langmoe 方向不一样，我们想让用户完全不用写代码。

GrahamCloud

2017-01-10 18:09:26 +08:00

@zhaixiaohu
@yuntong 求告知问题

txlty

2017-01-10 18:37:34 +08:00

站长圈子有个古老的产品，叫“火车头”。

langmoe

2017-01-10 18:39:40 +08:00

@GrahamCloud 是不用写，神箭手做的就是这一块市场。开发者负责提交不同网站的爬虫规则换取报酬，而真正需要爬虫的用户，只需要在商城查找并购买规则，就可以拿到源源不断的数据。

kindjeff

2017-01-10 19:29:59 +08:00 via iPhone

微博的数据啊，但是爬起来很困难。

分析微博粉丝结构，评论转发点赞的人的结构还有趋势。

frankzeng

2017-01-10 21:22:25 +08:00

要一个输入商品的 url 就能获取到他的价格，名称，分类，图片这些

yuntong

2017-01-11 08:54:40 +08:00

@GrahamCloud 估计是我采用墙外连接的原因...分析时间长并且超时...
所有需求你懂的...

还是用自己专门定制的爬虫机器人靠谱啊...

GrahamCloud

2017-01-11 11:39:11 +08:00

@langmoe 这个模式有意思

GrahamCloud

2017-01-11 11:41:38 +08:00

@frankzeng 这个是基本需求，目标网站一般是哪些

GrahamCloud

2017-01-11 11:42:51 +08:00

@yuntong 只能尽量让你不用写然后省点力，然后再说靠谱的事，暗坑太多了现在。

GrahamCloud

2017-01-11 11:43:11 +08:00

@txlty 火车头我晓得。

skywayman

2017-01-12 12:03:20 +08:00

@Powered 把 facebook 的 js 动态生成页面+5 年以上的瀑布流数据+5W 人数据爬出来我就服...
@GrahamCloud 能爬社交网站么?

GrahamCloud

2017-01-12 12:29:30 +08:00

@skywayman 部分可以，很多反爬的还搞不定。

quericy

2017-01-12 13:01:24 +08:00

这么久了,上次那个遮罩的问题还是没搞定么...

GrahamCloud

2017-01-12 13:19:40 +08:00

@quericy 遮罩意外的不好解决，我们会在年前再出一版再应对一下。

Powered

2017-01-13 11:56:49 +08:00

@skywayman 普通爬虫原理不简单?下载页面--->解析--->持久化
有很多反爬虫机制的网站为什么要去爬?显得你牛逼吗

skywayman

2017-01-13 12:13:49 +08:00

@Powered 说得不错,普通爬虫的确是这样,但也有很多爬虫不是这样的,却被你一句:爬虫没太大技术含量全盘推倒.
没含量你写个超过谷歌,百度的好了,瞎嚷嚷,还"为什么要去爬?显得你牛逼吗",你 CEO 还 CTO 啊?公司业务是你我一个码农说不爬就不爬的?不想干就滚蛋...

Powered

2017-01-13 18:58:29 +08:00 via iPhone

@skywayman
最 low 的辩论者往往会举一些吓唬人的例子，你用你的脑袋去想一下人家为什么要反爬虫，为的是什么？我猜为的就是防范你这种恶意爬取，消耗带宽和吞吐量的人吧。公司的业务是这个，我也是醉了。。。靠爬一些很难爬到的数据活着的公司，我也只能想到黑产了。唉。

voidtools

2017-01-13 21:39:10 +08:00 via Android

小额的数据，纯个人需求，用自动翻页，正则就行了。 JS 动态搞不定。

skywayman

2017-01-13 21:50:44 +08:00

@Powered 你还在象牙塔吗? 法律规定不能杀人,还有人杀吧, 别人反爬就不能爬了? 智商捉急...
最近团队有个项目就是为 Party 做爬虫,就是爬你说的这种反爬虫的网站. 舆情听说过吧,算了,可开阔你眼界的.奈何你...!
朋友,凡是你浅尝辄止过都不要说简单, 做不到的不是别人 low,反而是你自己,开阔点眼界吧,对将来有好处!

Powered

2017-01-14 09:07:49 +08:00 via iPhone

@skywayman

对于你这种人，现实生活中感觉应该没人跟你做朋友吧。我也不想跟你耗费口舌，毕竟键盘侠我甘拜下风。被狗咬了，我不至于咬回去。掉价。

SlipStupig

2017-01-14 09:35:55 +08:00

穷码农创业三俗：爬虫、微信、直播间，作为一个其中一员给你一些建议（觉得不好当我胡说）：
1.产品定位很重要别想解决所有的问题，码农创业很容易只想技术而忽略商业，我认为你这种东西方式上就不可能抓取特别复杂的页面，还是那个话，你这种东西只能给一些公司非技术人员用，爬虫在 ETL 这个环节内，解决的是 E 的问题，我朋友她们公司是做电商的有 10 多人的运营团队除了日常工作外额外就是每天人肉去网上找图找文章（老板觉得养个程序员没必要，反正找不到文章的开除），你这个很容易解决她们的难处

2.对用用户权限自由度的把握，你既然想着户有足够的自由度，例如反抓取这些事情，你就不要管了，这些都是用户来决定，你提供解决方案的 API 就行，如果你不想用户去解决，那你就尽量不让用户插手，这个是一个侧重关系

3.盈利模式这块早期越单一越好，路想太多了，容易没路走

GrahamCloud

2017-01-16 11:44:44 +08:00

@SlipStupig 求加微信， Zaoshuio

GrahamCloud

2017-01-16 12:15:40 +08:00

@SlipStupig 说的确实好啊

copperusher

2017-01-16 13:49:00 +08:00

这个方向肯定没问题的，国外早就这样的网站了。关键是做得怎么样，以及如何找到用户。如果不能把这个工具嵌入用户现有的业务流程，那就很难把它发展起来。可以在网站首页给出你们设想的具体用户案例，那样更有说服力。

j4fun

2017-01-16 14:01:12 +08:00

使用感觉。。好像速度特别慢，点了个示例上的 github trending ，上了个厕所回来还没好，不知道是不是姿势不对。（是不是需要控制一下每次爬取的数量，或者时间这样的。不要一次爬到完。）
恩。其实我觉得， 2C 和 2B 要想好吧， 2B 就简单一点，但是竞争会多一些吧。
2C 的话技术含量会高一些，爬社交之类的有反爬系统的会比较多。（不过有被 LOW 的风险？不懂~）

GrahamCloud

2017-01-16 14:12:11 +08:00

@j4fun 现在是 to B 方向，目前通用遇到的暗坑很多。

GrahamCloud

2017-01-16 16:37:26 +08:00

@j4fun GitHub 好像今天是有一些问题，其他的您这边反应如何？

j4fun

2017-01-16 16:51:51 +08:00

@GrahamCloud 下午又试了一次很快就出来了。。效果不错:)

skywayman

2017-01-16 19:13:13 +08:00

@Powered 鄙视技术没含量的是你,说别人 low 的也是你,指桑骂槐说别人是狗的还是你,说越多好像越来越暴露你的本性了,原来你是这样的人!一开始就把自己摆在所谓的道德制高点来俯视别人,你这种二逼+傻叉在我十多年上网史中见得多了,宠辱不惊!

GrahamCloud

2017-01-17 11:53:38 +08:00

@j4fun 谢谢，有哪里不爽您马上告诉我。

GrahamCloud

2017-01-17 11:55:44 +08:00

@skywayman 别在意这个，别在意。说爬虫技术含量低是说我们业务呢，您跟着不开心就不好了。

jiangzhuo

2017-01-17 12:13:07 +08:00

觉得用过功能最好的算是 diffbot ， API 设计也最合理

GrahamCloud

2017-01-17 12:32:57 +08:00

@jiangzhuo 努力的方向啊

renyiqiu

2017-01-17 13:01:17 +08:00

怎么收费

GrahamCloud

2017-01-17 13:18:57 +08:00

@renyiqiu 数据方面有什么需求么？求加微信 Zaoshuio

GrahamCloud

2017-01-17 13:27:45 +08:00

@Powered 求建议求意见求反馈。

Hansah

2017-01-17 15:17:11 +08:00

我不是程序员。。。我觉得免费的火车头都比现在大部分 web 爬虫要好用多了，也易用多了， so ？

GrahamCloud

2017-01-17 15:43:45 +08:00

@siknet 这个信心我们还是有，欢迎比对。

jiangzhuo

2017-01-18 12:05:46 +08:00

@GrahamCloud
@siknet
作为一个程序员，安装完火车头后搞了 5 分钟后还没有弄清楚怎么用就已经把这软件卸载了。
造数胜在操作简单，基本只有鼠标操作。
当然作为程序员来说最省事还是写个正则或者 chrome 里复制粘贴一个 selector

Hansah

2017-01-18 15:11:17 +08:00

@jiangzhuo 火车头都不用写正则。。。连我这种野路子都会用

GrahamCloud

2017-01-18 15:32:26 +08:00

@jiangzhuo 我们现在也是这个初心，希望不会编程的能够迅速上手。

GrahamCloud

2017-01-18 15:32:47 +08:00

@siknet 您这边一般采集什么数据，看看能不能帮上啥

Hansah

2017-01-18 15:40:57 +08:00

@GrahamCloud 主要还是不规则页面，火车头琢磨下应该能搞定，只是最近在忙别的没空弄。
zaoshu 对不规则页面比较吃力吧？我用过一会，个人愚见，非找茬。

这两个页面应该算不规则页面，我拿火车头没搞定

http://cn163.net/archives/24280/

http://videos.yizhansou.com/4342

GrahamCloud

2017-01-18 16:55:47 +08:00

@siknet 超欢迎意见，求加微信 Zaoshuio

sohoer

2017-01-19 13:11:53 +08:00

@GrahamCloud 楼主看看我的项目

www.feeddiy.com

www.newcrawler.com

GrahamCloud

2017-01-19 16:02:51 +08:00

@sohoer 求加微信求加微信！ Zaoshuio

Limius

2017-01-19 17:04:26 +08:00

居然没有童鞋说到爬人行征信、各种电商网站里订单数据、送货地址（在已登录的前提下）这种数据，这很赚钱的啊。。。

P2P 金融互联网产品狗爬过。。。

GrahamCloud

2017-01-19 18:38:40 +08:00

@Limius 这个很对啊

td width="auto" valign="top" align="left">

bzzhou

2017-01-20 13:42:41 +08:00

太慢了
基于渲染的方式来抓取，玩玩小规模数据还可以，大规模抓取要消耗的资源可不是一般人可以承受的（当然，这种情况一般都可以定制了）。

从目前了解，如果纯粹是为了降低抓取门槛，八爪、火车头等一堆方案；如果是满足大规模的采集需求，这种一般都是定制开发。

GrahamCloud

2017-01-20 14:42:05 +08:00

@bzzhou 现在这版问题确实多，年后会进一步迭代。