新入职,加这周才 2 周
老大这周一给我一个任务
爬 tmall 店 铺商品列表
我只想说,周一到现在,我感觉我要自闭了
1 wangkun025 2020-09-25 15:55:21 +08:00 这个……食宿免费? |
![]() | 2 kop1989 2020-09-25 15:57:06 +08:00 ![]() 动物节点可还行,码畜坐实了。 慢慢学习,程序员算是少有的知识就是力量的职业了。 |
![]() | 3 feiniu OP @wangkun025 晚上还是要回去的 |
![]() | 5 gou7ma7 2020-09-25 16:25:27 +08:00 via Android 啥外企啊还爬,话说是不是真的 955 啊?我也在深大地铁站附近。 |
![]() | 6 wysnylc 2020-09-25 16:27:14 +08:00 迟早进去 |
7 caicaiwoshishui 2020-09-25 16:48:59 +08:00 via iPhone Github 没有这种轮子吗?可以查下 |
![]() | 8 tomczhen 2020-09-25 18:03:00 +08:00 via Android ![]() 淘宝系的正常使用如果浏览快点都给你弹各种验证码,写爬虫还不如多顾几个大学生手工录入。 哦,不对,应该叫大数据实习生。 |
![]() | 10 feiniu OP @caicaiwoshishui 没找到轮子。。。 |
![]() | 12 Cooky 2020-09-25 18:36:55 +08:00 via Android selenium 慢点跑? |
13 TimeRain 2020-09-25 18:54:39 +08:00 这种爬虫公司蛮危险呀,爬虫一时爽,终身火葬场 |
![]() | 14 helloworld2010 2020-09-25 19:05:23 +08:00 就写个爬虫而已,都开始怀疑自己能力了,建议先熟悉下 web 接口的一些规范,json/graphql 等等,html/css/js 也是。 |
![]() | 15 feiniu OP @helloworld2010 有过一年的前后端开发经验的。这个淘宝这个风控是真的牛皮...... |
![]() | 16 v2hh 2020-09-25 20:20:19 +08:00 ![]() 不要爬,真是经历,一个朋友公司爬的淘宝直播数据,他写的那部分代码,现在还在派出所,已经快有半个月了,公司老板目前还没事。 |
17 zixianlaiye 2020-09-25 20:21:02 +08:00 ![]() 这种任务也是 nb,天猫的风控你要是这么容易写一个自动化爬取的,阿里那帮人的工资白开了 |
![]() | 18 sixway 2020-09-25 20:44:01 +08:00 这个需要高质量的代理池,不然是无解的。 |
![]() | 19 LiuJiang 2020-09-25 20:45:58 +08:00 这不赶紧跑,想啥。。。 |
![]() | 20 asdf2020 2020-09-25 20:46:11 +08:00 记得淘宝系的最难抓取,有同事尝试是借了好多账号,然后控制频率才搞定,切换 IP |
![]() | 21 HFX3389 2020-09-25 20:47:06 +08:00 爬淘宝天猫说实话,就算能爬,也很难做自动化,分分钟风控,什么验证码就来了 而且 爬虫写的好,牢饭吃到饱 可不是一句空话 |
![]() | 22 gou7ma7 2020-09-25 22:06:22 +08:00 via Android @feiniu 当时杭州有个公司,在本站也是招聘的时候说 955,然后面试的时候给我说。刚去肯定会加班,然后我就没去。 |
![]() | 23 gouflv 2020-09-25 22:14:27 +08:00 via iPhone 确实不适合,换个正常的公司 |
![]() | 25 XD2333 2020-09-26 00:01:25 +08:00 不如去看看官方的接口,我记得这个你这个还是有的,没必要一个树上吊死。 |
26 jon 2020-09-26 00:16:05 +08:00 建议跑 |
27 TimeRain 2020-09-26 07:43:57 +08:00 实在不行换个公司吧,离爬虫远点比较好,爬虫个人感觉是离监狱最近的地方,别和我说公开数据可以爬,只要不影响到别人的业务就行,因为最终解释权在人家公司那里,他说你有罪大概率逃不掉,他没说不能做也不要掉以轻心,说不定有些公司就是专门搞这种爬数据的人 |
28 AJQA 2020-09-26 08:48:07 +08:00 ![]() headless chrome 加 上千个类似 aws lambda 他们总不能分辨是爬虫了吧? 因为上千个 lambda 肯定会有很多 ip? headless chrome 真实浏览器? |
29 leafre 2020-09-26 09:59:32 +08:00 难吗 |
![]() | 30 huai 2020-09-26 19:45:42 +08:00 via iPhone 所以爬取这种相当于公开的数据 也是违法?楼上可以证实?还是也是道听途说(提问 |