最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:
但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:
https://sf.taobao.com/item_list.htm
正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒
更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~
请问该如何道高一尺魔高一丈?
![]() | 1 murmur 2022-02-23 13:59:12 +08:00 ![]() 这里有京东的人么,你们的法务部该行动了 |
2 9c04C5dO01Sw5DNL 2022-02-23 14:00:07 +08:00 ![]() 楼主可真刑啊 |
![]() | 3 cweijan 2022-02-23 14:00:58 +08:00 ![]() 对, 不能太频繁, 而且请求后要用新 cookie 替换掉当前 cookie |
4 registerrr 2022-02-23 14:01:33 +08:00 很可铐,我看刑 |
5 einq7 2022-02-23 14:03:36 +08:00 ![]() 我铐,家人们,太刑了,日子越来越有判头了 |
![]() | 6 westoy 2022-02-23 14:05:01 +08:00 ![]() V 站京东的程序员呢? 楼主这样挑衅你们能忍么? 快点去肝反爬 |
7 deplivesb 2022-02-23 14:09:24 +08:00 楼主离国家饭越来越近了 |
![]() | 8 SoulClinic OP 你们太纯真善良了,这些数据“好像”是公开的啊,已经有类似的 app 了,例如这个: https://www.yfbudong.com/ @cweijan 替换 cookie 我试了确实可行,但是只能人工,请教自动替换怎么整( puppeteer 有点点被阿里打压了一样) |
![]() | 9 YUyu101 2022-02-23 14:14:20 +08:00 对不知道有没有用无头浏览器爬的 |
![]() | 10 statement 2022-02-23 14:17:36 +08:00 看是否追究了 公开的数据爬应该可以 但可以给你安一个 破坏计算机系统罪 而且你爬公开信息 也只能自用 不能对外提供服务吧 |
11 QK8wAUi0yXBY1pT7 2022-02-23 14:19:36 +08:00 ![]() 我就正常用 Chrome 打开淘宝都时不时出现那个验证。 掏包网太瓷了。 |
![]() | 12 shakaraka PRO @SoulClinic #8 你知道什么是口袋罪么? |
![]() | 13 googlefans 2022-02-23 14:19:49 +08:00 @einq7 hahaha |
![]() | 14 SoulClinic OP 咱暂时的底牌就是:如果阿里的爬不到,就爬这个海豚网 大部分需要的阿里的数据好像在这个海豚里都有 |
15 TtTtTtT 2022-02-23 14:22:11 +08:00 @SoulClinic 马路也是公开的,也不能说躺就躺啊 =。= 公开和数据的归属权本来就是两回事。 |
16 ChicC 2022-02-23 14:22:26 +08:00 反爬做到牺牲用户体验了 |
![]() | 17 4BVL25L90W260T9U 2022-02-23 14:22:54 +08:00 ![]() 一谈爬虫就开始玩儿梗,要真去逆向板块反倒一群大佬能谈点技术。某些 V 友真是魔怔了,恨不得马上替阿里用口袋罪给抓住。就这个来说,去搜下各种指纹吧,TCP 指纹、TLS 指纹、浏览器指纹,会有些思路的。 |
![]() | 18 SoulClinic OP @wunonglin 不知道,听起来 Google 好像是罪大恶极了? 用户跟我说的主要目的就是节省用户(主要是律师)的时间 /效率,现在他们要一时搜京东,一时搜阿里,白花了很多时间精力 这就是货真价实,名正言顺的“为人民服务”啊!! |
19 Jooooooooo 2022-02-23 14:34:14 +08:00 @SoulClinic 公开数据当然不能随便爬. 搜 爬虫 坐牢 有惊喜. |
20 winnerczwx 2022-02-23 14:35:47 +08:00 @SoulClinic #8 绕过反爬已经属于违法行为了, 即使是公开信息... 只要对面公司起诉必被抓 |
![]() | 21 statement 2022-02-23 14:40:11 +08:00 ![]() @ospider 也不是单纯的玩梗 只是提示风险 毕竟已经有很多案例了 如果真想送你进去 一定可以送你进去。确实是违法的 只是影响力不大 没造成破坏和竞争 追究没有收益罢了 。 和建梯子出售差不多 道德上没啥问题但违法 你在这里说 肯定回你我看刑 你到相应社区就会和你交流技术 |
![]() | 22 gongquanlin 2022-02-23 14:40:11 +08:00 ![]() 淘宝连正常用户都 ban , 我正常访问都动不动出来个验证码反爬 |
![]() | 23 wanguorui123 2022-02-23 14:44:56 +08:00 准备免费就餐吗? |
![]() | 25 SoulClinic OP 这个违法问题咱是提前问了客户的啊,他说没问题,这是合法的 咱主要是冲着玩技术去,有点挑战更好玩 传说中爬虫都要用 Python 似的,咱可是要替 node/Javascript 取回公道啊 |
![]() | 26 SoulClinic OP 难道你们不想做黑客吗?不想的快去买一本《黑客与画家》 |
27 deplivesb 2022-02-23 14:54:59 +08:00 ![]() @SoulClinic #8 公开的数据不代表比可以通过非正常技术手段获取。给你找一些案例,https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China 这里面哪一个的数据不是公开的。说不好听的,如果你爬的是 gov 网站,请求量过大,把人家系统搞崩了。那反手就是一个 非法侵入计算机信息系统罪,给你说一个真事。我的一个同学现在在某银行的清算机构,今年年前因为要对接数字人民币,他的同事和数字人民的人测试联调,在测试环境,因为发送了较多的不合规的数据(测试嘛,再尝试各种条件下的错误之类的),被人家直接报警了。理由就是 “尝试” 进行破解,最后我这个同学的同事被派出所拉过去各调查问话,最后还被开除了。 所以说,远离爬虫,自己玩玩就行了,数据握在自己手里。别公开声张。你这个还用跑来的数据做小程序。然后后期再进行了盈利,那你真是离牢饭不远了 |
![]() | 28 westoy 2022-02-23 14:58:40 +08:00 |
![]() | 29 westoy 2022-02-23 15:00:19 +08:00 |
![]() | 30 lithiumii 2022-02-23 15:00:35 +08:00 确实没见过能绕过阿里的滑块的爬法,正常使用都会跳,何况爬虫。淘宝天猫还好,印象中考拉和高德之类的阿里系,同款滑块但要求更严,真人正常使用都会滑不过 |
![]() | 31 herozzm 2022-02-23 15:02:50 +08:00 via Android ![]() |
![]() | 32 ElegantOfKing 2022-02-23 15:07:08 +08:00 ![]() 真的违法。客户说不违法,那是客户不知道的。 我关注的一个博主,爬虫能力特别强,做了所谓的淘宝每日商品排名,主要是免费提供给大家看看热度。直接被淘宝的律师警告+杭州法院出庭。从此之后他没再碰淘宝的任何业务。 他免费的都栽了,更何况你这都是盈利了。 |
![]() | 33 westoy 2022-02-23 15:11:17 +08:00 @herozzm 时政新闻的互联网管制这块一向很厉害的, 搞垃圾站的都不敢碰的, 你去做流量一大被盯上, 当地的文化、新闻各种管局绝对会来抄你服务器的。 而且当时备案严打最厉害的时候, 各种 IDC 清退个人用户, 企业网站甚至连留言簿都要下, 不然可能机房都会被封。 而头条还敢做评论。 你想想当时头条的业务, 字节能做, 你能做么, 你敢做么? |
34 icy37785 2022-02-23 15:16:38 +08:00 via iPhone ![]() @ospider #16 可不是玩梗。这事儿真就看追不追不追究,追究的话这些大公司的法务一告一个准,我可见太多爬公开信息戴银手镯的了。 |
![]() | 35 mrhhsg 2022-02-23 15:16:58 +08:00 我看刑,有判头,很可铐! 楼主加油,争取早日吃上官家饭 |
![]() | 36 musi 2022-02-23 15:17:41 +08:00 @SoulClinic #25 你要不猜一下阿里为什么花大力气做反爬?单纯做着玩?还有爬虫和用什么语言无关,就别纠结 Python 还是 nodejs 了。违不违法你竟然去问客户而不是问律师,你这方便了客户客户当然高兴,那肯定让你做喽。还管你违不违法 |
![]() | 37 azuis 2022-02-23 15:26:43 +08:00 淘宝页面反爬很难的。要么你养足够多的账号,要么就是去逆向 App |
![]() | 38 4BVL25L90W260T9U 2022-02-23 15:27:07 +08:00 回楼上的诸位:梯子被抓的多还是爬虫被抓的多?在法律边缘试探的事情多了去了,我就是好奇为啥唯独爬虫讨论下边这种『警示』和自我阉割的言论特别多。爬人家的商业数据当然违法了,我不想洗白这一点,纯奇。 |
![]() | 39 westoy 2022-02-23 15:30:27 +08:00 @azuis app 也有反爬的, 它那个反爬是全系全端全局的(甚至涵盖了千牛) 它那个反爬有个动态权重的,app 端稍微加权低一点, 但是命中+解锁频率一频, 权重就会上去, 究极形态是一段时间内无限命中验证码 |
![]() | 41 opengps 2022-02-23 15:46:20 +08:00 via Android 淘宝的用户不会是 idc 来源,所以封掉机房 ip 段非常正常 淘宝的反爬跟亚马逊一个道理,从零起家的电商都深受其害,自然处理到位。 至于京东为什么好爬,可能是不在乎流量成本吧 |
![]() | 42 yhxx 2022-02-23 15:55:16 +08:00 |
43 dcsuibian 2022-02-23 16:05:09 +08:00 玩爬虫可以,先了解一下判几年 |
![]() | 44 96412hj 2022-02-23 16:49:39 +08:00 很刑,我看刑 |
![]() | 46 aino 2022-02-23 16:59:45 +08:00 逆向只能在小圈子交流,这里不适合提问。 |
![]() | 48 Te11UA 2022-02-23 17:16:37 +08:00 @ElegantOfKing #32 想问问是哪个博主呢? |
![]() | 49 westoy 2022-02-23 17:17:16 +08:00 @sgq1128 这个倒真不是, 京东一样防爬虫的, 最早十几年前价格什么的都是用图片生成的, 刘强东当年还公开把做返利导流的比作是劫道的, 只是后来心态变了吧..........现在频繁访问也会强制登录的, 不同帐号阈值可能不一样, 只是楼主爬的那块应该没覆盖...... |
50 IBN5100 2022-02-23 17:18:18 +08:00 总有错觉公开信息随便爬 |
![]() | 51 SoulClinic OP 总结:三思而后行... 怀念 牛顿 /达芬奇 /图灵 他们,给我们分享那么宝贵的知识一分钱都没要 |
![]() | 52 SoulClinic OP 刚也提到了,这个 海豚选房,yfbudong.com 里有大部分阿里那边的房产数据,难道他们有合作? 是不是不同种类的数据不一样,“房产拍卖”是公开的,是个特殊情况? 就好像有些考试是特殊情况“开卷”的。。。 |
![]() | 53 playniuniu div class="badges"> 2022-02-23 19:04:20 +08:00 @SoulClinic 别听客户的,这个事情很多时候连律师说了都不算,不是公开信息就可以随便爬的,尤其人家有反爬措施,妥妥的破坏计算机系统。爬虫这种现在是判罚重灾区,偷偷做可以,公开出来,风险还是相当高的。 |
54 Senorsen 2022-02-23 19:14:52 +08:00 @ospider 都是好心提醒,等 lz 进去了就晚了。 用梯子被抓,行政处罚;写爬虫被抓,几个月甚至几年铁窗泪。不能简单的用被抓次数纬度评价,而是要综合看后果等进行风险评估。 |
55 Senorsen 2022-02-23 19:17:09 +08:00 另外,参考 : https://www.zhihu.com/question/291554395 (随便 Google 来的) 一般认为,对于“明显反爬”的网站,则不能爬,否则必定踩红线。所以像淘宝这种,肯定爬不得了。 |
![]() | 56 miyunda 2022-02-23 19:25:39 +08:00 楼主啊,你去海淀法院网站搜索下,有惊喜,狱友爬的很多都是公开的信息 |
![]() | 57 ragnaroks 2022-02-23 19:29:16 +08:00 说实话不知道爬淘宝能判多久,但是传奇发布站可以坐 5 年 |
![]() | 58 wyx119911 2022-02-23 19:35:10 +08:00 robots.txt 了解一下? robots 声明是具有法律效力的,有很多案例。 |
59 9c04C5dO01Sw5DNL 2022-02-23 19:37:47 +08:00 ![]() 大家别劝了,劝就是当人发财路。楼主意思是其他人没被告,他也不会被告。上次见胆大还自负的,已经出来了还写了心得体会。 |
![]() | 60 westoy 2022-02-23 19:45:40 +08:00 @SoulClinic 你举例的这家背后是家新三板公司, 整个公司股东构成里有非常多创投圈的人, 这种行业背景路子野很 https://apps.apple.com/us/app/%E8%8D%B7%E9%B2%81%E6%96%AF%E5%8F%B8%E6%B3%95%E6%8B%8D%E5%8D%96%E6%95%B0%E6%8D%AE/id1555004602 他家产品之一, 明目张胆告诉你数据来源自哪些平台, 你觉得是爬来的概率有多少? |
![]() | 61 SoulClinic OP @giiiiiithub 咱的意思是别人都光明正大这样干,人类是很擅长模仿的呀,不是恶意的啊 咱也是有些意外,本想请教技术难题,结果是让咱瑟瑟发抖的善意法律提醒警告,真是悬崖勒马啊 |
![]() | 62 IvanLi127 2022-02-23 20:34:42 +08:00 via Android ![]() 那个啥,反爬不是害你,而是救你 |
![]() | 63 cnrting 2022-02-23 20:36:34 +08:00 via iPhone 楼主我支持你 |
![]() | 64 ClericPy 2022-02-23 20:48:44 +08:00 ![]() 看了上面的帖子们... 一言难尽 大家伙故意把你帖子从敏感区往休闲带, 带不动啊 PS: 万万没想到 <黑客与画家> 会这样被 Q 到... |
65 icy37785 2022-02-23 20:48:48 +08:00 via iPhone @ospider #36 回答你第一个问题,梯子被抓的多还是爬虫被抓的多,答案是做爬虫比卖梯子的和用梯子的被抓的多。回答第二个问题为什么唯独爬虫有这种警示,这个有两个原因,一个是梯子都知道违法,爬虫很多人不认为违法,第二个是,爬虫比卖梯子判得还要重,但是对做爬虫的重视比卖梯子要差太远了。 |
![]() | 66 SoulClinic OP @ClericPy 你是不是说反了?是把我的“技术交流”的休闲贴带到了“法律坐牢”的敏感贴啊。。。 |
67 justs0o 2022-02-23 21:07:42 +08:00 @SoulClinic 1 、阿里有一个威胁情报库,里面几乎囊括了市面上的代理 IP 2 、阿里网页内嵌了 SDK ,会收集数据 3 、AI 会根据 2 的数据和算法,对你进行打分判断,恶意用户就会弹验证码 |
![]() | 68 zhw2590582 2022-02-23 21:10:49 +08:00 ![]() 楼主认为:别人很多都是这样爬的,也没有被抓进去,为什么偏偏说我 |
![]() | 69 ClericPy 2022-02-23 21:12:01 +08:00 @SoulClinic 他们也是想让你及时刹车吧, 有些灰色的东西不宜在公开场合讨论, 顶多一些小圈子群里交流讨论 除了法务问题, 也可能会影响灰产饭碗吧. 参考当年搜狗那个直接把公众号临时链接转永久链接的漏洞, 有个好心人直接开源丢到 Github 了, 估计被相关人员看到, "仅用了不到半年"就把漏洞补上了, 然后不少灰产成本直接起飞了 简单的说, 反爬本身就是人家表态的合理合法的行为, 无视君子协议本身就不太好, 公开讨论不管什么结果(给对方带来损失, 或者对方及时止损), 总有一方不开心的 现在找工作都尽量避开逆向和灰色的了, 又不是无路可走没必要冒一些没必要的风险 言尽于此且行且珍惜吧 |
![]() | 70 gamexg 2022-02-23 21:15:10 +08:00 |
71 9c04C5dO01Sw5DNL 2022-02-23 21:19:46 +08:00 @SoulClinic 你跟我这么解释没用,看看那些已经被判的是不是在公堂上也这么解释的,是不是也有用。 |
![]() | 72 vone 2022-02-23 21:23:43 +08:00 淘宝的反爬有个办法:用 hosts 文件把淘宝的域名强制指向到其他省份服务器上去。 这个原理是 ip 本来是就近分配的,你强制指定后,你访问的目标服务器整个可能就你一个是你所在省份的,你的这点数据量会被其他流量淹没,不会识别到你。 |
![]() | 73 SoulClinic OP @zhw2590582 这是咱的处女爬啊( 4 年前买了本《用 Python 写网络爬虫》还没看),之前也没去关注了解,这是本能反应哈 @ClericPy 是的,现在咱会三思而后行,总不能玩出事来啊。不过疑惑大家都没有谈到“房地产”领域,爬虫领域是可以一概而论的吗?估计程序员(包括咱)大都对房地产没兴趣~ |
![]() | 74 SoulClinic OP ![]() 《爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?》: https://v2ex.com/t/666057 |
![]() | 75 SoulClinic OP 网上搜了一下,没有这里大家说的那么恐怖,不过大都是 2019/2020 年的,是不是这几年对爬虫的法律管控越来越严格了呢? https://www.zhihu.com/question/291554395 |
![]() | 76 lod 2022-02-23 23:01:20 +08:00 |
77 billly 2022-02-23 23:56:54 +08:00 加油,放手去做吧,反正大家劝了这么多,你还是这种态度 |
78 2MO 2022-02-24 01:32:16 +08:00 ![]() 别管那么多,自己爬爬能怎么刑。要说刑的,你们这群翻墙的才是真的刑,不知道能进去几次了 |
79 NXzCH8fP20468ML5 2022-02-24 02:07:14 +08:00 via Android ![]() @2MO 主要问题是,翻墙本身并不涉及明显利害关系,所以暂时来说还比较安全。 爬虫不一样,有明确的侵权方和被侵权方。被爬方有足够的利益和动机将爬虫作者送进监狱。 如果哪一天,查处翻墙服务被委托给某个公司,这构造了明显利害关系,那翻墙真的的是岌岌可危。 |
![]() | 80 docx 2022-02-24 03:04:29 +08:00 via Android OP 本来是想讨论技术问题的,万万没想到众网友的思想觉悟都很高。 建议:还是找个专门的论坛吧。 |
81 icy37785 2022-02-24 08:51:48 +08:00 via iPhone ![]() @2MO #75 不懂法可以闭嘴,别张嘴就来,用梯子翻墙一般都是行政处罚,就是签保证书和罚款完事,罚款也低,爬虫是刑事案件,真判下来基本上就是半年起跳了。 最怕的就是你们这些人,所以总有人被抓的时候都不知道自己怎么就被抓了。 |
![]() | 82 shaojz2005 2022-02-24 08:57:53 +08:00 讨论技术问题的,上面很多人说了,淘宝的反爬很难绕过去,要绕过去可能需要花费成本来形成更多的”自然用户行为“。 其他公司的网站有这些信息,你也不知道具体是怎么来的,有可能真的是合作,也有可能爬了,但是对方有法务团队能应对这样的风险。 听你的意思,你是外包帮客户开发小程序来爬资源,找外包的客户会具备强大的法务团队吗?即使有,万一真的被告了,客户会帮你打官司吗?当然一般情况下被告入刑的可能性也没那么大。但你在公开论坛讨论这个东西,留下的痕迹就太多了,真被人注意上也不奇怪的。 |
![]() | 84 winglight2016 2022-02-24 09:03:28 +08:00 做爬虫百分百违法,特别是,作为公司行为时。所以,不管这种岗位给多少,我是绝不考虑的,因为以前已经有过判例,程序员作为实现者,也会被判刑在此之前,的确是可以作为“菜刀”免责。 淘宝这个滑块,我只要访问天猫店就必定出现,提示使用了 VPN跟本地是否开了 VPN 无关,我猜测办公室网络出口有 VPN 之类的设备。 |
85 wowbaby 2022-02-24 09:21:53 +08:00 淘宝,天猫我正常访问都难, |
![]() | 86 RickyC 2022-02-24 09:30:00 +08:00 天热,开空调呀。 怕怕虫,加验证码呀。 |
![]() | 87 RickyC 2022-02-24 09:31:16 +08:00 |
88 zjddp 2022-02-24 09:31:29 +08:00 挡人财路如杀人父母,楼上一众老哥请适可而止 |
![]() | 89 RickyC 2022-02-24 09:37:34 +08:00 看错了。以为你是反爬虫,没想到你是黑客。 你这个,我想到 3 个解决方案: 方案一:雇人人工爬;如果你是盖茨,花个几千亿美元,雇个几亿人,应该能解决; 方案二:收购京东或阿里巴巴,让他们把数据交给你; 方案三:研究高级 AI 技术,模拟人类动作,破解验证码; 一般来讲,五百年内这个问题是有可能解决的。 |
91 zjddp 2022-02-24 09:41:28 +08:00 @RickyC 劝了快 90 楼了你看 op 有收手的意思吗?还是说我理解错大家的初衷,只是为了给 op 以外看到帖子的人做普法教育? |
![]() | 92 JieGaLee 2022-02-24 09:47:40 +08:00 在这问一问各位,之前的工作中有写爬虫,并且现在爬虫还在公司部署着(但是具体的部署、定时、存储之类的的不是我管,我只负责写 spider 文件),这种情况下我要怎么规避法律风险。 |
![]() | 94 wensonsmith 2022-02-24 09:52:35 +08:00 爬虫写得好,牢饭吃到饱 |
![]() | 95 qsnow6 2022-02-24 09:54:07 +08:00 没事,去爬嘛 |
![]() | 96 itechnology 2022-02-24 09:58:13 +08:00 大家还是别劝了,反正这么多人都劝他,楼主还是认为可以爬,自己不会那么倒霉被抓 |
![]() | 97 ElegantOfKing 2022-02-24 10:01:26 +08:00 @Te11UA 必须亚一爬啊 |
98 xqk111 2022-02-24 10:06:58 +08:00 瑟瑟发抖 |
![]() | 100 cyrbuzz 2022-02-24 10:20:19 +08:00 ![]() 君子不立于危墙之下。 |