[阿里爬虫] 如何应对反爬? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
SoulClinic
V2EX    程序员

[阿里爬虫] 如何应对反爬?

  •  
  •   SoulClinic 2022-02-23 13:57:41 +08:00 13661 次点击
    这是一个创建于 1331 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:

    但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:

    https://sf.taobao.com/item_list.htm

    正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒

    更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~

    请问该如何道高一尺魔高一丈?

    第 1 条附言    2022-02-25 12:34:47 +08:00
    友情提醒:
    这主要是爬虫技术爱好分享交流,同学们要遵守爬虫协议,爬到的网站的信息不能用于商业,否则会收到律师请你喝茶哟~
    158 条回复    2022-03-01 15:27:19 +08:00
    1  2  
    murmur
        1
    murmur  
       2022-02-23 13:59:12 +08:00   31
    这里有京东的人么,你们的法务部该行动了
    9c04C5dO01Sw5DNL
        2
    9c04C5dO01Sw5DNL  
       2022-02-23 14:00:07 +08:00   18
    楼主可真刑啊
    cweijan
        3
    cweijan  
       2022-02-23 14:00:58 +08:00   1
    对, 不能太频繁, 而且请求后要用新 cookie 替换掉当前 cookie
    registerrr
        4
    registerrr  
       2022-02-23 14:01:33 +08:00
    很可铐,我看刑
    einq7
        5
    einq7  
       2022-02-23 14:03:36 +08:00   8
    我铐,家人们,太刑了,日子越来越有判头了
    westoy
        6
    westoy  
       2022-02-23 14:05:01 +08:00   3
    V 站京东的程序员呢? 楼主这样挑衅你们能忍么? 快点去肝反爬
    deplivesb
        7
    deplivesb  
       2022-02-23 14:09:24 +08:00
    楼主离国家饭越来越近了
    SoulClinic
        8
    SoulClinic  
    OP
       2022-02-23 14:14:09 +08:00
    你们太纯真善良了,这些数据“好像”是公开的啊,已经有类似的 app 了,例如这个: https://www.yfbudong.com/
    @cweijan 替换 cookie 我试了确实可行,但是只能人工,请教自动替换怎么整( puppeteer 有点点被阿里打压了一样)
    YUyu101
        9
    YUyu101  
       2022-02-23 14:14:20 +08:00
    对不知道有没有用无头浏览器爬的
    statement
        10
    statement  
       2022-02-23 14:17:36 +08:00
    看是否追究了 公开的数据爬应该可以 但可以给你安一个 破坏计算机系统罪 而且你爬公开信息 也只能自用 不能对外提供服务吧
    QK8wAUi0yXBY1pT7
        11
    QK8wAUi0yXBY1pT7  
       2022-02-23 14:19:36 +08:00   1
    我就正常用 Chrome 打开淘宝都时不时出现那个验证。
    掏包网太瓷了。
    shakaraka
        12
    shakaraka  
    PRO
       2022-02-23 14:19:36 +08:00
    @SoulClinic #8 你知道什么是口袋罪么?
    googlefans
        13
    googlefans  
       2022-02-23 14:19:49 +08:00
    @einq7 hahaha
    SoulClinic
        14
    SoulClinic  
    OP
       2022-02-23 14:21:36 +08:00
    咱暂时的底牌就是:如果阿里的爬不到,就爬这个海豚网
    大部分需要的阿里的数据好像在这个海豚里都有
    TtTtTtT
        15
    TtTtTtT  
       2022-02-23 14:22:11 +08:00
    @SoulClinic 马路也是公开的,也不能说躺就躺啊 =。= 公开和数据的归属权本来就是两回事。
    ChicC
        16
    ChicC  
       2022-02-23 14:22:26 +08:00
    反爬做到牺牲用户体验了
    4BVL25L90W260T9U
        17
    4BVL25L90W260T9U  
       2022-02-23 14:22:54 +08:00   2
    一谈爬虫就开始玩儿梗,要真去逆向板块反倒一群大佬能谈点技术。某些 V 友真是魔怔了,恨不得马上替阿里用口袋罪给抓住。就这个来说,去搜下各种指纹吧,TCP 指纹、TLS 指纹、浏览器指纹,会有些思路的。
    SoulClinic
        18
    SoulClinic  
    OP
       2022-02-23 14:28:28 +08:00
    @wunonglin 不知道,听起来 Google 好像是罪大恶极了?
    用户跟我说的主要目的就是节省用户(主要是律师)的时间 /效率,现在他们要一时搜京东,一时搜阿里,白花了很多时间精力
    这就是货真价实,名正言顺的“为人民服务”啊!!
    Jooooooooo
        19
    Jooooooooo  
       2022-02-23 14:34:14 +08:00
    @SoulClinic 公开数据当然不能随便爬. 搜 爬虫 坐牢 有惊喜.
    winnerczwx
        20
    winnerczwx  
       2022-02-23 14:35:47 +08:00
    @SoulClinic #8 绕过反爬已经属于违法行为了, 即使是公开信息... 只要对面公司起诉必被抓
    statement
        21
    statement  
       2022-02-23 14:40:11 +08:00   1
    @ospider 也不是单纯的玩梗 只是提示风险 毕竟已经有很多案例了 如果真想送你进去 一定可以送你进去。确实是违法的 只是影响力不大 没造成破坏和竞争 追究没有收益罢了 。 和建梯子出售差不多 道德上没啥问题但违法 你在这里说 肯定回你我看刑 你到相应社区就会和你交流技术
    gongquanlin
        22
    gongquanlin  
       2022-02-23 14:40:11 +08:00   1
    淘宝连正常用户都 ban , 我正常访问都动不动出来个验证码反爬
    wanguorui123
        23
    wanguorui123  
       2022-02-23 14:44:56 +08:00
    准备免费就餐吗?
    murmur
        24
    murmur  
       2022-02-23 14:48:59 +08:00
    @ospider 希望你以后做内容提供的时候能这么淡定哦
    SoulClinic
        25
    SoulClinic  
    OP
       2022-02-23 14:49:33 +08:00
    这个违法问题咱是提前问了客户的啊,他说没问题,这是合法的
    咱主要是冲着玩技术去,有点挑战更好玩
    传说中爬虫都要用 Python 似的,咱可是要替 node/Javascript 取回公道啊
    SoulClinic
        26
    SoulClinic  
    OP
       2022-02-23 14:53:55 +08:00
    难道你们不想做黑客吗?不想的快去买一本《黑客与画家》
    deplivesb
        27
    deplivesb  
       2022-02-23 14:54:59 +08:00   1
    @SoulClinic #8 公开的数据不代表比可以通过非正常技术手段获取。给你找一些案例,https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China
    这里面哪一个的数据不是公开的。说不好听的,如果你爬的是 gov 网站,请求量过大,把人家系统搞崩了。那反手就是一个 非法侵入计算机信息系统罪,给你说一个真事。我的一个同学现在在某银行的清算机构,今年年前因为要对接数字人民币,他的同事和数字人民的人测试联调,在测试环境,因为发送了较多的不合规的数据(测试嘛,再尝试各种条件下的错误之类的),被人家直接报警了。理由就是 “尝试” 进行破解,最后我这个同学的同事被派出所拉过去各调查问话,最后还被开除了。
    所以说,远离爬虫,自己玩玩就行了,数据握在自己手里。别公开声张。你这个还用跑来的数据做小程序。然后后期再进行了盈利,那你真是离牢饭不远了
    westoy
        28
    westoy  
       2022-02-23 14:58:40 +08:00
    @SoulClinic

    客户买的是方案

    具体做实现方案的是你啊

    客户当然不怕了, 数据本身又不违法, 有法律风险的是绕过平台风控的解决方案本身和提供解决方案方啊.......
    westoy
        29
    westoy  
       2022-02-23 15:00:19 +08:00
    @SoulClinic

    类似案例就是做虚拟打卡或者外挂方案和卖这些方案的进去了, 买虚拟打卡和游戏外挂的都没事, 买方表示我怕个锤子啊......
    lithiumii
        30
    lithiumii  
       2022-02-23 15:00:35 +08:00
    确实没见过能绕过阿里的滑块的爬法,正常使用都会跳,何况爬虫。淘宝天猫还好,印象中考拉和高德之类的阿里系,同款滑块但要求更严,真人正常使用都会滑不过
    herozzm
        31
    herozzm  
       2022-02-23 15:02:50 +08:00 via Android   4
    div class="reply_content">有很多人先行把自己先锁上了,字节跳动不就是靠这个发家的嘛
    ElegantOfKing
        32
    ElegantOfKing  
       2022-02-23 15:07:08 +08:00   2
    真的违法。客户说不违法,那是客户不知道的。
    我关注的一个博主,爬虫能力特别强,做了所谓的淘宝每日商品排名,主要是免费提供给大家看看热度。直接被淘宝的律师警告+杭州法院出庭。从此之后他没再碰淘宝的任何业务。
    他免费的都栽了,更何况你这都是盈利了。
    westoy
        33
    westoy  
       2022-02-23 15:11:17 +08:00
    @herozzm

    时政新闻的互联网管制这块一向很厉害的, 搞垃圾站的都不敢碰的, 你去做流量一大被盯上, 当地的文化、新闻各种管局绝对会来抄你服务器的。

    而且当时备案严打最厉害的时候, 各种 IDC 清退个人用户, 企业网站甚至连留言簿都要下, 不然可能机房都会被封。 而头条还敢做评论。

    你想想当时头条的业务, 字节能做, 你能做么, 你敢做么?
    icy37785
        34
    icy37785  
       2022-02-23 15:16:38 +08:00 via iPhone   4
    @ospider #16 可不是玩梗。这事儿真就看追不追不追究,追究的话这些大公司的法务一告一个准,我可见太多爬公开信息戴银手镯的了。
    mrhhsg
        35
    mrhhsg  
       2022-02-23 15:16:58 +08:00
    我看刑,有判头,很可铐!
    楼主加油,争取早日吃上官家饭
    musi
        36
    musi  
       2022-02-23 15:17:41 +08:00
    @SoulClinic #25 你要不猜一下阿里为什么花大力气做反爬?单纯做着玩?还有爬虫和用什么语言无关,就别纠结 Python 还是 nodejs 了。违不违法你竟然去问客户而不是问律师,你这方便了客户客户当然高兴,那肯定让你做喽。还管你违不违法
    azuis
        37
    azuis  
       2022-02-23 15:26:43 +08:00
    淘宝页面反爬很难的。要么你养足够多的账号,要么就是去逆向 App
    4BVL25L90W260T9U
        38
    4BVL25L90W260T9U  
       2022-02-23 15:27:07 +08:00
    回楼上的诸位:梯子被抓的多还是爬虫被抓的多?在法律边缘试探的事情多了去了,我就是好奇为啥唯独爬虫讨论下边这种『警示』和自我阉割的言论特别多。爬人家的商业数据当然违法了,我不想洗白这一点,纯奇。
    westoy
        39
    westoy  
       2022-02-23 15:30:27 +08:00
    @azuis

    app 也有反爬的, 它那个反爬是全系全端全局的(甚至涵盖了千牛)

    它那个反爬有个动态权重的,app 端稍微加权低一点, 但是命中+解锁频率一频, 权重就会上去, 究极形态是一段时间内无限命中验证码
    murmur
        40
    murmur  
       2022-02-23 15:41:53 +08:00
    @ospider 做的事不要脸就不要大声说出来,这是砸其他用户的饭碗,别人辛辛苦苦收集内容是给你爬来偷的么
    opengps
        41
    opengps  
       2022-02-23 15:46:20 +08:00 via Android
    淘宝的用户不会是 idc 来源,所以封掉机房 ip 段非常正常
    淘宝的反爬跟亚马逊一个道理,从零起家的电商都深受其害,自然处理到位。
    至于京东为什么好爬,可能是不在乎流量成本吧
    yhxx
        42
    yhxx  
       2022-02-23 15:55:16 +08:00
    @ospider
    两种都违法的前提下
    我觉得可能是因为爬别人的数据用于盈利极不道德
    而大部分工程师用梯子都是用在正途上的,比如加速一些开源镜像、比如用 google 解决问题,而不是去做一些不道德的事
    dcsuibian
        43
    dcsuibian  
       2022-02-23 16:05:09 +08:00
    玩爬虫可以,先了解一下判几年
    96412hj
        44
    96412hj  
       2022-02-23 16:49:39 +08:00
    很刑,我看刑
    mrhhsg
        45
    mrhhsg  
       2022-02-23 16:50:36 +08:00   1
    @ospider 墙这个东西大家心里对它都有自己的判断
    和爬虫不一样
    aino data-uid=
        46
    aino  
       2022-02-23 16:59:45 +08:00
    逆向只能在小圈子交流,这里不适合提问。
    sgq1128
        47
    sgq1128  
       2022-02-23 17:01:01 +08:00   2
    @opengps 这个是因为淘宝是卖流量给商家的,所以非常在意流量;而京东是自营为主,不在乎流量来自哪里
    Te11UA
        48
    Te11UA  
       2022-02-23 17:16:37 +08:00
    @ElegantOfKing #32 想问问是哪个博主呢?
    westoy
        49
    westoy  
       2022-02-23 17:17:16 +08:00
    @sgq1128

    这个倒真不是, 京东一样防爬虫的, 最早十几年前价格什么的都是用图片生成的, 刘强东当年还公开把做返利导流的比作是劫道的, 只是后来心态变了吧..........现在频繁访问也会强制登录的, 不同帐号阈值可能不一样, 只是楼主爬的那块应该没覆盖......
    IBN5100
        50
    IBN5100  
       2022-02-23 17:18:18 +08:00
    总有错觉公开信息随便爬
    SoulClinic
        51
    SoulClinic  
    OP
       2022-02-23 18:20:44 +08:00
    总结:三思而后行...
    怀念 牛顿 /达芬奇 /图灵 他们,给我们分享那么宝贵的知识一分钱都没要
    SoulClinic
        52
    SoulClinic  
    OP
       2022-02-23 19:00:59 +08:00
    刚也提到了,这个 海豚选房,yfbudong.com 里有大部分阿里那边的房产数据,难道他们有合作?
    是不是不同种类的数据不一样,“房产拍卖”是公开的,是个特殊情况?
    就好像有些考试是特殊情况“开卷”的。。。
    playniuniu
        53
    playniuniu   div class="badges">   2022-02-23 19:04:20 +08:00
    @SoulClinic 别听客户的,这个事情很多时候连律师说了都不算,不是公开信息就可以随便爬的,尤其人家有反爬措施,妥妥的破坏计算机系统。爬虫这种现在是判罚重灾区,偷偷做可以,公开出来,风险还是相当高的。
    Senorsen
        54
    Senorsen  
       2022-02-23 19:14:52 +08:00
    @ospider 都是好心提醒,等 lz 进去了就晚了。
    用梯子被抓,行政处罚;写爬虫被抓,几个月甚至几年铁窗泪。不能简单的用被抓次数纬度评价,而是要综合看后果等进行风险评估。
    Senorsen
        55
    Senorsen  
       2022-02-23 19:17:09 +08:00
    另外,参考 :
    https://www.zhihu.com/question/291554395
    (随便 Google 来的)
    一般认为,对于“明显反爬”的网站,则不能爬,否则必定踩红线。所以像淘宝这种,肯定爬不得了。
    miyunda
        56
    miyunda  
       2022-02-23 19:25:39 +08:00
    楼主啊,你去海淀法院网站搜索下,有惊喜,狱友爬的很多都是公开的信息
    ragnaroks
        57
    ragnaroks  
       2022-02-23 19:29:16 +08:00
    说实话不知道爬淘宝能判多久,但是传奇发布站可以坐 5 年
    wyx119911
        58
    wyx119911  
       2022-02-23 19:35:10 +08:00
    robots.txt 了解一下? robots 声明是具有法律效力的,有很多案例。
    9c04C5dO01Sw5DNL
        59
    9c04C5dO01Sw5DNL  
       2022-02-23 19:37:47 +08:00   5
    大家别劝了,劝就是当人发财路。楼主意思是其他人没被告,他也不会被告。上次见胆大还自负的,已经出来了还写了心得体会。
    westoy
        60
    westoy  
       2022-02-23 19:45:40 +08:00
    @SoulClinic

    你举例的这家背后是家新三板公司, 整个公司股东构成里有非常多创投圈的人, 这种行业背景路子野很

    https://apps.apple.com/us/app/%E8%8D%B7%E9%B2%81%E6%96%AF%E5%8F%B8%E6%B3%95%E6%8B%8D%E5%8D%96%E6%95%B0%E6%8D%AE/id1555004602

    他家产品之一, 明目张胆告诉你数据来源自哪些平台, 你觉得是爬来的概率有多少?
    SoulClinic
        61
    SoulClinic  
    OP
       2022-02-23 20:13:33 +08:00
    @giiiiiithub 咱的意思是别人都光明正大这样干,人类是很擅长模仿的呀,不是恶意的啊
    咱也是有些意外,本想请教技术难题,结果是让咱瑟瑟发抖的善意法律提醒警告,真是悬崖勒马啊
    IvanLi127
        62
    IvanLi127  
       2022-02-23 20:34:42 +08:00 via Android   1
    那个啥,反爬不是害你,而是救你
    cnrting
        63
    cnrting  
       2022-02-23 20:36:34 +08:00 via iPhone
    楼主我支持你
    ClericPy
        64
    ClericPy  
       2022-02-23 20:48:44 +08:00   1
    看了上面的帖子们... 一言难尽

    大家伙故意把你帖子从敏感区往休闲带, 带不动啊

    PS: 万万没想到 <黑客与画家> 会这样被 Q 到...
    icy37785
        65
    icy37785  
       2022-02-23 20:48:48 +08:00 via iPhone
    @ospider #36 回答你第一个问题,梯子被抓的多还是爬虫被抓的多,答案是做爬虫比卖梯子的和用梯子的被抓的多。回答第二个问题为什么唯独爬虫有这种警示,这个有两个原因,一个是梯子都知道违法,爬虫很多人不认为违法,第二个是,爬虫比卖梯子判得还要重,但是对做爬虫的重视比卖梯子要差太远了。
    SoulClinic
        66
    SoulClinic  
    OP
       2022-02-23 20:58:39 +08:00
    @ClericPy 你是不是说反了?是把我的“技术交流”的休闲贴带到了“法律坐牢”的敏感贴啊。。。
    justs0o
        67
    justs0o  
       2022-02-23 21:07:42 +08:00
    @SoulClinic
    1 、阿里有一个威胁情报库,里面几乎囊括了市面上的代理 IP
    2 、阿里网页内嵌了 SDK ,会收集数据
    3 、AI 会根据 2 的数据和算法,对你进行打分判断,恶意用户就会弹验证码
    zhw2590582
        68
    zhw2590582  
       2022-02-23 21:10:49 +08:00   1
    楼主认为:别人很多都是这样爬的,也没有被抓进去,为什么偏偏说我
    ClericPy
        69
    ClericPy  
       2022-02-23 21:12:01 +08:00
    @SoulClinic 他们也是想让你及时刹车吧, 有些灰色的东西不宜在公开场合讨论, 顶多一些小圈子群里交流讨论

    除了法务问题, 也可能会影响灰产饭碗吧. 参考当年搜狗那个直接把公众号临时链接转永久链接的漏洞, 有个好心人直接开源丢到 Github 了, 估计被相关人员看到, "仅用了不到半年"就把漏洞补上了, 然后不少灰产成本直接起飞了

    简单的说, 反爬本身就是人家表态的合理合法的行为, 无视君子协议本身就不太好, 公开讨论不管什么结果(给对方带来损失, 或者对方及时止损), 总有一方不开心的

    现在找工作都尽量避开逆向和灰色的了, 又不是无路可走没必要冒一些没必要的风险

    言尽于此且行且珍惜吧
    gamexg
        70
    gamexg  
       2022-02-23 21:15:10 +08:00
    @SoulClinic #25

    真的违法,
    你不突破反爬虫限制,判起来还有争议。
    但是突破反爬虫限制,直接就能按照入侵破坏计算机系统判了。
    你破坏的就是反爬系统。
    9c04C5dO01Sw5DNL
        71
    9c04C5dO01Sw5DNL  
       2022-02-23 21:19:46 +08:00
    @SoulClinic 你跟我这么解释没用,看看那些已经被判的是不是在公堂上也这么解释的,是不是也有用。
    vone
        72
    vone  
       2022-02-23 21:23:43 +08:00
    淘宝的反爬有个办法:用 hosts 文件把淘宝的域名强制指向到其他省份服务器上去。

    这个原理是 ip 本来是就近分配的,你强制指定后,你访问的目标服务器整个可能就你一个是你所在省份的,你的这点数据量会被其他流量淹没,不会识别到你。
    SoulClinic
        73
    SoulClinic  
    OP
       2022-02-23 21:23:54 +08:00
    @zhw2590582 这是咱的处女爬啊( 4 年前买了本《用 Python 写网络爬虫》还没看),之前也没去关注了解,这是本能反应哈

    @ClericPy 是的,现在咱会三思而后行,总不能玩出事来啊。不过疑惑大家都没有谈到“房地产”领域,爬虫领域是可以一概而论的吗?估计程序员(包括咱)大都对房地产没兴趣~
    SoulClinic
        74
    SoulClinic  
    OP
       2022-02-23 21:51:18 +08:00   1
    《爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?》: https://v2ex.com/t/666057
    SoulClinic
        75
    SoulClinic  
    OP
       2022-02-23 21:58:40 +08:00
    网上搜了一下,没有这里大家说的那么恐怖,不过大都是 2019/2020 年的,是不是这几年对爬虫的法律管控越来越严格了呢?
    https://www.zhihu.com/question/291554395
    lod
        76
    lod  
       2022-02-23 23:01:20 +08:00
    billly
        77
    billly  
       2022-02-23 23:56:54 +08:00
    加油,放手去做吧,反正大家劝了这么多,你还是这种态度
    2MO
        78
    2MO  
       2022-02-24 01:32:16 +08:00   2
    别管那么多,自己爬爬能怎么刑。要说刑的,你们这群翻墙的才是真的刑,不知道能进去几次了
    NXzCH8fP20468ML5
        79
    NXzCH8fP20468ML5  
       2022-02-24 02:07:14 +08:00 via Android   2
    @2MO 主要问题是,翻墙本身并不涉及明显利害关系,所以暂时来说还比较安全。
    爬虫不一样,有明确的侵权方和被侵权方。被爬方有足够的利益和动机将爬虫作者送进监狱。
    如果哪一天,查处翻墙服务被委托给某个公司,这构造了明显利害关系,那翻墙真的的是岌岌可危。
    docx
        80
    docx  
       2022-02-24 03:04:29 +08:00 via Android
    OP 本来是想讨论技术问题的,万万没想到众网友的思想觉悟都很高。

    建议:还是找个专门的论坛吧。
    icy37785
        81
    icy37785  
       2022-02-24 08:51:48 +08:00 via iPhone   1
    @2MO #75 不懂法可以闭嘴,别张嘴就来,用梯子翻墙一般都是行政处罚,就是签保证书和罚款完事,罚款也低,爬虫是刑事案件,真判下来基本上就是半年起跳了。
    最怕的就是你们这些人,所以总有人被抓的时候都不知道自己怎么就被抓了。
    shaojz2005
        82
    shaojz2005  
       2022-02-24 08:57:53 +08:00
    讨论技术问题的,上面很多人说了,淘宝的反爬很难绕过去,要绕过去可能需要花费成本来形成更多的”自然用户行为“。

    其他公司的网站有这些信息,你也不知道具体是怎么来的,有可能真的是合作,也有可能爬了,但是对方有法务团队能应对这样的风险。

    听你的意思,你是外包帮客户开发小程序来爬资源,找外包的客户会具备强大的法务团队吗?即使有,万一真的被告了,客户会帮你打官司吗?当然一般情况下被告入刑的可能性也没那么大。但你在公开论坛讨论这个东西,留下的痕迹就太多了,真被人注意上也不奇怪的。
    magicyao
        83
    magicyao  
       2022-02-24 09:02:14 +08:00
    @deplivesb 真的假的,和对面一起测试在测试环境发送不合规数据还会被报警,对面的测试部门是吃翔的吗
    winglight2016
        84
    winglight2016  
       2022-02-24 09:03:28 +08:00
    做爬虫百分百违法,特别是,作为公司行为时。所以,不管这种岗位给多少,我是绝不考虑的,因为以前已经有过判例,程序员作为实现者,也会被判刑在此之前,的确是可以作为“菜刀”免责。

    淘宝这个滑块,我只要访问天猫店就必定出现,提示使用了 VPN跟本地是否开了 VPN 无关,我猜测办公室网络出口有 VPN 之类的设备。
    wowbaby
        85
    wowbaby  
       2022-02-24 09:21:53 +08:00
    淘宝,天猫我正常访问都难,
    RickyC
        86
    RickyC  
       2022-02-24 09:30:00 +08:00
    天热,开空调呀。
    怕怕虫,加验证码呀。
    RickyC
        87
    RickyC  
       2022-02-24 09:31:16 +08:00
    @gongquanlin 您说的是 web 端?
    淘宝怎么判断是不是正常访问呢?即便登录了也可能是爬虫吧。
    还没怎么见过 app 端加验证码的。
    zjddp
        88
    zjddp  
       2022-02-24 09:31:29 +08:00
    挡人财路如杀人父母,楼上一众老哥请适可而止
    RickyC
        89
    RickyC  
       2022-02-24 09:37:34 +08:00
    看错了。以为你是反爬虫,没想到你是黑客。
    你这个,我想到 3 个解决方案:
    方案一:雇人人工爬;如果你是盖茨,花个几千亿美元,雇个几亿人,应该能解决;
    方案二:收购京东或阿里巴巴,让他们把数据交给你;
    方案三:研究高级 AI 技术,模拟人类动作,破解验证码;

    一般来讲,五百年内这个问题是有可能解决的。
    RickyC
        90
    RickyC  
       2022-02-24 09:39:23 +08:00
    @zjddp 要你这么说,世界岂不和平了?没有战争了?
    zjddp
        91
    zjddp  
       2022-02-24 09:41:28 +08:00
    @RickyC 劝了快 90 楼了你看 op 有收手的意思吗?还是说我理解错大家的初衷,只是为了给 op 以外看到帖子的人做普法教育?
    JieGaLee
        92
    JieGaLee  
       2022-02-24 09:47:40 +08:00
    在这问一问各位,之前的工作中有写爬虫,并且现在爬虫还在公司部署着(但是具体的部署、定时、存储之类的的不是我管,我只负责写 spider 文件),这种情况下我要怎么规避法律风险。
    RickyC
        93
    RickyC  
       2022-02-24 09:52:01 +08:00
    @JieGaLee 没办法吧
    wensonsmith
        94
    wensonsmith  
       2022-02-24 09:52:35 +08:00
    爬虫写得好,牢饭吃到饱
    qsnow6
        95
    qsnow6  
       2022-02-24 09:54:07 +08:00
    没事,去爬嘛
    itechnology
        96
    itechnology  
       2022-02-24 09:58:13 +08:00
    大家还是别劝了,反正这么多人都劝他,楼主还是认为可以爬,自己不会那么倒霉被抓
    ElegantOfKing
        97
    ElegantOfKing  
       2022-02-24 10:01:26 +08:00
    @Te11UA 必须亚一爬啊
    xqk111
        98
    xqk111  
       2022-02-24 10:06:58 +08:00
    瑟瑟发抖
    deplivesb
        99
    deplivesb  
       2022-02-24 10:18:07 +08:00
    @magicyao 信不信由你,反正这是我身边发生的我知道的时间最近的,就在今年过年前,我也是过年和同学一块聚知道的
    cyrbuzz
        100
    cyrbuzz  
       2022-02-24 10:20:19 +08:00   1
    君子不立于危墙之下。
    1  2  
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     894 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 20:09 PVG 04:09 LAX 13:09 JFK 16:09
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86