爬虫还得招专门的工程师? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wuyuchenshishabi
V2EX    职场话题

爬虫还得招专门的工程师?

  •  
  •   wuyuchenshishabi 2017-11-18 11:47:50 +08:00 6338 次点击
    这是一个创建于 2903 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这不是一个数据从业者的基本素养?

    24 条回复    2017-12-09 12:52:24 +08:00
    bazingaterry
        1
    bazingaterry  
       2017-11-18 11:54:34 +08:00 via iPhone
    术业有专攻,看需求
    p2pCoder
        2
    p2pCoder  
       2017-11-18 12:07:21 +08:00   3
    要看你要收集的数据的多少和爬取的网站的难度了

    就像我 现在 再为一家大型 p2p 公司开发 征信相关的爬虫

    核心就是登陆 然后 通过相关的安全验证,我们做了 京东 淘宝 电信 联通 移动 学信 征信 这些个人用户信息的爬取,都是需要 登陆,其中 暗坑也很多,最复杂的就是 猜 session 校验,cookie 还比较好搞,session 中的校验我在客户端就只能猜,请求 ,然后试错。前端的 js html 也必须懂,起码要能做 js 断点调试,特别是 对于 加密算法,不能一遇到加密就是 selenium,否则性能跟不上

    然后就是爬虫本身要提供服务,就像 聚信立 等 数据提供商做的,其中 的 长连接 容错,如何保存,微服务也要考虑

    这两个月 面试了二十来个人,满意的就一两个,很多 都满足不了我们的需求,特别是 基础不好,http 的理解就是个基础,对于 web 后端也没有了解,前端也不熟,基本也就入个门
    ljcarsenal
        3
    ljcarsenal  
       2017-11-18 12:17:11 +08:00 via Android
    @p2pCoder 阿里系这种大公司也能破?
    p2pCoder
        4
    p2pCoder  
       2017-11-18 12:23:25 +08:00
    @ljcarsenal 登录就用 selenium,而且因为 ip 的问题,还需要再次验证短信验证码
    只要拿到 cookie,后面的参数和 http 请求头不触发 内部的一些安全机制,比如 csrf css,还有一些 token 找准确了,都能行
    京东和淘宝我们都这样做了,不过相当麻烦

    反正就是要关注 http 请求 的每一个参数,以及 http 请求头的参数,做的时候


    当然现在还有一种方法,不模拟登陆,直接在自家 app 内嵌 浏览器,让用户登陆,然后 拿 cookie
    takanasi
        5
    takanasi  
       2017-11-18 12:27:21 +08:00 via Android
    @p2pCoder 真阴险啊
    p2pCoder
        6
    p2pCoder  
       2017-11-18 12:31:25 +08:00
    @takanasi 开发之前首先找法务部门,现在这些 p2p 与现金贷公司都面对的是 次级用户,这些人 也不如 v 站上的程序员这么警觉
    说到底,这些老板 还是想做自己的风控,做自己的数据
    golmic
      &nbs; 7
    golmic  
       2017-11-18 13:13:23 +08:00
    @p2pCoder #6 我前几天尝试用模拟请求的方式过了淘宝的 js 加密,其他网站的模拟登录应该更不在话下了。如果其他网站有需求的话可以联系我。
    codermagefox
        8
    codermagefox  
       2017-11-18 14:07:19 +08:00
    @p2pCoder 真阴险啊+1,不过我好像挺喜欢这种活是怎么回事,可惜自己太菜
    hugee
        9
    hugee  
       2017-11-18 14:49:30 +08:00 via Android
    采简单的东西当然没问题,一看 lz 就是没遇到过有难度的
    sunchen
        10
    sunchen  
       2017-11-18 15:26:00 +08:00   1
    日常 30%时间写爬虫的路过。
    想知道楼主破解过 APP 吗,写过分布式 Xposed hook 手机集群吗?自定义过爬虫专用的 android rom 吗?搭过代理集群吗?搞定过多少验证码?
    其实我想说 sql 写的溜一般是爬虫工程师的基本素养。
    sensui7
        11
    sensui7  
       2017-11-18 15:51:04 +08:00
    有没有专门的岗位取决于工作量, 而不是技术.
    Lin3w
        12
    Lin3w  
       2017-11-18 16:57:19 +08:00 via Android
    大型分布式爬虫。。。
    而且工作量是岗位分配的一个影响因素吧
    gouchaoer
        13
    gouchaoer  
       2017-11-18 17:37:33 +08:00 via Android
    @sunchen 你说的这些要做下来是非常困难的,用 xposed hook 应用的 api 可以说是搞 app 的终极杀器,这套方案你们搞定了?
    gouchaoer
        14
    gouchaoer  
       2017-11-18 17:45:30 +08:00 via Android
    @sunchen 能求个微博关注一下么? V2EX 没私信不好说啊,我这边有些心得我们可以流一下
    defunct9
        15
    defunct9  
       2017-11-18 19:19:21 +08:00 via iPhone   1
    感觉楼上都是作恶的人啊
    gouchaoer
        16
    gouchaoer  
       2017-11-18 19:24:22 +08:00 via Android
    @defunct9 don't judge,尤其用谷歌的信条来 judge 人
    sunchen
        17
    sunchen  
       2017-11-18 19:29:11 +08:00
    @gouchaoer 不用微博,马化腾 MjQ0MTkzMjkw
    artandlol
        18
    artandlol  
       2017-11-18 19:42:28 +08:00 via iPhone
    防爬虫都可以再招个人
    shyling
        19
    shyling  
       2017-11-18 20:53:46 +08:00
    表示被 4 个网站的爬虫天天折腾。。。讲真学爬虫不得学会 js 反混淆,各种调试,熟练 http 协议,反编 android, ios 程序,写段 cnn 识别验证码,做做分布式抓取?
    whatisnew
        20
    whatisnew  
       2017-11-18 22:28:47 +08:00
    开发还得招专门的开发工程师?产品运营客服两下就搞定了
    SlipStupig
        21
    SlipStupig  
       2017-11-19 10:34:20 +08:00
    Google 一定没有爬虫工程师,因为这个不是基本素养嘛
    abcbuzhiming
        22
    abcbuzhiming  
       2017-11-19 17:16:27 +08:00
    楼主你自己去看看最近的反爬,反反爬技术进步到什么程度了,这行我觉得难度已经追上搞安全和逆向的行业了,怎么会不需要专业工程师
    we3613040
        23
    we3613040  
       2017-11-20 10:02:45 +08:00
    征信都能爬到?不是得有短信验证码么
    @p2pCoder
    newzy
        24
    newzy  
       2017-12-09 12:52:24 +08:00
    @p2pCoder @all,回复的都是什么心态需要反思一下。有空多提升一下技术,就不会有这么多无聊的问题。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4071 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 22ms UTC 00:10 PVG 08:10 LAX 17:10 JFK 20:10
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86