做爬虫做久了感觉都要学学安全方面的东西了,比如接口破签, app 脱壳,唉。。。。。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
/span> Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
linhanqiu
V2EX    Python

做爬虫做久了感觉都要学学安全方面的东西了,比如接口破签, app 脱壳,唉。。。。。

  •  
  •   linhanqiu 2018 年 6 月 23 日 7999 次点击
    这是一个创建于 2776 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家一起来说说,做爬虫以后的方向

    47 条回复    2018-06-30 20:56:08 +08:00
    Phant0m
        1
    Phant0m  
       2018 年 6 月 23 日   1
    爬虫犯法。。。
    Immortal
        2
    Immortal  
       2018 年 6 月 23 日
    怎么还有人在说爬虫犯法..
    qsnow6
        3
    qsnow6  
       2018 年 6 月 23 日
    爬虫往高了走都是逆向
    H0TSp1RnG
        4
    H0TSp1RnG  
       2018 年 6 月 23 日 via Android
    除了这些 一共还要学哪些安全的东西
    Mascdo
        5
    Mascdo  
       2018 年 6 月 23 日
    题主做爬虫多久了啊
    silencefent
        6
    silencefent  
       2018 年 6 月 23 日
    一年零六个月警告
    crystone
        7
    crystone  
       2018 年 6 月 23 日
    往后走都是黑客技术啊
    linhanqiu
        8
    linhanqiu  
    OP
       2018 年 6 月 23 日
    @Phant0m 爬虫不犯法啊,只是把看得到的数据批量弄来罢了
    linhanqiu
        9
    linhanqiu  
    OP
       2018 年 6 月 23 日
    @qsnow6 对,以后估计都得是这样
    linhanqiu
        10
    linhanqiu  
    OP
       2018 年 6 月 23 日
    @Mascdo 做了一年多,做了很多反反爬的工作,也包括爬虫架构、数据处理等等,感觉现在需要在深层次提升一下自己了
    est
        11
    est  
       2018 年 6 月 23 日
    我见过牛逼的爬虫都是直接 GUI 群控。。。。根本不需要逆向。
    qiayue
        12
    qiayue  
    PRO
       2018 年 6 月 23 日
    你看得见的数据,作者不一定就想给你
    SingeeKing
        13
    SingeeKing  
    PRO
       2018 年 6 月 23 日
    @est #11 效率低啊
    est
        14
    est  
       2018 年 6 月 23 日
    @SingeeKing 写爬虫不到处都是 sleep 生怕别人给你封了。。。
    linhanqiu
        15
    linhanqiu  
    OP
       2018 年 6 月 23 日
    @qiayue 对啊,所以说要研究里面特定的东西,既然看得到,肯定会有方法拿到的,这是做爬虫的人生信条把。
    jobtesting
        16
    jobtesting  
       2018 年 6 月 23 日 via iPhone
    反爬虫
    linhanqiu
        17
    linhanqiu  
    OP
       2018 年 6 月 23 日
    @est gui 群控的话不就是跟 web 端 chrome headless 打开一个网页一样耗资源耗时间
    est
        18
    est  
       2018 年 6 月 23 日
    @linhanqiu 但是没办法啊。。。主要是别人改个协议,就要跟进。好麻烦。。
    zgwjustice
        19
    zgwjustice  
       2018 年 6 月 23 日 via iPhone
    @linhanqiu 看头条前 cto 因为爬虫被判刑了吗 就只是爬了头条的视频
    linhanqiu
        20
    linhanqiu  
    OP
       2018 年 6 月 23 日
    linhanqiu
        21
    linhanqiu  
    OP
       2018 年 6 月 23 日
    @est 所以就得具体情况具体分析啦,看看业务需求
    linhanqiu
        22
    linhanqiu  
    OP
       2018 年 6 月 23 日
    @est 也是,代理 ip 资源不够的话间隔时间都比 gui 爬取时间长多了
    zgwjustice
        23
    zgwjustice  
       2018 年 6 月 23 日 via iPhone
    @linhanqiu 我记得罪名就是 UA 及 IP 绕过发爬机制 危害计算机系统 还赔了几万的技术服务费
    zgwjustice
        24
    zgwjustice  
       2018 年 6 月 23 日 via iPhone
    @linhanqiu 伪造 UA 及 IP 绕过反爬机制
    linhanqiu
        25
    linhanqiu  
    OP
       2018 年 6 月 23 日 via iPhone   1
    @zgwjustice 这个罪名也是 666 的
    wulasite
        26
    wulasite  
       2018 年 6 月 23 日 via Android
    老铁啊,那你可知道学安全什么都要学啊。
    其实有什么需求就变成什么样的人,这不是常态吗(滑稽
    swulling
        27
    swulling  
       2018 年 6 月 24 日 via iPhone
    /div>
    伪造 UA 都犯法,你这还要脱壳?

    怕不是想吃牢饭了
    winglight2016
        28
    winglight2016  
       2018 年 6 月 24 日 via iPad
    逆向用于商业目的就是违法的包括破签、协议接口逆向等等,个人理解不一定准,不过如果是我,我会更低调一点
    tingyunsay
        29
    tingyunsay  
       2018 年 6 月 24 日
    我搞了一年多的爬虫,除了新出现的反爬方法,就是 app 里的逆向了,推荐个博客:尼古拉斯*赵四,逆向入门都是看的这位哥的~~
    tingyunsay
        30
    tingyunsay  
       2018 年 6 月 24 日
    卧槽,看了楼上几位的对话,现在感觉慌的一批啊.....
    tnt666666
        31
    tnt666666  
       2018 年 6 月 24 日 via Android
    不要争辩是否违法,因为法律说你违法,你就违法了。
    fiht
        32
    fiht  
       2018 年 6 月 24 日
    往反爬虫这个方向走,越走越死。
    alexnevsky
        33
    alexnevsky  
       2018 年 6 月 24 日
    自己研究下没事,要是用于商业用途,东搞西搞,对方告你就是违法了
    linhanqiu
        34
    linhanqiu  
    OP
       2018 年 6 月 24 日 via iPhone
    @tingyunsay 好的,哥们,多谢
    U87
        35
    U87   div class="badges">   2018 年 6 月 24 日
    @linhanqiu 兄弟,能问个东西吗
    sola97
        36
    sola97  
       2018 年 6 月 25 日
    爬虫到头搞信息安全么
    erosripe
        37
    erosripe  
       2018 年 6 月 25 日 via Android
    @tingyunsay 求链接
    linhanqiu
        38
    linhanqiu  
    OP
       2018 年 6 月 25 日
    linhanqiu
        39
    linhanqiu  
    OP
       2018 年 6 月 25 日
    @sola97 也不一定,看个人兴趣,不过至少得接触一点把
    linhanqiu
        40
    linhanqiu  
    OP
       2018 年 6 月 25 日
    @U87 talk
    fengche361
        41
    fengche361  
       2018 年 6 月 25 日
    还是要小心一点,感觉数据要是用于商业用途,基本上就是游走在法律边缘
    nbboy
        42
    nbboy  
       2018 年 6 月 25 日
    不是逆向,是正向,逆向只是手段。产出程序才是正道。
    U87
        43
    U87  
       2018 年 6 月 25 日
    @linhanqiu 爬虫使用代理时,公司提供了快代理收费接口,我这边直接拿到接口返回的那些 addres 和 port,然后做了个简单的判断,就是遍历拿到的代理 ip 列表访问个 http 的网站,返回 200 的我就取,然后就去实现我的爬虫(respOnse= requests.get(url=url, headers=random.choice(self.headers), proxies=random.choice(proxy_list), timeout=10)),随机获取验证过的 ip,然后再请求.但是这样好像不行.都是这种报错 HTTPConnectionPool,请问前辈是哪里的问题
    18835579411
        44
    18835579411  
       2018 年 6 月 26 日
    @linhanqiu 感谢
    rocketman13
        45
    rocketman13  
       2018 年 6 月 26 日
    js 加密参数一般怎么破
    supervipcard
        46
    supervipcard  
       2018 年 6 月 27 日
    爬虫做多了,不会点逆向跟深度学习,真心搞不动
    wushaojun321
        47
    wushaojun321  
       2018 年 6 月 30 日 via iPhone
    一样啊,兄弟,发请求很容易,难的是发的内容,最近在看加密与解密
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1099 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 23:06 PVG 07:06 LAX 15:06 JFK 18:06
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86