新入职,我感觉我不适合这行 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
feiniu
V2EX    职场话题

新入职,我感觉我不适合这行

  •  
  •   feiniu 2020-09-25 15:51:55 +08:00 5473 次点击
    这是一个创建于 1841 天前的主题,其中的信息可能已经有所发展或是发生改变。

    新入职,加这周才 2 周

    老大这周一给我一个任务

    爬 tmall 店 铺商品列表

    我只想说,周一到现在,我感觉我要自闭了

    第 1 条附言    2020-09-27 18:58:44 +08:00
    我还是太年轻啊。城市道路太滑了,说好的不加班,结果。。。。。。入职的第三天,搞到凌晨 2 点才回去
    35 条回复    2020-09-27 12:15:09 +08:00
    wangkun025
        1
    wangkun025  
       2020-09-25 15:55:21 +08:00
    这个……食宿免费?
    kop1989
        2
    kop1989  
       2020-09-25 15:57:06 +08:00   1
    动物节点可还行,码畜坐实了。
    慢慢学习,程序员算是少有的知识就是力量的职业了。
    feiniu
        3
    feiniu  
    OP
       2020-09-25 16:18:51 +08:00
    @wangkun025 晚上还是要回去的
    feiniu
        4
    feiniu  
    OP
       2020-09-25 16:19:23 +08:00
    @kop1989 老哥有什么门路吗
    gou7ma7
        5
    gou7ma7  
       2020-09-25 16:25:27 +08:00 via Android
    啥外企啊还爬,话说是不是真的 955 啊?我也在深大地铁站附近。
    wysnylc
        6
    wysnylc  
       2020-09-25 16:27:14 +08:00
    迟早进去
    caicaiwoshishui
        7
    caicaiwoshishui  
       2020-09-25 16:48:59 +08:00 via iPhone
    Github 没有这种轮子吗?可以查下
    tomczhen
        8
    tomczhen  
       2020-09-25 18:03:00 +08:00 via Android   3
    淘宝系的正常使用如果浏览快点都给你弹各种验证码,写爬虫还不如多顾几个大学生手工录入。

    哦,不对,应该叫大数据实习生。
    feiniu
        9
    feiniu  
    OP
       2020-09-25 18:34:03 +08:00
    @gou7ma7 955 是不可能的。到点了一个个都不走,我也不知道为什么。连续一周都是我第一个走。。。。
    feiniu
        10
    feiniu  
    OP
       2020-09-25 18:34:17 +08:00
    @caicaiwoshishui 没找到轮子。。。
    feiniu
        11
    feiniu  
    OP
       2020-09-25 18:34:27 +08:00
    @tomczhen 这也可以吗
    Cooky
        12
    Cooky  
       2020-09-25 18:36:55 +08:00 via Android
    selenium 慢点跑?
    TimeRain
        13
    TimeRain  
       2020-09-25 18:54:39 +08:00
    这种爬虫公司蛮危险呀,爬虫一时爽,终身火葬场
    helloworld2010
        14
    helloworld2010  
       2020-09-25 19:05:23 +08:00
    就写个爬虫而已,都开始怀疑自己能力了,建议先熟悉下 web 接口的一些规范,json/graphql 等等,html/css/js 也是。
    feiniu
        15
    feiniu  
    OP
       2020-09-25 19:08:53 +08:00
    @helloworld2010 有过一年的前后端开发经验的。这个淘宝这个风控是真的牛皮......
    v2hh
        16
    v2hh  
       2020-09-25 20:20:19 +08:00   5
    不要爬,真是经历,一个朋友公司爬的淘宝直播数据,他写的那部分代码,现在还在派出所,已经快有半个月了,公司老板目前还没事。
    zixianlaiye
        17
    zixianlaiye  
       2020-09-25 20:21:02 +08:00   6
    这种任务也是 nb,天猫的风控你要是这么容易写一个自动化爬取的,阿里那帮人的工资白开了
    sixway
        18
    sixway  
       2020-09-25 20:44:01 +08:00
    这个需要高质量的代理池,不然是无解的。
    LiuJiang
        19
    LiuJiang  
       2020-09-25 20:45:58 +08:00
    这不赶紧跑,想啥。。。
    asdf2020
        20
    asdf2020  
       2020-09-25 20:46:11 +08:00
    记得淘宝系的最难抓取,有同事尝试是借了好多账号,然后控制频率才搞定,切换 IP
    HFX3389
        21
    HFX3389  
       2020-09-25 20:47:06 +08:00
    爬淘宝天猫说实话,就算能爬,也很难做自动化,分分钟风控,什么验证码就来了
    而且 爬虫写的好,牢饭吃到饱 可不是一句空话
    gou7ma7
        22
    gou7ma7  
       2020-09-25 22:06:22 +08:00 via Android
    @feiniu 当时杭州有个公司,在本站也是招聘的时候说 955,然后面试的时候给我说。刚去肯定会加班,然后我就没去。
    gouflv
        23
    gouflv  
       2020-09-25 22:14:27 +08:00 via iPhone
    确实不适合,换个正常的公司
    miku831
        24
    miku831  
       2020-09-25 23:51:54 +08:00 via Android
    @v2hh 太恐怖了,真就不管老板啊
    XD2333
        25
    XD2333  
       2020-09-26 00:01:25 +08:00
    不如去看看官方的接口,我记得这个你这个还是有的,没必要一个树上吊死。
    jon
        26
    jon  
       2020-09-26 00:16:05 +08:00
    建议跑
    TimeRain
        27
    TimeRain  
       2020-09-26 07:43:57 +08:00
    实在不行换个公司吧,离爬虫远点比较好,爬虫个人感觉是离监狱最近的地方,别和我说公开数据可以爬,只要不影响到别人的业务就行,因为最终解释权在人家公司那里,他说你有罪大概率逃不掉,他没说不能做也不要掉以轻心,说不定有些公司就是专门搞这种爬数据的人
    AJQA
        28
    AJQA  
       2020-09-26 08:48:07 +08:00   1
    headless chrome 加 上千个类似 aws lambda 他们总不能分辨是爬虫了吧?
    因为上千个 lambda 肯定会有很多 ip?
    headless chrome 真实浏览器?
    leafre
        29
    leafre  
       2020-09-26 09:59:32 +08:00
    难吗
    huai
        30
    huai  
       2020-09-26 19:45:42 +08:00 via iPhone
    所以爬取这种相当于公开的数据 也是违法?楼上可以证实?还是也是道听途说(提问
    efaun
        31
    efaun  
       2020-09-26 23:03:13 +08:00
    @huai #30 IT 界的万能罪“破坏计算机信息系统罪”了解一下
    Curtion
        32
    Curtion  
       2020-09-27 10:39:21 +08:00
    @huai #30 爬取有反扒机制或者有 Robots 协议的网站都是犯法的。
    huai
        33
    huai  
       2020-09-27 12:04:16 +08:00 via iPhone
    @efaun 根据《中华人民共和国刑法》第二百八十六条规定,破坏计算机信息系统罪是指违反国家规定,对计算机信息系统功能或计算机信息系统中存储、处理或者传输的数据和应用程序进行破坏,或者故意制作、传播计算机病毒等破坏性程序,影响计算机系统正常运行,后果严重的行为

    那估计爬虫 ddos ?
    huai
        34
    huai  
       2020-09-27 12:04:50 +08:00 via iPhone
    @Curtion 反扒机制这个怎么算?有一些可能就是很轻松
    Curtion
        35
    Curtion  
       2020-09-27 12:15:09 +08:00
    @huai #34 我说的反扒机制指的是:网站有故意设立的反扒机制,如果你尝试绕过这个机制去爬取数据就有一定风险,上面我说的它犯法不准确,因为没有法律明文,不过有风险是肯定的,因为有过判刑案列。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1017 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 22:52 PVG 06:52 LAX 15:52 JFK 18:52
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86