最近谈了一个外包的活,爬一个网站,大概 400 万网页, 1000 元少不少? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dt2vba
V2EX    外包

最近谈了一个外包的活,爬一个网站,大概 400 万网页, 1000 元少不少?

  •  
  •   dt2vba 2019-03-30 2:14:24 +08:00 via Android 6316 次点击
    这是一个创建于 2463 天前的主题,其中的信息可能已经有所发展或是发生改变。
    网站没有防止爬取数据的措施。

    客户要求,在他的 VPS 上安装 PostgreSQL,把爬取的数据存入该数据库。

    VPS 的配置,1 个处理器,1024MiB 内存,20GiB 固态硬盘。这样的配置能应付 2 亿条记录的单表吗?

    大佬们,说说你们的看法。非常期待你的建议。
    41 条回复    2019-04-20 09:43:57 +08:00
    herozzm
        1
    herozzm  
       2019-03-31 00:06:06 +08:00 via iPhone
    四百万 碰上反派 ip 限制什么的你 1 万成本未必做的出来
    ,1000 简直和免费差不多吧,你还不如免费
    10Buns
        2
    10Buns  
       2019-03-31 00:08:43 +08:00   14
    这个价钱不如直接免费落个人情
    GM
        3
    GM  
       2019-03-31 00:16:27 +08:00
    少了,加个零还差不多。
    但是如果真的是没反爬措施的话,那也没啥技术难度,就当赚点零花钱吧。
    molvqingtai
        4
    molvqingtai  
       2019-03-31 00:20:25 +08:00 via Android
    同意二楼
    persimmon
        5
    persimmon  
       2019-03-31 00:24:59 +08:00
    Charging depends on impact on client.
    ghd700
        6
    ghd700  
       2019-03-31 00:28:00 +08:00
    没反扒,这跟捡钱没区别
    opengps
        7
    opengps  
       2019-03-31 00:31:08 +08:00
    电费够吗?
    thulof
        8
    thulof  
       2019-03-31 02:09:14 +08:00 via iPhone   6
    1000 太少了,想起了大学的时候缺钱,500 帮人爬过新浪微博,做的舆情分析系统,动用了 cookie 池,代理库,Redis 等,还是分布式的,自然语言处理,还有个管理的前端系统!总给才 500 !现在想想感觉自己好像是 sb,太单纯了
    wenbinwu
        9
    wenbinwu  
       2019-03-31 04:27:53 +08:00
    我做过一个爬 6 个类似网站的,只爬两个关键字,几百条,第一版赚了一万
    6260628
        10
    6260628  
       2019-03-31 04:36:52 +08:00
    看你水平了
    dangyuluo
        11
    dangyuluo  
       2019-03-31 05:58:28 +08:00
    @thulof 你学习到的技术远远超过 500,我觉得挺好的。
    smallX
        12
    smallX  
       2019-03-31 07:14:18 +08:00 via Android   12
    贱别人,贱己,贱行业...
    dsg001
        13
    dsg001  
       2019-03-31 07:42:39 +08:00
    如果没有防爬措施,而且在对方 vps 上运行,爬虫也就是写写规则的事,1k 还能接受

    至于数据单条数据 * 2 亿,恐怕怎么算硬盘都不够
    loading
        14
    loading  
       2019-03-31 08:07:15 +08:00
    @wenbinwu 几百条,手工 CtrlCV 我都觉得赚!
    murmur
        15
    murmur  
       2019-03-31 08:07:55 +08:00
    2e 数据 1000 快 真便宜
    kingfsen
        16
    kingfsen  
       2019-03-31 08:21:51 +08:00 via Android
    至少 4000 才干
    StarRED
        17
    StarRED  
       2019-03-31 08:31:39 +08:00 via Android
    软件工程师 和 硬件工程师 相比,软件开发在中国比较看轻
    V2exUser
        18
    V2exUser  
       2019-03-31 08:34:06 +08:00 via Android
    先看爬的东西是什么,违法不,不然
    akrlab
        19
    akrlab  
       2019-03-31 08:58:29 +08:00
    如果没有反扒,有一说一,不费吹灰之力,这钱也就挣了。
    不过,注意,1000 块现在能干毛线?连油钱都不够,还不如你免费做个人情,把对方变中介,以后有活让他推荐给你。
    Deathminip
        20
    Deathminip  
       2019-03-31 09:24:19 +08:00
    单核处理器? 带宽多少? 400 万页面,假如每个页面 2 秒钟处理速度,800 万秒 / 60 / 60 / 24 = ?
    FaustinaD
        21
    FaustinaD  
       2019-03-31 09:33:09 +08:00 via iPhone
    上次朋友帮我爬了一万多条数据,我给他寄了两桶青啤一厂原浆(加运费 400 多),一箱大梭子蟹(加运费 400 多),后来第二年还送了他一箱山东大樱桃( 200 多),楼主自己算吧。
    uyhyygyug1234
        22
    uyhyygyug1234  
       2019-03-31 09:36:35 +08:00
    所以就是看有没有反爬!!拿多少钱,干多少事,哈哈
    ThirdFlame
        23
    ThirdFlame  
       2019-03-31 09:44:32 +08:00
    400 万 得爬到天昏地暗啊。1000 有点少吧。 *10 可以一干
    luozic
        24
    luozic  
       2019-03-31 10:24:05 +08:00 via iPhone
    免费搞吧,实际价格 10w+
    cyssxt
        25
    cyssxt  
       2019-03-31 10:33:58 +08:00 via iPhone
    白菜
    GG668v26Fd55CP5W
        26
    GG668v26Fd55CP5W  
       2019-03-31 10:34:19 +08:00 via iPhone
    练手,就当电费。
    dream7758522
        27
    dream7758522  
       2019-03-31 10:43:22 +08:00 via Android
    如果爬虫很好写,写好跟你没关系了,那 1000 块钱可以。事逼的话太便宜
    MonoLogueChi
        28
    MonoLogueChi  
       2019-03-31 10:46:49 +08:00 via Android
    如果网站没有任何反爬,不包售后,这个价格还算可以,另外凭这 VPS 的配置,能爬下来? 20G 的硬盘够用吗,有点担心
    python30
        29
    python30  
       2019-03-31 11:00:46 +08:00
    楼主是新手而且有时间的话就接了吧。挣钱事小,主要有动力学到技术了
    如果楼主是高手了。那就看楼上们的回答
    largecat
        30
    largecat  
       2019-03-31 11:11:07 +08:00 via Android
    这个小 vps 我觉得你还是得本地机器采然后再传上去,400 万也得折腾好久,看你带宽了,
    ghostheaven
        31
    ghostheaven  
       2019-03-31 11:11:07 +08:00 via Android
    我都是按照自己的工资为基数*一个系数*估算工作量=总价格。系数>=3,保证外快比加班的收益高。
    ophunter
        32
    ophunter  
       2019-03-31 14:00:07 +08:00
    插眼
    winglight2016
        33
    winglight2016  
       2019-03-31 15:23:19 +08:00
    lz,你放心吧,真正的需求远远不止这些。你报价应该基于你的单位时间价格*预计处理的消耗时间*1.5,外包起步价不应该低于 5k,不然,还不如把时间花在学习上。
    brotherb
        34
    brotherb  
       2019-03-31 23:55:11 +08:00
    太少了。。。。
    xiaobo944
        35
    xiaobo944  
       2019-04-01 09:16:50 +08:00
    “做技术的”思考方式始终是 “技术”,学习也是一种成本,需要时间的堆叠,各种试错的成果物。
    1nakaELYBbsXbZxY
        36
    1nakaELYBbsXbZxY  
       2019-04-01 10:10:11 +08:00
    是太少了,觉得至少也要*20
    ml1344677
        37
    ml1344677  
       2019-04-01 11:43:31 +08:00
    没反爬 你是觉得没反爬 还是你爬到一个你认为的量之后认定了没有反爬? 可能你完全就没有触发他的反爬机制
    400 万条 这点钱 太少了
    roberts
        38
    roberts  
       2019-04-08 23:00:38 +08:00
    @wenbinwu 这么牛逼吗
    wenbinwu
        39
    wenbinwu  
       2019-04-09 00:11:50 +08:00
    @roberts 这东西吧,给要求多的人做,你做的再好他也说你哪哪哪不行,还不给你钱
    反正自己估计自己的价值,比如自己一小时值多少钱,根据对方给的价和自己对项目预估的时间算算
    合算就干,不合算就算
    maslow
        40
    maslow  
       2019-04-17 17:10:03 +08:00
    1000 是肯定少了,如果简单的话,这个数据量也是 4-5k。 如果要过验证、反爬( ip,用户)就要单加钱了。
    bigtotoro
        41
    bigtotoro  
       2019-04-20 09:43:57 +08:00
    兄弟,太低了, 不如拿时间学习。行业就是这样搞乱的
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2641 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 11:48 PVG 19:48 LAX 03:48 JFK 06:48
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86