一个服务器只有几台,最大内存不到 16G 的软件公司还想搞爬虫大数据,这算什么样的公司 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
cnfzv
V2EX    程序员

一个服务器只有几台,最大内存不到 16G 的软件公司还想搞爬虫大数据,这算什么样的公司

  •  
  •   cnfzv 2017-04-24 14:36:02 +08:00 18640 次点击
    这是一个创建于 3099 天前的主题,其中的信息可能已经有所发展或是发生改变。

    一个服务器只有几台,最大内存不到 16G 的软件公司 想搞爬虫、大数据,抓取的数据库主要用 SQLSERVER 。 搞数据抓取的只有一个新人,这算什么样的公司

    第 1 条附言    2017-04-24 16:55:29 +08:00
    全部三台服务器, 12G 、 8G 、 4G ,每个上面都安了俩数据库和一堆别的程序,并不是只给爬虫用
    97 条回复    2017-04-26 10:33:00 +08:00
    crazykuma
        1
    crazykuma  
       2017-04-24 14:38:12 +08:00   5
    老板脑洞比虫洞还大的公司吧
    webjin1
        2
    webjin1  
       2017-04-24 14:40:05 +08:00 via Android
    走人
    crab
        3
    crab  
       2017-04-24 14:42:32 +08:00
    爬 V2 吗 O(∩_∩)O
    qiayue
        4
    qiayue  
    PRO
       2017-04-24 14:46:01 +08:00
    搞爬虫没问题啊
    搞大数据就你也没有提供更多的信息,不评论
    jarlyyn
        5
    jarlyyn  
       2017-04-24 14:46:48 +08:00
    爬虫不是要 ip 池和带宽么?
    LU35
        6
    LU35  
       2017-04-24 15:00:32 +08:00
    快走人,下一题.
    murmur
        7
    murmur  
       2017-04-24 15:01:50 +08:00
    先搞起来骗到风投,没差
    gouchaoer
        8
    gouchaoer  
       2017-04-24 15:02:24 +08:00
    最重要的是钱给够了,为什么不能搞?
    看不起 sqlserver 么,比 mongo 靠谱
    爬虫又咋吃 cpu 和内存
    alwayshere
        9
    alwayshere  
       2017-04-24 15:02:31 +08:00
    爬虫 16G 貌似也行
    ryanzyy
        10
    ryanzyy  
       2017-04-24 15:03:51 +08:00
    看主要的开发者是否有实力吧
    初期服务器弱没问题啊
    server
        11
    server  
       2017-04-24 15:06:45 +08:00
    服务器够了,剩下自己发挥
    Aliencn
        12
    Aliencn  
       2017-04-24 15:06:49 +08:00
    有志向的公司
    marlboros
        13
    marlboros  
       2017-04-24 15:07:55 +08:00

    资金流到位
    升级服务器
    老板跟你提效率问题了吗?
    Hozzz
        14
    Hozzz  
       2017-04-24 15:13:21 +08:00   1
    单从数据库方面来说, sqlserver 现在可是三大主流数据库之一...
    cnfzv
        15
    cnfzv  
    OP
       2017-04-24 15:17:03 +08:00
    @ryanzyy
    @gouchaoer
    @jarlyyn
    开发就一个 Java 新人 服务器都是旧服务器,抓了 1000 万的数据吧,信息分离完成有 6000 万条以上的数据吧,都存 8g 内存服务器的 sqlserver 上 ,数据库和开发都是一个人管。 java 新人 爬虫用的框架,项目没提给买代理的事,也就没研究,存数据库的服务入口带宽 10M 大概吧
    gouchaoer
        16
    gouchaoer  
       2017-04-24 15:19:53 +08:00
    @cnfzv 这些都不重要,重要的是薪水和你的工作量。。。
    jarlyyn
        17
    jarlyyn  
       2017-04-24 15:20:39 +08:00   1
    @cnfzv

    就你给到的数据来看,这是家完美的控制了成本的很成功的公司…………

    如果换服务器换有经验的员工,能抓到 5000 万记录么……
    cnfzv
        18
    cnfzv  
    OP
       2017-04-24 15:25:49 +08:00
    @gouchaoer 那个 java 新人就是我, spring 都不会用,也就用个 webmagic 抓俩网站,数据库服务器都是我在弄,基本什么都干。工作不重,但是很杂
    yanzixuan
        19
    yanzixuan  
       2017-04-24 15:26:19 +08:00
    要是用 erlang , 16G 应该够用了。。。掩面跑开。。。
    ytmsdy
        20
    ytmsdy  
       2017-04-24 15:40:15 +08:00
    估计老板被人忽悠了,觉得手里有个十几个 G 的数据,然后分析分析就是大数据了!
    cnfzv
        21
    cnfzv  
    OP
       2017-04-24 15:44:30 +08:00
    @ytmsdy 只是想做大数据,并不是把现在这点东西当作大数据了。
    sweb
        22
    sweb  
       2017-04-24 15:47:12 +08:00
    主要看钱,楼主纠结啥?
    benbenlang
        23
    benbenlang  
       2017-04-24 15:48:28 +08:00
    老板被卖服务器的忽悠了,,,你要再和他争辩他会觉得你能力不行。。。
    qqpkat2
        24
    qqpkat2  
       2017-04-24 15:57:48 +08:00
    @cnfzv 第一次听说搞开发的事情很杂,你来搞搞边运维边开发试试?
    firefox12
        25
    firefox12  
       2017-04-24 16:00:47 +08:00 via iPhone
    512M 主机 每天 20 分钟扫描京东全网,不过那是 5 年前了。在 512m 主机上 每天还完成 1800 万房产数据的排序。

    我不觉得这样的设备有什么差的 现在端口支持 reuse 。抓多少数据只是受限于网络和 cpu
    towser
        26
    towser  
       2017-04-24 16:01:50 +08:00
    公司名字叫什么
    cnfzv
        27
    cnfzv  
    OP
       2017-04-24 16:04:04 +08:00
    @qqpkat2 我就是那个 java 新人,开发水平比较低,数据库基本维护就是我在弄,服务器基本没人管理,我大概做一点简单的维护,里面跑的都是公司正在用的项目程序,需要什么东西自己一点点在上面研究部署。
    cnfzv
        28
    cnfzv  
    OP
       2017-04-24 16:08:29 +08:00
    @firefox12 三台全是 Windows 服务器,爬虫和数据库都在上面,需要经常从上面查点数据
    Felldeadbird
        29
    Felldeadbird  
       2017-04-24 16:10:13 +08:00
    这要看你们要爬什么数据了。 16G 内存,可以实现很多东西。
    我司的爬虫才 1G 内存。主要爬对手商品信息,动态。
    楼主你这种没有详细信息的内容,真让人为怀疑你是为了喷而喷。
    cnfzv
        30
    cnfzv  
    OP
       2017-04-24 16:14:21 +08:00
    @benbenlang 并没有,都是好久之前的服务器,起码 2011 年之前的吧
    stabc
        31
    stabc  
       2017-04-24 16:18:48 +08:00
    如果是专业领域的大数据也不一定需要非常大容量啊。
    bravecarrot
        32
    bravecarrot  
       2017-04-24 16:22:13 +08:00
    大数据 不一定是数据量很大很大
    cnfzv
        33
    cnfzv  
    OP
       2017-04-24 16:25:52 +08:00
    @Felldeadbird 三台服务器,全是 windows , 6 、 7 年前的机器吧,两台在外网的都是公司正在用的项目,不敢大折腾,剩下的一台是个 8g 内存的塔式,抓数据、入库、数据处理、数据查询都要在上面进行。带宽不到 1MB 吧,其实能跑的动,只是我水平不够,也只有我去弄爬虫,心累。
    cnfzv
        34
    cnfzv  
    OP
       2017-04-24 16:29:30 +08:00
    @stabc
    @bravecarrot 并不是什么专业数据,也算不上大数据,只是公司有那个想法。干的一个项目的活,人家想要哪部分的信息,你就去抓哪部分,弄好了给人家送去。
    simapple
        35
    simapple  
       2017-04-24 16:38:20 +08:00
    也行 先跑着呗 等不够用了 上云
    reus
        36
    reus  
       2017-04-24 16:39:56 +08:00   6
    水平不足赖硬件……
    16G 不小, SQLServer 不差,做爬虫一个人也够。
    问题在于你,你能力不够,又不肯学习,才赖硬件,赖数据库,赖人手,赖公司。
    抱歉,实在不知道你有什么可以抱怨的。
    deadEgg
        37
    deadEgg  
       2017-04-24 16:42:57 +08:00
    16G 真的够了,你怕内存爆了,很多框架都有类似于 placeholder 的机制。

    你用心去做绝对搞得出成果的,不过可能时间上和过程上比较困难一点点而已
    Jimrussell
        38
    Jimrussell  
       2017-04-24 16:46:25 +08:00   1
    大家没注意到楼主说的是“软件公司”么。很明显老板想开拓新业务,然后挑了楼主在试水啊。花钱让你涨技术涨经验,这样的好事并不多的好吗。
    windfarer
        39
    windfarer  
       2017-04-24 16:47:59 +08:00
    楼主觉得多大的内存才能跑爬虫。。
    cnfzv
        40
    cnfzv  
    OP
       2017-04-24 16:50:30 +08:00
    @reus 心情不太好,抱怨下能让自己好过点就碎嘴一会吧。我并不完全算开发吧,要研究爬虫,要去查数据库,比对数据字典导数据,偶尔兼职测试按要求去测业务。做的一堆东西从来没有开发文档,口头需求,现做现改,所有东西全靠自学,不会的全靠百度,最近又弄了堆破事,有心无力,允许我抱怨下吧
    ipoh
        41
    ipoh  
       2017-04-24 16:56:26 +08:00   1
    @cnfzv 用百度的码农凭什么抱怨啊,努力还不够
    killerv
        42
    killerv  
       2017-04-24 16:59:33 +08:00
    多大的业务? 16G 应该够了啊
    cnfzv
        43
    cnfzv  
    OP
       2017-04-24 17:09:31 +08:00
    @killerv 只是爬虫 8g 都够了,可惜还有很多乱起八糟的东西跑着,而我也不只是去弄开发。我只是心情很不好,而这个公司发展方向确实也不太好,他们主要靠业务吃饭,开发并不重要。
    klxq15
        44
    klxq15  
       2017-04-24 17:10:59 +08:00 via Android
    大数据也没规定多大数据就算大数据啊。。。
    jayong
        45
    jayong  
       2017-04-24 17:18:46 +08:00
    @ipoh 哼 我用神马
    we3613040
        46
    we3613040  
       2017-04-24 17:24:51 +08:00
    听着挺爽的,不过就是发展不怎样,混日子还行
    Felldeadbird
        47
    Felldeadbird  
       2017-04-24 17:28:20 +08:00
    8G 的服务器,足够你用爬虫了。只是带宽出口 1M ,太少了。估计爬起来效率很低。你另外还有 2 台服务器,可以让他们做爬虫业务。反正我司 1U1G 100M 的服务器,每天爬 100 万的数据都没任何压力、一部分展示业务也在这台机器上进行。楼主自己做参考。
    bk201
        48
    bk201  
       2017-04-24 17:29:13 +08:00
    window 这内存不够吧, linux 倒是可以。
    eDeeraiD0thei6Oh
        49
    eDeeraiD0thei6Oh  
       2017-04-24 17:29:23 +08:00
    一个小目标 我觉得楼主多虑了
    cnfzv
        50
    cnfzv  
    OP
       2017-04-24 17:30:42 +08:00
    @Felldeadbird redis 队列,数据库、爬虫都在这一个 8g 上面,另外两个机器也跑着爬虫,但是得用这个机器入库,另外两个机器跑不动 redis
    Felldeadbird
        51
    Felldeadbird  
       2017-04-24 17:32:31 +08:00
    补充一点,服务器数据是定时删除的。如果楼主公司业务需要展示以前的数据,在数据大了的情况下,单机肯定是不够用的。但是不论怎样也好。刚开始的时候,数据量不大就别去担心硬件这个事情了。等到不够用的时候,直接向上面申请。他们不审批也没关系,让他们继续等待缓慢的服务……
    brucedone
        52
    brucedone  
       2017-04-24 17:43:01 +08:00
    很好奇一个爬虫,后面没有跟着算法等数据专家, 能搞成什么样的大数据。
    hundan
        53
    hundan  
       2017-04-24 17:47:11 +08:00 via Android
    我觉得楼主这样完全可以单干,自己开公司……
    jiangzhuo
        54
    jiangzhuo  
       2017-04-24 17:52:46 +08:00
    16G 没什么问题吧,如果爬垂直领域的, 32 台 500M 的爬虫也挺好,另外谁有国内比较便宜的代理池子给推荐一下。
    yohole
        55
    yohole  
       2017-04-24 18:19:46 +08:00
    @crab 我爬过 V2 ,一台最普通的 PC 爬个两天,基本搞掂了
    gamecreating
        56
    gamecreating  
       2017-04-24 18:30:02 +08:00
    跟机器有关系吗? PC 电脑一样采集..
    lyhiving
        57
    lyhiving  
       2017-04-24 18:52:07 +08:00 via Android
    有内幕,估计就是爬了“大数据”三个字
    fermiz
        58
    fermiz  
       2017-04-24 18:57:21 +08:00
    我们学校给论坛的都 64G 。。。。
    coreos
        59
    coreos  
       2017-04-24 19:05:01 +08:00
    @cnfzv 做着做着,做明白了,就大牛了。
    SlipStupig
        60
    SlipStupig  
       2017-04-24 19:10:14 +08:00
    2G 内存+2Core 每天抓取上千万的电商数据.....
    XDA
        61
    XDA  
       2017-04-24 19:33:18 +08:00 via iPhone
    对比我们自建机房上百台物理机啥也没干不好,每月几十万的服务器租赁费用,没有对比就没有伤害
    jyf
        62
    jyf  
       2017-04-24 20:33:20 +08:00
    内存不是问题 主要是出口 ip 另外我想楼主可能是想吐草大数据这三个字
    wdlth
        63
    wdlth  
       2017-04-24 21:34:47 +08:00
    配置不是大问题,数据的处理才是……
    razrlele
        64
    razrlele  
       2017-04-24 21:53:23 +08:00
    @firefox12 太强了。。。能透露下怎么做到的么。。。感觉解析页面还是很耗 CPU 的把。。。
    sagaxu
        65
    sagaxu  
       2017-04-24 21:58:29 +08:00
    我手上 4 台专用的,没有内存低于 32G 的,虽然只用了不到 4G ,但是公司采购不到这么低内存的双 CPU 机器
    roist
        66
    roist  
       2017-04-24 22:02:02 +08:00
    听起来像是

    老板有亲戚在当大官,能拿到政府补贴或者订单的
    scofieldpeng
        67
    scofieldpeng  
       2017-04-24 22:11:33 +08:00
    我家里一个上网本, 2g 内存, atom 的 cpu , 250 的 sata 硬盘,爬了 几千万的数据,还做分析。你这硬件我都很口水好么==
    hpeng
        68
    hpeng  
       2017-04-24 22:28:48 +08:00 via iPhone
    港真,爬个数据要给我这么大内存我就偷笑了,又不在这台机上处理。我就不信要多差的技术的爬虫才会用到 16g 内存不够用的,带宽给足,什么都好说。
    victory
        69
    victory  
       2017-04-25 04:05:37 +08:00
    可以去华强北组一个二手服务器来他个 64G 内存 而且 2011 年服务器肯定用的 DDR3 内存 现在 DDR3 洋垃圾内存白菜价
    Miy4mori
        70
    Miy4mori  
       2017-04-25 04:55:11 +08:00 via iPhone
    @gouchaoer 同意, mongo 真的是不堪大用
    Leafove
        71
    Leafove  
       2017-04-25 08:18:03 +08:00
    员工工资都发不起结果 CEO 整天在整人工智能的公司我都见过
    phpiis
        72
    phpiis  
       2017-04-25 08:23:59 +08:00
    先爬再说啊,赚到钱了自然可以游说升级服务器
    dsg001
        73
    dsg001  
       2017-04-25 09:05:56 +08:00
    家用 pc 都不止这个配置吧
    wizardoz
        74
    wizardoz  
       2017-04-25 09:10:55 +08:00
    为什么不可以搞?硬件等到不够用的时候再升级有什么问题?
    jianghu52
        75
    jianghu52  
       2017-04-25 09:31:08 +08:00
    跟你说个真实的事情。我们公司,现在 3 台机器。 4G 内存内存,两台 python ,一台 java ,用了 2 条联通,一条电信。一个月,一台机器爬两百万条数据。你知道怎么搞定 IP 池的么。断线换 IP !
    yanzixuan
        76
    yanzixuan  
       2017-04-25 09:35:53 +08:00
    @jianghu52 没啥不对。。我感觉你们公司好机智的呢。
    yanzixuan
        77
    yanzixuan  
       2017-04-25 09:38:08 +08:00
    @Miy4mori mongo 除了吃内存,不能自动回收,也没啥缺点。。。
    cnfzv
        78
    cnfzv  
    OP
       2017-04-25 10:01:28 +08:00
    @jyf 是的,都打算往上面做,但是每一个往上走的,要设备没设备,要人没人,一个 sqlserver 把硬盘跑的满满的
    cnfzv
        79
    cnfzv  
    OP
       2017-04-25 10:03:08 +08:00
    @phpiis
    @roist 没错 zf 项目,钱已经收到了,再想拿就是另外的项目了,现在就是后续的东西,感觉和技术支持一样
    cnfzv
        80
    cnfzv  
    OP
       2017-04-25 10:06:45 +08:00
    @hpeng
    @wdlth 没错 ,爬虫、存储、处理都在一个 8g 的服务器上,非 raid 磁盘,另外两个是添头,其他业务在上面,我只是拿来跑个爬虫而已。
    zhengxiaowai
        81
    zhengxiaowai  
       2017-04-25 10:10:28 +08:00
    管爬不管修
    baoguok
        82
    baoguok  
       2017-04-25 10:11:08 +08:00
    @server 绝对够了
    xiaoyu9527
        83
    xiaoyu9527  
       2017-04-25 10:12:38 +08:00
    @jianghu52 断线换 IP 的效率好么? 每次重播都是不同的 IP 么?
    10years
        84
    10years  
       2017-04-25 10:27:17 +08:00
    反正爬数据是够了.
    xiaoyang7545
        85
    xiaoyang7545  
       2017-04-25 10:27:19 +08:00
    现在。。大数据这个东西。。概念模糊。。多大的数据才算大数据。。所以好多人喊着做大数据的口号,其实做的就那么点屁大的东西
    firefox12
        86
    firefox12  
       2017-04-25 11:11:19 +08:00
    @razrlele 下面很多人都做到了,不难的,爬京东是垂直网站,做好匹配 很快的, cpu 会是瓶颈,用正则和不用,性能差别不小,但是对垂直网站而言简单。 那时候京东不过 50 万种商品,现在大概几百万种了。
    herozzm
        87
    herozzm  
       2017-04-25 11:45:50 +08:00
    面对 lz 不想说什么了
    Tunar
        88
    Tunar  
       2017-04-25 12:02:44 +08:00
    数据具体什么级别啊
    mathgl
        89
    mathgl  
       2017-04-25 12:11:05 +08:00
    sqlserver 挺好的,没啥问题,当然要是没钱买是另外一件事了。
    allgy
        90
    allgy  
       2017-04-25 14:01:57 +08:00
    我们服务器 2G
    alphadog619
        91
    alphadog619  
       2017-04-25 14:41:54 +08:00
    凑热闹的公司
    BlackCat02
        92
    BlackCat02  
       2017-04-25 18:11:42 +08:00
    16G 是够磕碜。。公司分的开发机还有 32G 内存
    allansun
        93
    allansun  
       2017-04-25 19:11:45 +08:00
    在用 512M 内存小机器跑 Redis 的人飘过。。。。
    imherer
        94
    imherer  
       2017-04-25 19:17:45 +08:00
    我们服务器全是 1CPU 1 内存的
    imherer
        95
    imherer  
       2017-04-25 19:18:08 +08:00
    @imherer 少了个 G , 1G 内存
    Nitromethane
        96
    Nitromethane  
       2017-04-25 19:29:06 +08:00
    是比我们实验室的机器少点~
    1000 万的量还不够大数据的标准~实验室机器上屯了 15T 脱敏的数据。。
    aev2ex
        97
    aev2ex  
       2017-04-26 10:33:00 +08:00
    @cnfzv 现在的公司也是,不重视技术,老板心里永远觉得技术就应该服务于销售和运营,对技术偏见很大,而且成长空间很有限,都不想待了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     877 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 32ms UTC 22:32 PVG 06:32 LAX 15:32 JFK 18:32
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86