公司的数据量越来越大了 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
v2eb
V2EX    程序员

公司的数据量越来越大了

  •  1
     
  •   v2eb 2019-07-01 18:8:19 +08:00 10064 次点击
    这是一个创建于 2364 天前的主题,其中的信息可能已经有所发展或是发生改变。

    一张 mysql 主表有三千万数据量,这才刚开始,后期数据量会更多,v 友有什么建议吗

    46 条回复    2019-07-03 09:40:08 +08:00
    guokeke
        1
    guokeke  
       2019-07-01 18:36:26 +08:00
    你预期后期数据量每天什么规模?
    guokeke
        2
    guokeke  
       2019-07-01 18:36:38 +08:00
    以及说下业务呗
    mokeyjay
        3
    mokeyjay  
       2019-07-01 18:39:35 +08:00
    无非是分库分表、或者上非关系型
    v2eb
        4
    v2eb  
    OP
       2019-07-01 18:40:11 +08:00
    @guokeke 三天从 500 万到 3 千万,
    目前只是做普通的数据展示,
    以后可能会有数据分析啥的,咱也不懂
    v2eb
        5
    v2eb  
    OP
       2019-07-01 18:40:50 +08:00
    公司有人提到要用 ES
    tt67wq
        6
    tt67wq  
       2019-07-01 18:42:09 +08:00
    删苦跑路吧!!!
    swulling
        7
    swulling  
       2019-07-01 18:42:44 +08:00 via iPhone
    三天这个量,只能放弃关系数据库了
    guokeke
        8
    guokeke  
       2019-07-01 18:46:02 +08:00
    @v2eb 如果数据有时间相关性可以按照天或者月分表,无时间相关就要根据业务来分析了,粗暴点可以按照常用查询的列的值的 hash 进行分表。
    gaoyulong
        9
    gaoyulong  
       2019-07-01 18:48:01 +08:00
    看业务啊,不说具体要求就是耍流氓
    txy3000
        10
    txy3000  
       2019-07-01 18:51:12 +08:00 via Android
    以后还会有每天 1000w 的增量吗? 会的话索引更新很频繁 单机承载不了的 上分布式吧 sharding 负载均衡那一套
    如果查询还多 Redis 也得上 缓存热点数据 减轻数据库 IO
    如果并发还高 建议上消息队列 异步插入
    neptuno
        11
    neptuno  
       2019-07-01 18:51:13 +08:00
    是不是表设计有问题?
    Solarest
        12
    Solarest  
       2019-07-01 18:51:25 +08:00
    热数据分库分表,冷数据进数仓
    icekingcy
        13
    icekingcy  
       2019-07-01 18:53:41 +08:00 via iPhone
    就是些流水数据吧? 换 ES 吧
    v2eb
        14
    v2eb  
    OP
       2019-07-01 18:55:26 +08:00
    感觉 DBA 有点水,字段大小随意设
    simple2025
        15
    simple2025  
       2019-07-01 19:33:15 +08:00 via Android
    一天 1kw 的数据公司应该很有钱
    rrfeng
        16
    rrfeng  
       2019-07-01 19:46:09 +08:00
    单表十二亿路过
    rb6221
        17
    rb6221  
       2019-07-01 19:51:11 +08:00
    这个增量速度,怕是需要搞冷热分库吧
    你千万级别用作数据展示 都放出来?不太可能吧,最多就是把计算结果再存一个表而已。计算任务应该是定时跑的,这个不需要多高的实时性
    vZexc0m
        18
    vZexc0m  
       2019-07-01 23:14:04 +08:00 via Android   1
    持续增长,上 tidb 得了。
    airfling
        19
    airfling  
       2019-07-01 23:25:42 +08:00 via Android
    上 es 吧,一天几个 g 的数据都不怕,反正你也只是展示数据,es 分好索引完全没问题
    Takamine
        20
    Takamine  
       2019-07-01 23:30:09 +08:00 via Android
    ETL。(ò ó)
    watsy0007
        21
    watsy0007  
       2019-07-02 01:43:35 +08:00
    tsdb 了解下.
    ETiV
        22
    ETiV  
       2019-07-02 05:15:04 +08:00
    #17 +1

    5 年前供职的公司就是这种情况:
    MySQL、每天一个表,每天一千万行数据,遇到推广可能两三千万,收集客户端上报的数据
    每天零点过就把线上数据拉下来算一下当天的新增、日活这些指标
    同时客户端还会冗余的向百度统计上报数据,作为一种参考手段
    ihipop
        23
    ihipop  
       2019-07-02 07:20:28 +08:00 via Android
    用 tidb,告别分库分表
    jaskle
        24
    jaskle  
       2019-07-02 07:28:09 +08:00 via Android
    一个字:删
    feiyunruyue
        25
    feiyunruyue  
       2019-07-02 09:09:03 +08:00
    Tidb 搞起吧,兼容 mysql
    chaleaochexist
        26
    chaleaochexist  
       2019-07-02 09:09:51 +08:00
    妥妥大数据.具体用啥咱也不懂.
    好像 ES 是最简单的.
    opengps
        27
    opengps  
       2019-07-02 09:11:38 +08:00
    挺好,能遇到这类问题真的可以快速提升自己的架构水平
    Aresxue
        28
    Aresxue  
       2019-07-02 09:20:22 +08:00
    我们公司用的是 ES,算是比较简单粗暴的做法吧。我很羡慕这样的机会。
    alpha2016
        29
    alpha2016  
       2019-07-02 09:21:22 +08:00
    es 吧,我知道个 mysql 到了瓶颈,然后上 es 的
    HunterPan
        30
    HunterPan  
       2019-07-02 09:43:48 +08:00
    类似的日志数据 就不需要 mysql 了
    laojiaqing
        31
    laojiaqing  
       2019-07-02 09:49:16 +08:00
    @icekingcy 请问下 es 是什么
    fengxianqi
        32
    fengxianqi  
       2019-07-02 10:09:17 +08:00
    @laojiaqing #31 我一个前端,猜一下是指 Elastic Search
    sujin190
        33
    sujin190  
       2019-07-02 11:17:47 +08:00
    @ETiV #22 如果纯统计数据完全没必要落数据库吧,直接队列,实时计算,之后文本存储就行了,写入速度快性能好,就算之后有其他统计需求,读文本也比读 mysql 快多了
    tiedan
        34
    tiedan  
       2019-07-02 11:30:27 +08:00
    直接每天一张表即可
    salamanderMH
        35
    salamanderMH  
       2019-07-02 11:38:00 +08:00
    如果可以,试试 tidb
    chrisliu1314
        36
    chrisliu1314  
       2019-07-02 12:13:35 +08:00 via iPhone
    不知道是什么业务场景,无法分析。
    分布式数据库 tidb,可以了解一下,没用过。
    如果是数据分析的话,那就用 hive 表。
    ducklyl
        37
    ducklyl  
       2019-07-02 12:23:38 +08:00
    要求加薪,然后,就有解决方案了
    PerpetualHeng
        38
    PerpetualHeng  
       2019-07-02 12:27:15 +08:00
    数据量大,增长慢,用分库分表。
    你这是数据量已经大了,但是增量也大,后面无法预估,传统 db 已经不能解决了。
    搜索引擎(ES),或者 HBase。
    kim01
        39
    kim01  
       2019-07-02 12:43:56 +08:00
    mongo 数据库,一天 8000W+数据。搞了一伙按月分表按小时存,简直就是洒洒水一个月也就 5000W+左右了
    linxiaoziruo
        40
    linxiaoziruo  
       2019-07-02 14:40:34 +08:00
    如果坚持使用 MySQL 的话,建议了解一下 MySQL 的分区功能,专做历史数据处理的。如果用 mongo 的话,建议了解一下 mongo 的分片功能,专做大数据的,如果是 es 的话,如果只做统计,建议使用,如果频繁增删改查,我建议不要用 es,会有很多数据不一致的坑出现。
    xzc19970719
        41
    xzc19970719  
       2019-07-02 14:44:44 +08:00
    鹰角??
    eslizn
        42
    eslizn  
       2019-07-02 14:49:24 +08:00
    @linxiaoziruo mysql 的分区很坑的,首先你也必须用到分区的 key 才能高效,另外线上涉及 ddl 操作简直是噩梦
    rogwan
        43
    rogwan  
       2019-07-02 15:05:00 +08:00 via Android
    @rrfeng 单表 12 亿,这数据库什么配置?
    whp1473
        44
    whp1473  
       2019-07-02 19:14:45 +08:00
    ES 是 Nosql,非结构化的数据,可以按照天建立 Index 索引,然后区分冷热数据,时间久的归冷数据。
    Mysql 分库分库可以用 tidb(没用过,不知道什么情况),mycat(有坑,左连接这种需要提前指定,没法自由,还有事务不支持其他还可以)
    kxjhlele
        45
    kxjhlele  
       2019-07-03 05:30:53 +08:00 via Android
    结构数据换 PostgreSQL,还支持时序
    v2exe2v
        46
    v2exe2v  
       2019-07-03 09:40:08 +08:00
    DolphinDB 了解一下
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2652 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 13:16 PVG 21:16 LAX 05:16 JFK 08:16
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86