关于上亿数据的统计问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
duyuyouci
V2EX    程序员

关于上亿数据的统计问题

  •  
  •   duyuyouci 2020-10-13 17:05:04 +08:00 4054 次点击
    这是一个创建于 1831 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在数据库有一张表数据已经过亿了,需要从不同维度统计按日,按月的数据,有没有什么好的解决方案呀,求教各位大神

    23 条回复    2020-10-14 11:40:19 +08:00
    imherer
        1
    imherer  
       2020-10-13 17:11:33 +08:00
    再建一张表把统计结果放进去,下次有用户统计的时候直接展示统计结果表里的数据即可
    clf
        2
    clf  
       2020-10-13 17:12:50 +08:00
    看看 ClickHouse ?
    duyuyouci
        3
    duyuyouci  
    OP
       2020-10-13 17:13:40 +08:00
    @imherer 现在有几个维度是这样做的,但是还存在修改往日数据的场景,有没有类似于数据订阅那样的统计,或者是实时查询效率比较高的方案
    duyuyouci
        4
    duyuyouci  
    OP
       2020-10-13 17:15:45 +08:00
    @lychs1998 我去了解一下
    misaka19000
        5
    misaka19000  
       2020-10-13 17:19:14 +08:00
    Spark
    NeezerGu
        6
    NeezerGu  
       2020-10-13 17:19:43 +08:00
    涉及上亿数据按天 /月 group by 的建议找大数据团队走 hive 来统计吧?

    如果没有这方面的资源,那我很怀疑直接跑 sql,会比直接 select 出来然后 python 来跑还要慢?

    另外如 1L,如果不不涉及历史记录修改,只涉及增量数据更新,那建议直接生成每天的结果数据,然后单独保存展示
    sonice
        7
    sonice  
       2020-10-13 17:30:09 +08:00
    为啥都觉得上亿就多,单机的 es 或者 clickhouse 解决都是轻轻松松
    duyuyouci
        8
    duyuyouci  
    OP
       2020-10-13 17:33:22 +08:00
    @sonice 对于不同维度的聚合操作也是可以吗,老哥
    duyuyouci
        9
    duyuyouci  
    OP
       2020-10-13 17:33:54 +08:00
    @NeezerGu 可能 select 就要很久
    maniaccn
        10
    maniaccn  
       2020-10-13 17:42:29 +08:00
    @duyuyouci 可以不同维度聚合的,es 很好用
    huayumo
        11
    huayumo  
       2020-10-13 18:06:31 +08:00
    我也觉得 es 挺好用
    jenlors
        12
    jenlors  
       2020-10-13 21:36:35 +08:00
    ClickHouse 可以满足你
    hooopo
        13
    hooopo  
       2020-10-13 21:39:47 +08:00
    @NeezerGu select 比 python 慢?搞笑吧
    NeezerGu
        14
    NeezerGu  
       2020-10-13 21:47:13 +08:00
    @hooopo 第一我说了只是感觉;第二我猜你没做过数据分析,个人感觉外行在很多时候往往特自信
    hooopo
        15
    hooopo  
       2020-10-13 22:00:36 +08:00
    @NeezerGu 我只是看了你的回复 觉得你特自信 还特别搞笑
    9LCRwvU14033RHJo
        16
    9LCRwvU14033RHJo  
       2020-10-14 00:41:03 +08:00
    wellsc
        17
    wellsc  
       2020-10-14 01:40:50 +08:00
    时序数据库
    lifanxi
        18
    lifanxi  
       2020-10-14 01:55:33 +08:00 via Android
    https://www.aliyun.com/product/bigdata/hologram

    新一代 HSAP 系统 Hologres 了解一下? 1 亿数据毛毛雨。
    rapperx2
        19
    rapperx2  
       2020-10-14 08:19:05 +08:00
    我们公司也是过亿表遇见你这种情况,现在方案是迁移数据库 clickhouse (之前是 sqlserver )
    NeezerGu
        20
    NeezerGu  
       2020-10-14 09:05:24 +08:00
    @hooopo 哦?我怎么感觉更像是跳梁小丑来挑衅?
    kaiz1121
        21
    kaiz1121  
       2020-10-14 09:58:24 +08:00   1
    如果是单表,可以选择 clickhouse,但是 clickhouse join 操作不行,但 clickhouse 单表还是宇宙第一。复杂多表不能单单靠一个组件就解决的。需要上一套系统,从 ETL 开始 监听 MySQL binlog,或者写入 mysql 的业务,双写到消息队列,然后把数据同步到写优化层,比如 hudi,然后从从写优化层导入到读优化层,比如 doris,然后从 doris 查询就很快了。如果是简单的统计,可以用 hbase,不用引入读优化层,和写优化层。但是如果是报表类的复杂查询,hbase 是不够的,有钱的话,直接用 ES,省心,慢了加机器。 还是得看具体业务需求。
    laminux29
        22
    laminux29  
       2020-10-14 10:21:23 +08:00
    什么业务,什么设备以及设备性能指标,什么系统,什么软件,数据结构怎样,相关设备最近一个月以分钟为粒度的负载表,你做这事有什么资源,做着事有什么性能指标或特性偏向,等等。你问的这个问题,至少要给出以上这些基本这些信息。不然,让我学楼上所有老哥,激活天赋技能 [先知] ,进行盲猜?

    而且你做这事,信息安全,数据权限,备份等问题,你还得自己想好怎么处理。
    madworks
        23
    madworks  
       2020-10-14 11:40:19 +08:00
    上亿数据,不同维度,按日按月???直接报表工具啊,powerbi,tableau,ssas
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2643 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 15:02 PVG 23:02 LAX 08:02 JFK 11:02
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86