千万级别的数据如何做复杂的聚合计算?有没有轻量级的开源框架推荐? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hbsfxlz
V2EX    Elasticsearch

千万级别的数据如何做复杂的聚合计算?有没有轻量级的开源框架推荐?

  •  
  •   hbsfxlz 2018-03-13 10:08:20 +08:00 5812 次点击
    这是一个创建于 2768 天前的主题,其中的信息可能已经有所发展或是发生改变。

    说下详细描述吧,比如一个参与记录表,可以通过一次聚合获取 A 用户参与了多少次,如何在第一次的聚合结果上再次聚合,得出参与多少次的有多少人这种结果???有尝试过 es 去实现,发现 es 桶聚合分页也不支持,更不谈这种对聚合结果聚合的操作,有 es 大佬知道这种操作可以指点一波。谢谢

    16 条回复    2018-03-13 13:17:18 +08:00
    hbsfxlz
        1
    hbsfxlz  
    OP
       2018-03-13 10:09:15 +08:00
    人工自顶一波
    hbsfxlz
        2
    hbsfxlz  
    OP
       2018-03-13 10:10:42 +08:00
    为什么在首页看不到帖呢
    sunchen
        3
    sunchen  
       2018-03-13 10:15:42 +08:00
    mpp 随便选一个
    hbsfxlz
        4
    hbsfxlz  
    OP
       2018-03-13 10:17:44 +08:00
    @sunchen mpp ???是什么
    enenaaa
        5
    enenaaa  
       2018-03-13 10:20:01 +08:00
    pandas 可以实现。但不太适合线上处理。
    EmdeBoas
        6
    EmdeBoas  
       2018-03-13 10:20:23 +08:00
    kylin 了解一下,是离线预计算,而且很不轻量...速度还是 ok 的
    hbsfxlz
        7
    hbsfxlz  
    OP
       2018-03-13 10:24:16 +08:00
    @enenaaa 要求秒级实现,pandas 导入 2KW 数据的速度已经接受不了了
    @EmdeBoas 在看,谢谢,其实理想的是基于 es,可惜 es 这个效果我没实现出来
    ConradG
        8
    ConradG  
       2018-03-13 10:30:19 +08:00
    千万还要秒级,安心流式计算搞起
    jyf
        9
    jyf  
       2018-03-13 10:34:23 +08:00
    哈 你也踩到 es 的坑啦 这个数量级随便用啥了 只是别有这种坑就行
    hbsfxlz
        10
    hbsfxlz  
    OP
       2018-03-13 10:40:08 +08:00
    @ConradG 业务需求,没办法,用 lucene 收集器实现过,大概 3KW 数据 3 到 6 秒,就怕数据量再大,算法会出问题
    @jyf 是啊,没想到 es 这么好的搜索引擎不支持,也有可能是自己不会吧,只能期望 v 社大牛指点一波了
    jasonslyvia
        11
    jasonslyvia  
       2018-03-13 10:40:23 +08:00
    druid.io 看看
    EmdeBoas
        12
    EmdeBoas  
       2018-03-13 10:46:45 +08:00
    我还是详细说一下 kylin 吧,免得你掉坑里....这个速度很快(因为是预计算),所以倒不怕数据量,(百亿级数据秒出,我刚去线上试的...),但是由于是预计算,随着你聚合维度的增加,数据量会指数级的膨胀!再一个,这东西搭起来和维护可是不轻松的.....
    hbsfxlz
        13
    hbsfxlz  
    OP
       2018-03-13 10:50:07 +08:00
    @EmdeBoas。。。。谢谢提醒。估计是使用不上了--
    fireapp
        14
    fireapp  
       2018-03-13 11:13:20 +08:00 via Android
    kudu + impala 直接撸 sql, 千万级别秒级没问题
    zhengxiaowai
        15
    zhengxiaowai  
       2018-03-13 11:16:57 +08:00
    spark 不错
    BeginMan
        16
    BeginMan  
       2018-03-13 13:17:18 +08:00   1
    druid 做计算引擎,superset 做 BI。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2899 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 13:49 PVG 21:49 LAX 06:49 JFK 09:49
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86