千万级别的数据如何做复杂的聚合计算？有没有轻量级的开源框架推荐？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Elasticsearch 参考文档

Elasticsearch: The Definitive Guide

elasticseaerch-analysis-ik

这是一个创建于 2768 天前的主题，其中的信息可能已经有所发展或是发生改变。

说下详细描述吧，比如一个参与记录表，可以通过一次聚合获取 A 用户参与了多少次，如何在第一次的聚合结果上再次聚合，得出参与多少次的有多少人这种结果？？？有尝试过 es 去实现，发现 es 桶聚合分页也不支持，更不谈这种对聚合结果聚合的操作，有 es 大佬知道这种操作可以指点一波。谢谢

聚合

参与

结果

轻量级

16 条回复 2018-03-13 13:17:18 +08:00

hbsfxlz

2018-03-13 10:09:15 +08:00

人工自顶一波

hbsfxlz

2018-03-13 10:10:42 +08:00

为什么在首页看不到帖呢

sunchen

2018-03-13 10:15:42 +08:00

mpp 随便选一个

hbsfxlz

2018-03-13 10:17:44 +08:00

@sunchen mpp ？？？是什么

enenaaa

2018-03-13 10:20:01 +08:00

pandas 可以实现。但不太适合线上处理。

EmdeBoas

2018-03-13 10:20:23 +08:00

kylin 了解一下，是离线预计算，而且很不轻量...速度还是 ok 的

hbsfxlz

2018-03-13 10:24:16 +08:00

@enenaaa 要求秒级实现，pandas 导入 2KW 数据的速度已经接受不了了
@EmdeBoas 在看，谢谢，其实理想的是基于 es，可惜 es 这个效果我没实现出来

ConradG

2018-03-13 10:30:19 +08:00

千万还要秒级，安心流式计算搞起

jyf

2018-03-13 10:34:23 +08:00

哈你也踩到 es 的坑啦这个数量级随便用啥了只是别有这种坑就行

hbsfxlz

2018-03-13 10:40:08 +08:00

@ConradG 业务需求，没办法，用 lucene 收集器实现过，大概 3KW 数据 3 到 6 秒，就怕数据量再大，算法会出问题
@jyf 是啊，没想到 es 这么好的搜索引擎不支持，也有可能是自己不会吧，只能期望 v 社大牛指点一波了

jasonslyvia

2018-03-13 10:40:23 +08:00

druid.io 看看

EmdeBoas

2018-03-13 10:46:45 +08:00

我还是详细说一下 kylin 吧，免得你掉坑里....这个速度很快（因为是预计算），所以倒不怕数据量，（百亿级数据秒出，我刚去线上试的...）,但是由于是预计算，随着你聚合维度的增加，数据量会指数级的膨胀！再一个，这东西搭起来和维护可是不轻松的.....

hbsfxlz

2018-03-13 10:50:07 +08:00

@EmdeBoas。。。。谢谢提醒。估计是使用不上了--

fireapp

2018-03-13 11:13:20 +08:00 via Android

kudu + impala 直接撸 sql，千万级别秒级没问题

zhengxiaowai

2018-03-13 11:16:57 +08:00

spark 不错

BeginMan

2018-03-13 13:17:18 +08:00

druid 做计算引擎，superset 做 BI。