
求助,公司新建一个系统,几十亿条数据,需要业务人员能写一些简单的规则做一些数据离线筛查和判断,每天新增数据几万条。数据现在都在 MySQL 做的数仓。
规则编写想用 drools ,现在遇到了数据读取大的问题,需不需要上 hadoop 全家桶?还是简单一点,sparkHDFS 、Hivedrools 。对大数据了解不多,请大大们提提建议
1 v1 161 天前 怎么简单怎么来,解决问题最重要,一切为了业务。 不然就是这个流程: 写方案->做调研->得结论->报领导->开会议->扯预算->被优化 |
2 guo4224 161 天前 via iPhone 几十亿看看 es 就行了吧 |
3 includewins0ck2h 161 天前 duckdb 感觉轻轻松松 |
4 dododada 161 天前 clickhouse ,只要更新不大没什么问题,hadoop 有点重 |
5 colincat 161 天前 drois 轻轻松松 |
6 springz 161 天前 这么一点点数据,duckdb 还没热身。或者存成 Parquet 文件,爱用啥用啥。 |
7 springz 161 天前 看自己情况,公司资源丰富的话夸大一点,多争取点资源练手也行。不过建议不要上 hadoop 的船,淘汰了的玩意。 |
8 superchijinpeng 161 天前 大数据已死 |
9 tf2 161 天前 看你是求快速解决问题,还是扩大团队编制 如果求快现在 10 亿量级单机轻松跑 但是单机肯定不可能给你配几十条人的大数据团队。 |
10 ptaooo 161 天前 不建议 hadoop ,太重了,维护成本也不低 |
11 masterclock 161 天前 才这么点数据,上个毛线 hadoop |
12 leeg810312 161 天前 小团队直接用 doris 或 clickhouse 好了,几台机器做集群。Spark 现在没有可用的开源集成套件,CDH 早就不更新不提供支持了,自己搭建得有人自己会维护。 |
13 CoderGeek 161 天前 clickhouse |
14 yb2313 161 天前 我推荐 clickhouse, 部署简单文档完善, 对比竞品非常清爽 |
15 min 161 天前 单机 duckdb ,分布式用 doris 系即可 |
16 tabris17 161 天前 clickhouse+1 甚至 postgresql 都可以 |
18 Grand 161 天前 离线分析随便玩吧,感觉不重就行 |
19 cando 161 天前 StarRocks |
20 bronyakaka 161 天前 1 、如果不需要模糊搜索,上 clickhouse ,适合各种分析统计 2 、如果需要搜索,上 ES ,其实也支持分析统计,不过性能稍弱 3 、单机的话,这俩部署都比较简单。几十亿数据单机足够 4 、如果觉得上面俩还是太重,试试 duckDB ,10 亿级问题不大 |
21 Cruzz 161 天前 via iPhone 你这体量上啥 hadoop 。 |
22 godguoht1573 161 天前 StarRocks+1 |
23 zsk425 161 天前 via Android 可以考虑直接以表的形式存储在 S3 上,用 Athena 查就行,毕竟只要离线,这应该是最省钱方案之一了 |
24 springz 161 天前 #9 说的才是真理,其实要看是要解决问题还是切一块资源。 |
25 assiadamo 161 天前 之前看 duckdb 的文章在 2012 年的 4 核 i7/16G 内存的 macbook 上跑数十亿查询行数据的查询没问题 |
26 OliverDD 161 天前 单机 duckdb |
27 samwellwang0 161 天前 pg 或者 es 就行 |
28 xuelang 161 天前 推荐 clickhouse ,真的快~ |
29 levelworm 160 天前 via Android 找数仓就行了,据说 clickhouse 不错。 |
30 linhrdom 116 天前 数据不需要加工开发,不需要 ETL ,不考虑 join 纬度表,就用 clickhouse ; 有 ETL 加工,要么选择 Spark 或者用云器 |