新系统做大数据解析是否需要上 hadoop - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dimingxuan
V2EX    数据库

新系统做大数据解析是否需要上 hadoop

  •  
  •   dimingxuan 161 天前 via Android 3596 次点击
    这是一个创建于 161 天前的主题,其中的信息可能已经有所发展或是发生改变。

    求助,公司新建一个系统,几十亿条数据,需要业务人员能写一些简单的规则做一些数据离线筛查和判断,每天新增数据几万条。数据现在都在 MySQL 做的数仓。

    规则编写想用 drools ,现在遇到了数据读取大的问题,需不需要上 hadoop 全家桶?还是简单一点,sparkHDFS 、Hivedrools 。对大数据了解不多,请大大们提提建议

    /div>
    30 条回复    2025-08-22 15:19:19 +08:00
    v1
        1
    v1  
       161 天前   1
    怎么简单怎么来,解决问题最重要,一切为了业务。
    不然就是这个流程:
    写方案->做调研->得结论->报领导->开会议->扯预算->被优化
    guo4224
        2
    guo4224  
       161 天前 via iPhone   1
    几十亿看看 es 就行了吧
    includewins0ck2h
        3
    includewins0ck2h  
       161 天前   1
    duckdb 感觉轻轻松松
    dododada
        4
    dododada  
       161 天前   1
    clickhouse ,只要更新不大没什么问题,hadoop 有点重
    colincat
        5
    colincat  
       161 天前   1
    drois 轻轻松松
    springz
        6
    springz  
       161 天前   1
    这么一点点数据,duckdb 还没热身。或者存成 Parquet 文件,爱用啥用啥。
    springz
        7
    springz  
       161 天前   1
    看自己情况,公司资源丰富的话夸大一点,多争取点资源练手也行。不过建议不要上 hadoop 的船,淘汰了的玩意。
    superchijinpeng
        8
    superchijinpeng  
       161 天前   1
    大数据已死
    tf2
        9
    tf2  
       161 天前   1
    看你是求快速解决问题,还是扩大团队编制

    如果求快现在 10 亿量级单机轻松跑

    但是单机肯定不可能给你配几十条人的大数据团队。
    ptaooo
        10
    ptaooo  
       161 天前   1
    不建议 hadoop ,太重了,维护成本也不低
    masterclock
        11
    masterclock  
       161 天前   1
    才这么点数据,上个毛线 hadoop
    leeg810312
        12
    leeg810312  
       161 天前   1
    小团队直接用 doris 或 clickhouse 好了,几台机器做集群。Spark 现在没有可用的开源集成套件,CDH 早就不更新不提供支持了,自己搭建得有人自己会维护。
    CoderGeek
        13
    CoderGeek  
       161 天前   1
    clickhouse
    yb2313
        14
    yb2313  
       161 天前   1
    我推荐 clickhouse, 部署简单文档完善, 对比竞品非常清爽
    min
        15
    min  
       161 天前   1
    单机 duckdb ,分布式用 doris 系即可
    tabris17
        16
    tabris17  
       161 天前   2
    clickhouse+1

    甚至 postgresql 都可以
    yb2313
        17
    yb2313  
       161 天前   1
    @tabris17 那我用 clickhouse 里面建一个 pg 引擎表岂不是两手都抓?
    Grand
        18
    Grand  
       161 天前   1
    离线分析随便玩吧,感觉不重就行
    cando
        19
    cando  
       161 天前   1
    StarRocks
    bronyakaka
        20
    bronyakaka  
       161 天前   1
    1 、如果不需要模糊搜索,上 clickhouse ,适合各种分析统计
    2 、如果需要搜索,上 ES ,其实也支持分析统计,不过性能稍弱
    3 、单机的话,这俩部署都比较简单。几十亿数据单机足够
    4 、如果觉得上面俩还是太重,试试 duckDB ,10 亿级问题不大
    Cruzz
        21
    Cruzz  
       161 天前 via iPhone   1
    你这体量上啥 hadoop 。
    godguoht1573
        22
    godguoht1573  
       161 天前   1
    StarRocks+1
    zsk425
        23
    zsk425  
       161 天前 via Android   1
    可以考虑直接以表的形式存储在 S3 上,用 Athena 查就行,毕竟只要离线,这应该是最省钱方案之一了
    springz
        24
    springz  
       161 天前   1
    #9 说的才是真理,其实要看是要解决问题还是切一块资源。
    assiadamo
        25
    assiadamo  
       161 天前   1
    之前看 duckdb 的文章在 2012 年的 4 核 i7/16G 内存的 macbook 上跑数十亿查询行数据的查询没问题
    OliverDD
        26
    OliverDD  
       161 天前   1
    单机 duckdb
    samwellwang0
        27
    samwellwang0  
       161 天前   1
    pg 或者 es 就行
    xuelang
        28
    xuelang  
       161 天前   1
    推荐 clickhouse ,真的快~
    levelworm
        29
    levelworm  
       160 天前 via Android   1
    找数仓就行了,据说 clickhouse 不错。
    linhrdom
        30
    linhrdom  
       116 天前
    数据不需要加工开发,不需要 ETL ,不考虑 join 纬度表,就用 clickhouse ;
    有 ETL 加工,要么选择 Spark 或者用云器
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3148 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 12:15 PVG 20:15 LAX 04:15 JFK 07:15
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86