[求助] 时下业内的大数据平台在 ubuntu 环境的部署方案有哪些? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
wqkenqing
V2EX    程序员

[求助] 时下业内的大数据平台在 ubuntu 环境的部署方案有哪些?

  •  
  •   wqkenqing 112 天前 1618 次点击
    这是一个创建于 112 天前的主题,其中的信息可能已经有所发展或是发生改变。

    几年前转小公司做大数据岗,当时 cdh+cm 开源转闭源。一套 6.3.2 用到现在。最近公司让调研新的方案,而操作系统由 centos7l 转向了 ubuntu22 。目前我在网上查到的 ubuntu 方案都很老,大都是 ubuntu18.想向现在的业内大佬了解下,你们是否有更新的 ubuntu 部署方案

    14 条回复    2025-06-20 16:30:22 +08:00
    wqkenqing
        1
    wqkenqing  
    OP
       112 天前
    补充一个问题,大家现在用到的大数据基础环境一般是怎么部署的。
    moonlight010
        2
    moonlight010  
       112 天前
    早就上云了,k8s 云原生部署啊,任务流程也是 pod 运行
    kangkag0231
        3
    kangkag0231  
       112 天前
    都 k8s 部署,和服务器用什么系统已经无关了。
    moonlight010
        4
    moonlight010  
       112 天前
    1 首先操作系统和选择什么方案并无关系
    2 cdh 是很老的方案了,cdh 是来过来就用,不过各种组件的兼容性已经处理好了
    3 小公司不会用到很多功能,市面上的方案就能满足大多数需求了
    4 要考虑怎么去部署服务,裸机部署倒也可以,如果是小公司的话,但起码是高可用的,最好是上 k8s ,各种大数据组件和服务,还有任务调度,执行组件都在 k8s 里面,这是未来的趋势,各种组件也都在拥抱云原生,比如 spark 和 flink 都有 k8s 部署和运行方案
    moonlight010
        5
    moonlight010  
       112 天前
    1 哪有方案是分 centos 还是 ubuntu 呢?后端部署是不分这个的,感觉你好像对 linux 不太懂(对大数据也不太懂,不是冒犯哈),这个问题很奇怪啊
    2 方案是看你各种组件选用哪个,现在市面上某一环节的组件,就有好几个供选择,甚至十几个供你选
    3 不管你是 centos 还是 ubuntu ,有区别吗?不都是裸机部署,就你的意思而言
    4 部署分好几种方案:裸机,高可用,容器部署,云原生,分别对应单机裸机多服务(不分系统滴老铁),多个裸机高可用 HA ,docker 容器部署应用,k8s 部署应用
    5 推荐使用 k8s ,但前提是你玩得转,大多数会玩 k8s 的不一定懂大数据,更不懂怎么将组件放在云上。会大数据的不懂 k8s ,只会单机多服务 HA 或者多裸机多服务 HA
    6 你的问题让我觉得考虑 k8s 都多余了哈哈哈
    wqkenqing
        6
    wqkenqing  
    OP
       112 天前
    感谢你的详细回复。确实小公司用到的东西很少,更换也不多,所以,这些年也比较固化。裸机部署现在基本上不咋考虑,因为习惯了 cm 这套,感觉再原生搞,很别扭。 我这阵用 ambari+bigtop 中落地了一套相对新些的版本,但这个方案目前对 ubuntu 系统的支持度比较度。 所以,想请问的是 k8s 是直接部署的原生组件吗,还是类似 cdh+cm 的镜像。
    div id="r_16397541" class="cell">
    wqkenqing
        7
    wqkenqing  
    OP
       112 天前
    并不会觉得冒犯哈,很是感谢你的回复。我也确实有一些困惑。公司规模太小,确实也如你所说懂 k8s 的,不管大数据这块内容。我之所以会觉得会区分系统还是因为对这块的思维还停留在 cdh+cm 时代,它们当时是分区 el7 和 ubuntu 的系统类型。我最近调研了 ambari+bigtop ,还有国产的 datasophon,它们都不支持 ubuntu22 。所以我才有此番问题。
    moonlight010
        8
    moonlight010  
       112 天前
    1 你好,确实,选择方案一定要根据企业的情况而定,不是什么高大上就用什么方案的,CDH+CM 那套是最快的方案,业务才是最重要的,后面 CDH 不是收费了吗,很多人投向开源了
    2 所以我一开始接触大数据就是开源的大数据组件,然后自己看文档去挨个部署,使用的是多裸机多服务,后面就尝试把服务全部 docker 容器化了,21 年就将服务放在 k8s 上了
    3 k8s 是直接部署原生组件。CDH+CM 是那种类似大数据部署工具,就是你不用管运维了,基本上要啥就安装就行,这种方案我知道很快,但是其实很落后,因为这样对组件的定制服务很麻烦,而且还有就是我可能不想用 CDH 提供的东西,想用体系之外的东西。
    4 你说的 Ambari+Bigtop 我大概之前有了解过,但是这两个还是基于裸机的服务(我以为),所以我后面就没接触了,本质上是和 CDH+CM 是一样的,不过是开源免费的。可能这两个有面向云原生的东西,比如打包成镜像,或者 k8s 的资源编排方案,但是我没有了解过哈(不装逼,这一块没了解过)
    moonlight010
        9
    moonlight010  
       112 天前
    看到你上面的回复,如果用惯了 CM 那一套的话,换成 Ambari+Bigtop 应该没问题,而且也很舒服,他们应该是支持 ubuntu22 的吧,你试着部署下才对
    另外,还没有类似这种大数据部署+管理的开源方案呢?应该是有的,但是功能大同小异,和 Ambari 差不多,Apache 下开源项目很多的,另外要考虑你使用的方案是否现在还处于积极开发的状态,可能好多都不怎么维护了,比如 https://github.com/apache/ambari 现在起码还在更新,有些项目可能就处于长期不维护状态了
    未来主流还是云原生的方案的,你有时间可以在业余多了解下这方面的东西,未雨绸缪,云原生部署+云原生监控+云原生执行计算任务,然后可能计算任务也会面向 serverless 或者 faas 方向发展,而不是传统的写 spark 任务或者 flink 任务,或者执行 spark/flink SQL 了,这一块也即将被淘汰(不是说没有作用,这一块挺好,但是未来的方案是上下游分开,低代码,低门槛),还有就是大数据其实是赋能的(数据支持),并不是主业务,所以需要和后端开发配合,或者和 AI 配合,提供数据收集、清洗,标注等功能的,供给 AI 训练学习,这一块整合
    另外,国内有一些小巨头公司是专门做大数据的,比如滴普科技,星环科技,你可以去他们官网看看,了解他们的技术方向,大概就知道了
    wqkenqing
        10
    wqkenqing  
    OP
       112 天前
    好的,好的,非常感谢你的分享,收获多多
    tulumu
        11
    tulumu  
       112 天前
    建议继续用 cdh + cm + centos, 平台应用服务是关键, 改造成 既可以提交 yarn 也可以提交 k8s 不就行了
    wqkenqing
        12
    wqkenqing  
    OP
       112 天前
    我也是在调研中,因为我们是一个信息化服务集成商,我们业务性质是以项目的形式给业主交付。所以,我也是在模排这些情况。我们定好一个版本或方案,就会尽量图稳,较长时间不动它。
    wqkenqing
        13
    wqkenqing  
    OP
       112 天前
    如果 centos ,我现在更倾向通过 ambari+bigtop 。因为 cdh 闭源后 6.3.2 确实有些太老了。我后续把 elasticsearch 与 flink 集成进去了,但现在的 streampark 、ds 、clickhouse 这些我们日常也用得很多。
    defunct9
        14
    defunct9  
       112 天前
    bigdata 和 k8s 不太相融,通常都是裸金属,穷的也是基于 openstack 造 kvm 给 emr 用。只有一条上升的路,就是 ambari 。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3535 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 10:27 PVG 18:27 LAX 03:27 JFK 06:27
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86