公司想搭建一个类似数据中心的东西,有什么实现思路和方式,还有工具推荐么 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
Renco
V2EX    程序员

公司想搭建一个类似数据中心的东西,有什么实现思路和方式,还有工具推荐么

  •   Renco 2020-11-10 10:54:48 +08:00 6456 次点击
    这是一个创建于 1822 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大致需求是 所有系统的数据可以抽出来放入数据中心里,所有系统可以通过固定规范访问数据中心获取对应数据。进入到数据中心的数据需要经过一定的校验,否则会生成 csv 文件,人工修改后再选择传入数据中心。数据中心本身需要有一定的简单的业务处理能力,能对外提供查询服务(全文检索),并且可以对已有的数据进行分析的功能。

    我自己的想法是可以先通过 es 实现。但是架构师后来给我提了什么数据仓库或者类似数据湖的概念,我查询了下又觉得 es 不足以能够实现或者替代 数据仓库和数据湖的思想。这种需求还有什么其他的解决思路么。

    ps:个人感觉我一年的 java 开发经验上手做这种东西有点蛋疼了:( 不过创业公司,架构师基本上是一个大功能模块放出来,给我们一个思路让我们自己去尝试实现,只能加把劲争取做了。

    路过的大佬给点思路!跪谢!

    28 条回复    2020-11-10 20:54:39 +08:00
    tomczhen
        1
    tomczhen  
       2020-11-10 11:01:09 +08:00 via Android
    性能指标,功能指标,预算指标啥没有,就用云架构吧。
    tabris17
        2
    tabris17  
       2020-11-10 11:03:31 +08:00
    碰到过好几次 es 掉数据了。不是很可靠的数据存储后端。
    tabris17
        3
    tabris17  
       2020-11-10 11:07:34 +08:00
    另外 es 基本上没什么业务处理能力。不如考虑下 pgsql 或 hive 吧
    Renco
        4
    Renco  
    OP
       2020-11-10 11:08:00 +08:00
    @tomczhen 现在暂且是简单选型,和调研,具体指标方面都还没列
    snappyone
        5
    snappyone  
       2020-11-10 11:08:47 +08:00
    es 做搜索,存储用 hadoop 这种,计算用 spark 。一年经验确实难为你了
    huifer
        6
    huifer  
       2020-11-10 11:10:37 +08:00
    基础技术选型: Spark/Hive/Flink 这类提供查询方式的. 并不一定是 ES , es 提供全文搜索, 更适合于文档. 非结构化数据.
    确定技术选型后需要制作 ETL 即 各类数据源数据收集处理, 转换成数据中心(数据仓库)的数据对象(数据结构)
    数据转移完成后进行数据分类, 此时接入 ES 或者 MONGODB 我认为相对合适. 此时接入 ES 主要是进行归档数据存储,
    后续对外暴露服务可以通过 Spark sql + es 搜索 等技术进行暴露服务, 编码语言等不做限制,
    ssssshi
        7
    ssssshi  
       2020-11-10 11:11:59 +08:00   1
    直接搜数据中台技术架构 ,照着大厂的架构挑对自己公司有用的来,选型的时候多结合自己公司的业务和各产品特点,比如 CK 查询快,redis 数据新,计算用 hive spark flink 之类的,存储 hdfs,抽取 flume 等等...
    一开始的时候架构分层要清晰,不要各种生命周期的数据混在一起
    huifer
        8
    huifer  
       2020-11-10 11:12:51 +08:00
    就针对数据处理而言可能需要采用 MQ 或者 主从数据库等形式来尽可能减少对线上环境的影响....考虑不是很全面. 请多指教
    Renco
        9
    Renco  
    OP
       2020-11-10 11:14:48 +08:00
    感谢!
    Renco
        10
    Renco  
    OP
       2020-11-10 11:15:18 +08:00
    @huifer
    @ssssshi 感谢回复建议!
    silentt
        11
    silentt  
       2020-11-10 11:17:05 +08:00
    给你一条生产上的建议,选型一定要选 SQL 语法支持完备的数据库做数仓。你会发现绝大部分大数据的工作都是写 SQL 。
    Renco
        12
    Renco  
    OP
       2020-11-10 11:28:16 +08:00
    @silentt 好谢谢!
    GBdG6clg2Jy17ua5
        13
    GBdG6clg2Jy17ua5  
       2020-11-10 12:58:17 +08:00 via iPhone
    要是我说上 oracle,大家会不会打我
    rapperx2
        14
    rapperx2  
       2020-11-10 13:09:37 +08:00
    ClickHouse
    bxb100
        15
    bxb100  
       2020-11-10 13:11:27 +08:00
    @angryfish #13 确实是好的选择, 但是太贵了
    evil0harry
        16
    evil0harry  
       2020-11-10 13:19:23 +08:00
    clickhouse + kafka
    levelworm
        17
    levelworm  
       2020-11-10 13:21:30 +08:00 via Android
    我们用 vertica 和 kafla,但是不知道你具体情况不好推荐。。。
    zorui
        18
    zorui  
       2020-11-10 13:23:49 +08:00
    阿里云 的话 dla 可以满足
    jadec0der
        19
    jadec0der  
       2020-11-10 13:28:09 +08:00
    ES 和数据湖是两个场景,数据湖里的数据做分析,是不在数据库端做条件查询的。比如一个 data scientist 用 Spark 分析订单数据,他会取全量的订单数据放到 Spark 里,然后写 Spark SQL 在内存里对数据进行查询。既然在数据库端不需要做查询,那就不需要对存储的数据做索引,数据存 csv 格式放对象存储里就行了。所以关键看数据怎么用,你得先把这个搞清楚。
    zyuu2
        20
    zyuu2  
       2020-11-10 13:34:31 +08:00   1
    postgresql+clickhouse 。clickhouse 存量大的、日志型数据,postgresql 存量小的、聚合后的数据。
    teddy2725
        21
    teddy2725  
       2020-11-10 15:20:10 +08:00
    这就是典型的数据仓库场景嘛,看来还有些元数据管理和数据治理的需求。让你一个一年经验的 java 搞这不是为难你嘛。架构师不出方案的嘛。
    a719114136
        22
    a719114136  
       2020-11-10 16:50:11 +08:00
    能用现成的就用现成的吧,阿里云有个 MaxCompute 可以试下。
    stephenxiaxy
        23
    stephenxiaxy  
       2020-11-10 18:44:46 +08:00
    clickhouse
    yangzh
        24
    yangzh  
       2020-11-10 19:03:26 +08:00 via iPhone
    如果是分析数据的话,楼主可以搜索一下以下关键词:spark/clickhouse/postgresql,此外数据入库可以搜索以下关键词 flink/kafka 等。分析场景和 ES 还不太一样。

    此外有条件的话可以考虑上云,例如楼上说的某云的 maxcompute (利益无关,几大公有云应该都有解决方案),否则运维会耗费精力。
    NCE
        25
    NCE  
       2020-11-10 19:50:17 +08:00
    你们公司真有钱,可以让架构师这么嚯嚯。
    springz
        26
    springz  
       2020-11-10 20:46:37 +08:00
    看需求还是推荐 Greenplum,所谓的数据分析,大数据工程师,其实都是 SQL 工程师。
    lrvy
        27
    lrvy  
       2020-11-10 20:53:00 +08:00
    logstash 采集 --> kafka --> ETL --> ClickHouse/Hive, 短期日志放 ch,冷数据丢 hive
    mason961125
        28
    mason961125  
       2020-11-10 20:54:39 +08:00
    好家伙,点进来之前以为要建 DC
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2851 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 14:02 PVG 22:02 LAX 06:02 JFK 09:02
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86