ClickHouse

有没有熟悉 clickhouse 的？ clickhouse 对于分布式支持的如何？

2025-10-06T22:17:58Z

要对一个大数据量的 table 进行查询，不会有复杂的查询逻辑，都是简单的 where 、order by 、group by 、sum 、avg 、count 查询，当前数据量接近 500 亿了，在半年内会增加到一万亿。

目前方案是使用 spark ，我知道 clickhouse 很适合 olap 查询场景并且速度很快，但 clickhouse 对于 10000 亿数据量能扛得住吗？或者 clickhouse 也能很好的支持分布式？

对 clickhouse 了解不是很深入，希望大佬指点

ClickHouse 的 MaterializedMySQL 引擎

2025-04-28T09:17:10Z

听说 ClickHouse 的 MaterializedMySQL 引擎是一种专门为 MySQL 数据同步设计的内置引擎，适用于 MySQL 8.0 及以上版本。它通过 MySQL 的 Binlog 实现增量同步，可以将 MySQL 中的数据实时或准实时地同步到 ClickHouse 中。

有人实际用过吗, 使用体验怎么样?

怎么这个节点就 8 个主题, 这也太少了

两条数据库创建语句产生了同样的效果 CREATE DATABASE hello1; 与 CREATE DATABASE hello ON CLUSTER 'xxxxx';

2024-06-27T13:20:07Z

咨询 clockhouse 的问题：

问题: CREATE DATABASE hello1; 与 CREATE DATABASE hello ON CLUSTER 'xxxxx'; 产生了相同的效果，都在 clickhouse 所有节点上创建了数据库,咨询下可能存在的原因.

期望的效果: 不加 ON CLUSTER 只在本地创建，加了就在整个集群每个节点上创建.

大佬们，我又来了！群晖装 clickhouse，撑得住吗？

2024-03-25T16:16:21Z

想买台正版群晖，跑 clickhouse, 30 亿条数据，大概 1TB 空间。
这台群晖 cpu 和 6G 内存，撑得住吗？
查询次数很低，查询数据量预估一个月的，300 万条

究竟是什么在占用着内存

2024-02-23T06:44:09Z

新手使用 clickhouse ，前几天意外重启了下 clickhouse ，发现监控中内存使用，急剧下降：

而下降的类型是 cache ，且在下降之后又在缓慢上涨，所以猜测肯定是和 clickhouse 有关，所以一顿查询，查到了以下文档，地址： https://clickhouse.com/docs/en/operations/query-cache

目前的内存占用情况：

目前现在有一些疑惑，请各位大佬解答：

1.这红色部分 Cache 占用是 clickhouse 的查询缓存占用吗？若是，为什么会一直上涨，不释放呢？

2.这部分红色的 Cache 占用，会在内存快满的时候释放吗？会有什么影响吗？

求大佬优化一下 3000 万数据的 NOT IN 查询

2023-12-13T09:28:29Z

我有一个 3000w 行的数据表，我需要在这个表上统计从某一年开始新参保的人数，原数据库是 ORACLE ，用的是

AND A.AAC001 NOT EXISTS (SELECT 1 FROM AC02_TEMP AS B WHERE A.AAC001 = B.AAC001 AND B.AAC030 < '2018-01-01 00:00:00')

的语法,在 clickhouse 上我试了 LEFT JOIN 和 NOT IN ，性能均不理想

SELECT COUNT(1) AS "新参保人数" FROM AC02_TEMP AS A WHERE A.AAB301 IN (SELECT AAB301 FROM AA26 WHERE AAA148 = '130800') AND A.AAE200 = '41' AND A.AAC031 = '1' AND A.AAC030 >= '2018-01-01 00:00:00' AND A.AAC001 NOT IN (SELECT B.AAC001 FROM AC02_TEMP AS B WHERE B.AAC030 < '2018-01-01 00:00:00');

以下是 explain

CreatingSets (Create sets before main query execution) Expression ((Projection + Before ORDER BY)) Aggregating Expression (Before GROUP BY) ReadFromMergeTree (default.AC02_TEMP) Indexes: PrimaryKey Keys: AAC001 AAE200 " Condition: and((AAC001 notIn 18692488-element set), (AAE200 in ['41', '41']))" Parts: 2/2 Granules: 4821/4821 CreatingSet (Create set for subquery) Expression ((Projection + Before ORDER BY)) ReadFromMergeTree (default.AA26) Indexes: PrimaryKey Condition: true Parts: 1/1 Granules: 1/1

我是 clickhouse 新手，目前没什么头绪，求大佬帮助 0.0

求大佬优化 3000w 数据多 UNION

2022-11-10T01:36:23Z

我有一个 3000w 行的数据表，用户输入数据后，需要在表内 6 个字段依次查询是否与数据匹配，试过 EXPLAIN SYNTAX 但没有用现在运行时间差不多 3-4s 之内大家有办法吗语句如下：

WITH A AS (SELECT * FROM otherinfor)
SELECT * FROM A where value1 = '1'UNION DISTINCT
SELECT * FROM A where value2 = '1'UNION DISTINCT
SELECT * FROM A where value3 = '1'UNION DISTINCT
SELECT * FROM A where value4 = '1'UNION DISTINCT
SELECT * FROM A where value5 = '1'UNION DISTINCT
SELECT * FROM A where value6 = '1'
下面是贴了 explain 的：

Distinct
Union
Expression ((Projection + Before ORDER BY))
Filter ((WHERE + (Projection + Before ORDER BY)))
ReadFromMergeTree (default.otherinfor)
Expression ((Projection + Before ORDER BY))
Filter ((WHERE + (Projection + Before ORDER BY)))
ReadFromMergeTree (default.otherinfor)
Expression ((Projection + Before ORDER BY))
Filter ((WHERE + (Projection + Before ORDER BY)))
ReadFromMergeTree (default.otherinfor)
Expression ((Projection + Before ORDER BY))
Filter ((WHERE + (Projection + Before ORDER BY)))
ReadFromMergeTree (default.otherinfor)
Expression ((Projection + Before ORDER BY))
Filter ((WHERE + (Projection + Before ORDER BY)))
ReadFromMergeTree (default.otherinfor)
Expression ((Projection + Before ORDER BY))
Limit (preliminary LIMIT (without OFFSET))
Filter ((WHERE + (Projection + Before ORDER BY)))
ReadFromMergeTree (default.otherinfor)
特别感谢大佬们，这对我非常重要

clickhouse 文档里的划分冷热多盘存储配置真的是按时间划分冷热数据的吗？

2022-10-09T10:32:16Z

https://clickhouse.com/docs/en/engines/table-engines/mergetree-family/mergetree/#table_engine-mergetree-multiple-volumes

move_factor：when the amount of available space gets lower than this factor, data automatically starts to move on the next volume if any (by default, 0.1). ClickHouse sorts existing parts by size from largest to smallest (in descending order) and selects parts with the total size that is sufficient to meet the move_factor condition. If the total size of all parts is insufficient, all parts will be moved.

看文档的解释，应该是按 part 的大小优先把大的 part 移到下一个盘

但是什么样的数据会被合并成一个 part 的呢？

大的 part 一定就是时间久远的数据吗？

请教各位大佬关于 clickhouse 的问题

2021-10-22T07:49:15Z

请问 clickhouse 的用户基础信息表怎么存，是存按用户 id 进行 alter table 修改数据，还是存 ReplacingMergeTree 引擎，定期 optimize

我这个场景， clickhouse 适用吗？

2021-06-03T03:17:26Z

比如求每个客户的“平均购买力”。我们表设计 3 个字段（ userId,orderId,price ）。但是 price 可能会变动，这条记录会被删除（业务原因）。

为了支持 update\delete，我们选择版本折叠树。主键设置 (userId,orderId)两个字段。但是我的统计维度却只要 userId （求每个客户的“平均购买力”），如果通过一个维度去聚合 “版本折叠树”，得到的数据又是不准确的。

有什么办法吗？