1 Fastmail 66 天前 flink cdc 我记得可以 source 和 sink 可以控制 batchsize ,包括 channel 也可以控制 transactionCapacity 只要减少传递的 event 条数应该就可以吧 |
2 flmn 66 天前 客户这个库,就没个从库么? |
3 Fastmail 66 天前 datax 其实也可以控制并发以及并行处理的记录数和字节数,可以搜搜,具体记不清了 |
![]() | 5 weenhall5 66 天前 存量数据可以分批跑,考虑后续数据如何可持续 |
![]() | 6 liangcj OP @Fastmail 是有的,我上面 400w 就是设置了这些参数,10min 中跑完。cpu 爬升 20+。datax 也是可以设置并发量和处理记录、字节数。就是担心量太大了,还是会对客户有影响,而且 datax 是单机的,不支持分布式。 |
![]() | 8 yb2313 66 天前 要求无压力就只能慢慢传吧, 在小小的数据库里挖呀挖呀挖 |
9 fruitmonster 66 天前 @liangcj #6 那就再拉长呗,10 分钟,CPU 爬升 20+,那就 20 分钟、30 分钟、40 分钟,反正只全量这一次 |
10 beihanggmj 66 天前 分批次慢慢导出数据,用时间换算力。方案有很多,比如设置一个秒级别的 crontab 任务,一秒导出 1 万条这样的形式,时间间隔和单次 batch_size 可以按时间交付时间/需求设置具体的变量满足客户要求。 |
11 aarones 66 天前 按照需要,一个任务只跑几个库或者几个表就行了,这点数据没多少,找个凌晨 3 点跑一下就完事 |
![]() | 12 min 66 天前 参数设置好,100 分钟跑完就无压力咯 |
13 cccssss 66 天前 去客户机房硬盘对拷一份,然后跑增量 |
14 glacer 66 天前 如果不开 binlog ,实时同步基本就做不了了。 只能分批次在深夜启动任务做全量同步,全量结束后,同样在深夜拉最新一天的数据做日增量即可。 |
![]() | 15 cloudzhou 66 天前 你这个应该要确定下方案先,尤其是否 binlog ,这个方案就差别很大了 |
16 haimianbihdata 66 天前 不开 binlog ,实时很难搞。后续敲定了什么方案 |
17 coderYang 66 天前 能否先 mysqldump 一份数据下来进行消费,同时记录时间点,新数据则通过 binlog 来实现呢? 消费 binlog 文件不会对 mysql 有啥影响吧 |
![]() | 18 liangcj OP @coderYang dump 的时候也会对客户的数据库造成很大压力。我本地 dump 自己的 6 亿条数据,cpu 骤然爬升 80%+,而且我本地还是没有其他业务操作。 |
![]() | 19 Grand 65 天前 没有 binlog 感觉只能业务上双写,但是双写就不能保持数据一致性。只能说服客户开启 binlog |