基于Flink+ClickHouse打造轻量级点击流实时数仓( 二 )
ClickHouse 数据重平衡
ClickHouse 集群扩容之后 , 数据的重平衡(reshard)是一件麻烦事 , 因为不存在类似 HDFS Balancer 这种开箱即用的工具 。 一种比较简单粗暴的思路是修改 ClickHouse 配置文件中的 shard weight , 使新加入的 shard 多写入数据 , 直到所有节点近似平衡之后再调整回来 。 但是这会造成明显的热点问题 , 并且仅对直接写入分布式表才有效 , 并不可取 。
因此 , 我们采用了一种比较曲折的方法:将原表重命名 , 在所有节点上建立与原表 schema 相同的新表 , 将实时数据写入新表 , 同时用 clickhouse-copier 工具将历史数据整体迁移到新表上来 , 再删除原表 。 当然在迁移期间 , 被重平衡的表是无法提供服务的 , 仍然不那么优雅 。 如果大佬们有更好的方案 , 欢迎交流 。
作者:LittleMagic
本文为阿里云原创内容 , 未经允许不得转载 。
- 注册|阿里申请注册“爆改吧!小店”商标,打造线下特色实体小店
- 中国|中国软件国际与深圳市政府达成战略合作协议 助力打造“创新之都“
- 流量|蔡林记总经理张绪明:电商、外卖弥补实体店损失,将打造私域流量
- 广州国际创新节|大咖谈新基建:打造新经济时代的数字引擎
- 科技成果|“基于第三代半导体光源的低投射比投影仪关键技术”通过科技成果评价
- 搜违禁词将出现公益宣导页 看“绿网计划”如何打造安全网
- 搭档|台湾、东北小伙搭档 打造用工领域“滴滴打车”
- 打造|广西移动5G为打造“数字丝绸之路”提档加速
- 深度|专为年轻人打造的高端机 Redmi K30S至尊纪念版深度实测
- 如何基于Python实现自动化控制鼠标和键盘操作