Skip to main content
Version: 4.1.0

Clickhouse

数据源配置

  • 配置项说明:
  1. 实例ID

    • 类型: 单行文本
    • 必须:
    • 默认值:
    • 说明: 数据源实例名称,请起一个有意义且唯一的名称
  2. host

    • 类型: 单行文本
    • 必须:
    • 默认值:
    • 说明: 服务器节点连接地址,可以为IP或者域名
  3. 端口

    • 类型: 整型数字
    • 必须:
    • 默认值: 8123
    • 说明:
  4. 数据库名

    • 类型: 单行文本
    • 必须:
    • 默认值:
    • 说明: 数据库名,创建JDBC实例时用
  5. 用户名

    • 类型: 单行文本
    • 必须:
    • 默认值: default
    • 说明:
  6. 密码

    • 类型: 密码
    • 必须:
    • 默认值:
    • 说明:

批量写

  • 配置项说明:
  1. 数据库名

    • 类型: 单选
    • 必须:
    • 默认值:
    • 说明:
  2. preSql

    • 类型: 富文本

    • 必须:

    • 默认值:

    • 说明:

      描述:写入数据到目的表前,会先执行这里的标准语句。如果 Sql 中有你需要操作到的表名称,请使用 @table 表示,这样在实际执行 Sql 语句时,会对变量按照实际表名称进行替换。比如你的任务是要写入到目的端的100个同构分表(表名称为:datax_00,datax01, ... datax_98,datax_99),并且你希望导入数据前,先对表中数据进行删除操作,那么你可以这样配置:"preSql":["delete from 表名"],效果是:在执行到每个表写入数据前,会先执行对应的 delete from 对应表名称

  3. postSql

    • 类型: 富文本

    • 必须:

    • 默认值:

    • 说明:

      写入数据到目的表后,会执行这里的标准语句。(原理同 preSql )

  4. batchByteSize

    • 类型: 整型数字
    • 必须:
    • 默认值: 13421772
    • 说明:
  5. 自动建表

    • 类型: 单选

    • 必须:

    • 默认值: on

    • 说明:

      在开始执行DataX任务前,自动在目标数据库中创建表,目标表Engine类型为'CollapsingMergeTree' 构建原理请参考MySQL到ClickHouse实时同步

  6. batchSize

    • 类型: 整型数字

    • 必须:

    • 默认值: 2048

    • 说明:

      • 描述:一次性批量提交的记录数大小,该值可以极大减少DataX与Mysql的网络交互次数,并提升整体吞吐量。但是该值设置过大可能会造成DataX运行进程OOM情况。
  7. 配置模版

    • 类型: 富文本
    • 必须:
    • 默认值: com.qlangtech.tis.plugin.datax.DataXClickhouseWriter.getDftTemplate()
    • 说明: 无特殊情况请不要修改模版内容,避免不必要的错误

实时写

  • 配置项说明:
  1. semantic

    • 类型: 单选

    • 必须:

    • 默认值: at-least-once

    • 说明:

      描述: sink 端是否支持二阶段提交

      注意: 如果此参数为空,默认不开启二阶段提交,即 sink 端不支持 exactly_once 语义; 当前只支持 exactly-once 和 at-least-once

  2. 脚本类型

    • 类型: 单行文本

    • 必须:

    • 默认值: StreamAPI

    • 说明:

      TIS 为您自动生成 Flink Stream 脚本,现支持两种类型脚本:

      • SQL: 优点逻辑清晰,便于用户自行修改执行逻辑
      • Stream API优点基于系统更底层执行逻辑执行、轻量、高性能
  3. batchSize

    • 类型: 整型数字

    • 必须:

    • 默认值: 5000

    • 说明:

      描述:一次性批量提交的记录数大小,该值可以极大减少 ChunJun 与数据库的网络交互次数,并提升整体吞吐量。但是该值设置过大可能会造成 ChunJun 运行进程 OOM 情况

  4. flushIntervalMills

    • 类型: 整型数字
    • 必须:
    • 默认值: 10000
    • 说明: "the flush interval mills, over this time, asynchronous threads will flush data. The default value is 10s.
  5. parallelism

    • 类型: 整型数字
    • 必须:
    • 默认值: 1
    • 说明: sink 并行度