怎么使用kettle进行增量数据的抽取

发布网友发布时间：2022-04-20 13:50

我来回答

共7个回答

懂视网时间：2022-05-01 11:53

增量抽取MongoDB数据并加载到MSSQL

由于不能使用关系型数据库的自定义SQL, 所以主要遇到的问题有:

增量时间的查询和参数控制
ETL的批次信息和调用参数的写入

第一个问题的解决如下:

使用命名参数在Query页中进行过滤, 一开始会担心${}的引用方式会用Mongo的语法冲突, 测试后发现运行正常

技术分享

第二个问题:

先为结果增加常量值, 如常量值固定则直接写死, 不固定的常量值先设置为空串, 在后面使用字符串替换组件传入命名参数, 最后用字段选择把空串的常量值移除

技术分享

使用Kettle增量抽取MongoDB数据实践

标签：

热心网友时间：2022-05-01 09:01

使用工具：
kettle

首先需要考虑的问题是不可能是全量进行数据的拷贝，数据量如此庞大！
那么就得考虑增量，何为增量去百度。。哈哈哈

至于如何增量抽取数据，有很多种办法，我这里示范的是通过时间去增量抽取（因为刚好别人的库中每条记录的时间记录的都相当详细，所以我认为这个比较好）。

首先创建好实例库：

SQL> desc timejob; Name Type Nullable Default Comments --------- ------------ -------- ------- -------- UUID VARCHAR2(36) Y BEGINTIME DATE Y

1

2

3

4

5

SQL> desc timejob_bak; Name Type Nullable Default Comments --------- ------------ -------- ------- -------- UUID VARCHAR2(36) Y BEGINTIME DATE Y

1

2

3

4

5

kettle中有自动生成UUID的功能，所以直接拿过来耍，为了简洁方便，字段使用比较少。
首先利用kettle自动生成测试数据：

主要生成UUID和当前系统时间到timejob表中（每隔2s执行一次），我们后续的操作都是对这张表中的数据进行一个备份。

下面第二步就是抽取该表中的数据到一个备份表中，timejob_bak。

这里由于是我第一次操作，比较简单，就直接上图了。。

获得上次操作时间和系统时间存到变量中：

这里的开始时间是通过表数据选项获得上一次操作的最终结束时间，以作为我此次增量抽取的开始时间。第二个变量是获得系统的当前时间。

根据时间抽取timejob表中的数据：

获取变量的写法：

此处获取的变量就是上一步存入的变量，下面的抽取增量数据就是一个sql，从timejob表中抽取数据，存数据就是一个表输出。
抽取数据sq

热心网友时间：2022-05-01 10:19

如果你用的是INNODB数据库，有一个最简单有效的调整，就是将INI文件里面的下面参数调整：
原始：
innodb_flush_log_at_trx_commit=1
调整为：
innodb_flush_log_at_trx_commit=2

热心网友时间：2022-05-01 11:54

按确定建，就可以了，试试吧。

热心网友时间：2022-05-01 13:45

用手

热心网友时间：2022-05-01 15:53

卍解人家的人吗啡

热心网友时间：2022-05-01 18:18

哦

全部频道

怎么使用kettle进行增量数据的抽取