作者:陈剑冬 历史版本:1 最后编辑:陈剑冬 更新时间:2024-05-27 17:04
概述
数据集成
数据集成,是指将不同来源的、不同格式和性质等的数据在逻辑或物理上集中起来,提高信息共享利用的效率,使用户能够以特定的方式去访问这些数据源。
作业(Job)和转换(Transformation)是大数据分析系统中数据集成子系统的两个最重要的概念。
基本概念
转换
转换是由一系列步骤和跳转组成的工作流,它负责处理在抽取、转换和加载各阶段中对数据行的各种操作。
一个转换可以看成一段数据流,每一个步骤完成一项数据处理的工作,节点连接线用于指示数据的流动方向。
- 步骤(steps):是转换里面的基本组成部分,转换包含一个或多个步骤,如读取文件、过滤清洗和将数据加载到数据库等。
- 跳(hops):就是步骤之间带箭头的连线,转换内的步骤通过跳来连接,它定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。
设计转换的注意事项:
- 由于hops有基于行集缓存的规则,它允许每个步骤都由一个独立的线程运行,以最小内存消耗的同时保证并发效率最高。
- 当从多个步骤向一个步骤中写入数据时,多个步骤输出的数据行应该有相同的结构,即字段相同,字段数据类型相同,字段顺序相同。
- 字段元数据不会在转换中发生变化。意思是,字符串不会自动截取长度以适应指定的长度,浮点数也不会自动取整以适应指定的精度,这些操作需要用户通过一些指定的步骤来完成。
- 默认情况下,可以认为空字符串与NULL相同。
作业
由于转换以并行方式执行的,因此需要一个可以串行执行的作业来处理一系列按照顺序完成的操作。
作业是由一系列任务项和跳组成的工作流,该工作流确定了任务完成的顺序。
- 作业项(Job Entries):是作业的基本构成部分,作用相当于转换的步骤。
- 结果对象(result object):作业项之间可以传递一个结果对象,这个结果对象里包含了数据行,但不是以数据流的方式传递的。
设计作业的注意事项:
- 默认情况下,所有的作业项都是以串行方式执行,只是在特殊情况下,以并行方式执行。
- 每个任务都必须包含开始作业项
基本操作
新增分类
右键根节点,点击新增,填写目录名称,创建成功后该分类会显示在分类列表中。
新增转换和作业
将光标悬浮在【新增】上,点击需要创建的转换或作业
创建成功后,会显示在列表中:
调度
调度是指系统将指定的任务按照一定的规则自动执行,以实现有效的任务处理。
更多详情请看 -> 调度-定时计划