血缘关系
元数据的血缘关系指的是描述数据之间的关系的元数据信息,通过对元数据的分析和理解,可以了解数据的来源、数据之间的依赖关系,帮助更好地管理和分析数据。
血缘关系的作用如下:
- 数据追溯:通过血缘关系可以追溯数据的来源和传输路径,确保数据来源的可靠性。
- 数据质量管理:了解数据血缘关系可能帮助防线数据质量问题和数据异常,提高数据的准确性和一致性。
- 支持分析与治理:血缘关系可以为数据分析和治理提供支持,例如追踪数据处理过程、评估风险和合规性等。
- 优化资源:通过了解数据的血缘关系,可以优化数据资产的利用,避免冗余和重复工作。
血缘关系的几个要点:
- 支持跨库关联
- 支持多字段关联关系
- 血缘关联是全局联动的,例如:元数据A做了B的血缘关系,点开元数据B时,也会自动展示与元数据A的关联关系。
- 血缘分析和影响分析分别对应数据的上游和下游,例如:A表的USER_ID关联着的B表的ID,则B表为A表的上游数据;A表为B表的下游数据。
目前配置血缘关系的方法有两种:血缘配置和上传SQL
血缘配置
选择需要配置血缘的数据源,点击【血缘配置】
在【选择库表】框中选择需要配置血缘关系的表,点击确定
手动连接关联键,点击保存。
字段连线的方法:在字段列表中选中一个字段,此时光标会变成一个连线的样式,点击右键可以取消连线,在连线状态下点击其他表的字段,即可完成连线。
注意事项
同库表使用蓝色,跨库表显示绿色。
展示表信息时,在表头上,如果是当前库就不会显示库名,跨库时才会显示;
有别名的表字段信息会展示表名/字段名(别名)这样的格式
将光标悬浮在【详情】,会展示元数据的详细信息,包括数据源、数据库和数据表名称,以及字段名称。
已连接的线,选中时会显示红色,此时右键点击【删除】或键盘del键就可以删除该条连线。
血缘配置是一个叠加式的过程,点击血缘配置时,是为了增加更多的血缘关系进来,不会覆盖了原本已配置好的关系。
通过放大和缩小按钮,或者鼠标滚轮调整界面大小。
长按拖动表头,即可实现移动元数据。
当前页面发生变动时,如配置、删除连线,就会出现保存和取消按钮。点击取消,会退回到发生变动之前。
上传SQL
通过SQL来配置血缘关系,可以输入sql语句,也可以导入sql文件来解析。
血缘SQL格式支持:
insert into table1 (code, name) select id, name from table2
示例:导入sql文件,将语句自动填充到输入框,点击【解析sql】,解析成功后会跳转到血缘配置页面。
sql语句:insert into t_id(sid) select id from t_students
全链分析
全链分析是指以某个元数据为目标节点,其前后与其有关系的所有元数据,其前反应数据的来源,其后反应数据的影响范围。
主要是用来分析指定元数据前后与其有关系的所有元数据,不仅反映了元数据的来源与加工过程,也反映了元数据的使用情况,使用全链分析可清晰地了解该元数据的来龙去脉。
注意事项:
- 全链分析无法配置,只适用于查看和分析。
- 全链分析能看到当前元数据的来龙去脉,例如,为数据源配置的血缘关系:A -> B -> C -> D -> E和 B -> D,查看C表的全链分析,只会显示B -> C -> D,而不会显示A -> B 和 B -> D 和 D -> E,因为这与C表无关。
示例如下:
为一个Oracle数据源配置了如下的血缘关系
查看ORC_TEACHER(教师表)的全链分析:
查看ORC_CLASS(班级表)的全链分析:
查看ORC_STUDENTS(学生表)的全链分析: