金融数据资源目录编制指南
1、范围
本文件给出了金融数据资源目录编制目标、原则和范围,以及目录编制流程方面的指导。本文件适用于开展金融业企业级数据资源目录的编制。
2、规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
JR/T 0197—2020金融数据安全数据安全分级指南
JR/T 0236—2021金融大数据术语
3、术语和定义
JR/T0236—2021界定的以及下列术语和定义适用于本文件。
3.1 数据资源 data resource
数据资源是指作为资源看待的用于支持实现组织特定目标的数据。[来源:GB/T 42450—2023,3.1,有修改]
3.2 数据资源目录 data resources catalog
数据资源目录是指与组织业务活动相适应的、便于检索的多层次分类、分级的数据资源编排形式。[来源:GB/T42450—2023,3.4]
4、编制目标、原则和范围
4.1 编制目标
金融数据资源目录编制是金融机构(本文件中的“金融机构”是指从事金融业务的持牌金融机构、从事金融数据工作的科技公司以及相关机构等。)摸清数据资源家底、提升数据质量的基础性工作,通过编制数据资源目录,实现对数据的检索、定位与获取,能够为金融机构后续数据分类分级管理、数据共享应用、挖掘数据价值提供支撑。
4.2 编制原则
金融数据资源目录编制原则如下:
a)统筹规划:根据金融机构的业务转型和发展需要,整体规划数据资源目录,可按照数据重要程度分步实施,急用先行,逐步完善数据资源目录。
b)全面梳理:按照金融数据资源管理范围,结合本机构的数据资源实际情况进行全面梳理,并进行业务追踪,形成适用于机构自身特点的数据资源目录。
c)权责一致:在编制数据资源目录过程中依据“谁管理,谁负责”、“谁运营,谁负责”的原则对数据资源进行认责。
d)简洁明确:数据资源目录所使用的词语或短语确切表达数据资源的实际内容范围、内涵、外延,保证用语的规范性和简洁性,同一层级的数据资源目录间界限分明。
e)便于扩展:金融数据资源目录编制采用层次化、结构化编制方式,以利于后续数据资源及分类的扩展。
f)持续有效:根据金融机构自身数据资源变化情况,建立数据资源目录长效管理和维护机制,推动数据资源目录真实准确客观反映金融机构数据资源情况。
4.3 编制范围
金融机构宜遵循JR/T 0197—2020,结合自身业务与管理现状,根据自身的编制目的确定金融数据资源目录编制范围。
金融数据资源目录编制工作主要包括下列金融数据。
a)金融机构业务信息系统内生成和存储的数据,包括:
1)业务数据,金融机构在提供金融产品或服务过程中产生的数据,包括直接或间接采集的数据,经信息处理后在计算机系统中流转或保存的数据,以及通过信息系统签约或收集的电子信息(如交易信息、账户信息、客户信息等);
2)经营管理数据,金融机构在履行职能与经营管理过程中采集、产生的数据,如营销服务数据、运营数据、风险管理数据、技术管理数据(如程序系统以及网络等)、统计分析数据、综合管理数据等。
b)金融机构内部行政办公网络与办公设备(终端)中产生、交换、归档的电子数据,如机构内部日常事务处理信息、政策法规与部门规章、业务终端临时存储的业务或经营管理数据、电子邮件信息等。
c)金融机构原纸质文件经过扫描或其他电子化手段形成的电子数据。
d)其他宜进行数据资源目录编制的金融数据。对于金融机构外部的数据资源,宜纳入数据资源目录,并与内部的数据资源进行明确区分。涉及国家秘密的金融数据,依据国家有关法律法规执行,不在本文件规定的范围之内。注:未经电子化的数据,依据档案文件等有关管理规范执行。
5、目录编制流程
5.1 概述
金融机构宜结合目录使用场景及自身实际情况,编制形成符合机构自身特点的数据资源目录。
金融数据资源目录编制流程宜包括现状调研、框架制定、目录制定、目录管理四个方面,如图1所示。
图1 金融数据资源目录编制流程
5.2 现状调研
5.2.1 概述
金融机构宜结合本机构的组织架构情况,通过调研了解资源目录所涵盖的业务范围、数据范围、数据分布、质量情况、应用情况等信息,并获取各部门对资源目录的诉求及期望。
5.2.2 调研范围和内容
调研范围根据各机构确定的数据资源目录编制范围,包括但不限于业务基本情况、应用系统及数据库建设情况、数据责任部门、相关数据资源情况及相互关系等,在调研过程中可参考借鉴已有的数据资源梳理结果。
数据资源调研形式不限,调研内容主要从业务信息和已有数据资源两方面入手,根据调查业务和数据资源特点,可通过业务调研表、业务系统调研表、数据资源调研表等形式进行调查(调研模板示例参见附录A)。
a)业务调研表用于描述业务基本情况、相关数据资源情况以及相互关系。通过调研表体现产生数据的业务事项、内容、责任部门等。
b)业务系统调研表用于描述相关业务的系统构成,确定数据资源调研的系统范围。
c)数据资源调研表用于对资源进行描述,体现数据资源组成信息,为数据资源盘点提供依据。
调研表填写者宜包含技术人员和业务人员,并实现技业融合。根据部门主要业务,如业务领域、业务类型、业务线等进行总体评估。通过调研表填写充分了解业务人员对工作步骤、调研安排、调研表内容等方面的反馈和建议,作为修改和调整调研表模板的重要参考依据。
5.3 框架制定
5.3.1 分类框架设计
数据资源目录分类框架宜根据金融机构数据资源目录编制用途,结合机构实际情况进行设计,可从业务条线、数据资源不同形态、分布情况等业务、技术方面制定数据资源目录分类框架。本文件从业务视角、技术视角,给出两种数据资源目录分类框架设计思路。
a)业务视角根据数据产生所在的业务领域进行分类,宜根据不同的业务环节形成资源目录分类框架。主要分类依据包括主题域、业务对象、业务属性等,具体示例参见附录B.1。
b)技术视角根据数据存储的系统、时效性、技术处理方式(如交易型、分析型)、数据类型等因素进行分类。分类依据包括系统字段、数据类型、是否有允许值列表等,具体示例参见附录B.1。
5.3.2 确定目录属性项
数据资源目录分类框架确定后,根据目录编制目的和使用范围,确定数据资源目录的属性项,属性项宜包括数据的业务属性、技术属性、管理属性,并将数据资源目录分类框架落实在管理属性中,具体参考详见附录B.2。
a)管理属性:从管理层面对数据的规范和定义,包括数据资源代码、数据分类(分类层级由分类框架层级确定)、数据分级、主管部门等。
b)业务属性:从业务层面对数据的解释和定义,包括数据项(每条数据资源目录即为一个数据项)名称、业务含义等。
c)技术属性:从技术实现层面对数据的规范和定义,包括字段名称、数据格式、数据类型、权威来源系统等。
5.3.3 数据资源编码
金融数据资源编码由分类码和顺序码组成。分类码为数据资源目录不同层级的编码,可分为一级目录、二级目录、三级目录等,金融机构可结合实际需要确定分类码规则,包括分类码层级数量以及各层级代码格式和位数;顺序码由不定长度阿拉伯数字构成,保证代码的唯一性。对于涉及外部交换共享的情况,可在目录编码前增加金融机构代码,金融机构也可根据自身情况确定编码规则。
金融数据资源代码示例结构见图2,其中分类码和顺序码由分隔符区分,分类码可包含n级目录,由数据资源目录分类框架层级决定,顺序码原则上以1为起始、连续的阿拉伯数字表示。
图2 金融数据资源编码结构示例
5.4 目录制定
根据前期现状调研确定的数据资源范围,盘点实际数据资源内容(如报表、模型、指标、标签等元数据信息)形成数据资源目录,编制流程具体如下:
a)元数据采集:元数据作为数据资源目录形成的基础,宜通过工具、手工结合的方式进行采集,识别有效和重要元数据;
b)单系统目录形成:基于采集梳理的元数据信息,完善数据资源目录的属性项信息;
c)跨系统目录合并:多系统的数据资源目录合并,确定合并后数据项的主管部门、权威来源等信息;
d)数据资源目录生成:对合并后的数据资源目录进行编码,生成最终的数据资源目录。
如在盘点过程中发现制定的数据资源目录分类框架无法覆盖所有数据,宜对数据资源目录分类框架进行相应的调整和完善,具体流程步骤如表1所示。金融机构数据资源目录编制重难点问题实践详见附录C。
表1 目录制定流程描述
编号 |
编制流程 |
流程步骤 |
步骤说明 |
1 |
元数据采集 |
数据采集 |
1.识别具有业务场景的有效数据项,确定数据资源梳理范围。 2.确认单一系统梳理范围,使用工具对元数据进行采集。采集内容包括系统名、数据库、数据表、字段等信息,或对接报表工具、模型工具、指标管理工具、标签管理工具等采集报表、模型、指标、标签等信息。 3.无法工具采集的元数据(反映业务功能、业务流程及相关机构认为需采集的数据),可采用手工录入等非工具方式进行元数据采集: |
2 |
信息补全 |
对采集的元数据进行质量检查,元数据如果质量较差,会影响对元数据的分析,从而无法准确对元数据进行识别,通过人工的方式补全元数据信息。 |
|
3 |
有效及重点数据识别 |
1.去除无用元数据,如元数据中的临时表、过程表、参数表、系统表等无效表。2.筛选出重要的业务实体表,包括被各系统共享的数据表、与业务有关的重点实体表、运营管理所涉及的重要表等。 |
|
4 |
单系统目录形成 |
形成单一系统数据资源目录 |
基于梳理的元数据信息,完善数据资源目录的属性项信息,形成单一系统的数据资源目录。 |
5 |
跨系统目录合并 |
将全部已有单一系统数据资源目录合并为跨系统数据资源目录 |
基于各个单一系统数据项的梳理结果,根据数据的名称、业务合义及业务、技术口径等信息进行跨系统数据项整合。 |
6 |
识别是否存在重 复的数据项 |
识别并筛选出同名同义、同名不同义或同义不同名的数据项。若无此情况,则跳转至步骤9。 |
|
7 |
合并重复数据项,区分含义不同的数据项 |
将相同名或同意的重复数据项进行整合或区分: 1.将同名同义的数据项整合为一个数据项。 2.同义不同名的数据项根据业务规则或使用习惯统一数据项名称,整合为一个数据项。 3.同名不同义的数据项:根据业务规则或使用习惯对数据项区别命名。 |
|
8 |
形成去重、区分后的跨系统数据资源目录 |
完成跨系统全部数据项的去重和区分步骤后,将名称不同且含义不同的数据项添加到数据资源目录中,初步形成跨系统的数据资源目录。 数据资源目录中名称一致的多个数据项在数据资源目录中只填写一项。 |
|
9 |
数据资源目录生成 |
确认各数据项业务主管部门、权威来源系统等 |
确认各数据资源目录业务主管部门及权威来源系统。 数据管理方确认唯一业务主管部门,由业务主管部门确认唯一权威来源系统。 |
10 |
形成整合后的数据资源目录 |
完成以上步骤后,编制数据资源编码,形成整合后的数据资源目录。 |
5.5 目录管理
5.5.1 数据资源目录审核
数据资源目录制定后应由相应权属部门进行审核确认,确定目录已覆盖盘点范围内的所有数据资源,满足业务需求,并确保数据资源项的准确性及权威性。
5.5.2 数据资源目录发布
审核后的数据资源目录通过机构正式流程进行发布(如目录管理工具,信息共享平台、内部办公系统等正式渠道),发布后各部门按权限访问使用目录。
5.5.3 目录维护
5.5.3.1 概述
由于业务系统变化导致数据资源目录数据项发生新增、更新或废止,目录归口管理部门监控数据变更情况,及时评估业务系统上线、业务系统下线和业务系统功能变更导致的目录变更。
5.5.3.2 业务系统上线
业务系统上线时,数据资源目录维护流程与数据资源目录编制流程相一致,按照本文件5.4目录制定流程进行操作。
5.5.3.3 业务系统下线
业务系统下线时,对数据资源目录中相应数据项进行更新或废止,如表2所示。
表2 业务系统下线流程描述
编号 |
流程步骤 |
步骤说明 |
1 |
依据已有目录梳理下线系统的全部数据项 |
对已有数据资源目录进行筛选,梳理出下线系统的全部数据项。 |
2 |
判断该数据项是否为单一来源数据项 |
通过筛选“数据资源编码”判断该下线系统的数据项是否为单一来源的数据项,即该数据项只在该下线系统中存在。 |
3 |
在数据资源目录中该数据项的“数据项状态”栏标记为“已废止”状态 |
如果该数据项是单一来源的数据项,则宜废除该数据项,在数据资源目录的“数据项状态”属性中填写“已废止”。 |
4 |
判断下线系统是否为数据项权威来源系统 |
如果该数据项不是单一来源的数据项,则在数据资源目录中筛选出该数据项,对比下线系统和“权威来源系统”属性是否一致,一致则下线系统是权威来源系统。 |
5 |
重新确认业务主管部门、数据来源系统及该数据项其他属性,更新结果 |
如果下线系统是该数据项的权威来源系统,则须重新确认业务主管部门和权威来源系统。新的业务主管部门如需修改该数据项其他属性,宜在清单中标注原数据项“已废止”。 |
6 |
在目录中该数据项“数据项状态”栏填写“已废止” |
如果下线系统不是该数据项的权威来源系统,数据资源目录中将该数据项的“数据项状态”属性改为“已废止” |
7 |
数据资源目录的复核、确认 |
对数据资源目录进行复核、确认,确保数据资源项的准确性及权威性。 |
8 |
提交并发布数据资源目录 |
将确认后的数据资源目录及时提交并在合理范围内发布。 |
5.5.3.4 业务系统变更
业务系统功能变更时,数据资源目录维护流程主要包括数据项新增、数据项废止和数据项更新三种情况,如表3所示。
表3 业务系统变更流程描述
编号 |
流程步骤 |
步骤说明 |
1 |
按照数据资源目录编制流程操作 |
数据项新增时,数据资源目录维护流程与编制流程一致,按照相关流程进行操作。 |
2 |
按照数据资源目录维护中业务系统下线流程操作 |
数据项废止时,数据资源目录维护流程与业务系统下线流程相一致,按照相关流程进行操作。 |
3 |
判断变更系统是否为该数据项权威来源系统 |
数据项更新时,通过“数据资源编码”在数据资源目录中筛选出该数据项,判断变更系统是否为该更新数据项的权威来源系统。 如无法通过“数据资源编码”筛选,可通过“系统名称”和“数据资源中文名称”等属性搜索。 |
4 |
更新数据资源目录中该数据项相关信息 |
如变更系统是该数据项权威来源系统,则在数据资源目录中同步更新相关属性,并在目录的“数据资源状态”属性标注更新。 |
5 |
在目录中对该数据项属性信息进行变更 |
如变更系统不是该数据项权威来源系统,在数据资源目录和代码表中更新相关属性,并在目录的“数据资源状态”属性标注更新。 |
6 |
数据资源目录复核、确认 |
对数据资源目录进行复核、确认,确保数据资源项的准确性及权威性。 |
7 |
数据资源目录提交及发布 |
将确认后的数据资源目录及时提交并在合理范围内发布。 |
附录A(资料性) 调研表模板
A.1 概述
本附录中所列的调研表模板,金融机构可结合自身实际情况进行裁剪或者补充使用。
A.2 业务调研表模板
业务调研表用于从业务的角度出发,调研金融机构中各业务模块所涉及的数据资源。业务调研表模板参见表A.1。
表A.1 业务调研表模板
业务名称 |
业务描述 |
业务模块 |
业务模块 描述 |
责任部门 |
负责人 |
业务模块涉及数据资源 |
数据来源 |
数据类型 |
数据分类分级 |
|
|
|
|
|
|
|
|
|
|
A.3 业务系统调研表模板
业务系统调研表,用于调研业务系统的名称、主管机构、定位、用户范围、数据范围等信息。业务系统调研表模板参见表A.2。
表A.2 业务系统调研表模板
序号 |
业务系统名称 |
主管业务机构、部门 |
系统定位描述 |
系统用户范围 |
系统数据范围 |
|
|
|
|
|
|
A.4 数据资源调研表模板
数据资源调研表,用于调研数据资源的名称、类型、级别、属性、状态、分类、存储情况等信息。数据资源调研表模板参见表A.3。
表A.3 数据资源调研表模板
序号 |
业务系统名称 |
数据资源类型 |
数据资源名称 |
业务条线分类 |
数据安全级别 |
开放共享属性 |
数据主管机构、部门 |
数据状态 |
数据分类 |
物理存储信息 |
容量信息 |
存储周期 |
|
|
|
|
|
|
|
|
|
|
|
|
|
附录B(资料性) 数据资源目录示例
B.1 目录分类框架示例
B.1.1 分类原则
数据资源目录分类框架可基于不同的视角进行,主要包括业务视角、技术视角、管理视角。可从以下角度参考设计数据资源目录分类框架:
a)从金融业务分类标准进行分类框架设计;
b)从金融数据安全角度进行分类框架设计;
c)根据机构实际业务条线划分,结合业务调研访结果从业务视角设计分类框架;
d)参考金融行业数据归属主题设计分类框架;
e)根据数据资源的不同形态设计分类框架(如基础数据资源、指标数据资源、标签数据资源、模型数据资源、外部数据等);
f)根据数据资源分布进行分类框架设计,即直接将元数据形成目录。
金融机构宜从自身实际情况出发,选择适当的角度设计符合自身的数据资源目录分类框架,分类框架层级建议不超过四级,层级过多则会导致权责不清,不利于管理;层级过少会无法充分区分数据资源。
B.1.2 分类框架
本附录从业务视角、技术视角给出以下框架示例:
a)业务视角:指从业务层面对数据的统一规范和定义,包括客户信息、零售业务、对公业务、信贷业务、经营管理、监管统计等,示例如图B.1所示。
图B.1 业务视角数据资源目录分类框架示例
b)技术视角:指从技术实现层面对数据资源项的统一规范和定义,包括指标数据、主体数据、标签数据、图谱数据、模型数据、知识数据、贴源数据等,示例如图B.2所示。
图B.2 技术视角数据资源目录分类框架示例
B.2 目录属性项示例
数据资源目录分类框架确定后,可依据框架梳理数据,形成最终的数据资源目录,数据资源目录包含的属性项信息可参考表B.1,宜包含数据资源的业务属性、管理属性、技术属性等信息,各机构可按照实际需求进行调整(如增加版本号、启用日期、停用日期等属性项)。
表B.1 数据资源目录属性项示例
管理属性 |
业务属性 |
技术属性 |
||||||||||||
数据资源编码 |
一级分类 |
二级分类 |
数据级别 |
主管部门 |
数据状态 |
... |
数据项名称 |
业务含义 |
|
字段名称 |
数据格式 |
数据类型 |
权威来源系统 |
... |
附录C(资料性) 重难点问题行业实践
C.1 概述
本附录提供了在数据认责方法、目录层级、目录视角、目录时效性、目录梳理优先级等常见问题的行业实践参考。
C.2 数据认责方法
C.2.1 单一认责
各机构数据资源目录的归口管理部门需对本机构的数据资源目录进行编制和维护,相关业务部门和技术部门可根据需求提供支持。针对每项数据资源需明确其主管部门,以下认责方法供金融机构参考。
a)“谁管理,谁负责”,数据资源的业务主管部门需对本领域的数据资源目录进行编制及维护,该部门对该数据享有业务定义权
b)“谁运营,谁负责”,数据资源的运营单位即为数据的主管部门,将承担运营职责范围内的数据纳入管理范围。
C.2.2 多方认责
在数据认责过程中,存在数据多头管理的问题,建议先按照单一认责原则进行归属判定,对于有争议的数据难以认责到单一部门的,可多部门认责,资源目录权限分配给多个部门,厘清目录编制流程中各部门所承担的工作,以及该工作应负的责任。
C.3 目录层级
C.3.1 概述
基于B.1.1分类原则,宜考虑机构在实际应用中对目录有可能存在更细的分类需求,可扩展设置五级、六级目录。
C.3.2 五级目录
五级目录可按照以下进行设置:
a)第一级:主题域分组,公司顶层信息分类,通过数据视角体现公司最高层面关注的业务领域;
b)第二级:主题域,互不重叠数据的高层面的分类,用于管理其下一级的业务对象;
c)第三级:数据管理基本单元,统一业务语言,业务和IT的关键连接点;
d)第四级:指导IT系统开发与系统数据集成,遵从逻辑数据建模规则;
e)第五级:描述业务对象数据特征,明确标准规则,全局统一。
C.3.3 六级目录
六级目录可按照以下进行设置:
a)第一级:基础数据(数据大类);
b)第二级:组件数据(数据小类);
c)第三级:营销支持(业务分类一级);
d)第四级:客户管理(业务分类二级);
e)第五级:一级系统名称;
f)第六级:二级系统名称。
C.4 目录视角
C.4.1 概述
除5.3.1提到的业务视角、技术视角外,还可从数据使用视角、多视角综合等角度编制数据资源目录框架。
C.4.2 数据使用视角
不同类型数据资源的分类宜以应用为目的确定分类,单一数据可标记多个标签,划分多个类型,例如从数据使用者角度分类:从数据管理员(关注元数据、ETL映射作业任务、日志信息等)、数据分析师(关注集成数据及萃取数据,萃取数据包括指标、标签、图谱等)、数据科学家(关注数据模型等)等数据使用者角度进行分类。
C.4.3 多视角综合
综合“资产视角”、“业务视角”和“数据使用视角”等提供多视角的数据资源目录,基于数据内容建立“全域数据资源版图”,方便数据管理者、数据消费者、数据开发者等不同角色用户按照其实际需求定位数据,例如“技术视角”主要按照存储信息系统以及库表结构进行分类,而“业务视角”则按照业务主题或业务板块进行分类。
C.5 目录时效性
C.5.1 概述
为实现数据资源目录对当前数据情况的快速真实反映,目录编制与管理工作宜注意以下方面。
C.5.2 科技、业务部门协同
数据资源目录梳理时,为便于数据资源目录反映数据最新情况,业务与科技部门需协同合作:科技部门提供最新数据字典、生产系统最新版本的数据库表结构等,业务部门提供最新报表、指标、标签等材料。此外,还可以在表格中增加数据的收集时间、有效期等信息。
C.5.3 做好技术与管理保障
技术工具保障:对于线上数据资源,通过元数据采集等技术工具自动化发现和识别数据资源的变化情况,提升数据资源目录编制管理的自动化水平,实现数据资源目录信息的及时更新,并做好版本管理。
流程机制保障:对于线下数据资源,提前建立人工编制、审核与维护等方面的流程机制,包括目录模板手工导入、人工审核发布以及手工维护等,确保实施过程中流程机制的流畅运行,提升目录编制效率。
C.6 目录梳理优先级
C.6.1 业务优先
业务成效优先:即以用户为中心,优先选择理解门槛较低、盘点后业务部门可迅速使用的数据(如标签、指标、固定报表等)。
C.6.2 难易程度优先
梳理难易程度优先:优先考虑具备盘点条件的数据,即可通过线上化、自动化工具进行盘点整合的数据资源。
C.6.3 管理优先
管理职责范围优先:优先考虑盘点部门管理职责范围内的数据资源,例如部门管理的业务系统等。
C.7 是否体现安全属性
C.7.1 概述
数据资源目录与数据安全属性(如安全级别、敏感程度、共享范围及数据处理要求等)无强绑定关系,是否体现数据安全属性及其体现形式宜视金融机构自身决定。如需体现数据安全属性,可参考如下方式纳入盘点。
C.7.2 采纳数据安全属性标识
数据资源目录梳理时包含数据安全保护要求,则在目录梳理时明确其安全属性。对于金融机构内已标识的数据安全属性,在盘点的过程中直接作为数据资源属性纳入盘点底稿及成果;对于金融机构暂未定义数据安全属性标识的数据资源,建议待目录梳理完成后,通过专家判断或工具自动打标等方式进行安全属性的补充完善。
C.7.3 采纳数据安全分级结果
对于数据安全分级的情况,可采用将全部或部分分级结果继承或引用到数据资源目录中。如果暂未在数据资源目录中体现数据安全分级的内容,可在数据资源元数据信息中体现数据安全分级相关信息,作为对数据资源目录的补充。