1.1 引言
很多组织已经认识到,他们的数据是一种至关重要的企业资产。数据和信息能使他们洞察顾 客、产品和服务,帮助他们创新并实现其战略目标。尽管如此,却很少有组织能将他们的数据作为 一项资产进行积极管理,并从中获得持续价值 (Evans 和 Price,2012) 。 从数据中获取的价值不可 能凭空产生或依赖于偶然,需要有目标、规划、协作和保障,也需要管理和领导力。
数据管理 (Data Management) 是为了交付、控制、保护并提升数据和信息资产的价值,在其整 个生命周期中制订计划、制度、规程和实践活动,并执行和监督的过程。
数据管理专业人员 (Data Management Professional) 是指从事数据管理各方面的工作(从数据全 生命周期的技术管理工作,到确保数据的合理利用及发挥作用),并通过其工作来实现组织战略目 标的任何人员。数据管理专业人员在组织中担当着诸多角色,从高级技术人员(如数据库管理员、 网络管理员、程序员)到战略业务人员(如数据管理专员、数据策略师、首席数据官等)。
数据管理活动的范围广泛,包括从对如何利用数据的战略价值做出一致性决定,到数据库的技 术部署和性能提升等所有方面。因此,数据管理需要技术的和非技术的双重技能。管理数据的责任 必须由业务人员和信息技术人员两类角色共同承担,这两个领域的人员需要相互协作,确保组织拥 有满足战略需求的高质量数据。
数据和信息不仅是企业为获取未来价值而投资的资产,它们对大多数组织的日常运营也至关重 要,因而被称为信息经济的“货币”“生命之血”,甚至“新的石油”°。 一个组织可能没有从数据 分析中获得价值,但是绝对无法在没有数据的情况下开展业务。
随着专业领域的发展和成熟,为支持数据管理专业人员开展工作,DAMA 国际数据管理协会出 版了本书,即《DAMA数据管理知识体系指南》(第2版)。本书是在2009年《DAMA 数据管理知 识体系指南》(第1版)提供的基础知识的基础上,经过逐步补充和完善,最终编纂而成的。
本章介绍了一组数据管理原则,讨论了遵循这些原则过程中所遇到的挑战,并提出了应对这些 挑战的方法。本章也描述了DAMA数据管理框架,为数据管理专业人员在各种数据管理知识领域内开展的工作提供关联语境。
1.1.1 业务驱动因素
信息和知识是竞争优势的关键。拥有关于客户、产品、服务和运营的可靠、高质量数据的组 织,能够比没有数据或数据不可靠的组织做出更好的决策。如果不能像管理资本一样管理好数据 就会浪费和失去机会。正如有效管理财务和物理资产使组织能够从这些资产中获取价值一样,数据管理的主要驱动力也是使组织能够从其数据资产中获取价值。
1.1.2 目标
组织管理数据的目标包括:
1)理解并支撑企业及其利益相关方(包括客户、员工和业务合作伙伴等)的信息需求得到
满足。
2)获取、存储、保护数据和确保数据资产的完整性。
3)确保数据和信息的质量。
4)确保利益相关方的数据隐私和保密性。
5)防止数据和信息未经授权或被不当访问、操作及使用。
6)确保数据能有效地服务于企业增值的目标。
1.2 基本概念
1.2.1 数据
长期以来,对数据的定义强调了它在反映客观事实方面的作用°。在信息技术中,数据也被理解 为以数字形式存储的信息(尽管数据不仅限于已数字化的信息,而且与数据库中的数据相同,数据管 理的原则也适用于纸面上的数据)。但是今天人们可以获得如此之多的电子信息,与这些早期不可能被称为“数据”的数据,如姓名、地址、生日、周六晚餐吃的东西、最近买的书等有关。
诸如此类的个人事实信息可以被汇总、分析并用于营利,以及改善健康或影响公众政策等。此外,技术可以测量各种事件和活动(从宇宙大爆炸的影响到人们的心跳),可以收集、存储并分析 从前不被视为数据的各种事/物的电子版本(视频、图片、录音和文档等),这几乎超越了人们将这 些数据合成为可用信息的能力°。要利用各种数据而不被其容量和增长速度所压倒,需要可靠的、可扩展的数据管理实践。
大多数人认为数据代表事实,数据是这个世界中与某个事实结合在一起的一种真实表达。但 “事实”并不总是简单或直接的。数据是一种表示方法,它代表的是除自身以外的事物 (Chisholm, 2010)。数据既是对其所代表对象的解释,也是必须解释的对象 (Sebastian Coleman,2013)。这是 人们需要语境或上下文使数据有意义的另一种说法。语境可被视为数据的表示系统,该系统包括一 个公共词汇表和一系列组件之间的关系,如果知道这样一个系统的约定,就可解释其中的数据。这些数据通常记录在一种特殊类型的数据——元数据中。
可是,由于人们经常在如何表达概念时会做出不同选择,他们创造了表示相同概念的不同方 式。从这些不同的选择中,数据呈现出不同的形态。参考人们对日期数据的多种表示方法就可以理 解,因此对这个概念要有一个约定好的定义。现在考虑一些更复杂的概念(如客户或产品),其中 需要表示内容的颗粒度和详细程度并不总是显而易见的,表示过程也会变得更复杂。随着时间的推移,管理这些信息的过程也会变得更复杂(参见第10章)。
即使在一个组织中,也常有同一概念的多种表示方法。因此,需要对数据架构、建模、治理、 管理制度以及元数据和数据质量进行管理,所有这些都有助于人们理解和使用数据。当数据跨越多个组织时,多种多样的问题会成倍增加。因此,需要行业级的数据标准,以提高数据一致性。
组织总是需要管理其数据,但技术变化扩展了这种管理的需求范围,因为它们已改变了人们对 数据是什么的理解。这些变化让组织能以新方法使用数据来创造产品、分享信息、创造知识并提高 组织的成功概率。随着技术的迅速发展以及人类产生、获取和挖掘有意义数据能力的提升,加强有效管理数据变得十分必要。
1.2.2 数据和信息
关于数据和信息的描述早已汗牛充栋。数据被称为“信息的原材料”,而信息则被称为“在上 下文语境中的数据”。通常,金字塔模型用于分层描述位于底层的数据、信息、知识与位于顶层的 智慧之间的关系。虽然金字塔有助于描述数据需要良好管理的原因,但这种表示方式为数据管理带来了几个异议。
1)基于数据是简单存在的假设。但数据并不是简单存在,而是要被创造出来的。
2)人们将数据到智慧描述为一个自下而上的逐级序列,但未认识到创建数据首先需要知识。
3)金字塔模型意味着数据和信息是分开的,但事实上这两个概念是相互交织并相互依赖的。
数据是信息的一种形式,信息也是数据的一种形式。
组织内部在数据和信息之间画一条线,可能有助于清晰地沟通不同利益相关方对不同用途的需 求和期望(如“这是上季度的销售报告”(信息)。它基于数据仓库中的数据(数据)。下一季度, 这些结果(数据)将用于生成季度绩效指标(信息)。认识到要为不同的目的准备数据和信息,将 使数据管理形成一个核心原则:数据和信息都需要被管理;如果再将两者的使用和客户的需求结合在一起进行管理,则两者应具有更高的质量。在本书中,这些术语可以互换使用。
1.2.3 数据是一种组织资产
资产是一种经济资源,能被拥有或控制、持有或产生价值。资产可以转化为货币。尽管对将数 据作为资产进行管理意味着什么的理解仍在不断发展,但是数据已经被广泛认可为一种企业资产。 在20世纪90年代初, 一些组织发现商誉的价值是否应该被赋予货币价值是值得怀疑的。现在, “商誉价值”已经通常显示为损益表上的一个项目。同样,虽然数据的资产化还没有得到普遍认可, 但越来越常见,在不久的将来,就会被看作损益表上的一个特征(参见第3章),
如今的组织依靠数据资产做出更高效的决定,并拥有更高效的运营。企业运用数据去理解他们 的客户,创造出新的产品和服务,并通过削减成本和控制风险的手段来提高运营效率。政府代理机 构、教育机构以及非营利组织也需要高质量的数据来指导他们的运营、战术和战略活动。随着大量 组织越来越依赖数据,可以更清楚地确定数据资产的价值。
许多组织把自己定义为“数据驱动”型组织。想要保持竞争力的企业必须停止基于直觉或感觉 做出决策,而是使用事件触发和应用分析来获得可操作的洞察力。数据驱动包括认识到必须通过业
务领导和技术专业知识的合作关系,以专业的规则高效地管理数据。
此外,当今的业务发展速度意味着变革不再是可选项,数字化转型已经成为共识。为了做出反 应,业务部门必须与技术数据专业人员共同创建信息解决方案,并与相应的业务团队一起工作。他
们必须计划如何获取并管理那些他们知道的用来支持业务战略的数据。
1.2.4 数据管理原则
数据管理和其他形式的资产管理具有共同的特性,如图1-1所示。它涉及了解一个组织拥有什
么数据以及可以用它完成什么,然后确定利用数据资产来实现组织目标的最佳方式。
同其他管理流程一样,数据管理也必须平衡战略和运营需求。这种平衡最好是遵循一套原则,根据数据管理的特征来指导数据管理实践。
(1)数据是有独特属性的资产
数据是一种资产,但相比其他资产,其在管理方式的某些方面有很大差异。对比金融和实物资产,其中最明显的一个特点是数据资产在使用过程中不会产生消耗。
(2)数据的价值可以用经济术语来表示
将数据称为资产意味着它有价值。虽然有技术手段可以测量数据的数量和质量,但还未形成这样做的标准来衡量其价值。想要对其数据做出更好决策的组织,应该开发一致的方法来量化该价
值。他们还应该衡量低质量数据的成本和高质量数据的好处。
(3)管理数据意味着对数据的质量管理
确保数据符合应用的要求是数据管理的首要目标。为了管理质量,组织必须了解利益相关方对质量的要求,并根据这些要求度量数据。
(4)管理数据需要元数据
管理任何资产都需要首先拥有该项资产的数据(员工人数、账户号码等)。用于管理和如何使 用数据的数据都称为元数据。因为数据无法拿在手中或触摸到,要理解它是什么以及如何使用它, 需要以元数据的形式定义这些知识。元数据源于与数据创建、处理和使用相关的一系列流程,包括架构、建模、管理、治理、数据质量管理、系统开发、IT 和业务运营以及分析。
(5)数据管理需要规划
即便是小型组织,也可能有复杂的技术和业务流程蓝图。数据在多个地方被创建,且因为使用 需要在很多存储位置间移动,因而需要做一些协调工作来保持最终结果的一致,需要从架构和流程 的角度进行规划。
(6)数据管理须驱动信息技术决策
数据和数据管理与信息技术和信息技术管理紧密结合。管理数据需要一种方法,确保技术服务于而不是驱动组织的战略数据。
(7)数据管理是跨职能的工作
数据管理需要一系列的技能和专业知识,因此单个团队无法管理组织的所有数据。数据管理需要技术能力、非技术技能以及协作能力。
(8)数据管理需要企业级视角
虽然数据管理存在很多专用的应用程序,但它必须能够有效地被应用于整个企业。这就是为什么数据管理和数据治理是交织在一起的原因之一。
(9)数据管理需要多角度思考
数据是流动的,数据管理必须不断发展演进,以跟上数据创建的方式、应用的方式和消费者的变化。
(10)数据管理需要全生命周期的管理,不同类型数据有不同的生命周期特征
数据是有生命周期的,因此数据管理需要管理它的生命周期。因为数据又将产生更多的数据, 所以数据生命周期本身可能非常复杂。数据管理实践活动需要考虑数据的整个生命周期。不同类型 数据有不同的生命周期特征,因此它们有不同的管理需求。数据管理实践需要基于这些差异,保持 足够的灵活性,以满足不同类型数据的生命周期需求。
(11)数据管理需要纳入与数据相关的风险
数据除了是一种资产外,还代表着组织的风险。数据可能丢失、被盗或误用。组织必须考虑其使用数据的伦理影响。数据相关风险必须作为数据生命周期的一部分进行管理。
(12)有效的数据管理需要领导层承担责任
数据管理涉及一些复杂的过程,需要协调、协作和承诺。为了达到目标,不仅需要管理技巧,还需要来自领导层的愿景和使命。
1.2.5 数据管理的挑战
由于数据管理具有源自数据本身属性的独特特性,因此遵循这些原则也带来了很多挑战。下面
将讨论这些挑战的细节,其中许多挑战涉及多个原则。
1. 数据与其他资产的区别
实物资产是看得见、摸得着、可以移动的,在同一时刻只能被放置在一个地方。金融资产必须 在资产负债表上记账。然而数据不同,它不是有形的。尽管数据的价值经常随着时间的推移而变 化,但它是持久的、不会磨损的。数据很容易被复制和传送,但它一旦被丢失或销毁,就不容易重 新产生了。因为它在使用时不会被消耗,所以它甚至可以在不损耗的情况下被偷走。数据是动态 的,可以被用于多种目的。同样,数据甚至可以在同时被许多人使用,而对实物资产或金融资产来 说,这是不可能的。数据被多次使用产生了更多的数据,大多数组织不得不管理不断提升的数据量和越来越复杂的数据关系。
这些差异使得给数据设定货币价值具有挑战性。如果没有这种货币价值,就很难衡量数据是如何促进组织成功的。这些差异还引发了影响数据管理的其他问题,如定义数据所有权、列出组织拥有的数据量、防止数据滥用、管理与数据冗余相关的风险以及定义和实施数据质量标准。
尽管在测量数据价值方面存在很大的挑战,但大多数人已认识到数据确实存在价值。 一个组织 的数据对它自身而言是唯一的,如果组织唯一的数据(如客户列表、产品库存或索赔历史)被丢失 或销毁,则重新产生这些数据将是不可能的或极其昂贵的。数据也是组织了解自身的手段它是 描述其他资产的元资产 (meta-asset) 。 因此,它为组织的洞察力提供了基础。
无论是在组织内部,还是在各组织之间,数据和信息对于开展业务都是至关重要的。大多数业 务交易涉及信息交换。大多数信息是以电子方式交换的,从而创建了一个数据流。除了标记已发生 的交换之外,此数据流还可用于其他目的,如可以提供关于组织如何工作的信息。
由于数据在任何组织中都扮演着重要的角色,因此需要谨慎地管理数据。
2. 数据价值
价值 (Value) 是一件事物的成本和从中获得利益的差额。对于有些资产而言,如存货,计算 价值就非常容易,就是它的购买成本和销售价格之间的差额。但对于数据而言,无论是数据的成本 还是利润都没有统一标准,这些计算会变得错综复杂。
每个组织的数据都是唯一的,因此评估数据价值需要首先计算在组织内部持续付出的一般性成本和各类收益。类别举例如下0:
1)获取和存储数据的成本。
2)如果数据丢失,更换数据需要的成本。
3)数据丢失对组织的影响。
4)风险缓解成本和与数据相关的潜在风险成本。
5)改进数据的成本。
6)高质量数据的优势。
7)竞争对手为数据付出的费用。
8)数据潜在的销售价格。
9)创新性应用数据的预期收入。
评估数据资产面临的主要挑战是,数据的价值是上下文相关的(对一个组织有价值的东西可能 对另一个组织没有价值),而且往往是暂时的(昨天有价值的东西今天可能没有价值)。也就是说, 在一个组织中,某些类型的数据可能会随着时间的推移而具有一致的价值。例如,获取可靠的客户信息。随着越来越多与客户活动相关的数据得以积累,客户信息随着时间的推移变得更有价值。
在数据管理方面,将财务价值与数据建立关联的方法至关重要,因为组织需要从财务角度了解资产,以便做出一致的决策。重视数据,是重视数据管理活动的基础°。数据评估过程也可以作为 变更管理的一种手段。要求数据管理专业人员和他们支持的利益相关方了解他们工作的财务意义
可以帮助组织转变对自己数据的理解,并通过这一点转变对数据管理的方法。
3. 数据质量
确保高质量的数据是数据管理的核心。组织想要管理自己的数据是因为他们想要使用它,如果 他们不能依靠这些数据来满足企业需求,那么收集、存储、保护和访问数据就是一种浪费。为了确 保数据满足商业需要,他们必须与数据消费方共同合作来定义需求,其中包括高质量数据的具体 要求。
很大程度上因为数据和信息技术紧密联系,管理数据质量一直被视为“事后诸葛亮”。IT团队 通常对他们创建的系统应该存储的数据不屑一顾,很可能是某个程序员第一次看到了“垃圾进,垃 圾出”的数据,毫无疑问,他也不想管。但对于想要使用这些数据的人来说却不能忽略数据质量问 题,他们通常假设数据是可靠且值得信任的,直到他们有确凿证据开始怀疑。 一旦他们不再相信数 据可靠,重新获得信任就变得很困难。
多数情况下要在运用数据的过程中进行学习,并进一步创造价值。例如,了解客户习惯以改进 产品或服务质量,评估组织绩效或市场趋势以制定更好的业务战略。低质量的数据会对这些决策产生负面影响。
同样重要的是,低质量的数据对任何组织来说都是代价高昂的。尽管估计值不尽相同,但专家认为,企业在处理数据质量问题上的支出占收入的10%~30%。IBM估计,2016年美国低质量数 据的成本为3.1万亿美元°。很多低质量数据的成本是隐藏的、间接的,因此很难测量。其他如罚款等直接成本则是非常容易计算的。
低质量数据的成本主要来源于:
1)报废和返工,
2)解决方法和隐藏的纠正过程。
3)组织效率低下或生产力低下。
4)组织冲突。
5)工作满意度低。
6)客户不满意。
7)机会成本,包括无法创新。
8)合规成本或罚款。
9)声誉成本。
高质量数据的作用包括:
1)改善客户体验。
2)提高生产力。
3)降低风险,
4)快速响应商机。
5)增加收入。
6)洞察客户、产品、流程和商机,获得竞争优势。
正如这些成本和收益所暗示的那样,管理数据质量并不是一次性的工作。生成高质量数据需要 做好计划并执行,以及拥有将质量构建到流程和系统中的观念。所有的数据管理功能都会影响数据 质量,可能很好,也可能很糟糕,所以在执行任何数据管理工作时都必须考虑到这一点(参见第13章)。
4. 数据优化计划
正如1.1节引言所述,从数据中获取价值不是偶然的,需要以多种形式进行规划。首先要认识 到组织可以控制自己如何获取和创建数据,如果把数据视作创造的一种产品,他们将要通过它的生
命周期做出更好的决定。这些决策需要系统思考,因为它们涉及:
1)数据也许被视为独立于业务流程存在。
2)业务流程与支持它们的技术之间的关系。
3)系统的设计和架构及其所生成和存储的数据。
4)使用数据的方式可能被用于推动组织战略。
更好的数据规划需要有针对架构、模型和功能设计的战略路径。它也取决于业务和IT 领导之 间的战略协作,以及单个项目的执行力。
挑战在于,通常存在组织、时间和金钱方面的长期压力,因而阻碍了优化计划的执行。组织在执行战略时必须平衡长期目标和短期目标。只有明确权衡,才会获得有效决策。
5. 元数据和数据管理
组织需要可靠的元数据去管理数据资产,从这个意义上讲应该全面地理解元数据。它不仅包括 业务、技术和第12章描述的元数据操作,还包括嵌入在数据架构、数据模型、数据安全需求、数 据集成标准和数据操作流程的元数据。
元数据描述了一个组织拥有什么数据,它代表什么、如何被分类、它来自哪里、在组织之内如 何移动、如何在使用中演进、谁可以使用它以及是否为高质量数据。数据是抽象的,上下文语境的定义和其他描述让数据清晰明确。它们使数据、数据生命周期和包含数据的复杂系统易于理解。
挑战在于,元数据是以数据形式构成的,因此需要进行严格管理。通常,管理不好数据的组织根本不管理元数据。元数据管理是全面改进数据管理的起点。
6.数据管理是跨职能的工作
数据管理是一个复杂的过程。在数据生命周期中,不同阶段由不同团队进行不同的管理。数据 管理需要系统规划的设计技能、管理硬件和构建软件的高技术技能、利用数据分析理解问题和解释数据的技能、通过定义和模型达成共识的语言技能以及发现客户服务商机和实现目标的战略思维。
挑战在于,让具备这一系列技能和观点的人认识到各部分是如何结合在一起的,从而使他们能够协作并朝着共同的目标努力。
7. 建立企业的视角
管理数据需要理解一个组织中的机会和数据范围。数据是组织中的“横向领域”之一,它跨越 不同垂直领域,如销售、营销和运营。数据不仅对组织是独特的,有时对部门或组织的其他部分也 是独特的。由于数据通常被简单地视为操作流程的副产品(如销售交易记录是销售流程的副产品) 因此通常不会制订超出眼前需求的计划。
甚至在组织内部,数据都可能是迥然不同的。数据源于组织内的多个来源,不同的部门会用不 同的方式表示相同的概念(如客户、产品、供应商)。参与数据集成或主数据管理项目的人都可以 证明,代表性选择中的细微(或明显)差异在整个组织中都存在挑战。但同时利益相关方会假定一 个组织的数据应该是一致的,管理数据的目标是使其以合理的方式组合在一起,以便广大的数据消 费者可以使用它。
数据治理变得越来越重要的一个原因是帮助组织跨垂直领域做出数据决策(参见第3章)。
8. 数据管理需要多角度思考
现在的组织既使用他们自己产生的数据,也使用从外部获取的数据。他们必须考虑不同国家和 行业的法律和合规要求。生产数据的人常常忘记后续有人需要使用数据。了解数据的潜在用途有助 于更好地规划数据生命周期,并据此获得更高质量的数据。由于数据会被误用,因此要考虑减少误 用的风险。
9. 数据生命周期
像其他资产一样,数据也有生命周期。为了有效管理数据资产,组织需要理解并为数据生命周 期进行规划。以组织如何用好数据为管理数据的目标,这是战略性的管理要求。从战略上讲,组织 不仅要定义其数据内容需求,还要定义其数据管理要求。这些要求包括对使用、质量、控制和安全 的制度和期望,企业架构和设计方法,以及基础设施和软件开发的可持续方法。
数据的生命周期基于产品的生命周期,它不应该与系统开发生命周期混淆。从概念上讲,数据 生命周期很容易描述(图1-2)。它包括创建或获取、移动、转换和存储数据并使其得以维护和共享 的过程,使用数据的过程,以及处理数据的过程°。在数据的整个生命周期中,可以清理、转换、 合并、增强或聚合数据。随着数据的使用或增强,通常会生成新的数据,因此其生命周期具有内部 迭代,而这些迭代没有显示在图表上。数据很少是静态的,管理数据涉及一系列内部互动的过程, 与数据生命周期保持一致。
组织中数据生命周期的细节可能非常复杂,因为数据不仅具有生命周期,而且具有血缘(它从 起点移动到使用点的路径,也称为数据链)。了解数据血缘需要记录数据集的起源,以及它们在访 问和使用它们的系统中的移动和转换。生命周期和血缘相互交叉,有助于相互理解。 一个组织越了 解数据的生命周期和血缘关系,管理数据的能力就越强。
数据管理对数据生命周期的关注有几个重要影响:
1)创建和使用是数据生命周期中的关键点。对数据进行管理必须在理解如何生成或获取数据 以及如何使用数据的情况下执行。生产数据需要花费资金。只有当数据被消费或应用时,它才是有价值的(参见第5、6、8、11和14章)。
2)数据质量管理必须贯穿整个数据生命周期。数据质量管理是数据管理的核心。低质量的数 据意味着成本和风险,而不是价值。组织经常发现管理数据质量具有挑战性,如前所述,数据通常 是作为操作过程的副产品创建的,并且组织通常不为质量设置明确的标准。由于数据的质量水平可 能会受到一系列生命周期事件的影响,因此质量必须作为数据生命周期的一部分进行规划(参见第 13章)。
3)元数据质量管理必须贯穿整个数据生命周期。因为元数据是数据的一种形式,并且由于组 织依赖它来管理其他数据,所以元数据质量必须以与其他数据质量相同的方式进行管理(参见第12章)。
4)数据管理还包括确保数据安全,并降低与数据相关的风险。那些需要保护的数据必须在其整个生命周期中受到保护(从创建到销毁)(参见第7章)。
5)数据管理工作应聚焦于关键数据。组织产生了大量的数据,其中很大一部分实际上从未被 使用过,试图管理每一条数据是不可能的。生命周期管理要求将重点放在组织关键的数据上,并将 数据ROT(冗余的 Redundant、过时的Obsolete、碎片化的Trivial) 降至最低 (Aiken,2014)。
10.不同种类的数据
不同种类的数据有各自不同的生命周期管理需求,这使得管理数据变得更加复杂。任何管理系 统都需要将管理的对象进行分类。可以按数据类型分类,例如划分为交易数据、参考数据、主数 据、元数据,或者类别数据、源头数据、事件数据、详细交易数据;也可以按数据内容(如数据 域、主题区域)、数据所需的格式或保护级别、存储或访问的方式和位置进行分类(参见第5章和第10章)。
由于不同数据类型具有不同的需求,与不同的风险相关,并且在一个组织中扮演不同的角色 因此许多数据管理工具都集中在分类和控制方面 (Bryce,2005) 。 例如,主数据与交易数据具有不同的用途,因此管理要求也不同(参见第9、10、12和14章)。
11. 数据和风险
数据不仅代表价值,也代表风险。不准确、不完整或过时的低质量数据,因为其信息不正确明显代表风险。数据的风险在于,它可能被误解和误用。
最高质量的数据带给组织最大的价值-可获得、相互关联、完整、准确、 一致、及时、适 用、有意义和易于理解。然而,对于很多重要的决定而言存在信息的缺口-已知信息和须知信息 之间的差异。企业在信息缺口方面的欠缺,对经营效率和利润有潜在的深远影响。意识到高质量数 据价值的组织能够采取具体的、主动的措施,在监管和伦理文化框架内提高数据和信息的质量和可用性。
随着信息作为组织资产的作用在所有部门中越来越大,监管者和立法者越来越关注信息使用中 潜在的滥用问题。从萨班斯法案 (Sarbanes-Oxley, 专注于控制从交易到资产负债表的金融交易数据 准确性和有效性)到偿付能力标准Ⅱ (Solvency Ⅱ,专注于支持保险行业风险模型和资本充足率的 数据血统和数据质量),再到过去十年中数据隐私法规的快速增长(包括处理各种行业和司法管辖 区内的人员数据),显而易见,虽然仍在等待财务部门将信息作为资产负债表上的资产,但监管环 境越来越希望将其列入风险登记册,并采取适当的缓解和控制措施。
同样,随着消费者越来越了解他们的数据是如何使用的,他们不仅希望操作流程更加顺畅和高 效,而且希望保护他们的信息和尊重他们的隐私。这意味着针对数据管理专业人员而言,战略层面 利益相关方的范围通常比传统情况下更广了(参见第2章和第7章)。
不幸的是,当这些风险没有得到管理时,股东会通过抛售股票表达意见,监管者会对公司运营施加罚款或限制,客户会用钱包做出选择,从而导致信息管理对资产负债表的影响越来越大。
12. 数据管理和技术
如1.1节引言所述,数据管理活动范围广泛,需要技术和业务技能。因为现在绝大多数的数据 是以电子方式存储的,所以数据管理策略受到技术的强烈影响。从一开始,数据管理的概念就与技 术管理紧密结合在一起,这种状况还在延续。在许多组织中,在构建新技术的动力和拥有更可靠数 据的愿望之间存在着持续的紧张关系,就好像这两个组织是对立的,而不是彼此必需的。
成功的数据管理需要对技术做出正确的决策,但管理技术与管理数据不同。组织需要了解技术 对数据的影响,以防止技术诱惑推动他们对数据的决策。相反,与业务战略一致的数据应该推动有关技术的决策。
13. 高效的数据管理需要领导力和承诺
《领导者的数据宣言》(The Leader's Data Manijesto)(2017)认为,“组织有机增长的最佳机会 在于数据。”对于大多数已经将数据视为资产的组织来说,他们距离数据驱动还很远。许多人不知道他们拥有什么数据,或者对业务最关键的数据是什么。他们混淆了数据和信息技术,并对两者进 行了错误管理。他们没有关于数据的战略蓝图,同时低估了数据管理相关的工作。这些条件增加了 管理数据的挑战。一个对组织成功至关重要的因素是:坚定的领导和组织中各级人员的参与9。上 面概述的挑战让事情回到原点:数据管理既不简单也不容易。正是由于很少有组织能很好地做到这 一点,因此这也是一个很大程度上尚未开发的机会。要想变得更好,需要有远见、计划和改变的意愿(参见第15~17章)。
倡导首席数据官 (CDO)的作用源于认识到管理数据会带来独特的挑战,成功的数据管理必须 由业务驱动,而不是由IT 驱动。CDO 可以领导数据管理计划,使组织能够利用其数据资产并从中 获得竞争优势。然而,CDO不仅领导倡议发起,他还必须领导文化变革,使组织能够对其数据采取 更具战略性的方法。
1.2.6 数据管理战略
战略是一组选择和决策,它们共同构成了实现高水平目标的高水平行动过程。在国际象棋比赛中,战略是一系列的动作,以将死对方取胜或以平局生存。战略计划是为实现高水平目标而采取的高水平行动。
数据战略应该包括使用信息以获得竞争优势和支持企业目标的业务计划。数据战略必须来自对 业务战略固有数据需求的理解:组织需要什么数据,如何获取数据,如何管理数据并确保其可靠性以及如何利用数据。
通常,数据战略需要一个支持性的数据管理战略-一个维护和改进数据质量、数据完整性、访问和安全性的规划,同时降低已知和隐含的风险。该战略还必须解决与数据管理相关的已知挑战。
在许多组织中,数据管理战略由CDO 拥有和维护,并由数据治理委员会支持的数据管理团队实施。通常,CDO会在数据治理委员会成立之前起草一份初步的数据战略和数据管理战略,以获得 高级管理层对建立数据管理和治理的支持。
数据管理战略的组成应包括:
1)令人信服的数据管理愿景。
2)数据管理的商业案例总结。
3)指导原则、价值观和管理观点。
4)数据管理的使命和长期目标。
5)数据管理成功的建议措施。
6)符合SMART原则(具体、可衡量、可操作、现实、有时间限制)的短期(12~24个月) 数据管理计划目标。
7)对数据管理角色和组织的描述,以及对其职责和决策权的总结。
8) 数据管理程序组件和初始化任务。
9)具体明确范围的优先工作计划。
10)一份包含项目和行动任务的实施路线图草案。
数据管理战略规划的可交付成果包括:
1)数据管理章程。包括总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等。
2)数据管理范围声明。包括规划目的和目标(通常为3年),以及负责实现这些目标的角色、组织和领导。
3)数据管理实施路线图。确定特定计划、项目、任务分配和交付里程碑(参见第15章)数据管理战略应涉及与组织有关的所有 DAMA数据管理框架知识领域(图1-5)和1.3.3节、 1.3.4节)。
1.3 数据管理框架
数据管理涉及一组相互依赖的功能,每个功能都有自己的目标、活动和职责。数据管理专业人 员需要考虑从抽象的企业资产中获取价值所固有的挑战、平衡战略和运营目标、特定业务和技术要 求、风险和合规性需求,并理解数据所包含的内容以及数据是否高质量。
上面提到的很多东西需要跟踪管理,这就是为什么需要一个框架来全面了解数据管理,并查看 其组件之间的关系。因为这些组件功能相互依赖、需要协调一致,所以在任何组织中,各方面数据 管理人员都需要紧密协作才能从数据中获得价值。
DAMA 框架针对不同抽象级别提供了一系列关于如何管理数据的路径。这些视角提供了可用于阐明战略、制定路线图、组织团队和协调职能的洞察力。
DMBOK2 中提出的想法和概念在不同的组织中都可以应用。组织所采用的数据管理方法取决于 某些关键要素,如其所处行业、所应用的数据范围、企业文化、成熟度、战略、愿景以及待解决的 问题和挑战。本节描述的框架中提供了一些视角,通过这些视角审视数据管理并应用DMBOK中提出的概念。
1)前两个模型,即战略一致性模型和阿姆斯特丹 (Amsterdam)信息模型,展示了组织管理数据的高阶关系。
2)DAMA-DMBOK 框架 (DAMA车轮图、六边形图和语境关系图)描述了由 DAMA 定义的数 据管理知识领域,并解释了它们在 DMBOK 中的视觉表现。
3)最后两个模型是以DAMA 为基础重新排列组件,以便于更好地理解和描述它们之间的关系。
1.3.1 战略一致性模型
战略一致性模型 (Strategic Alignment Model,SAM) 抽象了各种数据管理方法的基本驱动因素(Henderson 和 Venkatraman,1999), 模型的中心是数据和信息之间的关系。信息通常与业务战略和数据的操作使用相关。数据与信息技术和流程相关联,这些技术和过程支持可访问数据的物理系 统。围绕这一概念的是战略选择的4个基本领域:业务战略、IT 战略、组织和流程以及信息系统。
战略一致性模型的完整阐述比图13所示的更复杂。每个角的六边形都有自己的下层结构。例 如,在业务和IT 战略中,都需要将范围、能力和治理纳入考虑。运营必须考虑基础设施、流程和 技能。研究各部分间的关系有助于理解不同组件适配战略和功能集成。即使是图1-3描述的模型,也可以帮助理解数据和数据管理是如何影响组织决策的。
1.3.2 阿姆斯特丹信息模型
阿姆斯特丹信息模型 (The Amsterdam Information Model,AIM) 与战略一致性模型一样,从战 略角度看待业务和IT 的一致性 (Abcoower、Maes 和 Truijens,1997), 共有9个单元,它抽象出一 个关注结构(包括规划和架构)和策略的中间层。此外,还要认识到信息通信的必要性(在图1-4 中表示为信息治理和数据质量支柱)。
SAM (战略一致性模型)和AIM (阿姆斯特丹信息模型)框架从横轴(业务/IT战略)和纵轴(业务战略/业务运营)两个维度详细描述组件之间的关系。
1.3.3 DAMA-DMBOK 框架
DAMA-DMBOK 框架更加深入地介绍了构成数据管理总体范围的知识领域。通过3幅图描述了DAMA的数据管理框架:
1)DAMA车轮图(图1-5)。
2)环境因素六边形图(图1-6)。
3)知识领域语境关系图(图1-7)。
DAMA车轮图定义了数据管理知识领域。它将数据治理放在数据管理活动的中心,因为治理是实现功能内部一致性和功能之间平衡所必需的。其他知识领域(数据体系结构、数据建模等)围绕车轮平衡。它们都是成熟数据管理功能的必要组成部分,但根据各组织的需求,它们可能在不同的时间实现。这些知识领域是本书第3~13章的重点内容。
环境因素六边形图显示了人、过程和技术之间的关系,是理解DMBOK语境关系图的关键。它将目标和原则放在中心,因为这些目标和原则为人们如何执行活动及有效地使用工具成功进行数据管理提供了指导。
知识领域语境关系图(图1-7)描述了知识领域的细节,包括与人员、流程和技术相关的细节。它们基于产品管理(供给者、输入、活动、交付成果和消费者)的SIPOC图的概念。语境关系图将活动放在中心,这些活动生产了满足利益相关方需求的可交付成果。
每个语境关系图都以知识领域的定义和目标开始。目标驱动的活动分为4个阶段:计划(P)控制(C)、开发(D)和运营(O)。从左侧流入活动中是输入和供给者,右侧从活动中流出是交付成果和消费者,参与者列在活动下方,底层是影响知识领域各个方面的技术、工具和度量指标。
语境关系图中的列表是说明性的,而不是详尽的。对于不同的组织活动事项有不同的应用方式。高级角色列表只包括最重要的角色。每个组织都可以调整该模式来满足自己的需求。
语境关系图的组成部分包括:
1)定义。本节为知识领域的简要定义。
2)目标。它描述了每个知识领域内指导活动执行的目的、基本原则。
3)活动。它是实现知识领域目标所需的行动和任务。一些活动按子活动、任务和步骤进行描述。活动分为4类,即计划、控制、开发和运营。
①计划活动(P)。为实现数据管理目标设定战略和战术工作。计划活动为经常性活动。
②控制活动(C)。持续地确保数据质量,以及数据存取和使用的完整性、可靠性和安全性。
③开发活动(D)。围绕系统开发的生命周期(SDLC)开展的分析、设计、构建、测试、准备和部署等活动
④运营活动(O)。支持系统和流程的使用、维护和增强,通过这些系统和流程进行数据的存取和使用。
4)输入。它是每个知识领域启动其活动所需的有形事物。许多活动需要相同的输入。例如,许多领域需要了解业务战略并把它作为输入,
5)交付成果。它是知识领域内活动的产出,是每个职能部门负责生产的有形事物。交付成果可能以其自身或其他活动的输入为目的。几个主要的交付成果是由多个功能创建的。
6)角色和职责。描述个人和团队如何为知识领域内的活动做出贡献。对角色在概念上进行了描述,聚焦重点是大多数组织所需的角色组。个人的角色是根据技能和资格要求来定义的。信息时代的技能框架(SFIA)被用于帮助调整角色头衔,许多角色将是跨职能的°(参见第16章)。
7)供给者。负责提供或允许访问活动输入的人员。
8)消费者。直接受益于数据管理活动产生主要交付成果的消费方。
9)参与者。执行、管理或批准知识领域活动的人员。
10)工具。它是实现知识领域目标的应用程序和其他技术°。
11)方法。它是用于在知识领域内执行活动和产生可交付成果的方法和程序。它还包括共同约定、最佳实践建议、标准和协议以及新出现的一些合适的替代方法。
12)度量指标。它是衡量或评估绩效、进度、质量、效率或其他影响的标准。这些指标用于定义每个知识领域内完成工作的可量化事实。度量指标也可以用于测量更抽象的特性,如提升或价值。
DAMA车轮图呈现的是一组知识领域的概要,六边形图展示了知识领域结构的组成部分,语境关系图显示了每个知识领域中的细节。现有的DAMA数据管理框架还没有描述不同知识领域之间的关系。重新制定DAMA新框架就是为解决这一问题所做的努力,这将在接下来的两部分中进行描述。
1.3.4 DMBOK 金字塔 (Aiken)
如果被问到,许多组织都会说想从他们的数据中获得最大的好处—他们正在努力实现高级应用实践的黄金金字塔(数据挖掘、分析等)。但是,黄金金字塔只是一个更大结构的顶部, 一个巨 大基础之上的顶峰。大多数组织在开始管理数据之前都没有定义完整的数据管理战略。相反,通常都是在不太理想的条件下朝着这种能力发展。
彼得·艾肯 (Peter Aiken) 的框架中使用 DMBOK 知识领域来描述许多组织演化的情况。使用 此框架,组织可定义一种演化路径,达到拥有可靠的数据和流程的状态,支持战略业务目标的实现。为了实现这 一 目标,许多组织都经历了类似的逻辑步骤(图1 - 8)。
第1阶段:组织购买包含数据库功能的应用程序。这意味着组织以此作为数据建模、设计、数据存储和数据安全的起点(例如,让一些人进来,让其他人出去)。要使系统在其数据环境中运行,还需要做数据集成和交互操作方面的工作。
第2阶段:一旦组织开始使用应用程序,他们将面临数据质量方面的挑战,但获得更高质量的数据取决于可靠的元数据和一致的数据架构,它们说明了来自不同系统的数据是如何协同工作的。
第3阶段:管理数据质量、元数据和架构需要严格地实践数据治理,为数据管理活动提供体系性支持。数据治理还支持战略计划的实施,如文件和内容管理、参考数据管理、主数据管理、数据仓库和商务智能,这些黄金金字塔中的高级应用都会得到充分的支持。
第4阶段:该组织充分利用了良好管理数据的好处,并提高了其分析能力。
Aiken的金字塔是基于DAMA车轮图构建出来的,展示了各知识领域之间的关系。各领域之间并非都可以互换,它们有多种相互依赖的关联关系。金字塔框架有两个驱动因素:第一,建立一个基础,每个组件都出现在合适的位置上、彼此之间相互支持;第二,某些矛盾的观点认为,这些组件可以任意顺序出现。
1.3.5 DAMA 数据管理框架的进化
Aiken的金字塔中描述了一个组织如何向更好的数据管理实践发展的路径。学习DAMA 知识领 域的另一种方法是探索它们之间的依赖关系。图1-9中的框架由苏伊格恩斯 (Sue Geuens) 开发, 他认识到商务智能和分析功能依赖于所有其他数据管理功能。它们直接依赖于主数据和数据仓库解 决方案。但反过来,它们又依赖输入信息的系统和应用。可靠的数据质量、数据设计和数据交互操 作实践是可靠系统和应用的基础。此外,该模型中的数据治理包括元数据管理、数据安全、数据架 构和参考数据管理,这些提供了所有其他功能依赖的基础。
图1-10中描述了DAMA车轮图的第三种替代方案。该图借鉴了体系结构概念,呈现了DAMA知识领域之间的一组关系。为了澄清这些关系,提供了一些知识领域内容的附加细节。
该框架从数据管理的指导目标开始:使组织能够像从其他资产中获取价值那样,从其数据资产中获取价值。派生价值需要生命周期管理,因此与数据生命周期相关的数据管理功能在图的中心进行了描述。这包括:为可靠、高质量的数据进行规划和设计;建立过程和功能来使用和维护数据;在各种类型的分析活动以及这些过程中使用数据,以提高其价值。
1.2.5 数据管理的挑战一节中描述了支持传统数据使用(商务智能、文件和内容管理)所需的数据管理设计和运营职能领域(建模、体系结构、存储和操作等),还认可新兴的数据管理领域(大数据存储),支持新兴的数据使用(数据科学、预测分析等)。在将数据真正作为资产进行管理的情况下,组织可以通过将其数据出售给其他组织(数据货币化)从数据中获得直接价值。
只关注直接生命周期功能的组织,从其数据中获得的价值要少于那些通过基础活动和治理活动支持数据生命周期的组织。基础活动,如数据风险管理、元数据和数据质量管理,跨越了数据生命周期。它们促进决策更加有效和数据更易于使用。如果这些管理工作都能很好地执行,那么数据的维护成本就会降低,数据消费者对它有更多的信心,并且使用数据的机会也会扩大。
为了成功地支持数据的生产和使用,并确保基本的活动是以规范的方式执行,许多组织以数据治理的形式建立了监督职能。数据治理项目通过制定战略和支持原则、制度和管理实践,使组织能够以数据为驱动力,确保组织认识到并利用从其数据中获得价值的机会。数据治理项目还应与组织变革管理活动联系在一起,以培育组织并鼓励能够战略性使用数据的行为。因此,必要的文化变革贯穿数据治理各项职责,特别是当组织的数据管理实践成熟时。
DAMA数据管理框架也被描述为另一种形式的DAMA车轮图,数据治理范围内的应用活动围绕着数据管理生命周期内的各项核心活动进行(图1-11)。
核心活动位于框架中心,包括元数据管理、数据质量管理和数据结构定义(架构)。
生命周期管理活动可以从多个方面定义,如计划的角度(风险管理、建模、数据设计、参考数据管理),实现的角度(数据仓库、主数据管理、数据存储和操作、数据集成和互操作、数据开发技术)。
生命周期管理活动源于数据的使用:主数据使用、文件和内容管理、商务智能、数据科学、预测分析、数据可视化。许多情况下都会基于现有数据进行增强性的开发,获取更多洞察,产生更多的数据和信息。数据货币化的机会可以确定源于数据的使用。
数据治理活动通过战略、原则、制度和管理提供监督和遏制。它们通过数据分类和数据估值实现一致性。
DAMA数据管理框架采用多种方式描述的原因是期望提供额外的视角,并就如何应用DMBOK中呈现的概念展开讨论。随着数据管理重要性的提高,这些框架成为数据管理社区内以及数据管理社区和利益相关方之间沟通的有力工具。
1.4 DAMA 和 DMBOK
虽然数据管理带来许多挑战,但很少有新的挑战。至少从20世纪80年代起,各组织就已认识 到管理数据是其成功的关键。随着创建和利用数据的能力和愿望的增强,可靠数据管理实践的需求 也在增加。
DAMA的成立就是为了应对这些挑战。DMBOK 是一本面向数据管理专业人员的权威参考书,通过以下方式支持 DAMA的使命:
1)为实施企业数据管理实践提供功能框架,包括指导原则、广泛采用的实践、方法和技术、功能、角色、可交付成果和度量指标。
2)为数据管理概念建立通用词汇表,并以此作为数据管理专业人员最佳实践的基础。
3)作为数据管理专业人士认证 (CDMP)和其他认证考试的基本参考指南。
DMBOK 是围绕 DAMA-DMBOK 数据管理框架(也称为DAMA车轮图,参见图1-5)的11个知 识领域构建的。第3~13章重点介绍各个知识领域内容。各个知识领域章节遵循相同的结构:
●引言
业务驱动因素
目标和原则
基本概念
●活动
●工具
●方法
●实施指南
●与数据治理的关系
●度量指标
知识领域描述了数据管理活动集的范围和语境。嵌入在知识领域内是数据管理的基本目标和原 则。因为数据在组织内横向移动,所以知识领域的各种活动与其他知识领域活动及组织其他职能相互作用。
(1)数据治理 (Data Governance)
通过建立一个能够满足企业需求的数据决策体系,为数据管理提供指导和监督(参见第3章)。
(2)数据架构 (Data Architecture)
定义了与组织战略协调的管理数据资产蓝图,以建立战略性数据需求及满足需求的总体设计(参见第4章)。
(3)数据建模和设计 (Data Modeling and Design)
以数据模型 (Data Model) 的精确形式,进行发现、分析、展示和沟通数据需求(参见第5章)。
(4)数据存储和操作 (Data Storage and Operations)
以数据价值最大化为目标,包括存储数据的设计、实现和支持活动以及在整个数据生命周期中,从计划到销毁的各种操作活动(参见第6章)。
(5)数据安全 (Data Security)
确保数据隐私和机密性得到维护,数据不被破坏,数据被适当访问(参见第7章)。
(6)数据集成和互操作 (Data Integration and Interoperability)
包括与数据存储、应用程序和组织之间的数据移动和整合相关的过程(参见第8章)。
(7)文件和内容管理 (Document and Content Management)
用于管理非结构化媒体数据和信息的生命周期过程,包括计划、实施和控制活动,尤其是指支持法律法规遵从性要求所需的文档(参见第9章)。
(8)参考数据和主数据 (Reference and Master Data)
包括核心共享数据的持续协调和维护,使关键业务实体的真实信息以准确、及时和相关联的方式在各系统间得到一致使用(参见第10章)。
(9)数据仓库和商务智能 (Data Warehousing and Business Intelligence)
包括计划、实施和控制流程来管理决策支持数据,并使知识工作者通过分析报告从数据中获得价值(参见第11章)。
(10)元数据 (Metadata)
包含规划、实施和控制活动,以便能够访问高质量的集成元数据,包括定义、模型、数据流和 其他至关重要的信息(对理解数据及其创建、维护和访问系统有帮助)(参见第12章)。
(11)数据质量 (Data Quality)
包括规划和实施质量管理技术,以测量、评估和提高数据在组织内的适用性(参见第13章)。
除了有关知识领域的章节外,DAMA-DMBOK2 还包含以下主题的章节:
1)数据处理伦理 (Data Handing Ethics)。描述了关于数据及其应用过程中,数据伦理规范在 促进信息透明、社会责任决策中的核心作用。数据采集、分析和使用过程中的伦理意识对所有数据管理专业人员有指导作用(参见第2章)。
2)大数据和数据科学 (Big Data and Data Science)。描述了针对大型的、多样化数据集收集和分析能力的提高而出现的技术和业务流程(参见第14章)。
3)数据管理成熟度评估 (Data Management Maturity Assessment)。概述了评估和改进组织数据管理能力的方法(参见第15章)。
4)数据管理组织和角色期望 (Data Management Organization and Role Expectations)。为组建数据管理团队、实现成功的数据管理活动提供了实践指导和参考(参见第16章)。
5)数据管理和组织变革管理 (Data Management and Organizational Change Management)。描述了 如何计划和成功地推动企业文化变革。文化的变革是将数据管理实践有效地嵌入组织中的必然结果 (参见第17章)。
某个特定的组织如何管理它的数据取决于它的目标、规模、资源和复杂性以及对数据如何支持 总体战略的认识程度。大多数企业并不会执行每个知识领域中描述的所有活动。然而,更广泛地了 解数据管理背景将有助于组织在工作中更好地决定应该关注哪里,从而改进这些职能内部和职能之间的管理实践。