整合大数据,如何避免酿成数据沼泽

  • 2015-10-29 15:13:18
  • DAMS翻译

将大数据纳入整个企业数据管理规划的真正价值,来自于外部大数据与众多传统数据源的整合。


正确完成这项工作涉及到数据治理、元数据管理、可追溯性以及语义一致性的相关问题,它通常不只是像“数据湖泊”一样简单地将数据存放在一个单独的数据存储库中,因为这样会产生常见的“数据沼泽”风险。(译者注:“数据湖泊”是指可以保存大数据的并行系统,能够在不移动数据的情况下进行数据计算。“数据沼泊”意指数据在不加管理和维护的情况下不断存储,使数据库里的数据可用性很差)


问题的关键在于,由于大数据的关注度持续提升,并且在各大厂商的努力推动下,根据Adaptive公司James Cerrato的说法是,“在一个非常广阔的技术空间里,可能有数百种不同的技术应用到大数据中”。


围绕大数据技术、传统相关技术以及企业原有系统整合的这一主题,Cerrato在2015年企业数据世界会议中发表了题为“大数据分析——你是在构建一个数据沼泽吗”的演讲。他提出,正确解决这件事需要结合上述提及的治理、元数据、可追溯性以及语义各方面的内容,这都急需一个更为透明化的办法,Cerrato指出那正是区别于数据湖泊和数据沼泽的关键点。


额外整合关注点


除了忙于应付过多的大数据技术和更多传统企业基础技术以外,以下因素将会加剧大数据与常规数据整合的困难:


1.组织架构:不同的部门可能有不同的目标,使得他们需要不同的数据类型和用途,所有这些都会促进数据竖井(孤岛)文化的产生。


2.技术:哪怕是那些长期存在的内部系统,所集成的各种技术可能在大数据整合之前已经造成了痛点。


3.数据质量:集成不同系统考验组织的数据治理,它可以呈现数据质量关注的准确性、完整性、时效性等相关问题。


4.安全:系统集成和数据集成也影响着组织的安全问题,如访问数据会改变或者产生非预期中的结果。


5.遗留系统:集成大数据与企业的遗留系统,和它们相关的技术证明非常困难。


自动化数据治理


在整合大数据与企业的其他数据时,有一个严格的治理机制非常重要,这是企业应用任何数据湖泊优点的必然选择。在治理的宏观层面,有必要建立相关制度,说明数据管理过程中的管理者、主题专家,甚至治理委员会的特定成员的归属,义务、角色以及工作职责。在指明这些不同点和关系后,企业可以应用其为大数据集成而设计治理工具,从而自动化实施数据治理。这样的平台可以基于流程自动化为特定数据治理成员发布警告信息,数据治理成员的工作与基于法规信息、应用程序使用以及其他业务功能的数据类型和流程是密切关联的。“这些流程将根据你定义的责任和关系,通过负责审查流程的步骤通知到所有治理成员”。Cerrato如是说。


自动化元数据管理


在微观层面,大数据与其他数据源的整合涉及到元数据管理的程度,元数据管理同样需要自动化。元数据倾向于提供不同数据类型的上下文,它在时间敏感的大数据与其他数据类型整合的时候显得非常宝贵。元数据需求属于常规化、特定业务流程和应用需求,需求包括那些跨(特定)事业部门。Cerrato 指出,他的观点在于:


“不仅仅只是管理技术元数据,更是要将元数据放到企业上下文层面,包括不同方面的流程,不同方面的组织,不同方面的治理,不同方面的指标。那是人们管理信息并增值的真正区别。”


在企业范围内基于元数据进行的大数据集成,使企业能够采取综合办法,即一体化进程。此外,当前的大数据治理方案可以先以元数据操作作为基础,并在此基础上建立相应的政策来流程化这个过程,然后逐步将这些规则以自动化方式实现。


标准化基础上的语义


在宏观层面,大数据集成是基于规则和职责,它也是数据治理的关键。在微观层面,这些治理政策也很大程度上决定了元数据以及为数据集成提供关键的上下文。在细节层面,整合是广泛建立在标准化基础上的语义,正如今天数据管理前沿的许多其他关键应用程序和技术一样。因为语义方法是大数据治理更有竞争力的解决方案方法,大数据与其他数据源之间的各种元数据,能够在坚持治理原则之上按顺序整合在一起。此外,语义也提供了数据元素间的可见度,它允许IT人员看到一个细节层面不同类型的业务词汇、它们关联到数据元素下的定义以及与其他元素整合的相互影响。从这个角度来看,一个大数据整合最基本方面必须包括一个标准化的语义元数据存储库。这样的存储库提供了在数据集成中的血缘关系和透明度的基础,帮忙人们有效地进行数据治理。


业务规则和可追溯性


业务规则、语义以及高效集成之间的关系是关键因素,特别是当实施一个海量的大数据时。因为上下文的基础和业务词汇影响到数据元素的集成,不同方面的语义提供了从业务到IT的可见度,甚至可以反过来从IT到业务。语义提供包括数据元素的特别程度,引用Cerrato的话来回应这个问题,如“分类方法适用于什么?是语义吗?有相应的本体或者概念模型,或者行业标准?”所有这些问题的答案仅仅是建立额外的方法来“表述业务上下语言和相对行业标准作业差距分析” Cerrato指出。


在一个数据湖泊或者其他整合大数据的手段中应用的总体效果,在于增加数据的可追溯性和透明度。当它确认在数量众多的不同系统、技术以及应用程序中迁移数据时,血缘关系的分类就显得非常有用,它提供了结构化的手段保持对数据的跟踪,而这些数据本身可能是非结构化的。事实上,当可追溯性用来指导和保证业务规则和治理策略保持一致时,它甚至变得尤其重要。


集成的好处:数据可操作


这篇文章所概述的大数据集成的四个不同层面(以及在Cerrato的演讲中),基本上建立了一些手段,使企业可以在一个时间表里结合外部和内部的数据源来提升可操作的数据。这些集成的方面包括数据治理、元数据管理、语义以及业务规则的可追溯。而且,它们以一种大体上大幅度增加大数据的手段,与传统数据源一起撬动大数据产生价值的方法,来增强可操作的数据。正如Cerrato所注意到的:


这些事情发挥作用的方式,从把小数据和大数据整合到一起开始……聚焦于不同领域,围绕元数据管理、治理、本体管理、业务规则管理以及决策流程。上述所有的这些,无论它们是遗留的主机,或是XML模式,关系型结构或者大数据结构,这些你所拥有的数据源都会发挥作用。能够在任何类型的可操作数据之上展开整个治理框架,你可能需要应用到所有不同的技术。


(作者:Jelani Harper,翻译:新炬网络梁铭图,整理:DAMS,架构师联盟微信号:jiagoushi2015)