通过数据虚拟化优化数据_大数据技术

大数据就像是从当代数据环境中不断涌现出的丰富的、极度膨胀的资源。如今，不断扩张的物联网、随处可见的移动设备、社交媒体、点击流量、网页以及开放的数据都是导致我们今日数据不断增长的的主要因素。根据IDC-Seagate最近的一项研究显示，截止到2025年，这些因素的导致的全球数据增长预计将是现在的10倍，总计达到163ZB(ZB为十万亿亿字节)。

虽然数据资源富足，但这些数据都是最原始的、未经提炼的，其中存在大量不能用的数据。与其他”自然”资源一样，“原始的”数据必须经过提炼后，才能被用于生产目的，例如设备维护、产品创新、竞争情报、市场营销以及数据货币化等等。

数据细化、提炼的过程可以纳入数据探查，准备，关联和背景化，标注和注释，统一和整合以及安全和治理政策的应用。元数据也是一个重要的组成部分，它在数据整体细化过程中输入、输出阶段起着十分重要的作用。

其中，数据探查主要是对数据进行技术性分析，对数据的内容、一致性和结构进行描述。数据探查担负着两种不同的目标：战略性的和战术性的。

战略性：一旦确定了某个候选数据源，就应当进行一次轻量级的探查评估来确定该数据源是否适合于包含到数据仓库中，针对早期的采纳/不采纳问题提供决策。理想情况下，应当在业务需求分析过程中确定出一个候选数据源之后立即进行战略性评估。较早地找出那些不合格的数据源是一个责任重大的步骤，即使带来的是坏消息，也是必要的一步。如果很晚才发现数据源无法支持要做的工作，对DW/BI团队的积极性将产生重大的打击，特别是当项目已经展开数月之后才发现数据源存在问题时更是如此;

战术性：一旦将某个数据源引入项目的基本战略决策已经定下来，就需要进行一系列战术性的数据探查工作来尽可能多地确定出各种问题。通常这一工作从数据建模过程就开始了，一直到ETL系统设计过程。有时ETL团队也可能需要使用一个其内容没有经过彻底评估的数据源。系统也可能支持产品过程的需求，但是却存在ETL方面的难题，因为对产品处理并不重要的字段用来进行分析也是不可靠和不完整的。

该子系统中揭示出来的问题最终会产生两种详细说明：

1、将数据送回原来的数据源中，请求改善数据质量;

2、构成了数据质量子系统的需求。

(备注：元数据(Metadata)，又称中介数据、中继数据，为描述数据的数据，主要是描述数据属性的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录，为了达到编制目录的目的，必须在描述并收藏数据的内容或特色，进而达成协助数据检索的目的。)

如果还没有为分析提供数据，那么这些数据可能会受到碎片化、最小化标记和丢失信息的影响。这些特征在电子健康记录(EHRs)中很明显，这说明了优化数据面对的挑战。收集和分析EHR数据的其中的一个障碍就是缺乏适当的标签和一致的语义的缺乏。

EHRs的设计主要是为了满足病人的医疗、行政和经济的需要。埃尔斯的多用途目标——不考虑每一种数据的数据分析——可能造成数据碎片化，这需要在为临床研究等分析提供数据之前进行纠正。

从共享患者健康记录中构建数据集的另一个挑战是在卫生保健组织中如何实现EHRs的标准化，甚至在相同的卫生保健系统中也缺乏标准化。。例如，不同的部门(例如:同一家医院的放射学、整形和内医学)可能采用不同的方法来满足他们独特的数据输入需求、文档和排序需求，以及偏好，因此，会产生数据仓。

(备注：电子健康记录(EHR，electronic health record)是个人官方的健康记录，这些记录可以在多个设备和机构中共享。一个电子健康记录通常包括：联系方式;访问医护专业人员信息;过敏史;医疗保险信息;家族遗传病史;免疫状况;身体状况或疾病信息;服用药物清单;住院记录;做手术信息等

事实上，数据安全和隐私也可能成为分析受监管数据的障碍，比如在EHRs中。克服这一障碍的最佳方法是在细化过程中应用适当的安全性和治理。谷歌等公司正在试验联邦学习，以推进分析，同时确保隐私。

数据的优化对于从数据分析中获得可靠结果是至关重要的，数据分析包括有意义的结论、准确的预测和明智的决策。

事实上，与任何虚拟化一样，数据虚拟化是一种允许用户访问、管理和优化异构基础架构的方法，就好像它们是一种单一、且在逻辑上是统一的资源一样。这使得用户能够从一些服务、功能或其他资源的内部部署中对外部界面进行抽象化。

与支持逻辑上统一的访问、查询、报告、预测分析，以及针对关系型、Hadoop、NoSQL等不同后端数据库应用的任何“SQL-虚拟化”解决方法相同，数据虚拟化的核心是抽象层。当然，数据虚拟化可能会转而依靠其他的基础设施虚拟化层，例如存储与服务器平台。在某些情况下，数据虚拟化可能会在地理上和多云环境中进行扩张。

在我们讨论的众多层中，虚拟化无疑是这些枯燥数据话题的一个缩影。但是如果希望自己的大数据云平台能够解决以下业务需求，那么它们无疑是最基础的。这些具体的业务需求是：

基于弹性、灵活拓扑结构的先进分析型资源

汲取源自任何来源、格式和方案的纯消费性资源

能够留存、聚合、处理任何动静结合信息的“延迟-灵敏”资源

在价值链中扩展，在私有云和公有云中扩张的联合资源

能够让你通过现有工具和应用，调整、扩展和升级后端数据平台的无缝互操作资源

理想情况下，精炼原始数据以生成完整而有意义的信息的过程如下：

构建相关语义

处理数据异常

建立完整的、全面的、相关数据的视图

充实下行流程的元数据

处理数据保护、隐私及合规性要求

利用数据虚拟化作为数据处理的三个优点：

1. 数据优化的范围

现代分析依赖于来自大量碎片数据源的数据。经验表明，当数据分布在多个系统时，大数据源并不总是能够复制并迁移的。数据虚拟化通过提供替代性范式交付具有大数据源的有效工作范围：将数据处理转移到数据。换句话说，就是处理存在的数据并尽可能降低网络流量。

(备注：数据虚拟化(Data virtualization)– 数据整合的过程，以此获得更多的数据信息，这个过程通常会引入其他技术，例如数据库，应用程序，文件系统，网页技术，大数据技术等等。)

数据虚拟化带来了数据优化所需的速度和规模，而无需复制或重新定位数据源。它使用逻辑数据体系结构，使所有底层数据源都以单个系统的形式出现。它提供了多种优化策略(例如:特定于平台的优化和下推处理)，选择特定优化的智能，以及预先构建的优化库，如MPP内存中的处理。

(备注：MPP (Massively Parallel Processing)，意为大规模并行处理系统，这样的系统是由许多松耦合处理单元组成的，要注意的是这里指的是处理单元而不是处理器。每个单元内的CPU都有自己私有的资源，如总线、内存、硬盘等。在每个单元内都有操作系统和管理数据库的实例复本。这种结构大的特点在于不共享资源。)

2. 负责数据共享

文化和法律障碍往往阻碍数据共享，这已成为大数据分析的主要组成部分。数据隐私法规是令人信服的组织在新项目的每个设计和实施阶段纳入或以其他方式说明数据隐私的充分考虑。数据虚拟化采用的中央方式，降低了遵守越来越多的活动数据隐私法规的成本，并允许通过设计包含数据隐私。

数据虚拟化的核心功能是使分布式数据保持在源代码中，同时通过一个逻辑层将其暴露给消费者。这种方法消除了对连续数据复制的需要。较少的复制可以减少组织中个人和敏感数据的副本，减少数据安全和治理方面的问题。

数据虚拟化还使组织能够很容易地在整个组织中创建聚合的、一致的数据视图，例如风险数据。这些视图可以有选择地共享，同时完全遵守组织的数据访问和隐私策略。如图1 所示

数据虚拟化能克服以下主要信息共享方面的挑战:

不同的数据源。使用数据虚拟化，可以轻松地将数据集成到各种内部和外部系统中。

不同的数据格式。数据虚拟化可以使用不同的技术和协议连接到不同格式的数据。这些复杂性被用户和应用程序所隐藏。

不同的数据标准。使用查询表或内存映射，数据虚拟化可以集成数据，即使它来自不同的标准。

数据不完整。数据虚拟化允许将数据汇总在不同的系统中，以实现整体的视图。

未处理数据。对聚合数据进行的数据计算(与部分，孤立数据相反)可以提供整个企业组织完整的风险视图。

敏感数据。数据虚拟化可以提供安全性和隐私功能，以便用户只能看到他们被允许看到的数据。

3. 通用语义模型

企业用户的形式及规模各不相同。因此，必须了解客户是谁?(例如，他们是数据分析师，高级用户，高管还是机器)。以及他们需要的数据(例如，预先聚合的，预先计算，特定精确，特定作用的还是特定领域的)是必需的。对于特定的机器而言，正确的标记数据集对于有效的机器学习至关重要。在为分析提供数据时使用企业用户了解的语言也是很重要的。使用业务用户在提供数据进行分析时了解的语言也很重要。例如，帐户适用于财务中的用户，而客户是客户关怀中的用户的首选术语。支持多种语义是避免强迫用户改变术语的关键。

由数据虚拟化驱动的通用语义模式可以为整个组织提供常见且统一的数据视图。通过不被嵌入到单一的商业智能(BI)工具中，语义模型对于多个BI工具是通用的，并且可以访问几乎任何数据源。

数据虚拟化实现自助分析方面，完成下列目标：

能够快速方便地构建灵活的语义模式

提供具有保护措施的自助服务平台

既支持“data cowboys”(在一定范围内)也支持常规业务用户

加快自我服务举措(消除分析孤岛)，同时保持控制和治理

提供完整的、可信的、高质量的信息对决策制定以及预测性和规范性分析都是至关重要的。数据虚拟化是满足这一需求的理想技术，这些组织力图将数据用作战略资产。当然，要沿着“数据-虚拟化”路线走多远，将取决于用户业务需求和大数据环境的复杂性。此外，还取决于用户对风险、复杂性和困难的承受程度。在未来，随着分析模型、规则和大数据云上汇聚的信息日益复杂，平台将成为虚拟化访问、执行和管理的核心。在这一新领域内，MapReduce将成为关键的(但并不是唯一的)开发框架。此外，MapReduce还将成为针对内联分析和交易计算的虚拟化架构的一部分。不过，目前这一虚拟化架构虽然涵盖范围更广，但是大部分仍没有被明确定义。