数据融合(Data blending)将来自各种来源的大数据合并在一起创建一个数据集,可以提高数据分析的速度和洞察力。
数据融合(也将其视为数据混搭)解决了许多公司面临的难题。由于很多公司现在已经收集了数年或更长时间的数据,现在经常拥有数十个数据存储库,从Excel电子表格到Tableau工作簿。如果为业务洞察挖掘适当的数据,这些数据主体中的每一个存储库都提供了潜在的价值。 通过将不同的数据整合到一个数据集中,数据融合可以创建一个单一的源,同时将其输入大数据软件。重要的是,数据融合有助于揭示明显对比的数据集之间令人信服的相关性。 数据融合的真正优势:数据融合往往是一个快速的数据挖掘过程,销售代表和业务分析师可以使用它来进行特定查询,而无需IT支持人员的帮助。
数据融合可以帮助在每个项目的基础上快速合并不同的数据
数据融合的优点
将可能数据融合成单个数据的过多数据集几乎是无穷的。这可能包括传统数据库、客户关系管理(CRM)系统、人力资源、来自表单的用户生成数据、社交媒体、营销运营、Web分析,通常包括结构化和非结构化数据的自由组合。
可以肯定的是,数据融合并非没有成本。企业员工必须花费时间从各种来源收集和路由数据,数据融合需要投入企业员工的大量时间和精力。此外,某些数据湖可能比其他数据库更难融入单个池中。这可能会给数据处理带来棘手的管理挑战。
然而,在这个信息泛滥的世界中,数据融合在数据挖掘中具有以下关键竞争优势。
•提供对关键数据的更快、更准确的访问,使企业能够更快地收集洞察力。
•从直接数据挖掘到高级预测分析,它可以提高所有类型数据操作的效率。
•它为管理人员和与他们合作的数据科学家提供了更高质量的数据智能。
•最终,它可以显著改善决策制定,因为推动决策制定的数据更有条理、更具逻辑性。
数据融合工具可以使数据合并成为一个更快的过程
数据融合步骤:收集、合并、联接
有些企业不愿意实施复杂的数据融合工作。毕竟,企业的每个部门通常都有自己的系统、格式和标签,用于处理和存储数据。根据工作的不同,即使是基于项目的特定数据融合也可能是一个繁琐且耗时的过程。
但是,如果将数据融合过程分解为其组成部分,则更易于管理。因此,尽管可能存在许多方面(权限问题、搜索数据),但在全局视图中,数据融合分为三个步骤。
•数据收集:探索、标记和量化所有需要的数据集。当然,数据收集越彻底,从生成的数据集中获得的洞察力就越多。
•数据组合:一旦大量数据被剔除,将这些不同的数据集连接到一个中央数据集,即数据池,或者用于大型的数据仓库。
•数据清理/清除:在某些情况下,需要将数据转换为允许存储在单个存储库中的格式。此外,一旦检查了所有数据的角落和缝隙,很可能需要清除一些数据;它只是不可用或与企业的大任务相关,所以它会减慢整个数据挖掘过程。
数据融合与数据集成
数据融合和数据集成这两个术语,就像数据分析领域中的许多术语一样,不同的人使用不同的术语。
简短的比较:数据融合通常是更快、更基于项目的合并,而数据集成通常是更全面的数据源合并。
以下进行一下深入探讨:
数据融合:用于项目
如上所述,数据融合基于将多个数据源合并成一个数据集,该过程可能(或可能不)需要准备或重新格式化数据。它通常强调速度,数据被混合用于特定时间敏感的项目或业务查询。
而使用数据融合工具,因此不需要IT人员。然而,为了增加定义的复杂性,在某些情况下,企业正在进行数据融合,以生成一个持续的单一存储库(而不是单个用例),该存储库将在市场条件变化时用于查询数据。
数据集成:单一视图
数据集成也指组合来自多个来源的数据。如果数据融合和数据集成之间存在关键区别,那就是数据集成提供了统一的数据视图。
生成这种统一的视图通常需要对基础数据进行一些深入的重新格式化,因此可以比较趋势发展。在某些情况下,需要数据虚拟化。
简而言之,数据集成往往是一个比数据融合更深入、更复杂的过程。
数据集成通常涉及提取、转换、加载(ETL),这是企业已经使用了数十年的过程。 数据融合、ETL和ELT 虽然数据融合被视为一个非常现代化的过程,但由于当今数字源的复杂性和数量的增加,实际上它遵循传统的历史过程。
例如,注意上述过程与ETL提取、转换和加载(ETL)的相似之处:
•提取:从多个来源收集数据。
•转换:根据需要更改数据格式,以将其与其他不同的数据源混合。
•加载:将新格式化的数据传输到单个数据存储库。 关于ETL过程的一个问题是,它通常需要IT人员参与。这可能意味着这些计划不像数据科学家或实际设计和创建大数据查询的业务分析师管理的系统那样灵活且专注于项目。
然而,随着业务速度的加快,以及查询的数量和复杂性成倍增加,企业业务已经转向了ELT,这是一种数据融合的形式。与ETL相比,ELT是一个通常不需要IT人员支持而运行的过程。
它看起来是这样:
•提取:从多个来源收集数据。
•加载:将数据(可能需要或不需要重新格式化)组织到一个位置。
•转换:根据特定查询的需要,将不同的数据源合并到项目所要求的范围内。
换句话说,ELT是一种关键的数据融合形式,它更灵活,更基于查询,从数据挖掘中产生更快、更具体的业务洞察力。
数据融合工具
尽管“数据融合”被视为一种独立于数据分析整个过程的技术,但实际上数据专家将数据融合匹配为数据分析过程的一个固定部分。
事实上,鉴于数据洪流正在以指数形式增长,来自各种来源的数据融合行为可能是当今数据科学家最常见的行为之一。
需要注意:数据融合可能是一个不精确的过程。意识到在某些情况下,当合并数据时,可能包括数据的某些方面。在运行中融合数据时,用户可以简单地查看不同的数据。
在这种情况下,仅仅将数据聚合到单个视图中是有帮助的,但是不会像真正的数据转换和合并过程那样启用丰富的数据挖掘。
这提供了数据融合工具。虽然大量的“数据融合”并不比复制和粘贴Excel列更先进,但是一个良好的数据融合工具往往能够快速收回成本。
以下这些应用程序是数据融合工作中使用的主要工具之一:
• Sisense
• Tableau
• Clearstory Data
• Altair Knowledge Works
• Alteryx
• Lavastorm
• Trifacta
• Panoply
• Rapidminer
• Paxata
【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】