2017大数据十大趋势丨海量数据汹涌而来，Hadoop不再一家独大_大数据资讯

随着对不同类型、不同体量数据的结构化存储、批量处理以及价值挖掘需求的增多，2017年注定是大数据里程碑式的一年。

2017年，支持大量结构化和非结构化数据的系统将继续增长。市场需要数据平台来帮助数据管理人员管理和保护大数据，同时允许最终用户进行数据分析。这些系统将逐步成熟，在企业内部的IT系统中更好地运行。

大数据223

1.数据处理变得更加快速，数据也变得更加易于使用

选项扩展将加速Hadoop

当然，你可以在Hadoop上执行机器学习和情绪分析，但人们常常会问的第一个问题是：交互式SQL(结构化查询语言，一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统)究竟有多快?毕竟，SQL相当于企业用户的“导管”——他们希望使用Hadoop数据来更快的获得可复用的BI仪表盘(一种向企业展示度量信息和关键业务指标即KPI现状的数据虚拟化工具)，或者是进行一些探索性分析。

这种对速度的需求促使用户采用访问速度更快和执行效率更高的数据库，如Exasol、MemSQL，或者是类似于Kudu这种基于Hadoop的商店，当然还需要能够更快查询数据的技术。诸如SQL-on-Hadoop引擎(Apache Impala，Hive LLAP，Presto，Phoenix和Drill)和OLAP-on-Hadoop技术(AtScale，Jethro Data和Kyvos Insights)这样的数据查询加速器将进一步模糊传统数据库与大数据世界的边界。

2.大数据不再只是Hadoop

专门基于Hadoop开发的工具已过时

在过去的几年中，随着大数据浪潮来袭，数种为了满足Hadoop分析需求的技术兴起。但是，身处复杂，异构环境中的企业不再希望仅为一个数据源(Hadoop)采用孤立的BI访问点。他们需要的答案被埋没在一大堆数据源中，从记录系统到云端，再到来自Hadoop和非Hadoop源的结构化和非结构化数据。(顺便说一句，甚至连关系型数据库也正在为大数据趋势做准备。例如，SQL Server 2016于近日添加了JSON支持)。

在2017年，客户将会需要对所有数据都进行分析。不依赖于数据源的平台将会茁壮成长，而专为Hadoop而设计的平台和未能跨应用部署的平台将被弃用。Platfora的退出便是这一趋势的预示。

3.相关组织将利用数据湖(DataLake)来实现价值

数据湖就像一个人造水库

数据湖就像一个人造水库。首先你要建造一个水坝(构建一个集群)，然后填满水(数据)。一旦建立了湖泊，你将开始因为各种目的而使用这些水资源(数据)，如发电，饮用以及各种消遣(预测分析，机器学习，网络安全等)。

而今，保有数据湖里的数据已经变成了一种为了保留而保留的行为。在2017年，这将随着Hadoop业务的收紧而改变。各个组织要求可重复的并且敏捷地使用数据湖，以便更快地获得响应。在确定对人事、数据和基础设施的相应投资之前，企业会更加慎重的考虑业务成果。这将促进业务和IT之间的强力耦合。而自助服务平台作为分析大数据资产的工具将获得更深入的认可。

另外，公司还将关注业务驱动型应用，避免数据湖陷入困境。在2017年，企业机构将从“构建未来”的数据湖应用转向业务驱动型数据应用。当今世界需要分析和操作能力去触及客户、处理索赔并且连接到个体的不同设备。

举例而言，任何商业网站需要提供实时的个性化推荐和价格查询。医疗健康型企业必须处理有效的索赔并且运用分析运营系统来防止索赔欺诈。媒体公司需要通过机顶盒提供个性化的内容。汽车制造商和汽车共享公司则要交互运营其车辆和司机。这些案例的实施交付均需要由一个敏捷平台来实现，同时提供分析和运营的处理，跨越后台分析和前台运营进行整合，提升了商业价值。

4.成熟的架构拒绝通用型框架

Hadoop不再只是一个用于数据科学用例的批处理平台。

Hadoop不再只是一个用于数据科学用例的批处理平台。它已经成为一种专为特殊分析而架设的多用途分析引擎，甚至被用于日常工作负载的操作报告——传统上这项任务是由数据仓库(大量数据提取和分析的工具)来处理的。

在2017年，各个组织将通过特定的用例的架构设计来满足现存的混合需求。他们将研究一系列的因素，包括用户角色模型、访问频率、数据速度和聚合级别等，然后才能提交合适的数据策略。这些现代化的参考架构由需求驱动，他们将以某种方式将好的自助服务数据准备工具Hadoop核心和最终用户分析平台结合起来，以便可以根据这些需求进行重新配置。这些架构的灵活性将最终推动技术选择。

5.推动大数据投资的是数据的多样性，而不是体量和速

Gartner将大数据定义为“三高”

Gartner将大数据定义为“三高”：高容量，高速率，高品类的信息资产。正如New Vantage Partners最近的一项调查结果所示：虽然三个特性都在凸显，但其中，多元化无疑正成为大数据投资的主导推动力。

随着企业寻求整合更多来源并关注大数据的“长尾”，这一趋势将更加明显。从自由模式的JSON到嵌入式的数据库(如关系数据库和非关系数据库)，到非平面数据(如Avro，Parquet，XML)，数据格式正在成倍增长，连接器变得至关重要，它将不同格式的数据变成统一的表达/它让不同格式的数据之间实现互通。在2017年，为零散的、不同的资源提供即时连接的能力，将成为评估一个平台能力的重要方面。

6.Spark和机器学习打通大数据的任督二脉

Apache Spark曾是Hadoop生态系统的一个组件，现在正成为大数据平台企业的首选。

在对数据架构师、IT经理和BI分析师的调查中，近70%的受访者表示，现有的MapReduce里边最青睐Spark，它是批量导向的并行处理，但不适合交互式应用程序或实时流处理。

这些以大数据为基础的超级计算能力为计算密集型的平台提供了极大的助力，如：机器学习(ML)、人工智能(AI)、图形算法等。尤其对于Microsoft Azure 机器学习，由于上述计算能力也完全适用于初学者，并能迅速集成到现有的Microsoft平台。向大众开放机器学习将有助于创建更多的模型和应用程序来生成PB级数据。随着机器学习和系统日益智能化，自助服务软件提供商们是时候要挖掘一下大数据的力量如何变现到最终用户身上。

7.物联网、云服务和大数据集结起来便是自助服务的新机遇

在2017年，似乎一切都将有一个传感器把信息送回主体

IoT正在生成大量的结构化和非结构化数据，而且越来越多的数据部署在云服务上。数据通常是异构的，并且存在于多个关系和非关系系统中，如Hadoop集群、非关系数据库等。

虽然存储和管理服务的创新加快了数据获取的步伐、进程程，但访问和理解数据本身仍然是棘手的“最后一米”。因此，对于无缝连接和组合各种云托管数据源的分析工具的需求正在增长。这样的工具使企业实现了大数据库的即时调取和可视化管理，，从而帮助物联网投资者挖掘隐藏的机会。

8.在最终用户驱动下，自助数据预处理走向主流

Hadoop数据如何走进企业用户，是当下大的挑战之一。

Hadoop数据如何走进企业用户，是当下大的挑战之一。自助服务分析平台的兴起改善了这一过程。但企业用户希望进一步简化数据分析的流程，尤其在处理多种数据类型和格式时，这一诉求更加明显。

敏捷的自助服务数据预处理工具不仅可以在源处预处理Hadoop数据，而且还使数据作为快照来用，从而进行简易便捷的进一步处理。

我们已经看到了的一大批面向终端用户的大数据预处理创新， Alteryx、Trifacta和Paxata。这些工具降低了后期Hadoop采用者和初学者的进入门槛，并将在2017年体现更大价值。

9.大数据成长：Hadoop增加了企业标准

Hadoop将逐渐成为企业IT环境的核心部分。

Hadoop将逐渐成为企业IT环境的核心部分。在2017年，我们将看到围绕企业系统的安全、管理成为投资热地的更多投资。ApacheSentry提供了一个系统，在这个系统中，我们可以强制对元数据进行细致的、按需分配的授权。

作为数据管理的一项重大创举，Apache Atlas，让企业可以在繁杂的数据生态系统中实行统一的数据分类。Apache Ranger为Hadoop提供集中式安全管理。

客户开始期望从企业级RDBMS平台获得这些类型的功能。这些功能走在新兴大数据技术的前沿，从而消除了企业关于技术迭代而被淘汰方面的担忧。

Hadoop对数据进行细致管理、按需分配的实例

Last.fm创建于2002年，是提供网络电台和音乐服务的社交网络。每个月有2500万人使用，产生大量数据。2006年初，Last.fm开始使用Hadoop。Hadoop是Last.fm基础平台的关键组件，有2个Hadoop集群，运行数百种各种日常作业，包括日志文件分析，A/B测试评测，即时处理和图表生成。

图表生成：图表生成是Hadoop在Last.fm的第一个应用。

数据从哪里来：Last.fm有两种收听信息：用户播放自己的音乐，如pc或者其他设备mp3，这种信息通过Last.fm的客户端或者第三方应用发送到Last.fm，这一类叫scrobble收藏数据;用户收听Last.fm网络电台的节目，以及听节目时候的喜爱，跳过，禁止等操作信息，这一类叫radio listen电台收听数据。

数据存储：收听数据被发送到Last.fm，经历验证和转换，形成一系列有空格分隔的文本文件，包含用户id-userid，音乐id-trackid，这首音乐被收藏的次数scrobble，这首音乐在电台中收听的次数radio，被跳过的次数skip。真实数据达到GB级别，有更多属性字段。

数据处理：

Unique Listeners作业：统计收听某一首歌的不同用户数，也就说说，有多少个用户听过某个歌，如果用户重复收听，只算一次。

Sum作业：每首歌的收听总数，收藏总数，电台收听总数，被跳过的总数。

合作作业：每首歌被多少用户收听总数，收听总数，收藏总数，电台收听总数，被跳过的总数等。

最后，这些数据会被作为周排行榜等在Last.fm主站上显示出来。

Hadoop大数据技术案例

让Hadoop和其他大数据技术如此引人注目的部分原因是，他们让企业找到问题的答案，而在此之前他们甚至不知道问题是什么。包括谷歌，Facebook、LinkedIn还在内的诸多巨头，都在帮助Hadoop改善运营效率。具体包括包括：

情感分析： Hadoop与先进的文本分析工具结合，分析社会化媒体和社交网络发布的非结构化的文本，包括Tweets和Facebook，以确定用户对特定公司，品牌或产品的情绪。分析既可以专注于宏观层面的情绪，也可以细分到个人用户的情绪。

风险建模：财务公司、银行等公司使用Hadoop和下一代数据仓库分析大量交易数据，以确定金融资产的风险，模拟市场行为为潜在的“假设”方案做准备，并根据风险为潜在客户打分。

欺诈检测：金融公司、零售商等使用大数据技术将客户行为与历史交易数据结合来检测欺诈行为。例如，信用卡公司使用大数据技术识别可能的被盗卡的交易行为。

客户流失分析：企业使用Hadoop和大数据技术分析客户行为数据并确定分析模型，该模型指出哪些客户最有可能流向存在竞争关系的供应商或服务商。企业就能采取最有效的措施挽留欲流失客户。

用户体验分析：面向消费者的企业使用Hadoop和其他大数据技术将之前单一客户互动渠道(如呼叫中心，网上聊天，微博等)数据整合在一起，以获得对客户体验的完整视图。这使企业能够了解客户交互渠道之间的相互影响，从而优化整个客户生命周期的用户体验。

10.元数据目录的建立帮助筛选出具有分析价值的数据

很长一段时间以来，公司抛弃了数据，因为他们认为海量的数据处理起来确实无从下手。

很长一段时间以来，公司抛弃了数据，因为他们认为海量的数据处理起来确实无从下手。用Hadoop当然也可以处理大量的数据，但是这些数据仍然没有一个清晰的分类、易追溯的架构。

元数据目录可以帮助用户发现和理解哪些数据需要使用自助服务工具进行分析。客户的这种需求正被Alation和Waterline这样的公司填补，它们使用机器学习来自动筛选Hadoop需要分析的数据：

如，使用标签对文件进行编目，标明数据资产之间的关联，必要时还会提供搜索UI给出的查询建议。这大大缩短了数据使用者和管理者取得信任、查找以及准确查询数据的时间。在2017年，作为自助服务的自然延伸，我们将看到更多企业意识到自助分析的重要性，以及对其迫切的需求。