本文主要结论与资料来自于研究公司Dresner Advisory Services最新的大数据研究报告“2017 Big Data Analytics Market Study”,这是该公司Crowds?系列研究中的一部分。本系列报告连续第三年考察与分析了大数据分析最终用户的使用趋势与使用意图,并将大数据分析定义为最终用户能够访问、分析和管理Hadoop生态体系中数据的一套系统。
Dresner Advisory Services 的创始人简首席研究员Howard Dresner表示,“在我们对大数据分析进行全面研究的三年中,我们看到使用率的大量提升以及无采用计划比例的大幅下降。 而在2017年中,IT部门员工成为了最典型的大数据应用者,尽管所有部门(包括财务部门)都在考虑在未来应用大数据分析,这说明大数据已经不是一种实验性的尝试,而是一种组织内部的实践性追求”。
本次报告中,主要发现如下:
报告、仪表板、高级可视化、最终用户“自我服务”以及数据仓库是公司BI战略中排名前五位的技术和措施。大数据目前在Dresner Advisory Services追踪的33项关键技术中排名第20位,高于物联网(IoT)、自然语言分析、认知BI和位置只能,这说明大数据的战略重要性高于上述技术。
目前有53%的公司正在使用大数据分析,而2015年这一比例仅为17%。电信与金融服务公司是这一波增长中主要推手,他们是大数据分析服务最活跃的早期应用者,接下来的是科技与医疗行业,而教育行业的大数据应用者占比最低。不过2017年以至年末,大部分的教育公司正在对于大数据的使用与否进行评估。在地区中,北美地区(55%)稍微领先于欧洲、中东以及非洲地区(53%)。来自于亚州地区的大数据使用者目前仅为44%,但这也说明他们最有可能将在未来使用大数据分析。
数据仓库优化被受访者广泛认可为最重要的大数据分析用例,其次分别是客户/社交分析与预测性维护。70%的受访者认为数据仓库优化是重要或非常重要的是,不过很有趣的是,IoT是目前大数据分析用例中优先级最低的。
大数据分析用例在行业中差别很大,在金融服务中,数据仓库优化主导所有用例;科技公司则主要使用大数据分析以进行医疗保健和客户/社交分析应用。同时,在金融服务和电信公司中,欺诈检测应用比例也较高,而点击流量分析也在金融服务的用例中处于领先地位。
Spark,MapReduce和Yarn是当今最流行的三种软件框架。 超过30%的受访者认为Spark对他们的大数据分析策略至关重要。而也有20%以上的受访者认为MapReduce和Yarn “至关重要”。
最受欢迎的大数据访问方式包括Spark SQL、Hive、HDFS和Amazon S3。73%的受访者认为Spark SQL对他们的分析策略至关重要, 而超过30%的受访者认为Hive和HDFS也很重要。 作为五大数据访问方式之一的亚马逊S3也具有较高认可程度。 下图显示了大数据访问方法的分布情况。
机器学习将继续获得更多的行业支持和投资计划,Spark的机器学习库(MLib)的采用率将在未来一年内将增长60%。 根据调查结果,在未来两年内,MLib将主导整个机器学习的使用,用户将可以从Sparklyr R Package和其他产品中获得MLib,而这些产品将不断推动公司的发展。