2016即将结束,外媒KDnuggets日前针对大数据领域在2016年度取得的重大发展,以及2017年度可能出现的变化趋势,询问了8位行业内的顶级专家。
虽然各位专家的意见不尽相同,但从其发言中大约可以总结出一个共通点:大数据研究正在由前几年的新鲜技术变得越来越普及和商业化。同时,由于研究的向前推进,以数据为基础的人工智能、机器学习和物联网等其他各个领域也将会取得越来越大的成果。
1. Craig Brown,大数据、数据科学、数据库技术领域专家。美国知名的青年导师、科技导师,以及作家。
在2016年,数据科学领域出现了一次大规模的数据增长。这一增长从需求端推动了诸多云计算服务供应商的快速成长,包括亚马逊AWS、微软Azure和Rackspace等。我认为,数据增长的势头将在2017年得到延续。并且,2017年将会出现更多的基于这些大数据研究的应用项目,包括机器学习、认知计算以及预测分析等。不过,随着数据量的增加,应用项目的逐渐丰富,用户的数据安全问题也将变得日益严峻,这一点在2017年也不会有很大改善。2017年,数据科学家、首席数据官、首席数据架构师等职位将变得越来越抢手,岗位职责和定位也会越来越明晰。实时数据流和功能更强大的数据传输通道将彻底颠覆所谓“快速数据”(fast data)和“可操控数据”(actionable data)的定义。
总体上说,大数据科学仍然是一个处于不断发展中的学科,在2017年,这一学科一定会迎来比2016年更大的发展。如果把大数据比作一辆汽车的驾驶员,那么在这位驾驶员的带领下,未来基于大数据的各种实际应用项目将会越来越丰富,也即这辆汽车上的乘客会越来越多。
2. James Kobielus,大数据领域专家,IBM公司大数据研究首席科学家。
分布式框架Hadoop在大数据领域的重要性正在日渐减弱,MapReduce模型、HBase数据库,甚至分布式文件系统HDFS在大数据科学家眼中也远没有从前重要了。
2017年最显著的变化趋势应该来自于程序员群体,他们将越来越关注数据库领域的编程技能,通过这一技能的提升,获得更多的职业发展优势。我认为在2017年,最热门的大数据科学应用项目将会聚焦于流媒体分析、嵌入式深度学习、物联网、聊天机器人、认知计算、自动驾驶、计算机视觉和语音识别等领域。同时,我们也将会看到,新一代的神经网络芯片、GPU和其他的高性能认知计算框架也将在明年得到更大的发展。
3. Douglas Laney,美国著名咨询公司Gartner副总裁,首席分析师。
2016年,大数据领域一个大的变化就是人们不再谈论大数据了,因为大数据已经充斥了我们的生活,随处可见。现在大家关注的焦点变成了如何将大数据业务化、商用化。在Gartner内部,我们和客户现在谈论最多的问题是如何管理、评估信息资产,以及如何将信息资产变现。
2017年,我们应该努力搞清楚大数据领域几项重要的权利和义务,包括数据的所有权、特权和隐私权,特别是由物联网产生的数据。另外,关于数据能否被视为一种全新形态的资产,这一问题会继续引发会计行业、律师行业和保险行业的困惑。但随着机构投资人和股票分析师们越来越关注一家企业的信息化进程,传统行业的这种困惑将会有所缓解。2017年,各行各业都将会更加关注大数据领域的人才招揽,例如数据经理人和其他的信息整合者。
4. Yves Mulkers,知名博客一切皆数据(All Things Data)博主之一,负责维护大数据板块。
在2016年,大数据这个词似乎不像前几年那样热门。随着大数据相关的基础设施、服务器、软件系统和理论体系的持续发展,目前大数据分析方面的解决方案已经逐渐成熟,并且越来越普及,而不像前几年那样还是少数科技极客眼中的新领域。随着技术的成熟,自助和自动化的信息服务也将越来越受到重视。大数据分析工具和相关的解决方案虽然会变得越来越简单易用,但我们仍然需要具备基本的通信技术和信息处理领域的专业知识,随时准备迎接下一个发展阶段的到来。未来,和机器学习、人工智能、VR/AR、物联网相关的大数据解决方案将越来越完备,摩尔定律的边界也会受到更多的挑战。
5. Mark van Rijmenam,Datafloq网创始人,大数据相关书籍《Think Bigger》作者。
对于大数据领域来说,2016是令人激动的一年,因为“大数据”终于不再是一个流行词。这说明研究者们正在基于大数据开发真实可用的解决方案和应用程序,而不再是简单的噱头。
2017年,随着技术的进步,以大数据为基础而开发的应用将越来越丰富。由于计算机的计算能力和真实可用的庞大数据量不再是问题,因此以人工智能和深度学习为代表的智能应用也将变得更加聪明,更加普及。总体上说,由于大数据、智能应用和越来越丰富的智能终端产品的出现,2017年应该是值得我们期待的一年。不过,随着大数据的广泛应用,数据安全和隐私问题也将越来越严峻。
6. Ronald van Loon,Adversitement网站主管,大数据科学领域年度10大影响力人物之一。
今年是大数据科学领域产生重大变化的一年。可以看到,无论是单一学科还是跨学科的用户,在这一年中都在向着以数据驱动为核心的组织架构调整。而且通过物联网的进一步普及,我们已经在某些核心应用场景积累了大数据处理和传输的宝贵经验。另外,由于强大的云计算平台的支持,越来越多的机器学习应用也正在研发之中。
在2017年,这一趋势将得以延续,人工智能、机器学习和物联网应用在大数据的支撑下将迎来一个爆发性的增长。目前,技术研发能力已经就绪,对于市场需求的灵活迭代机制也越发成熟,根据预测,截止2020年,接入互联网的设备总数将达到100亿-340亿之间。
7. Jeff Ullman,斯坦福大学计算学科教授,主要研究数据库理论、数据库集成一体化和数据挖掘等。
欧盟刚刚针对大数据的使用和分析模型的建立出台了一个新的隐私保护法(雷锋网获悉,这一法案将于2018年1月起正式施行)。现在还无法确定这一法案将会造成怎样的影响,但有一点似乎可以确定,那就是它将在很大程度上避免深度学习领域内由于分析模型乱用导致的意外问题。目前许多公司都在与欧盟沟通,试图确认究竟哪些数据资源和分析模型是可用的,而哪些不行。比如说,谷歌可以探测一封邮件的内容,并且将其和已知的垃圾邮件对比,如果内容类似就判定这封邮件为垃圾邮件。那么谷歌到底有没有读取用户邮件的权利?这些问题都还有待确定。
8. Matei Zaharia,Databricks平台首席科学家,大数据处理框架Apache Spark创始人。
1) 公有云正在成为部署大数据应用的主流平台。根据今年夏天的用户调查结果显示,在公有云部署Spark框架的用户比例高达61%,而使用Hadoop YARN的用户则只有36%。更重要的是,使用公有云的61%的用户去年只有51%,而使用Hadoop YARN的用户则从去年的40%下滑到36%,这说明公有云的用户正在持续的增长。分析原因,这或许是由于亚马逊AWS S3这样的云服务产品正在变得越来越经济,性能越来越稳定,易用性也越来越好。
2) 今年7月,我们发布了Apache Spark 2.0版,这一版本针对Spark SQL和数据帧(Dataframes)在新款硬件的使用方面进行了较大的性能提升。值得一提的是,我们已经看到2.0版的使用率正在快速增长,目前大约有40%的集群用户正在使用它。这说明用户需要对新硬件建立快速的支持。