近日, Vincent Granville在Data Science Central上撰文对2017的数据科学、机器学习和物联网进行了预测。
以下为译文
又到了分享对2017年的预言的时候了,这里抛砖引玉,也希望各位发表自己的观点。
1. 数据科学和机器学习将变得更为主流,特别在以下领域:能源业、金融业(银行、保险)、农业(精耕)、运输业、城市规划、医疗保健(定制治疗),甚至是政府方面。
2. 某些数据科学的门外汉想要创建合法的,有关如何分析数据、算法怎样运转的体系,并打算强制公开算法的秘诀。我相信他们会失败的,奥巴马医改就是一个例子,其中利用的预测算法,忽略了年龄性别来计算溢价,导致了人们需要承担更高的保费。
3. 传感数据崛起。也就是说,物联网将带来数据膨胀,但数据质量、数据相关性及数据安全仍是至关重要的。
4. 随着物联网的崛起,依赖于人工智能、深度学习和自动数据科学的机器或设备间通信的算法 ,更多的过程将实现自动化(如驾驶、医疗诊断和治疗)。我最近也在编写文章来描述机器学习、物联网、人工智能、深度学习和数据科学之间的差异。你可以在DSC进行注册,防止错过该文。
5. 人工智能、物联网、数据科学、机器学习、深度学习和运筹学之间的界限将变得模糊。而统计工程会越来越多地出现在应用程序、机器学习、人工智能和数据科学领域。
6. 许多系统仍然无法正常运转。其解决方法在于人而不是算法。我的文章《为何如此多的机器学习实现都以失败告终》中有提及,一个典型的例子就是“谷歌分析”。谷歌分析不能捕捉到大量明显且又基本的机械交通流,而这种任务对于人来说,根本不需要任何统计和数据科学知识来过滤或拦截。虽然人们发明了基本的方案来解决这些问题,但它却有增无减。虚假评论、新闻,推特上未检测出的仇恨言论,谷歌搜索上未检测到的剽窃行为,都属于同一类别。最终,它为新玩家留下了可以进入和构建实际工作系统的空间。
7. 对公共数据和公共新闻的依赖将会面临更仔细的审查。有人说预测选举的失败是数据科学的失败。但在我看来这是一种不同类型的失败,它未能意识到媒体的偏见(他们发布的都符合他们自身议程预测),甚至那些做调查的都是有偏差的(充满谎言)。同时它也没有意识到选举中的高波动性以及日常的巨大变化。任何能够计算出包含历史数据的良好的置信区间的人,都认为这是不可靠的预测结果。最后,我一直都认为获胜者最擅长玩把戏,包括操纵黑客与贿赂媒体。
8. 越来越多的数据清理、预处理和探索性数据分析将变得自动化,我们也将面对更多的非结构化数据,当然,也会用一些方法来使它们变得结构化。多个算法和模型逐渐混合在一起,来提供效果好的模式识别和预测系统,以提高精度。
9. 在领先的从业者带领的大学课程的引导下,数据科学教育将不断发展,通过数据科学营找工作的人会更少。许多这种类型的训练营不会培训你成为数据科学家,而是让你变成一个只知晓经典的、基本的、甚至过时且危险的统计知识的Python/R/SQL码农。因此,数据营不得不改善,否则将冒成为另一种凤凰城大学的风险。
10. 对有关数据的基础建设的攻击将会从窃取或清除转变为修改数据。如果安全漏洞没有被修缮,某些攻击将从物联网设备开始。