数据科学家对优化算法和模型以进一步发掘数据价值的追求永无止境。在这个过程中他们不仅需要总结前人的经验教训,还需要有自己的理解与见地,虽然后者取决于人的灵动性,但是前者却是可以用语言来传授的。最近Devendra Desale就在KDnuggets上发表了一篇文章,总结了Quora的工程副总裁Xavier Amatriain在Netflix和Quora从事推荐系统和机器学习工作时所总结的20条经验教训。

更多的数据 & 更好的模型

并不是数据越多结果就越好,高质量的数据才能产生高质量的结果。多并不意味着好,事实上,有些情况下较少的数据反而效果更好,因此数据要适量,质量要高。

可能并不需要所有的大数据

组织可能积累了不同种类的大数据,但是并不是每一个场景都会用到所有的数据。大部分情况下,通过一些样本数据就能获得比较好甚至是比使用全量数据更好的效果。

有时候更复杂的模型并没有带来任何提升,但这并不意味着就不需要它了

如果将一个线性模型的特征数据作为另一个更复杂模型(例如非线性模型)的输入,而复杂模型产生的结果并没有任何提升,那并不意味着这个复杂模型就毫无意义。因为通常情况下只有更复杂的特征数据才需要更复杂的模型,对于简单的特征数据复杂模型往往难以发挥出自身优势。

学会处理展现偏见

系统通常会将那些预测的比较正确的结果展示给用户,用户会选择性的查看,但是用户不看的那部分并不一定就毫无吸引力。更好的选择是通过关注模型或者MAB分析用户的点击概率,合理地呈现内容。

认真思考训练数据

构建训练和测试数据的时候需要充分考虑结果和各种不同的场景。例如,如果要训练一个预测用户是否喜欢某部电影的分类器,那么产生数据的可能场景包括:用户看完电影并给出了一星的评价,用户看了5分钟、15分钟或者一小时之后离开,用户再次查看电影等,如何选择这些数据是需要经过深思熟虑的。

UI是用户与算法通信的唯一方式

系统通过UI展现算法结果,用户通过UI提供算法反馈,它们应该是相互对应的关系,任何一个发生变化另一个也需要进行改变。 数据和模型是否已经足够好了?

要有正确的评估方法

产品决策始终应该是数据驱动的。对于不同的问题,要选择正确的评估方法,例如,通过A/B测试来衡量不同特征数据,不同算法的优劣;通过脱机测试使用 (IR) 度量测试模型的性能。

分布式算法重要,但是理解它的分布式程度更重要

分布式/并行算法分三级:第一级针对总体的每一个子集,第二级针对超参数的每一种组合,第三级针对训练数据的每一个子集,每一级都有不同的要求。

慎重地选择超参数

要选择正确的度量标准自动化超参数的优化。 有些事情能线下做,有些不能,有些介于两者之间,为此需要支持多层次的机器学习。

隐式信号几乎总是打败显式信号

许多数据科学家认为隐式反馈更有用。但真的是这样么?实际上有些情况下结合不同形式的隐式和显式信号能更好地表示长期目标。

 模型会学习你教给他的内容

机器学习算法并不是一个随意的过程,它的每一步都涉及到科学方法。模型要从训练数据、目标函数和度量中学习。

有监督的 + 无监督的学习

开发模型的时候不能简单地选择有监督的或者无监督的学习,它们各有长处,适用场景不同,用户需要根据具体情况同时迭代地使用它们,通过两种方法的融合获得更好的效果。

所有的事情都是一种集成(Ensemble)

使用机器学习的大部分应用程序都是一个集合体。你可以添加完全不同的方法(例如CF和基于内容的方式),你也可以在集成层使用许多不同的模型(例如LR、GDBT、RF和ANN)。

一个模型的输出可能是另一个模型的输入

确保模型的输出具有良好的数据依赖关系,例如可以容易地改变值的分布而不影响依赖它的其他模型。要尽量避免反馈循环,因为这样会在管道中造成依赖和瓶颈。另外,机器学习的模式设计也需要遵循最佳的软件工程实践,例如封装、抽象、高内聚和松耦合。

特征工程的失与得

良好的机器学习特征可重用、可转换、可解释并且可靠。捕获的特征越好,结果越精确。为了量化数据的属性必须将维度翻译成特征。

机器学习基础设施的两面性

任何机器学习基础设施都需要考虑两种不同的模式。模式1:机器学习实验需要扩展性、易用性和可重用性。模式2:机器学习产品不仅需要模式1的特性,还需要性能和可伸缩性。理想情况下,应该保持这两种模式尽可能地相近。

要能回答有关于模型的问题

必须能够向产品所有者解释模型的行为,知道如何使用模型,它需要哪些特征,导致失败的原因是什么;同时还需要知道产品所有者或投资者的期望,能够向他们介绍模型为产品带来了什么价值。

不需要分发机器学习算法

Hadoop/Spark这些“容易的”分布式计算平台也有一些陷阱,例如成本和网络延迟,实际上有些情况不使用它们也能很好的完成工作,通过智能数据样本、离线模式以及高效的并行代码等方法训练模型所花费的时间甚至比这些分布式平台要少的多。

数据科学 vs. 机器学习工程不为人知的故事

拥有强大的能够挖掘数据价值的数据科学家是非常值得的。但是既懂数据又有扎实工程技能的数据科学家非常稀少,通常情况下,构建数据科学家团队和机器学习工程团队并让他们通力配合才是比较好的方案。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-11-13 15:45:33
国内资讯 解析机器学习应用:数据中心和云计算成为企业新战场
机器学习作为一种实现人工智能的方法,近年来成功案例数日益攀升,已经从一个相对模糊的计算机科学概念,迅速发展成为企业经济的影响因素,因此,机器学习领域存在大量的资 <详情>
2017-11-09 10:29:36
云技术 OpenStack 携手英伟达,规划更适合机器学习运作的软件平台
OpenStack 基金会执行董事 Jonathan Bryce 在接受媒体采访时表示,2017 年以来,机器学习的发展态势有点像 2016 年的边缘计算(Edge computing)。这意味着用户开始思考如何 <详情>
2017-11-03 12:59:05
国内资讯 今年天猫双11将有4亿张人工智能海报由机器人设计
11月2日,阿里巴巴方面透露,今年天猫双11将有大量机器人参与超级工程中,其中一个叫“鲁班”的AI设计师,将为我们设计4亿张商品展示广告,让千万级尖货都能被恰当呈现,为 <详情>
2017-11-03 10:50:55
大数据应用 谷歌闹哪样?Firebase推出机器学习功能
谷歌旗下的公司昨日在Amsterdam的Firebase Dev Summit峰会上宣布:Firebase将会有一系列的更新,更新的重点是加强Firebase服务的集成并将更多的机器学习融入到工具包中去。 <详情>
2017-10-31 10:22:00
大数据资讯 人工智能、机器学习和深度学习的区别和联系
人工智能的浪潮正在席卷全球,诸多词汇时刻萦绕在我们耳边:人工智能(Artificial Intelligence)、机器学习(Machine Learning)、深度学习(Deep Learning)。不少人对这 <详情>