在最近的一次谈话中,Facebook人工智能研究科学家Moustapha Cissé告诉我,“你吃什么你就是什么,而我们正在给算法模型喂垃圾食品。”

6

(图片来自于网络)

如果你不知道食物中有什么,你就很难合理饮食。同理,如果你不理解训练数据的原理,就不能训练出偏差更小的模型。

这就是为什么最近的论文“给数据集创建数据手册” https://arxiv.org/abs/1803.09010 如此有趣的原因。在这篇论文中,来自微软研究的Timnit Gebru及其同事与来自其他学术研究机构的合著者们为数据集提出了相当于食物营养标签的标准。

很多机器学习和深度学习模型,大多倾向于使用像ImageNet或COCO 这样的公共数据集,或是私人创造的数据集,这些数据集能够将训练数据集的内容、偏差和其他相关素材传输给有兴趣的用户是非常重要的。

“数据手册”这篇论文探讨了使用标准化数据手册,将这些信息传递给数据集、商业化API和预构建模型用户的方案。除了能协助用户交流数据偏差外,作者还指出这种数据手册能够提升信息的透明度,并为数据的可靠性背书。

除了潜在的伦理问题外,当使用第三方数据进行训练的模型不能充分归纳到不同语境时,隐藏的数据偏差会造成部署系统的不可预测性,甚至失败。当然,最好的选择是收集第一方数据,并使用由该领域里具有专业知识和深刻见解的专家们构建和训练的模型。

广泛可用的公共数据集、更易上手的机器学习工具,能便捷访问的人工智能API和预购建模型促进AI民主化,使得越来越多的开发人员将AI技术运用到他们的应用中。作者建议,为AI数据集和工具创建数据手册可以为那些没有专长领域的工程师提供基础的信息,有助于减少由数据集误用引发的问题。

信息安全公司Terbium实验室的CTO Clare Gollnick,在与我们讨论科学和人工智能中的再现性危机时,提出了类似观点。她担心开发人员往往把重心放在用更深层、更复杂的模型解决问题,而当这些模型被应用到生产中时,通常会遇到泛化的问题。相反地,她发现,当研究人员利用该领域里现有的专业知识和深刻见解去解决AI问题时,成果将更为稳健。

Gebru和合作者在论文中指出,AI尚未经受以往伴随着新兴行业(如汽车、医药和电气行业)发展而逐步完善的安全法规的检验。文中提到:

当汽车首次在美国出现时,没有车速限制、停车标志、交通信号灯、驾驶员教育,与安全带或醉酒驾驶有关的规定。因此,1900年代早期,碰撞、超速和鲁莽驾驶造成了许多人员伤亡。

6

几十年来,汽车及其它行业都在不断地修改完善旨在保护公共利益的法规,同时其自身的技术革新也没有停滞。论文认为,是时候开始考虑为AI制定相关的法律法规了,特别是当我们开始将其用于健康和公共部门等高风险实践中时。欧洲即将出台的通用数据保护条例(GDPR)就将处理这些问题。

论文提出的“数据手册”来源于电气组件相关的概念。每一个售出的电子组件都附带相应的“数据手册”,上面列出了组件的功能、特性、运行电压、物理细节等。当用户需要在购买前了解某个零件的性能,以及误操作情况下可能出现的反应时,这些数据手册就能提供用户所需的支持。

6

(示例图片来自于网络)

作者建议,数据集或API的提供方应该附带一份“数据手册”来解决一系列标准化问题,这份“数据手册”应该包含以下主题:

数据集创建的动机 数据集的组成 数据收集过程 数据预处理 数据的分布 数据的维护 法律和伦理方面的考虑

对于上面所列主题的具体详解,可以参照该论文;它还包含了一系列补充细节,并为Wild数据集中的UMAS Labeled Faces 提供示例“数据手册”。这是一个完整全面、易于使用,并将具有影响力的模型。

这样的“数据手册”允许用户了解他们使用的数据的优点和局限性,并防止出现诸如偏差和过度拟合之类的问题。同时,“数据手册”还能全方位的促使数据集的创作者和用户对数据源进行不同角度的思考,并理解数据其实并非‘事实上’的存在,而是需要谨慎对待和维护的具有生命力的资源。

虽然我不是个电气工程师,但是我非常欣赏这个有趣的想法。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2018-06-01 09:18:53
大数据技术 什么是预测分析技术?将数据转化为对未来的见解
根据Zion Market Research 市场研究机构2017年发布的报告,预测分析技术已获得众多组织的支持,预计到2022年全球市场将达到约109.5亿美元,2016年至2022年期间的复合年增长 <详情>
2018-05-31 13:03:08
大数据资讯 克服大数据技能差距:劳动力市场状况
自大数据繁荣初期以来,全球范围内许多新近创建的大数据工作岗位出现严重的供应短缺情况。与任何新的研究领域一样,根本没有足够的教育项目专门用于培养足够数量的技能型求 <详情>
2018-05-31 10:13:44
云资讯 欧盟GDPR新规已生效五天,就问谷歌、Facebook们怕了没
为了GDPR这个可能牵一发而动全身的超级法案,欧盟提供了两年的缓冲期——从2016年开始到现在。但仍有一部分公司没有及时做好准备。他们仓促地应对,引发了背后藏有猫腻的猜 <详情>
2018-05-31 09:48:58
大数据应用 如何应对“大数据杀熟”?
调查发现,在机票、酒店、电影、电商、出行等多个价格有波动的平台,都存在类似情况。类似现象受到各大媒体关注,并被统称为“大数据杀熟”。在舆论热浪下,我们应该如何看 <详情>
2018-05-31 09:29:00
大数据技术 可视化的三大误区,哪些可视化工具受欢迎?
数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相 <详情>