现在,随着GDPR的生效,企业在保护数据时必须格外小心。传统匿名通常不是真正的匿名,最终个人身份是可以识别的。对数据添加额外级别匿名化的一种方法是引入合成数据。

自欧盟范围内的数据监管规定GDPR于2018年5月生效以来,许多在欧盟有业务的企业可能会对其侵权处罚感到担忧,这可导致高达全球年营业额4%的罚款。

上个月,英国航空公司(British Airways)和万豪国际(Marriott International)分别被处以令人咋舌的罚款(分别为1.83亿英镑和1亿英镑),想必各大企业应该都知道数据泄露意味着什么。对于银行和金融机构等处理大量个人数据的大型企业来说,这尤其令人生畏。

我们都知道“数据是新的石油”这个说法,现代企业需要利用客户数据来更好地了解客户,同时训练人工智能和机器学习算法。但现在,为了避免数据泄露,许多企业都将自己的数据严格控制,并对谁能在何时获取这些数据制定了严格的程序。尽管这是数据隐私的一个积极趋势,但它仍然限制了组织的数据灵活性和创新能力。

传统匿名化的问题

聪明一点的企业现在正在寻找新的隐私增强技术,以便在数据效用和安全性之间取得平衡,有很多企业现在在“匿名”数据集上运行数据密集型流程(例如测试和数据分析)。

匿名化技术多种多样,但最常用的方法之一是一般化,即将数据点的特殊性(如客户的完整家庭地址)更改为更广泛的数据点(如客户的地区或城市)。通过牺牲数据集中一定程度的实用功能,确保数据集中的个人是匿名的、不可识别的。

匿名化变得如此流行的原因之一是,GDPR并不适用于匿名化的个人数据。但更令人担忧的是,最近的研究表明,目前使用的大量匿名化在掩盖一个人的身份方面效果很差。在绝大多数情况下,机器学习模型可以重新识别个人。

所以,实际上你并不需要个人的详细信息来识别他们。因此,传统的匿名化技术根本达不到要求。

复杂的合成数据

在综合数据集中,每个数据点都属于完全理论化的个体,有自己的名字、年龄、地址、银行账号、税务记录、医疗记录,以及数据分析所需的任何其他细节。从历史上看,这些数据的主要问题是很难生成足够高质量的合成数据,以满足高级数据科学的需要。

然而这些情况都会随着人工智能和机器学习的发展而改变。通过在“真实”数据上训练算法,我们现在可以生成保留原始数据所有底层统计信息的合成数据集,但个人或可识别信息为零。

一个简单的方法是通过Nvidia生成对抗网络(GANs)的方法,这是This Person Does Not Exist网站背后所用的技术。该网站利用真实的名人面孔数据集来生成不存在的人的超现实图像。本质上,这是合成数据,每个人都有许多可以分析的属性(例如眼睛的颜色、头发的颜色、肤色),但是这些数据不能被破坏,因为它们不属于真实的人。

如果将这项技术应用于客户数据,您就可拥有可以在整个数据科学团队中共享的数据,并用于各种建模,不需要过多的管理,也没有隐私风险。同时,您的“真实”客户数据可以存储在一个安全的服务器上,很少有人需要访问它。

写在最后

随着越来越多的企业希望采用综合数据策略,毫无疑问,所有行业都将产生连锁反应。 配备有必要的工具才能释放其数据潜力,组织将可以利用他们的客户数据,同时避免风险和承担责任。

有了数据科学和先进的机器学习以及各种各样的新技术,数据经济即将被重塑,数据创新的新时代即将到来。

社交媒体的出现给人工智能领域带来了巨大的飞跃,但很少有人关注数据的安全。现在,有了合成数据,我们可以沿着数据科学的道路继续前进。但这一次,在坚持规则的同时,也需要更谨慎地谨慎对待数据。

【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-03-31 09:28:00
大数据资讯 2023数据科学峰会 百分点科技正式发布数据科学基础平台
3月30日,由百分点科技主办的“2023数据科学峰会”在北京金隅智造工场·科技秀场成功召开。 <详情>
2020-09-23 09:21:00
互联网 迎接数据科学ML+和DL+时代的来临
“Gartner提出,到2024年底,75%的企业机构将从人工智能试点转为AI运营,基于流数据的分析基础架构的数量将因此增加5倍。 <详情>
2020-02-21 13:22:00
大数据资讯 意料之外 情理之中:解读Gartner 2020年数据科学和机器学习平台魔力象限
最近Gartner发布了数据科学和机器学习(DSML)平台魔力象限报告。数据科学、机器学习和人工智能的市场格局极为分散,竞争激烈且难以理解。Gartner尝试根据明确定义的标准对 <详情>
2020-01-13 17:45:00
大数据技术 数据科学初学者面临的5个常见误区
数据如今已经体现出巨大的价值——企业通过数据分析来为包括市场支出、员工决策到产品开发等所有事情提供参考性建议,而这也意味着,数据科学家在工作中的价值正变得越来越 <详情>
2019-12-30 17:50:00
大数据资讯 2020 年数据科学就业市场必备的五项技能
为了保持竞争力,一定要为新工具带来的新工作方式做好准备!以下就是2020 年数据科学就业市场必备的五项技能。 <详情>