大数据202

最近,整个大数据产业迎来多事之秋。从今年9月开始,多家数据企业先后被曝出负责人被查或公司暂停营业的消息,很多公司因此面临严重的生存危机。

近一个多月以来,杭州、深圳等多地公安出动警力,带走多家大数据风控平台高管协助调查。一时间,整个数据行业风声鹤唳,从业者人人自危。

那么,形成这一问题的原因是什么?有关部门又该如何对数据行业进行有效治理?

制度建设滞后致问题频出

随着大数据技术的发展和成熟,数据逐渐成为一种十分重要的生产要素,通过对数据进行分析,相关从业者可以挖掘出巨大的商业价值。

在这种背景下,大量企业开始将资源投入到对数据的搜集、整理,以及处理工作上,大数据产业开始蓬勃发展。然而,在大数据产业高速发展的同时,相关的制度建设却稍显滞后。相关法律和制度的空缺,使与数据有关的问题层出不穷。

在这些问题中,比较引人重视的有三个:一是侵犯隐私。这主要发生在数据搜集环节。为了从用户身上获取到有价值的信息,少数企业置用户的隐私权于不顾,肆意侵犯。二是数据保护问题。这主要发生在数据的传递和储存环节。由于安全保护工作的不到位,一些被搜集到的数据可能流出,从而对数据的相关利益方造成较大伤害。三是数据垄断。这主要是指一些企业通过掌握更多、更好的数据,从而获得了更大的市场份额,并借此限制市场竞争。

目前,已有很多学者对关于数据产生的各种问题进行了分析和解读,但从整体上看,这些学者提出的方案,更多集中在法律和制度的层面上。但从根本上来讲,上述数据问题其实属于技术问题,要想解决它们,须先从技术上找到问题根源所在,再用技术的手段去解决。

中心化处理模式引发连锁反应

尽管隐私侵犯、数据保护、数据垄断这三个问题,无论是在内涵上还是在表现上都截然不同,但从根本上来看,他们都是由数据的中心化处理模式所导致的。

在当前通用的数据处理技术之下,人们对数据进行分析,就要从数据中挖掘出有用的信息,就需先把分散的数据搜集到一起,再对这部分统计数据进行处理。如果数据是分散的,人们对此便无能为力。

这种中心化的处理模式导致了很多后果:

首先,这促使数据的分析者需要千方百计去搜集数据。在此过程中,就可能违反相关的规定,或侵犯人们的隐私。

其次,在汇集数据时,需将数据在不同的主体间进行传递,而此过程是很难被追踪的,这就决定了如果数据在传递过程中发生问题,原来拥有数据的主体将很难对其进行控制。以去年被曝出的剑桥分析事件为例,尽管在此事中脸书公司(Facebook)一直处在舆论的风口浪尖,但真正造成数据泄露和滥用的却是剑桥分析公司。

再次,现在备受诟病的所谓数据垄断问题,在一定程度上其实是掌握数据的企业为了防止数据泄露而做的防范。其实,很多掌握数据的企业都可以通过开放数据来为自己获取收益,但考虑到由此产生的问题,他们在采取这样的举措时都很犹豫。尤其是在剑桥分析事件发生之后,很多数据企业对数据安全的疑虑陡然增加,一改以往开放数据的态度,转而变得十分封闭。

基于以上原因,为了解决数据带来的众多问题,制度和法律建设固然重要,但要从根本上解决,可能还要依靠数据的力量,让目前中心化处理数据的模式发生改变。

新技术有望“治愈”数据顽疾

尽管要全面解决因数据产生的问题并不容易,但一些技术的发展已让我们看到了希望。在众多的技术当中,有三种技术可能是较值得重视的:

第一种是区块链技术。区块链技术有一个重要的特征,就是可追踪溯源,这一技术可全面记录数据传递过程中的所有信息。这样,一旦数据在传递过程中发生问题,就可清楚地知道问题发生在哪个环节、应由谁来承担相关责任。

第二种是安全多方计算技术。这一技术由清华大学教授姚期智提出,后来姚期智还凭此获得了图灵奖。安全多方计算技术的要点,在于保证“零知识证明”的提供。

何为“零知识证明”呢?举例来说,若有两个富翁想知道二者谁更有钱,但又不愿泄露自己的财富信息。那么,他们可将自己的财富信息以某种加密的方式告诉第三方,让第三方进行比较。实现这个过程的技术有很多,安全多方计算技术就是其中很有代表性的一种。有了这个技术,不同主体在数据交换的过程中,就可防止无关信息的泄露,因此数据传递的安全性就得到了保障。

第三种技术是谷歌正在推行的“联合计算”。和传统的中心化处理方式不同,“联合计算”不再采用搜集数据、集中处理的数据分析模式,而将模型分发到用户手中,直接在用户端训练模型。这样,数据分析者就可以在不从用户处搜集数据的情况下,完成模型的训练和数据的分析。这样不仅能保证数据的安全,也可从源头上杜绝数据垄断问题的发生。

数据问题是随技术的发展产生的,而技术本身或许也早已为这些问题的解决埋下了伏笔。笔者相信,只要我们善于利用新的技术,数据产生的各种问题迟早会得到解决。

相关阅读:

如何用通俗地解释大数据  

数据科学:合成数据如何解决匿名化问题?  

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 11:39:36
云资讯 构造云原生数据战略三大核心因素 亚马逊云科技2022 re:Invent全球大会发布多项新功能
亚马逊云科技指出了构建云原生数据战略的三大关键构成:建立面向未来的云原生数据基础设施;实现高效、跨组织的数据一体化融合;借助教育和工具,使数据普惠化。 <详情>