看到网上有人用这个形象的例子来形容大数据时代无所不在的歧视和偏见:如果LV专卖店门口挂一个牌子,写着“穷人与狗不得入内”,这是不是会被无数人唾骂,甚至告上法院。但是互联网信息时代,人工智能加上五花八门的大数据算法,却可以堂而皇之地把人分成三六九等,然后把不招待见的客人剔除在门外。

大数据歧视

比如微信上的定向广告,收到宝马广告的客户在大数据和算法的逻辑里就应该比收到小米广告的用户要高端,这不就是大数据时代的“穷人与狗不得入内”么。

当然,你可以说这是个性化精准推送,不会骚扰到对宝马不感兴趣(应该是买不起宝马)的那些用户,还会觉得这种大数据算法还是不错的商业模式。那么当你知道全球大的职业社交网站LinkedIn,它的算法里会默认把职位更高、薪水更高的工作推荐给男性用户,而把职位更低、薪水更少的工作推荐给女性用户的时候,你会怎么想?

LinkedIn全球拥有5亿注册用户,无数公司的HR视LinkedIn为发布招聘信息的最重要渠道之一。如此多的招聘信息通过LinkedIn带有“偏见”的算法处理之后,“歧视性”地把更好的工作推送给带有男性、白人等关键词信息的用户,而将较差的职位推送给女性、有色人群等,而且是在完全不公开、不透明的过程中进行。长此以往,对于整个商业社会带来的负面影响,将无法估算。

之所以存在这些歧视和偏见,其中一个原因是这些程序的设计者、机器学习专家们都是男性,甚至是白人居多。所以在全球第一届人工智能当评委的选美大赛里,皮肤黑的美女都落榜了,上榜的都是肤白腿长、社会上普遍认为的美女。足以见得,这个人工智能的算法背后,肯定是一群“直男”工程师的审美标准。

无独有偶,全球算法最牛的公司Google也存在着类似的歧视。Google在推出人脸识别的时候,能够很容易辨别白人,但是黑人等有色人种的识别率就非常差,黑人有时甚至会被机器自动识别成为黑猩猩。问题出现之后,Google虽然第一时间出来道歉,表示这是无意为之,以及承诺未来会更加注意对数据的选取和算法的设计。但是大数据算法里反映着人类普遍存在的“鄙视链”,这一点却毋庸置疑。

当然,还有更多的算法,其背后逻辑不公开、不透明,我们作为局外人也没有办法了解,设计者存在的偏见和歧视、各种商业利益都会被反应到算法之中。被大数据算法贴上了什么标签,就相当于是被划上了不同的阶层,很可能会决定这个人一生。而这也会引发一系列全新的道德问题。

穷人只配买廉价的商品,好东西都留给上等人

大数据时代,各家公司都在拼尽全力搜罗数据、尽可能地详尽了解自己的用户,并且通过自己设计的算法将其分类,并且标签化。一旦贴上标签,就直接将这个客户圈定在了一个固定的阶层。比如,招聘网站的算法推测你目前的年薪是30万元,而你交际的圈子也差不多是这个水准,那么它会在很大概率上给你推荐年薪在50万元以内的工作,尽管你可能更加胜任那个70万年薪的工作。你在根本不知道年薪70万的工作的时候,你怎么可能获得它呢?

甚至连移动电话公司都会“看人下菜碟”:他们对你标签化之后,会根据你所在的档次向你推荐这个档次的电话号码。也就是说你如果是“穷人”这档,都没有机会获得数字好一点的电话号码。而电话号码,又会在很多时候决定你在其他地方的阶层,比如一位在银行的贷款经理朋友就告诉我,139、138等好的手机号码在他们系统里的授信分值就是比其他的手机号码要高,可能获得贷款的金额、信用卡的额度都要更高。

电子商务平台的“鄙视链”就更加赤裸裸:你的每一次点击、每一张页面的浏览、每一次下单都会被记录在电商网站的大数据之中,这些都是为你打分、贴标签和划分等级的重要维度。如果你是一个精打细算的用户,“价格敏感型”就是你的标签,那么网站给你推送商品的时候,自然是优先选择价格低的,那么为了用足够低的价格吸引你,算法可以忽略掉质量。所以,在给你的产品推荐的前几页,大多都是廉价而质量也不太好的产品;那么对价格不那么敏感的用户,自然可以获得高质量产品的推荐。其实有时候,两者的价格真的不会差距很大,但是出现在价格敏感型客户推荐页上的产品真的跟价格不敏感型客户推荐页上的不一样,长期下来,两者获得的服务和生活质量还是会有差别的。

这些大数据公司究竟是怎么样来把客户划分等级呢?这自然是各家公司最顶级的商业秘密,当然也是法律和道德没有办法约束的。就举个非常简单的例子,你以为商家给你发优惠券仅仅是为了鼓励你来购物、多购物吗?优惠券就是一个划分等级的好方式之一。滴滴公司的朋友就曾经透露,他们通过优惠券的使用就可以很清楚地掌握这个客户所在的社会等级、家庭财富等等。

滴滴公司在几年前发展最迅猛、优惠打折最多的时候,每天会发出大量的优惠券,数据工程师通过分析这些优惠券的使用情况,就可以把客户划分为高中低三个档次。高档次,就是平时经常用滴滴叫车,就算是发了优惠券也不用,这就是有钱任性的高收入阶层;中档次,就是平时也用滴滴叫车,但是有了优惠券叫车频率会大大提高;低档次,就是平时压根不用滴滴,但是只要有优惠券就用的“屌丝客户”。当然,还有一类最被“鄙视”的:平时不用滴滴,给了优惠券到过期了也不用的。通过这个简单粗暴的办法,滴滴轻而易举地筛选出了对自己最为有利的客户,并且排除了那些毫无价值的客户。

今天,每个行业每家公司都在做这件事情,建立最适合自己公司的“鄙视链”。就比如LinkedIn,它向男性用户推荐的工作平均薪水概率上就是高于女性用户。这也不能全怪数据工程师,因为我们社会上原本就存在着这样那样的偏见和歧视,它肯定会反应在数据和算法中。数据工程师们也不是社会学专家,他们也不会考虑因为偏见和歧视所带来的的道德伦理问题。

“请你来警察局一趟,因为大数据说你有潜在犯罪的可能”

因为LinkedIn存在性别歧视,使很多人在职场得不到公正的待遇,这件事情让人觉得不公平,那么大数据带来的法律、道德和伦理问题,就更让人觉得难以接受,必须要全社会立刻重视起来。

“请你来警察局一趟,因为大数据说你有潜在犯罪的可能”,这可不是美国大片里的台词。如果你生活在芝加哥,你有可能会因为大数据的算法而被请到警察局去喝茶,还有可能会成为被重点“关注”的对象。

2017年的早些时候,美国芝加哥市的市长宣布了一个新办法来提高城市打击犯罪的能力和精准度。按照我们正常的思路,那就是扩大警察队伍、加强警察到社群巡逻等等。但是芝加哥的办法却不同,可也代表未来的趋势——他们引入了一个软件程序,用来预测居民潜在的犯罪可能性。

芝加哥警察准备用这个数据分析软件来确认城市里的哪些人有较高的犯罪可能性,以便对这些人加强监控,甚至会时不时地拜访这些人,以便更好提示他们不要犯罪,试图通过这个办法把犯罪扼杀在摇篮里。

但是显而易见,这套大数据算法不可能消除人类社会已经有的各种偏见和歧视。比如根据这套算法系统,黑人等有色人种的潜在犯罪率远远高于白人男性,甚至一个没有犯罪记录的黑人小女孩的潜在犯罪率都比一个有犯罪前科的白人男性要高;低收入者就比高收入者的潜在犯罪率要高。

小地方

如果按这个划分,在小县城生活的人,潜在犯罪率就比在一线城市生活的人要高,要被警察重点关注,这显然是不合理的。凭什么河北人民的潜在犯罪率就比北京人民高呢?

脑洞再大一点,“潜在犯罪率”高的人,是不是从此就很难进入政府部门工作、也很难获得职场的升迁?某些人的一生是不是就会因此被改变?

如何破解“数据歧视”?

提升算法的透明度是最重要的解决方法。

不论是政府部门还是商业机构,任何一点带有歧视和偏见的算法就会对不同的人群造成很大的影响,甚至会误伤很多人。解决的办法只有一个:提升算法的透明度,这样才能尽可能地保证数据采集的中立和算法的客观。

理想的状况是,任何使用大数据、算法的机构,包括政府和商业部门,每年都要像披露财务状况一样,披露数据采集的标准、核心算法的运算原理等等,以供相关部门和第三方机构核验,看是否对特定人群造成了伤害和影响。

当然,如果有机构认为自己的算法涉及到核心竞争利益而必须保密,那么它必须为外部专家和相关机构进行各种测试提供积极条件,以确保它的算法结果是中性的

尤其是对政府机构和大型的商业机构而言,必须要积极引入外部数据专家、法律专家,甚至是道德伦理学家参与到大数据的算法研发和讨论中来,尽可能在最初始阶段就让算法和数据更加中性。随着社会的变化,很多的算法标准也需要进行相应的调整和改进。同时,也需要更多地向员工进行培训,让他们更清晰地了解数据的逻辑,参与到大数据算法中来。

人人都在谈大数据的商业模式,对社会发展的推动和对经济结构的改造,但是同样也要深刻关注到这一系列改造背后对社会价值、伦理道德的深刻影响。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>