中国IDC圈12月5日报道:大家在浏览网页中,越来越发现一个令人“惊讶”的现象,有些网站似乎特别了解自己,在一些显现的地方会不断向自己推送一些看似自己非常有兴趣的内容。原来,互联网留下了每一个人的行为轨迹,搜索过什么内容,看过什么新闻和视频,玩过什么游戏,买过什么东西,发过什么言,这些真实的属性数据都被一一记录下来,数据分析者认为这甚至比起注册时填写的社会属性等信息更真实。也就是说,时下不少互联网公司正通过大数据分析,捕捉每一个人的网上行为,并据此来全面地描述目标受众的属性特征,对消费者进行360度画像,进而进行有的放矢的精准营销和推介个性化广告。
一、信用卡、手机、浏览、交通
过去的精准营销,无非是先进行市场细分,针对目标客户进行特征和倾向分析,然后再考虑实现与客户、消费者一对一的沟通。但是,一个企业不可能将所有的产品购买者或者潜在购买者都列入自己的会员系统,因为消费者们已经厌烦了那些入会广告。那么一个人互联网上留下的行为轨迹就是一个重要的突破点。资深互联网数据专家指出:“大数据就是对每一个个体的精确描述,就是从百万中间找到一个具体的人。”过去营销的对象是一群人,一群被标上各类标签的人,年龄、职业、爱好等,现在互联网大数据能使企业从一群人当中更细分地去对待每一个消费者、用户。这些企业越来越相信,大数据能够让他们发现新的蓝海。
的确,一个人自出生之日,他的数据跟踪就开始了。他的名字,身高和体重都被记录下来,还可能有一些照片。几年后,进入托儿所,首次生日晚会的邀请,在人口普查中被记录。再长大一些,有了形影不离的身份证、银行账户、信用卡和智能手机。他在网上的行为透露出他不断变化的兴趣、忧虑和欲望。有时他还会特意向朋友、陌生人、公司和政府分享一些自己的数据。
从好的方面来讲,人类行为的大规模数据集有可能从根本上改变我们对抗疾病、设计城市或进行研究的方式。无处不在的技术产生了规模巨大的个人元数据。我们的智能手机、浏览器、汽车或信用卡产生了我们在什么地方、我们叫什么名字,我们花了多少钱等信息。一些新的领域如计算社会科学(computational social science)依靠元数据来解决一些重要问题,如抗击疟疾,研究信息传播或监视贫困等。对科学家来说,目前这种大规模行为数据集的使用与显微镜的发明相提并论。约翰霍普金斯大学2011年获得了美国国家科学基金会(NSF)120万美元的资助,建立秒传亿兆(100 gigabit)的网络,网络每天可传输的数据量相当于8千万文件柜的文本数据。该项目的负责人Alex Szalay博士说,“在每个科学领域我们都在生成千兆级数据,如果我们没有与21世纪这个时代相当的数据显微镜、更快的网络和相应的计算能力,我们就被困住了。”在他看来,采用大规模处理能力来过滤千兆级数据的新方法是一种全新的计算,将引发天文学和物理学的新进步,就像17世纪显微镜的出现所导致的生物学和化学上的进步。因此,霍普金斯大学这个秒传亿兆的网络不仅是一个高速网络,而且是研究和发现必不可少的工具,是21世纪显微镜的必需部件。
但是,人们每天流露出的大量数据提供了一些奇妙的新机遇,也带来了一些新难题。应该注意到,这些有关某个人的大量信息收集只是得到别人表面上的同意,或者根本就没有得到任何首肯。不久以后,一个人的整个基因组序列也可能伴随其医疗记录在全球各地研究人员中共享,安置在生活圈子附近的摄像头也记录下一个人的许多行为,甚至当他进入一家商店或机场时就已经通过人脸识别出来。上周(2015-01-30)的Science,发表了以“隐私的终结(The end of privacy )”为题的特刊的17篇文章。今天这篇博文,先向大家介绍其中一篇Montjoye等的报告:在购物中心留下的唯一性:有关信用卡元数据的识别。
根据110万人3个月的信用卡记录的研究发现,只需要四个时空节点的数据就足于将90%的人独一无二地识别出来。如果再增加一个数据,比如某一特定交易的价格,被识别的风险平均增加22%.即使数据集提供的信息比较粗糙,那么在某些方面或者在所有维度下其实也提供了难于隐藏身份的信息。例如,为了保护隐私,可能只提供在某特定地理区域内购物,而不是说在某特定商店内购物,或者在15天内购物而不是说在哪一天内购物。如果类似的数据再增加几个,就可能具体确定到某个人了。这个研究还发现,女性及在较高收入范围内的人更容易通过这种方法被识别,这可能是因为他们在其所去商店之间的时间分配有着独特的模式。
新的计算技术可以结合一些数据片段来识别人或跟踪他们的行为。信用卡记录与手机数据具有唯一性,这并不会让人感到奇怪。但其他大规模元数据集,如网站浏览历史、财务记录、交通出行等,其实也是具有很高唯一性的。将这些数据收集起来,进行一些技术处理,就可体现出一个人的行为特质。浏览网页或交通出行看似零散的,是一个高维不确定的数据,因为一个人可能会浏览各种网站,或者在出行中有各种地铁出入口的组合。但是,针对一个具体的人来说,他的浏览习惯和出行组合是相对稳定的。
该研究还提出了个人可识别信息(PII)的概念,这是美国和欧盟隐私法的基础,但现在对管理元数据集来说有些力不从心了。一方面,在美国隐私法中,只要略去姓名、家庭地址、电话号码或其他PII中列出的信息就可以不违反隐私法,而如今在这种具有高度唯一性元数据集存在的背景下,并不足以保护个人的隐私。另一方面,在欧盟提出的数据监管中,要让隐私法扩展到保护“任何可能涉及到确定或识别某人的信息”,德国电信要达到“不可能识别一个特定人的状况”,但这些看来都是难于证实的。
从技术的角度来看,该研究结果强调了改变的需要。在可能的情况下,开发出更先进和更互动的个人与群体交互的谨慎隐私技术,以及计算隐私权方面的研究。从政策的角度来看,该研究强调了需要改革数据保护机制,让其超越PII和匿名性,对被识别可能性进行更定量的评估。找到隐私与利用之间的良好平衡,这对保护元数据绝对有至关重要的作用。
总的来看,尽管有许多方法可用来保护隐藏在大数据文件中的私人信息,但这可能限制了科学家所能进行的研究,因此必须达成一种平衡。一些医学研究人员坦承,保护患者的数据隐私几乎是不可能的事儿了。相反,他们正在测试一些新的方法来获得患者的信任与合作。同时,我们如何思考和看待隐私问题也应该发生一些变化。年轻人的网络行为已经比年纪大的人暴露了更多有关他们生活的信息。我们想保护什么也是发生变化的,这主要取决于具体的内容、时机或我们将如何推进。正如我们所知,隐私正在终结,我们现在才刚刚开始理解其后果。
二、你的脸和声音出卖了你
说到利用人体的生物特征进行身份识别的问题,大家肯定首先会想到指纹识别。每个人的指纹是不同的,即使同一个人的十指之间,指纹也有明显区别,因此指纹用于身份鉴定是非常可靠的。虽然指纹特征并非肉眼可轻易分辨的,但作为身份识别的工具至少也用了上千年了。影像记录和声音记录是现代技术的产物,如果说这些记录也可以作为生物特征进行身份识别,你可能有些小小的惊讶。
不久之前,我们还认为匿名是安全的。如果一个人的照片出现在抗议游行的队伍中,可能只有他的朋友能将他认出来,电脑是无能为力的,除非这台电脑一直在负责搜寻某个人,并针对这个人训练了人脸照片,而且还必须保证用于识别的照片质量足够高。在游行队伍中,某人大声发表了时间并不算太长的演讲,事后如果只有录音,也不大可能找出这个人是谁。
但目前,这些技术的发展突飞猛进,人脸识别的准确性越来越高,据Facebook的DeepFace研究团队在机器视觉社区进行的测试发现,人类识别的正确率约为98%,而DeepFace团队的机器为97.35%,高于其他领域 27%的准确性。这个测试的基准是辨认来自LFW中的两张照片是否为同一个名人。“我的声音就是我的密码。”也许很快大家在给银行或信用卡公司打电话的时候就会这么说。指纹或虹膜扫描,每个人的声音都是独一无二的。安全公司也已经将语音识别作为一个方便的新层进行身份验证。
DeepFace的人脸识别效果如此之高,好在他们的目的不是为了侵犯别人的隐私,而是为了保护隐私。一旦DeepFace从每天上载的4亿张新照片识别出某人,就会警告用户是否要将这张照片进行模糊化处理,以保障用户的隐私。
简单的面部侦测对电脑来说很容易,至少可以与识别常见的花朵、座椅板凳和灯具等物件相媲美。几乎所有的人脸都有类似的特征:耳朵、鼻子和嘴而且都处在相对固定的位置。这种一致性为电脑的有效识别提供了一个捷径,因此20年前就已经做到了,一些廉价的相机中都可以采用这种技术来侦测和聚焦面部。但是,识别人脸则比简单的面部侦测要困难得多,特别是要将人脸作为惟一性标识,那就更是困难重重。与人的指纹不同,人脸总是在不断变化的。只是微笑一下,人脸就发生了改变。眼角纹、鼻子的反光点、露出的牙齿,统统都在改变。仰天大笑,脸上显现的形状很快发生变化。即使有同样的表情,人的头发也在不断发生变化,刚理发后的变化更是非常大。然而,人眼却能毫不费力地从一堆照片中认出他认识的人,即使这个人他们只见过一面。根据我们所感知的周围世界,人脸识别可能是人类大脑最擅长之处,而电脑则要与研究者们所称的A-PIE(衰老、姿势、照明、表情)进行顽强的斗争,来自这些因素的噪声淹没了人与人之间细微差别。
在深度学习方法的帮助下,电脑取得了进展。正如所有的机器学习工艺,深度学习也是从训练数据开始的,通过大规模含标签数据集的学习,理想情况下包括每个人的多张照片。在该领域,素颜检测数据库(Labeled Faces in the Wild,LFW)可用于研究非限定脸部识别问题,包含13000多幅从网络上搜集的脸部图像,其中有5749位名人的面孔。这个数据库是在线免费使用的,因此成为人脸识别算法领域广泛的测试基准。对电脑来说,人脸也就是明暗不同的像素集合。深度学习系统的训练首先让系统自行对比脸部特征并发现其自身的特征,比如眼睛和鼻子,还包括一些无法直观感受的统计学特性,也就是让机器和数据说话。系统首先要将面部像素的集群识别为元素,即定义轮廓的边界。后续处理层将元素组合成非直观的统计特性,就是那些看起来很普通,但足于区分不同的面孔的特征。这就是深度学习的“深度”:每个处理层的输入是下面层的输出。训练的最终结果是一个人脸的具象模型:比较面孔的图像并猜测他们是否属于同一个人的统计机器。系统训练的面孔越多,这种猜测越准确。
所谓声纹(Voiceprint),是指用电声学仪器显示的携带言语信息的声波频谱,一般通过采集一段演讲录音并分析声音集中区域的频率而完成的。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面差异很大,所以每个人的声纹图谱都有独特的,既有相对稳定性,也有一些变异。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。
与指纹不同,声纹需要结合一些行为元素来鉴别。说话的节奏、方言和口音这些特征是很容易区分的。一般的语音识别系统,主要是为了理解说话的内容,因此会尽量减少一些差异,比如降低过高的音量,忽略停顿和口音等。但如果是为了鉴定某个人,这些差异却是非常重要的。一些声纹系统应用设备中,通常要求用户重复一个标准的短语,而盗贼们恰好可利用这点,事先录下一些短语而糊弄过关。为了挡住这个漏洞,系统就被设计成一种可检测录音或合成语音。在这方面,一个更简单、安全、有效的方法是让客户重复读出一个随机选择的文本,盗贼很难准备出所有可能的录音。还有些系统根本就不需要用户说什么短语,而是分析一个人的声音,提取相关特征,与存储的声纹进行比较。
要精确说出自动人脸识别将如何使用,以及有什么样的法律限制,现在还说不清楚。根据目前的资料,美国FBI的识别准确率低于Facebook,导致这种差距的主要原因是其数据库,FBI所采集的脸部信息图片质量参差不齐。脸部识别系统采集的最佳照片是正面照,以脸部为中心点 15 度角拍摄。如果不是被拍摄者自愿拍照,一般很难获得这样的照片。FBI的道路拍摄难以获得最有效的脸部信息,镜头处于路人之上,角度和画质都难以达到识别要求。而Facebook 中的图片大多是拍摄者主动提供的。除此之外,DeepFace的优势来自更聪明的编程能力。他们通过建立人脸的三维形状结构克服了识别中A-PIE的部分问题。如果是一张侧面照,程序根据它所看到的人脸重建一幅正面容貌。这个“对齐”步骤使DeepFace更加高效,这样就可以将更多的精力集中在在细微差别上。这个过程占用单核电脑几分之一秒的时间,这足于让DeepFace用于智能手机了。经过学习之后,每张人脸都可以用一个256位的哈希(hash)字符串代码来表示,这种压缩能力太强大了!10亿人的面部数据库就可以储存在一个拇指大小的驱动器上。但是,DeepFace大的优势其实是它的训练数据。DeepFace在发表的文章中却轻描淡写地称之为社会面部分类库(SFC),这是一个有440万有标注的人脸数据库。尽管用户在注册时允许Facebook使用他们的个人资料,DeepFace并没有说明是否征得照片主人的同意。
同样,声纹提供了便利和安全,也可能带来隐私问题,因为它可以让企业和政府有可能来识别一些并不认识的人,这对匿名言论保护来说是一个挑战,而这恰好是美国宪法第一修正案中的内容。商业公司为了最求大利润,有追踪消费者移动轨迹和习惯的需求。如果顾客拿起电话或接近收银员时就被识别出来,这将打开一个市场机遇,让消费倍感便利。与许多新的认证技术相比,便利性和隐私之间就是一对矛盾。有人担心,声纹可以不经他们同意来鉴定说话者,是否侵犯他们的隐私和言论自由。这些技术一旦成熟,它必将产生许多隐私问题,这是非常容易理解的。如何获得声纹以及何时获得声纹是合法这个问题是非常模糊的。许多国家已立法来规范窃听,但声音识别则增加了一个重要的新维度,大多数立法都还未来得及考虑。
私人数据的买卖已经是一个繁华的市场了,有合法的,也有非法的,人脸识别将成为另一个热门商品。例如,人脸身份证可让广告商通过摄像头捕捉到某个人后来迎合他们的偏好,甚至根据他们所知道的这个人的购物习惯和人口统计学数据而提供不同的价格。但麻烦的是,陌生人也可能从繁华的街道人群中找到你,现实生活中已经无法逃避人脸识别了。美国的FacialNetwork公司利用自己的深度学习系统开发了一个应用程序称为NameTag(名牌),可用于智能手机或类似谷歌眼镜这样的可穿戴设备中。NameTag不仅能显示一个人的名字,还可以显示从社交媒体、交友网站和犯罪数据库中挖掘的内容。这样的内容显然令人反感的,Facebook叫停了FacialNetwork,并阻止它收集用户信息。Learned-Miller认为更好的人脸识别其可能的商业应用是个麻烦,但他更担心政府可能滥用这项技术。他说,“我是100% 支持斯诺登的,我们必须提高警惕”。
如果FBI取得Facebook数据库中的照片,那么辨识率可就不可同日而语了,FBI离取得 Facebook的图片数据库到底有多远呢?Facebook正在面临用户隐私的官司,一旦在这场官司中败诉,政府部门只需要一纸法院执行令就可以获取更多有价值的用户数据了。看来众人的网络隐私权又面临重大挑战了。一篇表示这种担心的文章写道:“很显然,警察和其他执法部门将使用这种技术搜索我们的照片,而我们却一无所知”。Facebook也承认如果法官有这样的请求,他们将提供让其访问这些数据的权利。人们知道了这样的情形非常害怕,但马萨诸塞大学安姆斯特分校的计算机科学家Learned-Miller教授认为这些担心是多余的,他说,“如果像Facebook这样的公司真的踩越社会可接受规则的界限……他们可能会倒闭。如果他们违反了法律,那么公司就可能关张,也有人会因此而被逮捕。”怀疑源于缺乏透明度。而学术研究者在使用这些私人数据进行研究时必须征得别人明确的同意,也就是在注册网站时他们在最终用户许可协议(EULA)上点“同意”授予该公司使用他们数据及一些附加条件。这种在线合同其实并不是透明的,没有多少人真正去认真看了这个合同。
三、令人纠结的人类社会黑匣子
曾经在IT历史上显赫一时的美国Sun Microsystems公司似乎总有着超人的先知先觉能力,在公司成立之初的1982年,就接受了约翰。盖奇(John Gage)的建议,将公司的口号定为“网络就是计算机”。虽然这句话在目前看来是多么理所当然的事儿,但在互联网还没有走入大众生活,甚至连“信息高速公路”概念都还没有提出的时候说出这句话,其实是很匪夷所思的。而现在,该理念被认为与云计算思想不谋而合,但这已经是20年之后的事儿了。无独有偶,1999年,面度正如火如荼发展的互联网技术,时任该公司CEO的斯科特。麦克尼利(Scott McNealy)在一次发布会上对台下众多媒体记者和分析师说道:“你的隐私只剩零了,想开点吧。”,他认为互联网的分享将彻底“杀死”隐私。自此,关于互联网时代隐私的争议不绝于耳,而2013年爱德华。斯诺登披露的棱镜门事件更是将公众对隐私问题的关注推到了一个新的高度。有不少人呼吁人们要学会适应这个越来越透明的社会,甚至有人提供一些技巧来拒绝某些互联网服务。其实,这样的认识存在着一个严重的问题,就是将用户个人信息的收集过程等同于对隐私的侵犯。
我也曾对此类话题充满了兴趣。我认为社会已经发展到这一步——人类目前并不是拥有选择信息的自由,相反,通过放弃使用数字科技来达到隐私保护是不可取的。现在的智能手机平均配有七个传感器,只要人们还在使用互联网,相关数据就会被搜集,而且会越来越普遍,几乎可以说是无所不在,无所不包。纵观人类历史,每当一个新技术来临,总有一部分人决定不参与其中,但残酷的现实告诉我们,最有可能享受新技术带来利益的是那些总是追随技术的忠实客户。在这个新的时代,人们正在发明新的隐私保护方式。例如,在电子交易中,网上支付籍于风控大脑的帮助会变得越来越安全,而且是用得越多的用户越安全,因为支付系统已经找到了一种更接地气的创意——通过场景来“认人”。
最早关注弗兰克?帕斯夸(Frank Pasquale)的《黑箱社会》这本书,是源于今年开年之初Nature和Science的几乎同时对该书的推荐。究竟是什么好书呢?居然得到了这两本被学术界称为高大上刊物的青睐,我充满了好奇!书名中的black box,让人联想到两个概念:飞机中的黑匣子和系统工程中的黑箱模型。看完这本书,读者会发现,这个词的确是一语双关的。一方面,物联网、大数据和无处不在的传感器网络记录着我们的世界和世界中的人群,就像我们人人都拥有了自己的一个黑匣子,随时可以被查阅而采取更好的对策。人类行为的大规模数据集有可能从根本上改变我们对抗疾病、设计城市或进行科学研究的方式,有人甚至将这种大规模数据集的使用行为与显微镜的发明相提并论。另一方面,我们个人却不知道有多少信息被记录了,这些信息会传播到什么地方,也不知道哪些人会使用它,使用这些信息的目的何在,更无从知道这些信息的泄露会产生怎样的后果,依据这些信息所做的判断是否准确,是否存在偏见或破坏性?这对目前的人类社会来说,就是一个神秘的黑箱运作机制!我们正处于一种迫切希望收集更多的数据,又害怕数据被收集太多的纠结之中,本书就主要针对探讨这种纠结进行探讨,提供了不少新思维,阅读该书可能推进我们对于隐私争议的理解和认识上的更新。
《黑箱社会》这本书最可取之处,是脱离了以往那些空谈隐私保护的话题,而是时不时给出了问题的症结和可能的解决方案。早期的隐私专家只是强调信息威力的力量失衡对社会造成的后果,那些所谓的经典补救措施也就是要求个人知情同意。问题是,只要告诉如何使用这些数据,只要他们同意,隐私就得到了维护吗?帕斯夸里认为这远远不够。知情同意面对目前的社会已经退化到一个呆板的闹剧,因为我们大多数人既没有时间也没有足够的专业知识来解读这个潘多拉魔盒。虽然大数据能够从大量多维数据和组合中获得新的洞见,但在如此背景下也只有富人能承担数据使用的费用,总体上只会加剧系统本身的缺点。因此,帕斯夸里主张隐私保护制度的根本转变,放弃知情同意这种形式上的做法,去严格监管实际使用这些数据的企业和政府机构。难怪Science周刊在书评中称之为“史诗般的变化”。
对待信息的角力,帕斯夸里在书中强调了三个关键词:信誉、搜索和金融。信誉是被他人认识的结果,搜索为了认识他人,金融则是帮助人们做出经济决策。各公司都在为挖掘潜在的客户详细信息费尽心思,但在面向监管时,却极尽手段隐藏它们的统计数据和操作规程,也阻止用户对由此生成的数字档案进行任何操控,这其实是在制造黑箱。试想,如果这些东西是隐藏的,那么错误的数据、无效假设和有缺陷的模型就不能得到纠正,这种黑箱可能最终危及我们所有人。我们如今的生活已经受到了信息的影响,制定一个紧跟时代的信息管理框架已迫在眉睫,其中政府公共部门应发挥什么作用呢?也许,我们需要一个公共机构来利用全面的数据提供信用评分,用一个开放的、可解释的算法决策工具来代替黑箱系统,而不是靠各自私营企业自己搜集的数据和评定代码。真正将黑箱社会变成显式社会,确保最重要公司的关键决策是公平的,一视同仁的,并能接受批评。