中国IDC圈3月31日报道,两年多前,英国人维克托·迈尔·舍恩伯格所著《大数据时代:生活、工作与思维的大变革》出版了中译本,此后,“大数据”便似乎突然渗透进国人生活的方方面面。面临新技术冲击而亟待全面转型的传媒业似乎发现了“救命稻草”,各种新锐或貌似新锐的新闻报道,动辄顶着“大数据”的名号问世。似乎大数据的概念和应用,天生就是新闻业的专宠。其实,凡是认真阅读过这部著作的人都知道,至少舍恩伯格原著中所谓的大数据以及总结的相关思维特点,来自于以计算机技术为支撑的IT产业及其运用;而基于海量数据的搜集和分析技术,最直接的应用首先在于生活、商业、金融等更为广泛的领域。当然,以信息技术为核心的新技术具有相连互通的特点,当代新闻业完全可以、也应当学习和借鉴大数据的方法和思维。但是这种学习和借鉴必须契合新闻传播的属性和功能,尤其必须结合我国新闻业所处的基本国情和发展阶段,以实事求是的评估与抉择为基础,才能真正以为他山之石。然而两年后的今天,国内新闻业界对于“大数据”的盲目崇拜不减,不少认识、理解和操作的误区依然存在。一些研究学者虽然呼吁对此保持警惕,但较为全面和深入的讨论并不多见,在此有必要提出探讨。
什么是“大数据新闻”
当下国内的传媒业,大凡重要的主题报道,各类媒体平台时常可见多样的新闻报道样式,例如数据解读、图表分析、视频与文字的混搭等等。突出者如今年的两会报道,新闻业界乐观地认为,一大亮点就是对于大数据的充分运用。而在这几年的行业论文中,不少用以证明大数据的应用实例,也多是这类形式的新闻报道。应当说,新闻形式的多样发展,融合媒体的迅速崛起,当然是新闻界的利好消息。但是静心细究,我们必须承认,上述这些当下常见的样式,可以称之为数据新闻、精确新闻、图表新闻甚或多媒体新闻,但却难以归为“大数据新闻”。尤其应当辩明的是,一般意义上的“数据新闻”,与“大数据新闻”完全是两个概念,不可混淆,更不能等同。最根本的原因在于,所谓“数据新闻”变化的只是呈现形式,内核依然是传统的新闻理念和操作手法。
在舍恩伯格的原著中,他对大数据的特征概括为:非抽样而是全体、非精确而是模糊、非因果而是相关。后两条虽然有助于启迪思维,但至少在概念内涵上,与新闻历来崇尚真实、精确、注重因果关系等本质特征和功能效用有所牴牾,其在新闻业的应用价值尚有待探索与验证。因此当下新闻业对于大数据的应用,通常集中于第一条。不过对于新闻而言,什么样的数据样本可称之为“全”,什么样的新闻属于大数据新闻?这是首先必须明晰的。例如新华网多媒体产品中心2014年10月28日制作的一篇“数据新闻”,名为《拔河比赛中如何战胜对手》,共由六个页面组成。第一主页题为“起源中国风行世界”,以世界地图为底,插入一些加指示图标的数据说明,例如:“国际拔河比赛起源于英国,1900年至1920年期间被列为奥运会正式比赛项目。”“日本万人拔河大赛,用绳200米,1.7万人参赛,打破吉尼斯世界纪录。”显然,这种“抽样”式的数据呈现,内核仍是传统新闻理念和操作方法,所以命名为“数据新闻”是恰当的,但读者不可误以为这就是大数据新闻。至于其自第二页主题“拔河比赛挑选队员的原则”起,以下“拔河比赛要领”“拔河比赛技巧”“拔河应注意的安全问题”“拔河比赛后的身体恢复”共五个主题页中,每个页面只有配以漫画的文字叙述,完全没有任何数据展示,则连“数据新闻”都不是。
依照舍恩伯格的定义,“大数据新闻”应当体现的“非抽样而是全体”,不仅是基于有关新闻事件的“全样本”(即穷尽所有相关数据)所引导出的全方位和全角度,更是一种思维模式,即用全面的眼光来看待事实,用整体的样本来分析联系。他在书中所列举的沃尔玛超市中啤酒与尿布的现象、亚马逊向读者推荐书籍的模式,就都是大数据思维的典型。至于其在新闻领域的应用,人大教授彭兰曾提出,“大数据新闻”不只是数据呈现,而是信息图表驱动下的新闻发现和深化②。换言之,大数据新闻应该是用全方位的数据去驱动新闻线索的挖掘和新闻事实的揭露。从这个意义上说,大数据新闻是一个很苛刻的标准,需要有全新的思维方式,也要有强大的硬件支撑。
如果着眼于新闻的呈现,则可以说,数据的呈现并非判别大数据新闻的根本标志。真正的大数据新闻,其内核是运用大数据的方法认识和报道事实,只要符合这个前提,即便主要是文字的报道,同样可以是大数据新闻。在当下的国际和国内新闻界,真正有代表性的大数据新闻并不多见。公认较为成功的案例有英国伦敦发生骚乱时,针对推特内容进行的舆情分析报道。而在国内,2014年1月25日央视晚间新闻播出“据说春运”节目,也大体可视为大数据的较好应用。这并非只是因为节目报道中显示了翔实的旅客流量信息和数据图表,更是因为这次的报道是在全国范围内,首次通过近乎全体的数据样本,分析探讨了春运这个特别时段我国人口迁移的走向和趋势,“还从大数据中找到做新闻的点,展开关于春运、春节的故事。内容的选择不再只是从传者视角单方面揣测新闻敏感,而且融入了用户的需求,基本上是点餐式的服务。”
什么样的新闻适用大数据技术
基于逻辑的分析,既然大数据的核心是全数据、全角度,那么在技术允许的条件下,只要能找到有关一个新闻事件的“全样本”,任何类型的新闻都可以做成大数据新闻。但是,“可以”并不意味着“适合”。例如一篇典型人物报道,我们或许可以借助大数据技术穷尽其基本信息,据此写成一篇全景式的人物描述,但其典型性和生命力却可能湮没于数据之中,从而难以显现其价值引导的意义。此时大数据的应用,效果也许适得其反。所以我们在前文指出,大数据的运用,必须契合新闻传播的属性和功能。但至少就目前阶段而言,媒体行业在大数据的运用与新闻理念及操作之间,尚存不少问题或矛盾,主要可以分为现实技术的局限以及根本性质上的矛盾两大方面,值得我们认真思考并探索解决的方法。
(一)现实技术的局限
其实,作为概念的提出,“大数据”一词虽然具有创新性,但在技术层面却并非全新的突破,它只是“信息技术的子集,仅仅是海量信息的统计分析方法,并不具有崭新的时代特征。”而且,它现存的技术瓶颈未来可望突破和完善,但在现下,却对在新闻业的运用形成某些限制:
1. 一般的新闻机构获取数据资源困难
掌握海量的数据资料是大数据技术应用的前提,舍此一切免谈。在理想的大数据时代,各种数据应该是容易获取甚至大多是自由开放的,大数据专家涂子沛强调了数据信息首先在国家内部公开的重要性,他称之为“内开放”。
而在我国,现实的情况是政府掌握的公共数据尚未能完全公开透明,其他领域的信息数据则被互联网巨头们依靠其自身技术便利所垄断。例如,百度掌握着公众出行的数据,阿里巴巴拥有海量的公众网上消费数据,腾讯也搜集了难以计数的网民社交信息数据。这些有价值的数据一般都被他们移用于商业用途。而国内的新闻媒体,则由于职业限制,不具备相应的硬件设备和技术,既很难接触和使用这些技术公司所积累的原始海量数据,一般也没有能力根据新闻需求进行大范围的数据采集工作。即便号称中国实力强大的央视,其“据说春运”节目也必须与百度合作,否则难以靠一己之力获取足以支撑报道内容的数据信息。总之,至少在目前阶段,获取大数据是一项技术、资金、时间上的多重消耗,我国大部分的新闻媒体尚不具备这样的条件。
2.基于大数据的新闻推送导致信息窄化
《大数据时代》一书所举的亚马逊公司通过大数据分析,给不同顾客推送特定商品成为大数据应用的典型案例。受此启发,当下许多新闻媒体将这种技术移植到了新闻客户端中,尝试给用户推送他们可能感兴趣的新闻信息,实现以“私人定制”为特色的“精准推送”和“个性化服务”。
但是,这种基于大数据技术的精准推送,却会使个人接触到的信息无形中越来越偏向于自己感兴趣的领域。而且,这种信息传受的过程还处在不断调整之中,用户对于特定信息惯性接触的次数越多,再一次的推送内容也就会以专业化的名目越来越窄化。长此以往,这种技术选择的机制就会构筑一道无形的信息狱墙,将其他领域的信息隔绝在外。正如陈力丹教授所言:“新媒体基于用户兴趣而提供的精准信息推送,长此以往将造成用户信息无形中的‘窄化’,我们只接收我们选择的东西和愉悦我们的东西。”
况且,这些新闻推送所依据的大数据,只是根据用户以往主要的阅读喜好加以分析得出。但人们获知信息和阅读新闻毕竟不等于只满足其部分需求的网上购物,人们的好奇心和求知欲需要得到各方面信息的满足,而且其以往的喜好也有可能发生改变。因此,只是根据以往的主要喜好长期不变地推送相关信息,事实上也可能难以满足用户的现实需求。正如即便是体育迷所需要的也不只是体育新闻,而娱乐迷所需要的也不可能只是明星八卦一样。当然这并不是大数据技术本身有什么问题,只是在目前,由于技术或资金等限制,互联网公司对于用户的信息和数据收集得还不够充分和完整,换句话说也就是还没有真正达到全样本的高度,同时也还无法做到区分出主次关系的多类型丰富信息的综合性整体推送。
3.大数据运用让隐私权更难保证
在传统的新闻采访和报道中,个人隐私权的保护就是一个时常被提出的问题。而大数据时代的到来,使得个人多方面信息更容易被他人所掌握。另一方面,公民对于个人权利重视意识也日益提升,因此,围绕隐私权保护的矛盾势必会成为一个日渐突出的问题。
当下IT行业技术公司的数据收集者,一般会与用户签署某种形式的网络协议,以达到告知的效果。但由于新闻媒体不是数据的收集者和拥有者,它们只是作为第三方去借用商业公司的数据信息,这其中就涉及是否做到知情同意、是否侵犯隐私的问题。此外,网络公司使用大数据信息大多只用于自己的商业开发,一般不会将信息随意外泄。但是新闻媒体使用这些数据进行报道时,却很可能在不经意间将一些用户的个人信息数据公开,这也容易造成侵犯他人隐私的问题。甚至,任何新闻媒体只要是以第三方的身份从信息技术公司获取这类个人数据信息,因为并非与用户达成网上告知协议的责任人,哪怕最终没有写成报道或者报道没有见诸媒体,都有侵犯个人隐私之嫌,只是扩散的范围有所区别而已。因此,在当前有关个人信息保护的法律法规还不完善的情况下,在大数据技术还不能充分地保护数据提供者的隐私时,新闻媒体使用社会公众的大数据信息存在着一定的侵权隐患。
(二)根本性质上的矛盾
现代新闻业经过百年发展已经形成了一套自己的逻辑和规范,例如及时地传递各种消息、客观地报道社会现实、准确地揭示事件的原因和趋势等等,都已成为公认的新闻业的使命,也是新闻报道的价值所在。但正如我们在前文提到,作为一种技术的大数据分析与应用,基于其自身的性质和特点,其中一些至少目前来看,与新闻及媒体的性质背道而驰:
1. 模糊性与精确性的对立
许多学者将大数据的特点概括成“4V”(volume、velocity、value、variety),亦即海量、高速、价值和多样。其中最显著也最重要的,无疑是大数据的海量性。本文之前提及,大数据核心在于“全”,虽然全样本不一定意味着绝对意义上的海量,但是相对于过去的抽样数据,还是意味着达到足够的数量级。接踵而来的问题是,大量的数据必然导致其中一部分数据不够准确,据此而进行的分析也就难以达到精确。因此,舍恩伯格在他的书中倡导人们认识并欢迎这种模糊性,而不是一味盯着“准确无疑”不放;而他通过大数据分析演示并启示读者的,更多是关于某种倾向的预测性工作。既然是预测,也就不必要求完全准确。
可是对新闻来说,准确是最重要的原则。因为唯有在所有细节上做到准确,才能保证所报道事实的真实。而事实真实,则永远是新闻的第一铁律,这是全球新闻界所公认而且共同坚守的。因此,上世纪70年代,美国兴起了精确新闻学,开始用社会科学的方法辅助新闻报道,以增强新闻的准确性。当下兴盛的数据新闻,本质上其实是精确新闻的一种呈现方式,因为借助原始的数据显示,才能使新闻报道变得更加真实可信。而且,随着社会的发展和海量信息的纷至沓来,出于生活或者工作中的需要,读者对于新闻媒体的要求会越来越高:“对于受众来说,既希望报道者在宏观层面上具有洞察力,又要求报道者在微观层面上体现精确度,对于不具备微观层面精确度的报道则难以容忍。”这就与大数据技术及其思维所崇尚的模糊性,形成了一定程度的对立。
2. 相关关系和因果关系的取舍
说到底,大数据是一个预测可能性的技术,它能告诉我们趋势是什么,却难以说出为什么,亦即我们常说的知其然而不知其所以然。因此,舍恩伯格在《大数据时代》中倡导用相关关系去取代因果关系,就引起了极大的争议,至少在新闻领域是如此。所以喻国明先生在他的专著中提到,大数据不是建立在因果关系基础上的,因此也就不适用于“从果到因”的推定。
诚然,有些时候,现实世界中不同事物之间的因果关系很难说清楚,但是对于新闻乃至媒体而言,纵使再困难,揭示原因、探寻真相以指导现实,则是其立身之本。而且,当现实社会愈加信息多元,事实表象愈加纷繁复杂时,这种需求也就会越发强烈,这正是当下分析性、解释性的深度报道兴盛的原因。而大数据技术在解释因果方面具有的先天不足,再加上海量的信息容易让人陷入各类数据陷阱,这都不利于新闻报道对于事实的准确阐释和分析。因此,既然新闻业不可能放弃对因果关系的探寻,那么媒体在采用大数据技术时就该慎之又慎。记者在条件允许的情况下可以用大数据来寻找趋势,辅助自己找寻新闻线索和报道方向,甚至作为自己写作的部分参考,但若是动辄紧扣大数据,则无疑会给新闻实践带来问题。
3.技术决定论与人文精神的冲突
现代科技的发展及所形成的技术主导思潮,使得主体与客体、人与物的关系越发紧张,这是科技从来都是双刃剑的现实表现之一。今天的我们,日益离不开机器和自动化设施,也日益沉溺于现代科技带来的物质享受,享乐主义、金钱至上被更多的人奉为行为处事的准则。我们当然不能把人文精神的丧失完全归咎于现代科技,但这的确值得我们提高警惕:“正确认识事物的是非和利害,遵循人文精神是更为重要的前提。缺少这个前提,‘大数据’不仅毫无用处,而且能为谬论寻求支持的数据。”⑨大数据的逻辑有时候很简单,某种趋势有利可图,于是就按照大数据指示的去做,这在商业行为中无可指摘。但新闻媒体尤其是我国的新闻机构,需要肩负自己的社会责任,需要维护基本的社会道德和价值观念,更需要为“两个一百年”建设目标和中华民族伟大复兴“中国梦”的实现,发挥自己应有的作用。当新闻报道需要倡导一种精神风尚时,缺少人文精神和价值观念的引领,大数据就会显得苍白无力。
此外,大数据的滥用,还有可能造成工作领域内人的主观能动性的丧失,甚至产生对人的主体性存在的质疑。大数据的出现和技术的广泛应用,在全球范围内已经导致一些新闻媒体去思考和探索模板新闻、机器人新闻实现的可能性,甚至有人质疑未来是否还需要记者这一专门职业。这其实是技术决定论的又一表现形式。但是,如果人的主观能动性真的丧失,甚至作为记者的人的主体性存在都真的消失,完全依靠大数据技术所生产出的新闻,能够满足人的多种需求、尤其是精神领域的需求吗? 这又是一个严峻的问题。
综上所述,大数据技术与新闻及媒体行业的属性和功能,绝不像一些乐观论调里所想象的那般匹配,两者之间事实上尚存许多难以共融之处。我们应该更加深刻地认识当下大数据技术的不足和局限,而不是人云亦云地为新技术的到来而盲目欢呼。当然,我们也不必拒斥大数据技术,大数据新闻可以成为新闻报道的一个分支,例如预测性新闻、数据驱动的新闻,都可以是有所作为的领域。
哪些因素限制大数据技术在我国的新闻运用
作为发展中国家,虽然经过30多年经济的大发展,但在目前甚至未来相当一段时间内,地区发展和城乡发展的不平衡,仍然会是我国的基本国情。当下在北上广深这类一线城市,经济发展较快,科技产业发达,媒体的资源和实力雄厚,大数据技术也就能够实现较多的新闻运用。但除此之外的广大中西部地区,绝大部分媒体还不具备涉足“大数据”的经济和技术条件。即便在一些省级电视台,记者的新闻报道时常也还是一支笔、一个话筒、一个摄像机的配备。而在县市一级的新闻机构,主要任务是配合政府的工作进行宣传,并且报道本地的民生新闻和百姓实事。所以对于中国更广大的新闻从业者而言,需要的还是基本新闻职业素质的培养和报道能力的提升。
在农村地区,情况又有些复杂。在一些东部地区的农村,借助区域经济发展实力,广播电视基本普及,人们的媒体接触率更高。例如根据北京大学新闻与传播学院在读的翟秀凤博士研究,在山东的一些乡村,甚至智能手机、电脑网络已经进入到一般农民家庭,他们也能初步学会运用这些科技设备。⑩但我们需要注意的是,这些农民通过互联网或移动终端所首先需要获得的,依然是传统的文字、图片类新闻信息,大数据新闻的阅读对他们来说门槛太高而且也没有太大必要。而在相对落后的中西部农村和牧区,新闻传播行业更加落后,别说广播电视尚未普及,甚至在一些人烟稀少的僻远地方,连报纸也无法每日送达。因此对于这些地方的农村和牧区而言,当务之急是借助国家或者其他社会资源,尽力加快新闻传播的相关基础设施建设和传送网络的配备,以及建立和培养专业的新闻记者队伍。
另外值得特别提出的是,我国当下尚存的地区和城乡发展差距,即便对于可能实现较多新闻应用的超大型或一线发达城市而言,在实际的运用方面仍然存在较多限制。如果不注意这一问题,就有可能导致新闻报道内容的某些失实。具体而言就是,这些大数据信息是由生活和工作在这些发达城市的人群所留存的,只能反映这些城市的一些基本情况,或者发达地区的一般情况,因此也只能适用于报道这些地区或人们的新闻事实。如果媒体所报道的事务涉及国家的整体情况,仅仅依据这些数据就做出判断,显然会发生以偏概全的错误,从而产生某种信息误导。正是从这个意义上,我们说大数据新闻在我国的现实发展阶段会受到较多限制,就有了更多的论据。
总而言之,面对当下全球兴盛的大数据技术,我国的新闻媒体决不能拒之门外,这几年的新闻实践也显示了大数据技术和思维在新闻行业确有相应的用武之地。但是现实存在的问题或者矛盾,也在提醒我国的新闻业者及其媒体,必须理智而冷静地看待大数据的技术特色,务实地认识我国新闻业所处的国情和时代特点,以辩证唯物主义的思想方法,用人文精神指导新技术的运用,将新技术的运用与我国新闻发展的实际需要结合起来,以切实推动我国新闻事业的更好发展,这才是我们当前应有的态度。