大数据技术体系为推动社会科学借鉴自然科学成果、形成基于数据驱动的社会科学研究新范式提供有力支撑。
不同于自然科学,社会科学以人类社会现象为研究对象,其传统研究范式在认知准确性方面饱受争议。然而,大数据时代的到来为弥补这一缺陷提供了潜在的解决方案。随着全球新一轮科技革命与产业变革的加速演进,数据来源、数据处理以及数据分析等数据相关技术发展迅速,特别是以统计学习、机器学习、深度学习乃至更为广泛意义的人工智能为代表的数据分析手段,正在带来新的认知方式,为形成数据驱动的社会科学研究新范式提供有力支撑。
大数据概念特征及内涵
大数据(Big Data)最早出现于2010年2月英国《经济学人》杂志有关信息管理的一篇专题报道。2011年5月,麦肯锡环球研究院在一份题为“大数据:下一个创新、竞争和生产力前沿”的报告中,将大数据定义为“大小超出常规数据库工具获取、存储、管理和分析能力的数据集”。时下较流行的大数据定义是,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔·舍恩伯格的《大数据时代》一书中,大数据技术被描述为:不再基于传统随机分析法,而采用所有数据进行分析的处理模式。海量性(Volume)、实时性(Velocity)、多样性(Variety)和有效性(Volatility)成为大数据的典型特征。这也是大数据定义中被广为接受的3V、4V或nV。此外,大数据技术还包括数据收集(生产)、数据存储、数据处理、数据分析及展示等各环节所需的专业知识和技能。这些多学科、跨学科交叉的知识技能集成在一起,共同构成大数据技术体系(或“数据科学”)。
自大数据概念被首次提出后,这一技术已在精准营销、信息安全、智能制造、语义识别、文本分析等众多领域的应用中取得丰硕成果。然而,社会科学领域的大数据应用更多停留在概念和模式复制阶段。即便如此,学者们普遍认为,大数据的兴起为社会科学学科体系的重构和研究范式的改变带来新机遇。
有效应对人类社会复杂适应性
事实上,大数据及围绕大数据利用形成的大数据技术体系,为有效应对人类社会活动的复杂适应性特征提供了技术可行性,从而为推动社会科学借鉴自然科学成果、形成基于数据驱动的社会科学研究新范式提供有力支撑。
其一,大数据技术有助于对社会科学现象进行系统性扫描。传统社会科学研究受限于资料收集、信息传递以及知识获取的技术性因素,往往不可能对社会现象的全貌进行系统性定位和描述。其二,大数据技术有助于对社会问题进行动态跟踪。社会科学问题往往具有实时性和演化性特征,传统研究方法难以对促使事物转化的诸多内外因素进行实时跟踪和反馈,在时间上滞后于事件的衍生和发展进程。其三,大数据技术有助于对事物发生发展的本质动因和多元影响因素进行系统解析。基于显著性变量设定的传统研究方法,在技术上无法对影响社会现象的全体要素进行资料收集和计算处理,被忽略要素的显著影响、显性突变或累积跃迁效应,可能导致研究结果的重大偏差。其四,大数据技术有助于趋近总体数据。传统研究方法往往通过主观判断或科学抽样对资料的代表性和误差因素进行控制,在此基础上构建量化描述、假设检验、参数估计等一系列方法体系。而大数据的总体逼近特征不仅是对数据资源的扩展,其理论基础和技术构架更为社会科学发展提供了结构性变革的可能性。
扭转对于大数据的认知偏差
当前的大数据理论和大数据技术与为社会科学复杂适应性提供解决方案的目标仍有较大距离,具体存在以下主要障碍。第一,大数据名称本身具有一定的误导性。强调数据之“大”是大数据技术的首要内涵。然而,由于存储和计算能力的大幅提升,数据收集已成为无明确目标的被动过程。这使得资料的价值密度呈指数化衰减,冗余数据的处理成本不断飙升,客观上形成重数量、轻质量的现实缺陷。第二,大数据的有偏性和非一致性。大数据技术针对特定目标被收集起来的“一手”资料,仍然存在“选择性偏差”。被动性收集的数据资料使得大数据技术仅能观测和收集行为发生者的信息。因此,无法保证数据的无偏性和一致性。第三,重技术开发轻问题解决的倾向。大数据技术始于资料的收集、存储、传输和计算,目前的应用也多在这些领域,更多集中于大数据技术开发,而非真正应用大数据解决实际问题。社会科学研究的本质是以问题为导向,应基于现实问题选择恰当的数据和方法,而非生搬硬套大数据解决方案。第四,重微观层面的精准定位,轻宏观层面的总量。大数据在商业营销领域的成果,使得人们更多地利用大数据对微观个体进行精准定位、状态识别和行为预测,而社会科学的核心仍是对社会现象的解析,必须打通微观基础与宏观现实之间的逻辑关联和传导机制。第五,过分强调关系发现,轻视因果分析。这也是制约大数据技术发挥有效作用的关键问题。这一技术极大提升了收集资料的维度和深度,使得人们可以真正从全局和动态演化的视角审视社会现象和社会问题。但它排斥传统研究基于因果关系建立的研究体系,试图越过事物的作用机理而寻求社会现象认知的解决方案。因此,如果大数据技术不能扭转偏差的认知模式,就很难在社会科学领域取得突破性进展。
推动社会科学研究智能化
总体而言,大数据时代的到来为社会科学发展提供了一个重要契机。社会科学研究有望突破传统社会调查方法以及数理模型、推论统计和计量建模等传统量化技术的限制。然而,社会科学发展不应该也不会完全局限于当前大数据概念的界定和技术限定。基于社会理论与社会现实问题,主动挖掘多元基础数据,搭建社会主体间的联系网络,充分利用人机结合的综合集成模式,溯源社会现象的本源和逻辑传导机制,从而对社会科学研究对象进行精准量化的结构解析和预测推演,使之成为社会科学未来发展的重要途径之一,即数据驱动的社会科学研究新范式。
新范式为突破传统社会科学研究被动寻找经验证据的实证方法、建立搭载在数据资源基础上的主动量化提供新的途径。问题导向、数据出发、机制溯源、综合集成、量化计算将是数据驱动的社会科学研究范式的基础特征。未来,社会科学研究范式将面临重大变革,但并不会违背自身的学术本源;更多地应用大数据技术,但不会摒弃建立在定量统计方法上的经验研究基础;不断深入而精准地刻画微观个体的行为和状态,但不会忽略宏观总量特征和微观—宏观一体化的研究途径;主要采用数据计算和模拟实验的科学方法,但仍以人类智慧和专业经验为指导。在上述基础上,社会科学将从数据实证应用的研究范式逐步向数据驱动的研究范式转变。
数据作为现代社会科学研究的基础性支撑,不论是多源非结构化大数据还是统计抽样数据,其核心都是解决与社会发展要求相匹配的现实问题。因此,未来有必要重点关注以下问题。
首先,建立科学的数据资源评估体系。大数据收集模式的创新并不能完全消除数据样本的有偏或非一致。建立在大数定律和中心极限定理之上的科学抽样方法,未来仍有着无可替代的适用性。因此,当前的首要任务应以社会问题为导向,建立较为系统的数据资源(质量)评价理论和评价方法,针对全域、多元、实时的非结构数据提出有效性判定标准,同时关注数据科学的伦理问题研究。
其次,解决大数据级别的总量累积问题。将微观非结构数据科学系统地提炼汇总为不同层级的总量信息,是基于微观大数据解构宏观社会现象的基础。数据信息的有效提炼在某种程度上也决定着大数据技术能否真正融入社会科学的研究体系。
再次,在数据分析基础上提出解决方案。未来社会科学的发展应以多源数据为基础,通过智能计算和专家智慧的结合,对社会现象进行量化解析,对社会问题提出科学治理体系和模式,最终建立社会科学“类工程化处置”的研究机制和范式。
最后,注重逻辑因果机制和机理的发现。大数据研究不能片面地关注相关性,更应注重对社会现象的本质动因进行发掘,科学回答“是什么”“为什么”的基本命题。因此,有必要利用多元化实时数据的关联性优势,准确厘清社会现象的因果机制,挖掘社会问题的逻辑机理,形成真正科学有效的治理方法和途径,进而形成智能化的社会科学研究工具和平台。
(本文系国家社科基金重点项目“数字经济对中国经济发展的影响研究”(18AZD006)、“综合集成模拟实验平台的设计与构建研究”(18AJL006)阶段性成果)
作者简介
姓名:蔡跃洲 万相昱 工作单位:中国社会科学院数量经济与技术经济研究所