内网 中文EN
大数据时代的社会科学研究新范式
2019-11-06 来源:《中国社会科学报》2019年11月6日总第1809期 作者:蔡跃洲 万相昱
分享到:

  大数据技术体系为推动社会科学借鉴自然科学成果、形成基于数据驱动的社会科学研究新范式提供有力支撑。

  不同于自然科学,社会科学以人类社会现象为研究对象,其传统研究范式在认知准确性方面饱受争议。然而,大数据时代的到来为弥补这一缺陷提供了潜在的解决方案。随着全球新一轮科技革命与产业变革的加速演进,数据来源、数据处理以及数据分析等数据相关技术发展迅速,特别是以统计学习、机器学习、深度学习乃至更为广泛意义的人工智能为代表的数据分析手段,正在带来新的认知方式,为形成数据驱动的社会科学研究新范式提供有力支撑。

  大数据概念特征及内涵

  大数据(Big Data)最早出现于2010年2月英国《经济学人》杂志有关信息管理的一篇专题报道。2011年5月,麦肯锡环球研究院在一份题为“大数据:下一个创新、竞争和生产力前沿”的报告中,将大数据定义为“大小超出常规数据库工具获取、存储、管理和分析能力的数据集”。时下较流行的大数据定义是,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔·舍恩伯格的《大数据时代》一书中,大数据技术被描述为:不再基于传统随机分析法,而采用所有数据进行分析的处理模式。海量性(Volume)、实时性(Velocity)、多样性(Variety)和有效性(Volatility)成为大数据的典型特征。这也是大数据定义中被广为接受的3V、4V或nV。此外,大数据技术还包括数据收集(生产)、数据存储、数据处理、数据分析及展示等各环节所需的专业知识和技能。这些多学科、跨学科交叉的知识技能集成在一起,共同构成大数据技术体系(或“数据科学”)。

  自大数据概念被首次提出后,这一技术已在精准营销、信息安全、智能制造、语义识别、文本分析等众多领域的应用中取得丰硕成果。然而,社会科学领域的大数据应用更多停留在概念和模式复制阶段。即便如此,学者们普遍认为,大数据的兴起为社会科学学科体系的重构和研究范式的改变带来新机遇。

  有效应对人类社会复杂适应性

  事实上,大数据及围绕大数据利用形成的大数据技术体系,为有效应对人类社会活动的复杂适应性特征提供了技术可行性,从而为推动社会科学借鉴自然科学成果、形成基于数据驱动的社会科学研究新范式提供有力支撑。

  其一,大数据技术有助于对社会科学现象进行系统性扫描。传统社会科学研究受限于资料收集、信息传递以及知识获取的技术性因素,往往不可能对社会现象的全貌进行系统性定位和描述。其二,大数据技术有助于对社会问题进行动态跟踪。社会科学问题往往具有实时性和演化性特征,传统研究方法难以对促使事物转化的诸多内外因素进行实时跟踪和反馈,在时间上滞后于事件的衍生和发展进程。其三,大数据技术有助于对事物发生发展的本质动因和多元影响因素进行系统解析。基于显著性变量设定的传统研究方法,在技术上无法对影响社会现象的全体要素进行资料收集和计算处理,被忽略要素的显著影响、显性突变或累积跃迁效应,可能导致研究结果的重大偏差。其四,大数据技术有助于趋近总体数据。传统研究方法往往通过主观判断或科学抽样对资料的代表性和误差因素进行控制,在此基础上构建量化描述、假设检验、参数估计等一系列方法体系。而大数据的总体逼近特征不仅是对数据资源的扩展,其理论基础和技术构架更为社会科学发展提供了结构性变革的可能性。

  扭转对于大数据的认知偏差

  当前的大数据理论和大数据技术与为社会科学复杂适应性提供解决方案的目标仍有较大距离,具体存在以下主要障碍。第一,大数据名称本身具有一定的误导性。强调数据之“大”是大数据技术的首要内涵。然而,由于存储和计算能力的大幅提升,数据收集已成为无明确目标的被动过程。这使得资料的价值密度呈指数化衰减,冗余数据的处理成本不断飙升,客观上形成重数量、轻质量的现实缺陷。第二,大数据的有偏性和非一致性。大数据技术针对特定目标被收集起来的“一手”资料,仍然存在“选择性偏差”。被动性收集的数据资料使得大数据技术仅能观测和收集行为发生者的信息。因此,无法保证数据的无偏性和一致性。第三,重技术开发轻问题解决的倾向。大数据技术始于资料的收集、存储、传输和计算,目前的应用也多在这些领域,更多集中于大数据技术开发,而非真正应用大数据解决实际问题。