社会学领域顶级学术期刊《社会学研究》2026年第2期刊发了南京大学中华文明数智创新实验室的最新研究成果。论文题为《重返描述:定量研究中的数据深描》。实验室成员、南京大学新闻传播学院助理研究员马文为论文第一作者,实验室主任、南京大学社会学院教授陈云松为论文通讯作者。
该研究立足数智时代社会科学研究的新数据环境与技术条件,系统梳理传统定量研究中描述方法被逐渐边缘化的过程,反思其作用长期被忽视的现实,提出“数据深描”这一定量描述新路径。研究指出,借助多模态数据与智能算法,描述不再只是因果分析之前的辅助步骤,而能够重新成为社会科学知识生产的重要环节。
1
研究背景
社会科学实证研究长期重视解释,尤其重视对因果分析方法的使用。相比之下,描述方法虽曾是社会科学研究的重要基础,但在现代定量研究中逐渐被压缩为展示均值、标准误等统计特征的前置程序,其理论生成能力不断弱化。近半个世纪以来,“因果识别为要,特征描述为辅”逐渐成为定量研究的标准范式,这种程式化倾向在一定程度上削弱了研究对新现象、新结构和新理论线索的敏感性。
与此同时,机器学习、人工智能和多模态数据技术的发展,为描述方法的功能拓展提供了现实基础。随着文本、图像、音频、视频和空间轨迹等数据持续积累,社会现象正以前所未有的密度和广度被数字化记录。这一变化有望突破传统描述性统计的局限,推动描述方法重新获得在定量研究中的重要地位。
2
研究背景
本文属于方法论研究,主要通过对既有研究案例的系统梳理与逻辑归纳来构建理论框架,而非基于单一数据集的经验分析。通过梳理案例,研究展示了数据深描四种进路。
数据类型:区别于传统定量分析主要依赖的调查数据,数据深描提倡对多模态信息的整合,包括但不限于:大规模文本语料(新闻报道、文学作品、社交媒体帖子)、图像、音频、视频、空间轨迹数据(如手机定位)与传统社会经济统计数据。相关案例涉及GDELT全球舆情数据、谷歌图书语料库、约1500万台移动设备的定位数据、1850-2015年家庭人口记录等。
数据深描的操作化与实现路径:
结构感知的“景深”。此路径旨在增强定量描述对社会现象结构层级与时空分布的呈现能力,在有限的视觉空间中整合多维信息。研究者不进行假设检验,而是运用时间趋势图、空间梯度图、语义网络图、社会网络图等可视化技术,直观呈现单一或多个变量的形态。例如,Finnemann等(2024)将约15万名英国居民的问卷数据与地理信息结合,绘制出主观幸福感的连续空间梯度图,清晰地揭示了城乡差异这一结构特征。Kozlowski等人(2019)将词向量投影至语义空间,呈现了文化实践关键词的层次化聚类,直观揭示了阶级品味的区隔机制。
概念指标的“进深”。此路径旨在将抽象、宏观的概念转化为可比较的量化指标。研究者通过算法挖掘非结构化数据,实现对“文化氛围”“社会心态”等隐形变量的测量。例如,Enke(2023)利用自动化文本识别技术,从约2500个民俗故事中测量出不同文化中道德观念的结构。刘河庆(2024)利用生成式人工智能对250万条推送文本进行分析,实现了对多维社会观念流动的动态测量。
关联呈现的“层深”。此路径旨在揭示稳定的共变关系。其逻辑是在跨越时间、空间、群体的多重“饱和”材料中,反复识别变量间的关联,从而实现局部描述到全局关联的累积发现。例如,Song等(2020)利用1850-2015年间约500万条家庭记录,在长时段尺度下反复呈现家庭背景与子代社会地位之间的关联,这种跨越近两个世纪的“重复”,使得代际流动关系的描述本身,就蕴含了对其稳定性的强有力归纳。Li等人(2021)通过对比中晚唐至清中期的建筑屋顶坡度与古气候数据,揭示了建筑形态在气候变化中的适应规律;Scheffer等人(2021)利用170余年英语和西班牙语书籍词汇数据,描述了理性与情感此消彼长的长期关系模式。
潜在因果的“纵深”。此路径旨在预演与启发因果假设。研究者运用随机森林、XGBoost等预测导向的监督学习模型,在不预设变量关系的前提下,探索所有潜在自变量对结果的预测贡献。随后借助可解释性机器学习方法,如SHAP(SHapley Additive exPlanations),拆解模型的“黑箱”,识别哪些变量组合及其交互方式对结果具有最高的预测能力。例如,Bai等(2023)利用SHAP分析收入相关的社会经济变量,呈现出各因素(如教育、居住地)的相对重要性及其复杂关联路径,为后续的因果机制研究提供了数据驱动的假说。Parsa等人(2020)利用SHAP方法对多源交通与环境数据分析,不仅预测了事故风险,更通过多变量的相对重要性刻画了交通事故发生的典型情境,为安全干预提供了线索。
3
研究成果
方法创新:提出“数据深描”这一定量研究的新路径
该论文提出,“数据深描”是指运用多模态数据与智能算法,对社会现象及其过程的时空结构和潜在关系进行清晰呈现的一类定量研究方法。它秉承社会学经典理论家马克思·韦伯所界定的“描述性理解”传统,但其研究目标并非传统的假设检验,研究路径也不依赖基于回归模型的参数估计或高级计量方法的因果推断。
论文进一步将“数据深描”概括为四种递进式研究进路:借助可视化描述增强结构感知的“景深”,通过数智方法拓展概念指标的“进深”,依托局部描述累积发现总体稳定关系的“层深”,运用算法模型预示潜在因果线索的“纵深”。这四种进路共同构成了数智时代定量描述的新方法体系,使描述能够在结构识别、关系探索和理论启发中发挥更强的作用。




方法意义:以“数据深描”助力文明研究的知识积累
研究指出,“重返描述”并不以描述取代解释,也不会削弱因果推断的重要性,而是要通过丰富和深化描述性分析,为更深入的解释性理解奠定基础、搭建桥梁。相较于传统定量描述主要停留于特征和分布的静态呈现,或局限于二元变量关系的简单展示,数据深描强调依托大规模、多模态、跨时空数据,运用计算方法系统刻画不同变量的结构特征与关联模式,既可以形成有价值的研究发现,也能够为后续因果分析提供更系统的经验线索和研究假设。
论文强调,“数据深描”方法路径不仅回应了西方社会科学近年来关于“描述转向”的讨论,也体现了构建哲学社会科学自主知识体系建设的方法自觉。它有助于最大限度地发挥描述在知识创新、理论创新和方法创新方面的潜力,使得当代社会科学定量研究在文化根基与数智力量的交融中,形成服务于文明发展的持续知识积累。
4
论文信息
该研究获得国家社会科学基金支持,是数智时代社会科学方法论探索的重要成果。相关成果以《重返描述:定量研究中的数据深描》为题发表于《社会学研究》2026年第2期。南京大学新闻传播学院助理研究员马文为论文第一作者,南京大学社会学院教授陈云松为论文通讯作者。《社会学研究》由中国社会科学院社会学研究所主办,是中国社会学领域公认的最高水平学术期刊,长期处于社会学学科中文期刊影响力排名首位,被广泛视为社会学及相关学科的权威刊物。南京大学中华文明数智创新实验室为该研究提供了重要的科研保障。作为江苏省首批哲学社会科学重点实验室,南京大学中华文明数智创新实验室持续推进人工智能与人文社会科学的深度交叉融合,积极探索“AI赋能文科”的创新范式,为相关领域的理论突破和方法创新提供有力支撑。
论文链接:https://shxyj.ajcass.com/Magazine/Show?id=122489
版权声明
