蜘蛛|「社会科学」庞珣:避免“下不该下的结论”——社会科学研究中的识别与信度( 二 )


为什么识别革命是在大数据时代保障研究信度、防止理论与实证脱节、避免过度量化的关键?围绕识别进行的“设计驱动型研究”(design-driven 或design-based research)如何区别于传统的“模型驱动型研究”(model-driven research) 和当前盛行的“数据驱动型研究”(data-driven research)?本文将对这些问题进行抛砖引玉的讨论 , 目的不在于全面系统地介绍识别革命或识别策略 , 而是聚焦于设计驱动型研究范式对于社会科学的重要性和紧迫性 , 探讨社会科学如何恰当而充分地受益于数据革命带来的机遇 。 数据革命和识别革命之间可以 , 并也已经在一些领域内建立起互补互助、相得益彰的关系 , 但基于本文的关切所在 , 讨论的重心将集中于当前研究实践中呈现出的两者之间的张力(tension) , 偏重强调识别革命而非数据革命在平衡“双重运动”中的作用 。
一、避免错误的实证结果: 识别意识与研究信度 识别可以被简单地定义为 , 在理论假定基础上将实证信息与研究对象(quantity of interest)进行独一无二的映射 。 这里的研究对象通常是难以直接观测的、具有理论意义的存在及其相互关系 , 本文统称为识别对象 。 识别任务是要寻找和认证识别对象或其局部的经验呈现 , 从而连接和贯通理论世界和经验世界 。 这里的“识别”不同于今天家喻户晓的大数据人工智能语境下的“识别” , 也不限于狭义的因果识别 , 更不是定量研究的特有任务 。 相反 , 识别是所有类型实证社会科学中基本和核心的工作 , 贯穿于测量、描述、因果探索以及预测等各个方面 。
识别关乎我们在理论假定和实证信息的基础上可以(或不可以)得出什么结论的问题 , 因此“识别革命”又称为“信度革命” , 即以专注识别问题来提高研究信度 。信度问题区别于学术诚信 , 它不是学术伦理问题 , 而是研究质量问题 。 如果研究者对识别对象及其可识别性(identifiability)的判断出现偏差、没有对理论假定进行认真思考和明确探讨、或对识别所需(所缺)信息思虑不周或决策不当 , 就会得到偏差或错误的实证结果、下不该下的结论 。 保证信度的首要条件不是增大数据量或升级计算技术 , 而是强化识别意识和严谨化识别策略 。 由于缺乏自觉的识别意识而出现信度问题的研究比比皆是 。 我们可以通过一个看似安全但却“翻车”的真实研究例子 , 一窥识别的无处不在以及识别错误如何导致研究“下不该下的结论” 。
政治学知名学术期刊在2003年发表一篇研究论文 , 探讨自杀性恐怖袭击现象背后的理性逻辑 。 研究报告了一个重要的实证发现 , 即自杀性恐怖袭击的发生与西方国家在相关恐怖主义组织所认为的本国领土上驻军(简称“军事占领”)高度正相关 , 暗示军事占领可能是导致自杀性恐怖袭击的原因 , 并提出了停止以军事占领来打击和遏制恐怖主义活动的政策建议 。 这一结论所建立的实证信息来自作者对全球新闻在线数据库进行的全面提取 , 得到了1980年到2001年间所有公开可知的188件自杀性恐袭事件 。 从数据量和人工编码方式来看 , 论文并非“大数据”研究 , 但从文本数据库获取事件数据是国际关系中大数据研究的重要思路和长期探索 , 因此这一原创性数据集被认为是该研究的最大亮点之一 。 作者通过描述性分析发现 , 在这188件自杀性恐袭事件中 , 涉及军事占领的事件有178件 , 约占94.68% , 并在这个百分比的基础上得出以上结论 。 94.68%这个比例、作者获取数据的途径、数据公开透明的态度和规范 , 都让这个研究发现看上去具有很高的可信度 。 时值“9·11”事件发生后不久和美国发动伊拉克战争伊始 , 该文的这一实证发现在当时也产生了广泛的政治社会影响 。
然而时隔5年后 , 另外四位学者在同一期刊上发表联合署名文章 , 从识别的角度分析和指出了前文作者的实证结论因存在重大错误而完全缺乏信度 。 批评者认为 , 这些数据不但无法用于识别自杀性恐袭与军事占领之间的相关性 , 而且即使仅对这一相关性的可能范围进行识别 , 这些数据也几乎毫无价值 。 值得注意的是 , 批评者们并没有以“相关不等于因果”来苛责这个研究 , 这更凸显了信度问题并非独属因果研究(推论)的问题 。 他们将识别对象限制在相关关系上并正式而清晰地表达为:
识别对象=Pr(Suicide|Occupation)-Pr(Suicide|~Occupation)(1)
第一个条件概率是军事占领的情况下(Occupation)发生自杀性袭击(Suicide)的概率 , 第二个是没有军事占领的情况下(~Occupation)自杀性袭击概率 , 两者的差异显示军事占领是否与更高的自杀性袭击风险相关 。 在明确了识别对象后 , 我们就可以来看识别这个对象要求什么样的实证信息 。 将式(1)作一个简单的概率变换得到: