蜘蛛|「社会科学」庞珣:避免“下不该下的结论”——社会科学研究中的识别与信度( 三 )


根据式(2) , 要识别这一相关关系我们需要关于构成该识别对象的三个概率的信息 , 即Pr(Suicide) 、Pr(Occupation|Suicide) 和Pr(Occupation) 。 原文透露了第一个概率的实证信息:4155件恐怖袭击中有188件自杀性恐怖袭击 , 因此PrSuicide≈4.52% 。 研究中也包含关于第二个概率的信息 , Pr(Occupation|Suicide) ≈94.68% 。 但原文作者没有搜集第三个概率PrOccupation的信息 。 这表明 , 原文的实证信息根本无法得出军事占领和自杀性恐怖袭击之间的高度正相关的结论 , 但原作者却将这个结论建立在其中一个组成概率的实证信息上 , 误将Pr(Occupation|Suicide) ≈94.68%当作识别结果 , 基于这一错误的识别结果下结论和给建议 。
批评者们继续放松对识别对象的要求 , 不求对相关关系进行“点识别”(精确到对象本身) , 而是看数据能在多大程度上局部识别相关关系的边界和范围 。 他们根据原文提供的信息对这个信息缺失的概率进行边界值估算 , 得到178/4145≤PrOccupation≤4145/4145 即4145件恐怖袭击事件中至少已知178件有军事占领情况 。 将这两个边界值带入式(2)可以计算出-0.957≤识别对象≤0.944 。 但即使没有任何关于这个识别对象的信息 , 我们也知道-1≤识别对象≤1 , 因为两个概率相减不可能小于-1或大于1 。 比较两组边界值不难看出 , 原作者的数据对我们关于研究对象的知识促进微乎其微 。
至此 , 从方法论的角度我们已经看出这是一个典型的“根据因变量进行选择”错误 , 尽管“因变量”一词在这一相关关系研究中并不准确 。 从识别的角度来理解 , 我们不但可以更清楚地看到这是一个识别对象定义不清引起的错误 , 而且能够体会到错误背后的原因是识别意识的缺乏或薄弱 。 原作者或许仅将识别等同于因果识别 , 而认为相关关系、描述或测量研究无关乎识别 , 从而无须进行识别的严谨思考和设计 。 但事实是 , 只要不只是就信息谈信息、就判断谈判断 , 而是将信息和判断相连即构成识别 。 此外 , 这个例子表明 , 信度问题并非定量研究中才会出现的问题 , 因为该研究从严格意义上说是一个定性研究(描述性而非推论性研究) , 这个错误尤其发人深省 。
本文用这个简单的例子来强调“识别意识”是保证研究信度的前提 , 它也显示了研究信度出现问题与识别难度并无必然关系 。 事实上 , 并不存在“识别难度高则研究信度低”这样的逻辑和规律 。 例子中识别对象的识别难度可谓很低 , 而且所犯的错误在数据革命时代极易改正和弥补——我们可以立即搜集所需要的数据来估算Pr(Occupation) 。 但这并不表明错误本身无足轻重 , 更不意味着错误容易被发现或避免 。 其实 , 正是因为此类错误的普遍性 , 我们才需要强调要以严谨的识别设计来避免识别错误对研究信度的伤害 。 保证实证研究信度的关键是研究设计而不是数据量或分析技术 。 在识别策略正确的前提下 , 数据和技术可以提高识别的精确度和降低不确定性 , 但识别设计的错误则很难通过增大数据和技术复杂程度来自动纠正 。 原文“亮点之一”的原创性数据对识别几乎毫无用处 , 告诉我们数据是否“有用”不在于其本身的新颖性、原创性、甚至是质量高低或规模大小 , 而是取决于它是否以及在多大程度上能够服务于特定的研究任务 。 我们可以进一步想象 , 原作者使用最先进的方法对事件进行机器编码而得到关于自杀性袭击的“全样本” , 可以极大提高对Pr(Occupation|Suicide)这个概率估计的精度 , 却仍然无助于识别军事占领与自杀性恐怖袭击之间的相关关系 , 也无法提升研究信度 。
二、避免理论与实证的脱节: 定位和定义识别对象 对理论与实证脱节的担忧至少有两层不同的意思:一是两者在发展节奏上的差异越来越大 , 理论研究创新突破缓慢而实证研究在数据和技术的推动下日新月异;二是两者有相背而行的趋势 , 实证研究在数据革命中趋向经验主义 , 而理论研究则从定义和本质上拒绝经验主义 。 两者渐行渐远不利于任何一方:实证研究趋向经验主义而缺乏对持久知识的追求 , 而理论研究不结合实证检验则只能止于猜想和思辨 。 社会科学理论的构建方式在公理、数理或正式逻辑方面通常相对薄弱 , 实证就成为检验理论的主要甚至是唯一的途径 。 避免理论与实证的脱节 , 需要双方调整节奏、付出努力 , 相向而行并在“识别”处相遇 。
识别如何让实证研究向理论而行?模型驱动型研究对于识别对象的选择、定义和认识太过依赖方法设定和工作惯性 , 而数据驱动型研究则偏重缺乏理论关怀的识别对象 , 两者都不利于实证与理论的结合 。 设计驱动型研究要求将识别对象的定位、定义和表达作为识别策略设计的关键环节、先于和高于数据搜集和方法选择 。 我们以一个假想的例子来比较模型驱动型研究和设计驱动型研究在定位和定义识别对象时的不同做法 , 并分析由此产生的实证分析与理论之间距离的差别 。