蜘蛛|「社会科学」庞珣:避免“下不该下的结论”——社会科学研究中的识别与信度( 七 )


结语 以识别为核心的设计驱动型研究追求“胜兵先胜而后求战”的研究 , 要避免在缺乏理论关怀和逻辑保障的情况下进行“败兵先战而后求胜” , 更不要败而不自知、误以败为胜 。 大数据、算法、人工智能等为社会科学提供了更多的可选信息和技术支持 , 但却无法替代研究者所要承担的核心研究工作 。 这或许是一个令人喜忧参半的事实:一方面 , 无法将困难工作交予机器多少令人沮丧;但另一方面 , 在识别任务上机器无法取代人脑也表明 , 科学求索仍是人类得到的特别待遇 。 当数据革命让行动变得空前容易时 , 研究者对探索目标和方向的把控也变得空前重要 , 因为方向的偏差可以让研究“失之毫厘 , 谬以千里” 。 确立识别革命在社会科学中的地位 , 建立和平衡它和数据革命之间的双重运动 , 对于社会科学的发展具有迫切而深远的意义 。
本文意在强调以识别为核心的设计驱动型研究对大数据时代社会科学发展的特殊重要性 , 尤其关注在识别革命尚未到达或尚不充分的研究领域中出现的一些重要问题 , 目的不在于全面系统地介绍设计驱动型研究 , 也无意于在文中就识别问题提出新颖观点 , 文中例子均意在尽量浅显 , 仅用以辅助说明 。 建立和增强识别意识 , 以及掌握识别策略设计的理念、程序和规范等 , 需要我们深入和广泛研读因果识别教材和相关具体研究 , 并结合自己的研究进行不断练习和探索 。 这是一个渐进的长期积累过程 , 我们寄希望于通过捷径来“速成” 。 从教学和人才培养来看 , 平衡社会科学中当前的“双重运动”需要加强识别方面的课程建设 , 包括关于一般识别和因果识别的原理和方法的系统教学 , 贯穿于高等教育的各个阶段 , 尤其注意在教学中避免以识别“技术”为中心 , 而是要透彻讲解技术背后的科学原理和认识论逻辑 , 让学生知其然也知其所以然 。 我们有必要让未来的研究者受到“数据革命”鼓舞的同时也知晓“识别革命”审慎的要义 , 较早开始建立两者之间的平衡 。
最后我们回顾和总结本文所提及的关于识别革命对实证研究的几点基本要求:
第一 , 让识别对象的定位、定义和表达成为研究工作的重点 。 这个工作远远超过“提一个清晰的‘为什么’问题”或“有明确的因变量和自变量”的要求 。 它需要在理论和逻辑上进行严密而反复的思考和斟酌 , 平衡识别对象的细粒度和可行性 。 进而 , 无论是使用语言文字还是数学符号 , 我们都应该在选择识别技术前将识别对象明确而郑重地表达出来 。
第二 , 将更多的精力放在识别策略的设计上 , 包括选择识别假定、明确什么是识别任务所需要的实证信息以及如何取得这些信息和使用这些信息等 。
第三 , 最大程度地保证研究的透明度 , 尤其是对识别假定的陈述和讨论要严肃和细致 , 包括它们的必要性、合理性、是否过强、在什么情况下无法成立、在多大程度上影响到识别的结论等 。
第四 , 不过度依赖统计稳健性检验 。 稳健性检验几乎成为传统定量研究的一个惯性化的操作 , 而且常常以变换模型设定尤其是将控制变量拿进拿出为主要操作 。 试想 , 在精心设计的识别策略下 , “控制变量”是那些理论和逻辑告诉我们的混杂因子 , 不控制它就理应看到识别结果产生变化 。 如果控制变量随意进进出出而结果依然“稳健” , 这正好暴露出研究者对控制变量的选择缺乏考虑 , 于提高研究信度并无帮助 。 模型假定与识别假定是两套不同的假定 , 更重要的检验是实证发现对于重要识别假定的敏感性分析(sensitivity analysis) 。
*声明:本文仅代表作者个人观点 , 不代表本公众号立场
【蜘蛛|「社会科学」庞珣:避免“下不该下的结论”——社会科学研究中的识别与信度】