。 这个识别对象的“可识别性”建立在“有条件可忽略性”假定上 , 即只要GATT/WTO成员国和非成员国在Z维度上的特征相同 , 我们就可以将它们的结果视为彼此的反事实 。 这些Z在设计驱动型研究中叫“混杂因子”(confounders) , 因为它们与结果之间的关系会混杂在我们感兴趣的这对因果关系中 。 “有条件可忽略性”是否成立依然无法以数据和技术来进行检测或保障 , 因为这一假定排除了Z之外的其他数不胜数的维度上的特征是混杂因子的可能 , 包括可观测的和不可观测的特征 。 我们只能根据理论和逻辑来谨慎选择Z , 尽量让这个假定“合理” 。 数据或计算技术可以在特定情况下对一些不可观测的混杂因子进行近似 , 但仍然必须依靠假定来排除为数众多的可能的混杂因子而使δ(Z)可识别 。
如此依赖假定的识别 , 是否让研究变得主观而缺乏信度?回答是否定的 。 假定的使用无疑会让研究的主观性增大 , 但以正确的态度对待和处理假定却恰恰是研究信度的保障 。 无论我们承认与否 , 所有的理论和实证研究都会在不同程度上依赖假定 。 没有假定的研究 , 也正是非理论研究(atheoretical research) 。 我们并不能在“要假定”和“不要假定”之间做选择 , 只能选择何种假定和如何假定 , 认真回答以下问题:哪些假定是必须的?哪些假定可以被放宽?哪些假定太强以至于我们宁可放弃识别对象也不愿做出?在对同一个识别对象的不同识别策略中 , 我们偏好使用更少、更弱的假定而能够得到同样无偏和有效识别结果的设计 。 但识别研究一般始于较强的假定 , 随着知识和经验的积累以及数据和方法的改进 , 一些假定逐渐得到放松 。 假定不是反科学而是科学的组成部分 , 假定清晰和透明正是科学精神的要求和科学工作的规范 。 既然假定构成了研究工作的重要部分 , 它就需要被报告 , 它的合理性和必要性就需要被公开讨论、质疑和挑战 。 为了追求“客观”表象而淡化甚至藏匿假定的态度与做法是反科学的 。 正是对假定的承认和讨论让研究的可信度上升 , 而回避谈论假定而制造客观的假象 , 对社会科学研究的信度造成伤害 。
避免过度量化除了将识别假定提到重要位置 , 还要求对数据及其分析技术采取正确的态度 。 它们是实证研究完成识别任务的必须 , 信息的丰富和技术的进步也能够帮助我们放松一些识别假定和降低识别的不确定性 。 但是 , 数据和技术无法弥补识别策略在设计上的根本缺陷 , 如错误定义或模糊不清的识别对象、无意识下所依赖的不合理的假定等 。 学习、理解、练习使用数据和分析技术非常必要 , 但同样重要的是建立起对待数据和技术的成熟态度来避免“过度量化” 。 这样的态度至少包括以下几个方面 。
首先 , 设计驱动型研究要求在尚未见到数据之前就思考数据 , 包括识别任务需要关于什么单元、时间和维度的数据?如何取得这些数据?这些数据生成过程中可能存在什么混杂?需要获得什么信息以进行纠偏?对于无法排除的混杂因素 , 我们怎样估算出混杂带来的偏差?……总之 , 对数据的重要思考要基于研究设计而非运行特定统计模型或算法 , 更不是用便利的数据来“讲故事” 。
其次 , 对待数据的成熟态度和方式不仅是关于如何“取” 数据 , 还包括如何“舍”数据 , 即根据识别设计对数据进行修剪和舍弃 。 这听上去似乎很不“科学” , 我们不是总说让数据说话、要实事求是吗?这里的“舍”并不是无视那些不符合我们预设的数据 , 而是要剔除那些带来混杂的信息 , 防止识别偏差 。 回到GATT/WTO的例子 , 那些无法进行横向或纵向比较的“国家—年份”应该被排除在识别之外 , 因为找不到它们的近似“反事实”导致其因果效应无法合理地识别 。 换言之 , 对于完全找不到现实可比性的“案例” , 它们的因果效应无法识别 , 而要将这些案例包含在分析中就会出现前文所言的“强行识别”问题而带来偏差和有损信度 。 这告诉我们 , 对于特定的识别任务而言 , 并不是所有的实证信息都是有用的或有益的 , 不对实证信息进行选择而将可得数据机械性地纳入分析 , 也是导致“过度量化”的重要原因之一 。
最后 , 我们也要认识到 , 复杂、高端、前沿的分析技术并不一定等同于好的识别工具 , 也不一定会产生更可靠的实证结论 。 分析技术的选择要根据识别任务、识别策略和数据情况 , 并无某种普遍的高低标准 。 分析技术可以是定性的或定量的 , 可以是简单浅显的统计检验或极为复杂高深的算法 , 但其本身都不是判定社会科学实证研究质量的标准 。 在这个充满了技术崇拜的时代 , 一个很有趣的规律值得特别一提 , 那就是往往识别策略越精妙 , 需要使用到的数据分析技术越简单 。 例如 , 在随机实验或者巧妙地寻找到自然实验的识别策略下 , 数据的分析往往极为简单 , 根本无须复杂模型和精深算法 。 社会科学识别充满了复杂的混杂因素 , 需要处理复杂的数据生成过程和难以观测的因素 , 统计分析技术和算法为此提供强大的工具 。 我们并不是要反技术 , 而是不要过度依赖技术而失去对研究的审慎态度和深思熟虑 。
- 英伟达|「资讯」NV最强AI黑科技?能将文字描述一键转为逼真画像
- 蜘蛛|世界上长相恐怖但危害不高的5种动物
- |「弹指」的速度到底有多快?物理学研究揭秘:只要0.007秒!
- 36氪|36氪首发 | 「心愿盒Match Box」获百万级美元种子轮融资,用派样实现消费者体验共创
- 网易云音乐|「失物追踪」专家 Tile 被收购,曾批评苹果不公平竞争
- 蜘蛛|牡丹花下死的袋鼩,一次啪啪啪长达14个小时献出生命,它有瘾吗?
- 软件|「有手就行」无需 Root 卸载预装软件,精简过的老年机又行了
- 英伟达|「技巧」NVIDIA的“FSR”也来了!它到底如何呢?
- 移民|如果人类消失了,留下的“垃圾”何去何从?一组漫画「科普」揭秘
- 企业微信|36氪首发 | 企业微信服务商「探马SCRM」获B+轮3000万美元融资,钟鼎资本领投