|今晚报:工具变量思维



|今晚报:工具变量思维
本文插图
笔者的两位朋友曾在微信群中“抬杠” , 主题是嗜甜品与糖尿病的关系 。 A君嗜甜品 , 在最近的体检中发现血糖偏高 。 B君建议A君以后尽量远离甜品 , 但被A君“怼”回去——谁说甜品吃多了就会患上糖尿病?糖尿病也许由基因决定 , 而有糖尿病基因的人喜欢吃甜品 。
具体来说 , 虽然通过经验观察可发现 , 嗜甜品者容易患上糖尿病 , 但正如A君所言 , 这并不意味着前者是因 , 后者是果 。 那么 , 到底该如何为因果关系提供有说服力的证据呢?此时 , 工具变量思维提供了解决问题的一种思路 , 接下来我们进行举例说明 。
假设有人发现这样一个事实 , 开糖果店的人更容易患上糖尿病 。 那么 , 这一事实背后的可能逻辑是什么?一种解释是:糖果店主因获取糖果方便而容易吃太多的糖果 , 进而容易患上糖尿病;另外一种解释是:有糖尿病基因的人喜欢吃糖果 , 进而倾向于去开糖果店 。
哪一种解释更合理?答案应该是第一种解释 。 毕竟 , 人们因为喜欢吃糖果而去开糖果店 , 听起来有点匪夷所思 。 鉴于此 , 若“开糖果店的人更容易患上糖尿病”这一经验事实真的存在 , 则其有力地表明 , 嗜糖是因 , 罹患糖尿病风险上升为果 。
上述例子表明 , 当变量A(嗜糖)与B(患糖尿病风险高)具有相关性但孰因孰果难以确定时 , 我们可以通过引入第三个变量Z(开糖果店)来解决问题 。 变量Z在统计学中被称为工具变量 。 变量Z具有一大特性:在理论上 , 其影响变量A , 但与变量B没有任何直接的关系 。 在经验中 , 一旦我们观察到变量Z竟然与变量B相关 , 就可推知 , 在变量A与B中 , 前者是因 , 后者为果 。
【|今晚报:工具变量思维】最后 , 聪明的研究者利用降雨量作为工具变量 , 发现儿童过多观看电视确实有可能引发自闭症 。 其背后的逻辑是 , 降雨越多的地区 , 儿童待在室内的时间越长 , 故可能长时间观看电视 。 然而 , 在理论上 , 降雨量与自闭症应该没有任何直接关系 。 因此 , 当研究者观察到在降雨越多的地区 , 儿童罹患自闭症的风险越高 , 这就意味着过多观看电视是儿童自闭症的诱因 。