当前位置：首页 > news >正文

深圳专业网站建设制作价格低西宁企业网站营销推广

news 2025/12/20 15:35:00

深圳专业网站建设制作价格低,西宁企业网站营销推广,wordpress 微信连接,app开发公司上市来源#xff1a;AI干货知识库推断因果关系#xff0c;是人类思想史与科学史上的重要主题。现代因果推断的研究#xff0c;始于约尔-辛普森悖论#xff0c;经由鲁宾因果模型、随机试验等改进#xff0c;到朱力亚珀尔的因果革命#xff0c;如今因果科学与人工智能的结合正掀… 来源AI干货知识库推断因果关系是人类思想史与科学史上的重要主题。现代因果推断的研究始于约尔-辛普森悖论经由鲁宾因果模型、随机试验等改进到朱力亚·珀尔的因果革命如今因果科学与人工智能的结合正掀起热潮。目录1. 因果推断简介之一从 Yule-Simpson’s Paradox 讲起2. 因果推断简介之二Rubin Causal Model (RCM) 和随机化试验3. 因果推断简介之三R. A. Fisher 和 J. Neyman 的分歧4. 因果推断简介之四观察性研究可忽略性和倾向得分5. 因果推断简介之五因果图 (Causal Diagram)6. 因果推断简介之六工具变量instrumental variable7. 因果推断简介之七Lord’s Paradox8. 因果推断简介之八吸烟是否导致肺癌Fisher versus Cornfield1. 因果推断简介之一从 Yule-Simpson’s Paradox 讲起在国内的时候向别人介绍自己是研究因果推断causal inference的多半的反应是什么统计还能研究因果这确实是一个问题统计研究因果能、还是不能直接给出回答比较冒险如果有可能我需要花一些篇幅来阐述这个问题。目前市面上能够买到的相关教科书仅有 2011 年图灵奖得主 Judea Pearl 的 Causality: Models, Reasoning, and Inference。Harvard 的统计学家 Donald Rubin 和计量经济学家 Guido Imbens 合著的教科书历时多年仍尚未完成Harvard 的流行病学家 James Robins 和他的同事也在写一本因果推断的教科书本书目前只完成了第一部分还未出版。我本人学习因果推断是从 Judea Pearl 的教科书入手的不过这本书晦涩难懂实在不适合作为入门的教科书。Donald Rubin 对 Judea Pearl 提出的因果图模型causal diagram非常反对他的教科书中杜绝使用因果图模型。我本人虽然脑中习惯用图模型进行思考但是还是更偏好 Donald Rubin 的风格因为这对于入门者可能更容易。不过这一节先从一个例子出发不引进新的统计符号和概念。天才的高斯在研究天文学时首次引进了最大似然和最小二乘的思想并且导出了正态分布或称高斯分布。其中最大似然有些争议比如 Arthur Dempster 教授说其实高斯那里的似然有贝叶斯或者信仰推断fiducial inference的成分。高斯那里的 “统计” 是关于 “误差” 的理论因为他研究的对象是 “物理模型” 加“随机误差”。大约在 100 多年前Francis Galton 研究了父母身高和子女身高的 “关系”提出了“向均值回归” 的概念。众所周知他用的是线性回归模型。此时的模型不再是严格意义的“物理模型”而是“统计模型” — 用于刻画变量之间的关系而不一定是物理机制。之后Karl Pearson 提出了“相关系数”correlation coefficient。后世研究的统计大多是关于 “相关关系” 的理论。但是关于 “因果关系” 的统计理论非常稀少。据 Judea Pearl 说Karl Pearson 明确的反对用统计研究因果关系有意思的是后来因果推断为数不多的重要文章如 Rosenbaum and Rubin 1983; Pearl 1995都发表在由 Karl Pearson 创刊的 Biometrika 上。下面讲到的悖论可以说是困扰统计的根本问题我学习因果推断便是由此入门的。在高维列联表分析中有一个很有名的例子叫做 Yule-Simpson’s Paradox。有文献称Karl Pearson 很早就发现了这个悖论 ——也许这正是他反对统计因果推断的原因。此悖论表明存在如下的可能性X和Y在边缘上正相关但是给定另外一个变量Z后在Z的每一个水平上X和Y都负相关。Table 1 是一个数值的例子取自Pearl(2000)。Table 1 中第一个表是整个人群的数据接受处理和对照的人都是 40 人处理有较高的存活率因此处理对整个人群有 “正作用”。第二个表和第三个表是将整个人群用性别分层得到的因为第一个表的四个格子数分别是下面两个表对应格子数的和奇怪的是处理对男性有 “负作用”对女性也有 “负作用”。一个处理对男性和女性都有 “负作用”但是他对整个人群却有 “正作用”悖论产生了有人可能会认为这种现象是由于随机性或者小样本的误差导致的。但是这个现象与样本量无关与统计的误差也无关。比如将上面的每个格子数乘以一个巨大的正数上面的悖论依然存在。纯数学的角度上面的悖论可以写成初等数学这并无新奇之处。但是在统计上这具有重要的意义——变量之间的相关关系可以完全的被第三个变量 “扭曲”。更严重的问题是我们的收集的数据可能存在局限性忽略潜在的“第三个变量” 可能改变已有的结论而我们常常却一无所知。鉴于 Yule-Simpson 悖论的潜在可能不少人认为统计不可能用来研究因果关系。上面的例子是人工构造的在现实中也存在不少的实例正是 Yule-Simpson’s Paradox。比如UC Berkeley 的著名统计学家 Peter Bickel 教授 1975 年在 Science 上发表文章报告了 Berkeley 研究生院男女录取率的差异。他发现总体上男性的录取率高于女性然而按照专业分层后女性的录取率却高于男性 (Bickel 等 1975)。在流行病学的教科书 (如 Rothman 等 2008) 中都会讲到 “混杂偏倚”confounding bias其实就是 Yule-Simpson’s Paradox书中列举了很多流行病学的实际例子。由于有 Yule-Simpson’s Paradox 的存在观察性研究中很难得到有关因果的结论除非加上很强的假定这在后面会谈到。比如一个很经典的问题吸烟是否导致肺癌由于我们不可能对人群是否吸烟做随机化试验我们得到的数据都是观察性的数据即吸烟和肺癌之间的相关性正如 Table 1 的合并表。此时即使我们得到了吸烟与肺癌正相关也不能断言 “吸烟导致肺癌”。这是因为可能存在一些未观测的因素他既影响个体是否吸烟同时影响个体是否得癌症。比如某些基因可能使得人更容易吸烟同时容易得肺癌存在这样基因的人不吸烟也同样得肺癌。此时吸烟和肺癌之间相关却没有因果作用。相反的我们知道放射性物质对人体的健康有很大的伤害但是铀矿的工人平均寿命却不比常人短这是流行病学中有名的 “健康工人效应”healthy worker effect。这样一来似乎是说铀矿工作对健康没有影响。但是事实上铀矿的工人通常都是身强力壮的人不在铀矿工作寿命会更长。此时在铀矿工作与否与寿命不相关但是放射性物质对人的健康是有因果作用的。这里举了一个悖论但没有深入的阐释原因。阐释清楚这个问题的根本原因其实就讲清楚了什么是因果推断。这在后面会讲到。作为结束留下如下思考的问题Table 1 中处理组和对照组中男性的比例分别为多少这对悖论的产生有什么样的影响反过来考虑处理的 “分配机制”assignment mechanism计算P(Treatment∣Male)和 P(Treatment∣Female)。假如(XYZ)服从三元正态分布X和Y正相关Y和Z正相关那么X和Z是否正相关北京大学概率统计系 09 年《应用多元统计分析》期末第一题流行病学的教科书常常会讲各种悖论比如混杂偏倚 confounding bias和入院率偏倚Berkson’s bias等本质上是否与因果推断有关计量经济学中的 “内生性”endogeneity怎么定义它和 Yule-Simpson 悖论有什么联系2. 因果推断简介之二Rubin Causal Model (RCM) 和随机化试验因果推断用的最多的模型是 Rubin Causal Model (RCM; Rubin 1978) 和 Causal Diagram (Pearl 1995)。Pearl (2000) 中介绍了这两个模型的等价性但是就应用来看RCM 更加精确而 Causal Diagram 更加直观后者深受计算机专家们的推崇。这部分主要讲 RCM。设表示个体 i接受处理与否处理取1对照取0 (这部分的处理变量都讨论二值的多值的可以做相应的推广)表示个体 i的结果变量。另外记表示个体 i接受处理或者对照的潜在结果 (potential outcome)那么表示个体 i 接受治疗的个体因果作用。不幸的是每个个体要么接受处理要么接受对照中必然缺失一半个体的因果作用是不可识别的。观测的结果是。但是在Z做随机化的前提下我们可以识别总体的平均因果作用 (Average Causal Effect; ACE这是因为最后一个等式表明可以由观测的数据估计出来。其中第一个等式用到了期望算子的线性性非线性的算子导出的因果度量很难被识别)第二个式子用到了随机化即其中表示独立性。由此可见随机化试验对于平均因果作用的识别起着至关重要的作用。当Y是二值的时候平均因果作用是流行病学中常用的“风险差”risk difference; RD当然流行病学还常用“风险比”risk ratio; RR和“优势比”odds ratio; OR上面的记号都带着“C”是为了强调“causal”。细心的读者会发现定义 CRR 和 COR 的出发点和 ACE 不太一样。ACE 是通过对个体因果作用求期望得到的但是 CRR 和 COR 是直接在总体上定义的。这点微妙的区别还引起了不少人的研究兴趣。比如经济学中的某些问题受到经济理论的启示处理的作用可能是非常数的仅仅研究平均因果作用不能满足实际问题的需要。这时候计量经济学家提出了“分位数处理作用”quantile treatment effect: QTE在随机化下这个量也是可以识别的。但是其实这个量并不能回答处理作用异质性heterogenous treatment effects的问题因为处理作用非常数最好用如下的量刻画这个量刻画的是处理作用的分布。不幸的是估计需要非常强的假定通常不具有可行性。作为结束留下如下的问题“可识别性”identifiability在统计中是怎么定义的医学研究者通常认为随机对照试验randomized controlled experiment是研究处理有效性的黄金标准原因是什么呢随机化试验为什么能够消除 Yule-Simpson 悖论在随机化下是可识别的。另外一个和它“对偶”的量是 Ju and Geng (2010) 提出的分布因果作用distributional causal effect: DCE 在随机化下也可以识别。即使完全随机化也不可识别。也就是说经济学家提出的具有“经济学意义”的量很难用观测数据来估计。这种现象在实际中常常发生关心实际问题的人向统计学家索取的太多而他们提供的数据又很有限。关于 RCM 的版权需要做一些说明。目前可以看到的文献最早的是 Jerzy Neyman 于 1923 年用波兰语写的博士论文第一个在试验设计中提出了“潜在结果”potential outcome的概念。后来 Donald Rubin 在观察性研究中重新独立地提出了这个概念并进行了广泛的研究。Donald Rubin 早期的文章并没有引用 Jerzy Neyman 的文章Jerzy Neyman 的文章也不为人所知。一直到 1990 年D. M. Dabrowska 和 T. P. Speed 将 Jerzy Neyman 的文章翻译成英文发表在 Statistical Science 上大家才知道 Jerzy Neyman 早期的重要贡献。今天的文献中有人称 Neyman-Rubin Model其实就是潜在结果模型。计量经济学家如 James Heckman 称经济学中的 Roy Model 是潜在结果模型的更早提出者。在 Donald Rubin 2004 年的 Fisher Lecture 中他非常不满地批评计量经济学家因为 Roy 最早的论文中全文没有一个数学符号确实没有明确的提出这个模型。详情请见Donald Rubin 的 Fisher Lecture发表在 2005 年的 Journal of the American Statistical Association 上。研究 Causal Diagram 的学者大多比较认可 Donald Rubin 的贡献。但是 Donald Rubin 却是 Causal Diagram 的坚定反对者他认为 Causal Diagram 具有误导性且没有他的模型清楚。他与James Heckman 诺贝尔经济学奖 Judea Pearl 图灵奖和 James Robins 之间的激烈争论成为了广为流传的趣闻。3. 因果推断简介之三R. A. Fisher 和 J. Neyman 的分歧R.A.Fisher这部分谈到的问题非常微妙完全随机化试验下的 Fisher randomization test 和 Neyman repeated sampling procedure。简单地说前者是随机化检验或者如很多教科书讲的Fisher 精确检验 Fisher exact test后者是 Neyman 提出的置信区间 confidence interval理论。我初学因果推断的时候并没有细致的追求这些微妙的区别觉得了解到简介之二的层次就够了。不过在 Guido Imbens 和 Donald Rubin 所写的因果推断教科书还未出版中这两点内容放在了全书的开端作为因果推断的引子。在其他的教科书中是看不到这样的讲法的。平日里常常听到 Donald Rubin 老爷子对 Fisher randomization test 的推崇我渐渐地也被他洗脑了。Fisher 的随机化检验针对的是如下的零假设又被称为 sharp null 坦白地说这个零假设是我见过的最奇怪的零假设没有之一。现行的统计教科书中讲到假设检验零假设都是针对某些参数的而 Fisher 的 sharp null 看起来却像是针对随机变量的。这里需要讲明白的是当我们关心有限样本 finite sample的因果作用时每个个体的潜在结果都是固定的观测变量的随机性仅仅由于“随机化” 本身导致的。理解清楚这点才能理解 Fisher randomization test 和后面的 Neyman repeated sampling procedure。如果读者对于这种有限样本的思考方式不习惯可以先阅读一下经典的抽样调查教科书那里几乎全是有限样本的理论所有的随机性都来自于随机采样的过程。如果认为潜在结果是固定的数那么 Fisher sharp null 就和现行的假设检验理论不相悖。这个 null 之所以“sharp”的原因是在这个零假设下所有个体的潜在结果都固定了个体的因果作用为零唯一的随机性来自于随机化的“物理”特性。定义处理分配机制的向量为结果向量为此时有限样本下的随机化分配机制如下定义其中为处理组中的总数。这里的“条件期望”并不是说是随机变量而是强调处理的分配机制不依赖于潜在结果。比如我们选择统计量来检验零假设问题在于这个统计量的分布不易求出。但是我们又知道这个统计量的分布完全来自随机化。因此我们可以用如下的“随机化”方法 Monte Carlo 方法模拟统计量的分布将处理分配机制的向量进行随机置换得到计算此时的检验统计量如此重复多次n不大时可以穷尽所有的置换便可以模拟出统计量在零假设下的分布计算出 p 值。有人说Fisher randomization test 已经蕴含了 bootstrap 的思想似乎也有一定的道理。不过这里随机化的方法是针对一个特例提出来的。J. Neyman下面要介绍的 Neyman 的方法其实早于 Fisher 的方法。这种方法在 Neyman 1923 年的博士论文中正式提出了。这种方法假定n个个体中有m个随机的接受处理目的是估计有限总体的平均因果作用一个显然的无偏估计量是但是通常的方差估计量高估了方差构造出来的置信区间在 Neyman – Pearson 意义下太“保守”。可以证明在个体处理作用是常数的假定下上面的方差估计是无偏的。通常的教科书讲假设检验都是从正态均值的检验开始。Neyman 的方法给出了的点估计和区间估计也可以用来检验如下的零假设实际中到底是 Fisher 和零假设合理还是 Neyman 的零假设合理取决于具体的问题。比如我们想研究某项政策对于中国三十多个省的影响这是一个有限样本的问题因为我们很难想象中国的省是来自某个“超总体”。但是社会科学中的很多问题我们不光需要回答处理或者政策对于观测到的有限样本的作用我们更关心这种处理或者政策对于一个更大总体的影响。前者Fisher 的零假设更合适后者 Neyman 的零假设更合适。关于这两种角度的争论可以上述到 Fisher 和 Neyman 两人。1935 年Neyman 向英国皇家统计学会提交了一篇论文“Statistical problems in agricultural experimentation”Fisher 和 Neyman 在讨论文章时发生了激烈的争执。不过从今天的统计教育来看Neyman 似乎占了上风。用下面的问题结束在 sharp null下Neyman 方法下构造的 T 统计量是否和 Fisher randomization test 构造的统计量相同分布是否相同Fisher randomization test 中的统计量可以有其他选择比如 Wilcoxon 秩和统计量等推断的方法类似。当Y是二值变量时上面 Fisher 的方法就是教科书中的 Fisher exact test。在没有学习 potential outcome 这套语言之前理解 Fisher exact test 是有些困难的。证明。假定n个个体是一个超总体super-population的随机样本超总体的平均因果作用定义为那么 Neyman 的方法得到估计量是超总体平均因果作用的无偏估计且方差的表达式是精确的而 sharp null 在超总体的情形下不太适合。4. 因果推断简介之四观察性研究可忽略性和倾向得分这节采用和前面相同的记号。Z表示处理变量1是处理0是对照Y表示结果X表示处理前的协变量。在完全随机化试验中可忽略性成立这保证了平均因果作用可以表示成观测数据的函数因此可以识别。在某些试验中我们“先验的”知道某些变量与结果强相关因此要在试验中控制他们以减少试验的方差。在一般的有区组blocking的随机化试验中更一般的可忽略性成立因为只有在给定协变量X后处理的分配机制才是完全随机化的。比如男性和女性中接受处理的比例不同但是这个比例是事先给定的。在传统的农业和工业试验中由于随机化可忽略性一般是能够得到保证的因此在这些领域谈论因果推断是没有太大问题的。Jerzy Neyman 最早的博士论文就研究的是农业试验。但是这篇写于 1923 年的重要统计学文章迟迟没有得到统计学界的重视也没有人将相关方法用到社会科学的研究中。1970 年代Donald Rubin 访问 UC Berkeley 统计系已退休的 Jerzy Neyman 曾问起为什么没有人将潜在结果的记号用到试验设计之外正如 Jerzy Neyman 本人所说 “without randomization an experiment has little value irrespective of the subsequent treatment没有随机化的试验价值很小”人们对于观察性研究中的因果推断总是抱着强烈的怀疑态度。我们经常听到这样的声音统计就不是用来研究因果关系的在第一讲 Yule-Simpson 悖论的评论中有人提到了哲学史上的休谟问题我的转述人类是否能从有限的经验中得到因果律这的确是一个问题这个问题最后促使德国哲学家康德为调和英国经验派休谟和大陆理性派莱布尼兹-沃尔夫而写了巨著《纯粹理性批判》。其实如果一个人是绝对的怀疑论者如休谟他可能怀疑一切甚至包括因果律所以康德的理论也不能完全“解决”休谟问题。怀疑论者是无法反驳的他们的问题也是无法回答的。他们存在的价值是为现行一切理论起到警示作用。一般来说统计学家不会从过度哲学的角度谈论问题。从前面的说明中可以看出统计中所谓的“因果”是“某种”意义的“因果”即统计学只讨论“原因的结果”而不讨论“结果的原因”。前者是可以用数据证明或者证伪的后者是属于科学研究所探索的。用科学哲学家卡尔·波普的话来说科学知识的积累是“猜想与反驳”的过程“猜想”结果的原因再“证伪”原因的结果如此循环即科学。下面谈到的是在什么样的条件下观察性研究也可以推断因果。这是一切社会科学所关心的问题。答案是可忽略性即。在可忽略性下ACE可以识别因为从上面的公式来看似乎我们的任务是估计两个条件矩E{Y|X, Zz}(z0,1). 这就是一个回归问题。不错这也是为什么通常的回归模型被赋予“因果”含义的原因。如果我们假定可忽略性和线性模型成立那么就表示平均因果作用。线性模型比较容易实现实际中人们比较倾向这种方法。但是他的问题是1假定个体因果作用是常数2对于处理和对照组之间的不平衡unbalance没有很好的检测常常在对观测数据外推extrapolation。上面的第二条是线性回归最主要的缺陷。在 Donald Rubin 早期因果推断的文献中推崇的方法是“匹配”matching。一般来说我们有一些个体接受处理另外更多的个体接受对照简单的想法就是从对照组中找到和处理组中比较“接近”的个体进行匹配这样得出的作用可以近似平均因果作用。“接近”的标准是基于观测协变量的比如如果某项研究性别是唯一重要的混杂因素我们就将处理组中的男性和对照组中的男性进行匹配。但是如果观测协变量的维数较高匹配就很难实现了。现有的渐近理论表明匹配方法的收敛速度随着协变量维数的增高而线性的衰减。后来 Paul Rosenbaum 到 Harvard 统计系读 Ph.D.在 Donald Rubin 的课上问到了这个问题。这就促使两人合作写了一篇非常有名的文章于 1983 年发表在 Biometrika 上“The central role of the propensity score in observational studies for causal effects”。倾向得分定义为容易验证在可忽略性下它满足性质在数据降维的文献中称之为“充分降维”sufficient dimension reduction 和给定倾向得分下的可忽略性。根据前面的推导显然有 ACEE[E(Y|e(X), Z1)]-E[E(Y|e(X),Z0)] 。此时倾向得分是一维的我们可以根据它分层 Rosenbaum 和 Rubin 建议分成 5 层得到平均因果作用的估计。连续版本的分层就是下面的加权估计不过不管是分层还是加权第一步我们都需要对倾向得分进行估计通常的建议是 Logistic 回归。甚至有文献证明的下面的“离奇”结论使用估计的倾向得分得到平均因果作用的估计量的渐近方差比使用真实的倾向得分得到的小。熟悉传统回归分析的人会感到奇怪直接将 Y对 Z和 X做回归的方法简单直接为何要推荐倾向得分的方法呢确实读过 Rosenbaum 和 Rubin 原始论文的人一般会觉得这篇文章很有意思但是又觉得线性回归或者 logistic 回归足矣何必这么复杂在因果推断中我们应该更加关心处理机制也就是倾向得分。按照 Don Rubin 的说法我们应该根据倾向得分来“设计”观察性研究按照倾向得分将人群进行匹配形成一个近似的“随机化试验”。而这个设计的过程不能依赖于结果变量甚至在设计的阶段我们要假装没有观察到结果变量。否则将会出现如下的怪现象社会科学的研究者不断地尝试加入或者剔除某些回归变量直到回归的结果符合自己的“故事”为止。这种现象在社会科学中实在太普遍了结果的回归模型固然重要但是如果在 Y模型上做文章很多具有“欺骗性”的有偏结果就会出现在文献中。这导致大多数的研究中因果性并不可靠。讲到这里我们有必要回到最开始的 Yule-Simpson’s Paradox。用Z表示处理1表示处理0表示对照Y表示存活与否1是表示存活0表示死亡X表示性别1表示男性0表示女性。目前我们有处理“因果作用”的两个估计量一个不用性别进行加权调整另一个用性别进行加权调整由于此时协变量是一维的倾向得分和协变量本身存在一一对应用倾向得分调整结果相同见下面问题 1其中表示相应的矩估计。是否根据性别进行调整对结果有本质的影响。当时第一个估计量是因果作用的相合估计当时第二个估计量是因果作用的相合估计。根据实际问题的背景我们应该选择哪个估计量呢到此为止回答这个问题有些似是而非选择调整的估计量更进一步的回答请听下回分解因果图causal diagram。作为结束留下如下的问题如果X是二值的变量如性别那么匹配或者倾向的分都导致如下的估计量:这个公式在流行病学中非常基本即根据混杂变量进行分层调整。在后面的介绍中将讲到这个公式被 Judea Pearl 称为“后门准则”backdoor criterion。倾向得分的加权形式本质上是抽样调查中的 Horvitz-Thompson 估计。在流行病学的文献中这样的估计量常被称为“逆概加权估计量”inverse probability weighting estimator; IPWE。直观上为什么估计的倾向得分会更好想想偏差和方差的权衡bias-variance tradeoff。关于“可忽略性”ignorability需要做一些说明。在中文翻译的计量经济学教科书中这个术语翻译存在错误比如 Wooldridge 的 Econometric Analysis of Cross Section and Panel Data 的中译本中“可忽略性”被翻译成“不可知”。子曰“名不正则言不顺言不顺则事不成。”在 Rubin (1978) 中“可忽略性”这个概念是在贝叶斯推断的框架下提出来的当处理的分配机制满足这样的条件时在后验的推断中可将分配机制“忽略”掉。在传统的贝叶斯看来所有的推断都是条件在观测数据上的那么为什么处理的分配机制会影响贝叶斯后验推断呢Donald Rubin 说当时连 Leonard Jimmie Savage 和 Dennis Victor Lindley 都在此困惑不解他 1978 年的文章原意就是为了解释为什么随机化会影响贝叶斯推断。“可忽略性” 这个名字最早是在缺失数据的文献中提出来的。当缺失机制是随机缺失missing at randomMAR且模型的参数与缺失机制的参数不同时缺失机制“可忽略”ignorable。“可忽略”是指缺失机制不进入基于观测数据的似然或者贝叶斯后验分布。5. 因果推断简介之五因果图 (Causal Diagram)这部分介绍 Judea Pearl 于 1995 年发表在 Biometrika 上的工作 “Causal diagrams for empirical research”这篇文章是 Biometrika 创刊一百多年来少有的讨论文章Sir David CoxGuido Imbens, Donald Rubin 和 James Robins 等人都对文章作了讨论。由于 Judea Pearl 最近刚获得了图灵奖我想他的工作会引起更多的关注事实上计算机界早就已经过度的关注了。一、有向无环图和 do 算子为了避免过多图论的术语这里仅仅需要知道有向图中“父亲”和“后代”的概念有向箭头上游的变量是“父亲”下游的变量是“后代”。在一个有向无环图Directed Acyclic GraphDAG中记所有的节点集合为。这里用表示连续变量的密度函数和离散变量的概率函数。有两种观点看待一个 DAG一是将其看成表示条件独立性的模型二是将其看成一个数据生成机制。当然本质上这两种观点是一样的。在第一种观点下给定 DAG 中某个节点的“父亲”节点它与其所有的非“后代”都独立。根据全概公式和条件独立性DAG 中变量的联合分布可以有如下的递归分解其中表示的“父亲”集合即所有指向的节点集合。Figure 1: An Example of Causal Diagram例子在 Figure 1 中联合分布可以分解成为如果将 DAG 看成一个数据生成机制那么它和下面的非参数结构方程模型是等价的注意这个联立方程组是“三角的”triangular或者“递归的”recursive因为 DAG 中没有环方程组中也就没有反馈。计量经济学中的联立方程组模型 simultaneous equation model: SEM并不在这个讨论的框架下。DAG 用于描述数据的生成机制而不常用于描述系统均衡时的状态后者主要是 SEM 的目的。这样描述变量联合分布或者数据生成机制的模型被称为“图模型”或者“贝叶斯网络”Bayesian network。显然一个有向无环图唯一地决定了一个联合分布反过来一个联合分布不能唯一地决定有向无环图。反过来的结论不成立对我们的实践有很重要的意义比如 Figure 2 中的两个有向无环图原因和结果不同图的结构也不同但是我们观测到的联合分布可以有两种分解和因此我们从观测变量的联合分布很难确定“原因”和“结果”。在下一节图模型结构的学习中我们会看到只有在一些假定和特殊情形下我们可以从观测数据确定“原因”和“结果”。用一个 DAG 连表示变量之间的关系并不是最近才有的。图模型也并不是 Judea Pearl 发明的。但是早期将图模型作为因果推断的工具成果并不深刻大家也不太清楚仅仅凭一个图怎么能讲清楚因果关系。教育、心理和社会学中常用的结构方程模型structural equation model: SEM就是早期的尝试甚至可以说 SEM 是因果图的先驱。注意这里出现的两个 SEM 表示不同的模型DAG 中的箭头似乎表示了某种“因果关系”。但是要在 DAG 上引入“因果”的概念则需要引进 do 算子do 的意思可以理解成“干预” intervention。没有“干预”的概念很多时候没有办法谈因果关系。在 DAG 中也可以记做表示如下的操作将中指向的有向边全部切断且将的取值固定为常数. 如此操作得到的新的联合分布可以记做可以证明干预后的联合分布为请注意在绝大多数情况下是不同的。例子考虑如下的两个 DAG在 Figure 2 (1) 中有。由于的“原因”“条件”和“干预对应的分布相同。但是在 Figure 2 (2) 中有. 由于的“结果”“条件”或者“给定”“结果”“原因”的分布不再等于他的边缘分布但是人为的“干预”“结果并不影响“原因的分布。根据 do 算子便可以定义因果作用。比如二值的变量对于的平均因果作用定义为上面 do 算子下的期望分别对应 do 算子下的分布。这样在 do 算子下定义的因果模型被已故计量经济学家 Halbert White 称为 Pearl Causal Model (PCM; White and Chalak 2009)。Pearl 在其书中写到“I must take the opportunity to acknowledge four colleagues who saw clarity shining through the do(x) operator before it gained popularity: Steffen Lauritzen, David Freedman, James Robins and Philip David. Phil showed special courage in pringting my paper in Biometrika, the journal founded by causality’s worst adversary – Karl Pearson.” (Pearl, 2000)在书中 Pearl 论述了 RCM 和 PCM 的等价性即其中表示潜在结果。要想说明两个模型的等价性可以将潜在结果嵌套在 DAG 所对应的数据生成机制之中所有的潜在结果都由这个非参数结构方程模型产生其中表除的父亲节点。上面的方程表示的值强制z时DAG 系统所产生值。这个意义下do 算子导出的结果就是“潜在结果”。二、 d分离前门准则和后门准则在上面的叙述中如果整个 DAG 的结构已知且所有的变量都可观测那么我们可以根据上面 do 算子的公式算出任意变量之间的因果作用。但是在绝大多数的实际问题中我们既不知道整个 DAG 的结构也不能将所有的变量观测到。因此仅仅有上面的公式是不够的。下面我将介绍 Judea Pearl 提出的“后门准则”backdoor criterion和“前门准则”frontdoor criterion。这两个准则的意义在于1某些研究中即使 DAG 中的某些变量不可观测我们依然可以从观测数据中估计出某些因果作用2这两个准则有助于我们鉴别“混杂变量”和设计观察性研究。下面的讨论中“可识别性”这个概念将被频繁的使用。因果推断中的识别性和传统统计中的识别性定义是一致的。统计中如果两个不同的模型参数对应不同的观测数据的分布那么我们称模型的参数可以识别。这里如果因果作用可以用观测数据的分布唯一的表示那么我们称因果作用是可以识别的。前门准则和后门准则都涉及了 d 分离d-seperation的概念。定义d 分离: 设是 DAG 中不相交的节点集合为一条连接中某节点到中某节点的路径不管方向。如果路径上某节点满足如下的条件在路径上w点处为v 结构或称冲撞点collider且W及其后代不在Z中在路径上w点处不是v 结构且 w在中,那么称Z阻断 (block) 了路径。进一步如果 Z阻断了X到 Y的所有路径那么称 z d 分离 X和Y记为下面介绍 Pearl (1995) 的主要工作后门准则和前门准则。后门准则在 DAG 中如果如下条件满足Z中节点不能是的后代Z阻断了之间所有指向的路径这样的路径可以称为后门路径则称变量的集Z相对于变量的有序满足D对后门准则。进一步Z相对于变量的有序满足后门准则其中是中的任意节点那么称变量的集Z相对于节点集合的有序对满足后门准则。Pearl (1995) 证明若存在一个变量集Z相对满足后门准则那X和Y的因果作用是可以识别的且为了理解因果图的概念下面的简短证明是很有必要的。证明在 Figure 3 (a) 中从上面可以看出上面的后门准则和可忽略性假定下 ACE 的识别公式一样都是用Z 做调整 (adjustment)先分层再加权求和。这条结论在 Rosenbaum and Rubin (1983) 之后提出且流行病学家也都用这样的调整方法控制混杂因素因此对很多统计学家和流行病学家来说并不新奇。比较新颖的结论是下面的前门准则。前门准则在 DAG 中称节点的集合Z 相对于有序对满足前门准则如果Z切断了所有 X到Y 的直接路径X到Z 没有后门路径所有 Z到Y 的后门路径都被X 阻断。此时如果 X和Y的因果作用可识别为证明Figure 3 (b) 中蕴含了条件独立性将在推导中用到。这个前门路径看似很难理解证明似乎很不直观恰似变魔术。但是它其实是很显然的在前门路径的 DAG 中我们有1X对Z的因果作用可识别因为Y阻断了它们之间的后门路径2Z对Y的因果作用可识别因为X阻断了他们的后门路径3X对Y的作用仅仅通过Z而产生。这三点蕴含着X对Y的因果作用可识别——这样看来这个结论就不奇怪了Pearl 在书中讲了一个非常有趣的例子来说明前门准则的用处。例子我们关心吸X和肺之间的因果关系。由于一个潜在的不可观测的基因 U 的存在吸烟和肺癌之间有一条“活”的后门路径因此不借助其他的条件我们无法识别吸烟与肺癌的因果关系。如果我们有这样的知识“吸烟X 仅仅通过肺部烟焦油的含量 Z来影响肺癌Y ”那么吸烟对肺癌的因果作用就可以估计出来了。不过这里需要两个条件也就是在证明中使用的两个条件独立性他们表明1吸烟 X 和肺部烟焦油的含量 Z 之间没有“活”的后门路径或者没有混杂因素2吸烟 X对肺癌Y 的作用仅仅来源于吸烟 X对肺部烟焦油 Z的作用或者说吸烟 X对肺癌Y 没有“直接作用”。例子在 Figure 1 的 DAG 中之间的后门路径被或者阻断而前门路径被阻断。上面的两个准则表明要识别从的因果作用我们不需要观测到所有的变量只需要观测到切断后门路径或者前门路径的变量即可。三、回到 Yule-Simpson’s Paradox在第一节中我们看到了经典的 Yule-Simpson’s Paradox。记T 为处理吃药与否Y为结果存活与否X 是用于分层的变量在最开始的例子中X 是性别在这里我们先将 X简单地看成某个用于分层的变量。悖论存在是因为T 和 Y正相关但是按照X的值分层后 T和Y 负相关。分还是不分—–这是一个问题这在实际应用是非常重要的问题。不过仅仅从“相关”association的角度讨论这个问题是没有答案的。从“因果”causation的角度来看才能有确切的回答。解释 Yule-Simpson’s Paradox算是因果图的第一个重要应用。下面我将以上面的 Figure 4 中的四个图为例说明三个变量之间的关系的复杂性。图a根据后门准则 X阻断了 T到Y 的后门路径因此根据 X做调整可以得到 T对Y的因果作用。如果实际问题符合图a那么我们需要用调整后的估计量。图bX是T的“后代”且是Y 的“父亲”。很多地方称此时 X处于 T到Y 的因果路径上。直观的看如果忽略X那么 T和 Y之间的相关性就是 T对 Y的因果作用因为 T和Y 之间的后门路径被空集阻断我们无须调整。如果此时我们用X 进行调整那么得到的是T 到Y 的“直接作用”。不过什么是“直接作用”我们将会在后面讨论这里只是给一个形象的名字。图c和图b相同 T和Y 之间的相关性就是因果作用。但是复杂性在于 X和Y 之间有一个共同的但是不可观测的原因U。此时不调整的相关性是一个因果关系的度量。但是如果我们用X 进行调整那么给定 X 后T和 U相关T和Y 之间的后门路径被打通我们得到的估计量不再具有因果的含义。这种现象发生的原因是之间形成了一个V结构虽然 T和U之间是独立的但是给定 X之后T和U不再独立。图d这个图常常被 Judea Pearl 用来批评 Donald Rubin因为它存在一个有趣的M 结构。在这个图中由于 V结构的存在T和Y 之间的后门路径被空集阻断因此T 和 Y之间的相关性就是因果性。但是由于M 结构的存在当我们用 X进行调整的时候 U和W 之间打开了一条“通路”它们不再独立因此 T和 Y之间的后门路径被打通此时 T和Y 之间的相关性不再具有因果的含义。我个人认为因果图是揭开 Yule-Simpson’s Paradox 神秘面纱的有力工具。正如 Judea Pearl 在他的书中写到不用因果的语言来描述这个问题我们是讲不清楚这个悖论的。当然因果的语言不止因果图Judea Pearl 的解释始终不能得到 Donald Rubin 的认可。四、讨论用一个图来描述变量之间的因果关系是很自然和直观的事情。但是这并不意味着 Pearl 的理论是老妪能解的。事实上这套基于 DAG 的因果推断的语言比传统的 Neyman-Rubin 模型要晦涩很多。DAG 在描述因果关系的时候常常基于很多暗含的假定而并不明说这也是 DAG 并没有被大家完全接受的原因。传统的因果推断的语言开始于 Jerzy Neyman 的博士论文Donald Rubin 发展这套“潜在结果”的语言并将它和缺失数据的理论联系在一起成为统计界更多使用的语言。在实际中人们对于图模型的批评从未中断。主要的问题集中在如下的方面现实的问题是否能用一个有向无环图表示大多数生物学家看到 DAG 的反应是“能不能用图表示反馈”的确DAG 作为一种简化的模型在复杂系统中可能不完全适用。要想将 DAG 推广到动态的系统或者时间序列中还有待研究。Pearl 引入的 do 算子是他在因果推断领域最主要的贡献。所谓 “do”就是“干预”Pearl 认为干预就是从系统之外人为的控制某些变量。但是这依赖于一个假定干预某些变量并不会引起 DAG 中其他结构的变化。这个假定常常会受到质疑但是质疑归质疑Pearl 的这个假定虽然看似很强但根据观测数据却不可检验。这种质疑并不是 Pearl 的理论独有的缺陷这事实上是一切研究的缺陷。比如我们用完全随机化试验来研究处理的作用我们要想将实验推广到观察性的数据或者更大的人群中去也必须用到一些不可验证的假定。很多人看了 Pearl 的理论后就嘲笑他难道我们可以在 DAG 中干预“性别”确实离开了实际的背景干预性别似乎是不太合理的。那这个时候根据 Pearl 的 do算子得到的因果作用意味着什么呢可以从几个方面回答这个问题。很多问题我们不能谈论“干预性别”也不能谈论“性别”的“因果作用”。“性别”的特性是“协变量”covariate对于这类变量如身高、肤色等谈论因果作用不合适因为我们不能想象出一个可能的“实验”干预这些变量。上面的回答基于“实验学派”experimentalists’的观点认为不可干预就没有“因果”。但是如果认为只要有数据的生成机制就有因果关系那么算出性别的因果作用也不奇怪。计量经就学一直有争议以 Joshua Angrist、Guido Imbens 等为首的“实验派”和以 James Heckman 为首的“结构方程模型”派有过很激烈的讨论。有些问题中性别的因果作用是良好定义的。比如我们可以人工的修改应聘者简历上的名字随机的使用男性和女性名字便可以研究性别对于求职的影响是否存在性别歧视等等已有研究使用过这种实验设计。一个更为严重的问题是实际工作中我们很难得到一个完整的 DAG用于阐述变量之间的因果关系或者数据生成机制使得 DAG 的应用受到的巨大的阻碍。不过从观测数据学习 DAG 的结构确实是一个很有趣且重要的问题这留待下回分解。在结束时留些一些思考的问题在何种意义下后门准则的条件等价于可忽略性即?在第一节的 Yule-Simpson’s Paradox 中我们最终选择调整的估计量还是不调整的估计量6. 因果推断简介之六工具变量instrumental variable 为了介绍工具变量我们首先要从线性模型出发。毫无疑问线性模型是理论和应用统计包括计量经济学和流行病学等最重要的工具对线性模型的深刻理解可以说就是对一大半统计理论的理解。下面的第一部分先对线性模型尤其是线性模型背后的假设做一个回顾。一、线性回归和最小二乘法线性模型和最小二乘的理论起源于高斯的天文学研究“回归”regression这个名字则是 Francis Galton 在研究优生学的时候提出来的。为了描述的方便我们假定回归的自变量只有一维比如个体 ii 是否接受某种处理吸烟与否参加某个工作等等记为 Di。回归的因变量也是一维表示我们关心的结果是否有肺癌是否找到工作培训与否等等记为Yi。假定我们的研究中有 n 个个体下面的线性模型用于描述 D 和 Y 之间的 “关系”一般情形下我们假定个体间是独立的。模型虽简单我们还是有必要做一些解释。首先我们这里的讨论都假定 Di 是随机变量对应统计学中的随机设计 random design的情形这和传统统计学中偏好的固定设计fixed design有点不同—那里假定 Di总是固定的。统计学源于实验设计那里的解释变量都是可以控制的因此统计学教科书有假定固定设计的传统。假定 Di是随机的既符合很多社会科学和流行病学的背景又会简化后面的讨论。另外一个问题是 εi它到底是什么含义Rubin 曾经嘲笑计量经济学家的 εi道为了使得线性模型的等式成立计量经济学家必须加的一项就叫 εi。批评的存在并不影响这个线性模型的应用关键的问题在于我们在这个 εi上加了什么假定呢最根本的假定是不同的教科书稍有不同比如 Wooldridge 的书上假定E(εi∣Di)0很显然这蕴含着上面两个假定。零均值的假定并不强因为 αα“吸收”了 εiεi的均值关键在第二个协方差为零的假定—它通常被称为 “外生性”exogeneity假定。在这个假定下我们在 (1) 的两边关于 Di 取协方差便可以得到cov(Yi,Di)βvar(Di),因此βcov(Yi,Di)/var(Di)我们立刻得到了矩估计上面的估计式也是通常的最小二乘解这里只是换了一个推导方式。如果将 (1) 看成一个数据生成的机制在假定 (2) 下我们的确可以估计出因果作用 β.二、内生性和工具变量问题的关键是假定 (2) 很多时候并不成立cov(Di,εi)≠0比如吸烟的人群和不吸烟的人群本身很不相同参加工作培训的人可能比不参加工作培训的人有更强的找工作动机等等。因此包含个体 ii其他所有隐藏信息的变量 εiεi不再与 DiDi不相关了—这被称为 “内生性”endogeneity。这个时候最小二乘估计收敛到 βcov(D,ε)/var(D), 因而在 cov(D,ε)≠0时不再是β的相合估计。前面几次因果推断的介绍中提到完全的随机化实验可以给我们有效的因果推断。但是很多问题中强制性的随机化实验是不现实或者不符合伦理的。比如我们不能强制某些人吸烟或者不吸烟。但是“鼓励性实验”依然可行。我们可以随机地给吸烟的人以某种金钱的奖励如果他们放弃吸烟则获得某种经济上的优惠。将这个 “鼓励性” 的变量记为 Zi它定义为是否被鼓励的示性变量取值 0-1。由于我们的鼓励是完全随机的有理由假定 cov(Zi,εi)0。以上的各个假定可以用下面的一个图来形象的描述。如图所示由于DD和YY之间存在一个混杂因素UU两者之间的因果作用是不可以用线性回归相合估计的。工具变量ZZ的存在使得DD到YY的因果作用的识别成为了可能。这里的工具变量ZZ满足如下的条件: Z⊥U,Z⊥DZ⊥U,Z⊥̸D并且 Z⊥Y|(D,U)Z⊥Y|(D,U)。第三个条件可以理解成为 “无 Z到 Y的直接作用”。此时我们在线性模型 (1) 两边关于 Zi 取协方差得到cov(Zi,Yi)βcov(Zi,Di)因此βcov(Zi,Yi)cov(Zi,Di)我们立刻得到如下的矩估计根据大数定律这个 “工具变量估计” 是 β的相合估计量。上面的式子对一般的 Zi都是成立的当 Zi是 0-1 变量时上面的式子可化简成其中Y¯1表示 Zi1组的平均结果Y¯1表示 Zi0组的平均结果关于 DD的定义类似。上面的估计量很多时候被称为 Wald 估计量它的直观含义是什么呢需要注意的是(3) 要求 cov(Zi,Di)≠0即 “鼓励” 对于改变人的吸烟行为是有效的否则上面的工具变量估计量在大样本下趋于无穷大。三、潜在结果视角下的因果作用工具变量估计量在文献中存在已有很多年了一直到了 Angrist, Imbens and Rubin (1996) 年的文章出现才将它和潜在结果视角下的因果推断联系起来。关于 Neyman 引进的潜在结果需要回顾这一系列的第二篇文章。一般地 Z 表示一个 0-1 的变量表示随机化的变量1 表示随机化分到非鼓励组0 表示随机化分到鼓励组D 表示最终接受处理与否1 表示接受处理0 表示接受对照Y 是结果变量。为了定义因果作用我们引进如下的潜在结果(Yi(1),Yi(0)) 表示个体 i 接受处理和对照下 Y 的潜在结果(Di(1),Di(0)) 表示个体 i 非鼓励组和鼓励组下 D 的潜在结果。由于随机化下面的假定自然的成立随机化Zi⊥{Di(1),Di(0),Yi(1),Yi(0)}.根据鼓励性实验的机制个体在受到鼓励的时候更加不可能吸烟因为下面的单调性也是很合理的单调性Di(1)≤Di(0).由于个体的结果 YY 直接受到所受的处理 DD 的影响而不会受到是否受鼓励 ZZ 的影响下面的排除约束exclusion restriction的假定很多时候也是合理的排除约束Di(1)Di(0) 蕴含着 Yi(1)Yi(0).上面的假定表明当随机化的 “鼓励”ZZ 不会影响是否接受处理 DD时随机化的 “鼓励” ZZ 也不会影响结果变量 YY。也可以理解成随机化的 “鼓励” ZZ 仅仅通过影响是否接受处理 DD 来影响结果 YY或者说随机化 “鼓励” ZZ 本身对与结果变量 YY没有“直接作用”。以上三个假定下我们得到单调使得 D 的潜在结果的组合只有三种排除约束假定使得上面分解的后两个式子为0。由于对于(Di(1)0,Di(0)0) 和(Di(1)1,Di(0)1)两类人随机化的 “鼓励” 对于 D的作用为 0(Di(1)1,Di(0)0)一类人的比例就是Z对D平均因果作用ACE(Z→D)P{Di(1)1,Di(0)0}. 因此上面的式子被定义为 CACE 是有理由的。它表示的是子总体 (Di(1)1,Di(0)0) 中随机化对于结果的因果作用由于这类人中随机化和接受的处理是相同的它也表示处理对结果的因果作用。这类人接受处理与否完全由于是否接受鼓励而定他们被成为 “依从者”complier因为这类人群中的平均因果作用又被成为 “依从者平均因果作用”CACEcomplier average causal effect; 计量经济学家称它为 “局部处理作用”LATElocal average treatment effect由于ZZ是随机化的它对于DD和YY的平均因果作用都是显而易见可以得到的。因为CACE 的一个矩估计便是由此可见工具变量估计量的因果含义。上面的讨论既显示了工具变量对于识别因果作用的有效性也揭示了它的局限性我们只能识别某个子总体的平均因果作用而通常情况下我们并不知道某个个体具体属于哪个子总体。四、实例这部分给出具体的例子来说明上述理论的应用具体计算用到了第五部分的一个函数其中包括用 delta 方法算的抽样方差。这里用到的数据来自一篇政治学的文章 Green et al. (2003) “Getting Out the Vote in Local Elections: Results from Six Door-to-Door Canvassing Experiments”数据点击此处可以在此下载。文章目的是研究某个社会实验是否能够提高投票率实验是随机化的但是并非所有的实验组的人都依从。因此这里的变量 ZZ 表示随机化的实验DD 表示依从与否YY 是投票与否的示性变量。具体的数据描述可参加前面提到的文章。原始数据总结如下根据下一个部分的函数我们得到如下的结果CACE.IV(Y, D, Z)$CACE[1] 0.07914375$se.CACE [,1][1,] 0.02273439$p.value [,1][1,] 0.0004991073$prob.complier[1] 0.2925123$se.complier[1] 0.004871619 由此可见这个实验对于提高投票率有显著的作用。五、R code## function for complier average causal effectCACE.IV - function(outcome, treatment, instrument) { Y - outcome D - treatment Z - instrument N - length(Y)Y1 - Y[Z 1] Y0 - Y[Z 0] D1 - D[Z 1] D0 - D[Z 0]mean.Y1 - mean(Y1) mean.Y0 - mean(Y0) mean.D1 - mean(D1) mean.D0 - mean(D0)prob.complier - mean.D1 - mean.D0 var.complier - var(D1) / length(D1) var(D0) / length(D0) se.complier - var.complier^0.5CACE - (mean.Y1 - mean.Y0) / (mean.D1 - mean.D0)## COV pi1 - mean(Z) pi0 - 1 - pi1Omega - c( var(Y1) / pi1, cov(Y1, D1) / pi1, 0, 0, cov(Y1, D1) / pi1, var(D1) / pi1, 0, 0, 0, 0, var(Y0) / pi0, cov(Y0, D0) / pi0, 0, 0, cov(Y0, D0) / pi0, var(D0) / pi0 ) Omega - matrix(Omega, byrow TRUE, nrow 4)## Gradient Grad - c(1, -CACE, -1, CACE) / (mean.D1 - mean.D0)COV.CACE - t(Grad) %*% Omega %*% Grad / Nse.CACE - COV.CACE^0.5p.value - 2 * pnorm(abs(CACE / se.CACE), 0, 1, lower.tail FALSE)## results res - list( CACE CACE, se.CACE se.CACE, p.value p.value, prob.complier prob.complier, se.complier se.complier )return(res)} 7. 因果推断简介之七Lord’s Parado在充满随机性的统计世界中悖论无处不在。这一节介绍一个很有名但是在中文统计教科书中几乎从未介绍过的悖论。这个悖论是 Educational Testing Service (ETS) 的统计学家 Frederic Lord 于 1967 年提出来的最终由同在 ETS 工作的另外两位统计学家 Paul Holland 和 Donald Rubin 于 1982 年圆满地找出了这个悖论的根源。这部分先介绍这个悖论再介绍 Holland 和 Rubin 的解释最后是一些结论。一、Lords Paradox考虑下面一个简单例子具体的数字是伪造的。某个学校想研究食堂对于学生体重是否有差异性的影响尤其关心食堂对于男女学生体重影响是否相同。于是统计学家们收集了如下的数据学生的性别GG学生在 1963 年 6 月入学时候的体重XX学生在 1964 年 6 月放暑假时候的体重YY。第一个统计学家采取了一种很简单的方法。如图所示横轴表示 1963 年 6 月入学前的体重X纵轴表示 1964 年 6 月前放假的体重Y。个体上来看男女入学前和入学后一年体重都会有些变化男女学生体重的散点图分别用绿色和红色标出。从男女学生生平均体重来看男生入学前后一年平均体重均是 150 磅图中右上角的黑点女生入学前后一年平均体重均为 130 磅图中左下角的黑点。图中的虚线是对角线YX两个黑点均位于对角线上。因此第一个统计学家的结论是食堂对于男女学生体重都没有影响因此对男女学生体重的作用相同。注横轴表示 1963 年 6 月入学前的体重X纵轴表示 1964 年 6 月前放假的体重Y虚线是对角线YX男女学生体重的散点图分别用绿色和红色标出。图中数据生成机制如下男学生(X,Y)~二元正态分布均值(150,150)协方差矩阵;女学生(X,Y)~二元正态分布均值(130,130)协方差矩阵。生成这幅图的 R 代码可以在这里下载Rcodehttps://uploads.cosx.org/2013/09/Rcode2.txt。由于样本量 3000样本均值非常接近理论均值因此落在了对角线上。)(150,150)生成这幅图的 R 代码可以在这里下载Rcode。由于样本量 3000样本均值非常接近理论均值因此落在了对角线上。)第二个统计学家由于受到了高等的统计训练知道 R A Fisher 的 Analysis of Covariance (ANCOVA) 提出了更加复杂的方法。他认为我们的分析应该控制入学前的体重做如下的线性回归他进一步认为上面线性回归的系数 βgβg 反应的就是男女的差别。用最小二乘法拟合上面的回归模型等价于在男女学生中拟合两条平行的回归直线。如图所示两条直线斜率 βxβx 相同但是截距不同截距之差就是回归系数ˆβg6.34β^g6.34。结论是食堂对于男女体重有差别性的影响。这两位统计学家得到了不同的结论究竟谁对谁错呢Lord 称这个现象为悖论那么悖论的根源是什么呢二、悖论的根源因果推断视角下的解释要想解释这个悖论使用线性回归模型益处不大因为究竟能否将回归系数解释成因果作用是个根本性的问题。在下面的讨论中我们假定数据的样本量足够大因而可以忽略小样本带来的随机性也可以认为整个讨论都在总体上进行。和前面一样我们用Gi表示个体i的性别男性取值为 1 女性取值为 0Xi是个体 i在 1963 年 9 月的体重。由于这两个变量都发生在接受处理在食堂进餐与否之前它们都可以看成是协变量不受处理的影响。我们采用潜在结果模型定义 { Yi(1), Yi(0) } 是个体 $i$ 在食堂进餐和不在食堂进餐下于 1964 年六月体重的潜在结果。如果用T表示在食堂进餐与否的变量那么每个学生都是T1。当写下潜在结果之后我们就发现问题的根源之一是整个研究根本不存在对照组全体学生其实都在食堂进餐每个个体在 1964 年 6 月都取值Y(1)(也就是前面的记号Y)。食堂对于男女学生体重平均因果作用的差是上面的推导虽然简单但是将 ΔΔ 分成了两个显著不同的部分第一个方括号内的项是我们能够从观测数据中得到的第二个方括号中的项是我们不可观测的因为没有任何一个学生接受了食堂之外的处理。如果我们假定 Y(0)XY(0)X也就是说如果学生不来食堂进餐他们的体重将和入学前一样那么根据上面的图和统计学家一的推理逻辑我们知道Δg0(g0,1)Δg0(g0,1)男女学生的体重不受处理影响那么Δ0Δ0处理对于男女体重没有差异性的影响。在这个假定下第一个统计学家的断言是正确的。显然假定 Y(0)XY(0)X是无法被数据证明或者证伪的它只能依赖于我们的先验知识。那么在什么假定下第二个统计学家又是对的呢根据第二个统计学家做 ANCOVA 的逻辑他可以假定并且把δa1–a0δa1–a0当成食堂对于男女体重差异作用的度量。δδ 其实就是上面的线性回归模型(∗)的回归系数 βg。如果我们假定 Y(0)αbXY(0)αbX那么不去食堂进餐时的潜在体重Y(0)是入学前体重 XX 的线性函数且截距是 bb这表明Y(1)Y(1) 和 Y(0) 关于 XX 的模型仅仅截距不同斜率相同。这个假定并非不可能。此时最后一行等于 δδ因为根据条件期望的性质方括号中的两项分别是 a1a1 和 a0a0这样一来第二个统计学家的结论就是正确的。三、结论根据上面的讨论关于 Lord’s Paradox我们有如下的结论1Lord’s Paradox 的根源在于整个研究没有对照组我们甚至不知道什么是对照组不在食堂进餐是在家里进餐还是外面的参观进餐还是其他这其实导致 $Y(0)$ 并非完好定义。上面的讨论则是假定 Y(0)Y(0)是良好定义的。2回归或者协方差分析等统计工具并不能清楚的回答因果的问题。这个问题中ΔΔ是一个我们关心的因果度量离开潜在结果是很难定义的。根据上面的讨论两位统计学家不采用潜在结果模型甚至没有意识到这个研究根本的问题在于缺少对照。当然如果我们能够做一个随机化的实验有处理和对照组那么回归分析也可能得到合理的答案。3统计学家一和二都可以是对的。他们结论的正确性依赖于不同的假定而这些假定本身是不可能被检验的。5统计学家一和二都是错的。他们有结论但是却从未清楚地陈述结论回答的是什么问题。6R A Fisher 在实验设计中提出了 ANCOVA但是这个方法不是万能的。事实上这个方法导致的问题比它带来的功用更严重这点以后再说。8. 因果推断简介之八吸烟是否导致肺癌Fisher versus Cornfield这一节介绍一个有趣的历史性例子吸烟是否导致肺癌主要涉及的人物是 R A Fisher 和 J Cornfield。前者估计上这个网站的人都听过后者就显得比较陌生了。事实上Cornfield 在统计、生物统计和流行病学都有着非常重要的贡献。来自 Wikipedia 的一句介绍“He was the R. A. Fisher Lecturer in 1973 and President of the American Statistical Association in 1974.” 虽然 Cornfield 和 Fisher 学术观点不同本节介绍但是 Cornfield 还是在 1973 年给了 Fisher Lecture。下面我们先介绍 Fisher 和 Cornfield 关于观察性研究中因果推断的两种观点再给出技术性的细节。一、Cornfield 条件或者 Cornfield 不等式图注R A Fisher我先陈述 Fisher 的观点。由于 Yule-Simpson Paradox 的存在即使我们观测到吸烟和肺癌之间的正相关关系也不能断定它们之间有因果性。可能存在一个未观测的基因它既使得某些人更可能吸烟又使得这些人更可能患肺癌。因此即使吸烟和肺癌没有因果关系这个未观测的基因也可能导致吸烟和肺癌是正相关的。关于 Yule-Simpson Paradox这一系列的第一篇有介绍。Fisher 的观点可以用一个有向无环图 DAG 来表示图中吸烟到肺癌没有直接的边因此吸烟对肺癌的因果作用是 0。但是由于它们之间存在一个共同原因 “hidden gene”它们是相关的。我们用 E 表示是否吸烟 (1 是0否)D 表示是否患肺癌 (1是0否)U 表示是否有某种基因 (1 是0 否)。这个符号系统在流行病学比较常用因为 E 表示暴露与否 exposureD表示疾病 diseaseU表示未观测的混杂因素 unobservable confounder。在 Fisher 的时代研究者通过收集的大量数据得到吸烟对于肺癌的相对风险relative risk或称风险比risk ratio都简写成 RR是流行病学家关心这个 RRED 是否表明了吸烟和肺癌的因果关系。Fisher 表示否定。从一个悲观的角度来讲我们确实不能从相关关系得到因果性Fisher 如果表示怀疑假定有一个未观测的基因也是无可反驳的。Fisher 的这个说法有时也被称为 “共同原因” 假说。Cornfield 则采取了一个不太悲观的角度。他问如果 Fisher 的 “共同原因” 假说是对的那么 E 和 U 之间的相关关系需要多强才能导致 RRED9即 “吸烟患肺癌” 是“不吸烟患肺癌”的风险的 99 倍呢如果 E和 U之间的相关关系强到不具有生物学意义E与 U 的相对风险值大得在现实中不太可能那么 Fisher 的 “共同原因” 假说就不成立更大的可能性是吸烟 E 对肺癌 D 有因果作用。那么 Cornfield 是如何有力反驳 Fisher 的观点的呢图注J CornfieldCornfield 通过简单的数学证明得到了如下的不等式文献中也称为 Cornfield 不等式也就是说如果 Fisher 的 “共同原因” 假说成立那么 E 和 U 之间的 RR 必将大于 E 和 D 之间的 RR。在吸烟和肺癌的例子中RREU≥9。RREU≥9即 P(U1|E1)/P(U1|E0)≥9直观解释就是 “吸烟时有某个基因 U 存在” 的概率是 “不吸烟时有某个基因 U 存在” 的概率的 9 倍多。根据 Cornfield 进一步的逻辑由于吸烟更多的是一个社会性的行为很难想象吸烟的行为能够对于某个基因的存在与否有着 9 倍的预测能力。我前段时间问身边一个生物的 PhD你觉得 RREU≥9 可能吗他的回答是不太可能理由也是说吸烟更多的决定于社会经济地位、家庭背景等变量和基因也许有关系但是不会强到 RREU≥9 的程度。Cornfield et al. (1959) 的原话是… if cigarette smokers have 9 times the risk of nonsmokers for developing lung cancer, and this is not because cigarette smoke is a causal agent, but only because cigarette smokers produce hormone X, then the proportion of hormone-X producers among cigarette smokers must be at least 9 times greater than nonsmokers. If the relative prevalence of hormone-X-producers is considerably less than ninefold, then hormone-X cannot account for the magnitude of the apparent effect.如果我们相信 Cornfield 的逻辑 RREU≥9 在生物学意义上不太可能那么 Fisher 的 “共同原因” 假说就不成立吸烟对肺癌的确存在因果作用反映到上面的DAG 上吸烟 EE 到肺癌 DD 有一条直接的边。Cornfield 的这项简单研究开始了流行病学和统计学中敏感性分析的研究比如 Rubin 和 Rosenbaum 很多工作都是在 Cornfield 的启发下做出来的。简单地说敏感性分析就是在朝着 Yule-Simpson Paradox 的反方向进行的复杂虽然总是存在但是我们相信这个世界并不是疯狂的复杂。二、技术细节这一部分我们给出 Cornfield 不等式的证明。虽然证明不难但是想想 Cornfield 于 1959 年用这样一个简单的不等式来反驳 Fisher就觉得它的历史意义还是不小的。当然不关心技术细节的读者可以直接忽略本节。关心技术细节的读者下面的证明虽然冗长但是只用到非常初等的数学也许它可以作为一道初等概率论的习题。为了简化证明我们引进一些记号不妨假设 RRED≥1 并且 RREU≥1若不成立我们总可以重新对这些二值变量的 0 和 1 类进行重新定义。首先我们在条件独立性 E⊥D|U 下得到 RRED的等价表示条件 RREU≥1等价于 f1≥f0因此上面 RRED是关于 RRUD的单调递增函数。进一步由此Cornfield 不等式得证。参考文献Bickel, P. J. and Hammel, E. A. and O’Connell, J. W. (1975) Sex bias in graduate admissions: Data from Berkeley. Science, 187, 398-404.Pearl, J. (2000) Causality: models, reasoning, and inference. Cambridge University Press。Rosenbaum, P.R. and Rubin, D.B. (1983) The central role of the propensity score in observational studies for causal effects. Biometrika, 70, 41-55.Rothman, K., Greenland, S. and Lash, T. L. (2008) Modern Epidemiology. Lippincott Williams Wilkins.Neyman, J. (1923) On the application of probability theory to agricultural experiments. Essay on principles. Section 9. reprint in Statistical Science. 5, 465-472.Pearl, J. (1995) Causal diagrams for empirical research. Biometrika, 82, 669-688.Pearl, J. (2000) Causality: models, reasoning, and inference. Cambridge University Press。Rubin, D.B. (1978) Bayesian inference for causal effects: The role of randomization. The Annals of Statistics, 6, 34-58.Neyman, J. (1923) On the application of probability theory to agricultural experiments. Essay on principles. Section 9. reprint in Statistical Science. 5, 465-472. with discussion by Donald Rubin.Rosenbaum, P. R. and Rubin, D. B. (1983) The central role of the propensity score in observational studies for causal effects. Biometrika, 70, 41-55.Rubin, D. B. (1976) Inference and missing data (with discussion). Biometrika, 63, 581-592.Rubin, D. B. (1978) Bayesian inference for causal effects: The role of randomization. The Annals of Statistics, 6, 34-58.Wooldridge, J. M. (2002) Econometric analysis of cross p and panel data. The MIT press.Lord FM. A paradox in the interpretation of group comparisons. Psychol Bull. 1967;68:304–5. doi: 10.1037/h0025105.Holland, P.W., Rubin, D.B. (1983). On Lord’s paradox. In: Wainer, H., Messick, S. (Eds.), Principals of Modern Psychological Measurement. Lawrence Erlbaum Associates, Hillsdale, NJ, pp. 3–25.Cornfield 最早的论文发表于 1959 年由于它的重要性这篇文章又在 2009 年重印了一次50 周年纪念。于是参考文献有两篇它们是一样的不过后者多了很多名人的讨论。Cornfield J et al. Smoking and lung cancer: recent evidence and a discussion of some questions. JNCI 1959;22:173-203.Cornfield J et al. Smoking and lung cancer: recent evidence and a discussion of some questions. Int J Epidemiol 2009;38:1175-91.本文邀请了 David R Cox 和 Joel B Greenhouse 等人讨论。最近 Ding and VanderWeele 重新回访了这个经典问题给出了更加广泛的结果。Ding, Peng and Vanderweele, Tyler J. (2014). Generalized Cornfield conditions for the risk difference, Biometrika, 101:4, 971-977. https://doi.org/10.1093/biomet/asu030作者简介丁鹏2004 年至 2011 年在北京大学数学科学学院获得本科和硕士学位2015 年获哈佛大学统计学博士学位2016 年起任教于加州大学伯克利分校统计系2021 年晋升为副教授。其主要研究方向是因果推断。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

查看全文

http://www.pierceye.com/news/838082/