因果推断简介之八吸烟是否导致肺癌Fish
2021-2-25 来源:本站原创 浏览次数:次白癜风治疗最佳医院 http://pf.39.net/bdfyy/
本文素材由小编整理发布。所发内容仅供学习、交流之目的。版权归原作者所有,如对版权有异议,请后台联系,议定合作或删除。点击文末阅读原文查看原网页。
推文编辑:林毅
关于作者
丁鹏
-年在北京大学概率统计系学习,获得学士和硕士学位;-年在哈佛大学统计系学习,获得博士学位;年在哈佛大学流行病学系做博士后;年加入伯克利统计系任教。研究方向是因果推断。
关键词:Cornfield;Cornfield不等式;Fisher;共同原因;吸烟;因果推断;相对风险;肺癌
往期回顾
丁鹏:因果推断简介之七:Lord’sParadox
丁鹏:因果推断简介之六:工具变量(instrumentalvariable)
丁鹏:因果推断简介之五:因果图(CausalDiagram)
丁鹏:因果推断简介之四:观察性研究,可忽略性和倾向得分
丁鹏:因果推断简介之三:R.A.Fisher和J.Neyman的分歧
丁鹏:因果推断简介之二:RubinCausalModel(RCM)和随机化试验
丁鹏:因果推断简介之一:从Yule-Simpson’sParadox讲起
这一节介绍一个有趣的历史性例子:吸烟是否导致肺癌?主要涉及的人物是RAFisher和JCornfield。前者估计上这个网站的人都听过,后者就显得比较陌生了。事实上,Cornfield在统计、生物统计和流行病学都有着非常重要的贡献。来自Wikipedia的一句介绍:“HewastheR.A.FisherLecturerinandPresidentoftheAmericanStatisticalAssociationin.”虽然Cornfield和Fisher学术观点不同(本节介绍),但是Cornfield还是在年给了FisherLecture。
下面我们先介绍Fisher和Cornfield关于观察性研究中因果推断的两种观点,再给出技术性的细节。
一、Cornfield条件或者Cornfield不等式
RAFisher
我先陈述Fisher的观点。由于Yule-SimpsonParadox的存在,即使我们观测到吸烟和肺癌之间的正相关关系,也不能断定它们之间有因果性。可能存在一个未观测的基因,它既使得某些人更可能吸烟,又使得这些人更可能患肺癌。因此,即使吸烟和肺癌没有因果关系,这个未观测的基因也可能导致吸烟和肺癌是正相关的。关于Yule-SimpsonParadox,这一系列的第一篇有介绍。Fisher的观点可以用一个有向无环图(DAG)来表示:
图中,吸烟到肺癌没有直接的边,因此吸烟对肺癌的因果作用是0。但是由于它们之间存在一个共同原因“hiddengene”,它们是相关的。我们用E表示是否吸烟(1=是,0=否);D表示是否患肺癌(1=是,0=否);U表示是否有某种基因(1=是,0=否)。这个符号系统在流行病学比较常用,因为E表示暴露与否(exposure),D表示疾病(disease),U表示未观测的混杂因素(unobservableconfounder)。在Fisher的时代,研究者通过收集的大量数据,得到吸烟对于肺癌的相对风险(relativerisk;或称风险比,riskratio;都简写成RR)是
流行病学家关心这个RRED是否表明了吸烟和肺癌的因果关系。Fisher表示否定。从一个悲观的角度来讲,我们确实不能从相关关系得到因果性;Fisher如果表示怀疑,假定有一个未观测的基因,也是无可反驳的。Fisher的这个说法有时也被称为“共同原因”假说。Cornfield则采取了一个不太悲观的角度。他问:如果Fisher的“共同原因”假说是对的,那么E和U之间的相关关系需要多强,才能导致RRED=9,即“吸烟患肺癌”是“不吸烟患肺癌”的风险的99倍呢?如果E和U之间的相关关系强到不具有生物学意义(E与U的相对风险值大得在现实中不太可能),那么Fisher的“共同原因”假说就不成立,更大的可能性是吸烟E对肺癌D有因果作用。
那么Cornfield是如何有力反驳Fisher的观点的呢?
JCornfield
Cornfield通过简单的数学证明,得到了如下的不等式,文献中也称为Cornfield不等式:
RREU≥RRED.
也就是说,如果Fisher的“共同原因”假说成立,那么E和U之间的RR必将大于E和D之间的RR。在吸烟和肺癌的例子中,RREU≥9。RREU≥9,即P(U=1
E=1)/P(U=1
E=0)≥9,直观解释就是“吸烟时有某个基因U存在”的概率是“不吸烟时有某个基因U存在”的概率的9倍多。根据Cornfield进一步的逻辑,由于吸烟更多的是一个社会性的行为,很难想象吸烟的行为能够对于某个基因的存在与否有着9倍的预测能力。我前段时间问身边一个生物的PhD,你觉得RREU≥9可能吗?他的回答是不太可能,理由也是说,吸烟更多的决定于社会经济地位、家庭背景等变量,和基因也许有关系,但是不会强到RREU≥9的程度。Cornfieldetal.()的原话是:
…ifcigarettesmokershave9timestheriskofnonsmokersfordevelopinglungcancer,andthisisnotbecausecigarettesmokeisacausalagent,butonlybecausecigarettesmokersproducehormoneX,thentheproportionofhormone-Xproducersamongcigarettesmokersmustbeatleast9timesgreaterthannonsmokers.Iftherelativeprevalenceofhormone-X-producersisconsiderablylessthanninefold,thenhormone-Xcannotaccountforthemagnitudeoftheapparenteffect.
如果我们相信Cornfield的逻辑,RREU≥9在生物学意义上不太可能,那么Fisher的“共同原因”假说就不成立,吸烟对肺癌的确存在因果作用;反映到上面的DAG上,吸烟E到肺癌D有一条直接的边。
Cornfield的这项简单研究,开始了流行病学和统计学中敏感性分析的研究;比如Rubin和Rosenbaum很多工作都是在Cornfield的启发下做出来的。简单地说,敏感性分析,就是在朝着Yule-SimpsonParadox的反方向进行的:复杂虽然总是存在,但是我们相信这个世界并不是疯狂的复杂。
二、技术细节
这一部分我们给出Cornfield不等式的证明。虽然证明不难,但是想想Cornfield于年用这样一个简单的不等式来反驳Fisher,就觉得它的历史意义还是不小的。当然不关心技术细节的读者,可以直接忽略本节。关心技术细节的读者,下面的证明虽然冗长,但是只用到非常初等的数学(也许它可以作为一道初等概率论的习题)。
为了简化证明,我们引进一些记号:
不妨假设RRED≥1并且RREU≥1;若不成立,我们总可以重新对这些二值变量的0和1类进行重新定义。首先,我们在条件独立性E⊥D
U下得到RRED的等价表示:
条件RREU≥1等价于f1≥f0,因此,上面RRED是关于RRUD的单调递增函数。进一步,
由此,Cornfield不等式得证。
三、文献注记
Cornfield最早的论文发表于年;由于它的重要性,这篇文章又在年重印了一次(50周年纪念)。于是参考文献有两篇,它们是一样的;不过后者多了很多名人的讨论。
·CornfieldJetal.Smokingandlungcancer:recentevidenceandadiscussionofsomequestions.JNCI;22:-.
·CornfieldJetal.Smokingandlungcancer:recentevidenceandadiscussionofsomequestions.IntJEpidemiol;38:-91.(本文邀请了DavidRCox和JoelBGreenhouse等人讨论。)
最近DingandVanderWeele重新回访了这个经典问题,给出了更加广泛的结果。
·Ding,PengandVanderweele,TylerJ.().GeneralizedCornfieldconditionsfortheriskdifference,Biometrika,:4,-.