吸烟会导致肺癌吗统计是如何思考因果的
2021-2-25 来源:本站原创 浏览次数:次北京哪家白癜风医院看得好 http://m.39.net/pf/a_4323074.html
作者按:因果推断是统计学中非常重要同时非常困难的问题。本文仅是作者的个人理解。如有偏误,欢迎批评指正。
吸烟会导致肺癌吗?这似乎是一个不需要讨论的问题,已经成为大众的一个普遍认识。但这种认识至今也只有几十年。直到上世纪中叶,大家才普遍接受这一结论。我们很容易观察到,吸烟的人相比不吸烟的人更容易得肺癌。也就是说这两者之间存在很强的关联性。但要说吸烟是得肺癌的原因则并不那么显然。也许是由于某种未知的基因导致一个人更倾向于同时吸烟和得肺癌,或者即使不吸烟,就像其他疾病一样,在一个人年老时也会得肺癌。这些思考说明建立严格意义上的因果关系是非常困难的事情,并不像看上去那么容易。然而因果推断不仅是我们认识世界的最本质的逻辑手段,也是我们干预控制科学和社会发展的重要工具。探索因果关系由此成为包括哲学、生物学、医学、经济学、计算机科学和统计学等众多学科的一个非常重要的研究问题。
为了方便理解统计上是如何处理这一难题的。我们再考虑一个常见的例子。比如我们想探究再就业培训是否能够提高工人的收入。一种自然的想法是直接比较参与培训和未参加培训工人的收入差异。但参加就业培训者的未来收入比未参加者通常更低。难道就业培训反而有害?这主要是由于参加培训的个体往往就业技能更低,而收入高的人群不需要也不会去参加培训。由于两组人群的初始条件不同,存在“选择偏差”。这说明为进行准确有效的因果推断,必须要消除初始条件的差异,使得未来收入的差异仅由是否参加培训导致,而不是其他可能的因素。那么如何才能实现这一目标呢?最理想的情形是,自己和自己比,即让某个个体既参加培训,同时还有一个相同的自己不参加培训。这样如果两者收入有差异则完全是由是否参加培训导致的。但这显然是不现实的。我们既没有时光机,也没法克隆人。但这种思考提供了一种全新的研究框架。此即Rubin所谓潜在结果框架(PotentialOut