别看到数字就相信

作者: / / 时间:2020-06-19 / / 浏览量: 923次

别看到数字就相信
图片来源:unsplash

科学研究的可信度

统计学家沙利奇(Cosma Shalizi)曾告诉我一则寓言:假想你是古罗马的动物内脏占卜师,必须宰杀羊只来检视牠的内脏(特别是肝脏),然后预言未来。

你心里很清楚,恪守伊特拉斯坎(Etruscan)神祇的教诲,并不会让自己的预言特别可靠,要真是那样也太扯。你想讲求证据,于是跟同事把论文投给《国际内脏占卜学期刊》,该刊要求所有刊登的结果都必须通过统计显着检定。

内脏占卜学并非易事,一方面必须花一堆时间来跟血液、胆汁打交道,另一方面实验经常失败。想用绵羊的内脏预测苹果公司的股价,失败;想模拟民主党在西班牙裔族群的得票率,又失败;想估计全球石油的供给量,再次失败。那些神祇很麻烦,并非每次都能搞清楚,到底什幺样的内脏或什幺样的咒语,得以可靠揭露未来。有时候不同内脏占卜师做相同实验时,一位能预测正确,而另一位会大错特错,谁也搞不清楚为什幺。不过当占卜上了轨道,彷彿灵光乍现时,一切辛苦全值得了。你发现肝脏的组织与突起,确实预测了明年流感的疫情,于是在心中感谢诸神,你可以发表论文了。

这幺得意的时机,也许二十次里才有一次。

我的估算确实也是如此,不像你,我本来就不相信内脏占卜;我也不觉得绵羊内脏能得知流感的相关数据,如果两者真能匹配,那也是纯粹出于好运。换句话说,关于内脏做的任何预测,我都是虚无假设的死忠支持者。所以在我的世界里,内脏占卜实验都不太可能成功。

有多不可能呢?要想在《国际内脏占卜学期刊》发表论文,必须通过标準的统计显着性门槛,也就是p 值0.05,换句话说,二十次里要成功一次。回忆一下p 值的定义:某项实验若虚无假设为真,则实验有1/20的机会,能产生具有统计意义的结果。倘若虚无假设永远为真,也就是说内脏占卜纯粹是骗人的,那幺每二十次实验里也有一次能发表。

别看到数字就相信

现代医学与社会科学不是内脏占卜学,但有一群抱持异议的科学家,近年来愈来愈大声呼吁、提醒大家,科学里似乎也有不少内脏占卜,只是我们不肯承认。

批评声最大的是爱奥尼底斯(John Ioannidis),他高中时是希腊的数学明星,后来从事生物医学的研究。2005 年他发表了一篇论文〈为什幺大部分发表的研究结果都是错的〉,因而引发临床

科学界一波强烈的自我检讨(以及后续的自我辩护)。为了引人注意,有时论文题目会比实质内容夸张一些。但是这篇论文却非如此,爱奥尼底斯很严肃的指出,某些医学研究领域根本是「虚

无领域」,正如内脏占卜学一样,完全找不出实效。他写道:「可以证明,大多数发表的研究结果都是错误的。」

「证明」这种字眼对于我这个数学家来说有点难以下嚥,不过爱奥尼底斯确实强而有力的说明,他的指控并非空穴来风。事情是这样的,在医学研究里,我们尝试的医疗介入多半无效,检验的关连性往往不曾显现。

就拿疾病与遗传的检定来说好了,基因组上有众多基因,其中大多数基因不会让你得癌症、变得沮丧或肥胖,甚至不会产生任何直接效应。爱奥尼底斯要我们考量遗传对于思觉失调症(schizophrenia,旧译精神分裂)的影响,虽然我们知道思觉失调症会遗传,但它是在基因组的哪一部位呢?毕竟现在是大数据时代,研究人员会把网撒得很广,去观察10万个基因(精确的说是遗传多态型),看看什幺基因跟思觉失调症有关係。爱奥尼底斯估计只有10个左右的基因,可以在临床上观察到相关效应。

另外的99,990个基因呢?它们都跟思觉失调症毫不相干。

然而它们之中的1/20,也就是约略五千个基因,会通过统计显着性的p 值检定。换句话说,在那些「老天啊,我找到思觉失调症的基因了」而发表论文的结果里,虚假的结果比真实的结果高出五百倍。

上述比例还是假设那10个基因,真的能全部通过思觉失调症的检定!假如检定的鉴别率不足,即使是真实效应,也很可能因为达不到统计显着性而遭排除。假如研究的鉴别率不高,则真正发生作用的基因,很可能只有一半的机率通过显着性检定。意思是说,用p 值挑出引起思觉失调症的基因,可能只有五个真的有作用,但却有五千个基因是纯粹靠运气而过关。

看看下面方格里的圆圈,这是说明相关基因数量的好办法:

别看到数字就相信

格子中的圆圈大小,代表该区域里基因的数目。左半部两个小方块,里头的基因没有通过显着性检定,右半部两小方块,则是有通过显着性检定的基因。上半部两个小方块,代表真正会影响思觉失调症的极少数基因,所以只有右上角方块内的基因,是所谓的真阳性(本来就有作用,而检定也说会有作用的基因),左上角则是伪阴性(有作用,但是检定说没作用的基因)。下半部两个小方块,都是对思觉失调症没作用的基因;左下角大圆圈内的基因是真阴性(本来就没作用,而且检定也说没作用),右下角的小圆圈是伪阳性(本来没作用,但是检定说会有作用)。从图里可以看出显着性检定并非问题所在。跟思觉失调症无关的基因很少会通过检定,而我们真正感兴趣的基因,则有一半会通过检定。但跟思觉失调症无关的基因数量上有太大优势,使得伪阳性虽然远比真阴性为少,可是却远比真阳性为多。

排卵期影响政治倾向?

更糟糕的是,低鉴别率的研究,只能检测出那些影响力巨大的效应。但有时候即使效应存在,影响力也非常小。换句话说,能準确量度出单一基因效应的实验,很可能会因统计上不够显着而遭排除。然而能通过p < 0.05 的结果,要不是伪阳性,就是虽然是真阳性,但是过度夸张了基因的效应。某些研究领域的实验规模不大,而且效应程度也中等,这时鉴别率低就会特别危险。

心理学的顶尖期刊《心理科学》(Psychological Science)2013 年刊出的一篇论文指出,已婚妇女处于排卵受孕期时,会明显更倾向支持共和党的总统候选人罗姆尼。这些妇女在受孕率高峰期接受访问,有40.4% 表示会支持罗姆尼,而在非受孕期却只有23.4% 会把票投给罗姆尼。* 这项研究的样本其实很小,只有228 位妇女参与。但是差异很大,大到足以通过p 值检定,成绩是0.03。

差异实在有点太大了,这才是问题所在。支持罗姆尼的妇女,几乎有一半的人在每个月大部分时间里,会支持欧巴马,这可能是真的吗?没有人注意到吗?

就算有人一旦进入排卵期,政治倾向就右倾,数量也应该相当少。然而因为研究对象的数目相对来说太少,产生了弔诡的情形,也就是p 值的过滤功能,反而会排除更接近真相的效应强度评估。换句话说,我们可以很有信心的指出,这项研究报导的大幅度差异,多半(或甚至全部)是因杂讯而起。

杂讯虽然可能讲的是真话,但也同样可能恰与事实相反。结果我们好似坠落五里雾中,手上的结果徒具统计显着性,却让人缺乏信心。

科学家把这种现象称为「赢家诅咒」。有些令人印象深刻且备受宣扬的实验结果,一旦重做后常会让人失望透顶,「赢家诅咒」也是原因之一。

下面是一件具代表性的实例,心理学家查布利(Christopher Chabris)的研究团队,重新检验了先前观察到,在与IQ分数有统计显着相关的13个单核苷酸多型性(SNP)。我们知道在IQ测验中得高分的能力,或多或少具有遗传性,因此寻找相关的遗传标记不能说没道理。但当查布利的团队利用大数据,如样本数多达一万人的威斯康辛纵贯研究,来检验这些SNP 与IQ的关係时,之前的显着相关都消失了。这表示,就算这些SNP与IQ真的相关,它们的效应也实在太小,以致于大型检验无法察觉。

基因组学专家如今相信,IQ的遗传性很可能不是集中在某几个「聪明基因」上,而是众多基因特徵的集聚,其中每一项效应都非常微小。也就是说,如果你想研究个别多型性的明显效应,虽然会成功,可是成功率就是1/20,跟内脏占卜一样。

2012年美国加州的安进公司(Amgen)做了一项研究,他们挑选了53个极出名的癌症生理实验,尝试加以複製。结果在他们的独立测试中,仅有6个可以成功做出相同结果。

这怎幺可能?这并不代表基因组专家与癌症研究人员都是傻瓜。实验再现性的危机只是反映了科学研究的困难。我们的想法经常不正确,即便这些想法已经通过初步的研判。

再现实验成果

某位没参与研究的资深科学家,以温和口吻说出类似以下的话:「这项发现非常有趣,我建议应该朝此方向持续深入研究。」但你常常都直接跳过这部分不读,因为觉得那只是陈腔滥调,没多大意思。

事实的真相是,科学家之所以老爱说这些,是因为它是很重要的实话!如果发现了令人兴奋、颇有统计显着性的实验结果,不代表是这项科学历程的终点,而是另一段探索的启程。如果发现了一项重要的新成果,其他实验室的科学家会一再测试这个现象及它的变化,想办法判定这项成果是否只是偶然事件,是否有满足费雪的标準。这也就是科学家所谓的「再现性」。如果在反覆尝试之后,某项实验成果无法再现,科学就只好抱歉不再支持。这种测试实验可否再现的程序,就像是科学的免疫系统,只要有新发现,科学免疫作用会蜂拥而上把它包围,无法通过考验就会被灭绝。

无论如何,这是理想状况。实务上,科学会有点压抑免疫作用。但就算是能再现的研究,也很少会有人真的动手重做。每份期刊都想刊登突破性发现,谁会想刊登一年后做同样实验,又得到同样结果的论文?

《数学教你不犯错,上》

数位编辑整理:曾琳之



上一篇: 下一篇: