独木帆 >首页 >教育 >正文

三角验证法,可否让论文的结论更可信?|观点

Nature自然科研 2018-03-02 13:08:54 阅读:

重复还不够。两位研究者以三角互证法为例,谈论自己的看法。

根据多项涵盖多个领域的研究估计,已发表的研究结果中只有约40%可以被可靠地重复出来。诸多资助机构和团体正在提倡独立团队常规性地重复他人的研究发现。

这些努力值得称赞,但还不够。如果一项研究遭到了扭曲,且在重复时如法炮制,那么只会得到一样不正确或存在偏差的发现。比如在一个常用的试验方法中,研究人员根据荧光蛋白的生成来监测细胞活性。但如果用于调控细胞活性的复合物也是荧光的,那么结果可重复并不意味着结论可靠,这种情况确实发生过。

我们二人一直大力倡导提高科研确定性的各种途径。Marcus R. Munafò参加了英国资助机构开展的一项工作,参与制定可重复研究策略,并且帮助起草了可重复性宣言。

但是光靠重复,我们走不了多远。在某些情况下,常规性的重复实际上可能使问题变得更糟糕。有时候重复实验得到的一致结果被认为是无疑的事实,但实际上它反映了原本的研究设计、方法或分析工具中存在的缺陷。

我们认为一个可以避免此类情况的核心方法是三角互证法,也就是一个问题用多个方法来研究的策略。每一个方法都有互不相关的假设、优点和缺点。如果不同的方法得出相同的结果,那么这个结果为假的可能性就下降了。

科研不是就该这么做吗?也许吧,但是在目前竞争如此激烈的环境下,科学家们常常忽略了多重证明的需要。

三角验证法,可否让论文的结论更可信?|观点

David Parkins

2017年5月,癌症研究人员William Kaelin对此问题进行了中肯的讨论(详情请见:拉斯克奖得主担忧论文现状:论点越来越多,证据越来越薄?)。他说科学论文的目标已从利用多重方式检验“狭隘”的结论,转变为根据有限的证据做出一系列宽泛的论断,这令他深感遗憾。他说:“论文越来越像草盖的巨型大厦,而非砖砌的坚实小屋。”

科学共同体应该有策略地解决研究深度不足的问题,确立可以促进三角互证法的实践做法。具体而言,我们倡议建立多领域的团队对某个问题进行研究(见“三角互证法——检查清单”)。我们认为这么做有望带来可靠的洞见,也就是“砖坚墙硬的大厦”。

三角互证法—检查清单

• 采用不同的方法研究同一个问题

• 明确承认每一种方法所存在偏差的主要来源

• 在可行的情况下,明确每种方法中潜在偏差的所有主要来源的预期走向

• 在理想的情况下,某些被互相比对的方法也存在走向相反的潜在偏差

• 在理想的情况下,比较两个以上方法(潜在偏差的主要来源不一样且不相关)的结果

似是而非的可靠性

我们很少见到旨在从多个角度证明一个观点的项目。心理学、流行病学和临床科学都偏向于产出具有统计显著性的决定性研究——以一个支持某种假设的“端点”为中心。在某些生物科学领域,论文的接收与否往往取决于一项可以在动物身上证明有效的“顶峰”研究,因此这一项实验的重要性超越了从各个角度认真探讨某个观点的重要性。此外,这些研究常常在未进行人体测试的情况下,称其对人类健康具有一定意义。

许多基础科学的研究包括三角互证法的元素,但是很少充分发挥这种方法的作用。

在我们所处的流行病学领域,有无数大行其道却不属实的研究发现的例子。大型观察性研究频繁地得出错误的精密结论。X与Y之间的关联可能确实可以描述变量之间可见的联系,但是它并不反映因果关系。这是无论多少重复研究或统计调整都无法解决的,George Davey Smith用了20多年的时间,在吸取基础科学和经济学等学科经验的基础上,努力制定可以帮助增强观察性流行病学因果推论的方法。

一个具有启示性的例子就是常用的J曲线——描述一种生活状态与健康后果的关联。

举例来说,许多研究表明酒精摄入低的人比酒精摄入高的人和禁酒者更健康,一些研究人员因此得出结论:适量饮酒有益健康。但是其它因素,比如不健康人群被建议放弃饮酒,也可以解释同样的J曲线。类似的,有人重复观察发现轻微超重与最长预期寿命存在关联,可能解释这一现象的有疾病(包括导致疾病显现的过程,而这会降低体重);医生在治疗超重者时更加激进;超重者具有其它较积极的特征,如低吸烟率。

你怎么确定持续观察到的行为与健康后果之间的关系是因果关系呢?这里举一个三角互证法的例子,它帮助确认孕期吸烟会导致婴儿出生体重偏轻。这不同于简单的对吸烟女性更有可能产下体重偏轻的婴儿的观察。吸烟者倾向于拥有另外一些与婴儿出生体重较低相关的特征,如收入低、教育平低或吸毒。

三角验证法,可否让论文的结论更可信?|观点

依靠多重证据证明孕妇吸烟会导致婴儿出生体重较低。

来源:BSIP/UIG/Getty

三角互证法意味着选择基于不同假设的分析方法。例如,如果一位女性的伴侣在其怀孕期间吸烟,那么其中许多干扰因子与孕妇吸烟的干扰因子相同,但其实它们与婴儿出生体重偏低的关联弱很多。而根据美国各州的烟草税水平分析婴儿出生体重,可以降低干扰因子的影响。此外,可以分析比较一位母亲在孕期吸烟所产下婴儿与其在孕期不吸烟所产下婴儿的出生体重。

孟德尔随机化是一种专门用于探究因果关系的技术。根据是否携带与吸烟者吸烟较多相关的遗传变异进行分组,结果发现吸烟且携带该遗传变异的孕妇所产下的婴儿体重较轻;携带相同变异但不吸烟的孕妇则没有出现这种情况。综合而言,这些研究明显表明,孕妇吸烟直接影响婴儿出生体重。

执着于重复

重复研究获得了大量关注,而三角互证法却少有人注意。这或许是因为一个被反复提起的观点,即可证伪性是科学系统的核心。它的流行离不开20世纪50年代卡尔·波普尔的一句名言——理论无法被证实,只能被证伪。然而很少有实验,包括重复实验,是专为证伪而设置的。事实上,我们担心过度强调重复实验可能让人对基于单一方法得出的发现产生不应有的确定性。

而且在波普尔之后,科学哲人已经继续发展出新的理论。1991年,哲学家Peter Lipton为科学家的实际工作给出了更好的描述:不断推理直到获得最佳解释,或者说寻找“最优美的”解释。它吸取了一个更古老的观点:溯因推理优于演绎推理,即寻找可能的解释而非通过第一原理推演解释。这种精神也体现在19世纪中期博学家William Whewell提出的“一致性”理论里面,该理论在20世纪90年代被自然学家E. O. Wilson发扬光大。它假设强大的理论源于多重证据的综合论证,就像达尔文提出自然选择演化学说时一样。

与一致性不同的是,三角互证法要求有意使用不同的方法。推论法与许多哲学家所肯定的科学家理解现实的方式最接近,但是大部分科学家很难把它描述出来。研究人员一般都会接受大量有关实验方法和实验设计的训练,但是很少有关于因果推论方法的训练,因此也就没有什么框架可以指导他们如何追求科研。

转变功劳分配模式

三角互证法一般需要多种方法或学科的辅助。历史上的一个著名例子就是大陆漂移说。20世纪初,地球物理学家魏格纳注意到非洲西海岸的形状与南美东海岸的形状似乎可以拼接起来。他从各种角度出发,寻找证据支持大陆漂移理论,比如古生物学(同一时期的化石在这两个大陆上都出现了)和地质学(冰川标记表明两个大陆曾经非常接近)。在当今的环境下,多学科项目需要不同的科学家做出贡献,通过不同的研究提供不同的证据。

鼓励采用这种方法需要从根本上改变功劳分配和同行评议的方式。在目前的体制下,以生物医学为例,一篇论文的功劳一般都只归于通讯作者、某些明星作者和第一作者,其他作者的功劳很少得到认可。

为了支持三角互证法,我们建议转变功劳分配模式,可以像电影结尾的演职员表一样,详细完整地列出每一位作者的具体贡献。这可能需要学者放弃“高级作者”的地位。而对于事业刚起步的研究人员而言,这使他们在申请升职或其他职位时,可以更方便地指出他们对于某篇论文的独特贡献。

同行评议也需要改变。不要让多名评审都审阅全篇文稿,而让他们各自分工,分别重点审阅某项特定的子研究。这样就能让应用了多种技术的文稿得到恰当的评审,有利于避免发表如同“草盖的巨型大厦”一样的论文。

最后,资助机构、研究机构和期刊需要明确为“有重量”的论文提供支持。或许,我们需要在简单的引用之外,制定其它的正式方法,对某单个问题进行三角互证的各项子研究关联起来,并认可它们的价值。

去年年初,有人公开提议设立一个论文新种类,这类论文将提出假设的研究与可靠的预注册验证性研究(由拥有资质的独立实验室开展)结合在一起。显而易见,一篇论文如果涉及我们所提议的三角互证法,一般都需要协调来自不同学科的研究组,这是非常大的工作量。论文评审和终身职位评审委员会在评估他们时,应给予他们应有的认可。

独木帆(www.xieshudeng.com)版权所有 桂ICP备17010736号 关于我们 | 广告服务 | 诚聘英才 | 联系我们 | 免责申明 | 举报投诉须知