科学研究是严谨务实的,相信不管是干实验还是湿实验,大家总是希望可以严丝合缝的按照经典文献中的内容将方法学会,将结果复现,那么问题来了,一个科研人的常见迷思是,为啥我明明也严格按照实验步骤的要求反复做了文献中的实验,怎么就是得不到我想要复现的实验结果呢,甚至有的时候,严格按照操作步骤走,自己的多次实验结果居然也不相同,这实验步骤合理吗,科研思路是对的吗?
对于以上问题,相信很多同学,尤其是实验萌新,肯定都遇到过,甚至总是暗地里犯嘀咕,觉得是不是作者捏造的实验数据,胡搞的科研文章。
而在科研界,此类说法也总是甚嚣尘上,那么实际上真的尽是如此吗,为什么会有这样的现象出现呢?下面我们就从几个方面来简析一下,为什么paper里的实验,我们总是难以复现。
01造成实验难以复现的可能原因——湿实验篇
在著名期刊Nature上最近发表了一篇comment ,该文表明即使在Science和Nature这样的大刊杂志上,能成功复现的文章也只有57-67%而已,该复现问题是由巴西的大型科研团队进行试验的,所以对待该类问题,首先不要焦虑,因为学术大牛实验室的整个团队操作下的复现也只有一半左右,试验复现不出来,这根本不是你的错。
相比干实验,湿实验绝对可以说得上是这类情况发生的重灾区,这类问题不仅把当年的刚读硕士的我逼疯过,我们实验室以及系里其他实验室的同学们也都没能幸免。作为博士,回首当年的经历以及和同学们的讨论反思,以下是我总结出的几条可能原因。
01论文中的表述不规范
论文的表述往往是复现问题产生的关键原因,我们复现实验唯一参考的就是作者在论文中对于实验步骤的描述。而与我们平时的实验笔记不同的是,在文章中的描述往往是采用正常的自然描述语言,无法对于各个步骤进行精准描述,这就导致了复现阶段,我们只知道大致的流程,而对详尽的操作细节不得而知。
比如作者可能会在文章中描述如下“利用代谢笼将大鼠的粪便和尿液分离,并收集大鼠尿液进行测定”。那么此处我们对于大鼠尿液测定的具体细节一无所知,比如被大鼠粪便污染的部分尿液是否还需要单独提取进行测定;如果需要单独分离,那么如何操作;如果不需要,那么污染到什么程度的尿液可以判定不需要单独分离。
此外,多久收集一次尿液,在测定之前是否需要将所有尿液混合;比如如果一周测定一次或者在实验结束时一起测定,且需要在检测前对所有尿液进行混合,那么在不需要测定的时候,对尿液的保存条件是怎样的,在混合时的具体步骤是什么,是否需要震荡,用什么仪器,具体是什么参数。
以上这些例子就是给大家展示一下在真正的实验阶段,具体操作起来可能非常复杂,需要精心准备并认真执行,而在文章的实验描述中,很可能就会一句话带过。
这不仅是该作者会做的事,当我们在发表文章的时候可能也不愿意将这样的细节也写的十分详细,以占用过多篇幅,而无法呈现重要实验结果。那么既然实验的操作细节方面就可能存在较大差异,最终无法对实验结果进行复现也就不足为奇了。
02作者故意省略关键步骤不希望别人模仿
这个问题在学术界非常常见,由于很多科研机构院所的恶性竞争,即使是在同一个师门下也会出现大家互相隐瞒,互不帮助,甚至给对方的实验造成破坏的情况,在这种情况下,作为实验中关键的操作步骤,自然不希望被别人知道,尤其是被自己评职称的有力竞争对手了解。
故而在发表文章的阶段,将相对重要的实验细节步骤隐去,这也就造成了,虽然文章结果是真实存在的,但是无法根据实验中描述的细节进行复现,无法让其他人模仿其工作内容。这种情况往往常见于各种存在激烈竞争的科研院所,或企业的科研相关单位。
03实验原材,设备,环境差异
对于实验而言,实验的材料,设备以及实验的操作环境无疑是基础指标,但往往也是很容易和原作者出现背离的环节,下面对此逐一解读。
首先,实验的原材料,这里主要指的是实验的试剂,试剂盒,抗体,生化及医学研究中的细胞和动物模型,这里可以产生出入的地方就数不胜数了,比如对于同一个实验试剂,在市面上会有五花八门的不同供应商,即使是同一供货商,也会有不同时代的更新产品,即使产品批次也相同,那也不能完全保证实验的试剂或者试剂盒用的是完全同种类型的原材料,诸如此类,给材料的复现造成了很大的困扰。
此外,对于动物及细胞实验,该类情况就更是屡见不鲜,即使是同一批,同一笼的小鼠,对于不同小鼠的健康程度和各种生理指标等等还会有较大的差异,更何况很多情况下,我们和原作者的地理位置完全不同,甚至不是同一国家,同一个大洲的人,即使是在使用同一类型的小鼠的情况下,小鼠的情况也会有一定的差异,出现复现问题的可能性也就自然随之而来了。
其次,实验的设备更是一个难以避免的产生差异的环节。不同厂家生产的仪器自然不会完全一致,而在采用不同标样,不同实验设备参数,设备操作误差的情况下就更难保证会有同样的结果,此外,如果该仪器的使用时间较长,哪怕是实验仪器本身产出的数据也不稳定,也遑论再和其他的原始文献做复现,所以出现这类问题的原因也往往是比较显而易见的。
最后,对于实验的操作环境也是有极高要求,比如对于动物实验,光是动物房就多个不同等级,比如普通级、清洁级、SPF级、GF级,其中对温度,湿度、光照、风速、排水、消毒等等的细节均是数不胜数,而每篇文章对于字数都是有严格要求的,不可能无限的描述细节,短短几百字的方法部分,作者是不可能做到完全的详尽描述的,即使是描述的十分详细,那么对于环境的这类硬性要求,有时也是很难仅根据自己的一个实验,要求整个动物房的硬性设施变化的。
此外,对于细胞实验环境,化学实验的试剂存放环境,实验操作环境等等都是如此,这样一来也就不难理解环境是无法完全复刻的这个现实情况了。
04作者择优选取结果
在科研界,尤其是发表文章时,一个基础的共识就是大家都会选择相对较好的结果去发表,这里不是说大家都是刻意去隐瞒相对较差的结果,而是在发表文章的阶段进行优中选优,并以此谋求一个相对较好的期刊。
此外,对于相对较差的实验结果,或者是在医学界进行的现场或临床试验中的阴性结果,即使是科研人员有心逐一汇报,那期刊接收的概率也非常低,这就导致了在做荟萃分析时,往往会出现“报告偏倚”的情况,也就是说,我们很难去概括总结研究问题相关的阴性结果,因为这类文章,在最初就几乎无法发表,这也就造成了对于相关问题的认知偏差。
其实从“报告偏倚”这个对该类情况的专有名词总结中就可以见得,这样的问题其实是非常常见的,那么再说到实验无法复现的问题就更简单容易理解了,并不是我们做不好,而是作者可能是真的选取了相对较优的几组数据,而我们复现出的可能就是相对偏差的几组数据,结果完全相左的情况下,就会让我们再次认为自己无法复现出相应的实验结果。
05实验结果造假
最后才说到这类问题,是希望可以给同学们信心,不要在一开始就揣摩该文章的数据真实性,但不可避免的现实情况是,很多实验数据确实是有造假的情况存在的,在今年的3月20号WOS的目录更新,有50本SCI/SSCI被剔除名,这也就意味着,如果发表了这50本期刊内的文章,很有可能在评职称的时候失去竞争力。
而很大的一部分期刊被剔除的原因就是因为在该类期刊上屡有学术造假的问题被爆出。所以在这里也给大家一个提示,如果真的想复现文章,最好去找大刊和优质的论文进行学习,这样也会大大避免这类情况发生的可能性。
02造成实验难以复现的可能原因——干实验篇
干实验在这里主要是指生信分析,数据分析等方向,而出现该类难以复现的情况主要集中在机器学习等相关研究方向。
比如在你想利用一个合理的机器学习模型进行数据分析预测的时候,当你试验文章中给出的代码时,并不能复现出你想要的结果,甚至会发现这类模型根本就完全行不通。
这种情况的发生一方面肯定是因为针对性的模型对数据本身的要求也很高,不同的数据也许确实不适合一味盲目照搬别人的模型,但也可能是作者并不希望别人去模仿他的模型和数据分析方法,在这种情况下,只要少汇报几句关键性代码,做出来的结果就会完全不一样,甚至根本跑不出结果。
这种情况非常常见,所以建议同学在有机器学习等数据分析模型需求的时候,自己静下心认真学习,并根据自己的数据进行参数调节和模型选择,最终总会产出自己相对满意的数据预测结果。
而一味的依赖文章中给出的代码,最后可能真的会有一点失望。当然也可以选择在复现不出来的时候,发邮件给作者询问,也许通过该沟通交流的机会,你就能找到下一个阶段科研工作的理想实验室呢。
03我们应该怎么去做
最后,也是该文章的核心所在,对于以上无法对实验结果进行复现的情况,我们该怎么去做呢?
首先,放平心态是最重要的,复现不出来实验不是你的问题,是多方面的问题共同造成的,多从以上几个方面去检查一下,是不是你也有类似的情况。如果是的,那出现这类问题的原因你也就明确了。千万不要因为一次简单的无法复现问题就垂头丧气,甚至质疑自己的水平,质疑自己的科研能力,永远记住,这不是你的错。
其次,不要死钻牛角尖,这篇文章复现不出来,要及时转换赛道,再多查查大刊的优质文献,也多试试别的方法,方法总是有的,只要人在努力的路上,不要把自己的路堵死就一定会取得最后的实验复现成功。
最后,己所不欲勿施于人,我们在做科研写文章的时候也要记得,平时认真做好每个细节的实验记录,在发表文章时尽量把实验细节写明确详细,当有人发邮件向你认真咨询实验问题时,也要认真解答他人,这样才能形成一个积极正向的科研反馈链。塑造良好的科研环境,从我做起,从眼前的实验做起。