|
翻译过来就是:在2019-nCoV的spike蛋白上存在一些特异性的插入,该插入与HIV-1 的gp120 及 Gag蛋白之间存在难以置信的相似性
吓人吧!啥意思?难道武汉肺炎是人工插入了HIV吗?
该文章在微信群里面有一定的传播,甚至生物专业的人也被印度人的“研究”吓到了,
于是,借着印度学者的“分析“,很多阴谋论和恐惧,开始传播。
于是,我忍不住用一些演化学的基本知识和基本逻辑方法,来做点带有证据的科普。让大家看看这个论文是如何“唬人”的。
注意:如果看不到图片,请多刷新几次本网页,就能看到图片。
另外,由于科学网网页设计问题,图片无法显示高清,
如果有需要高清的图文,请前往百度盘下载本文 (pdf)
链接: https://pan.baidu.com/s/1oWnvIEs1gUH32yQz55WzIA
提取码: taqd
下面是作者和摘要:
Prashant Pradhan , Ashutosh Kumar Pandey , Akhilesh Mishra , Parul Gupta , Praveen
Kumar Tripathi , Manoj Balakrishnan Menon , James Gomes , Perumal Vivekanandan* and Bishwajit Kundu*1
1Kusuma School of biological sciences, Indian institute of technology, New Delhi-110016, India.2Acharya Narendra Dev College, University of Delhi, New Delhi-110019, India
* Corresponding authors- email: bkundu@bioschool.iitd.ac.invperumal@bioschool.iitd.ac.in
Abstract:
We are currently witnessing a major epidemic caused by the 2019 novel coronavirus (2019- nCoV). The evolution of 2019-nCoV remains elusive. We found 4 insertions in the spike glycoprotein (S) which are unique to the 2019-nCoV and are not present in other coronaviruses. Importantly, amino acid residues in all the 4 inserts have identity or similarity to those in the HIV- 1 gp120 or HIV-1 Gag. Interestingly, despite the inserts being discontinuous on the primary amino acid sequence, 3D-modelling of the 2019-nCoV suggests that they converge to constitute the receptor binding site. The finding of 4 unique inserts in the 2019-nCoV, all of which have identity /similarity to amino acid residues in key structural proteins of HIV-1 is unlikely to be fortuitous in nature. This work provides yet unknown insights on 2019-nCoV and sheds light on the evolution and pathogenicity of this virus with important implications for diagnosis of this virus. (文章预印本的作者信息和摘要的文字拷贝)
根据摘要,这些印度学者们煞有介事的认为,2019-nCoV的spike蛋白特异性有4个特异性的插入序列与HIV的序列很相似,然后暗示这是自然界不可能的,是人造的。
笔者从事生物演化和基因起源研究,在研究基因序列起源方面受过专业的训练。
出于好奇,对这篇文章中的证据进行分析。
根据我的重复验证,以及biorxiv等网站很多国际同行的计算,
可以确定的是,这篇文章正如很多同行所说,
不过是个蹭热度的“伪科学”,结论没有任何可信度,也很不负责任。
印度学者第一个大错误:没有使用最新的数据。
该文章最基础的部分,即武汉病毒特异性插入的鉴定图,4个有3个是错的:
上图是印度学者文章的图2. 该图说武汉病毒有4个特异性的插入。所谓的特异性就是:只有武汉病毒和HIV有,其他病毒都没有,才叫特异性。
但是,真实的情况是什么呢?用目前最全的病毒序列(31条序列,来自GISAID网站,2020年2月1日),进行了重新比对分析,就会发现
前3个插入并不是武汉肺炎(2019-nCoV)病毒特异性的插入,这些插入在来自云南的蝙蝠的冠状病毒。那么,印度学者宣传的这些插入序列仅仅来自HIV就不攻自破了。
印度学者错误的原因是,他们并没有使用石正丽教授最近公布的2013年蝙蝠粪便里鉴定的冠状病毒序列RaTG13(看下面的几个图)。
所以导致他的4个特异性插入中,只有最后一个序列鉴定是对的,其他全错。
当然,如果中间宿主找到,可能最后一个也是错的。
正因为如此,寻找中间宿主是非常重要的。
因为只有科研人员找到中间宿主,才知道病毒的真正起源。
我们逐个看印度学者宣称的四个插入。
第一个插入,来自蝙蝠而非人工的HIV
第一个插入,在最新的比对中,最相似比对是BetaCoV|bat|Yunnan|RaTG13|2013|EPI_ISL_402131,该序列是蝙蝠的Ratg13号冠状病毒序列,说明印度学者所说的2019-nCoV的第一个插入来自天然宿主-蝙蝠的可能性更大。
图1. 印度学者所谓的第一个插入,在最新的比对中,最相似的非武汉肺炎(2019-nCoV)序列来自是BetaCoV|bat|Yunnan|RaTG13|2013|EPI_ISL_402131,这个序列是天然宿主蝙蝠的粪便中冠状病毒。
所以,上图说明印度学者对插入1的来源鉴定错误,明明来自蝙蝠的序列突变,硬要说成来自人工插入的HIV序列。
第二个插入犯了同样的错误
图2. 印度学者文章宣称的第2个插入,根据最新的比对结果,最相似的非武汉肺炎(2019-nCoV)序列来自BetaCoV|bat|Yunnan|RaTG13|2013|EPI_ISL_402131,这个序列是蝙蝠粪便中冠状病毒。同样不能说是人工插入HIV.
图3. 印度学者宣称的第3个插入,该插入的蛋白序列是SSG,
核苷酸序列是CTTCAGGTT,该序列在大量SARS病毒序列中存在(前几年NCBI就公布了很多)。
图4. 印度学者宣称的第3个插入(本人用目前最全的病毒序列进行了重新分析)。
这个印度学者错的更离谱,上图是该序列的比对,
可以看出这个短序列根本不是2019-nCoV的特异性插入。
因为SARS里面、蝙蝠的病毒身上也有这个短序列。
第四个插入分析暴露了印度学者不够严谨
图5. 印度学者宣称的第4个插入,该核苷酸序列是CTCCTCGGCGGG。 上图是该序列的比对,可以看出这个短序列目前来看(2020年2月1日) 确实是2019-nCoV的特异性插入, 因为蝙蝠和sars里面都没有这个序列。那么这个是不是hiv呢, 我们可以在NCBI里面找找这个序列的最相似序列, 这个插入的分析暴露了印度学者第二大知识短板:忽视了序列相似性比对的基本统计原理 而序列相似性比对的基本常识就是要注意E-value 敲黑板:官方的解释是this tells you the probability of getting this score and homology by chance. 即,该值可以告诉你,随机获得某一个比对结果的概率。 这个概率值越低,因为值越低就说明随机获得该比对的可能性越低。 一般在实际分析中,E-value类似于统计显著性,越低越好。 一般同源序列的E-value是0.001甚至0.000001,来说明随机获得该比对的概率极低。 奇葩的是,印度学者把随机的相似性,任性的当做了序列的来源。 如下图(大图,看不见的话,请刷新):
图6. 印度学者宣称的第4个插入,该核苷酸序列是CTCCTCGGCGGG。 上图是该序列的在NCBI里面对所有病毒进行blastn,计算得到的最相似序列。 注意右侧的倒数第三列,这个比对的E-Value高达527,是不是有点离谱啦? 一般同源序列的E-value是0.001甚至0.000001,才能说明随机获得该比对的概率极低。 很显然,专业人士一眼就把该学者的结论打回原形。很清楚,这个图的E-Value值太高, 说明极有可能是随机出现的结果。 这只能说明随机获得这些比对的概率非常高。 也就是说,印度学者比对上了HIV,也没有意义,因为很有可能随机比对上很多其他序列。 例如下图的说明:
图7. 印度学者宣称的第4个插入,最靠前的比对物种,应该属于海洋细菌的噬菌体(Marine Virus)。
上图说明,这个序列在其他大量的病毒里面存在,既然其他病毒和生物里面也有一模一样的这个序列,
为何单单把HIV挑出来说事儿呢?由于印度学者没有说明其他病毒的比对以及统计显著性,
因此存在蓄意误导、编故事的可能性。
再看这个结果,谁都会编故事。例如,既然第一个比对的结果是海洋细菌的噬菌体,
那么武汉肺炎应该来自海洋病毒。该故事也让人无法反驳,华南海鲜市场存在海洋细菌的噬菌体病毒,
有什么奇怪吗?
随便编吧。
要编故事,很多故事可以编,印度学者选择了最吸引眼球、最吓人、很不严谨的一种。
事实上,做过数据比对的都知道,短序列很容易在其他物种中找到比对。
例如,该学者提到的第四个插入,也是目前来看唯一的特异性插入。
该插入在鸡的基因组中都可以找到很多比对。如下图:
图8. 印度学者宣称的第4个插入,所谓的"武汉肺炎特异性HIV插入序列", 该核苷酸序列是CTCCTCGGCGGG。上图是该序列的在鸡基因组中一模一样的序列, 总共有27条(基因组DNA序列可以在ensembl下载验证)。 然而,这有什么意义呢。 什么?鸡没有代表性,我们来个大熊猫, 看看大熊猫体内有多少所谓的"武汉肺炎特异性HIV插入序列",比鸡还多。
大熊猫的基因组在这里,ftp://ftp.ensembl.org/pub/release-99/fasta/ailuropoda_melanoleuca/dna/
请问,大熊猫和鸡得罪谁了?
如果你愿意找的话,就连鱼的体内都有4条"武汉肺炎特异性HIV插入序列"
后记
不出所料的是,在bioxriv的评论区,很多学者对该文章有严肃的批评,目前没发现支持这个教授的评论。
我截取几个放在这里:
1. I think that this paper is ignorant and amateurish pseudoscience. No. Absolutely not. This is not some escaped bioweapon. (翻译:我认为这个文章很无知、不成熟的伪科学。这绝对不是逃逸的生物武器)
2. Dr. Konermann of Stanford just checked their results. The similarity is spurious. Out of 4 inserts they identify between NCov and SARS, 2 are found in bat coronavirus. Of the remaining two, only one is most similar to HIV, and is so short (6 AA) that the similarity is not higher than chance given database.
这个相似性是虚假的…只有一个跟HIV相似,但是太短了,概率不会比数据库的随机序列更高。
3. Therefore I would argue that the results presented do not appear "uncanny" to me based on a flawed methodology. (方法有缺陷)
4. All four of the identified amino acid insertions are extremely short and are found in the genomes of many other organisms, not just HIV. In other words, the primary finding of this work are entirely a highly expected coincidence. (仅仅是偶然)
5. Unless there is a way to measure or gauge a comparison via some sort of statistics this reads more like astrology and is irresponsible.(这个文章类似占星术,不负责任)
连crisper大神 David Liu都加入了嘲笑印度“科学家”的行列
值得科学界庆幸的是,印度人只把文章发表在预印本,也就是没有同行评议的网站。由于大量学者重复了印度学者的工作,发现他们完全是在瞎写:包括遗漏了重要数据(RATG13)、有偏好性的挑选了某些博人眼球的结果(HIV比对)。
印度学者的文章恐怕很难发表了,学术声誉没了。
值得注意的是:因为这个印度人的伪科学研究,biorxiv刚刚出了一个免责说明,网站都怕了:bioRxiv is receiving many new papers on coronavirus 2019-nCoV. A reminder: these are preliminary reports that have not been peer-reviewed. They should not be regarded as conclusive, guide clinical practice/health-related behavior, or be reported in news media as established information. 提醒人们,最近蹭热度的人太多啦。这上面发表的文章,没有经过同行评议,不应该作为媒体报道的根据, 不能当真的。
总之,这篇来自印度的论文的结论可信度低。退一步来说,即便在某些区域,2019-nCoV病毒与hiv病毒存在演化的相似性,但这很难说明该序列是人工插入的,因为我们可以在大量其他生物中也找到类似的序列。该病毒的演化,需要全世界科学家进一步严谨的研究。
印度学者决定撤稿了
根据最新的消息:该文章的第一作者 Prashant Pradhan,在全球学者的批评和评论压力下,终于意识到了自己的分析的问题和技术错误。他在评注中说这个文章是粗浅的研究,决定要撤回现稿。这是一个好现象。
This is a preliminary study...It was not our intention to feed into the conspiracy theories and no such claims are made here... We have positively received all criticisms and comments. ...we have decided to withdraw the current version of the preprint and will get back with a revised version...
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 23:03
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社