||
《Nature》评出了2019年十大亮点文章,其中复旦大学的关于亨廷顿舞蹈病的文章作为第一篇被报告了[1]。因为跑步的原因,我碰巧跟文章中的通讯作者之一丁澦教授熟悉。以前只是感叹跑步追不上他,现在科研也追不上了。也因为跑步的原因,在复旦跑步协会年会晚宴中我跟第一作者、博士生王岑同学又坐到一桌,于是顺便向她请教了这项成果的原理。
图1:左起分别为丁澦、朱成钢、费义艳、王岑、王紫英、李朝阳、鲁伯埙 [2]
亨廷顿病是一种单基因显性引发的神经退行性疾病,主要是由变异亨廷顿基因表达的突变型亨廷顿蛋白的神经细胞毒性导致[2]。后果是随着疾病的进程发展,会不由自主有类似舞蹈样的动作。加重后,将逐渐丧失说话、行动、吞咽的能力甚至精神异常,并最终导致患者死亡。如果要从基因这个源头上来根治,成本很高,且由于引起该病的变异亨廷顿蛋白生化活性未知,目前还没有好的靶向药物。所以另一个策略就是在此“不良”基因形成的蛋白上去做文章。
复旦的工作就是从此着手的,希望能改良自身的防御机制,来形成把那些致病的蛋白识别并吃掉的能力,以直接降低变异亨廷顿蛋白水平来获得治疗效果。尽管自身的免疫系统并没有专门针对亨廷顿病的防御机制,复旦的研究发现,有一些小分子材料如果像“胶水”一样绑到某些用防御功能的蛋白上时,就可以获得这样的能力。但是,疑似的小分子材料有很多种,而且可能还存在毒性。如果一个一个筛查,非常耗时,犹如大海捞针。另外,在利用小分子药物特异性直接降低致病蛋白的同时,如何做到不影响对应的脑组织里的野生型蛋白水平也是该领域长期以来的一大难题[2]。
于是,复旦生科院的老师便找了复旦光科学与工程系的费义艳老师合作,从购买的几个小分子库的药物芯片中通过免标记斜入射光反射差(Oblique-Incidence Reflectivity Difference, OI-RD)技术进行高通量筛选,以确定近四千种疑似的小分子化合物哪些是能与靶标蛋白结合的。再过芯片来分析化合物和蛋白的特异性结合能力,有用的便会留痕、导致该位置的分子层厚度增加。最后,再对筛选出来不会与野生型亨廷顿蛋白结合但又具有“胶水”能力的四种小分子化合物依次或同时进行细胞层面的实验、蛋白的体外生化实验,以及小鼠的实验。最终,他们提出了基于自噬小体绑定化合物的药物研究原创概念,并发现了真正有效的、能形成自身防御性,即特异性降低亨廷顿致病蛋白的小分子化合物。它较靶向DNA或RNA等基因治疗手段好的一点是成本低,有可能能形成像药片口服或注射液一样的药。尽管离临床治疗还有一段距离,但至少让我们在治疗亨廷顿舞蹈病的路上看到了曙光。
虽然是Nature的成果,但如果追溯这篇文章的历史,不难发现,在此之前,已经有过一系列的研究成果和经验积累,所以才能知道沿这条路走,大方向是对的。不信的话,大家可以去搜索下通讯作者之一、复旦大学生命科学学院鲁伯埙教授的主页[3]。
论文的核心:创新
重要的创新,都是一步一步积累来的。所谓不积跬步,无以至千里。但对于多数学生来说,尤其是硕士研究生来说,可能并没有足够长的时候来积累出一项大的成果。那该不该发表创新性相对小的论文呢?这要从两个方面来看,一方面导师及其师兄师姐可以依赖经验帮助提升创新的空间。另一方面,如果创新达到一定水准的话,导师应该利用这一契机指导学生完成论文的写作,帮助学生完成研究生期间必要的一个环节,即论文写作的训练。
事实上,学生也不必为自己的创新小而胆怯。因为很多顶级会议的论文,如果认真去归纳总结的话,创新点并不多,有的时候可以归结为只有一两个公式的改进。所以,鼓励学生进行论文写作,也能帮其逐渐树立科研自信,去除“遥不可及”的心态。另外,论文的发表也能让学生有一定的成就感,从而激发其继续从事科学研究的兴趣。
那么,在论文需要突出创新的一节中,作者可能需要想明白几个问题,确保写出来的内容不存在逻辑上的漏洞,能与之前的介绍、相关工作形成完整的逻辑闭环,让评审和读者相信此创新是值得发表的。
以理工科尤其是计算机学科来说,主要有两个可形成创新的点,理论、算法。那么作者应该在这一块说清楚,如理论和算法究竟是否解决了之前提及的问题,如何解决的。
在创新的角度上,也需要把优势能体现在哪些方面回答清楚?比如几何上是否更直观? 是否付出了某些时间或空间的代价,其代价是否值得?计算效率是否得到提高?是直接在算法层面提高了计算效率,还是通过硬件的并行计算来获得的,诸如此类。
在论文里把这些大的问题解决后,还需要在细节上精细处理,以提升论文的质量。
如果是偏重理论方面的创新,那么严格意义的证明是需要的。但在这个环节上,有些细节是值得注意的。首先是符号的约定,滥用符号和重复定义都容易让评审或读者觉得作者不专业。在多数情况下,我们对数学符号有约定既成的规定。比如小写x表示标量,斜体 或黑体x表示向量,大写黑体X表示矩阵,花体X常用来表示集合,P表示概率,y表示因变量,诸如此类。这个问题也好解决,网上或找本数学工具书了解下符号的约定即可。另外,当文章中数学符号多了的时候,容易出现符号重复定义问题,比如一个符号既用来定义向量又用来定义集合。还有些学生在约定数学符号时喜欢用较长的字符串,实际上应该遵循“不影响理解的情况下,尽可能简化”的原则。
除此以外,也不要在命名上犯低级错误。比如我经常会搞混淆的定理、定义、推论、引理、命题等的写法,什么时候该用哪个术语,都不应该出现明显的错误。尤其对于没有进行过严格数学训练的学生来说。如,证明不了的就不要写成定理、推论,而定义则是不需要证明的。
即使是证明了的内容,也需要小心并反复求证。比如在机器学习领域,有过一段时间很流行证明某个学习方法获得的预测性能离真实或理想的学习器的预测性能有多近,下界是多少。但在证明这个近或下界时,往往需要在放缩的过程中丢弃或增加了某些项。如果导致下界比较松,以至于无法指导随后算法的设计,或者说随便一个算法都能达到的下界,那么,获得的这个下界,对于评审或读者来说,可能就会觉得意义不大。因此,作者需要再深入研究和分析下,找到更有建设意义和说服力的下界。另外,就是如果写得过于复杂,没有呈现出相对简洁的结论时,也可能会被评审质问其合理性,导致不必要的审稿周期延长。
这些是在理论方面需要注意的,那么如果是偏重算法创新,该注意哪些呢?
如果是偏重算法或方法创新的,可能最重要的一点是需要学会总结。举例来说,一些方法创新是通过启发式策略获得的。对于这种情况,有些作者喜欢用大量篇幅、长篇累牍似地描述自己的方法。但实际上,千言不如一公式。比如人工智能中的很多方法是可以用公式来表达的,这样能够做到一目了然。尤其对国人来说,英文不好的时候,讲老半天可能也不容易让老外明白,而写成公式这种国际通用的表达后就很容易看明白,更直观。事实上,即使是中文论文,写得不简练,也会让人着急,有可能让读者对提出的方法的创新程度大打折扣。
当然,也可以增加图示。比如在人工智能最近流行的深度学习,公式并不多,但图示模型的结构非常重要,因为它能更直观地帮助读者看出创新点在哪里。这个时候如果能用些相对专业的画图工具,画点漂亮的模型图出来,也许会起到事半功倍的作用。
类似地,还有一些小的注意事项。比如,千万不要把自己写的代码直接拷贝进论文中。我见过不少非全日制硕士的毕业论文是这么写的,让人感觉就是想把论文的页数充满点,实际却意义不大, 还有负面印象。最好是凝炼成伪代码的形式,把算法的主要结构和步骤描述清楚,以方便读者复现相关代码。
另外,如果论文接收了,且没有考虑商用和专利保护的前提下,可以考虑找代码共享平台分享相关代码,比如全球最大的代码共享网站Github,并在论文中注明。这样既能提高论文的可信度,也多少可以提高些论文的引用率。实际上,现在有些期刊或会议已经明确要求接收的论文需要提供论文的代码了。
除此以外,如果能补充点一些理论性的证明来形成支持的话,往往更容易得到评审或读者的认可。记得我2010年左右,写了一篇关于自适应K段主曲线的文章,算法本身带一点启发式,所以有评审问,是否能从理论上验证下。我和学生想了一段时间,最后学生从一个与统计相关的网站上发现了线索,并依葫芦画瓢式的给出了理论证明。最终,该工作发表在IEEE TNN上。
但需要注意一点的是,如果自己的水平并没有达到一定的程度,千万不要过份自信的去做什么证明,尤其是投顶级刊物或会议的文章。因为你可能碰到的都是比你基础好不少的学者,可能一眼就能看穿你的问题所在,然后就以此为由拒稿了。
最后要讲一句,只要有创新,总是能找到地方发表的。被拒稿是正常的,尤其对新手而言,不要因此而灰心。而被顶级会议或期刊拒稿就更自然不过了,按意见好好修改继续转投略低一档的期刊或会议即可。
除了创新的有效准确表述外,还需要有实验的结果来进一步形成对创新的支持。那如何写实验部分呢? 下回分解!
张军平
2020年1月29日
参考文献:
1. Zhaoyang Li, Cen Wang, Ziying Wang, Chenggang Zhu, Jie Li, Tian Sha, Lixiang Ma, Chao Gao, Yi Yang, Yimin Sun, Jian Wang, Xiaoli Sun, Chenqi Lu, Marian Difiglia, Yanai Mei, Chen Ding, Shouqing Luo, Yongjun Dang, Yu Ding, Yiyan Fei, Boxun Lu. Allele-selective lowering of mutant HTT protein by HTT–LC3 linker compounds. Nature volume 575, pages203–209(2019),链接:https://www.nature.com/articles/s41586-019-1722-1
2. Nature重磅|ATTEC技术:复旦大学鲁伯埙团队打造神经领域药物研发新概念
链接:https://mp.weixin.qq.com/s/JSCfMwuhHLBRS8sp4vw5Jg
3. http://www.escience.cn/people/BoxunLu/index.html
延续阅读:
13. 读研秘技十三:引人入胜的开场白
12. 读研秘技十二:重灾区的论文摘要
11. 读研秘技十一:论文的选题与选题目
7. 读研秘技七:高徒出名师
张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列21篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC, TIP等。学术谷歌引用3600余次,ESI高被引一篇,H指数30。
出版科普著作《爱犯错的智能体》,曾连续24次推荐至科学网头条,曾五次进入京东科普读物新书榜前三名。关于人工智能发展趋势的观点曾被《国家治理》周刊、《瞭望》、《科技日报》、《中国科学报》等媒体多次报道。连载的《读研秘技》至今被科学网推荐头条12次。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 02:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社