chinesehugh的个人博客分享 http://blog.sciencenet.cn/u/chinesehugh

博文

原始测序数据进行MD5校验的重要性

已有 287 次阅读 2020-5-20 19:32 |系统分类:科研笔记

对从事组学分析的研究者来说,不能仅满足于测序公司给出的分析报告,一定要结合样品实际情况和研究重点自主分析。自主分析也有两个层次,最高层次是完全自主,研究者熟悉编程语言,能够熟练运用各种软件包,独立自主地进行分析工作;第二层次是依赖某些公司的云平台,在公司技术人员的指导下逐步做到自主分析(云平台资源一般仅对客户开放,而且各公司云平台的资源量和分析能力有很大差异,目前上海美吉公司做得比较好)。

不管分析手段如何,原始测序数据都是第一重要的。缺少原始数据或原始数据有错误都是致命的,就像无米之炊,巧妇难为!

在项目完成的时候,测序公司一般都会非常慎重地用硬盘或者网盘将原始数据交付给客户,并嘱咐一定要在规定日期内检验其完整性和正确性(目前的测序量都非常大,从几个G到几十个G甚至上百个G都有,公司不可能长期保留这些数据资源)。硬盘或网盘在传输过程中都有可能发生错误,尤其是网盘,由于数据大、传输时间长及网络质量问题,难免发生错误(本人曾有12个原始压缩文件6个发现解压错误,错误率高达50%),一旦超期则悔之晚矣!

MD5就是一种对数据的校验方法,原理是通过对接收的传输数据执行散列运算来检查数据的正确性。公司交付文件时会给出每个原始数据压缩文件的MD5值(一组序列值,例如3aef26a210c00b07fb7ed485b3df4b7b),客户再利用软件对接收的压缩文件计算出一个MD5值,如果两者的MD5值完全一致,则证明两个文件中的数据完全一样,可以放心使用。

因此,研究者在接收到原始数据文件后,一定要使用校验工具进行检验,发现错误及时反馈给公司,以便重新传送。百度上有MD5的校验视频,是直接利用好压软件自带的MD5工具,非常方便,参看https://jingyan.baidu.com/article/6c67b1d6e097da2786bb1e42.html






http://blog.sciencenet.cn/blog-3431904-1234113.html

上一篇:[转载]用于RNA质量控制标准化的RIN(RNA完整值)
下一篇:核苷酸与基因突变

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-8-8 17:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部