||
现在发文章,如果使用了测序,芯片等技术,杂志社一般会要求你将原始数据上传到公共数据库中,以保证数据的真实性和可重复性,常见的公共数据库有:
NCBI GEO(https://www.ncbi.nlm.nih.gov/geo)
EBI ENA(https://www.ebi.ac.uk/ena/browser/guides)
中国自己的国家基因组科学数据中心(https://ngdc.cncb.ac.cn/?lang=zh)等。
个人推荐支持国货,中文界面,qq群支持(虽然从来没有用过,)
最近在整理数据时候(其实是被人投诉了),发现了GEO使用中一个不算bug的bug,分享给大家!
NCBI GEO个人信息页面截图
先看下注册GEO账号时,你的个人信息页面,如上图所示。下面有段英文,从来没关注过,大坑啊!
NCBI GEO GSE165163页面
我们随便打开个页面,例如GSE165163页面,观察下,红色矩形部分的信息来自哪里呢?细心的小伙伴已经发现,这个信息,跟GEO Profiler中的个人信息是一致的,并且是同步的,也就是你修改GEO Profiler中的信息,在GEO的页面上会实时显示出来。
这就会带来一个问题:
假如你的数据不是你自己上传的,而是由其他人帮你上传的(例如你朋友,测序公司等),那么在你没有给对方你的GEO账号情况下,你的数据在GEO页面上的联系人信息,就由对方所控制了。假如你朋友,或测序公司使用他自己的账号给你上传,那么我们来看下 My submissions页面,以下是我帮助朋友/客户上传的数据集。当我点开下面的N个GSE页面后,发现所有我账号下上传的数据集(例如这里的6套数据)的联系信息,包括邮箱,地址等全都是我自己的(小伙伴们可以试试看)。
已提交数据集列表
那么,问题来了:本应该是我朋友/客户的数据,联系方式不应该是他么?怎么在NCBI GEO中变成统一的了。
细思极恐,比如我在不同时间帮助100个来自世界各地的朋友/客户,上传了100套数据。会出现以下两种情况:
1, 我的个人信息从来没有改过,那么这100套数据的联系人全都是我,100个客户找你理论:“我的数据,交给你上传,怎么联系人是你?那么这数据到底归谁所有?你把账号,密码给我!”
吐槽:我只有1个账号,怎么给你们100个人?谁叫你懒,连个账号都不注册?!
2, 每次上传前都根据朋友/客户信息,修改自己的信息,那么bug来了,这100套数据的联系人信息,全都变成你最后一次保存的信息了。100个客户找你理论:“我的数据,交给你上传,怎么联系人是别人,邮箱也是别人,你把我数据卖了吗?”
基于NCBI GEO页面信息调用GEO Profiler的现状,还真没办法将100个朋友/客户的信息一一改成他们自己的姓名,邮箱,地址。
我们将GEO这个不算bug的bug,称之为“没有历史版本的个人信息设置”,谁在10年间还不换个邮箱,换个单位么?
小伙伴们想想:就比如说某个人的数据,自己上传的。10年前,他在北京大学做的数据,GEO页面应该显示北京大学吧;5年前他在上海交大做的数据,GEO页面应该显示上海交大吧;3年前他来到了浙江大学,GEO页面应该显示浙江大学吧,要不给你经费的人不愿意啊!
那么当打开页面后会发现,北大和交大全都变成了浙大!!!
北大,交大找你理论:怎么N年前不是我给的钱吗?GEO页面怎么是浙江大学的地址?
所以,科研,勿懒!在这个bug没解决前,还是老老实实,一套数据注册一个账号吧!
问题又来了,作为每年上传几百套数据的人,臣我哪里来几百个email进行注册啊!
微生信云平台 38000注册用户,引用399
微生信云平台(http://www.bioinformatics.com.cn)以在线作图、在线数据分析为基本方式,致力于0代码分析科研数据,0代码展示数据结果,帮助生命科学、医学等领域的科研工作者更便捷地分析数据,了解数据,挖掘数据背后的生物医学意义,辅助科研,促进知识传播。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 19:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社