|||
最近在“知因网”回答的一个问题,分享在这里,供大家拍砖。
http://www.knowgene.com/question/3093
问:
生物大数据创业,你看好生物技术背景的团队还是大数据背景的团队?
答:
关于“秤砣爸爸”说的两个公司,我都不熟悉。仅就自己对生物大数据产业的理解,看看这个问题的走向,对这个问题说说我的看法:
个人觉得,生物大数据的产业链条起码分三个层次,其核心是大数据的收集、组织和存贮,这部分需要大量的资源,创新公司没有能力在初期有这个实力,也就是只有华大这样的“巨无霸”才行;外层应该是大量的应用层开发公司,现在这样的小型公司越来越多,主要依赖自己熟悉的生物技术对市场提供服务,对象可以是科研单位、企业(如药厂)或个人;中间层是生物信息云的生存空间,它需要提供上到数据中心,下到应用层的接口,实现数据层和应用层的控制分离(有点象MVC但不相同),实现数据分布计算和存贮的自动化,提供数据可视化接口。
为什么产业的将来会是这个结构呢?
1, 大数据的共享是趋势。数据拥有量越大的公司其数据量增长会越快,(这是类比富人越富的无标度网络的特性决定的,是自由市场条件下的公理),数据会被垄断;而新生的数据公司除非有足够多的资源来占有数据,在自有的数据资源上建立起大数据应用是不可能的。但是,由于数据中的价值一旦被解读大数据的这部分价值就失效,所以大数据的拥有者(大企业或政府),为了实现在竞争中早日兑现价值,必然会尽快数据共享,提供给新的创新小公司。数据孤岛会因为竞争而逐渐消失。
2, 单一公司的包含所有全部数据流水线的生产方式落后于时代。现在无论是华大还是到小的服务公司,应该都是把IT应用从HPC或共有云上虚拟机上从头开发,分布和平行与业务逻辑没有完全实现隔离,由于大数据分布并行和生物信息的学科特点差异较大,在各方面方法日新月异的今天,人员培训和维护开发成本会越来越高。
由上面两点看,产业链会逐渐层次化。
生物信息云是在夹缝中生存的,其是否能成功的关键是对外API的设计,符合生物数据的特点,不是简单的键值对结构能描述以序列为代表的生物数据,这样的技术背景,应该只有以大数据背景为主体的团队来担当。这并不是说生物技术背景为主体的公司不能生物大数据创业,在外层次中,应具有绝对优势。这两个层次的公司当然有合作的可能。至于,公司是否能成功,要看谁能活下来,在全球竞争中的“黑暗森林”里,应该决不止“秤砣爸爸”提到的两个。不过就象《三体》中章北海临死时说的那句,“没关系的,都一样”。
个人观点,如有不对请拍砖,如有得罪任何知友,请见谅!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-19 05:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社