生态学时空分享 http://blog.sciencenet.cn/u/lionbin 自我营造一个可持续发展的学术生态系统

博文

众包方式的研究,未来的科学探索之路

已有 8690 次阅读 2014-3-2 22:48 |个人分类:一起读顶刊|系统分类:科研笔记

众包(crowdsourcing),原本指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的大众网络的做法。众包的任务通常是由个人来承担,但如果涉及到需要多人协作完成的任务,也有可能以依靠开源的个体生产的形式出现。许多科学领域也正尝试将这种方式应用于自己的研究中。研究人员发现,如果选择了一个正确的问题,那么在网上的众包合作可以加快自己的工作[1]

2009年1月底,得益于在线公民科学运动的灵感,英国数学家、1998年菲尔兹奖得主Timothy Gowers在他的博客上发布了一个数学上还未完成的定理,让他的读者们一起来证明之,此后开始了他后来所说的“我的数学生活中一个最令人兴奋的六周”。他想通过众包各位的专长,也就是将一大群数学家的大脑有效连接起来,希望他们更加有效地解决这个问题。显然他达到了这个目的,在他的问题发布几个小时,博客中充斥着各种头脑风暴,数学家们相聚在一起贡献各种想法和可能的解答途径。刚开始发布这个博客只是想得到一些新的想法而已,而最后令他倍感惊讶。截止到次年3月,有近1000条评论。最后,他宣布这个定理已经被证明了,并说“这是一个意想不到的结果,但又是一个解决问题的实际办法”。这个证明结果最后发表出来,用了一个集体化的笔名D. H. J. Polymath。

无独有偶,Galaxy Zoo(星系动物园计划)在项目进行的第一个年头就吸引了超过150000的用户,让他们通过星系图像形状来进行分类。也有人将这种理念应用于虚拟实验中。不久前发表在PNAS上的一篇文章,就是通过一款游戏软件(Foldit)让玩家与真实的生化实验室连接起来,远程执行真实的实验,验证有关 RNA 分子折叠理论的预测[2]。众包实验的第一个结果已经出来,发表在本周出版的期刊 PNAS 上,论文署名作者多达3.7万人,其中专业科研人员只有10人。科学周刊(Science)针对此文发表新闻分析:这样的研究代表着未来的科学,不只是众包公民科学家,还允许他们远程访问真实的实验室。云端科学正成为现实,科学家可以外包枯燥的实验,而将精力集中在不枯燥的部分[3]

数学,通常被视为一个相对比较孤独的领域,数学家也被看作是那些将自己隔离起来不韵世事的神秘人物。在传统的数学研究中,数学家们的想法必须发表出来,才能得到承认。Gowers的在线研究,对数学来说是一个根本性的挑战。众包已经进入数学领域了,这一带有成见的铁律最终要被打破了,在其他学科已经发展多年的研究模式也进入这个领域,甚至终于要赶上其他科学了[4]

这种开放式研究的数学众包项目网站Polymath(博学)已经建立了五个年头,让人们提出新的挑战性问题进行辩论,如果他们认为这些挑战是值得的,就为其解决方案传播思想。互联网上许多最受欢迎的科学众包项目对参与者的专业知识并没有什么要求。相比之下,Polymath对参与者的专业知识有要求,因此只能吸引数十个参与者。有人认为,Polymath的响应能力是关键力量。通过这种快速反应,可以让一些数学问题变得很热。例如,2013年4月,张益唐解答“孪生素数”的问题就曾经引起了科学网的轰动。他证明了存在无数多个素数对,其中每一对中的素数之差不超过7000万。文章发表后,短短一个月时间,七千万就被菲尔茨奖获得者陶哲轩在网上发起的讨论Polymath 8将这个值缩小到6万多,之后再到数千,2013年11月,加拿大蒙特利尔大学德尔数学家James Maynard将这个继续差值缩小到600。科学网曾发表一篇文章《张益唐:孤独的数学家》是这样描述这各种数学上的贡献的:“张益唐起到的作用就是把大海捞针的力气活缩短到在水塘里捞针,而他给出的方法还可以把水塘捞针轻松变为游泳池里捞针。也许最后变成在碗里捞针还需要一些再创新的工作。但给出了这一伟大框架已经是让全世界数学家瞠目结舌的壮举了。

正如陶哲轩所说,Polymath 8是合作方式的胜利。如果数学家继续用“洪水般的大量小论文”这种标准研究方法来攻克这个问题,受到发表周期的限制,最后达到类似的结果可能需要数年的时间。也许最重要的问题是,建立和维持一个Polymath项目是一个很大的承诺和义务。到目前为止,陶哲轩和Gowers也只启动了两个项目。他们承认让人们对这些问题持续感兴趣其实很困难。需要一个活跃的人物愿意花费大量的精力来组织讨论并保持向高效的方向移动,否则刚开始轰轰烈烈的活动可以很快偃旗息鼓。

这样的项目与一些商业企业提出技术问题和在线数据分析问题的要求是类似的,目的是寻找拥有高技能人群的反应,其中一些激励机制是有帮助的。在学术界,人们愿意花大量的时间为了“荣誉”或科学而战,这是关键。对大多数参与众包项目的非学术投入来说,货币奖励或奖金似乎是需要的。通过提供经济奖励刺激专家提供解决方案。这些举措必须是政府主导的,比如美国NASA的Tournament Lab和跨部门Challenge.gov的网站,就是政府提供现金奖励解决一系列工程和技术问题。

另外需要的努力就是完全商业化的了,责任客户在网上发布问题。其中最突出的运作是InnoCentive公司,主导任何科学或技术挑战,囊括的范围从平凡而重要的问题(比如 “厕所应急照明”或者“如何保持头发长时间不洗还是干净的”)到非常深奥的问题(比如,寻找某种复杂化合物的类似物或者稳定泡沫乳剂。目前这个网站拥有超过30万的注册“问题解答专家”,如果他们找到解决方案,就能获得5000~100万美元不等的奖励。

旧金山的卡谷(Kaggle)公司是专门从事数据分析业务的。2012年,一个由天文学家组成的研究小组在Kaggle推出了一个名为“观察暗世界”的竞争项目,提供20000美元的资助,试图获得最好的三个算法来绘制暗物质在星系中的分布。这种竞争对各方都是成功的:获奖方为天文学家提供了对现有算法进行了约30%的改进,资助方从选手名单中招募了新的分析师,这只是通常广告和面试成本的一小部分。

Polymath与商业投资项目的共同要素是刺激人们参与的根本原因,但人们参与的动机似乎是不同的。但Polymath与商业投资项目也有非常明显的差异。大多数商业投资是具有竞争性的:参与者争相“赢得”挑战,结果是能获得资金奖励。Polymath项目的挑战似乎是真诚合作,而不是竞争。最后解决问题的那些赢家很少将获得现金列为他们首选动机的。他们的动机常常是来自人固有的一些特性,如智力刺激或好奇心驱使去探索一个想法。人们可能在其他人的基础上做出一些小贡献,或者每个人解决了谜题的一部分,而不是竞争的最终胜利者。InnoCentive也想通过非现金激励来进一步合作或联合新闻机构来报道那些获胜者。Kaggle公司也邀请参与者“为获得财富、名声和趣味而竞争成为一个数据科学家”。适当的竞争可以帮助科学研究,但如果处置不当可能会徒增噪音。

其他基于众包方式建立的项目,例如上述的星系动物园和在线蛋白质折迭游戏(Foldit)都是有关数字的权重,而不是专业知识:他们招募志愿者进行重复性的任务,如银河形态分类或预测蛋白质结构,人类的判断仍然远远胜于那些自动解决方案。这是非常有用的,但不会导致这种推动科学向前的概念新颖方式。因此,尽管各种方法利用部分大众的“智慧”(或者只是劳动力)来玩,那么其他学科肯定是可以从Polymath获得一些认识的,一个开放研究的价值。

系统是完全民主的:任何人都可以提出和协调一个项目,如果它被认为值得付出努力,任何人都可以给出答案或者建议,不管多么小的建议都被认为是有价值的。这个过程是一个交流,而不是竞赛。这并不仅仅是解决一个问题,而是分享想法。与其他传统上只有很少合作的领域建立联系,如果没有一个偶然的机会碰到正确的合作者,就不可能意识到。参与者正在学习这种努力的局限性。

一些成功的Polymath问题是可以被分解成更小部分的,让每个人都可以独立工作。这仅仅是一个方式,众包并不是让一千鲜花盛开,然后扔掉所有的只保留最香的那朵,更不是全体出动。


参考资料

[1] Crowd-sourcing: Strength in numbers. Nature, 506, 422–423 (27 February 2014)

[2] John Bohannon. Online video game plugs players into remote-controlled biochemistry lab. Science, (31 January 2014)

[3] Jeehyung Lee et al., 2014. RNA design rules from a massive open laboratory. PNAS, (27 January 2014)

[4] Parallel lines. Nature, 506, 407–408



https://blog.sciencenet.cn/blog-502444-772526.html

上一篇:人类已经无法阻止“第二次机器时代”了
下一篇:恶狼的传说:简约的生态学理论、复杂的生态学现象
收藏 IP: 101.87.157.*| 热度|

23 陈楷翰 曹聪 蔡庆华 樊文强 贺鹏 刘士勇 赵凤光 张云扬 钟灿涛 赵序茅 闫钟峰 赵美娣 武夷山 吕鹏辉 叶水送 孙学军 彭真明 李宇斌 张骥 赵宇翔 aliala QDA2012 xuexiyanjiu

发表评论 评论 (21 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-18 03:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部