生态学时空分享 http://blog.sciencenet.cn/u/lionbin 自我营造一个可持续发展的学术生态系统

博文

这么“变态”的调查请求,你会接受吗? 精选

已有 8083 次阅读 2015-11-25 20:20 |个人分类:读书笔记|系统分类:科研笔记| 社会调查, human, 健康大数据, 证据合成

昨天说到《智慧社会:大数据与社会物理学》这本书(后简称《智慧社会》)。该书还介绍了彭特兰收集社会大数据的故事,甚是有趣。今天就来顺着这个话题说说。

传统的经济学认为,每个人都是会独立做出自己决策的“理性人”,但彭特兰发现,人们在做出决策的时候总是会模仿他人的行为,也就是身边的人会不知不觉影响你的行为。为了从大数据来对此进行分析,彭特兰建立了一个庞大的家庭数据库,实时观测30多个行为指标,每6分钟更新一次。他们还有一个大学宿舍的实时监控系统,监测新入学的大学生。彭特兰送给他们每人一部智能手机,手机中的软件会监测学生的通话、社交活动等信息,累计连续记录了50万个小时的数据。

大家是否觉得这样的跟踪,也太过分了?然而,如果我们看到上个月Science周刊中的一篇文章,你会觉得这完全是小儿科了。

话说一年半前,2500户纽约家庭收到了一个令人吃惊的邀请,请允许科学家在20年时间中密切监测他们生活中的细节——他们到什么地方去,吃什么,与谁交谈,买什么,身体如何成长、改变或者恶化的。这就是通过测量和分析一些参数来理解人类的Kavli项目(Human Understanding through Measurement and Analysis ,HUMAN,http://kavlihumanproject.org/),该计划使用严格的科学手段和大数据方法,通过测量生物、行为和环境间的反馈机制,理解究竟是什么让我们过得很好,什么导致我们生病了。据说这是有史以来第一次能够真正量化人类条件的开创性工作。该项目的意义嘛,就是可为社会科学和生物医学研究人员积累大量有关人类健康、行为和生活方式的数据。HUMAN项目最近还发布了其初步研究思路,这真是一个令人难以置信的测定计划!所有10000名参与者每三年提交血液、唾液、头发和粪便样本,以便揭示其遗传、接触化学物质和微生物组成。他们还要提供医疗记录、教育记录和财务文件。期间,智能手机会不断地记录他们的位置、活动和社会交流,也可能邀请他们参加每周的问卷调查。这是不是一个“变态”的调查?

为了让大家充分理解HUMAN项目的具体好处,项目负责人起草了一个包含25个“大挑战”的列表。其中一个挑战,是分析生活方式与痴呆之间的关系。一些小规模的研究表明,类似锻炼和社会活动等可有助于避免智力下降,但其中哪些变量是最重要的呢?另一个挑战,是将烟草购买与人体组织中的表观遗传变异联系起来,评估吸烟习惯如何影响分子可能导致癌症或其他疾病的问题。HUMAN项目还将收集一些基于位置的数据。纽约五个区有良好的基础设施,可提供诸如用电量、垃圾量和噪音投诉的位置等。地理信息系统还可以在城市街区的分辨率上跟踪天气模式和环境毒素的分布。为了让纽约人同意这个20年的监测计划,项目会提供一些资金,人们可以访问个人和人群水平的数据,以及“营造良好社区的项目和活动”,如生日贺卡、品牌商品,或参与公共论坛的机会。

作为收集人类健康大数据方面的努力,HUMAN项目并非唯一。遗传学家J. Craig Venter的人类长寿公司(Human Longevity Inc)也计划每年收集100000个人的基因组以及其他生物数据。但迄今为止还没有一个项目是真正全面地、平行地关注人类行为和环境的。当然,开展这样的项目,在科学研究上就会遇到一些阻力。比如,一些长期从事纯理学研究的科学家所进行的研究,都是假设驱动的,他们可能会质疑:如果连一个独立的假说都没有,那不是花冤枉钱吗?项目的负责人也是从假设驱动的科学家培养出来的,他们当然明白这些道理,因此他们责任重大,要试图进行这样的一个大型研究并确保最终有回报。

一直以来,自然科学家和社会科学家在人类健康与行为方面缺乏可用的细粒度数据。如果想知道接触某些化学物质是否可能增加患结肠癌的几率,这似乎很容易找到动物学实验证据。但流行病学研究却可能告诉我们一个不同的故事,这些实验证据对人几乎没有什么用。就测定与健康相关的因素来说,我们可以测定人的整个基因组序列,甚至包括细菌、病毒和肿瘤。原则上,电子医疗档案记录了我们每一次看病的过程。那些较小规模的健康或行为研究,只是着手测试一个单独的假说,扩大到更大的人群,也许并没有什么意义。而且,通过筛选信息来寻找有关健康问题的答案越来越困难,甚至对专家来说都是如此。有关生理、行为、饮食、运动以及与他人之间的互动,现在都可以从可穿戴设备、智能手机应用程序和社交网站中提取出来。这些前所未有的宝贵数据,也许可为研究人员找到一些意想不到的相关性。得益于开放获取运动和数据共享规范的变化,更多的数据将被公布开来。这是一个“时代转变”的信号:在一个数据缺乏的世界,你必须找出一个明确的主题并足够专注才能获得一些数据,而在一个数据丰富的世界,数据会产生自己的假设,然后被数据自己证实。

以前,研究人员试图通过混合相同类型的数据来获得见解,例如来自临床试验的数据,现在这种认识也许要更新了。我们相信,将来自不同数据源的数据聚合可以提供一个全面而连贯的证据链,决策者就可以据此采取行动。不同领域的数据,是采用不同方法产生的,也存储在不同的基础设施中——从医院的专用服务器到全球平台,如dbGaP(基因型和临床信息开放数据库)。不同的研究和数据类型又往往具有不同的优缺点,当不同类型的信息结合起来的时候就有更丰富的理解。例如,治疗胃灼热的药物西沙必利1993年在美国得到授权,在临床试验中收集的数据也超过十年,但只有当这些数据与长期定群研究 ( cohort study )聚合起来,包括成千上万使用西沙必利患者出现的效应,与药物相关的致命心脏节律紊乱才得到理解。缺乏这种聚合,就可能出现问题。比如,从传统流感监测获得的信息(包括从最基本的保健诊所收集的数据)可能会滞后实际发生的情况;而谷歌基于与流感症状相关搜索词的实时信息收集来判定流感的发生,现在证明也是不准确的——《智慧社会》这本书的观点也许能解释:这种把想法汇集起来的方法只对那些不存在社会互动的预估问题有效,言下之意,谷歌公布了流感趋势后就变得无效了。因此,最好的洞察力几乎可以肯定来自对这些不同来源的数据进行聚合,也就是大数据思考中反复强调的多维和混杂性

从多个来源的数据结合获得新的见解,这是“证据合成”(evidence synthesis)的正式方法,首先在1970年代的社会科学中开发的。该技术已经应用于科学的许多分支,也支撑诸如药物许可等高影响力的决策中。他们通常包括识别和排序所有可用的相关数据,评估每个数据源的长处和偏颇;并决定如何处理数据不同来源的数据,这取决于其严谨程度和针对的问题,其中,一些数据可能会被排除在外。然后,如果合适,可以结合信息进行荟萃分析或定性评估。例如,一个英国集团结合来自临床试验的数据与荟萃分析中的定群研究来评估抗-D(一种防止孕妇对婴儿产生抗体的药物)的有效性。在这个例子中,存在潜在的偏见来源,如定群研究中不同诊所为妇女所提供的照顾,但这可以被系统确定,让其影响最小化。然而,许多研究人员沉浸在大型数据集的组合和分析中,这很容易得到一些假相关,如基因组或电子病历数据,没有意识到证据综合工具及其潜在效用。相反,许多证据合成的专家不熟悉通常用于分析与健康相关的大型数据集的方法。因此,证据合成的核心元素也必须结合其他数据科学,找到一个新的方法来理解不同数据。

科学家需要找到为什么、何时以及如何结合不同的数据——例如,来自临床记录、在线问卷调查和可穿戴设备的运动数据应该聚合吗?当要解决何时如何结合不同个体层面的数据时,科学家需要掌握与每个数据类型相关联的偏见风险,并将此风险纳入分析中。对干预措施影响的临床试验和观察性研究来说,分析师可使用Cochrane Risk of Bias方法。采用类似的方法需要进行更多探索以减少在其他数据类型(如社交网络和移动电话的数据)中的偏见,也要用特定的方式来捕获和表达潜在偏见来源的信息。致力于卫生数据基础设施和标准的组织,需要将这一层的元数据(关于数据的数据)整合到他们的系统中。不管从短期还是中期来看,计算生物学家、计算机科学家、临床和人口健康研究人员在证据合成上进行协作都是非常必要的。

总之,社会不需要更多的数据分析孤岛——相互之间充满着各种冲突的推论。现在,巨大而多样的数据集变得越来越丰富,我们必须确保用严格而可信的方法来理解数据,让大数据真正发挥其用武之地。



参考文献
Proposed study would closely track 10,000 New Yorkers . Science 30 October 2015: Vol. 350 no. 6260 pp. 493-494 DOI: 10.1126/science.350.6260.493
Make sense of health data. Nature 527, 31–32 (05 November 2015) doi:10.1038/527031a



http://blog.sciencenet.cn/blog-502444-938554.html

上一篇:以数字神经系统和数字民主构建智慧社会
下一篇:人类计算:人类认知与机器的互联

14 陈楷翰 姬扬 谢平 陆玲 张晓良 李亚平 李颖业 吴融广 高建国 彭真明 吴标兵 xiyouxiyou kanbiao peosim

该博文允许注册用户评论 请点击登录 评论 (6 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-2-25 19:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部