武夷山分享 http://blog.sciencenet.cn/u/Wuyishan 中国科学技术发展战略研究院研究员;南京大学信息管理系博导

博文

数据科学的任务之一是因果推断 精选

已有 2688 次阅读 2019-9-10 07:20 |个人分类:科学计量学研究|系统分类:观点评述

数据科学的任务之一是因果推断

武夷山

 

    2019年1月14日,同时任职于美国哈佛公共卫生学院和哈佛-麻省理工卫生科学技术部的Miguel A. Hernán、 同时任职于麻省总医院摩根研究所和哈佛医学院卫生保健政策系的John Hsu、同时任职于哈佛医学院神经学系和麻省总医院生物统计中心的Brian Healy三位学者在ArXiv预印本文库上发表文章,Data science is science’s second chance to get causal inference right: A classification of data science tasks(数据科学是科学将因果推断理顺的第二次机会:数据科学任务之分类)。后来该文发表于美国统计学会的Chance杂志2019年32卷第1期(3月出版),原文见https://amstat.tandfonline.com/doi/full/10.1080/09332480.2019.1579578。下面摘译该文的结论。

 

    数据科学是很多科学(包括卫生科学和社会科学)的组成部分。因此,数据科学的任务也就是那些科学的任务----描述、预测和因果推断。人们有时会忽视的一点是,成功的数据科学不仅需要好的数据和算法,还需要掌握其母学科的领域知识,包括因果知识。

    目前数据科学的重生给我们带来了不受传统统计学所强加的历史限制而重新认识数据分析的机会,传统统计学未能给科学家提供处理因果问题的手段。统计学在科学培训和科学出版中的强大影响力妨碍了人们在数据分析中引入关于因果推断的统一形式化框架,但“数据科学”这个术语的提出以及对因果分析感兴趣的“数据科学家”近来的涌入则提供了一个难得的机会,使人们能够在一个原则性的数据分析框架内将所有科学问题(包括因果性问题)整合起来。一体化的数据科学课程能够提供一个内在一致的概念框架,此框架能促进数据分析师和领域专家之间的互相理解与合作。

    另一方面,如果目前主流统计学所采用的数据科学定义得了势,则根据观察数据开展的因果推断将再次被边缘化,使卫生科学家和社会科学家孤立无助。美国统计学会发表的“关于统计学在数据科学中的作用的声明”(2015年8月8日)根本未提及因果推断。......由于受到统计学家的深深影响,很多医学刊物的主编在其刊物中坚决禁止使用“因果性”这个词。

    包含因果推断的数据科学必须做到:(1)创制一些方法将精深的分析术与领域专家的因果知识结合起来;(2)要承认,与预测不同的是,因果推断有效性的评价不可以是完全数据驱动的,应为因果推断有效性也依赖于领域专家是否拥有充分的因果知识。......

    大量的数据可以使预测不再依赖于专家知识,也可以使涉及博弈和某些工程应用的简单因果推断不再依赖于专家知识。但要想形成和解答较复杂系统中的因果问题,专家因果知识是不可或缺的。肯定因果推断是正当的科学追求,乃是将数据科学转化为指导决策的可靠工具之第一步。

    最后一点,预测与因果推断之区分对于定义好人工智能(AI)也至关重要。有些数据科学家争辩说,“智能的本质是预测能力”,因此,好的预测算法便是AI的一种表现。照此说来,关于大块数据(large chunks of data)之科学便可重新命名为AI(这是技术产业正在做的事)。然而,找到输入观察值与输出观察值之间的映射关系根本算不上智能。应当说,智能的标志是,通过将专家知识和映射算法结合起来,能够就世界在不同行动的影响下将如何改变做出反事实的预测。没有因果推断,就当不起人工智能的名分。

  




http://blog.sciencenet.cn/blog-1557-1197352.html

上一篇:校园的早晨(初一作文)
下一篇:我为祖国守海防(初一作文)

14 檀成龙 张鹰 杨正瓴 许培扬 李学宽 晏成和 朱豫才 孙建成 王秉 周春雷 毛善成 马鸣 郑永军 吴斌

该博文允许注册用户评论 请点击登录 评论 (9 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-9-21 13:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部