||
美国学者讨论大数据及其认识论
武夷山
美国亚利桑那大学信息资源与图书馆学院的Martin Frické教授在JASIST杂志2015年第四期发表文章,Big Data and its Epistemology(大数据及其认识论),原文见http://sirls.arizona.edu/sites/sirls.arizona.edu/files/FrickeBigDataPaperShorterFormat.pdf。他在英国获得哲学文学士学位,在新西兰获得计算机理学士学位,在伦敦经济学院获得硕士学位和博士学位,现在工作于图书情报学领域,是个典型的跨学科家伙。他写过很多计算机辅助教学程序(如http://SoftOption.Us),其中有些在世界各地获得广泛应用。
该文的摘要如下:
本文考察的问题是,以“数据驱动的科学”面目出现的大数据,是否能帮助我们在普适的科学理论、工具主义的手段或归纳推理方面做出发现或评价。本文指出,人们通过大数据想实现的那些美好愿望同已经遭到拒斥的归纳主义的科研进路并无二致。大数据的长处在于:允许较大的样本规模,允许对理论开展低成本的、更广泛的实验验证,允许对理论开展持续的评估。大数据的短处在于:“数据驱动的科学”鼓励人们进行被动的数据收集,而不是主动的实验与测试,也诱使人们搞“数据欺瞒”(hornswoggling,指缺乏统计学依据的数据欺诈)。文章对归纳算法、统计建模和科学发现中理论与数据分别起的作用进行了分析,指出,无论在哪个关口,我们所需要的都是理论。数据驱动的科学是不伦不类的怪物。
文章中提到:
科学哲学家卡尔.波普认为,有科学证明的逻辑,但不存在科学发现的逻辑。现在问题来了,大数据能产生科学发现的逻辑吗?作者的答案是不能。
主动实验与被动观察相比是一大飞跃。大数据自身并非与实验不相容,但它是被动观察之友----大数据鼓励人们从事被动观察。调查与一般的观察都属于被动观察。
文章的结论:
便宜又容易地搜集大量数据的能力带来一些好处:样本可以更大,对理论的检验可以更充分,可以进行持续的评估,等等。但是,被称为“第四种范式”的数据驱动的科学其实是个不伦不类的怪物。科学需要的是问题、思想、理论和设计出的实验。再说得干脆些,科学需要更多的理论,而不是更多的数据。
博主:吕乃基博主在《中国软科学》杂志上发表过题为“大数据与认识论”的论文(http://blog.sciencenet.cn/blog-210844-873053.html),其论证方式与Martin Frické是不一样的,请大家阅读吕老师的文章,并比较二人的观点。Martin Frické没有全面论述大数据,但对“大数据是否能产生科学发现的逻辑?”之回答是斩钉截铁的否定。
Martin Frické除了发表论文外,还在2012年一下子发表了集多年研究成果和体会的5部著作,并写作了另一部书的一章:
· Introduction to the Organization of Information(信息组织导论), (2012) ISBN 978-0-473-22306-9
· Research Methods for Library and Information Science Professionals(图书情报学专业人员的研究方法), (2012) ISBN 978-0-473-22172-0
· Symbolization into Propositional and Predicate Logic(命题和谓词逻辑的符号化). (2012) ISBN 978-0-473-22587-2
· Trees for Logic: Propositional, Predicate, Identity, and Modal Trees(逻辑树:命题树、谓词树、身份树和模态树), (2012) ISBN 978-0-473-21899-7
· 'Best-path theorem proving: compiling derivations'(最佳路径定理之证明), Chapter in Rationis Defensor: Essays in Honour of Colin Cheyne (2012) Springer ISBN-10: 9400739826
· Logic and the Organization of Information(逻辑学与信息组织), Springer (2012) ISBN 978-1-4614-3087-2
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-6-1 14:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社