数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

数据侦探:调查哪些数据测量了,哪些没有

已有 4347 次阅读 2014-5-6 14:38 |个人分类:STM出版|系统分类:海外观察| 大数据, 图书, 亚马逊, 论文水平使用标准AML, 巴诺

作者/Michael Clarke   编译/刘光辉   校订/唐翔



“数据!数据!我需要数据!”他烦躁地吼道,“巧妇也难为无米之炊。”

——夏洛克·福尔摩斯,出自《铜山毛榉案》,1892

 

一个多世纪以前,亚瑟·柯南·道尔爵士笔下的著名侦探哀叹自己缺乏数据,而今天,我们却生活在一个数据繁冗的时代,仅举几例如今我们(过度)使用并与数据有关的流行词汇:大数据、量化自我、循证医学、论文水平使用标准(Article Level Metrics, ALM)、第四范式科学。所有这些都意味着,我们确实喜欢衡量我们身边的东西,并且在多数情况下这种衡量也是一件好事。我会有根据地吃药而非盲从传闻。我很高兴我们拥有计算机,它能够协助气候建模和粒子物理学处理有关、庞大且复杂的数据集。刚开始信息通常并不令人满意,但我仍很想知道当我骑自行车的时候我能以多快的速度前进多远。

尽管真正的大数据只会出现在像谷歌、Facebook、亚马逊等拥有大量在线产品与服务和数以亿计用户基数的公司中,但商业领域正前所未有地依靠数据来指导决策。如果你试图跟踪用户与产品和服务之间互动的所有方式,这个过程就会产生大量的数据。但是正如理查德•派德雷在他最近一篇关于STM和学术出版领域大数据炒作与实质的文章中那样深刻地指出,大多数企业(包括出版商)没必要去用大规模和复杂的真正大数据去竞争。

尽管在较小的数据集中技术挑战可能并不是很可怕,但是当解释数据和使用数据来指导决策时所需要的技术依旧具有挑战性。或许,最大的挑战在于理解数据集的局限性:什么该被衡量?同样重要的是,什么不该被衡量?可以得出什么样的推断和结论,哪些纯属猜想?哪里有“巧妇”和“米”,做出的“饭”又给谁吃?

虽然许多机构已经设立了数据科学家这个职位来帮助回答这些问题,但是我有时候会想,“数据侦探”也许会是一个更好的称呼。柯南·道尔给了我们最伟大的侦探,为了向他致敬,我将通过三个案例来探讨这些问题,以证明数据是多么的不稳定和混乱。

 

1.消失的媒介

最近,我的家庭被选为“尼尔森家庭”,我觉得这个经历很有启发性。当然,尼尔森是指那些在美国创造了电视收视率的人们。如果你听说一个电视节目是“星期四晚上最受关注的节目”,或者听说索契冬奥会是“自1994年利勒哈默尔冬奥会以来最受关注的非直播冬奥会”,那么这些数据都来自尼尔森(公司)。或者,更确切地说,来自像我一样告诉尼尔森我们看了什么节目的人们。

尼尔森家庭有两种类型:日志型家庭,是指一个用铅笔填写并自我陈述什么时候看了什么节目的小册子;装置测量型家庭,这类家庭中通常有一个连接到电视的装置,这种装置能够记录家庭电视的收看情况并传递数字化的信息给尼尔森进行分析。我的家庭属于前者,通过纸和铅笔的自我陈述型。

确切地说,当我们同意参加这个调查的时候,我们还不知道我们应该记录和不记录什么。但我们还是同意了参加,因为我们认为能够把尼尔森这样重量级的“喜欢”评价给我们最喜欢的电视节目将是件非常令人高兴的事。然而,在收到尼尔森日志后,很快就发现我们对电视的评价与尼尔森的评价体系很不相符。

尼尔森日志和装置测量系统只抓取实时观看或通过DVR录制的近期(日志抓取并存储于本周观察窗内)无线或有线电视节目。尼尔森把所有通过DVR录制并在本周观察窗后观看过的节目排除在日志之外。所以,比如说,如果我在DVR中记录了BBC的佳作《新福尔摩斯》系列,并等着在下个月的单身狂欢周末观看,这样的数据就不会被尼尔森抓取。尼尔森还排除了所有通过OnDemand(或类似的有线电视公司产品)观看的节目。也就是说,如果我记录了一个节目并在第二天通过DVR观看,对尼尔森而言就算数;如果康卡斯特(Comcast)电信公司为我记录了节目,并且我是通过该公司的OnDemand流媒体服务在同一时间段内观看,这就不算数。

同样令人困惑的是,任何通过像HBO to Go或者苹果电视上的新型PBS应用程序观看的电视节目都不会被抓取。所以如果我在当地的公共电视网分公司上观看《查理·罗斯》,尼尔森就会把它算进去。如果我在同样的时间通过PBS应用程序观看同样的电视节目,尼尔森就不会把它算进去。任何通过Netflix、Hulu、Amazon、iTunes或者其他类似的流媒体服务观看的电视节目都不会被尼尔森记录下来。那么《纸牌屋》这部电视剧呢?忘了它吧,那些在笔记本电脑或平板电脑这样的移动设备而非电视上观看的电视节目都被排除在外。这就包括那些不仅仅像通过YouTube这样的网站,还有通过传统媒体的网站观看的电视节目。

由于忽略了这些观看媒介,我估计尼尔森错过了超过90%的电视收视率。我们唯一通过直播或者近期电视观看的是新闻(而且随着PBS应用里刚刚上线了《新闻一小时》和《查理·罗斯》,尼尔森记录到的节目更加少之又少了)和体育(我们是一般的运动项目观看者——通常只观看像奥运会这样偶尔出现的大型赛事和特殊事件)。其他一切我们都通过像PBS、HBO to Go、OnDemand或者其他各种各样的流媒体服务应用程序观看,我怀疑在这方面只有我们会这样。

所以,当尼尔森宣称一个给定的节目是“星期四晚上最受关注节目”,他们真正应该说的是“星期四晚上最受关注的电视节目,同时这些电视节目是美国观众使用无线或有线连接的传统电视装置上直播或者通过DVR近期观看的节目”。我不觉得他们说的节目的总收视率有多么重要,因为他们的方法既不抓取大范围(仍在逐渐扩大)的观看途径,也不抓取他们之后才会观看电视节目的时间差,不管是通过DVR、OnDemand还是其他的流媒体服务观看的。

我们只能够假设,这些数据的局限性对于尼尔森数据的真正客户来说是众所周知的,这些客户便是从网络和有线电视站购买广告空间的媒体买家。可以推测,他们要么不购买被尼尔森排除的观看媒体上的广告,要么就是依赖于其他数据来源进行广告购买。即使尼尔森评级排除了大多数现代化的电视观看形式,但它的持续存在也表明媒体买家们至少相当满意这个产品。

虽然媒体买家可能感到满意,但是尼尔森评级(或者更确切地说,尼尔森评级的滥用)在电视市场的公众认知方面造成了显著的曲解。尼尔森评级广为人知,并且在估量电视观众的时候经常受到电视网络吹捧,尤其是当评级对他们有利时表现更为明显。所以,如果下次你认为刚结束的你最喜欢的电视节目没有得到公平对待,而且理应拥有更大的观众群体——那么你很可能是对的。问题可能并不在观众身上,而可能是电视网络量化和货币化观众的能力问题。

 

2.孤立的猜想

然而,确定电视基本观众数据的清晰概况所带来的挑战与出版贸易业务相比根本不值一提。在出版业,休·霍威(Hugh Howey)最近的一项做法凸显了我们对这个行业的认识是多么的不完美。

当然,休·霍威就是现在十分受欢迎的《竖井世界》系列精彩作品的作者。在这个案例的中心,某种程度上来说他称得上是又一位充满神秘色彩的作家。但不同的是,霍威的出名不仅是因为他写的故事,而且还因为他出版作品的方法。《竖井世界》系列作品(第一部是短篇侦探小说《羊毛战记》)是通过亚马逊Kindle Direct系统自出版的一本电子书。在《羊毛战记》取得巨大成功后,霍威保留了该小说的专有权,并接着拒绝了七家传统出版社提供的出版机会,最终同意给西蒙与舒斯特公司专有印刷出版权,而自己保留电子版权。

霍威已经成为自出版运动的一个象征并自称出版高手。商业出版一直以来都是出版界成果比较突出且集中的领域之一,但最近霍威在商业出版领域扔下了一枚“数据炸弹”。这枚数据炸弹(可以下载Excel格式)来自于AuthorEarnings.com网站,其中包含了从亚马逊销售排行榜、Kindle电子书销售排行榜、平均评分等亚马逊网站和其他各种网上书店销售的出版商、标题、作者(尽管标题和作者已经被霍威等人编辑过)等电子书元数据中搜集而来的资料。结合送到霍威等人手中来自不同作者的传统数据,他们宣称如果拥有一本书在亚马逊和Kindle上的销售排行榜和价格,他们就能够合理准确地估计来自亚马逊的销售收入。目前,这些数据通过两个地方提供,一个是包括了亚马逊销售的《前7,000电子书排行榜》,第二个是《前54,000排行榜》。第三个报告包括了巴诺销售的《前5,400电子书排行榜》在这周刚刚发布。

霍威的数据项目源于缺乏关于电子书销售准确数据的尴尬。他写道:

 

你可能已经从其他报告中听说了,电子书占总体图书销售的25%左右。但是这些数据只是基于主要出版商公布的销售。像亚马逊、巴诺书店、Kobo、iBookstore和GooglePlay等电子书发行商并不会透露他们的销售数据。这就意味着,自出版电子书并没有被算在那25%内。

也就是说,小型出版社、只出版电子书的出版社或者是亚马逊出版都没有被算进去。这就好比饼干委员会正在寻找一份关于全球饼干销量的报告,并投票给少数的女童子军部队来获得答案——然后宣布巧克力小面糕占全球饼干销售量的25% 。但这是错误的。他们只是看到了女童子军的饼干消费量,这甚至都只是部队中的少数。所有关于电子书采用的公告都具有同样的漏洞,他们看到的只是冰山一角。(值得注意的是,我们自己的报告也同样具有局限性,因为我们只关注了亚马逊——公认的世界最大图书零售商,但是我们承认并阐述这个局限,并且我们计划将来发布更加广泛的报告。)

 

关于图书销售可获得数据,来自霍威等人的数据(尤其是扩展到包含巴诺书店的数据)就像新增的瑞士硬干酪一样受欢迎。然后,正如霍威自己所指出的,这也是有局限的。不幸的是,霍威跳过那些局限,在独立出版作家和那些依靠传统出版商或亚马逊直接出版的作家之间的收入上进行了毫无支撑(基于他提供的数据)的对比。

其他评论员,尤其是《谢智肯档案》(The ShatzkinFiles)的作者迈克·谢智肯(MikeShatzkin)和《亲爱的作家》(Dear Author)的作者苏尼塔(Sunita)已经指出了霍威分析的局限性,他们的批评在整体上是值得一读的。(并且,在谢智肯的文章当中,霍威的回复就在评论当中。)依我愚见,谢智肯和苏尼塔提出的最重要的评论包括:

 

1. 来自霍威等人的数据是基于亚马逊单天的销售活动并未推至年度基准,这是一种在概念和统计上都有问题的做法。

2. 霍威并没有考虑传统出版商支付给作者的预付款,这部分预付款恰好占据了这类作者的大多数收入。

3. 正如霍威自己所指出的,数据仅局限于亚马逊和巴诺书店销售的电子书。

4. 霍威的分析只考虑了最优收入,而自出版作者则既要做出版商的工作又要做作者的工作。

 

就像尼尔森数据经常习惯于做一个缺乏明显条件也不能得到支持的结论一样,霍威根据他展示的数据并不能得出关于作者收入的结论。霍威的主张在方向上是准确的,并且希望自其他来源的额外数据(包括从AuthorEarnings.com网络抓取的亚马逊和巴诺书店的全年数据)能够被收集,他提出来的问题是完全有可能寻找到答案的:哪些作家和哪些类型的书通过独立出版或既有出版商出版更有意义?然而,在这个时候,留给我们的只是悬念,我们要做的则是保持一个开放的态度。

 

3.令人哭笑不得的下载

霍威的数据让我去寻找一个更加接近专业和学术出版大陆的案例,而这个大陆正是我所栖息和调查的大陆。我想象这个大陆是一个薄雾笼罩的岛屿,岛上有着许多与完整大陆截然相反的生态系统——也许可以说是出版界的新西兰。在我考虑的时候,我发现了许多值得探讨的案例,但是一直萦绕在我脑海里的只有《令人哭笑不得的下载》(紧随其后的是《令人哭笑不得的引用》)。

由于像美国国家信息标准协会(NISO)、网络电子资源在线使用统计项目(COUNTER)、交叉引用联盟(CrossRef)以及最近的ORCID等行业组织的支持与努力,专业及学术团体已经使相关的行业标准变得更加清晰透明。甚至像影响因子这样最为人知的适当标准也在各种场合中被滥用。表面上看,影响因子是最简单的标准之一,但事实上,它却引出了一些最具挑战的使用问题:论文的使用。

在科学公共图书馆(PLOS)的带领下,越来越多的期刊(包括《eLife》和施普林格的《BioMedCentral》等在内的众多期刊)都在提供论文使用标准。科学公共图书馆谨慎而又准确地称这些期刊为“论文观点”并仔细地陈述论文观点出自何处,是出自期刊网站还是公共医学中心(PubMed Central)。此外,他们进一步以HTML、PDF和XML等格式陈述观点,而且还表明PDF和XML版本的是“下载”而非“查看”。

作为普遍运用ALM尤其是信息使用方面的先驱,科学公共图书馆广受称赞。作为一名作者,我绝对想知道有多少人阅读了我的文章。(事实上,我现在可能正在反复查看这篇学术厨房文章的使用情况。别拘束,当你阅读这篇文章的时候,多刷新几次。)作为一名读者,我发现这些数据很有意思:“为什么有这么多人阅读这篇文章?”

虽然我是ALM的忠心支持者,但是我突然想到该指标仍没有抓取到许多关于论文利用情况的信息。

比如,正如科学公共图书馆那样准确地指出,ALM只包括来自出版商网站的下载(公共医学中心也是如此)。它们通常不包括:

 

  • 来自像Ovid平台、学位论文数据库ProQuest、全文电子期刊数据库EBSCO的下载。

  • 来自像PubMed、Scopus、Web of Science等索引系统的摘要读者群。

  • 来自机构仓储的下载。

  • 来自作者自己网站的下载。

  • 通过线上讲义的阅读。

  • 通过像Reprints Desk或Infotrieve等文献信息检索网站提供的文献传递服务的阅读。

  • 通过DeepDyve 或ReadCube的论文租赁。

  • 在其他领域的翻译或再版。

  • 通过共享获得的副本——向作者索取的PDF文本、通过正式或非正式期刊俱乐部的阅读、使用Twitter“#我能拥有PDF”的话题标签、与同事的分享。

  • 个人发行订阅(在许多临床医学期刊中仍然是一种重要的阅读方式)。

  • 图书馆订阅。

  • 通过移动应用程序的论文阅读——期刊自己的应用程序(根据出版商的不同这些期刊是否已经包含在ALM中的可能性也不同)、或者像Zinio和 Kindle这样的第三方运用。

 

我可能还错过了许多其他没有被算在其中的观点。排除其他因素,站在搜索引擎和其他索引系统的角度看,ALM可能或不可能由于包含机器下载而上涨从而使得问题更加复杂(科学公共图书馆很明显知道哪些被排除在外并贴出了一个清单,但是对于其他机构而言就不一定了)。

最重要的是,论文的下载并不等于阅读。一篇论文可以被下载但却不被阅读,或者只是被简单地浏览了一下。相应地,一篇文章也可以被下载并最终被多次阅读、频繁注解,或者最终在校外的泰国餐厅里边喝啤酒边讨论。

此外,即使我们知道一篇论文是否被阅读了,这也不代表我们就知道这篇论文对于读者来说有多大用处。回到医学的例子,一篇论文的价值最终的衡量标准是看它是否能为改善护理的实践带来变化——而这样的评估需要许多年才能够得到检验。

因此,尽管我是ALM的忠实粉丝,我也在时刻提防着它们的滥用。它们告诉我们许多特定的用例,但是在一些案例中它们却并没有很好地发挥应有的作用。就像尼尔森只能告诉我们在美国境内通过无线或有线连接的、传统电视装置中的直播或近期节目的收视率一样,ALM只能告诉我们通过期刊网站和(某些情况下)公共医学中心的下载和浏览情况。然而,与电视世界不同的是,出版商并不会发布像“星期四晚上查看最多的论文”这样的排行榜,而这也是我所感到欣慰的一件小事。

我们习惯于衡量一切我们能够衡量的东西。问题是在商业决策中我们越来越依靠数据。基于数据来做决策这点看似比基于主观或猜想更好,但是,我们也要明白,不是所有的东西都能够被衡量,并且通常不能衡量或不被衡量的东西也同样像那些被衡量的东西一样重要,有的时候甚至更加重要。当我们依靠数据来进行商业决策的时候,就十分有必要搞清楚衡量了哪些东西,没有衡量哪些东西。很基础?或许吧,但是在你想要建设一栋高楼大厦之前,很有必要检查一下你的地基是否稳固了。



(原文链接:http://scholarlykitchen.sspnet.org/2014/02/27/data-detectives-investigating-what-is-and-what-is-not-measured/?utm_source=feedburner&utm_medium=email&utm_campaign=Feed%3A+ScholarlyKitchen+%28The+Scholarly+Kitchen%29)






https://blog.sciencenet.cn/blog-521339-791858.html

上一篇:如何改善认知差距对科学传播的不利影响?
下一篇:合作论文:如何确定各作者的学术贡献
收藏 IP: 111.174.64.*| 热度|

1 郭楠

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-2 01:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部