||
伴随着互联网的发展,不少的现实中的活动,都有线上的构成,产生了网课、网购、网友、网游、网剧等缩略词。“线下”对应于“线上”,常用作“现实”的替代词(含义略不同),也体现了网络对生活的影响与改变;十年前的人是不太可能理解或使用“线下”这个词的。伴随着计算机与智能手机的流行,很多的行为都可以统计分析或建模,进一步推动了人工智能与大数据的发展。在大数据时代,我们需要提高自己的修养,理解数据的一些局限性,才能更好地思考,做出更好的决定。
在统计数据中,人们发现了很多新的规律与商机。分析人口数据中的年龄层的分布很有意义:老年人数的增长说明医疗看护需求的扩大;少年儿童数量的增长展示服饰与鞋类行业的增长潜力(年轻人长身体,需要更换尺码);某城市的人口的净流入或净流出的趋势影响房价等等。大数据不仅强调大,也强调精细化的个体数据。关联规则(association rule)的发掘可以改善货架的摆放,尤其在促销时:一个人在超市里购买了牛肉饼、洋葱与面包,那么他就很有可能需要芝士与生菜,因为这些是芝士汉堡的配料。单次结账中可以挖掘的关联规则并不稳定:没有考虑用户个体的差异,比如含糖可乐与无糖可乐的购买倾向;没有考虑长时间的购物模式,比如购买饮料、米、水果的周期不同。所以超市免费提供积分会员卡,用于区分不同消费者的行为,寻找更长时间与深层次的规律;网络平台通过用户名直接区分,更加便捷。相似的行为可以标记相似的人群,推荐广告更加符合用户的消费习惯。利用个体化的背景资料,《科学》的论文报告了机器学习算法如何改善就业:在美国与瑞士的实验显示,该算法显著地提高了注册难民在当地的就业率,这对新移民的融入很有参考价值[1]。翻看关于数据的书籍或文章,有更多的数据的精彩应用;本文介绍一些数据的局限性,作为补充。
在科学、教育、生活中,很多的现象无法用数据的形式表达,因此便难以进行数据分析。薛定谔在讨论生命科学的时候谈到:“并不是说生命科学简单到它的解释不需要借助数学,恰恰相反,因为它涉及太多不同方面,以至于无法用数学描述。”[2] 教育学家、哲学家怀特海在讨论大学的功能时说:每一所大学都有一些更加优秀的教师,虽然不发表论文,但是在教学中极富影响力,促进了学生的成长;所以用署名发表作品来衡量所有教师的价值是最大的错误[3]。用论文发表的数量或质量评价教授的科研显然更加容易,但是却忽视了大学最重要的功能,教学。一家初创企业的士气如何,很可能是企业生存发展的关键,却很难用数据来测量。生活中,老年人更多使用功能机,使用智能手机的比例较少,更多使用现金支付;进行市场数据分析的时候,公司或者企业很可能忽视了老年人的需求,所以需要面对老年人的市场调研,或者开发老年人使用的语音系统。无法用数据表达的不同领域的问题,像是数据时代的剩下的硬骨头,更加难啃。
获得的数据,很难反映事物的全貌。虽然篮球中助攻、篮板、抢断等都是非常重要的衡量球员表现的数据,但是有了这些数据也无法预测比赛结果,还需要看临场发挥与队员间的配合。机会与概率是体育比赛有趣的原因之一,否则体育比赛的观看人数很可能会大幅减少。数据可以预测的职业队横扫业余队的结果,但这样的比赛很无趣,并不精彩。商业机密对于公司的运营来说非常重要,托马斯给出了奢侈品运作的分析:“奢侈品公司的管理者们想要成为全球性企业的领导者,他们不仅对大众隐瞒产品的生产制造过程,还要隐瞒品牌的运作。假如真相大白于天下,大众对品牌的信心将会瓦解。……公开上市的公司要透明化,也就是说,在每年的财务报告中他们必须提出财务数据。但是,当诸多品牌合并成一个大集团,管理者就可以把所有的数字混在一起,从而混淆真相。”[4] 也就是说,一些上市公司的财报数据很难反映公司是否健康运行的全貌,业余投资者对于财报需要批判性地看待财报。
了解数据分析的结论中的一些常见错误,有助于我们的思考。数据分析的常见错误包括:取样偏差,忽视数据中的概率分布,数据的过拟合等。
取样偏差中的一种是幸存者偏差,但是幸存者偏差的原始例子离我们的生活比较遥远,反而小孩子挑食的例子更加有趣生动。小孩子们抱怨说道:父母总是说孩子挑食,大人不挑食;那是因为父母买菜的时候拣自己喜欢吃的菜,挑选下来的菜当然有些不对孩子的胃口了。过滤后的数据(父母挑选的菜,灾难中的幸存者等等)显然无法反映原本的数据,所以分析的结果便会产生问题。没有医学根据的江湖郎中的偏方能够骗钱也利用了这种取样偏差:比如50%的健康有所改善(实属巧合)的人支付了费用,但是50%健康恶化的人并没有暴打江湖郎中,要求赔偿。2015年的一个研究发现:某机器学习算法可以用来预测病人是否可能因肺炎感染并发症,这个算法在大多数的情况运行良好;但是却犯了一个很严重的错误,建议医生将有哮喘症状的病人送回家,而非留院观察,即便病人被分类为高风险;分析问题后发现,训练模型的数据集中缺少哮喘病人的样本,因为这些病人直接被送往重症监护,不在留院观察的类别中[5]。罗斯林在《事实》一书中,详细地向欧美的读者介绍了非洲等发展中国家经济、生活条件等方面的改善;他解释说,人们有时候会产生负面直觉(negative instinct),那是因为好消息、逐步的改善较少被新闻的报道,人们更多看到的是负面新闻,所以需要纠正自己的错误的直觉[6]。
忽视数据中的概率分布,也可以采用生动的例子来展示。北卡罗莱纳大学某年地理系毕业生的平均薪水很高,你是否应该考虑转系学习地理呢?这里的统计把戏在于篮球运动员迈克尔·乔丹毕业于该校的地理系,所以显著提高了毕业生薪水的平均值,但却与地理专业无关。统计数据的平均值容易受乔丹这样的离群值(outlier)的影响,而中位数则具有统计的稳健性(robust),较少受离群值的影响。我们常说吸烟有害健康,但是吸烟者总能举出长寿吸烟者的个例作为反驳,这便犯了忽视概率分布的错误。
数据过拟合的现象,往往在已有数据中有用,但是在预测新数据时难以普遍适用,有点钻牛角尖的感觉。假设有一个电子病历的数据,增加一个特征,往往能对已有数据的建模有帮助,可以减少模型的残差。用病人的指纹与所患的疾病可以建立完美的对应关系,但是却无法通过新的病人的指纹预测他所患的疾病。这些没有意义的特征在建模的时候必须丢弃,才能更好地进行预测。
我们普通人并不是从事数据科学研究的人,有必要了解这么多数据的局限性或数据分析时的常见错误吗?电影《那些年,我们一起追的女孩》有一句台词:“我敢跟你赌,十年后我连log是什么都不知道,还是可以活得好好的。”这句话说得并不错,如果世界改变得太快,人来不及适应,那么普通人的生活就不可能有安全感,也难以感到幸福。但是,如果我们放弃独立思考,那么只能依赖别人,依靠别人帮我们作选择。幸福一定程度来源于自主的选择(比如在父母强迫下学的钢琴并不一定有趣),想要自己做决定,不想人云亦云,不想被骗,就必须学会独立地思考。即便学校毕业以后,也要积极地去学习新的知识,尤其是可能影响日常生活的新知识。
数据有什么用?对于普通人来说,数据本身不是目的,而是证明某个观点的论据。有趣的是,强调数据挖掘的商机时,常用的例子是纸尿布与啤酒的反直觉的相关性,但是这个流传甚广的故事却没有一个确切可靠的来源[7]。似乎证据的真实性并不影响观点的形成?实际上,人们会觉得一些社会心理学的研究结果只是常识而已;谚语的解释可以将很多结论转变为常识,有很多互相矛盾的谚语可以给出相反的观点与建议,比如“血浓于水”与“亲兄弟明算账”,“机不可失、时不再来”与“三思而后行”,“朽木不可雕”与“活到老,学到老”等等[8]。郢书燕说、穿凿附会等成语形容了牵强附会强行解释的现象。数据分析的意义在于科学地为具体的问题与情境提供证据,我们依旧需要对数据进行批判性地思考,以免被误导。
网络与大数据的流行给我们的生活提供了很多的便利,数据相关的文章与信息也在增加。对于一些影响我们决策的重要文章,需要批判性地阅读与思考。归纳来看,我们需要注意:1)数据能否佐证观点,是否具有逻辑关系,2)一两个数据作为例证时,缺乏统计意义,3)大量数据作为论据时,是否有取样偏差等问题。
引用文献:
[1] Kirk Bansak, et al. Improving refugee integration through data-driven algorithmic assignment. Science vol. 359 (2018): p. 325.
[2] Erwin Schrödinger, What is life? with mind and matter & autobiographical sketches. Cambridge university press, 1992. p.3
[3] Whitehead, Alfred North. The Aims of education and other essays. The Free press, 1967.p.98-99
[4]戴娜·托马斯,李孟苏译,奢侈的,重庆大学出版社,2017年,p.87
[5] Crawford, Kate, and Ryan Calo., There is a blind spot in ai research. Nature, vol. 538, (2016) p. 311
[6] Hans Rosling, with Ola Rosling and Anna Rosling Roennlund, Factfulness, Ten reasons we’re wrong about the world-and why things are better than you think. Flatiron books, 2018, Chapter 2, The negativity Instinct, p.74
[7] Wikipedia: Association rule,
[8] 戴维·迈尔斯,侯玉波等译,社会心理学:第11版,人民邮电出版社,2016年,p.13-17.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 06:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社