博文

3.20 大数据时代的自我修养: 数据的局限性精选

已有 26612 次阅读 2022-2-19 20:31 |个人分类:生活2|系统分类:观点评述

伴随着互联网的发展，不少的现实中的活动，都有线上的构成，产生了网课、网购、网友、网游、网剧等缩略词。“线下”对应于“线上”，常用作“现实”的替代词（含义略不同），也体现了网络对生活的影响与改变；十年前的人是不太可能理解或使用“线下”这个词的。伴随着计算机与智能手机的流行，很多的行为都可以统计分析或建模，进一步推动了人工智能与大数据的发展。在大数据时代，我们需要提高自己的修养，理解数据的一些局限性，才能更好地思考，做出更好的决定。

在统计数据中，人们发现了很多新的规律与商机。分析人口数据中的年龄层的分布很有意义：老年人数的增长说明医疗看护需求的扩大；少年儿童数量的增长展示服饰与鞋类行业的增长潜力（年轻人长身体，需要更换尺码）；某城市的人口的净流入或净流出的趋势影响房价等等。大数据不仅强调大，也强调精细化的个体数据。关联规则（association rule）的发掘可以改善货架的摆放，尤其在促销时：一个人在超市里购买了牛肉饼、洋葱与面包，那么他就很有可能需要芝士与生菜，因为这些是芝士汉堡的配料。单次结账中可以挖掘的关联规则并不稳定：没有考虑用户个体的差异，比如含糖可乐与无糖可乐的购买倾向；没有考虑长时间的购物模式，比如购买饮料、米、水果的周期不同。所以超市免费提供积分会员卡，用于区分不同消费者的行为，寻找更长时间与深层次的规律；网络平台通过用户名直接区分，更加便捷。相似的行为可以标记相似的人群，推荐广告更加符合用户的消费习惯。利用个体化的背景资料，《科学》的论文报告了机器学习算法如何改善就业：在美国与瑞士的实验显示，该算法显著地提高了注册难民在当地的就业率，这对新移民的融入很有参考价值[1]。翻看关于数据的书籍或文章，有更多的数据的精彩应用；本文介绍一些数据的局限性，作为补充。

在科学、教育、生活中，很多的现象无法用数据的形式表达，因此便难以进行数据分析。薛定谔在讨论生命科学的时候谈到：“并不是说生命科学简单到它的解释不需要借助数学，恰恰相反，因为它涉及太多不同方面，以至于无法用数学描述。”[2] 教育学家、哲学家怀特海在讨论大学的功能时说：每一所大学都有一些更加优秀的教师，虽然不发表论文，但是在教学中极富影响力，促进了学生的成长；所以用署名发表作品来衡量所有教师的价值是最大的错误[3]。用论文发表的数量或质量评价教授的科研显然更加容易，但是却忽视了大学最重要的功能，教学。一家初创企业的士气如何，很可能是企业生存发展的关键，却很难用数据来测量。生活中，老年人更多使用功能机，使用智能手机的比例较少，更多使用现金支付；进行市场数据分析的时候，公司或者企业很可能忽视了老年人的需求，所以需要面对老年人的市场调研，或者开发老年人使用的语音系统。无法用数据表达的不同领域的问题，像是数据时代的剩下的硬骨头，更加难啃。

获得的数据，很难反映事物的全貌。虽然篮球中助攻、篮板、抢断等都是非常重要的衡量球员表现的数据，但是有了这些数据也无法预测比赛结果，还需要看临场发挥与队员间的配合。机会与概率是体育比赛有趣的原因之一，否则体育比赛的观看人数很可能会大幅减少。数据可以预测的职业队横扫业余队的结果，但这样的比赛很无趣，并不精彩。商业机密对于公司的运营来说非常重要，托马斯给出了奢侈品运作的分析：“奢侈品公司的管理者们想要成为全球性企业的领导者，他们不仅对大众隐瞒产品的生产制造过程，还要隐瞒品牌的运作。假如真相大白于天下，大众对品牌的信心将会瓦解。……公开上市的公司要透明化，也就是说，在每年的财务报告中他们必须提出财务数据。但是，当诸多品牌合并成一个大集团，管理者就可以把所有的数字混在一起，从而混淆真相。”[4] 也就是说，一些上市公司的财报数据很难反映公司是否健康运行的全貌，业余投资者对于财报需要批判性地看待财报。

了解数据分析的结论中的一些常见错误，有助于我们的思考。数据分析的常见错误包括：取样偏差，忽视数据中的概率分布，数据的过拟合等。

取样偏差中的一种是幸存者偏差，但是幸存者偏差的原始例子离我们的生活比较遥远，反而小孩子挑食的例子更加有趣生动。小孩子们抱怨说道：父母总是说孩子挑食，大人不挑食；那是因为父母买菜的时候拣自己喜欢吃的菜，挑选下来的菜当然有些不对孩子的胃口了。过滤后的数据（父母挑选的菜，灾难中的幸存者等等）显然无法反映原本的数据，所以分析的结果便会产生问题。没有医学根据的江湖郎中的偏方能够骗钱也利用了这种取样偏差：比如50%的健康有所改善（实属巧合）的人支付了费用，但是50%健康恶化的人并没有暴打江湖郎中，要求赔偿。2015年的一个研究发现：某机器学习算法可以用来预测病人是否可能因肺炎感染并发症，这个算法在大多数的情况运行良好；但是却犯了一个很严重的错误，建议医生将有哮喘症状的病人送回家，而非留院观察，即便病人被分类为高风险；分析问题后发现，训练模型的数据集中缺少哮喘病人的样本，因为这些病人直接被送往重症监护，不在留院观察的类别中[5]。罗斯林在《事实》一书中，详细地向欧美的读者介绍了非洲等发展中国家经济、生活条件等方面的改善；他解释说，人们有时候会产生负面直觉（negative instinct），那是因为好消息、逐步的改善较少被新闻的报道，人们更多看到的是负面新闻，所以需要纠正自己的错误的直觉[6]。

忽视数据中的概率分布，也可以采用生动的例子来展示。北卡罗莱纳大学某年地理系毕业生的平均薪水很高，你是否应该考虑转系学习地理呢？这里的统计把戏在于篮球运动员迈克尔·乔丹毕业于该校的地理系，所以显著提高了毕业生薪水的平均值，但却与地理专业无关。统计数据的平均值容易受乔丹这样的离群值（outlier）的影响，而中位数则具有统计的稳健性（robust），较少受离群值的影响。我们常说吸烟有害健康，但是吸烟者总能举出长寿吸烟者的个例作为反驳，这便犯了忽视概率分布的错误。

数据过拟合的现象，往往在已有数据中有用，但是在预测新数据时难以普遍适用，有点钻牛角尖的感觉。假设有一个电子病历的数据，增加一个特征，往往能对已有数据的建模有帮助，可以减少模型的残差。用病人的指纹与所患的疾病可以建立完美的对应关系，但是却无法通过新的病人的指纹预测他所患的疾病。这些没有意义的特征在建模的时候必须丢弃，才能更好地进行预测。

我们普通人并不是从事数据科学研究的人，有必要了解这么多数据的局限性或数据分析时的常见错误吗？电影《那些年，我们一起追的女孩》有一句台词：“我敢跟你赌，十年后我连log是什么都不知道，还是可以活得好好的。”这句话说得并不错，如果世界改变得太快，人来不及适应，那么普通人的生活就不可能有安全感，也难以感到幸福。但是，如果我们放弃独立思考，那么只能依赖别人，依靠别人帮我们作选择。幸福一定程度来源于自主的选择（比如在父母强迫下学的钢琴并不一定有趣），想要自己做决定，不想人云亦云，不想被骗，就必须学会独立地思考。即便学校毕业以后，也要积极地去学习新的知识，尤其是可能影响日常生活的新知识。

数据有什么用？对于普通人来说，数据本身不是目的，而是证明某个观点的论据。有趣的是，强调数据挖掘的商机时，常用的例子是纸尿布与啤酒的反直觉的相关性，但是这个流传甚广的故事却没有一个确切可靠的来源[7]。似乎证据的真实性并不影响观点的形成？实际上，人们会觉得一些社会心理学的研究结果只是常识而已；谚语的解释可以将很多结论转变为常识，有很多互相矛盾的谚语可以给出相反的观点与建议，比如“血浓于水”与“亲兄弟明算账”，“机不可失、时不再来”与“三思而后行”，“朽木不可雕”与“活到老，学到老”等等[8]。郢书燕说、穿凿附会等成语形容了牵强附会强行解释的现象。数据分析的意义在于科学地为具体的问题与情境提供证据，我们依旧需要对数据进行批判性地思考，以免被误导。

网络与大数据的流行给我们的生活提供了很多的便利，数据相关的文章与信息也在增加。对于一些影响我们决策的重要文章，需要批判性地阅读与思考。归纳来看，我们需要注意：1）数据能否佐证观点，是否具有逻辑关系，2）一两个数据作为例证时，缺乏统计意义，3）大量数据作为论据时，是否有取样偏差等问题。

引用文献：

[1] Kirk Bansak, et al. Improving refugee integration through data-driven algorithmic assignment. Science vol. 359 (2018): p. 325.

[2] Erwin Schrödinger, What is life? with mind and matter & autobiographical sketches. Cambridge university press, 1992. p.3

[3] Whitehead, Alfred North. The Aims of education and other essays. The Free press, 1967.p.98-99

[4]戴娜·托马斯，李孟苏译，奢侈的，重庆大学出版社，2017年，p.87

[5] Crawford, Kate, and Ryan Calo., There is a blind spot in ai research. Nature, vol. 538, (2016) p. 311

[6] Hans Rosling, with Ola Rosling and Anna Rosling Roennlund, Factfulness, Ten reasons we’re wrong about the world-and why things are better than you think. Flatiron books, 2018, Chapter 2, The negativity Instinct, p.74

[7] Wikipedia: Association rule,

[8] 戴维·迈尔斯，侯玉波等译，社会心理学：第11版，人民邮电出版社，2016年，p.13-17.

转载本文请联系原作者获取授权，同时请注明本文来自张鹰科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3116575-1326099.html

上一篇：3.19 信息时代的自我修养：因果分析
下一篇：3.21 收入比预期低？一些其他原因

收藏 IP: 94.177.118.*| 热度|

张鹰的博客分享 http://blog.sciencenet.cn/u/yingzhang1 农村小伙的回顾与展望

博文

3.20 大数据时代的自我修养: 数据的局限性精选

当前推荐数：15 推荐人：李宏翰 张俊鹏 许培扬 黄永义 陈蕴真 罗春元 孙颉 宁利中 汪运山 姚伟 梁洪泽 陆仲绩 杜占池 谢钢 童华

该博文允许注册用户评论请点击登录评论 (5 个评论)

张鹰

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

张鹰的博客分享 http://blog.sciencenet.cn/u/yingzhang1 农村小伙的回顾与展望

博文

3.20 大数据时代的自我修养: 数据的局限性 精选

当前推荐数：15 推荐人： 李宏翰 张俊鹏 许培扬 黄永义 陈蕴真 罗春元 孙颉 宁利中 汪运山 姚伟 梁洪泽 陆仲绩 杜占池 谢钢 童华

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

张鹰

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

3.20 大数据时代的自我修养: 数据的局限性精选

当前推荐数：15 推荐人：李宏翰张俊鹏许培扬黄永义陈蕴真罗春元孙颉宁利中汪运山姚伟梁洪泽陆仲绩杜占池谢钢童华

该博文允许注册用户评论请点击登录评论 (5 个评论)