|
从几千年前的巫祝开始,人类就开始预测未来。只不过那个时候的预测,往往是基于及其朴素的世界运行的原理:例如以“水为万物生长和运动之源”的泰利斯假说和以“对立、协同、转换”为核心的阴阳学说;又或者一些重大事件之间的偶发联系——例如某一次日食后出现了持续数月的大旱。至于本书的重头戏——末日预测,在宗教与科学相爱相杀的人类历史演进史中,从来就没有缺席过。然而,以现代科学的标准看,除了极其罕见的少量严肃的讨论外(本书将罗列几乎所有有价值的讨论),这类“预测”不过是人类的卑微理性在无常自然和飘渺未来面前无畏的挣扎罢了。
从预测所使用的理论和方法的坚实程度以及相应的对于预测结果正确性的信念,我们可以大致把预测分为三类。一个极端是基于严格理论的预测结果。例如基于量子力学理论,预测某粒子在某时间段内出现在某区域内的概率。这种预测的正确与否,可以用来检验相应物理理论是否正确。另一个极端是对未来的定性预言,往往来源于未来学家和科幻作家,例如凡尔纳在《从地球到月球》中对于人类登月和在《海底两万里》中对海底潜艇的预言,托夫勒在《第三次浪潮》中对互联网科技时代的预言,以及诺查丹玛斯在《诸世纪》中对于世界末日的预言,等等。这类预言更像是猜测而非预测,往往只能给出定性上正确与否的判断,而不能给出定量的精确度。在有些时候,预言模糊暧昧到可以有不同的解释方法,以至于连定性上判断正确错误都做不到,例如我们对李淳风和袁天罡所著的《推背图》的解读。而我所感兴趣的预测,是介于两者之间的第三类:既没有一套坚实的理论,也不是漫无边际的未来学说,而是基于手头已经掌握的一些数据,利用概率统计、数据挖掘或者机器学习的方法,对未知的数据或者未来的发展进行的可量化的预测。
对于自然科学和努力向自然科学靠近的社会科学来说,“解释-预测-干预”(或称“解释-预测-控制”)是我们回答科学问题的三部曲,其任务分别是:(1)提出理论模型解释已经观察到的现象;(2)预测未被观察到的数据或现象(可能是缺失的数据,也可能是未来才会发生的事件);(3)通过对真实系统进行具体的干预以达到提前预设的目标。针对一个现象“看起来正确”的解释,并不能说明相应的理论或机制就是正确的,而仅仅是声张了一种正确的可能性。事实上,这种解释的可信度往往都是比较低的。很多社会科学研究都是典型的事后诸葛亮,当一个事件发生之后,总能提出一些经过修修补补的理论模型,对已经发生的事件给出定性正确甚至定量精确的解释。自然科学亦是如此,通过添加越来越多的本轮和均轮,打了补丁的托勒密的地心说苟延残喘了1500多年。经济学界有一句谚语,大意是“能预测经济危机的理论一个没有,能解释经济危机的理论俯拾皆是”,从这个意义上讲,预测一般而言要难于解释,正确预测对于理论正确性的背书力度也要强于解释。当然,这里的更难主要是指预测尚未发生的事,而不是预测缺失的数据,后者通常要更容易一些。正确的预测也可能翻车,比如地心说也可以成功预测很多天象,只是随着测量精度的提升以及对预测精度要求的相应提高,错误的理论终归会破绽百出。与解释和预测相比,成功的干预可以极大地增加我们对于理论正确性和适用性的信心,因为在不知道或者弄错了因果关系的前提下恰好出现我们期望干预结果的可能性是很小的。
尽管对于理论正确性的背书能力是干预超过预测、预测超过解释,但我认为预测在科学研究,特别是社会科学研究中处于最要害的位置。这是因为社会科学的研究对象具有极大的不完备性和不确定性。影响社会发展的因素数不胜数,任何包罗万象的理论都不可能将它们全盘纳入,而单个因素也是不独立不稳定的,受到外部环境和其他因素的影响。因此,在一个封闭的环境中,通过设计可控的重复实验,观察干预的结果从而对社会理论进行定量化验证,是不太可能或者成本奇高的——而这恰恰是物理科学和其他自然科学得以螺旋前进的基本方法[1]。在这个前提下,预测还未观察或尚未发生的数据或事件,就成了检验理论正确性最有效的手段。另外,从更广泛的意义上讲,干预中必然包含预测,因为我们要提前预测干预的结果并且和真实实验结果做对比。只不过干预工作的绝大部份工作量往往都在实验设计和实施,所以我们忘了干预之前总是要做预测的。一种可虑的做法是在干预实验之前没有理论和预测,而是根据干预实验的结果“重新发现”合适的理论,这种因果倒置的研究方法是极度危险的,因为理论模型会根据干预实验结果进行各种调整,从而变成一个过拟合的理论。以上林林种种,导致社会科学领域的理论模型和实验结果都是高度不可信的[2],而仅当一套理论解释还能够持续地、高精度地对尚未发生的事情进行预测,我们才能真正信服[3][4]。
得益于可获取数据量的暴涨和计算能力的飞升,预测在现代社会学、经济学、管理学乃至政治学中似乎已经开始并即将扮演统治性的重要地位[5][6]!这些预测涉及我们可以想到和难以想到的方方面面,从一个人的民族、信仰、政治态度、是否同性恋[7],到一个人是否罹患抑郁症[8];从社交网络未来的演化[9],到生物网络中未知的链接[10];从恐怖袭击最可能发生的时间和空间[11],到各个国家和地区政治大选的最终结果[12]……在本书中各位读者还可以看到更多更奇妙的“可供预测地对象”,而在阅读这本书之前,大家恐怕都不会想到这些对象也可以用科学的方式去预测。
然而,预测绝不仅仅是一朵盛开的玫瑰。即便排除因为实验人员有意识或者无意识驱动预测结果向有利于理论的方向滑动而带来的问题,错误地使用数据和方法,以及错误地理解和应用预测的结果,都有可能带来灾难性的结果[13][14]。下面我选择三个较重要的批判性论题,供各位读者讨论。
第一,预测中存在自证陷阱和自否偏差。预测都是在某种前提或者环境下做出来的,而预测本身有可能改变这种环境。所以,有可能我们看到的正确或者错误,都是预测本身带来的,而和预测结果反而没有关系[15]。首先,很多预测具有自证的特性。举个例子,如果基金委召集资深专家或者利用引进机器学习的方法,试图预测未来哪些研究方向中国学者能够做出颠覆性或者系统性的贡献。这就是一个典型的自证场景。因为不管是专家意见、机器学习还是随机乱说,如果基金委处在正常的逻辑下,它必然会大幅提高对这些“重要方向”的支持力度,那么我国学者更可能在这些方向做出更多贡献,而这又反过来证明了预测的正确性。其次,很多预测具有自否的特性。比如说我们通过对治安事件时空模式的分析,预测出了接下来一段时间最容易出现街头犯罪的场所,于是公安部门在相应的时间和地点增加了巡逻的警力,结果街头犯罪量大幅度降低。请问,这个预测本身是准确的还是错误的呢?又比如我们自动监测慢性肾病患者的用药和饮食习惯,发现有一个病人经常不按时按量服药并且不忌嘴,根据大量病历样本,我们预测他2年之后会转为尿毒症。患者震惊于这个警告,然后改变了自己的习惯,尽最大可能配合医嘱,结果5年过去了,病情也没有进一步发展。请问,这个预测本身是准确的还是错误的呢?
第二,数据偏差会降低预测结果的适用度。如果用于预测的数据不能很好地表示该理论或模型所应用或针对的目标群体,就会出现数据的表示偏差,这是最常见的数据偏差之一。譬如想通过分析微博的语言来看整个中国的情绪状况和幸福水平,就可能出现表示偏差,因为微博用户全体或随机抽样会对年轻人“表示过度”而对老年人“表示不足”。因此从微博中得到的中国幸福水平,以及通过进一步文本分析获取的中国人民诉求,可能无法准确反映老年人的情况。也就是说,用某来源数据训练出来的模型,有可能对于该来源中表示不足的群体并不适用或者效果较差,如果把模型和结论用到其他来源的数据集中,则需要更加小心,因为一般而言都会存在表示偏差。例如ImageNet来自中国和印度的照片只占1%和2%,因此直接用ImageNet训练出来的分类器在分类物品和人的时候,如果这个图片来自中国或者印度,精确度就显著差于平均水平[16]。
第三,预测可能加剧偏见和歧视。即便数据本身是真实的,如果数据中存在大量的负面内容,基于这些数据的预测结果可能会学会甚至放大与这些负面内容相关的偏见。例如基于Google新闻、Wikipedia等超大规模历史大语料库数据的预训练模型(该模型的结果已经被广泛应用于自然语言处理的各种分析和预测工作中)所得到的单词的向量表示中已经沉淀了严重的性别和伦理方面的刻板印象,譬如说词语“护士”和女性高度相关,词语“工程师”和男性高度相关,词语“同性恋”与疾病、耻辱高度相关[17]。我们现在努力消除的一些偏见可能在历史语料中很常见,如果不加分辨地应用,聪明的预测算法可能很快就学会了历史上的偏见。直接应用哪怕真实的数据,也可能导致加剧歧视的结果。在职场中性别歧视非常严重,例如中国的互联网求职简历数据显示,在同等学历条件和行业背景下,女性要多工作5-10年才能获得和男性相当的薪水[18]。使用这类数据进行职位推荐(本质上是预测你适合什么样的职位,然后把这个职位推荐给你),结果必然自带歧视。例如,Google广告系统的人工智能算法在推送职位招聘信息的时候,同等教育背景和工作经历下的男性要比女性以高得多的频率收到高收入职位招聘信息[19]。如果我们有一组人力资源数据,数据中显示每十个前1%高年薪的高端职位只有一位女性,于是“性别为女性”这个特征值在获得高端职位匹配预测中将是一个负面的因素,算法的结果自然也将避免给女性推高端职位信息。在没有基于大数据预测和推荐服务的情况下,男性和女性获取高端职位信息的数量可能相差不大,这种情况下女性真正获聘高端职位的可能性也远低于男性。如今,计算机的自动服务在源头上就让女性更少知道信息,所以可以预期女性获得高端职位的比例将进一步降低,而这又再次降低新数据中女性获得高端职位的比例,从而让算法更少向女性推荐高端职位。这种恶性循环,会进一步加剧原本就存在的歧视和不公。
我们正在进入一个“一切皆可预测”的时代,但诸位手头的这本题为《如何预测一切》的书,本质上不是讲预测的,而是讲概率论的。因此,我的序言和本书的内容关系并不大,只是借着写序的地方,说一些关于预测有好有坏的看法。
参考文献:
[1] K. Popper, The logic of scientific discovery (Routledge, 2005).
[2] Open Science Collaboration, Estimating the reproducability of psychological science, Science 349 (2015) aac4716.
[3] J. M. Hofman, et al., Integrating explanation and prediction in computational social science, Nature 595 (2021) 181.
[4] T. Zhou, Representative methods of computational socioeconomics, Journal of Physics: Complexity 2 (2021) 031002.
[5] J. Gao, Y.-C. Zhang, T. Zhou, Computational Socioeconomics, Physics Reports 817 (2019) 1.
[6] A. Buyalskaya, M. Gallo, C. F. Camerer, The golden age of social science, PNAS 118 (2021) e2002923118.
[7] M. Kosinski, D. Stillwell, T. Graepel, Private traits and attributes are predictable from digital records of human behavior, PNAS 110 (2013) 5802.
[8] A. G. Reece, C. M. Danforth, Instagram photos reveal predictive markers of depression, EPJ Data Science 6 (2017) 15.
[9] L. Lü, T. Zhou, Link prediction in complex networks: A survey, Physica A 390 (2011) 1150.
[10] T. Zhou, Progresses and challenges in link prediction, iScience 24 (2021) 103217.
[11] D. Helbing, et al., Saving human lives: what complexity science and informationsystems can contribute, Journal of Statistical Physics 158 (2015) 735.
[12] R. Kennedy, S. Wojcik, D. Lazer, Improving election prediction internationally, Science 355 (2017) 515.
[13] B. R. Jasny, R. Stone, Prediction and its limits, Science 355 (2017) 469.
[14] H. Suresh, J. Guttag, A Framework for Understanding Sources of Harm throughout the Machine Learning Life Cycle, arXiv: 1901.10002.
[15] R. K. Merton, The self-fulfilling prophecy, The Antioch Review 8 (1948) 193.
[16] S. Shankar, et al., No classification without representation: Assessing geodiversity issues in open data sets for the developing world, arXiv: 1711.08536.
[17] N. Garg, L. Schiebinger, D. Jurafsky, J Zou, Word embedding quantify 100 years of gender and ethnic stereotypes, PNAS 115 (2018) E3635.
[18] X. Yang, et al., Height conditions salary expectations: Evidence from large-scale data in China, Physica A 501 (2018) 86.
[19] A. Datta, et al., Discrimination in Online Advertising: A Multidisciplinary Inquiry, Proceedings of Machine Learning Research 81 (2018) 1.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 19:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社