|||
吕乃基
在认识的结果上,传统认识论所关注的是,知识是否以及在多大程度上与对象相一致,是否以及在多大程度上独立于认识主体,简单说,就是认识结果的客观性。这是默顿“公有性”规范的依据。认识结果所得到的是属于全人类的“非嵌入”的编码知识,例如欧几里得几何、牛顿定律,以及爱因斯坦的相对论等,发现者并不对他的发现拥有产权,其权益仅在于冠名。
大数据认识论同样强调结果的客观性,否则对主体毫无价值,甚至把主体导向歧途。与传统认识论所不同的是,所得到的结果归特定的主体所有,主体可以选择公开,也可以保密,以及为特定的主体所用,也可以束之高阁。其他的主体或者得不到这样的结果,或者得到了也毫无用处。而且,计算社会科学使用私有数据发表的论文无法被批驳和复现,不符合科学的“证伪”和可重复要求。因而,大数据认识论的认识结果具有某种主体相关性,认识结果以特殊的方式嵌入于主体之中。在大数据认识论中,知识的公有性被知识的私有稀释,乃至取代。
如果把类型繁多(Variety)集中到单一的个体,就有可能前所未有地从各个角度全方位透析一个特定的个体。可以从横向的,如生活习惯,医院治疗、药物使用等数据聚焦到一个个体(不止是个人),得到更直接、更有效的结论。这样的维度可能是无限的。虽然每个维度因其单项而显得模糊,然而由“无限的模糊”所带来的聚焦成像会比“有限的精确”更准确。“人是社会关系的总和”(马克思)。大数据比以往任何时候都趋于揭示这样的“总和”。于是,大数据从整体(群体)和个体两个层面前所未有地接近人性,这就是经由世界3研究世界2。一方面是大数据,另一方面是个性化;大数据认识论就这样建立起大到可以忽略个人之群体和小到无视群体之个人之间的联系。阿里巴巴做小微企业信贷,不见面,只看数据,只看信用。用互联网和大数据推动整个征信体系的完善,不良率非常低。亚马逊对交易数据的掌握能力和处理的深度,不仅充分掌握上游供应链的信用违约概率,甚至非常接近给其核心消费者建立动态CDS(信用违约掉期)的程度。这意味着亚马逊可以有效率地放大消费者的消费能力,对商品和商品组合实施真正意义上的个性化定价,以及大幅提高信贷的配对能力,这也是大幅降低互联网金融准备金的理由。美国东北大学教授艾伯特·巴拉巴西认为,如果你知道一个人过去的所有社会数据,预测其未来行为的准确性将达到93%。这不禁让人们想起拉普拉斯的决定论。“计算”,真的只给人的自由意志留下7%的空间?或者回过头来感到惊喜,在被历史锁定的路径上,竟然还有7%改变的余地,其中包括创新……
由此可以发现大数据认识结果的另一个特征:对象的隐私。个体对于自己的言行,在社会上的一举一动是否拥有产权,如同舞台上的演员拥有对于自己演出的产权,他人没有买票即无权观看,即使买了票也无权录像,等等。而今,在大数据认识论中,牧羊人可以放牧一群羊,也可以特别的关注其中的一只羊。只要他有意,并不顾及这只或那只羊是否在意。或许,身为大数据时代的羊,就要习惯自身的透明,甚至主动“晒”自己的隐私(参见 中国特色的“隐私”——《互联网时代》观后1)。大数据认识论认识结果的对象相关性有必要受到关注。
虽然当政府和公司这样的牧羊人用显微镜观察某一只羊时,这只羊或许也正在经由大数据审视周围的一切;前文述及大数据认识主体的三个层次。个人能否,以及在什么意义上成为认识主体鼎立三足之一?在聚光灯下剖析一个个体,毕竟不同于个体泛泛扫视周围的世界。
大数据认识论还有一个特有的现象:认识结果对认识对象的反作用。一旦大数据公诸于众,个人就会自动站位,多数情况站到有较多人选择的一方,多者越多,少者越少,这就是基于从众心理的正反馈。似乎应了《圣经》上的一句话:“凡有的,还要加给他叫他多余。没有的,连他所有的也要夺过来。”虽然也可能会有基于逆反心理的其他表现,但因其处于少数且方向不一,所以在实际上会以很大乃至极大的概率淹没于大数据的正反馈之中。如果确是如此,这就给出了大数据时代社会的知识建构的某种方向,不仅路径锁定,而且沿着前述“多数人”的方向自我强化。大数据时代是否具有相应的纠错或均衡的机制?
在大数据认识论中,对结果的评价也是重要的组成部分。传统认识论所关注的主要是“真”,而在大数据认识论中,甲方所关注的不仅是“真”,而且是“善”,当然也可能是“恶”,不仅是客观,而且要有用,也就是所谓求真求效。“求效”,对谁有效?何谓“有效”?特别的爱给特别的你。与此同时,由于大数据认识主体的分化和多样化,认识动机各异和变迁,“唯一真理”于是被多项选择所替代。大数据的价值主要在于其中所蕴含的“关系”。所谓“多项选择”,不仅是对于同一组关系可能有多种认识,而且是“关系”本身的多样性,随着视角的不同可以揭示出几乎无限多的关系。再加上每一种数据来源都有一定的局限性和片面性,事物的本质和规律隐藏在各种原始数据几近无限的相互关联之中。只有融合、集成各方面的原始数据,才能反映事物的全貌。
传统认识论涉及的主要是科学,相对而言科学本身不是双刃剑(参见“双刃剑”,在于科技自身还是使用者?——科技双刃剑辨析之一),大数据认识论从一开始就沾染了浓厚的功利色彩,有了善恶之分,因而其本身就是双刃剑。还可以从产业链的角度来理解。上游旨在数据挖掘,在这一环节,知识在很大程度上公有。随着产业链向终端用户移动,知识产权的分量越来越重,最终“嵌入于”个别的机构或个人。由此可见,所谓大数据认识论已经不止于“认识”而进入产业的领域。在技术领域熟知的一句话是,能做的是否要做,所指的是在实践领域;在大数据认识论中,问题已经转化为“能够认识的是否都要去认识?”
本文按传统认识论的框架写作,行文至此,感到或可换一个思路:大数据认识论,大数据产业,以及大数据实践论;大数据产业可以归入大数据实践论。
在大数据产业中,大数据是作为原料的生产力要素,产业链的各环节对原料进行挖掘、提炼、加工(知其然),以供特定用户消费,从而在整体上提升原有产业。与一般意义上的产业具有明确目标有所不同的是,大数据产业在一开始并不知道会“挖掘”出什么,更不知道会有什么用,这一点又与面向未知世界的传统认识论有相似之处。在大数据实践论中,大数据不仅是“数据”,而且是知识社会基础的资源。更重要的是,对大数据的认识过程和加工过程就是社会本身的运行和变化,知识的社会建构,就是社会的知识建构。云和互联网把世界2投射到世界3,在未来的社会中,每一个人自落世之时,除了其物理本体之外,可能还会有一个与之一一对应的“数字”映像,分别存在于现实社会和“虚拟”社会之中,相互动态对应。大数据认识论由世界3认识世界2,大数据产业和实践论籍此作用于世界2。世界2在与世界3的博弈和互动中前行。大数据产业属于大数据实践论,前者的主体是公司,在谋利的同时参与了实践;大数据实践论的主体不仅是公司,而且是政府和非营利机构,在实践的同时创造了社会效益和经济效益。计算社会科学在对所涉及的复杂问题进行建模时,不再完全以逼近某一实际复杂系统的程度(也就是认识论之“求真”——引者)为唯一的标准,而是把模型也认为是一种“现实”,是实际复杂系统的一种可能的代替形式和另一种可能的实现方式,而实际系统也只是可能出现的现实中的一种,其行为与模型的行为“不同”但却“等价”,这是利用人工系统研究社会计算问题的思想基础。通过对二者之间的行为的对比和分析,“借鉴”和“预估”各自未来的状况,相应调节各自的管理与控制方式,落实复杂社会问题有效解决方案或者学习和培训目标的实施问题等[1]。
大数据认识论和大数据实践论(含大数据产业),二者合一,而又各有侧重。大数据认识论旨在求真,是大数据实践论的基础;大数据实践论旨在求效和应用,并以其实证材料为大数据认识论提供素材,以其对生产力和经济基础的促进和对人的观念的影响推动社会发展,更以其价值观引导大数据认识论,以其实践过程推动大数据认识论。大数据时代的本质可用现代管理科学奠基人德鲁克的名言概括,即“预测未来最好的方法,就是去创造未来”。的确,德鲁克的这一名言用到此处,清楚不过地表明了大数据时代的实践本质。
大数据,无论是认识论,还是实践论,都存在自身固有的局限。大数据,只是世界1和世界2的“镜像”。其一,不可能把世界1和世界2的全部“镜像化”,总有遗漏或不可能镜像化的部分,正如不可能把意会知识彻底编码一样。其二,一旦成为镜像,“就像一个小镇倒映在平静的湖面上,”虽然“对不同的观者,它夹杂了每个人不同的生命体验,倒影中包含了你在真实生活中的社会、机构和家庭结构”(戴维·杰勒恩特),但对于政府、公司、牧羊人来说,所见所闻只不过是平面的镜像而已[3],真实的小镇与平静的湖面不可相提并论,这一点类似于柏拉图的“洞穴”。作为产业,必须与传统的产业相结合,服务于传统产业。作为实践论,其一必须坚持以人为本的价值观引导,不要让大数据压倒真实的世界;其二,意识到大数据所涉及到的实践只是人类实践活动之一。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-23 21:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社