博文

在线导航中的信息茧房问题

已有 6317 次阅读 2023-4-25 11:38 |系统分类:论文交流

我们生活在一个信息高度丰富的世界。可获取的信息总量在爆炸性增长，与此同时，我们分辨甄别信息的能力增长缓慢。我们从互联网上获得了大部分的信息，而这些中的绝大部分又是我们通过“信息中介”获得的，这些中介包括：门户网站、搜索引擎、推荐系统、社交媒体等等，很快可能还要算上ChatGPT和它的朋友们。

尽管看起来我们似乎从更多的信息渠道获得了更多样的信息，但很多学者认为，我们正在不知不觉地陷入到某种“信息茧房”中——我们获得的信息是局限且有偏见的，而这些局限且偏见的信息会让社会撕裂，会让我们的观点变得更加极端和偏激，甚至会给民主和自由带来威胁（想想可怕的中国式网暴）[1][2]。

导致信息茧房的原因大致可以分为两类：一类是由用户的主动选择导致的，一类则来源于用户被动接收系统推送的信息。前者根植于人类希望听到赞成甚至迎合自己的声音的内在心理需要，因此我们总是自觉不自觉地在社交媒体上选择和自己观念相近的人交朋友，在媒体网站上反复观看观点被自己认可的文章或视频，而自觉不自觉地疏远和自己观念相左的人，且对与自己观点不同的文章和视频视而不见或者嗤之以鼻[3][4][5][6]。我们把这种原因导致的信息茧房叫做“回音室效应”（echo chamber effect）。后者主要来源于搜索引擎和推荐系统等信息中介的个性化技术。这些系统（不管是推荐新闻还是朋友）为了增加用户的点击率，总是用一种安全的方式推荐和用户已知喜好相近的内容，这些已知喜好可能来源于用户以前的点击行为（比如在抖音上初期看了很多足球篮球剪辑视频，后面推荐的视频一大半都是足球篮球），也可能源于对用户画像的分析（比如通过分析你的朋友圈，预测你是一个共和党人，于是就给你推共和党的朋友和支持共和党的媒体新闻），用户陷入这种相似的内容中而不自知，久而久之视野会变得越来越狭窄[7][8][9]。我们把这种原因导致的信息茧房叫做“滤泡”（filter bubble）。

尽管信息茧房是一个热点研究问题，并且富有争议——例如有些学者认为担心信息茧房多少有些杞人忧天[10][11][12]，但针对信息茧房问题的定量研究高度匮乏！其中一个可能的重要原因是没有针对信息茧房精确的数学定义。我们从在线导航这样一个有代表性的场景出发，给出了信息茧房的精确定义。尽管这个定义在数学上非常苛刻，但是我们依然发现在真实系统中信息茧房是广泛存在的，并且会直接导致用户获取多样化信息能力的急剧下降。进一步地，我们发现广泛使用的基于相似性的推荐算法会导致信息建房的出现，基于此，我们提出了避免出现信息茧房的“松弛算法”，在真实数据和真实实验中，我们验证了松弛算法的价值——不仅避免了信息茧房的出现，还可以提高信息推荐的精准度。

在线导航是一个极为常见的信息获取方式，其典型形式是在用户访问了一个商品（或者一首歌、一本书、一篇论文……）后，系统给出若干推荐的商品。如果在访问商品x后系统推荐了商品a,b,c，就可以看作有三条有向边，分别从x指向a,b,c。如果这种推荐本身不是个性化的（在同一时间或很接近的时间，每个人访问了x之后，系统都推荐a,b,c），那么在任何给定的时间片段中，这些推荐就构成了一个商品之间的推荐网络[13]，其中节点是商品，一条从商品a指向商品b的有向边说明访问商品a后系统会推荐商品b。这样的推荐网络在电商网站、学术期刊网站、音乐网站、在线小说阅读网站中随处可见，下图就是亚马逊119636本图书形成的推荐网络的部分结构。

基于有向推荐网络G(V,E)，我们给出了信息茧房一个精确的数学定义。节点集合V的一个子集C被称作信息茧房，若：（1）以C为节点集的导出子图是强连通的；（2）G中没有任何一条边从C中节点指向C外节点。直观地讲，信息茧房就是一个集合，一旦你访问了其中一个节点，如果按照导航的指示继续访问，则可以穷尽这个集合中的所有节点但永远都不会离开这个集合。尽管这个定义非常严格甚至苛刻，但对Amazon图书推荐，Science论文推荐和PNAS论文推荐的实证分析却带给我们惊讶1：在真实的推荐系统中，信息茧房随处可见。例如，Amazon图书推荐网络中就有1181个信息茧房，其中大部分规模很小，但是也有规模很大的，例如有4个规模都超过了50（包含>50个节点）。上图给出了Amazon图书推荐网络中一些真实的信息茧房示意图，其中红色节点就是位于信息茧房中的节点。

为了进一步分析信息茧房的存在对于所获取信息多样性的影响，我们引入了一个著名的指标：导航能力（navigability）[14]。导航能力就是在推荐网络中随机选择一个节点并释放一个随机游走者，通过N步随机游走（N是网络节点总数），平均而言可以访问到的不同节点数占节点总数的比例。这个值越大，说明网络导航能力越佳，用户如果按照导航走可以获取的信息更多样。对于一个完全随机且强连通的推荐网络（导航能力最佳），导航能力是1-1/e=63.21%，其中e是自然对数。这个分析很显然，此处不再赘述，有兴趣的读者可以阅读论文。对真实推荐网络导航能力的分析带给了我们惊讶2：所有真实推荐网络的导航能力都不足1%。进一步的解析分析、控制分析和模拟实验显示，导航能力千百倍下降的罪魁祸首就是信息茧房（目前的分析结果显示，信息茧房是唯一犯罪分子）。

我们基于Steam、Yelp、Epinions和MovieLens的真实数据，尝试利用常见的基于相似性的推荐算法[15]构建了若干推荐网络，发现基于相似性的推荐算法会产生信息茧房，形成和真实推荐网络很类似的结构以及导航能力（我们有理由猜测真实推荐网络也是采用基于相似性的推荐算法，但是我们还没有办法一一核实）。

根据我们以前研究的经验[16]，我们认为可以通过放松推荐算法对于相似性的执念，来提高推荐的多样性。因此我们提出了一种简单的“松弛算法”。我们假设有一个松弛因子（大于等于1，例如为3），本来系统要按照相似性排名推荐前L个商品，我们要求系统不能仅仅推荐相似性最高的L个商品，而要从3L个相似性最高的商品中随机选择L个。尽管这个方法非常简单，但是在所有我们测试的基于相似性的推荐算法中，我们都可以找到一个很大的区间，在这个区间中，我们所构成的推荐网络的导航能力大幅度提升（信息茧房也不见踪影或者屈指可数），与此同时推荐的精度还有所提升（推荐精度的定义和分析请参考论文）。

进一步地，我们在一个国内领先的视频网站上做了实验。我们引入了松弛因子调整了该网站的一个基于相似性的召回算法，结果显示用户的点开率和观看时长都有了提升，其中点开率的提升在统计上是显著的（根据t-test）。

这篇论文的定义和方法都具有很大的扩展空间。举个例子，我们可以把严格的信息茧房定义推广到“准信息茧房”，从而进一步提升对一些观察到的现象的解释力（准信息茧房的定义和数学分析请参考论文）。这篇工作对于理解和分析信息茧房有重大的意义。首先，它提出了一个无争议的数学定义，基于此大家可以在同样的基础上对信息茧房问题开展分析；其次，它用难以置疑的方式给出了实证系统中存在信息茧房的证据，这对于当前越演越烈的争论有很好的参考价值；再次，它揭示了信息茧房存在性对于在网络上获取的信息多样性的巨大影响，并且认为信息茧房的来源和负面影响就源自广泛应用的基于相似性的推荐算法；最后，它提出了一种简单的可以同时增加推荐精确度且破坏信息茧房的方法，这个方法虽然简单，但是其核心思想是可以推广应用到更复杂的算法中的。

参考文献：

[1] C. R. Sunstein, Is social media good or bad for democracy, Int. J. Hum. Rights 27 (2018) 83-89.

[2] F. Shi, Y. Shi, F. A. Dokshin, J. A. Evans, M. W. Macy, Millions of online book co-purchases reveal partisan differences in the consumption of science, Nat. Hum. Behav. 1 (2017) 79.

[3] E. Bakshy, S. Messing, L. A. Adamic, Exposure to ideologically diverse news and opinion on Facebook, Science 348 (2015) 1130-1132.

[4] J. Hu, Q.-M. Zhang, T. Zhou, Segregation in religion networks, EPJ Data Sci. 8 (2019) 6.

[5] M. Cinelli, G. De F. Morales, A. Galeazzi, W. Quattrociocchi, M. Starnini, The echo chamber effect on social media, PNAS 118 (2021) e2023301118.

[6] M. Mosleh, C. Martel, D. Eckles, D. G. Rand, Shared partisanship dramatically increases social tie formation in a Twitter field experiment, PNAS 118 (2021) e2022761118.

[7] N. Helberger, K. Karppinen, L. D’acunto, Exposure diversity as a design principle for recommender systems. Inf. Commun. Soc. 21 (2018) 191–207.

[8] F. P. Santos, Y. Lelkes, S. A. Levin, Link recommendation algorithms and dynamics of polarization in online social networks, PNAS 118 (2021) e2102141118.

[9] F. Huszar, S. I. Ktena, C. O’Brien, L. Belli, A. Schlaikjer, M. Hardt, Algorithmic amplifification of politics on Twitter, PNAS 119 (2022) e2025334119.

[10] F. J. ZuiderveenBorgesius, D. Trilling, J. Moller, B. Bodo, C. H. De Vreese, N. Helberger, Should we worry about filter bubbles? Internet Policy Review 5 (2016) 1-14.

[11] A. Bruns, Are Filter Bubbles Real? (John Wiley & Sons, 2019).

[12] T. Yang, S. Majo-Vazquez, R. K. Nielsen, S. Gonzalez-Bailon, Exposure to news grows less fragmented with an increase in mobile access, PNAS 117 (2020) 28678–28683.

[13] G. Oestreicher-Singer, A. Sundararajan, Recommendation networks and the long tail of electronic commerce, MIS Q. 36 (2012) 65-83.

[14] M. De Domenico, A. Sole-Ribalta, S. Gomez, A. Arenas, Navigability of interconnected networks under random failures, PNAS 111 (2014) 8351–8356.

[15] L. Lü, M. Medo, C. H. Yeung, Y.-C. Zhang, Z.-K. Zhang, T. Zhou, Recommender Systems, Physics Reports 519 (2012) 1-49.

[16] T. Zhou, Z. Kuscsik, J.-G. Liu, M. Medo, J. R. Wakeling, Y.-C. Zhang, Solving the apparent diversity-accuracy dilemma of recommender systems. PNAS 107 (2010) 4511-4515.

论文信息：

L. Hou, X. Pan, K. Liu, Z. Yang, J. Liu, T. Zhou, Information cocoons in online navigation, iScience 26 (2023) 105893.

免费下载链接：

https://www.cell.com/iscience/fulltext/S2589-0042(22)02166-6

PDF免费下载：

Information Cocoons.pdf