阿赛空间分享 http://blog.sciencenet.cn/u/gpan

博文

所谓Google“涉黄”,数据揭示真相 【转载】

已有 15485 次阅读 2009-6-25 18:58 |个人分类:七嘴八舌|系统分类:生活其它

【全文转自它处】

----------------------------------------------------- 

最近google的事大家都知道,

CCTV上播放的视频是,当你搜索“儿子”,google的自动联想显示出很多淫秽的信息。

当时我就有点纳闷,据我了解,这个ajax的搜索框所产生的联想应该是采用了类似LRU算法一类的技术,即优先显示最近最多用户的搜索结果。也就是说,被联想到的词光热门没用,还必须要“近期很热门”才行。

我就纳闷了,难道诸如“儿子母亲不正当关系”这样的词条难道会长期被大量搜索吗?直到今天我看到下面这篇技术分析,我才恍然大悟。

以下内容大家看完,应该能够心领神会,不用我多说吧。

某些东西真的以为我们是弱智?从这种技术水平看来,他们比他们心目中的我们还要弱智。

----------------------------------------------------- 

前情

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
6月18日央视《焦点访谈》

记者:通过谷歌中国能搜索出来的淫秽色情和低俗信息非常的丰富,不仅有交友、视频、还有文字等等,而且搜索起来非常方便,它还提供了这么一种功能,你只要输入一个词,甚至是一个字它就能给你提供若干种选项,更为夸张的是,即使你输入的这个词并不暧昧,但是它却能给你引导到低俗的内容上,不信我们来看一下:输入一个儿子,它下面却出现了这样的一些选项“儿子母亲不正当关系”等等十个选项 ,而且这十个选项可以说都将引导你进入到那些低俗的内容,这样的结果应该说我们谁都没有想到。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

 

参考用“谷歌搜索低俗引导”

 

Google的搜索引导词是根据近期搜索频率来分的,也就是说,引导词里会出现最近一段时间内搜索的次数较多的组合。Google Trends上就能查到流量比较大的情况下的搜索频率走势。

而更为先进的Google Insights for Search(
http://www.google.com/insights/search/ )里则详细地记录下了2004年至今各搜索组合的次数涨落,并且还可细分网页搜索、图片搜索、新闻搜索,和按不同国家与地域、不同时间段来进行检索。

在央视曝光谷歌之前7天:

1.
有人故意在谷歌大量搜索黄色词汇,使单日黄色词汇搜索量同比猛增 5950% ,单月搜索总量与上月相比增幅达数千倍
2.
这些搜索量100%来自北京
3.
这些搜索量几乎呈线性急剧上升,理论上这些瞬时搜索量应该服从正态分布并是突发性的,换句话说,这是有人故意为之。

 

以下再附上几张类似图表,请注意峰值全部在6月17日,即CCTV节目(6月18日)播出的前一天。

为做对比,说明搜索引擎的统计应该是什么样子,我来附上一张对关键词“天气预报”的搜索统计图表,从图中我们可以看到,全年搜索量应该大致呈均匀分布,考虑到搜索引擎的普及使用,会有一个逐渐升高的趋势,但绝不可能出现在某个月份呈直线上升的情况。

 

那么,还有一种可能,是不是北京的人们在6月份,由于夏天到来,荷尔蒙分泌过多,导致对“儿子母亲不正当关系”这样的黄色词汇搜索过多呢?我们且来看这张对关键词“日本女优”的搜索统计图表,

 

可以看到,对关键词“日本女优”的搜索量全年大致呈均匀分布,甚至在近期有下降的趋势。那么,这种近期全民荷尔蒙分泌过多的情况也应该被排除了。并不是说对所有黄色信息都有大量的搜索需求。搜索数量呈急剧上升的关键词,只局限在媒体大书特书的几个词汇之中,特别要注意的是其急剧上升阶段和峰值都在媒体报道之前,显然,这不是自然的结果,那么,答案是什么呢?是谁让谷歌如此低俗?



http://blog.sciencenet.cn/blog-28351-240246.html

上一篇:央视的制片人、节目组成员们何时才能都具有那么一点点最基本的科学素质???
下一篇:快女"曾轶可"的成名"原创歌曲"抄袭铁证如山了

3 高星 胡新根 李晓光

发表评论 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-9-18 15:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部