|||
最近一年左右科学网被删博文数据统计报告,非官方数据。报告中,原创博文指的是博主发表博文30分钟内尚出现在“最新博文”栏目里的原创类博文;被删博文指的是“原创博文”中目前访问其网址显示“出问题了,你要查看的信息不存在或者已经被删除”类博文,其他类型无法访问的博文不在本次被删博文定义范畴。
验证样本共84733篇原创博文,其中被删博文5454篇,被删除率约为6.44%;因为未统计所有类型被删博文(比如封博等),所有这个删除率是一个保守的数据。
博文被删除分两种情况:博主自己主动删除博文和被科学网管理员删除博文;我的程序目前无法准确判断博文被删原因。附件deledurl.txt附上了被删博文的标题及原始链接,看官可自行阅读判断。这里只列出一些统计角度的图表。
按发布时间顺序,每千篇博文的删除率变化如下:
每30天原创博文量(含被删博文)变化如下:
以30天为单位时间,该时间段内博文被删率如下:
上图中时间轴大约对应的具体月份及相关数据:
原创博文前100名作者的博文删除率(百分比%):
单一博主原创博文量分布(前100名)
单一博主原创博文量分布(所有)
可提取标题的被删博文标题及网址集合,见附件(GBK编码)。
欢迎解读。
延伸阅读
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 16:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社