最近在研究新浪微博的用户,对关注网络和转评网络稍微做了初步的分析。对于关注网络,我在划分测试集和训练集时犯了一个错误,其实也不能算是错误,只是这样会在后面算AUC时让人产生那么一瞬间的小郁闷,因为训练集存在这样一种情况,把某几个节点的所有出边都随机到了训练集里。这样直接导致了这些边没办法算AUC啊~~只能忍痛忽略了。后来和千明兄讨论,才发现,他们的普遍做法是针对每个用户的关注用户,随机选取20%的边放到测试集中。囧,我是针对所有边随机选,人家是针对用户的出度随机选啊~~没经验啊没经验。
还有我要跑一年才能跑完的数据,我泪奔了~~~
https://blog.sciencenet.cn/blog-477668-471054.html
上一篇:
活着才是王道!下一篇:
太极