今天中午Imperial College London商学院的一个博士生Tore Opsahl给我们做一个报告。他并非研究链路预测的,但是却启发了我的研究思路。他关注的是在线社会网络的交流模式,因此报告的题目是”Communication in a Facebook-like Community”,这篇论文刚刚挂在arXiv上,下载地址是:arxiv:1010.2141.
他的研究思路这样的,利用Facebook中的用户配置文件(留下了很多用户的信息,例如年龄,性别,学校等等信息)考察社会网络中的通讯到底和什么因素相关。用的方法很简单:Logistic回归。抽取数百万条用户的朋友数据,如果一个人加另外一个人为好友,则可以根据这个信息建立一条有向边。根据边的存在与否,利用Logistic做二元回归,即观察有朋友关系和没有朋友关系与哪些因素相关。利用独立变量回归发现,我们倾向与我们同龄,异性,有一些共同朋友的人通讯。进一步用多元回归发现其实我们是愿意与我们具有相同学历,Reinforcement和Reciprocity(sorry这两个因素我没太理解)的人交流。
其实方法和结论都蛮有意思的。也是我喜欢的研究方法——将网络中的故事读出来,而并非把所有的故事都抽象成枯燥的点和边。该工作其实严格地讲属于链路预测的范畴,但是讲出的故事,得到的信息比单纯的链路存在与否要丰满许多。不仅知道了交流的存在与否,而且符合哪些特征的人更倾向于交流。但是该工作也有很大的缺陷。第一,Logistic回归的时候输入变量之间的相关性没有检验。也就是说很多因素,例如学历,年龄,学校之间的相关性忽略了。另外,我觉得更为有意思的新加入系统的节点倾向与谁交流没有回答。新加入节点的行为模式对于提高网站的知名度非常重要,没有做这个分析有点可惜了。另外时间序列因素没有考虑到也有些不解。
转载本文请联系原作者获取授权,同时请注明本文来自刘建国科学网博客。 链接地址: https://blog.sciencenet.cn/blog-112086-379812.html
上一篇:
苏格兰三个赚钱的职位 下一篇:
关于社会保险法的一点故事