该文是2011年发表在ASONAM(
Advances in Social Network Analysis and Mining )上的一篇文章:
!2011_ASONAM_Co-author relationship prediction in heterogeneous bibliographic networks
1,前言
在这之前也是有过很多在relationship prediction上的研究,但是大多数都是在同构网(homogeneous network)进行的。但是现实生活中的网络都是异构(heterogeneous network)的,即网络同样是有节点与边组成,但节点具有多个类型,边也具有多个类型,因此在这种网络上进行prediction显得难度比较大。
2,文章思路
文章首先引用了PathSim Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks中的两个概念:
(1)network schema,也即系统给出了异构网络的符号表示:将节点集V映射到一个节点类型集合,将边集E映射到一个边类型集合
(2)meta-path,这是一个比较新颖的想法。就拿DBLP中的数据来说明,在DBLP中节点的类型有作者(A)、文献(P)、会议(V)、主题(T)等。我们可以在这些节点上发现很多关系(比如作者“发表”文章,文章“引用”文章等),同样也有一些潜在的关系,例如作者与作者相互合作(Co-author)的关系。但是这种关系在网络没有直接给出,不过我们可以通过两个作者共同发表一篇文章这种关系来表示合作关系,也即:
$A - P - A$
而这种类似于路径的东西就叫做meta-path。
文章指出,在传统的同构网中,以前的研究通过挖掘网络拓扑特征来进行关系预测,这些特征包括:common neighbors,Jaccard's coeffient等,当然这些概念在异构网中肯定是不能使用的,于是作者巧妙的利用meta-path的概念,类似于上边几个拓扑特性,给出了异构网络中的拓扑特性定义:也即path count(PC),normalized path count(NPC),random walk(RW),symmetric random walk(SRW)。并试图通过这些拓扑特性来对异构网中的关系进行预测。
利用的方法主要包括逻辑回归(logistic regression)、最大似然估计(maximum likelihood estimation),在后边的实验中也显示了此方法的良好表现。
3,总结
本文的最大贡献在于系统地定义了几个异构网中的拓扑特性,并通过实验的方法验证了它们的确能较好地反应出异构网的特征。使用的方法都是很普通的方法。在对异构网的关系推断这个主题的研究中,这篇文章虽然已经不算是最新的(清华大学唐杰的科研小组推出了很多概率模型进行这方面的工作,并且效果良好),但在异构网的拓扑特性这方面,可以给我们较大的启发。
https://blog.sciencenet.cn/blog-802219-670787.html
上一篇:
最大熵模型(MaxEnt)