刘建国blog上的一篇文章,地址:http://blog.sina.com.cn/u/53dc857201000b20
(一直在想这个刘建国是不是nature上的那篇“Complexity of Coupled Human and Natural Systems”的作者Jianguo Liu呢)
动态网络分析一直是复杂网络研究领域的一个非常活跃的领域。对于与日俱增的实证演化网络数据,用经典的诸如度分布(degree distribution),平均距离(average distance),集聚系数(clustering coefficient),匹配模式(assortative coefficient)等网络指标虽然会从宏观上从这些海量数据中梳理出一些有规律性的信息,但是这些信息对于我们理解,认识系统结构,深入了解系统的运行规律都太有限了。我以前做过自然科学基金的项目,项目中可以收集到不同年份的申请书(title, keywords, abstrct)数据,要求对学科发展整体趋势,基于申请书内容的现有代码调整等问题进行研究。虽然利用复杂网络技术,通过文本分类,聚类等技术得到了一些定量的结果,但是对于具体的某个研究领域还是缺乏有效的分析方法。昨天仔细阅读了Nature(Nature 446 664 2007)的一篇letters:《Quantifying social group evolution》,翻译成中文应该叫《量化社会集团演化》。其中介绍了一些细致量化分析动态网络数据的方法和指标,觉得受益匪浅。简要总结了一下,与大家共享。
文章分析了三年中科学家合作网络和一个年终手机用户网络中的集团结构,集团内部成员的变化结构,不同规模集团的演化规律和特点等工作。
1,通过集团结构发现算法(Nature 435, 814 2005; Phys. Rev. Lett. 94, 160202 2005)发现不同时间的网络结构(包括属于多个集团的结点)。进而分析不同时间段集团规模的分析(见Fig.1)。由此可以知道网络中大多数集团的规模在35左右。进而通过分析网络内部边的边权与外部边权的比例可以分析网络集团结构的另外一些特性。
2,分析不同时间步t集团中的成员,观察新成员和老成员的个数(见Equ. (1)),定义自相关函数。得到了网络的平均自相关函数随不同集团规模趋势图。发现,小规模的集团相对比较稳定,人员的流动性要小很多。而对于规模比较大的集团,人员的流动性是非常强的(见Fig.2)。
3,不同集团的生命周期。对于不同集团成员的细致分析发现,规模小的集团中的核心成员相对要稳定,集团成员的变化基本不涉及这些核心成员。而规模比较大的集团中有相当一部分人的流动性非常大。这个结论与2类似,不同的地方是,结论3是针对具体的某个集团作的分析,而结论2是对所有集团作统计分析(见Fig.3)。
4,通过集团的内部连接和外部连接定义了成员叛逃函数,通过叛逃函数预测了集团将来的发展状况(见Fig.4)。
文中的提到的这些方法与自然科学基金申请的分析工作对应性很强。例如集团成员的分析,以及生命周期分析。对于分析学科的整体发展状态,某些学科的生存状态,将来的发展预测等问题。尤其通过预测集团未来的发展状态,可以预测将来的学科“冷点”和“热点”等工作。
可以做的工作:
1, 聚类发现算法。基于局部信息的聚类算法,考虑权重的加权网络聚类算法,基于局域信息发现overlap的聚类算法等工作都可以沿着已有的路子顺利地开展。
2, 现有数据的分析。手头的申请书数据完全可以根据上文的思路进行细致分析。
3, 通过所有关键词的信息,从全局角度考虑所有关键词的半衰期(PNAS 104(45) 17599 (2007), PNAS 104(5) 1461 (2007)),或从具体角度追踪具体的关键词的演化规律,借助于Yule-Simon模型(Yu GU, Philos Trans R Soc London B 213, 21 1925)进行模拟。
4, 可以设计一个爬虫程序,收集一些杂志或网站的数据。利用上文提到的数据处理方法进行细致分析。这些工作都可以top journal的文章。
5, 喜欢做本体(ontology)的同学也可以从(PNAS 101, 5183 2004)中找到一些可以做的工作。还有一些和本体,domain ontology非常相关的方向就是Recommendation systems. 2007年IEEE Trans on Intelligence Systems在23(3)发了一期Recommendation systems专辑,里面讲到了一些本体,domain ontology的应用。
希望这些对大家会有一些启发作用。如果有人对这方面工作感兴趣或有具体的想法,我们可以进一步交流。
建国
转载本文请联系原作者获取授权,同时请注明本文来自马剑科学网博客。 链接地址: https://blog.sciencenet.cn/blog-5422-11492.html
上一篇:
Connections Get You Everywhere, but Slowly 下一篇:
Nature中对于指责剽窃的申辩短文