[例注] 今天接着上篇继续写V大叔和柯院。本期为朋友们奉上的放松歌曲是带有爵士风的<December>, 来自Norah Jones[Y]。十一月快结束了,圣诞节也就不远了。来点Jazz,来点小资,多点快乐,多点温馨
-----------------------------------------------平常心的分割线 ---------------------------------------------------------------- 3. V大叔 V大叔,绝对担得起这个“大叔”的称谓。一、他比老巴还要大两岁;二、他是复杂网络圈里势力庞大的“欧洲帮”的一个典型代表;三、Science杂志的这个专辑里唯一拥有两篇署名文章的人。大叔为意大利物理出身,于04年跳入美国印第安纳大学(Indiana University),转任信息学[1]和认知科学教授。可能,不搞物理的人对复杂网络圈里“欧洲帮”,尤其是意大利、西班牙和德国的势力之强大没有太直接的认识。那我在这里随便列几个与V大叔相关的:做传播动力学的应该没有不知道Pastor-Satorras的,V大叔的学生;Phys. Rev. E负责复杂网络方面的编辑Marc Barthelemy,跟V大叔一起混大的;RMP和PR两篇综述文章[2]在手的Santo Fortunato,V大叔组里的小同事;近两三年声名鹊起的Y. Moreno,02年他跟V大叔合作的时候才刚入门呢;以解析见长、目前在普林斯顿高等研究所的A. Vazquez[3],他是V大叔02年毕业的博士生;而Y. Moreno以前跟S. Boccaletti,H. J. Herrmann等人时常合作,关系之暧昧[4]简直路人皆知;而Vazquez又在老巴那里呆了两年,那,啥都别说了。。。觉得国内国外都一样:“有人的地方就有江湖”[5]。而在国际复杂网络这个江湖里,V大叔以及“欧洲帮”的其他同伙绝对是不可小觑的一股势力[6][7]。
话收回来。这次V大叔在Science专辑里的文章题目是技术-社会系统的行为预测,实际上这是把他们组里这几年关于疾病传播的实证、建模和理论[8]做了一下扩充,从而也把意义提升了。为了找一个自然的、恰当的角度来写关于这篇文章的一点体会,我先给出它的“词云”(Word Clouds)[9],如下图所示。除去network, system, social, techno-social, human, behavior等泛泛之词外,有四个词在V大叔的文章里的出现频率很高:data,mobility,multiscale和predict[10]。由于在前面对老巴和沃哥的观点解读时已经多次详细地说过data的问题,因此,这里只说说后面三点。
Mobility --
关于mobility的重要意义就不多说了[11]。其实它是人类活动中最具代表性的、也是用目前的技术可获取详实数据的一种行为。值得一提的是,随着近年信息技术的发展而致获取数据的便捷,似乎一夜之间各个学科的人都在关注mobility:大家熟知的物理这一块的几篇,包括T. Geisel等人的文章[12],老巴他们的[13]。。。物理的基本上是关心统计上的分布和标度关系等宏观问题;做传统的交通理论与工程那一块的人则主要关心人们开车或出游的常用路线,这种人群的移动信息显然能够提高城市规划,尤其是航线、铁路和公路规划,的合理性[14];计算机这一块的人则主要通过实证数据对人群的移动性进行建模,着眼于建模的精确性,从而对移动网络的协议和性能进行评价和改进。感兴趣的可以参考这几篇文献[15][16]。但关注mobility更早的应该是社会学和生态学领域的学者,他们着重于人口的迁徙、物种入侵、动物的迁徙[17]等问题。而V大叔侧重的其实主要是mobility对疾病传播的影响这一块,尤其是他这个女学生V. Colizza[18]。
Multiscale --
V大叔认为传统的社会学主要研究个体或者小团体的行为,但是由于目前人们逐渐的参与进信息活动中且这些信息可以被设备记录下来从而可以进行“现实挖掘”(reality-mining)[19],因此目前的社会学研究有了关注总体状态的条件。他还形象地将这种转变比拟成分子原子物理到宏观物理学[20]的转变。但是,宏观物理学中遇到的问题宏观社会学里照样会遇到,比如,“多尺度”。假如我们要研究疾病的传播,首先我们得关注在“家庭”这个尺度上的传播行为是个什么样子,然后可能是“城市”,每个城市里会怎么传,然后是城市之间由于远程出行(比如飞机、火车等)的传播行为。而且,每个尺度上的传播方式是不一样的、是无法用一致的公式来建模的。而V大叔认为这种多尺度性带来的最大的挑战是:各个尺度之间不是相互独立的,换句话说就是每个尺度上的行为都是所有尺度上的行为影响的综合。说起来比较绕口,打一个比方。假如某人得了H1N1,而他从北京家里飞到了香港[21],那么他同时对“家庭内”、“城市内”和“城市之间”三个尺度上的传播行为有影响,但是传播过程又是不一样的。在家里一起吃住所以可能传播的概率大些,而在“城市内”活动和“城市之间”活动的方式也完全不同。但是,V大叔在“利用多尺度的优势”那一节说的两个东西,我不以为然,按住不表。
Predict --
这个值得说说。实际上,什么mobility啦、multiscale啦... 所有的所有,归根结底是为了预测社会系统的行为。显然,这是无比的难。举个简单的例子,股市是社会系统中的一个子系统,世界上多少人梦想着能够预测它的行为啊(仅仅是上涨或者下跌的二元的行为)。按照目前这些学者的观点,股市系统的特点完全符合。第一、它是人群参与的信息系统,而且相对简单(就是记录每个人什么时候买或卖了多少);第二、目前的技术手段完全可以记录所有信息,提供大量的数据。但是,不都无功而返吗(就算那么一丁点儿的进展,也是微不足道的)[22]。所以,尽管V大叔给我们描述的远景十分诱人,但是我们在乐观之余仍然需要保持谨慎 的态度。
但是话又说回来,V大叔在剖析“为什么对技术-社会系统的预测会非常难”的时候所表达的观点还是值得一听的。他认为首先是 技术-社会系统对社会适应行为的敏感性和依赖性提高了预测的难度。比如在常规的环境里我们可能还有希望得到一个“稳态解”从而进行预测;但是当受到社会事件(如流感、自然灾害)的冲击时,就没有办法了。另外一个难点是 ,就算能得到某种预测,当把这种预测公之于众的时候,系统也会进行自调整从而使预测完全失效。这是个很有趣的问题。举个简单的例子。在交通工程里有个道路堵塞信息发布的问题。按说这个在技术上是完全可以实现的:收集车辆行驶信息然后进行短期预测哪个路口会发生堵塞,并通过无线将这个堵塞信息发送给城市道路上的行驶车辆。但是,如果把这个信息发送给所有的车辆,可以想象的是几乎所有车辆都会改变行驶路线,从而导致其它路口,而不是原来预测的那个路口发生堵塞[23]。这类似于“反馈”的意思。只是与控制论里的系统相比,这里不是线性非线性的问题,而是模型的建立是否可能、若可能,精确度能否达到可接受的程度。
4. 柯院
最喜欢的一个。想了好久该如何来写他,但是最后还是决定草草收场。上次学校bbs上有个小师弟做针对本科生的大学生研究计划,结题的时候需要答辩,他抱怨说答辩只有10分钟时间太短没法讲清楚。当时我开玩笑地回复说:嫌报告时间太短那是因为你做得不够牛。如果袁隆平先生去参加一个答辩估计也就一句话的时间即可:我为解决中国以及XX等国人民的温饱问题做了点事情。所以我决定只用一句话来介绍:他就是“70后”的杰出代表,美国工程院和美国艺术与科学院院士Jon Kleinberg[24]。
这里简单说说他08年底在<ACM通讯>上发表的一篇散文。柯院觉得,与比传统社会学里着重于小尺度的研究相比,目前web2.0网站产生的大量数据确实提供了一个探索其规律和模式的机会。但是,他同时指出,这类数据会忽略或者无法获知网络中的某个特定个体或者某种关联到底代表什么;无法区分两节点之间的密切程度,也就是说无法获知边的强度。因此,柯院认为目前真正的挑战是如何在小尺度的细致研究和大尺度的宏观研究之间找一个平衡点,让两种方法聚合。具体点说,在小世界现象的背后 是网络具有一定的自导航能力,也就是说网络自组织到了某种便于给远方传递信息的优化结构。最近,web2.0网站的数据也证实了这一点[25]。那么网络为什么会形成这种结构呢?是否存在某种我们尚不清楚的隐含机制;如果存在的话,它又是如何起作用的?对于在线社会网络上传播行为这个问题 ,柯院比较感兴趣的是,能否利用机器学习[26]的相关技术根据观察到的社会过程的初始数据对其结果进行预测。实际上在这方面已经开始在做了。其中比较有代表性的是柯院的博士后学生Jure Leskovec[27],他今年在机器学习领域的两个顶尖会议上做了相关的讲座、主持了讨论会。此处不表。
最喜欢的一个反而不想多写,人可能就是这样吧,有时候太怪了,所以说社会系统研究起来真是太棘手了。
-----------------------------------------------终于完了的分割线 ----------------------------------------------------------------
后记:
我要感谢“复杂网络论坛”的成立,它让我有了写这个博客的机会和激情。而且为了写好博客,把很多文献都认认真真、仔仔细细的(又)看了一遍,着实收获不少,发现了很多原来没有注意的东西,同时也逐渐地捋出了点头绪。写博客可以促使认真思考,这确实是开始没有预料到的。
加菲猫说“爱情来了又去,只有猪肉卷是永恒的”[28]。在复杂系统和复杂性科学这个连名字意思都尚无法界定的圈子里,一直都不缺乏流行和时尚。热点来得快也去得快。老巴认为network将会是一个很有生命力的研究热点。但是,其实,以往的热点流行的时候大家也都是这么说的。不过好的一方面是,在若干年后复杂网络本身可能不会独立成一个圈子,而是逐渐向其它相关学科渗透,而且这种渗透或者说对流是双向的。我们需要找到应用背景使得复杂网络具有更强的生命力;而其它学科也需要复杂网络这个工具来解释或解决某些问题。
《狂想曲》到此算是结束了。但是为了保持这个系列的完整性,可能过段时间会写个《群魔论道 之 兼听则明》,主要收集别的学科的学者对这个圈子的看法、观点或者期望。但是,可能需要推后一段时间,中间会穿插一件挂着学术的头卖半娱乐的肉的事情。
祝各位周末愉快。
参考文献与注释:
[Y]. 诺拉-琼斯,由于具有较高的流行度就不做任何介绍了,具体请参见:http://en.wikipedia.org/wiki/Norah_Jones。值得一提的是,跟台湾的新生代歌手王若琳一样,都是音乐世家出身。真是应了那句老话:虎父无犬女。 [1]. 此处的信息学是指“informatics”,与国内常说的信息科学与技术的意思似乎不大一样。具体可参见:http://en.wikipedia.org/wiki/Informatics。 [2]. RMP = Review of Modern Physics, 是物理领域专发综述文章的顶尖杂志,影响因子在34左右。该杂志出版近80个年头了,但中国本土学者大概只有两位在上面发过文章。老巴与A女博最早的综述文章就是发表在RMP上。PR = Physics Reports,也是很好的专发综述的杂志,IF大概在10多点。
[3]. A. Vazquez值得重点提出来下。请参见其主页:http://www.sns.ias.edu/~vazquez。
[4]. 这里的“暧昧”指单纯的。
[5]. 原始出处应该是徐克导演的电影<笑傲江湖三部曲之东方不败>里的台词。
[6]. 仅次于H. E. Stanley和S. Havlin那一派。另外还有几股势力,比如德国以Theo Geisel为代表的一批做计算神经的(与同步关系密切)和“韩国帮”。每每看到这群人的文章占满若干主流顶尖杂志的时候,我都想放弃科研回家去开牧场放羊养猪好了。
[7]. 为了喜剧效果,描写V大叔的第一段文字略有夸张。
[8]. V大叔到IU之后,基本思想应该也是做实证、实际这一块,深化和夯实他们原来的理论工作。虽然有段时间掺和过Internet拓扑建模方面的交流会(这个小会由在Internet领域很有影响的组织CAIDA负责,具体请参见http://www.caida.org/workshops/isma/0605/agenda.xml),但是V大叔后来似乎也没有花大力气跟进继续做这一块。有趣的是,把CAIDA的里一个俄罗斯人带起来了(请参见:http://www.caida.org/~dima),也算不错。V大叔这几年的主要成绩应该说还是在epidemic上,从之前的理论到现在如火如荼的实证,后文将有详细解读。
[9]. 这是用一个很酷的开放的小工具画的,具体请见:http://www.wordle.net/。其实这种工具很多,比如http://cit.duke.edu/blog/2008/07/03/wordle-making-tag-clouds-into-beautiful-word-clouds/上面列出的。Web2.0时代的这种小东西挺有意思的,虽然原理超简单。记得香港理工大学谢智刚老师做过一个将乐谱转化成网络的工作,不知能否弄成识别音频的小工具,别人上传一段音频文件然后画出一个好玩的图出来,那会挺酷的。
[10]. 这里需要说明一下,由于worldle小工具不能智能地将一个词的不同形态统一起来,比如它可能将network和networks当做两个词。因此我这里先做了预处理,将同一个词的单复数形式、动词各种时态和名词形式等都做了统一。比如,predict就是将predicting,predictability,predicts,prediction等统一的结果。
[11]. 在方老师、涛兄、小可兄以及素未谋面的吴晔、胡延庆等人的博客中已经多多少少提到过了,推荐阅读。
[12]. 请参见:http://www.nature.com/nature/journal/v439/n7075/pdf/nature04292.pdf。
[13]. 请参见:http://www.barabasilab.com/pubs/CCNR-ALB_Publications/200806-05_Nature-MobilityPatterns/200806-05_Nature-MobilityPatterns.pdf。
[14]. <Transportation>杂志03年的一个专辑,请参见 http://www.springerlink.com/content/k00835072r802863/。另外我原来在Transportation Research Part B 和 F等杂志上也看到有很多相关文献,暂不一一列出。感兴趣的请参见上述杂志。
[15]. 03年MobiCom上的一篇文献:http://moment.cs.ucsb.edu/mobility/p0337-jardosh.pdf。值得一说的是MobiCom与Sigcomm是计算机网络和通信领域的最顶级会议。这么多年国内这么多搞计算机的都鲜有在这两个会议发表文章的(如果没记错的话Sigcomm国内共有两三篇)。另外,计算机领域里新结果主要发在会议上,关于这个传统的来源课参考王飞跃老师写的一篇博文:http://www.sciencenet.cn/m/user_content.aspx?id=241052。
[16]. 另外也可以看NCSU一个研究组主页上的相关资料:http://netsrv.csc.ncsu.edu/twiki/bin/view/Main/MobilityModels/。08、09年的Infocom的会议上都有关于human mobility model的几篇文章,感兴趣的可以找来看看。
[17]. 比如:http://www.nature.com/nature/journal/v381/n6581/abs/381413a0.html。
[18]. V. Colizza的主页:http://sites.google.com/site/vcolizza2/home。
[19]. 这应该是与计算机科学里的“数据挖掘”(data-mining)相呼应的一个词。我不知道它最早的出处,但是我是从MIT的媒体实验室看到的,请参见:http://reality.media.mit.edu/。
[20]. 原文为"physics of matter”,应该是指固体物理、流体物理甚至天体物理等稍微宏观些的东西,不侧重于物质的微观构成。
[21]. 其实得了H1N1还想飞到香港的难度很大。目前香港入境查得很严 :)
[22]. 举完这个例子的时候才发现可能跟V大叔的意思有一点点偏差。V大叔这里主要谈的是技术-社会系统,而不是社会系统。虽然我至今仍然没有弄清楚两者的明显差别在哪。维基百科上没有该词条。我看到有一些人给出的说明是"the boundaries where technology and social behavior interact”,从这个意义上说我举的股市的例子没错。
[23]. 关于这个问题的介绍可参照高自友老师在09年全国复杂网络大会上的报告。但是值得指出的是,经过会后与智海兄探讨,高老师仅仅是介绍了很粗浅的概念,对求解多人博弈纳什均衡的难点没有做相应的介绍。其实纳什均衡是否存在、存在的话是什么,这才是其难点。理论计算机科学里有一个方向叫算法博弈论,里面很多人就是用算法来寻求纳什均衡的解。推荐一本书:http://www.cambridge.org/journals/nisan/downloads/Nisan_Non-printable.pdf。
[24]. 太花痴了。。。主页请自查,他值得一查。
[25]. 请参见05年的一篇PNAS:http://www.pnas.org/content/102/33/11623.abstract。
[26]. 机器学习(machine-learning)是计算机科学领域的一个研究方向,这些年都还算比较火。请参见维基百科上的英文解释:http://en.wikipedia.org/wiki/Machine_learning;或者百度百科上的中文解释:http://baike.baidu.com/view/7956.htm?fr=ala0。
[27]. 这小伙子目前炙手可热,详情可参见其主页:http://cs.stanford.edu/people/jure/。
[28]. 英文原文为:Love comes and goes, lasagna is forever !
转载本文请联系原作者获取授权,同时请注明本文来自严钢科学网博客。 链接地址: https://blog.sciencenet.cn/blog-349772-274625.html
上一篇:
[复杂网络]群魔论道 之 狂想曲(一) 下一篇:
[复杂网络]乱舞沙龙 之 伪记者的采访录