||
小记WWW2009(2009-04-29)
今年是Web诞生20年,也是WWW的第18次年会。
为了纪念Web诞生20年,在开幕式前特地组织了一个panel。嘉宾是:Tim,Robert Cailliau(Tim当时在CERN提交HTML的proposal时的老板,这个文本在w3c网站上被作为珍贵文献有展示),Vinton Cerf(Google的VP,father of TCP/IP,Turing Award winner),Dale Dougherty (O'Reilly VP,出版商代表),Mike Shaver (Mozilla VP,这个最早的浏览器还垂而不死)。这个panel有两个father: of Web和of Internet。主持人Wendy Hall问三个问题,每人依次回答。我品味到其间三个花絮:Dale在歌颂Tim的时候,提到Tim当年提交论文给Hypertext会议,结果被拒,只被接受为poster(这段逸闻我在Hypertext的圈子里也早有耳闻),所以Dale不失时宜地为本次会议的poster作者们打气。第二个花絮是,Vinton代表google的商业利益和Robert抢话,即便是大科学家,现在也得各为其主了。第三个花絮是,Wendy骄傲地提到, google创始人的PageRank论文就是发表在WWW大会上的。
在这些问答中,我强烈地感受到科学家的社会责任感: 1、怎样让世界上的另外80%的人也享用到另外20%的人的家常便饭?2、如何防止Web的滥用(不经授权地、不经管理地、居心叵测地使用Web而达到负面的社会影响)?令人联想到原子弹的研发所导致的是非价值观的讨论。
开幕式由于有西班牙王子、公主和政府部长的参加,提高了社会档次,但降低了学术价值。由于王子和公主祝贺完了还在台下听Tim的主题演讲,所以,Tim的演讲相对比较乏味,也取消了Q&A,所以,这次演讲至少给我映像不如以前。注意到王子祝词中,赞美Tim时,也提到了Tim把html的 proposal交给老板时,被老板判为“vague but acceptable”。
语义Web
Semantics一直是Web的理想,经过10年的努力,有进展,但不如预期。本届大会的论文有9篇归在这个类别。大致看了一下论文,以及大会相关报告,都提到一个热词:Wikipedia!好!正符合我的原来理念。本质上来说,提到Semantic,必须涉及到机器理解文字内容!而文字内容的机器表达,除了Tag和Ontology外,似乎没有别的手段了。Tag是片断层面的局部表达,Ontology是结构层面的系统表达。而我通过LaTeX的实践认为,结构也是文档内容!而且是重要的内容。Wikipedia之所以这么热,成为目前处理Semantic的良好载体,有以下原因:有Tag,有分类 (Ontology),页面结构可以定义和识别!以前我认为,Semantic Web的最大障碍是Web页面的作者太自由(这本是Web的特征之一),不愿意为了机器的理解去标注去结构,只要读者能够视觉上看懂页面就可以了,殊不知现在追求的是要让机器看懂内容!而Wikipedia的技术内涵,则是通过一个特定的应用程序,强迫用户对提供的内容结构化(用Wiki的页面结构)、强迫用户去Tag和把文章分门别类。于是,Semantic的研究者不必要从松散的Web页面中去挖掘模版等结构信息。这给了我一个启发:要推广一种技术思想,最好的途径是把它包装在用户最需要的一种应用中。用户是在使用这种他们所需要的应用中,才无意识地使用到了这种技术。其实,这种思想是独立于各种应用领域的。例如,早就认识到,我们纵横研究所的输入法技术的推广,必须融合在特定的终端产品中。
另外,Semantic Web的现状让我更加有理由坚信推广LaTeX的必要性。如果科技文章都提供LaTeX源码的话,那么text mining就是降低一半难度了。
Web网和社会网
Social computing也越来越热。本次大会收录了12篇论文。一个群体中的个体之间有关系,就可以构成一个网,在网中的计算问题,就可以被认为social computing。计算机网的计算相对比较客观,而由于人的介入,网的计算问题就主观味道起来了。所以,social computing比network computing要广泛得多,也困难得多。这是一个很挑战和很值得做的方向,至少有10年好做。
中国学者的长处和短处
粗粗浏览作者名字,中国名字超过一半!当然,这些中国名字超过一半的不是大陆单位的。细看这些论文,发现一个现象,中国学者擅长做具体的问题,可以做得很好;但是,不擅长提出新问题来做!换句话说,就是针对一个well-defined的问题,中国学者可以调动和学习所有技术手段,做得非常漂亮。绝对是解题高手!但是,提出一个新的领域、在一个新的领域凝练问题、提出问题的能力,明显都是外国人的名字了。这应该是同我们的教育制度有关系。我们都是为了解决一个现成的问题去学习和掌握技能,而老外可能是应该喜欢去掌握技能,因为自然需要而去掌握技能。一旦有了技能后,他就有能力去发现适合这些技能的新问题去解决。我们往往一上来就考虑如何做,而不是做什么!为什么要做!这就从本质上解释了为什么我们的创新能力不足的原因。人家定义问题,我们去做问题,那永远也赶不上人家。这让我想起陈树新教授的一个论点:美国人定义题目,全世界跟着做题目,由SCI来批改成绩。当然,不是说做解题高手不好。有能力成为解题高手后,应该考虑做提问题的高手。
纵观本次大会最大的track:Data mining 22篇论文,Developers 26篇论文。前者中国论文很多,后者相对少;而到了social computing等track,则鲜有中国人名字了。
科研院校所的出路
浏览论文作者单位,三个大户:Microsoft, Google, Yahoo。但是,第一作者大多是高校的研究生,应该是这些高才生在大公司实习期间的工作。这倒是一个培养模式,但这是一种好的培养模式,还是一种取巧的捷径,我还不能判断。我的疑惑是:这些学生如果不在这些大公司的平台上,第一,能否取得论文的水平和结果;第二,同样的水平和结果,能否被大会录用?这些大陆学生论文中,有纯上海交大单位的论文2篇和poster,其他如北大、清华、科技大、哈工大、中山大学为第一作者的论文,第二作者单位都是那些大公司的研究院。其他国际学生也是,如CMU,Cario U, Stanford,等等。其中微软亚洲研究院的成绩相对突出。在微软亚洲研究院的大事记中:“2008年4月,在微软亚洲研究院的大力帮助下,第十七届国际万维网大会在北京召开。这是此项盛会首次在中国大陆举行,微软亚洲研究院取得8篇获选论文的好成绩。”原来WWW2008在北京举办,还有微软的功劳。
我相信这些大公司的研究院的学术水平是高的,但是,这样被几个大公司dominate的会议论文,我不认为是好事。学术研究的主体应该是科研院校,因为这样的团体更加客观、自由,在选题、方法、平台、结果等各个学术层面都比较不含偏见和隐含的定式。当然,我一点也没有意思隐射说这些大公司的成果就不具备优秀学术成果的要素。但至少,多样性应该是学术基础特征之一,这个多样性也应该包含成果单位的多样性。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 10:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社