kinglongguo的个人博客分享 http://blog.sciencenet.cn/u/kinglongguo

博文

计算社会科学(Computational Social Science)workshop

已有 3312 次阅读 2014-3-16 11:51 |系统分类:科研笔记| UIUC, 计算社会科学

不得不说国外的学术氛围和环境好啊!一天的workshop不光听到了非常有意思的研究报告,还免费提供早餐,午餐,点心,咖啡。我简单介绍一下这个workshop的情况,并指出一些进一步学习和研究的资源。这个workshop本身的定位也是教大家有什么(what),而不是具体怎么做(how)。

这个workshop是由我们学校的几个院系和研究中心共同举办的,旨在给研究生提供计算社会学所提供的新的研究方法和工具,当然注册名额有限。主要的赞助机构有(机构名称翻译未必准确):人文、艺术、社会科学计算研究所(Institutefor Computing in the Humanities, Arts and Social Sciences, I-CHASS),学术共同体(ScholarlyCommons),文理学院(Collegeof Liberal Arts & Sciences),传播学院(Department of Communication),图书情报学院(GraduateSchool of Library and Information Science),国家超级计算机应用中心(National Centerfor Supercomputing Applications)。

这些机构中其他几个重要的研究中心或实验室(提供相关的计算社会学的资源)有:ATLAS-AppliedTechnologies for Learning in the Arts and SciencesBeckmanCenterCenter for Informatics Research In Science and Scholarship (CIRSS)Champaign-UrbanaCommunity Fab LabCline Center for DemocracyCyberGISCenterExtremeScience and Engineering Discovery Environment (XSEDE)HathiTrust Research Center (HTRC)Image and Spatial Analysis Group ofNCSA (ISDA)

I-CHASS网站给出了workshop的日程,主要有5个主题的报告:数据准备、文本分析、网络分析、地理信息系统、机器学习。

1)第一个报告来自学校图书馆的图书馆员。我特地注意了一下两个报告人的职务名称:一个叫Numeric &Spatial Data Librarian,另一个叫English & Digital Humanity Librarian。不知道国内图书馆有没有这么高大上的职务名称。这两个人的报告发挥了图书馆员的特长,主要给出了有哪些我们可以使用的数据,包括公共的和私有的,以及一些简单的数据处理工具。我不太熟悉的数据集有:WellcomeLibraryOpenCntextAmericanfactfinderICPSR (社会科学数据)。我比较熟悉的是具有全文本的数据集(可以做文本挖掘):HathiTrustJSTOR等。另外如果你研究中需要某些数据集,可以要求图书馆购买,如Penn Linguistics Data Consortium。另外她们还给出了一些数据预处理的工具:Google refinepythonROxygenXMLLexos等。在这个网站上可以看到更全的相关数据和工具的列表。

2)第二个报告来自英语系。第一个报告人介绍了文本分析在其领域的一般应用,他认为简单的用词来表征文本的模型(bag ofwords)事实上可以给我们提供很多的应用。复杂的自然语言处理工具似乎在人文社科领域还没有得到非常多的应用。他提供了一些词频分析的工具:voyanttoolstheprogramming historianMALLETRPython等。也提供了一些自然语言处理工具:ApacheOpenNLPNLTKPython),StanfordCoreNLPJava)。第二个报告人介绍了利用LDALatentDirichlet Allocation)进行Topic Modeling的研究,举了几个案例,没有全听明白。可以做Topic Modeling的工具有:MALLETJava),GensimPython),TopicmodelsRpackage),Googlecode等等。

3)第三个报告来自图书情报研究生院。由于是我们系的老师,所以她关于网络分析的报告我基本都听过了。不过,她的presentation和互动技能实在是棒啊!!全场的吸引力牢牢被她抓住,包括我!她的研究综合了文本挖掘、自然语言处理、社会网络分析以及一些社会科学的理论和模型,确实是非常有趣。她的团队开发的Context工具可以做语义网络分析。把她的主页放在这里,有兴趣的可以仔细研究一下。

4)第四个报告来自地理信息系统。展示了很多地理信息可视化的应用和地理空间大数据的项目。不过我不感兴趣,印度人的报告讲得更是无趣,直接无视之~有兴趣的可以参看他们网站的项目。

5)第五个报告来自传播系。主题居然是机器学习哦。传播学背景真不该来讲机器学习的因为hold不住观众的提问啊!不过这个报告就是Weka的演示而已,作为一个文科学者,我觉得已经讲得很好了!重点在于使用机器学习和研究机器学习是两码事。研究者AndyPilny,给出他的主页,上面有Weka展示的资料。

 

总结一下,UIUC在计算社会科学研究方面确实有优势:(1)跨学科研究和交流的传统及氛围非常好。(2)超级计算中心有强大的计算资源可以支撑海量数据的并行计算。(3)强大的图书情报系统,图书馆和图书情报学院都很强大!在科研支持和服务方面很完善。

 




http://blog.sciencenet.cn/blog-605015-776428.html

上一篇:iConference 2014参会感悟
下一篇:美国博士生年度检查

2 章成志 强涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-3-2 04:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部