mashutian的个人博客分享 http://blog.sciencenet.cn/u/mashutian

博文

NLPCC-ICCPOL2016参会总结

已有 8522 次阅读 2016-12-11 17:18 |系统分类:科研笔记

2016年的122日至6日,NLPCC-ICCPOL2016http://tcci.ccf.org.cn/conference/2016/)在云南昆明召开,本次会议全称是The 5th Conference on Natural Language Processing and Chinese Computing & The 24th International Conference on Computer Processing of Oriental Languages,首先,自然语言处理与中文计算会议(简称NLPCC)是由中国计算机学会(CCF)主办的CCF中文信息技术专业委员会年度学术会议。NLPCC专注于自然语言处理及中文计算领域的研究和应用创新,致力于推动该领域学术界和工业界的交流,成为覆盖全国、具有国际影响力的学术交流平台。NLPCC已经成功举办四届,即NLPCC 2012(北京),NLPCC 2013(重庆),NLPCC 2014(深圳),NLPCC 2015(南昌)。今年该会议首次和ICCPOL会议一起举行。ICCPOLChinese and Oriental Languages Society举办,近期的有Korea(2001),Shenyang, China (2003), Singapore (2006) ,Hong Kong (2009)Redwood City, California (2010)。本次大会共收到有效投稿335篇,全文录用论文61篇(13篇为测评任务文章),录用率为18.2%;录用Poster论文40篇(17篇为测评任务文章),录用率为11.9%;录用Student Workshop论文10篇,录用率为29.4%。之前和教研组的同学一起参加了会议测评比赛中的中文词语相似度计算部分,投稿被收录为海报,因而参加了该会议中5号和6号两天的议程。

近年来,中文自然语言处理在金融界、工业界和教育界的各种应用中成为非常重要的技术,随着互联网和移动设备的快速发展和应用,人机交互、大数据处理、社会化分析、商务分析和在线教育等领域正面临智能应用和大数据的挑战。NLPCC 2016以“自然语言理解和智能应用”为主题,聚焦于Language ComputingMulti-Lingual AccessNLP Data Science/Text MiningMachine Learning for NLPKnowledge Graph/IE/QANLP for social networkInformation RetrievalConversational Bot/Summarization/Discourse 以及 Applications of Language Computing等领域,组织一系列学术活动,包括特邀报告、论文报告、ADL/TutorialsWorkshopsPanel、技术评测、工业展示等多项活动。其中,NLPCC 2016邀请到Bin Yu教授(加利福尼亚大学)、Jacob Devlin 博士(微软研究院)和Haizhou Li 教授(新加坡国立)和 Huan Liu教授(亚利桑那州立大学)为大会作特邀报告。工业展示以问答系统,机器人聊天为主,看到了搜狗以及百度等企业。本次会议我主要听取了特邀报告,技术测评以及部分论文报告。下面是主要的一些总结。

特邀报告部分:

第一个报告由加利福尼亚大学的Bin Yu教授给出,Bin Yu教授用三个projectsInterpreting a movie reconstruction model Transfer learning: artifical neurons meet real V4 neurons What predicts partisanship and tone of TV ads)为大家讲述了在数据科学中的三条准则,predictability stability computability,主要是将stability准则应用到机器学习的项目中。第一个电影重构中利用了人大脑的功能性MRI信号,为了让数据interpretability具有stability,提出Estimation Stability with Cross Validation。第二个project利用CNN+回归模型进行迁移学习,使用两种回归模型(RidgeLasso),两层特征,为了避免model hacking,同样的将stability准则使用进来,在进行预测时,只interpret stable features。第三个project是对政治电视广告进行政党和其意向的预测模型的介绍,同样对模型中featurestability进行测量。详细可以看http://www.stat.berkeley.edu/~binyu/Site/Welcome.html。最后是Bin Yu老师给的几个建议:1.Reseach is about the process not the goal. 2.One writes a paper when one has something worthwhile to share. 3.Publication is not the goal of research.

第二个报告是由新加坡国立大学的Haizhou Li教授给出,题目是Evaluation of Mandarin Chinese Spoken byNon-Native Speaker of European Origin(老外学中文),从题目就可以看出这是一个比较有趣的研究,文章(http://www.sciencedirect.com/science/article/pii/S0167639315300753)。作者通过分析欧洲人汉语拼音的发音音频,来看老外学中文时,对什么样的发音会更好的掌握,什么样的发音无法说出来。

第三个报告来自微软研究院的研究员Devlin,作了题为“A practical guide to neural machine translation”。报告首先针对神经机器翻译的历史遗迹近几年的发展(Deeper Models--8 layersSub-word RepresentationBack Translation/Self TrainingCoverage Mechanisms)给了大致介绍。报告的第二大部分就是从工程上提高大规模RNN系统的性能的技术技巧,分别从训练以及InferenceDeployment/Runtime)两个角度进行介绍。

最后一个报告来自亚利桑那州立大学的Huan Liu教授,题目为“Evaluation Dilemmas in Social Media Research”。报告从三个Dilemmas进行拓展,分别是Understanding the understandingSample Data DilemmaWhen-to-stop Dilemma。第一个Understanding the understanding,讲的是我们该如何去理解机器学习中跑出来的结果,作者以LDA为例,如何对主题模型跑出来的结果进行解答,或者什么样的主题词是好的主题词,可以来表示该主题,基于MP,作者提出了MPCTModel Precision Choose Two)就是从主题模型生成的某个主题的词语中选出两个非该主题的词语,该理论假设如果一个主题是好的即连续的,那么很难从这个主题中找到第二个词语是不属于该主题的。第二个Sample Data Dilemma旨在解决样本数据是否具有代表性的问题,作者利用Firehose来判断利用Streaming API得到的数据是否Biased。第三个When-to-stop Dilemma指的是我们在采集数据的时候什么时候停止才算合适,这里利用网站用户转移案例来进行解答,就是当数据可以给我们Pattern的时候数据采集就可以结束了。最后刘欢教授介绍了一些资源以及书籍,提出了将来更多NLP方面的挑战比如如何用自动评价替代crowdsourceing评价,如何去预测一个事件的影响,预测未来等等。

技术测评

本次技术测评有四块内容,分别是实体识别、新闻自动生成、微博语料分词以及中文词语相似度计算。因为我们参加的是相似度计算的测评,所以主要听了和中文相似度计算,比赛第一名和第二名的参赛队伍分别作了报告。第一名的队伍来自山西大学,主要是结合了六种计算词语相似度的策略,非别是基于HownetWord2Vec、语义词典(大词林、同义词词林和反义词)和Chinese Framenethttp://sccfn.sxu.edu.cn/portal-en/home.aspx)。深度学习语料是12.6G的百度百科语料。反义词词典作用是校准两个词语的相似度计算,比如词语互为反义词,则相似度应该偏小。第二名的参赛队伍来自大连理工大学,主要是结合Word2vec和同义词词林以及一些小的改进措施来进行相似度的计算,比如如果两个词语出现在同一个句子中,那么就以这样的句子作为输出,做LSTM,用句子的形式来增强词语上下文信息。另外,还计算了web-jaccard web-overlap web-dice web-pmi以及拼音-similaritysequence-similarity pattern-similarity。对于可以翻译成英文的单词,对其英文也求了相似度来辅助计算。深度学习时使用的语料资源比较广泛,分别是NewsXiesoDataTangWiki

Student Workshop

5号的下午一点半到三点半有一个学生的panel环节,这个是NLPCC会议上第一次为学生组织的panel。本次panel主要由两个部分组成,一个是由清华大学的刘洋给出的How to write an NLP paper,再一个是学术界和工业界的几个大牛为大家做的一些问题解答。这里主要对如何写好NLP文章,或者说如何写好学术论文罗列一些刘洋老师的建议:首先,信息为表、逻辑为骨,思想为心。我们可以通过在首页放置一个图或者表,让读者一目了然我们所做的工作。如果表达不清楚,尽量多给一些例子来阐释我们的方法。改文章可以隔个几天再改,每次都能发现新的问题。最后,写论文的本质是分享思想,呈现信息,信息的呈献需要符合读者的认知惯性,全心全意为读者服务,降低阅读难度。细节决定成败,不要本末倒置,创新至上,技法为辅。大牛分享部分,主要请到了微软亚洲研究院的周明、百度的吕雅娟、阿里巴巴的郎君、中科院的宗成庆教授,清华大学的刘洋和哈尔滨工业大学的秦兵。首先对于研究生,不管是学术界还是工业界都需要具备扎实的基础知识、足够的动手能力和学习、跟踪最新技术的能力。同样的,除了数学能力与编程能力,其实表达能力和沟通能力也非常重要。试着把NLP技术用在其他的领域上,构建NLP+的时代。

本次会议收获还算多,见到各式大牛很高兴,要努力的路还很长很长。




https://blog.sciencenet.cn/blog-1497049-1020062.html

上一篇:ASIST2016参会总结
下一篇:优秀的科研人员
收藏 IP: 219.230.114.*| 热度|

1 章成志

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 06:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部