博文

【随记：湾区的年度 NLP BBQ 】

已有 5787 次阅读 2012-11-2 09:39 |个人分类:立委科普|系统分类:海外观察| NLP, 斯坦福

前两周，斯坦福NLP教授大牛在家举行号称年度的 NLP BBQ 派对。

没想到湾区与这行有关的同仁如此之多：他发出邀请500+，到场的有小 200 人

大概全世界也找不到一个地儿，有这么多同行如此集中吧。

聊起来，我说我是做 sentiment 的，结果发现有一群人也声称做 sentiments，真地这么热啊

遇到斯坦福出来的一位女士，说现在做 sentiments 好爽啊，以前她在研究所的时候，想做个 sentiment 的实验，找材料那个费劲，现在客户 tag 好的数据（surveys）源源不断而来，感觉那个痛快。她是做机器学习的。我就提到，褒贬分类（classification）不难，而且也提供不了真正有价值的情报（actionable insights）。毕竟是聪明人，她马上接到，那是，光 classification 不行，还要做 clustering，与 sentiment classification 结合起来做，才可以发现真正有意思的情报。

殊途同归啊，同道人也。路不同，道同，感受同。做大数据，建大系统，怎一个爽字了得。上周把整个成语词典加进系统去，比炎夏吃西瓜还透心。这一周，又把董老师《知网（HowNet）》六万词条的200多语义类别整合进了系统（这只是知网的一个部分，其他部分等有空慢慢消化），一下子感觉底气特别足：这么多资源在手，爱怎么玩怎么玩，痛快如彼，乐不思蜀啊，当然，这几天晚上睡眠严重不足，一直在测试新的资源。

也遇到一个看上去有些轻狂的白人小伙子，大谈自己的 sentiment 分类的体会：说大家都说这 sentiment 分类不难，难的是 domain-independent 的应用。因为用到的数据多是domain specific 的，譬如电影评价（movie review），结果训练出来的模型只在那个 domain 管用，一出 domain，质量直线下降。其实呢，他故意卖了个关子，停了片刻，然后说，其实一点儿也不难。

因为任何文本中的情感措辞，既有非常 domain specific 的 instances ，也有很多 domain independent 的说法（譬如，good 就是 good，无论哪个 domain 它都是正面评价）。要想做一个 domain-independent 的系统，只要能把 domain-dependent 的东东剔除出模型即可。他做出了这样的系统，效果非常好。

道理当然是对的。前提是，分类对象是一个相对大的文本单位，而不是语句或者微博这样的小单位。单位大了，东方不亮西方亮，才有底气把domain相关的部分排除出去。

主人准备的BBQ食材，不知道有机构赞助否。地点离开乔布斯家不远，黄金地带。说我们只要带饮料就好了。我就带了三瓶假葡萄酒（fruit cider）。

只见大牌教授半驼着背自己在忙着倒垃圾袋，几个后学跟着他帮忙。

女主人手持糕点，四处招呼，多数人还是在院子里面聊天，没穿夹克有些冷。

话说回来，不是斯坦福大牌教授，也不好这么招呼各路英雄。受邀来客里面有 Google 创始人。。。可惜他没来

对了，昨天晚上万圣节乔布斯家开放给公众过节了，不少小孩子和大人都去了，也同时吊唁乔布斯。

可惜我没去，今天才知道

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-628478.html

上一篇：需要有些靠谱的思考。而“科普”往往是不靠谱。
下一篇：【立委科普：NLP 联络图（之一）】

收藏 IP: 192.168.0.*| 热度|

当前推荐数：3 推荐人：武夷山 杨正瓴 陈熹

该博文允许注册用户评论请点击登录评论 (1 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

李维

扫一扫，分享此博文

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

【随记：湾区的年度 NLP BBQ 】

当前推荐数：3 推荐人：武夷山 杨正瓴 陈熹

该博文允许注册用户评论请点击登录评论 (1 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

【随记：湾区的年度 NLP BBQ 】

当前推荐数：3 推荐人： 武夷山 杨正瓴 陈熹

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：3 推荐人：武夷山杨正瓴陈熹

该博文允许注册用户评论请点击登录评论 (1 个评论)