《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【随记:湾区的年度 NLP BBQ 】

已有 5801 次阅读 2012-11-2 09:39 |个人分类:立委科普|系统分类:海外观察| NLP, 斯坦福

前两周,斯坦福NLP教授大牛在家举行号称年度的 NLP BBQ 派对。


没想到湾区与这行有关的同仁如此之多:他 发出邀请500+,到场的有小 200 人

大概全世界也找不到一个地儿,有这么多同行如此集中吧。

聊起来,我说我是做 sentiment 的,结果发现有一群人也声称做 sentiments,真地这么热啊

遇到斯坦福出来的一位女士,说现在做 sentiments 好爽啊,以前她在研究所的时候,想做个 sentiment 的实验,找材料那个费劲,现在客户 tag 好的数据(surveys)源源不断而来,感觉那个痛快。她是做机器学习的。我就提到,褒贬分类(classification)不难,而且也提供不了真正有价值的情报(actionable insights)。 毕竟是聪明人,她马上接到,那是,光 classification 不行,还要做 clustering,与 sentiment classification 结合起来做,才可以发现真正有意思的情报。

殊途同归啊,同道人也。路不同,道同,感受同。做大数据,建大系统,怎一个爽字了得。上周把整个成语词典加进系统去,比炎夏吃西瓜还透心。这一周,又把董老师《知网(HowNet)》六万词条的200多语义类别整合进了系统(这只是知网的一个部分,其他部分等有空慢慢消化),一下子感觉底气特别足:这么多资源在手,爱怎么玩怎么玩,痛快如彼,乐不思蜀啊,当然,这几天晚上睡眠严重不足,一直在测试新的资源。

也遇到一个看上去有些轻狂的白人小伙子,大谈自己的 sentiment 分类的体会:说大家都说这 sentiment 分类不难,难的是 domain-independent 的应用。因为用到的数据多是domain specific 的,譬如电影评价(movie review),结果训练出来的模型只在那个 domain 管用,一出 domain,质量直线下降。其实呢,他故意卖了个关子,停了片刻,然后说,其实一点儿也不难。

因为任何文本中的情感措辞,既有非常 domain specific 的 instances ,也有很多 domain independent 的说法(譬如,good 就是 good,无论哪个 domain 它都是正面评价)。要想做一个 domain-independent 的系统,只要能把 domain-dependent 的东东剔除出模型即可。他做出了这样的系统,效果非常好。

道理当然是对的。前提是,分类对象是一个相对大的文本单位,而不是语句或者微博这样的小单位。单位大了,东方不亮西方亮,才有底气把domain相关的部分排除出去。
 
主人准备的BBQ食材,不知道有机构赞助否。地点离开乔布斯家不远,黄金地带。说我们只要带饮料就好了。我就带了三瓶假葡萄酒(fruit cider)。

只见大牌教授半驼着背自己在忙着倒垃圾袋 ,几个后学跟着他帮忙。

女主人手持糕点,四处招呼,多数人还是在院子里面聊天,没穿夹克有些冷。


话说回来,不是斯坦福大牌教授,也不好这么招呼各路英雄。受邀来客里面有 Google 创始人 。。。 可惜他没来

对了,昨天晚上万 圣节乔布斯家开放给公众过节了,不少小孩子和大人都去了,也同时吊唁乔布斯。

可惜我没去,今天才知道

 



【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-628478.html

上一篇:需要有些靠谱的思考。而“科普”往往是不靠谱。
下一篇:【立委科普:NLP 联络图 (之一)】
收藏 IP: 192.168.0.*| 热度|

3 武夷山 杨正瓴 陈熹

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 18:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部