前两周,斯坦福NLP教授大牛在家举行号称年度的 NLP BBQ 派对。
没想到湾区与这行有关的同仁如此之多:他 发出邀请500+,到场的有小 200 人
大概全世界也找不到一个地儿,有这么多同行如此集中吧。
聊起来,我说我是做 sentiment 的,结果发现有一群人也声称做 sentiments,真地这么热啊
遇到斯坦福出来的一位女士,说现在做 sentiments 好爽啊,以前她在研究所的时候,想做个 sentiment 的实验,找材料那个费劲,现在客户 tag 好的数据(surveys)源源不断而来,感觉那个痛快。她是做机器学习的。我就提到,褒贬分类(classification)不难,而且也提供不了真正有价值的情报(actionable insights)。 毕竟是聪明人,她马上接到,那是,光 classification 不行,还要做 clustering,与 sentiment classification 结合起来做,才可以发现真正有意思的情报。
殊途同归啊,同道人也。路不同,道同,感受同。做大数据,建大系统,怎一个爽字了得。上周把整个成语词典加进系统去,比炎夏吃西瓜还透心。这一周,又把董老师《知网(HowNet)》六万词条的200多语义类别整合进了系统(这只是知网的一个部分,其他部分等有空慢慢消化),一下子感觉底气特别足:这么多资源在手,爱怎么玩怎么玩,痛快如彼,乐不思蜀啊,当然,这几天晚上睡眠严重不足,一直在测试新的资源。
也遇到一个看上去有些轻狂的白人小伙子,大谈自己的 sentiment 分类的体会:说大家都说这 sentiment 分类不难,难的是 domain-independent 的应用。因为用到的数据多是domain specific 的,譬如电影评价(movie review),结果训练出来的模型只在那个 domain 管用,一出 domain,质量直线下降。其实呢,他故意卖了个关子,停了片刻,然后说,其实一点儿也不难。
因为任何文本中的情感措辞,既有非常 domain specific 的 instances ,也有很多 domain independent 的说法(譬如,good 就是 good,无论哪个 domain 它都是正面评价)。要想做一个 domain-independent 的系统,只要能把 domain-dependent 的东东剔除出模型即可。他做出了这样的系统,效果非常好。
道理当然是对的。前提是,分类对象是一个相对大的文本单位,而不是语句或者微博这样的小单位。单位大了,东方不亮西方亮,才有底气把domain相关的部分排除出去。
主人准备的BBQ食材,不知道有机构赞助否。地点离开乔布斯家不远,黄金地带。说我们只要带饮料就好了。我就带了三瓶假葡萄酒(fruit cider)。
只见大牌教授半驼着背自己在忙着倒垃圾袋 ,几个后学跟着他帮忙。
女主人手持糕点,四处招呼,多数人还是在院子里面聊天,没穿夹克有些冷。
话说回来,不是斯坦福大牌教授,也不好这么招呼各路英雄。受邀来客里面有 Google 创始人 。。。 可惜他没来对了,昨天晚上万 圣节乔布斯家开放给公众过节了,不少小孩子和大人都去了,也同时吊唁乔布斯。
可惜我没去,今天才知道
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-628478.html
上一篇:
需要有些靠谱的思考。而“科普”往往是不靠谱。下一篇:
【立委科普:NLP 联络图 (之一)】