《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【泥沙龙笔记:自然语言技术落地,主餐还是副食?】

已有 4150 次阅读 2016-5-21 13:23 |个人分类:立委科普|系统分类:观点评述| NLP, 产品, 落地

洪: @wei 你对idibon咋看?烧了7M,俩founders都是Stanford phd毕业的computational linguists

(要关门大吉了:Natural language processing startup Idibon nears shutdown ...

我最近觉得王孟秋转向还是挺值得注意的。他学了十来年nlp,在斯坦福取得博士,然后转去做无人机,初步成果令人刮目相看

我: idibon 我没有follow,刚去看了一下,觉得他们来迟了,offering 没有特色,离落地产品还远,做中间件的话不容易开辟市场。所以这类公司最佳出路是被某个巨头看中收购最好。后面有斯坦福的光环,本来这条路是可能的。不知道为啥ai这么热的时候,没被人不傻钱多的啥巨头,譬如雅虎,看中呢?说是主攻sentiment,正打算offer NE,听上去是浅层的 component technology,NLP component technology 不好做,这一点自从 Inxight 衰亡就已经很清楚了。

洪: 嗯

我: Inxight 那条线,PARC,辗转下来的也有少数活下来的,但都很费劲。一个是做多语言的 Basis,重点是 浅层 morphology;另一个是从 Basis 拉出来的一帮人做的  Lexalytics, 重点放在 sentiment。这两路做中间件的勉强活下来了,但是也看不到起飞的迹象。

洪: 在北京时和在清华访问的UIC的刘兵教授切磋过几次,他是做sentimental的pioneer。对这方面创业也没啥兴趣了。

熊: 他以前美国创业过

洪: 是,我知道的

我: 根本原因之一是我以前提到过的,NLP 这个技术还没成熟到拿着第三方的中间件就可以自如开发产品的阶段。这个体会很深,如果真想充分利用NLP做产品,千万要内部开发,而不要用第三方。内部开发的确要多花一些时间,似乎不符合防止 reinventing wheels 的古训,但是,没有办法,NLP 里面有很大的部分属于内部协调,system internal,架构中组件接口、features 调控,等等,第三方的东西除非是完全的 open source 拿过来可以 internalized 消化到系统内部,否则是很不好用的。commercial offering 简直就是毒药。因为这种 commercial 中间件为了自保,一般都做成类似黑箱子一样,给个有限的接口,不让你进去 configure,它那边还不断升级,闹得你的系统鸡犬不宁。可你这边的痛点他又不能切身体验,又不让你进去 customize,所以只要你不是赶紧凑出一个项目去骗钱,而是真地用NLP去开发产品,有一个长期的打算,你就不应该用任何第三方的 commercial offering,不管它吹嘘质量有多好。

Nick: @wei @洪  你们哥俩能不能罗列三五个nlp主要events。我准备定理证明和五代机完后,再来个nlp大八卦。ai里,nlp我最缺乏第一手材料。@白 白老也给指点下哈

我: 你咋那么大劲头啊 @Nick 那次听说你听了四五十小时的AI档案录音,我就为你的AI大无畏精神所深深感动。

NLP 的前一半的历史就是 MT 历史,MT 历史被人津津乐道的事件和掌故的总结,有不少不同侧面的描述。NLP 的后一半历史(最近30年)就是狼吃羊的历史,羊吃绝种了,就是狼与狼之间恶斗;极少跑出去逃生幸存下来的羊可以写一部 Jungle Book,怎么被野化为兽。

洪: 我想想,然后以我的理解,总结一下,nlp如何从ai里分离出来,然后最近又被吸收回去。天下大势,分久必合,合久必分

施: NLP 是赚钱的漂亮包装,属于装饰品。不是说不重要,是有一些致命的缺陷。或者说是配料和小菜,不是主食。

Nick: 为啥捏 主食是啥

我: 历史不断重复,NLP有好些漂亮包装的套话或NLP神话,耳朵都听得起茧子了,我睡着了都可以做 NLP marketing,施总是 real life 的体会,玩 text 大数据,到底玩的是NLP还是其他?

我吃NLP的饭,本来应该为NLP摇旗呐喊,但如果从现实来说,那又是另一个故事。这个故事可能与施总有某种呼应。当然不如施总的平台大,故事有可能是类似的。先听听施总高见,完了说这边的故事。

施: NLP做成工具不行,如分词,海量和计算所原来都有很好的系统,但那不可能卖出大钱。Parser 也一样。NLP最大的问题按照四川话来说就是“恼火”或者“脑壳疼”,-不准确。如我们通过聚类的技术来发现热点,但是用户一旦发现一条似是而非的结果就会挑战。从用户的角度,他不能忍受高技术的不准确性(用户是SB但他是上帝)。所以我觉得不要独立去宣传NLP的特性,还是从应用的角度出发,另外,要从赚钱的角度,NLP赚钱太难了,所以现在我们都不重点去宣传这类特性了。目前我觉得实体抽取对解决具体问题是有用的,特别是在所谓大数据情境下。情感分析貌似没有产生太多的商业价值。当然从研究的角度,NLP值得研究,需要科学家大力研究;但从商业的角度,尚没有发现很好的变现途径。

陈: 高

我: 施总没论主食。论了NLP不是主食,以及用户是SB+上帝。米国的故事也有类似的结论,客户是SB,不傻的少数。

施: 我也在找主食呢

我:话说做大数据舆情的三年前有二三十家,一路厮杀,剩下了四家,其他的自生自灭了。这四家都各有自己的招儿诳住客户,features方面有很多就是互相模仿。因为一共就四家啊,大家都互相盯着,不管哪家弄出个玩意儿来,不久其他的就也弄出类似的 features 出来,结果是产品从客户角度来看,是越做越像。

我们是以NLP精度为卖点之一,谁叫咱NLP牛呢,但又不能完全靠这个。虽然我们的NLP精度绝对领先(大约20个百分点的优势),有第三方的独立评测以及很多反馈为证,但是客户是 SB 啊。跟 customer support 老总聊,他说客户中的多数是纯粹的 SB,靠所谓质量取胜对他们无感,工具是不是方便好用才是他们最容易上钩的地方。但是的确有少部分客户,成为死忠客户,不为别的,就为精准的数据质量。一般来说这样的客户是资深的分析好手,一辈子用过无数的工具,也善于通过不同的数据去把情报转化为 value,这时候,他就可以真正感受到 deep parsing 支持下的精准舆情以及其他情报为他的工作省去了多少麻烦。MD,要是客户有一半如此聪明,NLP不就大卖了吗?可惜不是。

陈: 同意施总,NLP做出解决问题的应用或产品是关键。才不管底层技术如何。底层是为了忽悠或支持之上产品的美妙。alphago,战胜了人类,是关键。至于技术是DL,还是A*,还是什么,完全看开发者怎么说。

查: 估计也是多种技术的混合

刘: 这也许是商业的本性

陈: 同理与pagerank对于Google 搜索的贡献。是很重要,但只有pr也是不行的。

我: 客户当中的确有一些具体案例(譬如某快餐店的某次产品投放,全过程大数据跟踪监测调整投放的过程带来的好处),证明用了我们的产品与此前没用产品,它省了很多钱了。尽管我们的价钱其实很贵(比 competitions 贵),但这钱他们花得心甘情愿。问题在能有这种直接感受的不是客户的多数。而且有这种感受的客户,也并不能很容易地传授经验,怎样的使用才产生价值。结果大部分客户,也还是糊里糊涂地用,懵懵懂懂感觉一些好处,但也说不出所以然来。最后的情形就是,对于财富500强,他们有特别的预算要做 market 和 consumer study,这个 study 在这个信息爆炸的年代,必须要用某一家的大数据解决方案才说得过去,于是大家都去抢这些客户。超出 500 强以后,这个市场就难了。

陈: 这么说,不是通用产品,需要定制或是咨询项目

我: 可是我觉得目前的市场成熟程度,500 强能养四家舆情方案提供商大概够呛。估计再厮杀两年,大约可以养得起两家吧,除非发展其他的产品方向,扩大市场规模。

这里面的根本一条是,你的 NLP 再强再精准,也不直接等于价值,精准只是缩短了到达价值的路程,最终还是 domain specislists 的火眼金睛才看到情报的价值。

大家都谈大数据情报怎么转化成可以测量的 ROI,你帮助人省钱了,人才愿意花钱,这个道理再简单不过。但这个转化很难,虽然不是无望。

施: 可度量的价值,这个最重要最难。

我: 如果你精准,你就给这些火眼金睛省力了。没有精准,情报混杂在垃圾里面,容易让人失去耐心和注意力,所以精准NLP还是用后劲的,就是落地为价值的效率因人而异,这就不好了。产品要是能开发成一个傻子产品,只要用就能感觉到价值,那最理想了。可惜NLP目前在情报应用方面的探索,还看不到直接转化成傻子产品的前景。这是一路,就是纯粹靠NLP挖情报卖钱,决定于情报的市场。基本是 B2B 的,只有 B,才能用得起昂贵的NLP大数据产品。B2C产品是另一路,那就是用 NLP 提升用户的粘性,最终通过广告变现。

白: 情报领域没有好,只有差与更差。再挑剔的用户也改变不了这个事实


【相关】

【把酒话桑麻,MT 产品落地史话】

《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》


泥沙龙笔记:铿锵三人行


泥沙龙笔记:《Ruminations on NLP and Communism》


一袋子词的主流方法面对社交媒体捉襟见肘,结构分析是必由之路


《新智元:通用的机器人都是闹着玩的,有用的都是 domain 的》

【立委科普:从产业角度说说NLP这个行当】

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故


泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败


泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索


【新智元笔记:中文自动分析杂谈】

【置顶:立委科学网博客NLP博文一览(定期更新版)】  






https://blog.sciencenet.cn/blog-362400-978770.html

上一篇:【李白对话录:你波你的波,我粒我的粒】
下一篇:【泥沙龙笔记:强人工智能的伟哥测试】
收藏 IP: 192.168.0.*| 热度|

2 郑小康 陆泽橼

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 08:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部