|||
盲人摸象的NLP(Natural Language Processing)产品化过程: 一鼓作气,再不衰,三欲飞
作为资深技术人,工程上的NLP技术(以 deep parsing 为核心)其实可以说是胸有成竹,难的是市场切入点。有些做出来很漂亮的系统,后来市场上没站住。现身说法,举近年来亲身经历的NLP产品化过程为例。
我们曾有一个千万美元以上的合同,给 Elsvier (世界上主要的学术出版商,出版各种科技文献、学术资料和论文集)做一个世界上绝无仅有的,本质上是回答 How 问题的问答系统。这个系统的市场起源是这样一种需要,科研人员和产品设计师们在创新的时候,需要查询文献,看前人都做过怎样的工作,可以借鉴。设计要求是,给定任一问题,例如,(how tohandle)tooth decay,或规定任一功能,例如,(howto)increase bone density,这是输入,要求系统从文献中抽取挖掘所有的解决办法(solutions),分门别类呈现给用户。如所周知,how 问题是问答系统中最难回答的问题之一,因为涉及的答案各式各样,比起when、where、who 这样的 factoid questions 难度大得多。可是,我们有deep parsing 支持的信息抽取,较好地解决了这个难题。
系统交货以后,用的人喜欢得不得了,反馈极佳。反正世界上没有一个机器可以回答这么广泛的 how 难题。无论是如何治疗疾病,还是如何泡妞,或者如何成为百万富翁,只要你能想到的问题,我们的机器(产品名叫 illumin8)都可以回答。给你这个世界上讨论过这个问题的所有答案,整合到一起,一目了然。而且是动态呈现,你可以对任何解决方案 drill down最终原始出处和上下文,你也可以进一步找这个方案的因果关系,看得失优劣。对于科学家和产品设计师搜集前人的工作(priorart)是利器。Elsvier里面的负责这块的小团队来访,见到我,都夸这个系统做得好。合作是愉快的。
雷:@wei 这个不就是新的search engine吗?
J:不是search engine,是一类answer, how这一类
是的,特定类型问题的问答系统可以看成是新一代的专项search engine,我们把它叫作 research tool。结果 Elsvier 在其全球用户的系统中用了五六年,去年终结了,合同没有续约。我作为设计者很感伤。
雷:问答系统是se的最高境界
RW: @wei 你要找一个vertical 切入,否则 boiling the ocean.SE 谷歌气数未尽
这么好的技术创新,填补的产品空白,世界上没有第二家系统可以弥补(至少目前如此)。可是经历了六年还是归于失败。Elsevier 在它的全球用户使用这么些年,但是发现还是无法拿它盈利。尽管用的人还是喜欢,也还是掐了。
技术好不行,不熟悉市场和 business model, 也还是死路。
J: 对Google now,微软cortana,百度助手都是很好的补充啊
雷: se目前是提供第一轮的结果,人要做第二轮
J: se都有第二轮第三轮了,叫answer和task completion
我们还做过一个vertical,用的是同样的技术和NLP引擎, 只是把它移植到医药场景,做了一个 demo 系统,叫 HealthBase,几年前放在网上作为技术展示。展示我们的技术既可以独立于领域,也可以优化于特定领域(外包了很大的医学术语库及其ontology,数据源也集中在所有可以公开查询到的医疗类网页和文献)。做得那叫一个漂亮。
RW:那里的lobby 太强,health care
任何疾病、症状,你都可拿它查询,然后给你把所有的解决方案,药品、配方、手术、专家,全部搜罗来,立等可取地呈现。
J:这么好的东西我们有兴趣。有网站或demo吗?
而且还可以建立病状与诊断的大数据诊断推测,以及药品与副作用可能的因果关系。只要是文献中提到的,就可以抓取整合呈现出来。下图是系统信息抽取的示意。抽取的这些信息存到库里,支持医疗信息的app。
RW:Wei, 到国内做,healthcare, B2C
那个工作 timing 不对,要是隔现在,Obama care、政府的医疗投入等大环境,那就可能飞起来。
当年把 demo,放在网上展示了半年,后来因为有成本考量,就下架了。现在只留下当时系统的几个截屏,可以显示一些基本功能。
除了当时的正面新闻和内部的积极反馈外,网上应该还可以查到一些负面评论,笑话这个系统的。原因是系统上线以后,有一批不速之客,不是拿它查询医学问题,而是拿这个问答系统寻开心,查各种问题(查小布什,查上帝,查如何赚钱,不一而足),结果很庞杂,当然也有似乎偏题的,非常逗乐。业内人士看到这些,应该惊异于这个系统的鲁棒性,本来是优化来帮助医疗类调查和研究的,现在居然可以应对任意问题(因为核心引擎是独立于领域的设计),其实是backoff 到通用的 How 问答系统。
这项创新的结果是,有一家医疗软件的公司,忘记名字了,非常感兴趣,说是美国 80% 医生护士都用他们的系统。他们要把我们的系统融进他们,这样我们就间接有了80% 的医疗市场。
RW:自己直接做,不要通过整合商
最后怎么谈的,怎么崩的,我也没搞清楚。总之是公司没有精力做这些 Vertical 了,我们必须集中做 social 客户这块:品牌舆情的挖掘。这是我们最近的一次创新产品
RW: 还有一个vertical, 就是理财。你是指社交?
如果技术这么牛,要想清楚,就做一个vertical, 而且是2C. 那你就是next-generation "Google "!
对,social 这一块呢,客户情报算是搞定了。用户调查、舆情挖掘可以全自动了,也可以 real time 监控帮助 crisis management。确实有相当的企业用户愿意花高价用它,市场算是站住了。但是能做大到哪一步,还是一个疑问。于是开始考虑新的市场切入点。
RW:还是2B, 没什么意思。这是最大的问题。所以就牵涉到你讲的产品。
我们公司是 2b 的基因,这些老美老总全部是2b出身。市场能有多大呢。这是个问号。
雷:2c是关键,一个领域一个领域的2C
Nick:这话歧意: "我们公司是 2b 的基因"
雷: 哈哈哈哈哈哈哈
嘿嘿嘿嘿嘿
【相关博文】
泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 2015-07-04
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 17:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社