|
《AIGC“尖峰系列”丨李维博士:人类语言“通天塔”建成,ChatGPT的辉煌与挑战》
中,我们分享了李维博士关于ChatGPT对于人类和机器交互的意义,以及其背后LLM(Large Language Model)语言大模型是如何炼成的等话题。
本篇文章我们将分享李维博士对于“ChatGPT让AI生态重新洗牌”“语言大模型(LLM)的生态和应用”等话题的独到观点,以下为演讲内容精选。
01
经历ChatGPT海啸之后
AI生态面临洗礼和洗牌
ChatGPT海啸引发的直接影响就是,NLP生态面临全面洗礼或洗牌,每一个现存的NLP产品服务或赛道都要在LLM参照系下重新审视。
一开始我们内部AI老友热议ChatGPT的时候,大家首先思考的是,ChatGPT怎么和搜索技术结合起来,它能颠覆搜索吗?
搜索是可追踪的,返回的每条结果都有记录,谈不上信息融合。ChatGPT是不可追踪的,长于信息融合:ChatGPT本质上不存在抄袭的可能性,它给你吐出来的每句话,都是自己消化之后的语言。可见,传统搜索与ChatGPT是两个完全不同的处理方式,各有优缺点。
搜索是信息服务之王,无处不在,有自己的巨头(谷歌,还有中国的百度)和非常稳定的商业模式。自从Web1.0时代搜索崛起以来,搜索的形态和模式基本没有改变,二十多年了。其实,多年来一直不断有新技术和创业者企图挑战搜索,风险投资界也一直关注可能成为“next Google”的潜在的搜索颠覆者,但搜索的地位一直固若金汤。但这一次有所不同,微软携ChatGPT的独家代码授权,大刀阔斧高调发布所谓“new Bing”。躺着赚钱的谷歌不得不紧急动员,正面迎战。一场搜索+LLM的大戏正在上演,像个活话剧,告诉我们虽然融合两项技术还有很多困难需要克服,但大势所趋,重塑搜索新生态势在必行。
除了搜索,那些被打磨得很圆的定向信息产品和服务,现在全部面临被重新审视和洗礼的宿命,包括聊天、功能对话、文法纠错、机器翻译、文摘、知识问答等等,这些方面的代表作品(Siri、小冰、Gramnarly等)以前曾有的技术护栏,一下子被降低了,真好像大水冲了龙王庙。
NLP龙王庙中,虽然不少产品由于多年的打磨以及用户的惰性,还不至于面临灭顶之灾,有的还可能存续很长时间,毕竟都在走下坡的路。这是通用AI对于传统AI的划时代胜利。是我们以前不敢相信的,曾经那么地怀疑通用路线,就等着看鼓吹AGI人的笑话,谁想到人家不笑则已,一笑倾城,甚至“倾国倾球”,所向披靡。
看看13年前苹果就发布的Siri。13年比深度学习革命黄金十年的历史还要长,但搞到现在Siri才刚刚推出两轮或者三轮的对话能力。现在来了个ChatGPT降维打击,苹果怎么办?肯定只有拥抱LLM。亚马逊的风云产品Alexa也是一样,也打磨了好几年了,积累了那么多的用户数据。虽然它在边边角磨得很圆,不可能马上被取代,但依然会面临技术上的调整。
再者是大家常见的电商客服,众所周知,无论是阿里、还是京东的在线售后客服都打磨得很圆了。因为售后服务的问题相对比较集中,问题集不大,在积累了足够数据以后,用户体验就慢慢好起来了。但客服不仅仅局限于售后的问题答复,当客户提出的问题超越了预期的问题集的时候,目前客服常常显得“人工智障”,无论理解和回应都捉襟见肘。面对ChatGPT的问答超能力和多轮对话的丝滑性,怎么办?除了拥抱它,没有别的出路。
在ChatGPT之前,小冰算是把多轮聊天推到了极致,据报道有人痴迷于与她聊天,聊一个晚上还意犹未尽。它打造具有人格化的形象,可以与人做情感上的交流。在前ChatGPT时代,小冰是聊天的绝对天花板,多轮交互的能力把对手远远抛在后面。谁料想半路杀出个程咬金,ChatGPT出来后,小冰的地位就显得非常尴尬。ChatGPT可不是为了闲聊设计的,chat只是它为了达到多任务的一个桥梁,本质上是人机接口,聊天只是它的副产品,即便如此,通用大模型还是实现了降维横扫定向产品的效果。在ChatGPT的丝滑度和通用性面前,一个人格化的聊天机器人跟它不在一个层次上。除了去拥抱它,仍别无他法。
在国外,怎么修改作文的拼写、语法错误这一块,用户体验做得最好,唯一活下来站稳市场的只有Grammarly,有上亿用户了。现在它的地位也极为尴尬,因为同样的辅助写作,ChatGPT也是拿手好戏。长远一点来看,Grammarly的选择也终将如此,要么去拥抱ChatGPT,要么就走向末路。
谷歌MT是机器翻译领域的代表,国内的有道、搜狗和百度也是用的神经机器翻译,但同属神经路线的ChatGPT出来以后,仍然是一种降维打击。用ChatGPT去做机器翻译,译文更加地道而且多样化。生成大模型的随机本性使得每次翻译出来的结果都有所不同,你可以拿同一个文本不断的试它,然后挑其中一个你最满意的。专项机器翻译系统显然面临如何拥抱LLM的问题。
最后谈谈教育。ChatGPT大模型降维碾压所有的教育产品,是很显然的。在教育赛道,搞生态产品应用的人,都需要在大模型的框架下重新审视一遍怎样拥抱这个LLM新时代。教育本身是跟语言打交道的,无论文理。虽然现在的大模型理工科能力不怎么强,但这个知识短板应该很快就会得到不同程度的弥补。ChatGPT必然对教育带来颠覆,同时也为教育现代化提供了一个最大的机遇。语言学习与电脑编程教育就不用说了,ChatGPT本身就是一个语言大模型。虽然目前它的编程还不到专业工程师的水平,但是常用的代码形式已经学得很好了,至少它能辅助你的编程,实际上,GPT赋能的Co-pilot已经成为越来越多码农的辅助工具了。
往后退一步,我们同时也面临着一个巨大的风险,比如说假新闻。如果你希望吹捧一家公司,你可以让ChatGPT生成出五花八门的软文来,讲得头头是道。那些大众点评将来也会被真假莫辨的评论所掩盖,因为制造假新闻的成本趋近于零。如果没有很好的防范措施,这一切就会把人类置于真假莫辨的世界之中。我们现在一直在讲它的好处,LLM怎样赋能新生态,相信在新生态下,今后的五到十年一定会出现新的阿里、百度等等,这是从发展的角度看技术生态的大转变。但我们面对的LLM滥用的危险同样巨大,人类准备好了吗?显然还没有。当然,这是另一个话题,我们这里就点到为止。
02
大模型:万众创业的浪潮正在到来
以ChatGPT为巅峰的LLM好比核弹,有了它,还有更多的产品形态和赛道等待创业者开拓和落地。
关于这个话题,我们需要特别强调ChatGPT带来的前所未有的创业条件:ChatGPT本身已经成为一个产品的试验场,它就是一个门槛无限低、人人可玩的playground(游乐园)。门槛低是因为前面提到的人机接口的范式改变(paradigm shift)。AI历史上第一次,机器开始迁就人,而不是人迁就机器。是人类语言,而不是计算机代码成为人机交互的工具,这个改变对于NLP新生态大爆发的意义,怎么强调也不过分。实际上,这是为“万众创业”提供了条件。
AI创过业的人应该都有这个体会。创业团队要有成功的机会,最基本的一条是产品老总与技术老总能够密切配合和沟通。产品老总凭着自己的市场直觉和对于客户需求的了解,努力寻找技术转化为服务的最佳市场切入角度,形成产品的设计方案。这个设计方案的可行性需要技术老总来验证和背书。然而,很多时候,由于不同的专业背景和知识结构,产品老总与技术老总鸡同鸭讲的情况也不罕见,一旦出现这种情况,这个创业公司基本上注定没戏。
ChatGPT根本上杜绝了鸡同鸭讲的问题。以前只有技术老总和码农可以验证一个方案的可行性,现在好了,产品老总/CXO、工程技术人员、数据分析员、用户这些不同背景和专长的人,都有一个统一的平台ChatGPT,可以交流产品的创意。大家可以在上面去做模拟的服务。不仅是人机之间,而且人类之间的交流障碍都被克服了。这个东西的发生,就是一个产品大爆发和万众创业的先机条件。
在美国,有好几百家初创公司,现在跟着大模型去做,你上游的大模型还没有完全理顺,他们在下游做的东西就是正在进行时了。还有无数的普通大众,不断的在网上现身说法,告诉大家如何两三个小时就能利用ChatGPT赚到5000块钱,这一类分享越来越多,这意味着草根群众的创业积极性被调动起来了。每个人似乎都可以利用这个机会去找到一个创业视角。归纳总结这些草根的创意,也可能找到可以流程化规模化的满足市场需求的信息服务的新赛道。
ChatGPT这样的大模型最终是一种操作系统级别的存在,每一个与AI有关的,特别是语言和知识有关的信息产品和服务,都离不开它。当年英特尔主导的时候,那个著名的logo是Intel Inside,将来就是Chat-Inside,这还不够准确,应该叫Chat-In&Out。怎么讲?ChatGPT这样的大模型赋能产品的时候,它既是服务员也是大厨,服务员可以跟你接单子,对话交互,了解需求,同时,它还自己去做工,满足你的信息需求,交付也还是它。既有表又有里,既用到它的语言天才,也要用它的知识技能。
这就是我说的在未来的五年可能是最大发展的一个新生态形式,叫做LLM专家坐台,它或许会打开了无数的创业大门。基本的服务形态就是各行各业的在线信息服务,不管是在线教育、在线律师、在线顾问、在线金融、在线旅游,都是奔着大幅度提高服务的效率去的。有了ChatGPT之后,你只需要雇一个专家,来代替以前需要10个专家甚至100个专家才能应对的任务,最后迎来的就是生产力大爆发。
至此,应用生态很清晰了,也靠谱。原则就是对结果要专家最后把关(human judge as final filter)。这是最基本的设置,当然也不排除专家对于输入做提示词的调配,以便激发LLM回应更好的结果。
对几乎每一个场景应用,都有一个打造专家工作台(“坐台”)的任务。下游创业沿着这个思路去,有无数切入市场的机会,包括补充现有产品或服务的不足,例如在线教育的每一个细分场景,还有在线医生,在线律师,在线金融咨询,等等,也包括去开拓以前不敢想或没想到的业务场景。这是看得见的即将发生的生态形态的大变革,或重新洗牌,提供的是高效专家建议(expert-in-loop services)。
说到坐台,国内电商大厂都曾经打造过有相当规模的客服坐台,那是在用户需求和满意度无法用全自动方案满足,更无法用全人工应对的压力下出台的。现在有了LLM,继承这种形态推广到所有在线服务领域的条件已经成熟。这件事所能带来的生产率大爆发,超出想象。
“Human as judge”的设计理念在近几年的低代码平台(例如RPA平台、parser-enabed信息抽取平台等)已经验证了其有效性和有效率性。我的最新几个专利就专门讲的这个过程(human as judge to replace human as coder),但这是说的低代码快速开发环境,这个human虽然不必要手工写代码,但还是要熟悉软件开发的流程,例如单元测试、回归测试和debug等等,不是仅仅就做个judge。这里说的是全新的形态,human只需要做judge即可完成服务。现在完全有可能打造针对各种细分赛道或场景的在线信息服务“坐台”。具体说,专家的作用只是在最终go or no-go 的当口,以他的知识和经验做出判定。做裁判比做运动员,效率要高太多了。
值得强调的是,这次ChatGPT横空出世带来的新鲜事儿是,ChatGPT既是后台也坐前台。这就好比找对象娶媳妇,通常都是漂亮的见识短,能干的不漂亮。突然来了一位既“万能”又漂亮的,这无法不激发无数追求者的想象极限。我们信息产业的创业者就是ChatGPT的追求者。上得厅堂下得厨房,说的就是ChatGPT,这是因为chat只是ChatGPT的表,本质是人机接口,而能够完成NLP各种任务才是它的里子。有表有里,就可以围绕它建立下游生态的产品或服务。英特尔时代,电脑产品的品牌广告记得是Intel inside,今后的新生态应该叫chat in&out,指的就是LLM赋能的新生态,不仅赋能人机交互的表面,同等重要的,或者更重要的(看具体落地服务的性质了),是也赋能产品服务的内涵,只是要让专家最后把个关。在这种形态下,专家也还是隐身在台后的。就是说,活交给它做,出面交付也还是它,只是后面安插一个专家督导和裁决而已。再打个比方,LLM既是服务员也是大厨,只是出餐前需要一个经理过一下目,为服务质量把关,也承担责任(例如在线医生、在线律师、在线咨询师等)。
在这样的生态下,今后5年会是在线服务的大爆发时期。赶巧的是,三年疫情也极大推动了在线服务的草根意识(awarenss),帮助养成了用户的在线习惯,培育了市场。例如我个人疫情前从来不用外卖的apps,也不用在线医生,可是现在二者都用了,比以前自己到餐馆点外卖,为个伤风感冒自己去预约诊所,不知道方便了多少,再也不想回到以前的低效率线下服务了。天时地利,借着这个东风,新生态不可能没有机会。
怎样建造坐台?既然已经LLM in&out了,听上去好像这个坐台谁都可以建,每个坐台配上专家,明天就可以在线开业服务了,那还有创业者什么事儿?当然不是这么简单。这是因为ChatGPT这样的LLM作为工作引擎(work horse),显示出各种专业知识的潜力,但这种潜力却是漏洞百出、有内伤的。这些内伤前面论过,按照现在的路线是不可根治的。就是说,表面光,里子并不扎实,结果不可靠,甚至会要人命的。坐台的建设就是要试图解决这个问题:如何加强内功,使得其在线服务,仅仅需要expert的流程化介入,而不是专家的生产性投入(例如RPA)。要的是坐台部署以后output一端的结果审核(go/no-go及校订post-editing),这都是在线的介入,而不是离线的调教(fine tune)。离线调教是坐台建设者的任务,这就开始有点渐入新生态的深水区了,其中有些路线图是蛮清晰的,有些是可以预见不久会解决的,还有较少的一些点,目前不够清晰,还需要探索和进一步验证。
细看一下这里的主要问题在哪里,有哪些可能的突破点和解决方案呢?首先,论专业知识的广度,LLM很厉害。没办法,人家记忆力强,肚子大,消化的材料多,这些都超出了专家,你可以用一个领域的专有术语去试试就知道了,LLM对任何一个很偏很狭窄的主题都会有自己的消化总结,成套成套的,可能细处有错漏,但在面面俱到方面碾压专家。为什么这一点也很重要,因为LLM弥补了人类包括专家的缺陷,用软件的话说,人类precision(精度)有余,recall(召回)不足;而LLM正相反,precision不足,recall有余。LLM可以把可能遗漏的东西,从大数据的黑洞翻上来,随时提到人类认知的雷达上。因此,坐台建设的重中之重就是要克服LLM的precision瓶颈。
我们并不企图彻底解决这个问题:话说回来,如果彻底解决了,就没有人类什么事儿了,前景很诡异,不论。我们是要把精度提高到这样的程度,其结果不至于严重影响坐台的在线专家的工作效率。LLM如果用一堆垃圾轰炸专家肯定是不行的。只要LLM输出的结果有1/4可以达到手工专家自己调研所能达到的水平,这个坐台的效率就得到了保障,这个在线服务就可能站得住。因为专家不过就是4个go/no-go的裁决而已,由于这4个结果的最优解的出场是随机的,对于专家的实际工作体验,大约也就是每看两个结果,就可以放行一个,GO!这不是负担,也不会降低在线服务的效率和竞争性。1/4是一个容错性很大的预期,现在的求精方案达到这个门槛,总体是具有可行性的。正因为有了这个总体具有可行性的基本判断,才可以结论说:LLM新生态下的创业大门的确是打开了。
https://new.qq.com/rain/a/20230310A01FH200
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 01:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社