最近遇到几个有来头的企业,中国的美国的都有,谈到大数据的话题。说如果往后看五年到十年,什么项目值得去做。
我说,如果有胆识有资源有平台,与其花那么多钱东一榔头西一棒头的遍地开花,上那么多项目,摸石头过河,把个大企业个个都整得像风投和暴发户一样,不如重拳出击做几个大项目。
问:什么项目?
答:知识图谱啊。
不能因为知识图谱臭大街了,被人谈得耳朵起茧子了,就忽略了其大项目的本质。你不是大企业吗,你不是随着科技东风一路跃上来了吗,你有钱,有人才,有资源,但有点迷失,拿不准为今后10年20年的长治久安,应该做什么技术准备。风险太大的咱不说了,太性感时髦的如 VR 咱也不论了,你做知识图谱,保你有后劲,征服世界也不无可能。
怎么讲?
因为技术已经成熟,这是个靠谱的事儿,现在需要的就是钱和资源,需要的是特大的平台,几乎无限的存贮,n个 farms 的 servers,还有 NLU or deep parsing (自然语言理解、深度分析)。
我说,信息时代到来以后,大数据来得比我们想象的快,结果是不仅普罗百姓迷失在信息海洋里,就是我们IT业内人士也常在大数据中挣扎沉浮,不时呛水。
于是第一场革命来临:搜索引擎。有了搜索,我们至少不至于完全沉没在数据海洋中,我们有一个简陋的关键词工具可以勉强对付大数据的惊涛骇浪。至少我可以通过一个线索去检索信息。但无论你怎么搜索,你永远是在信息海洋中一个点一个点地出击。这很像我们在无边黑夜的荒郊野外,手握一把小手电筒。世界一片茫然,每一束光只会划过世界的一角。这也好比盲人摸象,看到的永远是大象的一个侧面,或者是耳朵,或者是大腿。整个大象依然隐藏在语言的森林深处,不见天日。
知识图谱不同。知识图谱是把信息组织起来,构成一个天罗地网,然后你可以置身其内。你不是面对信息,而是被信息环绕。这就是知识图谱可以引发的第二个革命。
记得20年前第一次在温哥华看360度环绕立体电影,那个震撼!那个电影片段描述的是一个世纪前的某个欧洲城市广场的场景。Wow 突然间,我置身于一个比VR还虚拟的现实之中,身边有老式马车、金发女郎、绅士、骑士穿梭,真是穿越历史,如临其境啊。
知识图谱就是准备了这样的一个信息网络,它可以把分散的信息抽取挖掘成网360度地呈现给你,环绕着你。你目光指向哪里,信息就聚焦在哪里。这种聚焦丝毫不影响背景信息的 accessibility,因为一切都在一网之中。只要你的聚焦点转移,环绕着的信息就会动态旋转,原来的焦点成为背景,新的焦点成为关注对象。信息随着用户旋转、环绕,这是何等的景像。关键是,它又是如此的可行。
人生其实蛮可怜,满打满算活到90吧,古人就更惨,活不过70。前信息时代,无论是读书,还是寻访高人,都是非常费力的事儿。运气好的话,在你人生的某一天,你撞大运了,发现了你苦苦追求的信息线索,大部分人一辈子都等不到那一刻,所以才有,朝闻道夕死可矣的感叹。
现如今,信息不愁了,但鱼龙混杂,更可怕的是数据之大,可以淹死牛。作为信息消费者,比起古人,我们一辈子可以接触的信息是上了好几个台阶了,原来要占一书架的百科全书变得点击可及,wiki 召之即来。但是我们都知道这种对信息、知识和情报的接触远没达到最优化。我们浪费时间在我们不需要的信息上,我们有限的生命只有一个不大的部分是与自己最喜欢、最惬意、最有启迪和收获的信息发生交互。这一切的主因之一就是信息虽然随处可见,泛滥成灾,但终究是一盘散沙。关键词索引不过是把这些沙粒登记在册而已。
就说文本信息,各种书籍、笔记、社会媒体都在那里,但仍然是原生态,以字符串的形式在语言丛林自生自灭,没有结构化,没有语义表达,更谈不上关联和整合。关键词检索可以临时把这些信息的一个小的子集串起来,但无法改变整个信息的散沙性质。
什么是知识图谱?知识图谱就是事先把一盘散沙的信息早早串起来成为相互关联的联络图。成为图谱的过程理所当然地包含了语义化的过程,也包含了语义的浓缩和融合(fusion)。这就彻底改变了信息的形态和存在方式。如果我们把一盘散沙的互联网或公共信息的一个精选的子集结构化图谱化了,那是怎样一个功德无量的基础设施建设。
https://blog.sciencenet.cn/blog-362400-975697.html
上一篇:
秘书之紧要,姑妄信之下一篇:
【deep parsing:“对医闹和对大夫使用暴力者,应该依法严惩"】