现有的万维网上的信息主要是设计给具有自然语言理解能力的人来阅读的,这就使得利用计算机不能很有效地来自动处理万维网上的信息,因为它要求这些计算机要起码具备有最基本的自然语言理解和处理的能力。现有计算机科学以及人工智能的研究,特别是自然语言的理解和处理能力的研究表明,人类在这方面的研究仍处于初级阶段。在这一领域,人类还有很长的路要走。而另一方面,我们所看到的是万维网上的信息在急剧地增长,这可以从现有的搜索引擎所能提供的信息量及其信息质量的问题上清楚看出来。随便选一个搜索引擎,输入我们所要搜索的关键词,我们得到的通常是数以万计,甚至是百万计的网页信息。虽然在这其中,排在前列的一些条目通常被假定为是接近我们需要的,但更多的是不太相关或者是无关的信息,这里主要有以下问题:
1) 词匹配而不是语义匹配:搜索引擎只判断其关键词是否在该网页上出现,而不考虑这些词可能有多义性。它们在不同的上下文中可能有不同的含义。如“人工”一词可能指的是“人为生成的”如“人工智能”,又可能指的是“人力资源”如“人工开销”,这就要求使用者在输入关键词时应知道这些可能的区别,选择最准确的而不能引起歧义的关键词。这个问题表面上看来,似乎是搜索者本身知识不足引起的,不是现有万维网信息组织系统的错。但我们都知道,万维网是一个开发系统,它上面的海量信息,使用者是不可能有一个准确视图的,而且把搜索质量的提高加在使用者的知识能力的提高上,本身就同网络信息自动处理的目标相背离。
2) 简单的关键词关系而不是准确的概念关系:通过输入多个关键词,可以提高搜索的准确度,但多个关键词之间只能用简单的布尔关系来描述,如“与”和“或”的关系。如我们要搜索研究华人的文章,我们可能就选择关键词“华人研究”或“华人”与“研究”这些关键词来搜索,这在搜索引擎上通常被处理成这些关键词的逻辑和的关系,而实际上我们试图检索的是关于“华人”的“研究”这样一个特定的概念关系。
3) 断词问题:即如何判定这些字/词是与它相邻的上面的字/词,还是下面的字/词,结合成为一个组成部分,还是自成独立部分的。在中文中,这个问题变得更加重要,因为中文的词与词之间通常没有空格断开,如使用关键词“化学”,就不应该检出包括“自动化学习”和“机械化学习”等词汇的资源。
现有的搜索引擎所提供的大量信息,使得现有的网络信息搜索和筛选变成一个需要许多个人知识和经验的过程,而且这里大量的信息已使得个人无法有效地进行处理。这从另一方面也说明了,就算人工智能的研究能有重大突破,能够制造出具有人一样智能的计算机,它也将面临像人类今天所面临的同样的问题,仍然不能有效地处理这些信息。所以,人类必然要寻找新的思路,来解决有关问题。
摘自 马张华,黄智生(著)《网络信息资源组织》(第八章 本体技术与语义网),北京大学出版社,2007.
https://blog.sciencenet.cn/blog-211188-212646.html
下一篇:
一本语义知识管理新书