视觉理解---语言理解的初步(111020)
闵应骅
大家都承认,自然语言理解是信息领域一大难题,但非常重要。既有理论意义,又有实用价值。但是,从何入手呢?最近看到CACM上介绍美国DAPAR的一个课题,叫Mind's Eye,可翻译成“心理眼”。就是说,根据视频能够看出图中物体的动作。如下图所示,首先是两个人,中间有一幅画,而且两人相对,似乎是在传递这张画。根据这张画,可以理解出来,右边的人正在给左边的人这张画。所以,列出了"GIVE",这就是视觉理解。
视觉理解有什么用?DAPAR是军事部门,当然首先要考虑它在军事上有什么用。在战场上,根据各种传感器、摄像机、雷达所得到的图像,就可以得知敌军或我军的行动。这当然至关重要。在民用方面,用处也很大,譬如商店里对商品畅销程度的观察、不轨行为的监察等等。而在理论方面讲,视觉理解可以认为是自然语言理解的一个初步,计算智能要从对语言的理解开始。我国的信息安全很受重视,但是靠敏感词匹配出现很多问题。该堵截的没能堵截,而不该堵截的反而大量被堵截了。问题就出在机器无法理解内容。不管是文字内容,或者视频内容,机器都无法自动理解。
这难题怎么做?首先是对象识别。你得根据图像,识别出对象来,譬如一个人、一副画、一张桌子、一支枪等等。然后是动作。DAPAR对这课题要求识别48个动词,譬如“approach”,“fly”,“walk”等。我觉得,这样的课题还是很值得研究的。不知道,国内在这方面是否已经有所进展,或者已有安排。
https://blog.sciencenet.cn/blog-290937-499043.html
上一篇:
家(111020)下一篇:
测试的尴尬(111024)