智商情商网熵田园分享 http://blog.sciencenet.cn/u/Liweigang 数字之美,美于形式,更在内涵。

博文

从词条标签谈网络百科的挑战和机遇 精选

已有 7772 次阅读 2013-5-13 08:38 |个人分类:社交网络|系统分类:科研笔记| 大数据, 百科, 维基百科, 百度百科, 词条标签

   网络百科是互联网的一项奇迹,已经成为现代人工作和生活的得力助手。百度百科baike.baidu.com号称全球最大的中文百科全书,在317万多名用户编辑的辛勤工作下,共创619万余词条,在网络公开展示,免费查询。而互动百科依托国际著名的维基百科Wikipedia系统,实现Wiki词条中文翻译或新建,特别是2012年12月其网域名更换为baike.com,在中文网域气势如虹,让人侧目。

   由于网络百科产生的机制和历史原因,大部分词条都是由普通网民自发、随意产生的,本博有一段时间热衷于百度百科词条编辑,曾达三级,荣中“举人”。尽管网络百科已为众人接受,但这些词条的规范性和权威性常常被人质疑。仅从技术层面来说,大部分词条并没完善的标签体系,也就是说,一些原有词条在新的词条形成时,并没有被适当引用,显出本知识库内词条间的超级链接优势。

   WISE 2013大数据竞赛的一个项目是基于维基百科链接(Wikilinks)数据集,在新编词条内发现和标出已有的合适词条链接。本次竞赛,将给参赛者上千个英语文本文件,和标签关键词列表(取自维基链接数据集300万不同维基百科词条的网址- Wikipedia URL)。活动要求参赛者开发一自动标签系统,在给定的测试文本上进行综合的词汇和语意分析,使用维基百科词条的网址,标出已有的相关词条(的超级链接)来。六月初对参赛团队结果的评价,将以标出的词条与给定文本意义的贴切准确度来定。

   这项工作的意义就在于词条标签自动化,这对维基百科是有意义的,因为近760万词条的标签化工作量十分繁重, 算得上是大数据问题。对于网络相关科技工作者来说,是一项挑战和机遇。尽管业界在自然语言处理问题(NaturalLanguage Processing-NLP)取得可观成就,不少文本词义和语意分析方法和工具都可应用,但实际效果与期望相差尚远。本文以这次竞赛中一段英文文本处理范例,用Google翻译和百度翻译的质量缺陷,来说明对自然语言文本自动化标签的难度。

   1. 英文范文

   下面是用于WISE 2013 维基百科词条分析的一段英文短文,内容是关于不懂汉语的人到中国大城市以外的地方去旅游,应该做哪些准备。短文的小标题是笔者另加的。

                            What should you do for a trip through China?

   Getting readyfor a trip through China, especially planning anything outside major citieslike Shanghai and Nanjing, is unlike planning a trip elsewhere. The usualsources--guidebooks, Web searches, user review sites--either don't provide theinformation you need or are in Chinese. Compared with, say, Southeast Asia,China has not been overrun, and thus well-documented, by independent travelers.

   So what shouldyou do? First, learn how to use Google Translate. It works and is cheap to use,even if you have to turn on international roaming. Second, get a phrase book inwhich key phrases are written out in large-font Chinese characters. (Don'tcount on your Mandarin pronunciation.) Third, learn how to count from 1 to 10on (mostly) one hand as the Chinese do: this is how prices will be relayed you.(Online videos can help.)

   Fourth,familiarize yourself with the English pages of Elong.com and Ctrip.com,China-based online travel agencies, where you can find endless English-languagelistings for cheap Chinese hotels. I usually paid about $20 a night.

   2. 英文短文的中文翻译

   为深刻理解文本分析的方法和目标,实现自动标签。笔者先把此短文字翻译成中文。如下:

                          到中国旅行,需要做哪些准备?

    要准备到中国旅游,特别是要到上海、南京等主要城市以外的地方旅游,可不同于常规性旅游。因为(在这样地方,)一般的资源 - 旅游指南,网络搜索以及用户评论网站 - 要么没提供你所需要的信息,要么是用中文写的。与到东南亚相比,去中国的自助游还不盛行,少有可资参考的旅客游记。

    鉴于此况,你需要做哪些准备?首先,要学会如何使用谷歌翻译。谷歌翻译的确好用且经济实惠, 只需打开手机的国际漫游功能,就可用其自助了。第二,准备一个双语手册,上面列出常用短语,且用大而凸显的汉字标出(可别指望你的普通话发音。)第三,学习象(大多数)中国人那样,能用一只手从1连续数到10。这可是讨价还价的法宝(相关的在线视频对此非常有益。)

    第四,不妨熟悉Elong.comCtrip.com等中国人开办的在线旅行社的英文网页。在那里你可以找到无数廉价的中国酒店。我通常选择每晚约20美元的酒店。


   3.
英文短文的Google翻译和百度翻译

   尽管此短文较简单,但其中China出现三次,语意基本上一样,都是“中国”的意思。Chinese,出现四次。第一个Chinese表示“中文”意思,第二个表示“中文的”意思。第三个表示“中国人”的意思, 第四个表示“中国的”意思。对于熟悉中文的人士来说,区别这四个Chinese,应该不是很难,但使用计算机来识辨和翻译,具有相当大的难度。

   要开发一套英文百科词条自动标签系统,第一步最好先了解自然语言处理工具的发展现状。我们不妨看看网络科技标杆企业的产品: Google翻译和百度翻译工具的文本处理水平。从中,不仅能看出机器翻译所面对的困难,也能看出参加此项竞赛所面临的挑战。

   3.1 Google 翻译工具对上面英文短文的翻译

   下面的中文是用 Google Translate工具翻译的。很明显,这个译文并没有区分开Chinese在四个地方的不同意思:

                       通过中国之旅,你应该怎么做呢?

    通过中国之旅的准备,尤其是上海和南京等主要城市之外的任何规划,不像别处规划行程。通常来源 - 指南,网络搜索,用户评论网站 - 要么不提供你需要的信息,或者是在中国。说,东南亚相比,中国并没有被侵占,因此,良好的记录,由独立的旅客。

    所以,你应该怎么做?首先,学习如何使用谷歌翻译。它的工作原理是使用便宜,即使你有开启国际漫游。其次,关键短语一个短语书在中国大字体字符都写了出来。(不要指望你的普通话发音。)三,学习如何从1数到10(大部分),一方面为中国做:这是怎样的价格将转达你。 (在线视频可以提供帮助。)

   第四,熟悉英文网页Elong.com Ctrip.com,基于中国的网上旅行社,在这里你可以找到无尽的英语房源廉价中国酒店。我通常支付约20美元一晚。

 

   3.2 百度翻译对上面英文短文的翻译

   下面的中文是用百度翻译工具翻译的。这个译文虽然也没有区分开文中四处Chinese的不同汉语意思,但总体上讲比Google好得不少,一是错误明显较少,二是把艺龙和携程等专有词汇翻译出来了。

                          通过中国旅行,你做什么?

    准备通过中国旅行计划,尤其是像上海和南京主要城市以外什么,不像其他地方旅行计划。通常的来源——指南,网络搜索,用户评论网站——要么不提供你所需要的或是中国的信息。相比之下,说,南洋,中国没有溢出,从而证实,由独立的旅行者。

   所以你应该做什么?第一,学习如何使用谷歌翻译。它是使用便宜,即使你不得不对国际漫游。第二,得到一个短语中,关键短语写在大字体的汉字。(别指望你的普通话发音。)第三,学会从1数到10对(主要是)一方面为中国做的:这是怎样的价格将告诉你。(在线视频可以帮助。)

   第四,熟悉的英文网页和携程艺龙,中国的在线旅行社,在这里你可以找到无穷无尽的英语语言的上市,中国廉价酒店。我通常支付约20美元一个晚上。

 

   4. 本文小结

   上面以Google翻译和百度翻译的英译汉为例,解释参加WISE 2013大数据竞赛的维基百科项目,开发英文百科词条自动标签系统的难度。

   后续博文将继续介绍对上述文本范例的人工标签和本团队开发的自动标签结果,敬请博友关注。

   科学网李维博主对自然语言处理问题研究颇有造诣,在理论和实践等方面发表不少有影响力的文章,有兴趣的读者可以访问他的博客:blog.sciencenet.cn/u/liwei999

   感谢WISE 2013 大数据竞赛组织者提供的词汇标签英文范例。亦感谢Google翻译和百度翻译对本文范例的中文翻译。




https://blog.sciencenet.cn/blog-652078-689397.html

上一篇:网络研究新气象---第九届网络科学论坛侧记
下一篇:【微博】 温馨提醒科网“手机秀”大侠,切莫无意间为商家做广告
收藏 IP: 164.41.210.*| 热度|

19 许培扬 傅贵 应行仁 张忆文 赵美娣 刘洋 王守业 翟自洋 戴德昌 陆俊茜 王鹰 武夷山 庄世宇 李汝资 林涛 戎可 唐朝生 王晓光 xqhuang

该博文允许注册用户评论 请点击登录 评论 (14 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 05:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部