智商情商网熵田园分享 http://blog.sciencenet.cn/u/Liweigang 数字之美,美于形式,更在内涵。

博文

文档自动标签:一场全社会跨行业的数据掘金 精选

已有 6202 次阅读 2013-7-22 07:23 |个人分类:社交网络|系统分类:论文交流| 大数据, 北方电力公司, 词义分析, 网络百科, 文本标签

(李伟钢 方令)作为百科全书的“升级版”,网络百科工具可以称得上是互联网时代的一个伟大产物,遇到看不懂的新词汇?先百科一下吧! 百度百科号称全球最大的中文百科全书,在330万多名用户编辑的辛勤工作下,共创建了625万余词条。而互动百科依托国际著名的维基百科系统,实现Wiki词条中文翻译或新建,特别是201212月其网域名更换为baike.com,在中文网域亦是气势不凡。

尽管如此,现有网络百科仍有较大的改进空间,其主要体现在以下两个方面:除了词条本身的规范性和权威性需要精细化外,从技术层面来说,已在线发表的百科词库中,大部分词条内的相关重要词汇没有形成动态链接,需要进一步展示引申描述;还有,在人工产生新的词条时,百科管理系统词条内链接提示功能有限,编者难以对新文档进行有效标签,因此无法正确有效地引用原有词条。这些问题导致网络百科无法体现出本知识库内词条间的超级链接优势。互动百科目前拥有近767万余词条,形成文本文件的海量数据,如果要重新规范化和正确标签,堪称大数据工程。由此,加强词条链接提示的智能水平、增强语义词汇标签自动化和提高百科系统词条内链接效率,形成“完善的标签体系”已列入网络百科良性发展的议事日程,势在必行。

学术界对于文档自动标签也颇为关注,201310月将在南京召开的国际Web信息系统会议期间将举办的两个大数据竞赛项目中,就有一个是词条标签链接的项目(Entity Linking Track)。其目的是,基于维基百科链接(Wikilinks)数据集,在新编词条内发现和标出已有的合适词条链接。竞赛组织者给参赛者一个标签关键词列表,即含有近3百万不同维基百科词条的网址(Wikipedia URL)清单,以及各类媒体曾经对这些词条的4千万余次的链接记录数据集,要求参赛者开发出一个文档自动标签系统。然后,在预定结束赛期前一周发来8824个英语文本文件,让参赛者对这些测试文本进行综合的词义和语义分析,使用维基百科的标签关键词列表的网址,标出相关词条的超级链接来。

维基竞赛项目的挑战就在于词条标签自动化,这对网络百科是有意义的,因为近千万词条的标签化工作量十分繁重。仅这8824个竞赛英文文档,共有19.2 MB的数据量,计52万余行字,平均每份文档58行字。在人工标签条件下,每个文档平均需要一个小时还多,按照每天工作8小时来算,完成竞赛任务需要一个人工作3年,算上互动百科的大部分词条,人工标签可是百年工程。如果是在计算机软件自动标签条件下,平均每个文档需要一分钟,完成竞赛任务需要一台常用电脑近一周的工作量(每天工作24小时)。这对于网络相关科技工作者来说,是一项挑战和机遇。尽管业界在自然语言处理上已经取得了可观成就,不少文本词义和语义分析方法和工具都可应用,但实际效果仍与期望相差尚远。从Google翻译或百度翻译的中英文互译的质量缺陷,可以体会到人类对自然语言处理的难度。

巴西利亚大学TransLab实验室组织力量参加了这项竞赛活动,成员主要为笔者指导的计算机专业的博士或硕士研究生。在不到两个月的时间里,团队开发出了维基词条自动标签系统,使其具有英文文本词义和语义分析的基本能力。巴西陆军电子战计算中心为团队提供了计算设备的使用权限,包括16台并行计算群,每台计算机速度为2.53GHz,内存为141GB。在此强劲的人力和设备资源支持下,竞赛测试词条的每轮计算时间仍然需要30小时左右。为了验证自动标签的效果,团队随机抽取12个测试文档,进行人工标签,然后与系统自动标签结果进行比较,得到的一些预测性能衡量指标来校正模型,例如:平均正确率约为80.40%,平均召回率约为65.5%,基本上达到预计效果。

有趣的是,在TransLab维基标签团队如火如荼开展竞赛活动的时候,部分选修笔者开设的人工智能课的机电一体化专业的研究生也关注到了这项工作,他们来自总部设在巴西利亚的北方电力总公司Centrais Elétricas do Norte do Brasil S.A. –Eletronorte)。

众所周知,电力工业,特别是拥有众多发电机等大型设备的大型发电站,各项设备价格昂贵,发电、输电和配电的不间断生产是基本要求。因此,对大型水力发电机组和长途输电变压器的日常生产操作和管理维护就变得十分重要。在这个过程中,计算机软件支持下的各种生产和维护系统能够起到十分积极的作用,有效地辅助了生产操作人员的实际工作。而随着岁月的流逝,公司累积了大量的工作日志,衍生出该行业的海量数据。例如,成立于1973年北方电力总公司,管理着4个大型水力发电站,负责对巴西北部9个州包括亚马逊地区2547万居民的工、农业和民用供电。其生产和维护部门的数据库分别累积有17年的历史数据。平均每年有千余各类事故和处理的管理、维修和零配件补充等技术报告,产生百万余重要的电子日志或报告类文档,与此相关的设备、零件、规范、流程和检测等技术参数会像滚雪球般地呈指数增长,基本数据量已达10GB。如果对这些海量数据进行挖掘分析,将极有可能以一种新的方式,协助企业相关部门及时发现潜在故障苗头,减少维护和维修时间,避免因为停机断电等造成的恶劣影响。实际上,这项工作就是从电力工业大数据中挖金掘银,价值极为丰厚。

回到前面的问题:为什么机电一体化专业的研究生会TransLab维基文档的自动标签工作感兴趣?答案很简单——文档的语义分析和标签技术在电力工业上的应用价值是显然易见的。可以想象,结合公司运营程序和数据挖掘技术,整理以往操作与维护的管理记录,建立电力行业的生产和维护的关键词列表和事件因果链接数据库,在线即时检测实际工作日志,会有效防范各类事故发生,加强预防性的维护和修理,提高发电机组和变压器等这些大型设备的工作效率和生命周期。

从百科词条自动标签着手,应用大数据理念和知识挖掘技术来提高电力工业的工作效率,会带来直接和间接的社会、经济和技术效益。进一步放眼其它工业、农业和商贸服务业甚至行政、军事、治安等社会的各行各业,利用工作日志等历史累积文件的信息分析和知识挖掘,对提高生产能力和管理效率,促进社会整体发展,前景十分可观。

相关链接:

       从词条标签谈网络百科的挑战和机遇

http://journal.1000plan.org/FrontContent.aspx?FrontContentID=361



https://blog.sciencenet.cn/blog-652078-710161.html

上一篇:巴西队势如破竹 五战五胜勇夺冠军
下一篇:学期结束,男生真的变成了女生
收藏 IP: 187.7.216.*| 热度|

20 许培扬 李学宽 应行仁 彭思龙 陆俊茜 黄华军 杨海涛 任胜利 陈桂华 庄世宇 刘耀 杨正瓴 翟自洋 曾新林 章成志 苏德辰 武夷山 唐朝生 林涛 rosejump

该博文允许注册用户评论 请点击登录 评论 (14 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 09:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部