|
引用本文
吴信东, 盛绍静, 蒋婷婷, 卜晨阳, 吴明辉. 从知识图谱到数据中台: 华谱系统. 自动化学报, 2020, 46(10): 2045−2059 doi: 10.16383/j.aas.c200502
Wu Xin-Dong, Sheng Shao-Jing, Jiang Ting-Ting, Bu Chen-Yang, Wu Ming-Hui. Huapu-CP: from knowledge graphs to a data central-platform. Acta Automatica Sinica, 2020, 46(10): 2045−2059 doi: 10.16383/j.aas.c200502
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200502
关键词
家谱建设,数据中台,数据治理,知识图谱
摘要
针对碎片化的各姓氏家谱数据, 华谱系统通过构建家谱知识图谱的数据中台, 能够解决数据孤岛、烟囱式开发等问题. “数据中台”是一个源自国内的新近技术概念, 在华谱系统建设中, 我们通过家谱知识图谱的构建和应用, 对这个概念进行了正式定义. 基于这个定义和对应的7项核心功能, 本文提出一种用于家谱数据分析的数据中台建设架构Huapu-CP (华谱系统), 并通过该架构详细介绍面向家谱领域的数据中台核心技术, 分析数据中台构建的关键问题.
文章导读
家谱数据是典型的碎片化数据, 具有海量、多源、异构、自治等典型的大数据特征. 家谱起源最少可追溯至先秦时代[1], 家谱中不仅记录了族人最基本的世系状况、族人的姓氏源流、族规家训等内容, 还蕴含了丰富的历史、经济等复杂信息, 因此为人类历史、经济和文化研究提供了重要基础, 还为遗传病研究[2]、人类寿命长短分析[3]提供了宝贵资料, 被认为与正史、地方志并列为记录和研究历史的三大基石[4]. 因而, 家谱数据系统的建设不仅需要解决家谱数据的存储问题, 还应该为家谱知识挖掘与推理的研究提供数据支撑, 实现大数据技术与人文社会科学研究的“双赢”[5-6], 为广大民众寻根问祖提供家谱应用支撑.
目前, 家谱数据系统建设还面临许多难题. 1) 数据汇聚困难, 传统的家谱以纸质化家谱为主, 家谱数据类型多样、数据多源异构使得家谱数据电子化仍旧处于手工保存阶段, 需要非常巨大的处理成本和转换成本. 2) 数据融合、治理困难, 多源家谱数据往往具有不确定性和不一致性, 传统数据融合、治理技术在家谱数据中并没有很好的适用性. 3) 如何实现个性化家谱应用, 现有家谱修建网站仍旧停留在家谱数据的存储机制开发上, 存在平台同质化、功能单一化等问题, 未能根据家谱数据需求开发相应的家谱应用如同名人物分析、跨姓氏关联分析等. 为提高跨姓家谱大数据的挖掘和分析利用, 我们从2016年开始, 利用大数据知识工程项目的基础理论和关键技术[7-8], 建设了一个面向所有华人姓氏的家谱系统—华谱系统(https://www.zhonghuapu.com/). 目前, 华谱系统中已有1290万的家谱人物和721个姓氏. 我们应用知识图谱构建和推理技术, 从海量家谱数据采集、汇聚开始, 在数据治理、数据开发、数据资产管理等模块建设过程中辅以“HI” (人类智能)、“AI” (人工智能)和“OI” (组织智能)三者的交互和协同, 创建标准、可复用的家谱数据中台架构.
随着国富民强, 盛世修谱在全国各地广为流行, 我们可收集、存储和处理的家谱数据正在以指数级的方式增长. 海势原理(HACE theorem)指出: 大数据具备海量、异构、分布和分散式控制的自治源、数据间复杂和演化的关联等典型特征[9]. 为解决家谱大数据中数据孤岛、烟囱式开发、数据开发速度慢和数据重复开发等问题, 华谱系统将所有华人姓氏家谱数据当成一项企业, 以“为华夏写谱, 助百姓寻根”为使命, 其数据中台架构旨在提升家谱数据应用开发的敏捷性和数据服务的质量和速度, 进而将家谱数据转化为数据资产, 形成华谱的核心竞争力.
数据中台是近年来源于国内的一个技术概念, 旨在利用数据技术对海量数据进行采集、存储、计算、加工、统一表示, 形成标准后的数据API, 进而提高数据的共享能力. 阿里巴巴、明略科技、百度、网易云等大数据和人工智能公司针对不同行业数据近几年建设了多个具有共享服务能力的平台. 但总体上来说, 数据中台的建设尚处于起步阶段, 还没有统一的数据中台建设标准、规范以及评价指标, 如何建设数据中台正在成为学术界和工业界的一个研究前沿.
本文详细介绍华谱系统作为一个家谱数据中台的定义、功能模块、关键技术、挑战问题以及相应的解决方案. 其数据中台框架具有以下特点:
1) 基于数据的逻辑管理和物理管理, 建设了家谱领域数据管理体系, 提高数据服务效率, 加速数据价值变现过程, 打破了信息之间的屏障.
2) 基于HAO (Human intelligence, artificial intelligence and organizational intelligence)智能体系[10], 采用数据规范、数据清洗等数据治理技术形成了包括家谱人物数据、人物关联数据、社交数据、日志数据等的数据体系, 更好地赋能于华谱系统前台业务.
3) 融合知识图谱技术, 以家谱知识图谱作为数据中台架构的数据底座, 从业务的角度组织数据. 完成传统数据模式无法支持的节点关联分析、社区发现、用户推荐等复杂计算和挖掘任务.
本文第1节对“数据中台”的定义和功能模块进行阐述; 第2节对华谱系统数据管理架构建设和关键技术进行详细描述; 第3节对家谱数据体系建设仍存在的问题进行阐述并对家谱系统建设前景进行展望; 第4节对全文总结.
图 1 Huapu-CP框架图
图 2 物理管理框架图
图 3 数据采集架构图
本文以HAO智能为技术支撑, 结合知识图谱技术等提出并实现了一个家谱数据中台Huapu-CP. 本文首先并给出了数据中台的定义和相应的7项核心功能, 然后以华谱数据中台构建的架构为例, 详细地介绍了家谱数据中台中包含的模块和使用的相关技术.
目前, 关于数据中台建设尚处于起步阶段, 面临着技术不成熟、框架验证标准不一、技术人员缺乏等困难和挑战. 本文的Huapu-CP建设经验, 如果用来构建其他领域的数据中台, 需要根据数据特点和应用需求调整各个模块的具体实现. 例如, 在物流领域的数据中台建设中, 面对数据维度高、数据类型复杂、数据量大、实时数据采集困难等问题, 需要有高性能的数据分析和计算平台, 会给现有数据中台建设的技术带来很大的挑战. 此外, 新一代的数据中台技术, 在融合数据的基础上, 更需要关心是否能够很好地沉淀行业知识. 知识图谱技术相对于传统的二维表使用图描述实体与关系. 这种复杂的图结构更有利于探索数据之间的关联关系、获取知识. 我们将继续研究如何优化本文提出Huapu-CP数据中台框架, 使其不仅适用于家谱数据领域, 力求能够扩展到其他领域的数据中台建设中, 为数据应用服务提供更好的API支撑.
作者简介
吴信东
合肥工业大学特聘教授, IEEE Fellow, AAAS Fellow. 明略科技集团首席科学家、高级副总裁和明略科学院院长, 营销职能国家新一代人工智能开放创新平台负责人. 主要研究方向为数据挖掘, 大数据分析. 知识工程. 本文通信作者. E-mail: xwu@hfut.edu.cn
盛绍静
合肥工业大学计算机与信息学院博士研究生. 主要研究方向为数据挖掘, 知识图谱. E-mail: jssheng@mail.hfut.edu.cn
蒋婷婷
合肥工业大学博士生. 主要研究方向为知识图谱, 知识表示学习, 实体对齐. E-mail: jiangtt@mail.hfut.edu.cn
卜晨阳
合肥工业大学讲师. 2017年获得中国科学技术大学博士学位. 主要研究方向为演化计算及其在知识图谱、教育数据挖掘、电力系统等领域中的应用. E-mail: chenyangbu@hfut.edu.cn
吴明辉
明略科技集团创始人兼首席执行官. 北京大学数学系学士学位、计算机软件与理论硕士学位, 中国公安大学特聘教授. 主要研究方向为人工智能和大数据分析. E-mail: wuminghui@minginglamp.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-8 12:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社