wesleyfyw的个人博客分享 http://blog.sciencenet.cn/u/wesleyfyw

博文

基于数据仓库的集装箱运价信息集成研究

已有 1795 次阅读 2021-4-16 14:55 |系统分类:论文交流

摘要 针对现有集装箱运价指数编制中信息源不足、信息及时性不够等问题设计一套信息集成的模型和方法,为航运指数编制提供实时、海量的真实成交的运价信息,提高指数的效率和能力。提出基于大数据的指数编制思路,以数据仓库模型为目标数据模式,构建面向海量多源异构信息的数据集成模型,设计Web信息获取和集成流程以及增量信息的处理方法,通过具体实证研究检验模型和流程的运行效果。实证结果显示,本文提出的数据模型和信息处理流程能有效实现多源异构信息的集成,支持基于海量数据对的指数编制模式,为全世界各类指数编制的改变提供理论和技术方面的探索,也为数据集成在其他领域的应用提供有益参考。

关键词 集装箱运价指数  信息集成  数据仓库 模型  技术

Container freight information integration research on Based Data Warehouse

Wang ZhanpingFeng Yangwen

School of Information Management, Central China Normal University Wuhan 430079

AbstractThis paper presents a review on current methods of information acquisition in container freight index, and analyzes the main problems and shortcomings of it. To address the gaps such as lack of information source and information timeliness for container freight index. propose new methods of container freight index based on big data, designs a set of oriented container freight index multi-sources heterogeneous information integration model and the Web information gathering and integration process . The model and process can support multi-sources heterogeneous container freight information integration, it given the empirical results and an example of container freight index, the study provide a new methodology for index.

Keywords: container freight indexinformation integrationdata warehouse model technique

 

1引言

近年来,随着世界贸易格局的变化和标准化进程的加快,集装箱船运输方式在国际海运中所占的比重在逐渐增加,集装箱运价的变化也一直受到业内人士的关注,研究国际集装箱运价指数的科学编制体系,及时准确地反映国际集装箱运价波动的程度和趋势,提高集装箱运价预测的能力,成为全球业内人士的共识。按照目前普遍的模式,运价样本信息的采集是按照如下准则来操作的:由指数编制机构指定若干企业或组织作为信息提供者,提供者根据指数编制机构给出的信息标准和要求定期指数编制机构单独报送信息,编制机构先对信息进行预处理,然后按照既定的算法得出周期的航运运价指数[1];现行编制体系理论层面具备科学性,操作性强,所以世界范围内的航运运价指数包括集装箱运价指数广泛采用,但缺陷也长期存在,主要体现在以下两个方面:

1)运价信息属性

目前集装箱运价指数编制所用的运价信息采集自班轮公司和代理机构,且主要来自班轮公司报送运价信息,该运价信息并非自由竞争市场的价格。这正是包括波罗的海交易所在内的诸多航运运价指数编制机构一直致力于找到实际市场价格编制航运运价指数的原因。

2)运价信息的及时性和广泛性

班轮公司报送的运价信息变化周期长,反映集装箱市场变化的及时性不够,在实际操作容易受到人为因素影响运价信息的准确性而且运价信息的来源不够广泛[2]0

互联网和电子商务的浪潮席卷全球,同样也在深深影响着航运业全世界范围内出现了大量航运电子商务平台,这些平台将航运服务资源集装箱船的舱位作为商品,基于互联网实现全流程在线交易;随着这些平台的运营和发展,越来越多的行业用户选择使用在线交易方式代替传统的纸面交易模式这种模式表现出业务信息高度集中、实时性强准确率高以及易于存储、传输和使用优点。本文认为,集装箱运价指数编制信息源完全可以从传统使用采样数据的方法转变到以从事国际集装箱舱位交易电商平台信息化系统沉淀的运价信息为基础,运用信息集成技术整合多个平台系统的运价数据,为集装箱运价指数编制提供实时的、海量的真实成交的运价信息[3]

2常用的信息集成方法

信息集成技术经历三十多年的发展,不同的阶段,针对的信息对象不同,采用技术方法和体系结构也不同。

1)联邦数据库

1980年代,数据集成的对象主要是异构数据库,多采用联邦数据库集成框架和多数据库语言方法集成架构等技术,联邦数据库管理系统通过执行控制和协调来实现对组件数据库中数据集成[4]。前期采用紧密耦合的方式,但由于这种方式太脆弱,后期渐渐采用松散耦合的方式[5]

2)数据仓库

联邦数据库模式对于数据的集成是逻辑上的,随着信息用户对于决策支持的需要,物化方法(Materialized开始出现,最常见的就是数据仓库方法数据仓库是一个面向主题的集成的、相对稳定的、反映历史变化数据集合用于支持管理决策[6]数据仓库的特点主要体现在以下三个方面:实现了分析数据与生产线数据的分离;实现多个异构数据源的集成;数据处理和分析能力强

3)Wrapper-Mediator方法

1990年代随着面向对象和分布式网络技术的发展,针对异构数据库的数据集成研究主要集中在Wrapper-mediator体系结构方面[7]Wrapper-Mediator方法又被称为中间件集成[8]本质上是一种逻辑集成或者模式集成[9]。模式集成方法可以弥补物化方式数据实时性上的一些不足,同时具备在网络延时参与运算的数据规模小的情况下计算速度更快、支持应用系统应用模式经常变化、适用于某些特殊的数据源(如保密数据)等优势。该方法弱点一是对数据源所在的系统产生负担;二是应用系统的效率和结构在很大程度上依赖网络状况。

联邦数据库方法目前已很少被采用,模式集成的方法适用于数据源所在的系统庞大数据更新频率高、目标数据所服务的系统要求数据实时性高数据应用模式不固定的情况,数据仓库的方式适用于数据源分布广网络延时较大、数据应用模式变化不多、应用对于数据的实时要求不高但对系统响应时间要求短情况随着大数据时代的到来硬件成本不断下降以及分布式存储和计算技术的发展,越来越多的基于大数据的应用倾向于使用数据仓库的方式当然也有学者提出了基于上述两种方法的综合方案[10]

3基于数据仓库的运价信息集成模型

3.1运价信息集成模型的基本框架

集装箱运价指数编制的运价信息分布在处于异构环境中的不同航运电商平台系统上所以运价信息必然是异构的,需要找到一种有效的方法,根据集装箱运价指数编制的要求对运价信息进行集成信息的集成不但要遵循完整性针对性和动态性等原则[11]集成后的结果能根据指数编制的模型进行组织序化,能够针对指数分析的需求进一步进行多维度、多粒度融合分析[12]编制集装箱运价指数需要的运价信息是历史数据,根据集装箱海运业务的惯例,数据采集的最高的频率为每日一次即可;为了实现运价指数编制的高效,必须实现对异构信息源的物理集成,通过序化使得结果数据的结构统一,同时为了保证指数结果的可回溯性,必须将运价信息与原业务系统分离,本文设计基于数据仓库方法的信息集成模型如图1

wps10.png


1 基于数据仓库的运价信息集成模型基本框架

 

基本思想是:按照指数编制的需求,定义基于数据仓库的目标数据模式,针对三类异构信息通过连接解析或提取等手段操作信息源,再依照规则库和元数据模型对数据进行映射、抽取、清洗和转换,然后根据目标数据模式定义的格式将数据装载到数据仓库中,作为指数编制和指数服务等应用程序的信息处理对象设置中间数据作为数据装载的写入缓冲。

3.2实现运价信息集成的关键技术

根据图1,基于数据仓库的运价信息集成模型要正常运转,其实现的关键技术有三个方面。

1)定义数据仓库模型

定义多维的有冗余数据模型,方便使用上卷、下钻切片等方法进行多层次多角度的分析,集装箱运价指数编制和分析的雪花模型2这些信息以事实表和维表的方式存放在数据仓库中。

wps2.png

2指数编制和分析雪花模型

 

2)集成异构信息

异构信息的集成首先要建立元数据库规则库。事实表和维表确定元数据库属性,根据指数编制的需求确定属性的值域、格式和描述等内容

在预处理环节,对于不同的信息源采用不同的方法,在本文研究中,运价数据的主要来源是结构化和半结构化信息,非结构化信息主要用作本体库和知识库的完善和扩展;本体主要包含集装箱海运运价相关的概念以及这些概念之间的关系随着信息的不断增加本体库将不断被完善为了提高准确率,本体库的更新过程需要行业专家的人工介入本体库知识库的建立和完善提供概念关系方面的支持

在本文的研究中,知识库采用产生知识表示方法,采用三元组或四元组形式表示,根据概念、关系的不同分别采用(关系、概念1、概念2...)或对象、属性、值)表示形式,如(相等、起运港装货港、POL)出错20GP运价、小于0知识库存放的一条一条的规则,规则之间不能相互调用[13],在本体库知识库的基础上,建设和维护规则库,形成计算机可执行的指令

本文讨论的结构化信息主要针对关系型数据库。通过ODBC原运价数据库建立数据连接基于运价表或其他相关数据表创建本地数据副本也可采用数据库工具或编写脚本将运价信息转换为易于识别的数据模式(报文,同时针对属性设计校验,对存在明显错误的运价数据记录实施过滤,以提高运价数据的使用效率。

本文讨论的半结构化信息特指Web信息。因运价信息分布在互联网的各个平台和系统上,先确定信息资源获取范围,获取后Web信息存储在临时存储区,然后进行解析[14]。对于Html、XMLJson等格式存储在临时存储区的运价信息,可采用两种方式。第一种方式是将文件视为字符流,读取运价文件的同时读取知识库,若文件中有字符内容与知识库相符,采用堆栈技术,根据特殊字符判断属性和内容,并抽取运价内容,读取规则库对属性数据实施转换并插入目标数据仓库,若不相符,则根据特殊字符结合属性和内容推测,并向用户提示人工介入判断抽取或舍弃该部分信息,同时更新知识库第二种方式是采用文档对象模型(DOMXML文件中的运价信息内容解析为文档,读取文档树中的子结点信息即可抽取出运价相关的属性和值这两种方法在实际运用中都可调用开源的API前者解析速度快,占用内存少,但开发较复杂,后者易于实现,但不适合大型文件的操作,也可以采用JDOM方法实现二者的结合。

Web信息获取和集成流程如3所示

 

wps3.png


3 Web信息获取集成流程图

流程简要描述如下:

①根据配置好的任务定向获取运价Web信息,策略为先广度深度直到指定的Web信息源获取完成

②以文件形式存储运价Web信息至临时存储区;

③读取元数据库、转换规则库和知识

④采用相应的方法解析Web信息并抽取需要的运价相关信息以数据仓库的方式存储

⑤错误日志在行业专家的介入下更新知识库和规则库。

3)处理增量信息

必须设置周期触发定时任务获取增量运价信息对于结构化信息,定时任务自动扫描预定的所有数据库,若运价数据库中有Creattime字段,则直接采用时间戳判断增量信息,若无时间戳或无法获取到时间戳字段,则利用数据库主键值判断新增运价信息,对于分布式数据库(如RAC),数据库主键可能产生顺序混乱而导致增量运价数据无法完整采集的情况,则采取数据对比判断的方法根据数据对比的结果调用任务Job),实施增量更新

设原数据库运价表为PTA(Ac1Ac2……Acn)目标数据库运价表为PTB(Bc1Bc3Bc5Bc7)定义:PTA CONN PTB

定义:视图V

Select Ac1,Ac3,Ac5,Ac7from PTA@CONN PTA

When not exist(select Bc1 from PTB when PTA.Ac1=PTB.Bc1定义任务job

Insert into PTB

Select * from V

对于Web信息的增量采集,根据URL的特征采用不同的方法。若URL是动态的,即URL是由“固定值+$Param(参数)构成,不同的运价页面参数不同,则构建1样例所示URL模式表

1 URL模式样例

URL Model

Variable

acompany.com/price

N

$param?(POD,POL)……

Y

运价采集程序读取目标URL,对比URL模式表,如可变化参数部分的内容与目标中已有的URL完全一致,则判断Web为已存在信息,则放弃,反之则判断其为增量运价信息URL是静态的,但运价信息持续更新,则提取homepage或者startpage中输入下拉菜单列表中的内容,针对这些内容进行深度和广度遍历,获取所有运价Web将获取的信息输入已定义好Hash表达式计算得新获取Web信息的Hash值,将结果与目标库中已有的URL的Hash值对比,值相同,则舍弃,反之则判断其为增量运价信息。

非结构化信息通常以文件形式存储在既定的目录中,定时任务扫描文件根目录,按照文件系统的规则确定新文件,只读取和发送新文件

4实证研究

4.1数据来源与处理

使用某市集装箱舱位订舱平台的后台运价数据库信息某几个集装箱舱位订舱网站的Web运价信息对本文提出的信息集成模型进行检验。其中该订舱平台运价数据库(如图4所示)共包含379314条运价信息,包括起运港、中转港、目的港、船公司、货代公司、发布日期、有效(有效期有效期止箱型运价(四种箱型:20GP、40GP、40HC和45HQ)等13属性字段配置Web信息获取任务,从多个网站获取运价信息,各个网站运价信息的属性都不尽相同样例见图2行业专家的协助下建立知识库和转换规则库,经过数据处理之后,利用信息集成模型对这些数据实施抽取转换,最后将数据存储在数据仓库中,集成后的数据仓库样例见图6

wps4.jpg

4某运价数据库截

wps5.jpg

wps6.jpg

wps7.jpg

5电商平台web截图(Freight list from dayinghome.com)

 

 


wps8.jpg 

6集成之后的数据仓库图

 

4.2数据集成的效果

结构化信息、半结构化信息以及非结构化信息按照上述模型进行信息集成,作为集装箱运价指数编制的基础信息,指数编制系统根据实际业务情况执行数据清洗和运算之后,得出运价指数结果,如图7所示指数分析系统从不同的维度和粒度进行数据挖掘,以支撑指数报告等其他服务

 

wps9.jpg 

7**出口集装箱运价指数示例

 

5结语

在针对航运运价指数领域中,大多数学者进行的是航运运价指数编制模型和应用层面的研究,很少涉及用于编制航运运价指数的基础信息来源和信息集成的研究本文大数据背景出发,面向集装箱运价指数编制的需要,设计信息集成模型,探讨原理和实现技术进行了实证研究结果说明将分散在航运电商平台和系统运价通过信息集成作为集装箱运价指数编制的可行性,今后研究的重点在于进一步完善针对半结构和非结构化数据的集成模型和算法,以提高其准确度自动化程度和集成效率。

 

参考文献

[1]周甫宾. 基于EDI的集装箱运价指数生成与技术分析[J]. 中国航海,2006,03:82-86.

[2]Zhao Yifei ,Zhang Dali ,Tatsuo Yanagita .World Conference on Transport Research WCTR 2016 : Container liner freight index based on data from e-booking platforms:Shanghai,10-15 July 2016 

[3]付东方,赵一飞. 集装箱运价指数数据源及算法分析[J]. 大连海事大学学报,2015,03:87-92.

[4]陈海敏. 异构信息集成系统研究[J]. 情报科学,2008,12:1902-1907.

[5]JM SmithPA BernsteinU Dayal. Multibase: integrating heterogeneous distributed database systems... - American Federation of Information Processing Societies: National Computer Conference – 1981;487-499

[6]W.H.Inmon. Building the Data Warehouse .Boston: QED Technical Publishing Group,1992

[7]谷岩,冯华. 利用数据仓库技术解决异构数据库的集成问题[J]. 计算机应用与软件,2005,06:24-26.

[8]Wiederhold G. Mediators in the architecture of future information systems. IEEE Computer . 1992,25(3):38-49

[9]D. Florescu,A. Levy,and A. Mendelzon.Database Techniques for the World Wide Web: A Survey. . 1998 

[10]陈跃国,王京春. 数据集成综述[J]. 计算机科学,2004,05:48-51.

[11]马大川 ,杨红平.信息资源的集成整合研究 [J].中国图书馆学报,2004,(3):36-40.

[12]刘平峰,章佩璐,张军,余文艳. 面向主题的Web信息融合模型[J]. 图书情报工作,2011,08:40-43.

[13]徐宝祥,叶培华. 知识表示的方法研究[J]. 情报科学,2007,05:690-694.

[14]孟小峰. Web信息集成技术研究[J]. 计算机应用与软件,2003,11:32-36,63.

 




https://blog.sciencenet.cn/blog-2496924-1282310.html


下一篇:冯扬文:波罗的海干散货指数(BDI)介绍
收藏 IP: 60.190.36.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-10-20 07:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部