|||
条件随机场用于信息抽取
随机场(RF)
在概率论中, 由样本空间Ω = {0, 1, ..., G − 1}n 取样构成的随机变量Xi 所组成的S = {X1, ..., Xn}。若对所有的ω∈Ω满足均成立,则称π为一个随机场。(定义没太懂)
马尔可夫随机场(MRF)
马尔可夫随机场对应一个无向图 G = (V, E).无向图上的每一个节点v∈V对应一个随机变量y_v,两个相邻的节点u,v分别对应随机变量y_u,y_v,且y_u,y_v之间有概率依赖关系P(y_u|y_v),并服从马尔可夫性.(马尔可夫性:离当前因素比较遥远(这个遥远要根据具体情况自己定义)的因素对当前因素的性质影响不大.)
最大团
若无向图G一个节点集合中任意两个结点{u,v}均有连接,则该集合称为团C,若团C不能加入任意节点且同时满足均有连接的约束,则该团称为最大团.
条件随机场(CRF)
设G=(V,E)是一个无向图,是以G中节点v为索引的随机变量Y_v构成的集合,在给定X 的条件下,如果每个随机变量Y_v服从马尔可夫属性,即, 则(X,Y)就构成一个条件随机场,定义中并不要求X和Y具有相同结构.
线性条件随机场(L-CRFs)
L-CRFs是最常见的随机场. 它采用链式无向图结构,如下图所示,图中的团由点和边组成.在一阶链式结构图中,最大团仅包含相邻的两个节点,即是图G中的边.
二维条件随机场模型(2D-CRFs)
该模型是一个特殊的条件随机场模型,它的图结构可以表示为一个二维的网格结构,如图所示,其中X是观测序列随机变量,Y是标签序列随机变量,Yi,j是Y在位置(i,j)上的元素.由于二维条件随机场图结构的团集合是由顶点和边组成,所以它的条件分布和线性条件随机场是一样的.
信息抽取过程
训练阶段 主要是通过对样本进行训练,得到抽取模型的过程,包括以下三个过程:(1)利用VIPS对样本网页进行分块;(2)人工对网页分块进行重要度进行标注,然后通过对已标注的网页分块样本进行学习,得到分块重要度模型;(3)将重要的信息块作为样本,利用二维条件随机场进行训练,从而得到对应的二维条件随机场抽取模型.
抽取阶段 就是利用训练阶段得到的模型对网页进行抽取,步骤如下:(1)利用VIPS对网页进行分块;(2)利用训练得到的分块重要度模型对网页分块进行重要度标注;(3)判断网页分块重要度级别,并对结果利用训练得到的二维条件随机场模型进行抽取.
参考文献
[1] 吴秦,胡丽娟,梁久祯.基于分块重要度和二维条件随机场的Web信息抽取_吴秦[J].南京大学学报(自然科学),2014, 卷缺失(1):79-85.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 06:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社