|
地质统计学是研究空间分布具有随机性和结构性的自然现象的科学,关注区域化变量Mi(xi,yi,zi)的随机性、结构性以及空间自相关性。为空间统计学分支,既考虑到样本值的大小,又重视样本空间位置及样本间的距离,弥补了经典统计学忽略空间方位的缺陷。
地质统计学方法广泛应用于矿产勘探、石油天然气、环境科学、土壤科学、水文地质等领域,尤其在油气储层建模和表征中发挥着至关重要的作用。
一、地质变量(区域化变量)
区域化变量 (Regionalized Variable):地质变量是描述地质体属性或地质现象特征的参数,呈现一定的空间分布,称之为区域化变量,是地质统计学的核心概念。它它是指在空间上连续分布,且具有空间相关性的变量,反映了区域内的某种特征或现象。例如,矿床品位、储层孔隙度、渗透率、污染物浓度等。
区域化变量与随机变量不同之处在于,随机变量取值符合一定的概率分布,而区域化变量根据区域内位置的不同而取不同的值,当区域化变量在区域内确定的位置取值时,表现为随机变量,是与位置有关的随机变量,既区域中的所有样本值都是随机过程的结果,即所有的样本值都不是相互独立的,是遵循一定的内在规律的。区域化变量的特点在于:
1、空间分布性(空间连续性)
区域化变量的取值在空间上是连续分布的,意味着区域化变量 Z(x) 在空间域 x 上是定义的。理论上,即在研究区域内的每个点都有一个取值。
空间连续性用协方差函数C(h)表征,直接反映空间连续性,变差函数曲线显示随着距离增大,属性差异先稳定后上升;不同方向表现显著差异(如河道砂体沿古水流方向渗透率高,垂直方向低)。与变异函数共同支撑克里金插值法。
C(h)=Cov[Z(x),Z(x+h)]=E[Z(x)Z(x+h)]−E[Z(x)]E[Z(x+h)]
2、空间相关性(空间依赖性)
区域化变量的取值在空间上不是完全独立的,而是相互关联的,即相近位置的取值往往更相似,而相远位置的取值差异可能较大。
地质变量在不同空间位置呈现非均质性和随机性变化,体现结构性约束下的局部突破程度。区域化变量既具有随机性,又具有结构性,具有空间依赖性,是与位置有关的随机变量。
随机性表现为变量取值的不可预测性。随机性与结构性表现为变量在空间上的相关性规律,地质变量(如孔隙度、渗透率)在空间/时间上服从特定统计规律(如变差函数),体现为相邻点间的相关性(如沉积地层的连续渐变)。自相关性与变异性是结构性的两面性表现。
空间相关性是地质统计学分析的基础。邻近区域属性值的统计依赖性,相邻区域属性值相似(如地层孔隙度渐变),反映属性在结构性框架内的连续延伸能力。
地质统计学认为,空间上相邻或相近的地质现象或属性,其数值之间存在一定的统计相关性。这种相关性是由于地质过程的连续性和渐变性造成的。地质统计学正是利用这种空间相关性,通过已知的样本数据,对未知区域的地质属性进行估计和预测。
空间相关性(随机性与结构性)通过变异函数量化,变异函数是地质统计学中描述区域化变量空间相关性的核心工具,描述空间异质性。通过半方差函数量化两点间差异随距离的变化,定义为区域化变量在空间上相隔一定距离h的两点取值之差的方差的一半。
γ(h)=1/(2N(h))∑[Z(X+h)-Z(X)]²
参数说明:
γ(h) :距离向量h对应的半方差值
z(xi) :空间位置xi的观测值
z(xi+h) :距离xi为h 的另一点观测值
N(h) :相距h的所有点对数量
区域化变量在空间任意两点x和x+h处的Z(x)与Z(x+h)存在统计相关性,且该相关性随距离h变化。变异函数γ(h)通过半方差反映属性差异随距离的变化规律,变异函数γ(h)随距离h的增加而增大,反映了区域化变量的空间相关性随距离增加而减弱的规律。因公式含系数 1/2,故称半变异函数,实际应用中常直接称变异函数。
距离接近0时,样本属性值主要由随机性主导。距离超过变程时,样本属性值不再有空间相关性。
块金值 (C0):当距离h趋于 0 时(limh→0),变异函数的非零值,反映了抽样误差、测量误差以及小于抽样尺度变量的变异性。反映随机性(微观变异或噪声)的贡献。
基台值 (C0+C):当距离h足够大时(limh→∞),变异函数趋于稳定的值,表示区域化变量的总方差。表示变量在空间上的最大变异强度,当变异函数达到稳定时的半方差值。反映空间变异性(随机性 + 结构性)。
变程 (Range):变异函数达到基台值时对应的距离h,表示区域化变量的空间自相关范围,空间自相关最大作用距离。在变程范围内,变量之间存在空间相关性;超出变程范围,变量之间基本不相关。
块金值反映“零距离”时的随机性,变程决定“多远就不相关”,基台值是“完全不相关时的方差水平”。
C0/(C0+C)比值反映空间相关性的随机性与结构性,0(完全结构性)到 1(完全随机性)。
(1)结构性主导(C0/(C0+C)<0.25)
空间自相关性显著,变量值随距离变化呈现规律性(如矿体品位渐变)。
适用于克里金插值等依赖空间结构的预测方法。
(2)随机性主导(C0/(C0+C)>0.75)
微观变异或噪声占主导,空间连续性弱(如污染物浓度突变)。
(3)过渡状态(0.25<C0/(C0+C)<0.75)
随机性与结构性共存,需通过变异函数模型(如球状模型)进一步分析。
在滞后距离接近零时,实验半方差仍大于零,这个正值就是块金值(nugget),它反映了微观尺度下的随机成分(如测量误差、微尺度变异)。块金值不代表某个“距离阈值”,而是距离趋近于零时的半方差值,它体现了空间上不相关的随机性。
当滞后距离达到或超过变程(range)时,半方差趋于稳定值(即基台值 sill),此时样品间的空间相关性消失,表现为空间独立性。真正决定“空间结构消失”的是变程(range),不是基台值(sill)。
3、变量分布
区域化变量的空间连续性要求使用随机函数来描述它。也就是将区域化变量 Z(x) 看作一个随机函数。这意味着对于空间中的每一个点 x,Z(x) 都被视为一个随机变量。这个随机函数的全部概率规律,就是所谓的“超总体分布”。超总体分布就是这个随机函数的完整概率模型。超总体分布为空间连续性提供概率框架。由于只有一个现实世界的实现,通过引入平稳性假设(结构性与随机性的统一),利用空间数据的重复性来推断超总体的核心特征——空间相关性结构(通过变异函数),从而实现对未知区域的最佳线性无偏估计。
超总体与有限总体分布是地质变量分析的“一体两面”,超总体为理论框架,体现地质规律;有限总体为数据基础,反映现实约束。二者结合是资源评价从“定性推测”迈向“定量预测”的关键(如油气可采储量概率分类)。
超 总 体:基于地质成因理论建立的全局模型(如沉积模式、构造演化假说),体现规律性但可能存在参数偏差,理论模型指导数据解释方向(降低过拟合风险)。
有限总体:实际观测的地质数据集合(如钻孔、剖面数据),受限于采样成本和空间分布,具有局部性和不确定性,观测数据校准理论参数偏差(避免主观臆断),概率化输出量化预测不确定性(满足风险管理需求)。
有限总体(实际观测数据)与超总体(理论模型)的结合,本质是通过局部数据修正全局假设,或利用地质规律指导局部建模,最终实现风险可控的资源预测。有限总体与超总体模型的结合,是地质统计学从“数据驱动”迈向“知识驱动”的核心跃迁,需在尊重数据客观性的同时,融入地质规律认知,方能实现科学性与工程实用性的统一。
4、变量分解
地质变量的空间分布通常可分解为总体趋势、多级局部变化与随机扰动的叠加,地质变量叠加模型的数学表达:
Z(x) =μ(x) + ε'(x) + ε''(x)
μ(x):趋势项(总体变化),反映宏观地质背景(如区域构造抬升、基底沉降等)。
ε'(x):局部变化项(多级),对应次级地质过程(如沉积微相差异、断层活动等),通常通过多级半变异函数或嵌套模型描述。
ε'' (x):随机扰动项,服从均值为零、方差为σ2的正态分布,反映测量误差或未识别的地质噪声。
模型特点与参数化
(1)趋势项建模
确定性趋势μ(x)可通过多项式函数或地质背景约束(如地层厚度梯度)表达。例如,在沉积盆地中,μ(x)可表示为埋深D(x)与有机质丰度TOC(x)的线性组合:μ(x)=αD(x)+βTOC(x)。
(2)局部变化项分解
不同尺度ε'(x)对应半变异函数的变程(range),如:一级局部变化(变程<1km):反映沉积微相或岩性非均质性。二级局部变化(变程1-10km):对应断层分段活动或成岩作用差异。
(3)随机扰动项约束
随机扰动ε''(x)的空间相关性通过块金效应(nugget effect)量化,其方差σ2与采样密度和分析精度直接相关。
总结:此模型通过分离不同尺度的地质过程,为资源预测和不确定性分析提供定量框架,其参数需结合地质背景与统计检验综合标定。
二、最优估计原理 (Optimal Estimation)
地质统计学的目标是在考虑空间相关性的基础上,基于空间自相关性和协方差函数的地统计学方法,通过加权平均已知点数据来对未知点的区域化变量进行估计,满足无偏性和最优性(即估计方差最小)。最优估计是指在一定的约束条件下,使得估计值与真实值之间的误差最小。地质统计学旨在揭示和利用区域化变量的结构性,从而进行最优估计和预测。
地质统计学中最常用的最优估计方法是克里金法 (Kriging)。克里金法是一种线性无偏最优估计方法,它基于变异函数提供的空间相关性信息,对未知点的值进行加权平均估计,并保证估计方差最小。克里金插值通过融合空间结构特征和统计模型,在复杂空间预测中表现出较高的精度和理论完备性。实际应用中需结合数据特性选择合适变体,并通过参数优化平衡计算效率与结果可靠性。
无偏性:确保所有位置的期望值相同,即权重系数之和为1。
最优性:通过半方差函数计算空间相关性,构建协方差矩阵求解最优权重系数。
类 型:包括普通克里金(Ordinary Kriging)、回归克里金(Regression Kriging)等,适用于不同数据特征(如是否包含趋势项)。
克里金插值法中远离目标区/无数据点的处理方法
1. 核心处理原则
空间自相关性限制:克里金法依赖变异函数描述空间相关性,当目标点超出有效变程(range)时,权重趋近于0,此时插值结果将趋近于全局均值(普通克里金)或背景趋势(泛克里金)。
无偏性保障:通过半变异函数模型确保远离已知点的区域仍满足无偏估计,但方差显著增大。
2. 具体技术方案
变异函数模型选择:采用球状或指数模型时,变程外的点权重自动归零,插值结果收敛到均值。
高斯模型允许更平缓的衰减,但需谨慎设置参数以避免过度平滑。
趋势项引入(泛克里金):若数据存在全局趋势(如高程梯度),通过多项式拟合背景场,远离数据区的插值结果受趋势主导而非均值。
协同克里金辅助:融合辅助变量(如遥感数据、地质图),利用其空间覆盖范围扩展插值能力。
3. 边界效应应对措施
缓冲区扩展:在目标区外围设置缓冲区,强制包含部分邻近已知点以改善边缘效应。
人工约束:手动设定边界条件(如固定值或自然边界),限制插值范围至合理区域。
4. 不确定性量化
克里金方差输出:无数据区的预测方差显著升高,需结合置信区间评估结果可靠性。
交叉验证:通过剔除部分已知点模拟外推效果,验证模型在边缘区域的适用性。
5. 替代方案建议
混合插值法:在无数据区切换为反距离加权(IDW)或径向基函数(RBF),但需注意方法一致性。
物理模型耦合:如地下水模拟中结合水文地质参数生成约束性插值。
克里金法对无数据区的处理本质是“保守估计”,需结合地质先验知识判断外推合理性。
三、不确定性量化原理 (Uncertainty Quantification)
地质统计学不仅可以提供最优估计,还可以量化估计结果的不确定性。通过克里金方差、概率克里金、指示克里金等方法,可以评估估计值的不确定性程度,为风险评估和决策分析提供依据。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-8 11:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社