博文

人工智能机器学习道路曲折前程广阔精选

已有 8075 次阅读 2018-2-24 11:13 |系统分类:海外观察

1 引言

当前激动人心的人工智能浪潮，是由于机器学习技术的突破推动的。

实际上，人工智能机器学习有过比较曲折的发展历程。图1是截取自北京大学黄铁军教授一次演讲^[1]的PPT。注意，图中的道路并非是笔直的，而是曲折的。伊恩·古德费洛等著的《深度学习》一书，也把深度学习的历史追溯到20世纪40-60年代“控制论”和20世纪80-90年代“连接主义和神经网络”的兴起，其间有过低潮和冷清，2006年以“深度学习”的名义复兴。

undefined

图1 人工智能潮起潮落（引用黄铁军）

这篇博文以石油物探领域为例，看人工智能机器学习的应用潮起潮落。

机器学习应用于石油物探，是采用监督和无监督学习方法，例如利用神经网络方法，在地质或地球物理数据中识别相似的模式。虽然有许多种不同类型的神经网络，但根据油气勘探问题的类型，可分为两类：其一，分类问题，其二，预测问题。在分类问题中，将输入样本分配给几个输出类中的一个，例如砂岩、页岩和石灰石。在预测问题中，我们给输出样本分配一个特定的值，比如一个孔隙度值。

神经网络也可以通过训练的方式分为两类（图2）：其一，有监督学习方式，其二，无监督学习方式。在有监督学习中，神经网络从训练数据集开始，已经知道训练数据集的输入和输出值。神经网络算法“学习”该训练数据集的输入和输出之间的关系，然后将“学到”的关系应用到预先不知道输出值的数据集。

undefined

图2 机器学习

2 回顾

正如伊恩·古德费洛将深度学习的历史追溯到20世纪40-60“控制论”，石油物探计算机应用可以追溯到20世纪50年代初。当时MIT数学系的GAG(地球物理分析小组)研究将控制论的创始人罗伯特·维纳的时间序列分析理论应用于石油勘探地球物理数据分析。

后来在1980年代末，随着连接主义和神经网络的兴起，机器学习在石油物探领域的应用掀起过一阵热潮。那时主要利用神经网络进行地震数据初至波的拾取和道编辑等。在石油勘探地震数据处理中，初至波的拾取和道编辑很费人工。而神经网络是一种数学算法，可以训练解决通常需要人工干预的问题。

这个时期使用的神经网络，是多层感知器（MLP）。多层感知器也称为全连接神经网络，数据从输入层流向输出层，输入层和输出层之间有一个或多个隐层。其训练策略是把输出单元计算的误差作为网络误差，反向传回去，计算出其它层的误差，然后更新权重。可望将多层感知器用于地震解释中的模式识别和分类，那时尽管有过尝试，但并没有很成功的案例。

在油气勘探界，地质家华莱士·普赖特的名言——“最先发现石油的地方，是在人们的大脑里面”影响甚远。传统主义者一直怀疑人工智能系统能够替代人类的大脑。但现在越来越多的人相信：石油是人们的头脑从数据中找到的，人工智能提供了强大的数据解释过程，可以帮助地球科学家找油。地球科学家们已经具备找油的知识储备和经验。当资源变得越来越稀缺，人工智能机器学习系统可以对确定新井位起关键作用，并在使科学家和工程师能够更有效率工作方面发挥着关键作用。

接着经历了一段时间的低潮后，在21世纪初，神经网络在石油物探中的应用发展开始复苏。在过去的十五年中，神经网络在地球物理数据分析中的应用有两个特点：其一，几乎全与地震属性分析有关，包括利用地震属性预测储层性质的有监督神经网络，或预测相分布的无监督方法。图3是多层感知机被用于多属性分析一个示例。其二，使用的算法更多样，包括利用k-均值、k-近邻、自组织映射、生成拓扑映射、支持向量机、近似支持向量机、概率神经网络PNN, 广义回归神经网络GRNN和径向基函数网络RBFN等，成功地提取了多个地质体的地质特征。

undefined

图3 多层感知机神经网络

K均值聚类算法是无监督学习，而K近邻算法是监督学习。两者均为最简单的机器学习算法。K均值聚类算法是将给定数据集划分为k个簇的算法。首先，随机生成k个初始点作为质心，将数据集中的数据按照距离质心的远近分到各个簇中。然后，将各个簇中的数据求平均值，作为新的质心。如此重复，直到所有的簇不再改变。K近邻算法也称KNN。给定一个训练数据集，对新的输入实例，KNN在训练数据集中找到与该实例最邻近的K个实例（也就是所谓K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

KNN被用于地震相分析。地震相分析是根据地震和测井资料了解地下构造、岩性变化和储层分布的重要信息的重要方法。该方法对于降低钻井风险和寻找经济圈闭具有重要意义，可用于石油勘探开发的不同阶段。为了应用KNN生成准确的地震相图，从测井曲线和地震资料中提取频率、振幅和相位等地震属性，对相似地震道进行分类。虽然也可以利用非监督方法（如K均值聚类算法）对相似地震道进行分类，建立地震相图，但利用KNN有监督分类方法，对储层和地震相分布的描述精度较高，效率也较高。图4是伊朗某油田碳酸盐岩储层利用KNN分类器地震相分析的结果。

undefined

图4 伊朗某油田碳酸盐岩储层利用KNN分类器地震相分析

SOM自组织映射是一种竞争型神经网络算法，其典型结构由输入层和竞争层组成。在学习算法上不像多层神经网络(MLP)那样是以网络的误差作为算法的准则，而是模拟生物神经元之间的兴奋、协调与抑制、竞争作用。SOM主要用途基本还是“分类”和“聚类”，前者有监督，后者无监督。聚类也可以看成将目标样本分类，只是没有任何先验知识的，目的是将相似的样本聚合在一起，而不相似的样本分离。自组织映射是多属性地震数据自然聚类识别的一种实用方法。图5是将SOM应用于墨西哥湾盐丘的例子^[2]。在一般情况下，自组织映射允许快速和准确的大套地震属性的比较揭示地震异常数据，这有助于在识别碳氢化合物和地质特征。

undefined

图5 SOM应用于墨西哥湾盐丘引用Tom Smith）

（A）是普通振幅剖面，（B）是SOM 分类映射结果，红线是图（C）的时间标志，（C）是在图（B）红线标志的时间处的水平切片。

SOM的缺陷之一是其没有定义概率密度。生成拓扑映射（GTM）是一种概率的自组织映射，是SOM在概率意义上的扩展，由带约束的混合高斯模型组成，模型的参数可以由期望最大化（简称EM）算法得到。GTM是一个生成模型：先假设数据是概率选择出现在低维空间的一个点，映射该点观察的高维输入空间（通过一个光滑函数），然后加噪声到该空间中。利用期望最大化（EM）算法从训练数据中学习低维概率分布、平滑映射和噪声参数。

支持向量机（SVM）是一种二值分离器，其基本思想很简单。首先，使用非线性映射将训练数据体转换到更高维度的“特征”空间。然后，在这个特征空间中找出一个超平面，它将数据分成两个类，并有一个最佳的“边缘”（通常称为决策边界），使得分离超平面和训练向量之间的最小距离。近似支持向量机（PSVM）是支持向量机SVM的变种，它而不是直接找一个分离面，而是建立近似两数据类的两个平行平面，决策边界落在这两个平面之间。PSVM提供SVM标准支持向量机类似的分类正确性，但降低了计算量。

概率神经网络PNN, 广义回归神经网络GRNN和径向基函数网络RBFN，是有监督的属性分析方法，被用于预测储层参数。

概率神经网络PNN是地震解释中用于模式识别和分类的重要方法，计算输入向量和训练输入向量之间的距离，生成一个向量来表示输入数据与训练数据的接近程度。然后，该算法的第二层创建每个输入类贡献的总和，以输出一个概率向量。最后，概率的最大值被确定为1，而其他概率被归类为0。PNN是以指数函数作为激活函数的神经网络，通常由四层组成（输入层、模式层、求和层和决策层）。图6给出了概率神经网络用于估算波阻抗的效果例子。图6（B）是用PNN分析得到的估计阻抗，而图6（A）是从传统的基于模型的反演得到纵波阻抗，在两个不同的点插入了垂直的黑色曲线显示纵波阻抗记录。值得注意的是，图6(A)以椭圆为标志的区域内的阻抗与测井曲线没有很好的对应关系。而在图6中的椭圆标记的区域中，表明基于神经网络的估计比基于模型的反演提供了更多的信息——一个薄的低阻抗层被夹在两个高阻抗层之间。这种薄层低阻抗层与测井曲线是一致的^[3]。

undefined

图6 PNN波阻抗(A)与常规基于模型反演波阻抗（B）比较(引用SomanathMisra)

GRNN是一种使用径向基函数作为激活函数的神经网络，通常也是由四层组成（输入层、模式层、求和层和决策层）。图7 是GRNN径向基函数神经网络应用于从地震属性预测测井属性示例^[4]。而RBNN是一种三层前向网络（输入层、隐层和输出层），隐单元的变换函数是RBF径向基函数，它是对中心点径向对称且衰减的非负非线性函数。

undefined

图7 GRNN应用于从地震属性预测测井属性示例（引用Brian H. Russell）

在过去十年间，机器学习技术最大的进步，当属深度学习算法。深层学习算法在处理数据的非线性方面非常出色。深度学习的策略是模拟神经元，并将之组织成多个层次。例如，对于人脸识别而言，一张图片输入到深度学习系统时，系统的第一层仅简单区分其中的明暗像素点，下一层可能就将某些像素点构成了边界，再往下一层就能区别水平和垂直线条，最后一层能识别出眼睛，并且会认识到人脸中通常有的两只眼睛。许多研究人员认为，深度学习是个很好的解决方案。在图像识别应用中，卷积神经网络具有在一个网络中结合属性提取与分类相的优点。卷积神经网络包含由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。子采样也叫做池化（pooling），通常有均值子采样（mean pooling）和最大值子采样（max pooling）两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。

近年，一些研究者将深度学习算法应用于地震解释中的自动断层识别。断层是在岩体上的不连续性，它是岩体运动显着位移的结果。目前的断层解释方法需要大量的手工和重复的工作。深度学习可以应对巨大的地震体积，并不断的学习。Chiyuan Zhang（MIT）等进行了利用深度神经网络自动识别断层研究^[5]（图8）。

undefined

图8 自动断层识别（引用ChiyuanZhang）

Anders Waldeland成功地演示了如何利用卷积神经网络（CNN）将地震数据集盐体分类^[6]。图9中的左边表示三维地震体积训练数据两个类别标签——盐（红色）非盐（绿色）。右边表示数据集中提取的三维盐体，用高程着色。传统的盐分类方法包括选择一组对盐体特征敏感的属性，并训练判别盐与其它地质构造的分类算法。事实上，安德斯的工作似乎是地震解释中的一个突破，至少在盐体圈定。

undefined

图9 利用卷积神经网络盐体圈定（引用A.U.Waldeland）

3 展望

前面讲过，在过去的十多年中，石油物探人工智能机器学习应用特点是：几乎完全与“地震属性”分析有关，以及使用的算法多样化。

展望未来，石油物探人工智能机器学习应用，可能呈现新的特点：其一，应用解决新类型的问题，如地球物理反演和自动解释；其二，使用新类型的深度网络算法。

目前，全球物探市场处于困难时期，物探公司面临新的挑战（顺便说，全球最大的油田技术服务公司斯伦贝谢公司最近宣布将退出海上及陆地地震采集市场，而中国石油东方地球物理公司已经成为全球最大物探公司），却也会促使增长对采用人工智能机器学习技术提高勘探效率和降低勘探成本的兴趣。未来算法的突破和计算机的能力的增加，将导致机器学习更有效应用于地震数据处理解释。首先，自动地球物理特征拾取，可望在进行偏移成像/解释之前就能够从原始地震记录发现（分类）和确定（预测）地下结构^[5]（图10），这将颠覆现在的处理解释流程。其次，机器学习可望提供解决全波形反演的强有力工具（图11）。弹性介质全波形反演，被视为地球物理工作者竭力追求的“圣杯”。在理论上，全波形反演（FWI）是一个非线性全局优化算法，试图利用地震记录波形的所有信息找到地下高保真、高分辨率定量模型。在实践中，FWI工作流实现包含迭代建模步骤和约束参数管理部分，可以通过卷积神经网络和动态递归神经网络实现。

undefined

图10 地球物理特征自动检测（引用ChiyuanZhang）

正如前面介绍的，在地震处理解释中应用的机器学习算法越来越多。当然，在理想的情况下，人们总是希望有单一算法，能够解决所有问题，这样的算法有人称之为“主算法”（master algorithm）：能够从数据中发现任何知识，并能够为做任何我们想做的事情。我们无法知道是否可以找到这样的算法。但是，可以期望诞生新型机器学习算法，能够更有效解决石油物探中问题。

此外，下一代地震处理解释软件将具备某种学习和认知能力。构建面向地震处理解释的智能机器学习平台很重要。这样的平台将为应用开发人员提供了构建智能应用程序的工具包，同时为最终用户提供基于图形用户界面的应用环境。

人工智能机器学习技术在不断突破之中。在我撰写这篇博文时看到报道：“给所有人的人工智能（云端 AI）”和“对抗性神经网络”入选《麻省理工科技评论》2018年十大突破性技术榜单。回看过去几年，已经有多项人工智能机器学习相关技术入选《麻省理工科技评论》年度榜单，其中包括：2008年机器学习、2009年的 Siri（一款内建在苹果iOS系统中的人工智能助理软件）、2013年的深度学习、2014 年的神经形态芯片、2016 年的语音接口与知识分享型机器人，以及 2017 年的自动驾驶卡车与强化学习。随着人工智能机器学习技术不断突破，工业技术从数字化、网络化走向智能化是大趋势，油气勘探也不例外。

参考资料：

[1] 黄铁军. “智能为用，机器为体”，30 年内实现人造大脑. 《科学大观园》2018年第02期.

[2] Tom Smith,Sven Treitel,Introduction ToSelf-Organizing Maps In Multi-Attribute Seismic Data. Geoinsights.GeophysicalSociety Of Houston.January 2011

[3] Somanath Misra and Satinder Chopra. Neural networkanalysis and impedance inversion – Case study.RECORDER.Apr 2011 | VOL. 36 No.04

[4] Brian H. Russell, Laurence R. Lines, and Daniel P.Hampson.Application of the radial basis function neural network to theprediction of log properties from seismic attributes.https://www.crewes.org/ForOurSponsors/ResearchReports/2002/2002-61.pdf

[5] Chiyuan Zhang, Charlie Frogner and TomasoPoggio.Automated Geophysical Feature Detection with Deep Learning.GPUTechnology Conference 2016, April 4~7.

[6] A.U. Waldeland and A.H.S.S. Solberg.SaltClassification Using Deep Learning.79th EAGE Conference and Exhibition2017.Seismic Interpretation - Analytics and Machine Learning forInterpretation.12 June 2017

转载本文请联系原作者获取授权，同时请注明本文来自王宏琳科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3005681-1100994.html

上一篇：软件行业风暴的最新信号
下一篇：量子计算入门•极简教程

收藏 IP: 219.147.95.*| 热度|

当前推荐数：1 推荐人：彭真明

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

王宏琳

扫一扫，分享此博文

spring63的个人博客分享 http://blog.sciencenet.cn/u/spring63

博文

人工智能机器学习道路曲折前程广阔精选

当前推荐数：1 推荐人：彭真明

该博文允许注册用户评论请点击登录评论 (0 个评论)

王宏琳

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

spring63的个人博客分享 http://blog.sciencenet.cn/u/spring63

博文

人工智能机器学习 道路曲折前程广阔 精选

当前推荐数：1 推荐人： 彭真明

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

王宏琳

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

人工智能机器学习道路曲折前程广阔精选

当前推荐数：1 推荐人：彭真明

该博文允许注册用户评论请点击登录评论 (0 个评论)