Kara0807的个人博客分享 http://blog.sciencenet.cn/u/Kara0807

博文

基于半监督生成对抗网络的三维重建云工作室

已有 5788 次阅读 2019-6-27 09:56 |系统分类:论文交流|文章来源:转载

 基于半监督生成对抗网络的三维重建云工作室 

余翀

 

   】由于固有的问题复杂性和计算复杂度,三维重建是计算机视觉研究和应用领域非常重要且富有挑战性的课题。目前已有的三维重建算法往往会导致重建的三维模型上存在着明显的空洞、扭曲失真或者模糊不清的部分,而基于机器学习的三维重建算法往往又只能重建简单的分离物体,并表示成三维体元形式。所以这些算法框架对于实际应用来说都还远远不够。从2014年起,生成对抗网络被广泛应用于半监督学习,以及产生非真实数据集的应用中。所以本文的重点是采用生产对抗网络原理,来获得高质量的三维重建效果。提出了一种新颖的半监督三维重建算法架构,命名为SS-GAN-3D。该算法通过训练生成对抗网络模型,使其达到收敛状态,以此来迭代式地提高原始三维重建模型的质量。SS-GAN-3D只需要将事先观测的二维图像作为弱监督样本,对于三维结构外形的先验知识或者参考观测都没有任何依赖。最终通过定性和定量实验,以及对实验结果的分析,该算法框架在Tanks & TemplesETH3D标准三维重建测试集上,比目前最先进的三维重建方法有明显优势。基于SS-GAN-3D算法,又提出了三维重建云工作室解决方案。

 

关键词】三维重建;生成对抗网络;半监督学习;云工作室

 

引用格式】余翀 . 基于半监督生成对抗网络的三维重建云工作室,智能科学与技术学报,20191(1): 70-82.

 

1.引言

在计算机视觉和计算机图形学领域,三维重建是一项复原真实物体形状、结构和外观的技术。由于其具有丰富直观的表现力,三维重建技术被广泛应用于工程建设[1]、地理测绘[2]、考古学[3]、游戏设计[4]、虚拟现实[5]等领域中。

 

本文提出了一种基于半监督生成对抗网络的三维重建算法(SS-GAN-3D),该方法将传统三维重建技术的优势与最新的生成对抗网络的机器学习原理相结合。通过对三维生成模型和三维判别模型的对抗训练过程进行同步细调,本文提出的框架可以以一种半监督学习的方式稳定地完善所重建的三维物体的重建质量。在此算法的基础上,还搭建了三维重建云工作室,向广大用户提供便捷可访问的三维重建云服务系统。本文的主要工作包括如下几个方面。

 

SS-GAN-3D是一个半监督学习的算法框架,它只需要将事先观测的二维图像作为监督样本。对于三维物体结构外形的先验知识、计算机辅助设计模型库或者参考观测都没有任何依赖。

 

目前绝大多数基于机器学习的三维重建算法只能重建简单的分离物体,例如桌子、椅子、汽车等,并且重建出来的模型只能以离散化的体元形式表示。而SS-GAN-3D可以重建复杂的三维物体以及场景,同时重建出来的模型能以高精度的结构加外观方式呈现出来。

 

通过建立三维重建模型评价标准与生成对抗网络之间的联系,SS-GAN-3D优化了整个网络的训练过程。这项工作使得生成对抗网络在复杂场景的重建中得以实际应用。

 

2.相关研究工作

三维重建的目标可以是一些分离物体[6-7],也可以是大尺度的场景[8-9]。对于不同的重建目标,研究人员会尝试用不同的方式去展现重建出来的3D模型。常见的展现形式包括立体体元[6]、点云[8]以及网状骨架和表面纹理[10]结合。近年来,研究人员在三维重建技术的新方法研究中,取得了长足的进步。目前最先进的三维重建方法主要可以分成以下4类。

 

1)基于立体多视角和运动结构恢复的三维重建方法

 

该类算法首先会根据两张图片进行特征匹配,然后用得到的双视角重建结果去初始化三维模型,添加新的匹配图像并反复迭代,进行三角特征匹配,并用光束平差法进行运动结构恢复。该类算法的时间复杂度是O(n4),其中,n代表观测相机的个数。该类算法中最有代表性的是VisualSFM[10-11],该算法进一步提高了运算性能,优化了包括光束平差法在内的大量耗时步骤,时间复杂度降低到O(n)。该算法同时也提供了简单易用的图形用户界面。

 

然而,这类算法也有着明显的局限性,它们都基于一个重要的假设,那就是特征信息在多个视角上是可以完美匹配的。如果各个视角之间的空间距离较大,由于局部外观变化或者相互遮挡,特征匹配将变得异常困难。另外一个局限之处在于,如果待重建物体表面缺少纹理信息,或者表面存在镜面反射,特征匹配过程就很可能完全失效。

 

2)基于深度摄像头的三维重建方法

 

该类算法中最著名的是KinectFusion[12],通过探测到的深度信息,该方法能够连续地追踪和求解深度摄像头在6个自由度上的姿态信息。该方法的追踪精度要明显优于基于运动结构恢复的三维重建方法(因为这种方式只能通过彩色图片帧与帧之间的特征匹配来进行摄像头姿态的追踪)。通过将深度和姿态信息迭代式地融合到全局的稠密立体模型中,最终输出构建好的三维模型。在Whelan的工作[8]中,他在KinectFusion的基础上进一步提升了追踪精度、顽健性以及重建质量。改进算法采用了密集式图像帧对应到模型的摄像头追踪、滑窗式点元融合以及非刚体表面变形等技术,得到了更高质量的三维重建模型。

 

这类算法的局限性主要在于,自遮挡、光线反射以及深度传感器融合误差等因素的存在,会导致重建出的三维模型上存在着明显的空洞、扭曲失真或者模糊不清的部分。

 

3)基于形状先验知识的三维重建方法

 

该类算法的代表作是三维循环重建神经网络(3D-R2N2[6]算法,它利用深度卷积神经网络,从大量的训练数据集中去学习观测的二维图像与相应目标物体的三维形状之间的映射关系。结合长短时记忆网络的优势,3D-R2N2算法可以根据从任意视角观测到的一张或多张图片,输出目标物体对应的重建结果。重建出的模型采用三维体元形式进行表示。

 

3D-R2N2算法的主要优势在于其框架能够同时适用于单视角和多视角的三维重建。通过控制神经网络输入门和遗忘门的状态,可以选择性地更新对模型的隐式表达。甚至在不同视角得到的观测信息有部分冲突的情况下,该算法仍然能够输出重建的三维模型。然而,该算法的局限性也很明显。3D-R2N2算法的最终效果完全取决于三维计算机辅助设计模型和相应的二维观测共同构成的训练集的质量。另外,该算法只能重建一些分离物体,并且模型的输出形式为离散化的三维体元,很难展现物体表面的真实材质和纹理信息。

 

4)基于生成对抗网络的三维重建方法

 

该类算法中最具代表性的是3D-GAN[7]算法。3D-GAN算法引入了生成对抗损失,并将其作为区分一个物体是真实的还是重建的评判标准。因为三维物体是高度结构化的,采用生成对抗损失,比传统的体元级别独立启发式评判标准的效果更好,能够更加准确地捕捉目标物体的三维结构的细微差异。

 

3D-GAN算法最明显的优势来自生成对抗网络本身的特性。在此架构下,3D-GAN算法可以学到低维度概率空间和实际物体三维空间之间的映射关系。所以整个三维重建的过程不依赖于三维计算机辅助设计模型库和相应的二维参考观测。但是,算法的局限性同样也来自生成对抗网络本身的特性。就目前来说,虽然许多研究工作已经改善了生成对抗网络的训练过程,但是即使是对于二维图片来说,相比于普通的深度学习网络来说,它还是比较难以收敛的。鉴于三维空间的复杂度,3D-GAN算法也只能重建简单的分离物体,并表示成三维体元形式,在模型大小、颜色、纹理样式和质量方面都有局限性。

 

3.基于半监督生成对抗网络的三维重建算法

3.1  算法原理

 

试想一下这样一个例子,一个观察者希望将一个真实的场景和一个人工重建的场景模型区分出来。首先他会在真实的三维场景中进行观察,然后他在重建的三维场景模型中也进行观察,而且每个观察的位置和视角和他在真实场景中的时候是一样的。如果他在重建的三维场景模型中观察到的一系列二维图片,与他在真实的三维场景中观察所得完全一致,那么这个观察者自己其实是很难区分到底哪个是真实的三维场景,哪个是重建的三维场景模型。

 

为了构建三维重建算法,可以将每一组在真实场景中观测到的二维图片,与在重建的场景模型中观测到的二维图片之间的差异进行累加。如果在每个观察位置和视角上,这样的差异都足够小,就可以认为这个重建的三维模型质量很高。而且从量化的角度来看,累计的差异越小,重建的三维模型质量越高。可以把这个作为最终评判三维重建模型的标准。对于这个概念更加直观的表述如图1所示。



生成对抗网络是由一个生成网络和一个判别网络共同组成的。生成网络的作用是产生和真实样本非常相似的新样本,并试图用这些新样本使判别器的判断结果产生混淆;而判别网络的目标是清楚地分辨出哪些是真实样本,哪些是生成网络合成的样本。同时判别网络还会估计出,某个特定样本是生成网络合成出来的样本的可能性有多大。当整个生成对抗网络模型达到纳什均衡,也就是说,生成网络可以产生特性和分布与真实样本完全一致的新样本,同时,判别网络对于每一对真实和生成样本组,输出的判别概率达到0.5时,整个生成对抗网络模型就完成训练,达到收敛状态。 

 

将三维重建的目标与生成对抗网络模型相结合,本文开发出了一种新的三维重建架构:基于半监督生成对抗网络的三维重建网络(SS-GAN-3D)。SS-GAN-3D 是由一个三维模型生成网络和一个三维模型判别网络共同组成的。这里可以把判别网络想象成上面例子中提到的那个观察者。这样一来,生成网络的目标是重建和真实三维场景非常相似的三维模型,并且试图用这个三维场景模型去迷惑判别网络。而判别网络的目标是清楚地分辨真实三维场景和重建的三维模型之间的区别。当SS-GAN-3D达到纳什均衡,也就是说,三维模型生成网络可以重建特性和分布与真实三维场景完全一致的三维模型,同时,三维模型判别网络对于每一对真实场景和三维重建模型组,输出的判别概率达到 0.5。这样一来,也符合上文给出的三维重建模型质量的衡量标准。总之,本文新提出的架构将传统的三维重建求解问题等价转化成训练SS-GAN-3D,并达到收敛的机器学习问题。

 

3.2 算法流程 

 

SS-GAN-3D 进行训练时,会首先生成一个非常粗糙的三维模型,作为对三维模型生成网络的初始化。这里采用“.ply”格式表示粗糙三维模型。顶点、边缘和色彩信息分别以三元组形式存储。这个初始三维模型的构建过程是:先用摄像头对目标场景进行拍摄,生成的视频流作为观测真值;然后利用该视频流,生成二维观测图像,估计出摄像头运行轨迹,并且通过空间立体匹配的方法[13]来构建原始的粗糙三维模型。空间立体匹配方法通过比较相邻观测图像帧之间的差异,对图像上各点在空间中的深度信息进行估计。同时从视频流中截取出的二维观测图片,也被用来构成真值图片数据集。 

 

初始化完成之后,就可以对 SS-GAN-3D 中的生成网络和判别网络进行迭代式微调训练。整个训练流程如图1所示。  

 

由于 SS-GAN-3D 需要从重建的三维模型中得到二维观测图片,将重建出的三维模型导入专业开源三维引擎软件 Blender OpenDR[14]中。OpenDR 是一个可微分的渲染器,它能逼真地近似给出从三维模型到二维图像的真实渲染效果,同时能够提供反向传播算法所需要的从二维图像到三维模型的梯度变化情况。渲染器的可微分性是非常必要的,因为生成对抗网络的结构需要整个网络都是完全可微的,这样才能将判别网络的梯度变化传递回来,更新生成网络,形成完整的循环迭代结构。 

 

Blender 中,可以设定一个虚拟摄像头,虚拟摄像头的光学参数和在真实三维场景中用于采集视频流的真实摄像头完全一致。在处理真实视频流的时候,摄像头的运行轨迹已经计算出来了。所以在 Blender 中,让虚拟摄像头沿着这条运行轨迹移动,并且利用OpenDR渲染器,在与真实场景中相同的位置和视角进行观测,并渲染生成二维图片。这样一来,可以分别从重建的三维模型和真实的三维场景中得到相同数目的二维虚拟和真实观测图片。 

 

有了二维虚拟和真实观测图片集合之后,用判别网络来区分它们到底是来自对真实三维场景还是对重建三维模型的观测结果。同时根据损失函数来计算整个网络的损失值。通过网络损失值, SS-GAN-3D可以继续微调训练过程,产生新的三维生成网络和三维判别网络。新训练得到的三维生成网络将重建一个新的三维模型,供虚拟摄像头进行观测。新观测得到的虚拟观测图片与原先的真实观测图片,会被一起送进新的三维判别网络中进行分类。SS-GAN-3D会这样迭代地训练,并不断生成新的三维生成和判别网络,直到总体的损失值收敛到一个理想的阈值。

 

3.3 损失函数的定义  

 

SS-GAN-3D的整体损失函数包含两部分:重建损失LRecons和交叉熵损失LSS-GAN-3D。所以损失函数可以写成

 

其中,λ是调节重建损失和交叉熵损失权重的参数值。 

 

SS-GAN-3D算法框架中,模型重建的质量是通过判别网络进行评价的。所以,重建损失是通过计算送进判别网络的二维真实和虚拟观测图片集之间的差异得到的。本文选取了 3 种衡量图片质量的定量指标[15],用于计算差异。峰值信噪比(PSNR)从灰度值保真度的角度来定量衡量图片差异。结构相似度(SSIM[16]从结构级保真度的角度来定量衡量图片差异,同时该指标参考和模拟了人眼系统对于结构性图案的判断标准。归一化相关性(NC)则是表示相同维度图片的矩阵相似性。这 3 种评价定量指标的表达式如下所示。  

  

3.4 SS-GAN-3D的网络结构  

 

对于 SS-GAN-3D 来说,判别网络需要很强的分类性能来处理三维空间投影产生的复杂二维图片。所以本文采用了ResNet-101网络[17]作为判别网络的主要结构。生成网络的结构和判别网络类似,但是因为生成网络需要重建三维模型,所以把其中的二维平面卷积层都替换成三维体积全卷积层。典型的 ResNet 网络都采用批量归一化,使得整个训练过程比较稳定。但是批量归一化操作的引入,使得判别网络判断的是一批输入和一批输出之间的映射关系。在 SS-GAN-3D 中,希望在训练过程中保证单一输入和单一输出之间的映射关系。所以对于生成和判别网络,都把批量归一化替换成层级归一化,以此来避免引入输入样本之间的相关性。为了提高训练效果,还将ReLU层替换成参数化ReLU层。为了提高收敛性能,实际采用Adam求解器来替代随机梯度下降(SGD)求解器。在实际应用中, Adam求解器可以使SS-GAN-3D在一个比较大的学习率下进行训练。详细的网络分层结构如图2所示。


  

 

根据研究者的实验,就目前来说,只有加上梯度惩罚限制的Wasserstein GANWGAN[18]结构才能成功地训练类似 ResNet 结构的复杂生成和判别网络。所以本文借鉴了WGAN的改进训练算法,将其应用于 SS-GAN-3D 的训练过程中。训练生成网络G和判别网络D的目标函数如下。 

7.png

8.png


4 实验结果  

4.1 定性实验  

 

在定性实验中,采用 ZED 立体摄像机作为图片和视频数据的采集工具。真实的数据集是通过立体摄像机扫描一个大礼堂得到的。立体摄像机的左视摄像头和右视摄像头会同步采集两段视频流。从采集到的视频流中,可以提取一组场景图片作为观测真值。同时,基于立体摄像机对深度信息的估测,能够计算出相机的运行轨迹。有了这两项信息,可以用空间立体匹配的方法构建网状骨架和表面纹理组成的初始粗糙三维模型。 

 

空间立体匹配法将目标场景的几何结构信息,表示成三维三角网状骨架形式。三角网状骨架又是由顶点表面和法向量组成的。同时,为了恢复三维模型的表面材质,需要将采集过程中得到的二维图片映射到骨架表面上。所以在空间立体匹配的过程中,会从观测图片集中记录下一组图片子集,再将子集中的图片处理聚合成一张表面纹理映射图。最终,这张表面纹理图会通过自动生成的UV坐标[19],映射到三维网状骨架的每个表面上。 

 

有了初始三维重建模型并对损失函数的参数进行初始化之后,就可以对 SS-GAN-3D 进行迭代式微调训练。各参数的取值为:λ=0.7α=0.25 β=0.6γ=0.15θ=10。三维生成和判别网络的学习率为 0.063。选取了有代表性的三维模型重建结果,如图3所示。需要被重建的三维场景是英特尔公司的大礼堂。礼堂长约23 m,宽11 m,高5 m。图3a)展示的是在初始化阶段,通过空间立体匹配法产生的初始粗糙三维场景模型。图3b)至图3f)展示的是在SS-GAN-3D迭代式微调训练过程中,重建出的三维场景模型。可以看出,重建的三维场景模型质量由非常粗糙逐步变得精细。明显的空洞、扭曲失真和模糊不清的部分被SS-GAN-3D 大大削减。图3f)也是当损失函数取很小值的时候,最终重建的三维场景模型。在重建的三维模型中观测的二维图片与真实场景观测图片之间的对比结果如图4所示。这里在每个重建的三维场景模型中,各取 4张不同视角的二维观测图片作为例子来直观展示重建模型的质量情况。图4a1)至图4a4)这4张二维观测图片对应图3a)展示的三维重建场景模型。图4b1)至图4f4)的二维观测图片与图3 展示的三维重建模型的对应关系也是类似的。图4g1)至图4g4)是在真实场景中观测的真值图片。位于同一列的图片是在相同位置和视角进行观测得到的。图3和图4所示结果可以定性地证明,SS-GAN-3D重建出的三维模型质量很高。


 

 

4.2 定量实验  

 

本文将 SS-GAN-3D 方法与目前最先进的三维重建方法在各种不同场景的基准测试集上进行定量实验。下面简单介绍本文中所用到的两个基准测试集。 

 

Tanks and Temples基准测试集[20]是由英特尔实验室建立的,用于评估基于图像和基于视频的三维重建算法效果。该测试集包括室外场景和室内环境。真值数据用工业激光扫描仪(FARO Focus 3D X330 HDR)进行采集。共有14个不同种类的大尺度场景数据集,其中8个是中等难度的,6个是高难度的场景。Tanks and Temples基准测试集也提供了三维模型真值,包括表面和几何结构信息,因此该测试集可以精确地定量评估三维重建算法的重建精确度。在Tanks and Temples基准测试集上的重建结果如图5所示。

 

 


ETH3D 基准测试集[21]是由苏黎世联邦理工学院建立的,用于评估双视角和多视角的立体三维重建算法效果。该测试集包括7个室外场景和7个室内场景。不同视角的高精度图像真值,以及同步的低精度立体视频流,用高精度的激光扫描仪进行采集。测试集包括各种丰富的场景细节,比如森林中的各种树木枝叶以及游乐场上的绳子等。有些场景还有大块的同质和反射性表面,比如输送管道以及办公室的玻璃幕墙。这些都给被测试的三维重建算法带来了巨大挑战。 

 

本文选择了以下一些较先进的三维重建方法来和 SS-GAN-3D 进行对比:VisualSFM[11]PMVS[21]MVE[22]Gipuma[23]COLMAP[24]OpenMVG[25]以及 SMVS[26]。除此之外,也评估了一些有兼容接口算法的组合效果。 

 

关于对比性评估,首先需要将重建的三维模型与真值场景对齐。因为各个重建算法都会去估计采集摄像头的位置,所以可以通过与真实摄像头位置一一对应[20],完成整个对齐工作。接下来用与真值点云同样密度的体元栅格,对重建的三维模型进行采样。如果有多个点落在同一个体元栅格中,就采用这些点的几何平均值作为采样的结果。 

 

采用以下3个指标来评估重建模型的质量。  


精确度指标是对重建准确度的量化,该指标的值代表重建模型上的点与真值场景中的点的靠近程度。R代表从重建模型上采样得到的点集,用G代表真值点集。对于点集R上的一个点r,它到真值点集的距离定义为

这样一来,对于任意给定的距离阈值 e,重建模型的精确度指标定义为

召回率指标是对重建完整性的量化,该指标的值代表有多少真值点集中的点被重建模型所包含。对于点集G上的一个点g,它到重建模型采样点集的距离定义为


11.png


这样一来,对于任意给定的距离阈值 e,重建模型的召回率指标定义为

12.png

▪ 假设有一个非常稀疏的点集,其中每个点的位置和真值点集中对应点的位置精确重合,那么单一的精确度指标数值可以变得很大。假设整个空间中布满了点,那么单一的召回率指标数值也可以变得很大。为了避免这些极端情形,将精确度和召回率指标结合在一起,构成一个综合性的指标:F分数。

13.png

这样一来,前面提到的两种特殊情况都会使得F 分数趋近于 0。只有当重建出的三维模型既准确又完整的时候,F分数才能取得一个比较大的值。 

 

各重建算法在Tanks and TemplesETH3D基准测试集精确度、召回率以及F分数指标见表1,2,3,4,5,6。根据综合性的F分数指标,SS-GAN-3D的效果优于其他的先进三维重建方法。 

 

Tanks and Temples基准测试集上,对于精确度指标,和SS-GAN-3D比较接近的是COLMAP算法以及VisualSFMPMVS的组合算法。对于召回率指标,比较接近的是OpenMVGMVE的组合算法。但是对于综合性的F分数指标,SS-GAN-3D比排名第二的算法还有1.11.5倍的提升。 

 

ETH3D 基准测试集上,对于精确度指标,和 SS-GAN-3D 比较接近的是 COLMAP 算法以及PMVS 算法。对于召回率指标,比较接近的是COLMAP算法。但是,对于综合性的F分数指标, SS-GAN-3D 比排名第二的算法还有 1.021.2 倍的提升。

 

5 三维重建云工作室  

 

基于SS-GAN-3D,结合实际商业应用需求,本文提出了三维重建云工作室。之所以提出这样的解决方案,是因为本文分析了目前工业级和消费级三维重建的方法,发现过程既繁琐又复杂。目前的解决方案至少需要经过5个主要步骤,才能重建所需的三维模型。第一步,需要选择特定的传感器或摄像头,进行初始数据采集;第二步,需要选择特定的三维建模引擎,进行三维模型的展示与计算工作;第三步,需要选择合适的硬件设备,进行运算的加速。在实际应用中,用户还需要考虑各种硬件设备的成本和性价比;第四步,需要将上面3个部分进行集成,并且解决集成过程中的兼容性问题。第五步,还需要设计和实现一个用户交互界面,使终端用户可以方便地进行他们特定的三维重建任务。这样繁琐的流程(如图6所示)还需要用户有比较强的三维重建技术背景,非常不利于大规模推广和应用。



基于对目前三维重建方案的分析,本文对提出的三维重建云工作室进行了改进,总体只需要3个步骤。首先,用户可以用各种常见的视频拍摄设备对需要重建的物体进行环绕拍摄;然后将拍摄好的视频通过用户界面上传到云端运算服务器,同时,在配置页面上勾选重建的模型所需要的输出格式等;最后,等待云端运算结束之后,自动下载得到所需格式的三维模型。重建的三维模型也可以方便地导入常用的三维建模软件(如MayaUnity3D)中,进行更多的创意制作。解决方案的流程如图7所示。


 

本文的云工作室解决方案的优势在于以下几点。  

 

终端用户只需要提供他们的重建需求和配置,我们会帮他们选择合适的三维建模引擎和硬件平台,并且一并解决各部分集成中遇到的冲突和兼容性问题。 

 

基于SS-GAN-3D算法框架的优良性能,对于图像和视频数据采集的设备的精度和性能要求大大降低,用户只需要用常见的拍摄设备,如手机、运动相机、DV 或是数字相机,就可以采集需要重建的物体和场景信息,因而降低了实际应用的壁垒。 

 

解决方案基于云计算,重建效率大大提高,而重建所需的成本会显著下降,有利于在实际商业应用中进行推广。 

 

三维重建云工作室的行业应用介绍如下。 

 

1)长城保 

 

众所周知,长城是世界中古七大奇迹之一,也是首批列入《世界遗产名录》的文化遗产。由于部分长城位于险峰断崖之上,且周边草木茂密,修缮人员到达施工现场步履维艰,导致大段大段长城年久失修,破损情况严重。北京箭扣长城就是一个典型的案例,它充分展现了古老长城的惊、险、奇、特,但该段长城自然风化严重,修缮和保护迫在眉睫。 

 

如果利用传统手段勘察和修缮,短期内几乎不可能实现。英特尔公司与中国文物保护基金会合作,借助技术手段实施长城保护项目。 

 

在本项目中,英特尔猎鹰8+无人机对城墙进行近距离航拍和测绘,获取高分辨率图像。得到的数据会借助 SS-GAN-3D 三维重建云工作室的相关技术,进行清晰准确的三维建模。此后再通过一些人工智能算法,对多形态数据进行分析、处理,并结合重建出来的三维模型,为实际长城的修缮和维护提供指导与预测数据。相关的图片如图8所示。


 

2)其他行业应用 

 

作者所在团队的云工作室解决方案在 2018 年分别参加了阿里巴巴的云栖大会以及腾讯的云+未来大会。在大会上,我们与来自各个行业的用户进行了广泛交流,目前已经与虚拟故宫博物院、虚拟旅游、建筑家装、智能制造、机器人、游戏设计以及服装定制等行业的客户进行了需求沟通与合作。一些重建模型案例如图9所示。

 

6 结束语  

 

本文提出了对于复杂场景进行高精度三维重建的算法架构。SS-GAN-3D将传统的三维重建问题转化成了对生成对抗网络的训练与收敛性问题。由于算法基于半监督学习原理,SS-GAN-3D对于三维形状的先验知识没有任何依赖。所以该算法框架对于实际商业中的工业和消费级三维重建应用都相当适用。



SS-GAN-3D从人观察环境的角度,提供了衡量与评价三维重建模型的定量化指标。所以该算法也可以用来指导目前在三维建模领域需要人工设计和参与的一系列工作,例如电脑游戏中的角色建模,电影中的特技特效设计,无人驾驶领域中仿真模拟器的设计等。


 



https://blog.sciencenet.cn/blog-951291-1187040.html

上一篇:基于区块链和通证经济的跨国跨洲电力市场机制设计
下一篇:智车科技第26周自动驾驶周刊丨蔚来宣布召回4803辆ES8;苹果确认收购自动驾驶公司Drive.ai
收藏 IP: 159.226.177.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 06:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部