博文

5.12 【3D智能十八篇之一】3D智能：计算机视觉与计算机图形学在AI下的融合

已有 150 次阅读 2026-7-1 23:28 |系统分类:观点评述

「AI哲学」让人类“为自身立命”与“为AI立心”。

3D智能本身是一门很新的学科，它是计算机视觉和计算机图形学发展到高级阶段的交叉融合。下面我们就分别对这几个学科做介绍。

计算机视觉（Computer Vision，简称CV）是一门研究如何使计算机“看”的科学，更进一步地说，就是指用摄影机和计算机代替人眼对目标或环境进行感知、识别、跟踪和测量。人类的感官信息中，大多数是来自于视觉的。

提示：实验心理学家赤瑞特拉的著名心理实验指出：人类获取的信息83%来自视觉，11%来自听觉，3.5%来自嗅觉，1.5%来自触觉，1%来自味觉。

我们也可以把计算机视觉视为人工智能的一个分支。从这个角度来讲，可以认为计算机视觉的目的就是利用计算的手段来处理人类的视觉信息和实现对实际三维场景的智能理解。计算机视觉领域与图像处理、模式识别、射影几何、统计机器学习等学科密切相关。近年来，与计算机图形学等学科也有着很强的联系。

提示：模式识别用于从特征空间到类别空间的变换，通俗地说，就是自动将物体分类，如识别出这张照片拍的是鹿，那张照片拍的马。具体来说：根据从图像抽取的统计特性或结构信息，把图像分成给定的类别。研究内容包括特征提取（参见章节“5.17.1 个性特征的描述与检测”）、特征选择（参见章节“5.23.1 OpenCV与AdaBoost人脸检测”）、分类器设计（参见章节“5.19 【3D智能十八篇之八】众里寻她千百度：海量3D模型的形状检索”）等。在计算机视觉中，模式识别技术常用于图像中某些部分（如分割区域）的识别和分类。

最早的且在深度学习时代之前具有巨大影响的一种计算机视觉理论框架是由MIT教授David Marr（大卫·马尔，1945—1980年）在20世纪70年代末期提出的，在他看来，计算机视觉系统的输入是现实世界的二维图像，而输出应该是基于3D表示的定性的和定量的场景理解。在David Marr英年早逝之后，研究人员又相继提出了Active Vision（主动视觉）、Purposive Vision（目的视觉）、Qualitative Vision（定性视觉）等理论框架，但这些新框架并没有代替Marr框架，而是完善和丰富了Marr框架。国内从事计算机视觉研究的代表性机构有中国科学院自动化研究所的模式识别国家重点实验室（现为多模态人工智能系统全国重点实验室），自1987年成立以来对计算机视觉进行了系统的研究，在计算理论框架、早期视觉处理、摄像机定标、三维结构重建、视频与医学图像理解等方向取得了一系列创新成果。

下面是计算机视觉的典型应用。

从一幅图像（或一系列图像，即视频）中自动提取、分割感兴趣的物体（例如，提取人的面部）。

从多幅图像或序列中自动提取场景的三维信息，如从几幅图片中实现对人体/人脸的三维重建。

在图像序列中自动跟踪有意义的移动物体（如跟踪停车场中可疑的人的去向）。

从数字图像数据库中根据图像的视觉特征实现检索（如从犯罪记录库中查找特定的嫌犯人脸图像、指纹图像、虹膜图像）。

根据摄像头抓取的实时信息进行交通监管。

下面我们介绍计算机图形学，Computer Graphics，简称CG。CG这个简称相信更为人所熟知，主要目的是利用计算机产生令人赏心悦目的三维真实感图形。例如，我们看到的很多好莱坞大片（阿凡达、变形金刚、钢铁侠等）所展现的逼真炫酷效果就是用CG合成的。为此，首先要对图形所描述的场景进行几何建模（Modeling），再用某种光照模型，计算在假想的光源、纹理、材质属性下场景的光照渲染（Rendering）效果。计算机图形学的研究内容非常广泛，如图形硬件、图形标准、图形交互技术、光栅图形生成算法、曲线/曲面造型、实体造型、真实感图形计算与显示算法，以及科学计算可视化、计算机动画、自然景物仿真、虚拟现实等。国内从事计算机图形学研究的代表性机构有浙江大学的计算机辅助设计与图形学国家重点实验室。

当计算机视觉遇见计算机图形学又如何？不管你相不相信爱情，碰撞的火花诞生了。3D智能数字化（也称为视觉计算，Visual Computing，简称VC）主要研究利用计算机对视觉媒体数据（包括2D图像、3D模型、视频等）进行获取、分析、合成、智能感知、可视化、交互和操纵，其横跨计算机科学、数学、机器学习、深度学习、物理和认知科学。形象地说，3D智能数字化既有计算机图形学的逼真炫酷效果，同时又兼有计算机视觉的智能感知，集“美貌与智慧”于一体。国内从事视觉计算研究的代表性机构有中国科学院、浙江大学、清华大学、北京大学、中国科学技术大学、北京航空航天大学等。

计算机视觉、计算机图形学、3D智能数字化，这三者之间既有区别，又有联系。

—计算机视觉是给定图像来推断场景特性，实现的是从图像到场景的变换。即从二维图像数据中分析提取场景的信息，包括三维结构、运动检测、物体识别等。

—计算机图形学是给定关于场景结构、表面反射特性、光源配置及相机模型的信息，最后生成图像。从某种意义上说，计算机图形学是计算机视觉的逆问题。

—而3D智能数字化是个更广义的学科，它包含了计算机视觉、计算机图形学、虚拟现实和可视化、机器学习、深度学习等，也可以看作是这些领域在3D、智能感知、人机交互上的交叉融合。

下表对计算机图形学（CG）、计算机辅助设计（CAD）、3D智能数字化（即视觉计算VC）进行了详细的分析比较。

计算机图形学、计算机辅助设计、3D智能数字化的分析比较

	计算机图形学 CG	计算机辅助设计 CAD	3D智能数字化（视觉计算VC）
数据表征	曲面	实体（CSG）	曲面与实体
制造形式	不制造	减材制造	增/减材制造
形状复杂度	不规则的曲面形状（一般要求流形曲面）	规则的体形状	不规则的曲面/体形状（支撑结构、中空、内嵌）
颜色纹理	表面纹理颜色	无纹理	表面纹理/体颜色
交互方式	2D鼠标	2D鼠标	2D鼠标、笔画、体感、脑力、3D鸟标
自动化程度	手动设计	手工设计用于大规模批量生产	（半）智能化设计用于大规模批量定制
物理力学	不考虑（除非物理模拟），因为应用场景为虚拟的比特世界	不考虑，因为加工时可用夹具等进行辅助	需考虑重力、粘力
时间维	考虑（连续动画，至少需25帧每秒）	不考虑	可考虑（关键帧，离散动作，）
应用时效性	短暂，用户一般只会观看一次动画和特效	长期功用，但大规模量产的工业产品千篇一律、一般不具反复观赏价值	个性化定制的实体3D打印作品，具有私人化特点，值得长久保存、反复观赏