温贺的博客分享 http://blog.sciencenet.cn/u/wenhe716 安全工程领域学术与杂谈

博文

数字化过程中的首要风险——数值精度与误差

已有 722 次阅读 2022-9-17 04:00 |系统分类:观点评述

提起数字化,第一步其实就是数值化,先把问题、现象、环境转化成机器/计算机可以理解与处理的数值。很多人把机器学习、深度学习,甚至迁移学习、增强学习等等挂在嘴边,我们局外人很经常被唬住,而如果你真的理解了,这只是把图片、声音、文字转变成一个矩阵或向量,那你就超越80%的人对人工智能的理解。

大众也慢慢接受数据的形式不仅仅是数值,而数值测量有一个很重要问题,就是精度和误差。细分一下,准确度accuracy包括真实度trueness和precision精度;真实度trueness是无法获得的,笔者在北大读书时有个老师问了一句“is real true”,很形象地描述了这个问题,即真实值总是无法获得的,我们得到的总是测量值。那么测量误差就包括了系统误差和随机误差。精度precision的衡量指标有有效数字significant digit和不确定性uncertainty。因为不同人对英文的翻译和理解不一致,这里不打嘴仗。

对于数值化的过程,数字化基本上是依赖传感器获得数值,那么其中的系统误差包括了sensing error, transducing error, transforming error和display error。我翻译不出来,姑且留给读者体会。

从从本质上来说,人工智能的思考过程,就是依赖那些各种算法和神经网络,就是一个数据处理的过程,专业点就是data fusion,为什么要做data fusion呢,就是一个传感器获取的信息源是存在噪声或误差的,需要多个数据源的数据进行融合,这就是模拟人的综合决策过程了。

为什么误差这么重要,在工业化的过程中很多教训已经获得作证,从蒸汽机铁轨的宽度到飞机的螺母尺寸,灾难不胜枚举,这是近代工业质量控制的范畴。到了数字化时代,其凸显出来的一个重要问题就是传感器的准确度选择,例如模拟传感器和数字传感器的误差差异相对比较明显。

对于精度,很多人是不以为然的,从小数点的四舍五入到四则运算的有效数字规则,再到上下一个标准差的不确定性,往往被忽略,即便是在学术界,这种问题也相当严重。但是在计算机这种死脑筋的运算过程中,会凸显出偏差,一个秒一个小数点都不行。估计你遇到过高铁站的闸机过了时间一秒钟都刷不进去,这在金融交易中也会出现类似的因为极小的误差而导致系统崩溃或卡住的情况,虽然我们平静地度过了千年虫危机the Millennium bug。但是这种因为浮点精度、缓冲区溢出等问题,在高精度的工业应用中,如探测、纳米技术,会受到严重影响,这会影响大型复杂系统的可靠性和安全,比如航天飞机。

当我们解决了大问题大数字的时候,小问题小数字的重要性就凸显出来了。


本文由温贺2022-9-16首发于科学网博客,未经许可,禁止转载。




https://blog.sciencenet.cn/blog-3523098-1355657.html

上一篇:纪念Mike T. O’Connor先生——安全科学应该铭记的人
下一篇:罚多少钱?违反美国职业安全健康法
收藏 IP: 165.91.13.*| 热度|

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-12-5 23:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部