larryxia的个人博客分享 http://blog.sciencenet.cn/u/larryxia

博文

对跨行科研的一段回忆 精选

已有 1688 次阅读 2025-1-9 03:31 |系统分类:海外观察

对跨行科研的一段回忆

许秋雨,2025.1.8

 

我一直觉得我很幸运,能亲身经历过去40年的数字时代的发展,如最早广泛民用的数字产品有,1991RockwellComputer Modem V.32, 14.4  kbits/s, 最早的数字电视1994Hughes Aircraft CompanyDirectTV,和19912G手机通信标准的首次发行。我觉得这些90年代初期的产品得益于89年柏林墙的倒塌,它标志着冷战的结束,而后美国的三大公司转向了民用产品。它们正是HughesDirect TVRockwellComputer Modem, TRW 的汽车电子。

数字时代开起的很重要一步就是各种数据的储存和传输,为此数据压缩就特别重要,这在香农信息论里叫信源编码。数据压缩有无损和有损压缩两种,香农信息论分别给出了它们的下界,即无损压缩的entropy界和有损压缩的rate-distortion界。无损压缩早10年就基本大局已定,有现在文件中广被应用的Lempel-Ziv-Welch算法等。而有损压缩在90年代的前半应该是全世界最热的研究对象,也是(至少美国)对图像压缩研究人数最多的时代。正如文【1】中所说,至少在美国的每个研究型高校的多个系(如电子工程,计算机,数学,物理等系)里都有多组科研人员做各种图像视频压缩研究,几乎每位做信号处理的专家都有自己/学生做图像压缩。当时作为学生的我也亲手做过图像压缩。这都是由于当时对图像的JPEG和对视频的MPEG压缩标准制定的原因。从1991年开始就有Data Compression Conference (DCC), 现在还有。当时DCC在数据压缩领域非常权威。

JPEGMPEG2 是基于70年代的 Discrete Cosine Transform (DCT)变换。90年代初又正是小波热,所以在90年代上旬,小波变换在图像压缩里的应用也是热点中的热点,而后来的JPEG2000正是用的小波变换。在90年代上旬的图像压缩里的热点方向有,1)利用变换域的压缩,如小波变换,DCT等;2Vector Quantization VQ);3Fractal/分形;4NN/神经网(如变换域里的神经网,用神经网来训练VQ中的codebook 等)。记得当时神经网在图像压缩里的主要应用是用于VQcodebook的训练。

如【1】文所说,在9596年间,美国有三组人马/公司号称为对256 256 256个灰度级(gray levels)的非彩色图像能压缩100倍之多。我当时在Hughes研究院工作,因为Direct TV的原因(94年的DirectTV里用的只是MPEG2)正追MPEG4标准,一开始也不信,因为我自己以前压8倍都难,根本想像不到100倍。可是当时美国的多个主要媒体都相继多次报道过(但都没有细节),如NYT WSJ等,所以经过多次报道后,我也慢慢地开始信这些“邪”了。这三组正分别是Texas A&M 组的小波变换,Yale组的VQ,和Gatech组的Fractal (用Fractal来自生成, 应该就是regenerativeidea。可是做压缩是有ground truth的,是要做严格对比的,这可不像做通信信道或者做电玩游戏啥的。对通信信道谁来做对比?根本就没有ground truth 当然也许可以用别的来衡量,因为自己发的信息是知道的)。 有意思的是这三组人员都是在信号处理领域也很有名气的地地道道的数学家。

丑媳妇总要见公婆的,好在信源编码(不像通信系统)容易被验证,拿一个他们图库外的图像试一下即可,后来上面说的三组都不了了之了。不光这样,从此,VQ 神经网,fractal在图像压缩里就被灭了(似乎30年后的现在又起了)。尽管小波变换用在后来的JPEG2000里,但与上面三组的第一组已无关。尽管rate-distortion界是用VQ来研究的,但VQ的最大问题就是获取codebook的训练图像库的选择问题,换一个不是图像库里的图像就很可能会不灵,这也是因为图像变化太大的原因,与语音语言完全不同。这个问题也许也是现如今非常火热的AI/DL/ML/NN在图像处理应用中的最大问题吧。

30多年前离开南加大时在一个项目里写的一部分就是信道信源联合编码。在50/60年代的Reed-SolomonRS/BCH码和90年代的Turbo码的中间,信道编码里最成功的创新就是trellis coded modulation (TCM), 它在有线通信,如computer modem,里被广泛应用。大家都知道,信源编码和信道编码是互偶的。正对TCM,在信源编码里有 trellis coded quantization TCQ)。那时信道信源联合编码的一个典型例子就是TCMTCQ的联合编码。不过,这一些后来似乎在真正的应用里也都不了了之了。

相对来说,验证通信系统比较困难,因为通信系统的难点不光是一对一你有多行,而还要是多对多大家有多行才行。更重要的是,要试的是能多到什么程度。这就很难验证了,因为来检验的人也就几位,更何妨有时候只能试一对一,类似专线。要知道,通信系统最容易做的就是专线。

人们对上面三组图像压缩一开始就误信的一个重要原因就是对有名数学家的迷信。不可否认,数学家对各种数学难题的研究有大的智慧,但他们在实际工程应用里并没有长期的耕耘(讲实话,也不是他们真正所关心的)。所以实际工程并不是他们的强项,任何大的对实际应用结果的宣称都需要被怀疑和考验(尽管宣称某个理论方法很可能不是问题)。其实,这一点对所有做跨行研究的人都成立,因为每个行当里都已有无数人耕耘过了,除了一些比较简单或直接的跨行应用外,更重要的是除非把它们都能放到信号处理,数学,或者物理等更高的一层,把它们的共性找出来做更透彻的研究!

 

1】“My Experience in Physical Layer Communications”, 《科学网》

https://blog.sciencenet.cn/blog-3395313-1282381.html

 



https://blog.sciencenet.cn/blog-3395313-1467965.html

上一篇:雪景
收藏 IP: 96.227.207.*| 热度|

3 王涛 王安良 宁利中

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-9 23:00

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部