||
一、普洛克路斯忒斯之床
在古希腊神话里,有个强盗,叫普洛克路斯忒斯(Procrustes)。他开了家黑店,经常拦截来往的客人,并按自己的标准来安排住宿。如果客人长得比较矮,他就会安排睡长的铁床,并强行把客人的身体拉长,以适应铁床的长度。如果个子比较高,就安排短的铁床,直接用利斧把伸出床外的四肢砍掉。直到希腊神话英雄忒修斯在寻父的途中,被他拦截后想依法泡制时,忒修斯奋起反抗,击败了普洛克路斯忒斯,反过来把强盗伸出床外的腿砍掉,才为民除了此害(见图1)。
图1:普洛克路斯忒斯之床
因为这一神话寓言假定了有个设定的内在标准,并要根据这一标准来匹配相应的模型,现代的统计学就借用了这个强盗的名字来命名统计形状分析,称为普洛克路斯忒斯分析(Procrustes analysis)。它可用于分析一组形状的分布。如果这组形状能通过平移、放缩和旋转变成相同或相近的某个形状时,就可以认为是属于同一形状[1]。类似地,拓扑学在研究目标拓扑结构的不变性时,事实上也能借用这一思路。
而这一形状分析与我们日常生活联系最紧密的,则是身份认证的步态识别。其大致思路是先把人的走路或步态轮廓提取,然后用普洛克路斯忒斯分析来与步态训练库中已知的候选者的步态轮廓对齐。对得最齐整的,则可以判定为同一人[2]。
但如果用对齐标准来思考创新研究,则我们的思维容易被限制在那张“铁床”上,不容易跳出来形成颠覆性思维。要形成创新或颠覆性的成果,这里我想分享下我的研究小组在步态识别的研究经历。希望通过这一分享,能探讨下在科研和教育中,形成创新思维可能需要解开的束缚。在此之前,我先简要的科普下步态识别以及它的意义和特点。
二、步态识别
在生物认证领域,人的各种外在和内在特征如图2所示的人脸、虹膜、指纹、掌纹、静脉、声纹、步态等可用来识别人的身份,它在社会安全、反恐和维稳、打卡系统等都有着重要的应用价值。而步态识别则是生物认证中未来最有前景的应用方向之一。原因是现有的人脸识别技术尽管已经全面走向应用级,但其在可识别距离上存在局限,最多7至8米,且易被遮挡、易受光照和摄像头关注焦点的影响,也存在被3D伪人脸模型攻击的风险。而虹膜识别容易受美瞳等隐形眼镜产品的影响,指纹和掌纹识别也存在依赖设备和距离受限的问题。
图2:生物认证特征示例,从左到右:指纹、声纹、虹膜、人脸、掌纹、步态轮廓
相比而言,步态就具有得天独厚的优势,可远距离识别、不需特定设备、不需要测试者的配合,也不容易隐藏。心理学的研究也表明,步态具有唯一性,可用于身份认证,所以2015年《碟中碟5》中的犯罪分子就用了如图3所示的步态识别系统来做门禁。
图3《碟中碟5》的剧照(视频链接:https://v.qq.com/x/page/j0833a66jfw.html)
另外,人的轮廓加上步态也是人类在进行身份识别时优先级最高的方式,即按距离远近,步态是在远距离时第一个能帮助人进行快速身份识别的生物认证特征。这与人在认知上存在“大范围优先”机理有关,也与我在《爱犯错的智能体》中提到的“由粗到细”认知模型及视力的发育机制有关[3]。它的好处之一是,在预防潜在的恐怖袭击或犯罪时,与其它生物认证特征相比,步态能提供最早的预警和最长的反应时间。
要验证人具有快速识别步态的能力也很容易。比如本周三,我上数字图像处理课的时候,就给台下的40位本科生演示过一段几个行人在一个视角约30秒的走路视频。再接着放多段不同地点不同角度的视频时,同学们都能很快从视频中发现这些行人并准确认证。然而,几乎没人能回忆出行人的长相。因为在这些视频中,待辨识的行人要么出现在离摄像头较远的位置,要么出现在视频的角落位置,可见的人脸尺寸偏小,缺乏能记忆的人脸细节。
然而,要让机器来实现步态识别,则不是那么容易了。因为现有的计算机视觉、机器学习算法尚不具备人类的快思维[4]和稀少样本下的学习能力。另外,外界因素如发型、穿着、背包、阴影甚至地面的材质(如水泥地或草地)都对步态识别的性能有一定的影响。
三、步态识别与创新思维
要利用计算机进行步态识别,在还不能完全明了人类识别机理的前提下,则需要另辟蹊径。Procrustes分析是一种策略。经典的步态识别方法还有两大类,一类是把步态周期(跨出脚到收回脚,算一个周期)分解成连续的帧,然后逐帧比较,或构造类似时序模型的马尔可夫链,将时序性的步态特征学习出来。由于人的行走姿态在不同视角下外形相差甚远,这类用“铁床”做标本的方法很难适应步态的变化。而且由于模型建构复杂,这类方法大多需要多个步态周期,如图4右图所示。另一种做法就简单粗暴些,直接把视频拍成或坍缩成一张图,即取步态序列的平均,来形成一张步态模板图像。它的优势是速度快,因为每个人的步态只用一张图表示了,如图4中图所示。而且这种方式使用起来也较为灵活,需要的帧数较少,对步速、帧率等外界因素也不敏感。但是与步态相关的时间信息丢失了,所以精度也较难有所突破。
图4 从左至右:步态轮廓图、常规步态模板(Gait Energy Image,称为步态能量图)以及我们小组提出的CGI (Chrono-Gait Image,称为时间保持步态图)[5]
很多步态识别方法都是分别从这两条线出发提出的。我们小组对此领域的研究可追溯至2006年。最初有过一些小的成果,但不显著。2009年的时候,我们小组希望能将这两条线合二为一,既有模板的速度优势又有序列的精度优势。比较幸运地是,我们发现可视化领域有一种可以在2D图像上展示3维视频效果的研究成果。而这一成果似乎与我们希望实现的目标一致。于是,我们将其移植到了步态识别领域,通过对时间信息着色的方式,提出了如图4右图的时间保持步态模板(Chrono-Gait Image,简称CGI)。这一成果提交到2010年的计算机视觉著名会议ECCV后,三个评审都认为没有见过,对创新性进行了肯定。后经过扩展,该成果于2012年全文发表在计算机视觉与模式识别顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence上[5]。值得一提的是,该文章被全文发表时,一作王晨当时还是刚进大四的本科生。后来,该方法在2012年为第三方在步态公用数据集OU-ISIR进行了测试,被该文列为当时的六个state-of-the-art算法之一,并获得排名第三的成绩[6]。
不过,创新有的时候并非是有了闪光点,你就能奋起直追,一而再、再而三的在一个点上连续出成果。多数时候,灵感就像到了一个山的顶峰,然后过了这山就没那山了,尤其对于学校这种以流动性强、难以固定的研究生为主力组成的科研队伍时,情况更是如此。事实上,我们沿着这条思路走了很长一段时间,尝试了一些可能的改进,但并没有找到创新性特别强又能有优异性能的思路。
不知不觉就这么过了六年时间,直到去年,我研究小组的两位硕士研究生巢汉青和何逸炜又考虑了步态识别方法的另一个特点,即步态模板在平均序列的时候其实没有依赖步态的序列。这个特点赋予了它一定的灵活性,但他只有一张图,很难完整保留信息;而基于序列的则一般假定帧与帧之间具有时间的连续性,这使它能保留更多的时间信息,但却对帧的数量、帧之间的顺序、帧率等外界因素很敏感。
既然一方面不依赖序列能使模型变得灵活鲁棒,另一方面多张图能带来更丰富的信息,且在深度学习框架下,可以形成对步态更合理的学习表示,那么有没有可能在步态模板和步态序列之间找到一种折衷的选择,提出一种利用多图但又不依赖序列的多步态图方法呢。基于这一想法,我们小组再次碰到了幸运之神,发现在生物认证领域以外有一种刚提出不久的、研究点云计算的集合方法。
图5、步态集合模型网络图[7]
图6、步态集合模型在使用有限样本下的性能,仅使用7帧识别率就能达到82.5% [7]。
于是,我们和复旦大学类脑研究院院长冯建峰教授一起合作,将步态序列看做一帧帧步态轮廓图组成的集合,提出了步态集合(GaitSet)的方法[7]。这一改进大幅度提升了步态识别的性能。在步态识别公用数据集CASIA-B上[8],此方法使用74个人进行训练,达到了可进入实用级的指标性能–识别率95%,超过同样采用单个模型的当前最好性能3个百分点。同时,该方法允许输入任意多个视角的步态图像,且能在少量步态图像输入前提下也获得很高的识别性能。该项工作发表于人工智能顶级会议AAAI2019上,并于2019年2月2日进行了口头报告[7]。从某种意义来看,它为步态识别走向实用化打开了新的视角,它也将有助于研究智能体大范围优先和由粗到细的认知模型。
值得指出的是,有了灵感到转变成成果,这之间实际上有着巨大的技术鸿沟需要去跨越,并非想当然就能有的。如时间步态模板的想法,虽然2009年夏天我们就有了雏形,但在摸索如何提升步态识别的性能时,中间费了许多周折。比如时间信息到底是着色在整个模板上、还是步态的轮廓上,步态周期的检测到底是依赖于已知的成熟方法,还是自己提一套能更精确提取周期的办法,诸如此类。期间,也经历了很多次的失败。类似的经历,我们小组在研究步态集合方法时,也碰到了。有了想法,但实现的细节并非一开始就明了的,两位同学经历了近五个月的尝试和停滞,比如模型反复调整都不收敛。最后,在小组其他同学都认为该放弃的情况下,他们仍然坚持下来,最终找到了真正能行之有效的模型。
试想想,如果我们小组在研究步态问题时,在一开始就像普洛克路斯忒斯一样,把手头的问题都尽量往我们已经的知识上去靠,而不是多看看领域外的进展、多想想细节上的差异,用他山之石来攻玉,通过合作研究来优势互补,也许就很难有这两个还算不错的创新性成果了。
事实上,教育也是一样。现在的应试型教育从某种意义来看,或多或少都在做普洛克路斯忒斯之床,试图将绝大多数的学生都往同一标准上靠,并以此来评判学生的学习水平。
这种同质化的培养,好处是总体上比较稳定可靠,简单好操作。但同时,它也有可能把一些有创新潜力的学生的“能力”给抹杀掉,让其习惯于按标准定制的思维模式和努力向统一的标准对齐。其后果是学生会习惯了用分数评价自己的学习甚至科研能力,结果在考取研究生后,高分低能的屡见不鲜。因为他们很有可能不知道如何跳出固有的“铁床”,找到有创新性的灵感。
如果我们有条件在初高中甚至更早的时期发现那些有创新潜力的学生,则我们应该花更多的时间和耐心,帮他们定制化更适合他们发展的培养模式。
而灵感和顿悟的产生,则需要多给那些执着在某一方向钻研的科研人员更多的时间、宽容和理解。
参考文献:
1. https://en.wikipedia.org/wiki/Procrustes_analysis
2. Liang Wang, Huazhong Ning, Weiming Hu, Tieniu Tan. Gait recognition based on Procrustes shape analysis. In Proceedings of International Conference on Image Processing, 2002.
3. 张军平.爱犯错的智能体. 清华大学出版社. 2019.
4. Kahneman, Daniel, and Patrick Egan. Thinking, fast and slow. New York: Farrar, Straus and Giroux, 2011.
5. Wang Chen, Junping Zhang, Liang Wang, Jian Pu, Xiaoru Yuan. Human identification using temporal information preserving gait template. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(11): 2164-2176, 2012.
6. Haruyuki Iwama, Mayu Okumura, Yasushi Makihara, and Yasushi Yagi. The OU-ISIR Gait Database Comprising the Large Population Dataset and Performance Evaluation of Gait Recognition. IEEE Transactions on Information Forensics and Security, 7(5):1511-1521, 2012.
7. Hanqing Chao, Yiwei He, Junping Zhang, Jianfeng Feng. GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition. AAAI 2019. arXiv preprint arXiv:1811.06186.
源代码地址:https://github.com/AbnerHqC/GaitSet
8. Shiqi Yu, Daoliang Tan, Tieniu Tan. 2006. A framework for evaluating the effect of view angle, clothing and carrying condition on gait recognition. In Proceedings of International Conference on Pattern Recognition (ICPR), volume 4, 441–444.
张军平
2019年3月1日
延伸阅读:
24. 爱犯错的智能体(二十,完结篇) -- 平衡:机器vs智能?
16. 爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑
15. 爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析
14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉
11. 爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉
张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用3000余次,ESI高被引一篇,H指数28.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 02:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社