|||
随着计算机技术和传感器技术的快速发展,相关的应用理论和技术也得到了迅速发展,其中尤其以人工智能和机器学习为代表。机器学习是今天的显学,不管什么领域,只要涉及到数据处理和规律的挖掘,大多数都涉及到机器学习的应用,而机器学习的任何一个进展都会得到大力的追捧,君不见一个深度神经网络就惹得很多大公司趋之若鹜。在机器学习领域,我们肯定还有很多技术问题需要进一步解决,机器的智能和人的智能相比还很微不足道。但是解决这些技术问题之前,还有一些原则性问题需要深入的探讨。尽管我不算是模式识别研究的人,但是就我短短的机器学习方法的应用经验来看,还有一些哲学问题需要思考。如下观点为一家之言,仅供拍砖。
模式识别的总体思路大体都差不多,基本上遵循特征提取,通过样本学习分类器然后就是应用。这种模式有其合理性,但是也有其固有的弱点。
一、模式识别策略的可公开性;
先讲几个故事。人民币防伪技术一直是模式识别应用领域之一,而欺骗这些防伪措施一直是伪造集团的努力方向。我听说了几个例子。早期投币电话如何识别投币是何币种(硬币),据说(没有验证过,为相关公司人员提供)是通过投币之后落入内部的声音来判断。这个策略是抓住了不同币值的硬币在相同的条件下造成的声音差异来区分币种,是一种简单的必要条件识别法。据说一个聪明的学生偶尔有一次在北京学院路的一个投币电话上发现了这个规律,聪明的学生拿着一个录音机,播放类似的硬币掉落的声音,居然可以欺骗电话。当这个策略公开的时候,由于伪造的代价特别低,导致该方法的迅速失效。
故事还没有结束,后来又发明了称重法。就是内置一个尺寸测量加上称重装置,根据硬币的的大小和重量的范围,判断是不是硬币,是什么币种。这种方法就生命力好很多,但是依然没有解决真正的造假问题。假币集团发现硬币(一元硬币)内部是贵金属,于是他们就想法用廉价的铅替换内部的重金属,以较低的代价获得更高的价值,据说东南某省的一个造假作坊短期内就赚取了几百万。尺寸加重量也不能挡住造假的手段。于是,在后来的机器上,越来越多的传感器被装进去,包括磁性等,以获得越来越多硬币的各种物理和化学属性,达到识别的精确性。
关于纸币的情况大体也差不多。很多假币甚至人眼看起来像是白纸的东西都可以轻易的骗取验钞机甚至自动存款机的信任。涉及到一定的机密,就不多谈了。
在其他领域也存在类似的情况,影响最大的莫过于三聚氰胺事件。其主要原因在于牛奶的蛋白质含量的测量手段来自于一个拙劣而简单的测量方法,就是测量物质中的氮含量。其假设为牛奶,并且氮含量可以等效为蛋白质的含量。岂不知,氮含量高的物质不是蛋白质,而是三聚氰胺,一种与蛋白质毫无关系的化合物。
上述的例子在很多领域都有很多。这些例子都是一种以模式识别为核心的辨别方法或者测量方法,这些方法的共同特点是,采用一些简单的特征,在很强的前提假设下进行工作,一旦前提条件被打破,其结果就变得很可笑。这是模式识别方法共性问题。好比通信中的加密,几乎所有的模式识别方法类似于对称加密,加密算法不能公开,一旦被破解,就彻底失败。于是,通信加密中后来发明了今天广泛使用的非对称加密算法,秘钥的一部分是公开的,方法也是公开的,但是就是需要很高的代价或者能力才能破解。(理论上不存在不可以破解的密码)。模式识别未来的道路,也需要解决识别策略的可公开性。我们姑且将迄今为止的模式识别方法称为对称识别算法,只能保密,不能公开,未来非对称识别算法或许是一个新的方向。
二、模式识别结果的反馈性;
模式识别被用在很多与人互动的领域,比如有无数关于汇率、股票和期货的研究,也不乏一些模式识别的方法在使用。在中国的今天,有无数人追着那些动荡不安的股票变化曲线,以期通过这些变化的曲线来琢磨出一些共性的规律。这是一种模式挖掘的方法,假如有一种方法,可以挖掘出股票市场的发展规律,那就立刻成为亿万富翁。但是这种情况还没有出现。为什么呢?这个可能就是识别结果的反馈性。一个单向的系统应用任何策略都没有问题,但是只要存在反馈,就需要考虑反馈带来的变化。
我们都知道,股票等金融数据呈现出混沌的特点,这是一个异常复杂的非线性动力系统,其外力项也是时刻变化,而且这个系统是不稳定的。主要原因在于任何一种对历史数据有稳定获利的策略一旦公开,当所有人都采用类似的技巧的时候,这个策略就会被破坏。因为无论是系统内在行为发生了改变,而且外力也发生了变化。因此,对于金融这样的有人参加的活动,任何可套利的方法或者行为都只能是私密存在,不能公开。所以索罗斯等所谓金融大鳄的所谓技巧只能欺负欺负技能不对称的人群,如第三世界国家,在美国效果就差不少。
当然,这个问题也不完全如此。也存在一些人类行为的共性规律,比如人性的贪婪,社会阶段等诸多共性因素,这些因素可以造成长期可预期的一些规律,这些规律不是简单的模式识别可以解决,还需要深入的研究。一些所谓战略投资结构更加重视这些长远的短期内不大容易变化的趋势。
所有这些问题都涉及一个问题,一个系统采用机器学习,如果系统的输入随着输出的结果变化,这是一种带反馈的机器学习问题。这样带反馈的模式识别方法还没有见到很好的研究。也有一些研究在线学习的,但是其能力要弱得多。毕竟短时间内很难获得很大量的数据,不能用复杂的策略进行识别,难免就有很多的缺点。
三、模式识别应用的普适性;
模式识别总的来说是建立在大数定律基础上的,只能代表大多数。好比高斯分布,只考虑中间部分,两边都由于噪声的问题无法考虑。可是这就带来一个问题,对于社会管理,大多数问题往往并不是难题,只有少数问题才是难题,而这些问题恰恰落在了边界的地方。前面我写过一篇文章说,杰出者总是例外,说的就是这个道理。当我们采用机械的模式识别策略去解决社会问题的时候,我们可能既不能避免最坏的情况,也可能失去了最好的情况。
我们看到很多研究历史长期规律的课题,不管是天气,还是环境,还是社会,都遇到类似的尴尬。我们总是觉得过去的规律研究很清楚了,但是移植到现在依然不能解决问题。历史可以告诉未来,但是这些还都停留在一些否定式的答案中。还没有一个规律是正确无疑并且可以随时拿来所用的。
用现代模式识别的观点看,中医是不可思议的。因为在任何中医的书上都看不到大数据,大多数情况下最多描述几个病例。我们也都知道,这种列举的例子并不能作为普适方法的基础。即便是西医,也遇到临床上的困难,一个简单的西药,尤其是单方,我们可以通过设定一定数量的临床试验来证明该药作为主要因素的价值,可是类似中药这样的非常复杂的多组分药要想通过同样数量的临床试验来证明,就非常困难。这是中医和中药留给机器学习人的一个挑战。美国的FDA正为此而烦恼。
模式识别是用机器模仿人类的一种方法,尽管取得了很大程度的进步,但是就过去短短几十年的发展,还不能说就很完善。未来的前景可能是这样的,如果把模式识别作为盾来用,就不要指望这个盾是廉价的。如果把模式识别作为矛来用,就不要指望这个矛能一直有效,必须不断地升级。最终的结局是矛和盾的代价都很大,才可能获得相应的平衡。这就意味着未来模式识别的发展方向是复杂化和高代价化,否则一旦泄密,就可能存在着廉价的攻击方法。其次,对于带反馈的系统的研究会是下一个热点,研究如何应对反馈而不让系统的性能下降或许是值得的,否则模式识别只能应用于类似于生产线这样的机械系统,而不能用于智能系统中。最后,要想解决更复杂的问题,模式识别还不能过于依赖数据,还需要像人一样,通过少数典型的例子进行合理的外推。这是智慧的表现,所谓举一反三是人类的特权,模式识别如果能做到举一反三,那才可以说到了一定的高度。
上述问题只是一时粗想,权当抛砖引玉。
silong.peng@ia.ac.cn
2015.0706
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 08:52
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社