|||
2016年AlphaGO轰动地冲击人类的自信。鲍勃迪伦得了诺贝尔文学奖,IBM请他与机器对话,机器花几秒钟通读了他一生的作品,总结一句话:你的歌曲反映了两种情绪,流逝的光阴和枯萎的爱情。同一个机器花20分钟,读了2000万页文献,给一个医者束手的病患作出建议,救了她的命。经过这段时间科普,爱学习的人对Master完胜人类围棋顶尖高手的战绩不再惊讶了。现在的人工智能,不是几十年前哲学家争论的,影视让大家熟悉的,那种按规则推理的机器。人类创造的精灵通过学习,如同吃了智慧果,自己能知善恶,想制定机器人N定律来规范它的行为,已是逝去的帝王旧梦。这一波的人工智能已是不同种族那样的动物,与我们有同源的智力,它的核心是机器学习。我们不告诉它怎么做,而是提出问题,让它从过去经验中自己得出答案。这个行为模式,注定它的“思考”与我们一样的独立,不听令行禁止,只受我们提问导向和供它学习经验的影响,它很快便能自行收集数据,将来能否自己设问,具备独立的“人格”,我们将与之如何相处,这些问题留给哲学家去苦恼。普罗大众先要考虑与自己切身相关的问题:在今后十来二十年内,对我们的工作,现在的职位,将来的职场有什么影响?
就像“狼来了”听多了一样,大多数人觉得觉得机器智能离成熟还很遥远。经历过几次激动失望后的AI研究者,已经学会谨慎,大多不相信“奇点”之事,只是务实耕耘,低调走出实验室。实际上,早在石破天惊的围棋赛之前,机器学习的人工智能已经无声地渗入我们的生活。当你拿出傻瓜机照相,那聚焦的方块是机器在识别人脸;在信息输入中,机器通过识别手写字、语音或联想的词组帮助你;银行信用卡股市保安情治局,用机器监督流过的巨量数据,对不合常规的模式响起警讯;网上定向弹出各种愈来愈符合你口味的广告,网店不再询问只是根据你购物历史推销产品,旅行、照片或不经意的网上交谈,都成为喂进机器的数据,提供犹如私人定制般的服务。无数的机器围着我们,窥视我们习惯,捕捉偏好模式,发掘私密,更好的服务让我们沉醉其中。你了解后或许承认,它确实影响着我们生活,这是科技进步,很好很喜欢,但这只关商家,工厂和从事AI专业人员的事,与我工作何干?
机器学习不仅仅是大学的课程和研究的项目了。2016年硅谷几乎所有大公司开发部门,都把重兵压在人工智能上,国内业者也不甘其后。如果你生活在旧金山湾区硅谷,会意识到“Machine Learning”,已是职场上的热门词,不是研究所大公司才需要这方面的人才。个性化推荐系统,已是商家必备,这是与机器学习有关的开发项目。过去依靠数据库管理员、统计分析师发掘数据规律只是手工业,要升级到让机器自己去学习去应用,这要懂行的程序员。电器应用程序,只靠固定规则不能学习,现在都不好意思称是具有智能,这要有训练的工程师来开发。机器学习已经到处开课,公司付钱让员工学习。在职工程师上这课不为做研究只为工作要用,会上听得懂。网上搜一下,你会愕然发现不仅工程师在学,也有专门为医生开班设课,用医疗诊断体检数据举例设题。机器图像识别已堪与人匹敌,帮医生看个片,识别病患是现在进行时,综合各种检查报告的数据,判断病症将比专家更胜任。金融管理股市财经保险分析正用机器代替人力。哲学家考虑的全面独立机器人还在远方,专司一智的机器正走近你的身旁,盯着只需要经验判断按规则办事单一技能的脑力职位,不久只需留下一半人辅助補遗,与不知疲倦工作狂的机器偕行。这一波技术进步来的凶猛,改变不是远在下一代人的工作,机器学习正开始冲击医生、律师、管理、教师、科研、工程设计等等几乎所有的工作,不出十年,职场将面目全非。斯坦福教授卡普兰调查说,美国720个职业中47%的人将被人工智能替代,中国会是70%的人。在座的是否想大致了解机器学习能做什么,为什么在这时候爆发,怎么规划自己的定位,在这潮流中如何趋吉避凶?
这一波人工智能技术依靠机器学习,在原理上几乎没有新意,你会发现它们基本还是线性回归、逻辑回归、统计分类、支持向量机(SVM)、神经网络等很早就有东西的新版。它的惊人发展不是在理论上的突破,而是巨量的数据、有效的算法和强大的计算机功能,这些条件的成熟,涌现出巨量的市场应用需求,让它的时代到来。现在实践中被应用的,即使是最新的深度学习,除了一些技术层面的技巧和组合,其原理算法仍然与二三十年前并没多大的不同,基本的算法早已充分研究,通用程序库在各种语言都已开发可供下载。最重要不同点的是,现在较容易拥有巨量的数据和具有能处理这巨量数据的计算机。
人工神经网络研究已有五十多年,计算机视觉研究已有几十年了。我的同学马頌德1986年获得法国计算机视觉与图像处理国家博士,回国后任科学院自动化所模式识别实验室主任,早就用神经网络来探索视觉图像识别,那时国家实验室计算机的功能还远不如现在的手机,训练样本至多上千,神经网络节点不过上百,虽然在研究有许多创见,拘于条件使用成效不彰。近年,斯坦福大学人工智能和视觉实验室主任李飞飞教授主持的ImageNet项目,建有一个有1500万张照片的数据库,涵盖22000种物品,62000不同表现的猫,用这些巨量的样本对2400万个节点,150亿个联接的神经网络进行训练,终于能让机器看懂了一张图。这个突破的关键,是巨量的样本数据和能够处理这些数据的计算机能力的具备。这像三岁小孩认识猫,在巨大的信息和硬件力量碾压下,不用太多技巧,简单、粗暴、有效。2017年她休假去了Google做研究,那里有更多的数据更强的机器。
机器学习的成功由两个方面组成,一是具有瞩目应用成果和巨大潜能的深度学习,复杂多层的神经网络显示出惊人的潜力,但较难被理解和掌控,有许多未知,它需要巨大的计算机和数据资源。主要是研究所和大公司用以彰显成就探索未来,占领高端市场。另一是传统方法在巨量数据和强大计算机运算能力下的应用。在这里,已有较清晰的数学解释和成熟的算法,人与机器协力较多,需要对应用领域的知识和数据表达的选取,以减少对样本和机器资源的需求,作为不断发展中过渡,市场用它大举进入机器学习的时代,开始尝试在各职位上替代人的工作。
最初被网商应用的推荐系统,例如基于内容推荐系统,要先研究对商品特征属性的分类,统计出各商品对这些特征属性的评级;然后用机器在线依顾客对这些属性个人偏好的加权,推荐加权评级较高的商品。这需要较多的人力辅助。而机器学习的矩阵分解推荐系统,通过巨量的顾客购后评分,用机器学习自动产生出商品的属性分类、赋值评级,以及顾客们的偏好;然后依顾客偏好,在线计算出前几个具有偏好加权属性综合最高值的商品,向顾客作出推荐。在训练前,商品在这些特征属性上的评级和顾客对这些特征属性的偏好加权,包括特征属性的含义都是未知的。机器学习通过足够多的样本解出这个线性模型中未知的参数,只要特征属性足够多就能取得足够好的预测。什么才是足够多?简单算一下,对200部电影,采用10个特征属性来描述它们,在顾客购后评分的数据中,至少需要2000人每人都看过10部以上电影,数据库评分的数据要比这2万大得多才行。收集这么多的样本数据,在以前不大可能,在网络时代已经不难,分解这个至少是200x2000的稀疏矩阵,以前不行在今日也不成问题了。
各种个性化推荐系统已被广泛应用,例如依个人喜好推荐服装搭配,依学生答题成绩选择难度适中有针对性的练习题,而这些都不是大项目,是学生们都能玩得动的课题,已有现成通用的算法甚至软件包供你应用。
在2011年最热的算法是矩阵奇异值分解,在推荐系统是矩阵分解。推动机器学习的主力与其说是科学家,不如说是工程师。网络中巨量数据,机器速度和容量的提高,让这些原来小打小闹的技术,焕发出惊人的能量。商业的需求让研究员走出象牙塔,不再纠结于经验与真理的理性困扰,放下追求极致的科学思维,只求经验上的有效更好,便取得了极大的成果。善长与此华人的论文在这领域中便占了43%. 人们愈来愈看清这波技术进步的核心,今天看来,热门词“大数据”显得空泛,数据挖掘(Data Mining)像手工业,而着眼于自动和半自动,从数据中抽取知识的数据科学已经成型,它将是计算机系热门的课。学应用数学的,不妨把目光放在数值计算,巨大维数线性代数的算法,尤其是稀疏矩阵的算法。
理解和应用机器学习,大多数理工科毕业生都具有足够的基础,应用最多的数学知识不过是线性代数、最小二乘法和统计理论。懂得一点编码,就可以动手在自己岗位上做点应用。用现成的软件包,在Mathlib等PC工具上写几行编码就可以计算验证想法。强大的机器已在云中,你只要有数据有项目,Amazon、Microsoft、Google、IBM等公司都有收费专供机器学习的网上服务(Web services),让你使用它们的计算机和现成的程序,训练机器学习的模型做应用,它们的生意是提供机器收机时费(例如Amazon数据分析和训练建模每小时收$0.42,在线应用每次$0.0001)。机器学习时代,机器硬件不是问题,算法软件都已经具备,大公司竞争着提供服务,从只懂得一点概念到想自己设计写算法都能玩机器学习,应用对象领域的知识是关键,数据是王!
作为管理员、质检师、经手大量试验数据的研究人员,也许要日复一日地监测流过物体事件信号或影像。只要你知道什么是正常的,就可以用足够多样本属性的数据给机器学习,你不需要自己归纳研究这些属性值的正常组合,机器学习在属性的空间中自动算出那些正常点和允许的偏差,凡与正常值偏离太多的,都发出警讯供人细究。这个有时在PC上都能实现的简单系统,能让你省心提高效率。
理工生大多都知道线性回归,以前限于计算能力和少量数据,只用来得到简单的经验公式。线性回归是机器学习对数值预测问题的基本手段,不难用增加输入的维数来解决非线性问题,现在有了强大的数据收集手段和计算机功能,有没有想过把你的工作或研究的问题,用新的手段来处理?
对于分类模式的判断,逻辑回归是基本的算法,它就是一个神经元的功能。也许你过去玩过模式识别,神经网络,在那计算机功能低下数据不多的时代,不会有什么成果。现在不同了。
工业革命有段时期,代替人力的新机器喷现,发明家灿如晨星,若曾感叹生不逢其时,现在正是再一次机会,各种条件都已具备,不过时势造英雄,只有捷足者先登。如果你工作多年,有着丰富的专业领域知识,你最接近数据,可能已经拥有或者开始收集它们,你最懂得怎么解读这些数据,也许可以想一想,是你动手让机器学习在你手中开始,管理它,还是等别人让机器学习,瞄准你的位置?
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-5 18:49
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社