思想海洋的远航分享 http://blog.sciencenet.cn/u/xying 系统科学与数学水手札记

博文

能学习的机器正盯着你的职位 精选

已有 13034 次阅读 2017-1-21 08:42 |个人分类:科普|系统分类:观点评述| 人工智能, 科研, 工作, 机器学习

2016年AlphaGO轰动地冲击人类的自信。鲍勃迪伦得了诺贝尔文学奖,IBM请他与机器对话,机器花几秒钟通读了他一生的作品,总结一句话:你的歌曲反映了两种情绪,流逝的光阴和枯萎的爱情。同一个机器花20分钟,读了2000万页文献,给一个医者束手的病患作出建议,救了她的命。经过这段时间科普,爱学习的人对Master完胜人类围棋顶尖高手的战绩不再惊讶了。现在的人工智能,不是几十年前哲学家争论的,影视让大家熟悉的,那种按规则推理的机器。人类创造的精灵通过学习,如同吃了智慧果,自己能知善恶,想制定机器人N定律来规范它的行为,已是逝去的帝王旧梦。这一波的人工智能已是不同种族那样的动物,与我们有同源的智力,它的核心是机器学习。我们不告诉它怎么做,而是提出问题,让它从过去经验中自己得出答案。这个行为模式,注定它的“思考”与我们一样的独立,不听令行禁止,只受我们提问导向和供它学习经验的影响,它很快便能自行收集数据,将来能否自己设问,具备独立的“人格”,我们将与之如何相处,这些问题留给哲学家去苦恼。普罗大众先要考虑与自己切身相关的问题:在今后十来二十年内,对我们的工作,现在的职位,将来的职场有什么影响?

就像“狼来了”听多了一样,大多数人觉得觉得机器智能离成熟还很遥远。经历过几次激动失望后的AI研究者,已经学会谨慎,大多不相信“奇点”之事,只是务实耕耘,低调走出实验室。实际上,早在石破天惊的围棋赛之前,机器学习的人工智能已经无声地渗入我们的生活。当你拿出傻瓜机照相,那聚焦的方块是机器在识别人脸;在信息输入中,机器通过识别手写字、语音或联想的词组帮助你;银行信用卡股市保安情治局,用机器监督流过的巨量数据,对不合常规的模式响起警讯;网上定向弹出各种愈来愈符合你口味的广告,网店不再询问只是根据你购物历史推销产品,旅行、照片或不经意的网上交谈,都成为喂进机器的数据,提供犹如私人定制般的服务。无数的机器围着我们,窥视我们习惯,捕捉偏好模式,发掘私密,更好的服务让我们沉醉其中。你了解后或许承认,它确实影响着我们生活,这是科技进步,很好很喜欢,但这只关商家,工厂和从事AI专业人员的事,与我工作何干?

机器学习不仅仅是大学的课程和研究的项目了。2016年硅谷几乎所有大公司开发部门,都把重兵压在人工智能上,国内业者也不甘其后。如果你生活在旧金山湾区硅谷,会意识到“Machine Learning”,已是职场上的热门词,不是研究所大公司才需要这方面的人才。个性化推荐系统,已是商家必备,这是与机器学习有关的开发项目。过去依靠数据库管理员、统计分析师发掘数据规律只是手工业,要升级到让机器自己去学习去应用,这要懂行的程序员。电器应用程序,只靠固定规则不能学习,现在都不好意思称是具有智能,这要有训练的工程师来开发。机器学习已经到处开课,公司付钱让员工学习。在职工程师上这课不为做研究只为工作要用,会上听得懂。网上搜一下,你会愕然发现不仅工程师在学,也有专门为医生开班设课,用医疗诊断体检数据举例设题。机器图像识别已堪与人匹敌,帮医生看个片,识别病患是现在进行时,综合各种检查报告的数据,判断病症将比专家更胜任。金融管理股市财经保险分析正用机器代替人力。哲学家考虑的全面独立机器人还在远方,专司一智的机器正走近你的身旁,盯着只需要经验判断按规则办事单一技能的脑力职位,不久只需留下一半人辅助補遗,与不知疲倦工作狂的机器偕行。这一波技术进步来的凶猛,改变不是远在下一代人的工作,机器学习正开始冲击医生、律师、管理、教师、科研、工程设计等等几乎所有的工作,不出十年,职场将面目全非。斯坦福教授卡普兰调查说,美国720个职业中47%的人将被人工智能替代,中国会是70%的人。在座的是否想大致了解机器学习能做什么,为什么在这时候爆发,怎么规划自己的定位,在这潮流中如何趋吉避凶?

这一波人工智能技术依靠机器学习,在原理上几乎没有新意,你会发现它们基本还是线性回归、逻辑回归、统计分类、支持向量机(SVM)、神经网络等很早就有东西的新版。它的惊人发展不是在理论上的突破,而是巨量的数据、有效的算法和强大的计算机功能,这些条件的成熟,涌现出巨量的市场应用需求,让它的时代到来。现在实践中被应用的,即使是最新的深度学习,除了一些技术层面的技巧和组合,其原理算法仍然与二三十年前并没多大的不同,基本的算法早已充分研究,通用程序库在各种语言都已开发可供下载。最重要不同点的是,现在较容易拥有巨量的数据和具有能处理这巨量数据的计算机。

人工神经网络研究已有五十多年,计算机视觉研究已有几十年了。我的同学马頌德1986年获得法国计算机视觉与图像处理国家博士,回国后任科学院自动化所模式识别实验室主任,早就用神经网络来探索视觉图像识别,那时国家实验室计算机的功能还远不如现在的手机,训练样本至多上千,神经网络节点不过上百,虽然在研究有许多创见,拘于条件使用成效不彰。近年,斯坦福大学人工智能和视觉实验室主任李飞飞教授主持的ImageNet项目,建有一个有1500万张照片的数据库,涵盖22000种物品,62000不同表现的猫,用这些巨量的样本对2400万个节点,150亿个联接的神经网络进行训练,终于能让机器看懂了一张图。这个突破的关键,是巨量的样本数据和能够处理这些数据的计算机能力的具备。这像三岁小孩认识猫,在巨大的信息和硬件力量碾压下,不用太多技巧,简单、粗暴、有效。2017年她休假去了Google做研究,那里有更多的数据更强的机器。

机器学习的成功由两个方面组成,一是具有瞩目应用成果和巨大潜能的深度学习,复杂多层的神经网络显示出惊人的潜力,但较难被理解和掌控,有许多未知,它需要巨大的计算机和数据资源。主要是研究所和大公司用以彰显成就探索未来,占领高端市场。另一是传统方法在巨量数据和强大计算机运算能力下的应用。在这里,已有较清晰的数学解释和成熟的算法,人与机器协力较多,需要对应用领域的知识和数据表达的选取,以减少对样本和机器资源的需求,作为不断发展中过渡,市场用它大举进入机器学习的时代,开始尝试在各职位上替代人的工作。

最初被网商应用的推荐系统,例如基于内容推荐系统,要先研究对商品特征属性的分类,统计出各商品对这些特征属性的评级;然后用机器在线依顾客对这些属性个人偏好的加权,推荐加权评级较高的商品。这需要较多的人力辅助。而机器学习的矩阵分解推荐系统,通过巨量的顾客购后评分,用机器学习自动产生出商品的属性分类、赋值评级,以及顾客们的偏好;然后依顾客偏好,在线计算出前几个具有偏好加权属性综合最高值的商品,向顾客作出推荐。在训练前,商品在这些特征属性上的评级和顾客对这些特征属性的偏好加权,包括特征属性的含义都是未知的。机器学习通过足够多的样本解出这个线性模型中未知的参数,只要特征属性足够多就能取得足够好的预测。什么才是足够多?简单算一下,对200部电影,采用10个特征属性来描述它们,在顾客购后评分的数据中,至少需要2000人每人都看过10部以上电影,数据库评分的数据要比这2万大得多才行。收集这么多的样本数据,在以前不大可能,在网络时代已经不难,分解这个至少是200x2000的稀疏矩阵,以前不行在今日也不成问题了。

各种个性化推荐系统已被广泛应用,例如依个人喜好推荐服装搭配,依学生答题成绩选择难度适中有针对性的练习题,而这些都不是大项目,是学生们都能玩得动的课题,已有现成通用的算法甚至软件包供你应用。

2011年最热的算法是矩阵奇异值分解,在推荐系统是矩阵分解。推动机器学习的主力与其说是科学家,不如说是工程师。网络中巨量数据,机器速度和容量的提高,让这些原来小打小闹的技术,焕发出惊人的能量。商业的需求让研究员走出象牙塔,不再纠结于经验与真理的理性困扰,放下追求极致的科学思维,只求经验上的有效更好,便取得了极大的成果。善长与此华人的论文在这领域中便占了43%. 人们愈来愈看清这波技术进步的核心,今天看来,热门词“大数据”显得空泛,数据挖掘(Data Mining)像手工业,而着眼于自动和半自动,从数据中抽取知识的数据科学已经成型,它将是计算机系热门的课。学应用数学的,不妨把目光放在数值计算,巨大维数线性代数的算法,尤其是稀疏矩阵的算法。

理解和应用机器学习,大多数理工科毕业生都具有足够的基础,应用最多的数学知识不过是线性代数、最小二乘法和统计理论。懂得一点编码,就可以动手在自己岗位上做点应用。用现成的软件包,在MathlibPC工具上写几行编码就可以计算验证想法。强大的机器已在云中,你只要有数据有项目,AmazonMicrosoftGoogleIBM等公司都有收费专供机器学习的网上服务(Web services),让你使用它们的计算机和现成的程序,训练机器学习的模型做应用,它们的生意是提供机器收机时费(例如Amazon数据分析和训练建模每小时收$0.42,在线应用每次$0.0001)。机器学习时代,机器硬件不是问题,算法软件都已经具备,大公司竞争着提供服务,从只懂得一点概念到想自己设计写算法都能玩机器学习,应用对象领域的知识是关键,数据是王!

作为管理员、质检师、经手大量试验数据的研究人员,也许要日复一日地监测流过物体事件信号或影像。只要你知道什么是正常的,就可以用足够多样本属性的数据给机器学习,你不需要自己归纳研究这些属性值的正常组合,机器学习在属性的空间中自动算出那些正常点和允许的偏差,凡与正常值偏离太多的,都发出警讯供人细究。这个有时在PC上都能实现的简单系统,能让你省心提高效率。

理工生大多都知道线性回归,以前限于计算能力和少量数据,只用来得到简单的经验公式。线性回归是机器学习对数值预测问题的基本手段,不难用增加输入的维数来解决非线性问题,现在有了强大的数据收集手段和计算机功能,有没有想过把你的工作或研究的问题,用新的手段来处理?

对于分类模式的判断,逻辑回归是基本的算法,它就是一个神经元的功能。也许你过去玩过模式识别,神经网络,在那计算机功能低下数据不多的时代,不会有什么成果。现在不同了。

工业革命有段时期,代替人力的新机器喷现,发明家灿如晨星,若曾感叹生不逢其时,现在正是再一次机会,各种条件都已具备,不过时势造英雄,只有捷足者先登。如果你工作多年,有着丰富的专业领域知识,你最接近数据,可能已经拥有或者开始收集它们,你最懂得怎么解读这些数据,也许可以想一想,是你动手让机器学习在你手中开始,管理它,还是等别人让机器学习,瞄准你的位置?




世纪人机大战:李世石 VS AlphaGo
https://blog.sciencenet.cn/blog-826653-1028970.html

上一篇:趣谈病态模型
下一篇:了解点机器学习
收藏 IP: 50.156.25.*| 热度|

51 尤明庆 易会广 刘全慧 李贤伟 曹俊 梁进 王涛 张学文 董焱章 侯沉 宁利中 康惠骏 李英杰 岳雷 李春杰 徐令予 田云川 王启云 王宏琳 姬扬 檀成龙 朱豫才 沙晨 万仁甫 韦玉程 张骥 张华容 王大岗 鲍海飞 李久煊 李竞 彭思龙 刘博 李颖业 赵凤光 赵美娣 林涛 翟自洋 gaut forumkx xlsd mathqa yunmu jimiyg shenlu yangb919 xiyouxiyou aliala dreamworld changtg tuner

该博文允许注册用户评论 请点击登录 评论 (57 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-28 19:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部