zengjianping的个人博客分享 http://blog.sciencenet.cn/u/zengjianping

博文

从人工智能写诗看机器学习及应用的关键技术

已有 209 次阅读 2017-10-12 11:23 |系统分类:科研笔记

互联网大数据处理技术与应用专著(清华大学出版社,2017)公众号专注于大数据技术的相关科学和工程知识传播,同时也为读者提供一些拓展阅读材料。关注后可阅读以前推送的原创文章



       最近人工智能似乎被人们认为无所不能,能写诗、能做饭、能看病,但真的如此吗? 有必要写篇文章谈谈人工智能应用中的一些关键技术问题。由于相关技术与应用范围很广,这里以写诗为例进行说明。很多其他类似的机器学习及应用都是同样的原理。

      人工智能的基本策略就是学习,在写诗之前当然需要学习各种不同类型的风格或不同主题的诗歌,学习获得了诗歌的一些基本特征规律,然后基于这些知识进行诗歌生成。这是人工智能写诗的两大基本步骤。

      如果我们想以自然现象景观为主题,来构造诗歌生成器,首先就是收集尽可能多的关于该主题的诗歌集。例如,柳宗元的《江雪》、李白的《望庐山瀑布》等等都是很好的素材。当然作为原始素材需要尽可能多,越多越好。

      接下来,就需要对这些素材进行一些处理,处理的目的是获得语言的基本组成及其关系。对于“千山鸟飞绝,万径人踪灭。”,最基本的语言单位是字,就是千、山、鸟、飞、绝、万、径、人、踪、灭这些。而单纯从单个字看,显然不能很好地描述一些有效的部分,比如“人踪”是一个比较紧凑的词汇,因此需要进行词汇提取。最后处理为千山、鸟、飞、绝、万径、人踪、灭就比较合理了。这种处理称为中文文本的分词,有比较长的研究历史,也有不少成熟的方法。此为关键技术一,也是大数据分析关键技术。

      再进一步如果能把这些组成部分之间的关系表达出来,机器学习到的特征规律就更加准确,比如“飞”是“鸟”所具有的一种动作。这部分的处理难度要比上面一个难得多,涉及到语义问题。此为关键技术二


      处理完毕之后,选择合适的模型,将每篇诗歌以合适的形式表示出来。例如最简单可以用向量空间模型来表示,每个维度就是上述的特征词汇,到了这个步骤,我们获得到所有诗歌的表示,只是把诗歌素材处理为可计算的数据。此为关键技术三,可以选择不同的模型来表达诗歌。


      由于向量很多,接下来选择合适的模型把诗歌素材中的特征规律进行推理运算。这些特征规律包括词汇使用的频次,比如鸟可能会比较鱼用得多。目前可用的模型除了上述的向量空间模型外,LDA模型、PLSA模型等等也都是常用的,模型学习就是要拟合出模型的参数。此为关键技术四


      获得模型之后,根据学习到的模型本身的机制,按照一定方式随机生成。以下是一些未经优化的生成结果,大概围绕着江湖和旁边的花草树木、高冷的山川。此为关键技术五


      复杂一些的优化方法可以引入遗传算法等智能算法,在某种目标函数下产生更好的结果,当然结合人工选择导向就会更合适。以下是我的学生前几年采用这种方法的三个迭代过程,目标函数值越来越好。


   



http://blog.sciencenet.cn/blog-1923127-1080333.html

上一篇:大数据技术的数学基础
下一篇:互联网大数据处理技术与应用的知识体系与教学思考 PPT-226页
收藏 分享 举报

1 赵明

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2017-10-18 01:00

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社

返回顶部