Riemann7的个人博客分享 http://blog.sciencenet.cn/u/Riemann7

博文

关于PROXTONE+、Douglas-Rachford算法和块坐标下降方法

已有 6379 次阅读 2016-12-12 16:48 |个人分类:学术会议|系统分类:科研笔记

今年有三个关于深度学习与凸优化的工作分别在成都的ICSP2016(2016年国际信号处理会议)与在新西兰的ACML2016 WLBD(2016年亚洲机器学习会议,大数据学习论坛)发表。

ICSP2016会议的工作是关于PROXTONE+算法的。其中的PROXTONE是我们在2015提出的一种用于优化大规模非光滑凸问题的新颖而快速的方法。在今年,也就是2016年,我们尝试使用PROXTONE方法解决大规模的非光滑非凸问题,例如稀疏深度神经网络(稀疏DNN)或稀疏卷积神经网络(稀疏CNN)的训练。 PROXTONE收敛比一阶的方法快,而一阶的方法更容易控制解的稀疏性。因此,在一些应用中,为了快速训练稀疏模型,我们提出结合两种方法的优点,即我们在前一个时期使用PROXTONE到达最优解的邻域,然后使用一阶的方法在后一阶段训练中得到稀疏解。我们称这种方法PROXTONE+。在实验中,我们测试了PROXTONE和PROXTONE+,证明这两种方法至少在多种稀疏模型学习问题上收敛速度提高两倍,同时将DNN模型的尺寸减小到0.5%。


ACML2016 WLBD有两个工作报告,其中之一是我们推广了Douglas-Rachford分裂(DRs)方法,以处理在线和随机设置下复合函数的最小化(据我们所知,这是第一次将DR方法推广到在线和随机版本)。我们首先建立批量DRs方法的$ O(1 / \ sqrt {T})$ regret结果。 然后我们证明在线DR分割方法具有$ O(1)$ regret,随机DR分割具有$ O(1 / \ sqrt {T})$的收敛速度。 证明过程是非常简单直观,并且中间涉及到结果和技术可以对使用DRs方法应用到大规模机器学习中提供一点启发。数值实验证明我们提出的方法和结论。

ACML2016 WLBD上的另一个工作是关于无约束大规模光滑,并且具有块坐标Lipschitz连续梯度,的凸函数最小化问题。 块坐标下降(block coordinate descent,BCD)方法是解决这种问题的第一候选优化方案。 在这个工作中,通过使用最近由Drori和Teboulle〜 cite {drori2012performance}提出的一种分析一阶黑箱优化方法性能的性能估计问题(Performance Estimation Problem,PEP)方法,我们从理论上获得一个新的最小上界(我们知道的目前最优),该上界比目前已知的最好结果还要小16p^3。同时数值试验证实了我们的分析。


以上这些工作中,ICSP2016的算法在富士通的主页上有新闻发表,感兴趣的可以移步查阅:

http://www.fujitsu.com/cn/en/about/resources/news/press-releases/2016/frdc-1122.html


http://www.fujitsu.com/cn/about/resources/news/press-releases/2016/frdc-1122.html





https://blog.sciencenet.cn/blog-907554-1020261.html

上一篇:专著《声学事件检测理论与方法》正式出版
下一篇:基于深度学习的短时长声纹认证技术
收藏 IP: 59.151.112.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-16 17:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部