博文

关于PROXTONE+、Douglas-Rachford算法和块坐标下降方法

已有 6379 次阅读 2016-12-12 16:48 |个人分类:学术会议|系统分类:科研笔记

今年有三个关于深度学习与凸优化的工作分别在成都的ICSP2016（2016年国际信号处理会议）与在新西兰的ACML2016 WLBD（2016年亚洲机器学习会议，大数据学习论坛）发表。

ICSP2016会议的工作是关于PROXTONE+算法的。其中的PROXTONE是我们在2015提出的一种用于优化大规模非光滑凸问题的新颖而快速的方法。在今年，也就是2016年，我们尝试使用PROXTONE方法解决大规模的非光滑非凸问题，例如稀疏深度神经网络（稀疏DNN）或稀疏卷积神经网络（稀疏CNN）的训练。 PROXTONE收敛比一阶的方法快，而一阶的方法更容易控制解的稀疏性。因此，在一些应用中，为了快速训练稀疏模型，我们提出结合两种方法的优点，即我们在前一个时期使用PROXTONE到达最优解的邻域，然后使用一阶的方法在后一阶段训练中得到稀疏解。我们称这种方法PROXTONE+。在实验中，我们测试了PROXTONE和PROXTONE+，证明这两种方法至少在多种稀疏模型学习问题上收敛速度提高两倍，同时将DNN模型的尺寸减小到0.5％。

ACML2016 WLBD有两个工作报告，其中之一是我们推广了Douglas-Rachford分裂（DRs）方法，以处理在线和随机设置下复合函数的最小化（据我们所知，这是第一次将DR方法推广到在线和随机版本）。我们首先建立批量DRs方法的$ O（1 / \ sqrt {T}）$ regret结果。然后我们证明在线DR分割方法具有$ O（1）$ regret，随机DR分割具有$ O（1 / \ sqrt {T}）$的收敛速度。证明过程是非常简单直观，并且中间涉及到结果和技术可以对使用DRs方法应用到大规模机器学习中提供一点启发。数值实验证明我们提出的方法和结论。

ACML2016 WLBD上的另一个工作是关于无约束大规模光滑，并且具有块坐标Lipschitz连续梯度，的凸函数最小化问题。块坐标下降（block coordinate descent，BCD）方法是解决这种问题的第一候选优化方案。在这个工作中，通过使用最近由Drori和Teboulle〜 cite {drori2012performance}提出的一种分析一阶黑箱优化方法性能的性能估计问题（Performance Estimation Problem，PEP）方法，我们从理论上获得一个新的最小上界（我们知道的目前最优），该上界比目前已知的最好结果还要小16p^3。同时数值试验证实了我们的分析。