博文

关于凸优化与梯度下降算法

已有 7584 次阅读 2015-6-30 10:08 |个人分类:学术会议|系统分类:论文交流

今年有两个关于凸优化与梯度下降算法的工作分别在越南的PAKDD2015（2015年亚太知识发现和数据挖掘会议）与葡萄牙的ECML/PKDD2015（2015年欧洲机器学习会议）发表。

PAKDD2015的工作是关于通用型在线及随机梯度下降算法。目前在为大数据问题建立的解决方案中，多数归为求解光滑问题（$C^{1,1}(R^p)$）或者是完全的非光滑问题（$C^{1,0}(R^p)$），而据我们所知，这两类极端之间的中间问题（$C^{1,v}(R^p)$）则鲜有成果。为了填补此空白，本工作则专注于讨论这类中间类型问题的研究。我们提出了一系列不需要预知目标函数光滑程度的通用的在线和随机梯度方法，从而扩展了机器学习所能求解问题的外延。理论的误差和收敛性分析显示我们的算法能够实现线性收敛速率。

ECML2015的工作是关于牛顿型随机梯度下降算法。为了优化两个凸函数的和：其中一是大量光滑凸函数的平均，另一是作为惩罚项或正则项的非光滑凸函数，我们推广并统一了Jascha~cite{sohl2014fast}和Lee~cite{lee2012proximal}最近两项完全不同的工作，提出了近随机牛顿型梯度（PROXimal sTOchastic Newton-type gradient descent，PROXTONE）法。PROXTONE通过结合目标函数的二阶信息（second order information）获得了更强收敛结果，我们不仅使得目标函数值中实现了线性收敛速率，更进一步的在最优解中实现了线形收敛。我们的证明简单并且直观，而从中得出的结论和技巧可以抛砖引玉，引出更多应用二阶信息研究近段随机梯度下降的方法。本文提出的方法和原理可以用于逻辑回归、深度卷积网络训练等。数值试验表明，与已有的方法相比，PROXTONE具有更好的计算性能。