0x00 Preface 本文着眼于分布式机器学习中的收敛性分析,作为第四部分,主要介绍了分布式学习中的收敛性证明,参考主要还是1。同时我们把假设拓展到分布式的 setting 下。
Gradient Unbiased Estimate Assumption $$ \mathbb{E}[g(w;\xi)] = \nabla f(w) $$ Gradient Bounded Variance Assumption $$ \mathrm {Var}(\nabla f(w;\xi)) \leq \sigma^2 $$ 由 $\frac{1}{m} \sum_{i=1}^{m} g\left(w, \xi_{i}\right)$ 为 $\nabla f(w)$ 的可得
...
0x00 Preface 本文着眼于深度学习中的收敛性分析,作为第三部分,主要介绍了深度学习中随机梯度下降的收敛性证明1。相较于上一篇 (Part2) 的梯度下降,随机梯度下降的收敛性证明更加复杂,因为随机梯度下降的梯度是随机的,因此需要引入一些随机变量和假设,一些关于随机梯度下降的定义已经在 Part1 中进行了说明。
...
0x00 Preface 本文着眼于深度学习中的收敛性分析,作为第二部分,主要介绍了深度学习中梯度下降在(强凸光滑/光滑凸/非光滑凸/光滑非凸/非凸情况下)的收敛性证明。对于先前的定义,本文将不再赘述,读者可以先阅读 深度学习中的收敛性分析 (Part 1)。很多内容参考了1,2,3和4,少量参考 5。
...
0x00 Preface 本文着眼于深度学习中的收敛性分析,作为第一部分,首先介绍了深度学习中的优化问题的基本概念以及常见不等式的推导。
笔者并非优化科班出身,因为研究需要所以对这部分内容进行了学习,如本文内容和公式推导有误恳请指出。
...