0x00 Preface

本文着眼于深度学习中的收敛性分析,作为第二部分,主要介绍了深度学习中梯度下降在(强凸光滑/光滑凸/非光滑凸/光滑非凸/非凸情况下)的收敛性证明。对于先前的定义,本文将不再赘述,读者可以先阅读 深度学习中的收敛性分析 (Part 1)。很多内容参考了1,2,34,少量参考 5

0x01 Definition of Convergence

通常,深度学习的优化问题可以表示为

$$ \min_{w} f(w) $$

其中,$w$ 是待优化的参数,$f(w)$ 是待优化的目标函数。在深度学习中,我们通常使用梯度下降法来求解优化问题,即

$$ w_{t+1} = w_t - \eta \nabla f(w_t) $$

而一个梯度方法是收敛的可以从三个方面来定义:

  1. 目标函数值收敛到最优值:$\mathbb{E} f(w_T) - f^* \leq \epsilon(T)$,其中 $f^*$ 是目标函数的最优值

  2. 迭代序列收敛到最优解:$\mathbb{E} ||w_T - w^*||^2 \leq \epsilon(T)$,其中 $w^*$ 是参数的最优解

如果,$\epsilon(T) \to 0$,那么我们称这个梯度方法是收敛的。对于收敛优化算法,它们的收敛速率可能并不相同,通常,用 $\log \epsilon(T)$ 的衰减速率来定义优化算法的收敛速率。

  • 1) 如果 $\log \epsilon(T)$ 与 $-T$ 同阶,那么我们称这个算法具有线性收敛速率
  • 2) 如果 $\log \epsilon(T)$ 比 $-T$ 衰减速度慢,那么我们称这个算法具有次线性收敛速率
  • 3) 如果 $\log \epsilon(T)$ 比 $-T$ 衰减速度快,那么我们称这个算法具有超线性收敛速率,进一步地,如果 $\log \log \epsilon(T)$ 与 $-T$ 同阶,那么我们称这个算法具有二阶收敛速率

而在非凸优化中,由于可能存在多个局部极小点,不容易找到全局最优,因此考虑算法能否收敛到梯度为 0 的临界点。

  1. 利用梯度的遍历距离作为度量:$\min_{t=1,\cdots,T} \mathbb{E} ||\nabla f(w_T)||^2 \leq \epsilon(T)$ 或者 $\frac{1}{T}\sum_{t=1}^{T}\mathbb{E}||\nabla f(w_{t})||^2$ 趋于 0

info

下面将从最强的假设 强凸+光滑 开始,逐步放松条件进行分析。

0x02 Smooth Strongly Convex with GD

defination

假设目标函数 $f$ 是 $R^{d}$ 上的$\mu$-强凸函数,并且 $L$-光滑,当步长 $\eta \leq \frac{1}{L}$ 且起始点为 $w_0$ 时,经过 $t$ 步迭代,$f(w_T)$ 被 bounded 如下:
$$ f\left(w_{t}\right)-f^{*} \leq (1-\eta \mu)^{t}\left(f\left(w_{0}\right)-f^{*}\right) $$

Proof:

tip

先说一个整体的证明思路,大致下面的内容也是这样的,先证明单步迭代的 bounded,然后再利用数学归纳法证明多步迭代的 bounded。其间会通过对 $\eta$ 的取值进行限制(往往通过二次函数的顶点来确定,或者双曲函数来确定)。同时注意,光滑性给了函数的一个上界,强凸性给了函数的一个下界,有时候为了统一不等式符号方向,会对函数取负号。 同时,哪怕是对函数同样的假设,在不同的 $\eta$ 设置中和不同的 bounded 中,也会有不同的收敛速率。

先看单步迭代:

$$ \begin{aligned} f\left(w_{t+1}\right)-f\left(w_{t}\right) &=f\left(w_{t}-\eta \nabla f\left(w_{t}\right)\right)-f\left(w_{t}\right) \\ & \leq \nabla f\left(w_{t}\right)^{\top}\left(w_{t}-\eta \nabla f\left(w_{t}\right)-w_{t}\right)+\frac{L}{2}\left\|w_{t}-\eta \nabla f\left(w_{t}\right)-w_{t}\right\|^{2} \\ &=-\eta \left\|\nabla f\left(w_{t}\right)\right\|^{2}+\frac{L}{2} \eta ^{2}\left\|\nabla f\left(w_{t}\right)\right\|^{2} \\ &=\left(\frac{L}{2} \eta ^{2}-\eta \right)\left\|\nabla f\left(w_{t}\right)\right\|^{2} \end{aligned} $$

这时候我们通过对两项都添加负号,然后利用二次函数的顶点来确定 $\eta$ 的取值,同时希望用上强凸函数导出的性质,即

$$ 2\mu (f(x)-f^{*}) \leq \|\nabla f(x)\|^2 $$

于是有

$$ \begin{aligned} f\left(w_{t+1}\right)-f\left(w_{t}\right) &\leq \eta \left(1-\frac{L}{2} \eta \right)\left(-\left\|\nabla f\left(w_{t}\right)\right\|^{2}\right) \\ & \leq \eta \left(1-\frac{L}{2} \eta \right)\left(2\mu \left(f\left(w_{t}\right)-f^{*}\right)\right) \end{aligned} $$

这时,我们令 $\eta \leq \frac{1}{L}$,则有 $(1-\frac{L}{2} \eta ) \geq \frac{1}{2}$,于是有

$$ f\left(w_{t+1}\right)-f\left(w_{t}\right) \leq -\eta \mu (f\left(w_{t}\right)-f^{*}) $$

注意到,左右都是关于 $f(x)$ 的式子,在左边 $+-f^*$,得到

$$ f\left(w_{t+1}\right)-f^{*}+f^{*}-f\left(w_{t}\right) \leq -\eta \mu (f\left(w_{t}\right)-f^{*}) \\ \Rightarrow f\left(w_{t+1}\right)-f^{*} \leq (1-\eta \mu) (f\left(w_{t}\right)-f^{*}) $$

后面就归纳一下:

$$ \begin{aligned} f\left(w_{t+1}\right)-f^{*} & \leq(1-\eta \mu)\left(f\left(w_{t}\right)-f^{*}\right) \\ & \leq(1-\eta \mu)\left(1-\eta \mu\right)\left(f\left(w_{t-1}\right)-f^{*}\right) \\ & \leq \cdots \\ & \leq(1-\eta \mu) \cdots(1-\eta \mu)\left(f\left(w_{1}\right)-f^{*}\right) \\ & \leq(1-\eta \mu)^{t+1}\left(f\left(w_{0}\right)-f^{*}\right) \end{aligned} $$

现在,我们得到了 boundary,来计算一下复杂度。

根据复杂度的定义,令 $f(w_t)-f^* \leq \epsilon$,则有

$$ (1-\eta \mu)^{t}(f(w_0)-f^*) \leq \epsilon \\ \Rightarrow t\log (1-\eta \mu) + \log (f(w_0)-f^*) \leq \log \epsilon \\ \Rightarrow t\log \frac{1}{1-\eta \mu} - \log (f(w_0)-f^*) \geq \log \frac{1}{\epsilon} \\ \Rightarrow t=O(\log \frac{1}{\epsilon}) $$

tip

其中,$Q=\frac{L}{\mu}$,一般被称为条件数。 从 0x02 和 0x03,我们对梯度下降法的收敛性质有以下讨论: 1. 当目标函数是强凸函数时,梯度下降法的收敛速率是线性的;当目标函数是凸函数时,其收敛速率是次线性的。也就是说,强凸性质会大大提高梯度下降法的收敛速率。进一步地,强凸性之越好(即$\mu$ 越大),条件数 $Q$ 越小,收敛越快。 2. 光滑性质在凸和强凸两种情形下都会加快梯度下降法的收敛速率,即 $L$ 越小(强凸情况下,条件数 $Q$ 越小),收敛越快。

0x03 Smooth Convex with GD

defination

假设目标函数 $f$ 是 $R^{d}$ 上的凸函数,并且 $L$-光滑,当步长 $\eta =\frac{1}{L}$ 且起始点为 $w_0$ 时,经过 $t$ 步迭代,$f(w_t)$ 被 bounded 如下:
$$ f\left(w_{t}\right)-f^{*} \leq \frac{L}{2T} || w_{0} - w^{*} ||^{2} $$

Proof:

由上面的证明,我们已经知道在 $L$-光滑的情况下,有

$$ f(w_{t+1})-f(w_{t}) \leq \eta \left(1-\frac{L}{2} \eta \right)\left(-\left\|\nabla f\left(w_{t}\right)\right\|^{2}\right) $$

根据凸性质,有

$$ f(w_{t})-f^{*} \leq \nabla f(w_{t})^{\top}(w_{t}-w^{*}) $$

根据梯度下降有等式

$$ \left \| w_{t+1} - w^{*} \right \|^{2} = \left \| w_{t} - w^{*} \right \|^{2} - 2 \eta \nabla f(w_{t})^{\top}(w_{t}-w^{*}) + \eta^{2} \left \| \nabla f(w_{t}) \right \|^{2} $$

我们用 GD 得到的等式中的 $\nabla f(w_{t})^{\top}(w_{t}-w^{*})$ 替换掉凸性质中的,有

$$ \begin{aligned} f(w_{t+1})-f^{*} &= f(w_{t+1})-f(w_{t})+f(w_{t})-f^{*} \\ & \leq \eta \left(1-\frac{L}{2} \eta \right)\left(-\left\|\nabla f\left(w_{t}\right)\right\|^{2}\right) + \nabla f(w_{t})^{\top}(w_{t}-w^{*}) \\ &= \eta \left(1-\frac{L}{2} \eta \right)\left(-\left\|\nabla f\left(w_{t}\right)\right\|^{2}\right) + \frac{1}{2\eta} \left \| w_{t} - w^{*} \right \|^{2} - \frac{1}{2\eta} \left \| w_{t+1} - w^{*} \right \|^{2} + \frac{\eta}{2} \left \| \nabla f(w_{t}) \right \|^{2} \\ & = (\frac{L}{2}\eta ^2-\eta + \frac{\eta}{2}) \left \| \nabla f(w_{t}) \right \|^{2} + \frac{1}{2\eta} \left \| w_{t} - w^{*} \right \|^{2} - \frac{1}{2\eta} \left \| w_{t+1} - w^{*} \right \|^{2} \\ & = \frac{\eta}{2}(L\eta - 1) \left \| \nabla f(w_{t}) \right \|^{2} + \frac{1}{2\eta} \left \| w_{t} - w^{*} \right \|^{2} - \frac{1}{2\eta} \left \| w_{t+1} - w^{*} \right \|^{2} \end{aligned} $$

注意这里,我们令 $\eta = \frac{1}{L}$,于是就能够将 $||\nabla f(w_{t})||^2$ 的项消去,这个取值其实是从 $f(w_{t+1})-f(w_{t})$ 的不等式中取值得到的,因为要小于最小值,后面其实是一个等式替换,不涉及 $\eta$ 的取值。

$$ f(w_{t+1})-f^{*} \leq \frac{L}{2} \left \| w_{t} - w^{*} \right \|^{2} - \frac{L}{2} \left \| w_{t+1} - w^{*} \right \|^{2} $$

看到这个相比就知道后面怎么做了,就是一个求和了

$$ \begin{aligned} \sum_{t=0}^{T} f(w_{t+1})-f^{*} &\leq \frac{L}{2} \sum_{t=0}^{T} \left \| w_{t} - w^{*} \right \|^{2} - \frac{L}{2} \sum_{t=0}^{T-1} \left \| w_{t+1} - w^{*} \right \|^{2} \\ &= \frac{L}{2} \left \| w_{0} - w^{*} \right \|^{2} - \frac{L}{2} \left \| w_{T+1} - w^{*} \right \|^{2} \\ &\leq \frac{L}{2} \left \| w_{0} - w^{*} \right \|^{2} \end{aligned} $$

注意等式左边也可以继续进行放缩,即

$$ \min_{t=1,\cdots,T} f(w_{t})-f^{*} \leq \frac{L}{2T} \left \| w_{0} - w^{*} \right \|^{2} $$

证毕。

这时候,我们得到了 boundary,来计算一下复杂度。

根据复杂度的定义,令 $f(w_t)-f^* \leq \epsilon$,则有

$$ f(w_{t}-f^{*}) \leq \frac{L}{2T} \left \| w_{0} - w^{*} \right \|^{2} \leq \epsilon \\ T \geq \frac{L}{2\epsilon} \left \| w_{0} - w^{*} \right \|^{2} \\ \Rightarrow T=O(\frac{1}{\epsilon}) $$

是次线性的收敛速率。

0x04 Non-smooth Convex with GD

如果我们仅剩凸性质,那么必须加上梯度有界的假设才能 bound 住,从而保证收敛,因而我们可以得到如下的结论:

defination

假设目标函数 $f$ 是 $R^{d}$ 上的凸函数,当步长 $\eta =\frac{f(w_{0})-f^*}{\sqrt{T+1}G}$ 且起始点为 $w_{0}$ 时,经过 $t$ 步迭代,$f(w_{t})$ 被 bounded 如下:
$$ \min_{t=0,\cdots,T} f\left(w_{t}\right)-f^{*} \leq \frac{G||w_{0}-w^{*}||^{2}}{\sqrt{T+1}} $$

Proof:

其实和上面是大概相同的思路,有

$$ \begin{aligned} f(w_{t})-f^{*} &\leq \nabla f(w_{t})^{\top}(w_{t}-w^{*}) \\ &= \frac{1}{2\eta} \left \| w_{t} - w^{*} \right \|^{2} - \frac{1}{2\eta} \left \| w_{t+1} - w^{*} \right \|^{2} + \frac{\eta}{2} \left \| \nabla f(w_{t}) \right \|^{2} \\ &\leq \frac{1}{2\eta} \left \| w_{t} - w^{*} \right \|^{2} - \frac{1}{2\eta} \left \| w_{t+1} - w^{*} \right \|^{2} + \frac{\eta}{2} G^{2} \end{aligned} $$

同样对左右进行求和

$$ \begin{aligned} \sum_{t=0}^{T} f(w_{t})-f^{*} &\leq \sum_{t=0}^{T} \frac{1}{2\eta} (\left \| w_{t} - w^{*} \right \|^{2} - \left \| w_{t+1} - w^{*} \right \|^{2}) + (T+1) \frac{\eta}{2} G^{2} \\ &= \frac{1}{2\eta} \left \| w_{0} - w^{*} \right \|^{2} - \frac{1}{2\eta} \left \| w_{T+1} - w^{*} \right \|^{2} + \frac{\eta (T+1)}{2} G^{2} \\ &\leq \frac{1}{2\eta} \left \| w_{0} - w^{*} \right \|^{2} + \frac{\eta (T+1)}{2} G^{2} \\ \end{aligned} $$

$$ \min_{t=0,\cdots,T} f\left(w_{t}\right)-f^{*} \leq \frac{1}{2\eta (T+1)} \left \| w_{0} - w^{*} \right \|^{2} + \frac{\eta}{2}G^{2} $$

根据小学二年级的对勾函数,我们有当 $\eta = \sqrt{\frac{||w_{0}-w^{}||^{2}}{G^{2}(T+1)}}=\frac{||w_{0}-w^{}||}{G\sqrt{T+1}}$ 时,有

$$ \min_{t=0,\cdots,T} f\left(w_{t}\right)-f^{*} \leq \frac{G||w_{0}-w^{*}||^{2}}{\sqrt{T+1}} $$

证毕。

复杂度很容易就看出来

$$ \frac{G||w_{0}-w^{*}||^{2}}{\sqrt{T+1}} \leq \epsilon \\ T \geq \frac{G^{2}||w_{0}-w^{*}||^{2}}{\epsilon^{2}} \\ \Rightarrow T=O(\frac{1}{\epsilon^{2}}) $$

是次线性的收敛速率。

这里有一个 Alternative 的方法,反着推比较容易,我个人觉得不太容易从正面想到。

defination

假设目标函数 $f$ 是 $R^{d}$ 上的凸函数,当步长 $\eta = \frac{f(w_{t})-f^{*}}{||\nabla f(w_{t})||^2}$ 且起始点为 $w_{0}$ 时,经过 $t$ 步迭代,$f(w_{t})$ 被 bounded 如下:
$$ \min_{t=0}^{T} f(w_{t})-f^{*}\leq \frac{G\left \|| w_{0}-w_{*}\right \||}{\sqrt{T+1}} $$

Proof:

从梯度下降出发:

$$ \begin{aligned} \left \|w_{t+1}-w^{*}\right \|^{2} &= \left \|w_{t}-\eta \nabla f(w_{t})-w^{*}\right \|^{2} \\ &= \left \|w_{t}-w^{*}\right \|^{2} - 2\eta \nabla f(w_{t})^{\top}(w_{t}-w^{*}) + \eta^{2} \left \| \nabla f(w_{t}) \right \|^{2} \\ &= \left \|w_{t}-w^{*}\right \|^{2} - 2\eta (f(w_{t})-f^{*}) + \eta^{2} \left \| \nabla f(w_{t}) \right \|^{2} \end{aligned} $$

这时,是一个关于 $\eta$ 的二次函数,直接令 $\eta = \frac{f(w_{t})-f^{*}}{||\nabla f(w_{t})||^2}$,这个也称为 Polyak 步长,于是有

$$ \left \|w_{t+1}-w^{*}\right \|^{2} \leq \left \|w_{t}-w^{*}\right \|^{2} - \frac{(f(w_{t})-f^{*})^{2}}{||\nabla f(w_{t})||^{2}} $$

移项得到

$$ (f(w_{t})-f^{*})^{2} \leq ||\nabla f(w_{t})||^{2} (\left \|w_{t}-w^{*}\right \|^{2} - \left \|w_{t+1}-w^{*}\right \|^{2}) \\ \sum_{t=0}^{T} (f(w_{t})-f^{*})^{2} \leq \sum_{t=0}^{T} G^{2} (\left \|w_{t}-w^{*}\right \|^{2} - \left \|w_{t+1}-w^{*}\right \|^{2}) \\ \Rightarrow \min_{t=0}^{T} (f(w_{t})-f^{*})^{2} \leq \frac{G^2\left \| w_{0}-w_{*}\right \|^2}{T+1} \\ \Rightarrow \min_{t=0}^{T} (f(w_{t})-f^{*}) \leq \frac{G\left \| w_{0}-w_{*}\right \|}{\sqrt{T+1}} $$

与上面方法选择的 $\eta$ 不同,但是有相同的收敛速率。

0x05 Smooth non-convex with GD

defination

假设目标函数 $f$ 是 $R^{d}$ 上的 $L$-光滑函数,当步长 $\eta =\frac{1}{L}$ 且起始点为 $w_0$ 时,经过 $t$ 步迭代,$f(w_t)$ 被 bounded 如下:
$$ \min_{t=0,\cdots,T} \left\||\nabla f(w_{t})\right\||^{2} \leq \frac{2L (f(w_{0})-f(w^{*}))}{(T+1)} $$

Proof:

我们直接从上面的结论出发,有

$$ \begin{align} f(w_{t+1})-f(w_{t}) &\leq \eta \left(1-\frac{L}{2} \eta \right)\left(-\left\|\nabla f\left(w_{t}\right)\right\|^{2}\right) \\ \eta (1-\frac{L}{2}\eta) \left\|\nabla f\left(w_{t}\right)\right\|^{2} &\leq f(w_{t})-f(w_{t+1}) \end{align} $$

左边取最大值,即 $\eta = \frac{1}{L}$,有

$$ \frac{1}{2L} \left\|\nabla f\left(w_{t}\right)\right\|^{2} \leq f(w_{t})-f(w_{t+1}) $$

简单求和,再放缩一下:

$$ \begin{aligned} \sum_{t=0}^{T} \frac{1}{2L} \left\|\nabla f\left(w_{t}\right)\right\|^{2} &\leq \sum_{t=0}^{T} f(w_{t})-f(w_{t+1}) \\ &= f(w_{0})-f(w_{T+1}) \\ &\leq f(w_{0})-f(w^{*}) \end{aligned} $$

证毕。

0x06 Strongly Convex and Non-smooth with GD

好了到这里只剩最后一个了,但注意这里除了强凸性,还需要 $L$-Lipschitz 连续性,相当于各点梯度一致有界,至少梯度不能直接飞了…

defination

假设目标函数 $f$ 是 $R^{d}$ 上的 $\mu$-强凸函数,且 $L$-Lipschitz 连续,当步长 $\eta_{t} =\frac{2}{\eta (t+1)}$ 且起始点为 $w_0$ 时,经过 $t$ 步迭代,$f(w_t)$ 被 bounded 如下:
$$ \min_{t=0,\cdots,T} f(w_{t})-f^{*} \leq \frac{2L^{2}}{\mu (T+1)} $$

Proof:

由 GD 和 强凸性

$$ \left \| w_{t+1} - w^{*} \right \|^{2} = \left \| w_{t} - w^{*} \right \|^{2} - 2 \eta \nabla f(w_{t})^{\top}(w_{t}-w^{*}) + \eta^{2} \left \| \nabla f(w_{t}) \right \|^{2} \\ \leq (1-\eta \mu ) \left \| w_{t} - w^{*} \right \|^{2} - 2 \eta (f(w_{t})-f^{*}) + \eta^{2} \left \| \nabla f(w_{t}) \right \|^{2} $$

有 $L$-Lipschitz 连续性

$$ |f(w_{t}) - f^{*}| \leq L \left \| w_{t} - w^{*} \right \| \\ \frac{f(w_{t}) - f^{*}}{\left \| w_{t} - w^{*} \right \|} = \left \| \nabla f(w_{t}) \right \| \leq L $$

于是有

$$ \begin{aligned} f(w_{t})-f^{*} &\leq \frac{1}{2 \eta} (1-\eta \mu ) \left \| w_{t} - w^{*} \right \|^{2} - \frac{1}{2 \eta} \left \| w_{t+1} - w^{*} \right \|^{2} + \frac{\eta}{2} L^{2} \\ &= \frac{1}{2 \eta} (1-\eta \mu ) \left \| w_{t} - w^{*} \right \|^{2} - \frac{1}{2 \eta} \left \| w_{t} - w^{*} \right \|^{2} + \frac{1}{2 \eta} \left \| w_{t} - w^{*} \right \|^{2} - \frac{1}{2 \eta} \left \| w_{t+1} - w^{*} \right \|^{2} + \frac{\eta}{2} L^{2} \\ &= - \frac{\mu}{2} \left \| w_{t} - w^{*} \right \|^{2} + \frac{\eta}{2}L^2 + \frac{1}{2 \eta} \left \| w_{t} - w^{*} \right \|^{2} - \frac{1}{2 \eta} \left \| w_{t+1} - w^{*} \right \|^{2} \end{aligned} $$

正常求和放缩可能只能得到次线性的收敛速率,如果配方裂项,可以得到一个更紧的 bound。通过解方程的方法设 $t$ 项的系数为 $c\cdot (t-1)$ (注意到最后有一个常数项需要乘 $t$ 之后才方便放缩,则有

$$ \left\{\begin{matrix} c\cdot (t-1) = x - \mu \\ c\cdot (t+1) = x \end{matrix}\right. $$

解得

$$ \left\{\begin{matrix} c = \frac{\mu}{2} \\ x = \frac{\mu(t+1)}{2} \end{matrix}\right. $$

也就是,$\frac{1}{\eta} = \frac{\mu(t+1)}{2}$,即 $\eta = \frac{2}{\mu (t+1)}$,于是有

$$ \begin{aligned} f(w_{t})-f^{*} &\leq \frac{1}{8} [\mu (t-1) \left \| w_{t} - w^{*} \right \|^{2} - \mu (t+1) \left \| w_{t+1} - w^{*} \right \|^{2}] + \frac{1}{\mu (t+1)}L^2 \\ t(f(w_{t})-f^{*}) &\leq \frac{1}{8} [\mu t(t-1) \left \| w_{t} - w^{*} \right \|^{2} - \mu t(t+1) \left \| w_{t+1} - w^{*} \right \|^{2}] + \frac{t}{\mu (t+1)}L^2 \\ \sum_{t=0}^{T} t(f(w_{t})-f^{*}) &\leq \frac{1}{8} [0 - \mu T(T+1) \left \| w_{T+1} - w^{*} \right \|^{2}] + \frac{T}{\mu}L^2 \\ \sum_{t=0}^{T} t(\min_{t={0,\cdots,T}} f(w_{t})-f^{*}) &\leq \frac{T}{\mu}L^2 \end{aligned} $$

注意左边是个等差数列了,于是有

$$ \min_{t={0,\cdots,T}} f(w_{t})-f^{*} \leq \frac{2L^{2}}{\mu (T+1)} $$

证毕。

0x07 Conclusion

其实还有一个非凸非光滑,但是这个情况下,梯度下降法不一定能收敛…

我们用到梯度有界的假设,在 非光滑凸 和 非光滑强凸,我们不难看出,非光滑对收敛性是一个很不友好的 setting,而强凸往往能保证有着很好的收敛速率,光滑强凸和非光滑强凸都能够带来线性的收敛速率。

Reference


  1. 不同条件下梯度方法的收敛性分析 1——(Non)convex+(Non)smooth,https://zhuanlan.zhihu.com/p/92385493 ↩︎

  2. 《分布式机器学习——算法、理论与实践》, 刘铁岩等 ↩︎

  3. ZJU-CSE Summer School 2021,Ying Sun ↩︎

  4. 《First-order methods in optimization》,Beck, A ↩︎

  5. 《Introductory Lectures on Convex Programming》,Nesterov ↩︎