2.5 四个基本方程的证明（可选）

我们现在证明这四个基本的方程 (BP1)--(BP4)。所有这些都是多元微积分的链式法则的推论。如果你熟悉链式法则，那么我鼓励你在读之前尝试自己推导。

让我们从方程 (BP1) 开始，它给出了输出误差 $\delta^L$ 的表达式。为了证明这个方程，回忆下定义：

$\begin{eqnarray} \delta^L_j = \frac{\partial C}{\partial z^L_j} \label{eq:36}\tag{36} \end{eqnarray}$

应用链式法则，我们可以就输出激活值的偏导数的形式重新表示上面的偏导数：

$\begin{eqnarray} \delta^L_j = \sum_k \frac{\partial C}{\partial a^L_k} \frac{\partial a^L_k}{\partial z^L_j} \label{eq:37}\tag{37} \end{eqnarray}$

这里求和是在输出层的所有神经元 $k$ 上运行的。当然，第 $k^{\rm th}$ 个神经元的输出激活值 $a^L_k$ 只依赖于当 $k=j$ 时第 $j^{\rm th}$ 个神经元的输入权重 $z^L_j$ 。所以当 $k \neq j$ 时 $\partial a^L_k / \partial z^L_j$ 消失了。结果我们可以简化上一个方程为：

$\begin{eqnarray} \delta^L_j = \frac{\partial C}{\partial a^L_j} \frac{\partial a^L_j}{\partial z^L_j} \label{eq:38}\tag{38} \end{eqnarray}$

回想下 $a^L_j = \sigma(z^L_j)$ ，右边的第二项可以写为 $\sigma'(z^L_j)$ ，方程变成：

$\begin{eqnarray} \delta^L_j = \frac{\partial C}{\partial a^L_j} \sigma'(z^L_j) \label{eq:39}\tag{39} \end{eqnarray}$

这正是分量形式的 (BP1)。

下一步，我们将证明 (BP2)，它给出了以下一层误差 $\delta^{l+1}$ 的形式表示误差 $\delta^l$ 。为此，我们想要以 $\delta^{l+1}_k = \partial C / \partial z^{l+1}_k$ 的形式重写 $\delta^l_j = \partial C / \partial z^l_j$ 。我们可以用链式法则：

$\begin{align} \delta^l_j &= \frac{\partial C}{\partial z^l_j} \label{eq:40}\tag{40}\\ &= \sum_k \frac{\partial C}{\partial z^{l+1}_k} \frac{\partial z^{l+1}_k}{\partial z^l_j} \label{eq:41}\tag{41}\\ &= \sum_k \frac{\partial z^{l+1}_k}{\partial z^l_j} \delta^{l+1}_k \label{eq:42}\tag{42} \end{align}$

这里最后一行我们交换了右边的两项，并用 $\delta^{l+1}_k$ 的定义代入。为了对最后一行的第一项求值，注意：

$\begin{eqnarray} z^{l+1}_k = \sum_j w^{l+1}_{kj} a^l_j +b^{l+1}_k = \sum_j w^{l+1}_{kj} \sigma(z^l_j) +b^{l+1}_k \label{eq:43}\tag{43} \end{eqnarray}$

做微分，我们得到

$\begin{eqnarray} \frac{\partial z^{l+1}_k}{\partial z^l_j} = w^{l+1}_{kj} \sigma'(z^l_j) \label{eq:44}\tag{44} \end{eqnarray}$

把它代入 (42) 我们得到

$\begin{eqnarray} \delta^l_j = \sum_k w^{l+1}_{kj} \delta^{l+1}_k \sigma'(z^l_j) \label{eq:45}\tag{45} \end{eqnarray}$

这正是以分量形式写的 (BP2)。

我们想证明的最后两个方程是 (BP3) 和 (BP4)。它们同样遵循链式法则，和前面两个方程的证明相似。我把它们留给你做为练习。

练习

证明方程 (BP3) 和 (BP4)。

这样我们就完成了反向传播四个基本公式的证明。证明本身看起来复杂。但是实际上就是细心地应用链式法则。我们可以将反向传播看成是一种系统性地应用多元微积分中的链式法则来计算代价函数的梯度的方式。这些就是反向传播理论上的内容 —— 剩下的是实现细节。

2.5 四个基本方程的证明（可选）

2.5 四个基本方程的证明（可选）

练习

results matching ""

No results matching ""