全连接网络的反向传播

out = xW + b

已知 $dout = \frac{\partial L}{\partial out}$ ，反向传播要求 $dx$ , $dW$ , $db$ ，shape应该分别和 $x$ $W$ $b$ 相同。

dx = \frac{\partial L}{\partial x} = \frac{\partial L}{\partial out} \frac{\partial out}{\partial x} = dout \cdot W^T

下面的说法可能不够正确、不够简洁，仅供参考

矩阵求导的结果就是对应的雅可比矩阵。经常很难想清楚到底是左乘、右乘，要不要求转置等等。

一个比较好的方法是把所有变量的 shape 写出来。

x=dx: (n, m)
W=dW: (m, d)
out=dout=xW: (n, d)
b=db: (1, d)

根据链式法则，dx 一定是 dout 和 W 的乘积。看shape就直接写出来：

(n, m) = (n, d) · (d, m) => $dx = dout · W^T$

同理可以写出：

(m, d) = (m, n) · (n, d) => $dW = x^T · dout$

对于 db，在参与计算的时候自动进行了广播，变成了 (n, d) ，可以有：

(n, d) = (n, d) => $db' = dout$

最后计算 db 的时候要把每行的 n 个元素加起来：

db = np.sum(dout, axis=0, keepdims=True)

ReLU的反向传播

公式：

\text{ReLU}(x) = max(0, x) = \begin{cases} x & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases}

分段函数分段求导：

\frac{d}{dx} \text{ReLU}(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases}

雅可比矩阵是一个函数的一节偏导数矩阵。

设：

\mathbf{y} = f(\mathbf{x}) \in \mathbb{R}^m, \quad \mathbf{x} \in \mathbb{R}^n

这里的 x 和 y 都是向量，即(1, n) 或 (n,1)的形状

那么 雅可比矩阵 是：

J = \frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_n} \end{bmatrix} \in \mathbb{R}^{m \times n}

每行是一个输出变量 $y_i$ 对所有输入变量 $x_j$ 的偏导，表示的是 $\nabla y_i$ 。

其实很好理解， $y_1 = w_1 x_1+w_2x_2+\cdots+x_n$ ，矩阵的第一行就是 y1 相对于 x1, x2, …, xn 的倒数。

以一个具体例子为例：

z = xW + b

$\frac{\partial z}{\partial x}$ 就是 z 对 x 的雅可比矩阵。

我们先设定具体形状：

写成分量形式：

z_j= \sum_{i=1}^D x_i W_{i,j} + b_j, j=1,\dots,M

所以：

\frac{\partial z_j} {\partial x_i} = W_{i,j}

直观的看，W的展开为：

W = \begin{bmatrix} W_{1,1} & W_{1,2} & \cdots & W_{1,M} \\ W_{2,1} & W_{2,2} & \cdots & W_{2,M} \\ \vdots & \vdots & \ddots & \vdots \\ W_{D,1} & W_{D,2} & \cdots & W_{D,M} \end{bmatrix} \quad \in \mathbb{R}^{D \times M}

而雅可比矩阵是：

\frac{\partial z}{\partial x} = \begin{bmatrix} \frac{\partial z_1}{\partial x_1} & \frac{\partial z_1}{\partial x_2} & \cdots & \frac{\partial z_1}{\partial x_D} \\ \frac{\partial z_2}{\partial x_1} & \frac{\partial z_2}{\partial x_2} & \cdots & \frac{\partial z_2}{\partial x_D} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial z_M}{\partial x_1} & \frac{\partial z_M}{\partial x_2} & \cdots & \frac{\partial z_M}{\partial x_D} \end{bmatrix} = \begin{bmatrix} W_{1,1} & W_{2,1} & \cdots & W_{D,1} \\ W_{1,2} & W_{2,2} & \cdots & W_{D,2} \\ \vdots & \vdots & \ddots & \vdots \\ W_{1,M} & W_{2,M} & \cdots & W_{D,M} \end{bmatrix} = W^T \in \mathbb{R}^{M \times D}

一个矩阵shape = (n, m)

keepdims = True 时，对他的axis=0进行计算，就是把 shape[0] 变成 1，(1, m)；对axis=1进行计算，就是把 shape[1] 变成 1，(n, 1)

keepdims = False时，直接变成一维向量，结果分别为(m,) 和 (n,)

对 a.shape=(2, 3)：