25 线性代数在深度学习中的作用

Q: 线性代数在深度学习中的作用适合谁读？

这是 AI 线性代数必备 系列第 25 / 26 篇，适合正在学习AI 线性代数必备，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: AI线性代数小白

预计阅读: 4 分钟

阅读次数: 0

系列进度

AI 线性代数必备 · 第 25 / 26 篇

上一篇线性代数在机器学习中的应用下一篇线性代数在AI中的应用：状态空间模型

预计阅读4 分钟

结构重点6 个

图文要点6 张

正文规模1.9k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 6 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步线性代数与神经网络 02第 2 步小结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线线性代数在深度学习中的作用概念图跳到对应正文位置

图 02 · 步骤线性代数在深度学习中的作用核对图跳到对应正文位置

图 03 · 配置线性代数在深度学习中的作用要点判断卡跳到对应正文位置

图 04 · 判断线性代数在深度学习中的作用应用复盘卡跳到对应正文位置

图 05 · 复盘线性代数在深度学习中的作用应用检查卡跳到对应正文位置

图 06 · 细节线性代数阅读地图卡跳到对应正文位置

神经网络的核心计算仍是大量矩阵乘法。理解 shape、权重和梯度，能让深度学习不再只是调库。

我会逐层记录张量形状。层数一多，shape 记录比临时猜测可靠得多。

在前一篇中，我们探讨了线性代数在机器学习中的应用，尤其强调了其在数据预处理和模型构建中的重要性。今天，我们将深入讨论线性代数在深度学习中的作用，尤其是如何利用线性代数来理解和优化神经网络。

线性代数与神经网络

深度学习中的核心构建块是神经网络，而神经网络可以使用矩阵和向量的运算来表示。一个简单的前馈神经网络能够通过线性变换（例如矩阵乘法）和非线性激活函数（例如ReLU、Sigmoid等）来学习复杂的函数关系。

读这篇时，可以把「线性代数与神经网络 -> 线性变换 -> 非线性激活 -> 反向传播」当成一条检查线：先把对象、步骤和证据对齐，再回到案例、代码或指标里复查。

线性变换

在一个典型的深度神经网络中，输入数据（通常是特征向量）会通过多个隐藏层。每一层都可以用线性变换（矩阵乘法）加偏置来表示，形式如下：

\mathbf{z} = \mathbf{W} \cdot \mathbf{x} + \mathbf{b}

其中， $\mathbf{z}$ 是下一层的输入， $\mathbf{W}$ 是权重矩阵， $\mathbf{x}$ 是当前层的输入， $\mathbf{b}$ 是偏置向量。

例如，考虑一个输入层有 3 个神经元，一个隐藏层有 2 个神经元的网络，我们可以表示为：

\begin{bmatrix} z_1 \\ z_2 \end{bmatrix} = \begin{bmatrix} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} + \begin{bmatrix} b_1 \\ b_2 \end{bmatrix}

这一操作清晰地展示了输入与权重之间的关系。

非线性激活

在计算出线性变换的结果之后，通常会应用一个非线性激活函数，增强模型的表达能力。这一过程如下：

\mathbf{a} = f(\mathbf{z})

这里， $f$ 表示激活函数，例如 ReLU 或 Sigmoid。

反向传播

在深度学习中，训练神经网络通常使用反向传播算法来优化权重和偏置。反向传播需要计算损失函数相对于每个权重和偏置的梯度。这个过程涉及到大量的矩阵运算和向量运算，使用了线性代数中的导数和链式法则。

例如，设损失函数为 $L$ ，我们可以使用链式法则得到权重更新的公式：

\frac{\partial L}{\partial \mathbf{W}} = \frac{\partial L}{\partial \mathbf{a}} \cdot \frac{\partial \mathbf{a}}{\partial \mathbf{z}} \cdot \frac{\partial \mathbf{z}}{\partial \mathbf{W}}

这里的每个部分都可以用矩阵和向量的运算来表示。

案例分析

考虑一个简单的深度学习例子，我们要用一个三层神经网络来分类手写数字（例如 MNIST 数据集）。以下是一个基本实现的 Python 代码示例，使用 NumPy 库。

import numpy as np

# 激活函数
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# 前向传播
def forward(X, W1, b1, W2, b2):
    z1 = np.dot(X, W1) + b1
    a1 = sigmoid(z1)
    z2 = np.dot(a1, W2) + b2
    output = sigmoid(z2)
    return output

# 示例输入
np.random.seed(0)
X = np.random.rand(5, 3)  # 5 个样本，3 个特征的输入
W1 = np.random.rand(3, 4)  # 第一层权重 3->4
b1 = np.random.rand(4)      # 第一层偏置
W2 = np.random.rand(4, 1)  # 第二层权重 4->1
b2 = np.random.rand(1)      # 第二层偏置

output = forward(X, W1, b1, W2, b2)
print("Network output:\n", output)