25 线性代数在深度学习中的作用
系列进度
AI 线性代数必备 · 第 25 / 26 篇
整理说明
这篇内容怎么整理
郭震 · 2026-06-04
阅读路线
先按这条路线读
先抓住主线,再回到代码、配置和图文细节,读起来会更稳。
神经网络的核心计算仍是大量矩阵乘法。理解 shape、权重和梯度,能让深度学习不再只是调库。
我会逐层记录张量形状。层数一多,shape 记录比临时猜测可靠得多。
在前一篇中,我们探讨了线性代数在机器学习中的应用,尤其强调了其在数据预处理和模型构建中的重要性。今天,我们将深入讨论线性代数在深度学习中的作用,尤其是如何利用线性代数来理解和优化神经网络。
线性代数与神经网络
深度学习中的核心构建块是神经网络,而神经网络可以使用矩阵和向量的运算来表示。一个简单的前馈神经网络能够通过线性变换(例如矩阵乘法)和非线性激活函数(例如ReLU、Sigmoid等)来学习复杂的函数关系。
读这篇时,可以把「线性代数与神经网络 -> 线性变换 -> 非线性激活 -> 反向传播」当成一条检查线:先把对象、步骤和证据对齐,再回到案例、代码或指标里复查。
线性变换
在一个典型的深度神经网络中,输入数据(通常是特征向量)会通过多个隐藏层。每一层都可以用线性变换(矩阵乘法)加偏置来表示,形式如下:
其中, 是下一层的输入, 是权重矩阵, 是当前层的输入, 是偏置向量。
例如,考虑一个输入层有 3 个神经元,一个隐藏层有 2 个神经元的网络,我们可以表示为:
这一操作清晰地展示了输入与权重之间的关系。
非线性激活
在计算出线性变换的结果之后,通常会应用一个非线性激活函数,增强模型的表达能力。这一过程如下:
这里, 表示激活函数,例如 ReLU 或 Sigmoid。
反向传播
在深度学习中,训练神经网络通常使用反向传播算法来优化权重和偏置。反向传播需要计算损失函数相对于每个权重和偏置的梯度。这个过程涉及到大量的矩阵运算和向量运算,使用了线性代数中的导数和链式法则。
例如,设损失函数为 ,我们可以使用链式法则得到权重更新的公式:
这里的每个部分都可以用矩阵和向量的运算来表示。
案例分析
考虑一个简单的深度学习例子,我们要用一个三层神经网络来分类手写数字(例如 MNIST 数据集)。以下是一个基本实现的 Python 代码示例,使用 NumPy 库。
import numpy as np
# 激活函数
def sigmoid(z):
return 1 / (1 + np.exp(-z))
# 前向传播
def forward(X, W1, b1, W2, b2):
z1 = np.dot(X, W1) + b1
a1 = sigmoid(z1)
z2 = np.dot(a1, W2) + b2
output = sigmoid(z2)
return output
# 示例输入
np.random.seed(0)
X = np.random.rand(5, 3) # 5 个样本,3 个特征的输入
W1 = np.random.rand(3, 4) # 第一层权重 3->4
b1 = np.random.rand(4) # 第一层偏置
W2 = np.random.rand(4, 1) # 第二层权重 4->1
b2 = np.random.rand(1) # 第二层偏置
output = forward(X, W1, b1, W2, b2)
print("Network output:\n", output)
在这个例子中,我们首先生成一些随机输入数据 ,然后通过指定的权重和偏置进行前向传播,最终得到网络的输出。通过调整 , , , ,我们可以训练模型,以便它可以更好地分类手写数字。
复习《线性代数在深度学习中的作用》时,建议把关键概念、操作步骤和可见结果放在同一页里回看。
练习《线性代数在深度学习中的作用》时,建议把输入条件、处理动作和可见结果写在一起,方便下次复查。
小结
线性代数在深度学习中起着至关重要的作用,主要表现在:
阅读《线性代数在深度学习中的作用》前,可以先用配图确认主线;读完后再检查哪些步骤能直接操作,哪些还需要补资料。
- 数据表示:输入、权重和输出数据可以用向量和矩阵表示。
- 计算效率:矩阵乘法大大减少了手动计算的复杂度,使得网络的规模可以扩展。
- 反向传播:通过矩阵运算来高效计算梯度,从而优化神经网络的性能。
线性代数不仅提供了数学工具,还为我们提供了深刻的洞见,以理解复杂的深度学习模型。下一篇我们将深入探讨线性代数在状态空间模型中的应用,展现线性代数在动态系统中的重要性。
继续阅读
从这篇继续找到相关教程
常见问题
读前先确认这三点
线性代数在深度学习中的作用适合谁读?
这是 AI 线性代数必备 系列第 25 / 26 篇,适合正在学习AI 线性代数必备,并且需要把概念落到操作步骤或判断标准里的读者。
读这篇AI 线性代数必备教程要多久?
按中文技术文章阅读速度估算,通读大约 4 分钟;如果要跟着复现,建议把命令、配置和结果检查分开做。
这篇文章里的图文节点怎么用?
正文里有 6 个图文节点,可以先用它们抓住流程、配置和判断点,再回到对应段落细读。
分享文章
转发到常用平台
微信/朋友圈可先复制链接
相关教程
从相近问题继续读
继续阅读