16 PyTorch小白从零学教程系列：模型评估与调优之评估模型性能

Q: PyTorch小白从零学教程系列：模型评估与调优之评估模型性能适合谁读？

这是 PyTorch 入门 系列第 16 / 20 篇，适合正在学习PyTorch 入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: Pytorch小白

预计阅读: 4 分钟

阅读次数: 0

系列进度

PyTorch 入门 · 第 16 / 20 篇

上一篇PyTorch 小白从零学教程系列：只生成模型训练之训练循环的实现下一篇Pytorch小白从零学教程：模型评估与调优之过拟合与正则化

预计阅读4 分钟

结构重点4 个

图文要点6 张

正文规模1.6k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 4 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步评估模型性能的重要性 02第 2 步总结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线评估模型性能流程图跳到对应正文位置

图 02 · 步骤评估模型性能核对图跳到对应正文位置

图 03 · 配置PyTorch模型性能评估判断卡跳到对应正文位置

图 04 · 判断PyTorch小白从零学教程系列：模型评估与调优之评估模型性能应用复盘卡跳到对应正文位置

图 05 · 复盘PyTorch小白从零学教程系列：模型评估与调优之评估模型性能应用检查卡跳到对应正文位置

图 06 · 细节PyTorch阅读地图卡跳到对应正文位置

评估阶段要关闭训练行为和梯度计算。model.eval() 和 torch.no_grad() 能减少不必要计算，也避免 BatchNorm、Dropout 等行为混乱。

评估时我会保存错例，而不只保存平均分。错例能告诉你模型真正薄弱的地方。

在上一篇文章中，我们深入探讨了模型训练的实现和训练循环的细节。我们通过定义损失函数、优化器以及训练循环来训练我们的模型。现在，我们进入模型评估与调优的过程，重点放在如何评估模型性能。

评估模型性能的重要性

模型训练不仅仅是提高损失函数的表现，更重要的是评估模型对未见样本的泛化能力。有效的评估策略可以帮助我们了解模型的强项与弱点，以及它在真实世界应用中的可靠性。因此，评估模型性能是深度学习开发过程中不可或缺的一步。

评估 PyTorch 模型性能时，先看 eval 模式、no_grad、测试集加载、指标累计、混淆矩阵和错误样例。

常用的评估指标

在评估分类模型时，我们通常使用以下指标：

准确率（Accuracy）: 它是正确分类的样本占总样本数的比例。
$\text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}}$
其中，TP是真正例，TN是真负例，FP是假正例，FN是假负例。

精确率（Precision）: 它度量的是被分类为正类的样本中真正为正类的比例。

\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}

召回率（Recall）: 又称为灵敏度，它度量的是所有真正的正类样本中被正确分类为正类的比例。

\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}

F1分数: 它是精确率和召回率的调和平均，常用于不均衡数据的评估。

F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}

使用PyTorch进行模型性能评估

接下来，让我们通过代码演示如何在PyTorch中评估模型性能。我们将构建一个简单的分类模型，并计算其准确率、精确率、召回率和F1分数。

代码实例

假设我们已经完成了模型的训练，现在我们使用测试集来评估这个模型：

import torch
import torch.nn.functional as F
from sklearn.metrics import precision_score, recall_score, f1_score

# 假设我们有一个训练好的模型和测试数据集
model.eval()  # 设置模型为评估模式

# 假设 test_loader 是我们的测试数据集的 DataLoader
all_preds = []
all_labels = []

with torch.no_grad():  # 禁用梯度计算
    for data, labels in test_loader:
        outputs = model(data)  # 前向传播得到输出
        _, preds = torch.max(outputs, 1)  # 获取预测值
        all_preds.extend(preds.numpy())  # 将预测值添加到列表
        all_labels.extend(labels.numpy())  # 将真实标签添加到列表

# 计算评估指标
accuracy = (np.array(all_preds) == np.array(all_labels)).mean()
precision = precision_score(all_labels, all_preds, average='weighted')
recall = recall_score(all_labels, all_preds, average='weighted')
f1 = f1_score(all_labels, all_preds, average='weighted')

print(f'准确率: {accuracy:.2f}')
print(f'精确率: {precision:.2f}')
print(f'召回率: {recall:.2f}')
print(f'F1分数: {f1:.2f}')