20 模型评估方法

Q: 模型评估方法适合谁读？

这是 TensorFlow 入门 系列第 20 / 25 篇，适合正在学习TensorFlow 入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: Tensorflow小白

预计阅读: 4 分钟

阅读次数: 0

系列进度

TensorFlow 入门 · 第 20 / 25 篇

预计阅读4 分钟

结构重点6 个

图文要点6 张

正文规模1.7k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 6 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步评估指标 02第 2 步模型评估的最佳实践 03第 3 步结论

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线模型评估方法结构图跳到对应正文位置

图 02 · 步骤模型评估方法核对图跳到对应正文位置

图 03 · 配置TensorFlow模型评估方法判断卡跳到对应正文位置

图 04 · 判断TensorFlow阅读地图卡跳到对应正文位置

图 05 · 复盘模型评估方法应用复盘卡跳到对应正文位置

图 06 · 细节模型评估方法应用检查卡跳到对应正文位置

TensorFlow 学习要把张量、模型、训练和部署放在一条线上，而不是只看单段代码。阅读时可以按「评估指标 -> 回归模型评估指标 -> 分类模型评估指标 -> 交叉验证」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「评估指标」，再查「回归模型评估指标」。

在前一章中，我们讨论了不同的优化算法如何影响模型的训练效果，这对模型的性能至关重要。而在训练完成后，如何评估模型的质量以及如何根据评估结果进行调优，将会是我们接下来要重点关注的内容。在本节中，我们将探讨几种常用的模型评估方法，并结合案例与代码进行详细说明。

评估指标

在机器学习中，评估模型的性能通常依赖于一些特定的指标，这些指标用以衡量模型在特定任务上的有效性。以下是一些常用的评估指标：

评估 TensorFlow 模型时，先看验证集、测试集、指标选择、混淆矩阵、错误样例和保存后的复测。

1. 回归模型评估指标

对于回归任务，主要的评估指标包括：

均方误差 (MSE):
$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
其中， $y_i$ 是真实值， $\hat{y}_i$ 是预测值， $n$ 为样本数量。MSE越小，模型性能越好。
决定系数 (R²):
$R^2 = 1 - \frac{SS_{res}}{SS_{tot}}$
其中， $SS_{res}$ 是残差平方和， $SS_{tot}$ 是总平方和。R²的值范围在0到1之间，越接近1表示模型越好。

2. 分类模型评估指标

对于分类任务，常用的评估指标如下：

准确率 (Accuracy):
$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$
$TP$ 、 $TN$ 、 $FP$ 、 $FN$ 分别代表真阳性、真阴性、假阳性和假阴性。
精确率 (Precision):
$Precision = \frac{TP}{TP + FP}$
召回率 (Recall):
$Recall = \frac{TP}{TP + FN}$
F1 Score:
$F1 = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall}$

3. 交叉验证

交叉验证是一种评估模型泛化能力的强大工具。通过将训练数据分成若干个折 (fold)，模型会在其中的某几个折上训练，然后在剩余的折上评估。这种方法能有效减少模型对训练数据的过拟合。

以下是一个使用KFold交叉验证的简单示例（以回归模型为例）：

import numpy as np
from sklearn.model_selection import KFold
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 示例数据
X = np.random.rand(100, 1) * 10
y = 3 * X.squeeze() + np.random.randn(100) * 2

kf = KFold(n_splits=5)
mse_list = []

for train_index, test_index in kf.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    model = LinearRegression()
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)
    mse = mean_squared_error(y_test, predictions)
    mse_list.append(mse)

print("Mean Squared Error across folds:", np.mean(mse_list))