16 Llama Factory大模型Llama3微调系统之模型评估之评估指标

Q: Llama Factory大模型Llama3微调系统之模型评估之评估指标适合谁读？

这是 Llama 工厂微调 系列第 16 / 24 篇，适合正在学习Llama 工厂微调，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-14

最近更新: 2026-06-04

分类: Llama Factory微调

预计阅读: 3 分钟

阅读次数: 0

系列进度

Llama 工厂微调 · 第 16 / 24 篇

上一篇Llama Factory大模型Llama3微调系统训练过程监控下一篇Llama Factory大模型Llama3微调系统测试集评估

预计阅读3 分钟

结构重点4 个

图文要点6 张

正文规模1.3k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 4 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步评估指标的重要性 02第 2 步评估指标的计算 03第 3 步多指标综合考虑 04第 4 步结论

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线Llama Factory大模型Llama3微调系统之模型评估之评估指标结构图跳到对应正文位置

图 02 · 步骤Llama Factory大模型Llama3微调系统之模型评估之评估指标核对图跳到对应正文位置

图 03 · 配置Llama Factory评估指标判断卡跳到对应正文位置

图 04 · 判断Llama Factory 微调阅读地图卡跳到对应正文位置

图 05 · 复盘Llama Factory大模型Llama3微调系统之模型评估之评估指标应用复盘卡跳到对应正文位置

图 06 · 细节Llama Factory大模型Llama3微调系统之模型评估之评估指标应用检查卡跳到对应正文位置

Llama Factory 微调要把环境、数据、训练和评估串成闭环，不能只看启动命令。阅读时可以按「评估指标的重要性 -> 评估指标的计算 -> 多指标综合考虑 -> 环境准备」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「评估指标的重要性」，再查「评估指标的计算」。

在上一篇中，我们详细探讨了在微调过程中如何进行训练过程监控，确保模型在训练期间表现良好。本篇将专注于模型评估中的关键内容——评估指标。评估指标是我们判断模型性能的标准，了解这些指标对于优化模型和使用测试集至关重要。

评估指标的重要性

在机器学习中，评估指标能够帮助我们量化模型的表现。通过这些指标，我们可以知道模型的好坏，避免出现过拟合或欠拟合的情况。在模型评估过程中，常用的评估指标包括但不限于：

评估 Llama3 微调模型时，先看验证集任务、准确率或相似度指标、人工抽样、错误类型和基线对比。

准确率 (Accuracy): 正确预测的样本与总样本的比率。
精确率 (Precision): 正确的正例预测与所有预测为正例的比率。
召回率 (Recall): 正确的正例预测与所有实际为正例的比率。
F1分数 (F1 Score): 精确率与召回率的调和均值，通常用于不平衡数据集。

这些指标的选择依赖于具体任务的性质。例如，在某些应用中，即使提高准确率，可能也会降低召回率，反之亦然。

评估指标的计算

我们可以通过Python中的sklearn库来计算上述指标。在下面的代码示例中，我们将通过构建一个简单的分类模型来演示如何计算这些评估指标。

读完《Llama Factory大模型Llama3微调系统之模型评估之评估...》不要只停在“看懂了”。回头挑一个步骤动手做一遍，再记录哪里卡住，后面的学习会更稳。

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.datasets import make_classification
from sklearn.ensemble import RandomForestClassifier

# 生成模拟数据
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 计算各项评估指标
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

# 输出评估结果
print(f"准确率: {accuracy:.4f}")
print(f"精确率: {precision:.4f}")
print(f"召回率: {recall:.4f}")
print(f"F1分数: {f1:.4f}")