18 Llama3模型评估结果分析

Q: Llama3模型评估结果分析适合谁读？

这是 Llama 工厂微调 系列第 18 / 24 篇，适合正在学习Llama 工厂微调，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-14

最近更新: 2026-06-04

分类: Llama Factory微调

预计阅读: 4 分钟

阅读次数: 0

系列进度

Llama 工厂微调 · 第 18 / 24 篇

上一篇Llama Factory大模型Llama3微调系统测试集评估下一篇Llama Factory大模型Llama3微调系统常见问题及解决方案

预计阅读4 分钟

结构重点7 个

图文要点6 张

正文规模1.9k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 7 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步模型评估结果的组成 02第 2 步结果分析示例 03第 3 步结果分析的实际应用 04第 4 步总结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线Llama3模型评估结果分析结构图跳到对应正文位置

图 02 · 步骤Llama3模型评估结果分析核对图跳到对应正文位置

图 03 · 配置Llama3评估结果分析判断卡跳到对应正文位置

图 04 · 判断Llama Factory 微调阅读地图卡跳到对应正文位置

图 05 · 复盘Llama3模型评估结果分析应用复盘卡跳到对应正文位置

图 06 · 细节Llama3模型评估结果分析应用检查卡跳到对应正文位置

Llama Factory 微调要把环境、数据、训练和评估串成闭环，不能只看启动命令。阅读时可以按「模型评估结果的组成 -> 结果分析示例 -> 准确率分析 -> 精确率与召回率」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「模型评估结果的组成」，再查「结果分析示例」。

在上一篇中，我们探讨了如何使用测试集对 Llama3 模型进行评估，了解了评估结果的重要性以及如何正确准备测试数据。在本篇文章中，我们将深入分析模型评估的结果，并通过具体的案例来阐明这些结果的含义和实际应用。

模型评估结果的组成

模型评估结果通常包括以下几个重要指标：

分析 Llama3 评估结果时，先看总体分数、任务分组、失败样例、格式错误、事实问题和改进优先级。

准确率 (Accuracy)：衡量模型正确预测的样本占总样本的比例。
$\text{Accuracy} = \frac{\text{正确预测的样本数}}{\text{总样本数}}$
精确率 (Precision)：表明模型在所有预测为正类的实例中，实际上为正类的比例。
$\text{Precision} = \frac{\text{真正例}}{\text{真正例} + \text{假正例}}$
召回率 (Recall)：表示模型对所有正类实例的捕获能力。

\text{Recall} = \frac{\text{真正例}}{\text{真正例} + \text{假负例}}

F1分数 (F1 Score)：精确率和召回率的调和平均数，用于综合评估模型的表现。

F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}

AUC-ROC曲线：反映模型在不同阈值下的预测能力，常用于二分类任务。

结果分析示例

假设我们在 Llama3 模型上的测试集上得到了以下评估结果：

开始读《Llama3模型评估结果分析》前，可以先看图中从问题到结果的路径。读完后再对照正文，确认自己能不能照着复现。

准确率: 0.85
精确率: 0.80
召回率: 0.75
F1分数: 0.77
AUC: 0.90

1. 准确率分析

准确率为 0.85 表示我们的模型在所有的测试样本中有 85% 的正确预测。这是一个不错的结果，但需要结合其他指标进行更全面的分析。

2. 精确率与召回率

精确率为 0.80，意味着在模型预测为正类的样本中，80% 确实为正类。召回率为 0.75，说明在所有实际为正类的样本中，模型只捕获了 75%。这两个指标之间的权衡揭示了模型性能的不同方面：

高精确率表示我们在对正类的预测上有较高的置信度，但如果召回率低，或许是因为模型遗漏了一些正类样本，这可能会影响特定应用场景（如疾病检测）的效果。
适当的F1分数（0.77）则综合考虑了精确率与召回率，表明模型在正类预测上整体表现良好，但有提升的空间。

3. AUC-ROC分析

AUC 值为 0.90 显示出模型在各种阈值下都具有良好的预测能力。AUC 值越接近 1，模型的分类能力就越强。结合之前的指标，这表明我们可以进一步优化模型，从而提升召回率，同时保持较高的精确率。

结果分析的实际应用

根据上述分析，团队可以进行以下几项操作：

模型调优：通过调整超参数或模型结构来提升召回率，从而增加模型捕获正类样本的能力。
阈值调整：根据具体业务场景，能够通过设置合适的决策阈值来在精确率与召回率之间达到更好的平衡。例如，在医疗领域，召回率往往较为重要，因此可能会选择降低决策阈值。
后处理步骤：在模型输出后，可以通过引入规则层（如基于经验的业务规则）进一步过滤模型输出，从而提升最终决策的准确性。

# 示例代码：阈值调整
from sklearn.metrics import precision_recall_curve

# y_scores 为模型输出的预测分数，y_test 为真实标签
precision, recall, thresholds = precision_recall_curve(y_test, y_scores)

# 选择一个合适的阈值
optimal_threshold = thresholds[np.argmax(recall >= 0.75)]  # 设定最低召回率要求
print(f"最佳阈值: {optimal_threshold}")