18 大模型 LLM 微调教程系列：评估与测试结果分析

微调结果分析的重点不是宣布涨了几个点，而是弄清楚失败来自哪里。格式错、事实错、风格偏和拒答错，对应的修复手段完全不同。

我会把失败样本贴标签，再回查训练集中是否有相似坏样本。能用数据修的就修数据，不能用数据修的才考虑规则或产品边界。

在上一篇文章中，我们探讨了测试集的使用，介绍了怎样合理地构建测试集以便评估微调后模型的效果。在这一篇中，我们将深入分析评估与测试的结果，帮助您理解模型的表现和潜在的优化方向。在下篇中，我们将会讨论常见问题与解决方案，特别是调试过程中可能遇到的错误和技巧，因此本篇将为您奠定扎实的基础。

结果分析的重要性

微调后模型的评估结果能够揭示模型在特定任务上的表现。在您的应用场景中，了解模型的优缺点和局限性至关重要。这不仅帮助开发者判断模型的实用性，还能指导后续的改进方向。以下是一些常见的评估结果类型：

分析大模型微调测试结果时，先看基线对比、任务分项、格式错误、幻觉样例、拒答表现和复训建议。

准确率 (Accuracy)：正确预测的样本占总样本的比例。
精确率 (Precision)：真正类样本占所有预测为正类样本的比例，用于评估模型的预测质量。
召回率 (Recall)：真正类样本占所有实际为正类样本的比例，反映模型对正类样本的覆盖能力。
F1 Score：精确率和召回率的调和平均，适用在类别不平衡时。

评估结果的获取

在获取模型的评估结果时，您可以使用如下 Python 代码示例，通过 sklearn 库来计算这些指标：

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# 假设这是真实标签和模型预测的结果
y_true = [1, 0, 1, 1, 0, 1]
y_pred = [1, 0, 0, 1, 0, 1]

accuracy = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)

print(f"准确率: {accuracy:.2f}, 精确率: {precision:.2f}, 召回率: {recall:.2f}, F1得分: {f1:.2f}")

关键指标的分析

准确率并不能单一代表模型的好坏，尤其是在类别不平衡的情况下。因此，您需要同时考虑精确率和召回率。
精确率与召回率往往是一个权衡的问题。在某些场景中，假设您的模型用于医疗诊断，您可能更关心召回率，以确保尽可能找到所有的患者。反之，在垃圾邮件识别中，您可能更关心精准度，以减少误报。
F1 Score则是一个综合考虑精确率和召回率的好指标，可以在多种场景下使用。

具体案例分析

假设您在微调一个用于情感分析的模型，得到了以下评估结果：

准确率: 0.87
精确率: 0.80
召回率: 0.90
F1 Score: 0.85

从这些数据来看，该模型在预测情感为正面时的能力较强 (召回率高)，但是当其预测为正面时，精确度较低，这可能隐含着大量的假正例。这意味着您的模型可能存在过度预测的情况。接下来的步骤就是深入分析错误案例，找出实际问题。

可视化评估结果

为了更直观地分析模型的表现，您可以使用混淆矩阵。这可以通过 sklearn 提供的工具轻松实现。

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# 计算混淆矩阵
cm = confusion_matrix(y_true, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot()
plt.show()

通过查看混淆矩阵，您可以清晰辨别出哪些类被误预测的。可以帮助分析模型的弱点，比如某类样本被大量误判。针对具体的情况，可以进行数据增强、超参数调整或者使用不同的模型架构。

学完《大模型 LLM 微调教程系列：评估与测试结果分析》后，不妨换一个自己的场景试一次，重点观察输入、处理和输出是否能对应起来。

如果想把《大模型 LLM 微调教程系列：评估与测试结果分析》用到自己的任务里，可以先缩小场景，只验证一个最关键的判断点。

小结与展望

在本篇中，我们分析了如何理解和应用评估与测试结果。通过对准确率、精确率、召回率及 F1 Score 的深入探讨，您将能更清楚地判断微调后模型的性能。这些分析结果不仅有助于进行改进和再训练的决策，也为下篇中的常见问题与解决方案的讨论提供了上下文。

读《大模型 LLM 微调教程系列：评估与测试结果分析》时，可以把配图当成路线卡：先看整体顺序，再看每一步为什么这样做，最后再检查边界条件。

接下来，我们将聚焦于在模型开发和调试过程中常见的问题，包括潜在的错误以及调试技巧，帮助您进一步提升模型的质量和表现。感谢您阅读本篇教程，期待与您在下篇中继续探讨！

18 大模型 LLM 微调教程系列：评估与测试结果分析

LLM 微调教程 · 第 18 / 24 篇

这篇内容怎么整理

先按这条路线读

结果分析的重要性

评估结果的获取

关键指标的分析

具体案例分析

可视化评估结果

小结与展望

顺着这个系列继续看

读者留言

留言列表