郭震 AI公众号:郭震AI

18 模型评估指标

发布日期:

最近更新:

分类: Llama3开发

预计阅读: 5 分钟

阅读次数: 0

预计阅读5 分钟
结构重点11 个
图文要点6 张
正文规模2.1k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 11 个结构重点拆成环境、步骤、验证点和常见误区,尽量让读者能照着复现。
图文对照保留 6 张和配置、流程、判断结果有关的图片,方便快速定位正文重点。
持续校对工具、模型和命令变化较快,后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线,再回到代码、配置和图文细节,读起来会更稳。

图文索引

按图先建立主线,再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转
模型评估指标结构图查看大图
模型评估指标结构图

Llama3 开发要从模型理解走到数据、训练、评估和部署,形成可复现流程。阅读时可以按「准确率 -> 案例 -> 查准率和查全率 -> 查准率」建立结构,再回到正文里的代码、案例或指标做验证。

模型评估指标核对图查看大图
模型评估指标核对图

读完后,用一个真实小任务复查:输入是什么,处理环节在哪里,输出是否可验收;失败时先查「准确率」,再查「案例」。

在Llama3大模型的开发过程中,模型评估是一个不可或缺的环节。通过模型评估指标,我们可以量化模型的性能,从而使我们能够更好地理解模型的优缺点。在这篇文章中,我们将探讨常用的模型评估指标,为接下来的验证集与测试集的建立做铺垫。

准确率(Accuracy)

准确率是最基本也是最常用的评估指标之一,表示模型预测正确的样本占总样本的比例。准确定义为:

Llama3模型评估指标判断卡查看大图
Llama3模型评估指标判断卡

选择 Llama3 评估指标时,先看任务成功率、格式符合率、事实准确、拒答边界、响应长度和人工评分。

Accuracy=TP+TNTP+TN+FP+FNAccuracy = \frac{TP + TN}{TP + TN + FP + FN}

其中:

  • TPTP:真阳性数量(模型正确预测为正类的样本数)
  • TNTN:真阴性数量(模型正确预测为负类的样本数)
  • FPFP:假阳性数量(模型错误预测为正类的样本数)
  • FNFN:假阴性数量(模型错误预测为负类的样本数)

案例

假设我们有一个二分类问题,以下是模型的混淆矩阵(Confusion Matrix):

预测正类 预测负类
实际正类 50 10
实际负类 5 35

那么准确率的计算为:

Accuracy=50+3550+35+10+5=85100=0.85Accuracy = \frac{50 + 35}{50 + 35 + 10 + 5} = \frac{85}{100} = 0.85

这意味着我们的模型在85%的情况下做出了正确的预测。

查准率和查全率(Precision and Recall)

除了准确率外,我们还需要关注模型的查准率(Precision)和查全率(Recall)。这两个指标尤其在不平衡数据集中显得尤为重要。

Llama3 开发阅读地图卡查看大图
Llama3 开发阅读地图卡

读《模型评估指标》时,可以把配图当成路线卡:先看整体顺序,再看每一步为什么这样做,最后再检查边界条件。

查准率(Precision)

查准率表示所有被模型预测为正类的样本中有多少是真正的正类,其公式为:

Precision=TPTP+FPPrecision = \frac{TP}{TP + FP}

查全率(Recall)

查全率表示所有实际为正类的样本中有多少被模型正确预测为正类,其公式为:

Recall=TPTP+FNRecall = \frac{TP}{TP + FN}

案例

基于上面的混淆矩阵,我们可以计算:

  • 查准率
Precision=5050+5=50550.909Precision = \frac{50}{50 + 5} = \frac{50}{55} \approx 0.909
  • 查全率
Recall=5050+10=50600.833Recall = \frac{50}{50 + 10} = \frac{50}{60} \approx 0.833

这告诉我们,在所有被预测为正类的样本中,大约90.9%是真正的正类,而在所有真正的正类中,只有83.3%被模型正确识别。

F1 Score

在某些情况下,单独使用查准率或查全率不足以全面评估模型的性能。我们可以使用F1 Score,它是查准率和查全率的调和平均数,计算公式为:

F1=2×Precision×RecallPrecision+RecallF1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}

案例

根据之前的查准率和查全率计算:

F1=2×0.909×0.8330.909+0.8330.869F1 = 2 \times \frac{0.909 \times 0.833}{0.909 + 0.833} \approx 0.869

这样,我们得到了一个更综合的模型性能指标。

ROC曲线和AUC

在处理二分类问题时,绘制ROC曲线(受试者工作特征曲线)并计算曲线下面积AUC(Area Under Curve)是一个强大的模型评估工具。ROC曲线描绘了不同阈值下的假阳性率和真正率。

案例

使用Python的sklearn库来绘制ROC曲线:

from sklearn.metrics import roc_curve, roc_auc_score
import matplotlib.pyplot as plt

# 假设y_true为真实标签,y_scores为模型预测的概率分数
fpr, tpr, thresholds = roc_curve(y_true, y_scores)
roc_auc = roc_auc_score(y_true, y_scores)

plt.plot(fpr, tpr, label=f'AUC = {roc_auc:.2f}')
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('假阳性率')
plt.ylabel('真正率')
plt.title('ROC曲线')
plt.legend()
plt.show()

通过上面的代码,我们可以直观显示不同阈值下的“TNR”和“TPR”,并计算模型的AUC值。

模型评估指标应用复盘卡查看大图
模型评估指标应用复盘卡

学完《模型评估指标》后,不妨换一个自己的场景试一次,重点观察输入、处理和输出是否能对应起来。

模型评估指标应用检查卡查看大图
模型评估指标应用检查卡

如果想把《模型评估指标》用到自己的任务里,可以先缩小场景,只验证一个最关键的判断点。

结论

在Llama3大模型的开发中,模型评估指标是我们不得不面对的重要问题。通过使用精准的评估指标,我们不仅能更好地理解模型性能,还能为后续的验证集和测试集建立打下坚实基础。模型评估不是一个孤立的过程,而是与训练监控与调整密切相关的连续循环。接下来,我们将讨论如何为模型评估构建有效的验证集与测试集,以进一步提升模型的实用性。

在进行模型评估时,务必要结合具体的应用场景,根据需求选择合适的指标。

继续阅读

顺着这个系列继续看

返回栏目

Reader Messages

读者留言

有问题、补充资料或实测结果,可以直接留下。这里不需要登录。

最多 800 字

为了防刷,每条留言会做长度、链接数量和提交频率限制。

0/800

留言列表

0
正在加载留言...