郭震 AI公众号:郭震AI

13 模型选择与评估之评估指标的重要性

发布日期:

最近更新:

分类: AutoML

预计阅读: 4 分钟

阅读次数: 0

预计阅读4 分钟
结构重点6 个
图文要点6 张
正文规模1.8k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 6 个结构重点拆成环境、步骤、验证点和常见误区,尽量让读者能照着复现。
图文对照保留 6 张和配置、流程、判断结果有关的图片,方便快速定位正文重点。
持续校对工具、模型和命令变化较快,后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线,再回到代码、配置和图文细节,读起来会更稳。

图文索引

按图先建立主线,再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转
评估指标的重要性流程图查看大图
评估指标的重要性流程图

指标决定 AutoML 搜索方向。指标选错,工具会很努力地优化错误目标。

评估指标的重要性实操核对图查看大图
评估指标的重要性实操核对图

我会先问哪类错误最贵,再决定优化准确率、召回率、F1、AUC 还是回归误差。

在自动机器学习(AutoML)的过程中,模型选择与评估是实现优质模型至关重要的步骤。在上一篇中,我们探讨了“模型选择的方法”,强调了各种技术和策略。在本篇中,我们将聚焦于评估指标的重要性,以便为下一篇关于“如何进行交叉验证”的内容奠定基础。

为什么评估指标至关重要

在评估机器学习模型的性能时,选择合适的评估指标是至关重要的。这些指标不仅可以帮助我们量化模型的性能,还能影响我们对模型的选择和改进方向。以下是一些评估指标的重要性体现在不同方面的几个原因:

评估指标重要性判断卡查看大图
评估指标重要性判断卡

设置 AutoML 评估指标时,先看业务目标、类别不平衡、误报漏报成本、验证集和上线约束。

  1. 评估模型的准确性:不同的评估指标可以反映模型在任务中的不同侧面。例如,准确率常用于分类任务,但在类别不平衡的情况下可能会产生误导。

  2. 模型比较:在选择多个候选模型时,评估指标为我们提供了可以量化的比较标准,使我们能够更客观地选择最佳模型。

  3. 调优模型:通过对不同超参数下的评估指标进行监控,可以确保我们朝着提高模型性能的方向进行调整。

  4. 理解模型的局限性:某些指标如召回率精确率可以帮助我们理解模型在某一特定类别上的表现,这对非均衡数据集尤为重要。

常用的评估指标

根据任务类型的不同,评估指标也会有所不同。以下是一些常见的评估指标,您可以根据具体情况选择使用:

AutoML阅读地图卡查看大图
AutoML阅读地图卡

读完《模型选择与评估之评估指标的重要性》不要只停在“看懂了”。回头挑一个步骤动手做一遍,再记录哪里卡住,后面的学习会更稳。

分类指标

  • 准确率 (Accuracy)
    准确率是正确分类的样本占所有样本的比例,用公式表示为:

    Accuracy=TP+TNTP+TN+FP+FN\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}

    其中,TP表示真正例,TN表示真负例,FP表示假正例,FN表示假负例。

  • 精确率 (Precision)
    精确率表现了模型预测为正类的样本中,有多少比例是真正的正类:

    Precision=TPTP+FP\text{Precision} = \frac{TP}{TP + FP}
  • 召回率 (Recall)
    召回率反映了实际上为正类的样本中,有多少得到了正确识别:

    Recall=TPTP+FN\text{Recall} = \frac{TP}{TP + FN}
  • F1-score
    F1-score是精确率和召回率的调和平均,能够同时考虑两者的表现:

    F1=2PrecisionRecallPrecision+RecallF1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}

回归指标

  • 均方误差 (MSE)
    MSE用于衡量预测值与真实值之间的差距,越小越好:

    MSE=1ni=1n(yiy^i)2\text{MSE} = \frac{1}{n} \sum_{i=1}^{n}(y_i - \hat{y}_i)^2
  • 决定系数 (R²)
    R²用于评估回归模型的拟合程度,值越接近1越好:

    R2=1i=1n(yiy^i)2i=1n(yiyˉ)2R^2 = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2}

案例分析

假设我们在构建一个二分类模型来预测病人是否患有某种疾病。我们可以使用精确率召回率来平衡模型的性能,特别是在患病率比较低的情况下。

from sklearn.metrics import confusion_matrix, classification_report

# 假设我们得到模型预测与真实标签
y_true = [0, 1, 1, 0, 1, 0, 0, 1, 0, 1]
y_pred = [0, 1, 0, 0, 1, 0, 1, 1, 0, 0]

# 计算混淆矩阵
cm = confusion_matrix(y_true, y_pred)

# 计算报告
report = classification_report(y_true, y_pred)
print("Confusion Matrix:\n", cm)
print("Classification Report:\n", report)

运行上面的代码,您可以获取有关模型性能的详细信息,包括精确率召回率F1-score的具体数值,这有助于我们评估模型在实际应用中的表现。

模型选择与评估之评估指标的重要性应用复盘卡查看大图
模型选择与评估之评估指标的重要性应用复盘卡

复习《模型选择与评估之评估指标的重要性》时,建议把关键概念、操作步骤和可见结果放在同一页里回看。

模型选择与评估之评估指标的重要性应用检查卡查看大图
模型选择与评估之评估指标的重要性应用检查卡

练习《模型选择与评估之评估指标的重要性》时,建议把输入条件、处理动作和可见结果写在一起,方便下次复查。

小结

在自动机器学习的流程中,评估指标是理解模型表现和改进性能的关键。通过选取合适的评估指标,我们能够更加全面地了解模型在特定任务中的优势与劣势。在下一篇中,我们将探讨如何进行交叉验证,以进一步确保模型的可靠性和稳定性。

继续阅读

顺着这个系列继续看

返回栏目

Reader Messages

读者留言

有问题、补充资料或实测结果,可以直接留下。这里不需要登录。

最多 800 字

为了防刷,每条留言会做长度、链接数量和提交频率限制。

0/800

留言列表

0
正在加载留言...