12 贝叶斯学习与统计推断：模型选择之过拟合与正则化

Q: 贝叶斯学习与统计推断：模型选择之过拟合与正则化适合谁读？

这是 贝叶斯学习入门 系列第 12 / 24 篇，适合正在学习贝叶斯学习入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-15

最近更新: 2026-06-04

分类: 贝叶斯学习

预计阅读: 3 分钟

阅读次数: 0

系列进度

贝叶斯学习入门 · 第 12 / 24 篇

上一篇贝叶斯因子与模型比较下一篇贝叶斯回归之线性回归模型

预计阅读3 分钟

结构重点6 个

图文要点6 张

正文规模1.3k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 6 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步过拟合（Overfitting）02第 2 步正则化（Regularization）03第 3 步小结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线贝叶斯学习与统计推断：模型选择之过拟合与正则化结构图跳到对应正文位置

图 02 · 步骤贝叶斯学习与统计推断：模型选择之过拟合与正则化核对图跳到对应正文位置

图 03 · 配置过拟合正则化判断卡跳到对应正文位置

图 04 · 判断贝叶斯学习阅读地图卡跳到对应正文位置

图 05 · 复盘贝叶斯学习与统计推断：模型选择之过拟合与正则化应用复盘卡跳到对应正文位置

图 06 · 细节贝叶斯学习与统计推断：模型选择之过拟合与正则化应用检查卡跳到对应正文位置

贝叶斯学习的重点是把已有判断和新证据合在一起，并明确表达不确定性。阅读时可以按「过拟合 -> 过拟合的案例 -> 正则化 -> 正则化的原理」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「过拟合」，再查「过拟合的案例」。

在上一篇中，我们探讨了贝叶斯因子和模型比较，了解了如何在不同模型之间进行选择。接下来，我们将深入讨论与模型选择密切相关的两个概念：过拟合与正则化。这两个概念对于确保我们的贝叶斯学习模型的泛化能力至关重要。

过拟合（Overfitting）

过拟合是指模型在训练数据上表现良好，但在新数据上的表现却急剧下降的现象。这通常发生在模型过于复杂时，即模型具有过多的参数，能够非常好地拟合训练数据中的噪声。

理解过拟合与正则化时，先看训练误差、验证误差、参数复杂度、先验约束和泛化表现。

过拟合的案例

以线性回归为例，假设我们有一组数据点，我们使用一个高阶多项式来拟合这些数据。在训练集上，该高阶多项式可以很好地通过所有的数据点，但在验证集上，模型的预测能力却显著下降。这个现象就是过拟合的表现。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline

# 生成数据
np.random.seed(0)
X = np.sort(5 * np.random.rand(80, 1), axis=0)
y = np.sin(X).ravel() + np.random.normal(0, 0.1, X.shape[0])

# 使用不同的多项式阶数
degrees = [1, 3, 5, 10]
plt.figure(figsize=(15, 10))

for i, degree in enumerate(degrees):
    model = make_pipeline(PolynomialFeatures(degree), LinearRegression())
    model.fit(X, y)
    y_pred = model.predict(X)
    
    plt.subplot(2, 2, i + 1)
    plt.scatter(X, y, s=10, label='Data')
    plt.plot(X, y_pred, label='Prediction (degree={})'.format(degree), color='red')
    plt.title('Polynomial Degree: {}'.format(degree))
    plt.legend()

plt.show()

在上面的图中，我们可以看到随着多项式阶数的增加，模型在训练数据上的表现越来越好，但在测试数据上的预测能力并没有显著提高，甚至开始下降，这就是过拟合的体现。

正则化（Regularization）

为了对付过拟合，我们可以采用正则化技术。正则化通过向损失函数中加入一个惩罚项来限制模型的复杂度，从而减少过拟合的风险。常见的正则化方法有L1正则化（Lasso）和L2正则化（Ridge）。

读完《贝叶斯学习与统计推断：模型选择之过拟合与正则化》不要只停在“看懂了”。回头挑一个步骤动手做一遍，再记录哪里卡住，后面的学习会更稳。

正则化的原理

在贝叶斯框架下，我们可以将正则化视为对参数施加先验分布。一种常见的选择是对参数引入一个Gaussian先验，这导致了L2正则化；而使用Laplace先验则导致L1正则化。

正则化的案例

继续使用上面的例子，我们将引入Ridge回归（L2正则化）来对抗过拟合。

from sklearn.linear_model import Ridge

# 使用Ridge回归
plt.figure(figsize=(10, 5))
ridge_model = make_pipeline(PolynomialFeatures(10), Ridge(alpha=1.0))
ridge_model.fit(X, y)
y_ridge_pred = ridge_model.predict(X)

plt.scatter(X, y, s=10, label='Data')
plt.plot(X, y_ridge_pred, label='Ridge Prediction (degree=10)', color='green')
plt.title('Ridge Regression with Regularization')
plt.legend()
plt.show()