郭震 AI公众号:郭震AI

15 中心极限定理的应用

发布日期:

最近更新:

分类: AI概率论小白

预计阅读: 5 分钟

阅读次数: 0

系列进度

AI 概率必备 · 第 15 / 21

预计阅读5 分钟
结构重点8 个
图文要点6 张
正文规模2.0k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 8 个结构重点拆成环境、步骤、验证点和常见误区,尽量让读者能照着复现。
图文对照保留 6 张和配置、流程、判断结果有关的图片,方便快速定位正文重点。
持续校对工具、模型和命令变化较快,后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线,再回到代码、配置和图文细节,读起来会更稳。

图文要点

先看本文图文节点

按图先建立主线,再跳回正文核对步骤、配置和判断标准。

中心极限定理概念图查看大图
中心极限定理概念图

中心极限定理解释了为什么很多样本均值会近似正态。它是置信区间、A/B 测试和误差分析的基础。

中心极限定理核对图查看大图
中心极限定理核对图

我会确认样本是否足够、是否近似独立。条件不满足时,正态近似会变弱。

在上一篇中,我们探讨了大数法则,了解了如何通过增加样本量来提升估计值的准确性。而今,我们将重点讨论“中心极限定理”及其在实际中的应用。中心极限定理是概率论中的一个重要定理,它在许多实际问题和AI领域中都得到了广泛应用。

什么是中心极限定理?

中心极限定理指出,当样本量足够大时,来自任意分布的独立随机变量的均值的分布趋向于正态分布(钟形曲线),无论原始变量的分布形状如何。这一定理是很多统计方法和机器学习算法的基础。

中心极限定理应用判断卡查看大图
中心极限定理应用判断卡

应用中心极限定理时,先看样本是否独立同分布、样本量是否足够、均值方差是否可用,再做正态近似。

具体来说,如果我们有一组独立同分布的随机变量 X1,X2,,XnX_1, X_2, \ldots, X_n,其期望值为 μ\mu,方差为 σ2\sigma^2,那么样本均值 Xˉ=1ni=1nXi\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i 的分布在样本量 nn 较大时,将近似服从正态分布,即:

XˉN(μ,σ2n)\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)

这里,N(μ,σ2n)N\left(\mu, \frac{\sigma^2}{n}\right) 表示均值为 μ\mu、方差为 σ2n\frac{\sigma^2}{n} 的正态分布。

中心极限定理的实际应用

中心极限定理的应用应用复盘卡查看大图
中心极限定理的应用应用复盘卡
中心极限定理的应用应用检查卡查看大图
中心极限定理的应用应用检查卡

回看《中心极限定理的应用》时,不必一次做大项目,先用一条简单样例确认主线是否清楚。

如果《中心极限定理的应用》还没完全消化,可以从这张卡片的四个动作重新走一遍。

1. 置信区间的估计

概率阅读地图卡查看大图
概率阅读地图卡

学习《中心极限定理的应用》不必一口气吃完所有细节。先挑一个能动手验证的小问题,再顺着图和正文补齐概念。

在统计学中,中心极限定理常被用来构造置信区间。如果我们希望估计一个总体均值 μ\mu,我们可以通过样本均值 Xˉ\bar{X} 来进行估计,然后根据中心极限定理,构造其置信区间。

假设我们从某个总体中随机抽取了 nn 个样本,计算得到了样本均值 Xˉ\bar{X} 和样本标准差 SS。我们可以利用中心极限定理来建立置信区间:

Xˉ±zα/2Sn\bar{X} \pm z_{\alpha/2} \cdot \frac{S}{\sqrt{n}}

其中,zα/2z_{\alpha/2} 是标准正态分布的分位数,在给定置信水平 α\alpha 的情况下确定。

案例:平均身高的置信区间

假设我们想估计一个城市中成年人身高的平均值。我们从中随机选取了100名成年人,测得其身高均值为170厘米,标准差为10厘米。以95%的置信水平,我们可以计算置信区间:

  1. n=100n = 100Xˉ=170\bar{X} = 170S=10S = 10
  2. 对于95%置信水平,z0.0251.96z_{0.025} \approx 1.96

置信区间如下所示:

170±1.9610100=170±1.96170 \pm 1.96 \cdot \frac{10}{\sqrt{100}} = 170 \pm 1.96

因此,置信区间为 [168.04,171.96][168.04, 171.96],即我们有95%的把握认为该城市成年人的平均身高在这个区间内。

2. 机器学习中的应用

中心极限定理也在许多机器学习算法中起着基础作用。在模型评估时,例如交叉验证,我们计算各个折叠上的模型性能指标(如准确率、召回率等)的平均值和标准差,利用中心极限定理可以帮助我们推断出整体模型的性能可靠性。

案例:模型性能评估

假设我们在进行10折交叉验证,得到了每个折叠的准确率如下:

[0.85, 0.88, 0.82, 0.90, 0.87, 0.86, 0.84, 0.89, 0.83, 0.91]

计算其均值和标准差:

import numpy as np

accuracies = [0.85, 0.88, 0.82, 0.90, 0.87, 0.86, 0.84, 0.89, 0.83, 0.91]
mean_acc = np.mean(accuracies)
std_dev = np.std(accuracies)

print(f"Mean Accuracy: {mean_acc:.2f}")
print(f"Standard Deviation: {std_dev:.2f}")

运行结果如下:

Mean Accuracy: 0.86
Standard Deviation: 0.03

根据中心极限定理,我们可以在大样本的基础上构造模型性能的置信区间。

0.86±z0.0250.03100.86±0.01890.86 \pm z_{0.025} \cdot \frac{0.03}{\sqrt{10}} \approx 0.86 \pm 0.0189

因此,我们可以得出模型性能的置信区间为 [0.84,0.88][0.84, 0.88]

3. A/B 测试

在产品优化和用户体验的测试中,A/B 测试是一个常见的统计方法。使用中心极限定理能够帮助我们判断不同版本之间的显著性差异。通过比较A组和B组的平均转换率以及它们的标准差,我们可以得出是否存在显著差异。

小结

中心极限定理为我们提供了将复杂随机现象简化为正态分布的重要工具,它在统计推断、机器学习、实验设计等领域具有广泛的应用。通过使用中心极限定理,我们能够更有信心地进行科学决策和数据分析。

在下一篇中,我们将深入探讨贝叶斯理论及其核心概念——贝叶斯定理,了解如何通过先验知识和观察数据来更新我们的信念。这将进一步增强我们对不确定性的理解和应对能力。

继续阅读

从这篇继续找到相关教程

AI 教程总索引

常见问题

读前先确认这三点

中心极限定理的应用适合谁读?

这是 AI 概率必备 系列第 15 / 21 篇,适合正在学习AI 概率必备,并且需要把概念落到操作步骤或判断标准里的读者。

读这篇AI 概率必备教程要多久?

按中文技术文章阅读速度估算,通读大约 5 分钟;如果要跟着复现,建议把命令、配置和结果检查分开做。

这篇文章里的图文节点怎么用?

正文里有 6 个图文节点,可以先用它们抓住流程、配置和判断点,再回到对应段落细读。

分享文章

转发到常用平台

微信/朋友圈可先复制链接

相关教程

AI 教程总索引

继续阅读

继续找到相关 AI 教程

返回栏目

Reader Messages

读者留言

有问题、补充资料或实测结果,可以直接留下。这里不需要登录。

最多 800 字

为了防刷,每条留言会做长度、链接数量和提交频率限制。

0/800

留言列表

0
正在加载留言...