15 推断统计之大数法则与中心极限定理

Q: 推断统计之大数法则与中心极限定理适合谁读？

这是 统计学入门 系列第 15 / 24 篇，适合正在学习统计学入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: 统计学小白

预计阅读: 4 分钟

阅读次数: 0

系列进度

统计学入门 · 第 15 / 24 篇

上一篇推断统计之样本分布下一篇线性回归：统计学小白教程

预计阅读4 分钟

结构重点9 个

图文要点6 张

正文规模1.6k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 9 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步大数法则 02第 2 步中心极限定理 03第 3 步总结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线推断统计之大数法则与中心极限定理结构图跳到对应正文位置

图 02 · 步骤推断统计之大数法则与中心极限定理核对图跳到对应正文位置

图 03 · 配置大数法则中心极限定理判断卡跳到对应正文位置

图 04 · 判断统计学阅读地图卡跳到对应正文位置

图 05 · 复盘推断统计之大数法则与中心极限定理应用复盘卡跳到对应正文位置

图 06 · 细节推断统计之大数法则与中心极限定理应用检查卡跳到对应正文位置

统计学的价值在于用有限样本做有边界的判断，学习时要同时看数据、假设和结论。阅读时可以按「大数法则 -> 概述 -> 数学表述 -> 中心极限定理」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「大数法则」，再查「概述」。

在统计学中，我们经常需要从样本数据中推断总体特征。为了能更好地理解推断统计的实用性，前一篇介绍了样本分布的基本概念，而这一篇将探讨两项重要原理：大数法则和中心极限定理。这两个理论为我们提供了在不同样本条件下，如何估计总体参数以及理解样本均值行为的重要依据。

大数法则

概述

比较大数法则与中心极限定理时，先看样本均值、样本量、期望、方差、收敛和正态近似。

大数法则描述了在一定条件下，随着样本数量的增加，样本均值会趋近于总体均值的现象。简单来说，如果我们取得足够大的样本，那么我们样本的均值会接近真实的总体均值。

数学表述

定义总体均值为 $\mu$ ，如果我们从一个总体中随机抽取 $n$ 个样本 $X_1, X_2, \ldots, X_n$ ，样本均值 $\bar{X}$ 定义为：

\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i

大数法则告诉我们，当 $n$ 趋向于无穷大时，样本均值 $\bar{X}$ 几乎肯定会收敛于总体均值 $\mu$ ，即：

\bar{X} \xrightarrow{p} \mu \quad (n \to \infty)

这里， $\xrightarrow{p}$ 表示在概率收敛的意思。

案例分析

假设我们希望估计某城市居民的平均收入。在这个城市，居民的真实平均收入为 $5000$ 元。我们随机抽取 $n$ 个样本，并计算样本均值。随着样本数量 $n$ 的增加，我们会发现样本均值逐渐接近 $5000$ 元。

import numpy as np
import matplotlib.pyplot as plt

# 设定真实的总体均值和样本数量
true_mean = 5000
sample_sizes = [10, 50, 100, 500, 1000]
sample_means = []

# 模拟多次抽样
for n in sample_sizes:
    samples = np.random.normal(true_mean, 1000, n)  # 正态分布抽样
    sample_means.append(np.mean(samples))

# 绘制结果
plt.figure(figsize=(10, 6))
plt.plot(sample_sizes, sample_means, marker='o', label='样本均值')
plt.axhline(y=true_mean, color='r', linestyle='--', label='真实均值')
plt.xscale('log')
plt.title('样本均值随样本大小的变化')
plt.xlabel('样本大小 (n)')
plt.ylabel('样本均值')
plt.legend()
plt.grid(True)
plt.show()

上面的代码模拟了不同样本大小下所获得的样本均值，红线表示真实均值，随着样本大小的增加，样本均值逐渐靠近真实均值，这验证了大数法则。

中心极限定理

概述

《推断统计之大数法则与中心极限定理》这类内容容易被细节带偏。先看图里的主线，再回到正文核对环境、输入、输出和判断标准。

中心极限定理是推断统计中的一个极其重要的概念。它表明，不论总体分布的形状如何，只要样本量足够大，样本均值的分布将近似于正态分布。

数学表述

设总体均值为 $\mu$ ，总体标准差为 $\sigma$ ，从总体中抽取的样本均值 $\bar{X}$ 的分布在样本量 $n$ 足够大的时候会趋近于正态分布，且其均值和方差为：

\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)

这意味着，随着样本大小 $n$ 的增加，样本均值的分布标准差会变小，这样使得样本均值更加集中于总体均值。

案例分析

继续假设我们在调查居民平均收入，假设居民收入的标准差为 $1500$ 元。我们希望知道样本均值的分布情况。

import seaborn as sns

# 模拟多个样本均值
sample_means = []
n_samples = 1000  # 总共模拟的样本数量
sample_size = 30  # 每个样本的大小

for _ in range(n_samples):
    samples = np.random.normal(true_mean, 1500, sample_size)
    sample_means.append(np.mean(samples))

# 绘制样本均值的分布
plt.figure(figsize=(10, 6))
sns.histplot(sample_means, kde=True, stat="density", bins=30)
plt.axvline(x=true_mean, color='r', linestyle='--', label='真实均值')
plt.title('样本均值的分布')
plt.xlabel('样本均值')
plt.ylabel('密度')
plt.legend()
plt.grid(True)
plt.show()