15 推断统计之大数法则与中心极限定理
系列进度
统计学入门 · 第 15 / 24 篇
整理说明
这篇内容怎么整理
郭震 · 2026-06-04
阅读路线
先按这条路线读
先抓住主线,再回到代码、配置和图文细节,读起来会更稳。
统计学的价值在于用有限样本做有边界的判断,学习时要同时看数据、假设和结论。阅读时可以按「大数法则 -> 概述 -> 数学表述 -> 中心极限定理」建立结构,再回到正文里的代码、案例或指标做验证。
读完后,用一个真实小任务复查:输入是什么,处理环节在哪里,输出是否可验收;失败时先查「大数法则」,再查「概述」。
在统计学中,我们经常需要从样本数据中推断总体特征。为了能更好地理解推断统计的实用性,前一篇介绍了样本分布的基本概念,而这一篇将探讨两项重要原理:大数法则和中心极限定理。这两个理论为我们提供了在不同样本条件下,如何估计总体参数以及理解样本均值行为的重要依据。
大数法则
概述
比较大数法则与中心极限定理时,先看样本均值、样本量、期望、方差、收敛和正态近似。
大数法则描述了在一定条件下,随着样本数量的增加,样本均值会趋近于总体均值的现象。简单来说,如果我们取得足够大的样本,那么我们样本的均值会接近真实的总体均值。
数学表述
定义总体均值为 ,如果我们从一个总体中随机抽取 个样本 ,样本均值 定义为:
大数法则告诉我们,当 趋向于无穷大时,样本均值 几乎肯定会收敛于总体均值 ,即:
这里, 表示在概率收敛的意思。
案例分析
假设我们希望估计某城市居民的平均收入。在这个城市,居民的真实平均收入为 元。我们随机抽取 个样本,并计算样本均值。随着样本数量 的增加,我们会发现样本均值逐渐接近 元。
import numpy as np
import matplotlib.pyplot as plt
# 设定真实的总体均值和样本数量
true_mean = 5000
sample_sizes = [10, 50, 100, 500, 1000]
sample_means = []
# 模拟多次抽样
for n in sample_sizes:
samples = np.random.normal(true_mean, 1000, n) # 正态分布抽样
sample_means.append(np.mean(samples))
# 绘制结果
plt.figure(figsize=(10, 6))
plt.plot(sample_sizes, sample_means, marker='o', label='样本均值')
plt.axhline(y=true_mean, color='r', linestyle='--', label='真实均值')
plt.xscale('log')
plt.title('样本均值随样本大小的变化')
plt.xlabel('样本大小 (n)')
plt.ylabel('样本均值')
plt.legend()
plt.grid(True)
plt.show()
上面的代码模拟了不同样本大小下所获得的样本均值,红线表示真实均值,随着样本大小的增加,样本均值逐渐靠近真实均值,这验证了大数法则。
中心极限定理
概述
《推断统计之大数法则与中心极限定理》这类内容容易被细节带偏。先看图里的主线,再回到正文核对环境、输入、输出和判断标准。
中心极限定理是推断统计中的一个极其重要的概念。它表明,不论总体分布的形状如何,只要样本量足够大,样本均值的分布将近似于正态分布。
数学表述
设总体均值为 ,总体标准差为 ,从总体中抽取的样本均值 的分布在样本量 足够大的时候会趋近于正态分布,且其均值和方差为:
这意味着,随着样本大小 的增加,样本均值的分布标准差会变小,这样使得样本均值更加集中于总体均值。
案例分析
继续假设我们在调查居民平均收入,假设居民收入的标准差为 元。我们希望知道样本均值的分布情况。
import seaborn as sns
# 模拟多个样本均值
sample_means = []
n_samples = 1000 # 总共模拟的样本数量
sample_size = 30 # 每个样本的大小
for _ in range(n_samples):
samples = np.random.normal(true_mean, 1500, sample_size)
sample_means.append(np.mean(samples))
# 绘制样本均值的分布
plt.figure(figsize=(10, 6))
sns.histplot(sample_means, kde=True, stat="density", bins=30)
plt.axvline(x=true_mean, color='r', linestyle='--', label='真实均值')
plt.title('样本均值的分布')
plt.xlabel('样本均值')
plt.ylabel('密度')
plt.legend()
plt.grid(True)
plt.show()
上面的代码生成了 个样本均值的分布图。可以看到,样本均值的分布趋近于正态分布,并且仍旧以真实均值 元为中心。
如果《推断统计之大数法则与中心极限定理》还没完全消化,可以从这张卡片的四个动作重新走一遍。
回看《推断统计之大数法则与中心极限定理》时,不必一次做大项目,先用一条简单样例确认主线是否清楚。
总结
通过大数法则和中心极限定理,我们能够更自信地进行推断统计。如果我们有足够大的样本量,可以保证我们的样本均值良好地反映总体均值的特性。接下来,我们将进入线性回归分析,这是推断统计中的另一个重要主题,它帮助我们理解变量之间的关系。
继续阅读
从这篇继续找到相关教程
常见问题
读前先确认这三点
推断统计之大数法则与中心极限定理适合谁读?
这是 统计学入门 系列第 15 / 24 篇,适合正在学习统计学入门,并且需要把概念落到操作步骤或判断标准里的读者。
读这篇统计学入门教程要多久?
按中文技术文章阅读速度估算,通读大约 4 分钟;如果要跟着复现,建议把命令、配置和结果检查分开做。
这篇文章里的图文节点怎么用?
正文里有 6 个图文节点,可以先用它们抓住流程、配置和判断点,再回到对应段落细读。
分享文章
转发到常用平台
微信/朋友圈可先复制链接
相关教程
从相近问题继续读
继续阅读