14 推断统计之样本分布
系列进度
统计学入门 · 第 14 / 24 篇
整理说明
这篇内容怎么整理
郭震 · 2026-06-04
阅读路线
先按这条路线读
先抓住主线,再回到代码、配置和图文细节,读起来会更稳。
统计学的价值在于用有限样本做有边界的判断,学习时要同时看数据、假设和结论。阅读时可以按「什么是样本分布? -> 样本分布的意义 -> 样本均值的分布 -> 样本比例的分布」建立结构,再回到正文里的代码、案例或指标做验证。
读完后,用一个真实小任务复查:输入是什么,处理环节在哪里,输出是否可验收;失败时先查「什么是样本分布?」,再查「样本分布的意义」。
在上一篇文章中,我们讨论了推断统计中的点估计与区间估计。我们了解到如何根据样本数据对总体参数进行估计,以及如何给出这些估计的置信区间。本篇将深入探讨推断统计中的一个重要概念:样本分布。
什么是样本分布?
样本分布是指从一个总体中抽取相同样本量的多个样本所计算的某个统计量(例如样本均值、样本比例等)的概率分布。样本分布反映了样本统计量的变异性和分布特征,是推断统计的基础。
理解样本分布时,先看总体、抽样、统计量、标准误、中心极限定理和置信区间。
样本分布的意义
在推断统计中,我们通常希望通过样本数据来推断总体的特性。样本分布帮助我们理解当我们从总体中随机抽取样本时,样本统计量(如样本均值)的可能取值情况及其概率。
样本均值的分布
假设我们从一个总体中独立随机抽取了样本,每个样本的大小为n,且总体的均值为μ,方差为σ^2。根据中心极限定理,当样本大小n足够大时,样本均值的分布会趋近于正态分布。具体地说,样本均值的分布为:
进入《推断统计之样本分布》正文前,可以先扫一遍配图:它在问什么、要分清哪些概念、哪一步值得动手、最后用什么标准验收。
这里,是样本均值,表示正态分布。
案例分析
假设我们正在研究某城市居民的年收入(假设收入分布是任意的),已知总体均值为μ = 50000元,总体方差为σ^2 = 250000000元。我们随机抽取n = 30个居民的年收入,假设我们计算得到了样本均值为X̄ = 52000元。根据样本分布理论,我们可以计算样本均值的标准误差(Standard Error, SE):
因此,样本均值的分布为:
我们可以使用Python来模拟这种情况,验证我们的样本均值是否符合正态分布。
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
# 设定随机种子
np.random.seed(42)
# 总体参数
mu = 50000
sigma = np.sqrt(250000000)
# 抽取样本
n = 30
samples = np.random.normal(mu, sigma, size=(1000, n))
# 计算样本均值
sample_means = np.mean(samples, axis=1)
# 绘制样本均值分布图
sns.histplot(sample_means, kde=True)
plt.title("Sample Means Distribution")
plt.xlabel("Mean Income")
plt.ylabel("Frequency")
plt.axvline(x=np.mean(sample_means), color='red', linestyle='--', label='Sample Mean')
plt.legend()
plt.show()
利用上面的代码,我们可以观察到多个样本均值的分布图,从而验证样本均值的正态性。
样本比例的分布
假设我们在调查中记录了某个事件发生的次数,用表示事件在总体中发生的比例,样本比例为样本中事件发生的次数与样本总数的比值。当样本量n较大时,样本比例的分布也趋近于正态分布:
案例分析
继续以上职位的例子,假设在随机抽取的30人样本中,有18人的收入高于50000元,因此,样本比例为:
假设总体中这一事件发生的真实比例,我们可以计算样本比例的标准误:
因此,样本比例的分布为:
同样,我们可以使用Python模拟多个样本比例,从而验证其分布情况。
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
# 设定随机种子
np.random.seed(42)
# 样本数量和事件发生比例
n = 30
p = 0.5
num_samples = 1000
# 生成样本比例
sample_proportions = np.random.binomial(n, p, num_samples) / n
# 绘制样本比例分布图
sns.histplot(sample_proportions, kde=True)
plt.title("Sample Proportions Distribution")
plt.xlabel("Proportion of Events")
plt.ylabel("Frequency")
plt.axvline(x=np.mean(sample_proportions), color='red', linestyle='--', label='Sample Proportion')
plt.legend()
plt.show()
通过以上案例,我们探讨了样本分布的基本概念,样本均值及样本比例的分布,并通过Python代码模拟了实际的数据分布情况。
学完《推断统计之样本分布》后,不妨换一个自己的场景试一次,重点观察输入、处理和输出是否能对应起来。
如果想把《推断统计之样本分布》用到自己的任务里,可以先缩小场景,只验证一个最关键的判断点。
总结
在本篇中,我们重点了解了样本分布这一推断统计中的核心概念。我们深入探讨了如何通过样本均值和样本比例的正态分布来进行统计推断。接下来的内容将连接大数法则与中心极限定理的内容,这两个定理为我们的推断提供了理论支撑,帮助我们进一步理解样本分布的性质。通过掌握这些核心概念,我们将为今后的统计分析打下坚实的基础。
继续阅读
从这篇继续找到相关教程
常见问题
读前先确认这三点
推断统计之样本分布适合谁读?
这是 统计学入门 系列第 14 / 24 篇,适合正在学习统计学入门,并且需要把概念落到操作步骤或判断标准里的读者。
读这篇统计学入门教程要多久?
按中文技术文章阅读速度估算,通读大约 4 分钟;如果要跟着复现,建议把命令、配置和结果检查分开做。
这篇文章里的图文节点怎么用?
正文里有 6 个图文节点,可以先用它们抓住流程、配置和判断点,再回到对应段落细读。
分享文章
转发到常用平台
微信/朋友圈可先复制链接
相关教程
从相近问题继续读
继续阅读