13 协方差与相关性
系列进度
AI 概率必备 · 第 13 / 21 篇
整理说明
这篇内容怎么整理
郭震 · 2026-06-04
阅读路线
先按这条路线读
先抓住主线,再回到代码、配置和图文细节,读起来会更稳。
协方差看两个变量是否一起变,相关系数把尺度影响去掉。相关性高,不代表存在因果关系。
我会先画散点图。一个相关系数无法暴露异常值、非线性关系和分组结构。
在上一篇中,我们探讨了方差的性质,了解了如何衡量随机变量自身的离散程度。这篇文章将继续讨论概率论中的重要内容:协方差与相关性。它们是研究随机变量之间关系的重要工具,尤其在机器学习和数据分析中具有广泛的应用。
协方差的定义
协方差是用来描述两个随机变量之间的线性关系的度量。设有随机变量 和 ,它们的协方差可以表示为:
学习协方差与相关性时,先看两个变量是否同向变化,再看标准化后相关系数的正负和强弱。
有了这个公式,我们可以更直观地理解协方差的意义。协方差计算的是一个变量偏离其期望值的程度,如何影响另一个变量的偏离程度。
协方差的性质
-
符号意义:
- 如果 ,则 和 在整体上是正相关的,即一个变量增大时,另一个变量倾向于增大。
- 如果 ,则 和 是负相关。
- 如果 ,则不存在线性关系。
-
单位问题:
- 协方差的单位是两个变量单位的积,因此不容易解释。
示例
假设我们有两个随机变量 和 ,表示一个学生的学习时间(小时)与考试得分(分数)。我们记录了一些数据,如下表所示:
| 学习时间 () | 考试得分 () |
|---|---|
| 1 | 50 |
| 2 | 55 |
| 3 | 60 |
| 4 | 70 |
| 5 | 75 |
我们先计算 和 的期望值:
然后,根据公式计算协方差:
import numpy as np
X = np.array([1, 2, 3, 4, 5])
Y = np.array([50, 55, 60, 70, 75])
cov_xy = np.cov(X, Y)[0][1] # 获取两个变量的协方差
cov_xy
通过计算,我们得到协方差 Cov(X, Y) 大于 0,说明学习时间和考试得分之间存在正相关性。
相关性的定义与计算
相关性是对协方差进行标准化之后的结果,主要用来消除单位的影响。相关性用 相关系数 来表示,通常用皮尔逊相关系数(Pearson correlation coefficient)来衡量,定义为:
读《协方差与相关性》时,可以先看配图里的任务、概念、练习和判断点,再回到正文补细节。这样更容易判断这篇内容能放到哪个真实场景里。
其中 和 分别为 和 的方差。
相关性的性质
- 范围:
- 相关系数的取值范围在 之间。
- 表示完全正相关, 表示完全负相关, 表示无相关性。
示例
继续使用之前的示例,我们可以计算学习时间和考试得分的相关系数。
# 计算方差
var_x = np.var(X)
var_y = np.var(Y)
# 计算相关系数
correlation = cov_xy / (np.sqrt(var_x) * np.sqrt(var_y))
correlation
通过这段代码,我们可以求得 和 的相关系数。假设计算得到的相关系数 r 为 0.95,则可以说学习时间与考试成绩之间具有很高的正相关性。
复习《协方差与相关性》时,建议把关键概念、操作步骤和可见结果放在同一页里回看。
练习《协方差与相关性》时,建议把输入条件、处理动作和可见结果写在一起,方便下次复查。
总结
在这一篇中,我们讨论了协方差与相关性,它们是研究两个随机变量之间关系的重要工具。通过计算协方差和相关系数,我们能够更好地理解数据的内在联系。这为下一篇中关于大数法则的内容打下了基础,帮助我们在更大的数据规模下,理解数据的分布和变化。
在下一篇中,我们将深入探讨大数法则,了解如何在样本量增大时,样本平均数趋向于总体均值。希望大家在后续学习中,能够运用这些概念分析实际问题!
继续阅读
从这篇继续找到相关教程
常见问题
读前先确认这三点
协方差与相关性适合谁读?
这是 AI 概率必备 系列第 13 / 21 篇,适合正在学习AI 概率必备,并且需要把概念落到操作步骤或判断标准里的读者。
读这篇AI 概率必备教程要多久?
按中文技术文章阅读速度估算,通读大约 4 分钟;如果要跟着复现,建议把命令、配置和结果检查分开做。
这篇文章里的图文节点怎么用?
正文里有 6 个图文节点,可以先用它们抓住流程、配置和判断点,再回到对应段落细读。
分享文章
转发到常用平台
微信/朋友圈可先复制链接
相关教程
从相近问题继续读
继续阅读