12 处理缺失值

Q: 处理缺失值适合谁读？

这是 Scikit-learn 入门 系列第 12 / 24 篇，适合正在学习Scikit-learn 入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-15

最近更新: 2026-06-04

分类: Scikit

预计阅读: 3 分钟

阅读次数: 0

系列进度

Scikit-learn 入门 · 第 12 / 24 篇

预计阅读3 分钟

结构重点6 个

图文要点6 张

正文规模1.1k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 6 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步为什么需要处理缺失值 02第 2 步处理缺失值的方法 03第 3 步小结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线处理缺失值流程图跳到对应正文位置

图 02 · 步骤处理缺失值核对图跳到对应正文位置

图 03 · 配置缺失值处理判断卡跳到对应正文位置

图 04 · 判断ScikitLearn阅读地图卡跳到对应正文位置

图 05 · 复盘处理缺失值应用复盘卡跳到对应正文位置

图 06 · 细节处理缺失值应用检查卡跳到对应正文位置

缺失值处理要看原因。随机缺失、系统缺失和业务上代表某种状态的缺失，处理方式不同。盲目填平均值可能掩盖问题。

插补工具可参考 scikit-learn imputation 文档。

填补前我会先统计每列缺失比例，并抽样看原始记录。缺失比例很高的字段，不要急着塞进模型。

在数据科学和机器学习的过程中，数据的完整性至关重要。如果数据集中的特征存在缺失值，就需要进行相应的处理，以避免对模型训练和预测结果产生负面影响。接下来，我们将介绍如何在 Scikit-Learn 框架下处理缺失值，并结合实际案例进行演示。

为什么需要处理缺失值

缺失值可能会导致以下问题：

模型训练失败：许多机器学习算法无法处理缺失值，直接使用含有缺失值的数据集会导致程序报错。
模型性能下降：即便可以处理缺失值，缺失数据的存在也可能影响模型的泛化能力，导致预测性能的下降。
偏差引入：错误地处理缺失值可能会引入更多偏差，影响结果的可靠性。

处理缺失值时，先看缺失比例、字段类型、缺失原因、训练测试隔离和填补策略。

处理缺失值的方法

在 Scikit-Learn 中，处理缺失值的常见方法有：

读《处理缺失值》时，可以先看配图里的任务、概念、练习和判断点，再回到正文补细节。这样更容易判断这篇内容能放到哪个真实场景里。

删除缺失值
插补缺失值
使用专门的算法处理缺失值

删除缺失值

当数据集中的缺失值占比很小或不重要时，可以选择直接删除相应的行或列。但这不是一个推荐的普遍做法，因为会损失信息。

import pandas as pd

# 创建一个示例数据集
data = {
    'A': [1, 2, None, 4],
    'B': [None, 5, 6, 7],
    'C': [8, 9, 10, None]
}
df = pd.DataFrame(data)

# 删除含有缺失值的行
df_cleaned = df.dropna()

print(df_cleaned)

插补缺失值

插补缺失值是另一种常见的方法，最常用的插补方式是使用特征的平均值、中位数或众数，或者使用 KNN（K-近邻算法）和其他模型。

使用均值填充

from sklearn.impute import SimpleImputer

# 创建插补器
imputer = SimpleImputer(strategy='mean')

# 对数据进行插补
df['A'] = imputer.fit_transform(df[['A']])
df['B'] = imputer.fit_transform(df[['B']])
df['C'] = imputer.fit_transform(df[['C']])

print(df)

使用中位数填充

# 修改插补策略为中位数
imputer = SimpleImputer(strategy='median')
df['C'] = imputer.fit_transform(df[['C']])

print(df)

KNN 插补

使用 KNN 插补是一种基于特征相似度的插补方法，可以很好地保留数据内在结构。

from sklearn.impute import KNNImputer

# 创建 KNN 插补器
knn_imputer = KNNImputer(n_neighbors=2)
df_knn = pd.DataFrame(knn_imputer.fit_transform(df), columns=df.columns)

print(df_knn)

这种方法在插补值时考虑了其他特征，有助于提供更加精确的估计。

读到这里，可以把《处理缺失值》整理成一张复盘表：先说清主线，再拿一个小任务检查结果。

读完《处理缺失值》后，可以先挑一个小样例走完整流程，再判断哪些步骤已经能独立完成。