6 数据预处理之数据转换与归一化

Q: 数据预处理之数据转换与归一化适合谁读？

这是 数据挖掘入门 系列第 6 / 18 篇，适合正在学习数据挖掘入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: 数据挖掘小白

预计阅读: 4 分钟

阅读次数: 0

系列进度

数据挖掘入门 · 第 6 / 18 篇

上一篇数据预处理之缺失值处理下一篇数据挖掘小白教程：探索性数据分析之描述性分析

预计阅读4 分钟

结构重点4 个

图文要点6 张

正文规模1.5k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 4 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步数据转换 02第 2 步归一化 03第 3 步实际案例 04第 4 步小结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线数据预处理之数据转换与归一化结构图跳到对应正文位置

图 02 · 步骤数据预处理之数据转换与归一化核对图跳到对应正文位置

图 03 · 配置数据转换归一化判断卡跳到对应正文位置

图 04 · 判断数据挖掘阅读地图卡跳到对应正文位置

图 05 · 复盘数据预处理之数据转换与归一化应用复盘卡跳到对应正文位置

图 06 · 细节数据预处理之数据转换与归一化应用检查卡跳到对应正文位置

数据挖掘不是只跑算法，而是从数据准备、模式发现到结果解释的一整条流程。阅读时可以按「数据转换 -> 归一化 -> 数据清洗 -> 特征探索」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「数据转换」，再查「归一化」。

在数据挖掘的过程中，数据预处理是一个不可或缺的环节。我们在上一篇中讨论了如何处理缺失值，确保数据集中每一个样本都有尽可能完整的信息。这一部分将重点介绍数据预处理中的一个重要方面——数据转换与归一化。我们会探讨这些步骤如何帮助提高后续建模的效果，并结合实例和代码更好地理解这些概念。

数据转换

数据转换是指对数据进行某种形式的变换，以便使其更加适合于模型的训练或分析。常见的转换操作包括：

做数据转换与归一化时，先看字段量纲、数值范围、异常值和模型需求。尺度不一致会让结果偏向大数值字段。

对数变换：通常用于处理右偏分布的数值特征，能够减小极端值的影响。

例如，考虑某企业的收入数据，其分布可能高度右偏。这时，我们可以使用对数变换：

$X' = \log(X + 1)$

这里的 '+1' 是为了避免对数零不能计算的问题。
```
import pandas as pd
import numpy as np

# 创建数据框
df = pd.DataFrame({'收入': [5000, 10000, 150000, 2000000]})

# 进行对数变换
df['收入_log'] = np.log(df['收入'] + 1)
print(df)
```
平方根变换：另一种常见的处理偏态数据的方法，尤其对于数据都为正的情况。

$X' = \sqrt{X}$

标准化：标准化是对特征进行线性变换，使其均值为 0，方差为 1，这一过程使得不同尺度的特征可以比较。

$X' = \frac{X - \mu}{\sigma}$

其中 $\mu$ 是特征的均值， $\sigma$ 是特征的标准差。

from sklearn.preprocessing import StandardScaler

# 示例数据
data = np.array([[1, 2], [2, 3], [3, 4]])
scaler = StandardScaler()
standardized_data = scaler.fit_transform(data)
print(standardized_data)

归一化

与标准化相似，归一化是另一种常用的数据预处理技术，特别适用于在一个固定范围内缩放特征。归一化的常见方法是 Min-Max 归一化，它将特征缩放到 [0, 1] 区间。

阅读《数据预处理之数据转换与归一化》前，可以先用配图确认主线；读完后再检查哪些步骤能直接操作，哪些还需要补资料。

$X' = \frac{X - X_{min}}{X_{max} - X_{min}}$

这种方式尤其适用于需要保持原特征分布形态的情况，并且在使用一些基于距离的算法（如 KNN、SVM 等）时，归一化会显著提高模型的表现。

from sklearn.preprocessing import MinMaxScaler

# 示例数据
data = np.array([[1, 2], [2, 3], [3, 4]])
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)
print(normalized_data)

实际案例

假设我们在开展客户离职预测的项目，在数据集中我们有多种特征，例如客户的年龄、年收入、账户余额等。这些特征的取值范围与数据分布差异较大，直接投入模型可能导致模型的性能不佳。因此，适当地进行数据转换与归一化是非常必要的。

数据转换：我们首先对年收入进行对数变换，以便减小其与其它特征的差异。
数据归一化：我们使用 Min-Max 归一化对年龄和账户余额进行处理，这样做能够保证每个特征的数值范围更为一致。

下面是一个完整的数据预处理示例：

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

# 创建客户数据集
data = pd.DataFrame({
    '客户ID': [1, 2, 3, 4],
    '年龄': [25, 45, 35, 23],
    '年收入': [5000, 10000, 150000, 2000000],
    '账户余额': [100, 1500, 3000, 50000]
})

# 年收入对数变换
data['年收入_log'] = np.log(data['年收入'] + 1)

# 对年龄和账户余额进行 Min-Max 归一化
scaler = MinMaxScaler()
data[['年龄', '账户余额']] = scaler.fit_transform(data[['年龄', '账户余额']])

print(data)