9 特征选择与工程

Q: 特征选择与工程适合谁读？

这是 机器学习入门 系列第 9 / 21 篇，适合正在学习机器学习入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: 机器学习小白

预计阅读: 4 分钟

阅读次数: 0

系列进度

机器学习入门 · 第 9 / 21 篇

上一篇数据预处理之数据清洗下一篇模型选择与训练之选择合适的模型

预计阅读4 分钟

结构重点11 个

图文要点6 张

正文规模1.6k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 11 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步什么是特征选择与工程？02第 2 步特征选择 03第 3 步特征工程

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线特征选择与工程流程图跳到对应正文位置

图 02 · 步骤特征选择与工程核对图跳到对应正文位置

图 03 · 配置特征选择工程判断卡跳到对应正文位置

图 04 · 判断机器学习阅读地图卡跳到对应正文位置

图 05 · 复盘特征选择与工程应用检查卡跳到对应正文位置

图 06 · 细节特征选择与工程应用复盘卡跳到对应正文位置

特征工程不是简单加列，而是把业务知识变成模型能理解的输入。好特征常常比复杂模型更有价值。

新增一个特征前，我会写下它的业务含义和可能泄露的问题。解释不清的特征，即使能涨分也要谨慎。

在机器学习的流程中，数据预处理是一个至关重要的步骤。在上一篇教程中，我们重点讨论了“数据清洗”的内容，包括如何处理缺失值、异常值和数据格式问题。本篇我们将继续探讨数据预处理中的另一个重要方面——“特征选择与工程”。在这篇文章中，我们将介绍如何选择和构建特征，以提高模型的表现，并为接下来的“模型选择与训练”做好准备。

什么是特征选择与工程？

在机器学习中，特征是用于训练模型的输入变量。特征选择是从原始特征中挑选出对预测结果最有用的特征，而特征工程则是通过创造性的方法构造新的特征，以增强模型的表现。

做特征选择与工程时，先看字段含义、预测时可用性、与目标的关系、缺失情况和线上稳定性。

良好的特征是提高模型预测精度的关键。因此，特征选择与工程在整个机器学习工作流中占据了重要位置。

特征选择

特征选择的目的是减少特征的数量，从而提高模型的性能，降低过拟合风险，并提升计算效率。常用的特征选择方法包括但不限于：

看《特征选择与工程》时，先把图中的问题、关键词、操作和验收标准对上，再读正文会更省力。读完后，最好能用自己的项目重新讲一遍。

1. 过滤法（Filter Method）

通过评估特征与输出变量之间的相关性，选择相关性最强的特征。常用的评估指标包括相关系数、卡方检验等。

示例代码

import pandas as pd
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest, f_classif

# 加载数据
data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

# 使用过滤法选择最佳特征
selector = SelectKBest(score_func=f_classif, k=2)
X_new = selector.fit_transform(X, y)

print("选择的特征：", X.columns[selector.get_support()])

2. 包裹法（Wrapper Method）

将特征选择过程视为一个特征子集的搜索问题。通过构建模型来评估特征组合的效果，常用的方法包括递归特征消除（Recursive Feature Elimination，RFE）。

示例代码

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# 创建逻辑回归模型
model = LogisticRegression(max_iter=1000)

# 使用递归特征消除法选择特征
rfe = RFE(model, 2)
fit = rfe.fit(X, y)

print("选择的特征：", X.columns[fit.support_])

3. 嵌入法（Embedded Method）

将特征选择与模型训练结合在一起，常见的算法如LASSO回归。LASSO回归通过在损失函数中加入L1正则化，使得某些特征的权重趋近于零，从而实现特征选择。

示例代码

from sklearn.linear_model import Lasso

# 使用LASSO回归
lasso = Lasso(alpha=0.1)
lasso.fit(X, y)

# 选择非零权重的特征
print("选择的特征：", X.columns[lasso.coef_ != 0])

特征工程

特征工程是创造新的特征以提高模型性能的过程。这通常需要对数据有更深的理解和领域知识。

练习《特征选择与工程》时，建议把输入条件、处理动作和可见结果写在一起，方便下次复查。

复习《特征选择与工程》时，建议把关键概念、操作步骤和可见结果放在同一页里回看。

1. 特征变换

例如，进行数值特征的标准化或归一化，使其具有相同的尺度。通常使用StandardScaler或MinMaxScaler。

示例代码

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print("标准化后的特征：\n", X_scaled[:5])

2. 类别特征编码

对于类别特征，需要将其转换为数值类型。常用的方法包括独热编码（One-Hot Encoding）和标签编码（Label Encoding）。

示例代码

# 创建示例数据
data = pd.DataFrame({
    'color': ['red', 'blue', 'green'],
    'size': ['S', 'M', 'L']
})

# 使用独热编码
data_encoded = pd.get_dummies(data, columns=['color', 'size'])
print("独热编码后的特征：\n", data_encoded)

3. 新特征构造

通过组合现有特征来生成新特征。例如，可以通过将“房间数量”和“面积”结合来生成“单位面积房价”。

案例：房价预测

假设我们在进行房价预测，初步的数据集中有多个特征如“房间数量”、“居住面积”、“年份”等。为了提升模型的效果，我们可以：

将“居住面积”转换为“每房间的面积”。
提取“年份”的“建造年代”作为新特征。
对于类别特征如“房屋类型”，使用独热编码。

最终准备

经过特征选择和工程的处理后，我们将获得一个精简的特征集合。这样，我们就为下一步——“模型选择与训练”奠定了良好的基础。

在下一篇教程中，我们将讨论如何根据数据特征选择合适的模型，并进行训练。希望通过本篇的特征选择与工程的介绍，能够帮助你更有效地预处理数据，提高机器学习模型的表现。

继续阅读

从这篇继续找到相关教程

AI 教程总索引

机器学习入门教程目录21 篇按顺序阅读本系列图文节点6 个位置可直达 AI 图文教程索引按主题继续找可复现教程 AI 图文教程全量清单浏览全部已整理教程跨领域 AI 文章入口继续找其它技术系列里的 AI 章节 AI 教程图片索引6 张图文节点

常见问题

读前先确认这三点

特征选择与工程适合谁读？

这是机器学习入门系列第 9 / 21 篇，适合正在学习机器学习入门，并且需要把概念落到操作步骤或判断标准里的读者。

读这篇机器学习入门教程要多久？

按中文技术文章阅读速度估算，通读大约 4 分钟；如果要跟着复现，建议把命令、配置和结果检查分开做。

这篇文章里的图文节点怎么用？

正文里有 6 个图文节点，可以先用它们抓住流程、配置和判断点，再回到对应段落细读。

分享文章

微信/朋友圈可先复制链接

微博 X LinkedIn Facebook Telegram 邮件

继续找到相关 AI 教程

返回栏目

继续学习模型选择与训练之选择合适的模型机器学习入门 · 第 10 篇 · 6 张图 · 1.7k 字

图文补读机器学习模型评估之评估指标介绍机器学习入门 · 6 张图 · 2.1k 字，适合回看流程和判断点。AI 教程总索引全部 AI 教程文章按大模型、Agent、本地部署、机器学习和工程实践继续查找相关文章。AI 图文教程索引按流程和判断点找教程先看每篇文章里的流程、配置和复盘节点，再回到原文细读。跨领域 AI 入口其它技术系列里的 AI 章节从大数据、爬虫、量子计算和 Spark 章节继续找 AI 内容。AI 教程图片索引按图查找教程文章从流程图、配置图和判断卡片直接定位对应文章。机器学习入门目录机器学习入门完整目录按顺序查看全部小节、图文密度和后续阅读路线。

9 特征选择与工程

机器学习入门 · 第 9 / 21 篇

这篇内容怎么整理

先按这条路线读

先看本文图文节点

什么是特征选择与工程？

特征选择

1. 过滤法（Filter Method）

示例代码

2. 包裹法（Wrapper Method）

示例代码

3. 嵌入法（Embedded Method）

示例代码

特征工程

1. 特征变换

示例代码

2. 类别特征编码

示例代码

3. 新特征构造

案例：房价预测

最终准备

从这篇继续找到相关教程

读前先确认这三点

特征选择与工程适合谁读？

读这篇机器学习入门教程要多久？

这篇文章里的图文节点怎么用？

继续找到相关 AI 教程

读者留言

留言列表

9 特征选择与工程

机器学习入门 · 第 9 / 21 篇

这篇内容怎么整理

先按这条路线读

先看本文图文节点

什么是特征选择与工程？

特征选择

1. 过滤法（Filter Method）

示例代码

2. 包裹法（Wrapper Method）

示例代码

3. 嵌入法（Embedded Method）

示例代码

特征工程

1. 特征变换

示例代码

2. 类别特征编码

示例代码

3. 新特征构造

案例：房价预测

最终准备

从这篇继续找到相关教程

读前先确认这三点

特征选择与工程适合谁读？

读这篇机器学习入门教程要多久？

这篇文章里的图文节点怎么用？

转发到常用平台

从相近问题继续读

继续找到相关 AI 教程

读者留言

留言列表