10 数据挖掘技术之分类

Q: 数据挖掘技术之分类适合谁读？

这是 数据挖掘入门 系列第 10 / 18 篇，适合正在学习数据挖掘入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: 数据挖掘小白

预计阅读: 4 分钟

阅读次数: 0

系列进度

数据挖掘入门 · 第 10 / 18 篇

上一篇探索性数据分析之统计分析方法下一篇数据挖掘技术之聚类

预计阅读4 分钟

结构重点5 个

图文要点6 张

正文规模1.7k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 5 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步什么是分类？02第 2 步分类的基本步骤 03第 3 步常用的分类算法 04第 4 步分类模型评估 05第 5 步结论

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线数据挖掘技术之分类结构图跳到对应正文位置

图 02 · 步骤数据挖掘技术之分类核对图跳到对应正文位置

图 03 · 配置数据挖掘技术之分类应用检查卡跳到对应正文位置

图 04 · 判断数据挖掘技术之分类应用复盘卡跳到对应正文位置

图 05 · 复盘数据挖掘分类任务判断卡跳到对应正文位置

图 06 · 细节数据挖掘阅读地图卡跳到对应正文位置

数据挖掘不是只跑算法，而是从数据准备、模式发现到结果解释的一整条流程。阅读时可以按「什么是分类？ -> 分类的基本步骤 -> 常用的分类算法 -> 分类模型评估」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「什么是分类？」，再查「分类的基本步骤」。

在数据挖掘的学习过程中，分类是一项非常重要的技术。这一技术通常用于从已有的样本数据中学习并标记新数据，帮助我们将数据分为不同的类别。首先，回顾一下我们在上一篇中讨论的探索性数据分析之统计分析方法，我们了解到，通过统计方法可以从数据中提取出有意义的特征，而这些统计特征正是分类建模的基础。

什么是分类？

分类（Classification）是一种监督学习的方法，其目的是根据输入特征将数据点分配到预定义的类别中。分类技术广泛应用于许多领域，例如金融欺诈检测、电子邮件分类、客户细分等。分类模型能够学习输入数据的特征与类别标签之间的关系，并利用这种关系对新的、未标记的数据进行分类。

如果想把《数据挖掘技术之分类》用到自己的任务里，可以先缩小场景，只验证一个最关键的判断点。

学完《数据挖掘技术之分类》后，不妨换一个自己的场景试一次，重点观察输入、处理和输出是否能对应起来。

分类的基本步骤

数据准备：首先，收集和准备具有标签的数据集，数据集应包括与特定任务相关的特征（自变量）和类别标签（因变量）。
特征选择和工程：从原始数据中选择重要特征，并进行必要的转换或处理，以提高分类性能。
构建分类模型：选择合适的分类算法，如决策树、支持向量机、随机森林或神经网络，构建深度学习模型等。
训练模型：使用训练数据对模型进行训练，让模型学习特征与标签之间的关系。
模型评估：利用测试数据对模型进行评估，通常使用准确率、精确率、召回率和F1-score等指标。
模型应用：将训练好的模型应用于新的数据集进行预测。

常用的分类算法

接下来，我们来介绍几个常用的分类算法，并结合代码示例。

1. 决策树

决策树是一种树状图形结构的模型，利用特征的条件来做出决策。它通过分裂节点来选择最优特征，从而实现分类。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 加载 iris 数据集
data = load_iris()
X, y = data.data, data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建决策树模型
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

# 预测测试集
y_pred = model.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"决策树模型的准确率为: {accuracy:.2f}")

2. 支持向量机（SVM）

支持向量机是一种非常强大的分类算法，尤其当数据集的维度比较高时。

from sklearn.svm import SVC

# 构建支持向量机模型
svm_model = SVC(kernel='linear')
svm_model.fit(X_train, y_train)

# 进行预测
svm_pred = svm_model.predict(X_test)

# 评估模型
svm_accuracy = accuracy_score(y_test, svm_pred)
print(f"SVM模型的准确率为: {svm_accuracy:.2f}")

3. 随机森林

随机森林是一种集成学习方法，它通过构建多个决策树来进行分类，并对这些树的预测结果进行投票。

from sklearn.ensemble import RandomForestClassifier

# 构建随机森林模型
rf_model = RandomForestClassifier()
rf_model.fit(X_train, y_train)

# 进行预测
rf_pred = rf_model.predict(X_test)

# 评估模型
rf_accuracy = accuracy_score(y_test, rf_pred)
print(f"随机森林模型的准确率为: {rf_accuracy:.2f}")

分类模型评估

模型评估是分类过程中至关重要的一个步骤。常见的评估指标包括：

学习分类技术时，先看标签定义、类别数量、样本平衡、特征来源和评估指标。

准确率（Accuracy）：正确分类的样本数占总样本数的比例。

$\text{准确率} = \frac{\text{正确分类样本数}}{\text{总样本数}}$
精准率（Precision）：被分类为正类的样本中实际为正类的比例。

$\text{精准率} = \frac{TP}{TP + FP}$
召回率（Recall）：所有实际为正类的样本中，被正确分类为正类的比例。

$\text{召回率} = \frac{TP}{TP + FN}$
F1-score：精准率和召回率的调和平均。

$F1 = 2 \times \frac{\text{精准率} \times \text{召回率}}{\text{精准率} + \text{召回率}}$