11 数据挖掘技术之聚类

Q: 数据挖掘技术之聚类适合谁读？

这是 数据挖掘入门 系列第 11 / 18 篇，适合正在学习数据挖掘入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: 数据挖掘小白

预计阅读: 4 分钟

阅读次数: 0

系列进度

数据挖掘入门 · 第 11 / 18 篇

上一篇数据挖掘技术之分类下一篇数据挖掘技术之关联规则

预计阅读4 分钟

结构重点10 个

图文要点6 张

正文规模1.6k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 10 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步聚类的定义 02第 2 步常见的聚类算法 03第 3 步案例：K-Means聚类实现 04第 4 步小结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线数据挖掘技术之聚类结构图跳到对应正文位置

图 02 · 步骤数据挖掘技术之聚类核对图跳到对应正文位置

图 03 · 配置数据挖掘聚类判断卡跳到对应正文位置

图 04 · 判断数据挖掘阅读地图卡跳到对应正文位置

图 05 · 复盘数据挖掘技术之聚类应用复盘卡跳到对应正文位置

图 06 · 细节数据挖掘技术之聚类应用检查卡跳到对应正文位置

数据挖掘不是只跑算法，而是从数据准备、模式发现到结果解释的一整条流程。阅读时可以按「聚类的定义 -> 聚类的应用场景 -> 常见的聚类算法 -> K-Means算法」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「聚类的定义」，再查「聚类的应用场景」。

在上一篇中，我们探讨了数据挖掘技术中的分类方法，了解了如何将数据分类到预定义的类别中。而这一篇，我们将深入了解聚类技术，这是一种无监督学习策略，用于将一组对象分成多个相似的子集或“簇”。

聚类的定义

聚类是将数据集中的相似对象分组的过程。在聚类中，没有先验的标签或类别，算法会根据数据的特征自动寻找相似性并形成不同的簇。每个簇可以被看作是数据中具有相似特征的对象集。

学习聚类技术时，先看特征尺度、距离度量、簇数量、异常点和结果解释方式。

聚类的应用场景

聚类技术在许多领域都有广泛的应用，包括但不限于：

市场细分：根据消费者的行为将市场分为不同的细分群体。
图像处理：对图像进行分割，实现目标识别。
社交网络分析：发现社交网络中的社区结构。
客户行为分析：识别客户群体的特征，为个性化营销提供依据。

常见的聚类算法

接下来，我们将介绍一些常见的聚类算法。

《数据挖掘技术之聚类》可以按“场景、概念、动作、结果”来读。先把这四件事对齐，再回到正文里的参数、代码或流程。

K-Means算法

K-Means是一种流行的聚类算法，其基本思想是将数据分为K个簇，使得每个簇内对象的相似性尽可能高，而不同簇之间的相似性尽可能低。具体步骤如下：

初始化：随机选择K个初始聚类中心。
分配簇：将每个数据点分配给离其最近的聚类中心。
更新中心：计算每个簇的新中心，作为簇中所有点的均值。
迭代：重复步骤2和步骤3，直到聚类中心不再变化或变化很小。

层次聚类

层次聚类算法通过构建一个树形结构来表示数据的层次关系，无论是自底向上（凝聚型）还是自顶向下（分裂型）。这种方法不需要预先指定簇的数量，常用的距离度量有欧几里得距离、曼哈顿距离等。

DBSCAN

DBSCAN（基于密度的聚类算法）通过找出高密度区域来进行聚类。它可以识别任意形状的簇，并且对噪声和离群点具有较强的鲁棒性。其工作原理如下：

选择核心点：对于每个点，检查其周围的邻域，若邻域内点的数量大于某个阈值，则视为核心点。
扩展簇：从一个核心点出发，将其直接可达的所有点加入同一簇，并递归处理这些点。

案例：K-Means聚类实现

为了更好地理解聚类技术，我们将通过Python实现一个简单的K-Means聚类示例。

数据准备

首先，我们使用scikit-learn的make_blobs函数生成样本数据：

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# 生成样本数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 可视化数据
plt.scatter(X[:, 0], X[:, 1], s=30)
plt.title("生成的样本数据")
plt.show()

执行K-Means聚类

接下来，我们将对生成的数据进行K-Means聚类：

# 应用K-Means算法
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)

# 获取聚类结果
y_kmeans = kmeans.predict(X)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=30, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75)
plt.title("K-Means聚类结果")
plt.show()

在这个案例中，我们生成了一个包含四个聚类的随机数据，使用K-Means算法将其聚类后，结果和聚类中心都得到了良好的可视化。

如果《数据挖掘技术之聚类》还没完全消化，可以从这张卡片的四个动作重新走一遍。

回看《数据挖掘技术之聚类》时，不必一次做大项目，先用一条简单样例确认主线是否清楚。

小结

在本篇教程中，我们深入探讨了聚类技术的基本概念、算法及其实际应用。聚类作为一种无监督学习方法，可以为数据分析提供强有力的工具，让我们在没有标签的数据中寻找隐藏的模式。对比前一篇的分类方法，聚类更偏向于从数据本身出发进行探索。

在下一篇中，我们将继续深入学习数据挖掘技术中的关联规则，探索如何从数据中挖掘有价值的关系和规律。欢迎继续关注我们的系列教程！

继续阅读

从这篇继续找到相关教程

AI 教程总索引

数据挖掘入门教程目录18 篇按顺序阅读本系列图文节点6 个位置可直达 AI 图文教程索引按主题继续找可复现教程 AI 图文教程全量清单浏览全部已整理教程跨领域 AI 文章入口继续找其它技术系列里的 AI 章节 AI 教程图片索引6 张图文节点

常见问题

读前先确认这三点

数据挖掘技术之聚类适合谁读？

这是数据挖掘入门系列第 11 / 18 篇，适合正在学习数据挖掘入门，并且需要把概念落到操作步骤或判断标准里的读者。

读这篇数据挖掘入门教程要多久？

按中文技术文章阅读速度估算，通读大约 4 分钟；如果要跟着复现，建议把命令、配置和结果检查分开做。

这篇文章里的图文节点怎么用？

正文里有 6 个图文节点，可以先用它们抓住流程、配置和判断点，再回到对应段落细读。

分享文章

微信/朋友圈可先复制链接

微博 X LinkedIn Facebook Telegram 邮件

继续找到相关 AI 教程

返回栏目

继续学习数据挖掘技术之关联规则数据挖掘入门 · 第 12 篇 · 6 张图 · 2.1k 字 AI 教程总索引全部 AI 教程文章按大模型、Agent、本地部署、机器学习和工程实践继续查找相关文章。AI 图文教程索引按流程和判断点找教程先看每篇文章里的流程、配置和复盘节点，再回到原文细读。跨领域 AI 入口其它技术系列里的 AI 章节从大数据、爬虫、量子计算和 Spark 章节继续找 AI 内容。AI 教程图片索引按图查找教程文章从流程图、配置图和判断卡片直接定位对应文章。数据挖掘入门目录数据挖掘入门完整目录按顺序查看全部小节、图文密度和后续阅读路线。模型怎么选郭震 AI 综合加权榜按写作、代码、行业、研究和本地部署场景看模型。

11 数据挖掘技术之聚类

数据挖掘入门 · 第 11 / 18 篇

这篇内容怎么整理

先按这条路线读

先看本文图文节点