郭震 AI公众号:郭震AI

11 数据挖掘技术之聚类

发布日期:

最近更新:

分类: 数据挖掘小白

预计阅读: 4 分钟

阅读次数: 0

预计阅读4 分钟
结构重点10 个
图文要点6 张
正文规模1.6k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 10 个结构重点拆成环境、步骤、验证点和常见误区,尽量让读者能照着复现。
图文对照保留 6 张和配置、流程、判断结果有关的图片,方便快速定位正文重点。
持续校对工具、模型和命令变化较快,后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线,再回到代码、配置和图文细节,读起来会更稳。

图文要点

先看本文图文节点

按图先建立主线,再跳回正文核对步骤、配置和判断标准。

数据挖掘技术之聚类结构图查看大图
数据挖掘技术之聚类结构图

数据挖掘不是只跑算法,而是从数据准备、模式发现到结果解释的一整条流程。阅读时可以按「聚类的定义 -> 聚类的应用场景 -> 常见的聚类算法 -> K-Means算法」建立结构,再回到正文里的代码、案例或指标做验证。

数据挖掘技术之聚类核对图查看大图
数据挖掘技术之聚类核对图

读完后,用一个真实小任务复查:输入是什么,处理环节在哪里,输出是否可验收;失败时先查「聚类的定义」,再查「聚类的应用场景」。

在上一篇中,我们探讨了数据挖掘技术中的分类方法,了解了如何将数据分类到预定义的类别中。而这一篇,我们将深入了解聚类技术,这是一种无监督学习策略,用于将一组对象分成多个相似的子集或“簇”。

聚类的定义

聚类是将数据集中的相似对象分组的过程。在聚类中,没有先验的标签或类别,算法会根据数据的特征自动寻找相似性并形成不同的簇。每个簇可以被看作是数据中具有相似特征的对象集。

数据挖掘聚类判断卡查看大图
数据挖掘聚类判断卡

学习聚类技术时,先看特征尺度、距离度量、簇数量、异常点和结果解释方式。

聚类的应用场景

聚类技术在许多领域都有广泛的应用,包括但不限于:

  • 市场细分:根据消费者的行为将市场分为不同的细分群体。
  • 图像处理:对图像进行分割,实现目标识别。
  • 社交网络分析:发现社交网络中的社区结构。
  • 客户行为分析:识别客户群体的特征,为个性化营销提供依据。

常见的聚类算法

接下来,我们将介绍一些常见的聚类算法。

数据挖掘阅读地图卡查看大图
数据挖掘阅读地图卡

《数据挖掘技术之聚类》可以按“场景、概念、动作、结果”来读。先把这四件事对齐,再回到正文里的参数、代码或流程。

K-Means算法

K-Means是一种流行的聚类算法,其基本思想是将数据分为K个簇,使得每个簇内对象的相似性尽可能高,而不同簇之间的相似性尽可能低。具体步骤如下:

  1. 初始化:随机选择K个初始聚类中心。
  2. 分配簇:将每个数据点分配给离其最近的聚类中心。
  3. 更新中心:计算每个簇的新中心,作为簇中所有点的均值。
  4. 迭代:重复步骤2和步骤3,直到聚类中心不再变化或变化很小。

层次聚类

层次聚类算法通过构建一个树形结构来表示数据的层次关系,无论是自底向上(凝聚型)还是自顶向下(分裂型)。这种方法不需要预先指定簇的数量,常用的距离度量有欧几里得距离、曼哈顿距离等。

DBSCAN

DBSCAN(基于密度的聚类算法)通过找出高密度区域来进行聚类。它可以识别任意形状的簇,并且对噪声和离群点具有较强的鲁棒性。其工作原理如下:

  1. 选择核心点:对于每个点,检查其周围的邻域,若邻域内点的数量大于某个阈值,则视为核心点。
  2. 扩展簇:从一个核心点出发,将其直接可达的所有点加入同一簇,并递归处理这些点。

案例:K-Means聚类实现

为了更好地理解聚类技术,我们将通过Python实现一个简单的K-Means聚类示例。

数据准备

首先,我们使用scikit-learnmake_blobs函数生成样本数据:

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# 生成样本数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 可视化数据
plt.scatter(X[:, 0], X[:, 1], s=30)
plt.title("生成的样本数据")
plt.show()

执行K-Means聚类

接下来,我们将对生成的数据进行K-Means聚类:

# 应用K-Means算法
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)

# 获取聚类结果
y_kmeans = kmeans.predict(X)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=30, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75)
plt.title("K-Means聚类结果")
plt.show()

在这个案例中,我们生成了一个包含四个聚类的随机数据,使用K-Means算法将其聚类后,结果和聚类中心都得到了良好的可视化。

数据挖掘技术之聚类应用复盘卡查看大图
数据挖掘技术之聚类应用复盘卡

如果《数据挖掘技术之聚类》还没完全消化,可以从这张卡片的四个动作重新走一遍。

数据挖掘技术之聚类应用检查卡查看大图
数据挖掘技术之聚类应用检查卡

回看《数据挖掘技术之聚类》时,不必一次做大项目,先用一条简单样例确认主线是否清楚。

小结

在本篇教程中,我们深入探讨了聚类技术的基本概念、算法及其实际应用。聚类作为一种无监督学习方法,可以为数据分析提供强有力的工具,让我们在没有标签的数据中寻找隐藏的模式。对比前一篇的分类方法,聚类更偏向于从数据本身出发进行探索。

在下一篇中,我们将继续深入学习数据挖掘技术中的关联规则,探索如何从数据中挖掘有价值的关系和规律。欢迎继续关注我们的系列教程!

继续阅读

从这篇继续找到相关教程

AI 教程总索引

常见问题

读前先确认这三点

数据挖掘技术之聚类适合谁读?

这是 数据挖掘入门 系列第 11 / 18 篇,适合正在学习数据挖掘入门,并且需要把概念落到操作步骤或判断标准里的读者。

读这篇数据挖掘入门教程要多久?

按中文技术文章阅读速度估算,通读大约 4 分钟;如果要跟着复现,建议把命令、配置和结果检查分开做。

这篇文章里的图文节点怎么用?

正文里有 6 个图文节点,可以先用它们抓住流程、配置和判断点,再回到对应段落细读。

分享文章

转发到常用平台

微信/朋友圈可先复制链接

相关教程

AI 教程总索引

继续阅读

继续找到相关 AI 教程

返回栏目

Reader Messages

读者留言

有问题、补充资料或实测结果,可以直接留下。这里不需要登录。

最多 800 字

为了防刷,每条留言会做长度、链接数量和提交频率限制。

0/800

留言列表

0
正在加载留言...