郭震 AI公众号:郭震AI

8 探索性数据分析之可视化技术

发布日期:

最近更新:

分类: 数据挖掘小白

预计阅读: 3 分钟

阅读次数: 0

预计阅读3 分钟
结构重点7 个
图文要点6 张
正文规模1.3k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 7 个结构重点拆成环境、步骤、验证点和常见误区,尽量让读者能照着复现。
图文对照保留 6 张和配置、流程、判断结果有关的图片,方便快速定位正文重点。
持续校对工具、模型和命令变化较快,后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线,再回到代码、配置和图文细节,读起来会更稳。

图文要点

先看本文图文节点

按图先建立主线,再跳回正文核对步骤、配置和判断标准。

探索性数据分析之可视化技术结构图查看大图
探索性数据分析之可视化技术结构图

数据挖掘不是只跑算法,而是从数据准备、模式发现到结果解释的一整条流程。阅读时可以按「可视化的目的 -> 常见可视化技术 -> 直方图 -> 箱线图」建立结构,再回到正文里的代码、案例或指标做验证。

探索性数据分析之可视化技术核对图查看大图
探索性数据分析之可视化技术核对图

读完后,用一个真实小任务复查:输入是什么,处理环节在哪里,输出是否可验收;失败时先查「可视化的目的」,再查「常见可视化技术」。

在前一篇中,我们讨论了探索性数据分析中的描述性分析,确定了数据集的基本特征和分布情况。在本篇中,我们将进一步探讨可视化技术,这是探索性数据分析中至关重要的组成部分。通过可视化,我们能够直观地理解数据,发掘潜在的模式和异常,从而为后续的分析打下坚实的基础。

可视化的目的

可视化的主要目的是通过图形化方式将数据呈现出来,以便于快速理解数据的分布、趋势、关系等特征。以下是一些常见的可视化目的:

  • 理解分布:识别数据集中各变量的分布特征。
  • 发现关系:探讨不同变量之间的潜在关系或相关性。
  • 识别异常:发现偏离正常范围的异常值。
  • 总结信息:通过整合数据信息传达给受众。

常见可视化技术

1. 直方图

直方图是一种用于展示数值型变量分布的图形。它通过将数据划分为多个区间(或称桶),并计算每个区间内数据点的数量来表示数值的分布情况。

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# 示例数据
data = pd.DataFrame({
    '年龄': [22, 25, 29, 30, 31, 34, 28, 25, 29, 35, 40, 45, 30, 22, 37]
})

plt.figure(figsize=(10, 6))
sns.histplot(data['年龄'], bins=5, kde=True)
plt.title('年龄直方图')
plt.xlabel('年龄')
plt.ylabel('频数')
plt.show()

在这个示例中,我们使用seaborn库创建了年龄的直方图,包含了KDE(核密度估计)曲线,帮助我们更好地理解年龄的分布情况。

2. 箱线图

箱线图(Box Plot)用于显示数值型数据的分布情况,包括四分位数、最大值、最小值以及异常值。它能够有效地比较不同组数据的分布。

# 示例数据
data = pd.DataFrame({
    '组别': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
    '成绩': [85, 87, 90, 75, 91, 88, 92, 84]
})

plt.figure(figsize=(10, 6))
sns.boxplot(x='组别', y='成绩', data=data)
plt.title('成绩箱线图')
plt.xlabel('组别')
plt.ylabel('成绩')
plt.show()

在这个例子中,我们比较了两个组别(A组和B组)的成绩分布情况,通过箱线图可以很清晰地看到两组的中位数及异常值。

3. 散点图

散点图是用于显示两个数值型变量之间关系的工具。通过在二维坐标系中绘制数据点,可以直观地查看它们之间的关系。

探索性可视化判断卡查看大图
探索性可视化判断卡

做探索性可视化时,先判断要看分布、趋势、相关性还是异常点,再选择柱状图、折线图、散点图或箱线图。

# 示例数据
data = pd.DataFrame({
    '身高': [160, 165, 170, 175, 180, 185],
    '体重': [50, 65, 70, 75, 80, 85]
})

plt.figure(figsize=(10, 6))
sns.scatterplot(x='身高', y='体重', data=data)
plt.title('身高与体重散点图')
plt.xlabel('身高 (cm)')
plt.ylabel('体重 (kg)')
plt.show()

在这个例子中,散点图能够帮助我们判断身高体重之间的关系,是否存在正相关的趋势。

4. 热力图

热力图用于展示变量之间的相关性,通常用于可视化相关系数矩阵。通过颜色深浅,能够直观地评估各变量之间的相关程度。

数据挖掘阅读地图卡查看大图
数据挖掘阅读地图卡

《探索性数据分析之可视化技术》读到最后,可以把图里的流程当成检查表:问题是否明确,操作是否落地,判断标准是否能复用。

# 示例数据
import numpy as np

# 随机生成一些数据
data = pd.DataFrame(np.random.rand(10, 10), columns=[f'特征{i}' for i in range(10)])

plt.figure(figsize=(10, 8))
correlation_matrix = data.corr()
sns.heatmap(correlation_matrix, annot=True, fmt=".2f", cmap='coolwarm')
plt.title('特征相关性热力图')
plt.show()

该示例中我们随机生成了10个特征数据,使用热力图可视化它们之间的相关性,从而便于识别哪些特征是强相关的。

探索性数据分析之可视化技术应用复盘卡查看大图
探索性数据分析之可视化技术应用复盘卡

读到这里,可以把《探索性数据分析之可视化技术》整理成一张复盘表:先说清主线,再拿一个小任务检查结果。

探索性数据分析之可视化技术应用检查卡查看大图
探索性数据分析之可视化技术应用检查卡

读完《探索性数据分析之可视化技术》后,可以先挑一个小样例走完整流程,再判断哪些步骤已经能独立完成。

总结

在探索性数据分析中,可视化技术是不可或缺的工具,它使得数据的洞察变得直观和易于理解。在选择合适的可视化方法时,我们需要考虑数据的性质和分析的目标。在接下来的篇章中,我们将深入探讨统计分析方法,以便于对数据进行更深入的解读和分析。通过结合描述性分析、可视化技术和统计分析方法,我们将可以全面地理解和利用数据。

继续阅读

从这篇继续找到相关教程

AI 教程总索引

常见问题

读前先确认这三点

探索性数据分析之可视化技术适合谁读?

这是 数据挖掘入门 系列第 8 / 18 篇,适合正在学习数据挖掘入门,并且需要把概念落到操作步骤或判断标准里的读者。

读这篇数据挖掘入门教程要多久?

按中文技术文章阅读速度估算,通读大约 3 分钟;如果要跟着复现,建议把命令、配置和结果检查分开做。

这篇文章里的图文节点怎么用?

正文里有 6 个图文节点,可以先用它们抓住流程、配置和判断点,再回到对应段落细读。

分享文章

转发到常用平台

微信/朋友圈可先复制链接

相关教程

AI 教程总索引

继续阅读

继续找到相关 AI 教程

返回栏目

Reader Messages

读者留言

有问题、补充资料或实测结果,可以直接留下。这里不需要登录。

最多 800 字

为了防刷,每条留言会做长度、链接数量和提交频率限制。

0/800

留言列表

0
正在加载留言...