📚Scikit-learn 入门
AI 教程网络
从这个系列继续发现相关教程
当前专题已经接入 AI 教程总索引,读者可以从这里回到完整目录,也可以继续查看模型、Agent 和工具实测入口。
专题导读
Scikit-learn 入门学习地图
先按顺序读前几篇建立框架,再用图文要点回看流程、配置和判断点;遇到工具类内容,可以直接跳到对应小节做复现。
阅读路径
按这三段读更顺
每个系列都可以先抓主线,再挑重点文章复现,最后回到问题边界和检查表。
先建立框架
第 1 - 7 篇 · 7 个小节
适合先读概念、环境和整体流程,避免一上来就被细节打散。
图文优先
重点图文入口
想先判断这套内容是否值得继续读,可以从图文信息更密的几篇开始。
1 Scikit-Learn简介之1.1 Scikit-Learn的历史
第 1 篇6 张图1.6k 字我会把 Scikit-Learn 看成一套稳定的机器学习工具箱:它把常见模型、数据处理、评估和调参封装成一致接口,让学习者能把精力放回问题本身。
AIScikit2 Scikit-Learn的特点
第 2 篇6 张图1.5k 字Scikit-Learn 的优势不只是算法多,而是接口一致。分类、回归、聚类、预处理和评估都能按相似方式组织,项目结构更容易复用。
AIScikit3 Scikit-Learn的应用领域
第 3 篇6 张图1.3k 字Scikit-Learn 应用很广,但学习时先按任务类型理解更清楚:分类回答是什么类别,回归回答是多少,聚类找相似人群,降维帮助观察结构。
AIScikit4 安装与配置:安装方法
第 4 篇6 张图1.5k 字安装 Scikit-Learn 时,目标不是把命令跑完,而是让环境可复现。Python、NumPy、SciPy、pandas 和 scikit-learn 的版本要能被记录和检查。
AIScikit5 依赖库检查
第 5 篇6 张图1.1k 字机器学习代码报错不一定是模型问题,常常是依赖版本、虚拟环境或解释器路径不一致。依赖检查能把这类问题提前暴露。
AIScikit6 配置虚拟环境
第 6 篇6 张图1.6k 字虚拟环境的价值在于隔离项目。尤其是数据科学项目,经常同时用 notebook、脚本和命令行,必须确认它们指向同一个环境。
AIScikit7 数据集处理之数据加载
第 7 篇6 张图1.3k 字数据加载不是把文件读进来就结束。你要知道特征矩阵和目标变量分别是什么,字段含义是否清楚,数据是否可以追溯。
AIScikit8 数据集处理之数据预处理
第 8 篇6 张图1.4k 字预处理规则会影响模型效果,也会影响上线后的稳定性。最重要的是避免先用全量数据处理,再去划分训练测试,这会造成信息泄露。
AIScikit9 数据集处理之数据分割
第 9 篇6 张图1.2k 字数据分割的核心是模拟新数据。训练集用于学习,测试集用于最后检查,二者混用会让评估结果虚高。
AIScikit10 特征选择
第 10 篇6 张图1.4k 字特征选择不是为了让列数越少越好,而是减少噪声、降低训练成本、提升解释性。选择规则也要被记录进实验流程。
AIScikit11 特征工程之特征缩放
第 11 篇6 张图1.3k 字特征缩放对 SVM、KNN、线性模型、PCA 等方法尤其重要。关键规则是只在训练集上拟合缩放器,再应用到验证和测试数据。
AIScikit12 处理缺失值
第 12 篇6 张图1.1k 字缺失值处理要看原因。随机缺失、系统缺失和业务上代表某种状态的缺失,处理方式不同。盲目填平均值可能掩盖问题。
AIScikit13 回归模型
第 13 篇6 张图1.3k 字回归模型输出连续数值。学习时先用线性回归做基线,再看误差是否满足业务要求,最后再考虑随机森林、梯度提升等更复杂模型。
AIScikit14 模型选择之分类模型
第 14 篇6 张图1.4k 字分类模型选择要看类别数量、样本规模、可解释性和错误代价。没有一种模型适合所有分类问题。
AIScikit15 聚类模型
第 15 篇6 张图1.5k 字聚类没有标准答案,结果必须回到业务解释。K-Means 适合相对紧凑的群体,DBSCAN 更能发现噪声点和非球形簇。
AIScikit16 模型评估之评估指标
第 16 篇6 张图1.8k 字评估指标的选择要和业务代价对齐。疾病筛查、垃圾邮件、房价预测和客户分群,不能用同一套分数判断好坏。
AIScikit17 交叉验证
第 17 篇6 张图1.5k 字交叉验证能降低偶然划分带来的误判。它不只给一个平均分,也能告诉你模型在不同数据切片上是否稳定。
AIScikit18 模型比较
第 18 篇6 张图1.6k 字模型比较最怕流程不公平。不同模型必须在相同数据划分、相同预处理和相同指标下比较,否则结论很容易偏。
AIScikit19 超参数调优:网格搜索
第 19 篇6 张图1.3k 字网格搜索适合参数范围不大、候选值明确的情况。范围一大,组合数量会快速膨胀,训练成本很容易失控。
AIScikit20 随机搜索
第 20 篇6 张图1.3k 字随机搜索适合参数空间较大、你还不知道关键区域在哪里的阶段。它不保证穷尽,但能在固定预算内探索更多组合。
AIScikit21 交叉验证与调优
第 21 篇6 张图1.5k 字交叉验证和调参要一起看。搜索过程用验证分数选择参数,最终测试集只用于最后验收,不能反复调到它变好看。
AIScikit22 房价预测
第 22 篇6 张图1.1k 字房价预测项目适合练习完整流程:加载数据、处理特征、训练基线模型、评估误差,再决定是否需要更复杂模型。
AIScikit23 手写数字识别
第 23 篇6 张图1.4k 字手写数字识别适合理解图像分类的基本流程。即使不用深度学习,也可以把像素展开成特征,用传统分类器建立基线。
AIScikit24 客户分群
第 24 篇6 张图1.3k 字客户分群不是把 K-Means 跑完就结束。你需要解释每个群体的特征、规模、价值和行动建议,结果才有业务意义。
AIScikit