1 什么是机器学习

Q: 什么是机器学习适合谁读？

这是 机器学习入门 系列第 1 / 21 篇，适合正在学习机器学习入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: 机器学习小白

预计阅读: 3 分钟

阅读次数: 0

系列进度

机器学习入门 · 第 1 / 21 篇

已是第一篇下一篇引言之机器学习的应用领域

预计阅读3 分钟

结构重点3 个

图文要点6 张

正文规模1.2k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 3 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步机器学习的定义 02第 2 步机器学习与传统编程的区别

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线什么是机器学习流程图跳到对应正文位置

图 02 · 步骤什么是机器学习核对图跳到对应正文位置

图 03 · 配置机器学习入门判断卡跳到对应正文位置

图 04 · 判断什么是机器学习应用检查卡跳到对应正文位置

图 05 · 复盘什么是机器学习应用复盘卡跳到对应正文位置

图 06 · 细节机器学习学习重点卡跳到对应正文位置

我会把机器学习理解成一条从样本到判断的工作链：人先定义问题，数据提供例子，算法寻找规律，最后用新样本检验是否真的有用。

读第一节时，先找一个身边例子：输入是什么，输出是什么，过去数据长什么样，预测错了会带来什么影响。

在当今这个数据驱动的时代，机器学习作为一项重要的技术，正在推动各行各业的变革。无论是在金融、医疗、还是互联网行业，机器学习都在帮助我们解决以前无法解决的问题。对于初学者而言，理解机器学习的基本概念是一切的第一步。

机器学习的定义

简而言之，机器学习是让计算机通过数据进行学习的一种方法。通过算法，计算机可以从数据中提取规律，然后用这些规律进行预测或决策。与传统编程相对，传统编程是直接将规则写入代码，而机器学习则更像是从数据中“学习”出规则。

读机器学习入门时，可以先把一个身边问题写成目标、数据、标签和误差代价。能写成这四项，再去看算法会更容易理解为什么要训练、评估和调参。

监督学习与无监督学习

机器学习主要分为两大类：监督学习和无监督学习。

监督学习：在这种学习方式下，算法从标记好的训练数据中学习，目标是通过学习使得对未知数据的预测尽可能准确。例如，使用历史的房价数据作为训练集，目标是预测新房子的价格。监督学习常见的算法包括线性回归、决策树、支持向量机等。
无监督学习：在无监督学习中，算法从没有标记的数据中学习，目标是发现数据的内在结构。例如，假设你有一大堆用户的购买记录，但不知道用户的购买偏好是什么。无监督学习算法能够将这些用户分为不同的群体，有助于后来制定相应的市场策略。常见的无监督学习算法包括聚类（如K-means）和主成分分析（PCA）。

以下是一个简单的示例，展示如何使用 Python 的 scikit-learn 库实现监督学习中的线性回归：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# 生成一些示例数据
X = np.array([[i] for i in range(10)])  # 自变量
y = np.array([2 * i + 1 for i in range(10)])  # 因变量，总体上是一个线性关系

# 建立线性回归模型
model = LinearRegression()
model.fit(X, y)

# 预测
y_pred = model.predict(X)

# 可视化结果
plt.scatter(X, y, color='blue', label='真实数据')
plt.plot(X, y_pred, color='red', label='预测线')
plt.legend()
plt.xlabel('自变量')
plt.ylabel('因变量')
plt.title('线性回归示例')
plt.show()