1 什么是机器学习
系列进度
机器学习入门 · 第 1 / 21 篇
整理说明
这篇内容怎么整理
郭震 · 2026-06-04
阅读路线
先按这条路线读
先抓住主线,再回到代码、配置和图文细节,读起来会更稳。
我会把机器学习理解成一条从样本到判断的工作链:人先定义问题,数据提供例子,算法寻找规律,最后用新样本检验是否真的有用。
读第一节时,先找一个身边例子:输入是什么,输出是什么,过去数据长什么样,预测错了会带来什么影响。
在当今这个数据驱动的时代,机器学习作为一项重要的技术,正在推动各行各业的变革。无论是在金融、医疗、还是互联网行业,机器学习都在帮助我们解决以前无法解决的问题。对于初学者而言,理解机器学习的基本概念是一切的第一步。
机器学习的定义
简而言之,机器学习是让计算机通过数据进行学习的一种方法。通过算法,计算机可以从数据中提取规律,然后用这些规律进行预测或决策。与传统编程相对,传统编程是直接将规则写入代码,而机器学习则更像是从数据中“学习”出规则。
读机器学习入门时,可以先把一个身边问题写成目标、数据、标签和误差代价。能写成这四项,再去看算法会更容易理解为什么要训练、评估和调参。
监督学习与无监督学习
机器学习主要分为两大类:监督学习和无监督学习。
-
监督学习:在这种学习方式下,算法从标记好的训练数据中学习,目标是通过学习使得对未知数据的预测尽可能准确。例如,使用历史的房价数据作为训练集,目标是预测新房子的价格。监督学习常见的算法包括线性回归、决策树、支持向量机等。
-
无监督学习:在无监督学习中,算法从没有标记的数据中学习,目标是发现数据的内在结构。例如,假设你有一大堆用户的购买记录,但不知道用户的购买偏好是什么。无监督学习算法能够将这些用户分为不同的群体,有助于后来制定相应的市场策略。常见的无监督学习算法包括聚类(如K-means)和主成分分析(PCA)。
以下是一个简单的示例,展示如何使用 Python 的 scikit-learn 库实现监督学习中的线性回归:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
# 生成一些示例数据
X = np.array([[i] for i in range(10)]) # 自变量
y = np.array([2 * i + 1 for i in range(10)]) # 因变量,总体上是一个线性关系
# 建立线性回归模型
model = LinearRegression()
model.fit(X, y)
# 预测
y_pred = model.predict(X)
# 可视化结果
plt.scatter(X, y, color='blue', label='真实数据')
plt.plot(X, y_pred, color='red', label='预测线')
plt.legend()
plt.xlabel('自变量')
plt.ylabel('因变量')
plt.title('线性回归示例')
plt.show()
在上面的代码中,我们生成了一组简单的线性关系数据,并使用线性回归模型进行拟合。通过fit方法,模型从数据中学习X和y之间的关系,并用红色线条展示了预测结果。
机器学习与传统编程的区别
机器学习与传统编程的最大区别在于,机器学习强调的是“学习”过程,而传统编程则是通过明确的规则来处理数据。这使得机器学习能够处理更加复杂的模式和数据,比如图像、声音和文本,在许多情况下,这些数据的处理方式是传统编程无法实现的。
练习《什么是机器学习》时,建议把输入条件、处理动作和可见结果写在一起,方便下次复查。
复习《什么是机器学习》时,建议把关键概念、操作步骤和可见结果放在同一页里回看。
《什么是机器学习》可以按“场景、概念、动作、结果”来读。先把这四件事对齐,再回到正文里的参数、代码或流程。
在接下来的教程中,我们将深入探讨机器学习的应用领域,了解这一技术如何在现实世界中发挥作用,改变我们的生活和工作方式。
继续阅读
从这篇继续找到相关教程
常见问题
读前先确认这三点
什么是机器学习适合谁读?
这是 机器学习入门 系列第 1 / 21 篇,适合正在学习机器学习入门,并且需要把概念落到操作步骤或判断标准里的读者。
读这篇机器学习入门教程要多久?
按中文技术文章阅读速度估算,通读大约 3 分钟;如果要跟着复现,建议把命令、配置和结果检查分开做。
这篇文章里的图文节点怎么用?
正文里有 6 个图文节点,可以先用它们抓住流程、配置和判断点,再回到对应段落细读。
分享文章
转发到常用平台
微信/朋友圈可先复制链接
相关教程
从相近问题继续读
继续阅读