5 机器学习与深度学习
系列进度
AI 安全与隐私入门 · 第 5 / 21 篇
整理说明
这篇内容怎么整理
郭震 · 2026-06-04
阅读路线
先按这条路线读
先抓住主线,再回到代码、配置和图文细节,读起来会更稳。
安全风险判断框架
机器学习和深度学习的安全隐私问题,很多时候不是代码漏洞,而是数据来源、标签质量、样本覆盖和上线后的分布变化。
我会为每个模型保留一份小档案:训练数据来自哪里,哪些样本最容易错,哪些人会受影响,上线后用什么指标看它变差。
在我们进一步探讨人工智能的应用之前,理解机器学习和深度学习的基本概念是至关重要的。机器学习是一种方法,使得计算机能够通过数据进行学习,而无需明确编程。深度学习是机器学习的一个分支,特别关注神经网络的层次结构。
2.2.1 机器学习的基本概念
机器学习主要可以分为三个类别:监督学习、无监督学习和强化学习。
监督学习
监督学习 是一种使用带标签数据来训练模型的方法。在这个过程中,模型学习输入与输出之间的关系。常见的算法包括线性回归、决策树、随机森林和支持向量机等。
案例:房价预测
假设我们希望预测一个地区的房价。我们收集了有关每个房子的特征数据(如面积、卧室数量、地理位置等)以及其对应的房价。我们将这些数据用作训练集。模型通过寻找特征与房价之间的关系进行学习。
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
# 假设数据集已经加载到 DataFrame 中
data = pd.read_csv('housing_data.csv')
X = data[['area', 'bedrooms', 'location']]
y = data['price']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建模型并训练
model = LinearRegression()
model.fit(X_train, y_train)
# 测试预测
predictions = model.predict(X_test)
无监督学习
无监督学习 是一种不使用标签数据的学习方法,旨在从数据中发现模式。常见的算法包括聚类算法(如 K 均值)和降维算法(如主成分分析)。
案例:顾客细分
在市场营销中,企业可能希望根据顾客购买行为进行细分而不依赖于预先定义的标签。可以使用 K 均值聚类算法识别出不同的顾客群体。
from sklearn.cluster import KMeans
# 假设我们有顾客的购买数据
X = data[['purchase_amount', 'visit_frequency']]
# 进行 K 均值聚类
kmeans = KMeans(n_clusters=3, random_state=42)
data['cluster'] = kmeans.fit_predict(X)
强化学习
强化学习 是一种让代理通过与环境交互来学习的策略。代理通过尝试不同的行为获得即时反馈(奖励或惩罚),并通过此反馈优化其行为策略。
案例:自动驾驶
在自动驾驶汽车中,车辆作为代理在不断变化的环境中行驶。它通过对每次驾驶行为的结果进行评估和调整,以增强驾驶策略。
import numpy as np
import gym # OpenAI Gym for reinforcement learning
env = gym.make('CartPole-v1') # 创建环境
for episode in range(1000):
state = env.reset()
done = False
while not done:
action = env.action_space.sample() # 随机选择动作
next_state, reward, done, _ = env.step(action) # 执行动作并观察结果
# 这里可以添加学习的具体策略
2.2.2 深度学习的基本概念
深度学习 是一种利用多层神经网络进行学习的方法。它在处理复杂的高维数据(如图像、声音和文本)时表现出色。
比较机器学习与深度学习时,可以同步看数据偏差、泛化失败、对抗扰动和可解释性。模型越复杂,越要复查。
深度学习的基本构件是 神经元,它们可以连接起来形成 神经网络。每个神经元接收输入,应用权重并通过激活函数产生输出。
常见的深度学习架构
-
卷积神经网络(CNN):主要用于图像处理,由卷积层、池化层和全连接层组成。
案例:图像分类
使用 CNN 来识别手写数字(如 MNIST 数据集)。
import tensorflow as tf from tensorflow.keras import layers, models model = models.Sequential() model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1))) model.add(layers.MaxPooling2D((2, 2))) model.add(layers.Flatten()) model.add(layers.Dense(10, activation='softmax')) -
循环神经网络(RNN):适用于序列数据,如时间序列预测和语言处理。
案例:语言模型
使用 RNN 生成文本。
model = models.Sequential() model.add(layers.SimpleRNN(128, input_shape=(timesteps, features))) model.add(layers.Dense(vocab_size, activation='softmax'))
2.2.3 机器学习与深度学习的对比
| 特点 | 机器学习 | 深度学习 |
|---|---|---|
| 数据需求 | 通常较少 | 需要大量数据 |
| 特征工程 | 需要人工设计特征 | 自动提取特征 |
| 计算资源 | 相对较少 | 需要大量计算能力 |
| 应用场景 | 适合结构化数据 | 适合非结构化数据(图像、文本) |
阅读《机器学习与深度学习》前,可以先用配图确认主线;读完后再检查哪些步骤能直接操作,哪些还需要补资料。
复习《机器学习与深度学习》时,建议把关键概念、操作步骤和可见结果放在同一页里回看。
练习《机器学习与深度学习》时,建议把输入条件、处理动作和可见结果写在一起,方便下次复查。
2.2.4 小结
理解 机器学习 和 深度学习 的基本概念对于利用人工智能技术至关重要。无论是通过监督学习得到的具体预测,还是通过深度学习模型处理复杂数据的能力,二者各有优势。在接下来的章节中,我们将探讨人工智能技术的实际应用,以及如何保证这些技术在安全和隐私方面的合规性。
继续阅读
从这篇继续找到相关教程
常见问题
读前先确认这三点
机器学习与深度学习适合谁读?
这是 AI 安全与隐私入门 系列第 5 / 21 篇,适合正在学习AI 安全与隐私入门,并且需要把概念落到操作步骤或判断标准里的读者。
读这篇AI 安全与隐私入门教程要多久?
按中文技术文章阅读速度估算,通读大约 4 分钟;如果要跟着复现,建议把命令、配置和结果检查分开做。
这篇文章里的图文节点怎么用?
正文里有 6 个图文节点,可以先用它们抓住流程、配置和判断点,再回到对应段落细读。
分享文章
转发到常用平台
微信/朋友圈可先复制链接
相关教程
从相近问题继续读
继续阅读