9 对抗性攻击

Q: 对抗性攻击适合谁读？

这是 AI 安全与隐私入门 系列第 9 / 21 篇，适合正在学习AI 安全与隐私入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-11

最近更新: 2026-06-04

分类: AI安全与隐私

预计阅读: 4 分钟

阅读次数: 0

系列进度

AI 安全与隐私入门 · 第 9 / 21 篇

上一篇AI系统中的安全风险之3.2 数据中毒与模型劫持下一篇隐私问题与法律框架

预计阅读4 分钟

结构重点8 个

图文要点6 张

正文规模1.5k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 8 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步安全风险判断框架 02第 2 步1. 对抗性攻击的概念 03第 3 步2. 对抗性攻击的类型 04第 4 步3. 对抗性攻击的对策 05第 5 步4. 结论与未来展望

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线对抗攻击要用边界样本测试风险地图跳到对应正文位置

图 02 · 步骤对抗攻击要用边界样本测试检查清单跳到对应正文位置

图 03 · 配置对抗性攻击判断卡跳到对应正文位置

图 04 · 判断AI 安全与隐私阅读地图卡跳到对应正文位置

图 05 · 复盘对抗性攻击应用复盘卡跳到对应正文位置

图 06 · 细节对抗性攻击应用检查卡跳到对应正文位置

安全风险判断框架

对抗性攻击提醒我们：模型看起来很小的输入变化，可能导致完全不同的判断。防御不是写一句过滤规则，而是持续收集边界样本。

我会把每次误判都加入测试集，尤其是看起来只改了几个词、几个像素、几个字段的样本。边界样本越多，模型上线越不盲。

在人工智能系统中，对抗性攻击是一个重要且具有挑战性的安全风险。与数据中毒和模型劫持不同，对抗性攻击主要针对已经训练好的模型。攻击者通过精心设计的输入样本，诱使模型产生错误的预测或分类。这类攻击不仅可能造成错误的输出，还可能导致严重的后果，尤其是在关键的应用领域，如自动驾驶、医疗诊断和金融交易。

1. 对抗性攻击的概念

对抗性攻击的核心思想是通过微小而不易察觉的扰动来干扰模型的决策过程。例如，对于图像分类模型，攻击者可以轻微修改原始图像，使得模型错误地将其分类为另一类。这种修改可能对人类观察者来说几乎是不可见的，但却足以导致模型的错误判断。

公式表示对抗样本生成的数学表示为：

x' = x + \delta

其中， $x$ 是原始输入， $x'$ 是对抗样本， $\delta$ 是小的扰动。

案例：图像分类系统中的对抗性攻击

2014年，研究人员通过对一张猫的图片添加微小的噪声，使得深度学习模型将其错误地分类为“悠长的汽车”。这种攻击展示了对抗性攻击的潜在威胁，尤其是在自动驾驶车辆的计算机视觉系统中，攻击者可以通过对路标或行人的图像进行对抗性修改，导致汽车做出错误的反应。

2. 对抗性攻击的类型

对抗性攻击通常可以分为以下几种类型：

白盒攻击：攻击者完全了解模型的结构及其参数，可以利用模型细节生成对抗样本。
黑盒攻击：攻击者对模型的内部构造一无所知，只能基于模型的输入和输出进行攻击。
转移攻击：这种攻击利用对一个模型生成的对抗样本去攻击另一个模型，通常表现出模型之间的弱点。

示例代码：白盒对抗性攻击的实现

下面是一个简单的白盒对抗性攻击的 Python 代码示例，使用了 Fast Gradient Sign Method (FGSM)：

理解对抗性攻击时，先看扰动位置、可见程度、目标类别、攻击约束和模型输出变化。

import numpy as np
import tensorflow as tf

def fgsm_attack(model, images, labels, epsilon):
    # 确保模型在评估模式
    model.trainable = False
    
    with tf.GradientTape() as tape:
        predictions = model(images)
        loss = tf.keras.losses.sparse_categorical_crossentropy(labels, predictions)
    
    # 计算梯度
    gradients = tape.gradient(loss, images)
    signed_gradients = tf.sign(gradients)
    
    # 生成对抗样本
    adversarial_examples = images + epsilon * signed_gradients
    return tf.clip_by_value(adversarial_examples, 0, 1)  # 归一化

3. 对抗性攻击的对策

针对对抗性攻击，研究人员提出了多种防御策略，包括：

对抗训练：在训练过程中使用对抗样本，使模型学习如何抵御这些样本。
模型正则化：通过正则化手段提高模型的鲁棒性，减少其对输入的小改变的敏感性。
输入检测：在模型接受输入之前，使用其他算法判断输入样本是否存在对抗性特征。

案例：对抗训练的应用

在一项研究中，研究人员通过在训练数据中加入对抗样本，使得图像分类模型在面对对抗性攻击时表现出比常规训练模型更加良好的鲁棒性。实验表明，经过对抗训练的模型在白盒和黑盒攻击下，准确率显著提升。

学《对抗性攻击》时，可以先找一个自己能复现的小场景，再看相关概念和练习步骤，读完后用自己的例子复述一遍。

复习《对抗性攻击》时，建议把关键概念、操作步骤和可见结果放在同一页里回看。

练习《对抗性攻击》时，建议把输入条件、处理动作和可见结果写在一起，方便下次复查。

4. 结论与未来展望

对抗性攻击是人工智能系统中一个不可忽视的安全风险，其潜在影响不容小觑。在未来，随着人工智能的广泛应用，如何有效应对对抗性攻击将成为研究的重点。同时，随着对抗性攻击手段的不断发展，防御策略也需不断迭代升级，以提升系统的安全性和可信度。

了解这些对抗性攻击的本质以及防御措施，对于构建安全可靠的 AI 系统至关重要。在接下来的章节中，我们将讨论隐私问题与法律框架，进一步探讨 AI 系统面临的其他安全挑战。

继续阅读

从这篇继续找到相关教程

AI 教程总索引

AI 安全与隐私入门教程目录21 篇按顺序阅读本系列图文节点6 个位置可直达 AI 图文教程索引按主题继续找可复现教程 AI 图文教程全量清单浏览全部已整理教程跨领域 AI 文章入口继续找其它技术系列里的 AI 章节 AI 教程图片索引6 张图文节点

常见问题

读前先确认这三点

对抗性攻击适合谁读？

这是 AI 安全与隐私入门系列第 9 / 21 篇，适合正在学习AI 安全与隐私入门，并且需要把概念落到操作步骤或判断标准里的读者。

读这篇AI 安全与隐私入门教程要多久？

按中文技术文章阅读速度估算，通读大约 4 分钟；如果要跟着复现，建议把命令、配置和结果检查分开做。

这篇文章里的图文节点怎么用？

正文里有 6 个图文节点，可以先用它们抓住流程、配置和判断点，再回到对应段落细读。

分享文章

微信/朋友圈可先复制链接

微博 X LinkedIn Facebook Telegram 邮件

继续找到相关 AI 教程

返回栏目

继续学习隐私问题与法律框架AI 安全与隐私入门 · 第 10 篇 · 6 张图 · 1.3k 字