19 RNN之变换机制

Q: RNN之变换机制适合谁读？

这是 AI 30 个神经网络 系列第 19 / 62 篇，适合正在学习AI 30 个神经网络，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-12

最近更新: 2026-06-04

分类: 30个神经网络

预计阅读: 4 分钟

阅读次数: 0

系列进度

AI 30 个神经网络 · 第 19 / 62 篇

上一篇CNN的应用案例下一篇RNN的实际应用

预计阅读4 分钟

结构重点5 个

图文要点6 张

正文规模1.7k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 5 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步RNN的基本原理 02第 2 步RNN的变换机制 03第 3 步总结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线RNN之变换机制结构图跳到对应正文位置

图 02 · 步骤RNN之变换机制实操核对图跳到对应正文位置

图 03 · 配置RNN变换机制判断卡跳到对应正文位置

图 04 · 判断RNN之变换机制应用复盘卡跳到对应正文位置

图 05 · 复盘RNN之变换机制应用检查卡跳到对应正文位置

图 06 · 细节神经网络阅读地图卡跳到对应正文位置

RNN 把序列按时间步展开，用隐藏状态保存上下文。理解它时，先把数据在每一步如何传递画清楚。这篇重点看结构。先把数据流、关键模块和输出层画清楚，再回头看公式或代码。

我会检查 batch、time step、feature 三个维度的顺序。序列模型里，维度顺序错了很常见。

在上一篇中，我们详细探讨了卷积神经网络（CNN）的应用案例，涵盖了图像分类、目标检测等各类任务的实现过程。而在这一部分中，我们将集中讨论循环神经网络（RNN）的变换机制，了解其如何处理序列数据。

RNN的基本原理

RNN（Recurrent Neural Network）是一种专门用于处理序列数据的神经网络架构。与传统的前馈神经网络不同，RNN具有隐含状态，能够利用之前的时间步的信息，进行动态的状态更新。这种特性使得RNN在处理如文本、语音、视频等时序数据时表现颇为优异。

在RNN中，某一时刻的隐状态 $h_t$ 不仅依赖于当前输入 $x_t$ ，还与之前的隐状态 $h_{t-1}$ 有关。其核心递推关系可以表达为：

h_t = f(W_h h_{t-1} + W_x x_t)

其中， $W_h$ 和 $W_x$ 分别是隐状态和输入的权重矩阵， $f$ 是激活函数，例如可以使用tanh或ReLU。

RNN的变换机制

在RNN的变换机制中，输入序列会逐步被传入网络，每一次的计算后，隐状态的更新不仅考虑当前的输入信息，还结合了过去的信息。这种机制使得RNN能在时间维度上进行信息的“记忆”和“遗忘”。然而，标准RNN在长序列学习时会出现梯度消失或爆炸的问题。

针对这一缺陷，Long Short-Term Memory（LSTM）和Gated Recurrent Unit（GRU）被提出。它们引入了门控机制来控制信息的存储与遗忘，从而有效解决了长序列依赖问题。

LSTM的门控机制

LSTM的变换机制利用三个门的结构（输入门、遗忘门、输出门）来精细化地调整记忆的流动。具体来说，其核心的状态更新方程如下：

遗忘门：决定从记忆中丢弃的信息

f_t = \sigma(W_f \cdot [h_{t-1}, x_t])

输入门：决定当前进入记忆的信息

i_t = \sigma(W_i \cdot [h_{t-1}, x_t])

输出门：决定从记忆中输出的信息

o_t = \sigma(W_o \cdot [h_{t-1}, x_t])

更新记忆单元状态

\tilde{C_t} = \tanh(W_c \cdot [h_{t-1}, x_t])

最终更新记忆和隐状态

C_t = f_t \ast C_{t-1} + i_t \ast \tilde{C_t} $$

h_t = o_t \ast \tanh(C_t) $$

通过上述公式，LSTM能够有效处理长距离依赖，并在每个时间步中选择性地保留信息。

变换机制在具体案例中的应用

在实际使用中，RNN的变换机制被广泛应用于诸多领域。下面是一个基于LSTM实现文本生成的具体案例。

理解 RNN 变换机制时，先看输入序列、隐藏状态、权重共享、时间步更新、梯度传播和长期依赖问题。

文本生成示例

假设我们有一段文本，我们希望利用LSTM模型生成新的文本内容。

import numpy as np
import tensorflow as tf

# 假设我们有了分好的字典和训练数据
char_to_idx = {'a': 0, 'b': 1, 'c': 2}  # 示例字典
idx_to_char = {i: char for char, i in char_to_idx.items()}
text = "abcabcabc"

# 超参数定义
seq_length = 3
vocab_size = len(char_to_idx)
embedding_dim = 256
hidden_units = 128

# 数据预处理
inputs = []
targets = []

for i in range(len(text) - seq_length):
    inputs.append([char_to_idx[char] for char in text[i:i + seq_length]])
    targets.append(char_to_idx[text[i + seq_length]])

# 数据转换为tf.Tensor
inputs = tf.convert_to_tensor(inputs)
targets = tf.convert_to_tensor(targets)

# 定义LSTM模型
model = tf.keras.models.Sequential([
    tf.keras.layers.Embedding(vocab_size, embedding_dim, batch_input_shape=[None, None]),
    tf.keras.layers.LSTM(hidden_units,
                          return_sequences=False,
                          recurrent_initializer='glorot_uniform'),
    tf.keras.layers.Dense(vocab_size)
])

model.compile(loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True), optimizer='adam')

# 训练模型
model.fit(inputs, targets, epochs=100)

# 文本生成函数
def generate_text(model, start_string, num_generate=10):
    input_eval = [char_to_idx[s] for s in start_string]
    input_eval = tf.expand_dims(input_eval, 0)

    text_generated = []

    # 低温生成
    temperature = 1.0
    model.reset_states()

    for i in range(num_generate):
        predictions = model(input_eval)
        predictions = tf.squeeze(predictions, 0) / temperature
        predicted_id = tf.random.categorical(predictions, num_samples=1)[-1, 0].numpy()

        input_eval = tf.expand_dims([predicted_id], 0)
        text_generated.append(idx_to_char[predicted_id])

    return start_string + ''.join(text_generated)

# 生成文本
print(generate_text(model, start_string="ab", num_generate=10))