27 Keras在实际项目中的应用之案例：自然语言处理

Q: Keras在实际项目中的应用之案例：自然语言处理适合谁读？

这是 Keras 入门 系列第 27 / 28 篇，适合正在学习Keras 入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-15

最近更新: 2026-06-04

分类: Keras

预计阅读: 3 分钟

阅读次数: 0

系列进度

Keras 入门 · 第 27 / 28 篇

上一篇Keras框架在图像分类中的应用下一篇Keras框架在实际项目中的应用：时间序列预测

预计阅读3 分钟

结构重点8 个

图文要点6 张

正文规模1.2k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 8 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步项目背景 02第 2 步数据集 03第 3 步数据预处理 04第 4 步构建模型 05第 5 步训练模型

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线自然语言处理案例流程图跳到对应正文位置

图 02 · 步骤自然语言处理案例实操核对图跳到对应正文位置

图 03 · 配置Keras在实际项目中的应用之案例：自然语言要点判断卡跳到对应正文位置

图 04 · 判断Keras阅读地图卡跳到对应正文位置

图 05 · 复盘Keras在实际项目中的应用之案例：自然语言处理应用复盘卡跳到对应正文位置

图 06 · 细节Keras在实际项目中的应用之案例：自然语言处理应用检查卡跳到对应正文位置

Keras 做 NLP 时，文本到张量的转换是关键。清洗、分词、padding 和 mask 出错，模型会学到错误输入。

我会抽查 token 序列和 padding 结果。模型之前的文本管道越透明，后面越容易修。

在这一篇教程中，我们将深入探讨如何使用Keras框架进行自然语言处理(NLP)的实际应用。自然语言处理是人工智能的一个重要领域，涉及让计算机理解、分析和生成自然语言文本。在我们的案例中，我们将使用Keras构建一个情感分类模型，以分析文本的情绪（如积极或消极）。

项目背景

在许多应用场景中，我们需要对用户生成的内容进行情感分析。例如，社交媒体评论的情感分析、产品评价的情感分类等。Keras使这一过程变得更为简便，因为它提供了强大的构建和训练深度学习模型的工具。

数据集

我们将在这个项目中使用一个流行的文本数据集：电影评论数据集（IMDb Movie Reviews）。该数据集包含25000条电影评论，其中一半为积极评论，一半为消极评论。我们将使用Keras提供的imdb模块来加载数据集。

from keras.datasets import imdb

# 设定使用的词汇量
num_words = 10000

# 加载数据
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=num_words)

# 检查数据格式
print("训练数据样本数:", len(x_train))
print("测试数据样本数:", len(x_test))

数据预处理

在开始构建模型之前，需要对文本数据进行预处理。我们将使用pad_sequences函数将不同长度的评论标准化为相同的长度，以便输入到模型中。

from keras.preprocessing.sequence import pad_sequences

# 设置固定的序列长度
maxlen = 200

# 填充序列
x_train = pad_sequences(x_train, maxlen=maxlen)
x_test = pad_sequences(x_test, maxlen=maxlen)

print("训练数据维度:", x_train.shape)
print("测试数据维度:", x_test.shape)

构建模型

我们将使用一个简单的LSTM（长短期记忆网络）模型来进行情感分类。LSTM是在处理序列数据方面表现优异的RNN（循环神经网络）的一种变种，可以有效捕捉序列中的长期依赖关系。

from keras.models import Sequential
from keras.layers import Embedding, LSTM, Dense

# 设置模型参数
embedding_dim = 128

# 构建LSTM模型
model = Sequential()
model.add(Embedding(input_dim=num_words, output_dim=embedding_dim, input_length=maxlen))
model.add(LSTM(128))
model.add(Dense(1, activation='sigmoid'))

# 编译模型
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 查看模型结构
model.summary()

训练模型

接下来，我们将模型应用于训练数据。设置合适的批量大小和训练轮数，开始训练模型。

读这篇时，可以把「项目背景 -> 数据集 -> 数据预处理 -> 构建模型」当成一条检查线：先看清材料、动作和结果，再回到案例、代码或指标里复查。

# 训练模型
history = model.fit(x_train, y_train, epochs=5, batch_size=64, validation_split=0.2)

模型评估

在训练完模型后，我们将在测试集上评估模型的性能，查看模型的准确率。

# 评估模型
test_loss, test_accuracy = model.evaluate(x_test, y_test)

print("测试损失:", test_loss)
print("测试准确率:", test_accuracy)

结果可视化

我们可以使用Matplotlib库可视化训练过程中的损失和准确率变化，以了解模型的表现。

读完《Keras在实际项目中的应用之案例：自然语言处理》后，可以回头问三件事：它解决什么问题，哪一步最容易出错，自己能否拿一个小例子跑通。

import matplotlib.pyplot as plt

# 绘制训练与验证的损失
plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.plot(history.history['loss'], label='训练损失')
plt.plot(history.history['val_loss'], label='验证损失')
plt.title('损失曲线')
plt.xlabel('轮数')
plt.ylabel('损失')
plt.legend()

# 绘制训练与验证的准确率
plt.subplot(1, 2, 2)
plt.plot(history.history['accuracy'], label='训练准确率')
plt.plot(history.history['val_accuracy'], label='验证准确率')
plt.title('准确率曲线')
plt.xlabel('轮数')
plt.ylabel('准确率')
plt.legend()

plt.tight_layout()
plt.show()