18 只生成文本分类之常用文本分类算法

Q: 只生成文本分类之常用文本分类算法适合谁读？

这是 自然语言处理入门 系列第 18 / 30 篇，适合正在学习自然语言处理入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: NLP小白

预计阅读: 3 分钟

阅读次数: 0

系列进度

自然语言处理入门 · 第 18 / 30 篇

上一篇从零学NLP系列教程：文本分类的监督学习与无监督学习下一篇文本分类之评价指标

预计阅读3 分钟

结构重点5 个

图文要点6 张

正文规模1.2k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 5 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步文本分类的算法概述 02第 2 步结论

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线常用文本分类算法流程图跳到对应正文位置

图 02 · 步骤常用文本分类算法实操核对图跳到对应正文位置

图 03 · 配置常用文本分类算法判断卡跳到对应正文位置

图 04 · 判断只生成文本分类之常用文本分类算法应用复盘卡跳到对应正文位置

图 05 · 复盘只生成文本分类之常用文本分类算法应用检查卡跳到对应正文位置

图 06 · 细节自然语言处理阅读地图卡跳到对应正文位置

文本分类算法不该按名字新旧来选。小数据和高维稀疏场景，传统方法经常是强基线；复杂模型要用验证结果证明价值。

我会保留一个简单基线，并用同一份数据划分比较。没有基线，复杂模型的提升没有说服力。

在上一篇中，我们探讨了文本分类中监督学习与无监督学习的基本概念与区别。本文将接着该主题，深入介绍一些常用的文本分类算法，并结合具体案例和代码示例来帮助理解。

文本分类的算法概述

文本分类的目标是将文本数据分配到一个或多个标签中。根据使用的模型和实现方式，可将文本分类方法分为以下几类：

比较常用文本分类算法时，先看朴素贝叶斯、SVM、TextCNN、Transformer、标签数量和部署成本。

基于统计的模型
基于机器学习的模型
基于深度学习的模型

我们将逐一讨论这些算法。

1. 基于统计的模型

1.1 朴素贝叶斯分类器

朴素贝叶斯分类器是一种简单而有效的文本分类方法，基于贝叶斯定理而来。其核心假设是特征之间是条件独立的。

公式：
分类概率可以用以下公式计算：

P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)}

这里， $Y$ 是类别， $X$ 是特征。

案例：假设我们有一组邮件，需要将其分类为“垃圾邮件”或“正常邮件”。我们可以使用朴素贝叶斯Classifier来分析词汇出现的概率，并进行分类。

Python代码示例：

from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import make_pipeline

# 示例数据
data = [
    ("Buy now, get cheap meds", "spam"),
    ("Hello, how are you?", "ham"),
    ("Free lottery tickets!", "spam"),
    ("Hi, I hope you are doing well", "ham")
]

X, y = zip(*data)

# 构建管道
model = make_pipeline(CountVectorizer(), MultinomialNB())

# 训练模型
model.fit(X, y)

# 预测
print(model.predict(["Win a free iPhone now!"]))

2. 基于机器学习的模型

2.1 支持向量机（SVM）

支持向量机是一种有效的监督学习模型，非常适合高维空间的数据，例如文本数据。它通过寻找最佳边界来分离不同类别的样本。

原理：SVM尝试最大化不同类别之间的间隔。

案例：我们可以使用支持向量机来对电影评论进行分类，判定评论是“积极”还是“消极”。

Python代码示例：

from sklearn.svm import SVC
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import make_pipeline

# 示例数据
documents = ["I love this movie", "Horrible film", "It was fantastic", "I did not like it"]
labels = ["positive", "negative", "positive", "negative"]

# 构建管道
pipeline = make_pipeline(TfidfVectorizer(), SVC(probability=True))

# 训练模型
pipeline.fit(documents, labels)

# 预测
print(pipeline.predict(["What a great movie!"]))

3. 基于深度学习的模型

3.1 循环神经网络（RNN）

RNN特别适合处理序列数据，可以很好地捕捉信息在序列中的时间关联性。在文本分类中，RNN可以用于处理句子中的单词顺序。

案例：假设我们有一份产品评论的数据，需要判断这些评论是否为“正面”或“负面”。

Python代码示例：

import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Embedding, LSTM, SpatialDropout1D
from keras.preprocessing.sequence import pad_sequences
from keras.preprocessing.text import Tokenizer

# 示例数据
data = ["Great product", "Bad quality", "I love it", "Not what I expected"]
labels = [1, 0, 1, 0]  # 1表示正面，0表示负面

# 文本处理
tokenizer = Tokenizer()
tokenizer.fit_on_texts(data)
X = tokenizer.texts_to_sequences(data)
X = pad_sequences(X)

# 定义模型
model = Sequential()
model.add(Embedding(input_dim=len(tokenizer.word_index)+1, output_dim=128))
model.add(SpatialDropout1D(0.2))
model.add(LSTM(100))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 训练模型
model.fit(X, np.array(labels), epochs=5, batch_size=1)

# 预测
test_data = ["I really enjoyed this"]
test_seq = tokenizer.texts_to_sequences(test_data)
test_seq = pad_sequences(test_seq, maxlen=X.shape[1])

print(model.predict(test_seq))