🧠自然语言处理入门
AI 教程网络
从这个系列继续发现相关教程
当前专题已经接入 AI 教程总索引,读者可以从这里回到完整目录,也可以继续查看模型、Agent 和工具实测入口。
专题导读
自然语言处理入门学习地图
先按顺序读前几篇建立框架,再用图文要点回看流程、配置和判断点;遇到工具类内容,可以直接跳到对应小节做复现。
阅读路径
按这三段读更顺
每个系列都可以先抓主线,再挑重点文章复现,最后回到问题边界和检查表。
先建立框架
第 1 - 9 篇 · 9 个小节
适合先读概念、环境和整体流程,避免一上来就被细节打散。
再动手复现
第 10 - 22 篇 · 13 个小节
集中看配置、命令、调用链和结果判断,把正文里的图文要点串起来。
图文优先
重点图文入口
想先判断这套内容是否值得继续读,可以从图文信息更密的几篇开始。
自然语言处理 NLP 是什么:定义、任务、应用和入门路线
第 1 篇6 张图1.7k 字面向“自然语言处理”的入门页,解释 NLP 的核心概念、文本分类、情感分析、分词、信息抽取、机器翻译和大模型之间的关系。
AINLP小白2 自然语言处理的应用
第 2 篇6 张图1.5k 字NLP 应用看起来分散,本质都是把语言转成决策线索。不同场景的难点不一样:客服看意图,审核看风险,搜索看匹配。
AINLP小白3 自然语言处理的发展历程
第 3 篇6 张图1.5k 字NLP 的历史可以按“规则写出来”到“表示学出来”理解。每个阶段都在降低人工规则成本,同时引入新的数据和可解释性问题。
AINLP小白4 自然语言的特点
第 4 篇6 张图1.7k 字自然语言难在同一句话会因为场景、说话人和上下文而改变含义。NLP 系统必须处理模糊性,而不是只匹配关键词。
AINLP小白5 NLP技术概述
第 5 篇6 张图1.4k 字NLP 技术链可以拆成四段:先整理文本,再把文本变成向量,然后建模,最后用指标和样本一起评估。
AINLP小白6 文本清理——从零学NLP系列教程
第 6 篇6 张图1.2k 字文本清理不是越干净越好。URL、数字、标点、表情和大小写有时是噪声,有时又是重要信号。
AINLP小白7 文本预处理:分词
第 7 篇6 张图1.4k 字分词决定模型看到的最小单位。中文、英文、代码混排和新词场景,分词策略会直接影响后续向量和分类结果。
AINLP小白8 文本预处理之去除停用词
第 8 篇6 张图1.3k 字停用词不能机械删除。否定词、程度词和领域高频词在某些任务里非常关键,删掉会改变句子意思。
AINLP小白词干提取与词形还原区别:Stemming、Lemmatization 和 Python 示例
第 9 篇6 张图1.4k 字面向“词干提取、词形还原”的 NLP 教程,解释两者差异、适用场景、NLTK PorterStemmer 示例和 spaCy 词形还原示例。
AINLP小白10 从零学NLP系列教程:词袋模型生成词向量
第 10 篇6 张图1.3k 字词袋模型简单但有价值。它丢掉词序,却能快速建立可解释基线,适合先判断任务是否有明显词频信号。
AINLP小白11 只生成词向量之TF-IDF
第 11 篇6 张图2.1k 字TF-IDF 的价值在于让常见词少抢权重,让更能区分文档的词浮出来。它常用于搜索、聚类和传统分类基线。
AINLP小白12 从零学NLP系列教程:词向量之Word2Vec
第 12 篇6 张图1.6k 字Word2Vec 把词放到连续向量空间里,让相似上下文的词更接近。它强调分布式语义,而不是人工写规则。
AINLP小白13 从零学NLP系列教程:生成词向量之GloVe
第 13 篇6 张图2.1k 字GloVe 把全局共现统计和向量学习结合起来。理解它时,重点看共现概率如何变成词之间的语义关系。
AINLP小白14 从零学NLP系列教程:只生成语言模型之N-gram模型
第 14 篇6 张图1.6k 字N-gram 用局部历史估计下一个词,是理解语言模型的经典起点。它简单直观,也清楚暴露了上下文短和稀疏的问题。
AINLP小白15 从零学NLP系列教程:只生成语言模型之RNN与LSTM
第 15 篇6 张图1.6k 字RNN 用隐藏状态处理序列,LSTM 用门控机制缓解长依赖问题。它们是理解后续 Transformer 的重要对照。
AINLP小白16 从零学NLP系列教程:生成语言模型之Transformers
第 16 篇6 张图1.9k 字Transformer 的关键是自注意力:每个 token 都能根据上下文重新分配关注对象。它让长文本建模和并行训练变得更有效。
AINLP小白17 从零学NLP系列教程:文本分类的监督学习与无监督学习
第 17 篇6 张图1.5k 字文本分类先要确认有没有可靠标签。有标签就做监督学习,没有标签则先用聚类、主题发现或人工探索整理结构。
AINLP小白18 只生成文本分类之常用文本分类算法
第 18 篇6 张图1.2k 字文本分类算法不该按名字新旧来选。小数据和高维稀疏场景,传统方法经常是强基线;复杂模型要用验证结果证明价值。
AINLP小白19 文本分类之评价指标
第 19 篇6 张图1.9k 字文本分类不能只看准确率。类别不均衡、漏判代价和误判代价不同,都会改变应该优化的指标。
AINLP小白20 从零学NLP系列教程:命名实体识别
第 20 篇6 张图1.5k 字NER 不是只找关键词,它还要判断实体边界和类型。边界错一个字,后面的知识抽取和检索都会受影响。
AINLP小白21 序列标注之部分语法分析
第 21 篇6 张图1.5k 字语法分析帮助模型理解词之间的结构关系。即使大模型时代,结构化语法信息在检索、抽取和可解释场景仍有价值。
AINLP小白22 从零学NLP系列教程:序列标注之词性标注
第 22 篇6 张图1.6k 字词性标注给每个词加语法角色。中文里很多词会因为上下文改变词性,所以不能只靠静态词典。
AINLP小白23 机器翻译之翻译模型概述
第 23 篇6 张图1.6k 字机器翻译不是逐词替换,而是把源语言含义重组到目标语言里。词序、文化表达和专业术语都会影响质量。
AINLP小白24 从零学NLP系列教程:机器翻译之Seq2Seq模型
第 24 篇6 张图1.7k 字Seq2Seq 把输入序列压缩成表示,再逐步生成输出。它适合翻译、摘要和改写,但长句会暴露信息瓶颈。
AINLP小白25 注意力机制在机器翻译中的应用
第 25 篇6 张图1.7k 字注意力机制让解码器在生成每个词时动态查看输入的不同位置。它缓解了 Seq2Seq 的固定向量瓶颈。
AINLP小白26 对话系统概述
第 26 篇6 张图1.7k 字对话系统不是只生成一句回复。它还要理解用户目标、维护上下文状态,并在合适时追问、确认或执行动作。
AINLP小白27 只生成对话系统之任务导向型对话系统
第 27 篇6 张图1.5k 字任务型对话强调完成明确目标,例如订票、查询、预约。关键不是话术漂亮,而是槽位收集和状态转移可靠。
AINLP小白28 从零学NLP系列教程:开放域对话系统
第 28 篇6 张图1.4k 字开放域对话追求自然交流,但最难的是事实一致、安全边界和长期上下文。流畅不等于可靠。
AINLP小白29 深度学习在NLP中的应用
第 29 篇6 张图1.2k 字深度学习把 NLP 从大量人工特征推进到表示学习和迁移学习。理解它时,要看数据、模型和任务如何配合。
AINLP小白30 深度学习与NLP的最新研究方向与趋势
第 30 篇6 张图1.6k 字NLP 的趋势不是只追更大模型,也包括低资源语言、多模态、检索增强、可解释性和安全评估。
AINLP小白