11 ChatGPT原理小白教程：生成过程之采样与生成

这是 ChatGPT 原理入门 系列第 11 / 18 篇，适合正在学习ChatGPT 原理入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: ChatGPT原理

预计阅读: 4 分钟

阅读次数: 0

系列进度

ChatGPT 原理入门 · 第 11 / 18 篇

预计阅读4 分钟

结构重点5 个

图文要点6 张

正文规模1.6k 字

整理说明

郭震 · 2026-06-04

独立整理围绕 5 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

图文要点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

很多人以为模型先想好完整答案再输出，其实更接近一边看上下文一边选择下一个 token。理解这一点，就能解释为什么同一个问题可能有多个版本，也能理解温度和 top-p 的作用。

这里可以用写作来类比：每写一个词，后面可选的词都会变化。模型也是这样逐步生成，所以前面的提示、已经生成的内容和采样参数都会影响后续走向。理解这一点后，你会更愿意分段检查输出。

在上篇中，我们探讨了生成过程的输入处理。了解了模型如何将用户输入转化为可理解的格式，而这一过程为后续的生成环节打下了良好的基础。在本篇中，我们将关注于生成过程中的“采样”机制，以及模型是如何利用这些机制产生最终文本的。

在理解生成过程之前，我们需要首先明确生成模型的基本工作原理。ChatGPT等生成模型是通过对大量文本进行训练，从而学习文本的分布特征。在生成过程中，模型会基于一定的输入（上文），不断预测下一个可能出现的词（token），直到生成完整的响应。

理解采样与生成时，先看概率分布、候选 token、温度、Top-p、停止条件和上下文约束。

在生成文本时，主要有几种不同的采样方法来选择下一个词：

最大似然估计（Greedy Search）:
- 在每一步选择概率最高的词作为下一个输出。虽然简单且快速，但可能导致产生缺乏多样性和创新性的文本。
示例代码：
```
def greedy_search(logits):
    return torch.argmax(logits).item()
```
随机采样（Random Sampling）:
- 从模型输出的概率分布中随机选择下一个词。这种方法可以增加生成文本的多样性。
示例代码：
```
def random_sampling(logits):
    probabilities = softmax(logits)
    return np.random.choice(range(len(probabilities)), p=probabilities)
```
温度采样（Temperature Sampling）:
- 通过调整预测分布的“温度”来控制生成文本的随机性。当温度为1时，模型保持原有的分布；当温度小于1时，模型更倾向于选择高概率词，导致文本更加保守；而当温度大于1时，模型则更可能选择低概率词，导致文本多样性增加。
示例代码：
```
def temperature_sampling(logits, temperature=1.0):
    logits /= temperature
    probabilities = softmax(logits)
    return np.random.choice(range(len(probabilities)), p=probabilities)
```