10 选择合适的预训练模型

选择基座模型时，不要只看榜单分数。许可证、中文能力、上下文长度、推理成本、社区生态和部署方式，都会影响真实项目能不能落地。

我会先用 30 条目标任务样本跑三个候选基座。原模型已经做得很好的方向，微调收益通常有限；原模型完全不懂的方向，也未必能靠少量数据救回来。

在微调大语言模型（LLM）之前，选择合适的预训练模型是成功的关键一步。上一篇中我们讨论了数据集的准备及其划分，确保你的数据在训练过程中能高效使用，现在我们将专注于模型选择的基础知识，帮助你识别并选择最佳的预训练模型。

预训练模型概述

预训练模型是指在大规模语料库上训练的模型，能够提取出丰富的语义和语法特征。这些模型的优劣直接影响到后续微调的效果。在选择预训练模型时，需要考虑以下几个因素：

选择预训练模型时，先看任务类型、语言覆盖、上下文长度、显存成本、许可协议和生态支持。

模型架构：不同的模型架构（如BERT、GPT、T5等）适用于不同的任务。
模型大小：小模型（如DistilBERT）适合资源有限的情况，而大模型（如GPT-3）在表现上通常具有优势，但需要更多资源。
领域适应性：选择与任务领域相关的预训练模型通常能获得更好的效果，比如法律、医疗等专用模型。

常见大模型及其适用场景

以下是一些著名的大语言模型及其特点：

读《选择合适的预训练模型》时，可以把配图当成路线卡：先看整体顺序，再看每一步为什么这样做，最后再检查边界条件。

1. BERT（Bidirectional Encoder Representations from Transformers）

特点：双向编码器，擅长处理上下文信息。
适用任务：文本分类、命名实体识别（NER）、问答系统。

示例：

from transformers import BertTokenizer, BertForSequenceClassification
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased')

2. GPT-3（Generative Pre-trained Transformer 3）

特点：自回归模型，适合生成任务。
适用任务：对话生成、文本摘要、内容创作。

示例：

from transformers import GPT3Tokenizer, GPT3ForCausalLM
tokenizer = GPT3Tokenizer.from_pretrained('gpt3')
model = GPT3ForCausalLM.from_pretrained('gpt3')

3. T5（Text-to-Text Transfer Transformer）

特点：统一的文本到文本框架，灵活性高。
适用任务：翻译、文本总结、问答。

示例：

from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained('t5-base')
model = T5ForConditionalGeneration.from_pretrained('t5-base')

如何选择合适的模型？

1. 明确任务需求

在选择模型之前，首先要明确你的任务需求。例如，你是处理文本分类、生成任务，还是问答系统？根据任务的特点来选择模型的类型。

2. 考虑资源限制

大模型通常需要更多的计算资源和内存。如果你的硬件条件有限，可以选择较小的模型，或者采用模型蒸馏技术（如DistilBERT）来减小模型的大小。

3. 查阅文献和社区反馈

在选择模型的过程中，可以参考相关领域的文献或社区讨论。许多任务都有基准测试和效果对比，选择在相似任务上表现出色的模型会有更高的成功率。

案例分析

假设你有一个文本分类任务，目标是判断电影评论是积极的还是消极的。经过数据集准备后，现在你需要选择一个合适的预训练模型。

任务分析：这是一个文本分类任务。
模型选择：BERT 被广泛用于文本分类任务，且在许多基准上表现出色。

实现步骤：

from transformers import BertTokenizer, BertForSequenceClassification
from transformers import Trainer, TrainingArguments

# 加载模型和tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)

# 数据准备和训练参数设置将根据上章节数据划分的结果进行
# ...

# 开始训练
trainer = Trainer(
    model=model,
    args=TrainingArguments(
        output_dir='./results',
        num_train_epochs=3,
        per_device_train_batch_size=16,
        evaluation_strategy="epoch",
        logging_dir='./logs',
    ),
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)

# 开始训练
trainer.train()

学完《选择合适的预训练模型》后，不妨换一个自己的场景试一次，重点观察输入、处理和输出是否能对应起来。

如果想把《选择合适的预训练模型》用到自己的任务里，可以先缩小场景，只验证一个最关键的判断点。

总结

在本篇文章中，我们讨论了选择合适的预训练模型的重要性，分析了常见模型及其适用场景，并提供了一些选择模型的策略和示例。合理选择预训练模型，将为后续的微调过程奠定良好的基础。

下一篇我们将深入了解模型架构，探讨不同大模型的内部机制和特点，为后续微调提供更深入的理解。

10 选择合适的预训练模型

LLM 微调教程 · 第 10 / 24 篇

这篇内容怎么整理

先按这条路线读