10 Llama3微调系统数据准备之数据集选择

Q: Llama3微调系统数据准备之数据集选择适合谁读？

这是 Llama 工厂微调 系列第 10 / 24 篇，适合正在学习Llama 工厂微调，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-14

最近更新: 2026-06-04

分类: Llama Factory微调

预计阅读: 4 分钟

阅读次数: 0

系列进度

Llama 工厂微调 · 第 10 / 24 篇

上一篇环境准备之环境配置注意事项下一篇Llama Factory大模型Llama3微调系统数据准备之数据预处理

预计阅读4 分钟

结构重点4 个

图文要点6 张

正文规模1.7k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 4 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步一、了解任务需求 02第 2 步二、常见任务与数据集推荐 03第 3 步三、数据集选择的因素 04第 4 步四、总结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线Llama3微调系统数据准备之数据集选择结构图跳到对应正文位置

图 02 · 步骤Llama3微调系统数据准备之数据集选择核对图跳到对应正文位置

图 03 · 配置Llama3微调数据集选择判断卡跳到对应正文位置

图 04 · 判断Llama Factory 微调阅读地图卡跳到对应正文位置

图 05 · 复盘Llama3微调系统数据准备之数据集选择应用复盘卡跳到对应正文位置

图 06 · 细节Llama3微调系统数据准备之数据集选择应用检查卡跳到对应正文位置

Llama Factory 微调要把环境、数据、训练和评估串成闭环，不能只看启动命令。阅读时可以按「一、了解任务需求 -> 二、常见任务与数据集推荐 -> 三、数据集选择的因素 -> 四、总结」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「一、了解任务需求」，再查「二、常见任务与数据集推荐」。

在本篇教程中，我们将深入探讨如何选择适合于Llama3大模型进行微调的数据集。在上一篇文章中，我们讨论了环境配置的注意事项，例如Python环境、依赖库以及硬件要求等。这一系列的步骤都是为了确保我们在进行微调时能够在最佳的环境下进行。接下来，我们将重点关注数据集的选择以及如何根据具体任务来决定最合适的数据集。

一、了解任务需求

在选择数据集之前，首先需要明确微调的任务是什么。Llama3模型能够应用于多个自然语言处理（NLP）任务，包括但不限于以下几类：

选择 Llama3 微调数据集时，先看任务目标、样本质量、格式一致性、授权范围、规模和评估集。

文本分类：对输入文本进行分类，例如情感分析。
问答生成：根据输入的问题生成答案。
文本生成：根据特定的上下文生成文本内容。
命名实体识别：识别文本中的专有名词和信息。

在明确任务后，选择合适的数据集是至关重要的。以下是一些常见任务对应的数据集选择建议。

二、常见任务与数据集推荐

文本分类

开始读《Llama3微调系统数据准备之数据集选择》前，可以先看图中从问题到结果的路径。读完后再对照正文，确认自己能不能照着复现。

常用的数据集包括：

IMDb影评数据集：用于情感分析，包含大量影评和标签，可以用于训练一个情感分类模型。
AG News数据集：一个包含新闻文章的多类别分类数据集。

举个例子，使用IMDb数据集时，可以通过以下代码加载数据：

import pandas as pd

# 加载IMDb数据集
df = pd.read_csv('imdb_reviews.csv')
print(df.head())

问答生成

对于问答生成任务，推荐使用：
- SQuAD（Stanford Question Answering Dataset）：一个研究问答模型的标准数据集，包含问题和相关段落的配对。
- Natural Questions：由Google推出的一个大型问答数据集。
示例加载SQuAD数据集：
```
import json

# 加载SQuAD数据集
with open('squad.json') as f:
    squad_data = json.load(f)
print(squad_data['data'][0])
```
文本生成

对于文本生成任务，可以考虑以下数据集：
- OpenAI的GPT-2数据集：包含多种领域的文本数据，可以用于生成多样化的文本。
- WikiText：一个高质量的Wikipedia文本数据集，适用于语言模型的训练。
示例加载WikiText数据集：
```
from datasets import load_dataset

# 加载WikiText数据集
dataset = load_dataset('wikitext', 'wikitext-2-raw-v1')
print(dataset['train'][0])
```
命名实体识别

适用的数据集包括：
- CoNLL-2003：提供标准的命名实体识别数据。
- OntoNotes：一个大型的多语言数据集，适用于各种NLP任务。
加载CoNLL-2003的数据集：
```
from datasets import load_dataset

# 加载CoNLL-2003数据集
dataset = load_dataset('conll2003')
print(dataset['train'][0])
```