12 Llama Factory大模型Llama3微调系统：数据准备之数据格式要求

Q: Llama Factory大模型Llama3微调系统：数据准备之数据格式要求适合谁读？

这是 Llama 工厂微调 系列第 12 / 24 篇，适合正在学习Llama 工厂微调，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-14

最近更新: 2026-06-04

分类: Llama Factory微调

预计阅读: 3 分钟

阅读次数: 0

系列进度

Llama 工厂微调 · 第 12 / 24 篇

上一篇Llama Factory大模型Llama3微调系统数据准备之数据预处理下一篇Llama Factory大模型Llama3微调策略详解

预计阅读3 分钟

结构重点5 个

图文要点6 张

正文规模1.4k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 5 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步数据格式要求概述 02第 2 步数据准备流程 03第 3 步小结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线Llama Factory大模型Llama3微调系统：数据准备之数据格式要求结构图跳到对应正文位置

图 02 · 步骤Llama Factory大模型Llama3微调系统：数据准备之数据格式要求核对图跳到对应正文位置

图 03 · 配置微调数据格式要求判断卡跳到对应正文位置

图 04 · 判断Llama Factory 微调阅读地图卡跳到对应正文位置

图 05 · 复盘Llama Factory大模型Llama3微调系统：数据准备之数据格式要求应用复盘卡跳到对应正文位置

图 06 · 细节Llama Factory大模型Llama3微调系统：数据准备之数据格式要求应用检查卡跳到对应正文位置

Llama Factory 微调要把环境、数据、训练和评估串成闭环，不能只看启动命令。阅读时可以按「数据格式要求概述 -> 示例数据结构 -> 数据准备流程 -> 环境准备」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「数据格式要求概述」，再查「示例数据结构」。

在上篇中，我们讨论了数据准备的预处理步骤，这对于确保数据的质量和一致性至关重要。接下来，我们将详细讲解在微调Llama3模型时所需的数据格式要求。掌握这些要求能够帮助我们有效地构建符合规范的训练数据集，为微调过程打下坚实的基础。

数据格式要求概述

在进行Llama3的微调时，数据格式需遵循特定的结构。这不仅能够使模型有效地读取数据，还能确保训练过程的顺利进行。一般来说，数据格式的要求主要包括以下几个方面：

准备 Llama Factory 数据格式时，先核对字段命名、角色结构、对话轮次、模板映射和验证样例。

输入输出对：我们的数据必须以输入和对应输出的对形式进行组织。
文件格式：推荐使用JSON或CSV格式，因为这些格式提供了良好的可读性和结构性。
字段要求：每个数据条目需包含必要的字段，通常包括prompt（输入提示）和completion（输出结果）。
编码要求：确保数据文件采用UTF-8编码，以避免字符编码的问题。

示例数据结构

对于Llama3的微调，假设我们希望训练模型对给定问题生成答案。数据格式可以如下所示：

JSON格式示例：

[
    {
        "prompt": "什么是机器学习？",
        "completion": "机器学习是人工智能的一个分支，借助数据来进行模式识别和分析。"
    },
    {
        "prompt": "请解释深度学习的基本概念。",
        "completion": "深度学习是一种机器学习方法，基于人工神经网络，能够自动从数据中提取特征。"
    }
]

CSV格式示例：

prompt,completion
"什么是机器学习？","机器学习是人工智能的一个分支，借助数据来进行模式识别和分析。"
"请解释深度学习的基本概念。","深度学习是一种机器学习方法，基于人工神经网络，能够自动从数据中提取特征。"

数据准备流程

为了确保数据格式符合要求，可以遵循以下步骤：

看完《Llama Factory大模型Llama3微调系统：数据准备之数据...》后，建议用一分钟复盘：关键概念是否分清、练习步骤是否可复现、结论能不能换成自己的话。

收集数据：首先收集与任务相关的数据，数据可以来自公共数据集、API、爬虫抓取等方式。
预处理数据：根据上篇所述，对数据进行清洗、去重和标准化处理，确保数据质量。
构建数据对：将数据按prompt和completion的形式整理，保证每条数据都符合上述结构要求。
格式转换：将数据保存为JSON或CSV格式文件，确保文件编码为UTF-8。
验证数据格式：检查文件的结构，确保没有遗漏的字段或格式错误。

代码示例

以下是一个简单的Python代码，它将输入数据转换为符合要求的JSON格式：

import json

# 示例数据
data = [
    {"question": "什么是机器学习？", "answer": "机器学习是人工智能的一个分支。"},
    {"question": "深度学习的基本概念是什么？", "answer": "深度学习是基于神经网络的学习方法。"}
]

# 转换为符合格式的数据
formatted_data = [{"prompt": entry["question"], "completion": entry["answer"]} for entry in data]

# 保存为JSON文件
with open('formatted_data.json', 'w', encoding='utf-8') as f:
    json.dump(formatted_data, f, ensure_ascii=False, indent=4)