4 Llama3模型概述之Llama3的架构

Q: Llama3模型概述之Llama3的架构适合谁读？

这是 Llama 工厂微调 系列第 4 / 24 篇，适合正在学习Llama 工厂微调，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-14

最近更新: 2026-06-04

分类: Llama Factory微调

预计阅读: 4 分钟

阅读次数: 0

系列进度

Llama 工厂微调 · 第 4 / 24 篇

上一篇如何使用本教程的内容下一篇Llama3模型概述之主要特性

预计阅读4 分钟

结构重点5 个

图文要点6 张

正文规模1.5k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 5 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步Llama3架构概述 02第 2 步核心组件 03第 3 步Llama3的结构图示意 04第 4 步自注意力机制的案例分析 05第 5 步总结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线Llama3模型概述之Llama3的架构结构图跳到对应正文位置

图 02 · 步骤Llama3模型概述之Llama3的架构核对图跳到对应正文位置

图 03 · 配置Llama3模型概述之Llama3的架构应用检查卡跳到对应正文位置

图 04 · 判断Llama3模型概述之Llama3的架构应用复盘卡跳到对应正文位置

图 05 · 复盘Llama3架构理解判断卡跳到对应正文位置

图 06 · 细节Llama Factory 微调方法落地卡跳到对应正文位置

Llama Factory 微调要把环境、数据、训练和评估串成闭环，不能只看启动命令。阅读时可以按「Llama3架构概述 -> 核心组件 -> Llama3的结构图示意 -> 自注意力机制的案例分析」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「Llama3架构概述」，再查「核心组件」。

在上一篇引言中，我们探讨了如何有效使用本系列教程，以便轻松入门Llama3大模型的微调系统。本篇将详细介绍Llama3的架构，为理解其工作原理和特性奠定基础。在下一篇中，我们将深入分析Llama3的主要特性，也是我们实现微调的依据。

Llama3架构概述

Llama3是一种基于“Transformer”架构的预训练语言模型，旨在通过创新的设计和高效的训练方法提升自然语言处理能力。它的架构引入了多个先进的技术，为模型的性能提供了强有力的支撑。

读完《Llama3模型概述之Llama3的架构》后，可以先挑一个小样例走完整流程，再判断哪些步骤已经能独立完成。

读到这里，可以把《Llama3模型概述之Llama3的架构》整理成一张复盘表：先说清主线，再拿一个小任务检查结果。

核心组件

Llama3的架构主要由以下几个核心组件组成：

输入嵌入层：
- 该层负责将输入的字符或词汇转换为向量表示。Llama3使用了“WordPiece”分词器，能够将文本分割成子词表征，降低词汇量的复杂性。
多层编码器：
- Llama3包含多个“编码器”层，负责对输入特征进行逐层提取和转换。每个编码器层由两个主要部分构成：
  - 自注意力机制（Self-Attention）：允许模型在处理每个词时，关注输入序列中其他词的相关性，增强上下文理解能力。
  - 前馈神经网络（Feed-Forward Neural Network）：负责处理自注意力层输出的复杂特征，并进一步进行非线性变换。
残差连接与层归一化：
- 为了缓解深度网络训练中的梯度消失问题，Llama3在每个编码器层中引入了残差连接和层归一化，使信息流动更加顺畅，模型的收敛速度加快。
输出层：
- 输出层通常包括一个线性变换和softmax层，目的是将编码信息转化为相应的类别分布，以实现各类下游任务（如文本生成和分类）。

Llama3的结构图示意

下图展示了Llama3的基础结构：

[Input Text] -> [Embedding Layer] -> [Encoder Layer 1] -> ... -> [Encoder Layer N] -> [Output Layer]

自注意力机制的案例分析

自注意力机制是Llama3的一个重要创新，它允许模型在处理某个词时同时关注输入序列中的多个词。举个例子，当输入为“Llama3是一个强大的语言模型”，模型在处理“强大”一词时，也可以关注到“语言模型”这个词，从而更好地理解上下文。

阅读 Llama3 架构时，重点看注意力机制、上下文长度、词表处理和推理资源。架构理解要能帮助后续训练和部署决策。

在实际代码中，自注意力的实现大概如下：

import torch
import torch.nn as nn

class SelfAttention(nn.Module):
    def __init__(self, embed_size, heads):
        super(SelfAttention, self).__init__()
        self.embed_size = embed_size
        self.heads = heads
        self.head_dim = embed_size // heads

        assert (
            self.head_dim * heads == embed_size
        ), "Embedding size needs to be divisible by heads"

        self.values = nn.Linear(embed_size, embed_size, bias=False)
        self.keys = nn.Linear(embed_size, embed_size, bias=False)
        self.queries = nn.Linear(embed_size, embed_size, bias=False)
        self.fc_out = nn.Linear(embed_size, embed_size)

    def forward(self, x):
        N, seq_length, _ = x.shape
        value_len, key_len, query_len = seq_length, seq_length, seq_length

        values = self.values(x)
        keys = self.keys(x)
        queries = self.queries(x)

        # Split into multiple heads
        values = values.view(N, value_len, self.heads, self.head_dim).permute(0, 2, 1, 3)
        keys = keys.view(N, key_len, self.heads, self.head_dim).permute(0, 2, 1, 3)
        queries = queries.view(N, query_len, self.heads, self.head_dim).permute(0, 2, 1, 3)

        # Calculate attention scores
        energy = torch.einsum("nqhd,nkhd->nqk", [queries, keys])
        attention = torch.softmax(energy / (self.embed_size ** (1 / 2)), dim=1)

        # Create attention output
        out = torch.einsum("nqk,nvhd->nqhd", [attention, values]).reshape(N, query_len, self.heads * self.head_dim)

        return self.fc_out(out)