25 Keras与TensorFlow之Keras与TF设备管理

Q: Keras与TensorFlow之Keras与TF设备管理适合谁读？

这是 Keras 入门 系列第 25 / 28 篇，适合正在学习Keras 入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-15

最近更新: 2026-06-04

分类: Keras

预计阅读: 4 分钟

阅读次数: 0

系列进度

Keras 入门 · 第 25 / 28 篇

上一篇Keras与TensorFlow之Keras的TensorBoard可视化下一篇Keras框架在图像分类中的应用

预计阅读4 分钟

结构重点8 个

图文要点6 张

正文规模1.7k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 8 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步设备的基本概念 02第 2 步在Keras中使用设备管理 03第 3 步结语

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线Keras 与 TF 设备管理流程图跳到对应正文位置

图 02 · 步骤Keras 与 TF 设备管理实操核对图跳到对应正文位置

图 03 · 配置Keras与TensorFlow之Keras要点判断卡跳到对应正文位置

图 04 · 判断Keras阅读地图卡跳到对应正文位置

图 05 · 复盘Keras与TensorFlow之Keras与TF设备管理应用复盘卡跳到对应正文位置

图 06 · 细节Keras与TensorFlow之Keras与TF设备管理应用检查卡跳到对应正文位置

设备管理不是炫硬件，而是让训练稳定、资源可控。GPU 可用、显存增长和批大小都要验证。

我会先打印设备列表，再用小批量试跑。显存不稳定时，优先降低 batch 或启用内存增长。

在上一篇文章中，我们探讨了如何利用 TensorBoard 对 Keras 模型进行可视化。在这一篇，我们将深入了解如何在 Keras 中管理设备，特别是当我们使用 TensorFlow 作为后端时。设备管理对于有效利用硬件资源、缩短训练时间以及优化性能是非常重要的。

设备的基本概念

在 Keras 和 TensorFlow 中，设备通常指的是计算资源，包括 CPU 和 GPU。使用 GPU 加速训练可以显著提高模型的训练速度，但为了实现这一点，我们需要确保代码正确地管理设备。

读这篇时，可以把「设备的基本概念 -> TensorFlow -> 显示设备信息 -> 控制设备使用」当成一条检查线：先看对象、路径和证据，再回到案例、代码或指标里复查。

TensorFlow设备管理

TensorFlow 提供了一种灵活的方式来管理设备。默认情况下，TensorFlow 会自动检测并使用可用的硬件设备。如果你的环境中有可用的 GPU，TensorFlow 会自动使用它。如果没有，则会使用 CPU。

显示设备信息

我们可以通过 TensorFlow 的 API 显示可用设备信息。以下是一个简单的代码示例：

import tensorflow as tf

# 列出所有可用设备
devices = tf.config.list_physical_devices()
print("可用设备: ", devices)

这段代码会输出你系统中可用的设备，例如 CPU 和 GPU 的详细信息。

控制设备使用

有时，你可能希望限制 TensorFlow 只使用特定的 GPU，或者设置 GPU 内存的增长策略。可以通过以下方式实现：

# 设置只使用第一个 GPU
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    try:
        # 只让 TensorFlow 使用第一个 GPU
        tf.config.set_visible_devices(gpus[0], 'GPU')

        # 设置 GPU 内存按需增长
        tf.config.experimental_set_memory_growth(gpus[0], True)
    except RuntimeError as e:
        print(e)  # 仅在程序启动时配置设备

在这个例子中，我们首先列出了所有可用的 GPU 然后选择性地让 TensorFlow 使用第一个 GPU，并设置内存增长。这在防止程序一开始就占用所有 GPU 内存时尤为重要。

在Keras中使用设备管理

Keras 提供了统一的 API来构建和训练模型，且它同样可以利用 TensorFlow 的设备管理功能。你可以通过在编译模型之前设置设备环境，以确保模型训练在正确的硬件上进行。

读《Keras与TensorFlow之Keras与TF设备管理》时，可以把配图当成路线卡：先看整体顺序，再看每一步为什么这样做，最后再检查边界条件。

在 Keras 模型中指定设备

以下是一个示例，演示如何在 Keras 中创建一个简单的模型，并确保它在指定的 GPU 上运行：

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# 设置设备（假设使用的是第一个 GPU）
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    tf.config.set_visible_devices(gpus[0], 'GPU')
    tf.config.experimental_set_memory_growth(gpus[0], True)

# 创建一个 Keras 模型
model = keras.Sequential([
    layers.Dense(64, activation='relu', input_shape=(32,)),
    layers.Dense(10, activation='softmax')
])

# 编译模型
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# 模型摘要
model.summary()

在这段代码中，我们首先设置了使用 GPU 的环境，创建了一个简单的全连接网络并进行了编译。此时，我们的模型将自动使用指定的 GPU 进行训练。

注意事项

GPU 内存管理：使用 tf.config.experimental_set_memory_growth() 方法可以提升模型的训练效率，避免在开始时占用所有 GPU 内存。
多 GPU 使用：当我们需要使用多个 GPU 时，Keras 提供了 tf.distribute.MirroredStrategy 来方便我们进行分布式训练。

strategy = tf.distribute.MirroredStrategy()

with strategy.scope():
    model = keras.Sequential([
        layers.Dense(64, activation='relu', input_shape=(32,)),
        layers.Dense(10, activation='softmax')
    ])
    model.compile(optimizer='adam',
                  loss='sparse_categorical_crossentropy',
                  metrics=['accuracy'])

使用 MirroredStrategy，模型将在所有可用 GPU 上进行训练，自动处理数据并行。

复习《Keras与TensorFlow之Keras与TF设备管理》时，建议把关键概念、操作步骤和可见结果放在同一页里回看。

练习《Keras与TensorFlow之Keras与TF设备管理》时，建议把输入条件、处理动作和可见结果写在一起，方便下次复查。

结语

在本篇文章中，我们讨论了 Keras 和 TensorFlow 中的设备管理。通过合理的设备管理，我们可以高效地使用 CPU 和 GPU 来加快模型的训练过程。在下一篇文章中，我们将探讨 Keras 如何在实际项目中应用，通过图像分类的案例来展示 Keras 的强大功能。希望您能够顺利地将这些设备管理的知识应用于实际的深度学习项目中。

继续阅读