14 深度学习与神经网络之神经元模型与激活函数

Q: 深度学习与神经网络之神经元模型与激活函数适合谁读？

这是 计算机视觉网络教程 系列第 14 / 31 篇，适合正在学习计算机视觉网络教程，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: 计算机视觉

预计阅读: 4 分钟

阅读次数: 0

系列进度

计算机视觉网络教程 · 第 14 / 31 篇

上一篇过拟合与正则化下一篇深度学习与神经网络之前向传播与反向传播

预计阅读4 分钟

结构重点8 个

图文要点6 张

正文规模1.5k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 8 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步神经元模型 02第 2 步激活函数 03第 3 步小结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线神经元模型与激活函数流程图跳到对应正文位置

图 02 · 步骤神经元模型与激活函数实操核对图跳到对应正文位置

图 03 · 配置神经元激活函数判断卡跳到对应正文位置

图 04 · 判断计算机视觉阅读地图卡跳到对应正文位置

图 05 · 复盘深度学习与神经网络之神经元模型与激活函数应用复盘卡跳到对应正文位置

图 06 · 细节深度学习与神经网络之神经元模型与激活函数应用检查卡跳到对应正文位置

神经元模型可以看成一个可学习的计算单元。激活函数让网络有非线性表达能力，否则多层线性叠加仍然只是线性模型。

我会区分隐藏层激活和输出层激活。分类任务、回归任务、多标签任务的输出处理并不一样。

在深度学习与神经网络的基础上，我们需要进一步了解神经网络的基本构建块——神经元，以及如何通过激活函数引入非线性特性。这一部分将承接之前的内容，探讨神经元模型的组成及其重要性。

神经元模型

一个简单的神经元模型通常包含三个主要部分：输入、权重和偏置。神经元的工作可以通过以下步骤描述：

理解神经元模型与激活函数时，先看输入权重、偏置、加权和、激活输出和梯度传递。

接收输入：神经元从上一层接收输入信号，通常用特征向量表示，比如 $x_1, x_2, \ldots, x_n$ 。
加权求和：每个输入对应一个权重，记作 $w_1, w_2, \ldots, w_n$ 。神经元的加权和可以表示为： $z = w_1 x_1 + w_2 x_2 + \ldots + w_n x_n + b$ 其中 $b$ 是偏置，帮助神经元调整输出。
激活函数：计算出的加权和 $z$ 会通过激活函数进行处理，从而生成神经元的输出。这个过程可以用公式表示为： $a = f(z)$ 其中 $f$ 是激活函数， $a$ 是神经元的输出。

示例

假设我们有三维输入向量 $x = [x_1, x_2, x_3]$ ，权重为 $w = [w_1, w_2, w_3]$ ，偏置为 $b$ 。我们可以构造一个简单的神经元并计算其输出：

import numpy as np

# 输入
x = np.array([0.5, 0.3, 0.2])
# 权重
w = np.array([0.4, 0.6, 0.2])
# 偏置
b = 0.1

# 计算加权和
z = np.dot(w, x) + b

激活函数

激活函数的主要目的是引入非线性，使得神经网络能够学习复杂的模式。常见的激活函数有以下几种：

读《深度学习与神经网络之神经元模型与激活函数》时，先确定要解决的场景，再把关键概念和练习动作串起来。这样读到细节时，不容易只记住零散名词。

1. Sigmoid 函数

定义为：

f(z) = \frac{1}{1 + e^{-z}}

特点：

输出范围在 (0, 1) 之间。
在大于 0 或小于 0 时梯度非常小，可能导致“梯度消失”。

2. Tanh 函数

定义为：

f(z) = \tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}

特点：

输出范围在 (-1, 1) 之间。
相比 Sigmoid 函数，Tanh 函数在原点附近更为平滑，通常表现更好。

3. ReLU 函数（修正线性单元）

定义为：

f(z) = \max(0, z)

特点：

对于 $z > 0$ 输出 $z$ ，对于 $z \leq 0$ 输出 0。
可以有效缓解梯度消失问题。
可能出现 "Dying ReLU" 问题，即部分神经元永远不会被激活。

代码示例

下面的代码展示了如何计算不同激活函数的输出：

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def tanh(z):
    return np.tanh(z)

def relu(z):
    return np.maximum(0, z)

# 计算激活函数输出
output_sigmoid = sigmoid(z)
output_tanh = tanh(z)
output_relu = relu(z)

print(f'Sigmoid output: {output_sigmoid}')
print(f'Tanh output: {output_tanh}')
print(f'ReLU output: {output_relu}')