8 TTS系统架构之特征提取模块

Q: TTS系统架构之特征提取模块适合谁读？

这是 文本转语音教程 系列第 8 / 22 篇，适合正在学习文本转语音教程，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: Text to Speech

预计阅读: 4 分钟

阅读次数: 0

系列进度

文本转语音教程 · 第 8 / 22 篇

上一篇文生语音TTS教程：输入处理模块下一篇TTS系统架构之合成模块

预计阅读4 分钟

结构重点5 个

图文要点6 张

正文规模1.5k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 5 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步特征提取模块概述 02第 2 步关键点总结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线TTS系统架构之特征提取模块结构图跳到对应正文位置

图 02 · 步骤TTS系统架构之特征提取模块核对图跳到对应正文位置

图 03 · 配置TTS特征提取模块判断卡跳到对应正文位置

图 04 · 判断TTS系统架构之特征提取模块应用复盘卡跳到对应正文位置

图 05 · 复盘TTS系统架构之特征提取模块应用检查卡跳到对应正文位置

图 06 · 细节文生语音阅读地图卡跳到对应正文位置

文生语音要把文字、发音、语气和听感连起来看，不能只关心能不能发声。阅读时可以按「特征提取模块概述 -> 常用声学特征 -> 特征提取的步骤 -> Python实现示例」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「特征提取模块概述」，再查「常用声学特征」。

在上一篇中，我们介绍了TTS系统的输入处理模块，该模块主要负责将文本输入转化为适合进行声学模型训练和合成的格式。接下来，我们将深入探讨特征提取模块，这是TTS系统中一个至关重要的组成部分，负责从输入数据中提取有用的声学特征。

特征提取模块概述

特征提取模块的主要任务是将输入的音频信号转化为表示该音频的声学特征。这些特征将作为后续合成过程的输入，因此其准确性和有效性对生成高质量的语音至关重要。常用的声学特征包括梅尔频谱、线谱对、音调和能量等。

学习 TTS 特征提取时，先看文本特征、音素序列、韵律信息和声学参数如何进入后续模型。

常用声学特征

梅尔频谱（Mel-Spectrogram）：梅尔频谱是通过对信号进行短时傅里叶变换（STFT）后，再通过梅尔滤波器组进行处理得到的。其特点是更符合人耳的听觉特性。

计算公式为：
$S[t, f] = \sum_{n=0}^{N-1} x[n] w[n-t] e^{-j2\pi fn/N}$
其中， $w[n]$ 是窗函数， $x[n]$ 是输入信号。

线谱对（Linear Spectral Pairs, LSP）： LSP用于表示滤波器的参数，能有效压缩模型并减少编码量。LSP通过对线性预测系数（LPC）进行变换获得。

音调（F0）：音调是指声音的基本频率，对于语音合成中的情感和语调变化至关重要。音调可以通过自相关法或频谱峰值检测等方法估算。

能量（Energy）：描述音频信号的强度，通常通过信号平方的平均值来计算。

特征提取的步骤

特征提取可以分为以下几个步骤：

预处理：对输入音频进行去噪、去静音和标准化处理。
分帧：将音频信号分为多个短时帧，以便对每一帧计算声学特征。
傅里叶变换：对每一帧进行快速傅里叶变换（FFT）。
滤波：应用梅尔滤波器组，将FFT结果转换为梅尔频谱。
提取特征：进一步从梅尔频谱中提取所需的声学特征，如能量、音调等。

Python实现示例

以下是使用Python及Librosa库进行梅尔频谱提取的示例代码：

import librosa
import numpy as np

# 读取音频文件
y, sr = librosa.load('audio.wav', sr=None)

# 提取梅尔频谱
mel_spectrogram = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)

# 转换为对数梅尔频谱
log_mel_spectrogram = librosa.power_to_db(mel_spectrogram, ref=np.max)

# 打印特征的形状
print(f'Mel Spectrogram Shape: {log_mel_spectrogram.shape}')