音频算法 | LeventureTecTips

GTCRN：一个 23.7K 参数语音降噪网络的设计思路完整解读

GTCRN：一个 23.7K 参数语音降噪网络的设计思路完整解读作者从零讲起：背景、骨架、模块、训练、部署、设计哲学，一篇看完。配套材料：GTCRN 论文与公开实现都可以作为辅助阅读材料，但本文尽量按原理本身展开，不依赖具体工程代码跳转。目录前言：这篇文章写给谁看第一章设计思路与背景：作者到底要解决什么问题？第二章整体架构：一张图看懂 GTCRN 是怎么搭起来的第三章输入处理与 ERB：怎么把 257 个频点压成 129 个还不丢信息？第四章 GT-Conv 详解：ShuffleNetV2 + 时间空洞，省到极致的卷积块第五章 DPGRNN 详解：双路径 + 分组，RNN 的极致瘦身第六章 SFE 与 TRA：两个"点睛"模块第七章输出与损失函数：复数掩码 CRM 和"混合损失"的玄学第八章流式推理：从离线训练到逐帧实时第九章设计哲学总结：从 GTCRN 学到的可迁移工程思维前言如果你和我一样，是一名有信号处理（STFT、滤波器组、感知声学）和经典机器学习基础的工程师，能看懂代码，知道"卷积"、“RNN”、“注意力"大概是什么，但是看到 GTCRN 这样的网络结构图时会想： “作者为什么这么搭？这些模块之间凭什么能拼成一个能降噪的东西？” “23.7K 参数怎么做到打过 RNNoise（60K参数），并且打平甚至超过几百万参数的大模型的？” “如果让我从零设计，我能想到这些 trick 吗？我和作者之间差的是什么？” 那这篇文章可能对你有用。我不打算把它写成论文复读机，那样毫无价值——论文你自己就能看。我想做的是还原作者的思考路径：当他坐在工位上想"我要做一个能放在耳机里跑的降噪模型”，他第一步会想什么，第二步又怎么走到 ERB、ShuffleNet、DPRNN 这些组件上，每一个看起来很骚的设计背后到底解决的是什么实际问题。读完这一系列，你应该能：理解 GTCRN 每个模块解决的具体问题，而不是只记住名字；看到一个新的 SE 模型时，能识别其中哪些是骨架、哪些是 trick；在自己的项目里能做出取舍：什么时候上 attention、什么时候用 grouped conv、什么时候 CRM 不如 mag-mask。阅读建议： ...

[旧日谈] 再考 IIR 与 FIR 滤波器对相位影响的定量分析

IIR 与 FIR 濾波器对音频相位的影响先前我有写过一个简单的文章分析过两种滤波器对音频相位的影响，但是我只是知其然不知其所以然。对于音频，我虽然知道相位是一个很重要的概念，但是我始终不知道相位对实际音频的印象是什么水平的。这个问题在这些年的开发过程中始终萦绕在心头。虽然不做音频了，但是我仍然对这个问题保持好奇，综上，这也是为什么有了这个文章。一、从一个问题开始假设我们有一个 1kHz 的正弦信号，经过一个低通滤波器之后，输出还是 1kHz 的正弦信号，幅度变小了——这很好理解，滤波器嘛，该衰减的衰减。但仔细看输出波形，会发现它相对于输入信号产生了一个时间上的延迟。这个延迟不是简单的"整体往后挪了 N 个采样点"，而是不同频率的信号延迟不一样。 1kHz 的信号延迟了 0.5ms，500Hz 的信号延迟了 0.8ms，2kHz 的信号延迟了 0.3ms——每个频率成分的延迟都不一样。这就是相位失真。对于音频处理来说，这个问题比听起来严重得多。人耳对相位差的感知不如幅度那么直接，但当不同频率成分的延迟差异大到一定程度时，会导致：瞬态信号（比如鼓点、齿音）的波形被"模糊化" 立体声声像偏移某些频段的"堆叠"或"空洞" 所以，理解滤波器的相位特性，是做音频处理的基本功。先说结论，IIR 的相位响应受幅度响应约束（最小相位特性），无法独立控制；FIR 可以独立控制幅度和相位，因此能实现线性相位或任意指定相位。但是至于为什么音频行业常用IIR滤波器，这个问题我将在补充后说明。二、先回顾一下：FIR 和 IIR 是什么 FIR（有限脉冲响应） FIR 滤波器的差分方程： $$ y[n] = \sum_{k=0}^{M} b_k \, x[n-k] $$输出只依赖于当前和过去的输入，没有反馈。脉冲响应是有限长的（长度 M+1）。 IIR（无限脉冲响应） IIR 滤波器的差分方程： $$ y[n] = \sum_{k=0}^{M} b_k \, x[n-k] - \sum_{k=1}^{N} a_k \, y[n-k] $$输出同时依赖于输入和过去的输出（反馈）。脉冲响应理论上是无限长的。两者的核心区别在于有没有反馈。这个结构上的差异，直接决定了它们的相位特性。三、相位响应的推导从频率响应说起一个 LTI（线性时不变）系统的频率响应可以写成： ...

GTCRN 演进路径：v4 → v5 → 落地

GTCRN 演进路径：v4 → v5 → 落地记录噪声抑制模型从架构精简开始，经历质量优化、极限压缩，到最终在嵌入式 C 端落地的全过程。前言 v4.1 把 464 KB 的推理管线交到了 C 端手里。这个数字已经够小——能在大多数嵌入式芯片上跑起来，RTF 不到 0.04。但我们还想要更多。不是「把模型再做小一点」这么简单。键盘敲击声和风扇底噪的压制效果已经不错了，如果裁剪的过程中把这两个能力丢掉，小就没有意义。换句话说，压缩是手段，质量是底线。每次下手之前，先问一句：压完之后，瞬态噪声还能不能盖住？听感会不会变差？ v5 这条线走了四个月。它从 v4.1 的 464 KB 跑到了最终的 412 KB，中间踩了不少坑。这份文档把踩过的坑、走通的路、放弃的岔路都记下来。时间线：2026-03（v4.1 交付） → 2026-06（v5.6 C 端落地）版本总览版本改了什么参数关键指标内存结论 v4.1 INT8 混合精度 C 推理 87K PESQ 2.037 464 KB 基线，已交付 v5.1 架构定型 (4层, CH=20) 55.6K PESQ 2.462 ~466 KB 可靠起点 v5.2 多模块 all-in 73.9K PESQ ~1.20 ~538 KB 失败，复盘后放弃 v5.3 网络优化，单模块消融 61.6K [5,10) PESQ 1.92 ~466 KB n4 被接受 v5.4 宽度裁剪 CH→16 41.2K [5,10) PESQ 1.46 ~400 KB 失败，暂停 v5.5 极限压缩 (INT4/INT8) — PESQ drop < 0.05 ~314-349 KB (投) 过门，主线收敛 v5.6 C 端落地：GTC6/INT4/hidden INT8 60.3K DNSMOS SIG +0.86 412 KB 交付网络结构 (v5.3-n4 最终) 输入 spec (B, 513, T, 2) │ ▼ ERB_48k.bm(): 513 → 219 │ ▼ in_conv: Conv2d(2→3) │ ▼ ┌─ CausalEncoder ───────────────────────────┐ │ DSConv: 219→110 ← skip1 │ │ DSConv: 110→55 ← skip2 │ │ CausalGTConv×4 (d=1,2,4,2) ← skip3-6│ │ SubbandAttention │ └───────────────────────────────────────────┘ │ ▼ CausalDPGRNN × 2 │ intra: 双向GRU (频率轴) │ inter: 单向GRU (时间轴) │ ▼ ┌─ CausalDecoder ───────────────────────────┐ │ SkipResidualFusion + CausalGTConv×4 │ │ Fuse + DSDeconv: 55→110 │ │ SkipResidualFusion + DSDeconv: 110→219 │ └───────────────────────────────────────────┘ │ ▼ out_conv → ERB_48k.bs() → CRM → 输出相比 v4，decoder 的 skip 连接从简单的 x + skip 换成了带门控和残差分支的融合模块。 ...

带噪信号的趋势分析方法

带噪信号的趋势分析方法前言手头有两组时域采样数据，每组大约240个采样点。采样周期固定，信号值在两千到四千之间游走。肉眼扫过去——毛刺很多，高频抖动明显。但拉远了看，似乎底下藏着某种缓慢变化的结构。就像隔着一层磨砂玻璃看一幅画，大色块能辨认，细节却糊成一团。 DSP里降噪去扰的招数不少。卡尔曼、Holt-Winters、高斯平滑、巴特沃斯、Savitzky-Golay，各有各的路子。我想试试——把这套工具搬到这个信号上，看谁能把底下的轮廓挖出来，谁会被噪声带跑偏。另外再拿两组最简单的滑动平均（SMA和EMA）当参考线，看看"简单粗暴"和"精心设计"之间到底差多少。信号概览先看一眼这两组信号的素颜：特征 Signal A Signal B 值域 2,863 ~ 3,652 3,097 ~ 4,030 振幅(span) 789 933 采样点 242 243 逐点变化率 std 1.17% 1.53% 均值 3,174 3,575 Signal A的振幅比Signal B小，但逐点变化率的峰值很大——有过几次接近 ±5% 的跳变。整体走势像一条被反复折叠的绳子：先往下摔，弹回来，又摔一次，再弹。方向频繁切换。 Signal B的振幅更大，但方向很一致——从头到尾在往上走。中途有几次小幅回撤，但不改大方向。这两组信号的差异，决定了后面每种方法的命运。一、卡尔曼滤波——让状态方程替你猜原理卡尔曼不直接相信观测值，也不全信预测值。它在两者之间做加权，权重由各自的不确定性决定。设一个状态向量 $x_k = [p_k, v_k]^T$，装着"当前位置"和"变化速度"。假设信号按匀速模型演化： $$ x_k = F x_{k-1} + w_k, \quad F = \begin{bmatrix}1 & \Delta t \\ 0 & 1\end{bmatrix} $$每来一个新的观测 $z_k$，先预测、再修正： ...

NSF-HiFiGAN-声码器学习笔记

从 HiFi-GAN 到 NSF-HiFi-GAN：声码器学习笔记本文基于 RVC（Retrieval-based Voice Conversion）项目的实际代码，从零开始梳理 HiFi-GAN 声码器的原理，再过渡到 RVC 中真正使用的 NSF-HiFi-GAN 变体。代码位置：infer/lib/infer_pack/models.py 和 infer/lib/infer_pack/modules.py 一、先搞清楚声码器在干什么在语音合成或语音转换的流程里，声码器处在最后一环。它的上游会输出某种"中间表示"——可能是 mel 频谱图，也可能是某个隐空间的向量。声码器要做的事情就一件：把这个中间表示变回可以听的音频波形。说得直白点：频谱图是一张"图"，声码器要把这张图"念"出来。传统做法（Griffin-Lim 之类的）靠数学迭代来恢复相位信息，结果通常比较糊。HiFi-GAN 走的是神经网络的路线——用一个生成器直接输出波形采样点，同时用判别器来监督生成质量。二、HiFi-GAN 的基本结构 HiFi-GAN 的论文是 2020 年发的（Jungil Kong 等人），核心思路可以用一句话概括：转置卷积做上采样，残差块做波形精炼，多尺度判别器做质量监督。 2.1 生成器的整体流程在 RVC 的代码里，标准 HiFi-GAN 生成器对应的是 Generator 类（models.py:204）。它的结构其实很规整： HiFi-GAN 生成器结构（40kHz 配置为例） ┌─────────────────────────────────────────────────────────────┐ │ 输入：隐变量 z │ │ [batch, 192, T帧] │ └────────────────────┬────────────────────────────────────────┘ │ ▼ ┌────────────────────┐ │ 预处理卷积层 │ │ Conv1d(192→512) │ ← 把输入投射到高维空间 │ kernel_size=7 │ └────────┬───────────┘ │ ┌────────────┴────────────┐ │ 上采样 Stage 1 (×10) │ │ ConvTranspose1d(512→256)│ ← 时间轴拉长到 T×10 └────────┬─────────────────┘ │ ┌────────┴──────────────────────────────────┐ │ MRF (多感受野融合) │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐│ │ │ResBlock │ │ResBlock │ │ResBlock ││ │ │kernel=3 │ │kernel=7 │ │kernel=11 ││ │ └──────────┘ └──────────┘ └──────────┘│ │ 输出取平均 │ └────────┬──────────────────────────────────┘ │ ┌────────┴────────────┐ │ 上采样 Stage 2 (×10)│ │ ConvTranspose1d(256→128)│ ← 时间轴拉长到 T×100 └────────┬─────────────┘ │ ┌────────┴──────────────────────────────────┐ │ MRF 融合 │ │ ResBlock×3 (kernel=3/7/11) → 平均 │ └────────┬──────────────────────────────────┘ │ ┌────────┴────────────┐ │ 上采样 Stage 3 (×2) │ │ ConvTranspose1d(128→64)│ ← 时间轴拉长到 T×200 └────────┬─────────────┘ │ ┌────────┴──────────────────────────────────┐ │ MRF 融合 │ │ ResBlock×3 (kernel=3/7/11) → 平均 │ └────────┬──────────────────────────────────┘ │ ┌────────┴────────────┐ │ 上采样 Stage 4 (×2) │ │ ConvTranspose1d(64→32) │ ← 时间轴拉长到 T×400 └────────┬─────────────┘ │ ┌────────┴──────────────────────────────────┐ │ MRF 融合 │ │ ResBlock×3 (kernel=3/7/11) → 平均 │ └────────┬──────────────────────────────────┘ │ ┌────┴────────────┐ │ 后处理卷积层 │ │ Conv1d(32→1) │ ← 压缩到单声道 │ kernel_size=7 │ └────┬─────────────┘ │ ▼ ┌────────────┐ │ Tanh │ ← 限幅到 [-1, 1] └─────┬──────┘ │ ▼ ┌──────────────────┐ │ 输出波形 │ │ [batch, 1, T×400]│ └──────────────────┘ 上采样的总倍率 = 10 × 10 × 2 × 2 = 400。这个数字等于 hop_length（帧移），含义是：输入的每一帧对应输出的 400 个采样点。对于 40kHz 采样率来说，一帧就是 10ms。 ...

rvc结构简介

RVC结构简介推理流程输入音频 (16kHz) │ ▼ ┌─────────────────┐ │ HuBERT │ 提取内容特征，输出256维(v1)或768维(v2) └────────┬────────┘ │ ▼ ▼ ┌─────────────────┐ │ F0 Extractor │ 提取基频，支持RMVPE/CREPE/Harvest/PM └────────┬────────┘ │ ▼ ▼ ┌─────────────────┐ │ Index Search │ 可选，用faiss做音色检索，混合特征 └────────┬────────┘ │ ▼ ▼ ┌─────────────────┐ │ Synthesizer │ VITS架构，生成目标音色波形 └────────┬────────┘ │ ▼ 输出音频 (32k/40k/48k) Synthesizer结构主类是SynthesizerTrnMs256NSFsid（v1）和SynthesizerTrnMs768NSFsid（v2），区别只在输入维度。 SynthesizerTrnMs*NSFsid ├── enc_p (TextEncoder) │ ├── emb_phone: Linear(256/768 → hidden) │ ├── emb_pitch: Embedding(256, hidden) # pitch量化到256级 │ ├── encoder: Transformer Encoder │ └── proj: Conv1d → (mean, log_var) │ ├── flow (ResidualCouplingBlock) │ └── 4层 ResidualCouplingLayer + Flip │ 每层内部是WaveNet结构 │ ├── dec (GeneratorNSF) │ ├── m_source (SourceModuleHnNSF) │ │ └── SineGen: 根据F0生成正弦激励信号 │ ├── conv_pre │ ├── ups: 多级上采样 (ConvTranspose1d) │ ├── resblocks: HiFiGAN残差块 │ └── conv_post │ └── emb_g: Embedding(spk_num, gin_channels) # speaker embedding 推理时的数据流： ...

GTCRN 轻量化的流式方案的演进思路

GTCRN 演进路径记录 v1 → v2 → v3 → v3.1/v3.2 → v4 → v4.1 的改动和原因。版本概览版本改动点参数量质量指标内存实时 v1 baseline 基线 139K DNSMOS 3.15 — × v2 transient 换损失函数 139K DNSMOS 3.15 — × v3 causal 因果化改造 145K DNSMOS 2.98 — √ v3.1 precision KD + QAT 压缩 41.6K PESQ 2.041 228 KB (INT8) √ v3.2 transient 宽度1.5× + 瞬态损失 ~83K PESQ ~2.15 ~355 KB (INT8) √ v4 network opt 架构精简 (4层GTConv) ~87K PESQ 2.147 683 KB (FP32) √ v4.1 int8 INT8 混合精度 C 推理 ~87K PESQ 2.037 464 KB √ 网络结构 (v1/v2 共用) 输入 spec (B, 513, T, 2) │ ├─ 可学习频带权重 (513,) │ ▼ ERB_48k.bm(): 513 → 219 │ 低频171保留，高频342→48 ERB band │ ▼ SFE_Lite: DWConv(1×5) → PWConv → BN │ ▼ ┌─ Encoder ─────────────────────────────┐ │ DSConv: 219→110 (stride=2) ← skip1 │ │ DSConv: 110→55 (stride=2) ← skip2 │ │ GTConvLite×6 (d=1,2,4,8,4,2) ← skip3-8 │ SubbandAttention │ └───────────────────────────────────────┘ │ ▼ DPGRNN_Enhanced × 2 │ intra: 双向GRU (频率轴) │ inter: 单向GRU (时间轴) │ ▼ ┌─ Decoder ─────────────────────────────┐ │ GTConvLite×6 + skip (逆序) │ │ DSDeconv: 55→110 + skip2 │ │ DSDeconv: 110→219 + skip1 │ └───────────────────────────────────────┘ │ ▼ ERB_48k.bs(): 219 → 513 │ ▼ CRM掩码 → 输出 GTConvLite 内部 x → DWConv(3×3, dilation) → PWConv → BN → PReLU → TRALite (时序注意力) → SEBlock (通道注意力) → + x (残差) DPGRNN 内部 x (B,C,T,F) → reshape (B*T, F, C) → Linear → 双向GRU (频率轴) → Linear → reshape + LayerNorm → reshape (B*F, T, C) → Linear → 单向GRU (时间轴) → Linear → reshape + LayerNorm → 输出 v1 → v2: 换损失函数问题 v1 用的是标准 SpecRIMAGLoss，对所有帧一视同仁。但实际听感上，键盘敲击、鼠标点击这类突发噪音处理得不好。DNSMOS 是整段平均，掩盖了这个问题。 ...

GTCRN轻量化方案

GTCRN-Light v3 技术说明书 0. 扼要（Executive Summary） GTCRN-Light v3（以下简称 v3）是在原生 GTRCN 基础上进行的等价轻量化实现：完整保留“ERB→SFE→Encoder（频轴两次 /2）→DPGRNN（intra→inter）→Decoder（镜像+跳连）→ERB⁻¹→复域 CRM”的主干数据流与功能语义，通过算子级设计收缩参数与 MACs，同时增强形状稳定性与工程可部署性。核心收益：结构等价：无语义重构、无路径删减；对齐原版的时/频建模顺序与接口。计算瘦身：卷积 DW-Separable 化、RNN 低秩瓶颈、门控去 RNN 化、ERB 固定权重化。工程稳态：严格的频轴上/下采样闭环（33→65→129），对齐安全，易于导出与部署。 1. 设计目标与边界（Design Goals & Constraints）不改变 GTRCN 的任务假设与编解码语义：复域 CRM、ERB 子带、频轴二次下采样、DPGRNN（先 intra 后 inter）、镜像解码与跳连。降低参数与 MACs，但不牺牲 DPGRNN 的双路径长程/跨频建模。形状稳定：频轴整数对齐，杜绝奇偶差累积；跳连前天然同维。部署友好：避免难以量化/导出的算子（极小化状态化 RNN、减少不必要的线性层）。 2. 与原生 GTRCN 保持一致的“架构不变量” 数据流： (B,F,T,2) → [|S|, Re, Im] → ERB(bm) → SFE → Encoder(freq /2 ×2) → DPGRNN(intra→inter) → Decoder → ERB(bs) → CRM × S(复域) 采样策略：ERB 后 F=129；编码两次在频轴 /2：129→65→33；解码反向：33→65→129（确保 33→65→129 的闭环）。时/频耦合：瓶颈处严格遵循 intra-(per time, across F) → inter-(per freq, across T) 的双路径顺序。输出语义：预测 CRM（实/虚）并在复域与输入逐点相乘。 3. 轻量化的四大支柱（Pillars of Lightweighting） 3.1 卷积主干 DW-Separable 化 + 轻量 GT-ConvLite 动机：将 2D 卷积的通道耦合与空间（T/F）卷积解耦，保留感受野与局部子带建模能力的同时，将参数与 MACs 近似按 1/通道数降低。 ...