噪声抑制 | LeventureTecTips

GTCRN 演进路径：v4 → v5 → 落地记录噪声抑制模型从架构精简开始，经历质量优化、极限压缩，到最终在嵌入式 C 端落地的全过程。前言 v4.1 把 464 KB 的推理管线交到了 C 端手里。这个数字已经够小——能在大多数嵌入式芯片上跑起来，RTF 不到 0.04。但我们还想要更多。不是「把模型再做小一点」这么简单。键盘敲击声和风扇底噪的压制效果已经不错了，如果裁剪的过程中把这两个能力丢掉，小就没有意义。换句话说，压缩是手段，质量是底线。每次下手之前，先问一句：压完之后，瞬态噪声还能不能盖住？听感会不会变差？ v5 这条线走了四个月。它从 v4.1 的 464 KB 跑到了最终的 412 KB，中间踩了不少坑。这份文档把踩过的坑、走通的路、放弃的岔路都记下来。时间线：2026-03（v4.1 交付） → 2026-06（v5.6 C 端落地）版本总览版本改了什么参数关键指标内存结论 v4.1 INT8 混合精度 C 推理 87K PESQ 2.037 464 KB 基线，已交付 v5.1 架构定型 (4层, CH=20) 55.6K PESQ 2.462 ~466 KB 可靠起点 v5.2 多模块 all-in 73.9K PESQ ~1.20 ~538 KB 失败，复盘后放弃 v5.3 网络优化，单模块消融 61.6K [5,10) PESQ 1.92 ~466 KB n4 被接受 v5.4 宽度裁剪 CH→16 41.2K [5,10) PESQ 1.46 ~400 KB 失败，暂停 v5.5 极限压缩 (INT4/INT8) — PESQ drop < 0.05 ~314-349 KB (投) 过门，主线收敛 v5.6 C 端落地：GTC6/INT4/hidden INT8 60.3K DNSMOS SIG +0.86 412 KB 交付网络结构 (v5.3-n4 最终) 输入 spec (B, 513, T, 2) │ ▼ ERB_48k.bm(): 513 → 219 │ ▼ in_conv: Conv2d(2→3) │ ▼ ┌─ CausalEncoder ───────────────────────────┐ │ DSConv: 219→110 ← skip1 │ │ DSConv: 110→55 ← skip2 │ │ CausalGTConv×4 (d=1,2,4,2) ← skip3-6│ │ SubbandAttention │ └───────────────────────────────────────────┘ │ ▼ CausalDPGRNN × 2 │ intra: 双向GRU (频率轴) │ inter: 单向GRU (时间轴) │ ▼ ┌─ CausalDecoder ───────────────────────────┐ │ SkipResidualFusion + CausalGTConv×4 │ │ Fuse + DSDeconv: 55→110 │ │ SkipResidualFusion + DSDeconv: 110→219 │ └───────────────────────────────────────────┘ │ ▼ out_conv → ERB_48k.bs() → CRM → 输出相比 v4，decoder 的 skip 连接从简单的 x + skip 换成了带门控和残差分支的融合模块。 ...