GTCRN 演进路径:v4 → v5 → 落地

GTCRN 演进路径:v4 → v5 → 落地 记录噪声抑制模型从架构精简开始,经历质量优化、极限压缩,到最终在嵌入式 C 端落地的全过程。 前言 v4.1 把 464 KB 的推理管线交到了 C 端手里。这个数字已经够小——能在大多数嵌入式芯片上跑起来,RTF 不到 0.04。但我们还想要更多。 不是「把模型再做小一点」这么简单。键盘敲击声和风扇底噪的压制效果已经不错了,如果裁剪的过程中把这两个能力丢掉,小就没有意义。换句话说,压缩是手段,质量是底线。每次下手之前,先问一句:压完之后,瞬态噪声还能不能盖住?听感会不会变差? v5 这条线走了四个月。它从 v4.1 的 464 KB 跑到了最终的 412 KB,中间踩了不少坑。这份文档把踩过的坑、走通的路、放弃的岔路都记下来。 时间线:2026-03(v4.1 交付) → 2026-06(v5.6 C 端落地) 版本总览 版本 改了什么 参数 关键指标 内存 结论 v4.1 INT8 混合精度 C 推理 87K PESQ 2.037 464 KB 基线,已交付 v5.1 架构定型 (4层, CH=20) 55.6K PESQ 2.462 ~466 KB 可靠起点 v5.2 多模块 all-in 73.9K PESQ ~1.20 ~538 KB 失败,复盘后放弃 v5.3 网络优化,单模块消融 61.6K [5,10) PESQ 1.92 ~466 KB n4 被接受 v5.4 宽度裁剪 CH→16 41.2K [5,10) PESQ 1.46 ~400 KB 失败,暂停 v5.5 极限压缩 (INT4/INT8) — PESQ drop < 0.05 ~314-349 KB (投) 过门,主线收敛 v5.6 C 端落地:GTC6/INT4/hidden INT8 60.3K DNSMOS SIG +0.86 412 KB 交付 网络结构 (v5.3-n4 最终) 输入 spec (B, 513, T, 2) │ ▼ ERB_48k.bm(): 513 → 219 │ ▼ in_conv: Conv2d(2→3) │ ▼ ┌─ CausalEncoder ───────────────────────────┐ │ DSConv: 219→110 ← skip1 │ │ DSConv: 110→55 ← skip2 │ │ CausalGTConv×4 (d=1,2,4,2) ← skip3-6│ │ SubbandAttention │ └───────────────────────────────────────────┘ │ ▼ CausalDPGRNN × 2 │ intra: 双向GRU (频率轴) │ inter: 单向GRU (时间轴) │ ▼ ┌─ CausalDecoder ───────────────────────────┐ │ SkipResidualFusion + CausalGTConv×4 │ │ Fuse + DSDeconv: 55→110 │ │ SkipResidualFusion + DSDeconv: 110→219 │ └───────────────────────────────────────────┘ │ ▼ out_conv → ERB_48k.bs() → CRM → 输出 相比 v4,decoder 的 skip 连接从简单的 x + skip 换成了带门控和残差分支的融合模块。 ...

June 18, 2026 · 7 min · Leventure

浮点数的 IEEE 754 标准与内存表达

前言 项目上遇到了double类型数据精度问题,嵌入式开发和算法争论了一会有关double和float的精度问题,究竟是强转造成的精度损失更多,还是在计算的过程中精度损失更多?这个问题很显然是使用float在计算过程中造成的精度损失更多,但是面对这样的问题,不能只靠猜测,而是需要进行一系列量化的测算。 IEEE754标注中的浮点数表达公式 $$ value = (-1)^{sign} \times 2^{exponent} \times (1 + mantissa) $$ 其中,sign为符号位,exponent为指数位,mantissa为尾数位。 float float类型通常占用4个字节(32位)的内存。具体分配如下: 符号位(Sign bit):1位 指数位(Exponent):8位 尾数位(Fraction/Mantissa):23位 内存布局示例 假设我们有一个单精度浮点数3.14,它的二进制表示如下: 符号位:0 指数位:10000000 尾数位:10010001111010111000011 0 10000000 10010001111010111000011 double 符号位(Sign bit):1位 指数位(Exponent):11位 尾数位(Fraction/Mantissa):52位 内存布局 假设我们有一个双精度浮点数3.14,它的二进制表示如下: 符号位:0 指数位:10000000000 尾数位:1001000111101011100001010001111010111000010100011110101110000101 float与doule之间的转换 float转double 这种转换称为扩展转换(promotion),因为double有更多的位数来表示数字。 1.内存模型变化: float使用32位存储,而double使用64位存储。 在将float转换为double时,计算机会将float的值复制到double的尾数部分,并扩展指数部分。 由于double的尾数部分更长,可以精确表示的有效数字更多,所以这种转换通常不会损失精度。 2.转换过程 符号位保持不变。 指数位从float的8位扩展到double的11位,计算机会根据需要调整指数的偏移量。 尾数位从23位扩展到52位,不足的部分用0填充。 double 转 float 这种转换称为缩减转换(narrowing),因为float有较少的位数来表示数字。 1. 内存模型变化: double使用64位存储,而float使用32位存储。 在将double转换为float时,计算机会将double的值截断或舍入以适应float的尾数部分和指数部分。 由于float的尾数部分较短,这种转换可能会损失精度。 2.转换过程 符号位保持不变。 指数位从double的11位缩减到float的8位,计算机会调整指数的偏移量,并可能会进行舍入。 尾数位从52位缩减到23位,超出的部分会被截断或舍入,这可能导致精度损失。 这里需要注意的是,在C++中,并不是做了简单的截断,而是做了舍入操作,这也是为什么我们在实际操作中,可以观测到逢7进1 例子: float转换double 假设我们有一个float值3.14: float: 0 10000000 10010001111010111000011 ...

June 18, 2026 · 3 min · Leventure