Skip to content

中英文紧邻且响度差异较大时,安静部分容易被整体漏识别 #66

Description

@gpww

问题描述

当一段语音中中文紧接英文(中间几乎没有停顿间隔),且英文部分响度明显低于中文时,ASR 模型会直接漏掉英文部分,输出结果中完全没有英文内容。

更奇怪的是,相同的音频内容,MP3 格式比 WAV 格式更容易触发漏识别。

复现

测试文件

两个文件人耳听起来内容完全一致,响度差异也是人耳不易察觉的程度。

现象

  1. 中文紧贴英文(几乎无间隔)+ 英文比中文安静 -> 英文被整体漏掉
  2. 如果把中文和英文剪成两段分别识别,则两部分都能正确识别
  3. MP3 编码会进一步放大这个问题(压缩引入的高频损失可能降低了安静部分的能量)

可能的原因分析

  • ASR 模型使用 CMVN(Cepstral Mean Variance Normalization),归一化参数基于整段音频的统计量计算。当同一片段内响度差异大时,安静部分的归一化后特征可能过弱
  • AED(Attention Encoder-Decoder)的注意力机制偏向能量更高的帧,导致安静部分被注意力忽略
  • MP3 有损压缩进一步削弱了安静部分的高频成分,使其更难被模型捕捉

期望

希望模型能在这种场景下更鲁棒地识别安静部分,或者提供相关参数允许用户对输入做预处理(如逐片段 RMS 归一化)。

环境信息

  • 模型:FireRedASR2-S
  • VAD:已排除 VAD 切分问题(FSMN-VAD 和 FireRedVAD 都能正确切出包含该段语音的片段)
  • 问题出现在 ASR 推理阶段

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions