问题描述
当一段语音中中文紧接英文(中间几乎没有停顿间隔),且英文部分响度明显低于中文时,ASR 模型会直接漏掉英文部分,输出结果中完全没有英文内容。
更奇怪的是,相同的音频内容,MP3 格式比 WAV 格式更容易触发漏识别。
复现
测试文件
两个文件人耳听起来内容完全一致,响度差异也是人耳不易察觉的程度。
现象
- 中文紧贴英文(几乎无间隔)+ 英文比中文安静 -> 英文被整体漏掉
- 如果把中文和英文剪成两段分别识别,则两部分都能正确识别
- MP3 编码会进一步放大这个问题(压缩引入的高频损失可能降低了安静部分的能量)
可能的原因分析
- ASR 模型使用 CMVN(Cepstral Mean Variance Normalization),归一化参数基于整段音频的统计量计算。当同一片段内响度差异大时,安静部分的归一化后特征可能过弱
- AED(Attention Encoder-Decoder)的注意力机制偏向能量更高的帧,导致安静部分被注意力忽略
- MP3 有损压缩进一步削弱了安静部分的高频成分,使其更难被模型捕捉
期望
希望模型能在这种场景下更鲁棒地识别安静部分,或者提供相关参数允许用户对输入做预处理(如逐片段 RMS 归一化)。
环境信息
- 模型:FireRedASR2-S
- VAD:已排除 VAD 切分问题(FSMN-VAD 和 FireRedVAD 都能正确切出包含该段语音的片段)
- 问题出现在 ASR 推理阶段
问题描述
当一段语音中中文紧接英文(中间几乎没有停顿间隔),且英文部分响度明显低于中文时,ASR 模型会直接漏掉英文部分,输出结果中完全没有英文内容。
更奇怪的是,相同的音频内容,MP3 格式比 WAV 格式更容易触发漏识别。
复现
测试文件
漏句短原版.wav
漏句短.mp3
两个文件人耳听起来内容完全一致,响度差异也是人耳不易察觉的程度。
现象
可能的原因分析
期望
希望模型能在这种场景下更鲁棒地识别安静部分,或者提供相关参数允许用户对输入做预处理(如逐片段 RMS 归一化)。
环境信息