中英文紧邻且响度差异较大时，安静部分容易被整体漏识别

## 问题描述

当一段语音中中文紧接英文（中间几乎没有停顿间隔），且英文部分响度明显低于中文时，ASR 模型会直接漏掉英文部分，输出结果中完全没有英文内容。

更奇怪的是，相同的音频内容，MP3 格式比 WAV 格式更容易触发漏识别。

## 复现

### 测试文件

- [漏句短原版.wav](https://github.com/user-attachments/files/29054761/default.wav)

- [漏句短.mp3](https://github.com/user-attachments/files/29054773/default.mp3)

两个文件人耳听起来内容完全一致，响度差异也是人耳不易察觉的程度。

### 现象

1. 中文紧贴英文（几乎无间隔）+ 英文比中文安静 -> 英文被整体漏掉
2. 如果把中文和英文剪成两段分别识别，则两部分都能正确识别
3. MP3 编码会进一步放大这个问题（压缩引入的高频损失可能降低了安静部分的能量）

## 可能的原因分析

- ASR 模型使用 CMVN（Cepstral Mean Variance Normalization），归一化参数基于整段音频的统计量计算。当同一片段内响度差异大时，安静部分的归一化后特征可能过弱
- AED（Attention Encoder-Decoder）的注意力机制偏向能量更高的帧，导致安静部分被注意力忽略
- MP3 有损压缩进一步削弱了安静部分的高频成分，使其更难被模型捕捉

## 期望

希望模型能在这种场景下更鲁棒地识别安静部分，或者提供相关参数允许用户对输入做预处理（如逐片段 RMS 归一化）。

## 环境信息

- 模型：FireRedASR2-S
- VAD：已排除 VAD 切分问题（FSMN-VAD 和 FireRedVAD 都能正确切出包含该段语音的片段）
- 问题出现在 ASR 推理阶段

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

中英文紧邻且响度差异较大时，安静部分容易被整体漏识别 #66

问题描述

复现

测试文件

现象

可能的原因分析

期望

环境信息

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Uh oh!

中英文紧邻且响度差异较大时，安静部分容易被整体漏识别 #66

Description

问题描述

复现

测试文件

现象

可能的原因分析

期望

环境信息

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions