只适应滤波算法
第二章 语音增强的基础知识
2.1 语音和人耳的感知特性
语音信号是一种非平稳的随机信号。语音的生成过程与发音器官的运动过程密切相关,考虑到人类发声器官在发声过程中的变化速度具有一定的限度而且远小于语音信号的变化速度,因此可以假定语音信号是短时平稳的,即在(10ms~30ms)的时间段内其某些物理特性和频谱特性可以近似的看作是不变的,从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时频谱的平稳特性。
任何语言的语音都有元音和辅音两种音素。根据发声的机理不同,辅音又分为清辅音和浊辅音。从时域波形上可以看出浊音(包括元音)具有明显的准周期性和较强的振幅,它们的周期所对应的频率就是基音频率;清辅音的波形类似于白噪声并具有较弱的振幅。在语音增强中可以利用浊音具有的明显的准周期性来区别和抑制非语音噪声,而清辅音的特性则使其和宽带噪声区分困难。
人耳对于声波频率高低的感觉与实际频率的高低不成线性关系,而近似为对数关系;对声强的感觉很灵敏且有很大的动态范围,对于频率的分辨能力受声强的影响,过强或者太弱的声音都会导致对频率的分辨力降低。人耳对语音信号的幅度谱较为敏感,对相位不敏感。这一点对语音信号的恢复很有帮助。
人耳除了可以感受声音的强度、音调、音色和空间方位外,还可以在两人以上的讲话环境中分辨出所需要的声音,这种分辨能力是人体内部语音理解机制具有的一种感知能力。语音增强的最终效果度量是人耳的主观感觉,所以在语音增强中可以利用人耳感知特性来减少运算代价。