第1期 隋璐瑛等:一种基于非负矩阵分解的语音增强算法
21 (11)
V=Vs+Vn≈[Ws Wn]
HsH=WH
式中,V是带噪语音的频谱信息,Vs和Vn分别是纯净语音和噪声的频谱信息。由于NMF算法具有不明确置换性,即W中的列信息变化时只要H中的行信息也做相应的变化即可。因此,我们需要通过采取措施来确定成分信息。一种方法是通过安静环境中录制的资源信号提前训练字典矩阵[10],另一种方法是使用参考文献[11]中提出的自动分组规则。本文中,通过训练阶段对噪声字典进行学习,作为增强阶段的已知信息,从而有效避免了增强阶段矩阵分解的不明确性。因此,本文的增强方法不依赖于说话者。在增强阶段,通过对NMF算法进行改进,使得增强阶段仅对Ws,Hs和Hn进行迭代更新计算,其迭代公式如下所示:
WsT[B-2]õV)WnT[B-2]õV)
Hs←Hsõ, Hn←HnõWs(WH)Wn(WH)
ss[B-2]õV)HsT
Ws←Wsõ(WsHs)Hs
阵。然后,使用式(12)、式(13)对语音字典和编码矩阵进行推导,估算得到的增强语音为:ds=WsHsV 最后,结合带噪语音的相位信息,对式(14)进行FFT反变换,得到时域上的增强语音信号。
(12)(13)
本文提出的增强方案中,首先使用式(7)、式(8)对噪声进行分解,丢弃编码矩阵,保留训练得到的字典矩
(14)
3 算法性能评估
实验中,取干净语音为8kHz采样、16bit量化的标准女生汉语语音信号。噪声取自Noisex-92噪声库中的Babble噪声,M109坦克噪声和Machinegun枪噪声。通过MATLAB将干净语音信号与噪声信号进行混合,分别生成信噪比为-5dB、0dB、5dB和10dB的带噪语音信号。
将本文提出的基于KL-NMF和LS-NMF的语音增强算法与多带谱减法MSS(Multi-bandSpectralSubtraction),广义子空间增强算法GSA(GeneralizedSubspaceApproach)进行比较。分别采用对数频谱距离LSD(LogSpectralDistance)和客观质量评估方法PESQ(PerceptualEvaluationofSpeechQuality)对语音增强算法的性能进行比较。这两种指标与语音的主观测量有较高的相关度。LSD是反映语音频谱失真的度量,其计算方法为:
1
d22DLS=10lg(15)∑∑Ml∈MLk∈Ld(k,l)分别为s(n)和sd其中,M表示语音信号的帧数,S(k,l)和S(n)短时傅立叶变换后的第k帧的第l个
频谱分量,LSD的值与语音质量成反比。PESQ是2001年国际电信联盟(ITU-T)推出的P.862标准,用来评价语音的主观试听效果,能够很好地反映语音信号的感知质量,PESQ得分越高表示语音质量越好。
表1、表2分别给出了四种算法在不同信噪比条件下增强语音的LSD值和PESQ值的改善情况,由表可以看出,相比于多带谱减法和广义子空间法,本文提出的基于KL-NMF和LS-NMF的增强算法具有更好
表1 LSD值改善情况
输入Machinegun噪声
信噪比/dBMSSGSAKL-NMFLS-NMF
-51.681.481.231.1801.541.381.201.1451.421.211.171.11
Babble噪声
MSS
2.642.371.90GSA2.572.372.00KL-NMF2.612.181.67LS-NMF2.572.061.72MSS2.311.971.65
M109噪声GSAKL-NMF
2.211.921.811.551.511.34
LS-NMF
1.901.491.30
表2 PESQ值改善情况
输入Machinegun噪声信噪比/dBMSSGSAKL-NMFLS-NMF
-50510
1.802.082.452.79
1.201.592.022.57
2.913.103.233.41
3.033.053.233.45
MSS1.682.072.442.73
Babble噪声GSAKL-NMF1.752.062.382.68
1.702.092.452.85
LS-NMF1.752.152.472.86
MSS
M109噪声GSAKL-NMF
2.362.873.053.43
LS-NMF2.382.963.123.58
2.242.292.662.592.942.873.173.16
的噪声抑制性能,且LS-NMF算法的增强效果总体上要优于KL-NMF。LS-NMF和KL-NMF增强效果的差异主要在于两种算法在噪声分布假设上是不同的,KL-NMF假设噪声服从泊松分布,这与实际的背景噪声特性不相符,而LS-NMF假设噪声服从高斯分布,更加符合背景噪声的特性。
主观测试也验证了上述结果。图2、图3给出了纯净语音以及信噪比为0dB的Machinegun枪噪声环境下不同算法得到的增强语音时域图和语谱图。由图示也可以看出,本文算法的处理效果要明显优于传统
谱减法以及多带谱减法。
4 结束语
本文提出了一种基于NMF算法的语音增强方案,该方案通过训练阶段得到的先验知识对带噪语音进行增强,在非平稳噪声环境下能够有效地抑制背景噪声,取得了较好的语音增强效果。仿真结果表明,该算法要明显优于传统谱减法和多带谱减法,在较低信噪比条件下仍具有较好的性能。
(下转第30页)