CN102968986B

CN102968986B - 基于长时特征和短时特征的重叠语音与单人语音区分方法

Info

Publication number: CN102968986B
Application number: CN201210442113.8A
Authority: CN
Inventors: 李艳雄; 陈祝允; 贺前华; 李广隆; 杜佳媛; 吴伟; 王梓里
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2012-11-07
Filing date: 2012-11-07
Publication date: 2015-01-28
Anticipated expiration: 2032-11-07
Also published as: CN102968986A

Abstract

本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法，包括如下步骤：读入语音；语音预处理，包括预加重、分帧、加窗；提取短时特征参数，从每帧语音中提取各种短时特征参数；提取长时特征参数，计算短时特征参数的统计特征；训练高斯混合模型：采用期望最大化算法训练四个高斯混合模型；模型融合判决：从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入，将这两种模型的输出概率进行加权得到总的概率输出值，根据该概率输出值的大小将测试语音判为重叠语音或单人语音，实现两者的区分。与采用短时特征的方法相比，本方法取得了更好的区分效果，区分准确率平均提高了5.9%。

Description

基于长时特征和短时特征的重叠语音与单人语音区分方法

技术领域

本发明涉及语音信号处理和模式识别技术，尤其涉及一种基于长时特征和短时特征的重叠语音与单人语音区分方法。

背景技术

重叠语音(Overlapped Speech,OS)是指多人同时说话时所产生的语音。在多人会话语音中重叠语音频繁出现，例如在ICSI会议语音数据库中，6～14％的语音存在重叠。由于重叠语音与单人语音(一个发音人所产生的语音)的声学特性不同，因此重叠语音的出现将导致目前处理单人语音的语音识别***、说话人分割聚类***的性能急剧下降。将重叠语音与单人语音区分开，对于提高多说话人语音识别的性能、说话人分割聚类性能、语音处理***的实用性都具有非常重要的意义。

目前，文献报道的重叠语音与单人语音的区分方法所采用的特征都是短时特征(Short-term Features,SF)，即从短时语音帧(20～40毫秒)中提取的特征。这些短时特征也被应用于语音识别、说话人识别中。例如，梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)、短时能量(Short Time Energy,STE)、过零率(Zero-Crossing Rate,ZCR)等。尽管短时帧层的特征参数能够较好地刻画重叠语音与单人语音的某些差异，但它们却不能刻画上述两种语音在统计意义的差异，例如特征的均值差异、最大值差异、最小值差异、中值差异、均方差的差异等。也就是说，短时特征参数不能有效表征重叠语音与单人语音的统计特性差异。

发明内容

本发明的目的在于解决现有技术所存在的不足，提供一种基于长时特征和短时特征的重叠语音与单人语音区分方法：

一种基于长时特征和短时特征的重叠语音与单人语音区分方法，包括如下步骤：

S1读入语音：读入记录有重叠语音或单人语音的语音文件；

S2语音预处理：对读入的语音文件进行预加重、分帧、加窗；

S3提取短时特征：从经过预处理的语音帧中提取短时特征，所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率，将提取的短时特征拼接得到短时特征矩阵；

S4提取长时特征：计算短时特征矩阵的统计特征，所述统计特征包括均值、最大值、最小值、中值、均方差，得到长时特征矩阵；

S5训练高斯混合模型：采用EM算法训练四个高斯混合模型，包括单人语音的短时特征模型、单人语音的长时特征模型、重叠语音的短时特征模型、重叠语音的长时特征模型；

S6模型融合判决：将短时特征矩阵和长时特征矩阵分别输入短时特征模型和长时特征模型，所述短时特征模型包括单人语音的短时特征模型和重叠语音的短时特征模型，长时特征模型包括单人语音的长时特征模型和重叠语音的长时特征模型，并将这两种模型的输出概率进行加权得到总的概率输出值，根据总的概率输出值将测试语音判为重叠语音或单人语音，实现重叠语音与单人语音的区分。

所述S2中对读入的语音文件进行预加重、分帧、加窗，具体步骤为：

S2.1预加重，具体为：设置数字滤波器的Z传递函数为H(z)＝1-αz^-1，其中α取值为：0.9≤α≤1，读入的语音通过数字滤波器后实现预加重；

S2.2分帧、加窗，具体步骤为：

S2.2.1设置语音帧的帧长为40毫秒、帧移为20毫秒，帧长和帧移所对应的采样点个数分别为N＝0.04×f_s和S＝0.02×f_s，其中f_s为语音采样频率，将输入语音分割成T个语音帧x'_t(n)，且每个语音帧包含N个采样点；

S2.2.2计算汉明窗函数ω(n)：

S2.2.3对每一个语音帧x'_t(n)加汉明窗，得到x_t(n)：

ω (n) \times x_{t}^{'} (n) &DoubleRightArrow; {x_{t} (n) | n = 0,1, . . ., N - 1; t = 1,2, . . ., T} .

所述S3从经过预处理的语音帧中提取短时特征，所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率，将提取的短时特征拼接得到短时特征矩阵，具体包括如下步骤：

S3.1提取梅尔频率倒谱系数及其一阶差分，具体为：

S3.1.1对第t帧语音信号x_t(n)做离散傅立叶变换，得到线性频谱X_t(k)：

X_{t} (k) = Σ_{n = 0}^{N - 1} x_{t} (n) e^{- j 2 πnk / N}, (0 \leq n, k \leq N - 1)

S3.1.2将上述线性频谱X_t(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱S_t(m)，

S3.1.3将上述对数频谱S_t(m)经过离散余弦变换变换到倒谱域，得到第t帧梅尔频率倒谱系数C_t(p)：

C_{t} (p) = Σ_{m = 0}^{M - 1} S_{t} (m) \cos (\frac{(m + 0.5) nπ}{M}), (0 \leq p < M)

S3.1.4计算第t帧梅尔频率倒谱系数的一阶差分C′_t(p)：

C_{t}^{'} (p) = \frac{1}{\sqrt{Σ_{q = - Q}^{Q} q^{2}}} Σ_{q = - Q}^{Q} q \times C_{t} (p + q), (0 \leq p < M)

其中，Q为常数，Q优选值为3；

S3.1.5对每帧语音重复步骤S3.1.1～S3.1.4，得到所有T帧语音的梅尔频率倒谱系数及其一阶差分，将它们按帧的顺序组合成一个梅尔频率倒谱系数矩阵与一阶差分矩阵，再将这两个矩阵合并构成特征矩阵；

S3.2提取短时能量：

S3.2.1计算第t帧短时能量STE_t：

{STE}_{t} = Σ_{n = 0}^{N - 1} {(x_{t} (n))}^{2}, 1 \leq t \leq T

S3.2.2将T帧短时能量STE_t拼接成大小为T×1的短时能量特征矩阵STE：

STE＝[STE₁,STE₂,...,STE_T]^TRS，

上式中，TRS表示矩阵的转置

S3.3提取过零率，具体为：

S3.3.1计算第t帧过零率ZCR_t：

{ZCR}_{t} = \frac{1}{2} Σ_{n = 0}^{N - 2} | sgn (x_{t} (n + 1)) - sgn (x_{t} (n)) |, 1 \leq t \leq T

式中sgn(·)为符号函数；

S3.3.2将T帧过零率ZCR_t拼接成大小为T×1的过零率特征矩阵ZCR：

ZCR＝[ZCR₁,ZCR₂,...,ZCR_T]^TRS；

S3.4将MFCCs、ΔMFCCs、STE和ZCR拼接成短时特征矩阵SF：

SF＝[MFCCs,△MFCCS,STE,ZCR]_T×D

式中，D表示短时特征矩阵的维数。

所述S5采用EM算法训练四个高斯混合模型，具体步骤为：

S5.1设一个G阶混合分量的D维高斯混合模型表示为：

P (F | θ) = Σ_{i = 1}^{G} w_{i} \times b_{i} (F)

式中：w_i表示混合权重系数，b_i(F)是D维高斯概率分布，表示为：

b_{i} (F) = \frac{1}{\sqrt{{(2 π)}^{D} | Σ_{i} |}} \exp (- \frac{1}{2} {(F - u_{i})}^{T} Σ_{i}^{- 1} (F - u_{i}))

式中：u_i表示均值，∑_i表示协方差矩阵，一个高斯模型表示为：θ＝{w_i,u_i,Σ_i}，大小为T×D的特征矩阵F＝[F₁,F₂,...,F_T]^TRS输入高斯混合模型θ，得到的概率值为:

P (F | θ) = Π_{t = 1}^{T} P (F_{t} | θ);

S5.2求期望：计算函数Q(θ,θ^*)：

Q(θ,θ^*)＝E{lnP[(F,i)|θ]}

整理得：

Q (θ, θ^{*}) = Σ_{i = 1}^{G} Σ_{t = 1}^{T} \ln (w_{i}) P (i | F_{t}, θ^{*}) + Σ_{i = 1}^{G} Σ_{t = 1}^{T} \ln (P_{i} (F_{t} | θ_{i})) P (i | F_{t}, θ^{*}),

式中ln(·)表示自然对数函数，根据贝叶斯公式，训练特征矩阵在第i个高斯的概率为：

P (i | F_{t}, θ) = \frac{w_{i} P_{i} (F_{t})}{Σ_{j = 1}^{G} w_{j} P_{j} (F_{t})}

S5.3最大化：根据Q(θ,θ^*)函数估计θ^*＝{w_i,u_i,Σ_i}：

w_{i} = \frac{1}{T} Σ_{t = 1}^{T} P (i | F_{t}, θ^{*}),

u_{i} = \frac{Σ_{t = 1}^{T} P (i | F_{t}, θ^{*}) F_{t}}{Σ_{t = 1}^{T} P (i | F_{t}, θ^{*})},

Σ_{i} = \frac{Σ_{t = 1}^{T} P (i | F_{t}, θ^{*}) (F_{t} - u_{i}) {(F_{t} - u_{i})}^{TRS}}{Σ_{t = 1}^{T} P (i | F_{t}, θ^{*})};

S5.4EM算法迭代高斯混合模型：当似然函数值达到最大时停止迭代，即当P(F|θ^*)值相对上次迭代时的P(F|θ)值增幅小于设定的阈值10^-4，则停止迭代，得到最终的模型参数：

混合权重系数：

w_{i}^{*} = \frac{1}{T} Σ_{t = 1}^{T} P (i | F_{t}, θ),

均值矢量：

u_{i}^{*} = \frac{Σ_{t = 1}^{T} P (i | F_{t}, θ) F_{t}}{Σ_{t = 1}^{T} P (i | F_{t}, θ)},

协方差矩阵：

Σ_{i}^{*} = \frac{Σ_{t = 1}^{T} P (i | F_{t}, θ) {(F_{t} - u_{i})}^{2}}{Σ_{t = 1}^{T} P (i | F_{t}, θ)};

S5.5从单人语音的训练样本中提取短时特征矩阵SF_S、从重叠语音的训练样本中提取短时特征矩阵SF_O；

从单人语音的训练样本中提取长时特征矩阵LF_S、从重叠语音的训练样本中提取长时特征矩阵LF_O；将SF_S、SF_O、LF_S和LF_O依次作为特征矩阵F，再重复S5.1-S5.4训练得到单人语音的短时特征模型θ_SS、单人语音的长时特征模型θ_SL、重叠语音的短时特征模型θ_OS、重叠语音的长时特征模型θ_OL。

所述S6模型融合判决的步骤包括：

S6.1将S3中提取的短时特征矩阵SF和S4中提取的长时特征矩阵LF按照S5训练得到θ_SS和θ_SL，并按下式进行模型融合，得到最终的输出概率值：

P₁＝(1-β)×ln(p(SF|θ_SS))+β×ln(p(LF|θ_SL))，

上式中，p(SF|θ_SS)表示特征矩阵SF输入模型θ_SS时所得到的输出概率，p(LF|θ_SL)表示特征矩阵LF输入模型θ_SL时所得到的输出概率，β为加权系数且取值为：0≤β≤1；

S6.2将上述SF和LF分别输入θ_OS和θ_OL，并按下式进行模型融合，得到最终的输出概率值：

P₂＝(1-β)×ln(p(SF|θ_OS))+β×ln(p(LF|θ_OL))；

S6.3如果P₁>P₂，则该测试样本被判为单人语音，否则被判为重叠语音。

本发明的有益效果是：结合长时特征和短时特征，并将长时特征模型和短时特征模型进行融合，利用长时特征和短时特征的互补性提高重叠语音与单人语音区分时的准确率。与目前仅采用短时特征的方法相比，区分准确率提高了5.9％。

附图说明

图1为本发明的工作流程图。

具体实施方式

下面结合具体的实施例与说明书附图进行详细描述。

如图1所示，一种基于长时特征和短时特征的重叠语音与单人语音区分方法，具体包括如下步骤：

步骤101，读入语音文件。语音文件记录有单人语音或重叠语音数据，可以是各种格式的音频文件，例如WAV、RAM、MP3、VOX等。

步骤102，对读入的语音进行预处理，包括预加重、分帧、加窗。

所述预处理具体包括以下步骤：

1)预加重：设置数字滤波器的Z传递函数为H(z)＝1-αz^-1，其中α为预加重系数且取值为0.95，读入的语音通过该数字滤波器后实现预加重处理；

2)分帧、加窗：

2.1)设置语音帧的帧长为40毫秒、帧移为20毫秒，帧长和帧移所对应的采样点个数分别为N＝0.04×f_s和S＝0.02×f_s，其中f_s为语音采样频率，将读入语音分割成T个语音帧x'_t(n)，且每帧包含N个采样点；所述N和S越大，同一个语音段被分帧之后得到的帧数T就越小，反之则越大。

2.2)计算汉明窗函数：

2.3)对每一个语音帧x′_t(n)加汉明窗，得到x_t(n)：

ω (n) \times x_{t}^{'} (n) &DoubleRightArrow; {x_{t} (n) | n = 0,1, . . ., N - 1; t = 1,2, . . ., T} .

步骤103，从经过预处理的语音帧中提取包括梅尔频率倒谱系数MFCCs、一阶差分ΔMFCCs、短时能量STE和过零率ZCR的短时特征，并将它们拼接成一个短时特征矩阵SF。具体步骤如下：

1)提取MFCCs及其一阶差分ΔMFCCs:

1.1)对第t帧语音x_t(n)做离散傅立叶变换(Discrete Fourier Transformation,DFT)得到线性频谱X_t(k)：

X_{t} (k) = Σ_{n = 0}^{N - 1} x_{t} (n) e^{- j 2 πnk / N}, (0 \leq n, k \leq N - 1)

1.2)将上述线性频谱X_t(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱S_t(m)，其中梅尔频率滤波器组为若干个带通滤波器H_m(k)，0≤m<M，M为滤波器的个数，每个滤波器具有三角形滤波特性，其中心频率为f(m)，当m值较小时相邻f(m)之间的间隔也较小，随着m的增加相邻f(m)的间隔逐渐变大，每个带通滤波器的传递函数为：

H_{m} (k) = \{\begin{matrix} 0 & (k < f (m - 1)) \\ \frac{k - f (m - 1)}{f (m) - f (m - 1)} & (f (m - 1) \leq k \leq f (m)) \\ \frac{f (m + 1) - k}{f (m + 1) - f (m)} & (f (m) < k \leq f (m + 1)) \\ 0 & (k > f (m + 1)) \end{matrix}, (0 \leq m < M)

其中，f(m)定义如下：

f (m) = (\frac{N}{f_{s}}) B^{- 1} (B (f_{l}) + m \frac{B (f_{h}) - B (f_{l})}{M + 1})

其中，f_l、f_h为滤波器的频率应用范围的最低频率和最高频率，B^-1为B的逆函数：

B^-1(b)＝700(e^b/1125-1)，

因此由线性谱X_t(k)到对数谱S_t(m)的函数式为：

S_{t} (m) = \ln (Σ_{k = 0}^{N - 1} {| X_{t} (k) |}^{2} H_{m} (k)), (0 \leq m < M)

1.3)将上述对数频谱S_t(m)经过离散余弦变换变换到倒谱域，得到第t帧MFCCs，C_t(p)：

C_{t} (p) = Σ_{m = 0}^{M - 1} S_{t} (m) \cos (\frac{(m + 0.5) nπ}{M}), (0 \leq p < M)

1.4)计算第t帧MFCCs的一阶差分ΔMFCCs，C′_t(p)：

C_{t}^{'} (p) = \frac{1}{\sqrt{Σ_{q = - Q}^{Q} q^{2}}} Σ_{q = - Q}^{Q} q \times C_{t} (p + q), (0 \leq p < M)

其中，Q为常数，实验时取值为3；

1.5)对每帧语音重复步骤1.1)～1.4)，得到所有T帧语音的MFCCs和ΔMFCCs，将它们按帧的顺序组合成一个MFCCs矩阵和ΔMFCCs矩阵，再将这两个矩阵合并构成特征矩阵[MFCCs,ΔMFCCs]。

2)提取短时能量，具体为：

2.1)计算第t帧短时能量STE_t：

{STE}_{t} = Σ_{n = 0}^{N - 1} {(x_{t} (n))}^{2}, 1 \leq t \leq T

2.2)将T帧短时能量STE_t拼接成大小为T×1的短时能量特征矩阵STE：

STE＝[STE₁,STE₂,...,STE_T]^TRS，

式中TRS表示矩阵的转置；

3)提取过零率，具体为：

3.1)计算第t帧过零率ZCR_t：

{ZCR}_{t} = \frac{1}{2} Σ_{n = 0}^{N - 2} | sgn (x_{t} (n + 1)) - sgn (x_{t} (n)) |, 1 \leq t \leq T

式中sgn(·)为符号函数；

3.2)将T帧过零率ZCR_t拼接成大小为T×1的过零率特征矩阵ZCR：

ZCR＝[ZCR₁,ZCR₂,...,ZCR_T]^TRS；

4)将MFCCs、ΔMFCCs、STE和ZCR拼接成短时特征矩阵SF：

SF＝[MFCCs,△MFCCS,STE,ZCR]_T×D

式中D表示短时特征矩阵的维数，与所采用的短时特征个数有关，文中采用3个短时特征。如果MFCC和Delta-MFCC各取12阶，STE和ZCR各取1阶，则D值为26。其实，MFCC和ΔMFCCs的阶数确定时，D的值就确定了。

步骤104，计算短时特征参数的统计特征，包括均值、最大值、最小值、中值、均方差，得到长时特征矩阵LF。具体步骤如下：

1)计算均值特征Mean，具体为：

1.1)计算短时特征矩阵SF各维的均值Mean_j：

{Mean}_{j} = \frac{1}{T} Σ_{t = 1}^{T} {SF}_{t, j}, 1 \leq j \leq D;

1.2)将各维均值拼接成均值矩阵Mean：

Mean＝[Mean₁,Mean₂,...,Mean_D]_1×D；

2)计算最大值特征Maxi，具体为：

2.1)计算短时特征矩阵SF各维的最大值Maxi_j：

{Maxi}_{j} = \max_{1 \leq t \leq T} ({SF}_{t, j}), 1 \leq j \leq D,

式中max(·)表示计算最大值；

2.2)将各维最大值拼接成最大值矩阵Maxi：

Maxi＝[Maxi₁,Maxi₂,...,Maxi_D]_1×D；

3)计算最小值特征Mini，具体为：

3.1)计算短时特征矩阵SF各维的最小值Mini_j：

{Mini}_{j} = \min_{1 \leq t \leq T} ({SF}_{t, j}), 1 \leq j \leq D,

式中min(·)表示计算最小值；

3.2)将各维最小值拼接成最小值矩阵Mini：

Mini＝[Mini₁,Mini₂,...,Mini_D]_1×D；

4)计算中值特征Medi，具体为：

4.1)计算短时特征矩阵SF各维的中值Medi_j：

{Medi}_{j} = \underset{1 \leq t \leq T}{median} ({SF}_{t, j}), 1 \leq j \leq D,

式中median(·)表示计算中值；

4.2)将各维中值拼接成中值矩阵Medi：

Medi＝[Medi₁,Medi₂,...,Medi_D]_1×D；

5)计算标准差特征Std，具体为：

5.1)计算短时特征矩阵SF各维的标准差Std_j：

{Std}_{j} = \underset{1 \leq t \leq T}{std} ({SF}_{t, j}), 1 \leq j \leq D,

式中std(·)表示计算标准差；

5.2)将各维标准差拼接成标准差矩阵Std：

Std＝[Std₁,Std₂,...,Std_D]_1×D；

6)将上述提取出来的5个长时特征拼接成长时特征矩阵LF：

LF＝[Mean,Maxi,Mini,Medi,Std]_1×D'，

式中D'＝5×D为长时特征矩阵的维数。

步骤105，采用EM算法训练四个高斯混合模型(GMM)：单人语音的短时特征模型θ_SS、单人语音的长时特征模型θ_SL、重叠语音的短时特征模型θ_OS、重叠语音的长时特征模型θ_OL。具体步骤如下：

1)设一个G阶混合分量的D维GMM表示为：

P (F | θ) = Σ_{i = 1}^{G} w_{i} \times b_{i} (F)

式中w_i表示混合权重系数，b_i(F)是D维高斯概率分布，表示为：

b_{i} (F) = \frac{1}{\sqrt{{(2 π)}^{D} | Σ_{i} |}} \exp (- \frac{1}{2} {(F - u_{i})}^{T} Σ_{i}^{- 1} (F - u_{i}))

式中u_i表示均值，表示∑_i协方差矩阵，一个GMM表示为：θ＝{w_i,u_i,Σ_i}，大小为T×D的特征矩阵F＝[F₁,F₂,...,F_T]^TRS输入高斯混合模型θ，得到的概率值(似然函数值)为:

P (F | θ) = Π_{t = 1}^{T} P (F_{t} | θ);

2)求期望：计算函数Q(θ,θ^*)：

Q(θ,θ^*)＝E{lnP[(F,i)|θ]}

整理得：

Q (θ, θ^{*}) = Σ_{i = 1}^{G} Σ_{t = 1}^{T} \ln (w_{i}) P (i | F_{t}, θ^{*}) + Σ_{i = 1}^{G} Σ_{t = 1}^{T} \ln (P_{i} (F_{t} | θ_{i})) P (i | F_{t}, θ^{*}),

P (i | F_{t}, θ) = \frac{w_{i} P_{i} (F_{t})}{Σ_{j = 1}^{G} w_{j} P_{j} (F_{t})}

3)最大化：根据Q(θ,θ^*)函数估计θ^*＝{w_i,u_i,Σ_i}：

w_{i} = \frac{1}{T} Σ_{t = 1}^{T} P (i | F_{t}, θ^{*}),

u_{i} = \frac{Σ_{t = 1}^{T} P (i | F_{t}, θ^{*}) F_{t}}{Σ_{t = 1}^{T} P (i | F_{t}, θ^{*})},

Σ_{i} = \frac{Σ_{t = 1}^{T} P (i | F_{t}, θ^{*}) (F_{t} - u_{i}) {(F_{t} - u_{i})}^{TRS}}{Σ_{t = 1}^{T} P (i | F_{t}, θ^{*})};

4)EM算法迭代高斯混合模型GMM：当似然函数的值达到最大时停止迭代，即当P(F|θ^*)值相对上次迭代时的P(F|θ)值增幅小于设定的阈值10^-4，则停止迭代，得到最终的模型参数：

混合权重系数：

w_{i}^{*} = \frac{1}{T} Σ_{t = 1}^{T} P (i | F_{t}, θ),

均值矢量：

u_{i}^{*} = \frac{Σ_{t = 1}^{T} P (i | F_{t}, θ) F_{t}}{Σ_{t = 1}^{T} P (i | F_{t}, θ)},

协方差矩阵：

Σ_{i}^{*} = \frac{Σ_{t = 1}^{T} P (i | F_{t}, θ) {(F_{t} - u_{i})}^{2}}{Σ_{t = 1}^{T} P (i | F_{t}, θ)};

5)按照步骤103，从单人语音的训练样本中提取短时特征矩阵SF_S、从重叠语音的训练样本中提取短时特征矩阵SF_O；按照步骤104，从单人语音的训练样本中提取长时特征矩阵LF_S、从重叠语音的训练样本中提取长时特征矩阵LF_O；将SF_S、SF_O、LF_S和LF_O依次作为特征矩阵F，再重复步骤1)至4)(即重复采用EM算法)训练得到四个高斯混合模型：单人语音的短时特征模型θ_SS、单人语音的长时特征模型θ_SL、重叠语音的短时特征模型θ_OS、重叠语音的长时特征模型θ_OL。

步骤106，将短时特征矩阵SF和长时特征矩阵LF分别输入短时特征模型θ_S和长时特征模型θ_L，将这两种模型的输出概率(p(SF|θ_S)和p(LF|θ_L))进行加权(融合)得到总的概率输出值，根据该概率输出值的大小将测试语音判为重叠语音或单人语音，实现两者的区分。具体步骤如下：

1)分别按照步骤103和步骤104，从读入的测试样本中依次提取短时特征矩阵SF和长时特征矩阵LF；

2)将上述SF和LF分别输入步骤105训练得到的θ_SS和θ_SL，并按下式进行模型融合，得到最终的输出概率值：

P₁＝(1-β)×ln(p(SF|θ_SS))+β×ln(p(LF|θ_SL))，

3)将上述SF和LF分别输入θ_OS和θ_OL，并按下式进行模型融合，得到最终的输出概率值：

P₂＝(1-β)×ln(p(SF|θ_OS))+β×ln(p(LF|θ_OL))；

4)如果P₁>P₂，则该测试样本被判为单人语音，否则被判为重叠语音；

5)重复步骤1)至4)，直到所有测试样本被处理完为止，从而实现重叠语音与单人语音的区分。

所述N、T、n、D均为正整数。

实施例1

实验数据取自汉语普通话自然口语对话语料库(Chinese Annotated Dialogueand Conversation Corpus,CADCC)。语音数据由经过挑选的标准普通话发音人在专业录音环境下录制，共计12个对话单元，每一对话单元有两位发音人。采样频率为16kHz，16bit量化，并保存为单声道WAV格式，库容量约1.6GB。训练数据中，重叠语音样本和单人语音样本各500个；测试数据中，重叠语音样本和单人语音样本分别为427个和505个。重叠语音及单人语音样本的时长范围为0.8～6秒。对每个语音样本分帧并提取特征，帧长为40毫秒，帧移为20毫秒。短时特征矩阵的维数D＝28，其中MFCCs和ΔMFCCs的维数各为13，短时能量和过零率的维数各为1。长时特征矩阵的维数D'＝140。令N_O和N_S分别表示标注为重叠语音和单人语音的样本总数(N_O+N_S表示待区分重叠语音和单人语音样本的总数)，N'_O和N'_S分别表示被正确区分的重叠语音和单人语音样本个数。区分正确率(Discrimination Accuracy,DA)定义为：

DA = \frac{N_{O}^{'} + N_{S}^{'}}{N_{O} + N_{S}}

为了评估本方法的有效性，实验比较了本方法与基于短时特征的方法的性能差异。实验讨论了7种常用高斯混合度(G)情况下，两种方法的性能差异。表1给出了加权系数β为0～1，高斯混合度G分别为4、8、16、20、25、30、32时的实验结果。

表1区分重叠语音与单人语音的实验结果

根据模型融合表达式P₁(或P₂)，β等于0时的结果即为基于短时特征的区分方法的结果，β等于1.0时的结果即为基于长时特征的区分方法的结果。从表1可知：当高斯混合度G从4增大到32时，(1)长时特征的区分能力都优于短时特征的能力，而且本方法(基于长时特征和短时特征的方法)的区分能力是最优的，验证了本方法的有效性；(2)在β＝0.7～1.0时，本方法都取得了最高的区分正确率；(3)在上述7种高斯混合度的情况下，当β＝0.8时，本方法的平均区分正确率最高且为92.3％，而基于短时特征的方法(β＝0)的平均区分正确率仅为86.4％；与后者相比，区分正确率提高了5.9％。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于长时特征和短时特征的重叠语音与单人语音区分方法，其特征在于，包括如下步骤：

S1读入语音：读入记录有重叠语音或单人语音的语音文件；

S3提取短时特征：从经过预处理的语音帧中提取短时特征，所述短时特征包括梅尔频率倒谱系数MFCCs及其一阶差分ΔMFCCs、短时能量STE、过零率ZCR，将提取的短时特征拼接得到短时特征矩阵SF；

S4提取长时特征：计算短时特征矩阵SF的统计特征，所述统计特征包括均值、最大值、最小值、中值、标准差，得到长时特征矩阵LF；

S5训练高斯混合模型：采用期望最大化算法即EM算法训练四个高斯混合模型，包括单人语音的短时特征模型θ_SS、单人语音的长时特征模型θ_SL、重叠语音的短时特征模型θ_OS、重叠语音的长时特征模型θ_OL，采用期望最大化算法即EM算法训练上述四个高斯混合模型的具体步骤为：

S5.1设一个G阶混合分量的D维高斯混合模型表示为：

其中：D表示特征矩阵的维数，θ表示高斯混合模型，F表示输入高斯混合模型θ的特征矩阵，w_i表示第i个高斯模型θ_i的混合权重系数，b_i(F)是第i个D维高斯概率分布，表示为：

式中：u_i表示均值，∑_i表示协方差矩阵，TRS表示矩阵的转置，一个高斯模型表示为：θ_i＝{w_i,u_i,Σ_i}，大小为T×D的特征矩阵F＝[F₁,F₂,...,F_T]^TRS输入高斯混合模型θ，得到的概率值为:

式中：T表示特征的帧数，F_t表示第t帧特征矢量；

S5.2求期望：计算函数Q(θ,θ^*)：

Q(θ,θ^*)＝E{lnP[(F,θ_i)|θ]}，

整理得：

式中ln(·)表示自然对数函数，根据贝叶斯公式，训练特征矩阵在第i个高斯模型θ_i的输出概率为：

S5.3最大化：根据Q(θ,θ^*)函数估计θ^*＝{w′_i,u′_i,Σ′_i}：

S5.4期望最大化算法即EM算法迭代高斯混合模型：当似然函数值达到最大时停止迭代，即当P(F|θ^*)值相对上次迭代时的P(F|θ)值增幅小于设定的阈值，则停止迭代，得到最终的模型参数，所述模型参数如下：

混合权重系数：

均值矢量：

协方差矩阵：

S5.5从单人语音的训练样本中提取单人语音短时特征矩阵SF_S、从重叠语音的训练样本中提取重叠语音短时特征矩阵SF_O、从单人语音的训练样本中提取单人长时特征矩阵LF_S、从重叠语音的训练样本中提取重叠语音长时特征矩阵LF_O；将单人语音短时特征矩阵SF_S、重叠语音短时特征矩阵SF_O、单人语音长时特征矩阵LF_S和重叠语音长时特征矩阵LF_O依次作为特征矩阵F，再重复S5.1‐S5.4训练得到单人语音的短时特征模型θ_SS、单人语音的长时特征模型θ_SL、重叠语音的短时特征模型θ_OS、重叠语音的长时特征模型θ_OL；

S6模型融合判决：具体步骤包括：

S6.1将S3中提取的短时特征矩阵SF和S4中提取的长时特征矩阵LF按照S5训练得到单人语音的短时特征模型θ_SS和单人语音的长时特征模型θ_SL，并按下式进行模型融合，得到最终的输出概率值：

P₁＝(1-β)×ln(p(SF|θ_SS))+β×ln(p(LF|θ_SL))，

上式中，p(SF|θ_SS)表示短时特征矩阵SF输入单人语音的短时特征模型θ_SS时所得到的输出概率，p(LF|θ_SL)表示长时特征矩阵LF输入单人语音的长时特征模型θ_SL时所得到的输出概率，β为加权系数且取值为：0≤β≤1；

S6.2将上述SF和LF分别输入重叠语音的短时特征模型θ_OS和重叠语音的长时特征模型θ_OL，并按下式进行模型融合，得到最终的输出概率值：

P₂＝(1-β)×ln(p(SF|θ_OS))+β×ln(p(LF|θ_OL))；

S6.3如果P₁>P₂，则测试样本即读入的语音文件被判为单人语音，否则被判为重叠语音。

2.根据权利要求1所述的区分方法，其特征在于，所述S2中对读入的语音文件进行预加重、分帧、加窗，具体步骤为：

S2.1所述预加重，具体为：设置数字滤波器的Z传递函数为H(z)＝1-αz^-1，其中α取值为：0.9≤α≤1，读入的语音文件通过数字滤波器后实现预加重；

S2.2所述分帧、加窗，具体步骤为：

S2.2.1设置语音帧的帧长为40毫秒、帧移为20毫秒，帧长和帧移所对应的采样点个数分别为N＝0.04×f_s和S＝0.02×f_s，其中f_s为语音采样频率，将输入语音信号分割成T个语音帧x'_t(n)，且每个语音帧包含N个采样点；

S2.2.2计算汉明窗函数ω(n)：

S2.2.3对每一个语音帧x'_t(n)加汉明窗，得到x_t(n)：

3.根据权利要求1所述的区分方法，其特征在于，所述S3从经过预处理的语音帧中提取短时特征，所述短时特征包括梅尔频率倒谱系数MFCCs及其一阶差分ΔMFCCs、短时能量STE、过零率ZCR，将提取的短时特征拼接得到短时特征矩阵SF，具体包括如下步骤：

S3.1提取梅尔频率倒谱系数MFCCs及其一阶差分ΔMFCCs，具体为：

S3.1.2将上述线性频谱X_t(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱S_t(m)，0≤m<M，其中M为梅尔滤波器的个数；

其中，P为梅尔频率倒谱系数的阶数；

S3.1.4计算第t帧梅尔频率倒谱系数的一阶差分C′_t(p)：

其中，Q为常数；

S3.1.5对每帧语音重复步骤S3.1.1～S3.1.4，得到所有T帧语音的梅尔频率倒谱系数MFCCs及其一阶差分ΔMFCCs，将它们按帧的顺序组合成一个梅尔频率倒谱系数矩阵MFCCs与一阶差分矩阵ΔMFCCs，再将这两个矩阵合并构成特征矩阵[MFCCs,ΔMFCCs]；

S3.2提取短时能量，具体为：

S3.2.1计算第t帧短时能量STE_t：

STE＝[STE₁,STE₂,...,STE_T]^TRS，

上式中，TRS表示矩阵的转置，T表示帧数；

S3.3提取过零率，具体为：

S3.3.1计算第t帧过零率ZCR_t：

式中sgn(·)为符号函数；

S3.3.2将T帧过零率ZCR_t拼接成大小为T×1的过零率特征矩阵ZCR：

ZCR＝[ZCR₁,ZCR₂,...,ZCR_T]^TRS；

S3.4将梅尔频率倒谱系数矩阵MFCCs、一阶差分矩阵ΔMFCCs、短时能量矩阵STE和过零率矩阵ZCR拼接成短时特征矩阵SF：

SF＝[MFCCs,△MFCCs,STE,ZCR]_T×D，

式中，D表示短时特征矩阵SF的维数。

4.根据权利要求1所述的区分方法，其特征在于，所述S4计算短时特征矩阵SF的统计特征，所述统计特征包括均值、最大值、最小值、中值、标准差，得到长时特征矩阵LF，具体步骤为：

S4.1计算均值特征，具体为：

S4.1.1计算短时特征矩阵SF各维的均值Mean_j：

其中，SF_t,j表示第t帧第j维短时特征值，D为短时特征的维数，T为短时特征的帧数；

S4.1.2将各维均值拼接成均值矩阵Mean：

Mean＝[Mean₁,Mean₂,...,Mean_D]_1×D；

S4.2计算最大值特征，具体为：

S4.2.1计算短时特征矩阵SF各维的最大值Maxi_j：

式中max(·)表示计算最大值；

S4.2.2将各维最大值拼接成最大值矩阵Maxi：

Maxi＝[Maxi₁,Maxi₂,...,Maxi_D]_1×D；

S4.3计算最小值特征，具体为：

S4.3.1计算短时特征矩阵SF各维的最小值Mini_j：

式中min(·)表示计算最小值；

S4.3.2将各维最小值拼接成最小值矩阵Mini：

Mini＝[Mini₁,Mini₂,...,Mini_D]_1×D；

S4.4计算中值特征，具体为：

S4.4.1计算短时特征矩阵SF各维的中值Medi_j：

式中median(·)表示计算中值；

S4.4.2将各维中值拼接成中值矩阵Medi：

Medi＝[Medi₁,Medi₂,...,Medi_D]_1×D；

S4.5计算标准差特征，具体为：

S4.5.1计算短时特征矩阵SF各维的标准差Std_j：

式中std(·)表示计算标准差；

S4.5.2将各维标准差拼接成标准差矩阵Std：

Std＝[Std₁,Std₂,...,Std_D]_1×D；

S4.6将上述提取出来的均值、最大值、最小值、中值、标准差特征拼接成长时特征矩阵LF：

LF＝[Mean,Maxi,Mini,Medi,Std]_1×D'，

式中D'＝5×D为长时特征矩阵LF的维数。