CN102314882B

CN102314882B - 声音信号通道间延时估计的方法及装置

Info

Publication number: CN102314882B
Application number: CN201010222476A
Authority: CN
Inventors: 吴文海; 苗磊; 郎玥; 刘泽新
Original assignee: Huawei Technologies Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2010-06-30
Filing date: 2010-06-30
Publication date: 2012-10-17
Anticipated expiration: 2030-06-30
Also published as: CN102314882A; WO2011137852A1; US20130114817A1; US9432784B2

Abstract

本发明实施例公开了一种声音信号通道间延时估计的方法及装置，涉及通信领域，能够在交叉说话时，实现声场的稳定。本发明的方法包括：计算声音信号通道间的实际相位差与预测相位差之间的误差，所述预测相位差根据所述声音信号通道间预定延时预测；根据所述误差判断所述声音信号是否为交叉说话时的声音信号；若所述声音信号为交叉说话时的声音信号，则将所述声音信号对应的通道间延时设置为固定值。本发明实施例主要用于声音信号通道间延时估计的过程中。

Description

声音信号通道间延时估计的方法及装置

技术领域

本发明涉及通信领域，尤其涉及一种声音信号通道间延时估计的方法及装置。

背景技术

在立体声编码中，通常并不是直接对左右声道信号进行编码，而是将左右声道信号进行下混，对下混之后的信号进行编码。再编码一些额外的边带信息。在解码端通过下混信号和边带信息来恢复立体声信号。通常情况，发声物体相对于录制左右声道的两个麦克来说，会有距离的变动或者距离差，这样必然造成左右两路声道信号之间不能完全同步，即左右两路声道信号之间有一定的延时。如何正确估计这个延时，并在解码端恢复出这个延时，以保证合成后信号的场强是必要的。

目前在进行通道间延时估计时，通过求左右通道间的加权互相关函数，并搜索求取加权互相关函数的最大值所对应的延时作为左右通道间的延时。对于单一的发生体，由于其存在单一的左右声道，且该左右声道相对于录制左右声道的两个麦克来说位置固定，因此采用上述的方法可以估计出比较准确的通道间延时。

对于多个发生体即交叉说话时，由于存在多个左声道和多个右声道，使得声场出现一会向左一会向右的摆动，以及右声场向左偏左声道向右偏的情况，致使不能辨别哪个左右声道是由同一发生体发出；若采用上述方法对交叉说话时的通道间延时进行估计，估计出的通道间延时是不准确的，导致估计的声场的不稳定。

发明内容

本发明的实施例提供一种声音信号通道间延时估计的方法及装置，能够在交叉说话时，实现声场的稳定。

本发明实施例提供一种声音信号通道间延时估计的方法，包括：

计算声音信号通道间的实际相位差与预测相位差之间的误差，所述预测相位差根据所述声音信号通道间预定延时预测；

根据所述误差判断所述声音信号是否为交叉说话时的声音信号；

若所述声音信号为交叉说话时的声音信号，则将所述声音信号对应的通道间延时设置为固定值。

本发明实施例还提供一种声音信号通道间延时估计的装置，包括：

计算单元，用于计算声音信号通道间的实际相位差与预测相位差之间的误差，所述预测相位差根据所述声音信号通道间预定延时预测；

第一判断单元，用于根据所述计算单元计算得到的所述误差判断所述声音信号是否为交叉说话时的声音信号；

处理单元，用于在所述第一判断单元判定所述声音信号为交叉说话时的声音信号时，将所述声音信号对应的通道间延时设置为固定值。

本发明实施例提供的技术方案，对声音信号进行是否为交叉说话时的声音信号的检测，当检测到声音信号为交叉说话时的声音信号，则将该声音信号对应的通道间延时设置为固定值；与现有技术中不区分是否为交叉说话时的声音信号，统一采用通道间延时估计的方法相比，本发明的技术方案将检测出的交叉说话时的声音信号对应的通道间延时设置为一固定值，避免了通道间错误的延时估计，造成的声场的不稳定，从而能够在交叉说话时，实现声场的稳定。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中声音信号通道间延时估计的方法流程图；

图2为本发明实施例2中声音信号通道间延时估计的方法流程图；

图3为现有技术中估计声音信号通道间延时的方法流程图；

图4为本发明实施例3中声音信号通道间延时估计的方法流程图；

图5为本发明实施例4中声音信号通道间延时估计的方法流程图；

图6为本发明实施例5中声音信号通道间延时估计的方法流程图；

图7为本发明实施例6中声音信号通道间延时估计的方法流程图；

图8为本发明实施例7中一种声音信号通道间延时估计的装置组成框图；

图9为本发明实施例7中另一种声音信号通道间延时估计的装置组成框图；

图10为本发明实施例7中另一种声音信号通道间延时估计的装置组成框图；

图11为本发明实施例7中另一种声音信号通道间延时估计的装置组成框图；

图12为本发明实施例7中另一种声音信号通道间延时估计的装置组成框图；

图13为本发明实施例7中另一种声音信号通道间延时估计的装置组成框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明的实施例提供一种声音信号通道间延时估计的方法，如图1所示，该方法包括：

101、计算声音信号通道间的实际相位差与预测相位差之间的误差，所述预测相位差根据所述声音信号通道间预定延时预测。

其中，所述通道间预定延时包括通道间估计延时或通道间固定值延时中的至少一个，所述通道间估计延时为利用通道间的相关性估计的延时；所述误差可以通过计算声音信号通道间的实际相位差，与根据通道间估计延时或通道间固定值延时中的至少一个预测的所述声音信号通道间的预测相位差获取。

其中，所述误差可以为在某段频带内各频点对应的实际相位差与预测相位差之差的绝对值之和，或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的绝对值的平均值，本发明实施例对此不进行限制；所述误差还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方和，或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方的平均值。

102、根据所述误差判断所述声音信号是否为交叉说话时的声音信号。

103、若所述声音信号为交叉说话时的声音信号，则将所述声音信号对应的通道间延时设置为固定值。

其中，所述固定值为一经验值，用户可以根据具体的实施具体设置，本发明实施例对此不进行限制，例如，该固定值可以为“0”。将所述声音信号对应的通道间延时设置为固定值，以便保持场强的稳定性。

本发明实施例中，对声音信号进行是否为交叉说话时的声音信号的检测，当检测到声音信号为交叉说话时的声音信号，则将该声音信号对应的通道间延时设置为固定值；与现有技术中不区分是否为交叉说话时的声音信号，统一采用通道间延时估计的方法相比，本发明实施例将检测出的交叉说话时的声音信号对应的通道间延时设置为一固定值，避免了通道间错误的延时估计，造成的声场的不稳定，从而能够在交叉说话时，实现声场的稳定。

实施例2

本发明的实施例提供一种声音信号通道间延时估计的方法，为了保证准确的检测声音信号是否为交叉说话时的声音信号，设置了声音信号为交叉说话时的声音信号时的次数，当达到该次数表明当前的声音信号为非常稳定的交叉说话时的声音信号，如图2所示，该方法包括：

201、计算声音信号通道间的实际相位差与预测相位差之间的误差，所述预测相位差根据所述声音信号通道间预定延时预测。

202、根据所述误差判断所述声音信号是否为交叉说话时的声音信号；若所述声音信号为交叉说话时的声音信号，则执行步骤203；若所述声音信号不是交叉说话时的声音信号，则执行步骤205。

进一步，需要说明的是，当接收到当前帧的声音信号并判断其为交叉说话时的声音信号时，有可能是由于说话时的声音信号不稳定，出现了误判的情况，为了更准确的判定当前接收到的声音信号是否为交叉说话时的声音信号，设定了声音信号为交叉说话时的声音信号的次数门限，当声音信号为交叉说话时的声音信号的次数达到该设置的次数门限时，可以确定当前接收到的声音信号确实是交叉说话时的声音信号，因此当根据所述误差判断所述声音信号为交叉说话时的声音信号之后，执行步骤203。

203、统计声音信号为交叉说话时的声音信号的次数，并判断所述次数是否大于预设次数门限；若所述次数大于所述预设次数门限，表明当前的说话情景确实是交叉说话，接收到的声音信号确实为交叉说话时的声音信号，则执行步骤204；若所述次数小于或等于所述预设次数门限，表明当前的说话情景并不是交叉说话，接收到的声音信号也并不是交叉说话时的声音信号，则执行步骤205。

其中，所述预设门限次数为一经验值，用户可以根据具体的需求具体设置，本发明实施例对此不进行限制，例如可以将该门限次数设置为3次。

204、将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。

其中，所述固定值为一经验值，用户可以根据具体的实施具体设置，本发明实施例对此不进行限制，例如，该固定值可以为“0”。将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值，以便保持场强的稳定性。

205、根据现有技术中的声音信号通道间延时估计的方法，获取所述声音信号对应的通道间延时。

其中，根据现有技术中的声音信号通道间延时估计的方法，可以采用但不局限于如下的方法实现，通过求左右通道间的加权互相关函数，并搜索求取加权互相关函数的最大值所对应的延时作为左右通道间的延时。具体可以包括，如图3所示：

2051、对所述声音信号的左右两个声道信号进行时频变换，所述声音信号的左右两个声道信号变换到频域。

2052、计算所述左右两个声道信号频域的加权互相关函数。

其中，在计算所述左右两个声道信号频域的加权互相关函数时，可以在部分频带或者全部频带计算。

当在全频带计算时，可以采用公式1获取加权的互相关函数C_r(k)，公式1-1为：

C_{r} (k) = \{\begin{matrix} W (k) X_{1} (k) {X^{*}}_{2} (k) & 0 \leq k \leq N / 2 \\ 0 & N / 2 < k < N \end{matrix}

(公式1)

当在部分频带计算时，可以采用公式2获取加权的互相关函数C_r(k)，公式2为：

C_{r} (k) = \{\begin{matrix} W (k) X_{1} (k) {X^{*}}_{2} (k) & 0 \leq k \leq M \\ 0 & M < k < N \end{matrix}

(公式2)

其中，W(k)为加权函数，

为X₂(k)的共轭函数，X₁(k)，X₂(k)分别为左路声道信号、右路声道信号的时频变换，k为频率点索引，N为时频变换长度。

2053、将所述频域的加权互相关函数进行频时变换，得到时域的加权互相关函数。

其中，所述频时变换可以采用现有技术中的任一中频时变换方法，例如，FFT(Fast Fourier Transform，快速傅立叶变换)变换。

2054、搜索时域的加权互相关函数的最大值，并将所述最大值对应的时间索引作为所述声音信号对应的通道间延时。

其中，在搜索时域的加权互相关函数的最大值时，可以从加权互相关函数绝对值中搜索得到所述最大值，也可以从加权互相关函数中搜索得到所述最大值，本发明实施例对此不进行限制。

例如，当从加权互相关函数绝对值中搜索得到所述最大值时，可以采用公式3获取所述最大值d_g，所述公式3为：

d_{g} = \{\begin{matrix} \arg \max | C_{r} (n) | & \arg \max | C_{r} (n) | \leq N / 2 \\ \arg \max | C_{r} (n) | - N & \arg \max | C_{r} (n) | > N / 2 \end{matrix}

(公式3)

当从加权互相关函数中搜索得到所述最大值时，可以采用公式4获取所述最大值d_g，所述公式4为：

d_{g} = \{\begin{matrix} \arg \max (C_{r} (n)) & \arg \max (C_{r} (n)) \leq N / 2 \\ \arg \max (C_{r} (n)) - N & \arg \max (C_{r} (n)) > N / 2 \end{matrix}

(公式4)

其中|C_r(n)|为C_r(n)的幅度，argmax|(C_r(n))|为最大的互相关函数绝对值对应的索引值，N为时频变换长度。

并且，本发明实施例设置了声音信号为交叉说话时的声音信号时的次数门限，当达到该次数门限后，才将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值，从而避免了由于单次检测失误而将非交叉说话时的声音信号，当作交叉说话时的声音信号处理，从而能够保证准确的检测声音信号是否为交叉说话时的声音信号。

实施例3

本发明实施例提供一种声音信号通道间延时估计的方法，在计算实际相位差和预测相位差之间的误差时，该预测相位差可以根据通道间估计延时或通道间固定值延时中的至少一个估计获取；本发明实施例以根据通道间估计延时预测获取预测相位差为例，具体阐述该声音信号通道间延时估计的方法，如图4所示，该方法包括：

301、根据现有技术中的声音信号通道间时延估计方法，获取声音信号对应的通道间估计延时。

其中，根据现有技术中的声音信号通道间时延估计方法，获取声音信号对应的通道间估计延时，可以参考实施例2中的步骤205中的描述，此处将不再赘述。

302、计算声音信号通道间的实际相位差，与根据所述通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差。

其中，所述第一误差为，当所述预测相位差根据所述声音信号通道间估计延时预测时，计算声音信号通道间的实际相位差与预测相位差之间的误差获取，所述计算声音信号通道间的实际相位差，与根据所述通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差，可以包括：

在某段频带内计算各频点的声音信号通道间的实际相位差IPD(k)，该实际相位差可以采用公式5中计算获得，公式5为：

IPD(k)＝∠X₁(k)*X₂ ^*(k) 0＜k＜Max (公式5)

其中，

为X₂(k)的共轭函数，X₁(k)，X₂(k)分别为左路声道信号、右路声道信号的时频变换，k为频点取值，其取值范围为[1，Max]，Max为某段频带的最大频点。

在低频段内计算各频点的声音信号通道间的预测相位差IPD′(k)，该预测相位差可以采用公式6中计算获得，公式6为：

{IPD}^{'} (k) = \frac{- 2 π {d_{g}}^{'} * k}{N}

0＜k＜Max (公式6)

计算实际相位差IPD(k)与预测相位差IPD′(k)之间的第一误差。其中，所述第一误差可以为在某段频带内各频点对应的实际相位差与所述预测相位差之差的绝对值之和，或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的绝对值的平均值，本发明实施例对此不进行限制；所述误差还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方和，或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方的平均值。

例如，将在某段频带内各频点对应的实际相位差与所述预测相位差之差的绝对值之和作为第一误差，则计算IPD(k)和IPD′(k)在[1，Max]范围内相位差的差的绝对值之和，可采用公式7，公式7为：

Σ_{k = 1}^{Max - 1} | IPD (k) - {IPD}^{'} (k) |

(公式7)

例如，将在某段频带内各频点对应的实际相位差与所述预测相位差之差的绝对值的平均值作为第一误差，计算IPD(k)和IPD′(k)在[1，Max]范围内相位差之差的绝对值的平均值，可以采用公式8，公式8为：

\frac{1}{Max} Σ_{k = 1}^{Max - 1} | IPD (k) - {IPD}^{'} (k) |

(公式8)

例如，将在某段频带内各频点对应的实际相位差与所述预测相位差之差的平方和作为第一误差，则计算IPD(k)和IPD′(k)在[1，Max]范围内相位差的差的平方和，可采用公式9，公式9为：

Σ_{k = 1}^{Max - 1} {(IPD (k) - {IPD}^{'} (k))}^{2}

(公式9)

例如，将在某段频带内各频点对应的实际相位差与所述预测相位差之差的平方的平均值作为第一误差，则计算IPD(k)和IPD′(k)在[1，Max]范围内相位差之差的平方的平均值，可采用公式10，公式10为：

\frac{1}{Max} Σ_{k = 1}^{Max - 1} {(IPD (k) - {IPD}^{'} (k))}^{2}

(公式10)

303、判断所述第一误差是否在第一预定范围内；若所述第一误差不在第一预定范围内，表明检测的声音信号为交叉说话声音信号，则执行步骤304；若所述第一误差在第一预定范围内，表明检测的声音信号为非交叉说话声音信号；则执行步骤306。

其中，所述第一预定范围为一经验范围，根据非交叉说话声音信号的通道间延时设置，当该第一误差在所述第一预定范围内时，表明检测的声音信号为非交叉说话声音信号，即为单一发生体对应的声音信号；当第一误差不在所述第一预定范围内时，表明检测的声音信号为交叉说话声音信号；其可以是用户设置的固定范围，也可以是在一定时间周期内统计的非交叉说话声音信号的通道间延时的范围，本发明实施例对此不进行限制。

304、统计声音信号为交叉说话时的声音信号的次数，并判断所述次数是否大于预设次数门限；若所述次数大于所述预设次数门限，表明当前的说话情景确实是交叉说话，接收到的声音信号确实为交叉说话时的声音信号，则执行步骤305；若所述次数小于或等于所述预设次数门限，表明当前的说话情景并不是交叉说话，接收到的声音信号也并不是交叉说话时的声音信号，则执行步骤306。

305、将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。

306、将步骤301中获取的通道间估计延时作为所述声音信号对应的通道间延时。

实施例4

本发明实施例提供一种声音信号通道间延时估计的方法，本发明实施例以根据通道间固定值延时预测获取预测相位差为例，具体阐述该声音信号通道间延时估计的方法，如图5所示，该方法包括：

401、计算声音信号通道间的实际相位差，与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差。

其中，所述第二误差为，当所述预测相位差根据所述声音信号通道间间固定值延时预测时，计算声音信号通道间的实际相位差与预测相位差之间的误差获取，所述计算计算声音信号通道间的实际相位差，与根据所述通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差，可以包括：

在低频段内计算各频点的声音信号通道间的实际相位差IPD(k)，该实际相位差可以采用实施例3中的公式5中计算获得，此处将不再赘述。

在低频段内计算各频点的声音信号通道间的预测相位差IPD′(k)，该预测相位差可以采用实施例3中的公式6中计算获得，但该预测相位差IPD′(k)由通道间固定值延时预测获得，当该通道间固定值延时为0时，所述预测相位差IPD′(k)＝0。

当设置为所述通道间固定值延时为0时，计算所述第二误差，其中，所述第二误差可以为在某段频带内各频点对应的实际相位差与预测相位差之差的绝对值之和，或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的绝对值的平均值，本发明实施例对此不进行限制；所述误差还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方和，或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方的平均值。

例如，将在某段频带内各频点对应的实际相位差与所述预测相位差之差的绝对值之和作为第二误差，则计算IPD(k)和IPD′(k)在[1，Max]范围内相位差的差的绝对值之和，可采用公式11，公式11为：

Σ_{k = 1}^{Max - 1} | IPD (k) |

(公式11)

例如，将在某段频带内各频点对应的实际相位差与所述预测相位差之差的绝对值的平均值作为第二误差，计算IPD(k)和IPD′(k)在[1，Max]范围内相位差之差的绝对值的平均值，可以采用公式12，公式12为：

\frac{1}{Max} Σ_{k = 1}^{Max - 1} | IPD (k) |

(公式12)

例如，将在某段频带内各频点对应的实际相位差与所述预测相位差之差的平方和作为第二误差，则计算IPD(k)和IPD′(k)在[1，Max]范围内相位差的差的平方和，可采用公式13，公式13为：

Σ_{k = 1}^{Max - 1} {(IPD (k))}^{2}

(公式13)

例如，将在某段频带内各频点对应的实际相位差与所述预测相位差之差的平方的平均值作为第二误差，则计算IPD(k)和IPD′(k)在[1，Max]范围内相位差之差的平方的平均值，可采用公式14，公式14为：

\frac{1}{Max} Σ_{k = 1}^{Max - 1} {(IPD (k))}^{2}

(公式14)

402、判断所述第二误差是否在第二预定范围内；若所述第二误差在所述第二预定范围内，表明检测的声音信号为交叉说话声音信号，则执行步骤403；若所述第一误差不在第一预定范围内，表明检测的声音信号为非交叉说话声音信号；则执行步骤405。

其中，所述第二预定范围为一经验范围，根据交叉说话声音信号的通道间延时设置，当该第二误差在所述第二预定范围内时，表明检测的声音信号为交叉说话声音信号；当第二误差不在所述第二预定范围内时，表明检测的声音信号为非交叉说话声音信号，即为单一发生体对应的声音信号；其可以是用户设置的固定范围，也可以是在一定时间周期内统计的非交叉说话声音信号的通道间延时的范围，本发明实施例对此不进行限制。

403、统计声音信号为交叉说话时的声音信号的次数，并判断所述次数是否大于预设次数门限；若所述次数大于所述预设次数门限，表明当前的说话情景确实是交叉说话，接收到的声音信号确实为交叉说话时的声音信号，则执行步骤404；若所述次数小于或等于所述预设次数门限，表明当前的说话情景并不是交叉说话，接收到的声音信号也并不是交叉说话时的声音信号，则执行步骤405。

404、将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。

405、根据现有技术中的声音信号通道间时延估计方法，获取声音信号对应的通道间估计延时。

实施例5

本发明实施例提供一种声音信号通道间延时估计的方法，本发明实施例以根据通道间估计延时和通道间固定值延时预测获取预测相位差为例，具体阐述该声音信号通道间延时估计的方法，如图6所示，该方法包括：

501、根据现有技术中的声音信号通道间时延估计方法，获取声音信号对应的通道间估计延时。

502、计算声音信号通道间的实际相位差，与根据所述通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差。

其中，所述第一误差为，当所述预测相位差根据所述声音信号通道间估计延时预测时，计算声音信号通道间的实际相位差与预测相位差之间的误差获取，所述计算声音信号通道间的实际相位差，与根据所述通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差，可以参考实施例3中的步骤302中的描述，此处将不再赘述。

503、计算声音信号通道间的实际相位差，与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差。

其中，所述第二误差为，当所述预测相位差根据所述声音信号通道间间固定值延时预测时，计算声音信号通道间的实际相位差与预测相位差之间的误差获取，所述计算声音信号通道间的实际相位差，与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差，可以参考实施例4中的步骤401中的描述，此处将不再赘述。

504、根据所述第二误差和第一误差的比值判断所述声音信号是否为交叉说话时的声音；若所述声音信号为交叉说话时的声音，则执行步骤505；若所述声音信号为非交叉说话时的声音，则执行步骤507。

其中，根据所述第二误差和第一误差的比值判断所述声音信号是否为交叉说话时的声音包括：判断所述比值是否小于第一门限值；若所述比值小于所述第一门限值，则判定所述声音信号为交叉说话时的声音信号，则执行步骤504；若所述比值大于或等于所述第一门限值，则判定所述声音信号为非交叉说话时的声音信号，则执行步骤507。

505、统计所述声音信号为交叉说话时的声音信号的次数，并判断所述次数是否大于预设次数门限；若所述次数大于所述预设次数门限，表明当前的说话情景确实是交叉说话，接收到的声音信号确实为交叉说话时的声音信号，则执行步骤506；若所述次数小于或等于所述预设次数门限，表明当前的说话情景并不是交叉说话，接收到的声音信号也并不是交叉说话时的声音信号，则执行步骤507。

506、将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。

507、将步骤501中获取的通道间估计延时作为所述声音信号对应的通道间延时。

其中，需要说明的时，在计算第一误差和计算第二误差在具体执行时没有先后之分，本发明实施例为了描述的方便，将计算第一误差放在步骤502中描述，将计算第二误差放在503中描述；在具体执行本发明实施例时，也可以将计算第二误差的步骤放在步骤502中描述，将计算第一误差的步骤放在步骤503中描述，本发明实施例对此不进行限制。

实施例6

本发明的实施例提供一种声音信号通道间延时估计的方法，本发明实施例根据所述第二误差和第一误差的比值以及第一误差判断所述声音信号是否为交叉说话时的声音信号为了具体阐述声音信号通道间延时估计的方法；如图7所示，该方法包括：

601、根据现有技术中的声音信号通道间时延估计方法，获取声音信号对应的通道间估计延时。

602、计算声音信号通道间的实际相位差，与根据所述通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差。

603、计算声音信号通道间的实际相位差，与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差。

604、判断所述声音信号的前一帧声音信号是否为交叉说话时的声音信号；若所述声音信号的前一帧声音信号不是交叉说话时的声音信号，则执行步骤605；若所述声音信号的前一帧声音信号是交叉说话时的声音信号，则执行步骤608。

605、判断所述第二误差和第一误差的比值是否小于第一门限值，并且所述第一误差是否大于第二门限值；若所述比值小于第一门限值，并且所述第一误差大于第二门限值，表明所述声音信号为交叉说话时的声音信号，则执行步骤606；否则，执行步骤609。

606、统计所述声音信号为交叉说话时的声音信号的次数，并判断所述次数是否大于预设次数门限；若所述次数大于所述预设次数门限，表明当前的说话情景确实是交叉说话，接收到的声音信号确实为交叉说话时的声音信号，则执行步骤607；若所述次数小于或等于所述预设次数门限，表明当前的说话情景并不是交叉说话，接收到的声音信号也并不是交叉说话时的声音信号，则执行步骤609。

607、将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值，结束本次通道间延时估计。

608、判断所述第二误差和第一误差的比值是否小于第一门限值，并且所述第一误差是否大于第三门限值；若所述比值小于第一门限值，并且所述第一误差大于第三门限值，则执行步骤606；否则执行步骤609。

609、将步骤601中获取的通道间估计延时作为所述声音信号对应的通道间延时，结束本次通道间延时估计。

其中，需要说明的时，在计算第一误差和计算第二误差在具体执行时没有先后之分，本发明实施例为了描述的方便，将计算第一误差放在步骤602中描述，将计算第二误差放在603中描述；在具体执行本发明实施例时，也可以将计算第二误差的步骤放在步骤602中描述，将计算第一误差的步骤放在步骤603中描述，本发明实施例对此不进行限制。

进一步，在对当前声音信号进行检测之前，先判断该当前声音信号的前一帧声音信号是否为交叉说话时的声音信号，并根据判断的结果设置不同的检测所述当前声音信号是否为交叉说话时的声音信号第二门限值和第三门限值，更进一步的保证检测当前声音信号是否为交叉说话时的声音信号准确性，从而进一步的增强了声场的稳定性。

实施例7

本发明实施例提供一种声音信号通道间延时估计的装置，如图8所示，该装置包括：计算单元71、第一判断单元72和处理单元73。

计算单元71，用于计算声音信号通道间的实际相位差与预测相位差之间的误差，所述预测相位差根据所述声音信号通道间预定延时预测。其中，所述通道间预定延时包括通道间估计延时或通道间固定值延时，所述通道间估计延时为利用通道间的相关性估计的延时。

第一判断单元72，用于根据所述计算单元71计算得到的所述误差判断所述声音信号是否为交叉说话时的声音信号。

处理单元73，用于在所述第一判断单元72判定所述声音信号为交叉说话时的声音信号时，将所述声音信号对应的通道间延时设置为固定值。其中，所述固定值为一经验值，用户可以根据具体的实施具体设置，本发明实施例对此不进行限制，例如，该固定值可以为“0”。将所述声音信号对应的通道间延时设置为固定值，以便保持场强的稳定性

进一步，如图9所示，该装置还包括：统计单元74和第二判断单元75。

统计单元74，用于在所述第一判断单元72判定声音信号为交叉说话时的声音信号之后，统计声音信号为交叉说话时的声音信号的次数。

第二判断单元75，用于判断所述统计单元74统计的所述次数是否大于预设次数门限；在所述次数大于预设次数门限时，所述处理单元73还用于将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。

进一步的，当所述通道间预定延时为通道间估计延时时，如图10所示，所述计算单元71包括：第一计算模块711；所述第一判断单元72包括：第一判断模块721。

第一计算模块711，用于计算声音信号通道间的实际相位差，与根据通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差；

第一判断模块721，用于判断所述第一计算模块711计算得到的所述第一误差是否在第一预定范围内；当所述第一误差不在第一预定范围内时，判定所述声音信号为交叉说话时的声音信号。

进一步，当所述通道间预定延时为通道间固定值延时时，如图11所示，所述计算单元71包括：第二计算模块712；所述第一判断单元72包括：第二判断模块722。

第二计算模块712，用于计算声音信号通道间的实际相位差，与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差；

第二判断模块722，用于判断所述第二计算模块712计算得到的所述第二误差是否在第二预定范围内；当所述第二误差在第二预定范围内时，判定所述声音信号为交叉说话时的声音信号。

进一步，当所述通道间预定延时为通道间估计延时和通道间固定值延时时，如图12所示，所述计算单元71包括：第三计算模块713和第四计算模块714；所述第一判断单元72包括：第三判断模块723。

第三计算模块713，用于计算声音信号通道间的实际相位差，与根据通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差；

第四计算模块714，用于计算声音信号通道间的实际相位差，与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差；

第三判断模块723，用于根据所述第四计算模块714计算得到的所述第二误差和所述第三计算模块713计算得到的所述第一误差的比值，判断所述声音信号为交叉说话时的声音信号。其中，第三判断模块723根据所述第四计算模块714计算得到的所述第二误差和所述第三计算模块713计算得到的所述第一误差的比值，判断所述声音信号为交叉说话时的声音信号，可以包括：判断所述比值是否小于第一门限值；当所述比值小于所述第一门限值时，判定所述声音信号为交叉说话时的声音信号。

更进一步，当所述通道间预定延时为通道间估计延时和通道间固定值延时时，如图13所示，所述第一判断单元72还包括：第四判断模块724。

第四判断模块724，用于根据所述第四计算模块计算得到的所述第二误差和所述第三计算模块713计算得到的所述第一误差的比值以及所述第一误差，判断所述声音信号是否为交叉说话时的声音信号。其中，第四判断模块724根据所述第四计算模块计算得到的所述第二误差和所述第三计算模块713计算得到的所述第一误差的比值以及所述第一误差，判断所述声音信号是否为交叉说话时的声音信号，可以包括：判断所述声音信号的前一帧声音信号是否为交叉说话时的声音信号；当所述声音信号的前一帧声音信号不是交叉说话时的声音信号时，判断所述第二误差和第一误差的比值是否小于第一门限值，并且所述第一误差是否大于第二门限值；在所述比值小于第一门限值，并且所述第一误差大于第二门限值时，判定所述声音信号为交叉说话时的声音信号；

当所述声音信号的前一帧声音信号是交叉说话时的声音信号时，所述第四判断模块724还用于判断所述第二误差和第一误差的比值是否小于第一门限值，并且所述第一误差是否大于第三门限值；当所述比值小于第一门限值，并且所述第一误差大于第三门限值时，判定所述声音信号为交叉说话时的声音信号。

进一步，需要说明的是，该装置对应模块的相应描述，可以参考其他实施例中的描述，本发明实施例将不再赘述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种声音信号通道间延时估计的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通道间预定延时包括通道间估计延时或通道间固定值延时中的至少一个，所述通道间估计延时为利用通道间的相关性估计的延时。

3.根据权利要求2所述的方法，其特征在于，当所述通道间预定延时为通道间估计延时时，所述计算声音信号通道间的实际相位差与预测相位差之间的误差包括：

计算声音信号通道间的实际相位差，与根据通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差；

所述根据所述误差判断所述声音信号是否为交叉说话时的声音信号包括：判断所述第一误差是否在第一预定范围内；

若所述第一误差不在第一预定范围内，则判定所述声音信号为交叉说话时的声音信号。

4.根据权利要求2所述的方法，其特征在于，当所述通道间预定延时为通道间固定值延时时，所述计算声音信号通道间的实际相位差与预测相位差之间的误差包括：

计算声音信号通道间的实际相位差，与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差；

所述根据所述误差判断所述声音信号是否为交叉说话时的声音信号包括：判断所述第二误差是否在第二预定范围内；

若所述第二误差在第二预定范围内，则判定所述声音信号为交叉说话时的声音信号。

5.根据权利要求2所述的方法，其特征在于，当所述通道间预定延时为通道间估计延时和通道间固定值延时时，所述计算声音信号通道间的实际相位差与预测相位差之间的误差包括：

所述根据所述误差判断所述声音信号是否为交叉说话时的声音信号包括：根据所述第二误差和第一误差的比值判断所述声音信号是否为交叉说话时的声音信号；或者根据所述第二误差和第一误差的比值以及第一误差判断所述声音信号是否为交叉说话时的声音信号。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第二误差和第一误差的比值判断所述声音信号是否为交叉说话时的声音信号，包括：

判断所述比值是否小于第一门限值；

若所述比值小于所述第一门限值，则判定所述声音信号为交叉说话时的声音信号。

7.根据权利要求5所述的方法，其特征在于，所述根据所述第二误差和第一误差的比值以及第一误差判断所述声音信号是否为交叉说话时的声音信号，包括：

判断所述声音信号的前一帧声音信号是否为交叉说话时的声音信号；

若所述声音信号的前一帧声音信号不是交叉说话时的声音信号，则判断所述第二误差和第一误差的比值是否小于第一门限值，并且所述第一误差是否大于第二门限值；若所述比值小于第一门限值，并且所述第一误差大于第二门限值，则判定所述声音信号为交叉说话时的声音信号；

若所述声音信号的前一帧声音信号是交叉说话时的声音信号，则判断所述第二误差和第一误差的比值是否小于第一门限值，并且所述第一误差是否大于第三门限值；若所述比值小于第一门限值，并且所述第一误差大于第三门限值，则判定所述声音信号为交叉说话时的声音信号。

8.根据权利要求1或3或4或6或7所述的方法，其特征在于，在判定所述声音信号为交叉说话时的声音信号之后，该方法还包括：

统计声音信号为交叉说话时的声音信号的次数，并判断所述次数是否大于预设次数门限；

若所述次数大于所述预设次数门限，则所述将所述声音信号对应的通道间延时设置为固定值包括：将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。

9.一种声音信号通道间延时估计的装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述通道间预定延时包括通道间估计延时或通道间固定值延时中的至少一个，所述通道间估计延时为利用通道间的相关性估计的延时。

11.根据权利要求10所述的装置，其特征在于，当所述通道间预定延时为通道间估计延时时，所述计算单元包括：

第一计算模块，用于计算声音信号通道间的实际相位差，与根据通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差；

所述第一判断单元包括第一判断模块，用于判断所述第一计算模块计算得到的所述第一误差是否在第一预定范围内；当所述第一误差不在第一预定范围内时，判定所述声音信号为交叉说话时的声音信号。

12.根据权利要求10所述的装置，其特征在于，当所述通道间预定延时为通道间固定值延时时，所述计算单元包括：

第二计算模块，用于计算声音信号通道间的实际相位差，与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差；

所述第一判断单元包括第二判断模块，用于判断所述第二计算模块计算得到的所述第二误差是否在第二预定范围内；当所述第二误差在第二预定范围内时，判定所述声音信号为交叉说话时的声音信号。

13.根据权利要求10所述的装置，其特征在于，当所述通道间预定延时为通道间估计延时和通道间固定值延时时，所述计算单元包括：

第三计算模块，用于计算声音信号通道间的实际相位差，与根据通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差；

第四计算模块，用于计算声音信号通道间的实际相位差，与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差；

所述第一判断单元，包括第三判断模块，用于根据所述第二误差和第一误差的比值判断所述声音信号为交叉说话时的声音信号；或者

所述第一判断单元还包括：第四判断模块，用于根据所述第二误差和第一误差的比值，以及第一误差判断所述声音信号是否为交叉说话时的声音信号。

14.根据权利要求13所述的装置，其特征在于，所述第三判断模块用于判断所述比值是否小于第一门限值；

当所述比值小于所述第一门限值时，判定所述声音信号为交叉说话时的声音信号。

15.根据权利要求13所述的装置，其特征在于，所述第四判断模块用于，判断所述声音信号的前一帧声音信号是否为交叉说话时的声音信号；

当所述声音信号的前一帧声音信号不是交叉说话时的声音信号时，判断所述第二误差和第一误差的比值是否小于第一门限值，并且所述第一误差是否大于第二门限值；在所述比值小于第一门限值，并且所述第一误差大于第二门限值时，判定所述声音信号为交叉说话时的声音信号；

当所述声音信号的前一帧声音信号是交叉说话时的声音信号时，判断所述第二误差和第一误差的比值是否小于第一门限值，并且所述第一误差是否大于第三门限值；当所述比值小于第一门限值，并且所述第一误差大于第三门限值时，判定所述声音信号为交叉说话时的声音信号。

16.根据权利要求9或11或12或14或15所述的装置，其特征在于，该装置还包括：

统计单元，用于在所述第一判断单元判定所述声音信号为交叉说话时的声音信号之后，统计声音信号为交叉说话时的声音信号的次数；

第二判断单元，用于判断所述统计单元统计的所述次数是否大于预设次数门限；

所述处理单元还用于，在所述次数大于预设次数门限时，将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。