CN106033671A

CN106033671A - 确定声道间时间差参数的方法和装置

Info

Publication number: CN106033671A
Application number: CN201510101315.XA
Authority: CN
Inventors: 张兴涛; 苗磊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-03-09
Filing date: 2015-03-09
Publication date: 2016-10-19
Anticipated expiration: 2035-03-09
Also published as: RU2670843C1; KR20170120645A; JP2018511824A; EP3252756A4; MX2017011460A; EP3252756B1; EP3252756A1; US10210873B2; AU2015385490A1; CA2977846A1; BR112017018600A2; AU2015385490B2; MX365619B; CN106033671B; RU2670843C9; SG11201706998QA; WO2016141732A1; US20170372710A1; JP6487569B2

Abstract

提供一种确定声道间时间差参数的方法和装置，能够降低在立体声编码过程中声道间时间差参数搜索计算过程的计算量，方法包括：根据第一声道的时域信号及第二声道的时域信号，确定基准参数，基准参数对应于第一声道的时域信号与第二声道的时域信号之间的获取顺序，第一声道的时域信号及第二声道的时域信号对应于同一时段；根据基准参数和极限值T_max，确定搜索范围，其中，极限值T_max是根据第一声道的时域信号的采样率确定的，搜索范围属于[-T_max，0]，或搜索范围属于[0，T_max]；基于第一声道的频域信号及第二声道的频域信号，在搜索范围内进行搜索处理，以确定与第一声道及第二声道相对应的第一声道间时间差ITD参数。

Description

确定声道间时间差参数的方法和装置

技术领域

本发明涉及音频处理领域，并且更具体地，涉及确定声道间时间差参数的方法和装置。

背景技术

随着生活质量的提高，人们对高质量音频的需求不断增大。相对于单声道音频，立体声音频具有各生源的方位感和分布感，能够提高信息的清晰度和可懂度，因而备受人们青睐。

目前，已知一种针对立体声音频信号的传输技术，编码端将立体声信号转换为单声道音频信号和声道间时间差(ITD，Inter-Channel Time Difference)等参数，分别对其进行编码并传输给解码端，解码端得到单声道音频信号后，进一步根据ITD等参数恢复立体声信号，从而，能够实现立体声信号的低比特高质量传输。

在上述技术中，编码端基于单声道音频的时域信号的采样率，能够确定该采样率下ITD参数的极限值T_max，从而，可以基于该频域信号，逐子带在[-T_max，T_max]范围内搜索计算以获得ITD参数。

但是，上述较大的搜索范围致现有技术在频域内确定ITD参数过程的计算量较大，增加了编码端的性能要求，影响了处理效率。

因此，希望提供一种技术，能够在确保ITD参数准确性的前提下，减少ITD参数搜索计算过程的计算量。

发明内容

本发明实施例提供一种确定声道间时间差参数的方法和装置，能够降低在立体声编码过程中声道间时间差参数搜索计算过程的计算量。

第一方面，提供了一种确定声道间时间差参数的方法，该方法包括：根据第一声道的时域信号及第二声道的时域信号，确定基准参数，该基准参数对应于该第一声道的时域信号与该第二声道的时域信号之间的获取顺序，其中，该第一声道的时域信号及该第二声道的时域信号对应于同一时段；根据该基准参数和极限值T_max，确定搜索范围，其中，该极限值T_max是根据该第一声道的时域信号的采样率确定的，该搜索范围属于[-T_max，0]，或该搜索范围属于[0，T_max]；基于该第一声道的频域信号及该第二声道的频域信号，在该搜索范围内进行搜索处理，以确定与该第一声道及该第二声道相对应的第一声道间时间差ITD参数。

结合第一方面，在第一方面的第一种实现方式中，该根据第一声道的时域信号及第二声道的时域信号，确定基准参数，包括：对该第一声道的时域信号及该第二声道的时域信号进行互相关处理，以确定第一互相关处理值及第二互相关处理值，其中，该第一互相关处理值是该第一声道的时域信号相对于该第二声道的时域信号的互相关函数在预设范围内的最大函数值，该第二互相关处理值是该第二声道的时域信号相对于该第一声道的时域信号的互相关函数在该预设范围内的最大函数值；根据该第一互相关处理值及该第二互相关处理值之间的大小关系，确定该基准参数。

结合第一方面及其上述实现方式，在第一方面的第二种实现方式中，该基准参数是该第一互相关处理值及该第二互相关处理值中较大一方所对应的索引值或者该索引值的相反数。

结合第一方面及其上述实现方式，在第一方面的第三种实现方式中，该根据第一声道的时域信号及第二声道的时域信号，确定基准参数，包括：对该第一声道的时域信号及该第二声道的时域信号进行峰值检测处理，以确定第一索引值及第二索引值，其中，该第一索引值是与该第一声道的时域信号在预设范围内的最大幅度值相对应的索引值，该第二索引值是与该第二声道的时域信号在该预设范围内的最大幅度值相对应的索引值；根据该第一索引值与该第二索引值之间的大小关系，确定该基准参数。

结合第一方面及其上述实现方式，在第一方面的第四种实现方式中，该方法还包括：基于第二ITD参数，对该第一ITD参数进行平滑处理，其中，该第一ITD参数是第一时段的ITD参数，该第二ITD参数是第二时段的ITD参数的平滑值，该第二时段处于该第一时段之前。

第二方面，提供了一种确定声道间时间差参数的装置，该装置包括：确定单元，用于根据第一声道的时域信号及第二声道的时域信号，确定基准参数，该基准参数对应于该第一声道的时域信号与该第二声道的时域信号之间的获取顺序，其中，该第一声道的时域信号及该第二声道的时域信号对应于同一时段，并根据该基准参数和极限值T_max，确定搜索范围，其中，该极限值T_max是根据该第一声道的时域信号的采样率确定的，该搜索范围属于[-T_max，0]，或该搜索范围属于[0，T_max]；处理单元，用于基于该第一声道的频域信号及该第二声道的频域信号，根据该基准参数，进行搜索处理，以确定与该第一声道及该第二声道相对应的第一声道间时间差ITD参数。

结合第二方面，在第二方面的第一种实现方式中，该确定单元具体用于对该第一声道的时域信号及该第二声道的时域信号进行互相关处理，以确定第一互相关处理值及第二互相关处理值，并根据该第一互相关处理值及该第二互相关处理值之间的大小关系，确定该基准参数，其中，该第一互相关处理值是该第一声道的时域信号相对于该第二声道的时域信号的互相关函数在预设范围内的最大函数值，该第二互相关处理值是该第二声道的时域信号相对于该第一声道的时域信号的互相关函数在该预设范围内的最大函数值。

结合第二方面及其上述实现方式，在第二方面的第二种实现方式中，该确定单元具体用于将该第一互相关处理值及该第二互相关处理值中较大一方所对应的索引值或者所述索引值的相反数确定为该基准参数。

结合第二方面及其上述实现方式，在第二方面的第三种实现方式中，该确定单元具体用于对该第一声道的时域信号及该第二声道的时域信号进行峰值检测处理，以确定第一索引值及第二索引值，并根据该第一索引值与该第二索引值之间的大小关系，确定该基准参数，其中，该第一索引值是与该第一声道的时域信号在预设范围内的最大幅度值相对应的索引值，该第二索引值是与该第二声道的时域信号在该预设范围内的最大幅度值相对应的索引值。

结合第二方面及其上述实现方式，在第二方面的第四种实现方式中，该处理单元还用于基于第二ITD参数，对该第一ITD参数进行平滑处理，其中，该第一ITD参数是第一时段的ITD参数，该第二ITD参数是第二时段的ITD参数的平滑值，该第二时段处于该第一时段之前。

根据本发明实施例的声道间时间差参数的方法和装置，通过在时域上确定与第一声道的时域信号及第二声道的时域信号之间的获取顺序相对应的基准参数，能够基于该基准参数，确定搜索范围，并在该搜索范围内从在频域上进行针对该第一声道的频域信号及该第二声道的频域信号的搜索处理，以确定该第一声道及该第二声道相对应的声道间时间差ITD参数，本发明实施例中根据基准参数确定的搜索范围属于[-T_max，0]或[0，T_max]，小于现有技术中的搜索范围[-T_max，T_max]，从而能够降低声道间时间差ITD参数的搜索计算量，降低了对编码端的性能要求，提高了编码端的处理效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的确定声道间时间差参数的方法的示意性流程图。

图2是根据本发明一实施例的搜索范围确定过程的示意图。

图3是根据本发明另一实施例的确定搜索范围确定过程的示意图。

图4是根据本发明再一实施例的确定搜索范围确定过程的示意图。

图5是根据本发明实施例的确定声道间时间差参数的装置的示意性框图。

图6是根据本发明实施例的确定声道间时间差参数的设备的示意性结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是示出了本发明实施例的确定声道间时间差参数的方法100的示意性流程图，该方法100的执行主体可以是传输音频信号的编码端设备(也可以称为，发送端设备)，如图1所示，该方法100包括：

S110，根据第一声道的时域信号及第二声道的时域信号，确定基准参数，该基准参数对应于该第一声道的时域信号与该第二声道的时域信号之间的获取顺序，其中，该第一声道的时域信号及该第二声道的时域信号对应于同一时段；

S120，根据该基准参数和极限值T_max，确定搜索范围，其中，该极限值T_max是根据该第一声道的时域信号的采样率确定的，该搜索范围属于[-T_max，0]，或该搜索范围属于[0，T_max]；

S130，基于该第一声道的频域信号及该第二声道的频域信号，在该搜索范围内进行搜索处理，以确定与该第一声道及该第二声道相对应的第一声道间时间差ITD参数。

本发明实施例的确定声道间时间差参数的方法100可以应用于具有至少两个声道的音频***，在该音频***中，通过来自至少两个声道(即，包括第一声道和第二声道)的单声道信号合成立体声信号，例如，通过来自左声道(即，第一声道的一例)的单声道信号和来自右声道(即，第二声道的一例)的单声道信号合成立体声信号。

其中，作为传输该立体声信号的方法，可以列举参数立体声(PS)技术，该技术根据空间感知特性，编码端将立体声信号转换为单声道信号和空间感知参数，并分别进行编码，解码端得到单声道音频后，进一步根据空间参数恢复立体声信号。该技术能够实现立体声信号的低比特高质量传输。声道间时间差ITD(ITD，Inter-Channel Time Difference)参数是表示声源水平方位的空间参数，是空间参数的重要组成部分，本发明实施例主要涉及该ITD参数的确定过程。另外，在本发明实施例中，根据ITD参数对立体声信号和单声道信号进行编解码的过程与现有技术相似，这里为了避免赘述，省略其详细说明。

应理解，以上列举的音频***所具有的声道数量仅为示例性说明，本发明并未限定于此，例如，该音频***也可以具有三个或三个以上的声道，并且，能够通过任意两个声道的单声道信号合成立体声信号。以下，为了便于理解，以将该方法100应用于具有两个声道(即，左声道和右声道)的音频***使的处理过程为例，进行说明，并且，为了便于区分，以左声道作为第一声道，以右声道作为第二声道，进行说明。

具体地说，在S110，编码端设备可以通过例如，与左声道相对应的麦克风等音频输入设备获取与左声道相对应的音频信号，并根据预设的采样率α(即，第一声道的时域信号的采样率的一例)，对该音频信号进行采样处理，以生成左声道的时域信号(即，第一声道的时域信号的一例，以下，为了便于理解和区分，记做时域信号#L)。并且，在本发明实施例中，该获取时域信号#L的过程可以与现有技术相似，这里，为了避免赘述，省略其详细说明。

在本发明实施例中，第一声道的时域信号的采样率与第二声道的时域信号的采样率相同，因此，类似地，编码端设备可以通过例如，与右声道相对应的麦克风等音频输入设备获取与右声道相对应的音频信号，并根据上述采样率α，对该音频信号进行采样处理，以生成右声道的时域信号(即，第二声道的时域信号的一例，以下，为了便于理解和区分，记做时域信号#R)。

需要说明的是，在本发明实施例中，时域信号#L与时域信号#R是对应同一时段的时域信号(或者说，在同一时段内获取的时域信号)，例如，该时域信号#L与时域信号#R可以是对应同一帧(即，20ms)的时域信号，此情况下，基于时域信号#L与时域信号#R能够获得与该一帧信号相对应的一个ITD参数。

再例如，该时域信号#L与时域信号#R也可以是对应同一帧内的同一子帧(即，10ms或5ms等)的时域信号，此情况下，基于时域信号#L与时域信号#R能够获得与该一帧信号相对应的多个ITD参数，例如，如果该时域信号#L与时域信号#R所对应的子帧为10ms，则通过该一帧(即，20ms)信号能够获得两个ITD参数。再例如，如果该时域信号#L与时域信号#R所对应的子帧为5ms，则通过该一帧(即，20ms)信号能够获得四个ITD参数。

应理解，以上列举的时域信号#L与时域信号#R所对应的时段的长度仅为示例性说明，本发明并未限定于此，可以根据需要任意变更该时段的长度。

其后，编码端设备可以根据该时域信号#L和时域信号#R，确定基准参数。其中，该基准参数可以与该时域信号#L和时域信号#R获取顺序(例如，输入至上述音频输入设备的先后顺序)相对应，随后，结合该基准参数的确定过程，对该对应关系进行详细说明。

在本发明实施例中，可以通过对时域信号#L和时域信号#R进行互相关处理来确定该基准参数(即，方式1)，也可以通过搜索时域信号#L和时域信号#R的幅度最大值来确定该基准参数(即，方式2)，下面，分别对该方式1和方式2进行详细说明。

方式1

可选地，该根据第一声道的时域信号及第二声道的时域信号，确定基准参数，包括：

对该第一声道的时域信号及该第二声道的时域信号进行互相关处理，以确定第一互相关处理值及第二互相关处理值，其中，该第一互相关处理值是该第一声道的时域信号相对于该第二声道的时域信号的互相关函数在预设范围内的最大函数值，该第二互相关处理值是该第二声道的时域信号相对于该第一声道的时域信号的互相关函数在该预设范围内的最大函数值；

根据该第一互相关处理值及该第二互相关处理值之间的大小关系，确定该基准参数。

具体地说，在本发明实施例中，编码端设备可以根据以下式1确定时域信号#L相对于时域信号#R的互相关函数c_n(i)，即：

c_{n} (i) = Σ_{j = 0}^{Length - 1 - i} x_{R} (j) \cdot x_{L} (j + i), i &Element; [0, T_{\max}]

式1

其中，T_max表示ITD参数的极限值(或者说，时域信号#L与时域信号#R之间的获取时间差的最大值)可以根据上述采样率α确定，并且，其确定方法可以与现有技术相似，这里为了避免赘述，省略其详细说明。x_R(j)表示时域信号#R在第j个采样点处的信号值，x_L(j+i)表示时域信号#L在第j+i个采样点处的信号值，Length表示时域信号#R包括的采样点的总数量，或者说，时域信号#R的长度，例如，可以为一个帧的长度(即，20ms)或一个子帧的长度(例如，10ms或5ms等)。

并且，编码端设备可以确定该互相关函数c_n(i)的最大值

类似地，编码端设备可以根据以下式2确定时域信号#R相对于时域信号#L的互相关函数c_p(i)，即：

c_{p} (i) = Σ_{j = 0}^{Length - 1 - i} x_{L} (j) \cdot x_{R} (j + i)

式2

并且，编码端设备可以确定该互相关函数c_p(i)的最大值

在本发明实施例中，编码端设备可以根据与之间的关系，通过以下方式1A或方式1B确定基准参数的值。

方式1A

如图2所示，如果则编码端设备可以确定时域信号#L是先于时域信号#R获取的，即，左右声道之间的ITD参数为正数，此情况下，可以将基准参数T置为1。

从而，在S120的判定过程中，编码端设备可以判定该基准参数大于0，从而确定搜索范围为[0，T_max]，即，当时域信号#L是先于时域信号#R获取时，ITD参数为正数，搜索范围为[0，T_max](即，搜索范围属于[0，T_max]的一例)。

或者，如果则编码端设备可以确定时域信号#L是后于时域信号#R获取的，即，左右声道之间的ITD参数为负数，此情况下，可以将基准参数T置为0。

从而，在S120的判定过程中，编码端设备可以判定该基准参数不大于0，从而确定搜索范围为[-T_max，0]，即，当时域信号#L是后于时域信号#R获取时，ITD参数为负数，搜索范围为[-T_max，0](即，搜索范围属于[-T_max，0]的一例)。

方式1B

可选地，该基准参数是该第一互相关处理值及该第二互相关处理值中较大一方所对应的索引值或者索引值的相反数。

具体地说，如图3所示，如果则编码端设备可以确定时域信号#L是先于时域信号#R获取的，即，左右声道之间的ITD参数为正数，此情况下，可以将基准参数T置为所对应的索引值。

从而，在其后的判定过程中，编码端设备在判定基准参数T大于0之后，可以进一步判定该基准参数T是否大于或等于T_max/2，并根据判定结果确定搜索范围，例如，当T≥T_max/2时，搜索范围为[T_max/2，T_max](即，搜索范围属于[0，T_max]的一例)。当T＜T_max/2时，搜索范围为[0，T_max/2](即，搜索范围属于[0，T_max]的另一例)。

或者，如果则编码端设备可以确定时域信号#L是后于时域信号#R获取的，即，左右声道之间的ITD参数为负数，此情况下，可以将基准参数T置为所对应的索引值的相反数。

从而，在S120的判定过程中，编码端设备在判定基准参数T小于或等于0之后，可以进一步判定该基准参数T是否小于于或等于-T_max/2，并根据判定结果确定搜索范围，例如，当T≤-T_max/2时，搜索范围为[-T_max，-T_max/2](即，搜索范围属于[-T_max，0]的一例)。当T＞-T_max/2时，搜索范围为[-T_max/2，0](即，搜索范围属于[-T_max，0]的另一例)。

方式2

对该第一声道的时域信号及该第二声道的时域信号进行峰值检测处理，以确定第一索引值及第二索引值，其中，该第一索引值是与该第一声道的时域信号在预设范围内的最大幅度值相对应的索引值，该第二索引值是与该第二声道的时域信号在该预设范围内的最大幅度值相对应的索引值；

根据该第一索引值与该第二索引值之间的大小关系，确定该基准参数。

具体地说，在本发明实施例中，编码端设备可以检测时域信号#L的幅度值(记做：L(j))最大值max(L(j))，j∈[0，Length-1]，并记录该max(L(j))所对应的索引值p_left，其中，Length表示时域信号#L包括的采样点的总数量。

并且，编码端设备可以检测时域信号#R的幅度值(记做：R(j))最大值max(R(j))，j∈[0，Length-1]，并记录该max(R(j))所对应的索引值p_right，其中，Length表示时域信号#R包括的采样点的总数量。

其后，编码端设备可以判定p_left与p_right之间的大小关系。

如图4所示，如果p_left≥p_right，则编码端设备可以确定时域信号#L是先于时域信号#R获取的，即，左右声道之间的ITD参数为正数，此情况下，可以将基准参数T置为1。

或者，如果p_left＜p_right，则编码端设备可以确定时域信号#L是后于时域信号#R获取的，即，左右声道之间的ITD参数为负数，此情况下，可以将基准参数T置为0。

在S130，编码端设备可以对时域信号#L进行时频变换处理以获得左声道的频域信号(即，第一声道的频域信号的一例，以下，为了便于理解和区分，记做频域信号#L)。可以对时域信号#R进行时频变换处理以获得右声道的频域信号(即，第二声道的频域信号的一例，以下，为了便于理解和区分，记做频域信号#R)

例如，在本发明实施例中，可以采用快速傅氏变换(FFT，Fast FourierTransformation)技术，基于以下式3，进行时频变换处理。

X (k) = Σ_{n = 0}^{Length} x (n) \cdot e^{- j \frac{2 π \cdot n \cdot k}{FFT_LENGTH}}, 0 \leq k < FFT_LENGTH

式3

其中，X(k)表示频域信号，FFT_LENGTH表示时频变换长度。x(n)表示时域信号(即，时域信号#L或时域信号#R)，Length表示时域信号包括的采样点的总数量。

应理解，以上列举的时频变换处理的过程仅为示例性说明，本发明并不限定于此，该视频变换处理的方法和过程可以与现有技术相似，例如，还可以采用修正离散余弦变换(MDCT，Modified Discrete Cosine Transform)等技术。

从而，编码端设备可以在如上所述确定的搜索范围内，对如上所述确定的频域信号#L和频域信号#R进行搜索处理，以确定左声道与右声道之间的ITD参数，例如，可以列举以下搜索处理的过程：

首先，编码端设备可以根据预设的带宽A，将频域信号的FFT_LENGTH个频点划分为N_subband个(例如，1个)子带，其中，对于第k个子带A_k，其包含的频点为A_k-1≤b≤A_k-1，

在上述搜索范围内，根据以下式4计算频域信号#L的相关函数mag(j)

mag (j) = Σ_{b = A_{k} - 1}^{A_{k} - 1} X_{L} (b) * X_{R} (b) * \exp (\frac{2 π * b * j}{FFT_LENFTH})

式4

其中，X_L(b)表示频域信号#L在第b个频点的信号值，X_R(b)表示频域信号#R在第b个频点的信号值，FFT_LENGTH表示时频变换长度，j的取值范围是如上所述确定的搜索范围，为了便于理解和说明，将该搜索范围记做[a,b]。

则第k个子带的ITD参数值为即mag(j)的最大值对应的索引值。

由此，可以得到左声道与右声道之间的一个或多个(根据如上所述确定的子带的数量相对应)ITD参数值。

其后，编码端设备还可以对上述ITD参数值进行量化处理等，并将处理后的ITD参数值以及对左右声道的信号进行例如下混频等处理得到的单声道信号发送给解码端设备(或者说，接收端设备)。

解码端设备可以根据单声道音频信号和ITD参数值，恢复出立体声音频信号。

可选地，该方法还包括：

基于第二ITD参数，对该第一ITD参数进行平滑处理，其中，该第一ITD参数是第一时段的ITD参数，该第二ITD参数是第二时段的ITD参数的平滑值，该第二时段处于该第一时段之前。

具体地说，在本发明实施例中，在对ITD参数值进行量化处理等之前，编码端设备还可以对如上所述或缺的ITD参数值进行平滑处理，作为示例而非限定，编码端设备可以根据以下式5进行该平滑处理：

T_sm(k)＝w₁*T_sm ^[-1](k)+w₂*T(k) 式5

其中，T_sm(k)表示第k个帧或第k个子帧所对应的平滑处理后的ITD参数值，T_sm ^[-1]表示第k-1个帧或第k-1个子帧所对应的平滑处理后的ITD参数值，T(k)表示第k个帧或第k个子帧所对应的未经平滑处理的ITD参数值，w₁、w₂为平滑因子，w₁、w₂可以设置为常数，或者w₁、w₂也可以根据T_sm ^[-1]和T(k)的差值设置，只要满足w₁+w₂＝1即可。另外，当k＝1时，T_sm ^[-1]可以为预设的数值。

需要说明的是，在本发明实施例的确定声道间时间差参数的方法中，上述平滑处理可以由编码端设备执行，也可以由解码端设备执行，本发明并未特别限定，即，编码端设备也可以不进行上述平滑处理而将如上所述获得的ITD参数值直接发送给解码端设备，并由解码端设备对该ITD参数值进行平滑处理，并且，该解码端设备所进行的平滑处理的方法和过程可以与上述解码端设备所进行的平滑处理的方法和过程相似，这里，为了避免赘述，省略其详细说明。

根据本发明实施例的确定声道间时间差参数的方法，通过在时域上确定与第一声道的时域信号及第二声道的时域信号之间的获取顺序相对应的基准参数，能够基于该基准参数，确定搜索范围，并在该搜索范围内从在频域上进行针对该第一声道的频域信号及该第二声道的频域信号的搜索处理，以确定该第一声道及该第二声道相对应的声道间时间差ITD参数，本发明实施例中根据基准参数确定的搜索范围属于[-T_max，0]或[0，T_max]，小于现有技术中的搜索范围[-T_max，T_max]，从而能够降低声道间时间差ITD参数的搜索计算量，降低了对编码端的性能要求，提高了编码端的处理效率。

上文中，结合图1至图4，详细描述了根据本发明实施例的确定声道间时间差参数的方法，下面，将结合图5，详细描述根据本发明实施例的根据本发明实施例的确定声道间时间差参数的装置。

图5示出了根据本发明实施例的确定声道间时间差参数的装置200的示意性框图。如图5所示，该装置200包括：

确定单元210，用于根据第一声道的时域信号及第二声道的时域信号，确定基准参数，该基准参数对应于该第一声道的时域信号与该第二声道的时域信号之间的获取顺序，其中，该第一声道的时域信号及该第二声道的时域信号对应于同一时段，并根据该基准参数和极限值T_max，确定搜索范围，其中，该极限值T_max是根据该第一声道的时域信号的采样率确定的，该搜索范围属于[-T_max，0]，或该搜索范围属于[0，T_max]；

处理单元220，用于基于该第一声道的频域信号及该第二声道的频域信号，根据该基准参数，进行搜索处理，以确定与该第一声道及该第二声道相对应的第一声道间时间差ITD参数。

可选地，该确定单元210具体用于对该第一声道的时域信号及该第二声道的时域信号进行互相关处理，以确定第一互相关处理值及第二互相关处理值，并根据该第一互相关处理值及该第二互相关处理值之间的大小关系，确定该基准参数，其中，该第一互相关处理值是该第一声道的时域信号相对于该第二声道的时域信号的互相关函数在预设范围内的最大函数值，该第二互相关处理值是该第二声道的时域信号相对于该第一声道的时域信号的互相关函数在该预设范围内的最大函数值。

可选地，该确定单元210具体用于将该第一互相关处理值及该第二互相关处理值中较大一方所对应的索引值或者该索引值的相反数确定为该基准参数。

可选地，该确定单元210具体用于对该第一声道的时域信号及该第二声道的时域信号进行峰值检测处理，以确定第一索引值及第二索引值，并根据该第一索引值与该第二索引值之间的大小关系，确定该基准参数，其中，该第一索引值是与该第一声道的时域信号在预设范围内的最大幅度值相对应的索引值，该第二索引值是与该第二声道的时域信号在该预设范围内的最大幅度值相对应的索引值。

可选地，该处理单元220还用于基于第二ITD参数，对该第一ITD参数进行平滑处理，其中，该第一ITD参数是第一时段的ITD参数，该第二ITD参数是第二时段的ITD参数的平滑值，该第二时段处于该第一时段之前。

根据本发明实施例的确定声道间时间差参数的装置200作为本发明实施例的确定声道间时间差参数的方法100的实施主体，可对应于本发明实施例的方法中的编码端设备，并且，该确定声道间时间差参数的装置200中的各单元及模块和上述其他操作和/或功能分别为了实现图1中的方法100的相应流程，为了简洁，在此不再赘述。

根据本发明实施例的确定声道间时间差参数的装置，通过在时域上确定与第一声道的时域信号及第二声道的时域信号之间的获取顺序相对应的基准参数，能够基于该基准参数，确定搜索范围，并在该搜索范围内从在频域上进行针对该第一声道的频域信号及该第二声道的频域信号的搜索处理，以确定该第一声道及该第二声道相对应的声道间时间差ITD参数，本发明实施例中根据基准参数确定的搜索范围属于[-T_max，0]或[0，T_max]，小于现有技术中的搜索范围[-T_max，T_max]，从而能够降低声道间时间差ITD参数的搜索计算量，降低了对编码端的性能要求，提高了编码端的处理效率。

上文中，结合图1至图4，详细描述了根据本发明实施例的确定声道间时间差参数的方法，下面，将结合图6，详细描述根据本发明实施例的确定声道间时间差参数的设备。

图6示出了根据本发明实施例的确定声道间时间差参数的设备300的示意性框图。如图6所示，该设备300可以包括：

总线310；

与该总线相连的处理器320；

与该总线相连的存储器330；

其中，该处理器320通过该总线310，调用该存储器330中存储的程序，以用于根据第一声道的时域信号及第二声道的时域信号，确定基准参数，该基准参数对应于该第一声道的时域信号与该第二声道的时域信号之间的获取顺序，其中，该第一声道的时域信号及该第二声道的时域信号对应于同一时段；

用于根据该基准参数和极限值T_max，确定搜索范围，其中，该极限值T_max是根据该第一声道的时域信号的采样率确定的，该搜索范围属于[-T_max，0]，或该搜索范围属于[0，T_max]；

用于基于该第一声道的频域信号及该第二声道的频域信号，在该搜索范围内进行搜索处理，以确定与该第一声道及该第二声道相对应的第一声道间时间差ITD参数。

可选地，该处理器320具体用于对该第一声道的时域信号及该第二声道的时域信号进行互相关处理，以确定第一互相关处理值及第二互相关处理值，其中，该第一互相关处理值是该第一声道的时域信号相对于该第二声道的时域信号的互相关函数在预设范围内的最大函数值，该第二互相关处理值是该第二声道的时域信号相对于该第一声道的时域信号的互相关函数在该预设范围内的最大函数值；

用于根据该第一互相关处理值及该第二互相关处理值之间的大小关系，确定该基准参数。

可选地，该基准参数是该第一互相关处理值及该第二互相关处理值中较大一方所对应的索引值或者该索引值的相反数。

可选地，该处理器320具体用于对该第一声道的时域信号及该第二声道的时域信号进行峰值检测处理，以确定第一索引值及第二索引值，其中，该第一索引值是与该第一声道的时域信号在预设范围内的最大幅度值相对应的索引值，该第二索引值是与该第二声道的时域信号在该预设范围内的最大幅度值相对应的索引值；

用于根据该第一索引值与该第二索引值之间的大小关系，确定该基准参数。

可选地，该处理器320还用于基于第二ITD参数，对该第一ITD参数进行平滑处理，其中，该第一ITD参数是第一时段的ITD参数，该第二ITD参数是第二时段的ITD参数的平滑值，该第二时段处于该第一时段之前。

在本发明实施例中，设备300的各个组件通过总线310耦合在一起，其中，总线310除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚明起见，在图中将各种总线都标为总线310。

处理器320可以实现或者执行本发明方法实施例中的公开的各步骤及逻辑框图。处理器320可以是微处理器或者该处理器也可以是任何常规的处理器，解码器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用解码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器330，处理器读取存储器330中的信息，结合其硬件完成上述方法的步骤。

应理解，在本发明实施例中，该处理器320可以是中央处理单元(CentralProcessing Unit，简称为“CPU”)，该处理器320还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器330可以包括只读存储器和随机存取存储器，并向处理器320提供指令和数据。存储器330的一部分还可以包括非易失性随机存取存储器。例如，存储器330还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器320中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。

根据本发明实施例的确定声道间时间差参数的设备300作为本发明实施例的确定声道间时间差参数的方法100的实施主体，可对应于本发明实施例的方法中的编码端设备，并且，该确定声道间时间差参数的设备300中的各单元及模块和上述其他操作和/或功能分别为了实现图1中的方法100的相应流程，为了简洁，在此不再赘述。

根据本发明实施例的确定声道间时间差参数的设备，通过在时域上确定与第一声道的时域信号及第二声道的时域信号之间的获取顺序相对应的基准参数，能够基于该基准参数，确定搜索范围，并在该搜索范围内从在频域上进行针对该第一声道的频域信号及该第二声道的频域信号的搜索处理，以确定该第一声道及该第二声道相对应的声道间时间差ITD参数，本发明实施例中根据基准参数确定的搜索范围属于[-T_max，0]或[0，T_max]，小于现有技术中的搜索范围[-T_max，T_max]，从而能够降低声道间时间差ITD参数的搜索计算量，降低了对编码端的性能要求，提高了编码端的处理效率。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种确定声道间时间差参数的方法，其特征在于，所述方法包括：

根据第一声道的时域信号及第二声道的时域信号，确定基准参数，所述基准参数对应于所述第一声道的时域信号与所述第二声道的时域信号之间的获取顺序，其中，所述第一声道的时域信号及所述第二声道的时域信号对应于同一时段；

根据所述基准参数和极限值T_max，确定搜索范围，其中，所述极限值T_max是根据所述第一声道的时域信号的采样率确定的，所述搜索范围属于[-T_max，0]，或所述搜索范围属于[0，T_max]；

基于所述第一声道的频域信号及所述第二声道的频域信号，在所述搜索范围内进行搜索处理，以确定与所述第一声道及所述第二声道相对应的第一声道间时间差ITD参数。

2.根据权利要求1所述的方法，其特征在于，所述根据第一声道的时域信号及第二声道的时域信号，确定基准参数，包括：

对所述第一声道的时域信号及所述第二声道的时域信号进行互相关处理，以确定第一互相关处理值及第二互相关处理值，其中，所述第一互相关处理值是所述第一声道的时域信号相对于所述第二声道的时域信号的互相关函数在预设范围内的最大函数值，所述第二互相关处理值是所述第二声道的时域信号相对于所述第一声道的时域信号的互相关函数在所述预设范围内的最大函数值；

根据所述第一互相关处理值及所述第二互相关处理值之间的大小关系，确定所述基准参数。

3.根据权利要求2所述的方法，其特征在于，所述基准参数是所述第一互相关处理值及所述第二互相关处理值中较大一方所对应的索引值或者所述索引值的相反数。

4.根据权利要求1所述的方法，其特征在于，所述根据第一声道的时域信号及第二声道的时域信号，确定基准参数，包括：

对所述第一声道的时域信号及所述第二声道的时域信号进行峰值检测处理，以确定第一索引值及第二索引值，其中，所述第一索引值是与所述第一声道的时域信号在预设范围内的最大幅度值相对应的索引值，所述第二索引值是与所述第二声道的时域信号在所述预设范围内的最大幅度值相对应的索引值；

根据所述第一索引值与所述第二索引值之间的大小关系，确定所述基准参数。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

基于第二ITD参数，对所述第一ITD参数进行平滑处理，其中，所述第一ITD参数是第一时段的ITD参数，所述第二ITD参数是第二时段的ITD参数的平滑值，所述第二时段处于所述第一时段之前。

6.一种确定声道间时间差参数的装置，其特征在于，所述装置包括：

确定单元，用于根据第一声道的时域信号及第二声道的时域信号，确定基准参数，所述基准参数对应于所述第一声道的时域信号与所述第二声道的时域信号之间的获取顺序，其中，所述第一声道的时域信号及所述第二声道的时域信号对应于同一时段，并根据所述基准参数和极限值T_max，确定搜索范围，其中，所述极限值T_max是根据所述第一声道的时域信号的采样率确定的，所述搜索范围属于[-T_max，0]，或所述搜索范围属于[0，T_max]；

处理单元，用于基于所述第一声道的频域信号及所述第二声道的频域信号，根据所述基准参数，进行搜索处理，以确定与所述第一声道及所述第二声道相对应的第一声道间时间差ITD参数。

7.根据权利要求6所述的装置，其特征在于，所述确定单元具体用于对所述第一声道的时域信号及所述第二声道的时域信号进行互相关处理，以确定第一互相关处理值及第二互相关处理值，并根据所述第一互相关处理值及所述第二互相关处理值之间的大小关系，确定所述基准参数，其中，所述第一互相关处理值是所述第一声道的时域信号相对于所述第二声道的时域信号的互相关函数在预设范围内的最大函数值，所述第二互相关处理值是所述第二声道的时域信号相对于所述第一声道的时域信号的互相关函数在所述预设范围内的最大函数值。

8.根据权利要求7所述的装置，其特征在于，所述确定单元具体用于将所述第一互相关处理值及所述第二互相关处理值中较大一方所对应的索引值或者所述索引值的相反数确定为所述基准参数。

9.根据权利要求6所述的装置，其特征在于，所述确定单元具体用于对所述第一声道的时域信号及所述第二声道的时域信号进行峰值检测处理，以确定第一索引值及第二索引值，并根据所述第一索引值与所述第二索引值之间的大小关系，确定所述基准参数，其中，所述第一索引值是与所述第一声道的时域信号在预设范围内的最大幅度值相对应的索引值，所述第二索引值是与所述第二声道的时域信号在所述预设范围内的最大幅度值相对应的索引值。

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述处理单元还用于基于第二ITD参数，对所述第一ITD参数进行平滑处理，其中，所述第一ITD参数是第一时段的ITD参数，所述第二ITD参数是第二时段的ITD参数的平滑值，所述第二时段处于所述第一时段之前。