CN110648679A

CN110648679A - 回声抑制参数的确定方法和装置、存储介质及电子装置

Info

Publication number: CN110648679A
Application number: CN201910913057.3A
Authority: CN
Inventors: 赵珺
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-01-03
Anticipated expiration: 2039-09-25
Also published as: CN110648679B

Abstract

本发明公开了一种回声抑制参数的确定方法和装置、存储介质及电子装置。其中，该方法包括：利用第一语音信号的频率生成第一语音信号的第一掩码向量；利用第二语音信号的频率生成第二语音信号的第二掩码向量；分别确定第一掩码向量与第三语音信号之间的第一权重值，以及第二掩码向量与第三语音信号之间的第二权重值；基于第一权重值和第二权重值确定与第二语音信号匹配的回声抑制控制参数，其中，回声抑制控制参数用于指示对第一语音信号中的回声信号进行回声抑制的结果。本发明解决了相关技术中对回声抑制效果评估的技术问题。

Description

回声抑制参数的确定方法和装置、存储介质及电子装置

技术领域

本发明涉及回声处理领域，具体而言，涉及一种回声抑制参数的确定方法和装置、存储介质及电子装置。

背景技术

无论对于公共信息交换网络(Public Switched Telephone Network，简称为PSTN)通话还是基于IP的语音传输技术(Voice over Internet Protocol，简称为VOIP)通话，在免提模式下，都容易产生回声现象，这会极大的影响用户体验。所以无论在终端设备硬件还是软件算法层面，都需要进行回声消除。

回声消除需要满足回采到的回声要尽可能的抑制，回声之外的场景声音经过算法后要尽可能不受影响；现有技术中对回声消除的效果的衡量只从信号角度来衡量，缺乏考虑人耳结构性特征。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种回声抑制参数的确定方法和装置、存储介质及电子装置，以至少解决相关技术中对回声抑制效果评估的技术问题。

根据本发明实施例的一个方面，提供了一种回声抑制参数的确定方法，包括：利用第一语音信号的频率生成上述第一语音信号的第一掩码向量，其中，上述第一掩码向量用于标识上述第一语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，上述第一语音信号为第一客户端发送给第二客户端的语音信号；利用第二语音信号的频率生成上述第二语音信号的第二掩码向量，其中，上述第二掩码向量用于标识上述第二语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，上述第二语音信号为上述第二客户端发送给上述第一客户端的语音信号；分别确定上述第一掩码向量与第三语音信号之间的第一权重值，以及上述第二掩码向量与上述第三语音信号之间的第二权重值，其中，上述第三语音信号是对第一语音信号中的回声信号进行回声抑制处理后得到的语音信号；基于上述第一权重值和上述第二权重值确定与上述第二语音信号匹配的回声抑制控制参数，其中，上述回声抑制控制参数用于指示对上述第一语音信号中的上述回声信号进行回声抑制的结果。

根据本发明实施例的另一方面，还提供了一种回声抑制参数的确定装置，包括：第一生成模块，用于利用第一语音信号的频率生成上述第一语音信号的第一掩码向量，其中，上述第一掩码向量用于标识上述第一语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，上述第一语音信号为第一客户端发送给第二客户端的语音信号；第二生成模块，用于利用第二语音信号的频率生成上述第二语音信号的第二掩码向量，其中，上述第二掩码向量用于标识上述第二语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，上述第二语音信号为上述第二客户端发送给上述第一客户端的语音信号；第一确定模块，用于分别确定上述第一掩码向量与第三语音信号之间的第一权重值，以及上述第二掩码向量与上述第三语音信号之间的第二权重值，其中，上述第三语音信号是对第一语音信号中的回声信号进行回声抑制处理后得到的语音信号；第二确定模块，用于基于上述第一权重值和上述第二权重值确定与上述第二语音信号匹配的回声抑制控制参数，其中，上述回声抑制控制参数用于指示对上述第一语音信号中的上述回声信号进行回声抑制的结果。

可选地，上述第一生成模块，包括：第一确定单元，用于对上述第一语音信号按照预设信号时长进行加窗分割，得到N段语音片段，其中，上述N是自然数；第二确定单元，用于对上述N段语音片段分别进行快速傅立叶变换，以提取出上述N段语音片段中的频率，得到N个频率；第三确定单元，用于分别比较上述N个频率中相邻语音片段的频率之间的特征，得到上述第一语音信号的第一掩码向量。

可选地，上述第二生成模块，包括：第三确定单元，用于对上述第二语音信号按照预设信号时长进行加窗分割，得到M段语音片段，其中，上述M是自然数；第四确定单元，用于对上述M段语音片段分别进行快速傅立叶变换，以提取出上述M段语音片段中的频率，得到M个频率；第五确定单元，用于分别比较上述M个频率中相邻语音片段的频率之间的特征，得到上述第二语音信号的第二掩码向量。

可选地，上述第一确定模块，包括：第六确定单元，用于将上述第一语音信号、上述第一掩码向量以及上述第三语音信号进行第一加权运算，得到上述第一权重值；第七确定单元，用于将上述第二语音信号、上述第二掩码向量以及上述第三语音信号进行第二加权运算，得到上述第二权重值。

可选地，上述第二确定模块，包括：第八确定单元，用于对上述第一权重值和上述第二权重值进行分类占比运算，得到与上述第二语音信号对应的分类占比表，其中，上述分类占比表中的属性参数用于表示对上述第一语音信号中的上述回声信号进行回声抑制的结果；第九确定单元，用于将上述分类占比表中的属性参数确定为上述回声抑制控制参数。

可选地，上述装置还包括：第三确定模块，用于在基于上述第一权重值和上述第二权重值确定与上述第二语音信号匹配的回声抑制控制参数之后，在上述结果为第一等级的情况下，确定上述回声抑制的效果满足第一模式，其中，上述第一模式用于标识上述第三语音信号中未包括上述第一语音信号中的信号，并且与上述第二语音信号中的信号相同；第四确定模块，用于在上述结果为第二等级的情况下，确定上述回声抑制的效果未满足第二模式，其中，上述第一模式的回声抑制的抑制率大于上述第二模式的回声抑制的抑制率。

可选地，上述装置还包括：第五确定模块，用于在利用第一语音信号的频率生成上述第一语音信号的第一掩码向量之前，确定上述第一语音信号发送时间戳及目标时延；第六确定模块，用于按照上述目标时延对上述第一语音信号的上述发送时间戳进行时延补偿，以得到上述第一语音信号的接收时间戳。

可选地，上述第五确定模块，包括：第十确定单元，用于确定上述第一语音信号与上述第三语音信号在时域上的第一时延；第十一确定单元，用于确定上述第二语音信号与上述第三语音信号在时域上的第二时延；第十二确定单元，用于确定上述第一语音信号与上述第三语音信号在频域上的第三时延；第十三确定单元，用于确定上述第二语音信号与上述第三语音信号在频域上的第四时延；第十四确定单元，用于确定上述第一时延、第二时延、第三时延以及上述第四时延的均值方差，得到上述目标时延。

可选地，上述装置还包括：第七确定模块，用于确定上述第一语音信号发送时间戳及目标时延之前，将目标语音片段添加至上述第一语音信号中，得到第四语音信号，其中，上述目标语音片段是上述第一语音信号中在预设频率下的语音片段；第八确定模块，用于从上述目标语音片段和上述第四语音信号之间的频率变化，确定出上述第一语音信号的时延范围，其中，上述目标时延包括在上述时延范围之内。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述回声抑制参数的确定方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的回声抑制参数的确定方法。

在本发明实施例中，采用利用第一语音信号的频率生成第一语音信号的第一掩码向量，其中，第一掩码向量用于标识第一语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，第一语音信号为第一客户端发送给第二客户端的语音信号；利用第二语音信号的频率生成第二语音信号的第二掩码向量，其中，第二掩码向量用于标识第二语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，第二语音信号为第二客户端发送给第一客户端的语音信号；分别确定第一掩码向量与第三语音信号之间的第一权重值，以及第二掩码向量与第三语音信号之间的第二权重值，其中，第三语音信号是对第一语音信号中的回声信号进行回声抑制处理后得到的语音信号；基于第一权重值和第二权重值确定与第二语音信号匹配的回声抑制控制参数，其中，回声抑制控制参数用于指示对第一语音信号中的回声信号进行回声抑制的结果的方式，通过对回声抑制控制参数的确定，达到了利用回声抑制控制参数对回声的抑制更加接近人耳特征的目的，从而实现了有效评估回声抑制的技术效果，进而解决了相关技术中对回声抑制效果评估的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的回声抑制参数的确定方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的回声抑制参数的确定方法的流程图；

图3是根据本发明实施例的一种可选的对回声抑制的示意图；

图4是根据本发明实施例的一种可选的确定预设向量的示意图；

图5是根据本发明实施例的一种可选的分类占比表的示意图；

图6是根据本发明实施例的一种可选的回声抑制评估的整体流程图；

图7是根据本发明实施例的一种可选的回声抑制参数的确定装置的结构示意图；

图8是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种回声抑制参数的确定方法，可选地，作为一种可选的实施方式，上述回声抑制参数的确定方法可以但不限于应用于如图1所示的环境中。

图1中第一客户端102可以运行在用户设备104中。用户设备104中包含有存储器106，用于存储第一客户端102发出的语音信号、处理器108，用于处理第一客户端102的语音信号。用户设备104通过网络110将语音信号发送至服务器112。用户设备120包含有存储器122，用于存储语音信号、处理器124，用于处理语音信号，用户设备102与用户设备118可以通过网络110与服务器112之间进行通信。服务器112中包含有数据库114，用于存储语音信号、处理引擎116，用于处理语音信号。如图1所示，可以将在第一客户端102上发出的第一语音信号通过网络发送至第二客户端118所在的用户设备120。将在第二客户端118上发出的第二语音信号通过网络发送至第一客户端102所在的用户设备。用户设备120对第一语音信号中的回声信号进行回声抑制处理后得到的第三语音信号；服务器112利用第一语音信号的频率生成第一语音信号的第一掩码向量，利用第二语音信号的频率生成第二语音信号的第二掩码向量，其中，掩码向量用于标识语音信号的频率与相邻语音片段的频率的关系；服务器112分别确定出第一掩码向量与第三语音信号之间的第一权重值，以及第二掩码向量与第三语音信号之间的第二权重值，其中，第三语音信号是对第一语音信号中的回声信号进行回声抑制处理后得到的语音信号。基于第一权重值和第二权重值确定与第二语音信号匹配的回声抑制控制参数，其中，回声抑制控制参数用于指示对第一语音信号中的回声信号进行回声抑制的结果。

可选地，在本实施例中，用户设备102、用户设备118可以但不限于为手机、平板电脑、笔记本电脑、PC机等支持运行应用客户端的终端设备。上述服务器112和用户设备102可以但不限于通过网络实现数据交互，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图2所示，上述回声抑制参数的确定方法包括：

S202：利用第一语音信号的频率生成第一语音信号的第一掩码向量，其中，第一掩码向量用于标识第一语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，第一语音信号为第一客户端发送给第二客户端的语音信号；

S204：利用第二语音信号的频率生成第二语音信号的第二掩码向量，其中，第二掩码向量用于标识第二语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，第二语音信号为第二客户端发送给第一客户端的语音信号；

S206：分别确定第一掩码向量与第三语音信号之间的第一权重值，以及第二掩码向量与第三语音信号之间的第二权重值，其中，第三语音信号是对第一语音信号中的回声信号进行回声抑制处理后得到的语音信号；

S208：基于第一权重值和第二权重值确定与第二语音信号匹配的回声抑制控制参数，其中，回声抑制控制参数用于指示对第一语音信号中的回声信号进行回声抑制的结果。

可选地，在本实施例中，上述回声抑制参数的确定方法可以但不限于应用于双向通话、单向通话的场景中。其中，第一客户端和第二客户端可以但不限于为各种具有通话功能的终端，例如，手机之间的通话、网络通话、视频通话等等。具体的，可以但不限于应用于在PSTN通话场景、指通过互联网向用户提供各种应用服务(Over The Top，简称为OTT)通话场景中，以提高回声抑制效果评估的准确性。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，第一语音信号、第二语音信号包括但不限于是各种语音通话的内容，语音通话可以是利用声音来完成信息的传递，一般需借助手机、固定电话等终端设备完成。第一掩码向量、第二掩码向量包括但不限于是“0101”格式的向量。其中的每一个维度的值表示包含的语音片段的频率与相邻片段的频率的关系，第一语音信号中包括5个语音片段，分别是3Hz、2Hz、1Hz、4Hz、6Hz；将第一语音片段的频率值大于第二语音片段的频率值，将第一语音片段的评估值设置为“1”、第二语音片段的评估值设置为“1”，第三语音片段的评估值的计算方式是：第一语音片段的频率值-第三语音片段的频率值＝2Hz，如果设置的目标阈值是1Hz，2大于1，则将第三语音片段的评估值确定为“1”，依次类推，第四语音片段的评估值是“0”，第五语音片段的评估值是“0”，则第一掩码向量是“11100”。第二掩码向量的计算方式与第一掩码向量的计算方式相同，再此不再赘述。

可选地，回声信号可以为由声波反射而引起的重复。本实施例中的回声信号可以指由麦克风与扬声器因空气产生反馈路径而引入的回声现象。回声抑制，也可以是回声消除(Acoustic Echo Cancelling，简称为AEC)，是指透过音波干扰方式消除麦克风与喇叭因空气产生回受路径而产生的杂音。回声抑制后可以存在回声泄露，即经过回声消除算法后，残留的回声声音。

可选地，第三语音信号是经过回声抑制后的语音信号。如图3所示，是对回声信号进行抑制的处理场景。例如，A(近端near end)端设备为扬声器模式，B(远端far end)发出第一语音信号后，当传输到A端时，第一语音信号的回声信号与A发出的第二语音信号一同被A端的麦克风所采集，如不进行任何处理，则声音又会被B端所听到，也就是说，B端听到了自己在前一时序发出的声音，这就是回声现象。在本实施例中，引入回声消除(AcousticEcho Cancelling，简称为AEC)对回声信号进行抑制，即透过音波干扰方式消除麦克风与喇叭因空气产生回受路径而产生的杂音。结合扬声器发出的声音，将对A端采集声音中的回声信号分量进行抑制，输出第三语音信号(回声处理后的信号processed signal)。

通过本实施例，通过对回声抑制控制参数的确定，达到了利用回声抑制控制参数对回声的抑制更加接近人耳特征的目的，从而实现了有效评估回声抑制的技术效果。

在一个可选的实施例中，利用第一语音信号的频率生成第一语音信号的第一掩码向量，包括：

S1，对第一语音信号按照预设信号时长进行加窗分割，得到N段语音片段，其中，N是自然数；

S2，对N段语音片段分别进行快速傅立叶变换，以提取出N段语音片段中的频率，得到N个频率；

S3，分别比较N个频率中相邻语音片段的频率之间的特征，得到第一语音信号的第一掩码向量。

可选地，在本实施例中，加窗分割的目的是将第一语音信号分割为N段语音片段，每个语音片段的频率是不同的。对每段语音片段进行评估，例如，第一语音信号中包括5个语音片段，分别是3Hz、2Hz、1Hz、4Hz、6Hz；将第一语音片段的频率值大于第二语音片段的频率值，将第一语音片段的评估值设置为“1”、第二语音片段的评估值设置为“1”，第三语音片段的评估值的计算方式是：第一语音片段的频率值-第三语音片段的频率值＝2Hz，如果设置的目标阈值是1Hz，2大于1，则将第三语音片段的评估值确定为“1”，依次类推，第四语音片段的评估值是“0”，第五语音片段的评估值是“0”，则第一掩码向量是“11100”，即第一掩码向量的每个维度值是由每一个语音片段的评估值组成的。

通过本实施例，通过对语音信号分段的形式确定出每段语音片段的估计值，可以准确的确定出掩码向量。

在一个可选的实施例中，根利用第二语音信号的频率生成第二语音信号的第二掩码向量，包括：

S1，对第二语音信号按照预设信号时长进行加窗分割，得到M段语音片段，其中，M是自然数；

S2，对M段语音片段分别进行快速傅立叶变换，以提取出M段语音片段中的频率，得到M个频率；

S3，分别比较M个频率中相邻语音片段的频率之间的特征，得到第二语音信号的第二掩码向量。

可选地，在本实施例中，第二掩码向量的确定方式与第一掩码向量的确定方式相同，在此不再赘述。具体的流程如图6中的(c)部分所示。

在一个可选的实施例中，分别确定所述第一掩码向量与第三语音信号之间的第一权重值，以及所述第二掩码向量与所述第三语音信号之间的第二权重值，包括：

S1，将所述第一语音信号、所述第一掩码向量以及所述第三语音信号进行第一加权运算，得到所述第一权重值；

S2，将所述第二语音信号、所述第二掩码向量以及所述第三语音信号进行第二加权运算，得到所述第二权重值。

可选地，在本实施例中，第一加权运算包括但不限于是第一语音信号、第一掩码向量、以及第三语音信号之间的与运算。第二加权运算包括但不限于是第二语音信号、第二掩码向量以及第三语音信号之间的与运算。

通过本实施例，通过对加权值的确定，可以确定出掩码向量对回声泄露的程度与正常语音被误剪切的程度的影响，从而确定出回声估计效果是否更加贴近人耳模式。

在一个可选的实施例中，基于第一权重值和第二权重值确定与第二语音信号匹配的回声抑制控制参数，包括：

S1，对第一权重值和第二权重值进行分类占比运算，得到与第二语音信号对应的分类占比表，其中，分类占比表中的属性参数用于表示对第一语音信号中的回声信号进行回声抑制的结果；

S2，将分类占比表中的属性参数确定为回声抑制控制参数。

可选地，在本实施例中，对第一权重值和第二权重值进行的分类占比运算如图4所示，按照如图4所示的流程，将第一权重值和第二权重值输入至Level time statics中进行计算，输出一个分类占比表(如图5所示)，用于表示回声泄露的程度与正常语音被误剪切的程度，将表示回声泄露的程度与正常语音被误剪切的程度确定为预设向量，整体流程图如图6所示。

通过本实施例，通过对分类占比表的输出，可以确定出分类占比表中每一个属性所表示的回声抑制程度。

在一个可选的实施例中，在基于第一权重值和第二权重值确定与第二语音信号匹配的回声抑制控制参数之后，方法还包括：

S1，在结果为第一等级的情况下，确定回声抑制的效果满足第一模式，其中，第一模式用于标识第三语音信号中未包括第一语音信号中的信号，并且与第二语音信号中的信号相同；

S2，在结果为第二等级的情况下，确定回声抑制的效果未满足第二模式，其中，第一模式的回声抑制的抑制率大于第二模式的回声抑制的抑制率。

可选地，在本实施例中，第一等级可以是图5中所示的分类占比表中的A1、A2。第二等级可以是如图5所示的分类占比表中的B、C、D、E、F、G。A1、A2用于表示回声抑制的效果贴近人耳模式，即第三语音信号中未包括第一语音信号中的信号，并且与第二语音信号中的信号相同。

通过本实施例，通过对不同模式的确定，可以确定出掩码向量对回声泄露的程度与正常语音被误剪切的程度的影响，从而确定出回声估计效果是否更加贴近人耳模式。

在一个可选的实施例中，在利用第一语音信号的频率生成第一语音信号的第一掩码向量之前，方法还包括：

S1，确定第一语音信号发送时间戳及目标时延；

S2，按照目标时延对第一语音信号的发送时间戳进行时延补偿，以得到第一语音信号的接收时间戳。

可选地，在本实施例中，为了保证第一客户端发送的第一语音信号与第二客户端接收的第一语音信号在时序上是对齐的，需要对第一语音信号的接收进行时延补偿。将目标时延补偿值第一语音信号的接收时间中。

通过，本实施例，通过目标时延对语音信号的接收进行时延补偿，保证了双向通信是时序上的对齐。提高了用户体验。

在一个可选的实施例中，确定目标时延，包括：

S1，确定第一语音信号与第三语音信号在时域上的第一时延；

S2，确定第二语音信号与第三语音信号在时域上的第二时延，其中，第三语音信号是第二客户端发出的；

S3，确定第一语音信号与第三语音信号在频域上的第三时延；

S4，确定第二语音信号与第三语音信号在频域上的第四时延；

S5，确定第一时延、第二时延、第三时延以及第四时延的均值方差，得到目标时延。

可选地，在本实施例中，如图6所示，是本实施例中的整体流程图，其中，(a)部分确定预设向量的流程，在此不再赘述。(b)部分是确定目标时延的流程，利用第一语音信号(far end data)、第二语音信号(Processed end data)以及第三语音信号(near enddata)进行目标时延的计算。利用时域互相关的方法计算出第一时延delay_time(processed，near_end),第二时延delay_time(processed，far_end)；将语音信号进行快速傅立叶变换FFT变换，利用频域互相关技术计算出第三时延delay_freq(processed，near_end)，第四时延delay_freq(processed，far_end)。将delay_time，delay_freq输出至一致性&表决单元确定出目标时延。

需要说明的是，利用特征频率法所估计出的目标时延，如果一致性很低，则说明无法满足后续计算条件，整体过程中断。如果一致性满足要求，则确定时延并对数据进行时延补偿操作。

通过本实施例，通过对目标时延的确定，可以准确的对语音信号的时序进行时延补偿。

在一个可选的实施例中，确定第一语音信号发送时间戳及目标时延之前，方法还包括：

S1，将目标语音片段添加至第一语音信号中，得到第四语音信号，其中，目标语音片段是第一语音信号中在预设频率下的语音片段；

S2，从目标语音片段和第四语音信号之间的频率变化，确定出第一语音信号的时延范围，其中，目标时延包括在时延范围之内。

可选地，在相关技术中，采用的方式是计算near end data与processed data两个数据时序互相关程度来估计时延，且默认设置在±0.5s的时间窗口内判断。假如信号时延过大，或者AEC处理能力较差，使得near end语音被错误抑制，而far end语音泄露较多的话，会影响对回声信号的评估。在计算时延时，从目标语音片段和第四语音信号之间的频率变化，确定出第一语音信号的时延范围，即最大时延范围。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述回声抑制参数的确定方法的回声抑制参数的确定装置。如图7所示，该装置包括：

第一生成模块72，用于利用第一语音信号的频率生成第一语音信号的第一掩码向量，其中，第一掩码向量用于标识第一语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，第一语音信号为第一客户端发送给第二客户端的语音信号；

第二生成模块74，用于利用第二语音信号的频率生成第二语音信号的第二掩码向量，其中，第二掩码向量用于标识第二语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，第二语音信号为第二客户端发送给第一客户端的语音信号；

第一确定模块76，用于分别确定第一掩码向量与第三语音信号之间的第一权重值，以及第二掩码向量与第三语音信号之间的第二权重值，其中，第三语音信号是对第一语音信号中的回声信号进行回声抑制处理后得到的语音信号；

第二确定模块78，用于基于第一权重值和第二权重值确定与第二语音信号匹配的回声抑制控制参数，其中，回声抑制控制参数用于指示对第一语音信号中的回声信号进行回声抑制的结果

可选地，上述第一生成模块，包括：

第一确定单元，用于对上述第一语音信号按照预设信号时长进行加窗分割，得到N段语音片段，其中，上述N是自然数；

第二确定单元，用于对上述N段语音片段分别进行快速傅立叶变换，以提取出上述N段语音片段中的频率，得到N个频率；

第三确定单元，用于分别比较上述N个频率中相邻语音片段的频率之间的特征，得到上述第一语音信号的第一掩码向量。

可选地，上述第二生成模块，包括：

第三确定单元，用于对上述第二语音信号按照预设信号时长进行加窗分割，得到M段语音片段，其中，上述M是自然数；

第四确定单元，用于对上述M段语音片段分别进行快速傅立叶变换，以提取出上述M段语音片段中的频率，得到M个频率；

第五确定单元，用于分别比较上述M个频率中相邻语音片段的频率之间的特征，得到上述第二语音信号的第二掩码向量。

可选地，上述第一确定模块，包括：

第六确定单元，用于将上述第一语音信号、上述第一掩码向量以及上述第三语音信号进行第一加权运算，得到上述第一权重值；

第七确定单元，用于将上述第二语音信号、上述第二掩码向量以及上述第三语音信号进行第二加权运算，得到上述第二权重值。

可选地，上述第二确定模块，包括：

第八确定单元，用于对上述第一权重值和上述第二权重值进行分类占比运算，得到与上述第二语音信号对应的分类占比表，其中，上述分类占比表中的属性参数用于表示对上述第一语音信号中的上述回声信号进行回声抑制的结果；

第九确定单元，用于将上述分类占比表中的属性参数确定为上述回声抑制控制参数。

可选地，上述装置还包括：

第三确定模块，用于在基于上述第一权重值和上述第二权重值确定与上述第二语音信号匹配的回声抑制控制参数之后，在上述结果为第一等级的情况下，确定上述回声抑制的效果满足第一模式，其中，上述第一模式用于标识上述第三语音信号中未包括上述第一语音信号中的信号，并且与上述第二语音信号中的信号相同；

第四确定模块，用于在上述结果为第二等级的情况下，确定上述回声抑制的效果未满足第二模式，其中，上述第一模式的回声抑制的抑制率大于上述第二模式的回声抑制的抑制率。

可选地，上述装置还包括：

第五确定模块，用于在利用第一语音信号的频率生成上述第一语音信号的第一掩码向量之前，确定上述第一语音信号发送时间戳及目标时延；

第六确定模块，用于按照上述目标时延对上述第一语音信号的上述发送时间戳进行时延补偿，以得到上述第一语音信号的接收时间戳。

可选地，上述第五确定模块，包括：

第十确定单元，用于确定上述第一语音信号与上述第三语音信号在时域上的第一时延；

第十一确定单元，用于确定上述第二语音信号与上述第三语音信号在时域上的第二时延；

第十二确定单元，用于确定上述第一语音信号与上述第三语音信号在频域上的第三时延；

第十三确定单元，用于确定上述第二语音信号与上述第三语音信号在频域上的第四时延；

第十四确定单元，用于确定上述第一时延、第二时延、第三时延以及上述第四时延的均值方差，得到上述目标时延。

可选地，上述装置还包括：

第七确定模块，用于确定上述第一语音信号发送时间戳及目标时延之前，将目标语音片段添加至上述第一语音信号中，得到第四语音信号，其中，上述目标语音片段是上述第一语音信号中在预设频率下的语音片段；

第八确定模块，用于从上述目标语音片段和上述第四语音信号之间的频率变化，确定出上述第一语音信号的时延范围，其中，上述目标时延包括在上述时延范围之内。

根据本发明实施例的又一个方面，还提供了一种用于实施上述回声抑制参数的确定方法的电子装置，如图8所示，该电子装置包括存储器802和处理器804，该存储器802中存储有计算机程序，该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1：利用第一语音信号的频率生成第一语音信号的第一掩码向量，其中，第一掩码向量用于标识第一语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，第一语音信号为第一客户端发送给第二客户端的语音信号；

S2：利用第二语音信号的频率生成第二语音信号的第二掩码向量，其中，第二掩码向量用于标识第二语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，第二语音信号为第二客户端发送给第一客户端的语音信号；

S3：分别确定第一掩码向量与第三语音信号之间的第一权重值，以及第二掩码向量与第三语音信号之间的第二权重值，其中，第三语音信号是对第一语音信号中的回声信号进行回声抑制处理后得到的语音信号；

S4，基于第一权重值和第二权重值确定与第二语音信号匹配的回声抑制控制参数，其中，回声抑制控制参数用于指示对第一语音信号中的回声信号进行回声抑制的结果。

可选地，本领域普通技术人员可以理解，图8所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图8中所示更多或者更少的组件(如网络接口等)，或者具有与图8所示不同的配置。

其中，存储器802可用于存储软件程序以及模块，如本发明实施例中的回声抑制参数的确定方法和装置对应的程序指令/模块，处理器804通过运行存储在存储器802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的回声抑制参数的确定方法。存储器802可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器802可进一步包括相对于处理器804远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器802具体可以但不限于用于存储语音信号等信息。作为一种示例，如图8所示，上述存储器802中可以但不限于包括上述回声抑制参数的确定装置中的第一生成模块72、第二生成模块74、第一确定模块76以及第二确定模块78。此外，还可以包括但不限于上述回声抑制参数的确定装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置806包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置806为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器808，用于显示上述语音信号；和连接总线810，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种回声抑制参数的确定方法，其特征在于，包括：

利用第一语音信号的频率生成所述第一语音信号的第一掩码向量，其中，所述第一掩码向量用于标识所述第一语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，所述第一语音信号为第一客户端发送给第二客户端的语音信号；

利用第二语音信号的频率生成所述第二语音信号的第二掩码向量，其中，所述第二掩码向量用于标识所述第二语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，所述第二语音信号为所述第二客户端发送给所述第一客户端的语音信号；

分别确定所述第一掩码向量与第三语音信号之间的第一权重值，以及所述第二掩码向量与所述第三语音信号之间的第二权重值，其中，所述第三语音信号是对第一语音信号中的回声信号进行回声抑制处理后得到的语音信号；

基于所述第一权重值和所述第二权重值确定与所述第二语音信号匹配的回声抑制控制参数，其中，所述回声抑制控制参数用于指示对所述第一语音信号中的所述回声信号进行回声抑制的结果。

2.根据权利要求1所述的方法，其特征在于，利用所述第一语音信号的频率生成所述第一语音信号的第一掩码向量，包括：

对所述第一语音信号按照预设信号时长进行加窗分割，得到N段语音片段，其中，所述N是自然数；

对所述N段语音片段分别进行快速傅立叶变换，以提取出所述N段语音片段中的频率，得到N个频率；

分别比较所述N个频率中相邻语音片段的频率之间的特征，得到所述第一语音信号的第一掩码向量。

3.根据权利要求1所述的方法，其特征在于，利用所述第二语音信号的频率生成所述第二语音信号的第二掩码向量，包括：

对所述第二语音信号按照预设信号时长进行加窗分割，得到M段语音片段，其中，所述M是自然数；

对所述M段语音片段分别进行快速傅立叶变换，以提取出所述M段语音片段中的频率，得到M个频率；

分别比较所述M个频率中相邻语音片段的频率之间的特征，得到所述第二语音信号的第二掩码向量。

4.根据权利要求1所述的方法，其特征在于，分别确定所述第一掩码向量与第三语音信号之间的第一权重值，以及所述第二掩码向量与所述第三语音信号之间的第二权重值，包括：

将所述第一语音信号、所述第一掩码向量以及所述第三语音信号进行第一加权运算，得到所述第一权重值；

将所述第二语音信号、所述第二掩码向量以及所述第三语音信号进行第二加权运算，得到所述第二权重值。

5.根据权利要求1所述的方法，其特征在于，基于所述第一权重值和所述第二权重值确定与所述第二语音信号匹配的回声抑制控制参数，包括：

对所述第一权重值和所述第二权重值进行分类占比运算，得到与所述第二语音信号对应的分类占比表，其中，所述分类占比表中的属性参数用于表示对所述第一语音信号中的所述回声信号进行回声抑制的结果；

将所述分类占比表中的属性参数确定为所述回声抑制控制参数。

6.根据权利要求1所述的方法，其特征在于，在基于所述第一权重值和所述第二权重值确定与所述第二语音信号匹配的回声抑制控制参数之后，所述方法还包括：

在所述结果为第一等级的情况下，确定所述回声抑制的效果满足第一模式，其中，所述第一模式用于标识所述第三语音信号中未包括所述第一语音信号中的信号，并且与所述第二语音信号中的信号相同；

在所述结果为第二等级的情况下，确定所述回声抑制的效果未满足第二模式，其中，所述第一模式的回声抑制的抑制率大于所述第二模式的回声抑制的抑制率。

7.根据权利要求1所述的方法，其特征在于，在利用第一语音信号的频率生成所述第一语音信号的第一掩码向量之前，所述方法还包括：

确定所述第一语音信号发送时间戳及目标时延；

按照所述目标时延对所述第一语音信号的所述发送时间戳进行时延补偿，以得到所述第一语音信号的接收时间戳。

8.根据权利要求7所述的方法，其特征在于，确定所述目标时延，包括：

确定所述第一语音信号与所述第三语音信号在时域上的第一时延；

确定所述第二语音信号与所述第三语音信号在时域上的第二时延；

确定所述第一语音信号与所述第三语音信号在频域上的第三时延；

确定所述第二语音信号与所述第三语音信号在频域上的第四时延；

确定所述第一时延、第二时延、第三时延以及所述第四时延的均值方差，得到所述目标时延。

9.根据权利要求7所述的方法，其特征在于，确定所述第一语音信号发送时间戳及目标时延之前，所述方法还包括：

将目标语音片段添加至所述第一语音信号中，得到第四语音信号，其中，所述目标语音片段是所述第一语音信号中在预设频率下的语音片段；

从所述目标语音片段和所述第四语音信号之间的频率变化，确定出所述第一语音信号的时延范围，其中，所述目标时延包括在所述时延范围之内。

10.一种回声抑制参数的确定装置，其特征在于，包括：

第一生成模块，用于利用第一语音信号的频率生成所述第一语音信号的第一掩码向量，其中，所述第一掩码向量用于标识所述第一语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，所述第一语音信号为第一客户端发送给第二客户端的语音信号；

第二生成模块，用于利用第二语音信号的频率生成所述第二语音信号的第二掩码向量，其中，所述第二掩码向量用于标识所述第二语音信号中包含的语音片段的频率与相邻语音片段的频率的关系，所述第二语音信号为所述第二客户端发送给所述第一客户端的语音信号；

第一确定模块，用于分别确定所述第一掩码向量与第三语音信号之间的第一权重值，以及所述第二掩码向量与所述第三语音信号之间的第二权重值，其中，所述第三语音信号是对第一语音信号中的回声信号进行回声抑制处理后得到的语音信号；

第二确定模块，用于基于所述第一权重值和所述第二权重值确定与所述第二语音信号匹配的回声抑制控制参数，其中，所述回声抑制控制参数用于指示对所述第一语音信号中的所述回声信号进行回声抑制的结果。

11.一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至9任一项中所述的方法。

12.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。