CN110061814B

CN110061814B - 一种语音延时抖动控制方法、装置、电子设备及存储介质

Info

Publication number: CN110061814B
Application number: CN201910346204.3A
Authority: CN
Inventors: 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2022-03-25
Anticipated expiration: 2039-04-26
Also published as: CN110061814A

Abstract

本申请实施例提供了一种语音延时抖动控制方法、装置、电子设备及存储介质，所述方法包括：接收对端发送的语音包；确定语音包的延时分布；基于语音包的延时分布及预先收集的用户体验质量信息，确定目标缓存数据量，其中，用户体验质量信息为表征用户体验质量与语音包的缓存数据量之间关系的信息；基于目标缓存数据量及所接收到的语音包的数据量，对语音包的延时抖动进行控制。由于目标延时为根据收集的用户体验质量信息确定的，用户体验质量信息能够反映用户主观感受，所以能够提高用户体验，使得用户体验得到保证。

Description

一种语音延时抖动控制方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音延时抖动控制方法、装置、电子设备及存储介质。

背景技术

对语音包的延时抖动控制在语音传输过程中有重要作用，例如，在网络通话中，每隔一段时间，语音包会被收集，存储并发到语音处理器等设备，由于网络拥塞、定时漂移或路由变更等原因，语音包的到达时间会发生变化，也就是产生延时抖动。

由于语音包的接收端的缓存数据量过小，语音包的到达时间也就是延时较高时，接收端所接收到的数据量较小，可能没有缓存的语音包进行播放，会导致语音播放不连贯，而语音包的接收端的缓存数据量过大，会导致新到达的语音包需要等待较长时间才能被播放，导致播放延时过大，所以语音包的接收端需要适应网络延迟的改变，对延时抖动进行控制，也就是设定适当的缓存数据量，进而根据所接收到的所述语音包的数据量及设定的缓存数据量，进行延时抖动控制，以提供给用户一个清晰连贯的语音数据。

目前对延时抖动控制方式一般基于语音包的丢包率或者延时，具体来说，由于丢包率或者延时达到一定值时，会导致语音不连贯不清晰等问题，所以相关技术中设定丢包率或者延时的阈值，将该丢包率或者延时的阈值作为设定语音包的缓存数据量的客观指标。

采用丢包率或者延时的阈值作为客观指标进行延时抖动控制，并不能反映用户的主观体验质量，也就不能使用户最终体验质量达到最优。即使语音包的丢包率或者延时满足该客观指标，用户也可能对语音的连贯性及清晰度不满，并不能确保用户体验得到保证。

发明内容

为克服相关技术中存在的问题，本申请实施例提供一种语音延时抖动控制方法、装置、电子设备及存储介质。具体技术方案如下：

根据本申请实施例的第一方面，提供一种语音延时抖动控制方法，所述方法包括：

接收对端发送的语音包；

确定所述语音包的延时分布；

基于所述语音包的延时分布及预先收集的用户体验质量信息，确定目标缓存数据量，其中，所述用户体验质量信息为表征用户体验质量与语音包的缓存数据量之间关系的信息；

基于所述目标缓存数据量及所接收到的所述语音包的数据量，对所述语音包的延时抖动进行控制。

作为一种实施方式，所述基于所述语音包的延时分布及预先收集的用户体验质量信息，确定目标缓存数据量的步骤，包括：

基于收集的用户体验质量信息，确定语音包的缓存数据量x与延时用户体验评分之间的关系QoE₁(x)；

基于收集的用户体验质量信息，确定语音包的缓存数据量x与音质用户体验评分之间的关系QoE₂(x)；

根据公式QoE(x)＝g1×QoE₁(x)+g2×QoE₂(x)，确定在所述语音包的延时分布对应的缓存数据量范围内的使得Q0E(x)达到预设值的目标缓存数据量x′；

其中，g1及g2分别为预先确定的延时用户体验评分对应的目标加权系数及音质用户体验评分对应的目标加权系数，QoE(x)为用户体验质量得分。

作为一种实施方式，所述目标加权系数的确定方式，包括：

确定当前应用类型；

根据预先确定的应用类型与加权系数的对应关系，确定所述当前应用类型所对应的目标加权系数。

作为一种实施方式，所述预设值为最大值。

作为一种实施方式，所述基于所述目标缓存数据量及所接收到的所述语音包的数据量，对所述语音包的延时抖动进行控制的步骤，包括：

如果接收到的所述语音包的数据量高于所述目标缓存数据量且二者差值达到第一阈值，丢弃第一预设数量的语音包，并缓存丢弃后的剩余语音包；

如果接收到的所述语音包的数据量低于所述目标缓存数据量且二者差值达到第二阈值，***第二预设数量的语音包，并缓存***后的所有语音包；

如果接收到的所述语音包的数据量不高于第一数据量，且不低于第二数据量，缓存所接收到的语音包，其中，所述第一数据量为所述目标缓存数据量与所述第一阈值的和，所述第二数据量为所述目标缓存数据量与所述第二阈值的差。

根据本申请实施例的第二方面，提供一种语音延时抖动控制装置，所述装置包括：

语音包接收模块，被配置为接收对端发送的语音包；

延时分布确定模块，被配置为确定所述语音包的延时分布；

目标缓存数据量确定模块，被配置为基于所述语音包的延时分布及预先收集的用户体验质量信息，确定目标缓存数据量，其中，所述用户体验质量信息为表征用户体验质量与语音包的缓存数据量之间关系的信息；

延时抖动控制模块，被配置为基于所述目标缓存数据量及所接收到的所述语音包的数据量，对所述语音包的延时抖动进行控制。

作为一种实施方式，所述目标缓存数据量确定模块包括：

第一关系确定单元，被配置为基于收集的用户体验质量信息，确定语音包的缓存数据量x与延时用户体验评分之间的关系QoE₁(x)；

第二关系确定单元，被配置为基于收集的用户体验质量信息，确定语音包的缓存数据量x与音质用户体验评分之间的关系QoE₂(x)；

目标延时确定单元，被配置为根据公式QoE(x)＝g1×QoE₁(x)+g2×QoE₂(x)，确定在所述语音包的延时分布对应的缓存数据量范围内的使得QoE(x)达到预设值的目标缓存数据量x′；

其中，x为所述语音包的缓存数据量，g1及g2分别为加权系数确定模块预先确定的延时用户体验评分对应的目标加权系数及音质用户体验评分对应的目标加权系数，QoE(x)为用户体验质量得分。

作为一种实施方式，所述加权系数确定模块包括：

环境应用类型确定单元，被配置为确定当前应用类型；

加权系数确定单元，被配置为根据预先确定的应用类型与加权系数的对应关系，确定所述当前应用类型所对应的目标加权系数。

作为一种实施方式，所述预设值为最大值。

作为一种实施方式，所述延时抖动控制模块包括：

第一延时抖动控制单元，被配置为如果接收到的所述语音包的数据量高于所述目标缓存数据量且二者差值达到第一阈值，丢弃第一预设数量的语音包，并缓存丢弃后的剩余语音包；

第二延时抖动控制单元，被配置为如果接收到的所述语音包的数据量低于所述目标缓存数据量且二者差值达到第二阈值，***第二预设数量的语音包，并缓存***后的所有语音包；

第三延时抖动控制单元，被配置为如果接收到的所述语音包的数据量不高于第一数据量，且不低于第二数据量，缓存所接收到的语音包，其中，所述第一数据量为所述目标缓存数据量与所述第一阈值的和，所述第二数据量为所述目标缓存数据量与所述第二阈值的差。

根据本申请实施例的第三方面，提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的计算机程序时，实现上述任一所述的语音延时抖动控制方法步骤。

根据本申请实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述任一所述的语音延时抖动控制方法步骤。

本申请实施例所提供的方案中，电子设备可以接收对端发送的语音包，然后确定语音包的延时分布，进而基于语音包的延时分布及预先收集的用户体验质量信息，确定目标缓存数据量，基于目标缓存数据量及所接收到的语音包的数据量，对语音包的延时抖动进行控制，其中，用户体验质量信息为表征用户体验质量与语音包的缓存数据量之间关系的信息。由于目标缓存数据量为根据收集的用户体验质量信息及语音包的延时分布确定的，用户体验质量信息能够反映用户主观感受，所以能够提高用户体验，使得用户体验得到保证。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种语音延时抖动控制方法的流程图；

图2是根据一示例性实施例示出的语音包延时分布概率与语音包缓存数据量之间的关系曲线；

图3是根据一示例性实施例示出的图1中步骤S103的一种具体流程图；

图4是根据一示例性实施例示出的用户体验评分与语音包缓存数据量之间的关系曲线；

图5是根据一示例性实施例示出的一种语音延时抖动控制装置的框图；

图6是根据一示例性实施例示出的一种电子设备的框图；

图7是根据一示例性实施例示出的电子设备的一种具体框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为了提高用户体验，本申请实施例提供了一种语音延时抖动控制方法、装置、电子设备及非临时性计算机可读存储介质。

下面首先对本申请实施例所提供的一种语音延时抖动控制方法进行介绍。

本申请实施例所提供的一种语音延时抖动控制方法可以应用于任意需要对语音延时抖动进行控制的电子设备，例如，语音包的接收端设备、语音处理器、抖动控制器等，在此不做具体限定。为了描述方便，以下简称电子设备。

如图1所示，一种语音延时抖动控制方法，所述方法包括步骤S101-步骤S104：

在步骤S101中，接收对端发送的语音包；

在步骤S102中，确定所述语音包的延时分布；

在步骤S103中，基于所述语音包的延时分布及预先收集的用户体验质量信息，确定目标缓存数据量；

其中，所述用户体验质量信息为表征用户体验质量与语音包的缓存数据量之间关系的信息。

在步骤S104中，基于所述目标缓存数据量及所接收到的所述语音包的数据量，对所述语音包的延时抖动进行控制。

可见，本申请实施例所提供的方案中，电子设备可以接收对端发送的语音包，然后确定语音包的延时分布，进而基于语音包的延时分布及预先收集的用户体验质量信息，确定目标缓存数据量，基于目标缓存数据量及所接收到的语音包的数据量，对语音包的延时抖动进行控制，其中，用户体验质量信息为表征用户体验质量与语音包的缓存数据量之间关系的信息。由于目标缓存数据量为根据收集的用户体验质量信息及语音包的延时分布确定的，用户体验质量信息能够反映用户主观感受，所以能够提高用户体验，使得用户体验得到保证。

在上述步骤S101中，电子设备可以接收对端发送的语音包，例如，在语音会议、视频会议、语音授课等场景下，电子设备便可以接收对端发送的语音包。其中，对端即为与电子设备进行语音交互，发送语音包至电子设备的一端。

进而，在上述步骤S102中，为了对语音延时抖动进行控制，电子设备可以确定语音包的延时分布。语音包的延时分布即为在一段时间内语音包在各延时对应的分布概率，其表征了对应各个延时所出现的语音包的多少。例如，如图2所示为语音包延时分布概率与语音包延时的关系曲线，从图2中可以看出，语音包的延时大概分布在5毫秒至90毫秒之间。

进而，电子设备可以基于语音包的延时分布及预先收集的用户体验质量信息，确定目标缓存数据量，也就是执行上述步骤S103。其中，用户体验质量信息可以为表征用户体验质量与语音包的缓存数据量之间关系的信息。

在一种实施方式中，电子设备可以预先获取用户体验质量信息。例如，用户体验质量信息可以为用户使用时长、用户反馈满意度、用户评分等与语音包的缓存数据量之间关系。进而，由于用户体验质量信息对应的语音包的缓存数据量是可以确定的，电子设备便可以确定使得用户体验质量最佳的语音包的缓存数据量，将其确定为目标的缓存数据量。

例如，用户体验质量信息为用户评分，当语音包的缓存数据量为A时，用户评分的平均值最高，那么说明语音包的缓存数据量为A时，大部分用户的用户体验质量是最佳的，所以电子设备便可以基于语音包的延时分布及缓存数据量为A确定目标缓存数据量。

在上述步骤S104中，确定了目标缓存数据量后，电子设备便可以基于该目标缓存数据量及所接收到的所述语音包的数据量，对语音包的延时抖动进行控制，以提高用户体验。

作为本申请实施例的一种实施方式，如图3所示，上述基于所述语音包的延时分布及预先收集的用户体验质量信息，确定目标缓存数据量的步骤，可以包括：

步骤S301，基于收集的用户体验质量信息，确定语音包的缓存数据量x与延时用户体验评分之间的关系QoE₁(x)；

为了尽量提高用户体验，电子设备收集的用户体验质量信息可以包括多方面的用户体验评分数据，这样可以反映多方面的用户体验。例如，可以包括反映用户对语音包的播放延时、音质等方面体验的数据。

电子设备收集得到用户体验质量信息后，可以基于收集的用户体验质量信息，确定语音包的缓存数据量与延时用户体验评分之间的关系QoE₁(x)。在一种实施方式中，可以通过关系曲线的方式表示语音包的缓存数据量与延时用户体验评分之间的关系QoE₁(x)。

一般情况下，语音包的缓存数据量越高，用户听到语音的播放延时越大，用户对延时方面的评分则会越低。例如，如图4所示的关系曲线中的曲线401，可以看出语音包的缓存数据量与延时用户体验评分之间的关系为：语音包的缓存数据量越高，延时用户体验评分越低，那么从延时用户体验评分的角度来说，语音包的缓存数据量越低越好。其中，语音包的缓存数据量可以通过毫秒等时间单位度量，其表示了缓存的语音包的时长。

步骤S302，基于收集的用户体验质量信息，确定语音包的缓存数据量x与音质用户体验评分之间的关系QoE₂(x)；

同理的，电子设备收集得到用户体验质量信息后，可以基于收集的用户体验质量信息，确定语音包的缓存数据量与音质用户体验评分之间的关系QoE₂(x)。在一种实施方式中，可以通过关系曲线的方式表示语音包的缓存数据量与音质用户体验评分之间的关系QoE₂(x)。

一般情况下，语音包的缓存数据量越高，则可以在本地缓存更多的语音包，便可以减小语音包的丢包率，能够提高音质，用户对音质方面的评分则会越高。

例如，如图4所示的关系曲线中的曲线402，可以看出，语音包的缓存数据量与音质用户体验评分之间的关系为：语音包的缓存数据量越高，音质用户体验评分越高，那么从音质用户体验评分的角度来说，语音包的缓存数据量则越高越好。

需要说明的是，上述步骤S301和步骤S302的执行顺序并不影响确定目标延时，可以先执行步骤S301，再执行步骤S302；也可以先执行步骤S302，再执行步骤S301，这都是合理的。

步骤S303，根据公式QoE(x)＝g1×QoE₁(x)+g2×QoE₂(x)，确定在所述语音包的延时分布对应的缓存数据量范围内的使得QoE(x)达到预设值的目标缓存数据量x′。

由于各方面的用户体验评分与语音包的延时之间关系可能是不同，有的用户体验评分可能要求语音包的延时越高越好，有的用户体验评分可能要求语音包的延时越低越好，所以为了使用户体验尽量达到最佳，尽可能的提高用户体验，电子设备可以根据公式QoE(x)＝g1×QoE₁(x)+g2×QoE₂(x)，确定使得QoE(x)取得预设值的目标缓存数据量x′。

其中，x为语音包的缓存数据量，g1为预先确定的延时用户体验评分对应的目标加权系数，g2为预先确定的音质用户体验评分对应的目标加权系数，QoE(x)即为表示用户体验的用户体验质量得分。g1及g2的取值可以根据对应的方面的用户体验评分对于用户体验质量的重要程度确定。

例如，如果延时用户体验评分更为重要，那么可以确定g1较高，例如可以为0.6、0.7、0.8等；如果音质用户体验评分更为重要，那么可以确定g2较高，例如可以为0.65、0.78、0.9等，在此不做具体限定。

但是由于网络延时的不稳定性，有较小概率存在延时非常大和非常小的语音包，因此，如果想要目标缓存数据量能应对所有语音包的延时，那么目标缓存数据量会很高，导致语音的播放延时太大；如果目标缓存数据量过小，那么会导致无法应对大多数语音包的延时，语音播放会不连续，音质很差。所以，电子设备可以在所接收到的语音包的延时分布对应缓存数据量的范围内，确定使得QoE(x)取得预设值的目标缓存数据量x′，这样，可以尽可能同时满足播放延时和音质两方面的要求，提高用户体验。

在一种实施方式中，为了提高用户体验，上述预设值可以设置的较高，例如，如果采用百分制表示用户体验评分，那么上述预设值可以为80、90、100等。在另一种实施方式中，电子设备可以根据QoE(x)＝g1×QoE₁(x)+g2×QoE₂(x)计算得到QoE(x)的取值范围，进而确定上述预设值，例如，可以为QoE(x)的取值范围中的较高的值。

降低目标缓存数据量可以获得较小的语音播放延时，但会增大丢包率，而降低语音的音质；反之，提高目标缓存数据量可以减小丢包率而提高语音的音质，但是增大了语音播放延时。

例如，从图2中可以看出，如果目标缓存数据量为70毫秒左右对应的缓存数据量，可以使大多数语音包满足延时要求，同时丢包率不会过高，保证语音的音质。所以通过上述公式确定的目标缓存数据量即为能够满足大多数语音包的延时，又能同时使用户体验质量评分较高的缓存数据量。

可见，在本实施例中，电子设备可以基于收集的用户体验质量信息，确定语音包的缓存数据量与延时用户体验评分之间的关系QoE₁(x)以及语音包的缓存数据量与音质用户体验评分之间的关系QoE₂(x)，进而，根据公式QoE(x)＝g1×QoE₁(x)+g2×QoE₂(x)，确定使得QoE(x)达到预设值的目标延时。这样，可以从多方面用户体验角度确定目标缓存数据量，使得用户体验更佳。

由于在不同应用中，用户对体验质量的要求是不同的，用户体验评分也就不同，为了更加适应用户要求，进一步提高用户体验，作为本申请实施例的一种实施方式，上述目标加权系数的确定方式，可以包括：

确定当前应用类型；根据预先确定的应用类型与加权系数的对应关系，确定所述当前应用类型所对应的目标加权系数。

首先，电子设备可以确定当前应用类型，其中，应用类型可以包括多方网络会议、网络授课等类型。在各应用中用户对于语音包的不同方面因素的感受是不同的。

例如，一般情况下，对于多方网络会议来说，通话的各方会频繁的交流，这就需要极低的延时体验，用户对播放延时的要求较高。而对于网络授课来捉，往往其中的一方要连续讲解很长时间，通话各方的交互的也不是很频繁，这时用户就对播放延时要求不高，但是希望音质体验好一些。

所以，电子设备可以预先根据各种应用类型对应的用户体验要求，确定应用类型与加权系数的对应关系。例如，应用类型包括类型A、类型B及类型C，对于类型A来说，延时用户体验评分对应的用户体验因素更重要，音质用户体验评分对应的用户体验因素不是很重要，那么类型A对应的加权系数可以为g1＝0.8，g2＝0.2；对于类型B来说，延时用户体验评分对应的用户体验因素不重要，音质用户体验评分对应的用户体验因素很重要，那么类型B对应的加权系数可以为g1＝0.1，g2＝0.9；对于类型C来说，延时用户体验评分对应的用户体验因素与音质用户体验评分对应的用户体验因素重要程度相同，那么类型C对应的加权系数可以为g1＝0.5，g2＝0.5。

为了方便记录和确定目标加权系数，电子设备可以采用表格的方式记录应用类型与加权系数的对应关系，依然以上述例子为例，那么表格可以如下：

应用类型	g1	g2
			A	0.8	0.2
B	0.9	0.1
			C	0.5	0.5

这样，电子设备确定当前应用类型后，便可以查找预先确定的应用类型与加权系数的对应关系，确定当前应用类型所对应的目标加权系数。例如，当前应用类型为B，那么电子设备便可以确定目标加权系数为g1＝0.1，g2＝0.9。

可见，在本实施例中，电子设备可以确定当前应用类型，进而根据预先确定的应用类型与加权系数的对应关系，确定当前应用类型所对应的目标加权系数。这样，确定的目标加权系数适应当前应用类型，能够更加符合用户的要求，进一步提高用户体验。

为了使用户体验能够达到最佳，作为本申请实施例的一种实施方式，上述预设值可以为最大值。也就是说，电子设备可以根据公式QoE(x)＝g1×QoE₁(x)+g2×QoE₂(x)，确定使得QoE(x)达到最大值的目标缓存数据量x′。其中，QoE₁(x)可以为用户对语音包的延时进行评价得到的评分与语音包的缓存数据量之间的关系，QoE₂(x)可以为用户对语音包的音质进行评价得到的评分与语音包的缓存数据量之间的关系。

可见，在本实施例中，电子设备确定的目标缓存数据量x′可以同时满足用户对延时及音质两方面的要求，使得用户体验达到最佳。

作为本申请实施例的一种实施方式，上述基于所述目标缓存数据量及所接收到的所述语音包的数据量，对所述语音包的延时抖动进行控制的步骤，可以包括：

如果接收到的所述语音包的数据量高于所述目标缓存数据量且二者差值达到第一阈值，丢弃第一预设数量的语音包，并缓存丢弃后的剩余语音包；如果接收到的所述语音包的数据量低于所述目标缓存数据量且二者差值达到第二阈值，***第二预设数量的语音包，并缓存***后的所有语音包；如果接收到的所述语音包的数据量不高于第一数据量，且不低于第二数据量，缓存所接收到的语音包，其中，所述第一数据量为所述目标缓存数据量与所述第一阈值的和，所述第二数据量为所述目标缓存数据量与所述第二阈值的差。

电子设备在对上述语音包的延时抖动进行控制时可以包括三种情况：

第一种情况：如果所接收的语音包的数据量高于上述目标缓存数据量，并且二者差值达到第一阈值，说明此时接收到的语音包的数据量过高，不能满足用户体验对语音播放延时的要求，那么电子设备则可以丢弃第一预设数量的语音包，并缓存丢弃后的剩余语音包，这样，语音包的数据量便可以降低，可以降低语音包的播放延时，以满足用户体验要求。

第二种情况：如果所接收到的语音包的数据量低于上述目标缓存数据量，并且二者差值达到第二阈值，说明此时接收到的语音包的数据量过低，丢包率很高，不能满足用户体验对语音音质的要求，那么电子设备则可以***第二预设数量的语音包，并缓存***后的所有语音包。这样，在播放缓存的语音包时可以提高语音的连续性，提高语音音质，满足用户体验的需求。

其中，电子设备丢弃语音包及***语音包的具体方式均可以采用语音延时抖动控制领域的相关方式，在此不做具体限定及说明。第一阈值、第二阈值、第一预设数量及第二预设数量均可以根据实际应用场景等因素确定，在此不做具体限定。

第三种情况：如果接收到的语音包的数据量不高于第一数据量，且不低于第二数据量，其中，第一数据量为目标缓存数据量与第一阈值的和，第二数据量为目标缓存数据量与第二阈值的差。也就是说，接收到的语音包的数据量处于上述两种情况对应的数据量之间，那么说明此时接收到的语音包的数据量适中，没有过高也没有过低，可以满足用户需要，所以电子设备可以不对语音包进行丢弃或***处理，而是缓存所接收到的语音包即可。

可见，在本实施例中，如果所接收到的语音包的数据量高于目标缓存数据量且二者差值达到第一阈值，电子设备可以丢弃第一预设数量的语音包，并缓存丢弃后的剩余语音包；如果所接收到的语音包的数据量低于目标缓存数据量且二者差值达到第二阈值，电子设备可以***第二预设数量的语音包，并缓存***后的所有语音包，如果接收到的语音包的数据量不高于第一数据量，且不低于第二数据量，缓存所接收到的语音包。这样，可以对语音包的延时抖动进行有效控制，满足用户需要，提高用户体验。

图5是根据一示例性实施例示出的一种语音延时抖动控制置框图。如图5所示，一种语音延时抖动控制装置，其特征在于，所述装置包括：

语音包接收模块510，被配置为接收对端发送的语音包；

延时分布确定模块520，被配置为确定所述语音包的延时；

目标缓存数据量确定模块530，被配置为基于所述语音包的延时分布及预先收集的用户体验质量信息，确定目标缓存数据量；

延时抖动控制模块540，被配置为基于所述目标缓存数据量及所接收到的所述语音包的数据量，对所述语音包的延时抖动进行控制。

可见，本申请实施例所提供的方案中，电子设备可以接收对端发送的语音包，然后确定语音包的延时分布，进而基于语音包的延时分布及收集的用户体验质量信息，确定目标缓存数据量，基于目标缓存数据量及所接收到的语音包的数据量，对语音包的延时抖动进行控制，其中，用户体验质量信息为表征用户体验质量与语音包的缓存数据量之间关系的信息。由于目标缓存数据量为根据收集的用户体验质量信息及语音包的延时分布确定的，用户体验质量信息能够反映用户主观感受，所以能够提高用户体验，使得用户体验得到保证。

作为本申请实施例的一种实施方式，上述目标缓存数据量确定模块530可以包括：

第一关系确定单元(图5中未示出)，被配置为基于收集的用户体验质量信息，确定语音包的缓存数据量x与延时用户体验评分之间的关系QoE₁(x)；

第二关系确定单元(图5中未示出)，被配置为基于收集的用户体验质量信息，确定语音包的缓存数据量x与音质用户体验评分之间的关系QoE₂(x)；

目标延时确定单元(图5中未示出)，被配置为根据公式QoE(x)＝g1×QoE₁(x)+g2×QoE₂(x)，确定在所述语音包的延时分布对应的缓存数据量范围内的使得QoE(x)达到预设值的目标缓存数据量x′；

作为本申请实施例的一种实施方式，上述加权系数确定模块可以包括：

应用类型确定单元(图5中未示出)，被配置为确定当前应用类型；

加权系数确定单元(图5中未示出)，被配置为根据预先确定的应用类型与加权系数的对应关系，确定所述当前应用类型所对应的目标加权系数。

作为本申请实施例的一种实施方式，上述预设值可以为最大值。

作为本申请实施例的一种实施方式，上述延时抖动控制模块540可以包括：

第一延时抖动控制单元(图5中未示出)，被配置为如果接收到的所述语音包的数据量高于所述目标缓存数据量且二者差值达到第一阈值，丢弃第一预设数量的语音包，并缓存丢弃后的剩余语音包；

第二延时抖动控制单元(图5中未示出)，被配置为如果接收到的所述语音包的数据量低于所述目标缓存数据量且二者差值达到第二阈值，***第二预设数量的语音包，并缓存***后的所有语音包；

第三延时抖动控制单元(图5中未示出)，被配置为如果接收到的所述语音包的数据量不高于第一数据量，且不低于第二数据量，缓存所接收到的语音包。

其中，所述第一数据量为所述目标缓存数据量与所述第一阈值的和，所述第二数据量为所述目标缓存数据量与所述第二阈值的差。

本申请实施例还提供了一种电子设备，如图6所示，电子设备可以包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

接收对端发送的语音包；

确定所述语音包的延时分布；

基于所述语音包的延时分布及预先收集的用户体验质量信息，确定目标缓存数据量；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

其中，上述基于所述语音包的延时分布及预先收集的用户体验质量信息，确定目标缓存数据量的步骤，可以包括：

根据公式QoE(x)＝g1×QoE₁(x)+g2×QoE₂(x)，确定在所述语音包的延时分布对应的缓存数据量范围内的使得QoE(x)达到预设值的目标缓存数据量x′；

其中，x为所述语音包的缓存数据量，g1及g2分别为预先确定的延时用户体验评分对应的目标加权系数及音质用户体验评分对应的目标加权系数，QoE(x)为用户体验质量得分。

其中，上述目标加权系数的确定方式，可以包括：

确定当前应用类型；

其中，上述预设值可以为最大值。

其中，上述所述目标缓存数据量及所接收到的所述语音包的数据量，对所述语音包的延时抖动进行控制的步骤，可以包括：

如果接收到的所述语音包的数据量不高于第一数据量，且不低于第二数据量，缓存所接收到的语音包。

图7是根据一示例性实施例示出的一种电子设备700的框图。例如，电子设备700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理***，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到电子设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变，用户与电子设备700接触的存在或不存在，电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例中任一所述的语音延时抖动控制方法。

本申请实施例还提供了一种应用程序产品，该应用程序产品用于在运行时执行上述实施例中任一所述的语音延时抖动控制方法。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由上面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种语音延时抖动控制方法，其特征在于，所述方法包括：

接收对端发送的语音包；

确定所述语音包的延时分布；

基于所述目标缓存数据量及所接收到的所述语音包的数据量，对所述语音包的延时抖动进行控制；

其中，所述基于所述目标缓存数据量及所接收到的所述语音包的数据量，对所述语音包的延时抖动进行控制的步骤，包括：

2.如权利要求1所述的方法，其特征在于，所述基于所述语音包的延时分布及预先收集的用户体验质量信息，确定目标缓存数据量的步骤，包括：

3.如权利要求2所述的方法，其特征在于，所述目标加权系数的确定方式，包括：

确定当前应用类型；

4.如权利要求2所述的方法，其特征在于，所述预设值为最大值。

5.一种语音延时抖动控制装置，其特征在于，所述装置包括：

语音包接收模块，被配置为接收对端发送的语音包；

延时分布确定模块，被配置为确定所述语音包的延时分布；

延时抖动控制模块，被配置为基于所述目标缓存数据量及所接收到的所述语音包的数据量，对所述语音包的延时抖动进行控制；

其中，所述延时抖动控制模块包括：

6.如权利要求5所述的装置，其特征在于，所述目标缓存数据量确定模块包括：

7.如权利要求6所述的装置，其特征在于，所述加权系数确定模块包括：

应用类型确定单元，被配置为确定当前应用类型；

8.如权利要求6所述的装置，其特征在于，所述预设值为最大值。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的计算机程序时，实现权利要求1-4任一所述的方法步骤。

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行权利要求1-4任一所述的方法步骤。