CN114979798A

CN114979798A - 播放速度控制方法和电子设备

Info

Publication number: CN114979798A
Application number: CN202210425500.4A
Authority: CN
Inventors: 程戈
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-08-30
Anticipated expiration: 2042-04-21
Also published as: WO2023202522A1; CN114979798B

Abstract

本申请公开了一种播放速度控制方法和电子设备，属于音频技术领域。具体方案包括：获取目标流媒体；按照预设帧长将经过短时分帧处理的所述目标流媒体的语音帧进行分割处理，得到多个长时帧；分别确定每个所述长时帧的长时谱能量差异特征值，并根据所述长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段；按照第一速度输出所述目标流媒体中的第一流媒体片段，按照第二速度输出所述目标流媒体中的第二流媒体片段；其中，所述第一流媒体片段为包含语音信息的流媒体数据，所述第二流媒体片段为未包含语音信息的流媒体数据，所述第一速度小于所述第二速度。

Description

播放速度控制方法和电子设备

技术领域

本申请属于音频技术领域，具体涉及一种播放速度控制方法和电子设备。

背景技术

随着短视频平台的发展，视频内容变得越来越丰富多彩。对于短视频平台来说，优质的视频内容是立足之本，但是许多短视频创作者拍摄的视频常会出现视频内容拖沓，播放节奏冗长的问题，如此，易使短视频平台的用户因为觉得乏味而切换视频或关闭平台。

在相关技术中，当短视频平台的用户觉得当前正在播放的视频片段比较乏味时，可以通过拖动视频界面中的播放进度条来加快视频的播放进度，然而，用户在使用这种方式时，很难把握拖动尺度，通常需要反复拖动进度条才能定位到想要查看的视频位置，不仅很容易使用户错过关键内容，而且还提高了用户的操作繁琐度。

发明内容

本申请实施例的目的是提供一种播放速度控制方法和电子设备，能够解决相关技术中控制播放速度的方式不仅很容易使用户错过关键内容，而且还提高了用户的操作繁琐度的问题。

第一方面，本申请实施例提供了一种播放速度控制方法，该方法包括：获取目标流媒体；按照预设帧长将经过短时分帧处理的所述目标流媒体的语音帧进行分割处理，得到多个长时帧；分别确定每个所述长时帧的长时谱能量差异特征值，并根据所述长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段；按照第一速度输出所述目标流媒体中的第一流媒体片段，按照第二速度输出所述目标流媒体中的第二流媒体片段；其中，所述第一流媒体片段为包含语音信息的流媒体数据，所述第二流媒体片段为未包含语音信息的流媒体数据，所述第一速度小于所述第二速度。

第二方面，本申请实施例提供了一种播放速度控制装置，包括：获取模块和输出模块；所述获取模块，用于获取目标流媒体；所述处理模块，用于按照预设帧长将经过短时分帧处理的所述目标流媒体的语音帧进行分割处理，得到多个长时帧；所述处理模块，还用于分别确定每个所述长时帧的长时谱能量差异特征值，并根据所述长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段；所述输出模块，用于按照第一速度输出所述目标流媒体中的第一流媒体片段，按照第二速度输出所述目标流媒体中的第二流媒体片段；其中，所述第一流媒体片段为包含语音信息的流媒体数据，所述第二流媒体片段为未包含语音信息的流媒体数据，所述第一速度小于所述第二速度。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，可以获取目标流媒体；按照预设帧长将经过短时分帧处理的所述目标流媒体的语音帧进行分割处理，得到多个长时帧；分别确定每个所述长时帧的长时谱能量差异特征值，并根据所述长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段；按照第一速度输出所述目标流媒体中的第一流媒体片段，按照第二速度输出所述目标流媒体中的第二流媒体片段；其中，所述第一流媒体片段为包含语音信息的流媒体数据，所述第二流媒体片段为未包含语音信息的流媒体数据，所述第一速度小于所述第二速度。通过该方案，由于可以将经过短时分帧处理的目标流媒体的语音帧分割为多个长时帧，并通过分析长时帧的长时谱能量差异特征值的方式确定目标流媒体中的第一流媒体片段和第二流媒体片段，以及按照第一速度输出第一流媒体片段，按照第二速度输出第二流媒体片段，因此，一方面，由于长时特征具有比短时特征更高的平滑性和稳定性，因此通过分析长时帧的长时谱能量差异特征值可以提高分析结果的准确性；另一方面，由于第一速度小于第二速度，即第二流媒体片段的播放速度大于第一流媒体片段的播放速度，因此，不仅可以减少未包含语音信息的流媒体片段在播放过程中浪费的时间，避免用户错过第二流媒体片段中的关键内容，而且在目标流媒体的输出过程中，由于用户无需进行任何输入，因此降低了用户操作的繁琐度。

附图说明

图1是本申请实施例提供的播放速度控制方法的流程示意图；

图2是本申请实施例提供的播放速度控制方法的界面示意图之一；

图3是本申请实施例提供的播放速度控制方法的界面示意图之二；

图4是本申请实施例提供的播放速度控制方法的界面示意图之三；

图5是本申请实施例提供的播放速度控制装置的结构示意图；

图6是本申请实施例提供的电子设备的结构示意图；

图7是本申请实施例提供的电子设备的硬件示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的播放速度控制方法进行详细地说明。

本申请实施例提供的播放速度控制方法，该播放速度控制方法的执行主体可以为电子设备或者电子设备中能够实现该播放速度控制方法的功能模块或功能实体，本申请实施例提及的电子设备包括但不限于手机、平板电脑、电脑、相机、可穿戴设备等，下面以电子设备作为执行主体为例对本申请实施例提供的播放速度控制方法进行说明。

如图1所示，本申请实施例提供了一种播放速度控制方法，该方法可以包括步骤101-步骤104：

步骤101、获取目标流媒体。

可选地，上述目标流媒体为包括音频数据的流媒体，例如，可以为语音消息、录音、音乐和有声小说等；也可以为有声视频。

示例性地，在目标流媒体为语音消息的情况下，电子设备获取目标流媒体可以包括：在显示与其他联系人的聊天界面的情况下，用户可以对电子设备接收到的目标语音消息进行点击输入，电子设备可以响应于该点击输入，获取目标语音消息。在目标流媒体为有声视频的情况下，电子设备获取目标流媒体可以包括：若用户想要观看目标视频，则可以对目标视频进行点击输入，电子设备可以响应于该点击输入，显示目标视频的视频播放界面并获取目标视频中的音频数据。

可选地，在获取目标流媒体之前，电子设备可以在显示播放速度设置界面的情况下，接收用户的第一输入；响应于所述第一输入，确定第一速度和第二速度。所述第一速度小于所述第二速度。

具体地，一段音频中可以包括第一流媒体片段和第二流媒体片段，其中，第一流媒体片段为包含语音信息的流媒体数据，第二流媒体片段为未包含语音信息的流媒体数据，例如，第二流媒体片段可以为噪声段或空白声段。在播放音频的过程中，用户想要获取的是第一流媒体片段中的语音信息，而第二流媒体片段是可以略过的，因此，用户可以分别设置第一流媒体片段的播放速度，即第一速度，以及第二流媒体片段的播放速度，即第二速度。

示例性地，如图2所示，若用户想要调整电子设备的音频播放速度，则可以先触发电子设备显示播放速度设置界面，该播放速度设置界面可以包括两个播放速度设置选项，分别为“第一流媒体片段播放速度调整”和“第二流媒体片段播放速度调整”，其中，“第一流媒体片段播放速度调整”对应开关111，“第二流媒体片段播放速度调整”对应开关112。若用户想要对第一流媒体片段的播放速度进行调整，则可以对开关111进行一个点击输入，电子设备可以响应于该点击输入，控制开关111处于开启状态，并取消显示播放速度设置界面，显示第一流媒体片段播放速度调整界面。若用户想要对第二流媒体片段的播放速度进行调整，则可以对开关112进行一个点击输入，电子设备可以响应于该点击输入，控制开关112处于开启状态，并取消显示播放速度设置界面，显示第二流媒体片段播放速度调整界面。

如图3所示，为第一流媒体片段播放速度调整界面，该第一流媒体片段播放速度调整界面包括预先存储的第一视频的播放界面121、加速调整控件122、减速调整控件123以及确定控件124，在第一视频处于播放状态的情况下，用户可以通过点击加速调整控件122或减速调整控件123对第一视频的播放速度进行调整，当调整至耳朵感到舒适的语速时，用户可以对确认控件124进行点击输入，电子设备可以响应于该点击输入，将调整的最终播放速度确定为第一速度。

如图4所示，为第二流媒体片段播放速度调整界面，该第二流媒体片段播放速度调整界面包括多个倍速调整控件和确认控件131，用户可以根据自身对播放速度的需求对多个倍速调整控件中的任一个控件进行点击输入，电子设备可以响应于该点击输入，突出显示用户点击输入的控件，之后，用户可以对确认控件131进行点击输入，电子设备可以响应于该点击输入，根据突出显示的控件对应的倍速值确定第二速度。

需要说明的是，上述第一输入可以包括多个子输入，例如，可以包括触发电子设备显示第一流媒体片段播放速度调整界面或第二流媒体片段播放速度调整界面的输入，还可以包括对第一流媒体片段播放速度调整界面或第二流媒体片段播放速度调整界面中控件的触控输入。

基于上述方案，由于可以根据第一输入确定第一速度和第二速度，因此用户可以根据自身的需求对两种播放速度进行自定义调整，从而满足不同用户的多样化速度播放需求。

步骤102、按照预设帧长将经过短时分帧处理的所述目标流媒体的语音帧进行分割处理，得到多个长时帧。

可选地，电子设备可以通过语音端点检测(voice activity detection，VAD)算法检测目标流媒体中是否存在人的语音信号，然而，相关技术中的VAD算法可能会将非语音段中的部分噪声判断成语音信号，而基于长时特征具有比短时特征更高的平滑性和稳定性的特点，因此，电子设备可以通过一个长时窗口对已经经过短时分帧处理的目标流媒体的语音帧重新进行分割，并分析重新分割后的语音特性。

示例性地，以目标流媒体包括100个短时帧、长时窗口的长度为10帧为例，对这100个短时帧进行重新分割后可以得到长时帧1-长时帧91，其中，长时帧1包括短时帧1-短时帧10，长时帧2包括短时帧2-短时帧11，以此类推。

步骤103、分别确定每个所述长时帧的长时谱能量差异特征值，并根据所述长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段。

可选地，重新分割语音帧后，电子设备可以分别确定目标流媒体中每个长时帧的长时谱能量差异特征值。

具体地，电子设备可以确定第l个长时帧的长时谱能量差异特征值

其中，第l帧的N阶的长时谱包络

X(n)表示一段包含噪声的语音段，X(k,l+j)表示第l帧语音在频率k时的幅度谱，N(k)表示背景噪声在幅度k时的幅度谱；NFFT表示快速傅里叶变化FFT中的采样点个数。

根据上述公式可知，电子设备是在计算N阶的长时谱包络时，利用长时原理，在短时幅度谱的基础上增加一个长度为2N+1帧的长时窗口进行分析，由于长时窗口可以扩大LTE和噪声幅度谱的差异性，因此，能够更准确的检测出目标流媒体中的语音和噪声。

可选地，电子设备根据长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段，具体可以包括：在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，将所述目标长时帧确定为所述第一流媒体片段；在所述目标长时帧的长时谱能量差异特征值大于所述第一阈值的情况下，将所述目标长时帧确定为所述第二流媒体片段；其中，所述目标长时帧为所述多个长时帧中的任一个，所述第一阈值与噪声估计值和信噪比相关。

可选地，上述第一阈值

其中，

E_h(k)表示当前时刻获取的噪声估计值，即最新噪声估计值，SNR表示信噪比。

基于上述方案，由于可以根据目标长时帧的长时谱能量差异特征值确定目标长时帧为第一流媒体片段还是第一流媒体片段，因此，可以基于长时谱能量差异特征值确定目标流媒体中的第一流媒体片段和第二流媒体片段，从而为不同流媒体片段按照不同速度播放提供基础。

可选地，电子设备根据长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段，具体可以包括：在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，确定所述目标长时帧中含有基音的帧数；在所述含有基音的帧数与所述目标长时帧的总帧数的比值大于第二阈值的情况下，将所述目标长时帧确定为所述第一流媒体片段；在所述含有基音的帧数与所述目标长时帧的总帧数的比值小于所述第二阈值的情况下，将所述目标长时帧确定为所述第二流媒体片段；其中，所述目标长时帧为所述多个长时帧中的任一个。

具体地，对于敲击键盘，碰撞麦克风这类突发噪声，其噪声的LTD特征和语音的LTD特征很相似，因此常常会发生误判，因此，可以引入基因比例特征来辅助判别。基音频率是指语音中的声带振动频率，电子设备通过对目标长时帧进行基音检测，可以确定其中含有基音的帧数M_pitch，然后，电子设备可以进一步确定M_pitch和目标长时帧的总帧数M的比值θ_pitch，在θ_pitch大于第二阈值θ_v的情况下，电子设备可以将目标长时帧确定为第一流媒体片段；在θ_pitch小于第二阈值θ_v的情况下，电子设备可以将目标长时帧确定为第二流媒体片段。

基于上述方案，由于可以根据目标长时帧中含有基音的帧数与目标长时帧的总帧数的比值判断目标长时帧是第一流媒体片段还是第二流媒体片段，因此，一方面，可以基于基音的帧数确定目标流媒体中的第一流媒体片段和第二流媒体片段，从而为不同流媒体片段按照不同速度播放提供基础；另一方面，可以提高判断结果的准确性。

可选地，电子设备根据长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段，具体可以包括：在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，将所述目标长时帧的时域语音信号转化为频域能量信号，得到目标流媒体片段；确定所述目标流媒体片段中多个频域能量采样点的平均能量值和最大能量值；在所述最大能量值与所述平均能量值的差处于第一预设范围内的情况下，将所述目标流媒体片段确定为所述第一流媒体片段；在所述最大能量值与所述平均能量值的差未处于所述第一预设范围内的情况下，将所述目标流媒体片段确定为所述第二流媒体片段；其中，所述目标长时帧为所述多个长时帧中的任一个。

噪声的种类很多，其中最常见的两类噪声分别为底噪和背景噪声。底噪的信号能量集中分布在低频部分(0～1000Hz)，在中高频部分几乎没有分布，而背景噪声的信号能量则平均的分布在整个频域，每个频点都有能量分布，且能量分布较均匀。语音信号和这两类噪声的频谱特性都不同，常常在整个频谱内都有信号能量分布，但能量大小的分布对于不同的频点来说没有规律。对于低噪，由于底噪的信号能量基本集中在低频段，因此对于同一采样点来说，对整个频段均匀选取频点计算平均能量和最大能量，两者的差距通常较大。对于背景噪声，由于背景噪声在整个频段内的分布较为平均，因此不同频点处的信号能量差别不大，对整个频段均匀选取频点计算平均能量和最大能量，两者的差距通常很小。对于语音信号，由于语音信号的能量没有上述规律，因此平均能量和最大能量的差值通常会处于一个差值范围内，而这个差值范围通常大于背景噪声的差值，而小于底噪信号的差值。因此，利用底噪、背景噪声以及语音信号的这种频谱能量特性，可以判断出一个流媒体片段是语音还是噪声。

具体地，电子设备可以通过Audition工具将长时谱能量差异特征值小于第一阈值的目标长时帧中的时域语音信号转化为频域能量信号，得到目标流媒体片段，转化后电子设备可以显示不同频点的能量大小，其中颜色越深表示频点能量越大，颜色越暗，表示频点能量越小。之后，可以从预设时间长度和预设频域范围的目标流媒体片段中选取频域能量采样点，例如，可以从预设时间长度为t₀、预设频域范围为(0，f₀)的目标流媒体片段中选取40个频域能量采样点，即在时域上以0.1t₀为起始时间点，均匀选取5个点：t＝(0.1t₀,0.3t₀,0.5t₀,0.7t₀,0.9t₀)，在频域上以

Hz为起始频率，均匀选取8个点：

然后，计算每个时域采样点t对应的8个频点的平均能量值

和最大能量值

在得到5个时域采样点的平均能量值

和最大能量值

后，再对这5个平均能量值

和5个最大能量值

取平均得到所有频域能量采样点的平均能量值E^mean和最大能量值E^max：

平均能量值

最大能量值

之后，电子设备可以计算平均能量值E^mean和最大能量值E^max的差值，并判断该差值是否处于第一预设范围(a，b)内：

若E^max-E^mean≥b，则电子设备可以将目标流媒体片段确定为底噪信号，即在最大能量值与平均能量值的差未处于第一预设范围内的情况下，电子设备可以将目标流媒体片段确定为第二流媒体片段；

若E^max-E^mean≤a，则电子设备可以将目标流媒体片段确定为背景噪声信号，即在最大能量值与平均能量值的差未处于第一预设范围内的情况下，电子设备可以将目标流媒体片段确定为第二流媒体片段；

若a＜E^max-E^mean＜b，则电子设备可以将目标流媒体片段确定为语音信号，即在最大能量值与平均能量值的差处于第一预设范围内的情况下，电子设备可以将目标流媒体片段确定为第一流媒体片段。

基于上述方案，由于可以在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，将目标长时帧的时域语音信号转化为频域能量信号，得到目标流媒体片段，并确定目标流媒体片段中多个频域能量采样点的平均能量值和最大能量值，以及根据最大能量值与平均能量值的差确定目标流媒体片段为第一流媒体片段还是第一流媒体片段，因此，一方面，可以基于频域能量确定目标流媒体中的第一流媒体片段和第二流媒体片段，从而为不同流媒体片段按照不同速度播放提供基础；另一方面，可以提高判断结果的准确性。

步骤104、按照第一速度输出目标流媒体中的第一流媒体片段，按照第二速度输出目标流媒体中的第二流媒体片段。

具体地，电子设备可以按照第一速度输出目标流媒体的第一流媒体片段，按照第二速度输出目标流媒体的第二流媒体片段。也就是说，在播放目标流媒体的过程中，电子设备可以切换不同流媒体片段的播放速度。

在本申请实施例中，由于可以将经过短时分帧处理的目标流媒体的语音帧分割为多个长时帧，并通过分析长时帧的长时谱能量差异特征值的方式确定目标流媒体中的第一流媒体片段和第二流媒体片段，以及按照第一速度输出第一流媒体片段，按照第二速度输出第二流媒体片段，因此，一方面，由于长时特征具有比短时特征更高的平滑性和稳定性，因此通过分析长时帧的长时谱能量差异特征值可以提高分析结果的准确性；另一方面，由于第一速度小于第二速度，即第二流媒体片段的播放速度大于第一流媒体片段的播放速度，因此，不仅可以减少未包含语音信息的流媒体片段在播放过程中浪费的时间，避免用户错过第二流媒体片段中的关键内容，而且在目标流媒体的输出过程中，由于用户无需进行任何输入，因此降低了用户操作的繁琐度。

本申请实施例提供的播放速度控制方法，执行主体可以为播放速度控制装置。本申请实施例中以播放速度控制装置执行播放速度控制方法为例，说明本申请实施例提供的播放速度控制装置。

如图5所示，本申请实施例还提供一种播放速度控制装置500，包括：获取模块501、处理模块502和输出模块503；所述获取模块501，用于获取目标流媒体；所述处理模块502，用于按照预设帧长将经过短时分帧处理的所述目标流媒体的语音帧进行分割处理，得到多个长时帧；所述处理模块502，还用于分别确定每个所述长时帧的长时谱能量差异特征值，并根据所述长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段；所述输出模块503，用于按照第一速度输出所述目标流媒体中的第一流媒体片段，按照第二速度输出所述目标流媒体中的第二流媒体片段；其中，所述第一流媒体片段为包含语音信息的流媒体数据，所述第二流媒体片段为未包含语音信息的流媒体数据，所述第一速度小于所述第二速度。

可选地，所述处理模块502，具体用于：在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，将所述目标长时帧确定为所述第一流媒体片段；在所述目标长时帧的长时谱能量差异特征值大于所述第一阈值的情况下，将所述目标长时帧确定为所述第二流媒体片段；其中，所述目标长时帧为所述多个长时帧中的任一个，所述第一阈值与噪声估计值和信噪比相关。

可选地，所述处理模块502，具体用于：在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，确定所述目标长时帧中含有基音的帧数；在所述含有基音的帧数与所述目标长时帧的总帧数的比值大于第二阈值的情况下，将所述目标长时帧确定为所述第一流媒体片段；在所述含有基音的帧数与所述目标长时帧的总帧数的比值小于所述第二阈值的情况下，将所述目标长时帧确定为所述第二流媒体片段；其中，所述目标长时帧为所述多个长时帧中的任一个。

可选地，所述处理模块502，具体用于：在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，将所述目标长时帧的时域语音信号转化为频域能量信号，得到目标流媒体片段；确定所述目标流媒体片段中多个频域能量采样点的平均能量值和最大能量值；在所述最大能量值与所述平均能量值的差处于第一预设范围内的情况下，将所述目标流媒体片段确定为所述第一流媒体片段；在所述最大能量值与所述平均能量值的差未处于所述第一预设范围内的情况下，将所述目标流媒体片段确定为所述第二流媒体片段；其中，所述目标长时帧为所述多个长时帧中的任一个。

可选地，继续参考图5，所述装置500还包括接收模块504；所述接收模块504，用于在显示播放速度设置界面的情况下，接收用户的第一输入；所述处理模块503，还用于响应于所述第一输入，确定所述第一速度和所述第二速度。

本申请实施例中的播放速度控制装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的播放速度控制装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为iOS操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的播放速度控制装置能够实现图1至图4的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图6所示，本申请实施例还提供一种电子设备600，包括处理器601和存储器602，存储器602上存储有可在所述处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述播放速度控制方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图7为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理***与处理器1010逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器1010，用于获取目标流媒体；处理器1010，用于按照预设帧长将经过短时分帧处理的所述目标流媒体的语音帧进行分割处理，得到多个长时帧；处理器1010，还用于分别确定每个所述长时帧的长时谱能量差异特征值，并根据所述长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段；音频输出单元1003或显示单元1006，用于按照第一速度输出所述目标流媒体中的第一流媒体片段，按照第二速度输出所述目标流媒体中的第二流媒体片段；其中，所述第一流媒体片段为包含语音信息的流媒体数据，所述第二流媒体片段为未包含语音信息的流媒体数据，所述第一速度小于所述第二速度。

可选地，处理器1010，具体用于：在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，将所述目标长时帧确定为所述第一流媒体片段；在所述目标长时帧的长时谱能量差异特征值大于所述第一阈值的情况下，将所述目标长时帧确定为所述第二流媒体片段；其中，所述目标长时帧为所述多个长时帧中的任一个，所述第一阈值与噪声估计值和信噪比相关。

在本申请实施例中，由于可以根据目标长时帧的长时谱能量差异特征值确定目标长时帧为第一流媒体片段还是第一流媒体片段，因此，可以基于长时谱能量差异特征值确定目标流媒体中的第一流媒体片段和第二流媒体片段，从而为不同流媒体片段按照不同速度播放提供基础。

可选地，处理器1010，具体用于：在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，确定所述目标长时帧中含有基音的帧数；在所述含有基音的帧数与所述目标长时帧的总帧数的比值大于第二阈值的情况下，将所述目标长时帧确定为所述第一流媒体片段；在所述含有基音的帧数与所述目标长时帧的总帧数的比值小于所述第二阈值的情况下，将所述目标长时帧确定为所述第二流媒体片段；其中，所述目标长时帧为所述多个长时帧中的任一个。

在本申请实施例中，由于可以根据目标长时帧中含有基音的帧数与目标长时帧的总帧数的比值判断目标长时帧是第一流媒体片段还是第二流媒体片段，因此，一方面，可以基于基音的帧数确定目标流媒体中的第一流媒体片段和第二流媒体片段，从而为不同流媒体片段按照不同速度播放提供基础；另一方面，可以提高判断结果的准确性。

可选地，处理器1010，具体用于：在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，将所述目标长时帧的时域语音信号转化为频域能量信号，得到目标流媒体片段；确定所述目标流媒体片段中多个频域能量采样点的平均能量值和最大能量值；在所述最大能量值与所述平均能量值的差处于第一预设范围内的情况下，将所述目标流媒体片段确定为所述第一流媒体片段；在所述最大能量值与所述平均能量值的差未处于所述第一预设范围内的情况下，将所述目标流媒体片段确定为所述第二流媒体片段；其中，所述目标长时帧为所述多个长时帧中的任一个。

在本申请实施例中，由于可以在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，将目标长时帧的时域语音信号转化为频域能量信号，得到目标流媒体片段，并确定目标流媒体片段中多个频域能量采样点的平均能量值和最大能量值，以及根据最大能量值与平均能量值的差确定目标流媒体片段为第一流媒体片段还是第一流媒体片段，因此，一方面，可以基于频域能量确定目标流媒体中的第一流媒体片段和第二流媒体片段，从而为不同流媒体片段按照不同速度播放提供基础；另一方面，可以提高判断结果的准确性。

可选地，用户输入单元1007，用于在显示播放速度设置界面的情况下，接收用户的第一输入；处理器1010，还用于响应于所述第一输入，确定所述第一速度和所述第二速度。

在本申请实施例中，由于可以根据第一输入确定第一速度和第二速度，因此用户可以根据自身的需求对两种播放速度进行自定义调整，从而满足不同用户的多样化速度播放需求。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作***、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1009可以包括易失性存储器或非易失性存储器，或者，存储器1009可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。

处理器1010可包括一个或多个处理单元；可选的，处理器1010集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作***、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述播放速度控制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述播放速度控制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述播放速度控制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种播放速度控制方法，其特征在于，包括：

获取目标流媒体；

按照预设帧长将经过短时分帧处理的所述目标流媒体的语音帧进行分割处理，得到多个长时帧；

分别确定每个所述长时帧的长时谱能量差异特征值，并根据所述长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段；

按照第一速度输出所述目标流媒体中的第一流媒体片段，按照第二速度输出所述目标流媒体中的第二流媒体片段；

其中，所述第一流媒体片段为包含语音信息的流媒体数据，所述第二流媒体片段为未包含语音信息的流媒体数据，所述第一速度小于所述第二速度。

2.根据权利要求1所述的播放速度控制方法，其特征在于，所述根据所述长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段，包括：

在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，将所述目标长时帧确定为所述第一流媒体片段；

在所述目标长时帧的长时谱能量差异特征值大于所述第一阈值的情况下，将所述目标长时帧确定为所述第二流媒体片段；

其中，所述目标长时帧为所述多个长时帧中的任一个，所述第一阈值与噪声估计值和信噪比相关。

3.根据权利要求1所述的播放速度控制方法，其特征在于，所述根据所述长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段，包括：

在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，确定所述目标长时帧中含有基音的帧数；

在所述含有基音的帧数与所述目标长时帧的总帧数的比值大于第二阈值的情况下，将所述目标长时帧确定为所述第一流媒体片段；

在所述含有基音的帧数与所述目标长时帧的总帧数的比值小于所述第二阈值的情况下，将所述目标长时帧确定为所述第二流媒体片段；

其中，所述目标长时帧为所述多个长时帧中的任一个。

4.根据权利要求1所述的播放速度控制方法，其特征在于，所述根据所述长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段，包括：

在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，将所述目标长时帧的时域语音信号转化为频域能量信号，得到目标流媒体片段；

确定所述目标流媒体片段中多个频域能量采样点的平均能量值和最大能量值；

在所述最大能量值与所述平均能量值的差处于第一预设范围内的情况下，将所述目标流媒体片段确定为所述第一流媒体片段；

在所述最大能量值与所述平均能量值的差未处于所述第一预设范围内的情况下，将所述目标流媒体片段确定为所述第二流媒体片段；

其中，所述目标长时帧为所述多个长时帧中的任一个。

5.根据权利要求1所述的播放速度控制方法，其特征在于，所述获取目标流媒体之前，所述方法还包括：

在显示播放速度设置界面的情况下，接收用户的第一输入；

响应于所述第一输入，确定所述第一速度和所述第二速度。

6.一种播放速度控制装置，其特征在于，包括：获取模块、处理模块和输出模块；

所述获取模块，用于获取目标流媒体；

所述处理模块，用于按照预设帧长将经过短时分帧处理的所述目标流媒体的语音帧进行分割处理，得到多个长时帧；

所述处理模块，还用于分别确定每个所述长时帧的长时谱能量差异特征值，并根据所述长时谱能量差异特征值确定第一流媒体片段和第二流媒体片段；

所述输出模块，用于按照第一速度输出所述目标流媒体中的第一流媒体片段，按照第二速度输出所述目标流媒体中的第二流媒体片段；

7.根据权利要求6所述的播放速度控制装置，其特征在于，所述处理模块，具体用于：在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，将所述目标长时帧确定为所述第一流媒体片段；在所述目标长时帧的长时谱能量差异特征值大于所述第一阈值的情况下，将所述目标长时帧确定为所述第二流媒体片段；其中，所述目标长时帧为所述多个长时帧中的任一个，所述第一阈值与噪声估计值和信噪比相关。

8.根据权利要求6所述的播放速度控制装置，其特征在于，所述处理模块，具体用于：在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，确定所述目标长时帧中含有基音的帧数；在所述含有基音的帧数与所述目标长时帧的总帧数的比值大于第二阈值的情况下，将所述目标长时帧确定为所述第一流媒体片段；在所述含有基音的帧数与所述目标长时帧的总帧数的比值小于所述第二阈值的情况下，将所述目标长时帧确定为所述第二流媒体片段；其中，所述目标长时帧为所述多个长时帧中的任一个。

9.根据权利要求6所述的播放速度控制装置，其特征在于，所述处理模块，具体用于：在目标长时帧的长时谱能量差异特征值小于第一阈值的情况下，将所述目标长时帧的时域语音信号转化为频域能量信号，得到目标流媒体片段；确定所述目标流媒体片段中多个频域能量采样点的平均能量值和最大能量值；在所述最大能量值与所述平均能量值的差处于第一预设范围内的情况下，将所述目标流媒体片段确定为所述第一流媒体片段；在所述最大能量值与所述平均能量值的差未处于所述第一预设范围内的情况下，将所述目标流媒体片段确定为所述第二流媒体片段；其中，所述目标长时帧为所述多个长时帧中的任一个。

10.根据权利要求6所述的播放速度控制装置，其特征在于，所述装置还包括接收模块；

所述接收模块，用于所述获取目标流媒体之前，在显示播放速度设置界面的情况下，接收用户的第一输入；

所述处理模块，还用于响应于所述第一输入，确定所述第一速度和所述第二速度。

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5任一项所述的播放速度控制方法。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5任一项所述的播放速度控制方法。