WO2015000401A1

WO2015000401A1 - 音频信号分类处理方法、装置及设备

Info

Publication number: WO2015000401A1
Application number: PCT/CN2014/081400
Authority: WO
Inventors: 许丽净
Original assignee: 华为技术有限公司
Priority date: 2013-07-02
Filing date: 2014-07-01
Publication date: 2015-01-08
Also published as: CN104282315B; CN104282315A

Abstract

提供一种音频信号分类处理方法、装置及设备，所述方法包括：获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项（101）；根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧是音乐信号或是语音信号（102）。

Description

音频信号分类处理方法、装置及设备

技术领域

本发明实施例涉及信号处理技术领域，尤其涉及一种音频信号分类处理方法、装置及设备。背景技术

在移动通信***的语音质量评估中，现有的语音质量评估模型不适用于音乐信号。但是，实际应用中的待分析信号中可能会包括音乐信号，比如彩铃等。语音质量评估模型会将其视为语音信号，给出错误的质量评估结果。针对该问题，在将待分析信号输入至语音质量评估模块之前，应先对其进行信号分类。如果识别出该段信号为语音信号，将其送入语音质量评估模块进行质量评估；如果识别出该段信号为音乐信号，则不送入语音质量评估模块。

现有技术提供有应用于语音音乐联合编码器的音频信号分类方法，但是该分类方法是针对具有高采样率的语音音乐联合编码器，对于语音质量评估模型而言，其中存在的音乐信号普遍缺少高频信息，利用现有的应用于语音音乐联合编码器的音频信号分类方法，仅能识别出少数的音乐信号，且分类正确率低，不能够满足语音质量评估的要求。发明内容

本发明提供一种音频信号分类处理方法、装置及设备，用于提高音频信号的分类正确率。

本发明的第一个方面是提供一种音频信号分类处理方法，包括：获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项；

根据获取的所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。

在上述第一个方面的第一种可能中，在所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

获取音频信号中待分类帧，以及待分类帧前 N1帧的音调分布参数，并根据所述待分类帧，以及待分类帧前 N帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N1为正整数；

所述获取所述音频信号中待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数包括：

获取所述音频信号中待分类帧，以及待分类帧前 N1帧的能量分布参数，并根据所述音频信号中待分类帧，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数， N1为正整数；

所述根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号包括：

在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

结合上述第一个方面的第一种可能的第二种可能中，上述获取音频信号中待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数包括：

对接收到的音频信号中的待分类帧和待分类帧前 N1帧进行快速傅里叶变换，获取功率密度谱；

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧作为待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分量的频域分布信息作为待分类帧前 N1帧的音调分布参数；

所述根据待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：根据接收到的音频信号中的待分类帧和待分类帧前 N1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数结合上述第一个方面的第一种可能的第三种可能中，上述获取所音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，以及待分类帧前 N1帧的高频能量分布比和声压级作为待分类帧前 N1帧的能量分布参数；

所述根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧和待分类帧前 N1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数；

所述根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧和待分类帧前 N1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

在结合上述第一个方面或第一个方面的任一种可能的第四种可能中，在延时 L1帧获取所述待分类帧的分类结果时， L1为正整数，所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

获取音频信号中待分类帧，待分类帧前 N2帧，以及待分类帧后 L1帧的音调分布参数，并根据所述待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N2为正整数；

获取所述音频信号中待分类帧，以及待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数；

在结合上述第一个方面的第四种可能的第五种可能中，所述获取音频信号中待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数包括：

对接收到的音频信号中的待分类帧、待分类帧前 N2帧和待分类帧帧后 L1帧进行快速傅里叶变换，获取功率密度谱；

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前 N2帧的音调分量的频域分布信息作为待分类帧前 N2帧的音调分布参数，以及待分类帧帧后 L1帧的音调分量的频域分布信息作为待分类帧帧后 L1帧的音调分布参数；

所述根据待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧、待分类帧前 N2帧和待分类帧帧后 L1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数量。

在结合上述第一个方面的第四种可能的第六种可能中，所述获取所音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前 N2帧的高频能量分布比和声压级作为待分类帧前 N2帧的能量分布参数和待分类帧后 L 1帧的高频能量分布比和声压级作为待分类帧后 L 1帧的能量分布参数；

所述根据音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L 1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前 N2帧和待分类帧后 L1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数；

所述根据音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L 1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前 N2帧和待分类帧后 L1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

在结合上述第一个方面、第一个方面的上述任一种可能的第七种可能中，在延时 L2+L3帧获取所述待分类帧的分类结果时， L2和 L3为正整数，所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

获取音频信号中待分类帧，待分类帧前 N3帧，以及待分类帧后 L2帧的音调分布参数，并根据所述待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N3为正整数；

获取所述音频信号中待分类帧，以及待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数；

在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号；

若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前 N4帧和待分类帧后 L3帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号， N4为正整数；若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前 N4帧和待分类帧后 L3帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号。

在结合上述第一个方面的第七中可能的第八种可能中，所述获取音频信号中待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数包括：

对接收到的音频信号中的待分类帧、待分类帧前 N3帧和待分类帧帧后 L2帧进行快速傅里叶变换，获取功率密度谱；

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前 N3的音调分量的频域分布信息作为待分类帧前 N3帧的音调分布参数帧和待分类帧帧后 L2帧的音调分量的频域分布信息作为待分类帧帧后 L2帧的音调分布参数；

所述根据待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧、待分类帧前 N3帧和待分类帧帧后 L2帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数量。

在结合上述第一个方面的第七中可能的第九种可能中，所述获取所音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前 N3帧的高频能量分布比和声压级作为待分类帧前 N3帧的能量分布参数，以及待分类帧帧后 L2帧的高频能量分布比和声压级作为待分类帧前 N3帧的能量分布参数；

所述根据音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前 N3帧和待分类帧后 L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数；

所述根据音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前 N3帧和待分类帧后 L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

在结合上述第一个方面的第二种可能、第五种可能或第八种可能的第十种可能中，所述待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。本发明的第二个方面是提供一种音频信号分类处理装置，包括：第一获取模块，用于获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项；

分类确定模块，用于根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧的高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。在结合上述第二个方面的第一种可能中，所述第一获取模块具体用于获取音频信号中待分类帧，以及待分类帧前 N1帧的音调分布参数，并根据所述待分类帧，以及待分类帧前 N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N1为正整数；或，

具体用于获取所述音频信号中待分类帧，以及待分类帧前 N1帧的能量分布参数，并根据所述音频信号中待分类帧，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

所述分类确定模块具体用于在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

结合上述第二个方面第一种可能的第二种可能中，所述第一获取模块获取音频信号中待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，以及待分类帧前 N1 帧的音调分量的频域分布信息作为待分类帧前 N1帧的音调分布参数；所述分类确定模块根据待分类帧的音调分布参数，以及待分类帧前 N1 帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧和待分类帧前 N1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数结合上述第二个方面第一种可能的第三种可能中，所述第一获取模块获取所音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数包括：获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，以及待分类帧前 N1帧的高频能量分布比和声压级作为待分类帧前 N1帧的能量分布参数；

所述分类确定模块根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

所述分类确定模块根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

结合上述第二个方面或第二个方面的任一种可能的第四种可能中，在延时 L1帧获取所述待分类帧的分类结果时， L1为正整数，所述第一获取模块具体用于获取音频信号中待分类帧，待分类帧前 N2帧，以及待分类帧后 L1帧的音调分布参数，并根据所述待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N2为正整数；或，具体用于获取所述音频信号中待分类帧，以及待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数；

所述分类确定模块具体用于在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。结合上述第二个方面第四种可能的第五种可能中，所述第一获取模块获取音频信号中待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数包括：

所述分类确定模块根据待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

在结合上述第二个方面第四种可能的第六种可能中，所述第一获取模块获取所音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前 N2帧的高频能量分布比和声压级作为待分类帧前 N2帧的能量分布参数和待分类帧帧后 L1帧的高频能量分布比和声压级作为待分类帧后 L1帧的能量分布参数；

所述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

所述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L 1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

结合上述第二个方面和第二个方面的上述任一种可能的第七种可能中，在延时 L2+L3帧获取所述待分类帧的分类结果时， L2和 L3为正整数，所述第一获取模块具体用于获取音频信号中待分类帧，待分类帧前 N3帧，以及待分类帧后 L2帧的音调分布参数，并根据所述待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N3为正整数；或，

具体用于获取所述音频信号中待分类帧，以及待分类帧前 N3帧以及待分类帧后 L3帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N3帧以及待分类帧后 L3帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

所述分类处理模块具体用于在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号；若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前 N4帧和待分类帧中后 L3帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号；若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前 N4帧和待分类帧中后 L3帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号， N4为正整数。

在结合上述第二个方面的第七种可能的第八种可能中，所述第一获取模块获取音频信号中待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数包括：

对接收到的音频信号中的待分类帧、待分类帧前 N3帧和待分类帧帧后 L2帧进行快速傅里叶变换，获取功率密度谱；根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前 N3帧的音调分量的频域分布信息作为待分类帧前 N3帧的音调分布参数，以及待分类帧帧后 L2帧的音调分量的频域分布信息作为待分类帧后 L2帧的音调分布参数；

所述分类确定模块根据待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧、待分类帧前 N3帧和待分类帧后 L2帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数量。

在结合上述第二个方面的第七种可能的第九种可能中，所述第一获取模块获取所音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前 N3帧的高频能量分布比和声压级作为待分类帧前 N3帧的能量分布参数，以及待分类帧帧后 L2帧的高频能量分布比和声压级作为待分类帧后 L2帧的能量分布参数；

所述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

所述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前 N3帧和待分类帧后 L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。在结合上述第二个方面的第二种可能、第五种可能或第八种可能的第十种可能中，所述第一获取模块获取的待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。满足连续性约束条件的音调分量的数量为在频域上大于第七阈值的音调分量的数结合上述第二个方面的第一种可能、第二种可能或第三中可能的第六种可能中，上述第一获取模块具体用于获取接收到的音频信号中的各帧的高频能量分布比和声压级；以及根据所述接收到的音频信号中的各帧的高频能量分布比和声压级，获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数，或，根据所述接收到的音频信号中的各帧的高频能量分布比和声压级，获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。本发明的第三个方面是提供一种音频信号分类处理设备，包括：接收器，用于接收音频信号；

处理器，与所述接收器连接，用于获取接收器接收到的音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。

在第三个方面的第一种可能中，所述处理器具体用于获取音频信号中待分类帧，以及待分类帧前 N1帧的音调分布参数，并根据所述待分类帧，以及待分类帧前 N帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N1为正整数；获取所述音频信号中待分类帧，以及待分类帧前 N1帧的能量分布参数，并根据所述音频信号中待分类帧，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数， N1为正整数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

结合上述第第三个方面的第一种可能的第二种可能中，所述处理器获取音频信号中待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，以及和待分类帧前 N1帧的音调分量的频域分布信息作为待分类帧前 N1帧的音调分布参数；所述处理器根据待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧和待分类帧前 N1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数结合上述第第三个方面的第一种可能的第三种可能中，所述处理器获取所音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数包括：

所述处理器根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：根据所述接收到的音频信号中待分类帧和待分类帧前 N1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数；

所述处理器根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：根据所述接收到的音频信号中待分类帧和待分类帧前 Nl帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

结合第三个方面或第三个方面的上述任一种可能的第四种可能中，在延时 L1帧获取所述待分类帧的分类结果时， L1为正整数，所述处理器具体用于获取音频信号中待分类帧，待分类帧前 N2帧，以及待分类帧后 L1 帧的音调分布参数，并根据所述待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N2为正整数；获取所述音频信号中待分类帧，以及待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

在结合第三个方面的第四种可能的第五种可能中，所述处理器获取音频信号中待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前 N2 帧的音调分量的频域分布信息作为待分类帧前 N2帧的音调分布参数，以及待分类帧帧后 L1帧的音调分量的频域分布信息作为待分类帧帧后 L1帧的音调分布参数；

所述处理器根据待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧、待分类帧前 N2帧和待分类帧帧后 LI帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数量。

在结合第三个方面的第四种可能的第六种可能中，所述处理器获取所音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L 1帧的能量分布参数包括：

所述处理器根据音频信号中待分类帧的能量分布参数，待分类帧前 N2 帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

所述处理器根据音频信号中待分类帧的能量分布参数，待分类帧前 N2 帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

结合第三个方面、第三个方面的上述任一种可能的第七种可能中，在延时 L2+L3帧获取所述待分类帧的分类结果时， L2和 L3为正整数，所述处理器具体用于获取音频信号中待分类帧，待分类帧前 N3帧，以及待分类帧后 L2帧的音调分布参数，并根据所述待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N3为正整数；获取所述音频信号中待分类帧，以及待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号；若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前 N4帧和待分类帧后 L3帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号， N4为正整数；若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前 N4帧和待分类帧后 L3帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号。

结合上述第三个方面的第七种可能的第八种可能中，所述处理器获取音频信号中待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前 N3帧的音调分量的频域分布信息作为待分类帧前 N3帧的音调分布参数和待分类帧帧后 L2帧的音调分量的频域分布信息作为待分类帧后 L2帧的音调分布参数；

所述处理器根据待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

结合上述第三个方面的第七种可能的第九种可能中，所述处理器获取所音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前 N3帧作为待分类帧前 N3帧的能量分布参数，以及待分类帧帧后 L2帧的高频能量分布比和声压级作为待分类帧后 L2帧的能量分布参数；

所述处理器根据音频信号中待分类帧的能量分布参数，待分类帧前 N3 帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

所述处理器根据音频信号中待分类帧的能量分布参数，待分类帧前 N3 帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

结合上述第三个方面的第二种可能、第五种可能或第八种可能的第十种可能中，所述处理器获取的待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。满足连续性约束条件的音调分量的数量为在频域上大于第七阈值的音调分量的数量。本发明提供的技术方案，主要是考虑到音乐信号的特性，例如音乐信号的音调持续时间较长，而语音信号的音调持续时间较短，音乐信号的能量可以持续分布在高频区域或低频区域，而语音信号通常不能持续分布在高频区域或低频区域，在考虑音乐信号上述特点的基础上，本发明实施例提供的技术方案中，首先获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量，以及音频信号中待分类帧在低频区域的持续帧数和 / 或所述待分类帧在高频区域的持续帧数，并根据上述信息确认待分类帧的类型是音乐信号，还是语音信号，上述技术方案提供的音频信号分类处理方法，能够提高音频信号分类的正确率，满足语音质量评估的要求。

附图说明为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明实施例中音频信号分类处理方法的流程示意图一；图 2为本发明具体实施例中的流程示意图一；

图 3a为输入信号 "法语男声 +笙" 的波形图一；

图 3b为与图 3a对应的语谱图；

图 4a为音频信号 "京胡 +法语男声的信号" 的输入信号的波形图；图 4b为与图 4a对应的语谱图；

图 5a为输入信号 "韩语男声 +合奏" 的波形图；

图 5b为与图 5a对应的语谱图；

图 6a为输入信号 "法语男声 +笙" 的波形图二；

图 6b为图 6a所示输入信号的初始音调检测结果；

图 6c为图 6a所示输入信号筛选后的音调检测结果；

图 7a为输入信号 "法语男声 +笙" 的波形图三；

图 7b为图 7a对应的音调特征"" ^m-^to∞z - ^的曲线图；

图 8a为输入信号 "京胡 +法语男声" 的波形图；

图 8b为与图 8a对应的高频能量分布比值^ - -^^的曲线图；图 9a为输入信号 "韩语男声 +合奏" 的波形图；

图％为与图 9a对应的高频能量分布比值 -^ -^^)的曲线图；图 10为本发明实施例中音频信号分类规则流程示意图一；

图 11a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形图一；

图 l ib为图 11a对应的分类结果示意图；

图 12a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形图二；

图 12b为图 12a对应的平滑后的分类结果示意图；

图 13为本发明实施例中音频信号分类规则流程示意图二；

图 14a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形图三；

图 14b为图 14a对应的实时分类结果示意图；

图 15为本发明实施例中输出延时不固定的情况下语音分类方法流程图；

图 16a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形图四；

图 16b为图 16a对应的三种分类方式的分类结果示意图；

图 17为本发明实施例中音频信号分类处理装置的结构示意图；图 18为本发明实施例中音频信号分类处理设备的结构示意图。具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术中的缺陷，本发明实施例提供了一种音频信号分类处理方法，图 1为本发明实施例中音频信号分类处理方法的流程示意图一，如图 1所示，该方法包括如下歩骤：

歩骤 101、获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项；

歩骤 102、根据获取的所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

本发明实施例提供的音频信号分类处理方法，在进行音频信号中的各帧进行分类时，既可以无输出延时的输出分类结果，即对于接收到的音频信号帧，实时输出分类结果，也可以存在一定的输出延时，即对于接收到的音频信号帧，延迟一段时间给出分类结果。本发明上述实施例提供的技术方案，主要是考虑到音乐信号的特性，例如音乐信号的音调持续时间较长，而语音信号的音调持续时间较短，音乐信号的能量可以持续分布在高频区域或低频区域，而语音信号通常不能持续分布在高频区域或低频区域，在考虑音乐信号上述特点的基础上，本发明实施例提供的技术方案中，首先获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量，以及音频信号中待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数，并根据上述信息确认待分类帧的类型是音乐信号，还是语音信号，上述技术方案提供的音频信号分类处理方法，能够提高音频信号分类的正确率，满足语音质量评估的要求。

本发明上述实施例中，其中根据输出延时要求的不同，可以分为三种情况，一是在实时获取所述待分类帧的分类结果时，需要根据待分类帧，以及待分类帧之前的 N帧的信息进行判断，二是在允许较小的分类结果输出延时，即输出延时为 L1帧时， L1为正整数，可以根据待分类帧，待分类帧前 L1帧，以及待分类帧后 L1帧进行判断；三是允许较大分类结果输出延时，即输出延时为 L2+L3帧时， L2和 L3为正整数，先根据待分类帧，待分类帧前 L2帧，以及待分类帧后 L2帧进行判断，获取初歩的待分类帧的分类结果，然后再根据待分类帧前 L3帧和待分类帧中后 L3帧进行修改。其中，在无输出延时时，对于最先接收到的音频信号中的帧无法进行分类，可以将最先接收到的帧设置默认值，默认其为语音信号或音乐信号。

具体的，在无输出延时，即实时获取所述待分类帧的分类结果时，图 1所示实施例中的歩骤 101获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量具体包括：

获取音频信号中待分类帧，以及待分类帧前 N1帧的音调分布参数，并根据所述待分类帧，以及待分类帧前 N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N1为正整数；

图 1所示实施例的歩骤 102中获取所述音频信号中待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数包括：

图 1所示实施例的歩骤 103中根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号包括：

上述实施例中，其中获取音频信号中待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧作为待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分量的频域分布信息作为待分类帧前 N1帧的音调分布参数。

而上述的根据待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：根据接收到的音频信号中的待分类帧和待分类帧前 N1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数另外，上述获取所音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，以及待分类帧前 N1帧的高频能量分布比和声压级作为待分类帧前 N1帧的能量分布参数。

而上述根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

上述根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

在允许 L1帧分类结果输出延时，即延时 L1帧获取所述待分类帧的分类结果时，图 1所示实施例的歩骤 101中获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

在上述实施例中，其中获取音频信号中待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数包括：

另外，上述获取所音频信号中待分类帧的能量分布参数，待分类帧前

N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前 N2帧的高频能量分布比和声压级作为待分类帧前 N2帧的能量分布参数和待分类帧后 L1帧的高频能量分布比和声压级作为待分类帧后 L1帧的能量分布参数；

所述根据音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

所述根据音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前 N2帧和待分类帧后 LI帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

在允许分类结果输出延时为 L2+L3帧，即延时 L2+L3帧获取所述待分类帧的分类结果时，图 1所示实施例的歩骤 101中获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

获取所述音频信号中待分类帧，以及待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数。

若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前 L3帧和待分类帧中后 L3帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号；

若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前 L3帧和待分类帧中后 L3帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号。

在上述实施例中，所述获取音频信号中待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前 N3帧的音调分量的频域分布信息作为待分类帧前 N3帧的音调分布参数，以及待分类帧帧后 L2帧的音调分量的频域分布信息作为待分类帧帧后 L2帧的音调分布参数；

另外，所述获取所音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数包括：

所述根据音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：根据所述接收到的音频信号中待分类帧、待分类帧前 N3帧和待分类帧后 L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

上述针对是否允许输出延时的三种情形下，其中待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。

以下分别针对上述允许分类结果输出延时等情况进行详细说明。首先，以允许 L1帧的少量固定输出延时为例，本实施例中 L1取值为 15。图 2为本发明具体实施例中的流程示意图一，如图 2所示，包括如下的歩骤：歩骤 201、对当前帧第 i帧进行 FFT变换，本歩骤中是针对接收到的每帧都进行 FFT变换；

歩骤 202、基于 FFT变换结果，获取第 i帧的音调分布参数，及其能量分布参数；

歩骤 203、判断 i〉Ll是否成立，即当前帧之前是否已存在 L1个帧，如果是执行歩骤 204，否则结束本流程，继续执行针对后续的各帧执行上述歩骤 201和歩骤 202的操作；

歩骤 204、在：[〉1^时，则可以获取第 i-Ll帧的音频信号分类结果，具体的可以过去的信息，即按照上述歩骤 201和歩骤 202获取的第 i-Ll 帧之前的若干帧的音调分布参数和能量分布参数，现在的信息，即第 i-Ll 帧的音调分布参数和能量分布参数，以及未来的信息，即第 i-Ll帧之后的 L1帧的音调分布参数和能量分布参数，获取第 i-Ll帧的音频信号分类结果；

歩骤 205，输出第 i-Ll帧的音频信号分类结果。

具体的，对于音乐信号和语音信号的音调分布情况，可以参照图 3a 和图 3b，图 3a为输入信号 "法语男声 +笙" 的波形图一，图 3b为与图 3 对应的语谱图。在图 3a的输入信号波形中，采样率为 8kHz，其中，横轴为样本点，纵轴为归一化幅值；图 3b的语谱图，对应的采样率也为 8kHz，频率分析范围为 (T4kHz。其中，横轴为帧，与图 3a横轴的样本点相对应; 纵轴为频率 (Hz)。在语谱图中，某个频率范围内的亮度越高，表示信号在该频段的能量越大。如果信号在某频段持续保持较大的能量，在语谱图上就会形成一条 "亮带" ，也就是音调。通过图 3b的音调分布情况可知，在前半段的语音信号中，除了基频处的音调持续时间稍长一些，更高频率处的音调持续时间都是很短的。在语音信号中，能够检测出音调的地方为浊音。由于浊音的长度通常较短，与之相对应的音调持续时间也较短；而在后半段的音乐信号中，音调持续时间明显较长。

对于音乐信号和语音信号的能量分布情况，可以参照图 4a和图 4b，图 4a为音频信号 "京胡 +法语男声的信号" 的输入信号的波形图，图 4b 为与图 4a对应的语谱图。在图 4a的波形图中，其中，横轴为样本点；纵轴为归一化幅值；图 4b的语谱图中，横轴为帧；纵轴为频率 (Hz)。通过图 4b的能量分布情况可知：在前半段的音乐信号中，能量基本分布在 1kHz 以上，在 1kHz至 4kHz均有分布；在后半段的语音信号中，大部分浊音的能量主要分布在 1kHz以下；清音的能量在低频至较高频率范围内均有分布。因此，语音信号的能量不可能持续分布在相对较高的频率范围内。

另外，部分音乐信号的能量能够持续分布在低频区域；相比之下，语音信号的能量不可能持续分布在低频区域。以图 5a和图 5b所示的 "韩语男声 +合奏" 的音频信号为例说明，图 5a为输入信号 "韩语男声 +合奏" 的波形图，其中，横轴为样本点；纵轴为归一化幅值；图 5b为与图 5a对应的语谱图，其中，横轴为帧；纵轴为频率 (Hz)。通过可以看出如下的能量分布情况：图 5b前半段的语音信号的能量分布情况与图 4b的语音信号类似。由于浊音和清音的能量分布特性不同，造成语音信号的能量分布具有较大的波动。因此，语音信号的能量既不可能持续分布在相对较高的频率范围内，也不可能持续分布在低频范围内；在后半段的音乐信号中，能量主要分布在 1kHz以下。

综上所述，音乐信号与语音信号的不同之处主要有：一是部分音乐信号的音调持续时间较长，语音信号的音调持续时间通常较短；二是部分音乐信号的能量能够持续分布在相对较高的频率范围内；语音信号的能量不能持续分布在相对较高的频率范围内；三是部分音乐信号的能量能够持续分布在低频区域；语音信号的能量不能持续分布在低频区域。本发明各实施例中的低频和高频的划分，可以根据语音信号的分布区域确定，将语音信号主要分布的区域定义为低频区域，例如将 1kHz以下定义为低频区域，而将 1kHz定义为高频区域，当然其具体取值也可以根据具体的应用场景的不同，针对的具体语音信号的不同而有所区别。

基于上述分类原理，需要提取的特征主要有音调特征及能量特征。具体的，提取音调特征可以分为三个歩骤：

A、获取初始音调检测结果，即各帧的音调分布参数；

B、通过连续性分析，对初始音调检测结果进行筛选，确定待分类帧中满足连续性约束条件的音调分量，该音调分量是指能量在频域上的一种分布形式；

C、基于筛选后的音调检测结果，提取音调特征，即待分类帧的满足连续性约束条件的音调分量的数量。

其中，上述获取初始音调检测结果可以包括：首先，对各个帧的数据进行 FFT变换，获取功率密度谱；其次，确定功率密度谱中的局部极大点；最后，针对以局部极大点为中心的若干功率密度谱系数进行分析，进一歩确定局部极大点是否为真正的音调分量。

本实施例中，设输入信号的采样率为 8kHz，有效带宽为 4kHz， FFT 取值为 1024，功率密度谱的局部极大点为

本实施例中，如何选取以局部极大点为中心的若干功率密度谱系数进行分析，是比较灵活的，可以根据算法需要设定。例如可以采用如下方式实现

如果局部极大点 " ^满足以下条件：

P_f - p_{f±i)≥7dB , 其中 = 2,3 · · ,10 即判断局部极大点与相邻的其他点的数值差异较大时，本实施例中差异为 ΊάΒ , 则说明该局部极大点是真正的音调分量。对于上述音调连续性分析的歩骤，可以设

V²)表示初始音调检测结果，取值为 1表示第 k帧数据在 f 处存在音调分量，取值为 0表示第 k帧数据在 f 处不存在音调分量。相对于第 k帧，位于第 k帧之前的 L 1帧数据被称为过去帧，位于第 k帧之后的 L 1数据被称为未来帧。设第 k帧数据在/; c处存在音调分量，即 to^L/Z^^r^Vm ] [ ] = l。针对位于第 k帧/; c处的音调分量，音调连续性分析的歩骤为：

歩骤 1、统计该音调分量与过去多少帧的音调分量具有连续性，表示为 num_left，初始化变量" "^m— 为 0，不具有连续性的巾贞数用 """^"。"-。"^ 标识，初始化变量" -" ^- 为 ₀，并记录待分析音调分量所处的位置: pos _cur = fie ,

检杳 tonal _ flag _ original[k -

3))的取值.

如果取值全为 o，说明第（k-i)帧数据在^" - e"^³^/^^^-^ ³)区间不存在音调分量，即位于第 k帧 ^处的音调分量与第（k-l)帧的音调分量之间出现间断，记录下本次不连续性事件：

num _ non _ tonal = num _ non _ tonal + 1.

说明第 ( k_ 1 )巾贞数据在

位于第 k帧处的音调分量与第（k-1)帧的音调分量之间具有连续性：

记录第（k-1)帧音调分量所处的位置： po_S__CUr = p_OS__CUr + _X;

统计出现连续性的巾贞数： ⁿ画-¹ Φ = num— left + 1.

设置变量 num _ non _ tonal为 Q .

依次检测第（k-1)帧、第（k-2)帧等与前一帧的音调分量之间是否存在连续性。在每次检测之前，首先需要判断大小：

如果 "^Mm -画 - 画^{1 ≥ al} ，说明待分析音调分量与过去帧音调分量之间的间断已经超过预设的范围，已不再具有连续性。不必继续检测下去，输出 num— left ·

如果 / < ，说明待分析音调分量与过去帧音调分量之间的间断还在预设的范围内，继续检测下去。直到检测完过去 L1帧数据，输出"画- ^fe 。

歩骤 2、统计该音调分量与未来多少帧的音调分量具有连续性，表示为 num right . 类似于上述歩骤 1，依次检测第 k帧、第（k+i)帧等与后一帧的音调分量之间是否存在连续性，输出" ^Mm- ^Ai。

歩骤 3: 根据及 "_Μ™_π ，对初始音调检测结果进行筛选，如果满足以下两个条件之一：

(num left + num right)≥ al

num right≥ a3 说明位于第 k帧 fx处的音调分量具有一定的连续性，保留初始音调检测结果，否则不保留。在本实施例中，可以设 "1 = ⁵； Ω2 = 10 . Ω3 = 8 ₀ 以图 3a和图 3b给出的法语男声 +笙的音频信号为例，给出音调连续性分析的实例，如图 6a和 6b所示，图 6a为输入信号 "法语男声 +笙" 的波形图二；图 6b为图 6a所示输入信号的初始音调检测结果。其中，横轴为帧，与图 6a横轴的样本点相对应；纵轴取值为（T511 , 每点对应的频域分辨率为 4000 Hz /512= 7. 8125Hz。如果某帧数据在纵轴某点对应的频率范围内存在音调分量，将其标识为白色，否则为黑色。如果连续若干帧信号在某个频率范围内存在音调分量，会形成 "白线" 。该 "白线"与图 3b 语谱图中的 "亮带"是相对应的；图 6c为图 6a所示输入信号筛选后的音调检测结果。与图 6b的初始音调检测结果相比，在前半段的语音信号中，仅保留了基频及其附近的音调持续时间稍长的少量音调分量，其余的音调分量均已去掉；在后半段的音乐信号中，绝大部分的音调分量均被保留下来。

最后进行音调特征提取，其中针对筛选后的音调检测结果，统计较低频率至高频范围（对应于 ^{fl4≤ < F}/² )的每帧音调分量的数量，表示为

- tonal jag 如果" 越大，说明对应信号中音调分量持续时间越长，该信号是音乐信号的可能性越大。

如上述图 6c所示，语音信号在基频及其附近频率范围内可能会存在少许音调持续时间稍长的音调分量。因此，统计每帧音调分量的数量的范围不是从 ^{= G}开始的，而是从 , ^{= 4}开始的，这样可以避免将某些基频音调分量持续时间较长的语音信号误判为音乐信号。即上述统计的满足连续性约束条件的音调分量的数量为在频域上大于第七阈值的音调分量的数量。在本实施例中，可以设 "⁴ = ⁴0

仍以图 3a和图 3b给出的 "法语男声 +笙" 的音频信号为例说明，如图 7a和图 7b所示，图 7a为输入信号 "法语男声 +笙"的波形图三；图 7b 为图 7a对应的音调特征" 的曲线图。其中，横轴为帧，与图

7a横轴的样本点相对应；纵轴为音调分量的数量。由图 7a和图 7b可见，在前半段的语音信号中， nwn j mal - flag始终为 ₀，与后半段笙的音调特征具有明显区别。

本发明上述实施例中的能量特征提取方式如下，在提取能量特征之前，首先需要计算各帧的高频能量分布比值及声压级 ^^Ζ^，其中 k表示帧数。

其中，表示第 _k帧的 FFT变换的实部， Im_ (/)表示第 k帧的 FFT变换的虚部。分母表示第 k帧的总能量；分子表示第 k帧在

/ = Ω⁵ ~ /² _1)所对应的较高频率范围内的能量总和。如果

ratio— energy -hf ^软小，说明第 k帧能量主要分布在低频；反之，说明第 k 帧能量主要分布在较高频率范围内。

其中，表示第 _k帧的功率密度谱。如果 ^)较小，说明第 k帧总能量较小，如果较大，则说明第 k帧总能量较大。

基于高频能量分布比值及声压级，进一歩分析能量在高频的分布特性及能量在低频的分布特性。

在获取能量在高频的分布特性时，仍以图 4给出的 "京胡 +法语男声" 的音频信号为例，其中图 8a为输入信号 "京胡 +法语男声" 的波形图，图

8b为与图 8a对应的高频能量分布比值^^- -^^)的曲线图，其中，横轴为帧，与图 8a横轴的样本点相对应；纵轴为高频能量分布比值。通过图 8b可知高频能量分布比值曲线的变化情况：

在前半段的音乐信号中，除了演奏间隙的短暂停顿处，高频能量分布比值基本上大于 0. 8，说明该段京胡信号的能量能够持续分布在较高频率范围内；

在后半段的语音信号中，少量的浊音以及部分清音的高频能量分布比值较大，大部分浊音以及部分清音的高频能量分布比值都是比较小的，导致高频能量分布比值曲线的波动较大，说明语音信号的能量是无法持续分布在较高频率范围内的。

针对第 k帧，为了表示能量在高频的分布特性，基于高频能量分布比值及声压级 ( 提取以下特征：

num_big_ratio_energy_left . 表示位于第 k帧之前的 L1帧数据中，能量能够持续分布在高频的过去帧的帧数；

画— big— mtio— energy— right : 表示位于第 k帧之后的 LI帧数据中，能量能够持续分布在高频的未来帧的帧数。

在提取上述特征之前，首先检査高频能量分布比值 ^^ -^W及声压级是否满足以下条件： ifati。― energy _hf、k、> a6、 &&、spl k、> αΊ)。如果满足该条件，进一歩分析第 k帧能量是否能够持续分布在较高频率范围内。

获取聽 m _ big _ ratio _ energy _ left的歩骤为：

歩骤 1、

^num - ^big - ^ratio - ^enersy - ^left 0；

歩骤 2、初始化变量"画为 0;

歩骤 3、检査 ^raz '。- j/^-¹)及 ^ -¹)是否满足以下条件：

{ratio energy _hf(k— i)> αβ) & & (spl(k -l)> al) 如果不满足上述条件，说明第（k-i)帧数据的能量没有分布在较高频率范围内，记录下本次事件. 聽 ^{m non} big ratio - num non big ratio + 1. 如果满足上述条件，说明第（k-1)帧数据的能量持续分布在较高频率范围内，统计能量能够持续分布在高频的过去帧的帧数：

num big ratio energy left― num big ratio energy left + 1.

设置变量 num non big ratio为 Q。

类似于歩骤 3，依次检测第（k-2)帧、第（k-1)帧等数据的能量能否持续分布在较高频率范围内。在每次检测之前，首先需要判断

num non big ratio的大小，如果 num non big ratio≥ 8，说明能量无法持续分布在较高频率范围内的状态已经超过预设的范围，不必继续检测下去，输出聽 ^m big ratio energy left . 如果 num non big ratio < "8，说明能量无法持续分布在较高频率范围内的状态还在预设的范围内，继续检测下去，直到检测完过去 L1帧数据，输出"画— g-rario— i rg) je/。获取醒—big _ ratio _ energy _ right的歩骤是类似的。依次检测第（k+ 1 )帧否持续分布在较高频率范围内，输出

对于低频能量的分布特性获取，以图 5a给出的 "韩语男声 +合奏" 的输入信号为例，观察能量在低频的分布特性，如图 9a和图 9b所示，图 9a 为输入信号 "韩语男声 +合奏" 的波形图，图％为与图 9a对应的高频能量分布比值 ^- ^-^^的曲线图。其中，横轴为帧；纵轴为高频能量分布比值。通过观察图％所示的在高频能量分布比值曲线的变化情况，可知，在前半段的语音信号中，高频能量分布比值曲线的波动较大，说明语音信号的能量是无法持续分布在低频的；在后半段的音乐信号中，高频能量分布比值基本上小于 0.1，说明该段合奏信号的能量能够持续分布在低频。

针对第 k帧，为了表示能量在低频的分布特性，基于高频能量分布比值 mtio energy D及声腿，提取以下特征：

醒―羅 II mtio— energy— left :表示能量能够持续分布在低频的过去帧的 num _ small _ ratio _ energy _ right . 表示位于第 k帧之后的 LI帧数据中，能量能够持续分布在低频的未来帧的帧数；

与聽 m _ big _ ratio _ e" - 等参数的获取过程不同，

™m_sm^__ra^_ e/^_fe/t并不是仅仅针对过去 _L1帧数据分析得出的，而一帧 ^ratio -energy _hf{i){i≥0) _f 就会更新一次

rari。__e"_erg) j/ 是否满足条件： ratio— energy— hf、k、<a9。如果满足该条件，进一歩分析第 k帧能量是否能够持续分布在低频范围内。

中，获取 ^num small ratio energy right的歩骤为.

歩骤 1、初始化 ^{num sma}^ ^rati energy right为 Q ·

歩骤 2、依次检测第（k+1)帧、第（k+2)帧等的高频能量分布比值 ratio _ energy _ hf {i ) ( < ζ·≤ ( 是否满足条件： ratio— energy _hf(f)< a9。如果不满足上述条件，不必继续检测下去，输出聽^/«-腿^-/¾!^-£^/¾)-/^/^；如果满足上述条件，

num small ratio energy right― num small ratio energy right + 1，继续检 ^贝 []下去，直到检测完未来 LI帧数据，输出"画_腿"1/^₀_£^/^-/^ 。

在本实施例中，可以设置 ^{= 15(3}； «6 = 0.4. α7 = 30. Ω8 = 5. Ω9 = 0.1。如上述分类原理分析所述，绝大多数音乐信号具有不同于语音信号的特性；相比之下，语音信号缺乏独有的特性，很难 100%确定某段信号就是语音信号。因此，在分类时将明显不同于语音信号的音乐信号识别出来，其余则判为语音信号。

具体的，分类规则可以如图 10所示，对于第 k帧数据，其可以包括如下的歩骤：

歩骤 301、判断音调分量的数量是否大于 0，即"画 -to" - g >0 如果满足条件，则可以输出初始分类结果为音乐信号；否则继续分析育特歩骤 302、分析能量在较高频率范围内的分布特性，首先判断

_a6 && _SplW> a )。若是，执行歩骤 303，否则执行歩骤

304；

歩骤 303、判断是否满足 "画 _ g-rari₀_£ rg)-n ≥"ll，或者满足 num big ratio energy left + num big ratio energy right≥ alO 或者

腿 m— big— ratio— energy— left≥ cdi，如果满足，则输出初始分类结果为音乐信号，否则，执行歩骤 304;

歩骤 304、判断高频能量分布比值是否小于 a9，即

ratio _energy_hf{k)≤a9 _f 如果是，则执行歩骤 305，否则输出初始分类结果为语音信号；歩骤 305、判断是否满足 "画 _腿"1/^₀_£^/^-/£^≥"13，或者满足 num small ratio energy left + num small ratio energy right≥ al2 或者 num _ small _ ratio _ energy _ right >a\\ ^ 如果满足，则输出初始分类结果为音乐信号，否则输出初始分类结果为语音信号。

在本实施例中，可以设置 ^{ω10 = 15} ; "11 = 10; «12 = 30. "13 = 30。

参见图 11a和图 lib所示的，图 11a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形图，其中的三种音乐信号：合奏、塡及响板，在音调特征或是能量特征方面，均具有一定的典型性；图 lib为图 11a对应的分类结果示意图一，其中，横轴为样本点；纵轴为分类结果，取值为 0对应语音信号，取值不为 0对应音乐信号。由下至上，纵轴给出四类分类结果：

MUSIC_音调特征：仅使用音调特征得到的分类结果，表示为实线。由此可以看出，图 11a中的哪些信号是适用于有关音调特征的分类规则的； MUSIC 能量：特特征征__11：: 仅仅使使用用 ""能能量：特征 _1"得到的分类结果，表示为虚线。这里的 "能量特征 _1"指的是能量是否能够持续分布在较高频率范围内。由此可以看出，图 11a中的哪些信号是适用于有关能量高频分布特性的分类规则的；

MUSIC_能量：特特征征__22：: 仅仅使使用用 ""能能量：特征 _2"得到的分类结果，表示为点划线。这里的 "能量特征 _2 "指的是能量是否能够持续分布在低频。由此可以看出，图 11a中的哪些信号是适用于有关能量低频分布特性的分类规则的；

1^1(_初始分类结果：将 MUSIC_音调特征、 MUSIC_能量特征_1及 MUSIC_能量特征_2的分类结果综合起来，就可以得到初始分类结果，表示为点线。

通过观察图 lib, 可以看出，针对不同类型的音乐信号，不同的分类规则是如何发挥作用的：

位于 100000-300000点之间的合奏信号：该段音乐信号在能量上的波动是很大的，仅有少数帧的能量能够持续分布在较高频率范围内，能量特征_1/2基本不起作用。但是，该段信号的音调具有较好的持续性，可以利用音调特征检测出来；位于 400000-550000点之间的塡信号：音调特征能够起到一定的作用，但是仅依靠音调特征是无法把完整的塡信号检测出来的，如图断续分布的实线所示。该段信号的能量主要分布在低频，可以利用能量特征 _2检测出来；

位于 600000点之后的响板信号：该段信号几乎检测不出音调分量，音调特征不起作用。该段信号的能量主要分布在高频，可以利用能量特征 _1检测出来。

本发明实施例提供的技术方案，还可以适应于输出延时较大的应用场景，例如当输出延时为 L2+L3时，设当前帧为第 i帧，则可以首先按照上述实施例提供的技术方案，当 i〉L2时，根据过去的信息，第 i_L2帧之前的若干帧的音调分布参数和能量分布参数，现在的信息，即第 i_L2帧的音调分布参数和能量分布参数，以及未来的信息，即第 i_L2帧之后的 L2 帧的音调分布参数和能量分布参数，获取第 i_L2帧的音频信号分类结果，其具体的实现方式可以参见上述的实施例，进一歩当 i〉（L2+L3)时，可以进行平滑处理，即根据待分类帧第 i_L2-L3帧前 N4帧和待分类帧第

1-L2-L3帧后 L3帧的初始分类结果进行修正。

具体的，上述的前 N4帧可以为前 L3帧，针对第 k帧，此时上述修正处理的过程为：

首先，对位于第 k帧之前的 L3帧及位于第 k帧之后的 L3帧的初始分类结果进行统计，获取被分类为音乐信号的帧数"" ^m-^mw ，以及被分类为语音信号的巾贞数醒—醒 _ music .

其次，如果第 k帧的初始分类结果为语音信号，并且" " _m^c≥_fll⁴ ，将第 k帧的分类结果修正为音乐信号；如果第 k帧的初始分类结果为音乐信号，并且"画 - "。 "—聽 ^≥"1⁴，将第 k帧的分类结果修正为语音信号。

在本实施例中，可以设置" 1⁴ = 1⁶ 。

图 12a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形示意图，同图 11a所示，图 12进一歩给出平滑后的结果，如图 12 所示，由下至上，纵轴给出两类分类结果：

1^ 1( _初始分类结果：表示为实线；

MUS IC_平滑后结果：对初始分类结果进行平滑，得到平滑后结果，表示为虚线。

观察图 12可知，位于 100000-300000点之间的合奏信号：初始分类结果在 250000-300000点之间存在一处误判，将音乐信号误判为语音信号；位于 400000-550000点之间的塡信号，初始分类结果在该信号结尾部分存在一处误判，将音乐信号误判为语音信号。通过平滑处理，对上述误判进行了修正。

另外，对于不能够引入输出延时的应用场景，其中获取音调分布参数，获取能量分布参数的原理和歩骤与上述技术方案类似，不同之前仅在于，在进行分类时参考的是过去的信息和现在的信息，由于无输出延时，需要实时获取分类结果，无法参考未来的信息。

具体的，提取音调特征可以参照上述实施例，可以分为三个歩骤：

A、获取初始音调检测结果，即各帧的音调分布参数；

B、通过连续性分析，对初始音调检测结果进行筛选；

C、基于筛选后的音调检测结果，提取音调特征，即待分类帧的音调分量的数量。

其中上述歩骤 A, 可以参照上述实施例，以下主要对歩骤 B和歩骤 C 进行详细说明。

在进行连续性分析时，设 ^tonal-fl^ag -Original[k][f](0≤f < 表示初始音调检测结果，取值为 1表示第 k帧数据在 f 处存在音调分量，取值为 0表示第 k帧数据在 f 处不存在音调分量。相对于第 k帧，位于第 k帧之前的 L1帧数据被称为过去帧。

设第 k帧数据在 f_x处存在音调分量，即

i。针对位于第 k帧 fx处的音调分量，音调连续性分析的歩骤为：

歩骤 1: 统计该音调分量与过去多少帧的音调分量具有连续性，表示为腿 m— Ιφ , 初始化变量" "^- 为 0，初始化表示不连续的变量

n飄―画丽 1为 _Q，并记录待分析音调分量所处的位置： po_S__CUr = fx., 检杳 tonal flag

l][ ] ((pos _cur-3)≤ f ≤ (pos_cur + 3))的取值. 如果取值全为 o，说明第（k-i)帧数据在 ^- ^-³^/ ^^"^³)区间不存在音调分量，即位于第 k帧处的音调分量与第（k-l)帧的音调分量之间出现间断，记录下本次不连续性事件： ― ηοη _ tonal― num _ non _ tonal + 1.

如果 ^tonal - A^ag - ^oriSinal[k - l][pos _cur + x]^l{-3≤ x≤3) ^ 说明第 (k- 1 )巾贞数据在

即位于第 k帧处的音调分量与第（k-1)帧的音调分量之间具有连续性：

记录第（k-1)帧音调分量所处的位置： pos—c n c + x

统计出现连续性的巾贞数： ⁿ画-¹ Φ =腿 m— left + 1

设置变量 num _ non _ tonal为。。

类似于歩骤 2，依次检测第（k-1)帧、第（k-2)帧等与前一帧的音调分量之间是否存在连续性。在每次检测之前，首先需要判断 "" "^-^^的大小：

如果" -m^-to^ W, 说明待分析音调分量与过去帧音调分量之间的间断已经超过预设的范围，已不再具有连续性。不必继续检测下去，输出 num left ·

如果" -rn^ ^ W, 说明待分析音调分量与过去帧音调分量之间的间断还在预设的范围内，继续检测下去。直到检测完过去 L1帧数据，输出 ^num— ^ιΦ

歩骤 2: 根据" -^ 对初始音调检测结果进行筛选；

如果满足条件：醒— left≥bl, 说明位于第 k帧 fx处的音调分量具有一定的连续性，保留初始音调检测结果，否则不保留。

在本实施例中，可以设置 W = ⁵ = ⁵

进一歩的，类似上述实施例，针对筛选后的音调检测结果，统计较低频率至高频范围（对应于^½≤,^< /²)的待分类帧的帧音调分量的数量，表示为醒 tonal jag。如果 MMm_toM _/¾g越大，说明对应信号中音调分量持续时间越长，该信号是音乐信号的可能性越大。在本实施例中，设置 ½ = 40

对于能量特征提取，在提取能量特征之前，首先需要计算每帧高频能量分布比值 ^-^^^-^^及声压级^ 其中 k表示帧数。计算每帧高频能量分布比值及声压级的公式与上述是相同的。

基于高频能量分布比值及声压级，进一歩分析能量在高频及低频的分布特性

量分布比值 ^ratio -energy _hf k)及 ^级 ^)，提取特征

m_big_mtiQ rgy— Ιφ 该特征是指，位于第 k帧之前的 L1帧数据中，能量能够持续分布在高频的过去帧的帧数。

在提取该特征之前，首先检査高频能量分布比值 ^- -^^及声压级是否满足以下条件： io— energy - hf b4、 & & (Μί > b5、如果满足该条件，进一歩分析第 k帧能量是否能够持续分布在较高频率范围内。

获取聽 m _ big _ ratio _ energy _ left的歩骤为：歩骤 1、

^num - ^big - ^ratio - ^enersy - ^ι 0；

歩骤 2初始化变量" "m_M。"_b^_rari。为 _0;

歩骤 3、检査 ^raz '。- j/^-¹)及 ^ -¹)是否满足以下条件： {ratio energy _hf(k— l)> 如果不满足上述条件，说明第（k-1)帧数据的能量没有分布在较高频率范围内， i己录下本次事件- ^{m non} big ratio - num non big ratio + 1 如果满足上述条件，说明第（k-i)帧数据的能量持续分布在较高频率范围内：

统计能量能够持续分布在高频的过去帧的帧数：

num big ratio energy left― num big ratio energy left + 1

设置变量 ^num - ^non - - ^rati°为 0

num non big ratio的大小 ·

如果 " _" _^__ra^≥ ，说明能量无法持续分布在较高频率范围内的状态已经超过预设的范围，不必继续检测下去，输出

num big ratio energy left .

如果" _" _^__ra^<^，说明能量无法持续分布在较高频率范围内的状态还在预设的范围内，继续检测下去，直到检测完过去 L1帧数据，输出 num big ratio energy left。另外，针对第 k帧，为了表示能量在低频的分布特性，基于高频能量分布比值 ' -^ 及声压级 ^)，提取特征

醒―醒 II— ratio— energy— left。该特征是指能量能够持续分布在低频的过去帧的帧数。

与聽 m _ big _ ratio _ 参数的获取过程不同，

" -^^-™^_ e/^_fe/t并不是仅仅针对过去 _L1帧数据分析得出的，而是每计算出一帧 ^ratio -energy _hf{i){i≥0)_f 就会更新一次

num small ratio energy left

获取 ^{num sma}U ratio energy left的歩骤为.

当二 0时，初始化腿 ^m small ratio energy left为 Q .

检查每一巾贞 - -^')^⁰)是否满足条件： ratio— energy— hf i、<b，；如果满足上述条件，

num small ratio energy left― num small ratio energy left + 1.

如果不满足上述条件， num small ratio energy left - 0 ·

在本实施例中，设置 Μ = 0·3; ½ = 30. 6 = 5 ; W = (U。

具体的，分类规则可以如图 13所示，对于第 k帧数据，其可以包括如下的歩骤：

歩骤 401、判断音调分量的数量是否大于 0， g卩"目 -to_?MZ-_i¾g_>0。如果满足条件，则可以输出初始分类结果为音乐信号；否则继续分析能量特征；

歩骤 402、分析能量在较高频率范围内的分布特性，首先判断

Ό - / ^- )〉M)&& )〉 b5)。若是，执行歩骤 403，否则执行歩骤

404；

歩骤 403、判断是否满足 "画 -b^-rari₀_i /^-fe/t≥b⁸，如果满足，则输出初始分类结果为音乐信号，否则，执行歩骤 404;

歩骤 404、判断高频能量分布比值是否小于 b7，即

ratio _energy _hf{k)≤bl ^ 如果是，则执行歩骤 405，否则输出初始分类结果为语音信号；

歩骤 405、判断是否满足 "画

j_e/≥ 9，如果满足，则输出初始分类结果为音乐信号，否则输出初始分类结果为语音信号。在本实施例中，可以设置 ^ = 10， ^ = ³0。图 14a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形图三，同图 11a所示，其中的三种音乐信号：合奏、埙及响板，在音调特征或是能量特征方面，均具有一定的典型性，图 b进一歩给出实时分类结果的实例，其中，横轴为样本点；纵轴为分类结果，取值为 0对应语音信号，取值不为 0对应音乐信号，由图 14a和图 14b可见，由于没有未来的信息可供参考，会将少许音乐信号误判为语音信号。

本发明上述实施例提供的技术方案，针对无输出延时、少量输出延时和大量输出延时三种情况进行了说明，使得在对输出延时要求不固定的场景中，例如语音质量评估应用中，可以根据实际需要提供上述三种情况下的分类结果，且随着输出延时时间的增长，不仅可以参照待分类帧过去的信息，而且可以参照待分类帧未来的信息，参考信息越多分类的正确率也会随之提高。具体的，图 15为本发明实施例中输出延时不固定的情况下语音分类方法流程图，如图 15所示，包括如下的歩骤：

歩骤 501、对当前帧第 i帧进行 FFT变换；

歩骤 502、基于 FFT变换结果，获取第 i帧的音调分布参数并缓存；歩骤 503、基于 FFT变换结果，获取第 i帧的能量分布参数并缓存；上述的歩骤 501-503中，不仅针对第 i帧，而且针对第 i帧之前接收到的各个帧的，都进行了相应处理，获取了其音调分布参数和能量分布参数。

歩骤 504、生成并缓存第 i帧的实时分类结果，具体的，本歩骤中基于歩骤 502和歩骤 503中生成并缓存的过去的信息，即第 i帧之前的各个帧的音调分布参数和能量分布参数，获取第 i帧的音调特征和能量特征，生成并缓存实时分类结果，具体实现方式可以参照上述的实施例；

歩骤 505、当 1〉11时，其中 L1为允许的少量输出延时，除了获取接收的各个帧的实时的分类结果，还可以生成并缓存第 i-Ll帧的初始分类结果，具体的，在生成第 i-Ll帧的初始分类结果时，可以参考过去的信息，即第 i-Ll帧之前的若干帧的音调分布参数和能量分布参数，现在的信息，即第 i-Ll帧的音调分布参数和能量分布参数，未来的信息，即第 i-Ll帧之后 L1帧帧音调分布参数和能量分布参数，获取更为准确的第 i-Ll帧的初始分类结果，具体实现方式可以参见上述实施例。歩骤 506，当 i〉（L2+L3)时，生成并缓存第（i_L2-L3)帧修正后的分类结果，具体的，即可以参照过去的信息，即位于第（i_L2-L3)帧之前若干帧的初始分类结果，未来的信息，即位于第（i_L2-L3)帧之后的 L3帧的初始分类结果，对第（i_L2-L3)帧的初始分类结果进行修正，具体的实现方式可以参见上述的实施例。

歩骤 507、根据允许的输出延时的不同，选择上述歩骤 504、歩骤 505 和歩骤 506的分类结果，作为待分类帧第 j帧的分类结果：

如果输出延时满足条件：（i_j)〉= (L2+L3)，输出最优结果，即第 j帧修正后的分类结果；

如果输出延时满足条件：（L2+L3)〉（i-j)〉=Ll，输出次优结果，即第 j 帧的初始分类结果；

如果输出延时满足条件：（i_j)〈Ll，输出零延时结果，即第 j帧的实时分类结果。

本发明上述实施例中可以将 L2的取值设为与 L1相等。

图 16a为输入信号 "中文女声 +合奏 +英语男声 +塡 +德语男声 +响板" 的波形图四，同图 11a所示，其中的三种音乐信号：合奏、塡及响板，在音调特征或是能量特征方面，均具有一定的典型性，图 16b给出了三种分类方法得到的分类结果，如图 16b所示，其中纵轴上给出的三种分类结果，依次是 31( _实时分类结果，用实线表示， ΜΙ^Κ^ 始分类结果，用点线表示， MUSIC_修正后的分类结果，用虚线表示。

如图 16b所示，根据分类结果的正确率，修正后的分类结果〉初始分类结果〉实时分类结果。因此，在输出延时允许的情况下，用户可以充分利用尽可能多的未来信息，输出当前条件下可以得到的最好的分类结果。

本发明实施例提供的技术方案，其提取的特征能够反映出音乐信号不同于语音信号的更为本质的特征，使得在低采样率下的分类正确率明显提高。由于本发明实施例的技术方案提取特征的方法并不受限于采样率，因此其不仅适用于低采样率，也适用于高采样率下的信号分类。在确保较低的算法复杂度的前提下，用户可以根据需求灵活选择实时分类结果、次优分类结果或是最优分类结果。

本发明实施例还提供了一种与上述方法对应的音频信号分类处理装置，图 Π为本发明实施例中音频信号分类处理装置的结构示意图，如图 17所示，该装置包括第一获取模块 11和分类确定模块 12，其中第一获取模块 11用于获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项；分类确定模块 12用于根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧的高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。

本发明上述实施例提供的技术方案，主要是考虑到音乐信号的特性，例如音乐信号的音调持续时间较长，而语音信号的音调持续时间较短，音乐信号的能量可以持续分布在高频区域或低频区域，而语音信号通常不能持续分布在高频区域或低频区域，在考虑音乐信号上述特点的基础上，本发明实施例提供的技术方案中，首先获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量，以及音频信号中待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数，并根据上述信息确认待分类帧的类型是音乐信号，还是语音信号，上述技术方案提供的音频信号分类处理方法，能够提高音频信号分类的正确率，满足语音质量评估的要求。

本发明上述实施例中，其中根据有无输出延时和输出延时长度的不同，其中的各个模块的执行的歩骤也会有所不同，具体包括如下几种情况: 一是在实时获取所述待分类帧的分类结果时，所述第一获取模块具体用于获取音频信号中待分类帧，以及待分类帧前 N1帧的音调分布参数，并根据所述待分类帧，以及待分类帧前 N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N1为正整数；或，具体用于获取所述音频信号中待分类帧，以及待分类帧前 N1帧的能量分布参数，并根据所述音频信号中待分类帧，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

所述分类确定模块 12具体用于在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

具体的，上述的第一获取模块获取音频信号中待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数包括：

对接收到的音频信号中的待分类帧和待分类帧前 N1帧进行快速傅里叶变换，获取功率密度谱；根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分量的频域分布信息作为待分类帧前 N1 帧的音调分布参数。

上述分类确定模块根据待分类帧的音调分布参数，以及待分类帧前 N1 帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧和待分类帧前 N1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数另外，上述的第一获取模块获取所音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数包括：

上述分类确定模块根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧和待分类帧前 N1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数。

上述分类确定模块根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧和待分类帧前 Nl帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。二是在延时 L1帧获取所述待分类帧的分类结果时， L1为正整数，所述第一获取模块具体用于获取音频信号中待分类帧，待分类帧前 N2帧，以及待分类帧后 L1帧的音调分布参数，并根据所述待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N2为正整数；或，具体用于获取所述音频信号中待分类帧，以及待分类帧前 N2 帧以及待分类帧后 L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

其中，上述第一获取模块获取音频信号中待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数包括：

对接收到的音频信号中的待分类帧、待分类帧前 N2帧和待分类帧帧后 L1帧进行快速傅里叶变换，获取功率密度谱；根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前 N2帧的音调分量的频域分布信息作为待分类帧前 N2帧的音调分布参数，以及待分类帧帧后 L1帧的音调分量的频域分布信息作为待分类帧帧后 L1帧的音调分布参数。

上述分类确定模块根据待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

另外，上述第一获取模块获取所音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前 N2帧的高频能量分布比和声压级作为待分类帧前 N2帧的能量分布参数和待分类帧帧后 L 1帧的高频能量分布比和声压级作为待分类帧后 L 1帧的能量分布参数。

上述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L 1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前 N2帧和待分类帧后 L1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数。

上述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L 1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

三是在延时 L2+L3帧获取所述待分类帧的分类结果时， L2和 L3为正整数，所述第一获取模块具体用于获取音频信号中待分类帧，待分类帧前 N3帧，以及待分类帧后 L2帧的音调分布参数，并根据所述待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N3为正整数；或，具体用于获取所述音频信号中待分类帧，以及待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；所述分类处理模块具体用于在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号；若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前 N4帧和待分类帧中后 L3帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号；若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前 N4帧和待分类帧中后 L3帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号， N4为正整数。

其中，上述的第一获取模块获取音频信号中待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数包括：

对接收到的音频信号中的待分类帧、待分类帧前 N3帧和待分类帧帧后 L2帧进行快速傅里叶变换，获取功率密度谱；根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前 N3帧的音调分量的频域分布信息作为待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分量的频域分布信息作为待分类帧后 L2帧的音调分布参数。

上述分类确定模块根据待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

另外，上述第一获取模块获取所音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前 N3帧的高频能量分布比和声压级作为待分类帧前 N3帧的能量分布参数，以及待分类帧帧后 L2帧的高频能量分布比和声压级作为待分类帧后 L2帧的能量分布参数。

上述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

上述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

上述三种情况下，第一获取模块获取的待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。

本发明实施例还提供了一种音频信号分类处理设备，图 18为本发明实施例中音频信号分类处理设备的结构示意图，如图 18所示，该设备包括接收器 21和处理器 22，其中的接收器 21用于接收音频信号；处理器 22与所述接收器 21连接，用于获取接收器接收到的音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。

本发明上述实施例中，其中的处理器可以由软件流程实现，也可以通过使用数字信号处理（Digital Signal Processing, 以下简称： DSP ) 芯片等硬件实体设备实现。

本发明上述实施例中，其中根据有实时获取所述待分类帧的分类结果，或者是允许分类结果输出延时的长短，处理器可以包括如下几种情况: 一是在实时获取所述待分类帧的分类结果时，所述处理器具体用于获取音频信号中待分类帧，以及待分类帧前 N1帧的音调分布参数，并根据所述待分类帧，以及待分类帧前 N帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N1为正整数；获取所述音频信号中待分类帧，以及待分类帧前 N1帧的能量分布参数，并根据所述音频信号中待分类帧，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数， N1为正整数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

其中，处理器获取音频信号中待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数包括：

处理器根据待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：根据接收到的音频信号中的待分类帧和待分类帧前 N1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数另外，处理器获取所音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数包括：

处理器根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

处理器根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

二是在延时 L1帧获取所述待分类帧的分类结果时， L1为正整数，所述处理器具体用于获取音频信号中待分类帧，待分类帧前 N2帧，以及待分类帧后 L1帧的音调分布参数，并根据所述待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N2为正整数；获取所述音频信号中待分类帧，以及待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

其中，处理器获取音频信号中待分类帧的音调分布参数，待分类帧前

N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数包括：

对接收到的音频信号中的待分类帧、待分类帧前 N2帧和待分类帧帧后 L1帧进行快速傅里叶变换，获取功率密度谱；根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前 N2帧的音调分量的频域分布信息作为待分类帧前 N2帧的音调分布参数，以及待分类帧帧后 L1帧的音调分量的频域分布信息。

处理器根据待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前 N2帧的音调分量的频域分布信息作为待分类帧前 N2帧的音调分布参数，以及待分类帧帧后 L1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数量。

另外，处理器获取所音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数包括：获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前 N2帧的高频能量分布比和声压级作为待分类帧前 N2帧的能量分布参数，以及待分类帧帧后 L1帧的高频能量分布比和声压级作为待分类帧后 L1帧的能量分布参数。

处理器根据音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

处理器根据音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

三是在分类结果输出延时为 L2+L3帧时， L2和 L3为正整数，所述处理器具体用于获取音频信号中待分类帧，待分类帧前 N3帧，以及待分类帧后 L2帧的音调分布参数，并根据所述待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N3为正整数；获取所述音频信号中待分类帧，以及待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号；若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前 N4帧和待分类帧后 L3帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号， N4为正整数; 若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前 N4帧和待分类帧后 L3帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号。

其中，处理器获取音频信号中待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数包括：

处理器根据待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

另外，处理器获取所音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数包括：获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前 N3帧的高频能量分布比和声压级作为待分类帧前 N3帧的能量分布参数，以及待分类帧帧后 L2帧的高频能量分布比和声压级作为待分类帧后 L2帧的能量分布参数。

处理器根据音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前 N3帧和待分类帧后 L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数。

处理器根据音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

上述三种情况下，处理器获取的待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分歩骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的歩骤；而前述的存储介质包括： R0M、 RAM, 磁碟或者光盘等各种可以存储程序代码的介质。最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

权利要求书

1、一种音频信号分类处理方法，其特征在于，包括：

获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项；

根据获取的所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。

2、根据权利要求 1所述的音频信号分类处理方法，其特征在于，所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

获取音频信号中待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数，并根据所述待分类帧的音调分布参数，以及待分类帧前 N1 帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N1为正整数；

获取所述音频信号中待分类帧的能量分布参数，以及待分类帧前 N1 帧的能量分布参数，并根据所述音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数， N1为正整数；

所述根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号包括：

3、根据权利要求 2所述的音频信号分类处理方法，其特征在于，所述获取音频信号中待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，以及待分类帧前 N1 帧的音调分量的频域分布信息作为待分类帧前 N1帧的音调分布参数；所述根据待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧和待分类帧前 N1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数

4、根据权利要求 2所述的音频信号分类处理方法，其特征在于，所述获取所述音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数包括：

5、根据权利要求 1-4 任一所述的音频信号分类处理方法，其特征在于，所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

获取音频信号中待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数，并根据所述待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数以及待分类帧后 L 1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， L1为正整数， N2为正整数；

获取所述音频信号中待分类帧的能量分布参数，以及待分类帧前 N2 帧的能量分布参数以及待分类帧后 L1帧的能量分布参数，并根据所述音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数；

6、根据权利要求 5所述的音频信号分类处理方法，其特征在于，所述获取音频信号中待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前 N2帧的音调分量的频域分布信息作为待分类帧前 N2帧的音调分布参数，以及待分类帧帧后 L 1帧的音调分量的频域分布信息作为待分类帧帧后 L 1帧的音调分布参数；

7、根据权利要求 5所述的音频信号分类处理方法，其特征在于，所述获取所音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数包括：

8、根据权利要求 1-7任一所述的音频信号分类处理方法，其特征在于，所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：获取音频信号中待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数，并根据所述待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， L2为正整数， L3为正整数， N3为正整数；

获取所述音频信号中待分类帧的能量分布参数，以及待分类帧前 N3 帧的能量分布参数以及待分类帧后 L3帧的能量分布参数，并根据所述音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L3帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数；

9、根据权利要求 8所述的音频信号分类处理方法，其特征在于，所述获取音频信号中待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数包括：

根据接收到的音频信号中的待分类帧的音调分量的频域分布信息、待分类帧前 N3帧的音调分量的频域分布信息和待分类帧帧后 L2帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数量。

10、根据权利要求 8所述的音频信号分类处理方法，其特征在于，所述获取所音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前 N3帧的能量分布参数和待分类帧后 L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

11、根据权利要求 3、 6或 9所述的音频信号分类处理方法，其特征在于，所述待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。

12、一种音频信号分类处理装置，其特征在于，包括：

第一获取模块，用于获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项；

分类确定模块，用于根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧的高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。

13、根据权利要求 12所述的音频信号分类处理装置，其特征在于，所述第一获取模块具体用于获取音频信号中待分类帧，以及待分类帧前 N1 帧的音调分布参数，并根据所述待分类帧，以及待分类帧前 N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N1为正整数；或具体用于获取所述音频信号中待分类帧，以及待分类帧前 N1帧的能量分布参数，并根据所述音频信号中待分类帧，以及待分类帧前 N1 帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

14、根据权利要求 13所述的音频信号分类处理装置，其特征在于，所述第一获取模块获取音频信号中待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数包括：对接收到的音频信号中的待分类帧和待分类帧前 N1帧进行快速傅里叶变换，获取功率密度谱；

15、根据权利要求 13所述的音频信号分类处理装置，其特征在于，所述第一获取模块获取所音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数包括：

16、根据权利要求 12-15任一所述的音频信号分类处理装置，其特征在于，在延时 LI帧获取所述待分类帧的分类结果时， L1为正整数，所述第一获取模块具体用于获取音频信号中待分类帧，待分类帧前 N2帧，以及待分类帧后 L1帧的音调分布参数，并根据所述待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N2为正整数；或，具体用于获取所述音频信号中待分类帧，以及待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

17、根据权利要求 16所述的音频信号分类处理装置，其特征在于，所述第一获取模块获取音频信号中待分类帧的音调分布参数，待分类帧前 N2帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数包括：对接收到的音频信号中的待分类帧、待分类帧前 N2帧和待分类帧帧后 L1帧进行快速傅里叶变换，获取功率密度谱；

18、根据权利要求 16所述的音频信号分类处理装置，其特征在于，所述第一获取模块获取所音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数包括：获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前 N2帧的高频能量分布比和声压级作为待分类帧前 N2帧的能量分布参数和待分类帧帧后 L1帧的高频能量分布比和声压级作为待分类帧后 L1帧的能量分布参数；

所述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

19、根据权利要求 12-18任一所述的音频信号分类处理装置，其特征在于，

在延时 L2+L3帧获取所述待分类帧的分类结果时， L2和 L3为正整数，所述第一获取模块具体用于获取音频信号中待分类帧，待分类帧前 N3帧，以及待分类帧后 L2帧的音调分布参数，并根据所述待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N3为正整数；或，

具体用于获取所述音频信号中待分类帧，以及待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；所述分类处理模块具体用于在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号；若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前 N4帧和待分类帧中后 L3帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号；若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前 N4帧和待分类帧中后 L3帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号， N4为正整数。

20、根据权利要求 19所述的音频信号分类处理装置，其特征在于，所述第一获取模块获取音频信号中待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数包括：对接收到的音频信号中的待分类帧、待分类帧前 N3帧和待分类帧帧后 L2帧进行快速傅里叶变换，获取功率密度谱；

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前 N3帧的音调分量的频域分布信息作为待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分量的频域分布信息作为待分类帧后 L2帧的音调分布参数；

21、根据权利要求 19所述的音频信号分类处理装置，其特征在于，所述第一获取模块获取所音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数包括：获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前 N3帧的高频能量分布比和声压级作为待分类帧前 N3帧的能量分布参数，以及待分类帧帧后 L2帧的高频能量分布比和声压级作为待分类帧后 L2帧的能量分布参数；

所述分类确定模块根据音频信号中待分类帧、待分类帧前 N3帧和待分类帧后 L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧的能量分布参数，待分类帧前 N3帧的能量分布参数以及待分类帧后 L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

22、根据权利要求 14、 17或 20所述的音频信号分类处理装置，其特征在于，所述第一获取模块获取的待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。

23、一种音频信号分类处理设备，其特征在于，包括：

接收器，用于接收音频信号；

24、根据权利要求 23所述的音频信号分类处理设备，其特征在于，所述处理器具体用于获取音频信号中待分类帧，以及待分类帧前 N 1帧的音调分布参数，并根据所述待分类帧，以及待分类帧前 N帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N1为正整数；获取所述音频信号中待分类帧，以及待分类帧前 N1帧的能量分布参数，并根据所述音频信号中待分类帧，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数， N1为正整数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

25、根据权利要求 24所述的音频信号分类处理设备，其特征在于，所述处理器获取音频信号中待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，以及待分类帧前 N1 帧的音调分量的频域分布信息作为待分类帧前 N1帧的音调分布参数；所述处理器根据待分类帧的音调分布参数，以及待分类帧前 N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

26、根据权利要求 24所述的音频信号分类处理设备，其特征在于，所述处理器获取所音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，以及待分类帧前 N1帧的高频能量分布比和声压级作为待分类帧前 N1帧的能量分布参数；所述处理器根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：根据所述接收到的音频信号中待分类帧和待分类帧前 N1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数；

所述处理器根据音频信号中待分类帧的能量分布参数，以及待分类帧前 N1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：根据所述接收到的音频信号中待分类帧和待分类帧前 N1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

27、根据权利要求 23-26任一所述的音频信号分类处理设备，其特征在于，在延时 L1帧获取所述待分类帧的分类结果时， L1为正整数，所述处理器具体用于获取音频信号中待分类帧，待分类帧前 N2帧，以及待分类帧后 L1帧的音调分布参数，并根据所述待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量， N2为正整数；获取所述音频信号中待分类帧，以及待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N2帧以及待分类帧后 L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

28、根据权利要求 27所述的音频信号分类处理设备，其特征在于，所述处理器获取音频信号中待分类帧的音调分布参数，待分类帧前 N2 帧的音调分布参数，以及待分类帧后 L1帧的音调分布参数包括：

29、根据权利要求 27所述的音频信号分类处理设备，其特征在于，所述处理器获取所音频信号中待分类帧的能量分布参数，待分类帧前 N2帧的能量分布参数以及待分类帧后 L1帧的能量分布参数包括：

30、根据权利要求 23-29任一所述的音频信号分类处理设备，其特征在于，在延时 L2+L3帧获取所述待分类帧的分类结果时， L2和 L3为正整数，所述处理器具体用于获取音频信号中待分类帧，待分类帧前 N3帧，以及待分类帧后 L2帧的音调分布参数，并根据所述待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N3为正整数；获取所述音频信号中待分类帧，以及待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前 N3帧以及待分类帧后 L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和 /或所述待分类帧在高频区域的持续帧数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号；若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前 N4帧和待分类帧后 L4帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号， N4为正整数；若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前 N4帧和待分类帧后 L4帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号。

31、根据权利要求 30所述的音频信号分类处理设备，其特征在于，所述处理器获取音频信号中待分类帧的音调分布参数，待分类帧前 N3 帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数包括：

所述处理器根据待分类帧的音调分布参数，待分类帧前 N3帧的音调分布参数，以及待分类帧后 L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：根据接收到的音频信号中的待分类帧、待分类帧前 N3帧和待分类帧帧后 L2帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数量。

32、根据权利要求 30所述的音频信号分类处理设备，其特征在于，所述处理器获取所音频信号中待分类帧的能量分布参数，待分类帧前

N3帧的能量分布参数以及待分类帧后 L2帧的能量分布参数包括：

33、根据权利要求 25、 28或 31所述的音频信号分类处理设备，其特征在于，所述处理器获取的待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。