CN111916109A

CN111916109A - 一种基于特征的音频分类方法、装置及计算设备

Info

Publication number: CN111916109A
Application number: CN202010805744.6A
Authority: CN
Inventors: 王树大; 吴世龙; 张兆明
Original assignee: Beijing Honglian 95 Information Industries Co Ltd
Current assignee: Beijing Honglian 95 Information Industries Co Ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-11-10
Anticipated expiration: 2040-08-12
Also published as: CN111916109B

Abstract

本发明公开了一种基于特征的音频分类方法，适于在计算设备中执行，该方法包括：获取待检测音频数据；从待检测音频数据中获取第一预定时长的待检测音频数据块；获取待检测音频数据块的频率；若频率在预设范围内，则将待检测音频数据块确定为第一音频类，并获取待检测音频数据块的第一音频特征，根据第一音频特征获取待检测音频数据块的具体音频类别；若频率不在预设范围内，则将待检测音频数据块确定为第二音频类，并获取待检测音频数据块的第二音频特征，根据第二音频特征获取待检测音频数据块的具体音频类别。本发明一并公开了相应的装置、计算设备和存储介质。

Description

一种基于特征的音频分类方法、装置及计算设备

技术领域

本发明涉及音频识别领域，尤其涉及一种基于特征的音频分类方法、装置及计算设备。

背景技术

智能外呼机器人通过发起通话模拟真实用户和被叫用户进行语音通话，在代替传统人力外呼上起着重要的作用，目前智能外呼技术发展迅猛，已应用到多个领域，而智能外呼过程中机器人端(主叫方)接收到的被叫方用户电话传过来的声音会基于被叫方电话的不同状态呈现不同的形式，如被叫方关机、信号不佳、停机等状态，而为了更精准有效地实现智能外呼，需要对电话拨打过程中机器人端接收到的被叫方用户电话传过来的声音进行自动分类识别，以便智能外呼机器人会根据不同的类别采取不同的后续决策。

因此，如何对机器人端接收到的被叫方用户电话传过来的声音进行自动分类识别，就成为亟待解决的技术问题。

发明内容

为此，本发明提供了一种基于特征的音频分类方法，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种基于特征的音频分类方法，该方法包括：获取待检测音频数据；从待检测音频数据中获取第一预定时长的待检测音频数据块；获取待检测音频数据块的频率；若频率在预设范围内，则将待检测音频数据块确定为第一音频类，并获取待检测音频数据块的第一音频特征，根据第一音频特征获取待检测音频数据块的具体音频类别；若频率不在预设范围内，则将待检测音频数据块确定为第二音频类，并获取待检测音频数据块的第二音频特征，根据第二音频特征获取待检测音频数据块的具体音频类别。

可选的，在根据本发明的音频分类方法中，待检测音频数据为拨打电话时主叫所接收到的音频信息，第一音频类为信号音，第一音频类包含多种类别的信号音，第二音频类为提示音，第二音频类包含多种类别的提示音。

可选的，在根据本发明的音频分类方法中，获取待检测音频数据块的频率包括：获取待检测音频数据块中第一预定数量个采样点；对第一预定数量个采样点进行傅里叶变换，获得待检测音频数据块的频率。

可选的，在根据本发明的音频分类方法中，第一音频特征为静音时长和非静音时长，根据第一音频特征获取待检测音频数据块的具体音频类别包括：根据静音时长和非静音时长判断待检测音频数据块的具体音频类别。

可选的，在根据本发明的音频分类方法中，获取待检测音频数据块的第二音频特征包括：计算待检测音频数据块的过零率，过零率为单位时间内音频数据块中采样点数值过零的次数；计算待检测音频数据块中的短时能量，并对短时能量进行归一化处理。

可选的，在根据本发明的音频分类方法中，获取待检测音频数据块的第二音频特征前还包括：检测待检测音频数据块是否存在丢帧；若存在丢帧，则获取丢帧在待检测音频数据块中的位置；根据相邻音频帧的数值对丢帧部分进行赋值。

可选的，在根据本发明的音频分类方法中，检测待检测音频数据块是否存在丢帧包括：计算每一帧的短时能量；若低于预定能量阈值，则认为是丢帧。

可选的，在根据本发明的音频分类方法中，检测待检测音频数据块是否存在丢帧包括：当检测到连续丢帧时，判断丢帧前一帧的值和后一帧的值是否发生跳变，若发生跳变，判断为丢帧，否则判读为静音。

可选的，在根据本发明的音频分类方法中，根据相邻音频帧的数值对丢帧部分进行赋值包括：获取丢帧前后第二预定数量帧的值；计算第二预定数量帧的值的平均值，并将该平均值作为丢帧的数值。

可选的，在根据本发明的音频分类方法中，根据第二音频特征获取待检测音频数据块的具体音频类别包括：获取特征库中的特征数据，每一个特征数据对应一个音频类别；依次计算特征数据与待检测音频数据块的第二音频特征之间的距离；当距离小于距离阈值时，匹配成功，并将特征数据对应的音频类别作为待检测音频数据块的具体音频类别；当距离大于距离阈值时，匹配失败，从待检测音频数据中获取下一个待检测音频数据块。

可选的，在根据本发明的音频分类方法中，从待检测音频数据中获取下一个待检测音频数据块包括：向后滑动第二预定时长；获取第一预定时长的音频数据，并作为下一个待检测音频数据块。

可选的，在根据本发明的音频分类方法中，特征库包含多个特征数据，特征库通过下述方法获得：获取各种音频类别的标准音频数据，从标准音频数据截取第一预定时长的音频作为样本音频数据，标准音频数据的音频类别作为样本音频数据的音频类别；获取样本音频数据的第二音频特征，并作为该提示音的特征数据存储在特征库中。

可选的，在根据本发明的音频分类方法中，获取各种提示音的标准音频数据，从标准音频数据截取第一预定时长的音频作为样本音频数据包括：截取不同时段的第一预定时长的多个音频数据作为提示音的样本音频数据。

可选的，在根据本发明的音频分类方法中，距离阈值通过下述方法获得：获取测试数据，测试数据为预定长度的音频数据；计算测试数据的第二音频特征和特征样本之间的距离；根据测试结果中的召回率和虚警率确定距离阈值。

根据本发明的又一个方面，提供一种基于特征的音频分类装置，包括：接收单元，适于获取待检测音频数据；音频截取单元，从待检测音频数据中获取第一预定时长的待检测音频数据块；频率检测单元，获取待检测音频数据块的频率；第一音频分类单元，获取待检测音频数据块的第一音频特征，根据第一音频特征获取待检测音频数据块的具体音频类别；第二音频分类单元，获取待检测音频数据块的第二音频特征，根据第二音频特征获取待检测音频数据块的具体音频类别。

可选的，在根据本发明的基于特征的音频分类装置中，还包括：数据存储单元，适于存储特征数据，每一个特征数据对应一个音频类别；输出单元，适于输出待检测音频的具体音频类别。

根据本发明的又一个方面，提供一种计算设备，包括：至少一个处理器；以及存储器，存储有程序指令，其中，程序指令被配置为适于由至少一个处理器执行，程序指令包括用于执行如上的方法指令。

根据本发明的又一个方面，提供一种存储有程序指令的可读存储介质，当程序指令被计算设备读取并执行时，使得计算设备执行如上的方法。

根据本发明的基于特征的音频分类方法，首先通过频率将待检测音频分为第一音频类或第二音频类，随后再根据各个音频类中具体类别之间的特征差异进行具体类别分析，这样，在具体类别分析时能够根据具体类别之间的特征差异进行分析，使得分类结果更加准确。同时，先根据频率进行初步分类，缩小了具体类别分析时的分类范围，简化了分类过程。另外，当待识别音频的音频类别相对固定，且类别较少时，基于特征对音频进行分类的分类方式，相较于目前应用较多的机器学习的语音识别，不需要大量数据的模型训练过程，更易于实现。

根据本发明的基于特征的音频分类方法，在应用于识别主叫方呼叫时接收到的被叫传回的音频时，能够很好的利用信号音频率相对固定的特征，根据这一特殊性首先确定待检测音频属于信号音还是提示音，进而再进行具体类别的分类。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的基于特征的音频分类***100的示意图。

图2示出了根据本发明一个实施例的计算设备200的框图；

图3示出了根据本发明一个实施例的基于特征的音频分类方法300的流程图；

图4示出了根据本发明一个实施例的基于特征的音频分类装置400的示意图；

图5示出了根据本发明一个实施例的特征列表文件的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的基于特征的音频分类***100的示意图。如图1所示，基于特征的音频分类***100包括智能外呼机器人110、音频分类设备120、提示音特征库130以及移动智能终端140。应当指出，图1所示的基于特征的音频分类***仅为示例性的，具体实现中，可以包括一台或多台智能外呼机器人110、音频分类设备120，提示音特征库130也可以根据运营商或地区分解为不同的提示音特征库，本发明对此均不作限制。

智能外呼机器人110可以是互动式语音应答***(Interactive Voice Response，IVR)、智能外呼***或自动外呼***，完成对用户终端通信设备的呼叫，智能外呼机器人可以实现为桌面电脑、笔记本电脑等个人计算机，也可以是手机、平板电脑、多媒体设备，还可以是驻留在计算设备上的应用程序，但不限于此。

音频分类设备120与智能外呼机器人连接，以便在智能外呼机器人110呼叫用户终端通信设备(例如移动智能终端140)时，获取智能外呼机器人收到的被叫方传回的音频，并对该音频进行音频分类，并将识别出的音频类别返回给智能外呼机器人110，以便智能外呼机器人根据分类结果作出进一步的处理。

提示音特征库130中存储了各个提示音样本的特征数据，提示音特征库130可以根据不同的运营商创建成不同的特征库，包括移动、联通、电信。每个运营商都会有关机、空号、通话中的特征音频，但是会有不同的版本，因为每个省份地区的提示音的配音员不同、内容也不同，还可能存在方言等因素的影响，需要采集所有提示音样本的特征数据建立特征库。在采集样本音频时，选取每个版本录音质量最好的音频，截取关键部分(和其他类别相比最具区分性的部分)，本实施例中以截取5秒音频样本为例，也可以多于5秒，但是不能少于5秒，获取样本的特征数据保存成相应的文件，文件格式可以为wave格式，也可以是其他支持的文件格式。在采集样本时，可以采用多特征截取方式，每个类别的每个版本截取了三段关键部分并且是部分重叠的，如：第一个关键部分是5s-10s，第二个关键部分是5.5s-10.5s，第三个关键部分是6s-11s，也可以通过对不同次录音进行截取完成，计算截取到的样本音频的音频特征保存为特征数据文件存储到提示音特征库130中，提示音特征库130中还会保存一个特征列表文件，该文件的初始位置保存了对应的特征数据文件的数量，后续每一行记录一个特征数据文件名称以及该特征数据文件对应的音频类别。比如，可以用DXybname.txt作为电信的特征列表文件，其中保存了电信***中提示音的特征数据文件个数，以及各个特征数据文件名称和对应的类别类别，格式如图5所示。具体的保存格式可以根据实际情况具体设计，本发明对此不做限制。

音频分类设备120与提示音特征库130连接，以便在识别提示音类别时从提示音特征库130中获取相应的特征数据文件进行比对，进而获取待检测音频的音频类别。提示音特征库130可以是单独的存储设备也可以是位于音频分类设备中的存储设备，本发明对此不做限制。

根据本发明的一个实施例，当智能外呼机器人110呼叫用户时，音频分类设备120从智能外呼机器人110中获取被叫方传回的音频，作为原始音频，截取其中的关键部分进行分析，为了能够截取到待检测音频中的关键部分，至少从原始音频中截取5秒音频数据作为待检测音频，音频采样频率为8k。原始音频可以分为两类，信号音和提示音，其中，信号音在通信网络的交换设备中遵循统一的标准，为固定频率的音频，采用例如450±25赫兹(Hz)的正弦波，而提示音因为是语音提示，来自不同的运营商、不同的地域，包括不同的语音提示内容，因此没有统一的标准，不具有固定的频率，根据信号音和提示音在频率上的不同，通过计算待检测音频的频率可以初步确定待检测音频为信号音还是提示音。这一初步判断，使得后续在确定信号音和提示音的具体类别时，可以基于信号音和提示音各个类别特有的特征进行具体区分，缩小了类别范围，简化了分类中音频特征的计算量，提高了待检测音频的分类效率。

根据本发明的一个实施例，在计算待检测音频的频率时可以通过对截取的待检测音频数据中的采样点进行傅里叶变换，将频域信息转换为时域上的信息，进而获得待检测音频的频率，如果频率在预设范围(例如450±25Hz)内，则认为是信号音，进而根据信号音的检测方法，获取待检测音频的第一音频特征进行进一步的具体音频类别的识别；如果不在预设范围(例如450±25Hz)内，则认为是提示音，进而根据提示音的检测方法，获取待检测音频的第二音频特征完成具体音频类别的识别。

根据本发明的一个实施例，信号音包括拨号音、回铃音、忙音、空号音等类别，各个类别的信号音具有不同的静音时长和非静音时长，比如回铃音是“嘟--嘟--”的断续音，响1秒断4秒，表示被叫话机正在响铃，正等待接通，当检测待待检测音频中包括4秒的静音段和1秒的非静音段时，可以判断待检测音频为回铃音。

在一个实施例中，如果根据频率检测结果，待检测音频被识别为提示音，则根据提示音的检测方式，计算待检测音频的第二音频特征，然后与提示音特征库130中的各个特征数据进行比较，计算待检测音频的第二音频特征与个特征数据之间的距离，距离满足一定条件时认为匹配成功，确定带检测音频的音频类别为当前比较的特征数据对应的音频类别。

如果当前截取的的待检测音频在特征库中没有匹配结果，可以采取滑动匹配的方法，即截取窗口向后滑动固定帧长度截取下一个待检测音频段，比如，当前待检测音频段截取的是从第3秒开始，截取5秒的音频段，下一次可以向后滑动1秒，从第4秒开始，截取5秒的音频段作为待检测音频段。当滑动到原始音频的最后一个待检测音频段时，仍然没有匹配结果时，则返回固定字符或数值，表示特征库中没有匹配的结果，比如，设置没有匹配结果时返回1000。

音频分类设备120在获取到待检测音频的音频类别后，将音频类别返回给智能外呼机器人110，外呼机器人可以根据识别出的音频类别作出进一步的处理，比如，当检测结果为“忙音”时，智能外呼机器人110可以根据该识别结果确定等候预定时长后进行再次呼叫。

音频分类设备可以实现为一台计算设备，图2示出了根据本发明一个实施例的计算设备100的框图。需要说明的是，图2所示的计算设备200仅为一个示例，在实践中，用于实施本发明的基于特征的音频分类方法的计算设备可以是任意型号的设备，其硬件配置情况可以与图2所示的计算设备200相同，也可以与图2所示的计算设备200不同。实践中用于实施本发明的基于特征的音频分类方法的计算设备可以对图2所示的计算设备200的硬件组件进行增加或删减，本发明对计算设备的具体硬件配置情况不做限制。

如图2所示，在基本的配置202中，计算设备200典型地包括***存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和***存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，***存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。计算设备中的物理内存通常指的是易失性存储器RAM，磁盘中的数据需要加载至物理内存中才能够被处理器204读取。***存储器206可以包括操作***220、一个或者多个应用222以及程序数据224。在一些实施方式中，应用222可以布置为在操作***上由一个或多个处理器204利用程序数据224执行指令。操作***220例如可以是Linux、Windows等，其包括用于处理基本***服务以及执行依赖于硬件的任务的程序指令。应用222包括用于实现各种用户期望的功能的程序指令，应用222例如可以是浏览器、即时通讯软件、软件开发工具(例如集成开发环境IDE、编译器等)等，但不限于此。当应用222被安装到计算设备200中时，可以向操作***220添加驱动模块。

在计算设备200启动运行时，处理器204会从存储器206中读取操作***220的程序指令并执行。应用222运行在操作***220之上，利用操作***220以及底层硬件提供的接口来实现各种用户期望的功能。当用户启动应用222时，应用222会加载至存储器206中，处理器204从存储器206中读取并执行应用222的程序指令。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备142包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在根据本发明的计算设备200中，应用222包括用于执行本发明的基于特征的音频分类方法300的指令，该指令可以指示处理器104执行本发明的基于特征的音频分类方法300，以实时调整作业数据的资源配置。

图3示出了根据本发明一个实施例的基于特征的音频识别方法300的流程图，方法300适于在计算设备(如上述计算设备200)中执行，计算设备连接智能外呼机器人，以便截取被叫方传回的音频信息。同时连接提示音特征库，以便根据提示音特征库中的样本特征对提示音进行分类，需要说明的是，提示音特征库可以是内置于计算设备中的存储设备，也可以是外置的与计算设备相连的存储设备。

如图3所示，方法300始于步骤S310，获取待检测音频数据。根据本发明的一个实施例，在通过智能外呼***呼叫被叫方时，获取智能呼叫***接收到的被叫方传回的音频数据，作为原始音频数据。

随后进入步骤S320，从原始音频数据中，截取预定时长的音频数据作为待检测音频数据。为了实现更好的识别效果，需要截取一个完整周期的音频数据，对于呼叫被叫方时接收到的被叫方传回的音频，一个周期例如为5秒，因此，在截取预定时长音频时，至少截取5秒时长的音频作为待检测音频数据，不能少于5秒，可以稍长。

随后，在步骤S330中，计算待检测音频数据的频率，对待检测音频数据进行初步的分类。智能呼叫***接收到的音频数据包括信号音和提示音两大类，其中，信号音是频率在固定范围内的正弦波，通过不同间隔的断续音标识不同的音频类别，而提示音则是包含语音提示信息的音频数据，频率不固定。因此，可以通过待检测音频的频率判断待检测音频属于信号音还是提示音。

根据本发明一个实施例，可以通过傅里叶变换，将待检测音频数据在频域上的采样数据转换成时域上的数据，进而获取其频率信息。待检测音频数据为采样率8K的采样数据，该步骤需要获取待检测音频中的非静音部分进行计算。

当步骤S330的检查结果为待检测音频数据的频率在预设范围(例如450±25)内时，进入步骤S340，判断待检测音频为信号音，根据信号音的检测方法，获取信号音的第一音频特征。因为不同的信号音具有不同间隔的静音时长和非静音时长，比如，拨号音，是一种“嗡”的连续音，表示自动交换机或对方呼叫中心***已经做好了接续准备，允许用户拨号；回铃音是“嘟--嘟--”的断续音，响1秒断4秒，表示被叫话机正在响铃，正等待接通；忙音为“嘟-嘟-嘟-”的短促音，响0.35秒断0.35秒，表示线路已经被占满或被叫电话机正在使用，空号音为不等间隔的断续音，响0.1秒断0.1秒，重复三次后，向0.4秒断0.4秒，表示通知主叫用户所呼叫的被叫号码为空号或受限制的号码。

根据计算出的待检测音频的静音段和非静音段与上述信号音进行匹配，如果匹配成功，通过步骤S380返回分类结果。根据本发明的一个实施例，检测到待检测音频数据中的非静音段0.35秒，静音段0.35秒，则判断待检测音频为忙音，并返回结果。又一实施例，检测到待检测音频数据中的非静音段1秒，静音段为4秒，则判断待检测音频为回铃音并返回结果。

当根据计算出的待检测音频的第一音频特征不能完成音频分类时，判断是否还能够通过滑动固定移块获取到预定长度的待检测音频，本实施例中以获取到5秒音频为例，如果原始音频数据为15秒，每次获取待检测音频数据时滑动0.5秒，当前检测的待检测音频为，第6秒到第10秒的音频，滑动0.5秒后，下一次需截取第6.5秒到第10.5秒的音频，没有超出原始音频数据的范围，此时，将重新进入步骤S320截取第6.5秒到第10.5秒的音频，进行下一次检测。

上述中滑动的距离0.5秒称为块移，在获取的被叫方传回的音频长度固定的情况下，块移越小，则相对的滑动匹配次数较多，若块移较大，则相对的滑动匹配次数就会较少，在具体实现中，可以根据***的预算速度、计算性能进行具体设置。

根据本发明的又一实施例，原始音频数据为15秒，当前检测的音频数据为11-15秒的音频，再次滑动0.5秒进行音频数据截取时会超出原始音频数据的范围，此时进入步骤S390，返回约定的标识匹配失败的特殊字符或数值，本实施例以返回1000标识匹配失败。

当步骤S330的检测结果显示待检测音频数据的频率不在预设范围(例如450±25)内时，则进入步骤S350，将待检测音频识别为提示音，并进行丢帧处理。检测待检测音频数据是否有丢帧，如果有丢帧的情况对丢帧进行数据补充。

在判断丢帧时，可以通过计算每一帧的短时能量进行判断，当短时能量低于能量阈值时，认为该帧为丢帧，比如，设定能量阈值为10，当短时能量小于10时，认为是丢帧，并进行丢帧处理。根据本发明的一个实施例，检测到一帧的短时能量为8，则判断为丢帧，根据丢帧前后相邻帧的数值计算丢帧的数值。本实施例以根据丢帧前一帧和后一帧的数值计算丢帧数值为例，比如，丢帧前一帧的数值为40，后一帧的数值为60，则将丢帧的数值设为前后帧数值的平均值50。也可以根据丢帧前两帧和后两帧的数值对丢帧进行赋值，本发明对此不做限制。

当检测到连续丢帧时，需要进行静音或连续丢帧的判断，如果连续丢帧段的前一帧的数值和后一帧的数值发生跳变，则判断为丢帧，例如，丢帧段前一帧为0，丢帧段后一帧为100，则认为发生跳变，判断为丢帧，并进行丢帧赋值。如果丢帧段前一帧的值和后一帧的值没有发生跳变，则判断为静音，例如，丢帧段前一帧为10，丢帧段后一帧为10，则认为该连续丢帧部分为静音段。

丢帧处理完成后，进入步骤S360，获取待检测音频数据的第二音频特征，包括短时平均过零率和短时能量。

短时平均过零率是语音信号时域分析中的一种特征参数，它是指每帧内信号通过零值的次数，对有时间横轴的连续语音信号，可以观察到语音的时域波形通过横轴的情况，对于离散语音采样信号，如果相邻的采样数据具有不同的代数符号就称为发生了过零，单位时间内过零的次数就称为过零率，如果是正弦信号，其平均过零率就是信号频率的两倍除以采样频率，采样频率固定时过零率在一定程度上可以反映信号的频率信息。

短时能量可以作为区分清音和浊音的特征参数，在信噪比较高的情况下，短时能量可以作为区分有声和无声的依据，也可以作为辅助的特征参数用于语音识别当中。短时平均能量受声音的响度影响，为避免这个因素影响特征音频和测试音频的匹配结果，需要对待检测音频的短时平均能量做归一化处理，以此来提高稳定性，可以通过最大值归一化方法实现。

在计算出待检测音频数据的音频特征之后，进入步骤S370中，将计算出的待检测音频的音频特征与特征库中的特征数据进行比较，特征最相似的样本特征的音频类别即为待检测音频数据的音频类别。

根据本发明的一个实施例，通过计算待检测音频数据的第二音频特征与特征库中的特征数据的欧几里得距离来确定待检测音频数据的音频类别，依次与特征库中的特征数据进行比较，当距离小于预定距离阈值时，确定匹配成功。并将对应样本特征的音频类别作为待检测音频数据的音频类别。如果距离大于预定阈值，则认为匹配失败，继续与下一个样本特征进行匹配。

根据本发明的一个实施例，距离阈值是通过测试过程获得的，在测试过程中，根据召回率和虚警率确定距离阈值。测试样本中包括500个正样本(T)和500个负样本(F)，召回率为TP/(TP+FN)，其中，TP为正样本被识别为正样本的样本数，FN为被预测为负样本的正样本的样本数，虚警率为FP/(FP+FN)，其中FP为负样本被识别为正样本的样本数，对于本领域的技术人员来说，该内容属于已知内容，此处不再详细赘述。通过测试获得适当的距离阈值，可以保持较高的召回率和较低的虚警率。

在一个实施例中，当计算的待检测音频数据的特征与“正在通话中”的特征数据之间的距离小于距离阈值，则确定待检测音频数据的音频类别为忙音类别，直接进入步骤S380，返回分类结果，完成音频识别。

当步骤S370中没有获得到音频的音频类别时，需要判断是否还能够通过滑动固定移块获取到预定长度的待检测音频，如果还可以通过滑动获取相应的待检测音频数据，重新进入步骤S320，截取下一个待检测音频数据，否则直接进入步骤S390，输出标识匹配失败的特殊字符，本实施例通过输出1000标识匹配失败。

图4示出了根据本发明一个实施例的基于特征的音频分类装置400的示意图，驻留在计算设备200，其可以运行音频分类方法300。

如图4所示，基于特征的音频分类装置400包括接收单元410、音频截取单元420、音频检测单元430、第一音频分类单元440、第二音频分类单元450、数据存储单元460以及输出单元470。

接收单元410，用于获取待检测音频数据。接收单元410对外连接产生原始音频的源端，比如，在检测智能外呼机器人接收到的被叫方传回的音频时，接收单元410连接智能外呼机器人，以便获取智能外呼机器人接收到的音频。

音频截取单元420，用于从接收到的音频数据中截取固定长度的音频数据块作为待检测音频数据。继续以智能外呼机器人接收到的被叫方传回的音频为例，该音频中一个完整周期的数据为5秒，音频截取单元420根据设定截取至少5秒的音频数据作为待检测音频数据。

频率检测单元430，用于检测待检测音频数据的频率。对于智能外呼机器人接收到的被叫方传回的音频，包括信号音和提示音两类，信号音具有统一的规范，是具有固定频率范围的音频信号，而提示音的频率不固定，没有统一标准，通过频率检测单元430首先计算出待检测音频的频率，可以将待检测音频进行初步判断，如果待检测音频属于信号音，则通过第一音频分类单元440继续进行处理，如果待检测音频属于提示音，则由第二音频分类单元450继续进行处理。

第一音频分类单元440，用于识别待检测音频具体属于信号音中的哪一种，信号音包括忙音、回铃音、占线等类别，具体可以根据待检测音频中的静音时长和非静音时长作为特征标准进行区分。

第二音频分类单元450，用于识别待检测音频具体属于提示音中的哪一种，提示音包括忙音提示音、空号提示音等，第二音频分类单元450首先计算待检测音频的第二音频特征，包括短时过零率或短时能量，然后根据计算出的第二音频特征与数据存储单元460中的数据特征进行比较，将距离接近的特征数据对应的音频类别作为待检测音频的类别。

数据存储单元460，适于存储标准音频的特征数据，第二音频分类单元与数据存储单元连接，以便第二音频单元对待检测音频的特征与数据存储单元中的特征数据进行比较。

输出单元470，于第一音频分类单元440和第二音频分了单元450连接，用于输出待检测音频数据的分类结果。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的基于特征的音频识别方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与本发明的示例一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本发明还包括：

A7、如A6所述的方法，其中，所述检测所述待检测音频数据块是否存在丢帧包括：

计算每一帧的短时能量；

若低于预定能量阈值，则认为是丢帧。

A8、如A6或A7所述的方法，其中，所述检测所述待检测音频数据块是否存在丢帧包括：

当检测到连续丢帧时，判断丢帧前一帧的值和后一帧的值是否发生跳变，若发生跳变，判断为丢帧，否则判读为静音。

A9、如A6-A8中任意一项所述的方法，其中，所述根据相邻音频帧的数值对丢帧部分进行赋值包括：

获取所述丢帧前后第二预定数量帧的值；

计算所述第二预定数量帧的值的平均值，并将该平均值作为所述丢帧的数值。

A10、如A1-A9中任意一项所述的方法，其中，所述根据所述第二音频特征获取所述待检测音频数据块的具体音频类别包括：

获取特征库中的特征数据，每一个特征数据对应一个音频类别；

依次计算所述特征数据与所述待检测音频数据块的第二音频特征之间的距离；

当距离小于距离阈值时，匹配成功，并将所述特征数据对应的音频类别作为所述待检测音频数据块的具体音频类别；

当距离大于距离阈值时，匹配失败，从所述待检测音频数据中获取下一个待检测音频数据块。

A11、如A10所述的方法，其中，所述从所述待检测音频数据中获取下一个待检测音频数据块包括：

向后滑动第二预定时长；

获取第一预定时长的音频数据，并作为下一个待检测音频数据块。

A12、如A10所述的方法，其中，所述特征库包含多个特征数据，所述特征库通过下述方法获得：

获取各种音频类别的标准音频数据，从所述标准音频数据截取第一预定时长的音频作为样本音频数据，所述标准音频数据的音频类别作为样本音频数据的音频类别；

获取所述样本音频数据的第二音频特征，并作为该提示音的特征数据存储在特征库中。

A13、如A12所述的方法，其中，所述获取各种提示音的标准音频数据，从所述标准音频数据截取第一预定时长的音频作为样本音频数据包括：

截取不同时段的第一预定时长的多个音频数据作为所述提示音的样本音频数据。

A14、如A11所述的方法，其中，所述距离阈值通过下述方法获得：

获取测试数据，所述测试数据为预定长度的音频数据；

计算所述测试数据的第二音频特征和特征样本之间的距离；

根据测试结果中的召回率和虚警率确定所述距离阈值。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于特征的音频分类方法，适于在计算设备中执行，其中，所述方法包括：

获取待检测音频数据；

从所述待检测音频数据中获取第一预定时长的待检测音频数据块；

获取所述待检测音频数据块的频率；

若所述频率在预设范围内，则将所述待检测音频数据块确定为第一音频类，并获取所述待检测音频数据块的第一音频特征，根据所述第一音频特征获取所述待检测音频数据块的具体音频类别；

若所述频率不在预设范围内，则将所述待检测音频数据块确定为第二音频类，并获取所述待检测音频数据块的第二音频特征，根据所述第二音频特征获取所述待检测音频数据块的具体音频类别。

2.如权利要求1所述的方法，其中，所述待检测音频数据为拨打电话时主叫所接收到的音频信息，所述第一音频类为信号音，所述第一音频类包含多种类别的信号音，所述第二音频类为提示音，所述第二音频类包含多种类别的提示音。

3.如权利要求1或2所述的方法，其中，所述获取所述待检测音频数据块的频率包括：

获取所述待检测音频数据块中第一预定数量个采样点；

对所述第一预定数量个采样点进行傅里叶变换，获得所述待检测音频数据块的频率。

4.如权利要求1-3中任意一项所述的方法，其中，所述第一音频特征为静音时长和非静音时长，所述根据所述第一音频特征获取所述待检测音频数据块的具体音频类别包括：

根据所述静音时长和非静音时长判断所述待检测音频数据块的具体音频类别。

5.如权利要求1-4中任意一项所述的方法，其中，所述获取所述待检测音频数据块的第二音频特征包括：

计算所述待检测音频数据块的过零率，所述过零率为单位时间内所述音频数据块中采样点数值过零的次数；

计算所述待检测音频数据块中的短时能量，并对所述短时能量进行归一化处理。

6.如权利要求1-5中任意一项所述的方法，其中，所述获取所述待检测音频数据块的第二音频特征前还包括：

检测所述待检测音频数据块是否存在丢帧；

若存在丢帧，则获取所述丢帧在所述待检测音频数据块中的位置；

根据相邻音频帧的数值对丢帧部分进行赋值。

7.一种基于特征的音频分类装置，包括：

接收单元，适于获取待检测音频数据；

音频截取单元，从所述待检测音频数据中获取第一预定时长的待检测音频数据块；

频率检测单元，获取所述待检测音频数据块的频率；

第一音频分类单元，获取所述待检测音频数据块的第一音频特征，根据所述第一音频特征获取所述待检测音频数据块的具体音频类别；

第二音频分类单元，获取所述待检测音频数据块的第二音频特征，根据所述第二音频特征获取所述待检测音频数据块的具体音频类别。

8.如权利要求7所述的装置，还包括：

数据存储单元，适于存储特征数据，每一个特征数据对应一个音频类别；

输出单元，适于输出待检测音频的具体音频类别。

9.一种计算设备，包括：

至少一个处理器；以及

存储器，存储有程序指令，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-6中任一项所述方法的指令。

10.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-6中任一项所述方法。