WO2022100691A1

WO2022100691A1 - 音频识别方法和装置

Info

Publication number: WO2022100691A1
Application number: PCT/CN2021/130304
Authority: WO
Inventors: 贾杨; 夏龙; 吴凡; 郭常圳
Original assignee: 北京猿力未来科技有限公司
Priority date: 2020-11-12
Filing date: 2021-11-12
Publication date: 2022-05-19
Also published as: CN112270933A; CN112270933B

Abstract

一种音频识别方法和装置，音频识别方法包括：获得原始音频(11)，在原始音频头部之前添加第一时长的空数据，以及在原始音频尾部之后添加第二时长的空数据，得到扩展后的音频；以第一时长与第二时长之和的第三时长为切分窗口，以第一步长从扩展后的音频的首部开始，依次分窗后获得多个子音频；分别计算得到子音频的时频特征序列(14)；神经网络根据时频特征序列得到子音频属于特定分类的概率；将概率分别与判决门限进行比较判决子音频是否为特定分类(16)。

Description

音频识别方法和装置

相关申请的交叉引用

本申请要求于2020年11月12日提交中国专利局、申请号为202011260050.5、发明名称为“一种音频识别方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，尤其涉及一种音频识别方法和装置。

背景技术

随着互联网技术的发展，线上教育等类似行业蓬勃发展，在线学习人数剧增，老师通过人为主观感受和统计同学的开口时长，评估学生课堂参与度，并给予反馈，提高教学效果。

目前，现有技术中有几种统计用户开口时长的方案。

基于开关式的开口时长统计，即在用户客户端设置可开启、关闭的录制按钮，用户需按下按钮之后再开口说话。该方案的出发点是为了实现简单直接的时长统计，但当受众是低龄的幼儿群体时，该群体的特点就是服从性差、行动不循章法，为此点击按钮并说话的方式显得效率低下，全程开启麦克风的方案更适合此场景。同时，用户在交互发生的过程中，必须手动进行操作然后才能传达信息，这一定程度上减少了用户的互动性，且时长统计的有效性完全取决于用户的自觉性。

基于音频能量分析的开口时长统计，声音产生于声源的震动，是一种能量的表示方式。因此，可对音频的能量进行分析，切除掉“静音”后即为用户的有效开口时长。该方法在相对安静的环境下具备较好的效果，但是当周围存在较为强烈的噪声和混响时效果会有所下降，因为噪声本身也涵盖能量。

基于语音识别的开口时长统计算法，基于混合高斯和隐式马尔科夫、神经网络和隐式马尔科夫和Connectionist temporal classification(CTC)等语音识别算法，可以得到音频中包含的文本以及对应的时间点。基于此统计用户的开口时长，理想情况下该方案应具备最好的性能结果，但该方案往往存在以下缺点：1)语音识别模型一般计算复杂度较高，不适合在高并发的线上环境使用。2)统计开口的效果依赖于语音识别模型的精度。针对于不同的语种(包含混合语种、方言等)，需训练不同的识别模型，而模型的性能提升需要大量标注数据，因此该方案的泛化性较差且前期的标注成本过高。

Vggish是Google提出的用于音频分类的技术。使用了Oxford的Visual Geometry Group在ILSVRC 2014上提出的图像识别领域的VGG网络结构，该方案使用Youtube-100M视频数据集。Vggish的方案采用的音频的分类依据来自线上视频的标题、字幕、评论等，例如歌曲、音乐、运动、演讲等等。这种方案下，分类质量依赖于人工审核，否则类别标准将存在较多错误；另一方面，如果将该方案中与人声相关的分类归于人声类别，其余归为非人声部分，最终的模型性能较差。

发明内容

本申请提供一种音频识别方法。包括：获得原始音频，在所述原始音频头部之前添加第一时长的空数据，以及在所述原始音频尾部之后添加第二时长的空数据，得到扩展后的音频；以第一时长与第二时长之和的第三时长为切分窗口，以第一步长从所述扩展后的音频的首部开始，依次分窗后获得多个子音频；分别计算得到所述子音频的时频特征序列；神经网络根据所述时频特征序列得到子音频属于特定分类的概率；将所述概率分别与判决门限进行比较判决子音频是否为特定分类。

其中，所述子音频的时频特征序列为梅尔频率倒谱系数特征序列；

以及，所述神经网络根据梅尔频率倒谱系数特征序列得到子音频的人声概率；以及，将所述人声概率分别与判决门限进行比较判决子音频是否为人声。

上述方法中，所述获得子音频属于人声概率之后，还包括：获得所述原始音频所有子音频的人声概率的数组；以第一数量作为窗口对所述数组中的概率值进行滤波，得到滤波后的人声概率。

其中，采用中值滤波的方法对所述人声概率数组进行滤波。

上述方法中，获取原始音频中所述子音频中确定时刻点的音频能量值；以及根据所述能量值设置人声概率调节因子，包括：若音频能量值大于能量上限，该子音频的人声概率调节因子置为1；若音频能量值小于能量下限，该子音频的人声概率调节因子置为0；若音频能量值不大于能量上限且不小于能量下限，则根据能量值将所述人声概率调节因子归一化为0至1之间；将子音频的人声概率调节因子乘以所述子音频人声概率，得到修正后的子音频人声概率；以及，将所述修正后的子音频人声概率分别与判决门限进行比较判决子音频是否为人声。

所述方法还包括：获取原始音频中连续判决为人声的子音频；获取所述连续判决为人声的子音频的所述确定时刻点的组成的音频片段；输出所述音频片段。

上述方法中，所述第一时长与第二时长相等；以及，所述子音频中确定时刻点的音频能量值具体为子音频中心时刻点的音频能量值；所述获取所述连续判决为人声的子音频的所述确定时刻点的组成的音频片段具体为获取所述连续判决为人声的子音频中心时刻点的组成的音频片段。

以及，所述输出音频之前还包括：若相邻的所述音频片段之间的时间间隔小于第三门限，则获取相邻音频片段间的音频片段。

上述方法还包括：统计所述输出的音频的时长。

本申请提供一种音频识别装置，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请通过在原始音频前后添加空数据，并以所述空数据时长的2倍对原始音频以第一步长进行分窗，切分得到多个子音频，进而基于这种对原始音频的细粒度切分，分别对子音频计算MFCC，得到声音信号的时频二维图。该方法在原始音频数据开始和结尾阶段也能够得到音频是否识别为某种类型的概率值，近似子音频的概率为其中心时间点所对应的概率，进而得到原始音频时间点粒度的概率数组，可以实现较为准确的开口片段检测。

另一方面，本申请通过深度学***滑机制统使得音频识别结果更加平滑。

本申请的细粒度的子音频切分和子音频大幅重叠策略导致一小部分非人声的音频概率被周围点修正得更倾向于人声。因而进一步的，本申请基于噪声或者静音的能量相比人声弱的特征，通过计算原始音频的能量进一步对申请网络的概率值进行修正，进一步提高识别精度。

进一步，本申请根据最终的音频人声概率数组进行开口片段切分统计时给予一定的宽容度用以保持语音片段的前后连续性。这样切分既能提供较好的精度，也可以提供更高内容质量的语料。

综上，通过本申请的方法能够在保证用户的互动性和交互效率的前提下，节省统计时间提高反馈效率，增加开口时间节点统计的功能并提升其精度，增加泛化性，更精准的统计用户开口时长。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请实施例示出的一种音频识别方法的流程示意图；

图2是本申请实施例示出的原始音频切分预处理示意图；

图3a是现有神经网络结构示意图；

图3b是本申请实施例神经网络结构示意图；

图4是本申请实施例示出的滑动平均前音频人声概率分布图；

图5是本申请实施例示出的滑动平均后音频人声概率分布图；

图6是宽容合并处理示意图。

具体实施方式

下面将参照附图更详细地描述本申请的优选实施方式。虽然附图中显示了本申请的优选实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本申请提供一种音频识别方法，用于从一段原始音频中识别出属于某种音频分类的音频。例如，从一段原始音频中准确识别出人声的部分，从而可以统计人声的时长，或/和进一步输出原始音频中的人声音频。

以下实施例以人声识别在在线教育场景下的应用为例进行说明。

教育领域中有开口时长统计的概念。例如在线下日常教育中，由老师作为统计的执行者和评估者，通过人为主观感受和统计同学的开口时长，评估学生课堂参与度，并给予反馈，提高教学效果。随着线上教育的发展，在线学习人数剧增，开口时长的统计依然是在线教育评估学生参与度的指标之一，因而需要一种技术方案准确有效的统计学生的开口时长。

本发明的思路在于通过对原始音频进行细粒度分窗的得到子音频，近似子音频的概率为其中心时间点所对应的概率，进而通过计算子音频的MFCC，得到声音信号的时频二维图，并通过深度学***滑机制统计有效开口时长。

参照图1说明本发明具体实施例。

步骤11：获得原始音频。

获得原始音频文件，例如学生在线学习时，根据学习软件的提示进行语音的作答，智能设备通过麦克风获取学生语音作答时的原始音频。该原始音频可能既包含了所需的人声，还包括背景声、噪音等其他非人声的音频。

步骤12：分别在所述原始音频头部之前以及尾部之后添加空数据，得到扩展后的音频；

在一种实施方式中，对原始音频进行细分度切分处理，将原始音频切分为更小的子音频，对原始音频首尾各增加一段空音频，得到扩展后的音频，对扩展后的音频基于切分窗口值进行子音频切分，空音频数值与切分窗口值保持1:2的比例。

如图2所示为本发明实施例提供的一种音频扩展较优实现方法。

本实施例中，为了实现开口时间节点的精确统计，子音频需要有更小的切分粒度。如图所示，a为原始的音频数组，首先在原始音频a的首、尾部各添加等时长的空数据，即480毫秒(ms)的零，得到扩展后的音频b。所述480ms中0的个数根据音频的采样频率而定，即480ms中的数据频率与采样频率相同。

本实施例中在原始音频首部之前和尾部之后添加的空数据时长为480ms仅为示例性的，本发明并不限制该时长的其他取值。

步骤13：以2倍上述时长为切分窗口，以第一步长从所述扩展后的音频的首部开始顺序获得多个子音频；

如图2所示，本实施例中，对原始音频切分获得子音频时，切分窗口采用960ms，即所述480ms的2倍。切分步长采用10ms，从而子音频的最小切分粒度为10ms。

按照以上切分方法，得到了数个子音频，相邻子音频之间相差10ms，每个子音频的时长为960ms。

假设某一个子音频的起始时刻和截止时刻在原始音频中分别表示为t _i，t _i+0.96s，则在本发明实施例，将后续步骤中计算得到的该子音频特征图的人声概率作为时间点t _i+0.48s时刻音频对应的人声概率。因此，本方案根据第一个子音频计算得到的人声概率即作为原始音频起始时刻的人声概率；最后一个子音频计算得到的人声概率即作为原始音频结束时刻的人声概率。

可以看出，由于在原始音频头部之前和尾部之后添加了空数据，进而结合切分窗口一半时间的数据，即本发明通过这种方式近似计算某个时间点的人声概率，因此可以实现较为准确的开口片段检测。

本发明实施例中第一步长即切分粒度为10ms，本发明不限制其他切分粒度的选择。

步骤14：分别计算得到所述子音频的时序特征序列；

对于人声的识别，人类声带震动、口腔的闭合等具有普遍规律，该规律直接表现在声音的频域特征。本发明实施例中采用梅尔频率倒谱系数(MFCC)，是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换得到的谱系数，符合人耳对于声音频率的感受特性，可以表征声音所具备的频域特性。

对于每个切分得到的子音频，采用预设的窗口长度以及步长，计算其短时傅立叶变换的结果，得到梅尔频率倒谱系数特征序列。本发明实施例中采用窗口长度25ms，步长10ms，计算其短时傅立叶变换的结果，得到MFCC特性。

步骤15：神经网络根据所述时序特征序列得到子音频属于特定分类的概率。

将梅尔频率倒谱系数特征序列输入已训练的神经网络模型，并获得神经网络模型输出的各音频片段对应的概率，在该实施例中，将得到的各音频片段按照时间顺序输入已训练的神经网络模型中，由已训练的神经网络模型预测各音频片段对应的概率。这个概率的取值范围可以在0到1之间。

例如，如图3所示，已训练的神经网络模型采用3x3的卷积核和pool层简化模型参数。神经网路的训练包括预训练和微调两个阶段。左图为500类分类模型，先使用声音数据集训练了500分类的音频分类模型。右图为二分类模型，该网络复用了500分类模型的底层网络结构和参数，通过反向传播算法使得模型收敛。通过此二分类模型来识别音频片段是否存在人声，则模型会输出当前音频片段存在人声的音频的概率。通过引入预训练和微调两个，使得本发明所训练的网络更加聚焦于人声、非人声的分类场景，提高了模型性能。

如图3在进行音频的人声识别时，本发明实施例经过训练的卷积神经网络(CNN)：由输入和输出层以及多个隐藏层组成，其中隐藏层主要由一系列卷积层、池化层和全连接层组成。

卷积层一般会定义一个卷积核，卷积核的大小表征该层网络的感受野，通过在输入特征图上滑动不同的卷积核并于特征图进行点积运算将感受野内的信息投影到下层的某一个元素，达到信息富集的作用。一般，卷积核的尺寸要比输入特征图小得多，且重叠或平行地作用于输入特征图中。

池化层实际上是一种非线性形式的降采样运算，有多种不同形式的非线性池化函数例如最大值池化、均值池化等。通常来说，CNN的网络结构中的卷积层之间都会周期性地***池化层。

全连接层则是将卷积层、池化层抽象出的高层特征信息进行融合交汇，并最终达到分类效果。

步骤16：将所述概率分别与判决门限进行比较判决子音频是否为特定分类。

设置所述判决门限作为判决是否为人声的依据，若所述概率大于判决门限，则判决为人声，若概率小于判决门限则判决为非人声。

经过以上步骤，原始音频a被分成了一个个人声或非人声的片段。通过累加所有片段的时长即可得到原始音频中人声的时长，即用户的开口时长信息。并且，可以按照各开口片段的信息将原始音频进行切分，方便后续输出人声音频，用于例如对学习状况的评估。

在本发明的又一实施例中，在步骤15神经网络根据所述时序特征序列得到子音频属于特定分类的概率后，还可以利用如下方法对所得到的概率值进行预处理，达到对概率值进行优化的目的。

1)对当前获得的概率进行滑动平均预处理。

由于切分粒度和噪声的原因，导致按照上文记载的方法得到的原始音频的人声概率数组中包含噪点。体现在如图4所示200毫秒的人声概率分布图中，纵坐标表示该音频点为人声的概率，横坐标代表时间，每个点表示10ms。在横轴时间轴所对应的0-1的概率值分布上存在很多概率值的突变，即毛刺。因此，需要对当前获得的概率进行滑动平均预处理，使得概率分布更加平滑，得到如图5所示的200毫秒的人声概率分布图。

滑动平均预处理，采用中值滑动滤波法，中值滤波后的第i个子音频为人声的概率为：

其中，原始音频中的所有子音频的人声概率数组

P＝{p ₁,p ₂,p ₃,...,p _i...,p _n}，其中n为原始音频切分得到的子音频总数，p _i代表第i个子音频为人声的概率。

w_smooth是选定窗口大小。例如本实施例中选取所述窗口为31，即窗口为所述子音频的人声概率数组中的31个值。

针对于p _i，确定滑动平均的上、下限索引。

下限索引为：Lo＝max(0,i-15)，表示数组中的第一个概率值；

上限索引为：Hi＝min(n,i+15)，表示数组中的最后一个概率值。

本实施例中，中值滤波即是以相邻31个点的概率值进行平均后作为中间点的概率值；按照该方法，以步长为1，重新计算每个点的概率值。

对比图4和图5，可以看出经过滑动平均后子音频人声概率图的毛刺被有效修正，在一定程度上提高了开口片段切分的精度。

以上中值滤波为本发明的一种实现方式，本发明并不限制其他滤波方法的采用。

经过滤波预处理后，利用判决算法判别人声与非人声，确定人声开口片段，统计用户开口时长。

2)能量修正预处理。

经过滑动平均预处理后，由于本发明实施例中采用细粒度的子音频切分，以及由于子音频大幅重叠的策略导致一小部分非人声的音频概率在经过滤波时被周围点修正得更倾向于人声，即人声概率增加，但其本质为非人声。

为解决上述问题，本发明实施例利用噪声或者静音的能量相对人声较弱的特性，利用原始音频的能量对人声概率进行进一步修正，以提高精度。

经过滑动平均的音频人声概率数组为：

以10ms为窗口大小，10ms为步长，计算得到原始音频的能量数组：

P _ower＝{w ₁,w ₂,w ₃,...,w _i,..w _n}

由于上文记载的实施例中，采用步长10ms对原始音频进行切片得到子音频，进而得到10ms为间隔的人声概率，因而，此处采用10ms的步长计算得到原始音频的能量数组，从而使得原始音频的能量数组的时刻与原始音频的人声概率数组时刻相应。

将P _ower数组的值归一化到0～1之间，确定能量上限P _up和能量下限P _down，则w _i可以按照以下方式归一化：

以上公式可以看到，当某时刻音频能量大于所述能量上限P _up时，w _i取值为1，若某时刻音频能量小于所述能量下限P _down时，w _i取值为0，得到

数组P ^f和数组

对应值进行点积运算，得到能量修正后的音频人声概率值数组P ^T。经过该运算，当某时刻音频能量大于所述能量上限P _up时，则该时刻人声概率值不变；若某时刻音频能量小于所述能量下限P _down时，则该时刻人声概率值取值为0。

在实施例中，若所述音频能量介于所述能量下限和能量上限之间(包含能量上限值和能量下限值)，则取得的概率调整因子介于0和1之间，通过该概率调整因子调整对应时刻点的人声概率值，最终得到能量修正后的音频人声概率值数组P ^T。

以上可以看出，通过利用原始音频的能量矩阵，若某时刻音频能量低于能量下限，则认为该时刻音频为非人声，从而将该时刻的人声概率变为零，通过这种方法进一步去除了非人声的部分音频。

以上实施例将获得的概率先经过滑动平均预处理，再经过能量修正预处理，最后利用判决算法判别人声与非人声，确定人声开口片段，统计用户开口时长；对于对当前获取的概率进行能量修正和滑动平均两种预处理，没有先后顺序，亦可先进行能量修正预处理，再进行滑动平均预处理。

本发明也可以采用上述两种预处理方法中的其中一种达到提高人声识别准确率的目的。

作为对以上实施例的进一步优化，在统计人声时长或输出人声音频之前，还可以对上述方法得到的人声音频进行宽容合并处理。

具体的，考虑到人类说话的前后延续性，尤其是儿童、青少年线上学习的场景，表达完整意思句子的单词间往往有短暂的停顿，通常用以换气或者表征某种情绪。本实施例中，根据最终的音频人声概率数组进行开口片段切分统计时并不严格按照上文记载的步骤所得到的识别结果，而是给予一定的宽容度用以保持语音片段的前后连续性。这样切分既能提供较好的精度，也可以为教师提供更高内容质量的评价语料，方便老师评估学生的学习效果。

宽容合并的方法具体如下。

设置判决门限作为判决是否为人声的依据。

在上述实施例的基础上，结合最终的概率数组P ^T和所述判决门限，得到原始音频每个时间节点是否为人声的判决结果，即若

判决门限，则原始音频i时刻点的音频为人声；反之，则对应于非人声。

通过以上步骤，原始音频a被分成了一个个人声或非人声的片段。如果判决为人声的两个子音频之间间隔的判决为非人声的子音频数量小于第三门限，则进一步获取所述判决为人声的两个子音频中心时刻之间的音频。

具体如图6所示，如果原始音频中包含有两个人声片段a _i,a _i+1，起止的时间节点分别为

且

则就将这两个片段合并为一个。本实施例中，第三门限取值为500毫秒，其仅为示例性的，本发明不进行限制。

经过宽容合并的处理，通过累加所有片段的时长所得到的用户的开口时长信息相比不采用宽容合并处理所得到的用户开口时长信息更加合理；并且得到的人声音频保持了语音片段的前后连续性。

上文记载的实施例中，步骤12具体采用在原始音频头部之前以及尾部之后添加时间长度相等的空数据，例如均为480毫秒；以及步骤13中采用2倍480毫秒即960毫秒时长的窗口对原始音频进行切分得到多个子音频。

在本发明的其他实施例中，在原始音频头部之前以及尾部之后添加的空数据时间长度可以不相等。即在所述原始音频头部之前添加第一时长的空数据，以及在所述原始音频尾部之后添加第二时长的空数据；并且以第一时长与第二时长之和的第三时长为切分窗口对原始音频进行切分得到子音频。

例如，第一时长为240毫秒，第二时长为720毫秒，切分窗口为第一时长与第二时长之和，即为960毫秒。可见，利用本方式得到的子音频时长与上文实施例相同，依然为960ms。

使用此种切分方式，将计算得到的子音频人声概率近似的作为子音频中在1/4时刻的人声概率值。假设某一个子音频的起始时刻和截止时刻在原始音频中分别表示为t _i，t _i+0.96s，则将子音频人声概率值近似作为子音频中t _i+0.24s时刻的人声概率值。进一步，在输出人声音频时，获得连续判决为人声的各子音频中第1/4时刻点组成的音频片段。可知，由于采用第一步长对原始音频切分得到子音频，因而相邻的子音频的第1/4时刻之间相隔第一步长，例如上述实施例中采用的10ms。

可采用上文记载相同的方法对得到的子音频的人声概率数组进行滤波。

在对得到的子音频的人声概率数组进行音频能量修正预处理时，较优的方式是计算子音频中前1/4时刻的能量值。例如，假设某一个子音频的起始时刻和截止时刻在原始音频中分别表示为t _i，t _i+0.96s，则计算t _i+0.24s时刻的能量值，并根据该能量值得到该子音频(t _i，t _i+0.96s)的概率修正因子。

与前述应用功能实现方法实施例相对应，本申请还提供了一种音频识别装置。该装置包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行上文记载的方法。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

本领域技术人员还将明白的是，结合这里的申请所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本申请的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种音频识别方法，其特征在于，包括：

获得原始音频，在所述原始音频头部之前添加第一时长的空数据，以及在所述原始音频尾部之后添加第二时长的空数据，得到扩展后的音频；

以第一时长与第二时长之和的第三时长为切分窗口，以第一步长从所述扩展后的音频的首部开始，依次分窗后获得多个子音频；

分别计算得到所述子音频的时频特征序列；

神经网络根据所述时频特征序列得到子音频属于特定分类的概率；

将所述概率分别与判决门限进行比较判决子音频是否为特定分类。
根据权利要求1所述的方法，其特征在于，

所述子音频的时频特征序列为梅尔频率倒谱系数特征序列；

以及，所述神经网络根据梅尔频率倒谱系数特征序列得到子音频的人声概率；

以及，将所述人声概率分别与判决门限进行比较判决子音频是否为人声。
根据权利要求2所述的方法，其特征在于，所述获得子音频的人声概率之后，还包括：

获得所述原始音频所有子音频属于人声概率的数组；

以第一数量作为窗口对所述数组中的概率值进行滤波，得到滤波后的概率。
根据权利要求3所述的方法，其特征在于，采用中值滤波的方法对所述人声概率的数组进行滤波。
根据权利要求2或者3所述的方法，其特征在于，按照预置的规则，根据所述人声概率判决子音频是否为人声包括：

获取原始音频中所述子音频中确定时刻点的音频能量值；以及根据所述能量值设置人声概率调节因子，包括，

若能量值大于能量上限，该子音频的人声概率调节因子置为1；

若能量值小于能量下限，该子音频的人声概率调节因子置为0；

若能量值不大于能量上限且不小于能量下限，则根据能量值将所述人声概率调节因子归一化为0至1之间；

将子音频的人声概率调节因子乘以所述子音频人声概率，得到修正后的子音频人声概率；

以及，将所述修正后的子音频人声概率分别与判决门限进行比较判决子音频是否为人声。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取原始音频中连续判决为人声的子音频；

获取所述连续判决为人声的子音频的所述确定时刻点的组成的音频片段；

输出所述音频片段。
根据权利要求6所述的方法，其特征在于：

所述第一时长与第二时长相等；

以及，所述子音频中确定时刻点的音频能量值具体为子音频中心时刻点的音频能量值；

所述获取所述连续判决为人声的子音频的所述确定时刻点的组成的音频片段具体为获取所述连续判决为人声的子音频中心时刻点的组成的音频片段。
根据权利要求6或7所述的方法，其特征在于，所述输出音频之前还包括：

若相邻的所述音频片段之间的时间间隔小于第三门限，则获取相邻音频片段间的音频片段。
根据权利要求8所述的方法，其特征在于，还包括：

统计所述输出的音频的时长。
一种音频识别的装置，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-9中任一项所述的方法。