CN112259078A

CN112259078A - 一种音频识别模型的训练和非正常音频识别的方法和装置

Info

Publication number: CN112259078A
Application number: CN202011102269.2A
Authority: CN
Inventors: 陈华官; 张志齐
Original assignee: Shanghai Yitu Network Science and Technology Co Ltd
Current assignee: Shanghai Yitu Network Science and Technology Co Ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-22

Abstract

本申请公开了一种音频识别模型的训练和非正常音频识别的方法和装置，属于人工智能技术领域，该方法包括，分别将每一音频样本划分为多个音频样本片段，并获取各音频样本片段对应的音频类别标签；基于各音频样本的音频特征向量和相应的音频类别标签，以及各音频样本片段对应的音频类别标签，对音频识别模型进行训练，获得符合预设训练条件的音频识别模型。获取识别请求消息中包含的待识别音频；提取待识别音频的音频特征向量；将待识别音频的音频特征向量输入至音频识别模型，获得待识别音频以及待识别音频中的各音频片段对应的目标音频类别。这样，可以获得更细时间粒度的音频识别结果，提高了音频识别的精确度。

Description

一种音频识别模型的训练和非正常音频识别的方法和装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种音频识别模型的训练和非正常音频识别的方法和装置。

背景技术

随着多媒体技术的发展，音频的数量和时长呈指数型增长。音频在被上传至网络中时，通常需要对音频进行审核，以避免违反公德以及自发性知觉经络反应(AutonomousSensory Meridian Response，ASMR)等非正常音频在网络中传播。

现有技术下，通常通过用于非正常音频识别的模型，识别音频是否为非正常音频。但是，音频识别结果的时间粒度较粗，语音识别结果的精确度较低。

发明内容

本申请实施例提供一种音频识别模型的训练和非正常音频识别的方法和装置，用以在对音频进行非正常音频识别时，提高音频识别结果的精确度。

一方面，提供一种音频识别模型的训练方法，包括：

获取多个音频样本以及相应的音频类别标签，以及基于卷积神经网络构建的音频识别模型，其中，音频类别标签至少包括：非正常语音和正常语音；

分别将每一音频样本，按照指定音频时长进行划分，获得多个音频样本片段，并分别获取每一音频样本中的每一音频样本片段对应的音频类别标签；

分别提取每一音频样本的音频特征向量；

基于各音频特征向量和相应的音频类别标签，以及各音频样本中的各音频样本片段对应的音频类别标签，对音频识别模型进行训练，获得符合预设训练条件的音频识别模型。

较佳的，基于各音频特征向量和相应的音频类别标签，以及各音频样本中的各音频样本片段对应的音频类别标签，对音频识别模型进行训练，获得符合预设训练条件的音频识别模型，包括：

分别针对每一音频样本，执行以下操作：将音频样本对应的音频特征向量和相应的音频类别标签，以及音频样本中的各音频样本片段对应的音频类别标签，输入至音频识别模型，获得音频样本对应的第一音频类别，以及音频样本中的各音频样本片段对应的第二音频类别；

基于各音频样本对应的音频类别标签和相应的第一音频标签，确定相应的第一损失；

基于各音频样本片段对应的音频类别标签和相应的第二音频标签，确定相应的第二损失；

根据各第一损失和各第二损失，对音频识别模型的参数进行调整，获得调整后的音频识别模型。

较佳的，将音频样本对应的音频特征向量和相应的音频类别标签，以及音频样本中的各音频样本片段对应的音频类别标签，输入至音频识别模型，获得音频样本对应的第一音频类别，包括：

基于卷积神经网络，对音频样本的音频特征向量进行卷积运算处理，获得第一向量；

基于聚合层以及第一分类损失函数，对第一向量进行分类处理，获得音频样本对应的第一音频类别。

较佳的，将音频样本对应的音频特征向量和相应的音频类别标签，以及音频样本中的各音频样本片段对应的音频类别标签，输入至音频识别模型，获得音频样本中的各音频样本片段对应的第二音频类别，包括：

基于卷积神经网络，对音频样本的音频特征向量进行卷积运算处理；

从卷积神经网络中的指定层，抽取出矩阵向量；

基于第二分类损失函数以及矩阵向量，分别获得每一音频样本片段对应的第二音频类别。

较佳的，基于第二分类损失函数以及矩阵向量，分别获得每一音频样本片段对应的第二音频类别，包括：

基于卷积神经网络或循环神经网络，对矩阵向量进行上下文处理，分别获得每一音频样本片段对应的第二向量；

基于第二分类损失函数，分别对每一个第二向量进行分类处理，获得相应的第二音频类别。

一方面，提供一种非正常音频识别的方法，采用任一项音频模型训练方法中的音频识别模型，包括：

接收针对待识别音频的识别请求消息；

获取识别请求消息中包含的待识别音频；

提取待识别音频的音频特征向量；

将待识别音频的音频特征向量输入至音频识别模型，获得待识别音频以及待识别音频中的各音频片段对应的目标音频类别。

较佳的，将待识别音频的音频特征向量输入至音频识别模型，获得待识别音频以及待识别音频中的各音频片段对应的目标音频类别，包括：

基于卷积神经网络，对待识别音频的音频特征向量进行卷积运算处理，获得第一向量，以及矩阵向量；

基于聚合层以及第一分类损失函数，对待识别音频的第一向量进行分类处理，获得待识别音频对应的目标音频类别；

基于待识别音频的矩阵向量，以及第二分类损失函数，分别获得待识别音频中的每一音频片段对应的目标音频类别。

较佳的，基于待识别音频的矩阵向量，以及第二分类损失函数，分别获得待识别音频中的每一音频片段对应的目标音频类别，包括：

基于卷积神经网络或循环神经网络，对待识别音频的矩阵向量进行上下文处理，分别获得待识别音频中的每一音频片段对应的第二向量；

基于第二分类损失函数，分别对每一音频片段对应的第二向量进行分类处理，获得相应的目标音频类别。

一方面，提供一种音频模型训练装置，包括：

获取单元，用于获取多个音频样本以及相应的音频类别标签，以及基于卷积神经网络构建的音频识别模型，其中，音频类别标签至少包括：非正常语音和正常语音；

划分单元，用于分别将每一音频样本，按照指定音频时长进行划分，获得多个音频样本片段，并分别获取每一音频样本中的每一音频样本片段对应的音频类别标签；

提取单元，用于分别提取每一音频样本的音频特征向量；

训练单元，用于基于各音频特征向量和相应的音频类别标签，以及各音频样本中的各音频样本片段对应的音频类别标签，对音频识别模型进行训练，获得符合预设训练条件的音频识别模型。

较佳的，训练单元用于：

从卷积神经网络中的指定层，抽取出矩阵向量；

较佳的，训练单元用于：

一方面，提供一种非正常音频识别的装置，采用任一项音频模型训练方法中的音频识别模型，包括：

接收单元，用于接收针对待识别音频的识别请求消息；

获取单元，用于获取识别请求消息中包含的待识别音频；

提取单元，用于提取待识别音频的音频特征向量；

识别单元，用于将待识别音频的音频特征向量输入至音频识别模型，获得待识别音频以及待识别音频中的各音频片段对应的目标音频类别。

较佳的，识别单元用于：

一方面，提供一种控制设备，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用存储器中存储的程序指令，按照获得的程序指令执行上述任一种音频识别模型的训练和非正常音频识别的方法的步骤。

一方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种音频识别模型的训练和非正常音频识别的方法的步骤。

本申请实施例提供的一种音频识别模型的训练和非正常音频识别的方法和装置中，获取多个音频样本以及相应的音频类别标签，以及基于卷积神经网络构建的音频识别模型；分别将每一音频样本，按照指定音频时长进行划分，获得多个音频样本片段，并分别获取每一音频样本中的每一音频样本片段对应的音频类别标签；分别提取每一音频样本的音频特征向量；基于各音频特征向量和相应的音频类别标签，以及各音频样本中的各音频样本片段对应的音频类别标签，对音频识别模型进行训练，获得符合预设训练条件的音频识别模型。接收针对待识别音频的识别请求消息；获取识别请求消息中包含的待识别音频；提取待识别音频的音频特征向量；将待识别音频的音频特征向量输入至音频识别模型，获得待识别音频以及待识别音频中的各音频片段对应的目标音频类别。这样，可以获得更细时间粒度的音频识别结果，提高了音频识别的精确度。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例方式中一种音频识别模型的训练方法的实施流程图；

图2为本申请实施例方式中一种音频识别模型训练***的架构示意图；

图3为本申请实施例方式中一种非正常音频识别的方法的实施流程图；

图4为本申请实施例方式中一种音频识别结果的示意图；

图5a为本申请实施例方式中一种音频识别模型的训练装置的结构示意图；

图5b为本申请实施例方式中一种非正常音频识别的装置的结构示意图；

图6为本申请实施例方式中一种控制设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在对音频进行非正常音频识别时，提高音频识别结果的精确度，本申请实施例提供了一种音频识别模型的训练和非正常音频识别的方法和装置。

首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信***设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。

服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。

ASMR音频：自发性知觉经络反应，是指人体通过视、听、触、嗅等感知上的刺激，在颅内、头皮、背部或身体其他部位产生的令人愉悦的独特刺激感，又名耳音、颅内高潮等，在音调和音色等声音特征上和正常的语音区别加大。

卷积神经网络(Convolutional Neural Network，CNN)：在机器学习中，是一种前馈神经网络，人工神经元可以响应周围单元。卷积神经网络包括卷积层和池化层。

循环神经网络(Recurrent Neural Network，RNN)：是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如不分段的手写识别、语音识别等。

本申请实施例中，在对音频进行识别之前，控制设备预先对用于识别音频的音频识别模型进行训练。参阅图1所示，为本申请提供的一种音频识别模型的训练方法的实施流程图。该方法的具体实施流程如下：

步骤100：控制设备获取多个音频样本以及相应的音频类别标签。

具体的，控制设备将不同的音频作为音频样本，并分别将每一获取的音频样本的音频类别，设置为相应的音频类别标签。

可选的，音频样本的音频类别可以采用人工审核的方式确定。

一种实施方式中，控制设备将随机获取的各音频划分为等长的多个音频样本，如，音频样本的长度可以10s。

其中，音频类别和音频类别标签均至少包括：非正常语音和正常语音。其中，非正常语音为会引起听者的不良反应的语音，如违反公德的噪声音频和ASMR音频等。可选的，音频类别和音频类别标签还可以包含其他音频类别的语音，如，游戏语音，在此不作限制。

需要说明的是，若音频样本对应的音频时长若低于指定最低音频时长阈值，则音频样本中包含的信息量通常较少，可能会使得音频识别模型无法获得准确的语音识别结果，因此，音频样本对应的总音频时长需要高于指定最低音频时长阈值。

实际应用中，指定最低音频时长阈值可以根据实际应用场景设置，如8s，在此不作限制。

步骤101：控制设备分别将每一音频样本，按照指定音频时长进行划分，获得多个音频样本片段。

其中，指定音频时长为时间长度，如，100ms，实际应用中，指定音频时长可以根据实际应用场景进行设置，在此不再赘述。需要说明的是，指定音频时长越小，后续获得的音频识别粒度越细，音频识别结果的精确度越高。

步骤102：控制设备分别获取每一音频样本中的每一音频样本片段对应的音频类别标签。

具体的，每一音频样本中可能同时包含不同音频类别的音频内容，因此，不同的音频样本片段的音频类别可能相同，也可能不同。与获取音频样本的音频类别标签相似的原理，控制设备可以获取各音频样本的音频类别标签，在此不再赘述。

步骤103：控制设备获取基于卷积神经网络构建的音频识别模型。

具体的，参阅图2所示，为一种音频识别模型训练***的架构示意图，该***包括音频输入模块，特征提取模块，以及音频识别模型。其中，音频识别模型包括卷积神经网络模块、聚合层模块、第一分类损失函数模块、上下文模块，以及第二音频分类模块。

其中，音频输入模块用于输入待识别的音频，特征提取模块用于提取音频对应音频特征向量。卷积神经网络模块，是基于卷积神经网络CNN创建的。聚合层模块，是采用聚合层创建的。第一分类损失函数模块和第二分类损失函数模块，均是基于分类损失函数创建的。上下文模块是基于CNN和/或RNN创建的，用于结合上下文信息，获得每一音频片段的特征信息，从而使得可以获得精细时间粒度的音频识别结果。

步骤104：控制设备分别提取每一音频样本的音频特征向量。

具体的，控制设备分别提取每一音频样本的特征，获得相应的音频特征向量。

一种实施方式中，音频特征向量为音频样本片段的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征。

其中，MFCC特征是指将音频进行编码运算得到的一组特征向量。MFCC提取包含两个关键步骤：转化到梅尔频率，以及倒谱分析。

这样，就可以提取音频样本的音频特征向量，每一音频样本通过一个音频特征向量表示。

步骤105：控制设备基于各音频特征向量和相应的音频类别标签，以及各音频样本中的各音频样本片段对应的音频类别标签，对音频识别模型进行训练，获得符合预设训练条件的音频识别模型。

具体的，执行步骤105时，可以采用以下步骤：

S1051：控制设备分别针对每一音频样本，执行以下步骤：将音频样本对应的音频特征向量和相应的音频类别标签，以及该音频样本中的各音频样本片段对应的音频类别标签，输入至音频识别模型，获得该音频样本对应的第一音频类别，以及该音频样本中的各音频样本片段对应的第二音频类别。

其中，获得该音频样本对应的第一音频类别时，控制设备可以采用以下步骤：

步骤a1：基于卷积神经网络，对音频样本的音频特征向量进行卷积运算处理，获得第一向量。

步骤b1：基于聚合层以及第一分类损失函数，对第一向量进行分类处理，获得音频样本对应的第一音频类别。

其中，获得该音频样本中的各音频样本片段对应的第二音频类别时，控制设备可以采用以下步骤：

步骤a2基于卷积神经网络，对音频样本的音频特征向量进行卷积运算处理。

步骤b2：从卷积神经网络中的指定层，抽取出矩阵向量。

由于卷积神经网络中层数较低的层，包含的有效信息通常较少，因此，指定层数可以为卷积神经网络中的最后1/4部分中的任意层，实际应用中，指定层数，可以根据实际应用场景进行设置，在此不作限制。

步骤c2：基于第二分类损失函数以及矩阵向量，分别获得每一音频样本片段对应的第二音频类别。

具体的，执行步骤c2时，可以采用以下任意一种方式：

第一种方式为：通过第二分类损失函数，对矩阵向量进行处理，获得各音频样本片段对应的第二音频类别。

第二种方式为：基于卷积神经网络或循环神经网络，对矩阵向量进行上下文处理，分别获得每一音频样本片段对应的第二向量，并基于第二分类损失函数，分别对每一个第二向量进行分类处理，获得相应的第二音频类别。

需要说明的是，上下文处理，是指结合整个音频片段的上下文信息，获得每一音频样本片段的特征信息，也就是说，第二向量并不仅仅包含一个音频样本片段的特征信息，从而可以根据第二向量，获得相应的第二音频类别，以避免音频样本片段包含的信息量较少难以进行准确音频识别的问题。

这样，就可以获得各音频样本的第一音频类别，以及各音频样本片段的第二音频类别。

S1052：基于各音频样本对应的音频类别标签和相应的第一音频标签，确定相应的第一损失。

S1053：基于各音频样本片段对应的音频类别标签和相应的第二音频标签，确定相应的第二损失。

S1054：根据各第一损失和各第二损失，对音频识别模型的参数进行调整，获得调整后的音频识别模型。

其中，预设训练条件是根据第一指定损失指标和第二指定损失指标确定的。

一种实施方式中，在获取各第一音频类别和第二音频类别之后，就可以根据各第一音频类别和相应音频类别标签，以及第二音频类别和相应音频类别标签，确定损失，进而循环根据确定出的损失对音频识别模型的参数进行调整，并基于调整后的音频识别模型，再次执行步骤100-步骤105，直至确定出的第一损失低于第一指定损失指标，第二损失低于第二指定损失指标。

实际应用中，第一指定损失指标和第二指定损失指标可以根据实际应用场景进行具体设置，不同的指定损失指标，可以训练获得不同准确度的音频识别模型。

这样，就可以获得符合预设训练条件的音频识别模型，从而可以在后续的步骤中，通过符合预设训练条件的音频识别模型，进行音频识别。

进一步地，由于标注音频类别标签的成本较高，因此，在进行音频识别模型训练时，可以仅针对部分音频样本的音频样本片段标注相应的音频类别标签。音频类别模型训练时，还可以分别针对每一音频样本，执行以下方式：

若音频样本中的音频样片标注有相应的音频类别标签，则可以采用上述步骤105，确定相应的第一损失和第二损失，进而根据确定出的第一损失和第二损失对音频识别模型的参数进行调整。

若音频样本中的音频样片未标注有相应的音频类别标签，则可以采用上述步骤105，仅确定相应的第一损失，进而根据确定出的第一损失对音频识别模型中的相应参数，即对卷积神经网络、聚合层以及第一分类损失函数中参数进行调整。

这样，就可以获得符合预设训练条件的音频识别模型。

参阅图3所示，为本申请提供的一种非正常音频识别的方法的实施流程图。该方法的具体实施流程如下：

步骤300：控制设备接收针对待识别音频的识别请求消息。

可选的，控制设备可以为服务器，也可以为终端设备。

步骤301：控制设备获取识别请求消息中包含的待识别音频。

需要说明的是，若待识别音频对应的音频时长若低于指定最低音频时长阈值，则待识别音频中包含的信息量较少，会使得音频识别模型无法获得准确的语音识别结果，因此，待识别音频对应的总音频时长高于指定最低音频时长阈值。

步骤302：控制设备提取待识别音频的音频特征向量。

步骤303：控制设备将待识别音频的音频特征向量输入至音频识别模型，获得待识别音频以及待识别音频中的各音频片段对应的目标音频类别。

具体的，执行步骤303时，可以采用以下步骤：

S3031：控制设备基于卷积神经网络，对待识别音频的音频特征向量进行卷积运算处理，获得第一向量，以及矩阵向量。

S3032：控制设备基于聚合层以及第一分类损失函数，对待识别音频的第一向量进行分类处理，获得待识别音频对应的目标音频类别。

S3033：控制设备基于待识别音频的矩阵向量，以及第二分类损失函数，分别获得待识别音频中的每一音频片段对应的目标音频类别。

具体的，执行S3033时，可以采用以下任意一种方式：

第一种方式为：通过第二分类损失函数，对矩阵向量进行处理，获得待识别音频中的每一音频片段对应的目标音频类别。

第二种方式为：控制设备基于卷积神经网络或循环神经网络，对待识别音频的矩阵向量进行上下文处理，分别获得待识别音频中的每一音频片段对应的第二向量，并基于第二分类损失函数，分别对每一音频片段对应的第二向量进行分类处理，获得相应的目标音频类别。

参阅图4所示，为一种音频识别结果的示意图。音频的总音频时长为10s，音频识别结果为：该音频的音频类别为非正常音频，该音频中第3s和第6s对应的音频片段的音频类别为非正常音频。

这样，就可以识别出待识别音频中那些音频片段是非正常音频，那些音频片段是正常内容。

需要说明的是，由于模型输入的待识别音频对应的音频时长若低于指定最低音频时长阈值，则无法获得准确的音频识别结果，因此，传统方式中，仅能获得高于指定最低音频时长阈值的待识别音频对应的音频识别结果，无法获得更细时间粒度的音频类别信息，获得的音频识别结果的精确度较低。而待识别音频中通常只有部分音频是非正常音频，如，10s的待识别音频中有2s的非正常音频。而本申请实施例中，可以获得更细时间粒度的语音识别信息，提升了非正常音频识别的能力，提高了音频识别结果的精确度以及***性能。

基于同一发明构思，本申请实施例中还提供了一种音频识别模型的训练和非正常音频识别的装置，由于上述装置及设备解决问题的原理与一种音频识别模型的训练和非正常音频识别的方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图5a所示，其为本申请实施例提供的一种音频识别模型的训练装置的结构示意图，包括：

一方面，提供一种音频模型训练装置，包括：

获取单元511，用于获取多个音频样本以及相应的音频类别标签，以及基于卷积神经网络构建的音频识别模型，其中，音频类别标签至少包括：非正常语音和正常语音；

划分单元512，用于分别将每一音频样本，按照指定音频时长进行划分，获得多个音频样本片段，并分别获取每一音频样本中的每一音频样本片段对应的音频类别标签；

提取单元513，用于分别提取每一音频样本的音频特征向量；

训练单元514，用于基于各音频特征向量和相应的音频类别标签，以及各音频样本中的各音频样本片段对应的音频类别标签，对音频识别模型进行训练，获得符合预设训练条件的音频识别模型。

较佳的，训练单元514用于：

从卷积神经网络中的指定层，抽取出矩阵向量；

较佳的，训练单元514用于：

如图5b所示，其为本申请实施例提供的一种非正常音频识别的装置的结构示意图，包括：

接收单元521，用于接收针对待识别音频的识别请求消息；

获取单元522，用于获取识别请求消息中包含的待识别音频；

提取单元523，用于提取待识别音频的音频特征向量；

识别单元524，用于将待识别音频的音频特征向量输入至音频识别模型，获得待识别音频以及待识别音频中的各音频片段对应的目标音频类别。

较佳的，识别单元524用于：

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

基于上述实施例，参阅图6所示，本申请实施例中，一种控制设备的结构示意图。

本申请实施例提供了一种控制设备，该控制设备可以包括处理器6010(CenterProcessing Unit，CPU)、存储器6020，还可以包括输入设备6030和输出设备6040等，输入设备6030可以包括键盘、鼠标、触摸屏等，输出设备6040可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器6020可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器6010提供存储器6020中存储的程序指令和数据。在本申请实施例中，存储器6020可以用于存储本申请实施例中音频识别模型的训练和非正常音频识别的程序。

处理器6010通过调用存储器6020存储的程序指令，处理器6010用于执行图1或图3所示的实施例提供的一种音频识别模型的训练和非正常音频识别的方法。

本申请实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意方法实施例中的音频识别模型的训练和非正常音频识别的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种音频模型训练方法，其特征在于，包括：

分别提取每一音频样本的音频特征向量；

基于各音频特征向量和相应的音频类别标签，以及各音频样本中的各音频样本片段对应的音频类别标签，对所述音频识别模型进行训练，获得符合预设训练条件的音频识别模型。

2.如权利要求1所述的方法，其特征在于，基于各音频特征向量和相应的音频类别标签，以及各音频样本中的各音频样本片段对应的音频类别标签，对所述音频识别模型进行训练，获得符合预设训练条件的音频识别模型，包括：

分别针对每一音频样本，执行以下操作：将音频样本对应的音频特征向量和相应的音频类别标签，以及所述音频样本中的各音频样本片段对应的音频类别标签，输入至音频识别模型，获得所述音频样本对应的第一音频类别，以及所述音频样本中的各音频样本片段对应的第二音频类别；

根据各第一损失和各第二损失，对所述音频识别模型的参数进行调整，获得调整后的音频识别模型。

3.如权利要求2所述的方法，其特征在于，将音频样本对应的音频特征向量和相应的音频类别标签，以及所述音频样本中的各音频样本片段对应的音频类别标签，输入至音频识别模型，获得所述音频样本对应的第一音频类别，包括：

基于卷积神经网络，对所述音频样本的音频特征向量进行卷积运算处理，获得第一向量；

基于聚合层以及第一分类损失函数，对所述第一向量进行分类处理，获得所述音频样本对应的第一音频类别。

4.如权利要求2所述的方法，其特征在于，将音频样本对应的音频特征向量和相应的音频类别标签，以及所述音频样本中的各音频样本片段对应的音频类别标签，输入至音频识别模型，获得所述音频样本中的各音频样本片段对应的第二音频类别，包括：

从所述卷积神经网络中的指定层，抽取出矩阵向量；

基于第二分类损失函数以及所述矩阵向量，分别获得每一音频样本片段对应的第二音频类别。

5.如权利要求4所述的方法，其特征在于，基于第二分类损失函数以及所述矩阵向量，分别获得每一音频样本片段对应的第二音频类别，包括：

基于卷积神经网络或循环神经网络，对所述矩阵向量进行上下文处理，分别获得每一音频样本片段对应的第二向量；

基于所述第二分类损失函数，分别对每一个第二向量进行分类处理，获得相应的第二音频类别。

6.一种非正常音频识别的方法，其特征在于，采用如权利要求1-5任一项所述方法中的音频识别模型，包括：

接收针对待识别音频的识别请求消息；

获取所述识别请求消息中包含的待识别音频；

提取所述待识别音频的音频特征向量；

将所述待识别音频的音频特征向量输入至所述音频识别模型，获得所述待识别音频以及所述待识别音频中的各音频片段对应的目标音频类别。

7.如权利要求6所述的方法，其特征在于，将所述待识别音频的音频特征向量输入至所述音频识别模型，获得所述待识别音频以及所述待识别音频中的各音频片段对应的目标音频类别，包括：

基于卷积神经网络，对所述待识别音频的音频特征向量进行卷积运算处理，获得第一向量，以及矩阵向量；

基于聚合层以及第一分类损失函数，对所述待识别音频的第一向量进行分类处理，获得所述待识别音频对应的目标音频类别；

基于所述待识别音频的矩阵向量，以及第二分类损失函数，分别获得所述待识别音频中的每一音频片段对应的目标音频类别。

8.如权利要求7所述的方法，其特征在于，基于所述待识别音频的矩阵向量，以及第二分类损失函数，分别获得所述待识别音频中的每一音频片段对应的目标音频类别，包括：

基于卷积神经网络或循环神经网络，对所述待识别音频的矩阵向量进行上下文处理，分别获得所述待识别音频中的每一音频片段对应的第二向量；

基于所述第二分类损失函数，分别对每一音频片段对应的第二向量进行分类处理，获得相应的目标音频类别。

9.一种音频模型训练装置，其特征在于，包括：

提取单元，用于分别提取每一音频样本的音频特征向量；

训练单元，用于基于各音频特征向量和相应的音频类别标签，以及各音频样本中的各音频样本片段对应的音频类别标签，对所述音频识别模型进行训练，获得符合预设训练条件的音频识别模型。

10.一种非正常音频识别的装置，其特征在于，采用如权利要求1-5任一项所述方法中的音频识别模型，包括：

接收单元，用于接收针对待识别音频的识别请求消息；

获取单元，用于获取所述识别请求消息中包含的待识别音频；

提取单元，用于提取所述待识别音频的音频特征向量；

识别单元，用于将所述待识别音频的音频特征向量输入至所述音频识别模型，获得所述待识别音频以及所述待识别音频中的各音频片段对应的目标音频类别。