CN112397075B

CN112397075B - 一种人声音频识别模型训练方法、音频分类方法和***

Info

Publication number: CN112397075B
Application number: CN202011436155.1A
Authority: CN
Inventors: 贾杨; 夏龙; 吴凡; 张金阳; 张兆元; 郭常圳
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2024-05-28
Anticipated expiration: 2040-12-10
Also published as: CN112397075A

Abstract

本申请提供一种人声音频识别模型训练方法、音频分类方法和***。其中，人声音频识别模型训练方法，包括：获得训练音频中的子音频的时频二维图，并作为神经网络的输入得到子音频属于特定分类的概率值；利用所述子音频属于特定分类的概率值与预设的子音频的分类优化神经网络参数，使神经网络得到的子音频所述属于特定分类的概率值向所述预设的子音频分类收敛。采用本发明提供的方法能够识别人声音频的分类。

Description

一种人声音频识别模型训练方法、音频分类方法和***

技术领域

本申请涉及数据处理技术领域，尤其涉及一种人声音频识别方法、音频分类方法和***。

背景技术

在语音相关的技术实践和产品设计中，例如在语音交互场景下，经常需要获取用户的语音输入以便进行相关业务，例如在线教育时判断用户的语音输入是否为正确答案，或者判断用户的语音输入为何种指令。

在很多业务场景下，要求语音输入者为特定年龄区间的用户。例如在线教育，要求儿童或相应年龄段的学生根据在线教学的要求进行语音作答或者通过语音完成相关交互任务。例如，发布任务要求相应年龄段的用户进行语音录制。

然而，实际情况中，在上述对语音输入的用户年龄具有要求的场景下，获得的人声音频中基于各种原因会包含其他年龄段的语音数据。例如，在线教学时，成人帮助儿童进行了语音答题；或者成人代替儿童进行了音频录制任务等。

现有技术中，解决上述问题的主要手段是基于用户肖像实现的。例如通过人脸识别判断当前进行语音交互的用户是否为儿童。该方法通常要求获取数张包含用户个人完整肖像的图片，使用训练好的基于图像的深度学习模型对这些图片进行分类，从而实现用户年龄段的区分。然而在一些应用场景下用户的肖像画获取存在难度。

发明内容

本申请提供一种人声音频识别模型训练方法、音频分类方法和***。

一种人声音频识别模型训练方法，包括：获得训练音频中的子音频的时频二维图，并作为神经网络的输入得到子音频属于特定分类的概率值；利用所述子音频属于特定分类的概率值与预设的子音频的分类优化神经网络参数，使神经网络得到的子音频所述属于特定分类的概率值向所述预设的子音频分类收敛。

上述方法还包括：获得多个预设分类的原始音频中的人声音频；对人声音频进行切分得到相应预设分类的子音频；将不同预设分类的子音频进行拼接得到训练音频。

上述方法中，所述对人声音频进行切分得到相应预设分类的子音频，包括：采用时长为500毫秒的切分窗口，步长为250毫秒对所述人声音频进行切分，得到时长为500毫秒的子音频。

所述获得训练音频中的子音频的时频二维图包括：获得训练音频，按照预置的方法对所述训练音频进行切分，得到所述训练音频中的子音频；以及计算梅尔频率倒谱系数得到子音频的时频二维图。

上述方法还包括：对获得的所述人声音频进行变速处理；以及，对经过变速处理后的人声音频进行切分得到相应预设分类的子音频。

一种采用以上方法获得的模型的音频分类方法，包括：获得用户原始音频；对所述原始音频进行切分获得子音频；获得所述子音频的时频二维图，并作为神经网络的输入得到子音频属于特定分类的概率值；根据所述概率值得到所述原始音频属于特定分类的权重值。

上述方法中，所述得到所述原始音频属于特定分类的权重值包括：计算原始音频的所有子音频属于特定分类的概率平均值作为该原始音频的归一化概率；查找已保存的该用户当前原始音频时间之前预置数量的原始音频的归一化概率；若归一化概率大于判决上限的数量达到第一预设数量，则所述当前原始音频属于该特定分类的权重值为1；若归一化概率小于判决下限的数量达到第二预设数量，则所述当前原始音频属于该特定分类的权重值为0；否则，按照预设的算法得到当前原始音频属于特定分类的权重值。

上述方法中，所述得到所述原始音频属于特定分类的权重值包括：

在当前原始音频中，统计子音频的所述概率值大于特定分类概率门限值的第一数量；利用第一数量与当前原始音频中所有子音频数量的比值得到当前原始音频的属于特定分类的权重值。

所述方法还包括：保存该用户的原始音频，以及根据指令播放所述原始音频；以及，对应所述原始音频，存储该原始音频属于特定分类的权重值。

所述方法还包括：根据所述原始音频属于特定分类的权重值挑选符合特定要求的原始音频；或者，根据所述原始音频属于特定分类的权重值计算用户权益值。

一种人声音频分类***，包括：

服务器，接收原始音频，并将原始音频发送至存储单元保存，以及将原始音频在存储单元中的存储地址保存在数据库；

以及，查找所述数据库，据所述存储地址将存储单元中的原始音频进行切分得到子音频，并发送至神经网络；

以及，接收神经网络返回的子音频属于特定分类的概率值，根据所述概率值获得所述原始音频属于特定分类的权重值；

数据库，存储原始音频在存储单元中的存储地址，以及原始音频属于特定分类的权重值；

存储单元，用于存储所述服务器获取的原始音频；

神经网络，用于得到子音频属于特定分类的概率值。

本申请提供的人声音频识别模型训练方法，通过对训练音频进行切分得到多个子音频，进而针对每个子音频神经网络输出的概率值与预设的分类进行比较优化神经网络参数，达到神经网络输出概率值不断收敛的目标。通过子音频训练得到的神经网络得到更佳的输出效果；

进一步，所述训练音频是利用不同分类的原始音频中的人声部分组成的，因而训练音频中存在较少人声之外的杂音，或者说存在较少的非人声的子音频，从而降低对神经网络的干扰。

并且，不同分类的原始音频被切分后，各自获得多个子音频，并将这些子音频随机拼接，所得到的训练音频训练神经网络得到更好的效果。例如将幼儿的子音频与成人的子音频进行随机拼接为训练音频，使得神经网络识别幼儿音频和成人音频的能力更强。

以及，获得原始音频中的人声音频后，先对该人声音频进行变速处理，再进行切分获得子音频，从而使得用于训练的子音频具有音速的多种变化，使得训练得到的神经网络能够适应更多音质、场景的需要。

本申请提供的音频分类方法，对原始音频进行切分，进而对每子音频的类别属性进行识别，从而得到的更加精确的分类。能够适用一个原始音频中多个声音源的情况，由于能够针对子音频的分类进行识别，因而能够将统计出原始音频中某一类音频的时长。以及，对该原始音频是否满足业务需要进行判别，例如原始音频中成人声音时长或者幼儿声音时长的比例不低于某一要求，或者其他类似参数。

本申请提供了两种计算音频分类权重值的方法，能够精确根据原始音频中符合分类要求的音频情况计算所述分类权重值，从而用于对原始音频的质量评估或者原始音频录音者的权益评估。

本申请还提供了一种人声音频分类***。能够实现上述方法，且具有相应的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请人声音频分类***实施例示意图；

图2是本申请神经网络训练流程示意图；

图3是VAD模块工作示意图；

图4是数据增强模块数据增强处理流程示意图；

图5是拼接生成训练音频示意图。

具体实施方式

下面将参照附图更详细地描述本申请的优选实施方式。虽然附图中显示了本申请的优选实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以下以语音相关技术的产品场景为例进行说明。其仅是用于更加清楚直观的说明本发明的实现方法，并非本发明仅适用于以下场景中的应用。

语音产品中，经常发布录音任务以获取可用的训练数据，例如当***需要幼儿的音频用于训练神经网络，以便获得能够识别幼儿声音的神经网络。成人与幼儿在发音上天然存在差异，因而，如果使用成人语料训练得到的深度学习模型在进行幼儿音频识别的时候集上表现往往差强人意。

为了获得更多的幼儿或者特定年龄段的人声音频，录音任务会公开在互联网上征集，默认参与录制的人会根据发布的录制要求进行录音。然而，这样的录制音频中经常掺杂着大量“脏数据”，即不符合录制要求的音频，例如专为幼儿设计的录音任务中包含有大量的成人录音。

为了解决以上问题，本发明通过对原始音频进行切分获得子音频；通过计算MFCC，得到声音信号的时频二维图；进而通过深度学习算法对音频进行分类，例如通过音频判断录音用户的年龄段；基于本发明提供的概率归一化机制，根据深度学习算法得到的子音频的分类概率获取原始音频的分类概率值。从而改进报酬支付机制，鼓励目标用户群体参与录音，抵制非目标群体参与录音。

本发明还结合Python、Java、Thrift框架和HTML5、JavaScript实现了基于深度学习的人声音频分类***，实现本发明方法的录音用户年龄段的识别。参见图1所示的***结构示意图。包含：客户端、服务端、神经网络三大模块。

客户端，用户在客户端模块进行注册，进行录音。用户在客户端模块注册并获取专属的id，登陆后选择不同的录音任务，阅读录制要求后进入到录制界面。

服务端，将录制的音频存储至OSS，并将相应的OSS地址和用户信息存储在MySQL数据库中。其中，所述OSS为对象存储(Object Storage Service)。MySQL是关系型数据库管理***(RDBMS)，采用结构化查询语言(SQL)进行数据库管理。

服务端查询MySQL数据库中的新增音频，例如周期性地查询MySQL数据库。将未审核的音频送至神经网络模块进行识别；获取到神经网络识别结果后，即神经网络返回的子音频属于特定分类的概率值，服务端进行概率归一化得到子音频所属原始音频属于特定分类的权重值，并结合历史信息判定音频的审核结果，并更新MySQL里的记录。接着执行报酬支付策略，并将录音报酬给予用户。本发明所述的年龄分类是指根据音频将录制人分为、幼儿、成人、青少年等类别，下文以幼儿、成人二分类任务进行描述。

存储单元，用于存储所述服务器获取的原始音频；以及根据客户端的指令读取原始音频进行播放。

神经网络，用于得到子音频属于特定分类的概率值。

以下具体说明对神经网络的训练。

参见图2所示，训练阶段的训练音频经过话音激活检测(VAD)模块、数据增强模块、子音频切分模块、抽取特征、网络前向运算、计算l oss并不断优化参数使模型收敛。另一方面，完成训练的神经网络在进行人生音频识别时，原始音频经过话音激活检测模块、子音频切分模块、抽取特征、网络前向运算；相比神经网络的测试过程，减少了数据增强、计算损失函数优化参数部分。

神经网络的训练过程如下。

获得用于神经网络训练的音频数据，包括：来自公开的中、英文成人、幼儿语音识别数据集；或者，自主发布的幼儿、成人录音任务录制的音频，并进行人工审核对录制音频为幼儿或成人人声进行分类标记。

话音激活检测(VAD)模块。

在原始音频数据中，无论成人的录音或者幼儿的录音中，均包含着非人声的成份。例如，由于幼儿处于语言学习阶段，因此录音中含有相当的非人声成分，这些非人声成分多数是因为幼儿说话停顿导致的。

若神经网络直接利用这些原始音频进行音频年龄的判别，则非人声部分的数据分布将会直接影响神经网络的识别结果。例如这样训练后的模型对于非人声音频片段有判决为幼儿的可能，从而神经网络对于音频年龄的识别性能会受到损失。

参照图3所示，本发明利用话音激活检测(VAD)模块，识别出原始音频a中的人声部分，在图3中标记为人声部分，并且根据VAD结果对原始音频进行裁剪和拼接，导出原始音频中纯人声的音频。

利用话音激活检测模块，对用作神经网络训练的原始音频进行处理，相应的分别得到了标记为幼儿的纯人声音频和标记为成人的纯人声音频。

数据增强模块。

采用数据增强模块增加数据的丰富性，用以提高深度学习模型性能。参照图4所示。

首先，输入经过话音激活检测模块得到的纯人声音频数据。该模块对纯人声音频数据进行变速不变调增强，在改变音频录制者说话速度的同时，保证说话人的音色。

其次，由于真实环境中存在着各种各样的噪声，而录制音频时往往处于较为安静的环境，为了增加模型对于真实音频的泛化行，数据增强模块会结合自主录制和开源的噪声数据集作为备选，对人声数据叠加随机信噪比的噪声。

最后，如图4所示，为了近似比拟实际生活中出现的成人、幼儿混读的场景。分别将经过以上两步骤处理后的幼儿音频和成人音频进行裁剪和随机拼接。所述剪切的最小粒度是子音频切分模块的窗口大小，得到增强后的音频作为训练音频用于神经网络训练。

具体的，参照图5所示。

为了应对成人、幼儿混合音频场景，估算不同类别音频的时间节点。将经过变速处理和叠加噪音处理后的音频进行切分得到多个子音频，子音频继承原音频相应部分的分类标记。如图所示，对于分类标记为幼儿的原始音频得到数个分类标记为幼儿的子音频，同理，对于分类标记为成人的原始音频得到数个分类标记为成人的子音频。进而，将不同长度的纯人声音频切分为长度固定的子音频，进行随机拼接。如图5所示，来自于幼儿音频的子音频与来自于成人音频的子音频进行拼接，得到一个训练音频。

该训练音频的一部分音频片段来自于幼儿音频，另一部分音频片段来自于成人音频。图5所示仅是一个示例，该训练音频的幼儿音频片段并非必须来自同一个幼儿音频，而是可以从多个分类标记为幼儿的音频中获得子音频；同理，该训练音频中的成人音频片段也可以分别从多个分类标记为成人的音频中随机选择。

以及，在子音频的拼接方式上，如图5所示，其中第一个幼儿音频片段为一个幼儿音频的子音频，而训练音频中的另一个音频片段由2个或者3个幼儿音频的子音频组成，在两个幼儿音频片段之间间隔由多个成人音频的子音频组成的音频片段。本发明并不对训练音频的具体拼接方式进行限制。

显然，以上为数据增强模块的一种实现方式，在其他实现方式中，数据增强模块也可以不进行变速的处理，或/和不叠加随机噪声，直接进行人声音频随机拼接。以及步骤间的先后顺序本发明并不限制。

子音频切分模块，用于将数据增强模块输出的训练音频进行切分，从而，利用训练音频中的每个子音频对神经网络进行训练。从而，在后续利用神经网络实现原始音频中不同类别音频的时间点估算。

本发明实施例采用切分窗口为500ms，切分步长为250ms对训练音频进行切分得到子音频。然而，本发明并不限制切分窗口时长与切分步长时长。以及，一方面，子音频切分模块对训练音频的采用的切分窗口可以与图5所示的为了拼接得到训练音频而对幼儿音频和成人音频采用的切分窗口时长相同。另一方面，子音频切分模块对训练音频的采用的切分窗口也可以与图5所示的对幼儿音频和成人音频采用的切分窗口时长不相同，然而，此时作为优选的实现方式，图5所示的对幼儿音频和成人音频采用的切分窗口时长应为子音频切分模块对训练音频的采用的切分窗口时长的整倍数，然而本发明不限制其他时长取值的实现。

特征抽取模块对于训练音频中切分得到的子音频计算其短时傅立叶变换的结果。例如，对于上述得到的每个窗口为500ms的子音频，特征抽取模块采用窗口长度25ms，步长10ms，计算其短时傅立叶变换的结果，计算得到MFCC特征。

梅尔频率倒谱系数(MFCC)，是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换得到的谱系数，符合人耳对于声音频率的感受特性，可以表征声音所具备的时频特性。

根据子音频抽取MFCC特征后得到的特征图视作二维图像，进而得到子音频属于某种分类的概率。例如在本实施例中，利用MFCC的时频特性，并采用VGG的网络架构得到子音频属于幼儿分类的概率值。

其中，所述VGG是Oxford的Visual Geometry Group在ILSVRC 2014上提出的著名图像识别领域的卷积网络结构。本发明也可以采用其他网络架构实现相同目的。

熵计算模块，用于计算子音频属于某种分类的预测概率与已标注的子音频的分类标记的交叉熵损失，并返回到网络前向运算模块以优化网络参数直至收敛。

网络前向运算模块，利用所述交叉熵，优化网络参数，并用优化后的参数对训练音频的子音频属于某种分类的概率；获得熵计算模块的交叉熵损失后，再次优化网络参数。如此往复，达到优化网络参数使得对子音频的分类概率的预测向子音频的实际分类不断收敛的效果。

所述网络前向运算模块是计算输入层结点对隐藏层结点的影响，也就是说，把网络正向的走一遍，从输入层至隐藏层至输出层，计算每个结点对其下一层结点的影响。在具体实现方式中，可以采用卷积神经网络(CNN)：由输入和输出层以及多个隐藏层组成，其中隐藏层主要由一系列卷积层、池化层和全连接层组成。卷积层将感受野内的信息投影到下层的某一个元素，达到信息富集的作用。池化层采用后多种不同形式的非线性池化函数例如最大值池化、均值池化等达到降采样的效果。全连接层则是将卷积层、池化层抽象出的高层特征信息进行融合交汇，并最终实现分类效果。

以上，通过举例说明了本发明中一种人声音频识别模型训练方法实现方式。

经过训练的神经网络，获得原始音频，并通过对原始音频的切分，进而计算子音频属于特定分类的概率值。具体的，原始音频经过话音激活检测模块、子音频切分模块、抽取特征、网络前向运算。

参照图1，神经网络输出的原始音频中子音频属于特定分类的概率值，具体的获得子音频的分类概率P，P＝{p¹，p²，...，pⁱ，...pⁿ}，其中pⁱ表示第i个子音频为特定分类的概率，例如某原始音频中各子音频属于幼儿的概率。

服务端根据所述概率值得到所述原始音频属于特定分类的权重值，以便在具体业务中利用。例如，在上文所述的网络发布的录音任务的场景下，假设发布任务征集幼儿录制的音频，并对幼儿录制的音频进行用户权益奖励，例如报酬的方式等。

本发明实施例提供两种方式获得所述原始音频的所述音频分类的权重值，并基于该权重值确定报酬。

假设幼儿录制一条音频的报酬为c。

第一实现方式，参考用户的历史信息，假设同一个用户id在短时间内不会进行录制参与者的切换。

1)设置宽容度因子α。

2)结合数组P计算当前原始音频的归一化概率。

其中pⁱ表示第i个子音频分类为幼儿的概率。

3)服务端查询用户id的日志记录，查询前α条音频识别结果，例如α取值为10，即查找当前原始音频之前10条原始音频的识别结果。

4)若所述前α个原始音频的识别结果中，存在某条音频分类幼儿概率大于判决门限的上限值Tr^up，则该条原始音频分类为幼儿，即幼儿分类的权重值为1。相应的，标准报酬c与权重值1的乘积得到该原始音频的用户权益报酬为c。

若述前α个原始音频的识别结果中，不存在任何一条原始音频分类幼儿概率大于判决门限的上限值Tr^up。则判断本条原始音频的所述归一化概率p^a是否低于判决门限的下限值Tr^down。若低于，则当前原始音频的分类为幼儿的权重值为0，相应的，标准报酬c与权重值0的乘积得到该原始音频的用户权益报酬为0；若所述归一化概率p^a是否不低于判决门限的下限值Tr^down，则当前原始音频分类为幼儿的权重值为：

则原始音频的用户权益报酬为：

以上方法假设短时间内，录音者不会切换，例如短时间内幼儿进行录音时，不会立刻变为大人录音。因此，参考该用户已录制的原始音频，如果达到某一指标要求，如上述的幼儿分类概率的上限值，则当前原始音频也判断为幼儿的录制的音频。

以下说明本发明获得权重值的另一种实现方式。

第二实现方式，参考子音频识别结果数组，尽可能使用幼儿数据。

1)设置幼儿音频的判决门限Tr。

2)将子音频识别数组P结合Tr进行判别分类；

若pⁱ＞Tr，认为第i个子音频为幼儿音频，将pⁱ赋值为1，

否则，认为第i个子音频为非幼儿音频，将pⁱ赋值为0。

3)该原始音频分类为幼儿的权重值为：

相应的，当前原始音频的用户权益报酬为：

通过上述方法，得到原始音频属于特定分类的权重值，本发明并不限制其他获得权重值的方法。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种人声音频识别模型训练方法，其特征在于，包括：

获得训练音频中的子音频的时频二维图，并作为神经网络的输入得到子音频属于特定分类的概率值；

利用所述子音频属于特定分类的概率值与预设的子音频的分类优化神经网络参数，使神经网络得到的子音频所述属于特定分类的概率值向所述预设的子音频分类收敛；

所述方法还包括：

获得多个预设分类的原始音频中的人声音频；

对人声音频进行切分得到相应预设分类的子音频；

将不同预设分类的子音频进行拼接得到训练音频；

其中，所述预设分类的原始音频包括：自主发布的幼儿、成人录音任务录制的音频，并进行人工审核对录制音频为幼儿或成人人声进行分类标记；

所述方法还包括，经过训练的神经网络计算子音频属于特定分类的概率值，根据所述概率值得到原始音频属于特定分类的权重值，并基于该权重值确定报酬；其中，所述录音任务中的幼儿音频的用户权益报酬通过以下方法确定：

查询用户id的日志记录，获得前α条原始音频的识别结果；

若所述前α条原始音频的识别结果中，存在某条原始音频分类幼儿概率大于判决门限的上限值，则所述用户权益报酬为/>；其中，α为宽容度因子，/>为标准报酬；

若所述前α条原始音频的识别结果中，不存在任何一条原始音频分类幼儿概率大于判决门限的上限值，判断当前原始音频的归一化概率/>是否低于判决门限的下限值；其中，/>，/>表示神经网络输出的第/>个子音频分类为幼儿的概率，n为子音频个数；

当所述归一化概率低于所述判决门限的下限值/>时，所述用户权益报酬为0；

当所述归一化概率不低于所述判决门限的下限值/>时，所述用户权益报酬为：；

或者，设置幼儿音频的判决门限Tr，若pi＞Tr，pi=1，若pi＜Tr，pi=0，所述用户权益报酬为。

2.根据权利要求1所述的方法，其特征在于，所述对人声音频进行切分得到相应预设分类的子音频，包括：

采用时长为500毫秒的切分窗口，步长为250毫秒对所述人声音频进行切分，得到时长为500毫秒的子音频。

3.根据权利要求1所述的方法，其特征在于，所述获得训练音频中的子音频的时频二维图包括：

获得训练音频，按照预置的方法对所述训练音频进行切分，得到所述训练音频中的子音频；

以及计算梅尔频率倒谱系数得到子音频的时频二维图。

4.根据权利要求1所述的方法，其特征在于，还包括：

对获得的所述人声音频进行变速处理；

以及，对经过变速处理后的人声音频进行切分得到相应预设分类的子音频。

5.一种采用如权利要求1至4其中之一的方法获得模型的音频分类方法，其特征在于，包括：

获得用户原始音频；

对所述原始音频进行切分获得子音频；

获得所述子音频的时频二维图，并作为神经网络的输入得到子音频属于特定分类的概率值；

根据所述概率值得到所述原始音频属于特定分类的权重值。

6.根据权利要求5所述的方法，其特征在于，所述得到所述原始音频属于特定分类的权重值包括：

计算原始音频的所有子音频属于特定分类的概率平均值作为该原始音频的归一化概率；

查找已保存的该用户当前原始音频时间之前预置数量的原始音频的归一化概率；若归一化概率大于判决上限的数量达到第一预设数量，则所述当前原始音频属于该特定分类的权重值为1；

若归一化概率小于判决下限的数量达到第二预设数量，则所述当前原始音频属于该特定分类的权重值为0；

否则，按照预设的算法得到当前原始音频属于特定分类的权重值。

7.根据权利要求5所述的方法，其特征在于，所述得到所述原始音频属于特定分类的权重值包括：

在当前原始音频中，统计子音频的所述概率值大于特定分类概率门限值的第一数量；

利用第一数量与当前原始音频中所有子音频数量的比值得到当前原始音频的属于特定分类的权重值。

8.根据权利要求5至7其中之一所述的方法，其特征在于，所述方法还包括：

保存该用户的原始音频，以及根据指令播放所述原始音频；

以及，对应所述原始音频，存储该原始音频属于特定分类的权重值。

9.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据所述原始音频属于特定分类的权重值挑选符合特定要求的原始音频；

或者，根据所述原始音频属于特定分类的权重值计算用户权益值。

10.一种采用如权利要求5至9其中之一所述方法的人声音频分类***，其特征在于，包括：

存储单元，用于存储所述服务器获取的原始音频；

神经网络，用于得到子音频属于特定分类的概率值。

11.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被计算设备的处理器执行时，使所述处理器执行如权利要求1-9中任一项所述的方法。