CN113837299B

CN113837299B - 基于人工智能的网络训练方法及装置、电子设备

Info

Publication number: CN113837299B
Application number: CN202111146925.3A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2023-09-01
Anticipated expiration: 2041-09-28
Also published as: CN113837299A

Abstract

本申请的实施例揭示了一种基于人工智能的网络训练方法、装置、电子设备和存储介质，方法包括：提取音频样本的第一音频特征和第二音频特征，文本样本的第一文本特征和第二文本特征；将第一音频特征和第一文本特征融合得到第一融合特征，将第二音频特征和第二文本特征融合得到第二融合特征；提取第一融合特征对应的第三音频特征和第四音频特征，提取第二融合特征对应的第三文本特征和第四文本特征；将第三音频特征和第三文本特征融合，将第四音频特征和第四文本特征融合；基于第一损失值和第二损失值之和，调整第二音频特征提取网络的参数，使得第二音频特征提取网络具备提取音频样本中与文本样本相似特征的能力。

Description

基于人工智能的网络训练方法及装置、电子设备

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种基于人工智能的网络训练方法、装置、电子设备以及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。现有的音频的方法处理网络在处理音频样本时通常是先将音频样本转化为文本样本，再从文本样本中提取相应特征，并用于具体执行任务中，例如，语音识别、语音合成或语音克隆任务等等。这种音频处理方式带来了将音频转化为文本的额外误差，降低音频处理的准确度。

发明内容

为解决上述技术问题，本申请的实施例提供了一种基于人工智能的网络训练方法、装置、电子设备以及计算机可读存储介质。

根据本申请实施例的一个方面，提供了一种基于人工智能的网络训练方法，包括：通过第一音频特征提取网络和第二音频特征提取网络分别提取音频样本的第一音频特征和第二音频特征，以及通过第一文本特征提取网络和第二文本特征提取网络分别提取文本样本的第一文本特征和第二文本特征，文本样本是经由音频样本进行文本转换得到的；融合第一音频特征和第一文本特征得到第一融合特征，以及融合第二音频特征和第二文本特征得到第二融合特征；通过第一音频特征提取网络和第二音频特征提取网络分别提取第一融合特征对应的第三音频特征和第四音频特征，以及通过第一文本特征提取网络和第二文本特征提取网络分别提取第二融合特征对应的第三文本特征和第四文本特征；融合第三音频特征和第三文本特征得到第三融合特征，以及融合第四音频特征和第四文本特征得到第四融合特征，根据第三融合特征和音频样本计算第一损失值，以及根据第四融合特征和文本样本计算第二损失值；基于第一损失值与第二损失值之和调整第二音频特征提取网络的参数。

根据本申请实施例的一个方面，提供了一种基于人工智能的音频分类的方法，包括：提取待分类音频的第二梅尔谱特征；将第二梅尔谱特征输入音频特征提取网络，得到音频特征；将音频特征输入预先构建的分类模型，得到分类结果，音频特征提取网络为如前提供的调整参数后的第二音频特征提取网络。

根据本申请实施例的一个方面，提供了一种基于人工智能的网络训练装置，包括：第一特征提取模块，用于通过第一音频特征提取网络和第二音频特征提取网络分别提取音频样本的第一音频特征和第二音频特征，以及通过第一文本特征提取网络和第二文本特征提取网络分别提取文本样本的第一文本特征和第二文本特征，文本样本是经由音频样本进行文本转换得到的；第一融合模块，用于融合第一音频特征和第一文本特征得到第一融合特征，以及融合第二音频特征和第二文本特征得到第二融合特征；第二特征提取模块，用于通过第一音频特征提取网络和第二音频特征提取网络分别提取第一融合特征对应的第三音频特征和第四音频特征，以及通过第一文本特征提取网络和第二文本特征提取网络分别提取第二融合特征对应的第三文本特征和第四文本特征；第二融合模块，用于融合第三音频特征和第三文本特征得到第三融合特征，以及融合第四音频特征和第四文本特征得到第四融合特征，根据第三融合特征和音频样本计算第一损失值，以及根据第四融合特征和文本样本计算第二损失值；参数调整模块，用于基于第一损失值与第二损失值之和调整第二音频特征提取网络的参数。

根据本申请实施例的一个方面，提供了一种基于人工智能的网络训练装置，包括：提取模块，用于提取待分类音频的第二梅尔谱特征；特征提取模块，用于将第二梅尔谱特征输入音频特征提取网络，得到音频特征，音频特征提取网络为如前提供的调整参数后的第二音频特征提取网络；分类模块，用于将音频特征输入预先构建的分类模型，得到分类结果。

根据本申请实施例的一个方面，提供了一种电子设备，包括处理器及存储器，存储器上存储有计算机可读指令，计算机可读指令被处理器执行时实现如前提供的基于人工智能的网络训练方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当计算机可读指令被计算机的处理器执行时，使计算机执行如前提供的基于人工智能的网络训练方法或者基于人工智能的音频处理方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施例中提供的基于人工智能的网络训练方法或者基于人工智能的音频处理方法。

在本申请的实施例所提供的技术方案中，首先分别提取音频样本的第一音频特征和第二音频特征，文本样本的第一文本特征和第二文本特征；将第一音频特征和第一文本特征融合得到第一融合特征，将第二音频特征和第二文本特征融合得到第二融合特征；提取第一融合特征对应的第三音频特征和第四音频特征，提取第二融合特征对应的第三文本特征和第四文本特征；最后将第三音频特征和第三文本特征融合，将第四音频特征和第四文本特征融合；基于第一损失值和第二损失值之和，调整第二音频特征提取网络的参数，使得第二音频特征提取网络具备提取音频样本张与文本样本相似特征的能力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请的一示例性实施例示出的基于人工智能的网络训练方法的流程图；

图2是图1所示实施例中步骤S100在一示例性实施例的流程图；

图3是图2所示实施例中步骤S110在一示例性实施例的流程图；

图4是图2所示实施例中步骤S110在一示例性实施例的流程图；

图5是图1所示实施例中步骤S500在一示例性实施例的流程图；

图6是图5所示实施例中步骤S520在一示例性实施例的流程图；

图7是本申请的另一示例性实施例示出的基于人工智能的网络训练方法的流程图；

图8是本申请一示例性实施例示出的基于人工智能的网络训练装置的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是：在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例提出的基于人工智能的网络训练方法、基于人工智能的音频分类的方法、基于人工智能的网络训练装置、基于人工智能的音频处理装置、电子设备、计算机可读存储介质涉及人工智能技术以及机器学习技术，以下将对这些实施例进行详细说明。本发明的基于人工智能的网络训练方法、基于人工智能的网络训练装置、基于人工智能的音频分类的方法、基于人工智能的音频分类装置、计算机设备及存储介质，主要适用于医疗、保健等领域。

请参阅图1，图1是本申请的一示例性实施例示出的基于人工智能的网络训练方法的流程图，该方法包括以下步骤：

步骤S100：通过第一音频特征提取网络和第二音频特征提取网络分别提取音频样本的第一音频特征和第二音频特征，以及通过第一文本特征提取网络和第二文本特征提取网络分别提取文本样本的第一文本特征和第二文本特征。

在本实施例中，文本样本是经由音频样本进行文本转换得到的。这一过程涉及自动语音识别技术(Autom aticSpeech Recognition，ASR)，自动语音识别技术是人工智能的一个分支，用于模拟的语音信号转换为计算机可以处理的文本，在语音拨号、电话订票、语音输入、语音导航等各种业务中得到广泛应用。

示例性地，可以通过以下方式对音频样本进行文本转换，从而得到对应的文本样本：

首先，获取音频样本的多个语音帧的声学特征；

音频样本信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性(10ms－30ms内可以认为语音信号近似不变)，因此，可以把语音信号分为一些短段来进行处理，通过对语音信号进行分帧，也就是把音频样本切开成一小段一小段，每小段称为一帧，帧与帧之间存在交叠，分帧后的音频样本信号变成了很多小的片段，然后针对小片段进行特征提取。例如，提取每一帧的梅尔频率倒谱系数(MFCC，Mel Frequency Cepstrum Coefficient)特征、线性预测倒谱系数(LPCC，Linear Prediction Cepstrum Coefficient)特征，得到对应每一帧的声学特征向量。

示例性地，可通过如下方式获取待识别语音信号的多个语音帧的声学特征：对待识别语音信号进行加窗分帧处理，得到待识别语音信号的多个语音帧；分别对各语音帧进行特征提取，得到待识别语音信号的多个语音帧的声学特征。

然后，通过图形处理器对多个语音帧的声学特征进行编码转换，得到各语音帧对应的状态；

在实际实施时，图形处理器通过单线程运行训练得到的神经网络模型(Encoder)，实现预测每个语音帧的声学特征所对应的状态的概率，以确定该语音帧的声学特征所对应的状态，由于待识别语音信号通常包括多个语音帧，经GPU对多个语音帧的声学特征打分(即状态预测)，可得到各语音帧对应的状态，形成对应待识别语音信号的状态序列。

其次，通过中央处理器对各语音帧对应的状态进行分类组合，得到对应音频样本的音素序列；

示例性地，对当前语音帧对应的状态及历史语音帧的解码转换结果对应的标签，进行组合分类，得到对应当前语音帧的音素；迭代获取各语音帧对应的音素，并将获取的音素进行组合，得到对应待识别语音信号的音素序列。

最后，对音素序列进行解码转换，得到对应音频样本的文本样本。

示例性地，结合语言模型，通过中央处理器对音素序列进行解码，确定对应音频样本的解码路径，将解码路径中包括的文本词进行组合，得到对应音频样本的文本序列。语言模型是语言结构(包括词语、句子之间的规律，例如语法、词语常用搭配等)的知识表示，语言模型是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别正确率。

示例性地，第一音频特征提取网络、第二音频特征提取网络、第一文本特征提取网络以及第二文本特征提取网络可以是卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、以及tranformer网络的编码器部分的一种。

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一，卷积神经网络仿造生物的视知觉(visual perception)机制构建，可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化(grid－liketopology)特征；卷积神经网络的输入层可以处理多维数据，常见地，一维卷积神经网络的输入层接收一维或二维数组，其中一维数组通常为时间或频谱采样；二维数组可能包含多个通道；二维卷积神经网络的输入层接收二维或三维数组；三维卷积神经网络的输入层接收四维数组。卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑，在一些更为现代的算法中可能有Inception模块、残差块(residualblock)等复杂构筑。在常见构筑中，卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数，而池化层不包含权重系数，因此池化层可能不被认为是独立的层。

循环神经网络是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursiveneuralnetwork)，其中双向循环神经网络(Bidirectional RNN，Bi－RNN)和长短期记忆网络(Long Short－Term Memorynetworks，LSTM)是常见的的循环神经网络，循环神经网络具有记忆性、参数共享并且图灵完备(Turing completeness)，因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理(Natural Language Processing，NLP)，例如语音识别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报。

步骤S200：融合第一音频特征和第一文本特征得到第一融合特征，以及融合第二音频特征和第二文本特征得到第二融合特征。

特征融合是将多个特征融合到一起的过程，目前存在的特征融合算法大体上可以分为如下三类：一种是简单的特征组合，即将所有的特征向量，按照串行或者并行的方法组合在一起，构成新的特征向量，第二种是特征选择，即从新组合的特征向量中，对应的每一维数据中都选择出一个对分类最优的数据，最后把选择出来的数据组成新的特征，最后一种是特征变换，即将所有的特征向量放在一起，再使用一定的数学方法变换为一种全新的特征。

示例性地，使用机器学习算法对第一音频特征和第一文本特征进行融合，以及对第二音频特征和第二文本特征进行融合，例如可以利用add操作或Concat操作进行特征融合，add操作和Concat操作都可以理解为整合多路分值的信息，只不过两者的融合方式不相同。Concat操作为系列特征融合，直接将两个特征进行连接，例如两个输入特征x和y的维数若为p和q，输出特征z的维数为p+q；add操作为并行策略，将输入的两个特征向量组合成复向量，也即，对于输入特征x和y，z＝x+iy，其中i是虚数单位。示例性地，本实施例可以利用包含add融合层的卷积神经网络或包含Concat融合层的卷积神经网络对第一音频特征和第一文本特征进行融合，或者对第二音频特征和第二文本特征进行融合。

步骤S300：通过第一音频特征提取网络和第二音频特征提取网络分别提取第一融合特征对应的第三音频特征和第四音频特征，以及通过第一文本特征提取网络和第二文本特征提取网络分别提取第二融合特征对应的第三文本特征和第四文本特征。

显然，第一融合特征中包含第一文本特征的相关特征信息，在本步骤中，第一音频特征提取网络、第二音频特征提取网络能够获取到文本样本相关的信息；第二融合特征中包含第二音频特征的相关特征信息，因此在本步骤中，第一文本特征提取网络和第二文本特征提取网络能够获取到音频样本相关的信息。

步骤S400：融合第三音频特征和第三文本特征得到第三融合特征，以及融合第四音频特征和第四文本特征得到第四融合特征，根据第三融合特征和音频样本计算第一损失值，以及根据第四融合特征和文本样本计算第二损失值。

示例性地，计算第三融合特征和音频样本的相似度、最小平方误差或交叉熵，得到第一损失值；计算第四融合特征和文本样本的相似度、最小平方误差或交叉熵，得到第二损失值。

步骤S500：基于第一损失值与第二损失值之和调整第二音频特征提取网络的参数。

在本实施例中，通过最小化第一损失值与第二损失值之和，使得第二音频特征提取网络提取到的第四音频特征与文本样本的第一文本特征之间的相似度最大，使得第一文本特征提取网络提取到的第三文本特征与音频样本的第二文本特征之间的相似度最大；也即，通过调整第二音频特征提取网络的网络参数，使得第二音频特征提取网络具备提取音频样本对应的文本样本中的部分特征的能力，其中，音频样本对应的文本样本由音频样本转换而来。

在本实施例中，可以利用参数调整后的第二音频特征提取网络去提取音频样本对应的文本样本部分特征，进而在具体的音频处理应用场景中，无需将音频样本转换为文本样本，再基于文本样本进行后续操作，避免了音频转文本所带来的误差，提高音频处理的准确度。

请参阅图2，图2是图1所示实施例中步骤S100一示例性实施例的流程图，步骤S100包括以下步骤：

步骤S110：提取音频样本的第一梅尔谱特征，以及提取文本样本的音素特征。

音素是根据语音的自然属性划分出来的最小语音单位，从声学性质来看，音素是从音质角度划分出来的最小语音单位；从生理性质来看，一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔ma－mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。对音素的分析，一般是根据发音动作来描写的。如〔m〕的发音动作是：上唇和下唇闭拢，声带振动，气流从鼻腔流出发音。用语音学术语来说，就是双唇鼻音。

音素一般用国际音标(IPA)标记，国际音标是国际上通行的一种记音符号，由国际语音协会于1888年制定并公布，后经多次修改。用国际音标记音，用于表示发音上的音素细节时，采用[]，用于标记音位则采用//。音素一般分为元音和辅音两大类。

请参阅图3，图3是图2所示实施例中步骤S110一示例性实施例的流程图，步骤S110提取文本样本的音素特征包括以下步骤：

步骤S111：将文本样本转化成拼音序列。

作为一种示例，可通过查询拼音库的方式生成待将文本样本转化成拼音序列。比如，文本样本为“语音合成”，对应的拼音序列为“yu3yin1he2cheng2”，其中，数字代表拼音声调。

步骤S112：获取拼音序列的音素特征。

可以是采用查音素表的方式确定拼音序列对应的音素特征。需要说明的是，本实施例可以根据文本样本的语种的不同选择与语种对应的音素表，以获取拼音序列的音素特征，例如，中文语种、英文语种、日文语种等。

在本实施例中，第一梅尔谱特征即音频样本的梅尔谱特征，对音频样本进行梅尔滤波变换处理，从而得到音频样本的梅尔谱特征。本实施例对音频样本进行梅尔滤波变换处理，以将线性频谱特征转为梅尔谱特征。由于梅尔谱特征为对数线性频谱，因此，对音频样本进行梅尔滤波变换处理，也是将线性频谱特征转为对数线性频谱。

在语音识别中，由于高低频率的差异特征，通常认为低频率部分相对于高频率部分的语音信息更为丰富。对线性频谱进行梅尔滤波变换得到的梅尔谱特征，使得音频的低频率部分对应梅尔谱的分辨率更高，高频率部分对应梅尔谱的分辨率相对较低，非常适用于语音识别过程中的语音特征提取。这里高频率和低频率为相对概念，即高于低频率的均为高频率。例如，0～2kHZ为低频率，则大于2kHZ的频率为高频率。示例性地，利用梅尔滤波器对音频样本进行梅尔滤波变换处理，通过设计线性梅尔滤波器的个数，可以获得相应维度特征的梅尔谱特征。例如，利用多个单位三角滤波器，对音频样本进行梅尔滤波变换，单位三角滤波器的个数为80。

请参阅图4，图4是图2所示实施例中步骤S110一示例性实施例的流程图，步骤S110提取音频样本的第一梅尔谱特包括以下步骤：

步骤S113：对音频样本进行短时傅里叶变换，以将音频样本从时域信号转换成预设窗口数量的频域信号。

其中，短时傅里叶变换(short－time Fourier transfor，STFT)是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。简单来说，短时傅里叶变换是为待识别音频数据(时域信号)在时域上加窗，把信号分成一小段一小段，然后对每一段信号分别做傅里叶变换；短时傅里叶变换使用一个固定的窗函数，将按照时间变化的待识别音频数据划分成n个窗口，按照音频数据的时间长短可以调整窗口数量，时间越长窗口越多，当然窗越短越好，尽可能使得窗内信号频率近似不变。在一种实施例中，对于3秒的音频数据，窗口数量可以是43个。具体的，通过进行窗口平移，将待识别音频数据划分成43个窗口的时域信号，然后采用傅里叶变换对每个窗口的时域信号进行傅里叶变换，得到43段时域信号对应的43段频域信号。需要说明的是，傅里叶变换将时域信号转换为频域信号属于现有技术在此不再赘述。

步骤S114：将预设窗口数量的频域信号从频率标度转换为梅尔标度，得到第一梅尔谱特征。

如果将普通的频率标度(以HZ为标度单位)转化为梅尔标度，映射关系如下式所示：

其中，f代表频率标度的频域信号，单位为赫兹，f_mel(f)代表梅尔标度的频域信号。经过上述转化则人耳对频率的感知度就成了线性关系。也就是说，在梅尔标度下，如果两段语音的梅尔频率相差两倍，则人耳可以感知到的音调大概也相差两倍。将每个窗口的频域信号从频率标度转换为梅尔标度，也就是将普通频率值映射为用户对音高的感知(因为频率的变化用户没法准确感知，将频率值转化为梅尔标度，梅尔值的变化用户可以准确感知)。

步骤S210：通过第一音频特征提取网络和第二音频特征提取网络分别提取第一梅尔谱特征对应的第一音频特征和第二音频特征，以及通过第一文本特征提取网络和第二文本特征提取网络分别提取音素特征对应的第一文本特征和第二文本特征。

由于梅尔谱特征更有利用对音频样本特征的提取，因此本实施例首先提取音频样本对应的第一梅尔谱特征，再提取音频样本对应的第一梅尔谱特征对应的第一音频特征和第二音频特征，从而能够提高对音频样本特征提取的准确度。

请参阅图5，图5是图1所示实施例中步骤S500一示例性实施例的流程图，步骤S500包括以下步骤：

步骤S510：计算第二音频特征和第一文本特征之间的相似度，将相似度作为第三损失值。

示例性地，计算第二音频特征和第一文本特征之间的余弦相似度，将该余弦相似度作为第三损失值。

本实施例通过最小化第三损失值，使得第二音频特征与第一文本特征之间的相似度最大，使得第二音频特征提取网络具备提取音频样本中与文本样本之间共有特征的能力，其中文本样本由音频样本转换而来。显然，在本实施例中，第二音频特征提取网络用于提取音频样本与文本样本之间的共有特征，例如语义特征等，则第一音频特征提取网络则用于提取音频样本中与文本样本不同的特征，例如，音色、音调等特征。同理，第一文本特征提取网络用于提取音频样本与文本样本之间的共有特征，第二文本特征提取网络则用于提取文本样本中与音频样本不同的特征。

步骤S520：基于第一损失值、第二损失值以及第三损失值之和调整第二音频特征提取网络的参数。

本实施例最小化第一损失值、第二损失值以及第三损失值之和，使得第二音频特征提取网络既具备提取音频样本中与文本样本之间的共有特征的能力，又能够提取与音频样本对应的文本样本的部分特征；本实施例提供的音频处理方法使第二音频特征提取网络具备的从音频样本中提取音频样本对应的文本样本的部分特征的能力更强。

请参阅图6，图6是图5所示实施例中步骤S520一示例性实施例的流程图，步骤S520包括以下步骤：

步骤S521：将第四音频特征和第三文本特征分别输入第一分类模型和第二分类模型，得到第一分类结果和第二分类结果。

在本实施例中，第一分类模型和第二分类模型分别基于第四音频特征和第三文本特征对音频样本进行分类，得到的第一分类结果和第二分类结果包括音频样本所属类别列表以及类别列表中各个类别对应的置信度。

示例性地，第一分类模型和第二分类模型可以为基于机器学习的分类模型，例如朴素贝叶斯算法模型、支持向量机模型以及随机森林算法模型等等，在此不做具体限定。

示例性地，通过sigmoid函数或者softmax函数对音频样本进行分类。在机器学习领域的多标签问题中，最后一层使用sigmoid函数作为类别概率的归一化函数，多标签问题各个标签之间相互独立，没有联系。sigmoid函数会预测各个标签成立的概率p，相应的各个标签不成立的概率为1－p。对于二分类问题，既可以使用sigmoid函数作为类别概率的归一化函数，也可以使用softmax函数作为类别概率的归一化函数，使用sigmoid函数类似于逻辑回归，最终只需要一个神经元，给出为正样本的概率，负样本概率即为1－p，而使用softmax函数最终需要两个神经元，给出两个类别的概率。

本实施例提供的基于人工智能的网络训练方法所得到的网络模型适用于多种主体类型的音频分类场合，例如，疾病分类、职业分类、商品分类等等，音频样本的类型与应用场合相对应。例如在疾病分类场合下，获取的音频样本与疾病有关，例如音频样本包含至少一种待分类的疾病类型，或者音频样本包含一种疾病症状；在职业分类的应用场合下，获取的音频样本与职业有关，或音频样本包含至少一种待分类的职业类型。

步骤S522：分别基于第一分类结果和第二分类结果计算第四损失值和第五损失值。

在本实施例中，音频样本对应有一个类别标签，用于表示音频样本所属的类别。

示例性地，计算第一分类结果中指定类别与音频样本的类别标签对应的类别的交叉熵，并将其作为第四损失值，其中，第一分类结果中指定类别表示第一分类结果类别列表中置信度最大的类别；计算第二分类结果中指定类别与音频样本的类别标签对应的类别的交叉熵，并将其作为第五损失值，第二分类结果中指定类别表示第二分类结果的类别列表中置信度最大的类别。

步骤S523：基于第一损失值、第二损失值、第三损失值、第四损失值以及第五损失值之和分别调整第二音频特征提取网络和第一分类模型的参数。

在本实施例中，通过最小化第一损失值、第二损失值、第三损失值、第四损失值和第五损失值之和，调整第二音频特征提取网络的参数，使得第二音频提取网络提取的第四音频特征是音频样本和文本样本共有的，且有利于音频样本分类的特征，最终使得第二音频提取网络能够提取到音频样本和文本样本共有的有利于音频样本分类的特征。另外，通过最小化第四损失值，调整第一分类模型的参数，以提高第一分类模型的分类准确度。

请参阅图7，图7是本申请的一示例性实施例示出的基于人工智能的音频处理方法的流程图，方法包括以下步骤：

步骤S600：提取待分类音频的第二梅尔谱特征。

示例性地，获取到待分类音频之后，可以对待分类音频进行预处理，例如，可以通过语音活动检测算法(Voice Activity Detection，VAD)对待分类音频进行静音、噪音分离处理，使用最小均方(Least mean square，LMS)自适应滤波、维纳滤波等方式对待分类音频中的环境噪音、回声、混响等进行噪音消除处理。

在本实施例中，第二梅尔谱特征为待分类音频的梅尔谱特征，本步骤可以参考上述实施例的步骤S113－步骤S114，从而得到待分类音频的梅尔谱特征，在此不再过多赘述。

步骤S700：将第二梅尔谱特征输入音频特征提取网络，得到音频特征。

在本实施例中，音频特征提取网络为上述实施例提供的基于人工智能的网络训练方法中得到的经过参数调整后的第二音频特征提取网络，将第二梅尔谱特征输入上述实施例经过参数调整后的第二音频特征提取网络，能够输出待分类音频中与待分类音频对应的文本序列共有的，并有利于分类的特征。

步骤S800：将音频特征输入预先构建的分类模型，得到分类结果。

在本实施例中，分类模型可以是上述实施例提供的基于人工智能的网络训练方法中得到的经过参数调整后的第一分类模型。

本实施例提供的基于人工智能的音频处理方法，能够适用于多种音频分类的应用场景中，例如疾病分类的应用场景。

目前的疾病智能分类***往往是采用的是将语音转化为文字，然后通过文本对疾病进行分类的策略，虽然通过文本实现疾病分类已经可以达到一个较高的准确率，但是从语音转文字这个过程中本身是存在误差，这种无疑会引入双重误差。此外，病人的语音中本身是存在语意以外的判别疾病的信息，如感冒患者的咳嗽声、抑郁症患者的低沉音色等等，只是通过文本进行预测必定会损失这方面的信息；另一方面，部署两个模型所需要花费的算力、消耗的时间往往要更多一些。但是目前常见的基于语音的疾病分类算法往往准确率较低。

在本实施例中，由于第二音频特征提取网络能够提取到待分类音频中与待分类音频对应的文本序列共有的，并有利于分类的特征，例如，待分类音频中与待分类音频对应的文本序列共有的特征可以是语义特征，因此，本提供的基于人工智能的音频处理方法无需将待分类音频转换为文本序列，再基于文本序列进行分类，从而引入从音频到文本的转换误差，从而本实施例的方法能够提高基于语音的疾病分类的准确率。需要说明的是，将本实施例提供的基于人工智能的音频处理方法应用于疾病分类时，获取的音频样本和待分类音频都是与疾病相关的音频，与疾病相关的音频包括人身体某个部位的症状或音频样本包括一种或多种疾病标签等等，例如，音频样本为“胃胀是怎么回事儿”、“为什么感觉到头昏、四肢无力”、“耳朵后面长了个肉粒”、“痔疮需要去医院吗”“甲状腺怎么治疗”等等。

上述提及的基于人工智能的音频处理方法或者基于人工智能的网络训练方法可由计算机设备(或音频处理设备)执行。此处的计算机设备可包括但不限于：诸如智能手机、平板电脑、膝上计算机、台式电脑等终端设备：或者诸如数据处理服务器、Web服务器、应用服务器等服务设备，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，这里的服务器可以是区块链上的节点服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端设备以及服务设备可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

参与图8，图8是本申请一示例性实施例示出的基于人工智能的网络训练装置的框图，如图8所示，基于人工智能的网络训练装置1000包括第一特征提取模块1100、第一融合模块1200、第二特征提取模块1300、第二融合模块1400以及参数调整模块1500。

其中，第一特征提取模块1100用于通过第一音频特征提取网络和第二音频特征提取网络分别提取音频样本的第一音频特征和第二音频特征，以及通过第一文本特征提取网络和第二文本特征提取网络分别提取文本样本的第一文本特征和第二文本特征，文本样本是经由音频样本进行文本转换得到的；第一融合模块1200用于融合第一音频特征和第一文本特征得到第一融合特征，以及融合第二音频特征和第二文本特征得到第二融合特征；第二特征提取模块1300用于通过第一音频特征提取网络和第二音频特征提取网络分别提取第一融合特征对应的第三音频特征和第四音频特征，以及通过第一文本特征提取网络和第二文本特征提取网络分别提取第二融合特征对应的第三文本特征和第四文本特征；第二融合模块1400用于融合第三音频特征和第三文本特征得到第三融合特征，以及融合第四音频特征和第四文本特征得到第四融合特征，根据第三融合特征和音频样本计算第一损失值，以及根据第四融合特征和文本样本计算第二损失值；参数调整模块1500用于基于第一损失值与第二损失值之和调整第二音频特征提取网络的参数。

在另一示例性实施例中，第一特征提取模块1100包括第一提取单元和第二提取单元，其中，第一提取单元用于提取音频样本的第一梅尔谱特征，以及提取文本样本的音素特征；第二提取单元用于通过第一音频特征提取网络和第二音频特征提取网络分别提取第一梅尔谱特征对应的第一音频特征和第二音频特征，以及通过第一文本特征提取网络和第二文本特征提取网络分别提取音素特征对应的第一文本特征和第二文本特征。

在另一示例性实施例中，第一提取单元包括第一转换子单元和第二转换子单元，其中，第一转换子单元用于对音频样本进行短时傅里叶变换，以将音频样本从时域信号转换成预设窗口数量的频域信号；第二转换子单元用于将预设窗口数量的频域信号从频率标度转换为梅尔标度，得到第一梅尔谱特征。

在另一示例性实施例中，参数调整模块1500包括计算单元、参数调整单元，其中，计算单元用于计算第二音频特征和第一文本特征之间的相似度，将相似度作为第三损失值；参数调整单元用于基于第一损失值、第二损失值以及第三损失值之和调整第二音频特征提取网络的参数。

在另一示例性实施例中，参数调整单元包括分类子单元、计算子单元以及参数调整子单元，其中，分类子单元用户将第四音频特征和第三文本特征分别输入第一分类模型和第二分类模型，得到第一分类结果和第二分类结果；计算子单元用于分别基于第一分类结果和第二分类结果计算第四损失值和第五损失值；参数调整子单元用于基于第一损失值、第二损失值、第三损失值、第四损失值以及第五损失值之和分别调整第二音频特征提取网络和第一分类模型的参数。

在另一示例性实施例中，本实施例提供的基于人工智能的音频处理装置包括提取模块、特征提取模块以及分类模块，其中，提取模块用于提取待分类音频的第二梅尔谱特征；特征提取模块用于将第二梅尔谱特征输入音频特征提取网络，得到音频特征；分类模块用于将音频特征输入预先构建的分类模型，得到分类结果，音频特征提取网络为如前提供的调整参数后的第二音频特征提取网络。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

在另一示例性实施例中，本申请提供一种电子设备，包括处理器和存储器，其中，存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时实现如前的基于人工智能的音频处理方法或基于人工智能的网络训练方法。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机可读指令，该计算机可读指令被处理器执行时实现如前实施例中的基于人工智能的音频处理方法或基于人工智能的网络训练方法。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的基于人工智能的音频处理方法或基于人工智能的网络训练方法。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read－Only Memory，CD－ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种基于人工智能的网络训练方法，其特征在于，包括：

通过第一音频特征提取网络和第二音频特征提取网络分别提取音频样本的第一音频特征和第二音频特征，以及通过第一文本特征提取网络和第二文本特征提取网络分别提取文本样本的第一文本特征和第二文本特征，所述文本样本是经由所述音频样本进行文本转换得到的；

融合所述第一音频特征和所述第一文本特征得到第一融合特征，以及融合所述第二音频特征和所述第二文本特征得到第二融合特征；

通过所述第一音频特征提取网络和所述第二音频特征提取网络分别提取所述第一融合特征对应的第三音频特征和第四音频特征，以及通过所述第一文本特征提取网络和所述第二文本特征提取网络分别提取所述第二融合特征对应的第三文本特征和第四文本特征；

融合所述第三音频特征和所述第三文本特征得到第三融合特征，以及融合所述第四音频特征和所述第四文本特征得到第四融合特征，根据所述第三融合特征和所述音频样本计算第一损失值，以及根据所述第四融合特征和所述文本样本计算第二损失值；

基于所述第一损失值与所述第二损失值之和调整所述第二音频特征提取网络的参数。

2.根据权利要求1所述的方法，其特征在于，所述通过第一音频特征提取网络和第二音频特征提取网络分别提取音频样本的第一音频特征和第二音频特征，以及通过第一文本特征提取网络和第二文本特征提取网络分别提取文本样本的第一文本特征和第二文本特征，包括：

提取所述音频样本的第一梅尔谱特征，以及提取所述文本样本的音素特征；

通过所述第一音频特征提取网络和所述第二音频特征提取网络分别提取所述第一梅尔谱特征对应的第一音频特征和第二音频特征，以及通过所述第一文本特征提取网络和所述第二文本特征提取网络分别提取所述音素特征对应的第一文本特征和第二文本特征。

3.根据权利要求2所述的方法，其特征在于，所述提取所述音频样本的第一梅尔谱特征，包括：

对所述音频样本进行短时傅里叶变换，以将所述音频样本从时域信号转换成预设窗口数量的频域信号；

将所述预设窗口数量的频域信号从频率标度转换为梅尔标度，得到所述第一梅尔谱特征。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一损失值与所述第二损失值之和调整所述第二音频特征提取网络的参数，包括：

计算所述第二音频特征和所述第一文本特征之间的相似度，将所述相似度作为第三损失值；

基于所述第一损失值、所述第二损失值以及所述第三损失值之和调整所述第二音频特征提取网络的参数。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一损失值、所述第二损失值以及所述第三损失值之和调整所述第二音频特征提取网络的参数包括：

将所述第四音频特征和所述第三文本特征分别输入第一分类模型和第二分类模型，得到第一分类结果和第二分类结果；

分别基于所述第一分类结果和所述第二分类结果计算第四损失值和第五损失值；

基于所述第一损失值、所述第二损失值、所述第三损失值、所述第四损失值以及所述第五损失值之和分别调整所述第二音频特征提取网络和所述第一分类模型的参数。

6.一种基于人工智能的音频分类方法，其特征在于，包括：

提取待分类音频的第二梅尔谱特征；

将所述第二梅尔谱特征输入音频特征提取网络，得到音频特征；

将所述音频特征输入预先构建的分类模型，得到分类结果，所述音频特征提取网络为如权利要求1－5任一项的调整参数后的第二音频特征提取网络。

7.一种基于人工智能的网络训练装置，其特征在于，包括：

第一特征提取模块，用于通过第一音频特征提取网络和第二音频特征提取网络分别提取音频样本的第一音频特征和第二音频特征，以及通过第一文本特征提取网络和第二文本特征提取网络分别提取文本样本的第一文本特征和第二文本特征，所述文本样本是经由所述音频样本进行文本转换得到的；

第一融合模块，用于融合所述第一音频特征和所述第一文本特征得到第一融合特征，以及融合所述第二音频特征和所述第二文本特征得到第二融合特征；

第二特征提取模块，用于通过所述第一音频特征提取网络和所述第二音频特征提取网络分别提取所述第一融合特征对应的第三音频特征和第四音频特征，以及通过所述第一文本特征提取网络和所述第二文本特征提取网络分别提取所述第二融合特征对应的第三文本特征和第四文本特征；

第二融合模块，用于融合所述第三音频特征和所述第三文本特征得到第三融合特征，以及融合所述第四音频特征和所述第四文本特征得到第四融合特征，根据所述第三融合特征和所述音频样本计算第一损失值，以及根据所述第四融合特征和所述文本样本计算第二损失值；

参数调整模块，用于基于所述第一损失值与所述第二损失值之和调整所述第二音频特征提取网络的参数。

8.一种基于人工智能的音频处理装置，其特征在于，包括：

提取模块，用于提取待分类音频的第二梅尔谱特征；

特征提取模块，用于将所述第二梅尔谱特征输入音频特征提取网络，得到音频特征，所述音频特征提取网络为如权利要求1－5任一项的调整参数后的第二音频特征提取网络；

分类模块，用于将所述音频特征输入预先构建的分类模型，得到分类结果。

9.一种电子设备，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1－6中的任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1－6中的任一项所述的方法。