CN111862961A

CN111862961A - 识别语音的方法和装置

Info

Publication number: CN111862961A
Application number: CN201910354527.7A
Authority: CN
Inventors: 付立; 李萧萧
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2020-10-30
Also published as: US20220238098A1; JP2022529268A; JP7164098B2; WO2020220824A1

Abstract

本发明公开了识别语音的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：分别设置汉字系数和拼音系数的初始值，根据汉字系数的初始值生成汉字映射函数，根据拼音系数的初始值生成拼音映射函数；用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数；根据所述目标映射函数对待识别语音进行识别，得到所述待识别语音的汉字识别结果和拼音识别结果。该实施方式保证识别准确性的同时降低识别成本。

Description

识别语音的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种识别语音的方法和装置。

背景技术

目前，采用现有的汉字识别方法对语音进行识别，只能识别出汉字识别结果，采用现有的拼音识别方法对语音进行识别，只能识别出拼音识别结果。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

对包含同音字、多音字或者发音模糊的语音进行识别，若只识别出汉字识别结果或者只识别出拼音识别结果，则识别准确性不高。为保证对包含同音字、多音字或者发音模糊的语音的识别准确性，本领域技术人员容易想到采用汉字识别方法和拼音识别方法分别对语音进行识别，从而得到汉字识别结果和拼音识别结果。而采用两种识别方法分别对语音进行识别，将会造成高昂的识别成本。

发明内容

有鉴于此，本发明实施例提供一种识别语音的方法和装置，能够保证对包含同音字、多音字或者发音模糊的语音的识别准确性，同时降低识别成本。

为实现上述目的，根据本发明实施例的一个方面，提供了一种识别语音的方法。

本发明实施例的识别语音的方法，包括：

分别设置汉字系数和拼音系数的初始值，根据汉字系数的初始值生成汉字映射函数，根据拼音系数的初始值生成拼音映射函数；

用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数；

根据所述目标映射函数对待识别语音进行识别，得到所述待识别语音的汉字识别结果和拼音识别结果。

在一个实施例中，用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数，包括：

根据所述汉字映射函数、所述拼音映射函数和预设的多个训练样本得到各个训练样本的汉字损失值和拼音损失值；

将各个训练样本的所述汉字损失值和所述拼音损失值作为联合损失函数的参数进行计算，得到各个训练样本的联合损失值；

根据各个训练样本的所述联合损失值采用反向传播算法进行计算，得到汉字系数和拼音系数的目标值，根据所述目标值生成目标映射函数。

在一个实施例中，所述训练样本包括样本语音的频谱、与所述样本语音匹配的汉字和与所述样本语音匹配的拼音；

根据所述汉字映射函数、所述拼音映射函数和预设的多个训练样本得到各个训练样本的汉字损失值和拼音损失值，包括：

针对预设的各个训练样本，将该训练样本中的频谱分别作为所述汉字映射函数和所述拼音映射函数的参数进行计算，得到该训练样本的汉字识别结果和拼音识别结果；

将该训练样本的汉字识别结果与该训练样本中的汉字的差作为该训练样本的汉字损失值；

将该训练样本的拼音识别结果与该训练样本中的拼音的差作为该训练样本的拼音损失值。

在一个实施例中，将各个训练样本的所述汉字损失值和所述拼音损失值作为联合损失函数的参数进行计算，得到各个训练样本的联合损失值，包括：

针对各个训练样本，将预设的汉字权重与该训练样本的所述汉字损失值的乘积作为第一数值；

将预设的拼音权重与该训练样本的所述拼音损失值的乘积作为第二数值；其中，所述汉字权重与所述拼音权重的和为1；

将所述汉字系数的初始值的二范数与所述拼音系数的初始值的二范数的和作为第三数值，将所述第三数值与预设的正则项系数的乘积作为第四数值；

将所述第一数值、所述第二数值与所述第四数值的和作为该训练样本的联合损失值。

在一个实施例中，根据所述目标映射函数对待识别语音进行识别，得到所述待识别语音的汉字识别结果和拼音识别结果，包括：

对待识别语音的时域进行短时傅里叶变换，得到所述待识别语音的频谱；

将所述待识别语音的频谱作为所述目标映射函数的参数进行计算，得到所述待识别语音的汉字识别结果和拼音识别结果。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种识别语音的装置。

本发明实施例的识别语音的装置，包括：

生成单元，用于分别设置汉字系数和拼音系数的初始值，根据汉字系数的初始值生成汉字映射函数，根据拼音系数的初始值生成拼音映射函数；

处理单元，用于用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数；

识别单元，用于根据所述目标映射函数对待识别语音进行识别，得到所述待识别语音的汉字识别结果和拼音识别结果。

在一个实施例中，所述处理单元用于：

所述处理单元用于：

在一个实施例中，所述处理单元用于：

在一个实施例中，所述识别单元用于：

为实现上述目的，根据本发明实施例的再一个方面，提供了一种电子设备。

本发明实施例的一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的识别语音的方法。

为实现上述目的，根据本发明实施例的又一个方面，提供了一种计算机可读介质。

本发明实施例的一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例提供的识别语音的方法。

上述发明中的一个实施例具有如下优点或有益效果：根据设置的汉字系数的初始值生成汉字映射函数，根据设置的拼音系数的初始值生成拼音映射函数，用预设的多个训练样本训练汉字映射函数和拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数，采用目标映射函数识别语音，可以同时得到汉字识别结果和拼音识别结果，无需发送两个识别请求，无需部署处理两个识别请求的设备，保证对包含同音字、多音字或者发音模糊的语音的识别准确性，同时降低识别成本，减少用户意图理解偏差的情况。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明一实施例的识别语音的方法的主要流程的示意图；

图2是根据本发明一实施例的识别语音的方法中深度神经网络的示意图；

图3是根据本发明另一实施例的识别语音的方法的主要流程的示意图；

图4是根据本发明另一实施例的识别语音的方法中计算汉字损失值和拼音损失值的主要流程示意图；

图5是根据本发明另一实施例的识别语音的方法中计算联合损失值的主要流程示意图；

图6是根据本发明另一实施例的识别语音的方法中汉字识别准确率示意图；

图7是根据本发明另一实施例的识别语音的方法中拼音识别准确率示意图；

图8是根据本发明另一实施例的识别语音的方法中汉字损失值示意图；

图9是根据本发明另一实施例的识别语音的方法中拼音损失值示意图；

图10是根据本发明实施例的识别语音的装置的主要单元的示意图；

图11是本发明实施例可以应用于其中的示例性***架构图；

图12是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要指出的是，在不冲突的情况下，本发明中的实施例以及实施例中的特征可以互相组合。

近年来，随着人工智能技术的高速发展，智能客服***已经应用到多个领域，例如在电商、物流或金融等。自动语音识别(Automatic Speech Recognition，简称ASR)是智能客服***的核心技术之一，自动语音识别旨在将用户语音转换为文本，通过文本理解用户意图并作出相应答复，因而，自动语音识别的准确性非常重要。然而，在实际的客服对话中，用户语音存在口音、方言和背景噪声等多种问题，给准确识别语音带来巨大挑战。

为解决上述问题，传统方法采用混合高斯模型(Gaussian Mixture Model，简称GMM)和隐马尔可夫模型(-Hidden Markov Model，简称HMM)建立声学模型，将待识别语音的频谱输入到声学模型，得到发音状态(发音状态可以是音节)，根据发音状态查询发音词典(发音词典存储发音状态与识别结果的对应关系)，得到识别结果。传统方法是通过获得语音的前后依赖状态关系(即获得时序信号的每个时间帧的条件概率分布)，从而实现语音识别。

随着深度学习技术的高速发展，出现了基于深度神经网络(Deep NeuralNetwork，简称DNN)的识别语音方法，该方法相比于传统方法，在识别性能上有了显著提升。例如，2015年，D.Amodei等人提出的深度语音2(Deep Speech 2，简称DS2)。传统方法是建立声学模型，并把声学模型的输出作为发音词典的输入，因而，传统方法存在误差累计的问题，而DS2是基于深度神经网络直接建立待识别语音的频谱与识别结果的对应关系，因而，DS2的识别准确性更高了。

无论是传统方法，还是DS2，只能识别出一种识别结果，即要么是汉字识别结果，要么是拼音识别结果。对包含同音字、多音字或者发音模糊的语音进行识别，若只识别出一种识别结果，则识别的准确性不高，上述语音涉及到用户的肯定、否定或关键数字等重要信息，还会出现用户意图理解偏差的问题，用户体验度差。为了保证对包含同音字、多音字或者发音模糊的语音的识别准确性，减少用户意图理解偏差的情况，可以识别出汉字识别结果和拼音识别结果，结合汉字识别结果和拼音识别结果确定最终识别结果(结合汉字识别结果和拼音识别结果确定最终识别结果的过程是现有技术)。要识别出汉字识别结果和拼音识别结果，本领域技术人员容易想到的方案是：采用现有的汉字识别方法建立一套模型，采用现有的拼音识别方法再建立一套模型，分别对两套模型进行训练，并利用训练后的两套模型分别进行识别。然而，模型建立和模型训练需要成本，故，现有技术存在高昂的识别成本的问题。

为了解决现有技术存在的问题，本发明一实施例提供了一种识别语音的方法，如图1所示，该方法包括：

步骤S101、分别设置汉字系数和拼音系数的初始值，根据汉字系数的初始值生成汉字映射函数，根据拼音系数的初始值生成拼音映射函数。

在该步骤中，具体实施时，如图2所示，汉字映射函数包括三层的卷积神经网络(Convolutional Neural Network，简称CNN)的运算函数、一层的门控循环网络(GatedRecurrent Unit，简称GRU)的运算函数和两层的全连接网络(Fully Connected，简称FC)的运算函数。拼音映射函数也包括三层的卷积神经网络的运算函数、一层的门控循环网络的运算函数和两层的全连接网络的运算函数。汉字映射函数中的CNN运算函数与拼音映射函数中的CNN运算函数相同，汉字映射函数中的GRU运算函数与拼音映射函数中的GRU运算函数相同，但汉字映射函数中的FC运算函数与拼音映射函数中的FC运算函数不相同。

下面以一具体例子说明步骤S101：

l1＝c(x,P1,O1)

l2＝c(l1,P2,O2)

l3＝c(l2,P3,O3)

其中，c(x,P1,O1)表示第一层卷积神经网络的运算函数，c(l1,P2,O2)表示第二层卷积神经网络的运算函数，c(l2,P3,O3)表示第三层卷积神经网络的运算函数，l1表示第一层卷积神经网络的运算结果，l2表示第二层卷积神经网络的运算结果，l3表示第三层卷积神经网络的运算结果，x表示频谱(x为自变量)，P1表示第一层卷积神经网络的卷积核参数，P2表示第二层卷积神经网络的卷积核参数，P3第三层卷积神经网络的卷积核参数，O1表示第一层卷积神经网络的步长参数，O2表示第二层卷积神经网络的步长参数，O3表示第三层卷积神经网络的步长参数。c(x,P1,O1)、c(l1,P2,O2)和c(l2,P3,O3)采用现有的卷积神经网络的运算函数即可。

l4＝g(l3,N1,M1)

其中，g(l3,N1,M1)表示门控循环网络的运算函数，l4表示门控循环网络的运算结果，N1表示门控循环网络的参数，M1表示门控循环网络的隐藏层个数。g(l3,N1,M1)采用现有的门控循环网络的运算函数即可。

l5_1＝W4_1*l4+b4_1

l5_2＝W4_2*l4+b4_2

其中，W4_1*l4+b4_1表示汉字的第一层全连接网络的运算函数，W4_2*l4+b4_2表示拼音的第一层全连接网络的运算函数，l5_1表示汉字的第一层全连接网络的运算结果，l5_2表示拼音的第一层全连接网络的运算结果，W4_1表示汉字的第一层全连接网络的权重矩阵，W4_2表示拼音的第一层全连接网络的权重矩阵，b4_1表示汉字的第一层全连接网络的偏置向量，b4_2表示拼音的第一层全连接网络的偏置向量。

l6_1＝W5_1*l5_1+b5_1

l6_2＝W5_2*l5_2+b5_2

其中，W5_1*l5_1+b5_1表示汉字的第二层全连接网络的运算函数，W5_2*l5_2+b5_2表示拼音的第二层全连接网络的运算函数，l6_1(l6_1为第一个因变量)表示汉字的第二层全连接网络的运算结果，l6_2(l6_2为第二个因变量)表示拼音的第二层全连接网络的运算结果，W5_1表示汉字的第二层全连接网络的权重矩阵，W5_2表示拼音的第二层全连接网络的权重矩阵，b5_1表示汉字的第二层全连接网络的偏置向量，b5_2表示拼音的第二层全连接网络的偏置向量。

设置汉字系数(汉字系数包括P1、O1、P2、O2、P3、O3、N1、M1、W4_1、b4_1、W5_1和b5_1)和拼音系数(拼音系数包括P1、O1、P2、O2、P3、O3、N1、M1、W4_2、b4_2、W5_2和b5_2)的初始值，将汉字系数的初始值代入汉字的第二层全连接网络的运算函数，得到的函数作为汉字映射函数；将拼音系数的初始值代入拼音的第二层全连接网络的运算函数，得到的函数作为拼音映射函数。

步骤S102、用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数。

在该步骤中，多个训练样本可以包含3000种汉字，1200种拼音，训练样本越多，汉字和拼音的种类越多。步骤S102的具体实施方式可以参考如图3所示实施例。

步骤S103、根据所述目标映射函数对待识别语音进行识别，得到所述待识别语音的汉字识别结果和拼音识别结果。

在该步骤中，具体实施时，对待识别语音的时域进行短时傅里叶变换，得到待识别语音的频谱；将待识别语音的频谱作为目标映射函数的参数进行计算，得到待识别语音的汉字识别结果和拼音识别结果。

在该实施例中，根据设置的汉字系数的初始值生成汉字映射函数，根据设置的拼音系数的初始值生成拼音映射函数，用预设的多个训练样本训练汉字映射函数和拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数，采用目标映射函数识别语音，可以同时得到汉字识别结果和拼音识别结果，无需发送两个识别请求，无需部署处理两个识别请求的设备，保证对包含同音字、多音字或者发音模糊的语音的识别准确性，同时降低识别成本，减少用户意图理解偏差的情况。

为了解决现有技术存在的问题，本发明另一实施例提供了一种识别语音的方法。该实施例中，在图1所示实施例的基础上，如图3所示，步骤S102包括：

步骤S301、根据所述汉字映射函数、所述拼音映射函数和预设的多个训练样本得到各个训练样本的汉字损失值和拼音损失值。

在该步骤中，步骤S301的具体实施方式可以参考如图4所示实施例。

步骤S302、将各个训练样本的所述汉字损失值和所述拼音损失值作为联合损失函数的参数进行计算，得到各个训练样本的联合损失值。

在该步骤中，联合损失函数与现有的连接时间分类(Connectionist TemporalClassification，简称CTC)损失函数类似，区别是：联合损失函数的参数包括汉字损失值和拼音损失值，而现有的连接时间分类损失函数的参数只包括汉字损失值，或只包括拼音损失值。步骤S302的具体实施方式可以参考如图5所示实施例。

步骤S303、根据各个训练样本的所述联合损失值采用反向传播算法进行计算，得到汉字系数和拼音系数的目标值，根据所述目标值生成目标映射函数。

在该步骤中，具体实施时，根据各个训练样本的联合损失值采用自适应时刻估计方法(Adaptive Moment Estimation，简称ADAM)进行计算，得到汉字系数的目标值和拼音系数的目标值。自适应时刻估计方法是一种可以替代传统随机梯度下降过程的一阶优化算法。

应理解的是，汉字系数和拼音系数的初始值是任意设置的，通过多个训练样本的训练，联合损失函数计算，反向传播算法计算，才能得到汉字系数的目标值和拼音系数的目标值。

在步骤S101所举例子的基础上，以一具体例子说明根据目标值生成目标映射函数：将汉字系数的目标值代入汉字的第二层全连接网络的运算函数，得到的函数作为目标汉字映射函数，并将拼音系数的目标值代入拼音的第二层全连接网络的运算函数，得到的函数作为目标拼音映射函数，目标映射函数包括目标汉字映射函数和目标拼音映射函数。

在该实施例中，根据汉字映射函数、拼音映射函数和预设的多个训练样本得到各个训练样本的汉字损失值和拼音损失值；将各个训练样本的汉字损失值和拼音损失值作为联合损失函数的参数进行计算，得到各个训练样本的联合损失值；根据各个训练样本的所述联合损失值采用反向传播算法进行计算，得到汉字系数和拼音系数的目标值，根据目标值生成目标映射函数，从而同时识别出汉字识别结果和拼音识别结果，无需发送两个识别请求，无需部署处理两个识别请求的设备，进一步保证对包含同音字、多音字或者发音模糊的语音的识别准确性，同时降低识别成本，减少用户意图理解偏差的情况。

在本发明实施例中，如图4所示，所述训练样本包括样本语音的频谱、与所述样本语音匹配的汉字和与所述样本语音匹配的拼音；步骤S301包括：

步骤S401、针对预设的各个训练样本，将该训练样本中的频谱分别作为所述汉字映射函数和所述拼音映射函数的参数进行计算，得到该训练样本的汉字识别结果和拼音识别结果。

在该步骤中，训练样本可以按照下述方式获得：对样本语音的时域进行短时傅里叶变换，即可得到样本语音的频谱；人工标注与该样本语音匹配的汉字(人工标注与该样本语音匹配的汉字后，需对其进行筛查，发现标注错误的及时进行改正)和与该样本语音匹配的拼音(与该样本语音匹配的拼音还可以使用汉字转拼音的开源工具对与该样本语音匹配的汉字进行转换得到)。当然，使用一段样本语音只能得到一个训练样本。

下面以一具体例子说明训练样本，训练样本的表达式为：

其中，i∈[1,s]，s表示训练样本的数量，x_i表示样本语音的频谱，

表示与该样本语音匹配的汉字，

表示与该样本语音匹配的拼音。

应理解的是，样本语音涉及的场景越多，训练样本的数量越多，本发明实施例提供的识别语音的方法的鲁棒性越好。当然，样本语音可以是金融客服场景下的语音，所有样本语音的总时长可以是5000小时，可以包括汉字、数字或字母等，样本语音的采样率可以为8kHz。

需说明的是，训练样本的汉字识别结果与训练样本中的汉字之间有差距，同样地，训练样本的拼音识别结果与训练样本中的拼音之间有差距，本发明实施例旨在使两个差距都尽量小，从而得到汉字系数和拼音系数的目标值，进而得到目标映射函数。

在步骤S101所举例子的基础上，以一具体例子说明该步骤：汉字映射函数中频谱是自变量，将训练样本中的频谱作为汉字映射函数的自变量进行计算，得到训练样本的汉字识别结果(即l6_1)；同样地，拼音映射函数中频谱也是自变量，将训练样本中的频谱作为拼音映射函数的自变量进行计算，得到训练样本的拼音识别结果(即l6_2)。

步骤S402、将该训练样本的汉字识别结果与该训练样本中的汉字的差作为该训练样本的汉字损失值。

在该步骤中，该训练样本中的汉字即为该训练样本包括的与所述样本语音匹配的汉字。

步骤S403、将该训练样本的拼音识别结果与该训练样本中的拼音的差作为该训练样本的拼音损失值。

在该步骤中，该训练样本中的拼音即为该训练样本包括的与所述样本语音匹配的拼音。

在该实施例中，针对预设的各个训练样本，将该训练样本中的频谱分别作为汉字映射函数和拼音映射函数的参数进行计算，得到该训练样本的汉字识别结果和拼音识别结果；将该训练样本的汉字识别结果与该训练样本中的汉字的差作为该训练样本的汉字损失值；将该训练样本的拼音识别结果与该训练样本中的拼音的差作为该训练样本的拼音损失值。由训练样本的汉字损失值和拼音损失值，得到目标映射函数，从而同时识别出汉字识别结果和拼音识别结果，无需发送两个识别请求，无需部署处理两个识别请求的设备，进一步保证对包含同音字、多音字或者发音模糊的语音的识别准确性，同时降低识别成本，减少用户意图理解偏差的情况。

在本发明实施例中，如图5所示，步骤S302包括：

步骤S501、针对各个训练样本，将预设的汉字权重与该训练样本的所述汉字损失值的乘积作为第一数值。

在该步骤中，汉字权重的取值范围为[0,1]。

步骤S502、将预设的拼音权重与该训练样本的所述拼音损失值的乘积作为第二数值；其中，所述汉字权重与所述拼音权重的和为1。

在该步骤中，拼音权重的取值范围为[0,1]。通过改变汉字权重和拼音权重可以改变目标映射函数的用途，例如，若汉字权重为0，拼音权重为1，则根据目标映射函数识别，只能识别出拼音识别结果；若汉字权重为1，拼音权重为0，则根据目标映射函数识别，只能识别出汉字识别结果；若汉字权重为0.5，拼音权重为0.5，则根据目标映射函数识别，可以同时识别出拼音识别结果和汉字识别结果。

汉字权重分别取为0.25、0.5和0.75，相应的拼音权重分别取为0.75、0.5和0.25，得到汉字识别准确率、拼音识别准确率、汉字损失值和拼音损失值。汉字识别准确率如图6所示，拼音识别准确率如图7所示，从图6和图7可以看出，目标映射函数能够有效并快速收敛，且汉字识别准确率和拼音识别准确率均大于80％，其中，汉字识别准确率收敛至83％，拼音识别准确率收敛至87％。汉字损失值如图8所示，拼音损失值如图9所示，从图8和图9可以看出，汉字损失值收敛至12.3，拼音损失值收敛至9.3。由此可以看出，拼音识别准确率好于汉字识别准确率，这是因为汉字种类是3000，拼音种类是1200，汉字种类多于拼音种类。同时，从图6-图9可以看出，对于联合损失值，汉字权重的取值，对于收敛速率有较大影响，汉字权重的取值小，则收敛速率慢，但对最终的收敛结果影响小。因而，汉字权重的取值最适宜取0.5，平衡了汉字损失值和拼音损失值。

步骤S503、将所述汉字系数的初始值的二范数与所述拼音系数的初始值的二范数的和作为第三数值，将所述第三数值与预设的正则项系数的乘积作为第四数值。

在该步骤中，具体实施时，正则项系数可以设置为10^-5。正则项系数的作用是抑制汉字系数和拼音系数，防止目标映射函数因为汉字系数和拼音系数过大而无法收敛。

步骤S504、将所述第一数值、所述第二数值与所述第四数值的和作为该训练样本的联合损失值。

下面以一具体例子说明该实施例：

联合损失函数的表达式为：

其中，L表示训练样本的联合损失值，α表示汉字权重，(1-α)表示拼音权重，β表示正则项系数，L_h表示训练样本的汉字损失值，L_p表示训练样本的拼音损失值，w_k表示汉字系数的初始值和拼音系数的初始值。

汉字权重设置为0.5，拼音权重设置为0.5，正则项系数设置为10^-5。

针对各个训练样本，将该训练样本的汉字损失值、该训练样本的拼音损失值、汉字权重(0.5)、拼音权重(0.5)、正则项系数(10^-5)及预先设置的汉字系数和拼音系数的初始值代入到联合损失函数的表达式进行计算，得到该训练样本的联合损失值。

在该实施例中，针对各个训练样本，将预设的汉字权重与该训练样本的汉字损失值的乘积作为第一数值；将预设的拼音权重与该训练样本的拼音损失值的乘积作为第二数值；其中，汉字权重与拼音权重的和为1；将汉字系数的初始值的二范数与拼音系数的初始值的二范数的和作为第三数值，将第三数值与预设的正则项系数的乘积作为第四数值；将第一数值、第二数值与第四数值的和作为该训练样本的联合损失值。由训练样本的联合损失值，得到目标映射函数，从而同时识别出汉字识别结果和拼音识别结果，无需发送两个识别请求，无需部署处理两个识别请求的设备，进一步保证对包含同音字、多音字或者发音模糊的语音的识别准确性，同时降低识别成本，减少用户意图理解偏差的情况。

在本发明实施例中，步骤S103包括：

对待识别语音的时域进行短时傅里叶变换，得到所述待识别语音的频谱。

在该实施例中，在步骤S303所举例子的基础上，以一具体例子说明将待识别语音的频谱作为目标映射函数的参数进行计算，得到待识别语音的汉字识别结果和拼音识别结果：目标汉字映射函数中频谱是自变量，目标拼音映射函数中频谱是自变量，将待识别语音的频谱分别作为目标汉字映射函数和目标拼音映射函数的自变量进行计算，得到待识别语音的汉字识别结果(即l6_1)和拼音识别结果(即l6_2)。

短时傅里叶变换(Short-Time Fourier Transform，简称STFT)的窗口大小为20ms，窗口步长为10ms，因而，得到的待识别语音的频谱是81维频谱信息序列。短时傅里叶变换是用以确定时变信号其局部区域正弦波的频率与相位的傅里叶变换方法。

在该实施例中，通过对待识别语音的时域进行短时傅里叶变换，得到待识别语音的频谱，并将其作为目标映射函数的参数进行计算，得到待识别语音的汉字识别结果和拼音识别结果，无需发送两个识别请求，无需部署处理两个识别请求的设备，进一步保证对包含同音字、多音字或者发音模糊的语音的识别准确性，同时降低识别成本。

应理解的是，本发明实施例将汉字识别方法所用模型和拼音识别方法所用模型合二为一，并对合二为一的模型同时进行汉字识别训练和拼音识别训练，从而得到可以同时识别出汉字识别结果和拼音识别结果的目标映射函数，进而降低的识别成本。

上文结合图1-图9说明了识别语音的方法，下文结合图10说明识别语音的装置。

为了解决现有技术存在的问题，本发明实施例提供了一种识别语音的装置，如图10所示，该装置包括：

生成单元1001，用于分别设置汉字系数和拼音系数的初始值，根据汉字系数的初始值生成汉字映射函数，根据拼音系数的初始值生成拼音映射函数。

处理单元1002，用于用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数。

识别单元1003，用于根据所述目标映射函数对待识别语音进行识别，得到所述待识别语音的汉字识别结果和拼音识别结果。

在本发明实施例中，所述处理单元1002用于：

在本发明实施例中，所述训练样本包括样本语音的频谱、与所述样本语音匹配的汉字和与所述样本语音匹配的拼音；

所述处理单元1002用于：

在本发明实施例中，所述处理单元1002用于：

在本发明实施例中，所述识别单元1003用于：

应理解的是，本发明实施例提供的识别语音的装置的各部件所执行的功能已经在上述实施例一种识别语音的方法中做了详细的介绍，这里不再赘述。

图11示出了可以应用本发明实施例的识别语音的方法或识别语音的装置的示例性***架构1100。

如图11所示，***架构1100可以包括终端设备1101、1102、1103，网络1104和服务器1105。网络1104用以在终端设备1101、1102、1103和服务器1105之间提供通信链路的介质。网络1104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备1101、1102、1103通过网络1104与服务器1105交互，以接收或发送消息等。

终端设备1101、1102、1103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器1105可以是提供各种服务的服务器，例如对用户利用终端设备1101、1102、1103所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的识别语音的方法一般由服务器1105执行，相应地，识别语音的装置一般设置于服务器1105中。

应该理解，图11中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图12，其示出了适于用来实现本发明实施例的终端设备的计算机***1200的结构示意图。图12示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，计算机***1200包括中央处理单元(CPU)1201，其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。在RAM 1203中，还存储有***1200操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本发明的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分，上述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括生成单元、处理单元和识别单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，识别单元还可以被描述为“根据所述目标映射函数对待识别语音进行识别，得到所述待识别语音的汉字识别结果和拼音识别结果的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：分别设置汉字系数和拼音系数的初始值，根据汉字系数的初始值生成汉字映射函数，根据拼音系数的初始值生成拼音映射函数；用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数；根据所述目标映射函数对待识别语音进行识别，得到所述待识别语音的汉字识别结果和拼音识别结果。

根据本发明实施例的技术方案，根据设置的汉字系数的初始值生成汉字映射函数，根据设置的拼音系数的初始值生成拼音映射函数，用预设的多个训练样本训练汉字映射函数和拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数，采用目标映射函数识别语音，可以同时得到汉字识别结果和拼音识别结果，无需发送两个识别请求，无需部署处理两个识别请求的设备，保证对包含同音字、多音字或者发音模糊的语音的识别准确性，同时降低识别成本，减少用户意图理解偏差的情况。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种识别语音的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数，包括：

3.根据权利要求2所述的方法，其特征在于，所述训练样本包括样本语音的频谱、与所述样本语音匹配的汉字和与所述样本语音匹配的拼音；

4.根据权利要求2所述的方法，其特征在于，将各个训练样本的所述汉字损失值和所述拼音损失值作为联合损失函数的参数进行计算，得到各个训练样本的联合损失值，包括：

5.根据权利要求1所述的方法，其特征在于，根据所述目标映射函数对待识别语音进行识别，得到所述待识别语音的汉字识别结果和拼音识别结果，包括：

6.一种识别语音的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述处理单元用于：

8.根据权利要求7所述的装置，其特征在于，所述训练样本包括样本语音的频谱、与所述样本语音匹配的汉字和与所述样本语音匹配的拼音；

所述处理单元用于：

9.根据权利要求7所述的装置，其特征在于，所述处理单元用于：

10.根据权利要求6所述的装置，其特征在于，所述识别单元用于：

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。