CN111369978B

CN111369978B - 一种数据处理方法、装置和用于数据处理的装置

Info

Publication number: CN111369978B
Application number: CN201811603538.6A
Authority: CN
Inventors: 周盼
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2024-05-17
Anticipated expiration: 2038-12-26
Also published as: CN111369978A

Abstract

本发明实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括：根据多语言声学模型，确定语音信息中语音帧的语言类型；其中，所述多语言声学模型为根据至少两种语言类型的声学数据训练得到；根据所述语音帧的语言类型对应的解码网络，对所述语音帧进行解码，以得到所述语音帧的第一解码结果；根据所述第一解码结果，确定所述语音信息对应的识别结果。本发明实施例可以提高语音识别的准确率。

Description

一种数据处理方法、装置和用于数据处理的装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法、装置和用于数据处理的装置。

背景技术

语音识别技术，也被称为ASR(Automatic Speech Recognition，自动语音识别)，其目标是将语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

在日常的语言表达中，可能会出现多种语言混合表达的情况。以中文和英文混合表达为例，用户在使用中文进行表达的过程中，可以穿插使用英文词句。例如，“我买了最新款的iPhone”、“来一首Yesterday once more”。

然而，目前的语音识别技术，对于单一语言的语音识别较为准确，而在语音中包含多种语言的情况下，识别的准确率明显下降。

发明内容

本发明实施例提供一种数据处理方法、装置和用于数据处理的装置，可以提高在语音中包含多种语言的情况下，语音识别的准确率。

为了解决上述问题，本发明实施例公开了一种数据处理方法，所述方法包括：

根据多语言声学模型，确定语音信息中语音帧的语言类型；其中，所述多语言声学模型为根据至少两种语言类型的声学数据训练得到；

根据所述语音帧的语言类型对应的解码网络，对所述语音帧进行解码，以得到所述语音帧的第一解码结果；

根据所述第一解码结果，确定所述语音信息对应的识别结果。

另一方面，本发明实施例公开了一种数据处理装置，所述装置包括：

类型确定模块，用于根据多语言声学模型，确定语音信息中语音帧的语言类型；其中，所述多语言声学模型为根据至少两种语言类型的声学数据训练得到；

第一解码模块，用于根据所述语音帧的语言类型对应的解码网络，对所述语音帧进行解码，以得到所述语音帧的第一解码结果；

结果确定模块，用于根据所述第一解码结果，确定所述语音信息对应的识别结果。

再一方面，本发明实施例公开了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的数据处理方法。

本发明实施例包括以下优点：

本发明实施例可以根据至少两种语言类型的声学数据训练得到多语言模型，通过所述多语言声学模型，可以确定语音信息中语音帧的语言类型，因此，在语音信息中包含多种语言类型的情况下，本发明实施例可以准确区分语音信息中不同语言类型的语音帧，并且可以根据相应语言类型的解码网络对语音帧进行解码，以得到语音帧的第一解码结果，该第一解码结果为根据语音帧的语音类型对应的解码网络解码得到，可以保证解码的准确性，进而可以提高语音识别的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种数据处理方法实施例的步骤流程图；

图2是本发明的一种数据处理装置实施例的结构框图；

图3是本发明的一种用于数据处理的装置800的框图；及

图4是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种数据处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101、根据多语言声学模型，确定语音信息中语音帧的语言类型；其中，所述多语言声学模型为根据至少两种语言类型的声学数据训练得到；

步骤102、根据所述语音帧的语言类型对应的解码网络，对所述语音帧进行解码，以得到所述语音帧的第一解码结果；

步骤103、根据所述第一解码结果，确定所述语音信息对应的识别结果。

本发明实施例的数据处理方法可用于对包含至少两种语言类型的语音信息进行识别的场景，所述数据处理方法可应用于电子设备，所述电子设备包括但不限于：服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，MovingPicture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

可以理解，本发明实施例对待识别的语音信息的获取方式不加以限制，例如，所述电子设备可以通过有线连接方式或者无线连接的方式，从客户端或网络中获取待识别的语音信息，或者，可以通过所述电子设备实时录制得到待识别的语音信息，或者，还可以根据即时通讯应用中获取的即时通讯消息得到待识别的语音信息等。

在本发明实施例中，可以根据预先设定的窗长和帧移，将待识别的语音信息切分为多个语音帧，其中，每一个语音帧可以为一个语音片段，进而可以对所述语音信息逐帧进行解码。如果待识别的语音信息为模拟语音信息(例如用户通话的录音)，则需要先将模拟语音信息转换为数字语音信息，然后再进行语音信息的切分。

其中，窗长可用于表示每一帧语音片段的时长，帧移可用于表示相邻帧之间的时差。例如，当窗长为25ms帧移15ms时，第一帧语音片段为0～25ms，第二帧语音片段为15～40ms，依次类推，可以实现对待识别的语音信息的切分。可以理解，具体的窗长和帧移可以根据实际需求自行设定，本发明实施例对此不加以限制。

可选地，在对待识别的语音信息进行切分之前，所述电子设备还可以对待识别的语音信息进行降噪处理，以提高后续对该语音信息的处理能力。

在本发明实施例中，可以将语音信息输入预先训练的多语言声学模型，并基于多语言声学模型的输出，得到语音识别结果。所述多语言声学模型可以是融合了多种神经网络的分类模型。所述神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套：CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short-TermMemory，长短时记忆)网络、RNN(Simple Recurrent Neural Network，循环神经网络)、注意力神经网络等。

为了提高对包含多种语言类型的语音信息识别的准确率，本发明实施例预先根据至少两种语言类型的声学数据训练得到多语言声学模型，根据所述多语言声学模型，可以确定语音信息中语音帧的语言类型，因此可以根据该语言类型对应的解码网络，对该语音帧进行解码，以得到该语音帧对应的第一解码结果，进而可以根据所述第一解码结果，确定所述语音信息对应的识别结果。

可以理解，本发明实施例对训练多语言声学模型的声学数据包含的语言类型数目以及语言类型均不加以限制。为便于描述，本发明实施例中均以包含中文和英文两种语言类型的语音信息为例进行说明，也即，所述多语言声学模型可以为根据收集的中文声学数据和英文声学数据训练得到。当然，还可以收集两种以上的语言类型的声学数据，如中文、英文、日文、德文等语言类型的声学数据，以训练多语言声学模型。对于两种以上的语言类型的应用场景，实现过程与两种语言类型类似，相互参照即可。

本发明实施例的解码网络可以包含至少两种语言类型对应的解码网络，例如，在识别中英文混合的语音信息的场景下，可以分别构建中文解码网络和英文解码网络。具体地，可以收集中文文本语料训练中文语言模型，根据中文语言模型、中文发音字典等知识源构建中文解码网络；同样地，可以收集英文文本语料训练英文语言模型，根据英文语言模型、英文发音字典等知识源构建英文解码网络。

在对语音信息逐帧进行解码的过程中，若根据多语言声学模型确定语音帧的语言类型为中文，则可以根据中文解码网络对语音帧进行解码，若根据多语言声学模型确定语音帧的语言类型为英文，则可以根据英文解码网络对语音帧进行解码。

在本发明的一种应用示例中，假设待识别的语音信息为“我喜欢apple”。具体地，首先可以根据多语言声学模型，确定该语音信息中第一帧语音帧的语言类型，假设确定第一帧语音帧的语言类型为中文，则可以根据中文解码网络，对第一帧语音帧进行解码，以得到第一帧语音帧的第一解码结果；然后再根据多语言声学模型，确定第二帧语音帧的语言类型，并且将第二帧语音帧输入其语言类型对应的解码网络进行解码，以得到第二帧语音帧的第一解码结果；以此类推，假设根据多语言声学模型，确定第m帧语音帧的语言类型为英文，则可以根据英文解码网络，对第m帧语音帧进行解码，以得到第m帧语音帧的第一解码结果，直到最后一帧语音帧解码完成；最后，可以根据各语音帧的第一解码结果，得到该语音信息的识别结果，如该识别结果可以包括如下文本信息“我喜欢apple”。

可以看出，本发明实施例通过已训练的多语言声学模型，可以确定语音信息中语音帧的语言类型，由此可以根据相应语言类型的解码网络对语音帧进行解码，以得到更加准确的识别结果。

在本发明的一种可选实施例中，所述根据多语言声学模型，确定语音信息中语音帧的语言类型，具体可以包括：

步骤S11、根据多语言声学模型，确定语音帧对应各状态的后验概率；其中，所述状态与语言类型之间具有对应关系；

步骤S12、根据所述语音帧对应各状态的后验概率、以及各状态对应的语言类型，确定所述语音帧的后验概率对应各语言类型状态的概率比值；

步骤S13、根据所述概率比值，确定所述语音帧的语言类型。

所述多语言声学模型可以将输入的所述语音帧的特征转化为各状态的后验概率，所述状态具体可以为HMM(Hidden Markov Model，隐马尔可夫模型)状态，具体地，多个状态可以对应一个音素，多个音素可以对应一个字，多个字可以组成一个句子。

例如，假设所述多语言声学模型在输出层可以输出(M1+M2)个状态对应的后验概率，其中M1个状态对应的语言类型可以为中文，M2个状态对应的语言类型可以为英文。

将语音帧输入所述多语言声学模型，可以输出该语音帧对应各状态的后验概率，根据所述语音帧对应各状态的后验概率、以及各状态对应的语言类型，可以确定该语音帧的后验概率对应各语言类型状态的概率比值，如该语音帧的后验概率中对应中文状态和英文状态的概率比值，进而可以根据该概率比值，确定该语音帧对应的语言类型。

例如，将M1个中文状态的后验概率相加得到的概率值为p1，将M2个英文状态的后验概率相加得到的概率值为p2，且p1+p2＝1。如果p1大于p2，说明该语音帧的后验概率中对应中文状态的概率较大，则可以确定该语音帧的语言类型为中文，反之，可以确定该语音帧的语言类型为英文。

然而，对于中英文混合的语音信息中，英文的后验概率通常较小，很少超过0.5，因此，为了减少误判，本发明实施例可以设置预设阈值，通过将所述概率比值与所述预设阈值进行对比，确定语音帧的语言类型。

以中英文混合为例，假设语音帧的后验概率对应英文状态和中文状态的概率比值为p2/p1，如果p2/p1超过预设阈值(如0.25)，则可以确定该语音帧的语言类型为英文；同理，该语音帧的后验概率对应中文状态和英文状态的概率比值为p1/p2，如果p1/p2超过4，则可以确定该语音帧的语言类型为中文。所述预设阈值可以根据实验进行调整，可以理解，本发明实施例对所述预设阈值的具体取值不加以限制。

当然，由于p1+p2＝1，p2/p1>0.25等价于p2>0.2，因此也可以单纯以p1或者p2的值进行判断。

在具体应用中，若出现用户频繁切换语言类型的情况，或者语音信息较短的情况，根据单帧语音帧判断该语音帧的语言类型，可能会导致判断出错。

为了提高确定语音帧的语言类型的准确性，在本发明的一种可选实施例中，可以根据语音帧所在预设窗长内的连续语音帧的后验概率对应各语言类型状态的概率比值的平均值，确定所述语音帧的语言类型。

可以理解，本发明实施例对所述预设窗长的具体数值不加以限制，例如，可以设置预设窗长为包含连续10帧语音帧的时间长度。具体地，可以获取包含所述语音帧的连续10帧语音帧，分别计算这10帧语音帧中每一帧语音帧的后验概率对应英文状态和中文状态的概率比值p2/p1，再将这10个p2/p1求和取平均值，如果该平均值超过预设阈值0.25，则可以确定所述语音帧的语言类型为英文，以避免通过单帧判断出现误判的概率，进而可以提高确定语音帧的语言类型的准确性。

在本发明的一种可选实施例中，在所述根据多语言声学模型，确定语音信息中语音帧的语言类型之前，所述方法还可以包括：

步骤S21、从所述至少两种语言类型中确定目标语言类型；

步骤S22、根据所述目标语言类型对应的解码网络，对所述语音信息中的各语音帧进行解码，以得到所述各语音帧的第二解码结果；

在所述根据多语言声学模型，确定语音信息中语音帧的语言类型之后，所述方法还可以包括：

从所述语音信息的语音帧中，确定目标语音帧，以及确定所述目标语音帧的第二解码结果；其中，所述目标语音帧的语言类型为非目标语言类型；

所述根据所述语音帧的语言类型对应的解码网络，对所述语音帧进行解码，以得到所述语音帧的第一解码结果，具体可以包括：根据所述目标语音帧的语言类型对应的解码网络，对所述目标语音帧进行解码，以得到所述目标语音帧的第一解码结果；

所述根据所述第一解码结果，确定所述语音信息对应的识别结果，具体可以包括：将所述目标语音帧的第二解码结果替换为所述目标语音帧对应语言类型的第一解码结果，以及将替换后的第二解码结果，作为所述语音信息对应的识别结果。

在具体应用中，用户通常使用两种类型的语言混合进行表达，并且大部分语句使用其中一种语言类型，只有小部分语句中会穿插出现另一种语言类型。此外，在语音信息较短的情况下，例如语音信息只包含一个英语单词，则在解码时由于一个单词没有上下文信息，可能导致解码结果不够准确。

因此，本发明实施例可以从所述至少两种语言类型中确定目标语言类型，所述目标语言类型可以为混合语言表达中使用的主要语言，例如，可以确定所述目标语言类型为中文。在对语音信息进行解码的过程中，对于语音信息中的每一帧语音帧，都根据中文解码网络进行解码，以得到每一帧语音帧对应的第二解码结果(如R1)，该R1为中文解码结果。由于第二解码结果为对一段完整的语音信息解码得到，每一帧语音帧在解码过程中，可以参考其对应的上下文信息，因此，可以提高第二解码结果的准确性。

在目标语言类型对应的解码网络对语音信息中的所有语音帧解码完成后，可以从所述语音信息的语音帧中，确定目标语音帧；其中，所述目标语音帧的语言类型为非目标语言类型。例如，对于中英文混合的语音信息，若确定目标语言类型为中文，则英文为非目标语言类型，也即，可以从语音信息中确定语言类型为英文的语音帧为目标语音帧，并且确定该目标语音帧对应英文的第一解码结果(如R2)，该R2为根据英文解码网络对该目标语音帧解码得到，也即该R2为英文解码结果。最后用R2替换对应的R1，可以得到该语音信息对应的识别结果。

在本发明的一种应用示例中，假设待识别的语音信息为“我喜欢apple”，且假设目标语言类型为中文。具体地，首先将该语音信息输入多语言声学模型，得到每一帧语音帧对应的状态后验概率序列，根据中文解码网络，对每一帧语音帧的中文状态的后验概率序列进行解码，以得到每一帧语音帧的第二解码结果，假设得到该语音信息的第二解码结果为“我喜欢爱破”；然后，根据各语音帧对应各状态的后验概率、以及各状态对应的语言类型，确定各语音帧的语言类型，并且将语言类型为英文的语音帧确定为目标语音帧；再根据英文解码网络对目标语音帧进行解码，以得到所述目标语音帧对应英文的第一解码结果，假设为“apple”；最后，将第二解码结果“我喜欢爱破”中与“apple”相对应的“爱破”替换为“apple”，可以得到替换后的第二解码结果为如下文本：“我喜欢apple”。

需要说明的是，在本发明实施例中，对于语言类型为目标语言类型的语音帧，其第一解码结果和第二解码结果相同，例如，在上述示例中“我喜欢”对应的语音帧，其语言类型为中文，目标语言类型也为中文，则“我喜欢”对应语音帧的第一解码结果和第二解码结果均为文本“我喜欢”。

在本发明的一种可选实施例中，所述第一解码结果、以及所述第二解码结果可以包括：对应语音帧的时间边界信息；

所述将所述目标语音帧的第二解码结果替换为所述目标语音帧对应语言类型的第一解码结果，具体可以包括：

步骤S31、从所述目标语音帧的第二解码结果中，确定被替换结果；其中，所述被替换结果与所述目标语音帧对应语言类型的第一解码结果的时间边界相重合；

步骤S32、将所述被替换结果替换为所述目标语音帧对应语言类型的第一解码结果。

为了保证将目标语音帧的第二解码结果可以准确替换为所述目标语音帧对应语言类型的第一解码结果，本发明实施例的第一解码结果、以及第二解码结果可以包括：对应语音帧的时间边界信息。

例如，在上述示例中，对于第二解码结果“我喜欢爱破”，其中每个字都包括该字对应语音帧的时间边界信息，可以根据该时间边界信息，从该第二解码结果中，确定被替换结果，以使被替换结果与所述目标语音帧对应语言类型的第一解码结果的时间边界相重合，根据上述示例可知，所述目标语音帧对应语言类型的第一解码结果为“apple”，假设确定第二解码结果“我喜欢爱破”中与“apple”的时间边界信息相重合的被替换结果为“爱破”，则可以将“我喜欢爱破”中的“爱破”替换为“apple”，得到替换后的解码结果为“我喜欢apple”。

在本发明的一种可选实施例中，所述解码网络，具体可以包括：通用解码网络和专业解码网络；其中，所述通用解码网络中可以包括：根据通用的文本语料训练得到的语言模型；所述专业解码网络中可以包括：根据预置领域的文本语料训练得到的语言模型；

所述根据所述语音帧的语言类型对应的解码网络，对所述语音帧进行解码，以得到所述语音帧的第一解码结果，具体可以包括：

步骤S41、分别根据所述通用解码网络和所述专业解码网络对所述语音帧进行解码，以得到所述语音帧对应所述通用解码网络的第一得分，以及所述语音帧对应所述专业解码网络的第二得分；

步骤S42、将所述第一得分和所述第二得分中得分高的解码结果作为所述语音帧的第一解码结果。

在具体应用中，对于用户日常交流类的语音，解码网络通常具有较好的解码效果，然而，对于一些专业领域的语音，例如医疗专业领域的语音，通常包含较多的医疗专业词汇，如“阿斯匹林”、“帕金森症”等，将会影响解码的效果。

为解决上述问题，本发明实施例的解码网络可以包括通用解码网络和专业解码网络。其中，通用解码网络可以为用户日常交流过程中使用的通用的解码网络，通用解码网络中可以包括：根据通用的文本语料训练得到的语言模型，因此，通用解码网络可以对大多用户的日常语音进行识别。专业解码网络可以为专门为专业领域定制的解码网络，专业解码网络中可以包括：根据预置领域的文本语料训练得到的语言模型；所述预置领域可以为医学领域、法律领域、计算机领域等任意领域。

例如，在某个医学研讨会上，演讲者可能会使用很多中英文混合的句子，并且还会使用大量的医疗专业词汇，本发明实施例可以将演讲者的语音实时识别为文字，并显示在大屏幕上供参会者观看。

具体地，可以分别根据所述通用解码网络和所述专业解码网络对演讲者的语音进行逐帧解码，以得到语音帧对应通用解码网络的第一得分，以及语音帧所述专业解码网络的第二得分，并且将第一得分和第二得分中得分高的解码结果作为语音帧的第一解码结果。

可以理解，本发明实施例的解码网络可以包括多个不同语言类型对应的解码网络，每一个语言类型的解码网络又可以包括该语言类型对应的通用解码网络和专业解码网络。由此，本发明实施例可以通过专业解码网络对通用解码网络的解码结果进行补充或修正，在语音信息中包含专业领域词汇的情况下，可以提高解码的准确性。

可以理解，本发明实施例对训练所述多语言声学模型的训练方式不加以限制。在本发明的一种可选实施例中，所述至少两种语言类型的声学数据中的每一个数据对应至少两种语言类型。

具体地，本发明实施例可以收集包含至少两种语言类型的混合声学数据，以训练多语言声学模型，所述混合声学数据指其中的每一个数据都对应至少两种语言类型。例如，“我喜欢apple”对应的语音可以为一个混合声学数据。

根据混合声学数据训练多语言声学模型，需要将不同类型的语言中相似的发音单元进行合并，以生成适应于混合语言的发音字典，然而在对发音单元进行合并的过程中，可能会带来一定的误差。此外，包含至少两种语言类型的混合声学数据通常具有数据稀少、难以收集的特点，因此，将会影响多语言声学模型识别的准确性。

为解决上述问题，在本发明的一种可选实施例中，所述至少两种语言类型的声学数据中的每一个数据对应一种语言类型。

具体地，本发明实施例可以分别收集至少两种语言类型各自对应的单语言声学数据，并根据各语言类型对应的单语言数据组成的训练数据集训练多语言声学模型。例如，“今天天气很好”对应的语音可以为一个单语言声学数据，“What's the weather liketoday”对应的语音也可以为一个单语言声学数据。

在本发明的一种可选实施例中，所述多语言声学模型的训练步骤具体可以包括：

步骤S51、根据收集的至少两种语言类型的声学数据，分别训练各语言类型对应的单语言声学模型；

步骤S52、根据所述单语言声学模型，对所述至少两种语言类型的声学数据分别进行状态标注，其中，所述状态与语言类型之间具有对应关系；

步骤S53、根据标注后的至少两种语言类型的声学数据组成的数据集，训练多语言声学模型。

具体地，可以根据收集的中文声学数据L1，训练中文对应的单语言声学模型NN1，其中，L1中的每一个数据对应的语言类型均为中文。可以设置中文语音的HMM绑定状态个数为NN1网络输出层的结点个数，如M1。所述单语言声学模型的输出可以包括：一种语言类型对应的状态概率，也即，网络输出层的M1个节点的状态概率均对应中文语言类型。

同样地，可以根据收集的英文声学数据L2，训练英文对应的单语言声学模型NN2，其中，L2中的每一个数据对应的语言类型均为英文。可以设置英文语音的HMM绑定状态个数为NN2网络输出层的结点个数，如M2，且M2个节点的状态概率均对应英文语言类型。

然后，根据训练得到的NN1和NN2分别对中文声学数据L1和英文声学数据L2进行强制对齐，以对L1和L2进行状态标注。具体地，可以通过NN1确定L1中每个数据的语音帧对应的状态，以及通过NN2确定L2中每个数据的语音帧对应的状态。

最后，将标注后的L1和L2混合在一起得到标注后的数据集(L1+L2)，以训练多语言声学模型NN3。所述多语言声学模型的输出可以包括：至少两种语言类型对应的状态概率。例如，所述NN3的输出层结点个数可以为M1+M2，其中，前M1个结点可以对应中文的HMM状态，后M2个结点可以对应英文HMM的状态。

本发明实施例在训练多语言声学模型的过程中，可以使用各语言类型对应的单语言声学数据，以保留各语言类型的发音特征，因此，在声学层面，对不同语言类型可以具有一定的区分性。此外，在收集训练数据的过程中，分别收集各语言类型的声学数据，可以避免收集多种语言类型的混合声学数据导致数据不足的问题，因此，可以提高多语言声学模型识别的准确性。

综上，本发明实施例可以根据至少两种语言类型的声学数据训练得到多语言模型，通过所述多语言声学模型，可以确定语音信息中语音帧的语言类型，因此，在语音信息中包含多种语言类型的情况下，本发明实施例可以准确区分语音信息中不同语言类型的语音帧，并且可以根据相应语言类型的解码网络对语音帧进行解码，以得到语音帧的第一解码结果，该第一解码结果为根据语音帧的语音类型对应的解码网络解码得到，可以保证解码的准确性，进而可以提高语音识别的准确率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图2，示出了本发明的一种数据处理装置实施例的结构框图，所述装置具体可以包括：

类型确定模块201，用于根据多语言声学模型，确定语音信息中语音帧的语言类型；其中，所述多语言声学模型为根据至少两种语言类型的声学数据训练得到；

第一解码模块202，用于根据所述语音帧的语言类型对应的解码网络，对所述语音帧进行解码，以得到所述语音帧的第一解码结果；

结果确定模块203，用于根据所述第一解码结果，确定所述语音信息对应的识别结果。

可选地，所述类型确定模块，具体可以包括：

概率确定子模块，用于根据多语言声学模型，确定语音帧对应各状态的后验概率；其中，所述状态与语言类型之间具有对应关系；

比值确定子模块，用于根据所述语音帧对应各状态的后验概率、以及各状态对应的语言类型，确定所述语音帧的后验概率对应各语言类型状态的概率比值；

类型确定子模块，用于根据所述概率比值，确定所述语音帧的语言类型。

可选地，所述装置还可以包括：

目标语言确定模块，用于从所述至少两种语言类型中确定目标语言类型；

第二解码模块，用于根据所述目标语言类型对应的解码网络，对所述语音信息中的各语音帧进行解码，以得到所述各语音帧的第二解码结果；

所述装置还可以包括：

目标帧确定模块，用于从所述语音信息的语音帧中，确定目标语音帧，以及确定所述目标语音帧的第二解码结果；其中，所述目标语音帧的语言类型为非目标语言类型；

所述第一解码模块，具体可以包括：

第一解码子模块，用于根据所述目标语音帧的语言类型对应的解码网络，对所述目标语音帧进行解码，以得到所述目标语音帧的第一解码结果；

所述结果确定模块，具体可以包括：

第一结果确定子模块，用于将所述目标语音帧的第二解码结果替换为所述目标语音帧对应语言类型的第一解码结果，以及将替换后的第二解码结果，作为所述语音信息对应的识别结果。

可选地，所述第一解码结果、以及所述第二解码结果包括：对应语音帧的时间边界信息；

所述第一结果确定子模块，具体可以包括：

结果确定单元，用于从所述目标语音帧的第二解码结果中，确定被替换结果；其中，所述被替换结果与所述目标语音帧对应语言类型的第一解码结果的时间边界相重合；

替换单元，用于将所述被替换结果替换为所述目标语音帧对应语言类型的第一解码结果。

可选地，所述解码网络，具体可以包括：通用解码网络和专业解码网络；其中，所述通用解码网络中包括：根据通用的文本语料训练得到的语言模型；所述专业解码网络中包括：根据预置领域的文本语料训练得到的语言模型；

所述第一解码模块，具体可以包括：

得分确定子模块，用于分别根据所述通用解码网络和所述专业解码网络对所述语音帧进行解码，以得到所述语音帧对应所述通用解码网络的第一得分，以及所述语音帧对应所述专业解码网络的第二得分；

第二结果确定子模块，用于将所述第一得分和所述第二得分中得分高的解码结果作为所述语音帧的第一解码结果。

可选地，所述装置还可以包括：模型训练模块，用于训练所述多语言声学模型；所述模型训练模块，具体可以包括：

第一训练子模块，用于根据收集的至少两种语言类型的声学数据，分别训练各语言类型对应的单语言声学模型；

状态标注子模块，用于根据所述单语言声学模型，对所述至少两种语言类型的声学数据分别进行状态标注，其中，所述状态与语言类型之间具有对应关系；

第二训练子模块，用于根据标注后的至少两种语言类型的声学数据组成的数据集，训练多语言声学模型。

可选地，所述至少两种语言类型的声学数据中的每一个数据对应至少两种语言类型；或者，所述至少两种语言类型的声学数据中的每一个数据对应一种语言类型。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：根据多语言声学模型，确定语音信息中语音帧的语言类型；其中，所述多语言声学模型为根据至少两种语言类型的声学数据训练得到；根据所述语音帧的语言类型对应的解码网络，对所述语音帧进行解码，以得到所述语音帧的第一解码结果；根据所述第一解码结果，确定所述语音信息对应的识别结果。

图3是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的数据处理方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种数据处理方法，所述方法包括：根据多语言声学模型，确定语音信息中语音帧的语言类型；其中，所述多语言声学模型为根据至少两种语言类型的声学数据训练得到；根据所述语音帧的语言类型对应的解码网络，对所述语音帧进行解码，以得到所述语音帧的第一解码结果；根据所述第一解码结果，确定所述语音信息对应的识别结果。

本发明实施例公开了A1、一种数据处理方法，包括：根据多语言声学模型，确定语音信息中语音帧的语言类型；其中，所述多语言声学模型为根据至少两种语言类型的声学数据训练得到；

A2、根据A1所述的方法，所述根据多语言声学模型，确定语音信息中语音帧的语言类型，包括：

根据多语言声学模型，确定语音帧对应各状态的后验概率；其中，所述状态与语言类型之间具有对应关系；

根据所述语音帧对应各状态的后验概率、以及各状态对应的语言类型，确定所述语音帧的后验概率对应各语言类型状态的概率比值；

根据所述概率比值，确定所述语音帧的语言类型。

A3、根据A1所述的方法，在所述根据多语言声学模型，确定语音信息中语音帧的语言类型之前，所述方法还包括：

从所述至少两种语言类型中确定目标语言类型；

根据所述目标语言类型对应的解码网络，对所述语音信息中的各语音帧进行解码，以得到所述各语音帧的第二解码结果；

在所述根据多语言声学模型，确定语音信息中语音帧的语言类型之后，所述方法还包括：

所述根据所述语音帧的语言类型对应的解码网络，对所述语音帧进行解码，以得到所述语音帧的第一解码结果，包括：

根据所述目标语音帧的语言类型对应的解码网络，对所述目标语音帧进行解码，以得到所述目标语音帧的第一解码结果；

所述根据所述第一解码结果，确定所述语音信息对应的识别结果，包括：

将所述目标语音帧的第二解码结果替换为所述目标语音帧对应语言类型的第一解码结果，以及将替换后的第二解码结果，作为所述语音信息对应的识别结果。

A4、根据A3所述的方法，所述第一解码结果、以及所述第二解码结果包括：对应语音帧的时间边界信息；

所述将所述目标语音帧的第二解码结果替换为所述目标语音帧对应语言类型的第一解码结果，包括：

从所述目标语音帧的第二解码结果中，确定被替换结果；其中，所述被替换结果与所述目标语音帧对应语言类型的第一解码结果的时间边界相重合；

将所述被替换结果替换为所述目标语音帧对应语言类型的第一解码结果。

A5、根据A1所述的方法，所述解码网络，包括：通用解码网络和专业解码网络；其中，所述通用解码网络中包括：根据通用的文本语料训练得到的语言模型；所述专业解码网络中包括：根据预置领域的文本语料训练得到的语言模型；

分别根据所述通用解码网络和所述专业解码网络对所述语音帧进行解码，以得到所述语音帧对应所述通用解码网络的第一得分，以及所述语音帧对应所述专业解码网络的第二得分；

将所述第一得分和所述第二得分中得分高的解码结果作为所述语音帧的第一解码结果。

A6、根据A1所述的方法，所述多语言声学模型的训练步骤包括：

根据收集的至少两种语言类型的声学数据，分别训练各语言类型对应的单语言声学模型；

根据所述单语言声学模型，对所述至少两种语言类型的声学数据分别进行状态标注，其中，所述状态与语言类型之间具有对应关系；

根据标注后的至少两种语言类型的声学数据组成的数据集，训练多语言声学模型。

A7、根据A1至A6中任一所述的方法，所述至少两种语言类型的声学数据中的每一个数据对应至少两种语言类型；或者，所述至少两种语言类型的声学数据中的每一个数据对应一种语言类型。

本发明实施例公开了B8、一种数据处理装置，包括：

B9、根据B8所述的装置，所述类型确定模块，包括：

B10、根据B8所述的装置，所述装置还包括：

所述装置还包括：

所述第一解码模块，包括：

所述结果确定模块，包括：

B11、根据B10所述的装置，所述第一解码结果、以及所述第二解码结果包括：对应语音帧的时间边界信息；

所述第一结果确定子模块，包括：

B12、根据B8所述的装置，所述解码网络，包括：通用解码网络和专业解码网络；其中，所述通用解码网络中包括：根据通用的文本语料训练得到的语言模型；所述专业解码网络中包括：根据预置领域的文本语料训练得到的语言模型；

所述第一解码模块，包括：

B13、根据B8所述的装置，所述装置还包括：模型训练模块，用于训练所述多语言声学模型；所述模型训练模块，包括：

B14、根据B8至B13中任一所述的装置，所述至少两种语言类型的声学数据中的每一个数据对应至少两种语言类型；或者，所述至少两种语言类型的声学数据中的每一个数据对应一种语言类型。

本发明实施例公开了C15、一种用于数据处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C16、根据C15所述的装置，所述根据多语言声学模型，确定语音信息中语音帧的语言类型，包括：

根据所述概率比值，确定所述语音帧的语言类型。

C17、根据C15所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

从所述至少两种语言类型中确定目标语言类型；

所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C18、根据C17所述的装置，所述第一解码结果、以及所述第二解码结果包括：对应语音帧的时间边界信息；

C19、根据C15所述的装置，所述解码网络，包括：通用解码网络和专业解码网络；其中，所述通用解码网络中包括：根据通用的文本语料训练得到的语言模型；所述专业解码网络中包括：根据预置领域的文本语料训练得到的语言模型；

C20、根据C15所述的装置，所述多语言声学模型的训练步骤包括：

C21、根据C15至C20中任一所述的装置，所述至少两种语言类型的声学数据中的每一个数据对应至少两种语言类型；或者，所述至少两种语言类型的声学数据中的每一个数据对应一种语言类型。

本发明实施例公开了D22、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A7中一个或多个所述的数据处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

根据多语言声学模型，分别确定待识别的语音信息中每个语音帧各自的语言类型；其中，所述多语言声学模型为根据至少两种语言类型的声学数据训练得到，所述语音帧通过对所述语音信息切分得到，且所述语音帧为多个；

根据各所述语音帧的所述第一解码结果，确定所述语音信息对应的识别结果；

在所述根据多语言声学模型，确定语音信息中语音帧的语言类型之前，所述方法还包括：

从所述至少两种语言类型中确定目标语言类型；

所述根据各所述语音帧的所述第一解码结果，确定所述语音信息对应的识别结果，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据多语言声学模型，分别确定待识别的语音信息中每个语音帧各自的语言类型，包括：

根据所述概率比值，确定所述语音帧的语言类型。

3.根据权利要求1所述的方法，其特征在于，所述第一解码结果、以及所述第二解码结果包括：对应语音帧的时间边界信息；

4.根据权利要求1所述的方法，其特征在于，所述解码网络，包括：通用解码网络和专业解码网络；其中，所述通用解码网络中包括：根据通用的文本语料训练得到的语言模型；所述专业解码网络中包括：根据预置领域的文本语料训练得到的语言模型；

5.根据权利要求1所述的方法，其特征在于，所述多语言声学模型的训练步骤包括：

6.根据权利要求1至5中任一所述的方法，其特征在于，所述至少两种语言类型的声学数据中的每一个数据对应至少两种语言类型；或者，所述至少两种语言类型的声学数据中的每一个数据对应一种语言类型。

7.一种数据处理装置，其特征在于，所述装置包括：

类型确定模块，用于根据多语言声学模型，分别确定待识别的语音信息中每个语音帧各自的语言类型；其中，所述多语言声学模型为根据至少两种语言类型的声学数据训练得到，所述语音帧通过对所述语音信息切分得到，且所述语音帧为多个；

结果确定模块，用于根据各所述语音帧的所述第一解码结果，确定所述语音信息对应的识别结果；

所述装置还包括：

所述第一解码模块，包括：

所述结果确定模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述类型确定模块，包括：

9.根据权利要求7所述的装置，其特征在于，所述第一解码结果、以及所述第二解码结果包括：对应语音帧的时间边界信息；

所述第一结果确定子模块，包括：

10.根据权利要求7所述的装置，其特征在于，所述解码网络，包括：通用解码网络和专业解码网络；其中，所述通用解码网络中包括：根据通用的文本语料训练得到的语言模型；所述专业解码网络中包括：根据预置领域的文本语料训练得到的语言模型；

所述第一解码模块，包括：

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：模型训练模块，用于训练所述多语言声学模型；所述模型训练模块，包括：

12.根据权利要求7至11中任一所述的装置，其特征在于，所述至少两种语言类型的声学数据中的每一个数据对应至少两种语言类型；或者，所述至少两种语言类型的声学数据中的每一个数据对应一种语言类型。

13.一种用于数据处理的装置，其特征在于，包括有存储器，以及一个或者多个的程序，其中一个或者多个程序存储于存储器中，且经配置以由一个或者多个处理器执行所述一个或者多个程序包含用于进行以下操作的指令：

所述装置还经配置以由一个或者多个处理器执行所述一个或者多个程序包含用于进行以下操作的指令：

从所述至少两种语言类型中确定目标语言类型；

14.根据权利要求13所述的装置，其特征在于，所述根据多语言声学模型，分别确定待识别的语音信息中每个语音帧各自的语言类型，包括：

根据所述概率比值，确定所述语音帧的语言类型。

15.根据权利要求13所述的装置，其特征在于，所述第一解码结果、以及所述第二解码结果包括：对应语音帧的时间边界信息；

16.根据权利要求13所述的装置，其特征在于，所述解码网络，包括：通用解码网络和专业解码网络；其中，所述通用解码网络中包括：根据通用的文本语料训练得到的语言模型；所述专业解码网络中包括：根据预置领域的文本语料训练得到的语言模型；

17.根据权利要求13所述的装置，其特征在于，所述多语言声学模型的训练步骤包括：

18.根据权利要求13至17中任一所述的装置，其特征在于，所述至少两种语言类型的声学数据中的每一个数据对应至少两种语言类型；或者，所述至少两种语言类型的声学数据中的每一个数据对应一种语言类型。

19.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求1至6中一个或多个所述的数据处理方法。