CN107195295B

CN107195295B - 基于中英文混合词典的语音识别方法及装置

Info

Publication number: CN107195295B
Application number: CN201710317337.9A
Authority: CN
Inventors: 李先刚; 张雪薇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-05-04
Filing date: 2017-05-04
Publication date: 2020-06-23
Anticipated expiration: 2037-05-04
Also published as: US20180322866A1; US10586533B2; CN107195295A

Abstract

本发明提出一种基于中英文混合词典的语音识别方法及装置，其中，方法包括：获取国际音标IPA标注的中英文混合词典，中英文混合词典包括：中文词典和经过中式英语修正的英文词典；将中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对模型进行训练，得到训练后的CTC声学模型；结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中，采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练，其中英文单词覆盖全面且能识别中式英文，结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。

Description

基于中英文混合词典的语音识别方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于中英文混合词典的语音识别方法及装置。

背景技术

目前，随着生活的全球化，使用混合语言交流的现象已经成为一种普遍现象。据统计，讲多语言的人要多于讲单语言的人。混合语言之间的声学和语言之间的复杂性给语音识别带来挑战。因此，混合语言声学模型的研究是一个重要的研究方向。

混合语音识别技术是指利用中英文混合词典，对混合语言声学模型进行训练，得到语音识别模型。目前，中英文混合词典的获取方式是，获取包括声韵母标注的音素集的中文词典，将一些英文按照声韵母标注的方式加入到中文词典中，形成中英文混合词典。其中，英文单词标注覆盖不全面，采用人工标注，费时费力。混合语言声学模型为深度神经网络(Deep Neural Networks,DNN)DNN，卷积神经网络(deep convolutional neuralnetworks，CNN)，时间递归神经网络(Long Short-Term Memory，LSTM)声学模型等，准确度不够高。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于中英文混合词典的语音识别方法，用于解决现有技术中语音识别准确度低的问题。

本发明的第二个目的在于提出一种基于中英文混合词典的语音识别装置。

本发明的第三个目的在于提出另一种基于中英文混合词典的语音识别装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于中英文混合词典的语音识别方法，包括：

获取国际音标IPA标注的中英文混合词典，所述中英文混合词典包括：中文词典和经过中式英语修正的英文词典；

将所述中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述模型进行训练，得到训练后的CTC声学模型；

结合训练后的CTC声学模型对中英文混合语言进行语音识别。

本发明实施例的基于中英文混合词典的语音识别方法，通过获取国际音标IPA标注的中英文混合词典，中英文混合词典包括：中文词典和经过中式英语修正的英文词典；将中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述模型进行训练，得到训练后的CTC声学模型；结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中，采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练，其中英文单词覆盖全面且能识别中式英文，结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。

为达上述目的，本发明第二方面实施例提出了一种基于中英文混合词典的语音识别装置，包括：

获取模块，用于获取国际音标IPA标注的中英文混合词典，所述中英文混合词典包括：中文词典和经过中式英语修正的英文词典；

训练模块，用于将所述中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述模型进行训练，得到训练后的CTC声学模型；

语音识别模块，用于结合训练后的CTC声学模型对中英文混合语言进行语音识别。

本发明实施例的基于中英文混合词典的语音识别装置，通过获取国际音标IPA标注的中英文混合词典，中英文混合词典包括：中文词典和经过中式英语修正的英文词典；将中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述模型进行训练，得到训练后的CTC声学模型；结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中，采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练，其中英文单词覆盖全面且能识别中式英文，结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。

为达上述目的，本发明第三方面实施例提出了另一种基于中英文混合词典的语音识别装置，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为：

结合训练后的CTC声学模型对中英文混合语言进行语音识别。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器端的处理器被执行时，使得服务器端能够执行一种基于中英文混合词典的语音识别方法，所述方法包括：

结合训练后的CTC声学模型对中英文混合语言进行语音识别。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种基于中英文混合词典的语音识别方法，所述方法包括：

结合训练后的CTC声学模型对中英文混合语言进行语音识别。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种基于中英文混合词典的语音识别方法的流程示意图；

图2为本发明实施例提供的另一种基于中英文混合词典的语音识别方法的流程示意图；

图3为本发明实施例提供的另一种基于中英文混合词典的语音识别方法的流程示意图；

图4为本发明实施例提供的一种基于中英文混合词典的语音识别装置的结构示意图；

图5为本发明实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图；

图6为本发明实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图；

图7为本发明实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于中英文混合词典的语音识别方法及装置。

图1为本发明实施例提供的一种基于中英文混合词典的语音识别方法的流程示意图。如图1所示，该基于中英文混合词典的语音识别方法包括以下步骤：

S101、获取国际音标IPA标注的中英文混合词典，中英文混合词典包括：中文词典和经过中式英语修正的英文词典。

本实施例中，中文词典可以为常用的新华词典等等词典，上述词典中包括各个汉字、各个汉字对应的国际音标。经过中式英语修正前的英文词典可以为卡内基梅隆大学CMU发音词典。其中，部分中文和英文的音素可以是共享的。音标是记录音素的符号,是音素的标写符号,它的制定原则是:一个音素只用一个音标表示,一个音标只表示一个音素。因此部分中文和英文的音标可以是共享的。

S102、将中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述模型进行训练，得到训练后的CTC声学模型。

具体地，在S102中，基于中英文混合词典的语音识别装置具体可以先采用滤波器组(filter bank，FBANK)提取中式英语句子中的特征点，以一层卷积神经网络(Convolutional Neural Network，CNN)加上五层时间递归神经网络(Long Short-TermMemory，LSTM)为模型，以中式英语句子对应的对齐文件为目标，以交叉熵(Cross entropy，CE)为训练准则，对模型进行训练，得到初始模型；然后将中英文混合词典作为训练词典，以初始模型为模型，以音节或词为目标，以联结主义时间分类器(Connectionist temporalclassification，CTC)为训练准则对初始模型进行训练，得到训练后的CTC声学模型。

本实施例中，对一层卷积神经网络CNN加上五层时间递归神经网络LSTM形成的模型进行预训练，是为了使该模型更快更好的收敛，从而进一步提高中英文混合语言识别的准确度。

具体地，中式英语句子对应的对齐文件的获取方式为，采用39维梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)提取中式英语句子中的特征点，训练基于纯中文和中式英文数据的高斯混合模型(Gaussian Mixture Model，GMM)，得到中式英语句子对应的对齐文件。39维MFCC特征是通过13维MFCC特征加上二阶差分得到的。

S103、结合训练后的CTC声学模型对中英文混合语言进行语音识别。

其中，基于中英文混合词典的语音识别装置结合训练后的CTC声学模型对中英文混合语言进行语音识别的过程具体可以为，获取待识别的音频数据，将待识别的音频数据输入CTC声学模型，则得到待识别的音频数据对应的包括汉字和/或英文单词的句子。

本实施例提供的基于中英文混合词典的语音识别方法，通过获取国际音标IPA标注的中英文混合词典，中英文混合词典包括：中文词典和经过中式英语修正的英文词典；将中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述模型进行训练，得到训练后的CTC声学模型；结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中，采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练，其中英文单词覆盖全面且能识别中式英文，结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。

图2为本发明实施例提供的另一种基于中英文混合词典的语音识别方法的流程示意图。如图2所示，该基于中英文混合词典的语音识别方法包括以下步骤：

S201、获取国际音标IPA标注的中文词典以及IPA标注的英文词典。

其中，国际音标的状态可以指国际音标的起始、结束、音调变化等状态。

S202、获取音频训练数据，音频训练数据中包括：多个中式英语句子。

本实施例中，中式英语句子指的是既包括汉字又包括英文单词的句子，例如“***一下这个关键词”、“这种食物相当good”、“你很nice”等等。

S203、获取中式英语句子中的英文单词以及英文单词对应的中式发音；中式发音中包括：至少一个音标。

其中，基于中英文混合词典的语音识别装置可以获取到与音频训练数据对应的文字数据，将音频训练数据以及与音频训练数据对应的文字数据提供给用户或者其他设备等进行分析，得到中式英语句子中的英文单词以及英文单词对应的中式发音。

S204、将英文单词以及英文单词对应的中式发音添加到英文词典中，得到经过中式英语修正的英文词典。

本实施例中，经过中式英语修正的英文词典中，每个英文单词可以对应多个发音，例如，英文单词可以对应一个标准发音、对应一个美式发音、对应一个或者多个中式发音等。

S205、将中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述模型进行训练，得到训练后的CTC声学模型。

其中，中英文混合词典包括：中文词典和经过中式英语修正的英文词典。

本实施例中模型的具体训练过程可以参考图1所示实施例中模型的训练过程，此处不再进行详细描述。

S206、结合训练后的CTC声学模型对中英文混合语言进行语音识别。

本实施例提供的基于中英文混合词典的语音识别方法，通过获取国际音标IPA标注的中文词典以及IPA标注的英文词典；获取音频训练数据，音频训练数据中包括：多个中式英语句子；获取中式英语句子中的英文单词以及英文单词对应的中式发音；将英文单词以及英文单词对应的中式发音添加到英文词典中，得到经过中式英语修正的英文词典；将中文词典和经过中式英语修正的英文词典进行合并，得到国际音标IPA标注的中英文混合词典；将中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述模型进行训练，得到训练后的CTC声学模型；结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中，采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练，其中英文单词覆盖全面且能识别中式英文，结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。

图3为本发明实施例提供的另一种基于中英文混合词典的语音识别方法的流程示意图。该基于中英文混合词典的语音识别方法包括以下步骤：

S301、获取国际音标IPA标注的中文词典以及IPA标注的英文词典。

S302、获取音频训练数据，音频训练数据中包括：多个中式英语句子。

S303、结合IPA标注的英文词典对中式英语句子进行音素解码以及对齐文件切分，得到中式英语句子中的英文单词以及英文单词对应的中式发音；中式发音中包括：至少一个音标。

其中，基于中英文混合词典的语音识别装置执行步骤303的过程可以为，结合IPA标注的英文词典对中式英语句子进行音素解码，找到解码中的最优路径，获取中式英语句子中音素对应的帧位置；获取中式英语句子对应的对齐文件，对齐文件中包括：中式英语句子中每个音素的位置，以及英文单词所对应的音素；结合对齐文件以及中式英语句子中音素对应的帧位置，确定中式英语句子中每个英文单词的位置，进行切分，得到中式英语句子中的英文单词以及英文单词对应的中式发音。

S304、结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典，生成经过中式英语修正的英文词典。

进一步地，为了保证添加到英文词典中的英文单词及其中式发音的准确度，S304之前，所述的基于中英文混合词典的语音识别方法还可以包括：针对中式英语句子中的每个英文单词，获取英文单词中每个音素的词频；获取对应的词频大于预设词频的高频音素以及包括高频音素的高频英文单词。

对应的，S304具体可以为，结合中式英语句子中的高频英文单词、高频英文单词对应的中式发音以及IPA标注的英文词典，生成经过中式英语修正的英文词典。

另外，还需要进行说明的是，为了保证添加到英文词典中的英文单词及其中式发音的准确度，S304之前，所述的基于中英文混合词典的语音识别方法还可以包括：针对中式英语句子中的每个英文单词，获取英文单词的各种发音的数量，将发音数量与英文单词数量的比值超过预设比值的发音确定为高频发音，将高频发音以及对应的英文单词添加到英文词典中，得到经过中式英语修正的英文词典。

进一步地，为了保证音频训练数据中的英文单词及其中式发音尽可能多的添加到英文词典中，在S304之后，所述的基于中英文混合词典的语音识别方法还可以包括：结合经过中式英语修正的英文词典对中式英语句子进行音素解码以及对齐文件切分，得到中式英语句子中的英文单词以及英文单词对应的中式发音；结合中式英语句子中的英文单词、英文单词对应的中式发音以及经过中式英语修正的英文词典，更新经过中式英语修正的英文词典。另外，为了进一步保证音频训练数据中的英文单词及其中式发音尽可能多的添加到英文词典中，可以重复执行上述过程。

S305、将中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述模型进行训练，得到训练后的CTC声学模型。

S306、结合训练后的CTC声学模型对中英文混合语言进行语音识别。

本实施例中，采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练，其中英文单词覆盖全面且能识别中式英文，结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。同时，对中式英语句子的解码以及切分，能够尽可能多的将中式英语句子中的英文单词及其中式发音提取出来添加到英文词典中，从而更进一步地提高了中英文混合语言识别的准确度。

图4为本发明实施例提供的一种基于中英文混合词典的语音识别装置的结构示意图。如图4所示，该基于中英文混合词典的语音识别装置包括：获取模块41、训练模块42和语音识别模块43。

其中，获取模块41，用于获取国际音标IPA标注的中英文混合词典，中英文混合词典包括：中文词典和经过中式英语修正的英文词典；

训练模块42，用于将中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述模型进行训练，得到训练后的CTC声学模型；

语音识别模块43，用于结合训练后的CTC声学模型对中英文混合语言进行语音识别。

进一步地，所述训练模块42包括：第一训练单元和第二训练单元。

其中，第一训练单元，用于采用滤波器组FBANK提取中式英语句子中的特征点，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以中式英语句子对应的对齐文件为目标，以交叉熵CE为训练准则，对所述模型进行训练，得到初始模型；

第二训练单元，用于将所述中英文混合词典作为训练词典，以所述初始模型为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述初始模型进行训练，得到训练后的CTC声学模型。

本实施例提供的基于中英文混合词典的语音识别装置，通过获取国际音标IPA标注的中英文混合词典，中英文混合词典包括：中文词典和经过中式英语修正的英文词典；将中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述模型进行训练，得到训练后的CTC声学模型；结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中，采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练，其中英文单词覆盖全面且能识别中式英文，结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。

图5为本发明实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图，如图5所示，在图4所示实施例的基础上，所述获取模块41包括：第一获取单元411、第二获取单元412、第三获取单元413和添加单元414；

其中，第一获取单元411，用于获取国际音标IPA标注的中文词典以及IPA标注的英文词典；

第二获取单元412，用于获取音频训练数据，所述音频训练数据中包括：多个中式英语句子；

第三获取单元413，用于获取所述中式英语句子中的英文单词以及英文单词对应的中式发音；中式发音中包括：至少一个音标；

添加单元414，用于将所述英文单词以及英文单词对应的中式发音添加到所述英文词典中，得到经过中式英语修正的英文词典。

图6为本发明实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图，如图6所示，在图4所示实施例的基础上，所述获取模块41包括：第四获取单元415、第五获取单元416、解码以及切分单元417和生成单元418。

其中，第四获取单元415，用于获取国际音标IPA标注的中文词典以及IPA标注的英文词典；

第五获取单元416，用于获取音频训练数据，所述音频训练数据中包括：多个中式英语句子；

解码以及切分单元417，用于结合IPA标注的英文词典对所述中式英语句子进行音素解码以及对齐文件切分，得到所述中式英语句子中的英文单词以及英文单词对应的中式发音；中式发音中包括：至少一个音标；

生成单元418，用于结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典，生成经过中式英语修正的英文词典。

具体地，所述解码以及切分单元417可以包括：解码子单元、第一获取子单元和切分子单元。

其中，解码子单元，用于结合IPA标注的英文词典对所述中式英语句子进行音素解码，找到解码中的最优路径，获取所述中式英语句子中音素对应的帧位置；

第一获取子单元，用于获取所述中式英语句子对应的对齐文件，所述对齐文件中包括：中式英语句子中每个音素的位置，以及英文单词所对应的音素；

切分子单元，用于结合所述对齐文件以及所述中式英语句子中音素对应的帧位置，确定所述中式英语句子中每个英文单词的位置，进行切分，得到所述中式英语句子中的英文单词以及英文单词对应的中式发音。

进一步地，为了保证添加到英文词典中的英文单词及其中式发音的准确度，所述解码以及切分单元417，还包括：第二获取子单元和第三获取子单元。

其中，第二获取子单元，用于针对所述中式英语句子中的每个英文单词，获取所述英文单词中每个音素的词频；

第三获取子单元，用于获取对应的词频大于预设词频的高频音素以及包括所述高频音素的高频英文单词；

对应的，生成单元418具体用于，结合所述中式英语句子中的高频英文单词、高频英文单词对应的中式发音以及IPA标注的英文词典，生成经过中式英语修正的英文词典。

另外，还需要进行说明的是，为了保证添加到英文词典中的英文单词及其中式发音的准确度，解码以及切分单元417具体可以用于，针对中式英语句子中的每个英文单词，获取英文单词的各种发音的数量，将发音数量与英文单词数量的比值超过预设比值的发音确定为高频发音，以便将高频发音以及对应的英文单词添加到英文词典中，得到经过中式英语修正的英文词典。

更进一步地，为了保证音频训练数据中的英文单词及其中式发音尽可能多的添加到英文词典中，所述获取模块41还包括：重新解码以及切分单元和更新单元。

其中，重新解码以及切分单元，用于结合经过中式英语修正的英文词典对所述中式英语句子进行音素解码以及对齐文件切分，得到所述中式英语句子中的英文单词以及英文单词对应的中式发音；

更新单元，用于结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及经过中式英语修正的英文词典，更新所述经过中式英语修正的英文词典。

另外，为了进一步保证音频训练数据中的英文单词及其中式发音尽可能多的添加到英文词典中，可以重复执行重新解码以及切分单元以及更新单元。

图7为本发明实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图。该基于中英文混合词典的语音识别装置包括：

存储器71、处理器72及存储在存储器71上并可在处理器72上运行的计算机程序。

处理器72执行所述程序时实现上述实施例中提供的基于中英文混合词典的语音识别方法。

进一步地，基于中英文混合词典的语音识别装置还包括：

通信接口73，用于存储器71和处理器72之间的通信。

存储器71，用于存放可在处理器72上运行的计算机程序。

存储器71可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

处理器72，用于执行所述程序时实现上述实施例所述的基于中英文混合词典的语音识别方法。

如果存储器71、处理器72和通信接口73独立实现，则通信接口73、存储器71和处理器72可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器71、处理器72及通信接口73，集成在一块芯片上实现，则存储器71、处理器72及通信接口73可以通过内部接口完成相互间的通信。

处理器72可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于中英文混合词典的语音识别方法，其特征在于，包括：

结合训练后的CTC声学模型对中英文混合语言进行语音识别；

所述将所述中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述模型进行训练，得到训练后的CTC声学模型，包括：

采用滤波器组FBANK提取中式英语句子中的特征点，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以中式英语句子对应的对齐文件为目标，以交叉熵CE为训练准则，对所述模型进行训练，得到初始模型；所述中式英语句子为，包括汉字和英文单词的句子；所述对齐文件中包括：中式英语句子中每个音素的位置，以及英文单词所对应的音素；

将所述中英文混合词典作为训练词典，以所述初始模型为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对所述初始模型进行训练，得到训练后的CTC声学模型。

2.根据权利要求1所述的方法，其特征在于，所述获取国际音标IPA标注的中英文混合词典，包括：

获取国际音标IPA标注的中文词典以及IPA标注的英文词典；

获取音频训练数据，所述音频训练数据中包括：多个中式英语句子；

获取所述中式英语句子中的英文单词以及英文单词对应的中式发音；所述中式发音中包括：至少一个音标；

将所述英文单词以及英文单词对应的中式发音添加到所述英文词典中，得到经过中式英语修正的英文词典。

3.根据权利要求1所述的方法，其特征在于，所述获取国际音标IPA标注的中英文混合词典，包括：

获取国际音标IPA标注的中文词典以及IPA标注的英文词典；

结合IPA标注的英文词典对所述中式英语句子进行音素解码以及对齐文件切分，得到所述中式英语句子中的英文单词以及英文单词对应的中式发音；所述中式发音中包括：至少一个音标；

结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典，生成经过中式英语修正的英文词典。

4.根据权利要求3所述的方法，其特征在于，所述结合IPA标注的英文词典对所述中式英语句子进行音素解码以及对齐文件切分，得到所述中式英语句子中的英文单词以及英文单词对应的中式发音，包括：

结合IPA标注的英文词典对所述中式英语句子进行音素解码，找到解码中的最优路径，获取所述中式英语句子中音素对应的帧位置；

获取所述中式英语句子对应的对齐文件，所述对齐文件中包括：中式英语句子中每个音素的位置，以及英文单词所对应的音素；

结合所述对齐文件以及所述中式英语句子中音素对应的帧位置，确定所述中式英语句子中每个英文单词的位置，进行切分，得到所述中式英语句子中的英文单词以及英文单词对应的中式发音。

5.根据权利要求3或4所述的方法，其特征在于，结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典，生成经过中式英语修正的英文词典之前，还包括：

针对所述中式英语句子中的每个英文单词，获取所述英文单词中每个音素的词频；

获取对应的词频大于预设词频的高频音素以及包括所述高频音素的高频英文单词；

结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典，生成经过中式英语修正的英文词典，包括：

结合所述中式英语句子中的高频英文单词、高频英文单词对应的中式发音以及IPA标注的英文词典，生成经过中式英语修正的英文词典。

6.根据权利要求3所述的方法，其特征在于，所述结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典，生成经过中式英语修正的英文词典之后，还包括：

结合经过中式英语修正的英文词典对所述中式英语句子进行音素解码以及对齐文件切分，得到所述中式英语句子中的英文单词以及英文单词对应的中式发音；

结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及经过中式英语修正的英文词典，更新所述经过中式英语修正的英文词典。

7.一种基于中英文混合词典的语音识别装置，其特征在于，包括：

语音识别模块，用于结合训练后的CTC声学模型对中英文混合语言进行语音识别；

所述训练模块包括：

第一训练单元，用于采用滤波器组FBANK提取中式英语句子中的特征点，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以中式英语句子对应的对齐文件为目标，以交叉熵CE为训练准则，对所述模型进行训练，得到初始模型；所述中式英语句子为，包括汉字和英文单词的句子；所述对齐文件中包括：中式英语句子中每个音素的位置，以及英文单词所对应的音素；

8.根据权利要求7所述的装置，其特征在于，所述获取模块包括：

第一获取单元，用于获取国际音标IPA标注的中文词典以及IPA标注的英文词典；

第二获取单元，用于获取音频训练数据，所述音频训练数据中包括：多个中式英语句子；

第三获取单元，用于获取所述中式英语句子中的英文单词以及英文单词对应的中式发音；所述中式发音中包括：至少一个音标；

添加单元，用于将所述英文单词以及英文单词对应的中式发音添加到所述英文词典中，得到经过中式英语修正的英文词典。

9.根据权利要求7所述的装置，其特征在于，所述获取模块包括：

第四获取单元，用于获取国际音标IPA标注的中文词典以及IPA标注的英文词典；

第五获取单元，用于获取音频训练数据，所述音频训练数据中包括：多个中式英语句子；

解码以及切分单元，用于结合IPA标注的英文词典对所述中式英语句子进行音素解码以及对齐文件切分，得到所述中式英语句子中的英文单词以及英文单词对应的中式发音；所述中式发音中包括：至少一个音标；

生成单元，用于结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典，生成经过中式英语修正的英文词典。

10.根据权利要求9所述的装置，其特征在于，所述解码以及切分单元包括：

解码子单元，用于结合IPA标注的英文词典对所述中式英语句子进行音素解码，找到解码中的最优路径，获取所述中式英语句子中音素对应的帧位置；

11.根据权利要求9或10所述的装置，其特征在于，所述解码以及切分单元，还包括：

第二获取子单元，用于针对所述中式英语句子中的每个英文单词，获取所述英文单词中每个音素的词频；

对应的，生成单元具体用于，结合所述中式英语句子中的高频英文单词、高频英文单词对应的中式发音以及IPA标注的英文词典，生成经过中式英语修正的英文词典。

12.根据权利要求9所述的装置，其特征在于，所述获取模块还包括：

重新解码以及切分单元，用于结合经过中式英语修正的英文词典对所述中式英语句子进行音素解码以及对齐文件切分，得到所述中式英语句子中的英文单词以及英文单词对应的中式发音；

13.一种基于中英文混合词典的语音识别装置，其特征在于，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一所述的基于中英文混合词典的语音识别方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的基于中英文混合词典的语音识别方法。