CN112364658A

CN112364658A - 翻译以及语音识别方法、装置、设备

Info

Publication number: CN112364658A
Application number: CN201910672486.6A
Authority: CN
Inventors: 李辰; 包祖贻; 刘恒友; 徐光伟; 李林琳
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2021-02-12
Also published as: US20210027784A1; US11735184B2; WO2021016479A1

Abstract

本发明实施例提供一种翻译及语音识别方法、装置、设备，该语音识别方法包括：对输入语音进行语音识别，以得到第一文本；根据已获得的不同语言的词语之间的映射关系，对第一文本进行修正，以得到至少一个第二文本；若至少一个第二文本对应于同一种语言，则输出第一文本。通过结合不同语言的词语之间的映射关系对ASR的初始识别结果进行修正，可以保证最终的语音识别结果的准确性。

Description

翻译以及语音识别方法、装置、设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种翻译以及语音识别方法、装置、设备。

背景技术

随着人工智能技术的不断发展，人机之间通过语音方式进行交互已经屡见不鲜。为使得机器能够理解用户的语音，首先需要对用户的语音进行语音识别(AutomaticSpeech Recognition，简称ASR)处理，以将语音转换为文本，进而，在对转换为的文本进行自然语言理解，以得到用户意图，结合用户意图对用户进行反馈响应。

以往的语音识别技术，往往是针对单语言的语音进行语音识别，所谓单语言是指一段语音仅是采用某种语言发出的。但是，在日常说话中，人们往往习惯性地在使用某种语言进行表达的过程中夹杂着其他语言的表述，比如“我想买USB接口的数据线”、“iph**e手机怎么样”、“CPU利用率怎么算”等。因此，针对包含多种语言的语音进行准确地语音识别，是亟待解决的问题。

发明内容

本发明实施例提供一种翻译以及语音识别方法、装置、设备，可以针对包含多语言的语音进行准确地语音识别处理。

第一方面，本发明实施例提供一种语音识别方法，该方法包括：

对输入语音进行语音识别，以得到第一文本；

根据已获得的不同语言的词语之间的映射关系，对所述第一文本进行修正，以得到至少一个第二文本；

若所述至少一个第二文本对应于同一种语言，则输出所述第一文本。

第二方面，本发明实施例提供一种语音识别装置，该装置包括：

识别模块，用于对输入语音进行语音识别，以得到第一文本；

修正模块，用于根据已获得的不同语言的词语之间的映射关系，对所述第一文本进行修正，以得到至少一个第二文本；

输出模块，用于若所述至少一个第二文本对应于同一种语言，则输出所述第一文本。

第三方面，本发明实施例提供一种电子设备，其中包括处理器和存储器，其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现第一方面中的语音识别方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现第一方面中的语音识别方法。

第五方面，本发明实施例提供一种翻译方法，该方法包括：

对需要翻译的语音进行语音识别，以得到第一文本，所述第一文本对应于第一语言；

若所述至少一个第二文本中包含的词语均对应于所述第一语言，则对所述第一文本进行向所述第二语言的翻译。

第六方面，本发明实施例提供一种翻译装置，包括：

识别模块，用于对需要翻译的语音进行语音识别，以得到第一文本，所述第一文本对应于第一语言；

翻译模块，用于若所述至少一个第二文本中包含的词语均对应于所述第一语言，则对所述第一文本进行向所述第二语言的翻译。

第七方面，本发明实施例提供一种电子设备，其中包括处理器和存储器，其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现第五方面中的翻译方法。

本发明实施例中，针对需要进行语音识别的某段语音(该语音中可能对应于多种语言，也可能对应于单语言)，首先通过通用的ASR***进行识别，以得到识别结果，假设识别结果为第一文本。之后，根据已获得的不同语言的词语之间的映射关系，对第一文本进行修正，以得到至少一个第二文本。其中，该映射关系反映了语言A下的某个词语在语音B下应该对应于什么词语，通过对大量包含不同语言的语音样本的学习可以得到该映射关系。若修正得到的至少一个第二文本对应于同一种语言，说明输入的语音很有可能是单语言的语音，此时，ASR***的识别结果即第一文本作为最终的识别结果输出即可。通过结合不同语言的词语之间的映射关系对ASR的识别结果进行修正，可以保证最终的语音识别结果的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音识别方法的流程图；

图2为本发明实施例提供的一种语音识别方法的应用场景示意图；

图3为本发明实施例提供的另一种语音识别方法的流程图；

图4为本发明实施例提供的一种机器翻译模型的组成结构示意图；

图5为本发明实施例提供的一种机器翻译模型的训练过程流程图；

图6为本发明实施例提供的另一种语音识别方法的流程图；

图7为本发明实施例提供的一种语音识别装置的结构示意图；

图8为与图7所示实施例提供的语音识别装置对应的电子设备的结构示意图；

图9为本发明实施例提供的一种翻译方法的流程图；

图10为本发明实施例提供的一种翻译装置的结构示意图；

图11为与图10所示实施例提供的翻译装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者***中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

本发明实施例提供的语音识别方法可以由一电子设备来执行，该电子设备可以是诸如PC机、笔记本电脑等终端设备，也可以是服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为主机集群承载的虚拟服务器，或者也可以为云服务器。

本发明实施例提供的语音识别方法可以适用于对包含一种或多种语言的语音进行识别，比如，某语音中可以仅包括中文内容，再比如，某语音中可以包括中文和英文内容。

下面结合以下实施例对该语音识别方法的执行过程进行说明。

图1为本发明实施例提供的一种语音识别方法的流程图，如图1所示，该方法包括如下步骤：

101、对输入语音进行语音识别，以得到第一文本。

该输入语音是指需要进行语音识别的语音，该语音可能对应于多种语言，也可能对应于单语言。

可以采用通用的ASR***对该输入语音进行识别，以得到识别结果，假设识别结果为第一文本。

其中，通用的ASR***可以是预先生成的仅针对某一种语言的语音识别***。举例来说，假设该通用的ASR***是预先针对语言A生成的语音识别***，那么如果当前的输入语音中包括语言A和语言B，那么也可以使用该ASR***对该输入语音进行识别，以得到第一文本，只是，此时的第一文本很可能不准确。可以理解的是，此时，第一文本是由语言A对应的词语组成的文本。

举例来说，如图2所示，假设输入语音为“我想买iph**e手机”，通过通用的ASR***识别得到的第一文本可能是：我想买爱疯手机。显然，这个第一文本是错误的，因为正确的识别结果应该是：我想买iph**e手机。

可以理解的是，在ASR***的正常工作过程中，针对输入语音，ASR***其实会预测出与该输入语音对应的多个文本以及每个文本对应的概率值，基于此，上述第一文本可以认为是这多个文本中概率值最高的文本，也就是说，将ASR***预测出的最有可能的文本作为输入语音的初始语音识别结果：第一文本。

102、根据已获得的不同语言的词语之间的映射关系，对第一文本进行修正，以得到至少一个第二文本。

由于输入语音中可能包含多种语言，为了获得准确的语音识别结果，在得到第一文本之后，可以根据已获得的不同语言的词语之间的映射关系，对第一文本进行修正，以得到至少一个第二文本。

其中，以语言A和语言B为例来说，该映射关系反映了语言A下的某个词语在语言B下应该对应于什么词语。比如在前述举例中，英文的“iph**e”与中文的“爱疯”对应，基于此，作为第一文本的“我想买爱疯手机”经过修正过程可能会被纠正为“我想买iph**e手机”这个第二文本。

实际上，在语言A下的某个词语在语言B下对应的词语可能不唯一，而且，第一文本中可能包含不止一个在其他语言下具有映射关系的词语，因此，对第一文本进行修正得到的第二文本的个数可能不唯一。在对第一文本进行修正的过程中，伴随着至少一个第二文本的输出，可以同时得到每个第二文本对应的概率值，该概率值表示第一文本以多大的概率被纠正为对应的第二文本。

实际上，可以通过对大量包含不同语言的语音样本的学习来得到上述映射关系，在后续实施例中会详细介绍该映射关系的获取过程。

103、若至少一个第二文本对应于同一种语言，则输出第一文本。

其中，该至少一个第二文本是否对应于同一种语言，是指该至少一个第二文本是否都是由同一种语言的词语组成的。

可以通过识别每个第二文本中包含的文本的字符特征，来判断各第二文本是否对应于同一种语言，即若各第二文本的字符特征相同，比如均符合汉字的字符特征，则确定各第二文本对应于同一种语言——中文。

若各第二文本对应于同一种语言，则说明输入语音很有可能是单语言的语音，此时，ASR***的识别结果即第一文本作为最终的识别结果进行输出。

104、若至少一个第二文本对应于不同语言，则根据至少一个第二文本各自对应的第一概率值确定输出的文本，其中，至少一个第二文本各自对应的第一概率值由修正过程得到。

若各第二文本对应于不同语言，则说明输入语音很有可能是包含多语言的语音，此时，可选地，可以结合修正过程中得到的每个第二文本对应的概率值(即为上述第一概率值)，从得到的各第二文本中确定最终输出的文本。比如，可以确定第一概率值最大的第二文本为最终输出的文本。

综上，通过结合不同语言的词语之间的映射关系对ASR的结果进行修正，可以保证最终的语音识别结果的准确性。

值得说明的是，本文中的不同语言，可以理解为是不同语种。

可选地，不同语言也可以理解为同一语种下的不同方言。此时，上述不同语言的词语之间的映射关系可以为：同一语种下的不同方言的词语之间的映射关系。从而，上述至少一个第二文本对应于同一种语言，是指该至少一个第二文本对应于同一语种下的同一种方言。

基于此，若某人说话具有较重的口音，说话中夹杂着方言，也可以基于本方案进行语音识别。

图3为本发明实施例提供的另一种语音识别方法的流程图，如图3所示，该方法包括如下步骤：

301、获取包含多种语言的语音样本。

302、对语音样本进行语音识别，以得到多个候选文本。

303、由多个候选文本和语音样本对应的标注文本作为训练样本，训练机器翻译模型。

304、对输入语音进行语音识别，以得到第一文本。

305、将第一文本输入到机器翻译模型中，以通过机器翻译模型对第一文本进行修正，以得到至少一个第二文本以及至少一个第二文本各自对应的第一概率值。

306、若至少一个第二文本对应于同一种语言，则输出第一文本。

307、若至少一个第二文本对应于不同语言，则根据至少一个第二文本各自对应的第一概率值确定输出的文本。

本实施例中，预先训练一个机器翻译模型来用于对第一文本的修正。

基于该机器翻译模型，相当于将多语言语音的识别问题转换为修正问题，具体地，是对ASR***初始识别得到的第一文本进行修正，以便将可能的错误的第一文本纠正为正确文本。而该修正问题可以进一步理解为是一种翻译问题，即将错误的句子翻译为正确的句子的过程，从而，可以通过训练一个机器翻译模型来实现对多语言语音的准确识别。

该机器翻译模型可以是神经机器翻译模型，即基于神经网络构建的机器翻译模型。与通常的翻译模型相似，本实施例提供的机器翻译模型可以由编码器(encoder)和解码器(decoder)组成，其中，编码器和解码器均可以由如下任一种神经网络模型构成：循环神经网络模型(Recurrent Neural Network，简称RNN)、长短期记忆网络模型(Long Short-Term Memory，简称LSTM)或双向长短期记忆网络模型(Bi-directional Long Short-TermMemory，简称Bi-LSTM)。

如图4中所示，在图4中示意的是基于RNN构建的机器翻译模型，该机器翻译模型中假设包括输入层、由两层RNN组成的隐层以及输出层。其中，输入层表示为embedding，用于实现对输入文字的词向量编码，输出层表示为softmax，用于输出预测结果，两层RNN分别表示为first RNN layer和second RNN layer。在图4中，假设encoder端输入的文本中包括A、B、C这三个字，则decoder端解码输出包括W、X、Y、Z这四个字的文本，其中，<EOS>为表示起止位置的设定符号。

为实现对机器翻译模型的训练，首先，需要获取大量的包含多种语言的语音样本。实际应用中，可以结合实际需求来采集包含所需的多种语言的语音样本。之后，对于每个语音样本，采用前述通用的ASR***进行语音识别，将得到的每个语音样本对应的多个文本作为多个候选文本。之后，由多个候选文本和语音样本对应的标注文本作为训练样本，训练机器翻译模型。

举例来说，以任一语音样本i为例，假设该语音样本i输入到ASR***后，ASR***会预测出该语音样本i对应的多种可能的文本识别结果，假设共识别出三种文本，分别表示为：a1、a2、a3，并假设这三个文本对应的预测概率分别为P_a1、P_a2、P_a3。另外，可以人为标注出该语音样本i对应的真实的即正确的识别结果，假设为文本a0。从而，基于语音识别结果以及标注结果可以得到如下的三条训练样本：<a1，a0>、<a2，a0>、<a3，a0>。

基于得到的训练样本可以对机器翻译模型进行有监督的训练，即将多个候选文本依次输入到机器翻译模型的编码器中，通过编码器的编码过程会得到表示每个候选文本的上下文语义的语义向量，由解码器对该语义向量进行解码以得到该候选文本对应的翻译结果亦即修正结果，将该修正结果与该候选文本对应的标注文本比较，以得到损失函数，通过反馈调节以调节机器翻译模型的参数，如此迭代下去，直至机器翻译模型被训练至收敛。

可以理解的是，如果语音样本中包括语言A和语言B，由于标注文本中会包含语言A和语言B各自对应的文本内容，因此，即使ASR对语音样本的识别结果即多个候选文本是存在错误的，基于标注文本的监督，便可以使得机器翻译模型学习到修正能力，该修正能力即反映为上述不同语言下词语之间的映射关系，从而，基于该机器翻译模型学习到的修正能力便可以实现对多语言语音的准确识别。

该机器翻译模型的使用过程，简单来说就是，针对当前需要进行语音识别的输入语音，首先，通过ASR***得到初始的语音识别结果即第一文本，进而，将第一文本输入到机器翻译模型中，由机器翻译模型基于学习到的修正能力对该第一文本进行修正，输出至少一个第二文本及其对应的第一概率值。进而，判断输出的全部第二文本是否对应于同一种语言，若对应于同一种语言，则输出ASR***得到的初始识别结果即第一文本作为最终的语音识别结果；若对应于不同语言，则可以结合各第二文本的第一概率值从中选出一个第二文本作为最终的语音识别结果，比如，确定最终的语音识别结果为第一概率值最大的第二文本。

图5为本发明实施例提供的一种机器翻译模型的训练过程流程图，如图5所示，可以包括如下步骤：

501、获取多种语言各自对应的语料样本。

502、通过多种语言各自对应的语料样本训练语言模型。

503、根据语言模型的参数初始化机器翻译模型的参数。

504、获取包含多种语言的语音样本。

505、对语音样本进行语音识别，以得到多个候选文本。

506、由多个候选文本和语音样本对应的标注文本作为训练样本，对机器翻译模型进行训练。

本实施例中，为提高机器翻译模型的训练效率以及机器翻译模型学习到的修正能力，先训练一语言模型，以结合该语言模型对机器翻译模型进行训练。

具体地，假设机器翻译模型被训练以保证包括语言A和语言B的语音的语音识别结果的准确性，则语言模型的训练可以至少收集语言A对应的语料样本，以及语言B对应的语料样本。

可以理解的是，本文中的语音样本是指音频格式的数据，语料样本是指文本格式的数据。

另外，值得说明的是，以语言A为例，语言A对应的语料样本是指其中包含的大部分内容是对应于语言A的文本，并非限定语料样本中包含的全部内容都要是对应于语言A的。

语言模型的作用是预测一句话(即各语料样本)出现的概率，该概率由组成句子中包含的各个词语对应的条件概率决定，其中，第i个词语对应的条件概率可以理解为是在该词语前面出现的所有词语(前i-1个词语)的条件下，预测出的下一个出现的词语为该第i个词语的概率。

语言模型的训练过程可以参考现有相关技术实现，本实施例中不赘述。本实施例中仅强调，该语言模型是基于不同语言各自对应的大量语料样本进行训练得到的，那么在训练该语言模型的过程中，可以形成包括不同语言的词语的词典。基于该词典，假设当前已经预测出某语料样本的前i-1个词语，在预测第i个词语的时候，简单来说，就是预测第i个词语取词典中包含的各个语言的词语的概率。基于此，可以理解的是，最终训练得到的语言模型可以学习到对应于多种语言的语义向量表示。

在训练好语言模型后，可以根据该语言模型对机器翻译模型进行参数初始化。即可以使用语言模型的参数初始化机器翻译模型的参数，比如在图3所示的机器翻译模型中，可以使用语言模型的参数初始化机器翻译模型的输入层和第一层RNN的参数，可以认为是将语言模型作为机器翻译模型的输入层和第一层RNN。

根据语言模型来训练机器翻译模型，一方面，相对于随机初始化机器翻译模型的参数，会提高机器翻译模型的训练效率，另一方面，由于语言模型可以学习到不同语言的词语之间的上下文语义，从而可以使得机器翻译模型能够结合词语的上下文语义来提高修正能力。

本发明实施例中，该语言模型具体可以实现为n-gram语言模型、基于RNN的语言模型等。

基于训练得到的语言模型和机器翻译模型，本发明实施例还提供了如图6所示的语音识别方案。

图6为本发明实施例提供的另一种语音识别方法的流程图，如图6所示，该方法包括如下步骤：

601、对输入语音进行语音识别，以得到第一文本。

602、将第一文本输入到机器翻译模型中，以通过机器翻译模型对第一文本进行修正，以得到至少一个第二文本以及至少一个第二文本各自对应的第一概率值。

603、若至少一个第二文本对应于同一种语言，则输出第一文本。

604、若至少一个第二文本对应于不同语言，则将至少一个第二文本输入语言模型，以通过语言模型确定至少一个第二文本各自对应的第二概率值。

605、根据至少一个第二文本各自对应的第一概率值和第二概率值，或者，根据至少一个第二文本各自对应的第二概率值确定输出的文本。

本实施例中，当确定机器翻译模型预测出的至少一个第二文本对应于不同语言时，可以将该至少一个第二文本分别输入语言模型，以通过语言模型预测每个第二文本对应的第二概率值，相当于进一步结合语言模型学习到的上下文语义对各第二文本的合理性进行打分。该合理性体现为语法和语义的合理性。

可选地，步骤605中根据至少一个第二文本各自对应的第二概率值确定输出的文本，可以实现为：

若第一文本与第二概率值最高的第二文本一致，则输出第一文本。

若第一文本与第二概率值最高的第二文本不一致，则输出第二概率值最高的第二文本。

可选地，步骤605中根据所述至少一个第二文本各自对应的第一概率值和第二概率值确定输出的文本，可以实现为：

若第一文本与加和概率值最高的第二文本一致，则输出第一文本。

若第一文本与加和概率值最高的第二文本不一致，则输出加和概率值最高的第二文本；其中，对于任一第二文本j，加和概率值是指该第二文本j对应的第一概率值和第二概率值的加权和。

实际应用中，加权系数可以预先设定。可选地，实际应用中，可以根据语言模型和机器翻译模型对应的训练样本总数的比值来确定加权系数，比如，如果语言模型的训练样本总数与机器翻译模型的训练样本总数的比值为8:2，则可以设定第一概率值对应的加权系数为0.2，第二概率值对应的加权系数为0.8。

综上，通过上述语音模型和机器翻译模型可以实现对包含多语言的语音的准确识别。

以下将详细描述本发明的一个或多个实施例的语音识别装置。本领域技术人员可以理解，这些语音识别装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图7为本发明实施例提供的一种语音识别装置的结构示意图，如图7所示，该语音识别装置包括：识别模块11、修正模块12、输出模块13。

识别模块11，用于对输入语音进行语音识别，以得到第一文本。

修正模块12，用于根据已获得的不同语言的词语之间的映射关系，对所述第一文本进行修正，以得到至少一个第二文本。

输出模块13，用于若所述至少一个第二文本对应于同一种语言，则输出所述第一文本。

可选地，所述装置还包括：机器翻译模型训练模块，用于获取包含多种语言的语音样本；对所述语音样本进行语音识别，以得到多个候选文本；由所述多个候选文本和所述语音样本对应的标注文本作为训练样本，训练机器翻译模型。

基于此，所述修正模块13具体用于：将所述第一文本输入到所述机器翻译模型中，以通过所述机器翻译模型对所述第一文本进行修正。

从而，可选地，所述输出模块13具体可以用于：若所述至少一个第二文本对应于不同语言，则根据所述至少一个第二文本各自对应的第一概率值确定输出的文本，其中，所述至少一个第二文本各自对应的第一概率值由所述机器翻译模型预测出。

其中，所述机器翻译模型由编码器和解码器组成，所述编码器和解码器均可以由如下任一种神经网络模型构成：循环神经网络模型、长短期记忆网络模型或双向长短期记忆网络模型。

另外，可选地，所述装置还包括：语言模型训练模块，用于获取所述多种语言各自对应的语料样本；通过所述多种语言各自对应的语料样本训练语言模型；根据所述语言模型的参数初始化所述机器翻译模型的参数。

可选地，所述输出模块13具体可以用于：确定输出的文本为所述第一概率值最大的第二文本。

可选地，所述输出模块13具体可以用于：将所述至少一个第二文本输入语言模型，以通过所述语言模型确定所述至少一个第二文本各自对应的第二概率值，其中，所述语言模型经多种语言各自对应的语料样本训练得到；根据所述至少一个第二文本各自对应的第一概率值和第二概率值，或者，根据所述至少一个第二文本各自对应的第二概率值确定输出的文本。

可选地，所述输出模块13具体可以用于：若所述第一文本与第二概率值最高的第二文本一致，则输出所述第一文本；若所述第一文本与第二概率值最高的第二文本不一致，则输出所述第二概率值最高的第二文本。

可选地，所述输出模块13具体可以用于：若所述第一文本与加和概率值最高的第二文本一致，则输出所述第一文本；若所述第一文本与加和概率值最高的第二文本不一致，则输出所述加和概率值最高的第二文本；其中，对于任一第二文本，所述加和概率值是指所述任一第二文本对应的第一概率值和第二概率值的加权和。

可选地，所述不同语言的词语之间的映射关系包括：同一语种下的不同方言的词语之间的映射关系。此时，所述至少一个第二文本对应于同一种语言，是指所述至少一个第二文本对应于同一语种下的同一种方言。

图7所示语音识别装置可以执行前述各实施例中提供的方法，本实施例未详细描述的部分，可参考前述实施例的相关说明，在此不再赘述。

在一个可能的设计中，上述图7所示的语音识别装置的结构可实现为一电子设备。如图8所示，该电子设备可以包括：处理器21、存储器22。其中，所述存储器22上存储有可执行代码，当所述可执行代码被所述处理器21执行时，至少使所述处理器21可以实现如前述实施例中提供的语音识别方法。

其中，该电子设备的结构中还可以包括通信接口23，用于与其他设备或通信网络通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行前述各实施例中提供的语音识别方法。

通过以上实施例对本文提供的语音识别方法的一般执行过程进行了说明，该语音识别方法可以被适用于诸如同声传译等应用场景中，下面结合图9来示例性说明该语音识别方法在翻译场景中的执行过程。

图9为本发明实施例提供的一种翻译方法的流程图，如图9所示，可以包括如下步骤：

901、对需要翻译的语音进行语音识别，以得到第一文本，第一文本对应于第一语言。

902、根据已获得的不同语言的词语之间的映射关系，对第一文本进行修正，以得到至少一个第二文本。

903、若至少一个第二文本中包含的词语均对应于第一语言，则对第一文本进行向第二语言的翻译。

904、若至少一个第二文本中包含不对应于第一语言的词语，则根据至少一个第二文本各自对应的概率值确定目标第二文本，对目标第二文本进行向第二语言的翻译。

本实施例中，假设需要将主要以第一语言(比如中文)说出的语音翻译为第二语言(比如英文)。基于此，上述需要翻译的语音是主要以第一语言说出的语音，其中，主要以第一语言说出，是指该语音中包含的所有词语可以都是以第一语言说出的，也可以有部分词语是由其他语言说出的。比如，在一句中文语句中夹杂着个别日语。

在对该需要翻译的语音进行翻译的过程中，首先，对该语音进行语音识别处理，以将该语音转换为文字即文本，之后，对转换后的文本进行向第二语言的翻译，以得到翻译结果。其中，根据实际需求，该翻译结果可以是以文本的形式输出，也可以是以语音的形式的输出。当以语音的形式的输出时，可以通过语音合成技术对翻译后得到的文本进行语音合成处理，从而得到翻译后的语音。

其中，对需要翻译的语音进行语音识别处理以得到对应于第一语言的第一文本的过程，以及对该第一文本进行修正以得到至少一个第二文本的过程，可以参见前述实施例中的说明，在此不赘述。

这里仅强调的是，由于该语音是主要以第一语言说出的，因此，对该语音进行语音识别处理初始得到的第一文本是由第一语言对应的各个词语组成。另外，上述不同语言的词语之间的映射关系中，至少包括第一语言与第二语言的词语之间的映射关系，当然，实际上，还可以包括第一语言与其他语言言的词语之间的映射关系。

在对第一文本进行修正得到至少一个第二文本后，若该至少一个第二文本均对应于同一种语言，即该至少一个第二文本中包含的词语均对应于同一种语言，此时，其实该同一种语言即为需要翻译的语音对应的第一语言，那么可以认为第一文本这个识别结果就是正确的，此时以该第一文本作为翻译对象，对第一文本进行向第二语言的翻译即可。

相反地，若该至少一个第二文本不对应于同一种语言，即该至少一个第二文本中包含的词语中存在不对应于第一语言的词语，此时说明第一文本这个识别结果是有错误的，进而可以根据该至少一个第二文本各自对应的概率值确定出目标第二文本作为语音的最终识别结果，对目标第二文本进行向第二语言的翻译。其中，目标第二文本的选择过程可以参见前述实施例来实施，在此不赘述。

综上，通过结合不同语言的词语之间的映射关系对需要翻译的语音的语音识别结果进行修正，可以保证最终的语音识别结果的准确性，进而可以保证翻译结果的准确性。

图10为本发明实施例提供的一种翻译装置的结构示意图，如图10所示，该装置包括：识别模块31、修正模块32、翻译模块33。

识别模块31，用于对需要翻译的语音进行语音识别，以得到第一文本，所述第一文本对应于第一语言。

修正模块32，用于根据已获得的不同语言的词语之间的映射关系，对所述第一文本进行修正，以得到至少一个第二文本。

翻译模块33，用于若所述至少一个第二文本中包含的词语均对应于所述第一语言，则对所述第一文本进行向所述第二语言的翻译。

可选地，所述翻译模块33还用于：若所述至少一个第二文本中包含不对应于所述第一语言的词语，则根据所述至少一个第二文本各自对应的概率值确定目标第二文本；对所述目标第二文本进行向所述第二语言的翻译。

图10所示翻译装置可以执行前述图9所示实施例中提供的方法，本实施例未详细描述的部分，可参考图9所示实施例的相关说明，在此不再赘述。

在一个可能的设计中，上述图10所示的翻译装置的结构可实现为一电子设备。如图11所示，该电子设备可以包括：处理器41、存储器42。其中，所述存储器42上存储有可执行代码，当所述可执行代码被所述处理器41执行时，至少使所述处理器41可以实现如图9所示实施例中提供的翻译方法。

其中，该电子设备的结构中还可以包括通信接口43，用于与其他设备或通信网络通信。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的各个模块可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，包括：

对输入语音进行语音识别，以得到第一文本；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取包含多种语言的语音样本；

对所述语音样本进行语音识别，以得到多个候选文本；

由所述多个候选文本和所述语音样本对应的标注文本作为训练样本，训练机器翻译模型。

3.根据权利要求2所述的方法，其特征在于，所述第一文本的修正步骤，包括：

将所述第一文本输入到所述机器翻译模型中，以通过所述机器翻译模型对所述第一文本进行修正。

4.根据权利要求2所述的方法，其特征在于，所述机器翻译模型由编码器和解码器组成，所述编码器和解码器均可以由如下任一种神经网络模型构成：循环神经网络模型、长短期记忆网络模型或双向长短期记忆网络模型。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述多种语言各自对应的语料样本；

通过所述多种语言各自对应的语料样本训练语言模型；

根据所述语言模型的参数初始化所述机器翻译模型的参数。

6.根据权利要求3至5中任一项所述的方法，其特征在于，所述方法还包括：

若所述至少一个第二文本对应于不同语言，则根据所述至少一个第二文本各自对应的第一概率值确定输出的文本，其中，所述至少一个第二文本各自对应的第一概率值由所述机器翻译模型预测出。

7.根据权利要求6所述的方法，其特征在于，所述根据所述至少一个第二文本各自对应的第一概率值确定输出的文本，包括：

确定输出的文本为所述第一概率值最大的第二文本。

8.根据权利要求6所述的方法，其特征在于，所述根据所述至少一个第二文本各自对应的第一概率值确定输出的文本，包括：

将所述至少一个第二文本输入语言模型，以通过所述语言模型确定所述至少一个第二文本各自对应的第二概率值，其中，所述语言模型经多种语言各自对应的语料样本训练得到；

根据所述至少一个第二文本各自对应的第一概率值和第二概率值，或者，根据所述至少一个第二文本各自对应的第二概率值确定输出的文本。

9.根据权利要求8所述的方法，其特征在于，所述根据所述至少一个第二文本各自对应的第二概率值确定输出的文本，包括：

若所述第一文本与第二概率值最高的第二文本一致，则输出所述第一文本；

若所述第一文本与第二概率值最高的第二文本不一致，则输出所述第二概率值最高的第二文本。

10.根据权利要求8所述的方法，其特征在于，所述根据所述至少一个第二文本各自对应的第一概率值和第二概率值确定输出的文本，包括：

若所述第一文本与加和概率值最高的第二文本一致，则输出所述第一文本；

若所述第一文本与加和概率值最高的第二文本不一致，则输出所述加和概率值最高的第二文本；

其中，对于任一第二文本，所述加和概率值是指所述任一第二文本对应的第一概率值和第二概率值的加权和。

11.根据权利要求1所述的方法，其特征在于，所述不同语言的词语之间的映射关系包括：同一语种下的不同方言的词语之间的映射关系；

所述至少一个第二文本对应于同一种语言，是指所述至少一个第二文本对应于同一语种下的同一种方言。

12.一种语音识别装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至11中任一项所述的语音识别方法。

14.一种翻译方法，其特征在于，包括：

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

若所述至少一个第二文本中包含不对应于所述第一语言的词语，则根据所述至少一个第二文本各自对应的概率值确定目标第二文本；

对所述目标第二文本进行向所述第二语言的翻译。

16.一种翻译装置，其特征在于，包括：

17.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求14或15所述的翻译方法。