CN107632980B

CN107632980B - 语音翻译方法和装置、用于语音翻译的装置

Info

Publication number: CN107632980B
Application number: CN201710657515.2A
Authority: CN
Inventors: 姜里羊; 王宇光; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-08-03
Filing date: 2017-08-03
Publication date: 2020-10-27
Anticipated expiration: 2037-08-03
Also published as: CN107632980A

Abstract

本发明实施例提供了一种语音翻译方法和装置、用于语音翻译的装置，其中的方法具体包括：获取经过标点添加处理的语音识别结果对应的文本；从所述文本中获取目标分句；对所述目标分句进行翻译，并将得到的第一翻译结果输出；当检测到语音识别结果对应的当前停顿，将上一停顿与所述当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果。本发明实施例可以通过第一翻译结果有效减少翻译结果滞相对于语音信号的滞后性，且可以通过第二翻译结果提高最终向用户提供的翻译结果的质量。

Description

语音翻译方法和装置、用于语音翻译的装置

技术领域

本发明涉及语音翻译技术领域，特别是涉及一种语音翻译方法和装置、以及一种用于语音翻译的装置。

背景技术

随着国际***流的增加，使用不同语种的语言沟通越来越频繁。为克服语言交流障碍，基于客户端进行在线语音翻译得到广泛的应用。

在线语音翻译一般涉及两个环节，第一是进行语音识别，即将用户输入的第一语种的语音信号转换为文本；第二是通过机器翻译装置对文本进行在线翻译，以得到作为翻译结果的第二语种的文本，最后向用户提供第二语种的文本或者语音信息。

现有方案通常依据第一语种的语音信号的停顿来判断文本对应句子的结束，并在判断文本对应句子结束后，向机器翻译装置发送文本对应句子，以使机器翻译装置对文本对应句子进行在线翻译，由此可以提高机器翻译装置的翻译质量。

然而，在实际应用中，现有方案在语音信号出现停顿的情况下、对文本对应句子进行在线翻译，容易导致翻译结果滞后于第一语种的语音信号。尤其地，对于语速过快、一直没有停顿的语音信号而言，这种滞后将更加明显。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音翻译方法、语音翻译装置、用于语音翻译的装置，本发明实施例可以通过第一翻译结果有效减少翻译结果滞相对于语音信号的滞后性，且可以通过第二翻译结果提高最终向用户提供的翻译结果的质量。

为了解决上述问题，本发明公开了一种语音翻译方法，包括：

获取经过标点添加处理的语音识别结果对应的文本；

从所述文本中获取目标分句；

对所述目标分句进行翻译，并将得到的第一翻译结果输出；

当检测到语音识别结果对应的当前停顿，将上一停顿与所述当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果。

另一方面，本发明公开了一种语音翻译装置，包括：

文本获取模块，用于获取经过标点添加处理的语音识别结果对应的文本；

目标分句获取模块，用于从所述文本中获取目标分句；

第一翻译模块，用于对所述目标分句进行翻译，并将得到的第一翻译结果输出；以及

第二翻译模块，用于当检测到语音识别结果对应的当前停顿，将上一停顿与所述当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果。

可选地，语音识别结果对应的停顿包括：语音停顿，和/或，语义停顿。

可选地，所述目标分句获取模块包括：

目标标点获取子模块，用于获取当前时刻的有效文本所包含的目标标点；

目标分句输出子模块，用于在所述目标标点符合预置的识别结果稳定条件，输出目标分句；所述目标分句包括：所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。

可选地，所述装置还包括：用于判断所述目标标点是否符合预置的识别结果稳定条件的判断模块；

所述判断模块包括：

截断子模块，用于依据所述目标标点对当前时刻T_k的有效文本、以及T_k之前的时刻的有效文本进行截断处理；以及

判定子模块，用于若当前时刻的有效文本对应的在先截断处理结果与T_k之前的时刻的有效文本对应的在先截断处理结果一致，则判定所述目标标点符合预置的识别结果稳定条件。

可选地，所述当前时刻的有效文本符合预置的标点稳定条件。

可选地，所述有效文本符合预置的标点稳定条件，包括：

所述有效文本为当前时刻的文本中除了位于后部的M-1个字符单元之外的文本；所述字符单元包括：词和/或标点符号；M为一次标点添加处理涉及的字符单元的数量。

可选地，所述目标分句获取模块包括：

目标分句获取子模块，用于依据所述文本所包含分句的信息，从所述文本中获取所述分句的信息符合预置条件的分句，作为目标分句；所述分句的信息包括：分句数量和字数。

可选地，所述目标分句获取子模块包括：

第一目标分句确定单元，用于若所述文本中位于前面的分句的数量超过第一数量阈值、且所述位于前面的分句的字数超过第一字数阈值，则将所述位于前面的分句作为目标分句；或者

第二目标分句确定单元，用于若所述文本中位于前面的分句的数量与延迟阈值的差值D为第二数量阈值的倍数、且所述位于前面的分句的字数超过第二字数阈值，则将所述位于前面的D个分句作为目标分句；其中，D为正整数。

再一方面，本发明公开了一种用于语音翻译的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取经过标点添加处理的语音识别结果对应的文本；从所述文本中获取目标分句；对所述目标分句进行翻译，并将得到的第一翻译结果输出；当检测到语音识别结果对应的当前停顿，将上一停顿与所述当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果。

又一方面，本发明公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的语音翻译方法。

本发明实施例包括以下优点：

本发明实施例可以从经过标点添加处理的语音识别结果对应的文本中获取目标分句，并对该目标分句进行第一翻译；在实际应用中，可以依据分句的特性，进行目标分句的获取，由于可以分句为单位进行目标分句的获取和目标分句的翻译，因此，本发明实施例可以在语音信号出现停顿之前，对目标分句进行第一翻译，故可以有效减少第一翻译结果滞相对于语音信号的滞后性，且可以提高第一翻译结果的实时性，有效提升用户体验。

并且，本发明实施例还可以在检测到语音识别结果对应的当前停顿的情况下，将上一停顿与该当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果；由于上一停顿与当前停顿之间的、经过标点添加处理的语音识别结果对应的文本具有一定的完整性，故本发明实施例将上一停顿与当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，可以通过第二翻译结果提高最终向用户提供的翻译结果的质量。

附图说明

图1是本发明的一种语音翻译***的示例性结构示意图；

图2是本发明实施例的一种语音识别结果对应的目标词序列的标点添加处理过程的示意图；

图3是本发明的一种语音翻译方法实施例的步骤流程图；

图4是本发明的一种语音翻译装置实施例的结构框图；

图5是根据一示例性实施例示出的一种用于语音翻译的装置作为终端时的框图；及

图6是根据一示例性实施例示出的一种用于语音翻译的装置作为服务器时的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种语音翻译方案，该方案可以获取经过标点添加处理的语音识别结果对应的文本；从所述文本中获取目标分句；对所述目标分句进行翻译，并将得到的第一翻译结果输出；当检测到语音识别结果对应的当前停顿时，将上一停顿与该当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果。

本发明实施例中，标点添加处理可用于为语音识别结果添加标点，可选地，可以按照预置时间周期获取经过标点添加处理的语音识别结果对应的文本，该预置时间周期可由本领域技术人员根据实际应用需求确定，例如，该预置周期可有为0.5s、1s、2s等。

本发明实施例中，复句(一个完整的句子)中相对独立的单句形式被称为分句，复句包括的分句和分句之间一般有停顿，在书面上用逗号或者分号表示；复句包括的分句和分句在意义上有一定的联系，常用一些关联词语(连词、有关联作用的副词或词组)来连接。

并且，本发明实施例还可以在检测到语音识别结果对应的当前停顿的情况下，将上一停顿与当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果；由于上一停顿与当前停顿之间的、经过标点添加处理的语音识别结果对应的文本具有一定的完整性，故本发明实施例将上一停顿与当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，可以通过第二翻译结果提高最终向用户提供的翻译结果的质量。

本发明实施例可以应用于语音翻译、同声翻译等任意的需要对语音识别结果进行在线翻译的场景中。尤其地，由于本发明实施例可以不涉及复杂的运算，故可以应用于终端上运行的客户端的应用环境中，这样，在用户通过客户端输入第一语种的语音信号的情况下，客户端可以通过本发明实施例的语音翻译方法获得该语音信号对应第二语种的文本，并向用户快速呈现该语音信号对应第二语种的文本，这样可以提升语音翻译的响应速度。并且，本发明实施例可以节省客户端与服务器之间的通信流量。

本发明实施例中，第一语种和第二语种可用于表示不同的两种语言，上述第一语种和第二语种可由用户预置得到，也可通过分析用户的历史行为得到。可选地，可以将用户最常用的语言作为第一语种，将除第一语种之外使用过的语言作为第二语种。可以理解，本发明实施例的第二语种的数量可以为一种或者多种，例如，对于以中文(汉语)为母语的用户而言，第一语种可以为中文(汉语)，第二语种可以为英文、日文、韩文、德文、法文、少数民族语言和盲文中的一种或者组合。

参照图1，示出了本发明的一种语音翻译***的示例性结构示意图，其具体可以包括：语音识别装置101、标点添加装置102、文本处理装置103和机器翻译装置104。其中，语音识别装置101、标点添加装置102、文本处理装置103和机器翻译装置104可以作为单独的装置(包括服务器或者终端)，可以共同设置于同一个装置中；可以理解，本发明实施例对于语音识别装置101、标点添加装置102、文本处理装置103和机器翻译装置104的具体设置方式不加以限制。

其中，语音识别装置101可用于将讲话用户的语音信号转换为文本，具体地，语音识别装置101可以输出语音识别结果。在实际应用中，讲话用户可以为语音翻译的场景中讲话并发出语音信号的用户，则可以通过麦克风或其他语音采集器件接收讲话用户的语音信号，并向语音识别装置101发送所接收的语音信号；或者，该语音识别装置101可以具有接收讲话用户的语音信号的功能。

可选地，语音识别装置101可以采用语音识别技术将讲话用户的语音信号转换为文本。如果将用户讲话用户的语音信号记作S，对S进行一系列处理后得到与之相对应的语音特征序列O，记作O＝{O₁，O₂，…，O_i，…，O_T}，其中O_i是第i个语音特征，T为语音特征总个数。语音信号S对应的句子可看作是由许多词组成的一个词串，记作W＝{w₁，w₂，…，w_n}。语音识别的过程就是根据已知的语音特征序列O，求出最可能的词串W。

具体来说，语音识别是一个模型匹配的过程，在这个过程中，可以首先根据人的语音特点建立语音模型，通过对输入的语音信号的分析，抽取所需的特征，来建立语音识别所需的模板；对用户所输入语音进行识别的过程即是将用户所输入语音的特征与所述模板比较的过程，最后确定与所述用户所输入语音匹配的最佳模板，从而获得语音识别的结果。具体的语音识别算法，可采用基于统计的隐含马尔可夫模型的训练和识别算法，也可采用基于神经网络的训练和识别算法、基于动态时间归整匹配的识别算法等等其他算法，本发明实施例对于具体的语音识别过程不加以限制。

标点添加装置102可以与语音识别装置101连接，其可以接收语音识别装置101发送的语音识别结果，对接收到的语音识别结果进行标点添加处理，并向文本处理装置103发送经过标点添加处理的语音识别结果对应的文本。

在本发明的一种可选实施例中，上述对接收到的语音识别结果进行标点添加处理，具体可以包括：对接收到的语音识别结果进行分词，以得到所述语音识别结果对应的目标词序列；通过语言模型对所述语音识别结果对应的目标词序列进行标点添加处理，以得到作为标点添加结果的文本。

本发明实施例中，所述语音识别结果对应的目标词序列中相邻词之间可被添加对应的多种候选标点符号，也即，可以依据所述语音识别结果对应的目标词序列中相邻词之间被添加多种候选标点符号的情形，对所述目标词序列进行标点添加处理，这样，所述语音识别结果对应的目标词序列将对应有多种标点添加方案及其对应的标点添加结果。可选地，可以通过语言模型对目标词序列进行标点添加处理，这样，最终可以得到语言模型得分最优的最优标点添加结果。

需要说明的是，本领域技术人员可以根据实际应用需求，确定需要添加的候选标点符号，可选地，上述候选标点符号可以包括：逗号、问号、句号、感叹号、空格等，其中，空格可以起到词分割的作用或者不起任何作用，例如，对于英文而言，空格可用于分割不同的词，对于中文而言，空格可以为不起任何作用的标点符号，可以理解，本发明实施例对于具体的候选标点符号不加以限制。

参照图2，示出了本发明实施例的一种语音识别结果对应的目标词序列的标点添加处理过程的示意图，其中，语音识别结果对应的目标词序列为“你好/我是/小明/很高兴/认识你”，则“你好/我是/小明/很高兴/认识你”的相邻词之间均有可能被添加候选标点符号；图2中，“你好”、“我是”、“小明”、“很高兴”、“认识你”等词分别用矩形表示，逗号、空格、叹号、问号、句号等标点符号分别用圆形表示，则语音识别结果对应的目标词序列的首个词“你好”和末尾词“认识你”之后的标点符号之间可以具备多条路径。可以理解，图2所示语音识别结果对应的目标词序列只是作为可选实施例，实际上，标点添加装置102可以周期性接收语音识别装置101发送的语音识别结果，并按照预置时间周期获取经过标点添加处理的语音识别结果对应的文本。

自然语言处理领域中，语言模型是针对一种语言或者多种语言建立的概率模型，目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。具体到本发明实施例，可以将语言模型描述的给定词序列在语言中的出现的概率的分布称为语言模型得分。可选地，可以从语料库中获取语料句子，对该语料句子进行分词，并依据分词得到的词序列，训练得到上述语言模型。可选地，语言模型描述的给定词序列可以带有标点符号，以实现对于语音识别结果的标点添加处理。

本发明实施例中，语言模型可以包括：N-gram(N元文法)语言模型，和/或，神经网络语言模型，其中，神经网络语言模型可以进一步包括：RNNLM(循环神经网络语言模型，Recurrent neural Network Language Model)、CNNLM(卷积神经网络语言模型，Convolutional Neural Networks Language Model)、DNNLM(深度神经网络语言模型，DeepNeural Networks Language Model)等。

其中，N-gram语言模型基于这样一种假设，即第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。

由于N-gram语言模型利用有限的N-1个词(上文)来预测第N个词，故N-gram语言模型可以具备长度为N的语义片段的语言模型得分的描述能力，例如，N可以为3、5等较为固定的且数值小于第一长度阈值的正整数。而相对于N-gram语言模型，例如RNNLM的神经网络语言模型的一个优势在于：可以真正充分地利用所有上文来预测下一个词，故RNNLM可以具备长度可变的语义片段的语言模型得分的描述能力，也即，RNNLM适用于较宽长度范围的语义片段，例如，RNNLM对应的语义片段的长度范围可以为：1至第二长度阈值，其中，第二长度阈值可以大于第一长度阈值。

本发明实施例中，语义片段可用于表示添加有标点符号的目标词序列，所述语义片段可以包括：所述目标词序列的连续词(也即不包含标点符号)，和/或，添加有标点符号的连续词。可选地，可以从上述目标词序列中获取全部或者部分，以得到上述连续词。例如，对于目标词序列“你好/我是/小明/很高兴/认识你”而言，其对应的语义片段可以包括：“你好/，/我是”、“我是/小明/很高兴”等，其中，“/”是为了方便申请文件的说明而设置的符号，“/”用于表示词之间的界限、和/或、词与标点符号之间的界限，在实际应用中，“/”可以不具备任何意义。

在本发明的一种可选实施例中，可以通过N元文法语言模型对语音识别结果进行标点添加处理。

可选地，若目标词序列对应的标点添加结果所包含字符单元的数量小于或等于N，则可以利用N元文法语言模型，确定所述目标词序列对应的标点添加结果的语言模型得分，并将语言模型得分最高的标点添加结果作为最优的最优标点添加结果，输出给文本处理装置103。

或者，若目标词序列对应的标点添加结果所包含字符单元的数量大于N，则可以按照从前到后的顺序，通过移动方式从所述目标词序列对应的标点添加结果中获取对应的第一语义片段，不同第一语义片段所包含字符单元的数量可以相同，相邻的第一语义片段可以存在重复的字符单元，所述字符单元可以包括：词和/或标点符号。此种情况下，可由N-gram语言模型确定第一语义片段对应的语言模型得分。假设N＝5，首字符单元的编号为1，则可以按照编号的如下顺序：1-5、2-6、3-7、4-8、5-9等从所述标点添加结果中获取对应的长度为5的第一语义片段，并利用N-gram语言模型确定各第一语义片段对应的语言模型得分，例如，将各第一语义片段输入N-gram，则N-gram可输出对应的语言模型得分。在确定编号为1-5对应的最优标点添加结果后，可以向文本处理装置103输出对应的最优标点结果，同理，在确定编号为2-6对应的最优标点添加结果后，可以向文本处理装置103输出该最优标点添加结果。其中，最优标点添加结果可以对应最高或者最优的语言模型得分。

在本发明的另一种可选实施例中，可以通过神经网络语言模型对语音识别结果进行标点添加处理，具体地，可以利用神经网络语言模型，确定所述目标词序列对应的标点添加结果的语言模型得分，并将语言模型得分最高的标点添加结果作为最优的最优标点添加结果，输出给文本处理装置103。由于例如RNNLM的神经网络语言模型适用于较宽长度范围的语义片段，故可以将目标词序列对应的标点添加结果的所有语义片段作为一个整体，由RNNLM确定目标词序列对应的标点添加结果的所有语义片段对应的语言模型得分，例如，将目标词序列对应的标点添加结果包括的所有字符单元输入RNNLM，则RNNLM可输出对应的语言模型得分。

在本发明的一种应用示例中，假设预置时间周期为1s，假设通过N元文法语言模型对语音识别结果进行标点添加处理，N小于或等于5，则按照预置时间周期获取的经过标点添加处理的语音识别结果对应的文本可以包括：

第1秒：今天天气

第2秒：今天天气不错，我们

第3秒：今天天气不错，我们出去爬山

第4秒：今天天气不错，我们出去爬山你觉得怎么样？

其中，标点添加装置102首先接收到“今天天气”，其可以对目标词序列“今天/天气”进行标点添加处理，假设N元文法语言模型输出的“今天/空格/天气”对应的语言模型得分高于“今天/逗号、叹号、问号、句号等标点符号/天气”对应的语言模型得分，故可以得到最优标点添加结果“今天/天气”，并在第1秒向文本处理装置103发送“今天/天气”。

标点添加装置102接着接收到“今天天气不错我们”，假设已确定最优标点添加结果“今天/天气”，故可以对目标词序列“天气/不错/我们”进行标点添加处理，假设N元文法语言模型输出的“天气/空格/不错/，/我们”对应的语言模型得分高于其他标点添加结果对应的语言模型得分，故可以得到最优标点添加结果“天气/空格/不错/，/我们”，并在第2秒向文本处理装置103发送“今天/天气/空格/不错/，/我们”。

标点添加装置102接着接收到“今天天气不错我们出去爬山”，假设已确定最优标点添加结果“今天/天气/空格/不错/，/我们”，故可以对目标词序列“我们/出去/爬山”进行标点添加处理，假设N元文法语言模型输出的“我们/空格/出去/空格/爬山”对应的语言模型得分高于其他标点添加结果对应的语言模型得分，故可以得到最优标点添加结果“我们/空格/出去/空格/爬山”，并在第3秒向文本处理装置103发送“今天/天气/空格/不错/，我们/空格/出去/空格/爬山”。

标点添加装置102接着接收到“今天天气不错我们出去爬山你觉得怎么样”，假设已确定最优标点添加结果“今天/天气/空格/不错/，我们/空格/出去/空格/爬山”，故可以对目标词序列“爬山/你/觉得”进行标点添加处理，假设N元文法语言模型输出的“爬山/空格/你/空格/觉得”对应的语言模型得分高于其他标点添加结果对应的语言模型得分，故可以得到最优标点添加结果“爬山/空格/你/空格/觉得”；进一步，可以对目标词序列“觉得/怎么样”进行标点添加处理，假设N元文法语言模型输出的“觉得/空格/怎么样/？”对应的语言模型得分高于其他标点添加结果对应的语言模型得分，则可以得到最优标点添加结果“爬山/空格/你/空格/觉得/空格/怎么样/？”，并在第4秒向文本处理装置103发送“今天/天气/空格/不错/，我们/空格/出去/空格/爬山/空格/你/空格/觉得/空格/怎么样/？”。

文本处理装置103可以从标点添加装置102获取经过标点添加处理的语音识别结果对应的文本，从所述文本中获取目标分句，并向机器翻译装置104发送该目标分句，以使机器翻译装置104对所述目标分句进行翻译，并将得到的第一翻译结果输出；并且，文本处理装置103还可以当检测到语音识别结果对应的当前停顿时，向机器翻译装置104发送上一停顿与当前停顿之间的、经过标点添加处理的语音识别结果对应的文本，以使机器翻译装置104对上一停顿与当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果。

机器翻译装置104可以对文本处理装置103发送的目标分句进行第一翻译、以及对上一停顿与当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，具体地，可以将所述目标分句、以及上一停顿与当前停顿之间的、经过标点添加处理的语音识别结果对应的文本翻译为目标语种的文字并输出。或者，可以将目标语种的文字转换为目标语种的语音，并输出。可选地，可以利用文本到语音的转换技术(如语音合成技术)，将所述目标语种的文字转换为目标语种的语音，并通过耳机、扬声器等语音播放器件将目标语种的语音输出。

根据一种实施例，假设将第一翻译结果输出至屏幕，则在将第二翻译结果输出至屏幕的过程可以包括：将屏幕上的第一翻译结果替换为第二翻译结果，由此可以实现翻译结果的更新。

本发明实施例可以应用于客户端与服务器的应用环境中，其中，客户端可以采集用户的语音信号，通过例如图1所示的语音翻译***得到第一翻译结果并显示，由此可以提高第一翻译结果的实时性。并且，客户端在检测到语音识别结果对应的当前停顿时，可以将已显示的第一翻译结果替换为第二翻译结果，由此可以提高翻译质量。当然，客户端可以向服务器发送用户的语音信号，以使服务器通过例如图1所示的语音翻译***得到第一翻译结果和第二翻译结果并输出。

方法实施例

参照图3，示出了本发明的一种语音翻译方法实施例的步骤流程图，具体可以包括如下步骤：

步骤301、获取经过标点添加处理的语音识别结果对应的文本；

步骤302、从所述文本中获取目标分句；

步骤303、对所述目标分句进行翻译，并将得到的第一翻译结果输出；

步骤304、当检测到语音识别结果对应的当前停顿，将上一停顿与该当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果。

本发明实施例提供的语音翻译方法可应用于装置(如语音翻译装置等)的应用环境中。可选地，上述装置可以包括：终端或服务器。其中，上述终端可以包括但不限于：智能手机、平板电脑、膝上型便携计算机、车载电脑、台式计算机、智能电视机、可穿戴设备等等。上述服务器可以为云服务器或者普通服务器。可以理解，本发明实施例对语音翻译方法对应的具体应用环境不加以限制。

在实际应用中，本发明实施例的装置可以从其他装置获取经过标点添加处理的语音识别结果对应的文本，例如，可以从标点添加装置获取经过标点添加处理的语音识别结果对应的文本。可选地，本发明实施例的装置可以通过客户端应用或者服务器执行本发明实施例的语音翻译方法流程，客户端应用可以运行在装置上，例如，该客户端应用可以为终端上运行的任意APP(应用程序，Application)。可以理解，本发明实施例对于步骤301获取经过标点添加处理的语音识别结果对应的文本的具体方式不加以限制。

在实际应用中，可以将经过标点添加处理的语音识别结果对应的文本写入缓存区，可选地，可以将不同时刻的文本写入缓存区中不同的地址。例如，可以将T₁、T₂…T_p时刻的文本写入缓存区中不同的地址。可选地，可以在装置的内存区建立例如队列、数组、或者链表的数据结构作为上述缓存区，本发明实施例对于具体的缓存区不加以限制。上述采用缓存区存储经过标点添加处理的语音识别结果对应的文本的方式能够提高处理效率，可以理解，采用磁盘存储经过标点添加处理的语音识别结果对应的文本的方式也是可行的，本发明实施例对于经过标点添加处理的语音识别结果对应的文本的具体存储方式不加以限制。

步骤302可以从所述文本中获取目标分句，其中，目标分句可以为当前需要进行机器翻译的分句，由于可以分句为单位进行目标分句的获取和目标分句的翻译，因此，本发明实施例可以在语音信号出现停顿之前，对目标分句进行第一翻译，故可以有效减少第一翻译结果滞相对于语音信号的滞后性，且可以提高第一翻译结果的实时性，有效提升用户体验。

本发明实施例可以提供从所述文本中获取目标分句的如下技术方案：

技术方案1

技术方案1中，从所述文本中获取目标分句的过程可以包括：获取当前时刻的有效文本所包含的目标标点；在所述目标标点符合预置的识别结果稳定条件时，输出目标分句；所述目标分句可以包括：所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。

当前时刻的有效文本可以源自当前时刻T_k的文本，当前时刻的文本可以为当前获取的文本，可以理解，获取的文本还可以包括：T_k之前的时刻的文本，如T_k-1和T_k-2的文本等。

本发明实施例依据当前时刻的有效文本所包含的目标标点确定翻译时机，具体地，在所述目标标点符合预置的识别结果稳定条件的情况下，说明目标标点及其之前的语音识别结果具备稳定性，因此可以将当前时刻的有效文本中目标标点及其之前的字符作为目标分句进行输出，由此可以实现在语音信号出现停顿之前输出第一翻译结果，故可以有效减少翻译结果相对于语音信号的滞后性，且可以提高翻译结果的实时性，有效提升用户体验。并且，本发明实施例的目标分句是依据目标标点截断得到的，故可以提高目标分句的完整性，进而可以通过第二翻译结果提高最终向用户提供的翻译结果的质量。

在本发明的一种可选实施例中，所述当前时刻的有效文本可以符合预置的标点稳定条件。预置的标点稳定条件可用于约束当前时刻的有效文本的标点稳定性，可选地，当前时刻的有效文本可以符合预置的标点稳定条件，可以使得当前时刻的有效文本的标点是稳定或者基本稳定的。这样，当前时刻的有效文本的标点可以不发生变化，因此当前时刻的有效文本可以参与目标标点的获取和分割，从而可以提高目标分句的稳定性。

在实际应用中，本领域技术人员可以根据实际应用需求，确定上述预置的标点稳定条件。可选地，可以根据标点添加处理的特性，确定上述预置的标点稳定条件。

在本发明的一种可选实施例中，假设通过标点添加装置进行标点添加处理，由于标点添加装置进行的一次标点添加处理通常涉及多个字符单元，也即，标点添加装置进行的一次标点添加处理通常用到多个字符单元，这样，标点添加装置设置可以确定其输出的文本中哪些字符单元已不被用到、以及哪些字符单元还将被用到，故可由标点添加装置设置其输出的文本中各个字符单元的稳定标识；例如，该稳定标识为1表示字符单元的标点是稳定的，该稳定标识为0表示字符单元的标点不是稳定的等等。本发明实施例可以根据当前时刻的文本中各个字符单元的稳定标识，从当前时刻的文本中获取当前时刻的有效文本。例如，当前时刻的文本中，位于后部的若干个字符单元的稳定标识为0，其他字符单元(也即位于前部的字符单元)的稳定标识为1等。

在本发明的另一种可选实施例中，所述有效文本符合预置的标点稳定条件，具体可以包括：所述有效文本为当前时刻的文本中除了位于后部的(M-1)个字符单元之外的文本；所述字符单元可以包括：词和/或标点符号，M为一次标点添加处理涉及的字符单元的数量。由于一次标点添加处理涉及的字符单元的数量为M，故当前时刻的文本中除了位于后部的(M-1)个字符单元可能被下一次标点添加处理用到。可选地，在通过语言模型对语音识别结果进行标点添加处理的情况下，M可以为语言模型的一次标点添加处理涉及的字符单元的数量，例如，若语言模型为N元文法语言模型，则M≤N；又如，若语言模型为神经网络语言模型，则M的值可由本领域技术人员依据实际应用需求确定。

在本发明的再一种可选实施例中，上述获取当前时刻的有效文本所包含的目标标点，具体可以包括：从当前时刻的有效文本包含的倒数第M个字符单元开始，按照从后到前的顺序查找当前时刻的有效文本包含的标点，作为当前时刻的有效文本所包含的目标标点。可选地，可将按照从后到前的顺序查找得到的第一个标点，作为目标标点；当然，目标标点还可以为按照从后到前的顺序查找得到的第二个标点等。

在本发明的又一种可选实施例中，所述当前时刻的有效文本可以不包括：已输出的目标分句，这样，可以避免目标分句的重复处理。在实际应用中，可以在当前时刻的文本中去除已输出的目标分句，以得到当前时刻的有效文本，其中，已输出的目标分句通常位于当前时刻的文本的前部。

在本发明的一种可选实施例中，当前时刻的有效文本的获取过程可以包括：在未输出目标分句的情况下，获取当前时刻的文本中除了位于后部的(M-1)个字符单元之外的文本，作为当前时刻的有效文本；在已输出目标分句的情况下，在当前时刻的文本中去除已输出的目标分句、以及位于后部的(M-1)个字符单元，以得到当前时刻的有效文本。可以理解，本发明实施例对于当前时刻的有效文本的具体获取过程不加以限制。

在实际应用中，语音信号S对应的句子可看作是由许多词组成的一个词串，记作W＝{w₁，w₂，…，w_n}。语音识别的过程就是根据已知的语音特征序列O，求出最可能的词串W。考虑到词串W的长度与词之间的上下文联系，同一位置的词(如W_j，1≤j≤n)可能在不同时刻的语音识别结果中发生变化。例如，语音信号对应的理想语音识别结果为“今天上午十点新阅读读书会“遇见”五周年庆典开场活动即将拉开帷幕啦！”，则在某时刻T_k的语音识别结果可以为：“今天上午十点新月嘟嘟”，在某时刻T_k+1的语音识别结果为“今天上午十点新阅读读书会”。可以理解，本发明实施例对于同一位置的词在不同时刻的语音识别结果中发生的具体变化不加以限制。另外，同一位置的词在不同时刻的语音识别结果中可能是一致的。

本发明实施例依据当前时刻的有效文本所包含的目标标点确定翻译时机，具体地，可以判断所述目标标点是否符合预置的识别结果稳定条件，在所述目标标点符合预置的识别结果稳定条件的情况下，说明目标标点及其之前的语音识别结果具备稳定性，因此可以针对当前时刻的有效文本中目标标点及其之前的字符组成的目标分句，进行第一翻译，具体地，第一翻译可以将该目标分句翻译为目标语种的文字。

在本发明的一种可选实施例中，所述判断所述目标标点是否符合预置的识别结果稳定条件，具体可以包括：依据所述目标标点对当前时刻的有效文本、以及T_k之前的时刻的有效文本进行截断处理；若当前时刻的有效文本对应的在先截断处理结果与T_k之前的时刻的有效文本对应的在先截断处理结果一致，则判定所述目标标点符合预置的识别结果稳定条件。上述截断处理可以将当前时刻的文本、以及T_k之前的时刻的文本划分为两个部分，假设两个部分包括：在先截断结果和在后截断结果，其中，在线截断结果可以包括：当前时刻的有效文本中目标标点及其之前的字符，则在当前时刻的有效文本对应的在先截断处理结果与T_k之前的时刻的有效文本对应的在先截断处理结果一致的情况下，可以判定所述目标标点符合预置的识别结果稳定条件，因此可以将当前时刻的有效文本对应的在先截断处理结果作为目标分句。

假设当前时刻为T_k，则T_k之前的时刻可以包括：T_k-1、T_k-2、T_k-3等，需要说明的是，预置的识别结果稳定条件对应的T_k之前的时刻的数量可以大于或等于1，具体地，若当前时刻T_k的有效文本对应的在先截断处理结果与上一时刻T_k-1的有效文本对应的在先截断处理结果一致，则判定所述目标标点符合预置的识别结果稳定条件；或者，若当前时刻的有效文本对应的在先截断处理结果与上一时刻和上上时刻(T_k-1和T_k-2)的有效文本对应的在先截断处理结果均一致，则判定所述目标标点符合预置的识别结果稳定条件，可以理解，本发明实施例对于预置的识别结果稳定条件对应的T_k之前的时刻的具体数量不加以限制。需要说明的是，本公开中的M、N、T、p、n、k可以均为正整数。

为使本领域技术人员更好地理解本发明实施例，在此通过具体的示例说明技术方案1的从所述文本中获取目标分句的过程。

在该示例中，假设预置时间周期为1s，假设通过N元文法语言模型对语音识别结果进行标点添加处理，N小于或等于5，则按照预置时间周期获取的经过标点添加处理的语音识别结果对应的文本可以包括：

第1秒：今天天气

第2秒：今天天气不错，我们

第3秒：今天天气不错，我们出去爬山

第4秒：今天天气不错，我们出去爬山你觉得怎么样？

该示例对应的从所述文本中获取目标分句的过程可以包括：

步骤S1、将不同时刻的经过标点添加处理的语音识别结果对应的文本写入缓存区；

步骤S2、获取当前时刻的有效文本，若获取失败，则重复执行步骤S1和步骤S2，若获取成功，则执行步骤S3，并重复执行步骤S1和步骤S2；

获取当前时刻的有效文本的过程可以包括：获取当前时刻的文本中除了位于后部的(M-1)个字符单元之外的文本，作为当前时刻的有效文本。

步骤S3、获取当前时刻的有效文本所包含的目标标点；

上述获取当前时刻的有效文本所包含的目标标点，具体可以包括：从当前时刻的有效文本包含的倒数第M个字符单元开始，按照从后到前的顺序查找当前时刻的有效文本包含的标点，作为当前时刻的有效文本所包含的目标标点。

步骤S4、判断所述目标标点是否符合预置的识别结果稳定条件；

上述判断所述目标标点是否符合预置的识别结果稳定条件，具体可以包括：依据所述目标标点对当前时刻的有效文本、以及上一时刻的有效文本进行截断处理；若当前时刻的有效文本对应的在先截断处理结果与上一时刻的有效文本对应的在先截断处理结果一致，则判定所述目标标点符合预置的识别结果稳定条件。

步骤S5、在目标标点符合预置的识别结果稳定条件时，将所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本作为目标分句。

假设当前时刻为第4s对应的时刻，M＝5，则可以获取当前时刻对应的有效文本“今天天气不错，我们出去爬山”，进一步，可以获取当前时刻的有效文本所包含的目标标点，该目标标点为“不错”与“我们”之间的逗号；进一步，可以判断当前时刻与上一时刻对应的在线截断结果是否一致，相应的判断结果为是，因此可以基于目标标点得到目标分句“今天天气不错，”。

技术方案2

技术方案2中，上述从所述文本中获取目标分句的过程，可以包括：依据所述文本所包含分句的信息，从所述文本中获取所述分句的信息符合预置条件的分句，作为目标分句；所述分句的信息可以包括：分句数量和字数。技术方案2可以依据文本所包含分句的信息，对当前需要进行机器翻译的目标分句进行控制，以避免发送给机器翻译装置的句子过长或过短的情形，因此可以有效提高翻译的准确率和实时率。

本发明实施例中，分句数量可用于表示文本包含几个分句，字数可用于表示文本包含的部分或全部分句所占用的字符数，分句数量和字数的组合可以对机器翻译的质量(准确率和实时率)产生影响，因此可以作为获取目标分句的依据。

本发明实施例可以提供上述从所述文本中获取所述分句的信息符合预置条件的分句的如下技术方案：

技术方案A1、若所述文本中位于前面的分句的数量超过第一数量阈值、且所述位于前面的分句的字数超过第一字数阈值，则将所述位于前面的分句作为目标分句。也即，技术方案A1中，预置条件可以包括：文本中位于前面的分句的数量超过第一数量阈值、且所述位于前面的分句的字数超过第一字数阈值。

技术方案A1可以适用于文本所包含分句对应的复句为短句的情况，可以判断文本中位于前面的短句的数量是否超过第一字数阈值n1，以及判断所述位于前面的分句的字数是否超过第一字数阈值m1，若判断结果均为是，则按照从前到后的顺序对文本所包含的n1个短句进行拼接，并将拼接结果发送给机器翻译装置进行翻译，其中，n1和m1均为正整数。可见，技术方案A1通过对短句对应的分句进行拼接，使得拼接后的目标分句的结构更加完整，提高了翻译的准确率。

在本发明的一种应用示例1中，假设队列中存储的文本包括位于前面的“今天天气不错，”、“我们出去钓鱼吧，”两个分句，该两个分句所占用的字数为15，假设n1＝2，m1＝10，由于该两个分句的数量超过n1、且该两个分句的字数超过m1，故可以将该两个分句作为目标分句，由于可以将结构更加完整的多个分句作为整体发送给机器翻译装置，故可以提高翻译的准确率。

可以理解，上述n1＝2、m1＝10只是作为本发明实施例的n1、m1的可选实施例，实际上，本领域技术人员可以根据实际应用需求，确定n1、m1的具体数值，例如，可以基于翻译的准确率和实时率两个特征对n1和m1的当前值进行测试，若当前值不通过测试，则对当前值进行更新，直至当前值通过测试；其中，该当前值可以具有对应的初始值，如n1的初始值为1，m1的初始值为1等；可以依据当前值情况下翻译的准确率和实时率判断当前值是否通过测试，具体，若当前值情况下翻译的准确率和实时率分别在对应的预设范围内，则通过测试，否则，若当前值情况下翻译的准确率和实时率分别不在对应的预设范围内，则不通过测试。可以理解，本发明实时率对于n1、m1的具体数值及其确定方式不加以限制。

在本发明的一种可选实施例中，在将所述位于前面的分句作为当前需要进行机器翻译的目标分句向机器翻译装置发送后，还可以在缓存区中删除该位于前面的分句，以有效节省缓存区所占用的空间。

技术方案A2、若所述文本中位于前面的分句的数量与延迟阈值的差值D为第二数量阈值的倍数、且所述位于前面的分句的字数超过第二字数阈值，则将所述位于前面的D个分句作为当前需要进行机器翻译的目标分句；其中，D为正整数。也即，技术方案A2中，预置条件可以包括：文本中位于前面的分句的数量与延迟阈值的差值D为第二数量阈值的倍数、且所述位于前面的分句的字数超过第二字数阈值。

技术方案A2可以适用于文本所包含分句对应的复句为长句的情况，对于长句，在将语音信号转换为文本的过程中，前后的语音信号对应的文本可能会相互影响，例如，前面的语音信号对应的文本可能随着后面的语音信号对应的文本而发生变化，这样，长句对应文本并不是完全稳定的。因此，为了提高翻译的准确率，需要在长句的结构基本稳定后再进行翻译。也即，技术方案A2可以通过切分长句，使得不需要得到整个长句完全固定了才进行翻译，提高了翻译的实时率和准确率。

技术方案2通过延迟阈值P表示文本中位于后面的不稳定的分句，也即文本中位于后面的P个分句为延迟发送的分句，P能够使得复句的变化不会太大。并且，技术方案2通过第二数量阈值n2表示每次正常发送的分句的数量，这样，在文本包含位于前面的M*n2+P个分句时，若M*n2+P个分句的总字数超过第二字数阈值m2，则可以将位于前面的M*n2个分句作为整体发送给机器翻译装置进行翻译，其中，P、n2、M、m2均为正整数。

在本发明的一种应用示例2中，假设队列中的文本包括位于前面的分句“哦，”、“好的”、“我要去问问我妈妈，”、“今天我们有安排吗，”、“如果没安排的话，”、“我就跟你一块儿去钓鱼。”，假设n2＝2，m2＝15，P＝2，则由于位于前面的文本“哦，好的，我要去问问我妈妈，今天我们有安排吗，”包含4个分句，且该4个分句的总字数超过m2，则可以将4个分句中的前(4-2)个分句发送给机器翻译装置；接着，位于前面的文本“哦，好的，我要去问问我妈妈，今天我们有安排吗，今天我们有安排吗，如果没安排的话，”包含6个分句，且该6个分句的总字数超过m2，则可以将6个分句中的前(6-2)个分句发送给机器翻译装置。

在本发明的一种可选实施例中，所述从所述文本中获取所述分句的信息符合预置条件的分句的步骤，还可以包括：在将所述位于前面的D个分句作为目标分句后，若所述文本中存在第二预设标点符号，则将所述第二预设标点符号及其之前的字符作为目标分句。上述应用示例2中，在将6个分句中的前(6-2)个分句发送给机器翻译装置后，假设位于前面的文本“哦，好的，我要去问问我妈妈，今天我们有安排吗，今天我们有安排吗，如果没安排的话，我就跟你一块儿去钓鱼。”包含第二预设标点符号“。”，则可以将所有的文本发送给机器翻译装置。

可选地，该第二预设标点符号可以包括：句号、感叹号、问号等，该第二预设标点符号使得对应的第二分句及其之前的分句具有一定的独立性以至于具有明确的意义，也即，该第二分句及其之前的分句的翻译的准确率可以不受后续分句的影响；因此，本发明实施例可以依据第二预设标点符号将P个延迟发送的分句发送至机器翻译装置。可选地，该第二预设标点符号可由第一转换装置依据语音信号的间隔和/或语言模型添加得到，本发明实施例对于该第二预设标点符号的添加方式不加以限制。

在本发明的一种可选实施例中，在将所述第二预设标点符号及其之前的字符作为目标分句输出后，还可以在缓存区中删除第二预设标点符号及其之前的字符，以有效节省缓存区所占用的空间。

在实际应用中，本发明实施例可以根据实际应用需求，采用上述技术方案A1和技术方案A2中的任一或者组合。例如，在本发明的一种可选实施例中，可以判断文本所包含分句对应的复句为短句或者长句，若为短句，则可以采用技术方案A1，若为长句，则可以采用技术方案A2。

可选地，可以依据文本所包含分句的总字数及文本所包含的分句是否包含预置标志位，判断文本所包含分句对应的复句为短句或者长句。其中，该预置标志位可以用于标识分句的结束，该预置标志位可由第一转换装置根据语音信号的分析结果添加。可选地，若所述文本的总字数未超过第三字数阈值n3、且所述文本中存在预置标志位，则可以认为文本所包含分句对应的复句为短句，否则，若所述文本的总字数超过第三字数阈值、且所述文本中不存在预置标志位，则可以认为文本所包含分句对应的复句为长句。在本发明的一种应用示例中，该第三字数阈值n3可以为30，可以理解，本领域技术可以根据实际应用需求确定该第三字数阈值n3的值，本发明实施例对于第三字数阈值n3的具体数值不加以限制。

综上，技术方案2可以依据分句的数量和字数，通过对短句对应的分句进行拼接，使得拼接后的目标分句的结构更加完整，提高了翻译的准确率。又如，本发明实施例可以依据分句的数量和字数，通过切分长句，使得不需要得到整个长句完全固定了才进行翻译，故能够提高翻译的实时率和准确率。

在实际应用中，步骤303可以通过机器翻译装置对所述目标分句进行翻译，并将得到的第一翻译结果输出。可选地，可以将该第一翻译结果展示给用户，以向用户提供实时的翻译结果。

步骤304可以在检测到语音识别结果对应的当前停顿的情况下，将上一停顿与当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果。由于上一停顿与当前停顿之间的、经过标点添加处理的语音识别结果对应的文本具有一定的完整性，因此，可以提高第二翻译结果的质量。

本发明实施例中，语音识别结果对应的停顿可以包括：语音停顿，和/或，语义停顿。

其中，语音停顿可以指语音信号的停顿。在实际应用中，可以通过可以利用VAD(语音活动检测，Voice Activity Detection)技术检测语音信号的停顿。VAD可以在平稳或者非平稳噪声下准确检测有效的语音信号和无效的语音信号(如静音和/或噪音等)，其中，在静音的时长超过预设时长时，可以认为出现语音信号的停顿。当然，本发明实施例对于语音信号的停顿对应的具体检测方式不加以限制。

语义停顿可以指语音识别结果在语义层次的停顿。在实际应用中，可以利用语义停顿检测模型检测经过标点添加处理的语音识别结果对应的文本中的语义停顿。具体地，语义停顿检测模型可以经过语义停顿标注的标点文本样本进行机器学习，以学习标点文本样本中存在的语义停顿的深层特征，进而可以利用语义停顿检测模型检测经过标点添加处理的语音识别结果对应的文本中的语义停顿。可以理解，本发明实施例对于语义停顿对应的具体检测方式不加以限制。

本发明实施例输出的第二翻译结果可用于替换第一翻译结果，这样可以最终向用户提供翻译质量更高的第二翻译结果。

综上，本发明实施例依据当前时刻的有效文本所包含的目标标点确定翻译时机，具体地，在所述目标标点符合预置的识别结果稳定条件的情况下，说明目标标点及其之前的语音识别结果具备稳定性，因此可以将向机器翻译装置发送当前时刻的有效文本中目标标点及其之前的字符组成的目标分句，以使机器翻译装置将该目标分句翻译为目标语种的文字。由于本发明实施例可以在语音信号出现停顿之前输出目标分句，以使机器翻译装置对该目标分句进行翻译，故可以有效减少翻译结果滞相对于语音信号的滞后性，且可以提高翻译结果的实时性，有效提升用户体验。并且，本发明实施例的目标分句是依据目标标点截断得到的，故可以提高目标分句的完整性，进而可以通过第二翻译结果提高最终向用户提供的翻译结果的质量。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图4，示出了本发明的一种语音翻译装置实施例的结构框图，具体可以包括：

文本获取模块401，用于获取经过标点添加处理的语音识别结果对应的文本；

目标分句获取模块402，用于从所述文本中获取目标分句；

第一翻译模块403，用于对所述目标分句进行翻译，并将得到的第一翻译结果输出；以及

第二翻译模块404，用于当检测到语音识别结果对应的当前停顿，将上一停顿与该当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果。

可选地，语音识别结果对应的停顿可以包括：语音停顿，和/或，语义停顿。

可选地，所述目标分句获取模块可以包括：

目标分句输出子模块，用于在所述目标标点符合预置的识别结果稳定条件，输出目标分句；所述目标分句可以包括：所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。

可选地，所述装置还可以包括：用于判断所述目标标点是否符合预置的识别结果稳定条件的判断模块；

所述判断模块可以包括：

可选地，所述有效文本符合预置的标点稳定条件，可以包括：

所述有效文本为当前时刻的文本中除了位于后部的M-1个字符单元之外的文本；所述字符单元可以包括：词和/或标点符号；M为一次标点添加处理涉及的字符单元的数量。

可选地，所述目标分句获取模块可以包括：

目标分句获取子模块，用于依据所述文本所包含分句的信息，从所述文本中获取所述分句的信息符合预置条件的分句，作为目标分句；所述分句的信息可以包括：分句数量和字数。

可选地，所述目标分句获取子模块可以包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供了一种语音翻译装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取经过标点添加处理的语音识别结果对应的文本；从所述文本中获取目标分句；对所述目标分句进行翻译，并将得到的第一翻译结果输出；当检测到语音识别结果对应的当前停顿，将上一停顿与该当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果。

可选地，所述从所述文本中获取目标分句，包括：

获取当前时刻的有效文本所包含的目标标点；

在所述目标标点符合预置的识别结果稳定条件，输出目标分句；所述目标分句包括：所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。

可选地，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

依据所述目标标点对当前时刻T_k的有效文本、以及T_k之前的时刻的有效文本进行截断处理；

若当前时刻的有效文本对应的在先截断处理结果与T_k之前的时刻的有效文本对应的在先截断处理结果一致，则判定所述目标标点符合预置的识别结果稳定条件。

可选地，所述有效文本符合预置的标点稳定条件，包括：

可选地，所述从所述文本中获取目标分句，包括：

依据所述文本所包含分句的信息，从所述文本中获取所述分句的信息符合预置条件的分句，作为目标分句；所述分句的信息包括：分句数量和字数。

可选地，所述从所述文本中获取所述分句的信息符合预置条件的分句，包括：若所述文本中位于前面的分句的数量超过第一数量阈值、且所述位于前面的分句的字数超过第一字数阈值，则将所述位于前面的分句作为目标分句；或者若所述文本中位于前面的分句的数量与延迟阈值的差值D为第二数量阈值的倍数、且所述位于前面的分句的字数超过第二字数阈值，则将所述位于前面的D个分句作为目标分句；其中，D为正整数。

图5是根据一示例性实施例示出的一种用于语音翻译的装置作为终端时的框图。例如，终端900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，终端900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制终端900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理***，一个或多个电源，及其他与为终端900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当终端900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为终端900提供各个方面的状态评估。例如，传感器组件914可以检测到终端900的打开/关闭状态，组件的相对定位，例如所述组件为终端900的显示器和小键盘，传感器组件914还可以检测终端900或终端900一个组件的位置改变，用户与终端900接触的存在或不存在，终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由终端900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是根据一示例性实施例示出的一种用于语音翻译的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1932，上述指令可由服务器1900的处理器执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种语音翻译方法，所述方法包括：获取经过标点添加处理的语音识别结果对应的文本；从所述文本中获取目标分句；对所述目标分句进行翻译，并将得到的第一翻译结果输出；当检测到语音识别结果对应的当前停顿，将上一停顿与该当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语音翻译方法、一种语音翻译装置、一种用于语音翻译的装置、以及一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音翻译方法，其特征在于，包括：

获取经过标点添加处理的语音识别结果对应的文本；

从所述文本中获取目标分句；

对所述目标分句进行翻译，并将得到的第一翻译结果输出；

当检测到语音识别结果对应的当前停顿，将上一停顿与所述当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果；

所述从所述文本中获取目标分句，包括：

获取当前时刻的有效文本所包含的目标标点；所述当前时刻的有效文本符合预置的标点稳定条件；在所述目标标点符合预置的识别结果稳定条件，输出目标分句；所述目标分句包括：所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本；或者

依据所述文本所包含分句的信息，从所述文本中获取所述分句的信息符合预置条件的分句，作为目标分句；所述分句的信息包括：分句数量和字数；

其中，所述从所述文本中获取所述分句的信息符合预置条件的分句，包括：

若所述文本中位于前面的分句的数量超过第一数量阈值、且所述位于前面的分句的字数超过第一字数阈值，则将所述位于前面的分句作为目标分句；或者

若所述文本中位于前面的分句的数量与延迟阈值的差值D为第二数量阈值的倍数、且所述位于前面的分句的字数超过第二字数阈值，则将所述位于前面的D个分句作为目标分句；其中，D为正整数。

2.根据权利要求1所述的方法，其特征在于，语音识别结果对应的停顿包括：语音停顿，和/或，语义停顿。

3.根据权利要求1所述的方法，其特征在于，通过如下步骤判断所述目标标点是否符合预置的识别结果稳定条件：

4.根据权利要求1所述的方法，其特征在于，所述有效文本符合预置的标点稳定条件，包括：

5.一种语音翻译装置，其特征在于，包括：

目标分句获取模块，用于从所述文本中获取目标分句；

第二翻译模块，用于当检测到语音识别结果对应的当前停顿，将上一停顿与所述当前停顿之间的、经过标点添加处理的语音识别结果对应的文本进行第二翻译，并将得到的第二翻译结果输出，以将所述第一翻译结果替换为所述第二翻译结果；

所述目标分句获取模块包括：目标标点获取子模块和目标分句输出子模块；或者，所述目标分句获取模块包括：目标分句获取子模块；

其中，所述目标标点获取子模块，用于获取当前时刻的有效文本所包含的目标标点；所述当前时刻的有效文本符合预置的标点稳定条件；

所述目标分句输出子模块，用于在所述目标标点符合预置的识别结果稳定条件，输出目标分句；所述目标分句包括：所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本；

所述目标分句获取子模块，用于依据所述文本所包含分句的信息，从所述文本中获取所述分句的信息符合预置条件的分句，作为目标分句；所述分句的信息包括：分句数量和字数；

所述目标分句获取子模块包括：

6.根据权利要求5所述的装置，其特征在于，语音识别结果对应的停顿包括：语音停顿，和/或，语义停顿。

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：用于判断所述目标标点是否符合预置的识别结果稳定条件的判断模块；

所述判断模块包括：

8.根据权利要求5所述的装置，其特征在于，所述有效文本符合预置的标点稳定条件，包括：

9.一种用于语音翻译的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取经过标点添加处理的语音识别结果对应的文本；

从所述文本中获取目标分句；

对所述目标分句进行翻译，并将得到的第一翻译结果输出；

所述从所述文本中获取目标分句，包括：

10.根据权利要求9所述的装置，其特征在于，语音识别结果对应的停顿包括：语音停顿，和/或，语义停顿。

11.根据权利要求9所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

12.根据权利要求9所述的装置，其特征在于，所述有效文本符合预置的标点稳定条件，包括：

13.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至4中一个或多个所述的语音翻译方法。