CN113591491B

CN113591491B - 语音翻译文本校正***、方法、装置及设备

Info

Publication number: CN113591491B
Application number: CN202010366777.5A
Authority: CN
Inventors: 曹宇
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2023-12-26
Anticipated expiration: 2040-04-30
Also published as: CN113591491A

Abstract

本申请公语音翻译文本校正***、方法、装置及相关设备。其中，所述***通过服务端确定与客户端实时采集的语音流数据对应的源语言文本片段，将文本片段发送至客户端；以及，接收客户端发送的人工校正后第一子句文本，确定与第一子句文本对应的目标语言第二子句文本，将第二子句文本发送至客户端；客户端实时采集语音流数据，发送语音流数据；以及，显示文本片段，确定第一子句文本，发送第一子句文本；以及，显示第二子句文本。采用这种处理方式，使得随着实时语音识别进度，对原文子句文本进行人工校正，并在一句话识别完成前，对经过人工校正的原文子句文本进行翻译，实现子句粒度的翻译文本校正处理；因此，可以有效提升校正效率和校正质量。

Description

语音翻译文本校正***、方法、装置及设备

技术领域

本申请涉及机器语音翻译技术领域，具体涉及语音翻译文本校正***、方法和装置，以及电子设备。

背景技术

随着信息国际化时代的到来和各种社会需求的日渐迫切，语音自动翻译技术研究受到越来越广泛的关注。语音翻译又常被称为口语翻译(Spoken Language Translation，SLT)，就是让计算机实现从一种语言的语音到另一种语言的语音翻译的过程。

语音翻译是一种语音识别结合机器翻译的技术。在实时语音识别结合机器翻译(同声传译)的场景中，由于技术、环境和人为等因素的影响，会导致语音识别结果不准确，进而导致翻译结果错误，因此需要人工介入对识别结果和翻译结果做实时性的干预修正。在实时识别场景中，由于节奏快且时间短，所以完全由人工进行干预的难度较大。目前，一种典型的语音翻译结果校正方式是，先通过实时语音翻译模型对语音进行识别、翻译，并将翻译结果实时显示在屏幕上，待一整句翻译完成后，再对该句语音翻译结果进行自动化的干预处理，然后再由人工进行干预处理。

然而，在实现本发明过程中，发明人发现现有技术至少存在如下问题：由于需要在一整句翻译完成后，再对语音翻译结果进行自动化的干预处理，且只具备简单的翻译结果干预能力，因此对语音翻译结果进行自动化干预的速度较慢，进而导致人工干预接入时机较晚，从而导致错误翻译字幕在屏幕上停留时间较长，并且翻译文本校正质量较差。因此，如何提升对语音翻译结果的整体校正效率及校正质量，以缩短错误翻译字幕在屏幕上停留时间、提升翻译质量，以成为本领域技术人员需要迫切解决的问题。

发明内容

本申请提供语音翻译文本校正***，以解决现有技术存在的语音翻译文本校正质量和校正效率均较低的问题。本申请另外提供语音翻译文本校正方法和装置，以及电子设备。

本申请提供一种语音翻译文本校正***，包括：

服务端，用于确定与客户端实时采集的语音流数据对应的源语言的文本片段，将文本片段发送至客户端；以及，接收客户端发送的人工校正后的第一子句文本，确定与第一子句文本对应的目标语言的第二子句文本，将第二子句文本发送至客户端；

客户端，用于实时采集语音流数据，发送语音流数据；以及，显示所述文本片段，确定第一子句文本，发送第一子句文本；以及，显示第二子句文本。

本申请还提供一种语音翻译文本校正方法，包括：

确定与客户端实时采集的语音流数据对应的源语言的文本片段，将文本片段发送至客户端；

接收客户端发送的人工校正后的第一子句文本；

确定与第一子句文本对应的目标语言的第二子句文本，将第二子句文本发送至客户端。

可选的，还包括：

对第一子句文本执行校正处理，作为校正后的第三子句文本；

所述确定与第一子句文本对应的目标语言的第二子句文本，包括：

确定与第三子句文本对应的所述第二子句文本。

可选的，所述对第一子句文本执行校正处理，包括：

对所述第一子句文本执行方言校正处理。

可选的，所述对第一子句文本执行校正处理，包括：

根据实体词替换规则信息，对第一子句文本执行实体词替换处理。

可选的，所述实体词替换规则包括：人名替换规则，企业实体名替换规则。

可选的，所述对第一子句文本执行校正处理，包括：

根据黑名单过滤规则信息，对第一子句文本执行黑名单过滤处理。

可选的，还包括：

对第二子句文本执行校正处理。

可选的，还包括：

根据热词信息，优化语音识别模型和/或语音翻译模型。

可选的，还包括：

确定所述第二子句文本包括的译文不确定的词、及所述译文不确定的词的多个候选译文词；

向客户端发送所述译文不确定的词和候选译文词，以便于客户端用户根据候选译文词，修改所述译文不确定的词。

可选的，根据相似词表，确定所述译文不确定的词和所述多个候选译文词。

本申请还提供一种语音翻译文本校正方法，包括：

实时采集语音流数据，将语音流数据发送至服务端；

显示服务端回送的与语音流数据对应的源语言的文本片段；

确定人工校正后的第一子句文本，将第一子句文本发送至服务端；

显示服务端回送的与第一子句文本对应的目标语言的第二子句文本。

可选的，还包括：

确定与第二子句文本对应的人工校正后的第三子句文本；

将显示的第二子句文本更新为第三子句文本。

可选的，通过第一显示装置，执行人工校正原文处理；

通过第二显示装置，显示与语音进度对应的源语言文本和目标语言文本。

可选的，所述确定人工校正后的第一子句文本，包括：

确定第一显示装置中第二显示装置已经显示完成的源语言的历史文本；

将第一显示装置显示的所述已经显示完成的源语言的历史文本调整为第三显示属性。

可选的，所述确定人工校正后的第一子句文本，包括：

根据调整的标点符号，调整所述第一子句文本。

可选的，所述确定人工校正后的第一子句文本，包括：

根据单步回退指令，还原单步修改前的文本。

可选的，所述确定人工校正后的第一子句文本，包括：

根据句子回退指令，还原修改前的句子文本。

可选的，所述确定人工校正后的第一子句文本，包括：

以句子隔离方式，显示各个句子文本。

可选的，所述确定人工校正后的第一子句文本，包括：

以第一显示属性显示光标聚焦的句子文本，以第二显示属性显示非光标聚焦的句子文本。

可选的，所述确定人工校正后的第一子句文本，包括：

若执行文本选取操作，则显示文本处理快捷操作选项。

可选的，所述文本处理快捷操作选项包括：添加热词选项，添加实体词替换规则选项，人称代词快速切换选项，标点符号快速切换选项，划选文本区域删除选项，整句删除选项。

可选的，所述确定与第二子句文本对应的人工校正后的第三子句文本，包括：

以句子隔离方式，显示各个句子文本。

以第一显示属性显示光标聚焦的目标语言的句子文本，以第二显示属性显示非光标聚焦的目标语言的句子文本。

确定与光标聚焦的目标语言的句子文本对应的源语言的句子文本；

以第一显示属性显示所述源语言的句子文本。

可选的，所述第一显示属性包括：高亮显示；

所述第二显示属性包括：非高亮显示。

根据句子删除指令，删除句子文本。

可选的，通过第一显示装置，执行人工校正译文处理；

通过第二显示装置，显示与语音进度对应的源语言文本和目标语言文本；

所述确定与第二子句文本对应的人工校正后的第三子句文本，包括：

确定第一显示装置中第二显示装置已经显示完成的目标语言的历史文本；

将第一显示装置显示的目标语言的历史文本调整为第三显示属性。

可选的，还包括：

确定语音流数据的音量增益；

根据音量增益和音量增益阈值，调整语音流数据的音量增益。

可选的，还包括：

以句子对齐方式，显示源语言的第一子句文本和目标语言的第二子句文本。

可选的，还包括：

接收服务端发送的所述第二子句文本包括的译文不确定的词、及所述译文不确定的词的多个候选译文词；

根据候选译文词，修改所述译文不确定的词。

本申请还提供一种语音翻译文本校正装置，包括：

语音识别单元，用于确定与客户端实时采集的语音流数据对应的源语言的文本片段，将文本片段发送至客户端；

数据接收单元，用于接收客户端发送的人工校正后的第一子句文本；

语音翻译单元，用于确定与第一子句文本对应的目标语言的第二子句文本，将第二子句文本发送至客户端。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音翻译文本校正方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定与客户端实时采集的语音流数据对应的源语言的文本片段，将文本片段发送至客户端；接收客户端发送的人工校正后的第一子句文本；确定与第一子句文本对应的目标语言的第二子句文本，将第二子句文本发送至客户端。

本申请还提供一种语音翻译文本校正装置，包括：

语音数据采集及发送单元，用于实时采集语音流数据，将语音流数据发送至服务端；

原文显示单元，用于显示服务端回送的与语音流数据对应的源语言的文本片段；

原文校正单元，用于确定人工校正后的第一子句文本，将第一子句文本发送至服务端；

译文显示单元，用于显示服务端回送的与第一子句文本对应的目标语言的第二子句文本。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现语音翻译文本校正方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：实时采集语音流数据，将语音流数据发送至服务端；显示服务端回送的与语音流数据对应的源语言的文本片段；确定人工校正后的第一子句文本，将第一子句文本发送至服务端；显示服务端回送的与第一子句文本对应的目标语言的第二子句文本。

本申请还提供一种语音翻译文本校正***，包括：

服务端，用于确定与语音数据播放进度对应的源语言的文本片段，将文本片段发送至客户端；以及，接收客户端发送的人工校正后的第一子句文本，确定与第一子句文本对应的目标语言的第二子句文本；

客户端，用于播放所述语音数据，显示文本片段，确定第一子句文本，发送第一子句文本。

本申请还提供一种语音翻译文本校正方法，包括：

确定与语音数据播放进度对应的源语言的文本片段，将文本片段发送至客户端；

接收客户端发送的人工校正后的第一子句文本；

确定与第一子句文本对应的目标语言的第二子句文本。

可选的，还包括：

将第二子句文本发送至客户端，以便于对第二子句文本执行人工校正处理。

本申请还提供一种语音翻译文本校正方法，包括：

播放所述语音数据；

显示服务端发送的与语音数据播放进度对应的源语言的文本片段；

确定第一子句文本，将第一子句文本发送至服务端，以使得服务端确定与第一子句文本对应的目标语言的第二子句文本。

可选的，还包括：

显示服务端发送的第二子句文本；

确定与对第二子句文本对应的人工校正后的第二子句文本。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的语音翻译文本校正***，通过服务端确定与客户端实时采集的语音流数据对应的源语言文本片段，将文本片段发送至客户端；以及，接收客户端发送的人工校正后第一子句文本，确定与第一子句文本对应的目标语言第二子句文本，将第二子句文本发送至客户端；客户端实时采集语音流数据，发送语音流数据；以及，显示文本片段，确定第一子句文本，发送第一子句文本；以及，显示第二子句文本；这种处理方式，使得随着实时语音识别进度，对源语言子句文本(如逗号分隔的半句话)进行人工校正，并在一句话识别完成前，对经过人工校正的源语言子句文本进行翻译，实现子句粒度的翻译文本校正处理，避免错误的翻译文本在屏幕上停留更长时间；因此，可以有效提升语音翻译文本的校正效率，从而有效缩短错误翻译文本的显示时间。此外，由于基于人工校正的源语言子句文本进行翻译，因此可以有效提升语音翻译文本的校正质量。此外，由于判断原文错误并干预的难度要比判断译文错误并干预的难度要小，因此可以进一步提升校正效率和校正质量。

本申请实施例提供的语音翻译文本校正***，通过服务端确定与语音数据播放进度对应的源语言的文本片段，将文本片段发送至客户端；以及，接收客户端发送的人工校正后的第一子句文本，确定与第一子句文本对应的目标语言的第二子句文本；客户端播放所述语音数据，显示文本片段，确定第一子句文本，发送第一子句文本；这种处理方式，使得随着语音播放进度，对源语言子句文本(如逗号分隔的半句话)进行人工校正，并在一句话识别完成前，对经过人工校正的源语言子句文本进行翻译，实现子句粒度的翻译文本校正处理；因此，可以有效提升语音翻译文本的校正质量和校正效率。

附图说明

图1本申请提供的一种语音翻译文本校正***的实施例的结构示意图；

图2本申请提供的一种语音翻译文本校正***的实施例的应用场景示意图；

图3本申请提供的一种语音翻译文本校正***的实施例的设备交互示意图；

图4本申请提供的一种语音翻译文本校正***的实施例的人工校正界面示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了语音翻译文本校正***、方法和装置，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请的语音翻译文本校正***的实施例的结构图。该***包括：服务端1，客户端2。

所述服务端1，可以是部署在云端服务器上的服务端，也可以是专用于实现语音翻译及翻译文本干预处理的服务器，可部署在数据中心。服务器，可以是集群服务器，也可以是单台服务器。

所述客户端2，包括但不限于移动通讯设备，即：通常所说的手机或者智能手机，还包括个人电脑、PAD、iPad等终端设备。

请参考图2，其为本申请的语音翻译文本校正***的场景示意图。服务端和客户端间可通过网络连接，如客户端可通过WIFI等方式联网，等等。在庭审现场和多人会议等场合中，客户端实时采集现场语音流数据，发送至服务端；服务端通过语音识别模型确定与语音流数据对应的源语言文本，通过语音翻译模型确定目标语言文本，将两种文本发送至客户端；客户端并将校正结果投屏到现场大屏幕上，供现场用户观看。同时，文本校正用户通过客户端对两种文本进行人工校正处理，并将校正结果同步更新至现场大屏幕上。

请参考图3，其为本申请的语音翻译文本校正***的实施例的设备交互示意图。在本实施例中，服务端用于确定与客户端实时采集的语音流数据对应的源语言的文本片段，将文本片段发送至客户端；以及，接收客户端发送的人工校正后的第一子句文本，确定与第一子句文本对应的目标语言的第二子句文本，将第二子句文本发送至客户端；客户端用于实时采集语音流数据，发送语音流数据；以及，显示文本片段，确定第一子句文本，发送第一子句文本；以及，显示第二子句文本。

在实现本发明过程中，发明人发现由于翻译结果(译文)是通过翻译语音识别结果(原文)获得的，所以大多数情况下的翻译错误都是由于语音识别结果错误导致的，同时判断原文错误并干预的难度要比判断译文错误并干预的难度要小，因此所述***首先对原文进行干预(校正)。在对原文进行干预后，将校正后的原文子句结合“流式结果快速翻译”的构思，达到译文的快速干预效果，无需等待整句话识别完成，便可以进行人工干预操作，使错误停留的时间缩到更短，针对字幕实时上屏的场景，可以避免错误在屏幕上停留更长时间。

在本实施例中，客户端部署语音识别结果编辑模块，也可称为原文编辑模块，该模块是所述***的核心模块，负责对语音识别结果(原文)进行编辑，该模块基于编辑器原理实现，具体实施方式可以是将文本标签设置contenteditable＝"true"属性，使之具备可编辑能力。

具体实施时，通过人工方式对原文进行校正，可采用如下方式的至少一个：

方式一、确定第一显示装置中第二显示装置已经显示完成的源语言的历史文本；将第一显示装置显示的源语言的历史文本调整为第三显示属性。

在本实施例中，客户端通过第一显示装置(校正处理屏幕)，由第一用户(文本校正人员)执行人工校正原文处理；通过第二显示装置(现场展示屏幕)，向第二用户(现场观众)显示与语音进度对应的源语言文本和目标语言文本。

在字幕投屏的场景下，可通过判断哪些语句已经离开现场展示屏幕显示区域，然后通过修改css样式，使该语句在校正处理屏幕中进行置灰处理，用以提示场控人员该句已经不在现场展示屏幕显示，可以不用投入过多尽力进行干预，避免浪费时间和做无用功。

方式二、根据调整的标点符号，调整所述第一子句文本。

该方式允许通过在原文中***句号等句末标点，以将一句话拆分为两句话，亦或将句末标点删除或改为句中标点而与后一句话组合成新的语句。由于调用翻译服务是以单句(可以是子句)为单位，所以合理的断句、合句操作会有效提升翻译结果的质量，从而达到提升翻译文本校正质量的效果。

具体实施时，可以是当一句话识别完结之前，如果出现了逗号，则将逗号前的子句内容提前调用后台优化服务和翻译服务，而不用等到整句识别完成。这样做的益处是，在原文和译文需要实时上屏的场景下，可以更快的将后台优化处理之后的更加准确的识别结果展示给观众看，同理也可以尽快的把部分子句的翻译结果提前展示给观众看。

方式三、根据单步回退指令，还原最后一步修改前的文本。

具体实施时，可以是支持mac***下的监听command+z的快捷键(windows***下监听ctrl+z的快捷键)对正在编辑的内容进行回退操作，便于场控人员在干预错误时进行单步的快速回退。

方式四、根据句子回退指令，还原修改前的句子文本。

具体实施时，可以是支持监听esc按键事件，对正在编辑中的语句进行一键还原操作。例如人工干预时发现该句并不需要进行干预，此时，可以通过按esc按键强制失焦，具体实施方式可以是对编辑器执行blur()方法，同时把已经编辑的内容替换为编辑前的原始内容，该方法同时是编译场控人员在干预错误时快速进行整句的完整回退。

方式五、以句子隔离方式，显示各个句子文本。

具体实施时，可以是通过对完整单语句进行css样式处理。例如，如图4所示，每句话增加闭合边框，两句话的边框中间增加一定距离的间隔，使得场控人员可以清楚划分识别结果中的每一句话。

方式六、以第一显示属性显示光标聚焦的句子文本，以第二显示属性显示非光标聚焦的句子文本。

具体实施时，可以是当光标聚焦某句内容时，在监听focus事件时，通过修改css样式对该句进行高亮显示，便于场控人员准确定位正在编辑的内容以及该句话的完整内容。

方式七、若执行文本选取操作，则显示文本处理快捷操作选项。

所述文本处理快捷操作选项包括：添加热词选项，添加实体词替换规则选项，人称代词快速切换选项，标点符号快速切换选项，划选文本区域删除选项，整句删除选项。

具体实施时，可以是通过鼠标划选文本，可以在划选区域附近自动展示快捷操作栏进行一键干预，快捷操作包括：添加热词、添加实体词替换规则、他她它快速切换、标点符号快速切换、划选区删除、整句删除。

在一个示例中，翻译文本校正人员还可以通过客户端对第二子句文本(译文)进行校正，客户端确定与第二子句文本对应的人工校正后的第三子句文本；将投放到现场大屏幕中的第二子句文本更新为第三子句文本。采用这种处理方式，支持翻译结果直接编辑，应用于原文识别正确，但是翻译结果不准确的情况，可以直接编辑译文内容。

在本实施例中，客户端部署机器翻译结果编辑模块，也可称为译文编辑模块，该模块是所述***中的次重要模块，由于翻译结果是通过翻译语音识别结果获得的，所以大多数情况下的翻译错误都是由于语音识别结果错误导致的，同时判断原文错误并干预的难度要比判断译文错误并干预的难度要小，所以译文干预所在的比重要小于原文干预，译文干预功能要少一些。

具体实施时，通过人工方式对译文进行校正，可采用如下方式的至少一个：

方式一、以句子隔离方式，显示各个句子文本。

具体实施时，可以是翻译结果按句展示，通过css样式进行语句隔离，无论是编辑还是删除都可以清楚判断当前语句内容。

方式二、以第一显示属性显示光标聚焦的目标语言的句子文本，以第二显示属性显示非光标聚焦的目标语言的句子文本。

具体实施时，可以是在鼠标聚焦时，当前语句通过修改css样式进行高亮显示。

具体实施时，还可以是确定与光标聚焦的目标语言的句子文本对应的源语言的句子文本；以第一显示属性显示所述源语言的句子文本。采用这种处理方式，使得通过id匹配对应的原文内容，然后对原文编辑区内的对应原文语句进行高亮显示，这样做有助于修改译文时，可以对照参考原文内容。

方式三、根据句子删除指令，删除句子文本。

具体实施时，可以是通过F1-F10按键，快捷删除翻译结果，当翻译结果非常差的时候，可以一键快速删除翻译结果，避免错误的翻译结果在屏幕上停留较长时间，该方法适合实时屏幕展示同传结果的场景。

方式四、确定第一显示装置中第二显示装置已经显示完成的目标语言的历史文本；将第一显示装置显示的目标语言的历史文本调整为第三显示属性。

具体实施时，可以是在翻译字幕投屏的场景下，通过判断哪些翻译结果已经离开屏幕显示区域，然后通过修改css样式，使该语句进行置灰处理，提示场控人员可以不再干预这句话，把更多的精力放在正在屏幕上显示中的翻译结果。

在一个示例中，客户端还用于确定语音流数据的音量增益；根据音量增益和音量增益阈值，调整语音流数据的音量增益。采用这种处理方式，使得支持音频流增益调节，从源头提高原文识别准确率。

在本实施例中，客户端部署增益调节模块。该模块可以理解为音量调节，客户端可根据音频流数据动态绘制音频波形图，通过音频波形图可以判断传入的语音音量是否过大或者过小，然后通过调节音量增益开关来改变音量增益。这样做的原因是因为，合理音量的音频流对提高算法识别质量有正向帮助。因此，合理调节音量增益，进而提升语音识别质量，进而降低人工干预工作量。

在一个示例中，服务端接收到客户端发送的人工校正后的第一子句文本后，还可对第一子句文本执行校正处理，将校正后的第三子句文本发送至客户端。相应的，服务端确定与第三子句文本对应的所述第二子句文本。相应的，客户端还可显示服务端回送的与第一子句文本对应的校正后的第三子句文本。采用这种处理方式，使得不仅通过机器进行原文优化，还可通过对优化后的原文进行翻译处理，提升翻译文本的质量，从而达到提升翻译文本校正质量的效果。

具体实施时，机器校正原文可以是对人工校正后的原文进行优化处理，如逆转文本标准化处理(Inverse Text Normalization，ITN)。ITN使用标准的格式化方式来展示日期、时间、地址和金额等对象。

具体实施时，机器校正原文可以是根据实体词替换规则信息，对第一子句文本执行实体词替换处理。所述实体词替换规则，包括但不限于：人名替换规则，企业实体名替换规则。实体词替换模块：支持将某个实体词A自动替换成实体词B，在某些场景下，用于解决一些频繁出现且固定的错误，降低人工校正成本，如“河马先生”＝>“盒马先生”。采用实体词替换的处理方式，可以以自动化手段提高原文质量。

具体实施时，机器校正原文可以是根据黑名单过滤规则信息，对第一子句文本执行黑名单过滤处理。黑名单过滤模块：在实时语音识别和机器翻译的场景中，当字幕向观众展示时，所有的语音识别结果和机器翻译结果均会经过黑名单词表过滤，将一些涉黄、涉爆等非法词汇过滤掉。黑名单词汇表数量较大，少则几百，多则上万，技术上采用AC自动机算法匹配黑名单词汇，然后采用字符串替换的方法将黑名单替换成空字符串。

具体实施时，机器校正原文还可以是对所述第一子句文本执行方言校正处理。所述方言，又称白话(Vernacular)、土话或土音，如北京话“倍儿”，表示特别、非常的意思。采用这种处理方式，使得将语音流数据中的方言转换为标准语，这样就可以确定出正确译文；因此，可以有效提升翻译文本校正质量。

在一个示例中，服务端还用于对第二子句文本执行校正处理，如译文实体词替换、黑名单过滤等等。

在一个示例中，服务端还用于根据热词信息，优化语音识别模型和/货语音翻译模型。热词管理模块：热词不同于实体词替换，热词可用于优化算法模型，热词表示发送给服务端的，用以提高热词的出现概率。用户通过客户端配置热词时，可对应配置热词的权重值，权重值越高热词出现的概率越大。

在一个示例中，客户端还用于以句子对齐方式，显示源语言的第一子句文本和目标语言的第二子句文本。采用这种处理方式，使得原文与译文在同一区域对照显示，以便于用户相互参照进行校正；因此，可以有效提升校正质量，并提升用户体验。

在一个示例中，服务端还可用于确定所述第二子句文本包括的译文不确定的词、及所述译文不确定的词的多个候选译文词；向客户端发送所述译文不确定的词和候选译文词，以便于客户端用户根据候选译文词，修改所述译文不确定的词；相应的，客户端还用于接收服务端发送的所述第二子句文本包括的译文不确定的词、及所述译文不确定的词的多个候选译文词；根据候选译文词，修改所述译文不确定的词。

所述译文不确定的词，包括可能有多种含义的原文对应的译文。机器根据上下文信息，仍无法确定那种译文更加准确。在这种情况下，服务端可给出标记(即多个候选词)，表明该词翻译可能不准确，提示人工修正或确认，可能有多个相同或类似的词。具体实施时，可根据相似词表，确定所述译文不确定的词和所述多个候选译文词。采用这种处理方式，可以有效提升翻译文本校正质量。

从上述实施例可见，本申请实施例提供的语音翻译文本校正***，通过服务端确定与客户端实时采集的语音流数据对应的源语言文本片段，将文本片段发送至客户端；以及，接收客户端发送的人工校正后第一子句文本，确定与第一子句文本对应的目标语言第二子句文本，将第二子句文本发送至客户端；客户端实时采集语音流数据，发送语音流数据；以及，显示文本片段，确定第一子句文本，发送第一子句文本；以及，显示第二子句文本；这种处理方式，使得随着实时语音识别进度，对源语言子句文本(如逗号分隔的半句话)进行人工校正，并在一句话识别完成前，对经过人工校正的源语言子句文本进行翻译，实现子句粒度的翻译文本校正处理，避免错误的翻译文本在屏幕上停留更长时间；因此，可以有效提升语音翻译文本的校正效率，从而有效缩短错误翻译文本的显示时间。此外，由于基于人工校正的源语言子句文本进行翻译，因此可以有效提升语音翻译文本的校正质量。此外，由于判断原文错误并干预的难度要比判断译文错误并干预的难度要小，因此可以进一步提升校正效率和校正质量。

第二实施例

与上述的语音翻译文本校正***相对应，本申请还提供一种语音翻译文本校正方法，该方法的执行主体包括但不限于服务器。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法包括如下步骤：

步骤1：确定与客户端实时采集的语音流数据对应的源语言的文本片段，将文本片段发送至客户端；

步骤2：接收客户端发送的人工校正后的第一子句文本；

步骤3：确定与第一子句文本对应的目标语言的第二子句文本，将第二子句文本发送至客户端。

在一个示例中，所述方法还可包括如下步骤：对第一子句文本执行校正处理，作为校正后的第三子句文本；相应的，所述确定与第一子句文本对应的目标语言的第二子句文本，可采用如下方式：确定与第三子句文本对应的所述第二子句文本。

在一个示例中，所述对第一子句文本执行校正处理，可采用如下方式：对所述第一子句文本执行方言校正处理。

在一个示例中，所述对第一子句文本执行校正处理，可采用如下方式：根据实体词替换规则信息，对第一子句文本执行实体词替换处理。

所述实体词替换规则包括：人名替换规则，企业实体名替换规则。

在一个示例中，所述对第一子句文本执行校正处理，可采用如下方式：根据黑名单过滤规则信息，对第一子句文本执行黑名单过滤处理。

在一个示例中，所述方法还可包括如下步骤：对第二子句文本执行校正处理。

在一个示例中，所述方法还可包括如下步骤：根据热词信息，优化语音识别模型和/或语音翻译模型。

在一个示例中，所述方法还可包括如下步骤：确定所述第二子句文本包括的译文不确定的词、及所述译文不确定的词的多个候选译文词；向客户端发送所述译文不确定的词和候选译文词，以便于客户端用户根据候选译文词，修改所述译文不确定的词。

具体实施时，可根据相似词表，确定所述译文不确定的词和所述多个候选译文词。

第三实施例

在上述的实施例中，提供了一种语音翻译文本校正方法，与之相对应的，本申请还提供一种语音翻译文本校正装置。该装置是与上述方法的实施例相对应。

本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种语音翻译文本校正装置包括：

第四实施例

本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音翻译文本校正方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定与客户端实时采集的语音流数据对应的源语言的文本片段，将文本片段发送至客户端；接收客户端发送的人工校正后的第一子句文本；确定与第一子句文本对应的目标语言的第二子句文本，将第二子句文本发送至客户端。

第五实施例

与上述的语音翻译文本校正***相对应，本申请还提供一种语音翻译文本校正方法，该方法的执行主体包括但不限于服务端，也可以是能够实现所述方法的任意设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法包括如下步骤：

步骤1：实时采集语音流数据，将语音流数据发送至服务端；

步骤2：显示服务端回送的与语音流数据对应的源语言的文本片段；

步骤3：确定人工校正后的第一子句文本，将第一子句文本发送至服务端；

步骤4：显示服务端回送的与第一子句文本对应的目标语言的第二子句文本。

在一个示例中，所述方法还可包括如下步骤：确定与第二子句文本对应的人工校正后的第三子句文本；将显示的第二子句文本更新为第三子句文本。

在一个示例中，通过第一显示装置，执行人工校正原文处理；通过第二显示装置，显示与语音进度对应的源语言文本和目标语言文本。

在一个示例中，所述确定人工校正后的第一子句文本，可包括如下子步骤：确定第一显示装置中第二显示装置已经显示完成的源语言的历史文本；将第一显示装置显示的所述已经显示完成的源语言的历史文本调整为第三显示属性。

在一个示例中，所述确定人工校正后的第一子句文本，可包括如下子步骤：根据调整的标点符号，调整所述第一子句文本。

在一个示例中，所述确定人工校正后的第一子句文本，可包括如下子步骤：根据单步回退指令，还原单步修改前的文本。

在一个示例中，所述确定人工校正后的第一子句文本，可包括如下子步骤：根据句子回退指令，还原修改前的句子文本。

在一个示例中，所述确定人工校正后的第一子句文本，可包括如下子步骤：以句子隔离方式，显示各个句子文本。

在一个示例中，所述确定人工校正后的第一子句文本，可包括如下子步骤：以第一显示属性显示光标聚焦的句子文本，以第二显示属性显示非光标聚焦的句子文本。

在一个示例中，所述确定人工校正后的第一子句文本，可包括如下子步骤：若执行文本选取操作，则显示文本处理快捷操作选项。

所述文本处理快捷操作选项，包括但不限于：添加热词选项，添加实体词替换规则选项，人称代词快速切换选项，标点符号快速切换选项，划选文本区域删除选项，整句删除选项。

在一个示例中，所述确定与第二子句文本对应的人工校正后的第三子句文本，可包括如下子步骤：以句子隔离方式，显示各个句子文本。

在一个示例中，所述确定与第二子句文本对应的人工校正后的第三子句文本，可包括如下子步骤：以第一显示属性显示光标聚焦的目标语言的句子文本，以第二显示属性显示非光标聚焦的目标语言的句子文本。

在一个示例中，所述确定与第二子句文本对应的人工校正后的第三子句文本，可包括如下子步骤：确定与光标聚焦的目标语言的句子文本对应的源语言的句子文本；以第一显示属性显示所述源语言的句子文本。

所述第一显示属性，包括：高亮显示；所述第二显示属性，包括：非高亮显示。

在一个示例中，所述确定与第二子句文本对应的人工校正后的第三子句文本，可包括如下子步骤：根据句子删除指令，删除句子文本。

在一个示例中，通过第一显示装置，执行人工校正译文处理；通过第二显示装置，显示与语音进度对应的源语言文本和目标语言文本；所述确定与第二子句文本对应的人工校正后的第三子句文本，可包括如下子步骤：确定第一显示装置中第二显示装置已经显示完成的目标语言的历史文本；将第一显示装置显示的目标语言的历史文本调整为第三显示属性。

在一个示例中，所述方法还可包括如下步骤：确定语音流数据的音量增益；根据音量增益和音量增益阈值，调整语音流数据的音量增益。

在一个示例中，所述方法还可包括如下步骤：以句子对齐方式，显示源语言的第一子句文本和目标语言的第二子句文本。

在一个示例中，所述方法还可包括如下步骤：接收服务端发送的所述第二子句文本包括的译文不确定的词、及所述译文不确定的词的多个候选译文词；根据候选译文词，修改所述译文不确定的词。

第六实施例

第七实施例

本申请还提供一种电子设备实施例。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音翻译文本校正方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：实时采集语音流数据，将语音流数据发送至服务端；显示服务端回送的与语音流数据对应的源语言的文本片段；确定人工校正后的第一子句文本，将第一子句文本发送至服务端；显示服务端回送的与第一子句文本对应的目标语言的第二子句文本。

第八实施例

与上述的语音翻译文本校正***相对应，本申请还提供一种语音翻译文本校正***。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述***包括服务端和客户端。其中，服务端用于确定与语音数据播放进度对应的源语言的文本片段，将文本片段发送至客户端；以及，接收客户端发送的人工校正后的第一子句文本，确定与第一子句文本对应的目标语言的第二子句文本；客户端用于播放所述语音数据，显示文本片段，确定第一子句文本，发送第一子句文本。

本实施例提供的所述***与实施例一的***的不同之处，包括：语音数据不同。本实施例所述的语音数据，可以是预先采集的完整的语音数据，如用户提交的一段完整的音频文件，而非实时采集并上传的语音数据流。

具体实施时，服务端还用于将第二子句文本发送至客户端，以便于对第二子句文本执行人工校正处理；相应的，客户端还用于显示服务端发送的第二子句文本；确定与对第二子句文本对应的人工校正后的第二子句文本。

从上述实施例可见，本申请实施例提供的语音翻译文本校正***，通过服务端确定与语音数据播放进度对应的源语言的文本片段，将文本片段发送至客户端；以及，接收客户端发送的人工校正后的第一子句文本，确定与第一子句文本对应的目标语言的第二子句文本；客户端播放所述语音数据，显示文本片段，确定第一子句文本，发送第一子句文本；这种处理方式，使得随着语音播放进度，对源语言子句文本(如逗号分隔的半句话)进行人工校正，并在一句话识别完成前，对经过人工校正的源语言子句文本进行翻译，实现子句粒度的翻译文本校正处理；因此，可以有效提升语音翻译文本的校正质量和校正效率。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种语音翻译文本校正***，其特征在于，包括：

客户端，用于实时采集语音流数据，发送语音流数据；以及，显示所述文本片段；通过第一显示装置，执行人工校正原文处理，以确定所述第一子句文本；以及，发送第一子句文本；显示第二子句文本；所述通过第一显示装置，执行人工校正原文处理，包括：确定第一显示装置中第二显示装置已经显示完成的源语言的历史文本；将第一显示装置显示的所述已经显示完成的源语言的历史文本调整为第三显示属性；所述第二显示装置用于显示与语音进度对应的源语言文本和目标语言文本。

2.一种语音翻译文本校正方法，其特征在于，包括：

接收客户端发送的人工校正后的第一子句文本；

确定与第一子句文本对应的目标语言的第二子句文本，将第二子句文本发送至客户端，以使得所述客户端显示第二子句文本；

其中，所述第一子句文本由所述客户端采用以下方式处理：显示所述文本片段；通过第一显示装置，执行人工校正原文处理，以确定所述第一子句文本；所述通过第一显示装置，执行人工校正原文处理，包括：确定第一显示装置中第二显示装置已经显示完成的源语言的历史文本；将第一显示装置显示的所述已经显示完成的源语言的历史文本调整为第三显示属性；所述第二显示装置用于显示与语音进度对应的源语言文本和目标语言文本。

3.根据权利要求2所述的方法，其特征在于，还包括：

确定与第三子句文本对应的所述第二子句文本。

4.根据权利要求3所述的方法，其特征在于，

所述对第一子句文本执行校正处理，包括：

对所述第一子句文本执行方言校正处理。

5.根据权利要求3所述的方法，其特征在于，

所述对第一子句文本执行校正处理，包括：

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求3所述的方法，其特征在于，

所述对第一子句文本执行校正处理，包括：

8.根据权利要求2所述的方法，其特征在于，还包括：

对第二子句文本执行校正处理。

9.根据权利要求2所述的方法，其特征在于，还包括：

根据热词信息，优化语音识别模型和/或语音翻译模型。

10.根据权利要求2所述的方法，其特征在于，还包括：

11.根据权利要求10所述的方法，其特征在于，

根据相似词表，确定所述译文不确定的词和所述多个候选译文词。

12.一种语音翻译文本校正方法，用于客户端，其特征在于，包括：

实时采集语音流数据，将语音流数据发送至服务端；

显示服务端回送的与语音流数据对应的源语言的文本片段；

通过第一显示装置，执行人工校正原文处理，以确定人工校正后的第一子句文本；所述通过第一显示装置，执行人工校正原文处理，包括：确定第一显示装置中第二显示装置已经显示完成的源语言的历史文本；将第一显示装置显示的所述已经显示完成的源语言的历史文本调整为第三显示属性；所述第二显示装置用于显示与语音进度对应的源语言文本和目标语言文本；

将第一子句文本发送至服务端；

13.根据权利要求12所述的方法，其特征在于，还包括：

确定与第二子句文本对应的人工校正后的第三子句文本；

将显示的第二子句文本更新为第三子句文本。

14.根据权利要求12所述的方法，其特征在于，

所述确定人工校正后的第一子句文本，包括：

根据调整的标点符号，调整所述第一子句文本。

15.根据权利要求12所述的方法，其特征在于，

所述确定人工校正后的第一子句文本，包括：

根据单步回退指令，还原单步修改前的文本。

16.根据权利要求12所述的方法，其特征在于，

所述确定人工校正后的第一子句文本，包括：

根据句子回退指令，还原修改前的句子文本。

17.根据权利要求12所述的方法，其特征在于，

所述确定人工校正后的第一子句文本，包括：

以句子隔离方式，显示各个句子文本。

18.根据权利要求12所述的方法，其特征在于，

所述确定人工校正后的第一子句文本，包括：

19.根据权利要求12所述的方法，其特征在于，

所述确定人工校正后的第一子句文本，包括：

若执行文本选取操作，则显示文本处理快捷操作选项。

20.根据权利要求19所述的方法，其特征在于，

21.根据权利要求13所述的方法，其特征在于，

以句子隔离方式，显示各个句子文本。

22.根据权利要求13所述的方法，其特征在于，

23.根据权利要求22所述的方法，其特征在于，

以第一显示属性显示所述源语言的句子文本。

24.根据权利要求22所述的方法，其特征在于，

所述第一显示属性包括：高亮显示；

所述第二显示属性包括：非高亮显示。

25.根据权利要求13所述的方法，其特征在于，

根据句子删除指令，删除句子文本。

26.根据权利要求13所述的方法，其特征在于，

通过第一显示装置，执行人工校正译文处理；

27.根据权利要求13所述的方法，其特征在于，还包括：

确定语音流数据的音量增益；

28.根据权利要求12所述的方法，其特征在于，还包括：

29.根据权利要求12所述的方法，其特征在于，还包括：

根据候选译文词，修改所述译文不确定的词。

30.一种语音翻译文本校正装置，其特征在于，包括：

语音翻译单元，用于确定与第一子句文本对应的目标语言的第二子句文本，将第二子句文本发送至客户端，以使得所述客户端显示第二子句文本；

31.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储实现语音翻译文本校正方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：确定与客户端实时采集的语音流数据对应的源语言的文本片段，将文本片段发送至客户端；接收客户端发送的人工校正后的第一子句文本；确定与第一子句文本对应的目标语言的第二子句文本，将第二子句文本发送至客户端，以使得所述客户端显示第二子句文本；其中，所述第一子句文本由所述客户端采用以下方式处理：显示所述文本片段；通过第一显示装置，执行人工校正原文处理，以确定所述第一子句文本；所述通过第一显示装置，执行人工校正原文处理，包括：确定第一显示装置中第二显示装置已经显示完成的源语言的历史文本；将第一显示装置显示的所述已经显示完成的源语言的历史文本调整为第三显示属性；所述第二显示装置用于显示与语音进度对应的源语言文本和目标语言文本。

32.一种语音翻译文本校正装置，用于客户端，其特征在于，包括：

原文校正单元，用于通过第一显示装置，执行人工校正原文处理，以确定人工校正后的第一子句文本；将第一子句文本发送至服务端；所述通过第一显示装置，执行人工校正原文处理，包括：确定第一显示装置中第二显示装置已经显示完成的源语言的历史文本；将第一显示装置显示的所述已经显示完成的源语言的历史文本调整为第三显示属性，所述第二显示装置用于显示与语音进度对应的源语言文本和目标语言文本；

33.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储实现语音翻译文本校正方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：实时采集语音流数据，将语音流数据发送至服务端；显示服务端回送的与语音流数据对应的源语言的文本片段；通过第一显示装置，执行人工校正原文处理，以确定人工校正后的第一子句文本；将第一子句文本发送至服务端；所述通过第一显示装置，执行人工校正原文处理，包括：确定第一显示装置中第二显示装置已经显示完成的源语言的历史文本；将第一显示装置显示的所述已经显示完成的源语言的历史文本调整为第三显示属性，所述第二显示装置用于显示与语音进度对应的源语言文本和目标语言文本；显示服务端回送的与第一子句文本对应的目标语言的第二子句文本。

34.一种语音翻译文本校正***，其特征在于，包括：

客户端，用于播放所述语音数据，显示文本片段；通过第一显示装置，执行人工校正原文处理，以确定人工校正后的第一子句文本；发送第一子句文本；所述通过第一显示装置，执行人工校正原文处理，包括：确定第一显示装置中第二显示装置已经显示完成的源语言的历史文本；将第一显示装置显示的所述已经显示完成的源语言的历史文本调整为第三显示属性；所述第二显示装置用于显示与播放进度对应的源语言文本和目标语言文本。

35.一种语音翻译文本校正方法，其特征在于，包括：

接收客户端发送的人工校正后的第一子句文本；

确定与第一子句文本对应的目标语言的第二子句文本；

其中，所述第一子句文本由所述客户端采用以下方式处理：显示所述文本片段；通过第一显示装置，执行人工校正原文处理，以确定所述第一子句文本；所述通过第一显示装置，执行人工校正原文处理，包括：确定第一显示装置中第二显示装置已经显示完成的源语言的历史文本；将第一显示装置显示的所述已经显示完成的源语言的历史文本调整为第三显示属性；所述第二显示装置用于显示与播放进度对应的源语言文本和目标语言文本。

36.根据权利要求35所述的方法，其特征在于，还包括：

37.一种语音翻译文本校正方法，用于客户端，其特征在于，包括：

播放语音数据；

通过第一显示装置，执行人工校正原文处理，以确定人工校正后的第一子句文本；所述通过第一显示装置，执行人工校正原文处理，包括：确定第一显示装置中第二显示装置已经显示完成的源语言的历史文本；将第一显示装置显示的所述已经显示完成的源语言的历史文本调整为第三显示属性；所述第二显示装置用于显示与播放进度对应的源语言文本和目标语言文本；

将第一子句文本发送至服务端，以使得服务端确定与第一子句文本对应的目标语言的第二子句文本。

38.根据权利要求37所述的方法，其特征在于，还包括：

显示服务端发送的第二子句文本；

确定与对第二子句文本对应的人工校正后的第二子句文本。