CN107423293A

CN107423293A - 数据翻译的方法和装置

Info

Publication number: CN107423293A
Application number: CN201710589392.3A
Authority: CN
Inventors: 吴闯; 叶娜; 蔡东风; 张桂平
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2017-12-01

Abstract

本发明公开了一种数据翻译的方法和装置。其中，该方法包括：根据用户的输入内容，通过第一预设模型提供输入内容对应的每个翻译单元的翻译候选词；将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型，通过第二预设模型计算生成译文。本发明解决了由于现有技术中机器翻译带来的翻译不准确的技术问题。

Description

数据翻译的方法和装置

技术领域

本发明涉及计算机技术应用领域，具体而言，涉及一种数据翻译的方法和装置。

背景技术

从研究的角度来说，机器翻译可分为基于规则的机器翻译和基于语料库的机器翻译。其中，基于语料库的机器翻译方法又可以分为基于实例的方法和基于统计的方法。目前，基于统计的方法成为主流。例如百度、谷歌、微软、有道、阿里等公司都投入大量资金研究机器翻译相关技术。

统计机器翻译方法在很大程度提升了翻译的效果，这些机器翻译***在网民的日常生活中的使用已经非常普遍，但仍然面临诸多问题，从应用的角度看主要体现在：

翻译质量还不够高：对于某些特定的语种和领域来说，机器翻译已经达到了可以接受的水平(阅读级)，用户借助于机器翻译***已经基本可以了解原文的主要内容，如Google提供的法语、***语到英语的翻译(新闻领域)。但就一般情况而言，机器翻译的质量还无法满足用户的需求。典型的例子是英汉和汉英翻译。汉英翻译几乎是机器翻译研究最多的语种，语料库的规模也极为庞大，达到了百万至千万句子对的数量级，但机器翻译***的性能还是不能令人满意，翻译结果不通顺乃至意思完全无法理解的情况仍然比比皆是。

(2)翻译结果还不够可信：对于很多用户来说，在机器翻译准确率不高的情况下，如果机器翻译***能够准确说明哪些翻译结果是可信的，哪些不够可信，仍然可以为用户节省大量的时间和金钱。但现在的机器翻译***在这方面还无能为力，导致机器翻译的结果正错混杂，机器翻译的可用性大大降低。另外，即使对一些比较窄的领域，机器翻译也还做不到高可信度。

因此，在对译文质量有严格要求的应用领域，人工翻译或者人机辅助翻译仍然是无法被替代的。

针对上述由于现有技术中机器翻译带来的翻译不准确的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据翻译的方法和装置，以至少解决由于现有技术中机器翻译带来的翻译不准确的技术问题。

根据本发明实施例的一个方面，提供了一种数据翻译的方法，包括：根据用户的输入内容，通过第一预设模型提供输入内容对应的每个翻译单元的翻译候选词；将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型，通过第二预设模型计算生成译文。

可选的，在根据用户的输入内容，通过第一预设模型提供输入内容对应的每个翻译单元的翻译候选词之前，该方法还包括：将输入内容由第一预设格式转换为第二预设格式，其中，第二预设格式为用于翻译数据的格式。

进一步地，可选的，将输入内容由第一预设格式转换为第二预设格式包括：在第二预设格式包括文本的情况下，解析输入内容的第一预设格式，其中，第一预设格式包括：图片、声音和文本；在第一预设格式为图片的情况下，通过图像识别解析图片，将图片中的信息转换为文本；在第一预设格式为声音的情况下，通过语音转换提取声音中的读音，将读音转换为文本；在第一预设格式为文本的情况下，将文本确定为待翻译文本。

可选的，在将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型之前，该方法还包括：获取输入内容的翻译特征；翻译特征包括：正向片段候选、负向片段及未操作片段；其中，正向片段，是用户交互选词，生成的原语言及目标语片段对；目标语片段生成的方式包括：直接从候选中选取，多个候选组合生成，用户自定义添加，部分修改已有候选；负向片段，是用户在交互界面操作后，生成的原语言及原语言对应的不能翻译的目标语片段对；未操作片段，是用户未做过正向及负向操作后的其余片段。

可选的，在将输入内容由第一预设格式转换为第二预设格式之前，该方法还包括：接收用户键入的输入内容。

根据本发明实施例的另一个方面，提供了一种数据翻译的装置，包括：候选词获取模块，用于根据用户的输入内容，通过第一预设模型提供输入内容对应的每个翻译单元的翻译候选词；翻译模块，用于将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型，通过第二预设模型计算生成译文。

可选的，该装置还包括：转换模块，用于在根据用户的输入内容，通过第一预设模型提供输入内容对应的每个翻译单元的翻译候选词之前，将输入内容由第一预设格式转换为第二预设格式，其中，第二预设格式为用于翻译数据的格式。

进一步地，可选的，转换模块包括：第一解析单元，用于在第二预设格式包括文本的情况下，解析输入内容的第一预设格式，其中，第一预设格式包括：图片、声音和文本；第一转换单元，用于在第一预设格式为图片的情况下，通过图像识别解析图片，将图片中的信息转换为文本；第二转换单元，用于在第一预设格式为声音的情况下，通过语音转换提取声音中的读音，将读音转换为文本；第三转换单元，用于在第一预设格式为文本的情况下，将文本确定为待翻译文本。

可选的，该装置还包括：翻译特征获取模块，用于在将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型之前，获取输入内容的翻译特征；翻译特征包括：正向片段候选、负向片段及未操作片段；其中，正向片段，是用户交互选词，生成的原语言及目标语片段对；目标语片段生成的方式包括：直接从候选中选取，多个候选组合生成，用户自定义添加，部分修改已有候选；负向片段，是用户在交互界面操作后，生成的原语言及原语言对应的不能翻译的目标语片段对；未操作片段，是用户未做过正向及负向操作后的其余片段。

可选的，该装置还包括：接收模块，用于在将输入内容由第一预设格式转换为第二预设格式之前，接收用户键入的输入内容。

根据本发明实施例的又一个方面，提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述数据翻译的方法。

根据本发明实施例的又一个方面，提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述数据翻译的方法。

在本发明实施例中，通过根据用户的输入内容，通过第一预设模型提供输入内容对应的每个翻译单元的翻译候选词；将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型，通过第二预设模型计算生成译文，达到了提升翻译精度的目的，从而实现了提升翻译准确率的技术效果，进而解决了由于现有技术中机器翻译带来的翻译不准确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的数据翻译的方法的流程示意图；

图2是根据本发明实施例的数据翻译的方法中获取S对应的Chunk候选列表T的示意图；

图3是根据本发明实施例的一种数据翻译的方法的流程示意图；

图3a是根据本发明实施例的一种数据翻译的方法中候选列表的示意图；

图4是根据本发明实施例的数据翻译的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

根据本发明实施例，提供了一种数据翻译的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的数据翻译的方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤S102，根据用户的输入内容，通过第一预设模型提供输入内容对应的每个翻译单元的翻译候选词；

步骤S104，将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型，通过第二预设模型计算生成译文。

本申请实施例提供的数据翻译的方法中，通过根据用户的输入内容，通过第一预设模型提供输入内容对应的每个翻译单元的翻译候选词；将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型，通过第二预设模型计算生成译文，达到了提升翻译精度的目的，从而实现了提升翻译准确率的技术效果，进而解决了由于现有技术中机器翻译带来的翻译不准确的技术问题。

可选的，在步骤S102中根据用户的输入内容，通过第一预设模型提供输入内容对应的每个翻译单元的翻译候选词之前，本申请提供的数据翻译的方法还包括：

步骤S101，将输入内容由第一预设格式转换为第二预设格式，其中，第二预设格式为用于翻译数据的格式。

进一步地，可选的，步骤S101中将输入内容由第一预设格式转换为第二预设格式包括：

Step1，在第二预设格式包括文本的情况下，解析输入内容的第一预设格式，其中，第一预设格式包括：图片、声音和文本；

Step2，在第一预设格式为图片的情况下，通过图像识别解析图片，将图片中的信息转换为文本；

Step3，在第一预设格式为声音的情况下，通过语音转换提取声音中的读音，将读音转换为文本；

Step4，在第一预设格式为文本的情况下，将文本确定为待翻译文本。

可选的，在步骤S104中将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型之前，本申请提供的数据翻译的方法还包括：

步骤S103，获取输入内容的翻译特征；翻译特征包括：正向片段候选、负向片段及未操作片段；

其中，正向片段，是用户交互选词，生成的原语言及目标语片段对；目标语片段生成的方式包括：直接从候选中选取，多个候选组合生成，用户自定义添加，部分修改已有候选；

负向片段，是用户在交互界面操作后，生成的原语言及原语言对应的不能翻译的目标语片段对；

未操作片段，是用户未做过正向及负向操作后的其余片段。

可选的，在步骤S101中将输入内容由第一预设格式转换为第二预设格式之前，该方法还包括：

步骤S100，接收用户键入的输入内容。

综上，本申请实施例提供的数据翻译的方法具体如下：

(1)通过用户输入捕获模块获取用户的输入，并将其最终转换为文本形式S-IN＝{CH1，CH2…CHi-2CHi-1CHiCHi+1…CHn}；(语音输入通过语音转换模块转换成文本形式，图片输入通过图像识别来识别出文本；直接的文本输入不做任何转换)；

具体的，上述步骤(1)中转换为文本形式，对应本申请实施例中的步骤S102，即，将将采集到的用户输入的数据由第一预设格式转换为第二预设格式，其中，第一预设格式为采集到的用户输入的数据的初始格式，例如：声音(语音)、图片和文本，在采集到的数据的初始格式为文本的情况下，直接将该文本作为待翻译文本。

(2)根据文本S，经过第一候选生成模块M1获取S对应的Chunk候选列表T；

具体的，上述步骤(2)中获取S对应的Chunk候选列表T，对应本申请实施例中的步骤S104，即，获取转换为第二预设格式的数据对应的候选列表，通过获取转换为第二预设格式的数据中的字符串，获取该字符串对应的候选列表。图2是根据本发明实施例的数据翻译的方法中获取S对应的Chunk候选列表T的示意图，具体如图2所示。

(3)通过用户行为捕获模块获取用户选词行为，获得用户选词列表SELECT-LIST＝{T2,…Ti}；

具体的，上述步骤(3)中通过用户行为捕获模块获取用户选词行为，获得用户选词列表，对应本申请实施例中的步骤S106，即，解析预先获取的用户历史选词行为，得到用户历史选词行为对应的用户选词列表。

(4)第二候选生成模块M2根据用户输入S-IN,SE-LIST,生成译文S-OUT。

综上，图3是根据本发明实施例的一种数据翻译的方法的流程示意图，具体如图3所示。

例设待翻译单元为：“所有这些准则很显然基于对最大速度的乐观预测。”则第二格式数据对应的候选列表为如图3a所示，图3a是根据本发明实施例的一种数据翻译的方法中候选列表的示意图。

Ste1:获取的翻译特征。

Step2特征：本部分输入特征包含三大部分：

正向片段(集合)：正向片段是用户交互选词，生成的原语言及目标语片段对；目标语片段生成的方式包括:直接从候选中选取，多个候选组合生成，用户自定义添加，部分修改已有候选。

例如，“很显然”，obviously,enum_candidate；

“最大”，maximum，enum_combine；

……

负向片段(集合)：负向片段是用户在交互界面操作后，生成的原语言及原语言对应的不能翻译的目标语片段对；

例如，large,root swelling,enum_del；

未操作片段(集合)：是用户未做过正向及负向操作后的其余片段。

例如：

(所有，“”，enum_none)

(这些，“”，enum_none)

……

(预测，predication，enum_none)

本步骤产生的特征是本申请的重点，特征体现为：人机交互行为产生的特征。

根据Step2产生的特征，输入到第二预设翻译模型中，生成候选译文。

本申请实施例提供的数据翻译的方法在对翻译质量较高的翻译任务中(例如工程翻译、手册翻译、文书翻译等)，单纯的人工翻译成本目前在快速上升(翻译速度慢，成本高)，人机辅助的翻译***已经在译员工作中普遍应用。传统的人机辅助翻译大多是利用翻译记忆功能，而目前基于机器翻译的后编辑方法正被越来越多的公司所使用，本申请实施例提供的数据翻译的方法充分利用计算记忆能力强的优势，第一次通过对输入进行CHUNK级的识别，通过译员的选取行为获得高精度CHUNK对译表，之后利用自动译文生成模块，加上已经获取的用户选词结果进行进一步高精度译文的生成，从而让机器翻译的效果更加准确，符合译员的用词习惯。

实施例二

根据本发明实施例的另一方面，还提供了一种数据翻译的装置，图4是根据本发明实施例的数据翻译的装置的结构示意图，如图4所示，包括：

候选词获取模块42，用于根据用户的输入内容，通过第一预设模型提供输入内容对应的每个翻译单元的翻译候选词；翻译模块44，用于将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型，通过第二预设模型计算生成译文。

本申请实施例提供的数据翻译的装置中，通过根据用户的输入内容，通过第一预设模型提供输入内容对应的每个翻译单元的翻译候选词；将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型，通过第二预设模型计算生成译文，达到了提升翻译精度的目的，从而实现了提升翻译准确率的技术效果，进而解决了由于现有技术中机器翻译带来的翻译不准确的技术问题。

可选的，本申请实施例提供的数据翻译的装置还包括：转换模块，用于在根据用户的输入内容，通过第一预设模型提供输入内容对应的每个翻译单元的翻译候选词之前，将输入内容由第一预设格式转换为第二预设格式，其中，第二预设格式为用于翻译数据的格式。

可选的，本申请实施例提供的数据翻译的装置还包括：翻译特征获取模块，用于在将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型之前，获取输入内容的翻译特征；翻译特征包括：正向片段候选、负向片段及未操作片段；其中，正向片段，是用户交互选词，生成的原语言及目标语片段对；目标语片段生成的方式包括：直接从候选中选取，多个候选组合生成，用户自定义添加，部分修改已有候选；负向片段，是用户在交互界面操作后，生成的原语言及原语言对应的不能翻译的目标语片段对；未操作片段，是用户未做过正向及负向操作后的其余片段。

可选的，本申请实施例提供的数据翻译的装置还包括：接收模块，用于在将输入内容由第一预设格式转换为第二预设格式之前，接收用户键入的输入内容。

实施例三

实施例四

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据翻译的方法，其特征在于，包括：

根据用户的输入内容，通过第一预设模型提供所述输入内容对应的每个翻译单元的翻译候选词；

将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及所述输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型，通过所述第二预设模型计算生成译文。

2.根据权利要求1所述的方法，其特征在于，在所述根据用户的输入内容，通过第一预设模型提供所述输入内容对应的每个翻译单元的翻译候选词之前，所述方法还包括：

将所述输入内容由第一预设格式转换为第二预设格式，其中，所述第二预设格式为用于翻译所述数据的格式。

3.根据权利要求2所述的方法，其特征在于，所述将所述输入内容由第一预设格式转换为第二预设格式包括：

在所述第二预设格式包括文本的情况下，解析所述输入内容的第一预设格式，其中，所述第一预设格式包括：图片、声音和文本；

在所述第一预设格式为所述图片的情况下，通过图像识别解析所述图片，将所述图片中的信息转换为所述文本；

在所述第一预设格式为所述声音的情况下，通过语音转换提取所述声音中的读音，将所述读音转换为所述文本；

在所述第一预设格式为所述文本的情况下，将所述文本确定为待翻译文本。

4.根据权利要求1所述的方法，其特征在于，在所述将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及所述输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型之前，所述方法还包括：

获取所述输入内容的翻译特征；所述翻译特征包括：所述正向片段候选、所述负向片段及所述未操作片段；

其中，所述正向片段，是用户交互选词，生成的原语言及目标语片段对；目标语片段生成的方式包括：直接从候选中选取，多个候选组合生成，用户自定义添加，部分修改已有候选；

所述负向片段，是用户在交互界面操作后，生成的原语言及原语言对应的不能翻译的目标语片段对；

所述未操作片段，是用户未做过正向及负向操作后的其余片段。

5.根据权利要求2所述的方法，其特征在于，在将所述输入内容由第一预设格式转换为第二预设格式之前，所述方法还包括：

接收所述用户键入的所述输入内容。

6.一种数据翻译的装置，其特征在于，包括：

候选词获取模块，用于根据用户的输入内容，通过第一预设模型提供所述输入内容对应的每个翻译单元的翻译候选词；

翻译模块，用于将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及所述输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型，通过所述第二预设模型计算生成译文。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

转换模块，用于在所述根据用户的输入内容，通过第一预设模型提供所述输入内容对应的每个翻译单元的翻译候选词之前，将所述输入内容由第一预设格式转换为第二预设格式，其中，所述第二预设格式为用于翻译所述数据的格式。

8.根据权利要求7所述的装置，其特征在于，所述转换模块包括：

第一解析单元，用于在所述第二预设格式包括文本的情况下，解析所述输入内容的第一预设格式，其中，所述第一预设格式包括：图片、声音和文本；

第一转换单元，用于在所述第一预设格式为所述图片的情况下，通过图像识别解析所述图片，将所述图片中的信息转换为所述文本；

第二转换单元，用于在所述第一预设格式为所述声音的情况下，通过语音转换提取所述声音中的读音，将所述读音转换为所述文本；

第三转换单元，用于在所述第一预设格式为所述文本的情况下，将所述文本确定为待翻译文本。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

翻译特征获取模块，用于在所述将预先获取的用户交互操作后的正向片段候选、负向片段及未操作片段，以及所述输入内容对应的每个翻译单元的翻译候选词输入给第二预设模型之前，获取所述输入内容的翻译特征；所述翻译特征包括：所述正向片段候选、所述负向片段及所述未操作片段；其中，所述正向片段，是用户交互选词，生成的原语言及目标语片段对；目标语片段生成的方式包括：直接从候选中选取，多个候选组合生成，用户自定义添加，部分修改已有候选；所述负向片段，是用户在交互界面操作后，生成的原语言及原语言对应的不能翻译的目标语片段对；所述未操作片段，是用户未做过正向及负向操作后的其余片段。

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

接收模块，用于在将所述输入内容由第一预设格式转换为第二预设格式之前，接收所述用户键入的所述输入内容。