CN107608973A

CN107608973A - 一种基于神经网络的翻译方法及装置

Info

Publication number: CN107608973A
Application number: CN201610545902.2A
Authority: CN
Inventors: 涂兆鹏; 李航; 姜文斌
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-07-12
Filing date: 2016-07-12
Publication date: 2018-01-19
Also published as: US20190138606A1; WO2018010455A1

Abstract

本发明实施例公开了一种基于神经网络的翻译方法及装置，所述方法包括：获取待翻译句子的初始译文，初始译文中携带未登录词；将初始译文中的未登录词拆分为字，并将拆分得到的字组成的字序列输入第一多层神经网络；通过第一多层神经网络获取字序列中每个字的字向量，并将字序列的所有字向量输入第二多层神经网络；使用第二多层神经网络和预置的常用词数据库，对所有字向量进行编码以获取语义向量；将语义向量输入第三多层神经网络，通过第三多层神经网络对语义向量进行解码并结合待翻译句子的初始译文确定所述待翻译句子的最终译文。采用本发明，具有可提高未登录词的翻译可操作性，降低机器翻译的翻译成本，提高机器翻译的翻译质量的优点。

Description

一种基于神经网络的翻译方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种基于神经网络的翻译方法及装置。

背景技术

当前在统计机器翻译过程中，由于统计机器翻译的翻译模型是从训练数据中自动学习得到，对于没有在翻译模型训练的语料中出现过的词，翻译模型无法生成该词对应的翻译，从而出现未登录词的现象。其中，上述未登录词为未在翻译模型的训练的语料中出现过的词，翻译模型对其进行翻译得到的结果一般为原样输出或者输出为“未知(UNK)”。在统计机器翻译中，尤其是跨领域(比如在新闻领域的语料中训练得到的翻译模型用在通信领域中翻译)的机器翻译中，由于翻译模型训练的语料难以覆盖全部词汇，导致机器翻译结果中出现未登录词原样输出等现象的概率高，翻译效果差。

现有技术一通过加大训练语料使得训练语料更多的覆盖多种语言学现象，以此提高机器翻译的准确率，降低出现未登录词的现象的概率。然而，加大训练语料需要更多的词语资源，需要更多的双语专家的人工参与，实现成本高，可操作性低。

现有技术二借用词典进行直接翻译或者间接翻译，以期从词典中查找得到未登录词或者与未登录词语义相近的词语，通过借助词典来确定未登录词的词义。然而，构建双语词典或者语义词典的难度并不比构建双语训练语料的难度低，而且借助词典还需要对词典进行及时更新和维护。网络文本数据中的新词更新频率高，及时更新和维护词典的可操作性差，实现难度高，使得机器翻译借助词典的实现难度大，成本高。

发明内容

本申请提供了一种基于神经网络的翻译方法及装置，可提高未登录词的翻译可操作性，降低了机器翻译的翻译成本，提高了机器翻译的翻译质量。

第一方面提供了一种基于神经网络的翻译方法，其可包括：

获取待翻译句子的初始译文，所述初始译文中携带未登录词；

将所述初始译文中的未登录词拆分为字，并将所述未登录词拆分得到的字组成的字序列输入第一多层神经网络，所述字序列中包含至少一个字；

通过所述第一多层神经网络获取所述字序列中每个字的字向量，并将所述字序列的所有字向量输入第二多层神经网络；

使用所述第二多层神经网络和预置的常用词数据库，对所述所有字向量进行编码以获取所述字序列对应的语义向量；

将所述语义向量输入第三多层神经网络，通过第三多层神经网络对所述语义向量进行解码并结合所述待翻译句子的初始译文确定所述待翻译句子的最终译文，所述最终译文中携带所述未登录词的译文。

本申请可提高未登录词的翻译的可操作性，降低了机器翻译的成本，提高了机器翻译的准确率，进而提高了翻译质量。

结合第一方面，在第一种可能的实现方式中，所述预置的常用词数据库包括词典、语言学规则以及网络使用词数据库中的至少一种。

本申请采用常用词数据库可提供组词的准确性，降低了字序列对应的语义向量含义的确定的噪点。

结合第一方面或者第一方面第一种可能的实现方式，在第二种可能的实现方式中，所述使用所述第二多层神经网络和预置的常用词数据库，对所述所有字向量进行编码以获取所述字序列对应的语义向量包括：

使用所述第二多层神经网络根据所述常用词数据库提供的词汇信息确定所述字序列的字向量的至少一种组合方式，每个组合方式确定的字向量组合对应一个含义；

将所述至少一种组合方式确定的至少一个字向量组合的至少一个含义进行压缩编码以得到所述语义向量。

本申请可提供组词的准确性，降低了字序列对应的语义向量含义的确定的噪点，提高翻译的效率。

结合第一方面第二种可能的实现方式，在第三种可能的实现方式中，所述通过第三多层神经网络对所述语义向量进行解码并结合所述待翻译句子的初始译文确定所述待翻译句子的最终译文包括：

通过所述第三多层神经网络对所述语义向量进行解码以确定所述语义向量包含的至少一个含义，并根据所述初始译文中所述未登录词的上下文含义从所述语义向量包含的至少一个含义中选择目标含义；

根据所述目标含义和所述初始译文中所述未登录词的上下文含义确定所述待翻译句子的最终译文。

本申请通过多层神经网络对语义向量进行解码，并结合未登录词的上下文含义确定未登录词的含义，提高了未登录词翻译的准确性，提高翻译质量。

结合第一方面至第一方面第三种可能的实现方式中任一种，在第四种可能的实现方式中，所述未登录词包括：缩略词、专有名词、派生词以及复合词中的至少一种。

本申请可对多种形式的未登录词进行翻译，提高了翻译方法的适用性，增强翻译装置的用户体验。

第二方面，提供了一种基于神经网络的翻译装置，其可包括：

获取模块，用于获取待翻译句子的初始译文，所述初始译文中携带未登录词；

第一处理模块，用于将所述获取模块获取的所述初始译文中的未登录词拆分为字，并将所述未登录词拆分得到的字组成的字序列输入第一多层神经网络，所述字序列中包含至少一个字；

第二处理模块，用于通过所述第一多层神经网络获取所述第一处理模块输入的所述字序列中每个字的字向量，并将所述字序列的所有字向量输入第二多层神经网络；

第三处理模块，用于使用所述第二多层神经网络和预置的常用词数据库，对所述第二处理模块输入的所述所有字向量进行编码以获取所述字序列对应的语义向量；

第四处理模块，用于将所述第三处理模块获取的所述语义向量输入第三多层神经网络，通过第三多层神经网络对所述语义向量进行解码并结合所述待翻译句子的初始译文确定所述待翻译句子的最终译文，所述最终译文中携带所述未登录词的译文。

结合第二方面，在第一种可能的实现方式中，所述预置的常用词数据库包括词典、语言学规则以及网络使用词数据库中的至少一种。

结合第二方面或者第二方面第一种可能的实现方式，在第二种可能的实现方式中，所述第三处理模块具体用于：

结合第二方面第二种可能的实现方式，在第三种可能的实现方式中，所述第四处理模块具体用于：

通过所述第三多层神经网络对所述第三处理模块获取的所述语义向量进行解码以确定所述语义向量包含的至少一个含义，并根据所述初始译文中所述未登录词的上下文含义从所述语义向量包含的至少一个含义中选择目标含义；

结合第二方面至第二方面第三种可能的实现方式中任一种，在第四种可能的实现方式中，所述未登录词包括：缩略词、专有名词、派生词以及复合词中的至少一种。

第三方面提供了一种终端，其可包括：存储器和处理器，所述存储器和所述处理器相连；

所述存储器用于存储一组程序代码；

所述处理器用于调用所述存储器中存储的程序代码执行如下操作：

结合第三方面，在第一种可能的实现方式中，所述预置的常用词数据库包括词典、语言学规则以及网络使用词数据库中的至少一种。

结合第三方面或第三方面第一种可能的实现方式，在第二种可能的实现方式中，所述处理器具体用于：

结合第三方面第二种可能的实现方式，在第三种可能的实现方式中，所述处理器具体用于：

结合第三方面至第三方面第三种可能的实现方式中任一种，在第四种可能的实现方式中，所述未登录词包括：缩略词、专有名词、派生词以及复合词中的至少一种。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于神经网络的翻译方法的流程示意图；

图2是使用神经网络进行词汇的特征学习的示意图；

图3a是多个字向量确定语义向量的一示意图；

图3b是多个字向量确定语义向量的另一示意图；

图4是未登录词的翻译处理示意图；

图5是本发明实施例提供的基于神经网络的翻译装置的结构示意图；

图6是本发明实施例提供终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着互联网的高速发展带来的网络文本数据***式的增长和经济全球化的发展，不同国家之间的信息交流和信息交换变得越来越频繁。同时，蓬勃发展的互联网为获取诸如英语、汉语、法语、德语和日语等各种语言形式的信息交流和信息交换提供了极大的便利。这些语言形式多样的数据给统计机器翻译的发展带来了很好的发展契机。本发明实施例提供的基于神经网络的翻译方法及装置适用于中文信息与其他语言形式的信息的互译操作，在此不做限制。下面将以中文译为英文为例对本发明实施例提供的基于神经网络的翻译方法及装置进行说明。

在统计机器翻译中出现的一个重要的问题就是未登录词的问题。在统计机器翻译中，未登录词的的翻译结果为原样输出或者“未知(UNK)”，极大地影响了翻译质量。

其中，上述未登录词可包括多种类别的词，至少可包括如下五种类别的词：

1)缩略词，例如“中铁(全称为中国铁路工程总公司，英文为China RailwayEngineering Corporation，缩写CREC)”、“两会(全称为“中华人民共和国全国人民***”和“中国人民政治协商会议”)”、“APEC(全称为：Asia-Pacific Economic Cooperation；中文为：亚洲太平洋经济合作组织)”等；

2)专有名词，可包括人名、地名或者机构名称等；

3)派生词，可包括有后缀词素的词，例如“informatization”、信息化等；

4)复合词，既由两个或者两个以上的词组合而成的词，例如“天气预报员”、“weatherman”等；

5)数字类复合词，含有数字的复合词，由于这类词数量大而且规律性强，因此单列为一类。

对于未登录词的翻译，现有技术可通过加大训练语料使得训练语料更多的覆盖多种语言学现象，以此提高机器翻译的准确率，降低出现未登录词的现象的概率。然而，机器翻译语料是双语句对齐(英文：Parallel Sentence Pairs)的，构建双语句对齐语料(英文：Parallel Corpus)需要双语专家，付出昂贵的时间成本和经济成本。此外，对于特定领域(比如通信领域)，由于资源受限，很难找到对应的翻译语料。受限于此，机器翻译的双语句对齐语料规模难以做大，且双语句对齐语料规模的增长速度较慢。对于一些本来就在语言中出现频率较低的词语(例如罕见词)，扩大语料规模并不能使其频率出现大规模提高，依旧是非常稀疏的。因此，现有技术采用加大训练语料的解决方案，成本高，可操作性低。

若借用词典对未登录词进行直接翻译，则需要一个双语词典支持，翻译过程中遇到未登录词时，通过查找双语词典，得到未登录词对应的翻译。这种方式要求词典的规模较大，能够有效的补充训练语料的不足。然而，构建双语词典的难度并不比构建双语训练语料的难度低，而且借助词典还需要对词典进行及时更新和维护，依然需要较高的实现成本。

若借用词典对未登录词进行间接翻译，则需要一个单语同义词词典支持。例如文献中(周可艳，宗成庆。汉英统计翻译***中未登录词的处理方法；Zhang J,Zhai F,ZongC.Handling unknown words in statistical machine translation from a newperspective.——从一个新的角度处理统计机器翻译中的未登录词)提出的利用汉语同义词知识对未登录词的语义进行解释，使其具备初步的词义消歧能力，这种方法可以在某种程度上补充了训练语料的不足。然而，构建单语词典的难度并不比构建双语训练语料的难度低，而且借助词典还需要对词典进行及时更新和维护，依然需要较高的实现成本。

为了解决构建双语训练语料的问题和构建词典问题，本发明实施例提出了使用神经网络进行翻译的方法及装置。下面将结合图1至图6对本发明实施例提供的基于神经网络的翻译方法及装置进行描述。

参见图1，是本发明实施例提供的基于神经网络的翻译方法的流程示意图。本发明实施例提供的方法，包括步骤：

S101，获取待翻译句子的初始译文。

在一些可行的实施方式中，本发明实施例提供的基于神经网络的翻译方法的执行主体可为智能手机、平板电脑、笔记本电脑以及可穿戴设备等终端或者终端中的处理模块，在此不做限制。上述终端或者终端中的处理模块可为添加到现有的统计机器翻译***中的功能模块，用于处理未登录词的翻译(下面将以未登录词处理装置为例进行描述)。具体的，本发明实施例提供的统计机器***包括未登录词处理装置和现有的翻译装置，具体实现中上述统计机器***还可包含其他更多的模块，具体可根据实际应用场景确定，在此不做限制。其中，上述现有的翻译装置可用于正确翻译不包含未登录词的句子，上述翻译装置翻译包含未登录词的句子时会将未登录词原样输出或者输出为未知等。

在一些可行的实施方式中，用户需要通过统计机器***对待翻译句子进行翻译时，可将待翻译句子输入到统计机器***中。统计机器***通过上述翻译装置对待翻译句子进行翻译，输出待翻译句子的初始译文。若用户需要翻译的待翻译句子中不包含未登录词，上述初始译文则为待翻译句子的最终译文，对此本发明实施例不做赘述。若上述待翻译句子中包含未登录词，上述初始译文则为携带未登录词的句子。本发明实施例将对包含上述各种未登录词中的任一种或者多种未登录词的待翻译句子的翻译处理过程进行描述。

具体实现中，未登录词处理装置可获取上述翻译装置对待翻译句子进行翻译得到的初始译文，其中，上述初始译文中包含未登录词。即翻译装置对待翻译句子进行翻译时可将未登录词进行原样输出得到的初始译文，或者可将未登录词输出为未知并在初始译文在携带未登录词的信息等。具体实现中，翻译装置输出初始译文的形式可根据实际应用中采用的翻译方式确定，在此不做限制。

S102，将所述初始译文中的未登录词拆分为字，并将所述未登录词拆分得到的字组成的字序列输入第一多层神经网络。

在一些可行的实施方式中，未登录词处理装置获取得到待翻译句子的初始译文之后，则可从上述初始译文中解析得到未登录词。其中，上述未登录词包括一个字或者多个字。进一步的，未登录词处理装置可将初始译文中的未登录词拆分为字，并将上述未登录词拆分得到的字组成一个序列，称为字序列，进而可将上述字序列输入到第一多层神经网络。其中，若上述未登录词为一个字的词，则上述字序列为包含一个字的序列。若上述未登录词为N个字的词，则上述字序列为包含N个字的序列，其中，N为大于1的整数。例如，未登录词为“天气预报员”，则可将“天气预报员”拆分为5个字，分别为“天”、“气”、“预”、“报”、“员”，进而可将上述5个字组成一个字序列，例如“天-气-预-报-员”。其中，上述字序列之间的连线“-”仅是用于表示上述5个字为一个字序列并非一个词，不具有其他特定含义，也不作为字符输入第一多层神经网络。具体的，字是中文处理中的最小语言单元，在中文中不存在“未登录”的现象，因此可将未登录词的处理变换为字的处理。在其他语言对中，也可以通过拆分的方式对词汇进行处理，将未登录词拆分为多个最小语义单元。比如英语中的单词，可拆分为多个字母或者词根等最小语义单元。具体可根据单词的组成确定拆分方式，在此不做限制。

现有技术中包含的基于分词粒度调整的翻译方法，是将复合词或者派生词等未登录词切分为多个常用词，将未登录词的处理切换为常用词的处理。例如，将未登录词“天气预报员”切分为“天气”和“预报员”，通过对“天气”和“预报员”的翻译实现对“天气预报员”的翻译。文献(Zhang R,Sumita E.Chinese Unknown Word Translation by Subword Re-segmentation)认为中文单词都是字的序列。通过提取词的一部分，称为子词(英文subword，介于单词和词组之间)，利用基于subword的翻译模型对未登录词进行翻译，可以识别那些非复合类和派生类的未登录词，在实验中取得了一定的效果。然而，这种实现方式仅适用于复合词和派生词，无法适用更多组成形式的未登陆词。此外，将未登录词切分为多个词时难以控制词的切分粒度，切词粒度太小，会引入噪声，降低翻译***能力；切词粒度太太，不能有效对复合词进行解析。此外，切词的方法一般都是统计的方法，脱离语义，容易产生切分错误，适用性低。

S103，通过所述第一多层神经网络获取所述字序列中每个字的字向量，并将所述字序列的所有字向量输入第二多层神经网络。

在一些可行的实施方式中，深度学习可对离散的词进行向量化表示，以备广泛运用于自然语言处理领域中。在基于深度学习的自然语言处理中，词汇以one-hot的形式表示。即，假设词汇表中包含的词数量为V，第K个词可表示为一个大小为V的向量(英文：vector)并且第K维为1，其他维均为0，这种向量称为one-hot vector。比如我们有一个词汇表(we,I,love,China)，大小为4(即V＝4)。那么we对应的向量表示是(1,0,0,0)，这种里面只有一个元素为1，其他为0的向量叫做one-hot vector。(1,0,0,0)表示该词是词汇表中的第1个词，同样，I可以表示为(0,1,0,0)，表示词汇表中的第2个词。

上述基于深度学习的自然语言处理的表示方式无法有效刻画词的语义信息，即不管两个词义相关性如何，它们的one-hot的向量表示都是正交的，适用性低。例如we和I的向量表示分别为(1,0,0,0)和(0,1,0,0)，(1,0,0,0)和(0,1,0,0)为正交向量，无法从向量上看到we和I的关系。此外，上述基于深度学习的自然语言处理的表示方式也容易造成数据稀疏。当不同的词作为完全不同的特征应用于统计模型中时，由于不常见的词在训练数据中出现的次数比较少，导致对应特征的估计存在偏差。

在一些可行的实施方式中，本发明实施例使用神经网络的方法自动学习词汇的向量化表示，其中，多义词在语句中的具体含义由该多义词在语句中的位置或者该语句的语境确定。参见图2，是使用神经网络进行词汇的特征学习的示意图。具体的，可首先将词汇表中每个词随机初始化为一个向量，并使用规模较大的单语语料作为训练数据对每个词对应的向量进行优化，使得具有相同或者相近含义的词使用相近的向量表示。例如，可首先给上述词汇表词汇表(we,I,love,China)中每个词随机初始化为一个向量，例如给we随机初始化为一个向量并给we的向量赋值为(0.00001,-0.00001,0.0005,0.0003)。进而可使用单语语料作为训练数据，通过特征学习的方式对该向量进行优化，学习得到一个跟词汇的含义相关的向量表示。例如，通过神经网络的特征学习，we的向量表示为(0.7,0.9,0.5,0.3)，I的向量表示为(0.6,0.9,0.5,0.3)。从向量上来看，两个词很接近，表示他们有近似的含义。若love的向量表示为(-0.5,0.3,0.1,0.2)则可直接看出来love和we、I的含义不接近。

具体实现中，上述使用较大规模的单语语料作为训练数据对每个词对应的向量进行训练的时可从训练数据中随机选取一个窗口大小为n的片段phr+(图2中窗口大小为4，片段为“cat sat on the mat”)作为正例。其中，窗口大小是指当前词左右词的个数。例如，图2中当前词是on，窗口大小为4，表示它取左右各两个词，分别是cat,sat和the,mat。将phr+对应的词向量进行拼接作为神经网络的输入层，经过一个隐含层后得到得分f+。f+表示此片段为一个正常的自然语言片段。例如，输入到神经网络的输入层的向量为“cat sat onthe mat”经过神经网络的隐含层后输出上述向量的得分为0.8，其中0.8可记为f+，表示“cat sat on the mat”的表示方式为常用的用语形式，可将“cat sat on the mat”定义为自然语言片段。若输入到神经网络的输入层的向量为“cat sat on the beat”，则该向量经过神经网络的隐含层后输出上述向量的得分为0.1，其中0.1可记为f-，表示“cat sat onthe beat”的表示方式为不常用的用语形式，可将“cat sat on the beat”定义为非自然语言片段。其中，“cat sat on the mat”或者“cat sat on the beat”是否为常用的用语形式可通过该向量在训练数据中出现的次数来确定。若该向量在训练数据中出现的次数多于预设次数阈值，则可确定为常用的用语形式，否则可确定为不常用的用语形式。

进一步的，训练时也可将窗口中间的词随机替换为词表中的另外一个词，并使用上述相同的方式进行训练得到一个负例的片段phr-，进而得到负例的打分f-。其中，正例表示片段phr+对应的向量为常用的用语形式，将常用的用语形式的片段中的词汇的位置随机替换之后，则可得到负例。负例phr-表示其对应的向量为不常用的用语形式。具体实现中，隐含层确定正例和负例的得到使用的损失函数可定义为排序合页损失(英文：rankinghinge loss)，该损失函数使正例的得分f+至少比负例的得分f-大1。对该损失函数进行求导得到梯度，并使用反向传播的方式来学习神经网络各层的参数，同时更新正负例样本中的词向量。这样的训练方法能够将适合出现在窗口中间位置的词聚合在一起，而将不适合出现在这个位置的词分离开来，从而将语义(语法或者词性)相似的词映射到向量空间中相近的位置。例如，“on the mat”替换为“on the beat”可能得分就相差很大，而“on themat”和“on the sofa”得分就很相近(神经网络自己学习出来得到的得分)。通过得分的比较，可以发现“mat”和“sofa”的意思很相近，而“mat”和“beat”的意思差异很大，从而给它们对应的赋予不同的向量表示。

由于大规模单语数据的获取相对容易，使得神经网络训练词汇的向量化表示可行性高，适用范围大，并且解决了由于特定任务的训练数据不充足而造成的数据稀疏问题。

在一些可行的实施方式中，未登录词处理装置确定了未登录词中包含的字序列并将字序列输入第一多层神经网络之后，可通过第一多层神经网络根据上述向量的表示方法确定上述字序列中每个字的字向量，即，可获取上述未登录词中每个字的字向量，进而可将上述字序列中所有字的字向量输入到第二多层神经网络中。例如，未登录词处理装置可通过多层神经网络分别获取上述字序列中“天”的字向量A1，“气”的字向量A2，“预”的字向量A3，“报”的字向量A4和“员”的字向量A5，进而可将上述A1、A2、A3、A4和A5输入第二多层神经网络。

S104，使用所述第二多层神经网络和预置的常用词数据库，对所述所有字向量进行编码以获取所述字序列对应的语义向量。

在一些可行的实施方式中，本发明实施例提供的常用词数据库可包括词典、语言学规则或者网络使用词数据库等。其中，上述词典、语言学规则或者网络使用词数据库可为第二多层神经网络提供词汇信息，上述词汇信息可用于确定字与字之间的组词方式。具体实现中，未登录词处理装置可将上述常用词数据库添加到使用第二多层神经网络进行编码的过程中。具体的，未登录词处理装置可使用第二多层神经网络对字序列中的每个字向量进行字义解析，并根据上述常用词数据库中包含的词汇信息确定上述字序列的各个字向量的组合方式，进而可生成上述多个字序列对应的语义向量。其中，上述字序列包含的字向量可按照多种组合方式进行组合，并且每个组合方式确定的字向量组合对应一个含义。若上述字序列仅包含一个字向量，则上述字序列的字向量组合的含义仅有一个。若上述字序列包含多个字向量，则上述字序列的字向量组合的含义多于一个。进而可通过第二多层神经网络将所述字序列中一个或者多个字向量组合确定的一个或者多个含义进行压缩编码得到上述字序列的语义向量。

具体实现中，若未登录词装置使用第二多层神经网络对每个字向量进行字义解析时没有常用词数据库，则确定上述各个字向量的组合方式就是各个字向量两两组合。上述字序列的字向量两两组合得到的组合数量多，对应的字向量组合的含义多，第二多层神经网络将上述两两组合确定的字向量组合的含义进行压缩编码得到的语义向量的含义多，增加了解码上述语义向量的含义的噪点，加大了语义向量的含义的确定难度。本发明实施例使用常用词数据库提供给第二多层神经网络确定各个字序列的字向量的组合方式时，可根据常用词数据库中的组词规则或者常用词确定各个字序列的组合方式，不再是简单的两两组合。使用常用词数据库确定的各个字向量的组合方式确定的字向量组合的数量少于各个字向量两两组合确定的字向量组合的数量，组词准确性高，降低了字序列对应的语义向量的含义确定的噪点。

如图3a和3b，图3a是多个字向量确定语义向量的一示意图，图3b是多个字向量确定语义向量的另一示意图。图3a是传统多层神经网络的字序列的字向量的组合方式，即各个向量与上层节点的连接为全连接。例如，上述字序列“天-气-预-报-员”的字向量A1、A2、A3、A4和A5，与上层节点B1和B2的连接方式均为全连接，进而可得到“天”、“气”、“预”、“报”和“员”等字向量的任意组合方式，再通过上层节点B1和B2得到上述5个字向量对应的语义向量C。其中，语义向量C中包含的含义则为上述5个字向量任意组合得到的每个字向量组合的含义。其中，包括不符合常用组词方式组成的含义，例如天气和气天，其中，天气为常用词，气天为非常用词。图3b是本发明实施例提供的使用常用词数据库建立连接的定制化多层神经网络。在定制化多层神经网络中字序列对应的字向量之间的组合方式可参考上述常用词数据库中包含词，进而可减少非常用词的出现，降低噪点出现的概率。例如，上述字序列“天-气-预-报-员”的字向量A1、A2、A3、A4和A5，与上层节点B1和B2的连接方式定向连接，进而可得到“天”、“气”、“预”、“报”和“员”等字的常用词组合方式，再根据上述常用词组合方式确定上述字向量A1、A2、A3、A4和A5的组合方式，再通过上层节点B1和B2得到上述5个字向量对应的语义向量C。其中，语义向量C中包含的含义则为上述5个字向量根据常用词组合的组合方式确定的每个字向量组合对应的含义。例如，“天气”和“预报员”组成的”天气预报员”或者”预报员天气”等。

S105，将所述语义向量输入第三多层神经网络，通过第三多层神经网络对所述语义向量进行解码并结合所述待翻译句子的初始译文确定所述待翻译句子的最终译文。

在一些可行的实施方式中，上述字序列对应的语义向量为包含多种语义的向量，即，上述语义向量为包含上述字序列的多个字向量根据常用词数据库确定的多种组合方式组合确定多个字向量组合对应的多种含义的向量。其中，上述语义向量的具体含义可根据语义向量所处的句子的上下文确定。比如常用词中的多义词，多义词在不同的句子或者相同句子中的不同位置，其含义不尽相同，具体含义可根据句子上下文确定。

在一些可行的实施方式中，未登录词处理装置确定了上述语义向量之后，可将上述语义向量输入第三多层神经网络，使用第三多层神经网络对上述语义向量进行解码并结合上述待翻译句子的初始译文确定待翻译句子的最终译文。具体的，未登录词可使用第三多层神经网络对未登录词的语义向量进行解码，确定上述语义向量包含的一个或者多个含义，并根据未登录词在待翻译句子的初始译文中的上下文含义，结合未登录词的语义向量包含的含义确定未登录词的语义向量的具体含义(即目标含义)，进而可结合未登录词的上下文的译文确定待翻译句子的最终译文。其中，上述最终译文中携带所述未登录词的译文和未登录词的上下文的译文。如图4，图4是未登录词的翻译处理示意图。未登录词处理装置可通过通过第一多层神经网络获取字序列“天-气-预-报-员”的字向量A1、A2、A3、A4和A5，再通过第二多层神经网络确定上述字向量A1、A2、A3、A4和A5确定的语义向量C，进而可通过对语义向量C进行解码得到两个词义D1和D2，进而可有D1和D2确定未登录词的含义。其中，上述D1可为“forecaster”，上述D2可为“weather”。未登录词处理装置将未登录词“天气预报员”翻译得到“forecaster”和“weather”之后，则可使用“forecaster”和“weather”替换掉初始译文中的“天气预报员”原样输出或者未知输出，得到待翻译句子的最终译文。

需要说明的是，本发明实施例中描述的第一多层神经网络、第二多层神经网络和第三多层神经网络为具有不同网络参数的多个多层神经网络，可实现不同的功能，进而可共同完成未登录词的翻译处理。

在本发明实施例中，未登录词处理装置可将待翻译句子中的未登录词拆分为字，由字组成字序列，通过第一多层神经网络处理得到字序列中每个字的字向量。进一步的，可通过第二多层神经网络结合常用词数据库对字序列的多个字向量进行压缩编码得到字序列的语义向量，并通过第三多层神经网络对语义向量进行解码得到未登录词的译文。本发明实施例描述的翻译方法可提高未登录词的翻译的可操作性，降低了机器翻译的成本，提高了机器翻译的准确率，进而提高了翻译质量。

参见图5，是本发明实施例提供的基于神经网络的翻译装置的结构示意图。本发明实施例提供的翻译装置，包括：

获取模块51，用于获取待翻译句子的初始译文，所述初始译文中携带未登录词。

第一处理模块52，用于将所述获取模块获取的所述初始译文中的未登录词拆分为字，并将所述未登录词拆分得到的字组成的字序列输入第一多层神经网络，所述字序列中包含至少一个字。

第二处理模块53，用于通过所述第一多层神经网络获取所述第一处理模块输入的所述字序列中每个字的字向量，并将所述字序列的所有字向量输入第二多层神经网络。

第三处理模块54，用于使用所述第二多层神经网络和预置的常用词数据库，对所述第二处理模块输入的所述所有字向量进行编码以获取所述字序列对应的语义向量。

第四处理模块55，用于将所述第三处理模块获取的所述语义向量输入第三多层神经网络，通过第三多层神经网络对所述语义向量进行解码并结合所述待翻译句子的初始译文确定所述待翻译句子的最终译文，所述最终译文中携带所述未登录词的译文。

在一些可行的实施方式中，所述预置的常用词数据库包括词典、语言学规则以及网络使用词数据库中的至少一种。

在一些可行的实施方式中，所述第三处理模块54具体用于：

在一些可行的实施方式中，所述第四处理模块55具体用于：

在一些可行的实施方式中，所述未登录词包括：缩略词、专有名词、派生词以及复合词中的至少一种。

具体实现中，上述翻译装置可通过其内置的各个模块实现本发明实施例提供的基于神经网络的翻译方法中各个步骤描述的实现方式，在此不再赘述。

在本发明实施例中，翻译装置可将待翻译句子中的未登录词拆分为字，由字组成字序列，通过第一多层神经网络处理得到字序列中每个字的字向量。进一步的，可通过第二多层神经网络结合常用词数据库对字序列的多个字向量进行压缩编码得到字序列的语义向量，并通过第三多层神经网络对语义向量进行解码得到未登录词的译文。本发明实施例可提高未登录词的翻译的可操作性，降低了机器翻译的成本，提高了机器翻译的准确率，进而提高了翻译质量。

参见图6，是本发明实施例提供的终端的结构示意图。本发明实施例提供的终端包括：处理器61和存储器62，上述处理器61和存储器62相连。

上述存储器62用于存储一组程序代码。

上述处理器61用于调用上述存储器62中存储的程序代码执行如下操作：

在一些可行的实施方式中，上述处理器61具体用于：

具体实现中，上述终端可通过其内置的各个模块实现本发明实施例提供的基于神经网络的翻译方法中各个步骤描述的实现方式，在此不再赘述。

在本发明实施例中，终端可将待翻译句子中的未登录词拆分为字，由字组成字序列，通过第一多层神经网络处理得到字序列中每个字的字向量。进一步的，终端可通过第二多层神经网络结合常用词数据库对字序列的多个字向量进行压缩编码得到字序列的语义向量，并通过第三多层神经网络对语义向量进行解码得到未登录词的译文。本发明实施例可提高未登录词的翻译的可操作性，降低了机器翻译的成本，提高了机器翻译的准确率，进而提高了翻译质量。

本发明的说明书、权利要求书以及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或者单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或者单元，或可选地还包括对于这些过程、方法、***、产品或设备固有的其他步骤或单元。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于神经网络的翻译方法，其特征在于，包括：

2.如权利要求1所述的翻译方法，其特征在于，所述预置的常用词数据库包括词典、语言学规则以及网络使用词数据库中的至少一种。

3.如权利要求1或2所述的翻译方法，其特征在于，所述使用所述第二多层神经网络和预置的常用词数据库，对所述所有字向量进行编码以获取所述字序列对应的语义向量包括：

4.如权利要求3所述的翻译方法，其特征在于，所述通过第三多层神经网络对所述语义向量进行解码并结合所述待翻译句子的初始译文确定所述待翻译句子的最终译文包括：

5.如权利要求1-4任一项所述的翻译方法，其特征在于，所述未登录词包括：缩略词、专有名词、派生词以及复合词中的至少一种。

6.一种基于神经网络的翻译装置，其特征在于，包括：

7.如权利要求6所述的翻译装置，其特征在于，所述预置的常用词数据库包括词典、语言学规则以及网络使用词数据库中的至少一种。

8.如权利要求6或7所述的翻译装置，其特征在于，所述第三处理模块具体用于：

9.如权利要求8所述的翻译装置，其特征在于，所述第四处理模块具体用于：

10.如权利要求6-9任一项所述的翻译装置，其特征在于，所述未登录词包括：缩略词、专有名词、派生词以及复合词中的至少一种。