CN111738022B

CN111738022B - 一种国防军工领域机器翻译优化方法及***

Info

Publication number: CN111738022B
Application number: CN202010578821.9A
Authority: CN
Inventors: 姚晗; 晏裕生; 熊晓丹; 孙孟阳; 董文轩; 江洋; 李兴亚; 苏慧超
Original assignee: China Institute Of Marine Technology & Economy
Current assignee: China Institute Of Marine Technology & Economy
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2023-04-18
Anticipated expiration: 2040-06-23
Also published as: CN111738022A

Abstract

本发明涉及一种国防军工领域机器翻译优化方法及***。所述方法包括：提取待翻译文章的关键词，得到关键词列表；计算所述关键词列表中每个关键词与对应上下文的词向量；由词向量计算关键词对的余弦相似度；根据余弦相似度对关键词列表中的所有关键词进行层次聚类，得到多个词类别；采用机器翻译模型对各词类别的中的所有关键词进行翻译，得到用户译法。本发明的目的是提供一种国防军工领域机器翻译优化方法及***，以确保整篇文章中关键词的翻译一致性，提高翻译质量。

Description

一种国防军工领域机器翻译优化方法及***

技术领域

本发明涉及机器翻译领域，特别是涉及一种国防军工领域机器翻译优化方法及***。

背景技术

机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程，神经机器翻译(Neural Machine Translation,NMT)是当前常用的一种机器翻译方法，这种方法基于深度学习，通过带有注意力机制(attention-based)的编码器解码器(encoder-decoder)模型，将待翻译的语句(源语句)经过编码器(encoder)编码成为一个向量，然后将其在深度神经网络中学习之后，通过解码器(decoder)对源语句的向量进行解码，形成对应的译文(目标语句)。

国防军工领域存在着大量的专业术语，现有机器翻译过程中只考虑每句话的上下文关系，没有考虑篇章级的上下文关系，导致同一篇文章中相同术语前后翻译不一致，严重影响了翻译的质量。在译后校对过程中，单纯将同一个词按照同样的释译进行全文替换，无法解决一词多义的问题，造成机器翻译结果整体准确率不高的现状。

发明内容

本发明的目的是提供一种国防军工领域机器翻译优化方法及***，以确保整篇文章中关键词的翻译一致性和准确性，提高翻译质量。

为实现上述目的，本发明提供了如下方案：

一种国防军工领域机器翻译优化方法，包括：

提取待翻译文章的关键词，得到关键词列表；

计算所述关键词列表中每个关键词与对应上下文的词向量，所述对应上下文为在所述待翻译文章中与所述关键词相邻的词语；

由所述词向量计算关键词对的余弦相似度；所述关键词对为所述关键词列表中出现在所述待翻译文章的不同位置的两个相同的关键词；

根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类，得到多个词类别；每个所述词类别中至少包括一个所述关键词；

采用机器翻译模型对各所述词类别的中的所有关键词进行翻译，得到各所述词类别对应的多种译法；

将所述词类别对应的多种译法中出现概率最高的译法确定为对应词类别的用户译法；

利用所述机器翻译模型对所述待翻译文章进行翻译，得到各所述关键词的机器译法；

判断所述机器译法与对应的关键词所属词类别的用户译法是否相同，得到第一判断结果；

若所述第一判断结果为否，则采用所述用户译法翻译所述关键词；

若所述第一判断结果为是，则采用所述机器译法翻译所述关键词。

可选的，所述提取待翻译文章的关键词，得到关键词列表，具体包括：

获取语料库；

对所述待翻译文章进行分词，得到多个词语；

根据所述语料库计算每个所述词语的词频-逆文本频率值；

按照所述词频-逆文本频率值的大小对所有的所述词语进行排序得到关键词列表。

可选的，所述根据所述语料库计算每个所述词语的词频-逆文本频率值，具体为：

根据公式TF-IDF_i,j＝TF_i,j×IDF_i计算每个所述词语的词频-逆文本频率值，其中，

TF-IDF_i,j表示词语i在待翻译文章j的重要程度，TF表示词频，IDF_i,j表示逆文本频率，TF_i,j表示词语i在待翻译文章j中出现的词频值，IDF_i表示词语i的逆文本频率值，n_i,j表示词语i在待翻译文章j中出现的次数，∑_kn_k,j表示待翻译文章j中词语的总个数，n_k,j表示待翻译文章j中第k个词语出现的次数，|D|表示语料库中文章总数，|{j:t_i∈d_j}|表示语料库中包含词语i的文章的数量，t_i表示词语i，d_j表示待翻译文章j。

可选的，所述机器翻译模型的确定过程为：

获取双语平行句对，所述双语平行句对由原文和所述原文对应的译文组成；

将所述双语平行句对输入到深度神经网络，得到机器翻译模型。

可选的，所述根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类，得到多个词类别，具体包括：

在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值，得到划分前的平均余弦相似度，所述当前词类别为上次聚类次数下得到的词类别；

判断所述划分前的平均余弦相似度是否大于特定阈值，得到第二判断结果；

若所述第二判断结果为是，则将所述目标关键词划分到所述当前词类别中，得到划分后的词类别；

计算所述划分后的词类别中所有关键词的余弦相似度的平均值，得到划分后的平均余弦相似度；

判断所述划分后的平均余弦相似度是否小于所述划分前的平均余弦相似度的设定倍数，得到第三判断结果；

若所述第三判断结果为是，则将所述目标关键词从所述划分后的词类别中删除，并将所述目标关键词划分到与所述当前词类别不同的词类别中，然后更新所述当前聚类次数，并返回所述在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值，得到划分前的平均余弦相似度。

一种国防军工领域机器翻译优化***，包括：

提取模块，用于提取待翻译文章的关键词，得到关键词列表；

第一计算模块，用于计算所述关键词列表中每个关键词与对应上下文的词向量，所述对应上下文为在所述待翻译文章中与所述关键词相邻的词语；

第二计算模块，用于由所述词向量计算关键词对的余弦相似度；所述关键词对为所述关键词列表中出现在所述待翻译文章的不同位置的两个相同的关键词；

聚类模块，用于根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类，得到多个词类别；每个所述词类别中至少包括一个所述关键词；

翻译模块，用于采用机器翻译模型对各所述词类别的中的所有关键词进行翻译，得到各所述词类别对应的多种译法；

用户译法确定模块，用于将所述词类别对应的多种译法中出现概率最高的译法确定为对应词类别的用户译法；

机器译法确定模块，用于利用所述机器翻译模型对所述待翻译文章进行翻译，得到各所述关键词的机器译法；

第一判断模块，用于判断所述机器译法与对应的关键词所属词类别的用户译法是否相同，得到第一判断结果；

用户译法翻译模块，用于若所述第一判断结果为否，则采用所述用户译法翻译所述关键词；

机器译法翻译模块，用于若所述第一判断结果为是，则采用所述机器译法翻译所述关键词。

可选的，所述提取模块具体包括：

语料库获取单元，用于获取语料库；

分词单元，用于对所述待翻译文章进行分词，得到多个词语；

词频-逆文本频率值计算单元，用于根据所述语料库计算每个所述词语的词频-逆文本频率值；

关键词列表单元，用于按照所述词频-逆文本频率值的大小对所有的所述词语进行排序得到关键词列表。

可选的，所述词频-逆文本频率值计算单元包括：

词频-逆文本频率值计算子单元，用于根据公式TF-IDF_i,j＝TF_i,j×IDF_i计算每个所述词语的词频-逆文本频率值，其中，

可选的，所述机器翻译模型的确定具体包括：

双语平行句对获取单元，用于获取双语平行句对，所述双语平行句对由原文和所述原文对应的译文组成；

机器翻译模型确定单元，用于将所述双语平行句对输入到深度神经网络，得到机器翻译模型。

可选的，所述聚类模块具体包括：

划分前平均余弦相似度计算单元，用于在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值，得到划分前的平均余弦相似度，所述当前词类别为上次聚类次数下得到的词类别；

第二判断单元，用于判断所述划分前的平均余弦相似度是否大于特定阈值，得到第二判断结果；

划分后的词类别单元，用于若所述第二判断结果为是，则将所述目标关键词划分到所述当前词类别中，得到划分后的词类别；

划分后平均余弦相似度计算单元，用于计算所述划分后的词类别中所有关键词的余弦相似度的平均值，得到划分后的平均余弦相似度；

第三判断单元，用于判断所述划分后的平均余弦相似度是否小于所述划分前的平均余弦相似度的设定倍数，得到第三判断结果；

聚类单元，用于若所述第三判断结果为是，则将所述目标关键词从所述划分后的词类别中删除，并将所述目标关键词划分到与所述当前词类别不同的词类别中，然后更新所述当前聚类次数，并返回所述在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值，得到划分前的平均余弦相似度。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明通过在机器翻译之前，识别出文章的关键词，对每个关键词进行聚类操作，得到多种词类别，提取每个词类别中译法概率最高的译法作为标准的译法，确保整篇文章中关键词的翻译一致性，提高翻译质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1一种国防军工领域机器翻译优化方法的具体流程图；

图2为本发明实施例1一种国防军工领域机器翻译优化方法的整体流程图；

图3为本发明实施例2一种国防军工领域机器翻译优化***的组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种国防军工领域机器翻译优化方法及***。本发明通过在机器翻译之前，识别出文章的关键词，对每个关键词进行聚类操作，得到多种词类别，提取每个词类别中译法概率最高的译法作为标准的译法，确保整篇文章中关键词的翻译一致性，提高翻译质量。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

本实施例提供了一种国防军工领域机器翻译优化方法，参见图1和图2，所述机器翻译优化方法的整体流程图为首先收集前期翻译的原文，形成语料库；然后计算原文的主题词；随后对主题词进行聚类；之后制定每一类的翻译方法；最后翻译过程中按照预定的翻译方法进行翻译。

所述机器翻译优化方法的具体流程包括：

步骤101：提取待翻译文章的关键词，得到关键词列表。

步骤102：计算所述关键词列表中每个关键词与对应上下文的词向量，所述对应上下文为在所述待翻译文章中与所述关键词相邻的词语，所述相邻的词语可以为在所述待翻译文章中，在所述关键词的前面且与所述关键词相邻的两个词语和在所述关键词的后面且与所述关键词相邻的两个词语，可以是通过word2vec计算每个关键词与对应上下文构成的特征向量得到每个关键词的词向量。

步骤103：由所述词向量计算关键词对的余弦相似度。所述关键词对为所述关键词列表中出现在所述待翻译文章的不同位置的两个相同的关键词。

步骤104：根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类，得到多个词类别。每个所述词类别中至少包括一个所述关键词。通过层次聚类的方法，采用空间向量模型，计算实体周边的词构成的特征向量，再利用余弦相似度进行比较，将描述相似的实体聚成一类，用于解决一词多义的问题。

步骤105：采用机器翻译模型对各所述词类别的中的所有关键词进行翻译，得到各所述词类别对应的多种译法。

步骤106：将所述词类别对应的多种译法中出现概率最高的译法确定为对应词类别的用户译法。

步骤107：利用所述机器翻译模型对所述待翻译文章进行翻译，得到各所述关键词的机器译法。

步骤108：判断所述机器译法与对应的关键词所属词类别的用户译法是否相同，得到第一判断结果。

步骤109：若所述第一判断结果为否，则采用所述用户译法翻译所述关键词。

步骤110：若所述第一判断结果为是，则采用所述机器译法翻译所述关键词。

步骤101具体包括：

(1)、获取语料库。收集大量国防军工领域外文资料，形成语料库，所述语料库即在国防军工领域长期工作过程中形成的外文资料数据库，以篇章的形式进行存储。所述语料库用于在TF-IDF算法计算关键词时提供逆文本频率(IDF)计算依据，避免将“the”、“of”等所有文章中均出现次数较多的词语作为关键词。

(2)、对所述待翻译文章进行分词，得到多个词语。其中可以使用业内常用的分词工具包jieba分词。

(3)、根据所述语料库计算每个所述词语的词频-逆文本频率值具体为：

(4)、按照所述词频-逆文本频率值的大小对所有的所述词语进行排序得到关键词列表。所述关键词是指待翻译文章中出现次数较多的主题词汇。

步骤104具体包括：

(1)、在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值，得到划分前的平均余弦相似度，所述当前词类别为上次聚类次数下得到的词类别。

(2)、判断所述划分前的平均余弦相似度是否大于特定阈值，得到第二判断结果。

(3)、若所述第二判断结果为是，则将所述目标关键词划分到所述当前词类别中，得到划分后的词类别。

(4)、计算所述划分后的词类别中所有关键词的余弦相似度的平均值，得到划分后的平均余弦相似度。

(5)、判断所述划分后的平均余弦相似度是否小于所述划分前的平均余弦相似度的设定倍数，得到第三判断结果。

(6)、若所述第三判断结果为是，则将所述目标关键词从所述划分后的词类别中删除，并将所述目标关键词划分到与所述当前词类别不同的词类别中，然后更新所述当前聚类次数，并返回所述在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值，得到划分前的平均余弦相似度。

当所述当前聚类次数为1时，按照余弦相似度从大到小的顺序进行排序，将余弦相似度最大的两个关键词合并为一个新类，然后计算合并后的平均余弦相似度与合并前的余弦相似度进行比较，设定阈值余弦相似度大于0.6，直到合并后的平均余弦相似度小于合并前的平均余弦相似度的80％，则停止聚类。

其中所述机器翻译模型的确定过程为：

获取双语平行句对，所述双语平行句对由原文和所述原文对应的译文组成。如原文“Fire control system developedby Loral”，对应译文“火控***由洛拉尔研制”，这就是一条双语平行句对。

将所述双语平行句对输入到深度神经网络可以采用NiuTrans，得到机器翻译模型。

实施例2

本实施例提供了一种国防军工领域机器翻译优化***，参见图3，所述***具体包括：

提取模块201，用于提取待翻译文章的关键词，得到关键词列表。

第一计算模块202，用于计算所述关键词列表中每个关键词与对应上下文的词向量。所述对应上下文为在所述待翻译文章中与所述关键词相邻的词语，所述相邻的词语可以为在所述待翻译文章中，在所述关键词的前面且与所述关键词相邻的两个词语和在所述关键词的后面且与所述关键词相邻的两个词语，可以通过word2vec计算每个关键词与对应上下文构成的特征向量得到每个关键词的词向量。

第二计算模块203，用于由所述词向量计算关键词对的余弦相似度；所述关键词对为所述关键词列表中出现在所述待翻译文章的不同位置的两个相同的关键词。

聚类模块204，用于根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类，得到多个词类别；每个所述词类别中至少包括一个所述关键词。

翻译模块205，用于采用机器翻译模型对各所述词类别的中的所有关键词进行翻译，得到各所述词类别对应的多种译法。

用户译法确定模块206，用于将所述词类别对应的多种译法中出现概率最高的译法确定为对应词类别的用户译法。

机器译法确定模块207，用于利用所述机器翻译模型对所述待翻译文章进行翻译，得到各所述关键词的机器译法。

第一判断模块208，用于判断所述机器译法与对应的关键词所属词类别的用户译法是否相同，得到第一判断结果。

用户译法翻译模块209，用于若所述第一判断结果为否，则采用所述用户译法翻译所述关键词。

机器译法翻译模块210，用于若所述第一判断结果为是，则采用所述机器译法翻译所述关键词。

作为一种可选的实施方式，所述提取模块具体包括：

语料库获取单元，用于获取语料库。

分词单元，用于对所述待翻译文章进行分词，得到多个词语。

词频-逆文本频率值计算单元，用于根据所述语料库计算每个所述词语的词频-逆文本频率值。

作为一种可选的实施方式，所述词频-逆文本频率值计算单元包括：

TF-IDF_i,j表示词语i在待翻译文章j的重要程度，TF表示词频，IDF_i,j表示逆文本频率，TF_i,j表示词语i在待翻译文章j中出现的词频值，IDF_i表示词语i的逆文本频率值，n_i,j表示词语i在待翻译文章j中出现的次数，∑_kn_k,j表示待翻译文章j中词语的总个数，n_k,j表示待翻译文章j中第k个词语出现的次数，|D|表示语料库中文章总数，|{j:t_i∈d_j}|表示语料库中包含词语i的文章的数量，t_i表示词语i，d_j表示待翻译文章j。。

作为一种可选的实施方式，所述机器翻译模型的确定具体包括：

双语平行句对获取单元，用于获取双语平行句对，所述双语平行句对由原文和所述原文对应的译文组成。

作为一种可选的实施方式，所述聚类模块具体包括：

划分前平均余弦相似度计算单元，用于在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值，得到划分前的平均余弦相似度，所述当前词类别为上次聚类次数下得到的词类别。

第二判断单元，用于判断所述划分前的平均余弦相似度是否大于特定阈值，得到第二判断结果。

划分后的词类别单元，用于若所述第二判断结果为是，则将所述目标关键词划分到所述当前词类别中，得到划分后的词类别。

划分后平均余弦相似度计算单元，用于计算所述划分后的词类别中所有关键词的余弦相似度的平均值，得到划分后的平均余弦相似度。

第三判断单元，用于判断所述划分后的平均余弦相似度是否小于所述划分前的平均余弦相似度的设定倍数，得到第三判断结果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种国防军工领域机器翻译优化方法，其特征在于，包括：

提取待翻译文章的关键词，得到关键词列表；

2.根据权利要求1所述的一种国防军工领域机器翻译优化方法，其特征在于，所述提取待翻译文章的关键词，得到关键词列表，具体包括：

获取语料库；

对所述待翻译文章进行分词，得到多个词语；

根据所述语料库计算每个所述词语的词频-逆文本频率值；

3.根据权利要求2所述的一种国防军工领域机器翻译优化方法，其特征在于，所述根据所述语料库计算每个所述词语的词频-逆文本频率值，具体为：

4.根据权利要求1所述的一种国防军工领域机器翻译优化方法，其特征在于，所述机器翻译模型的确定过程为：

5.根据权利要求1所述的一种国防军工领域机器翻译优化方法，其特征在于，所述根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类，得到多个词类别，具体包括：

6.一种国防军工领域机器翻译优化***，其特征在于，包括：

7.根据权利要求6所述的一种国防军工领域机器翻译优化***，其特征在于，所述提取模块具体包括：

语料库获取单元，用于获取语料库；

8.根据权利要求7所述的一种国防军工领域机器翻译优化***，其特征在于，所述词频-逆文本频率值计算单元包括：

9.根据权利要求6所述的一种国防军工领域机器翻译优化***，其特征在于，所述机器翻译模型的确定具体包括：

10.根据权利要求6所述的一种国防军工领域机器翻译优化***，其特征在于，所述聚类模块具体包括：