CN111738022B - 一种国防军工领域机器翻译优化方法及*** - Google Patents

一种国防军工领域机器翻译优化方法及*** Download PDF

Info

Publication number
CN111738022B
CN111738022B CN202010578821.9A CN202010578821A CN111738022B CN 111738022 B CN111738022 B CN 111738022B CN 202010578821 A CN202010578821 A CN 202010578821A CN 111738022 B CN111738022 B CN 111738022B
Authority
CN
China
Prior art keywords
word
keyword
article
translated
machine translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010578821.9A
Other languages
English (en)
Other versions
CN111738022A (zh
Inventor
姚晗
晏裕生
熊晓丹
孙孟阳
董文轩
江洋
李兴亚
苏慧超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Institute Of Marine Technology & Economy
Original Assignee
China Institute Of Marine Technology & Economy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Institute Of Marine Technology & Economy filed Critical China Institute Of Marine Technology & Economy
Priority to CN202010578821.9A priority Critical patent/CN111738022B/zh
Publication of CN111738022A publication Critical patent/CN111738022A/zh
Application granted granted Critical
Publication of CN111738022B publication Critical patent/CN111738022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种国防军工领域机器翻译优化方法及***。所述方法包括:提取待翻译文章的关键词,得到关键词列表;计算所述关键词列表中每个关键词与对应上下文的词向量;由词向量计算关键词对的余弦相似度;根据余弦相似度对关键词列表中的所有关键词进行层次聚类,得到多个词类别;采用机器翻译模型对各词类别的中的所有关键词进行翻译,得到用户译法。本发明的目的是提供一种国防军工领域机器翻译优化方法及***,以确保整篇文章中关键词的翻译一致性,提高翻译质量。

Description

一种国防军工领域机器翻译优化方法及***
技术领域
本发明涉及机器翻译领域,特别是涉及一种国防军工领域机器翻译优化方法及***。
背景技术
机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,神经机器翻译(Neural Machine Translation,NMT)是当前常用的一种机器翻译方法,这种方法基于深度学习,通过带有注意力机制(attention-based)的编码器解码器(encoder-decoder)模型,将待翻译的语句(源语句)经过编码器(encoder)编码成为一个向量,然后将其在深度神经网络中学习之后,通过解码器(decoder)对源语句的向量进行解码,形成对应的译文(目标语句)。
国防军工领域存在着大量的专业术语,现有机器翻译过程中只考虑每句话的上下文关系,没有考虑篇章级的上下文关系,导致同一篇文章中相同术语前后翻译不一致,严重影响了翻译的质量。在译后校对过程中,单纯将同一个词按照同样的释译进行全文替换,无法解决一词多义的问题,造成机器翻译结果整体准确率不高的现状。
发明内容
本发明的目的是提供一种国防军工领域机器翻译优化方法及***,以确保整篇文章中关键词的翻译一致性和准确性,提高翻译质量。
为实现上述目的,本发明提供了如下方案:
一种国防军工领域机器翻译优化方法,包括:
提取待翻译文章的关键词,得到关键词列表;
计算所述关键词列表中每个关键词与对应上下文的词向量,所述对应上下文为在所述待翻译文章中与所述关键词相邻的词语;
由所述词向量计算关键词对的余弦相似度;所述关键词对为所述关键词列表中出现在所述待翻译文章的不同位置的两个相同的关键词;
根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类,得到多个词类别;每个所述词类别中至少包括一个所述关键词;
采用机器翻译模型对各所述词类别的中的所有关键词进行翻译,得到各所述词类别对应的多种译法;
将所述词类别对应的多种译法中出现概率最高的译法确定为对应词类别的用户译法;
利用所述机器翻译模型对所述待翻译文章进行翻译,得到各所述关键词的机器译法;
判断所述机器译法与对应的关键词所属词类别的用户译法是否相同,得到第一判断结果;
若所述第一判断结果为否,则采用所述用户译法翻译所述关键词;
若所述第一判断结果为是,则采用所述机器译法翻译所述关键词。
可选的,所述提取待翻译文章的关键词,得到关键词列表,具体包括:
获取语料库;
对所述待翻译文章进行分词,得到多个词语;
根据所述语料库计算每个所述词语的词频-逆文本频率值;
按照所述词频-逆文本频率值的大小对所有的所述词语进行排序得到关键词列表。
可选的,所述根据所述语料库计算每个所述词语的词频-逆文本频率值,具体为:
根据公式TF-IDFi,j=TFi,j×IDFi计算每个所述词语的词频-逆文本频率值,其中,
Figure BDA0002552348730000021
TF-IDFi,j表示词语i在待翻译文章j的重要程度,TF表示词频,IDFi,j表示逆文本频率,TFi,j表示词语i在待翻译文章j中出现的词频值,IDFi表示词语i的逆文本频率值,ni,j表示词语i在待翻译文章j中出现的次数,∑knk,j表示待翻译文章j中词语的总个数,nk,j表示待翻译文章j中第k个词语出现的次数,|D|表示语料库中文章总数,|{j:ti∈dj}|表示语料库中包含词语i的文章的数量,ti表示词语i,dj表示待翻译文章j。
可选的,所述机器翻译模型的确定过程为:
获取双语平行句对,所述双语平行句对由原文和所述原文对应的译文组成;
将所述双语平行句对输入到深度神经网络,得到机器翻译模型。
可选的,所述根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类,得到多个词类别,具体包括:
在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值,得到划分前的平均余弦相似度,所述当前词类别为上次聚类次数下得到的词类别;
判断所述划分前的平均余弦相似度是否大于特定阈值,得到第二判断结果;
若所述第二判断结果为是,则将所述目标关键词划分到所述当前词类别中,得到划分后的词类别;
计算所述划分后的词类别中所有关键词的余弦相似度的平均值,得到划分后的平均余弦相似度;
判断所述划分后的平均余弦相似度是否小于所述划分前的平均余弦相似度的设定倍数,得到第三判断结果;
若所述第三判断结果为是,则将所述目标关键词从所述划分后的词类别中删除,并将所述目标关键词划分到与所述当前词类别不同的词类别中,然后更新所述当前聚类次数,并返回所述在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值,得到划分前的平均余弦相似度。
一种国防军工领域机器翻译优化***,包括:
提取模块,用于提取待翻译文章的关键词,得到关键词列表;
第一计算模块,用于计算所述关键词列表中每个关键词与对应上下文的词向量,所述对应上下文为在所述待翻译文章中与所述关键词相邻的词语;
第二计算模块,用于由所述词向量计算关键词对的余弦相似度;所述关键词对为所述关键词列表中出现在所述待翻译文章的不同位置的两个相同的关键词;
聚类模块,用于根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类,得到多个词类别;每个所述词类别中至少包括一个所述关键词;
翻译模块,用于采用机器翻译模型对各所述词类别的中的所有关键词进行翻译,得到各所述词类别对应的多种译法;
用户译法确定模块,用于将所述词类别对应的多种译法中出现概率最高的译法确定为对应词类别的用户译法;
机器译法确定模块,用于利用所述机器翻译模型对所述待翻译文章进行翻译,得到各所述关键词的机器译法;
第一判断模块,用于判断所述机器译法与对应的关键词所属词类别的用户译法是否相同,得到第一判断结果;
用户译法翻译模块,用于若所述第一判断结果为否,则采用所述用户译法翻译所述关键词;
机器译法翻译模块,用于若所述第一判断结果为是,则采用所述机器译法翻译所述关键词。
可选的,所述提取模块具体包括:
语料库获取单元,用于获取语料库;
分词单元,用于对所述待翻译文章进行分词,得到多个词语;
词频-逆文本频率值计算单元,用于根据所述语料库计算每个所述词语的词频-逆文本频率值;
关键词列表单元,用于按照所述词频-逆文本频率值的大小对所有的所述词语进行排序得到关键词列表。
可选的,所述词频-逆文本频率值计算单元包括:
词频-逆文本频率值计算子单元,用于根据公式TF-IDFi,j=TFi,j×IDFi计算每个所述词语的词频-逆文本频率值,其中,
Figure BDA0002552348730000041
TF-IDFi,j表示词语i在待翻译文章j的重要程度,TF表示词频,IDFi,j表示逆文本频率,TFi,j表示词语i在待翻译文章j中出现的词频值,IDFi表示词语i的逆文本频率值,ni,j表示词语i在待翻译文章j中出现的次数,∑knk,j表示待翻译文章j中词语的总个数,nk,j表示待翻译文章j中第k个词语出现的次数,|D|表示语料库中文章总数,|{j:ti∈dj}|表示语料库中包含词语i的文章的数量,ti表示词语i,dj表示待翻译文章j。
可选的,所述机器翻译模型的确定具体包括:
双语平行句对获取单元,用于获取双语平行句对,所述双语平行句对由原文和所述原文对应的译文组成;
机器翻译模型确定单元,用于将所述双语平行句对输入到深度神经网络,得到机器翻译模型。
可选的,所述聚类模块具体包括:
划分前平均余弦相似度计算单元,用于在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值,得到划分前的平均余弦相似度,所述当前词类别为上次聚类次数下得到的词类别;
第二判断单元,用于判断所述划分前的平均余弦相似度是否大于特定阈值,得到第二判断结果;
划分后的词类别单元,用于若所述第二判断结果为是,则将所述目标关键词划分到所述当前词类别中,得到划分后的词类别;
划分后平均余弦相似度计算单元,用于计算所述划分后的词类别中所有关键词的余弦相似度的平均值,得到划分后的平均余弦相似度;
第三判断单元,用于判断所述划分后的平均余弦相似度是否小于所述划分前的平均余弦相似度的设定倍数,得到第三判断结果;
聚类单元,用于若所述第三判断结果为是,则将所述目标关键词从所述划分后的词类别中删除,并将所述目标关键词划分到与所述当前词类别不同的词类别中,然后更新所述当前聚类次数,并返回所述在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值,得到划分前的平均余弦相似度。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明通过在机器翻译之前,识别出文章的关键词,对每个关键词进行聚类操作,得到多种词类别,提取每个词类别中译法概率最高的译法作为标准的译法,确保整篇文章中关键词的翻译一致性,提高翻译质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1一种国防军工领域机器翻译优化方法的具体流程图;
图2为本发明实施例1一种国防军工领域机器翻译优化方法的整体流程图;
图3为本发明实施例2一种国防军工领域机器翻译优化***的组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种国防军工领域机器翻译优化方法及***。本发明通过在机器翻译之前,识别出文章的关键词,对每个关键词进行聚类操作,得到多种词类别,提取每个词类别中译法概率最高的译法作为标准的译法,确保整篇文章中关键词的翻译一致性,提高翻译质量。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
本实施例提供了一种国防军工领域机器翻译优化方法,参见图1和图2,所述机器翻译优化方法的整体流程图为首先收集前期翻译的原文,形成语料库;然后计算原文的主题词;随后对主题词进行聚类;之后制定每一类的翻译方法;最后翻译过程中按照预定的翻译方法进行翻译。
所述机器翻译优化方法的具体流程包括:
步骤101:提取待翻译文章的关键词,得到关键词列表。
步骤102:计算所述关键词列表中每个关键词与对应上下文的词向量,所述对应上下文为在所述待翻译文章中与所述关键词相邻的词语,所述相邻的词语可以为在所述待翻译文章中,在所述关键词的前面且与所述关键词相邻的两个词语和在所述关键词的后面且与所述关键词相邻的两个词语,可以是通过word2vec计算每个关键词与对应上下文构成的特征向量得到每个关键词的词向量。
步骤103:由所述词向量计算关键词对的余弦相似度。所述关键词对为所述关键词列表中出现在所述待翻译文章的不同位置的两个相同的关键词。
步骤104:根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类,得到多个词类别。每个所述词类别中至少包括一个所述关键词。通过层次聚类的方法,采用空间向量模型,计算实体周边的词构成的特征向量,再利用余弦相似度进行比较,将描述相似的实体聚成一类,用于解决一词多义的问题。
步骤105:采用机器翻译模型对各所述词类别的中的所有关键词进行翻译,得到各所述词类别对应的多种译法。
步骤106:将所述词类别对应的多种译法中出现概率最高的译法确定为对应词类别的用户译法。
步骤107:利用所述机器翻译模型对所述待翻译文章进行翻译,得到各所述关键词的机器译法。
步骤108:判断所述机器译法与对应的关键词所属词类别的用户译法是否相同,得到第一判断结果。
步骤109:若所述第一判断结果为否,则采用所述用户译法翻译所述关键词。
步骤110:若所述第一判断结果为是,则采用所述机器译法翻译所述关键词。
步骤101具体包括:
(1)、获取语料库。收集大量国防军工领域外文资料,形成语料库,所述语料库即在国防军工领域长期工作过程中形成的外文资料数据库,以篇章的形式进行存储。所述语料库用于在TF-IDF算法计算关键词时提供逆文本频率(IDF)计算依据,避免将“the”、“of”等所有文章中均出现次数较多的词语作为关键词。
(2)、对所述待翻译文章进行分词,得到多个词语。其中可以使用业内常用的分词工具包jieba分词。
(3)、根据所述语料库计算每个所述词语的词频-逆文本频率值具体为:
根据公式TF-IDFi,j=TFi,j×IDFi计算每个所述词语的词频-逆文本频率值,其中,
Figure BDA0002552348730000081
TF-IDFi,j表示词语i在待翻译文章j的重要程度,TF表示词频,IDFi,j表示逆文本频率,TFi,j表示词语i在待翻译文章j中出现的词频值,IDFi表示词语i的逆文本频率值,ni,j表示词语i在待翻译文章j中出现的次数,∑knk,j表示待翻译文章j中词语的总个数,nk,j表示待翻译文章j中第k个词语出现的次数,|D|表示语料库中文章总数,|{j:ti∈dj}|表示语料库中包含词语i的文章的数量,ti表示词语i,dj表示待翻译文章j。
(4)、按照所述词频-逆文本频率值的大小对所有的所述词语进行排序得到关键词列表。所述关键词是指待翻译文章中出现次数较多的主题词汇。
步骤104具体包括:
(1)、在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值,得到划分前的平均余弦相似度,所述当前词类别为上次聚类次数下得到的词类别。
(2)、判断所述划分前的平均余弦相似度是否大于特定阈值,得到第二判断结果。
(3)、若所述第二判断结果为是,则将所述目标关键词划分到所述当前词类别中,得到划分后的词类别。
(4)、计算所述划分后的词类别中所有关键词的余弦相似度的平均值,得到划分后的平均余弦相似度。
(5)、判断所述划分后的平均余弦相似度是否小于所述划分前的平均余弦相似度的设定倍数,得到第三判断结果。
(6)、若所述第三判断结果为是,则将所述目标关键词从所述划分后的词类别中删除,并将所述目标关键词划分到与所述当前词类别不同的词类别中,然后更新所述当前聚类次数,并返回所述在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值,得到划分前的平均余弦相似度。
当所述当前聚类次数为1时,按照余弦相似度从大到小的顺序进行排序,将余弦相似度最大的两个关键词合并为一个新类,然后计算合并后的平均余弦相似度与合并前的余弦相似度进行比较,设定阈值余弦相似度大于0.6,直到合并后的平均余弦相似度小于合并前的平均余弦相似度的80%,则停止聚类。
其中所述机器翻译模型的确定过程为:
获取双语平行句对,所述双语平行句对由原文和所述原文对应的译文组成。如原文“Fire control system developedby Loral”,对应译文“火控***由洛拉尔研制”,这就是一条双语平行句对。
将所述双语平行句对输入到深度神经网络可以采用NiuTrans,得到机器翻译模型。
实施例2
本实施例提供了一种国防军工领域机器翻译优化***,参见图3,所述***具体包括:
提取模块201,用于提取待翻译文章的关键词,得到关键词列表。
第一计算模块202,用于计算所述关键词列表中每个关键词与对应上下文的词向量。所述对应上下文为在所述待翻译文章中与所述关键词相邻的词语,所述相邻的词语可以为在所述待翻译文章中,在所述关键词的前面且与所述关键词相邻的两个词语和在所述关键词的后面且与所述关键词相邻的两个词语,可以通过word2vec计算每个关键词与对应上下文构成的特征向量得到每个关键词的词向量。
第二计算模块203,用于由所述词向量计算关键词对的余弦相似度;所述关键词对为所述关键词列表中出现在所述待翻译文章的不同位置的两个相同的关键词。
聚类模块204,用于根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类,得到多个词类别;每个所述词类别中至少包括一个所述关键词。
翻译模块205,用于采用机器翻译模型对各所述词类别的中的所有关键词进行翻译,得到各所述词类别对应的多种译法。
用户译法确定模块206,用于将所述词类别对应的多种译法中出现概率最高的译法确定为对应词类别的用户译法。
机器译法确定模块207,用于利用所述机器翻译模型对所述待翻译文章进行翻译,得到各所述关键词的机器译法。
第一判断模块208,用于判断所述机器译法与对应的关键词所属词类别的用户译法是否相同,得到第一判断结果。
用户译法翻译模块209,用于若所述第一判断结果为否,则采用所述用户译法翻译所述关键词。
机器译法翻译模块210,用于若所述第一判断结果为是,则采用所述机器译法翻译所述关键词。
作为一种可选的实施方式,所述提取模块具体包括:
语料库获取单元,用于获取语料库。
分词单元,用于对所述待翻译文章进行分词,得到多个词语。
词频-逆文本频率值计算单元,用于根据所述语料库计算每个所述词语的词频-逆文本频率值。
关键词列表单元,用于按照所述词频-逆文本频率值的大小对所有的所述词语进行排序得到关键词列表。
作为一种可选的实施方式,所述词频-逆文本频率值计算单元包括:
词频-逆文本频率值计算子单元,用于根据公式TF-IDFi,j=TFi,j×IDFi计算每个所述词语的词频-逆文本频率值,其中,
Figure BDA0002552348730000101
TF-IDFi,j表示词语i在待翻译文章j的重要程度,TF表示词频,IDFi,j表示逆文本频率,TFi,j表示词语i在待翻译文章j中出现的词频值,IDFi表示词语i的逆文本频率值,ni,j表示词语i在待翻译文章j中出现的次数,∑knk,j表示待翻译文章j中词语的总个数,nk,j表示待翻译文章j中第k个词语出现的次数,|D|表示语料库中文章总数,|{j:ti∈dj}|表示语料库中包含词语i的文章的数量,ti表示词语i,dj表示待翻译文章j。。
作为一种可选的实施方式,所述机器翻译模型的确定具体包括:
双语平行句对获取单元,用于获取双语平行句对,所述双语平行句对由原文和所述原文对应的译文组成。
机器翻译模型确定单元,用于将所述双语平行句对输入到深度神经网络,得到机器翻译模型。
作为一种可选的实施方式,所述聚类模块具体包括:
划分前平均余弦相似度计算单元,用于在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值,得到划分前的平均余弦相似度,所述当前词类别为上次聚类次数下得到的词类别。
第二判断单元,用于判断所述划分前的平均余弦相似度是否大于特定阈值,得到第二判断结果。
划分后的词类别单元,用于若所述第二判断结果为是,则将所述目标关键词划分到所述当前词类别中,得到划分后的词类别。
划分后平均余弦相似度计算单元,用于计算所述划分后的词类别中所有关键词的余弦相似度的平均值,得到划分后的平均余弦相似度。
第三判断单元,用于判断所述划分后的平均余弦相似度是否小于所述划分前的平均余弦相似度的设定倍数,得到第三判断结果。
聚类单元,用于若所述第三判断结果为是,则将所述目标关键词从所述划分后的词类别中删除,并将所述目标关键词划分到与所述当前词类别不同的词类别中,然后更新所述当前聚类次数,并返回所述在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值,得到划分前的平均余弦相似度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种国防军工领域机器翻译优化方法,其特征在于,包括:
提取待翻译文章的关键词,得到关键词列表;
计算所述关键词列表中每个关键词与对应上下文的词向量,所述对应上下文为在所述待翻译文章中与所述关键词相邻的词语;
由所述词向量计算关键词对的余弦相似度;所述关键词对为所述关键词列表中出现在所述待翻译文章的不同位置的两个相同的关键词;
根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类,得到多个词类别;每个所述词类别中至少包括一个所述关键词;
采用机器翻译模型对各所述词类别的中的所有关键词进行翻译,得到各所述词类别对应的多种译法;
将所述词类别对应的多种译法中出现概率最高的译法确定为对应词类别的用户译法;
利用所述机器翻译模型对所述待翻译文章进行翻译,得到各所述关键词的机器译法;
判断所述机器译法与对应的关键词所属词类别的用户译法是否相同,得到第一判断结果;
若所述第一判断结果为否,则采用所述用户译法翻译所述关键词;
若所述第一判断结果为是,则采用所述机器译法翻译所述关键词。
2.根据权利要求1所述的一种国防军工领域机器翻译优化方法,其特征在于,所述提取待翻译文章的关键词,得到关键词列表,具体包括:
获取语料库;
对所述待翻译文章进行分词,得到多个词语;
根据所述语料库计算每个所述词语的词频-逆文本频率值;
按照所述词频-逆文本频率值的大小对所有的所述词语进行排序得到关键词列表。
3.根据权利要求2所述的一种国防军工领域机器翻译优化方法,其特征在于,所述根据所述语料库计算每个所述词语的词频-逆文本频率值,具体为:
根据公式TF-IDFi,j=TFi,j×IDFi计算每个所述词语的词频-逆文本频率值,其中,
Figure FDA0002552348720000021
TF-IDFi,j表示词语i在待翻译文章j的重要程度,TF表示词频,IDFi,j表示逆文本频率,TFi,j表示词语i在待翻译文章j中出现的词频值,IDFi表示词语i的逆文本频率值,ni,j表示词语i在待翻译文章j中出现的次数,∑knk,j表示待翻译文章j中词语的总个数,nk,j表示待翻译文章j中第k个词语出现的次数,|D|表示语料库中文章总数,|{j:ti∈dj}|表示语料库中包含词语i的文章的数量,ti表示词语i,dj表示待翻译文章j。
4.根据权利要求1所述的一种国防军工领域机器翻译优化方法,其特征在于,所述机器翻译模型的确定过程为:
获取双语平行句对,所述双语平行句对由原文和所述原文对应的译文组成;
将所述双语平行句对输入到深度神经网络,得到机器翻译模型。
5.根据权利要求1所述的一种国防军工领域机器翻译优化方法,其特征在于,所述根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类,得到多个词类别,具体包括:
在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值,得到划分前的平均余弦相似度,所述当前词类别为上次聚类次数下得到的词类别;
判断所述划分前的平均余弦相似度是否大于特定阈值,得到第二判断结果;
若所述第二判断结果为是,则将所述目标关键词划分到所述当前词类别中,得到划分后的词类别;
计算所述划分后的词类别中所有关键词的余弦相似度的平均值,得到划分后的平均余弦相似度;
判断所述划分后的平均余弦相似度是否小于所述划分前的平均余弦相似度的设定倍数,得到第三判断结果;
若所述第三判断结果为是,则将所述目标关键词从所述划分后的词类别中删除,并将所述目标关键词划分到与所述当前词类别不同的词类别中,然后更新所述当前聚类次数,并返回所述在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值,得到划分前的平均余弦相似度。
6.一种国防军工领域机器翻译优化***,其特征在于,包括:
提取模块,用于提取待翻译文章的关键词,得到关键词列表;
第一计算模块,用于计算所述关键词列表中每个关键词与对应上下文的词向量,所述对应上下文为在所述待翻译文章中与所述关键词相邻的词语;
第二计算模块,用于由所述词向量计算关键词对的余弦相似度;所述关键词对为所述关键词列表中出现在所述待翻译文章的不同位置的两个相同的关键词;
聚类模块,用于根据所述余弦相似度对所述关键词列表中的每个关键词分别进行层次聚类,得到多个词类别;每个所述词类别中至少包括一个所述关键词;
翻译模块,用于采用机器翻译模型对各所述词类别的中的所有关键词进行翻译,得到各所述词类别对应的多种译法;
用户译法确定模块,用于将所述词类别对应的多种译法中出现概率最高的译法确定为对应词类别的用户译法;
机器译法确定模块,用于利用所述机器翻译模型对所述待翻译文章进行翻译,得到各所述关键词的机器译法;
第一判断模块,用于判断所述机器译法与对应的关键词所属词类别的用户译法是否相同,得到第一判断结果;
用户译法翻译模块,用于若所述第一判断结果为否,则采用所述用户译法翻译所述关键词;
机器译法翻译模块,用于若所述第一判断结果为是,则采用所述机器译法翻译所述关键词。
7.根据权利要求6所述的一种国防军工领域机器翻译优化***,其特征在于,所述提取模块具体包括:
语料库获取单元,用于获取语料库;
分词单元,用于对所述待翻译文章进行分词,得到多个词语;
词频-逆文本频率值计算单元,用于根据所述语料库计算每个所述词语的词频-逆文本频率值;
关键词列表单元,用于按照所述词频-逆文本频率值的大小对所有的所述词语进行排序得到关键词列表。
8.根据权利要求7所述的一种国防军工领域机器翻译优化***,其特征在于,所述词频-逆文本频率值计算单元包括:
词频-逆文本频率值计算子单元,用于根据公式TF-IDFi,j=TFi,j×IDFi计算每个所述词语的词频-逆文本频率值,其中,
Figure FDA0002552348720000041
TF-IDFi,j表示词语i在待翻译文章j的重要程度,TF表示词频,IDFi,j表示逆文本频率,TFi,j表示词语i在待翻译文章j中出现的词频值,IDFi表示词语i的逆文本频率值,ni,j表示词语i在待翻译文章j中出现的次数,∑knk,j表示待翻译文章j中词语的总个数,nk,j表示待翻译文章j中第k个词语出现的次数,|D|表示语料库中文章总数,|{j:ti∈dj}|表示语料库中包含词语i的文章的数量,ti表示词语i,dj表示待翻译文章j。
9.根据权利要求6所述的一种国防军工领域机器翻译优化***,其特征在于,所述机器翻译模型的确定具体包括:
双语平行句对获取单元,用于获取双语平行句对,所述双语平行句对由原文和所述原文对应的译文组成;
机器翻译模型确定单元,用于将所述双语平行句对输入到深度神经网络,得到机器翻译模型。
10.根据权利要求6所述的一种国防军工领域机器翻译优化***,其特征在于,所述聚类模块具体包括:
划分前平均余弦相似度计算单元,用于在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值,得到划分前的平均余弦相似度,所述当前词类别为上次聚类次数下得到的词类别;
第二判断单元,用于判断所述划分前的平均余弦相似度是否大于特定阈值,得到第二判断结果;
划分后的词类别单元,用于若所述第二判断结果为是,则将所述目标关键词划分到所述当前词类别中,得到划分后的词类别;
划分后平均余弦相似度计算单元,用于计算所述划分后的词类别中所有关键词的余弦相似度的平均值,得到划分后的平均余弦相似度;
第三判断单元,用于判断所述划分后的平均余弦相似度是否小于所述划分前的平均余弦相似度的设定倍数,得到第三判断结果;
聚类单元,用于若所述第三判断结果为是,则将所述目标关键词从所述划分后的词类别中删除,并将所述目标关键词划分到与所述当前词类别不同的词类别中,然后更新所述当前聚类次数,并返回所述在当前聚类次数下计算当前词类别中的所有关键词与目标关键词的余弦相似度的平均值,得到划分前的平均余弦相似度。
CN202010578821.9A 2020-06-23 2020-06-23 一种国防军工领域机器翻译优化方法及*** Active CN111738022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010578821.9A CN111738022B (zh) 2020-06-23 2020-06-23 一种国防军工领域机器翻译优化方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010578821.9A CN111738022B (zh) 2020-06-23 2020-06-23 一种国防军工领域机器翻译优化方法及***

Publications (2)

Publication Number Publication Date
CN111738022A CN111738022A (zh) 2020-10-02
CN111738022B true CN111738022B (zh) 2023-04-18

Family

ID=72650552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010578821.9A Active CN111738022B (zh) 2020-06-23 2020-06-23 一种国防军工领域机器翻译优化方法及***

Country Status (1)

Country Link
CN (1) CN111738022B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678287A (zh) * 2013-11-30 2014-03-26 武汉传神信息技术有限公司 一种关键词翻译统一的方法
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN109299480A (zh) * 2018-09-04 2019-02-01 上海传神翻译服务有限公司 基于上下文语境的术语翻译方法及装置
CN109858045A (zh) * 2019-02-01 2019-06-07 北京字节跳动网络技术有限公司 机器翻译方法和装置
CN110991196A (zh) * 2019-12-18 2020-04-10 北京百度网讯科技有限公司 多义词的翻译方法、装置、电子设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8639698B1 (en) * 2012-07-16 2014-01-28 Google Inc. Multi-language document clustering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678287A (zh) * 2013-11-30 2014-03-26 武汉传神信息技术有限公司 一种关键词翻译统一的方法
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN109299480A (zh) * 2018-09-04 2019-02-01 上海传神翻译服务有限公司 基于上下文语境的术语翻译方法及装置
CN109858045A (zh) * 2019-02-01 2019-06-07 北京字节跳动网络技术有限公司 机器翻译方法和装置
CN110991196A (zh) * 2019-12-18 2020-04-10 北京百度网讯科技有限公司 多义词的翻译方法、装置、电子设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Yumi WAKITA 等.Fine keyword clustering using a thesaurus and example sentences for speech translation.《6th International Conference on Spoken Language Processing》.2000,1-4. *
孙常龙.基于Web的未登录词翻译技术研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2012,(第06期),I138-2258. *

Also Published As

Publication number Publication date
CN111738022A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN108197111B (zh) 一种基于融合语义聚类的文本自动摘要方法
CN105224640B (zh) 一种提取观点的方法和设备
CN112257453B (zh) 融合关键词和语义特征的汉越文本相似度计算方法
CN110727880B (zh) 一种基于词库与词向量模型的敏感语料检测方法
CN105760474B (zh) 一种基于位置信息的文档集的特征词提取方法及***
CN106598959B (zh) 一种确定双语语句对互译关系方法及***
CN109635297B (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN105068997B (zh) 平行语料的构建方法及装置
CN111539229A (zh) 神经机器翻译模型训练方法、神经机器翻译方法及装置
CN108073571B (zh) 一种多语言文本质量评估方法及***、智能文本处理***
CN111626042B (zh) 指代消解方法及装置
CN106611041A (zh) 一种新的文本相似度求解方法
CN112257460B (zh) 基于枢轴的汉越联合训练神经机器翻译方法
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
CN112131341A (zh) 文本相似度计算方法、装置、电子设备和存储介质
CN115759119A (zh) 一种金融文本情感分析方法、***、介质和设备
CN110929022A (zh) 一种文本摘要生成方法及***
CN111178009B (zh) 一种基于特征词加权的文本多语种识别方法
Li et al. Chinese spelling check based on neural machine translation
CN111738022B (zh) 一种国防军工领域机器翻译优化方法及***
Arcan A comparison of statistical and neural machine translation for Slovene, Serbian and Croatian
Shang Research on Chinese new word discovery algorithm based on mutual information
CN113971403A (zh) 一种考虑文本语义信息的实体识别方法及***
CN114266249A (zh) 一种基于birch聚类的海量文本聚类方法
Nguyen et al. Adaptable filtering using hierarchical embeddings for chinese spell check

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant