CN107329960A - 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法 - Google Patents

一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法 Download PDF

Info

Publication number
CN107329960A
CN107329960A CN201710514935.5A CN201710514935A CN107329960A CN 107329960 A CN107329960 A CN 107329960A CN 201710514935 A CN201710514935 A CN 201710514935A CN 107329960 A CN107329960 A CN 107329960A
Authority
CN
China
Prior art keywords
word
translation
phrase
unregistered
unregistered word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710514935.5A
Other languages
English (en)
Other versions
CN107329960B (zh
Inventor
杨沐昀
朱聪慧
赵铁军
张红阳
徐冰
曹海龙
郑德权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang Industrial Technology Research Institute Asset Management Co ltd
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201710514935.5A priority Critical patent/CN107329960B/zh
Publication of CN107329960A publication Critical patent/CN107329960A/zh
Application granted granted Critical
Publication of CN107329960B publication Critical patent/CN107329960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法,属于词语翻译设备和方法技术领域。本发明提出的未登录词翻译装置通过查找模块、候选词提供模块、特征抽取模块、评价模块、排序模块和替换模块实现神经网络翻译工作,本发明提出的未登录词翻译装置解决了现有翻译装置和方法翻译准确度低的问题,并有效提高了神经网络翻译中未登录词翻译的准确度,同时,其适用于各种神经网络翻译领域。

Description

一种上下文敏感的神经网络机器翻译中未登录词翻译装置和 方法
技术领域
本发明涉及一种词语翻译装置和方法,属于词语翻译设备和方法技术领域。
背景技术
神经网络机器翻译(neural machine translation,NMT)是一种新的机器翻译方法,核心是一种端到端训练的简单而且易于泛化的深度神经网路。这种网络使用一种编码-解码的结构,编码部分负责把原端句子编码成固定长度的语义向量表示,解码部分是一个循环神经网络(recurrent neural network,RNN),它使用原端句子表示和目标端的历史信息一个一个词解码出目标端的机器翻译句子。这种网络被提出以来在多种语言间的机器翻译任务中都取得了目前最好的效果,如英法翻译,英德翻译,英捷克语翻译。
在实际的模型实现中,由于计算量和GPU内存的限制,NMT模型需要事先确定一个非常受限的常用词词表,其他词表外的未登录词(out of vocabulary,OOV)都使用特殊符号<unk>(unknown)标记,词表大小通常设成30000到80000。由于翻译是一个开放词表问题,所以把大量丰富语义的未登录词表示为一个没有语义的<unk>标记会极大地增加原端句子的歧义性。同时,一旦生成的翻译中包含<unk>,由于NMT模型翻译过程中丢弃了所有的未登录词信息,所以无法对这些<unk>进行处理,我们只能在翻译完成后对翻译结果中的<unk>进行后处理。
目前,应用最为广泛的是一种贪心的后处理方法:在NMT模型中记录词对齐信息,这里通常使用注意力机制(attention mechanism),根据对齐信息找到<unk>对齐概率最大的原端词,之后通过一个事先实现构造好的翻译词典找到原端词的翻译候选,选择词典中翻译概率最大的词对翻译结果中的<unk>进行替换。这种方法也是本实施例实验中对比的基线方法。
这种方法给<unk>找到的替换词已经被很多实验证明可以提升NMT的翻译结果的质量,但是由于在替换的时候没有考虑到翻译结果中<unk>的上下文信息,所以仍然存在着很多问题。因为在翻译过程中,存在着大量“一对多”,“多对一”,“多对多”的翻译映射,同时即使是“一对一”翻译的情况下,同一个原端词在不同的语境下也可能需要翻译成不同的目标端词。面对这些复杂的翻译现象,使用上述的贪心后处理方法,则会造成大量的替换错误,替换重复,替换后句子不通顺的问题。
发明内容
本发明为了解决现有神经网络翻译机器的翻译无法符合和联系上下文语境或语义的问题,提出了一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法。
一种上下文敏感的神经网络机器翻译中未登录词翻译装置,所采取的技术方案如下:
所述未登录词翻译装置包括:
根据所有原端词,在翻译词典中搜索词语的查找模块;
根据所述查找模块获得的查找词语结果为<unk>标记提供可能的未登录词候选翻译的候选翻译提供模块;
用于针对所述候选翻译抽取上下文特征的特征抽取模块;
用于所述上下文特征,利用训练好的SVM rank模型获得所述未登录词候选翻译的评价指标,并根据评价指标对所述未登录词候选翻译按评价指标从高到底的顺序进行排序的排序模块;
用于将评价指标排序最高的未登录词候选翻译替换所述翻译句子中的<unk>标记的替换模块,获得符合上下文语境的完整翻译句子。
进一步地,所述特征抽取模块包括:
用于从NMT注意力对齐模型中提取词对齐特征的词对齐特征提取模块;
用于提取原端词和未登录词候选翻译的词粒度特征的词粒度特征提取模块;
用于提取原端词和未登录词候选翻译的短语粒度特征的短语粒度特征提取模块;
用于提取未登录词候选翻译出现在<unk>标记位置时,未登录词候选翻译附近的语言模型特征的语言模型特征提取模块。
进一步地,所述词粒度特征提取模块包括:
用于原端词翻译到未登录词候选翻译的正向翻译概率模块;
用于未登录词候选翻译翻译到原端词的反向翻译概率模块;
用于提取原端词在NMT训练平行语料中出现的次数的原端词次数提取模块;
用于提取未登录词候选翻译在NMT训练平行语料中出现的次数的未登录词候选翻译次数提取模块;
用于提取原端词和未登录词候选翻译在平行语料的平行句对中的共现次数的共现次数提取模块;
用于提取原端词的出现在词表中的位置的词表位置提取模块;
用于判断原端词是否为未登录词的判断模块。
进一步地,所述短语粒度特征提取包括:
用于提取原端词在短语表中出现的次数的原端词短语表中次数提取模块;
用于提取未登录词候选翻译在短语表中出现的次数的未登录词候选翻译短语表中次数提取模块一;
用于提取原端词和未登录词候选翻译在短语表的每个短语对中的共现次数的短语表中共现次数提取模块;
用于提取原端词与前后词构成的短语在短语表中出现次数的短语次数提取模块;
用于提取原端词与前后词构成短语时,未登录词候选翻译出现在对应目标短语中的次数的未登录词候选翻译短语表中次数提取模块二;
用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时,未登录词候选翻译短语的最大长度的未登录词候选翻译短语长度提取模块;
用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时,且未登录词候选翻译短语取得最大长度时,原端词短语长度的原端词短语长度提取模块。
进一步地,所述语言模型特征提取模块包括:
用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的正向n元语言模型概率的正向n元语言模型概率提取模块;
用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的反向n元语言模型概率的反向n元语言模型概率提取模块;
用于提取未登录词候选翻译出现在<unk>标记位置时,包含相应元数的未登录词候选翻译的词串数量的词串数量提取模块。
一种上下文敏感的神经网络机器翻译中未登录词翻译方法,所采取的技术方案如下:
所述未登录词翻译方法包括:
根据所有原端词,在翻译词典中搜索词语的查找步骤;
根据所述查找步骤获得的查找词语结果为<unk>标记提供可能的未登录词候选翻译的候选翻译提供步骤;
用于针对所述候选翻译抽取上下文特征的特征抽取步骤;
用于所述上下文特征,利用训练好的SVM rank模型获得所述未登录词候选翻译的评价指标,并根据评价指标对所述未登录词候选翻译按评价指标从高到底的顺序进行排序的排序步骤;
用于将评价指标排序最高的未登录词候选翻译替换所述翻译句子中的<unk>标记的替换步骤,获得符合上下文语境的完整翻译句子。
进一步地,所述特征抽取步骤包括:
用于从NMT注意力对齐模型中提取词对齐特征的词对齐特征提取步骤;
用于提取原端词和未登录词候选翻译的词粒度特征的词粒度特征提取步骤;
用于提取原端词和未登录词候选翻译的短语粒度特征的短语粒度特征提取步骤;
用于提取未登录词候选翻译出现<unk>标记位置时,未登录词候选翻译附近的语言模型特征的语言模型特征提取步骤。
进一步地,所述词粒度特征提取步骤包括:
用于原端词翻译到未登录词候选翻译的正向翻译概率步骤;
用于未登录词候选翻译翻译到原端词的反向翻译概率步骤;
用于提取原端词在NMT训练平行语料中出现的次数的原端词次数提取步骤;
用于提取未登录词候选翻译在NMT训练平行语料中出现的次数的未登录词候选翻译次数提取步骤;
用于提取原端词和未登录词候选翻译在平行语料的平行句对中的共现次数的共现次数提取步骤;
用于提取原端词的出现在词表中的位置的词表位置提取步骤;
用于判断原端词是否为未登录词的判断步骤。
进一步地,所述短语粒度特征提取包括:
用于提取原端词在短语表中出现的次数的原端词短语表中次数提取步骤;
用于提取未登录词候选翻译在短语表中出现的次数的未登录词候选翻译短语表中次数提取步骤一;
用于提取原端词和未登录词候选翻译在短语表的每个短语对中的共现次数的短语表中共现次数提取步骤;
用于提取原端词与前后词构成的短语在短语表中出现次数的短语次数提取步骤;
用于提取原端词与前后词构成短语时,未登录词候选翻译出现在对应目标短语中的次数的未登录词候选翻译短语表中次数提取步骤二;
用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时,未登录词候选翻译短语的最大长度的未登录词候选翻译短语长度提取步骤;
用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时,且未登录词候选翻译短语取得最大长度时,原端词短语长度的原端词短语长度提取步骤。
进一步地,所述语言模型特征提取步骤包括:
用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的正向n元语言模型概率的正向n元语言模型概率提取步骤;
用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的反向n元语言模型概率的反向n元语言模型概率提取步骤;
用于提取未登录词候选翻译出现在<unk>标记位置时,包含相应元数的未登录词候选翻译的词串数量的词串数量提取步骤。
本发明有益效果:
本发明所述上下文敏感的神经网络机器翻译中未登录词翻译装置和方法能够做到结合带翻译文字的上下文语境和语义进行翻译,使翻译出来的文字词语的BLEU值和未登录词召回率更好,在中-英翻译任务中的NIST数据集上其BLEU和未登录词召回率分别为33.405和6.53%比现有技术的贪心后处理方法的33.393和6.16%分别提升了0.012和0.37%;较为明显的提升了NMT翻译结果中未登录词的翻译质量。
附图说明
图1为本发明所述上下文敏感的神经网络机器翻译中未登录词翻译装置的结构示意图。
图2为本发明所述词粒度特征提取模块结构示意图。
图3为本发明所述短语粒度特征提取模块结构示意图。
图4为本发明所述语言模型特征提取模块结构示意图。
图5为本发明所述上下文敏感的神经网络机器翻译中未登录词翻译装置的案例示意图。
具体实施方式
下面结合具体实施例对本发明做进一步说明,但本发明不受实施例的限制。
实施例1:
如图1至图4所示,一种上下文敏感的神经网络机器翻译中未登录词翻译装置,所采取的技术方案如下:
所述未登录词翻译装置包括:
根据所有原端词,在翻译词典中搜索词语的查找模块;
根据所述查找模块获得的查找词语结果为未登录词提供可能的未登录词候选翻译的候选翻译提供模块;
用于针对所述候选翻译抽取上下文特征的特征抽取模块;
用于所述上下文特征,利用训练好的SVM rank模型获得所述未登录词候选翻译的评价指标,并根据评价指标对所述未登录词候选翻译按评价指标从高到底的顺序进行排序的排序模块;
用于将评价指标排序最高的未登录词候选翻译替换所述翻译句子中的<unk>标记的替换模块,获得符合上下文语境的完整翻译句子。
其中,所述特征抽取模块包括:
用于从NMT注意力对齐模型中提取词对齐特征的词对齐特征提取模块;
用于提取原端词和未登录词候选翻译的词粒度特征的词粒度特征提取模块;
用于提取原端词和未登录词候选翻译的短语粒度特征的短语粒度特征提取模块;
用于提取未登录词候选翻译出现在<unk>标记位置时,未登录词候选翻译附近的语言模型特征的语言模型特征提取模块。
所述词粒度特征提取模块包括:
用于原端词翻译到未登录词候选翻译的正向翻译概率模块;
用于未登录词候选翻译翻译到原端词的反向翻译概率模块;
用于提取原端词在NMT训练平行语料中出现的次数的原端词次数提取模块;
用于提取未登录词候选翻译在NMT训练平行语料中出现的次数的未登录词候选翻译次数提取模块;
用于提取原端词和未登录词候选翻译在平行语料的平行句对中的共现次数的共现次数提取模块;
用于提取原端词的出现在词表中的位置的词表位置提取模块;
用于判断原端词是否为未登录词的判断模块。
所述短语粒度特征提取包括:
用于提取原端词在短语表中出现的次数的原端词短语表中次数提取模块;
用于提取未登录词候选翻译在短语表中出现的次数的未登录词候选翻译短语表中次数提取模块一;
用于提取原端词和未登录词候选翻译在短语表的每个短语对中的共现次数的短语表中共现次数提取模块;
用于提取原端词与前后词构成的短语在短语表中出现次数的短语次数提取模块;
用于提取原端词与前后词构成短语时,未登录词候选翻译出现在对应目标短语中的次数的未登录词候选翻译短语表中次数提取模块二;
用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时,未登录词候选翻译短语的最大长度的未登录词候选翻译短语长度提取模块;
用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时,且未登录词候选翻译短语取得最大长度时,原端词短语长度的原端词短语长度提取模块。
其中,所述语言模型特征提取模块包括:
用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的正向n元语言模型概率的正向n元语言模型概率提取模块;
用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的反向n元语言模型概率的反向n元语言模型概率提取模块;
用于提取未登录词候选翻译出现在<unk>标记位置时,包含相应元数的未登录词候选翻译的词串数量的词串数量提取模块。
一种上下文敏感的神经网络机器翻译中未登录词翻译方法,所采取的技术方案如下:
所述未登录词翻译方法包括:
根据所有原端词,在翻译词典中搜索词语的查找步骤;
根据所述查找步骤获得的查找词语结果为<unk>标记提供可能的未登录词候选翻译的候选翻译提供步骤;
用于针对所述候选翻译抽取上下文特征的特征抽取步骤;
用于所述上下文特征,利用训练好的SVM rank模型获得所述未登录词候选翻译的评价指标,并根据评价指标对所述未登录词候选翻译按评价指标从高到底的顺序进行排序的排序步骤;
用于将评价指标排序最高的未登录词候选翻译替换所述翻译句子中的<unk>标记的替换步骤,获得符合上下文语境的完整翻译句子。
其中,所述特征抽取步骤包括:
用于从NMT注意力对齐模型中提取词对齐特征的词对齐特征提取步骤;
用于提取原端词和未登录词候选翻译的词粒度特征的词粒度特征提取步骤;
用于提取原端词和未登录词候选翻译的短语粒度特征的短语粒度特征提取步骤;
用于提取未登录词候选翻译出现在<unk>标记位置时,未登录词候选翻译附近的语言模型特征的语言模型特征提取步骤。
所述词粒度特征提取步骤包括:
用于原端词翻译到未登录词候选翻译的正向翻译概率步骤;
用于未登录词候选翻译翻译到原端词的反向翻译概率步骤;
用于提取原端词在NMT训练平行语料中出现的次数的原端词次数提取步骤;
用于提取未登录词候选翻译在NMT训练平行语料中出现的次数的未登录词候选翻译次数提取步骤;
用于提取原端词和未登录词候选翻译在平行语料的平行句对中的共现次数的共现次数提取步骤;
用于提取原端词的出现在词表中的词表位置的位置提取步骤;
用于判断原端词是否为未登录词的判断步骤。
所述短语粒度特征提取包括:
用于提取原端词在短语表中出现的次数的原端词短语表中次数提取步骤;
用于提取未登录词候选翻译在短语表中出现的次数的未登录词候选翻译短语表中次数提取步骤一;
用于提取原端词和未登录词候选翻译在短语表的每个短语对中的共现次数的短语表中共现次数提取步骤;
用于提取原端词与前后词构成的短语在短语表中出现次数的短语次数提取步骤;
用于提取原端词与前后词构成短语时,未登录词候选翻译出现在对应目标短语表中的次数的未登录词候选翻译短语中次数提取步骤二;
用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时,未登录词候选翻译短语的最大长度的未登录词候选翻译短语长度提取步骤;
用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时,且未登录词候选翻译短语取得最大长度时,原端词短语长度的原端词短语长度提取步骤。
所述语言模型特征提取步骤包括:
用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的正向n元语言模型概率的正向n元语言模型概率提取步骤;
用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的反向n元语言模型概率的反向n元语言模型概率提取步骤;
用于提取未登录词候选翻译出现在<unk>标记位置时,包含相应元数的未登录词候选翻译的词串数量的词串数量提取步骤。
本实施例所述一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法,其实验结果见表1所示。在表1中,①代表NMT词对齐特征,②代表词粒度特征,③代表短语粒度特征,④代表语言模型特征。
从表1中可以看到,使用全部特征训练的模型达到了最高的准确率45.12%。
比贪心后处理方法的36.89%高了8.23%。
表1模型在未登录词后处理构造数据上的效果
在开放环境下NMT的实际翻译结果,实验结果如表2所示。这里我们比较的贪心后处理方法和后处理时直接删除<unk>标记两种方法,表中的BLEU和Recall(OOV)为所有测试集2上的平均值。从表2中我们可以看出,我们的模型在Recall(OOV)和BLEU上都超过了贪心的未登录词处理方法。这说明本发明所提取的上下文敏感的神经网络机器翻译中未登录词翻译装置和方法对于相对于现有的贪心后处理方法具有显著的技术进步。
表2扩展选词范围的模型在NMT真实翻译结果上的效果
本发明所述上下文敏感的神经网络机器翻译中未登录词翻译装置和方法能够做到结合带翻译文字的上下文语境和语义进行翻译,使翻译出来的文字词语的BLEU值和未登录词召回率更好,在中-英翻译任务中的NIST数据集上其BLEU和未登录词召回率分别为33.405和6.53%比现有技术的贪心后处理方法的33.393和6.16%分别提升了0.012和0.37%;较为明显的提升了NMT翻译结果中未登录词的翻译质量。
实施例2
实施例2是对实施例1所述一种上下文敏感的神经网络机器翻译中未登录词翻译方法的进一步细化,利用上下文信息找到一个最合适的词去替换NMT翻译结果中的<unk>标记(NMT中用来表示未登录词)。未登录词翻译装置根据原端词和事先构造好的翻译词典提取未登录词候选翻译,同时记录产生这个未登录词候选翻译的原端词,针对每一个未登录词候选翻译和原端词对结合原句子和翻译结果从不同的角度提取了4类上下文特征:NMT词对齐特征,词粒度特征,短语粒度特征,语言模型特征,最后使用svm-rank模型结合所有4类特征去排序得到最优替换词,所述上下文敏感的神经网络机器翻译中未登录词翻译方法翻译<unk>标记的具体过程如下:
给定一个带有<unk>标记的翻译句子和其对应的原端句,本方法的翻译流程如下:
步骤一:根据所有的原端词查找翻译词典为<unk>提供可能的未登录词候选翻译。
步骤二:为每个<unk>的未登录词候选翻译抽取上下文特征。
步骤三:使用训练好的SVM rank模型根据上下文特征为所有的未登录词候选翻译进行排序。
使用排序最高的词替换翻译句子中的<unk>标记。
其中,所述SVM rank模型属于排序学习中的pairwise一类的方法,是用来学习给候选列表排序而不是二分类任务。Rank SVM的基本假设中假定对于排序列表rank存在一个线性函数f(x)=wtx+b满足可知SVMrank本质上也是在线性拟合某种分数,只不过这种分数与真实评价指标不保证相同,只能够保证使用这种分数对候选排序的结果与使用真实评价指标一致。本发明在SVM rank模型中加入了松弛变量来处理输入中的噪声并增加泛化能力,因此加入松弛变量后的模型数学形式上的结构为:
subjectto
其中xi和yi分别是候选i的特征和评价指标,xj和yj分别是候选j的特征和评价指标,ξi,j是松弛变量。
当SVM rank模型选定之后,输入的特征是否具有区分性是决定模型性能好坏的关键。
其中,模型训练的过程为:
1)、SVM rank模型训练数据集
本实施例从LDC2002E18,LDC2003E07,LDC2003E14,LDC2004T07,LDC2004T08,LDC2005T06和LDC2005T10这7个数据集中抽取了210万句中-英平行语料作为NMT的训练数据,其中分别包含5.4千万个中文词和6千万个英文词。本实施例从NMT训练语料中过滤出25万句带有未登录词的平行语料,用这些语料构造了32万个未登录词后处理训练实例。在每个训练实例中原端句子中的所有词都为<unk>标记提供未登录词候选翻译,候选的范围是在翻译词典中翻译概率最大的前100个词中的未登录词。最终平均每个训练实例有65个未登录词候选翻译。
表3排序模型训练数据样例
表3为排序模型训练数据样例,第1、2、3列分别为序号,候选翻译和对应的源端词。第5到32列分别为对齐特征,词粒度特征,短语粒度特征和语言模型特征。每个候选翻译通过源端词查找翻译词典得到。本实施例使用NMT强制解码的方式得到训练数据的注意力对齐特征,在210万平行语料中统计得到词粒度特征和语言模型特征,在Moses构建的短语表中抽取短语粒度特征。
本实施例使用GIZA++工具在210万平行语料上用标准的“grow-diag-final”方法得到一个双向的词对齐矩阵,基于这个词对齐结果,本实施例使用极大似然方法计算原端词到目标端词的正向翻译概率和目标端词到原端词的反向翻译概率,词典中每个词最多保持200个翻译候选翻译。最后本实施例得原端到目标端和目标端到原端的两个翻译词典用于提供未登录词候选和抽取正反向翻译概率特征。
另外,本实施例从不同角度提取了4类上下文特征,如图5所示,四类上下文特征包括:①为从NMT注意力对齐模型中提取的词对齐特征,②为提取源端词和未登录词候选翻译的词粒度特征,③为提取源端词和未登录词候选翻译的短语粒度特征,④为提取未登录词候选翻译出现在<unk>标记位置时,未登录词候选翻译附近的语言模型特征。
其中,如图2所示,以图2中的原端句子为例:
①NMT词对齐特征
对于每个候选翻译和产生它的原端词对,我们首先抽取一个NMT词对齐特征,这个特征是NMT产生<unk>时产生的注意力分数(attention scores),其表示翻译结果中的<unk>对齐到原端词的概率。这个分数是NMT在模型中产生的,同时也是连接<unk>与原端词的重要信息。
②词粒度特征
对于每一个原端词和其对应的候选翻译,我们首先要提取的是这两个词在语料中的共现关系,以及它们本身在语料中的统计信息。本实施例抽取了7个词粒度上下文特征:
●p(t|s):原端词翻译到候选翻译的正向翻译概率。
●p(s|t):候选翻译翻译到原端词的反向概率。
●number_in_corpus(s):原端词在NMT训练平行语料中出现的次数。
●number_in_corpus(t):候选翻译在NMT训练平行语料中出现的次数。
●number_cooc_in_corpus(s,t):原端词和候选翻译在平行语料的平行句对中的共现次数。
●freq_in_vocab(s):在平行语料中按词的频数从大到小排列出词表,原端词的出现在词表中的位置。
●1if s is OOV else 0:原端词是否为未登录词,如果原端词是未登录词,特征值为1,否则为0。
③短语粒度特征
我们进一步捕捉了原端词和候选翻译与其前后词组成的短语间的共现关系与统计信息,这部分特征我们在统计机器翻译工具Moses生成的短语翻译表中进行统计和抽取。本实施例抽取了7个短语粒度上下文特征:
●number_in_phrase_table(s):原端词在短语表中出现的次数。
●number_in_phrase_table(t):候选翻译在短语表中出现的次数。
●number_cooc_in_phrase_table(s,t):原端词和候选翻译在短语表的每个短语对中的共现次数。
●number_in_phrase_table(phrase(s)):原端词与前后词构成的短语在短语表中出现次数。
●number_in_phrase_table(phrase(s))if t in phrase table:原端词与前后词构成短语时,候选翻译出现在对应目标短语中的次数。
●max_length(t)if cooc(phrase(s),phrase(t)):原端词和候选翻译分别与前后词构成的短语对出现在短语表中时,候选翻译短语的最大长度。
●length(s)if max_length(t)and cooc(phrase(s),phrase(t)):原端词和候选翻译分别与前后词构成的短语对出现在短语表中时,且候选翻译短语取得最大长度时,原端词短语长度。
④语言模型特征
语言模型是表示句字上下文流畅度的重要特征,本实施例以候选翻译为中心,根据<unk>的前后词抽取了15个语言模型特征,对于5个连续的翻译词序列,A B OOV C D:
·p(OOV|B),p(C|OOV):包含OOV的正向2元语言模型特征。
●p(B|OOV),p(OOV|C):包含OOV的反向2元语言模型特征。
●p(OOV|B,A),p(C|OOV,B),p(D|C,OOV):包含OOV的正向3元语言模型特征。
●p(A|B,OOV),p(B|OOV,C),p(OOV|C,D):包含OOV的反向3元语言模型特征。
●count(B OOV),count(OOV C):包含OOV的2元词串数量。
●count(A B OOV),count(B OOV C),count(OOV C D):句子中包含OOV的3元词
虽然本发明已以较佳的实施例公开如上,但其并非用以限定本发明,任何熟悉此技术的人,在不脱离本发明的精神和范围内,都可以做各种改动和修饰,因此本发明的保护范围应该以权利要求书所界定的为准。

Claims (10)

1.一种上下文敏感的神经网络机器翻译中未登录词翻译装置,其特征在于,所述未登录词翻译装置包括:
根据所有原端词,在翻译词典中搜索词语的查找模块;
根据所述查找模块获得的查找词语结果为<unk>标记提供可能的未登录词候选翻译的词候选翻译提供模块;
用于针对所述词候选翻译抽取上下文特征的特征抽取模块;
用于所述上下文特征,利用训练好的SVM rank模型获得所述未登录词候选翻译的评价指标,并根据评价指标对所述未登录词候选翻译按评价指标从高到底的顺序进行排序的排序模块;
用于将评价指标排序最高的未登录词候选翻译替换所述翻译句子中的<unk>标记的替换模块,获得符合上下文语境的完整翻译句子。
2.根据权利要求1所述未登录词翻译装置,其特征在于,所述特征抽取模块包括:
用于从NMT注意力对齐模型中提取词对齐特征的词对齐特征提取模块;
用于提取原端词和未登录词候选翻译的词粒度特征的词粒度特征提取模块;
用于提取原端词和未登录词候选翻译的短语粒度特征的短语粒度特征提取模块;
用于提取未登录词候选翻译出现在<unk>标记位置时,未登录词候选翻译附近的语言模型特征的语言模型特征提取模块。
3.根据权利要求3所述未登录词翻译装置,其特征在于,所述词粒度特征提取模块包括:
用于原端词翻译到未登录词候选翻译的正向翻译概率模块;
用于未登录词候选翻译翻译到原端词的反向翻译概率模块;
用于提取原端词在NMT训练平行语料中出现的次数的原端词次数提取模块;
用于提取未登录词候选翻译在NMT训练平行语料中出现的次数的未登录词候选翻译次数提取模块;
用于提取原端词和未登录词候选翻译在平行语料的平行句对中的共现次数的共现次数提取模块;
用于提取原端词的出现在词表中的位置的词表位置提取模块;
用于判断原端词是否为未登录词的判断模块。
4.根据权利要求3所述未登录词翻译装置,其特征在于,所述短语粒度特征提取模块包括:
用于提取原端词在短语表中出现的次数的原端词短语表中次数提取模块;
用于提取未登录词候选翻译在短语表中出现的次数的未登录词候选翻译短语表中次数提取模块一;
用于提取原端词和未登录词候选翻译在短语表的每个短语对中的共现次数的短语表中共现次数提取模块;
用于提取原端词与前后词构成的短语在短语表中出现次数的短语次数提取模块;
用于提取原端词与前后词构成短语时,未登录词候选翻译出现在对应目标短语中的次数的未登录词候选翻译短语表中次数提取模块二;
用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时,未登录词候选翻译短语的最大长度的未登录词候选翻译短语长度提取模块;
用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时,且未登录词候选翻译短语取得最大长度时,原端词短语长度的原端词短语长度提取模块。
5.根据权利要求3所述未登录词翻译装置,其特征在于,所述语言模型特征提取模块包括:
用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的正向n元语言模型概率的正向n元语言模型概率提取模块;
用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的反向n元语言模型概率的反向n元语言模型概率提取模块;
用于提取未登录词候选翻译出现在<unk>标记位置时,包含相应元数的未登录词候选翻译的词串数量的词串数量提取模块。
6.一种上下文敏感的神经网络机器翻译中未登录词翻译方法,其特征在于,所述未登录词翻译方法包括:
根据所有原端词,在翻译词典中搜索词语的查找步骤;
根据所述查找步骤获得的查找词语结果为<unk>标记提供可能的未登录词候选翻译的候选翻译提供步骤;
用于针对所述候选翻译抽取上下文特征的特征抽取步骤;
用于所述上下文特征,利用训练好的SVM rank模型获得所述未登录词候选翻译的评价指标,并根据评价指标对所述未登录词候选翻译按评价指标从高到底的顺序进行排序的排序步骤;
用于将评价指标排序最高的未登录词候选翻译替换所述翻译句子中的<unk>标记的替换步骤,获得符合上下文语境的完整翻译句子。
7.根据权利要求6所述未登录词翻译方法,其特征在于,所述特征抽取步骤包括:
用于从NMT注意力对齐模型中提取词对齐特征的词对齐特征提取步骤;
用于提取原端词和未登录词候选翻译的词粒度特征的词粒度特征提取步骤;
用于提取原端词和未登录词候选翻译的短语粒度特征的短语粒度特征提取步骤;
用于提取未登录词候选翻译出现在<unk>标记位置时,未登录词候选翻译附近的语言模型特征的语言模型特征提取步骤。
8.根据权利要求7所述未登录词翻译方法,其特征在于,所述词粒度特征提取步骤包括:
用于原端词翻译到未登录词候选翻译的正向翻译概率步骤;
用于未登录词候选翻译翻译到原端词的反向翻译概率步骤;
用于提取原端词在NMT训练平行语料中出现的次数的原端词次数提取步骤;
用于提取未登录词候选翻译在NMT训练平行语料中出现的次数的未登录词候选翻译次数提取步骤;
用于提取原端词和未登录词候选翻译在平行语料的平行句对中的共现次数的共现次数提取步骤;
用于提取原端词的出现在词表中的位置的词表位置提取步骤;
用于判断原端词是否为未登录词的判断步骤。
9.根据权利要求7所述未登录词翻译方法,其特征在于,所述短语粒度特征提取步骤包括:
用于提取原端词在短语表中出现的次数的原端词短语表中次数提取步骤;
用于提取未登录词候选翻译在短语表中出现的次数的未登录词候选翻译短语表中次数提取步骤一;
用于提取原端词和未登录词候选翻译在短语表的每个短语对中的共现次数的短语表中共现次数提取步骤;
用于提取原端词与前后词构成的短语在短语表中出现次数的短语次数提取步骤;
用于提取原端词与前后词构成短语时,未登录词候选翻译出现在对应目标短语中的次数的未登录词候选翻译短语表中次数提取步骤二;
用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时,未登录词候选翻译短语的最大长度的未登录词候选翻译短语长度提取步骤;
用于提取原端词和未登录词候选翻译分别与前后词构成的短语对出现在短语表中时,且未登录词候选翻译短语取得最大长度时,原端词短语长度的原端词短语长度提取步骤。
10.根据权利要求7所述未登录词翻译方法,其特征在于,所述语言模型特征提取步骤包括:
用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的正向n元语言模型概率的正向n元语言模型概率提取步骤;
用于在连续的翻译词语序列中提取未登录词候选翻译出现在<unk>标记位置时未登录词候选翻译的反向n元语言模型概率的反向n元语言模型概率提取步骤;
用于提取未登录词候选翻译出现在<unk>标记位置时,包含相应元数的未登录词候选翻译的词串数量的词串数量提取步骤。
CN201710514935.5A 2017-06-29 2017-06-29 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法 Active CN107329960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710514935.5A CN107329960B (zh) 2017-06-29 2017-06-29 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710514935.5A CN107329960B (zh) 2017-06-29 2017-06-29 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法

Publications (2)

Publication Number Publication Date
CN107329960A true CN107329960A (zh) 2017-11-07
CN107329960B CN107329960B (zh) 2019-01-01

Family

ID=60199050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710514935.5A Active CN107329960B (zh) 2017-06-29 2017-06-29 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法

Country Status (1)

Country Link
CN (1) CN107329960B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967263A (zh) * 2017-12-11 2018-04-27 中译语通科技股份有限公司 一种机器翻译数字泛化方法及***、计算机、计算机程序
CN108345590A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种翻译方法、装置、电子设备以及存储介质
CN108363704A (zh) * 2018-03-02 2018-08-03 北京理工大学 一种基于统计短语表的神经网络机器翻译语料扩展方法
CN108717434A (zh) * 2018-05-15 2018-10-30 南京大学 一种混合逐点策略和成对策略的文本排序方法
CN109543151A (zh) * 2018-10-31 2019-03-29 昆明理工大学 一种提高老挝语词性标注准确率的方法
CN110188353A (zh) * 2019-05-28 2019-08-30 百度在线网络技术(北京)有限公司 文本纠错方法及装置
CN111274826A (zh) * 2020-01-19 2020-06-12 南京新一代人工智能研究院有限公司 一种基于语义信息融合的低频词翻译方法
CN113412515A (zh) * 2019-05-02 2021-09-17 谷歌有限责任公司 适配自动化助理以用多种语言使用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193913A (zh) * 2010-03-12 2011-09-21 夏普株式会社 翻译装置及翻译方法
CN102662936A (zh) * 2012-04-09 2012-09-12 复旦大学 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
CN105573989A (zh) * 2014-11-04 2016-05-11 富士通株式会社 翻译装置及翻译方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193913A (zh) * 2010-03-12 2011-09-21 夏普株式会社 翻译装置及翻译方法
CN102662936A (zh) * 2012-04-09 2012-09-12 复旦大学 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
CN105573989A (zh) * 2014-11-04 2016-05-11 富士通株式会社 翻译装置及翻译方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUEJIE ZHANG ET AL.: "Fusion of Multiple Features and Ranking SVM for Web-based English-Chinese OOV Term Translation", 《COLING 2010: POSTER VOLUME》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10929619B2 (en) 2017-12-11 2021-02-23 Glabal Tone Communication Technology Co., Ltd. Numerical generalization method for machine translation and system, computer and computer program thereof
WO2019113783A1 (zh) * 2017-12-11 2019-06-20 中译语通科技股份有限公司 一种机器翻译数字泛化方法及***、计算机、计算机程序
CN107967263A (zh) * 2017-12-11 2018-04-27 中译语通科技股份有限公司 一种机器翻译数字泛化方法及***、计算机、计算机程序
CN108345590A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种翻译方法、装置、电子设备以及存储介质
CN108363704A (zh) * 2018-03-02 2018-08-03 北京理工大学 一种基于统计短语表的神经网络机器翻译语料扩展方法
CN108717434A (zh) * 2018-05-15 2018-10-30 南京大学 一种混合逐点策略和成对策略的文本排序方法
CN108717434B (zh) * 2018-05-15 2020-07-31 南京大学 一种混合逐点策略和成对策略的文本排序方法
CN109543151A (zh) * 2018-10-31 2019-03-29 昆明理工大学 一种提高老挝语词性标注准确率的方法
CN109543151B (zh) * 2018-10-31 2021-05-25 昆明理工大学 一种提高老挝语词性标注准确率的方法
CN113412515A (zh) * 2019-05-02 2021-09-17 谷歌有限责任公司 适配自动化助理以用多种语言使用
CN110188353A (zh) * 2019-05-28 2019-08-30 百度在线网络技术(北京)有限公司 文本纠错方法及装置
CN111274826B (zh) * 2020-01-19 2021-02-05 南京新一代人工智能研究院有限公司 一种基于语义信息融合的低频词翻译方法
CN111274826A (zh) * 2020-01-19 2020-06-12 南京新一代人工智能研究院有限公司 一种基于语义信息融合的低频词翻译方法

Also Published As

Publication number Publication date
CN107329960B (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
CN107329960A (zh) 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法
CN108846017A (zh) 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN106651696B (zh) 一种近似题推送方法及***
Bustamante et al. No data to crawl? monolingual corpus creation from PDF files of truly low-resource languages in Peru
CN111488466B (zh) 中文带标记错误语料生成方法、计算装置和存储介质
CN101520802A (zh) 一种问答对的质量评价方法和***
US7962507B2 (en) Web content mining of pair-based data
CN111680488A (zh) 基于知识图谱多视角信息的跨语言实体对齐方法
CN105224520B (zh) 一种中文专利文献术语自动识别方法
CN109460552A (zh) 基于规则和语料库的汉语语病自动检测方法及设备
CN110276069A (zh) 一种中国盲文错误自动检测方法、***及存储介质
Hamdi et al. In-depth analysis of the impact of OCR errors on named entity recognition and linking
CN107092675A (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN108038099A (zh) 基于词聚类的低频关键词识别方法
Errami et al. Sentiment Analysis onMoroccan Dialect based on ML and Social Media Content Detection
CN103729421A (zh) 一种译员文档精确匹配的方法
Bao et al. Contextualized rewriting for text summarization
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
Nugraha et al. Typographic-based data augmentation to improve a question retrieval in short dialogue system
CN101763403A (zh) 面向多语言信息检索***的查询翻译方法
Pinter et al. Will it unblend?
Kanjirangat et al. Optimizing the size of subword vocabularies in dialect classification
Chklovski et al. The Senseval-3 multilingual English-Hindi lexical sample task
Tarmom et al. Compression versus traditional machine learning classifiers to detect code-switching in varieties and dialects: Arabic as a case study
Lahbari et al. A rule-based method for Arabic question classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210121

Address after: Building 9, accelerator, 14955 Zhongyuan Avenue, Songbei District, Harbin City, Heilongjiang Province

Patentee after: INDUSTRIAL TECHNOLOGY Research Institute OF HEILONGJIANG PROVINCE

Address before: 150001 No. 92 West straight street, Nangang District, Heilongjiang, Harbin

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230407

Address after: 150027 Room 412, Unit 1, No. 14955, Zhongyuan Avenue, Building 9, Innovation and Entrepreneurship Plaza, Science and Technology Innovation City, Harbin Hi tech Industrial Development Zone, Heilongjiang Province

Patentee after: Heilongjiang Industrial Technology Research Institute Asset Management Co.,Ltd.

Address before: Building 9, accelerator, 14955 Zhongyuan Avenue, Songbei District, Harbin City, Heilongjiang Province

Patentee before: INDUSTRIAL TECHNOLOGY Research Institute OF HEILONGJIANG PROVINCE