CN106874262A

CN106874262A - 一种实现领域自适应的统计机器翻译方法

Info

Publication number: CN106874262A
Application number: CN201710013628.9A
Authority: CN
Inventors: 梁如昕
Original assignee: Chengdu Jiayin Multilingual Information Technology Co Ltd
Current assignee: Chengdu Jiayin Multilingual Information Technology Co Ltd
Priority date: 2017-01-09
Filing date: 2017-01-09
Publication date: 2017-06-20

Abstract

本发明公开了一种实现领域自适应的统计机器翻译方法，本翻译方法将所有的中英对照的名词及名词短语依照现有的知识体系，建立电脑可识别的知识体系树状结构图，通过得到所有的中英对照的名词及名词短语具有它对应的知识树层级；计算每个领域位置点的领域影响权重之和；比较后得出最高领域影响权重之和的领域位置点，在该知识领域内，根据名词词典，确定对应的翻译词汇。本统计机器翻译方法通过模拟人脑知识架构体系，让计算机可以学习人类阅读文字分析相关领域的方法，从而实现计算机对文字知识进行领域识别，从而实现机器翻译的领域自适应功能，从而提高翻译准确性。

Description

一种实现领域自适应的统计机器翻译方法

技术领域

本发明属于的统计机器翻译技术领域，具体地说，涉及一种实现领域自适应的统计机器翻译方法。

背景技术

统计机器翻译是当今使用的最流行的机器翻译。它的工作方式是使用非常庞大的平行文本以及单语语料库训练翻译引擎。***会寻找源文本和译文之间的统计相关性。然后对源语言句子，去查找概率最大的译文。翻译引擎本身没有规则或语法概念。

统计机器翻译的主要缺点是，如果在翻译训练语料库中没有相似的资料的文本时，得出的译文不行。例如，一个使用技术文本训练的翻译引擎，在翻译口语化的文本时效果会很差。因此，需要持续使用与待翻译材料相似的文本来训练引擎。但即使有庞大合适的训练语料，统计机器翻译通常也不能生成出版质量的文本。统计机器翻译经常是在不管上下文的情况下翻译原文，缺乏对上下文语境及专业领域的相关性。

统计机器翻译的难点在于领域迁移和自适应。训练机器翻译***的原始数据可能来自宽泛的各个领域，遇见某个具体领域生僻的词语、句型时，如何快速迁移，以得到高水平的翻译颇为不易，因为这些领域的语料库掌握得少，迁移时知识不足。目前几家著名的在线翻译***，新闻翻译尚可胜任(因为新闻语料最多)，但对银行、法律这些语料稀缺的领域，自适应能力则薄弱许多。

发明内容

针对现有技术中上述的不足，本发明提供一种实现领域自适应的统计机器翻译方法，本翻译方法通过上下文知识树计算出相关的领域，从而为每个名词选择相应领域的对应译法，增强翻译方法的自适应能力，提高翻译准确性。

为了达到上述目的，本发明采用的解决方案是：一种实现领域自适应的统计机器翻译方法，包括以下步骤，

a、将所有的中英对照的名词及名词短语依照现有的知识体系，建立电脑可识别的知识体系树状结构图，所述的知识体系树状结构图包括若干依次排列且逐层细分的层级，层级的标号从1开始直至n；所述的中英对照的名词及名词短语分为通用名词和行业名词，通用名词属于第1层，行业名词从第2层开始按领域逐层细分；

所述的知识体系树状结构图包括所有的由大及小的领域名称以及该领域内的名词及名词短语，该领域内的名词及名词短语设置在该领域名称的下属层级内，领域名称形成领域位置点；由此得到所有的中英对照的名词及名词短语具有它对应的知识树层级；

b、建立电脑可识别的中英对照的名词及名词短语数据库，数据库如下：

中文	英文	知识树层级(level)	领域影响权重(weight):
						n	n+k

由此得到所有的中英对照的名词及名词短语具有它对应的领域影响权重；

c、计算每个领域位置点的领域影响权重之和；

d、比较各个领域位置点的领域影响权重之和，得出最高领域影响权重之和的领域位置点，即该段文字所相关的知识领域；

e、在该知识领域内，根据名词词典，确定对应的翻译词汇。

优选地，在步骤b中，针对一词多义的名词，则将该名词分布在不同意义所针对的领域位置点上，且该名词在每个领域位置点的领域影响权重为(n+k)/x,x为该名词涉及的领域数量。

优选地，k＝-0.5。

本发明的有益效果是，本统计机器翻译方法通过模拟人脑知识架构体系，让计算机可以学习人类阅读文字分析相关领域的方法，从而实现计算机对文字知识进行领域识别，从而实现机器翻译的领域自适应功能，从而提高翻译准确性。

具体实施方式

以下对本发明作进一步描述：

本发明提供一种实现领域自适应的统计机器翻译方法，包括以下步骤，

a、将所有的中英对照的名词及名词短语依照现有的知识体系，建立电脑可识别的知识体系树状结构图，所述的知识体系树状结构图包括若干依次排列且逐层细分的层级，层级的标号从1开始直至n；所述的中英对照的名词及名词短语分为通用名词和行业名词，通用名词属于第1层，行业名词从第2层开始按领域逐层细分；通用性名词通常不影响上下文领域，而细分的行业名词对领域有较高影响，更加细分的行业领域的词汇，对上下文领域有更高的影响度；

中文	英文	知识树层级(level)	领域影响权重(weight):
						n	n+k

针对一词多义的名词，则将该名词分布在不同意义所针对的领域位置点上，且该名词在每个领域位置点的领域影响权重为(n+k)/x,x为该名词涉及的领域数量，k＝-0.5；

c、计算每个领域位置点的领域影响权重之和；

e、在该知识领域内，根据名词词典，确定对应的翻译词汇。

本统计机器翻译方法通过模拟人脑知识架构体系，让计算机可以学习人类阅读文字分析相关领域的方法，从而实现计算机对文字知识进行领域识别，从而实现机器翻译的领域自适应功能，从而提高翻译准确性。

Claims

1.一种实现领域自适应的统计机器翻译方法，其特征是：包括以下步骤，

中文英文知识树层级(level) 领域影响权重(weight): n n+k

c、计算每个领域位置点的领域影响权重之和；

e、在该知识领域内，根据名词词典，确定对应的翻译词汇。

2.根据权利要求1所述的实现领域自适应的统计机器翻译方法，其特征是：在步骤b中，针对一词多义的名词，则将该名词分布在不同意义所针对的领域位置点上，且该名词在每个领域位置点的领域影响权重为(n+k)/x,x为该名词涉及的领域数量。

3.根据权利要求1所述的实现领域自适应的统计机器翻译方法，其特征是：所述的k＝-0.5。