CN106874262A - 一种实现领域自适应的统计机器翻译方法 - Google Patents

一种实现领域自适应的统计机器翻译方法 Download PDF

Info

Publication number
CN106874262A
CN106874262A CN201710013628.9A CN201710013628A CN106874262A CN 106874262 A CN106874262 A CN 106874262A CN 201710013628 A CN201710013628 A CN 201710013628A CN 106874262 A CN106874262 A CN 106874262A
Authority
CN
China
Prior art keywords
noun
domain
field
knowledge
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710013628.9A
Other languages
English (en)
Inventor
梁如昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Jiayin Multilingual Information Technology Co Ltd
Original Assignee
Chengdu Jiayin Multilingual Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Jiayin Multilingual Information Technology Co Ltd filed Critical Chengdu Jiayin Multilingual Information Technology Co Ltd
Priority to CN201710013628.9A priority Critical patent/CN106874262A/zh
Publication of CN106874262A publication Critical patent/CN106874262A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种实现领域自适应的统计机器翻译方法,本翻译方法将所有的中英对照的名词及名词短语依照现有的知识体系,建立电脑可识别的知识体系树状结构图,通过得到所有的中英对照的名词及名词短语具有它对应的知识树层级;计算每个领域位置点的领域影响权重之和;比较后得出最高领域影响权重之和的领域位置点,在该知识领域内,根据名词词典,确定对应的翻译词汇。本统计机器翻译方法通过模拟人脑知识架构体系,让计算机可以学习人类阅读文字分析相关领域的方法,从而实现计算机对文字知识进行领域识别,从而实现机器翻译的领域自适应功能,从而提高翻译准确性。

Description

一种实现领域自适应的统计机器翻译方法
技术领域
本发明属于的统计机器翻译技术领域,具体地说,涉及一种实现领域自适应的统计机器翻译方法。
背景技术
统计机器翻译是当今使用的最流行的机器翻译。它的工作方式是使用非常庞大的平行文本以及单语语料库训练翻译引擎。***会寻找源文本和译文之间的统计相关性。然后对源语言句子,去查找概率最大的译文。翻译引擎本身没有规则或语法概念。
统计机器翻译的主要缺点是,如果在翻译训练语料库中没有相似的资料的文本时,得出的译文不行。例如,一个使用技术文本训练的翻译引擎,在翻译口语化的文本时效果会很差。因此,需要持续使用与待翻译材料相似的文本来训练引擎。但即使有庞大合适的训练语料,统计机器翻译通常也不能生成出版质量的文本。统计机器翻译经常是在不管上下文的情况下翻译原文,缺乏对上下文语境及专业领域的相关性。
统计机器翻译的难点在于领域迁移和自适应。训练机器翻译***的原始数据可能来自宽泛的各个领域,遇见某个具体领域生僻的词语、句型时,如何快速迁移,以得到高水平的翻译颇为不易,因为这些领域的语料库掌握得少,迁移时知识不足。目前几家著名的在线翻译***,新闻翻译尚可胜任(因为新闻语料最多),但对银行、法律这些语料稀缺的领域,自适应能力则薄弱许多。
发明内容
针对现有技术中上述的不足,本发明提供一种实现领域自适应的统计机器翻译方法,本翻译方法通过上下文知识树计算出相关的领域,从而为每个名词选择相应领域的对应译法,增强翻译方法的自适应能力,提高翻译准确性。
为了达到上述目的,本发明采用的解决方案是:一种实现领域自适应的统计机器翻译方法,包括以下步骤,
a、将所有的中英对照的名词及名词短语依照现有的知识体系,建立电脑可识别的知识体系树状结构图,所述的知识体系树状结构图包括若干依次排列且逐层细分的层级,层级的标号从1开始直至n;所述的中英对照的名词及名词短语分为通用名词和行业名词,通用名词属于第1层,行业名词从第2层开始按领域逐层细分;
所述的知识体系树状结构图包括所有的由大及小的领域名称以及该领域内的名词及名词短语,该领域内的名词及名词短语设置在该领域名称的下属层级内,领域名称形成领域位置点;由此得到所有的中英对照的名词及名词短语具有它对应的知识树层级;
b、建立电脑可识别的中英对照的名词及名词短语数据库,数据库如下:
中文 英文 知识树层级(level) 领域影响权重(weight):
n n+k
由此得到所有的中英对照的名词及名词短语具有它对应的领域影响权重;
c、计算每个领域位置点的领域影响权重之和;
d、比较各个领域位置点的领域影响权重之和,得出最高领域影响权重之和的领域位置点,即该段文字所相关的知识领域;
e、在该知识领域内,根据名词词典,确定对应的翻译词汇。
优选地,在步骤b中,针对一词多义的名词,则将该名词分布在不同意义所针对的领域位置点上,且该名词在每个领域位置点的领域影响权重为(n+k)/x,x为该名词涉及的领域数量。
优选地,k=-0.5。
本发明的有益效果是,本统计机器翻译方法通过模拟人脑知识架构体系,让计算机可以学习人类阅读文字分析相关领域的方法,从而实现计算机对文字知识进行领域识别,从而实现机器翻译的领域自适应功能,从而提高翻译准确性。
具体实施方式
以下对本发明作进一步描述:
本发明提供一种实现领域自适应的统计机器翻译方法,包括以下步骤,
a、将所有的中英对照的名词及名词短语依照现有的知识体系,建立电脑可识别的知识体系树状结构图,所述的知识体系树状结构图包括若干依次排列且逐层细分的层级,层级的标号从1开始直至n;所述的中英对照的名词及名词短语分为通用名词和行业名词,通用名词属于第1层,行业名词从第2层开始按领域逐层细分;通用性名词通常不影响上下文领域,而细分的行业名词对领域有较高影响,更加细分的行业领域的词汇,对上下文领域有更高的影响度;
所述的知识体系树状结构图包括所有的由大及小的领域名称以及该领域内的名词及名词短语,该领域内的名词及名词短语设置在该领域名称的下属层级内,领域名称形成领域位置点;由此得到所有的中英对照的名词及名词短语具有它对应的知识树层级;
b、建立电脑可识别的中英对照的名词及名词短语数据库,数据库如下:
中文 英文 知识树层级(level) 领域影响权重(weight):
n n+k
由此得到所有的中英对照的名词及名词短语具有它对应的领域影响权重;
针对一词多义的名词,则将该名词分布在不同意义所针对的领域位置点上,且该名词在每个领域位置点的领域影响权重为(n+k)/x,x为该名词涉及的领域数量,k=-0.5;
c、计算每个领域位置点的领域影响权重之和;
d、比较各个领域位置点的领域影响权重之和,得出最高领域影响权重之和的领域位置点,即该段文字所相关的知识领域;
e、在该知识领域内,根据名词词典,确定对应的翻译词汇。
本统计机器翻译方法通过模拟人脑知识架构体系,让计算机可以学习人类阅读文字分析相关领域的方法,从而实现计算机对文字知识进行领域识别,从而实现机器翻译的领域自适应功能,从而提高翻译准确性。

Claims (3)

1.一种实现领域自适应的统计机器翻译方法,其特征是:包括以下步骤,
a、将所有的中英对照的名词及名词短语依照现有的知识体系,建立电脑可识别的知识体系树状结构图,所述的知识体系树状结构图包括若干依次排列且逐层细分的层级,层级的标号从1开始直至n;所述的中英对照的名词及名词短语分为通用名词和行业名词,通用名词属于第1层,行业名词从第2层开始按领域逐层细分;
所述的知识体系树状结构图包括所有的由大及小的领域名称以及该领域内的名词及名词短语,该领域内的名词及名词短语设置在该领域名称的下属层级内,领域名称形成领域位置点;由此得到所有的中英对照的名词及名词短语具有它对应的知识树层级;
b、建立电脑可识别的中英对照的名词及名词短语数据库,数据库如下:
中文 英文 知识树层级(level) 领域影响权重(weight): n n+k
由此得到所有的中英对照的名词及名词短语具有它对应的领域影响权重;
c、计算每个领域位置点的领域影响权重之和;
d、比较各个领域位置点的领域影响权重之和,得出最高领域影响权重之和的领域位置点,即该段文字所相关的知识领域;
e、在该知识领域内,根据名词词典,确定对应的翻译词汇。
2.根据权利要求1所述的实现领域自适应的统计机器翻译方法,其特征是:在步骤b中,针对一词多义的名词,则将该名词分布在不同意义所针对的领域位置点上,且该名词在每个领域位置点的领域影响权重为(n+k)/x,x为该名词涉及的领域数量。
3.根据权利要求1所述的实现领域自适应的统计机器翻译方法,其特征是:所述的k=-0.5。
CN201710013628.9A 2017-01-09 2017-01-09 一种实现领域自适应的统计机器翻译方法 Pending CN106874262A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710013628.9A CN106874262A (zh) 2017-01-09 2017-01-09 一种实现领域自适应的统计机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710013628.9A CN106874262A (zh) 2017-01-09 2017-01-09 一种实现领域自适应的统计机器翻译方法

Publications (1)

Publication Number Publication Date
CN106874262A true CN106874262A (zh) 2017-06-20

Family

ID=59164837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710013628.9A Pending CN106874262A (zh) 2017-01-09 2017-01-09 一种实现领域自适应的统计机器翻译方法

Country Status (1)

Country Link
CN (1) CN106874262A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107632982A (zh) * 2017-09-12 2018-01-26 郑州科技学院 语音控制外语翻译设备用的方法和装置
CN107861953A (zh) * 2017-10-19 2018-03-30 聊城大学 一种名称自动翻译***及方法
CN108563643A (zh) * 2018-03-27 2018-09-21 常熟鑫沐奇宝软件开发有限公司 一种基于人工智能知识图谱的一词多义翻译方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131691A (zh) * 2006-08-25 2008-02-27 韩国电子通信研究院 翻译隐藏式字幕的领域自适应便携机器翻译设备及其方法
CN103631773A (zh) * 2013-12-16 2014-03-12 哈尔滨工业大学 基于领域相似性度量方法的统计机器翻译方法
CN104090870A (zh) * 2014-06-26 2014-10-08 武汉传神信息技术有限公司 一种在线翻译引擎的推送方法
JP2016045751A (ja) * 2014-08-25 2016-04-04 日本電気株式会社 機械翻訳装置、機械翻訳方法、機械翻訳プログラムおよび記録媒体
CN105550174A (zh) * 2015-12-30 2016-05-04 哈尔滨工业大学 基于样本重要性的自动机器翻译领域自适应方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131691A (zh) * 2006-08-25 2008-02-27 韩国电子通信研究院 翻译隐藏式字幕的领域自适应便携机器翻译设备及其方法
CN103631773A (zh) * 2013-12-16 2014-03-12 哈尔滨工业大学 基于领域相似性度量方法的统计机器翻译方法
CN104090870A (zh) * 2014-06-26 2014-10-08 武汉传神信息技术有限公司 一种在线翻译引擎的推送方法
JP2016045751A (ja) * 2014-08-25 2016-04-04 日本電気株式会社 機械翻訳装置、機械翻訳方法、機械翻訳プログラムおよび記録媒体
CN105550174A (zh) * 2015-12-30 2016-05-04 哈尔滨工业大学 基于样本重要性的自动机器翻译领域自适应方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107632982A (zh) * 2017-09-12 2018-01-26 郑州科技学院 语音控制外语翻译设备用的方法和装置
CN107861953A (zh) * 2017-10-19 2018-03-30 聊城大学 一种名称自动翻译***及方法
CN107861953B (zh) * 2017-10-19 2020-12-11 聊城大学 一种名称自动翻译***及方法
CN108563643A (zh) * 2018-03-27 2018-09-21 常熟鑫沐奇宝软件开发有限公司 一种基于人工智能知识图谱的一词多义翻译方法
CN108563643B (zh) * 2018-03-27 2021-10-01 常熟鑫沐奇宝软件开发有限公司 一种基于人工智能知识图谱的一词多义翻译方法

Similar Documents

Publication Publication Date Title
CN106919673B (zh) 基于深度学习的文本情绪分析***
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN103268339B (zh) 微博消息中命名实体识别方法及***
CN107861947B (zh) 一种基于跨语言资源的柬语命名实体识别的方法
CN106445919A (zh) 一种情感分类方法及装置
CN106815194A (zh) 模型训练方法及装置和关键词识别方法及装置
CN108090099B (zh) 一种文本处理方法及装置
CN103324621B (zh) 一种泰语文本拼写纠正方法及装置
CN103294660A (zh) 一种英语作文自动评分方法及***
CN103729421B (zh) 一种译员文档精确匹配的方法
CN102279843A (zh) 处理短语数据的方法以及装置
CN110334187A (zh) 基于迁移学习的缅语情感分析方法及装置
CN104142912A (zh) 一种精确的语料类别标注方法及装置
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及***
CN106874262A (zh) 一种实现领域自适应的统计机器翻译方法
CN108090098B (zh) 一种文本处理方法及装置
CN108257650A (zh) 一种应用于医技检查报告的智能纠错方法
CN107943786A (zh) 一种中文命名实体识别方法及***
CN104317882B (zh) 一种决策级中文分词融合方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN106202035B (zh) 基于组合方法的越南语兼类词消歧方法
CN110334362B (zh) 一种基于医学神经机器翻译的解决产生未翻译单词的方法
CN109299464A (zh) 基于网络链接和文档内容的主题嵌入、文档表示方法
CN108491383A (zh) 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法
CN102681985A (zh) 一种面向形态丰富语言的翻译方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170620

RJ01 Rejection of invention patent application after publication