CN103678288A - 一种专名自动翻译的方法 - Google Patents

一种专名自动翻译的方法 Download PDF

Info

Publication number
CN103678288A
CN103678288A CN201310638808.8A CN201310638808A CN103678288A CN 103678288 A CN103678288 A CN 103678288A CN 201310638808 A CN201310638808 A CN 201310638808A CN 103678288 A CN103678288 A CN 103678288A
Authority
CN
China
Prior art keywords
proper name
translation
word
candidate
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310638808.8A
Other languages
English (en)
Other versions
CN103678288B (zh
Inventor
江潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language network (Wuhan) Information Technology Co., Ltd.
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310638808.8A priority Critical patent/CN103678288B/zh
Publication of CN103678288A publication Critical patent/CN103678288A/zh
Application granted granted Critical
Publication of CN103678288B publication Critical patent/CN103678288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种专名自动翻译的方法,包括:确定待译文档中的关键词,将所述关键词与专名库中的专名进行模式匹配,匹配成功后,将该关键词作为候选专名,并在所述专名库中的找到与所述候选专名对应的相关词集;选取所述候选专名在所述待译文档中一定范围内的词语,并以所述相关词集在所述选取的词语中进行模式匹配,根据匹配成功的所述词语和与其匹配的相关词的相关度信息进行专名可能性计算,结果满足可能性要求,将所述候选专名按照所述专名的译文显示。本发明通过每个专名关键词的一般相关度和位置相关度,以及专名可能性的进行计算处理,提高了专名翻译的准确性,提高了翻译效率、翻译质量,并有效的降低了人工成本。

Description

一种专名自动翻译的方法
技术领域
本发明涉及一种计算机辅助翻译领域,具体而言,涉及一种专名自动翻译的方法。
背景技术
计算机辅助翻译(CAT),类似于CAD(计算机辅助设计),实际起了辅助翻译的作用,简称CAT(Computer Aided Translation)。它能够帮助翻译者优质、高效、轻松地完成翻译工作。它不同于以往的机器翻译软件,不依赖于计算机的自动翻译,而是在人的参与下完成整个翻译过程,与人工翻译相比,质量相同或更好,翻译效率可大幅度提高。CAT使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻译质量。
计算机技术在翻译中的应用主要指将其他行业的一些成熟的方法、工具和资源等利用计算机技术应用到翻译过程中从而辅助翻译。计算机辅助翻译是研究如何设计或应用“方法、工具和资源”以便帮助译员更好的完成翻译工作,同时也能有助于研究和教学活动的进行。
专名的翻译是翻译中一个重要的方面,由于其特殊性,虽然许多专名虽然按音译翻译不是完全准确,但长期以来约定俗成是固定翻译的,所以应该以固定的翻译结果出现,否则对于译文的理解就会产生很大的偏差,比如按韦氏拼音拼写的“***”的英文名“Chiang Kai-shek”被误译成“常凯申”就是一种非常严重的误翻译。专名的翻译包括人名、地名、机构名、媒体名、文艺作品名、品牌名等各类专有名词的翻译,在文字***相同和相似的语言间,由于书同文的便利,源语言名称往往能够以原文的书写形式被目的语直接借用,而在文字***各不相同的语言间,由于文字兼容性不足,导致在专名翻译中音译、语义翻译、重新命名等多样化转换方式的存在,从而使得专名翻译的规范化存在困难。
目前,对于一个翻译任务的翻译,在进行机器自动翻译的时候,需要经过标准、校正等过程,并且专名的翻译准确度很低,经常翻译的结果与目标相差很远,严重影响翻译质量。
发明内容
本发明旨在提供一种专名自动翻译的方法,以解决上述现有技术中专名的翻译准确度很低、效率底的问题。
本发明公开了一种专名自动翻译的方法,包括:
确定待译文档中的关键词,将所述关键词与专名库中的专名进行模式匹配,匹配成功后,将该关键词作为候选专名,并在所述专名库中的找到与所述候选专名对应的相关词集;
选取所述候选专名在所述待译文档中一定范围内的词语,并以所述相关词集在所述选取的词语中进行模式匹配,根据匹配成功的所述词语和与其匹配的相关词的相关度信息进行专名可能性计算,结果满足可能性要求,将所述候选专名按照所述专名的译文显示。
优选地,所述相关词的相关度信息包括:一般相关度和位置相关度;
其中,所述位置相关度根据具***置划分为若干项;
还包括:在所述选取所述候选专名在所述待译文档中一定范围内的词语的同时,记录选取的每个词语的位置信息;
根据所述词语和所述词语的位置信息,以及所述相关词的所述一般相关度和位置相关度进行所述专名可能性计算。
优选地,所述具***置划分包括:所述词语为所述候选专名前第N个、所述词语为所述候选专名前第M个、所述词语为所述候选专名所在段、所述词语为所述候选专名所在句和所述词语在待译文档其他位置。
优选地,所述专名可能性计算包括:
根据所述词语的位置信息,匹配出其位置相关度;
分别计算每个所述词语对应的一般相关度和位置相关度的乘积,结果等于预定阈值,则将所述关键词按照所述专名的译文显示;
否则,每个候选专名的专名可能性按照如下公式计算:
pos = e · cor _ count · ln ( 1 + 1 cor _ count ) ( 1 + 1 cor _ count ) cor _ count
其中,pos为专名可能性,取值范围为(0-1),e为自然常数,cor_count为该候选专名的所有相关词语对应的一般相关度和位置相关度的乘积之和;
对得到的pos与专名可能性阈值POS比较,大于POS,则将所述候选专名按照所述专名的译文显示。
优选地,所述确定待译文档中的关键词的过程包括:
对待译文档按照词性进行分词处理,并且保留其中的名词、成语和简称略语,作为所述关键词。
优选地,在将所述关键词按照所述专名的译文显示之前,还包括:根据待译文档的翻译方向,选取与所述翻译方向语言一致的译文。
本发明中的专名自动翻译的方法,具有以下优点:
1、提高了专名翻译的准确性;
2、提高了翻译的效率;
3、有效的降低了人工成本。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例的流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
专用名词的翻译是翻译中的重要部分,对于专名的翻译目前有两个主要问题,一是由于大量的专名是普通名词在特定场合、特定环境下的使用,对于这些专名的翻译是采用普通翻译还是专名翻译,需要准确确定;二是由于目前一个翻译任务往往是多人或多个小组共同完成,对其中专名的翻译进行统一、准确的规范化翻译是提高翻译质量、保持翻译一致性的重要手段。
专名库是具有大量的专名,其中,该专名通过在已翻译文档和/或网络上提取得到。专名库中的专名包括:专用人名、专用地名、专用机构团体名和专用出版物及商标名;专名包括各个语言版本,并且,每个专名对应有一相关词集,如表1所示,该词集中的相关词与该专名具有很强的相关性;相关词集中的每一个相关词均至少包含有两个特征项:一般相关度和位置相关度;其中,二者的取值范围在0~1之间;
其中,一般相关度是指该相关词和该专名的相关程度,其中,一般相关度数值,根据词语之间的语法关系、同时出现频率或根据多个标准句子的数据库,进行学习或训练运算得到。位置相关度是指该相关词在文档中与该专名的空间位置及距离所产生的相关度。并且,位置相关度根据具体的位置关系分为五档,包括:前第N个、后第M个、所在段、所在句和其他位置。
表1:专有名词“Holmes”(福尔摩斯)的相关词及其相关度表
Figure BDA0000427176290000051
Figure BDA0000427176290000061
如图1所示,根据上述专名库,本发明公开了一种专名自动翻译的方法,包括:
步骤S11,确定待译文档中的关键词,将所述关键词与专名库中的专名进行模式匹配,匹配成功后,将该关键词作为候选专名,并在所述专名库中的找到与所述候选专名对应的相关词集;
步骤S12,选取所述候选专名在所述待译文档中一定范围内的词语,并以所述相关词集在所述选取的词语中进行模式匹配,根据匹配成功的所述词语和与其匹配的相关词的相关度信息进行专名可能性计算,结果满足可能性要求,将所述候选专名按照所述专名的译文显示。
进一步的,本发明公开了一个优选的实施例,包括:
提取待译文档,将待译文档按照词性进行分词处理,得到停用词、形容词、副词、动词、名词、成语和简称略语;
对其中的停用词、形容词、副词和动词进行剔除处理,保留其中的名词、成语和简称略语作为关键词,构成关键词集。
对得到的关键词集中的每个关键词在专名库中进行模式匹配,将匹配成功的关键词作为候选专名,构成候选专名集合;
并且对每个候选专名在专名库中找到对应的相关词集;
在所述选取每个所述候选专名在所述待译文档中一定范围内的词语,同时记录选取的每个词语的位置信息;
以该候选专名对应的相关词集在该候选专名的所有词语中进行模式匹配,匹配成功后,根据匹配成功的所述词语和与其匹配的相关词的相关度信息进行专名可能性计算;
进一步的,相关度计算包括:
计算该候选专名的词语匹配成功的相关词的相关数,即:
Figure BDA0000427176290000071
其中,cor_count为相关数,cor_gen为一般相关度,cor_loc为位置相关度。
若存在某一匹配成功相关词的一般相关度cor_gen和位置相关度cor_loc的乘积为1,则表明该候选专名有一个精确匹配的相关词,将该候选专名按照所述专名的译文显示;其中,根据待译文档的翻译方向,选取与所述翻译方向语言一致的译文显示;
否则,表明该候选专名的任一相关词都没有精确匹配,按照如下公式计算进行专名可能性计算:
pos = e · cor _ count · ln ( 1 + 1 cor _ count ) ( 1 + 1 cor _ count ) cor _ count
其中,pos为专名可能性,取值范围为(0-1),e为自然常数,cor_count为该候选专名的所有相关词语对应的一般相关度和位置相关度的乘积之和;
对得到的pos与专名可能性阈值POS(取值一般不小于0.98)进行比较,pos>POS,则将所述关键词按照所述专名的译文显示。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种专名自动翻译的方法,其特征在于,包括:
确定待译文档中的关键词,将所述关键词与专名库中的专名进行模式匹配,匹配成功后,将该关键词作为候选专名,并在所述专名库中的找到与所述候选专名对应的相关词集;
选取所述候选专名在所述待译文档中一定范围内的词语,并以所述相关词集在所述选取的词语中进行模式匹配,根据匹配成功的所述词语和与其匹配的相关词的相关度信息进行专名可能性计算,结果满足可能性要求,将所述候选专名按照所述专名的译文显示。
2.根据权利要求1所述的方法,其特征在于,所述相关词的相关度信息包括:一般相关度和位置相关度;
其中,所述位置相关度根据具***置划分为若干项;
还包括:在所述选取所述候选专名在所述待译文档中一定范围内的词语的同时,记录选取的每个词语的位置信息;
根据所述词语和所述词语的位置信息,以及所述相关词的所述一般相关度和位置相关度进行所述专名可能性计算。
3.根据权利要求2所述的方法,其特征在于,所述具***置划分包括:所述词语为所述候选专名前第N个、所述词语为所述候选专名前第M个、所述词语为所述候选专名所在段、所述词语为所述候选专名所在句和所述词语在待译文档其他位置。
4.根据权利要求3所述的方法,其特征在于,所述专名可能性计算包括:
根据所述词语的位置信息,匹配出其位置相关度;
分别计算每个所述词语对应的一般相关度和位置相关度的乘积,结果等于预定阈值,则将所述关键词按照所述专名的译文显示;
否则,每个候选专名的专名可能性按照如下公式计算:
pos = e · cor _ count · ln ( 1 + 1 cor _ count ) ( 1 + 1 cor _ count ) cor _ count
其中,pos为专名可能性,取值范围为(0-1),e为自然常数,cor_count为该候选专名的所有相关词语对应的一般相关度和位置相关度的乘积之和;
对得到的pos与专名可能性阈值POS比较,大于POS,则将所述候选专名按照所述专名的译文显示。
5.根据权利要求1所述的方法,其特征在于,所述确定待译文档中的关键词的过程包括:
对待译文档按照词性进行分词处理,并且保留其中的名词、成语和简称略语,作为所述关键词。
6.根据权利要求1所述的方法,其特征在于,在将所述关键词按照所述专名的译文显示之前,还包括:根据待译文档的翻译方向,选取与所述翻译方向语言一致的译文。
CN201310638808.8A 2013-11-30 2013-11-30 一种专名自动翻译的方法 Active CN103678288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310638808.8A CN103678288B (zh) 2013-11-30 2013-11-30 一种专名自动翻译的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310638808.8A CN103678288B (zh) 2013-11-30 2013-11-30 一种专名自动翻译的方法

Publications (2)

Publication Number Publication Date
CN103678288A true CN103678288A (zh) 2014-03-26
CN103678288B CN103678288B (zh) 2016-08-17

Family

ID=50315897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310638808.8A Active CN103678288B (zh) 2013-11-30 2013-11-30 一种专名自动翻译的方法

Country Status (1)

Country Link
CN (1) CN103678288B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391831A (zh) * 2014-11-12 2015-03-04 武汉传神信息技术有限公司 一种对文档内容进行批注的方法和***
CN104391838A (zh) * 2014-08-18 2015-03-04 武汉传神信息技术有限公司 一种提高法律文件翻译准确性的方法
CN104462046A (zh) * 2014-12-24 2015-03-25 语联网(武汉)信息技术有限公司 对文档内容进行区别批注的方法和***
CN104572632A (zh) * 2014-12-25 2015-04-29 语联网(武汉)信息技术有限公司 一种确定具有专名译文的词汇的翻译方向的方法
CN106708809A (zh) * 2016-12-16 2017-05-24 携程旅游网络技术(上海)有限公司 基于模板的多语言翻译方法及翻译***
CN104239293B (zh) * 2014-08-18 2017-07-04 武汉传神信息技术有限公司 一种基于机器翻译的专名翻译方法
CN112434537A (zh) * 2020-11-24 2021-03-02 掌阅科技股份有限公司 翻译文本一致性校验方法、计算设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0335354A (ja) * 1989-06-30 1991-02-15 Sharp Corp 機械翻訳装置における略称付き固有名詞処理方法
JP2004220416A (ja) * 2003-01-16 2004-08-05 Toshiba Corp 機械翻訳装置、方法、プログラム及びプログラムを格納したサーバ装置
CN1849612A (zh) * 2003-07-09 2006-10-18 西门子医疗健康服务公司 术语管理***
CN101454750A (zh) * 2006-03-31 2009-06-10 谷歌公司 命名实体的消歧
CN101876975A (zh) * 2009-11-04 2010-11-03 中国科学院声学研究所 汉语地名的识别方法
CN102654866A (zh) * 2011-03-02 2012-09-05 北京百度网讯科技有限公司 例句索引创建方法和装置以及例句检索方法和装置
CN102955842A (zh) * 2012-09-18 2013-03-06 华东师范大学 一种多特征融合识别中文机构名的控制方法
CN102955775A (zh) * 2012-06-14 2013-03-06 华东师范大学 基于上下文语义的外国人名自动识别控制方法
CN103186524A (zh) * 2011-12-30 2013-07-03 高德软件有限公司 一种地名识别方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0335354A (ja) * 1989-06-30 1991-02-15 Sharp Corp 機械翻訳装置における略称付き固有名詞処理方法
JP2004220416A (ja) * 2003-01-16 2004-08-05 Toshiba Corp 機械翻訳装置、方法、プログラム及びプログラムを格納したサーバ装置
CN1849612A (zh) * 2003-07-09 2006-10-18 西门子医疗健康服务公司 术语管理***
CN101454750A (zh) * 2006-03-31 2009-06-10 谷歌公司 命名实体的消歧
CN101876975A (zh) * 2009-11-04 2010-11-03 中国科学院声学研究所 汉语地名的识别方法
CN102654866A (zh) * 2011-03-02 2012-09-05 北京百度网讯科技有限公司 例句索引创建方法和装置以及例句检索方法和装置
CN103186524A (zh) * 2011-12-30 2013-07-03 高德软件有限公司 一种地名识别方法和装置
CN102955775A (zh) * 2012-06-14 2013-03-06 华东师范大学 基于上下文语义的外国人名自动识别控制方法
CN102955842A (zh) * 2012-09-18 2013-03-06 华东师范大学 一种多特征融合识别中文机构名的控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王兴义: "《基于模式匹配的中文专有名词识别》", 《中国优秀硕士学位论文全文数据库》 *
郑家恒等: "《基于模式匹配的中文专有名词识别》", 《民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391838A (zh) * 2014-08-18 2015-03-04 武汉传神信息技术有限公司 一种提高法律文件翻译准确性的方法
CN104239293B (zh) * 2014-08-18 2017-07-04 武汉传神信息技术有限公司 一种基于机器翻译的专名翻译方法
CN104391838B (zh) * 2014-08-18 2017-08-29 武汉传神信息技术有限公司 一种提高法律文件翻译准确性的方法
CN104391831A (zh) * 2014-11-12 2015-03-04 武汉传神信息技术有限公司 一种对文档内容进行批注的方法和***
CN104462046A (zh) * 2014-12-24 2015-03-25 语联网(武汉)信息技术有限公司 对文档内容进行区别批注的方法和***
CN104572632A (zh) * 2014-12-25 2015-04-29 语联网(武汉)信息技术有限公司 一种确定具有专名译文的词汇的翻译方向的方法
CN104572632B (zh) * 2014-12-25 2017-07-04 武汉传神信息技术有限公司 一种确定具有专名译文的词汇的翻译方向的方法
CN106708809A (zh) * 2016-12-16 2017-05-24 携程旅游网络技术(上海)有限公司 基于模板的多语言翻译方法及翻译***
CN106708809B (zh) * 2016-12-16 2021-01-29 携程旅游网络技术(上海)有限公司 基于模板的多语言翻译方法及翻译***
CN112434537A (zh) * 2020-11-24 2021-03-02 掌阅科技股份有限公司 翻译文本一致性校验方法、计算设备及存储介质

Also Published As

Publication number Publication date
CN103678288B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
US10061768B2 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
CN103678288A (zh) 一种专名自动翻译的方法
Brown et al. Analysis, statistical transfer, and synthesis in machine translation
US20150227505A1 (en) Word meaning relationship extraction device
Al-Twairesh et al. Suar: Towards building a corpus for the Saudi dialect
Zhou et al. Chinese grammatical error correction using statistical and neural models
CN103154936A (zh) 用于自动化文本校正的方法和***
US20180260390A1 (en) Translation assistance system, translation assitance method and translation assistance program
CN103678287A (zh) 一种关键词翻译统一的方法
Unnikrishnan et al. A novel approach for English to South Dravidian language statistical machine translation system
Cing et al. Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language
US20100094615A1 (en) Document translation apparatus and method
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
Aasha et al. Machine translation from English to Malayalam using transfer approach
CN110888940B (zh) 文本信息提取方法、装置、计算机设备及存储介质
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
Hakkani-Tur et al. Statistical sentence extraction for information distillation
CN104239293B (zh) 一种基于机器翻译的专名翻译方法
Lehal et al. Sangam: A Perso-Arabic to Indic script machine transliteration model
Chiu et al. Chinese spell checking based on noisy channel model
de Mendonça Almeida et al. Evaluating phonetic spellers for user-generated content in Brazilian Portuguese
Ebrahim et al. Detecting and integrating multiword expression into English-Arabic statistical machine translation
Sakaguchi et al. Joint English spelling error correction and POS tagging for language learners writing
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Wibowo et al. Spelling checker of words in rejang language using the n-gram and euclidean distance methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Jiang Chao

Inventor after: Zhang Pi

Inventor before: Jiang Chao

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Patentee after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Patentee before: Wuhan Transn Information Technology Co., Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Automatic proper noun translation method

Effective date of registration: 20181115

Granted publication date: 20160817

Pledgee: Bank of Communications Co., Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: Language network (Wuhan) Information Technology Co., Ltd.

Registration number: 2018420000061

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200617

Granted publication date: 20160817

Pledgee: Bank of Communications Co.,Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: 2018420000061