CN109299480A - 基于上下文语境的术语翻译方法及装置 - Google Patents

基于上下文语境的术语翻译方法及装置 Download PDF

Info

Publication number
CN109299480A
CN109299480A CN201811025328.3A CN201811025328A CN109299480A CN 109299480 A CN109299480 A CN 109299480A CN 201811025328 A CN201811025328 A CN 201811025328A CN 109299480 A CN109299480 A CN 109299480A
Authority
CN
China
Prior art keywords
corpus
term
definitions
paraphrase
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811025328.3A
Other languages
English (en)
Other versions
CN109299480B (zh
Inventor
宋安琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language Network (wuhan) Information Technology Co Ltd
Shanghai Vivid Translation Service Co Ltd
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Shanghai Vivid Translation Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd, Shanghai Vivid Translation Service Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201811025328.3A priority Critical patent/CN109299480B/zh
Publication of CN109299480A publication Critical patent/CN109299480A/zh
Application granted granted Critical
Publication of CN109299480B publication Critical patent/CN109299480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种基于上下文语境的术语翻译方法及装置,其中方法包括:对待译文档进行分句处理,利用最大正向匹配算法结合译员预先选择的术语库提取所述待译文档中的术语以及所述术语所在的句子,并从所述术语库中获取所述术语对应的术语释义;提取语料库中与所述术语所在的句子匹配度大于预设阈值的语料,按照匹配度从高到低对语料进行排序,过滤掉不包含所述术语的语料;采用词对齐法获取所述语料中所述术语对应的语料释义;利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选,获得最终术语释义。本发明实施例通过词对齐方法提取语料库中术语释义,改善计算机辅助翻译的术语提示功能,可有效提升译员的翻译效率。

Description

基于上下文语境的术语翻译方法及装置
技术领域
本发明实施例涉及自然语言处理技术领域,更具体地,涉及一种基于上下文语境的术语翻译方法及装置。
背景技术
计算机辅助翻译(CAT,Computer-Aided Translation)是指译员进行翻译工作时,后台不断自动储存译员录入的译文,从而建立数据库,这样在以后的翻译过程中,再次出现相同或相近的短语时,***就能自动搜索数据库中已存储的相同或类似的内容,为译员提供参考译文,使其避免重复的翻译劳动,而只需专注新内容的翻译,从而有效提升翻译效率。
计算机辅助翻译中,术语提示是一个很重要的功能,译员在翻译时通常会连接多个术语库,而一个术语通常会对应多种释义。现有术语提示功能通常会将术语的所有释义全部提示给译员,而译员需要根据上下文语境去选择释义,导致译员无法快速地选择正确的术语释义用于译文中,工作效率低下。因此,亟需提供一种改善术语提示功能的方法,能够为译员提供准确的术语释义。
发明内容
针对现有技术存在的问题,本发明实施例提供一种基于上下文语境的术语翻译方法及装置。
根据本发明实施例的第一个方面,提供一种基于上下文语境的术语翻译方法,包括:
对待译文档进行分句处理,利用最大正向匹配算法结合译员预先选择的术语库将所述待译文档中的术语以及所述术语所在的句子提取出来,并从所述术语库中获取所述术语对应的一个或多个术语释义;
提取语料库中与所述术语所在的句子匹配度大于预设阈值的语料,按照相似度从高到低对所述语料进行排序,并过滤掉不包含所述术语的语料;
采用词对齐方法获取所述语料中所述术语对应的语料释义;
利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选,获得最终术语释义。
根据本发明实施例的第二个方面,提供一种基于上下文语境的术语翻译装置,包括:
术语释义获取模块,用于对待译文档进行分句处理,利用最大正向匹配算法结合译员预先选择的术语库将所述待译文档中的术语以及所述术语所在的句子提取出来,并从所述术语库中获取所述术语对应的一个或多个术语释义;
语料提取模块,用于提取语料库中与所述术语所在的句子匹配度大于预设阈值的语料,按照相似度从高到低对所述语料进行排序,并过滤掉不包含所述术语的语料;
词对齐模块,用于采用词对齐方法获取所述语料中所述术语对应的语料释义;
释义筛选模块,用于利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选,获得最终术语释义。
根据本发明实施例的第三个方面,提供一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述第一方面的各种可能的实现方式中任一种实现方式所提供的基于上下文语境的术语翻译方法。
根据本发明实施例的第四个方面,提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机能够执行上述第一方面的各种可能的实现方式中任一种实现方式所提供的基于上下文语境的术语翻译方法。
本发明实施例提出的基于上下文语境的术语翻译方法及装置,通过词对齐方法提取语料库中术语的释义,从而筛选出最佳释义,能够改善计算机辅助翻译中的术语提示功能,为译员提供符合上下文语境的最佳释义,可有效提升译员的翻译效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于上下文语境的术语翻译方法的流程示意图;
图2为本发明另一实施例提供的基于上下文语境的术语翻译装置的结构示意图;
图3为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有计算机辅助翻译中的术语提示是一个很重要的功能,通常会将术语的所有释义提示给译员,而译员可能需要根据上下文语境进行释义的选择,导致无法在较短的时间内选择正确的术语释义用于译文中。为了克服现有技术的上述问题,本发明实施例提供一种基于上下文语境的术语翻译方法,其发明构思是利用计算机辅助翻译的术语库和语料库,经过术语释义提取、语料匹配、词对齐和释义筛选,匹配出符合术语上下文语境的最佳释义提供给译员,这样设置的好处在于,可以充分利用已有的译文作为参考,从而筛选出最佳释义,使得术语提示功能只向译员提供符合术语上下文语境的唯一释义,进而有效提升译员的翻译效率。以下将通过多个实施例进行展开说明和介绍。
如图1所示,为本发明实施例提供的基于上下文语境的术语翻译方法的流程示意图,该方法的执行主体是服务器,该方法包括:
步骤10、对待译文档进行分句处理,利用最大正向匹配算法结合译员预先选择的术语库将所述待译文档中的术语以及所述术语所在的句子提取出来,并从所述术语库中获取所述术语对应的一个或多个术语释义。
具体地,可以利用现有通用的分句算法对待译文档进行分句处理,将待译文档切分为多个句子,便于后续提取术语及术语所在的句子。
译员在进行文档翻译时通常会预先选择连接多个术语库,术语库又称为自动化词典,根据术语库可以获取到术语的多个释义,本发明实施例为了利用术语的上下文语境确定出术语对应的最佳释义,首先需要将待译文档中的术语和术语所在的句子提取出来。利用最大正向匹配算法可以将待译文档各句子中的术语提取出来(为了便于后文叙述,将所提取出的术语称为目标术语)。相对应地,术语所在的句子也可以确定。其中,最大正向匹配算法是基本的分词算法,应用较成熟,在此不再赘述。
然后从术语库中获取目标术语对应的术语释义,术语释义是指该术语在术语库中的释义,一个术语在术语库中的释义可能是一个或多个,例如,Super Computer的术语释义包括:“超级计算机”、“超型计算机”、“高性能计算机”等。术语释义是提供给译员术语最佳释义的基础,后续的操作步骤都是在术语释义的基础上进行的处理。
步骤11、提取语料库中与所述术语所在的句子匹配度大于预设阈值的语料,按照匹配度从高到低对所述语料进行排序,并过滤掉不包含所述术语的语料。
为了向译员提供准确的术语释义,本发明实施例需要利用术语的上下文语境,而上下文语境的利用可以通过语料匹配来实现。具体地,提取语料库中与目标术语所在的句子匹配度大于预设阈值的语料,本发明实施例的语料库中存储有大量的句子原文及其对应的译文,可以通过ElasticSearch等搜索***按照预设阈值匹配出和目标术语所在句子类似的语料,预设阈值的取值可以根据需要设定,例如50%。
满足上述提取条件的语料可以是多个句子,按照匹配度的高低对所提取出的语料进行排序。按照上述方法提取出来的语料可能存在不包含待译文档中的术语的情况,因此,还需要过滤掉不包含待译文档术语的语料。
值得说明的是,本发明实施例对句子之间的匹配度计算方法不作限制。
步骤12、采用词对齐方法获取所述语料中所述术语对应的语料释义。
具体地,提取出的语料中目标术语的译文,称为语料释义。提取出的语料是与目标术语所在句子的匹配度大于预设阈值的句子及其译文,也可以认为是与目标术语所在句子相似度较高的句子。提取出的语料中目标术语的译文是已经翻译好的、已有的翻译资源,可以认为是比较准确的释义。为了向译员提供准确的术语释义,需要找到所有提取出的语料中目标术语对应的译文并进行筛选。可以采用词对齐方法来获取,若语料中目标术语的上下文都通过词对齐方法实现了对齐,那么就可以直接获得目标术语的译文。
步骤13、利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选,获得最终术语释义。
具体地,在获得了语料释义后,利用语料释义对上述术语释义进行筛选。字符串编辑距离算法是指将一个字符串转换成另一个字符串所需的最小编辑次数,可以用于比较语料释义和术语释义之间的相似度,例如,超级计算机和超型计算机的编辑距离为1,编辑距离较小,说明相似度较高。若相似度为零,说明编辑距离很大。
利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选是指通过字符串编辑距离算法比较所述术语释义和所述语料释义的相似度,删除相似度为零的术语释义,并按照编辑距离从小到大对术语释义进行排序,获得最终术语释义,最终术语释义是与语料释义最相似的术语释义。
本发明实施例提供的基于上下文语境的术语翻译方法,通过词对齐方法提取语料库中术语的释义,从而实现基于上下文语境筛选出最佳释义,能够改善计算机辅助翻译中的术语提示功能,为译员提供符合上下文语境的最佳释义,节省了译员选择术语翻译的时间,规避翻译过程中出现的重复工作现象,可有效提升译员的翻译效率。
在上述实施例的基础上,所述提取语料库中与所述术语所在的句子相似度大于预设阈值的语料的步骤之前,还包括:
使用预先建立的分类器对待译文档进行分类,根据概率高低将所述待译文档划分到一个或多个行业类别;
查询所述术语在所述行业类别词典中对应的词典释义,并利用所述词典释义对所述术语释义进行预筛选;
相应地,所述利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选,获得最终术语释义的步骤,具体为:
利用所述语料释义结合字符串编辑距离算法对经过预筛选的所述术语释义进行筛选,获得最终术语释义。
具体地,本发明实施例还提供一种基于上下文语境的术语翻译方法,在利用语料释义对术语释义进行筛选之前,利用词典释义对术语释义进行预筛选。本发明实施例提供的基于上下文语境的术语翻译方法的详细流程可以是:
首先,对待译文档进行行业分类:根据大量已经带有行业标签的翻译稿按行业分类建立朴素贝叶斯文本分类器,按照行业设定分类。使用已建立好的分类器对待译文档进行分类,根据概率高低将文档划分到一个或多个类别。特殊地,当文档属于每一个分类的概率都很低时,认为文档不属于任何行业类别,属于通用类别。
获取术语释义:对所述待译文档进行分句处理,并利用最大正向匹配法结合译员预先选择的术语库将所述待译文档中的术语以及所述术语所在的句子提取出来,并从所述术语库中获取所述术语对应的一个或多个术语释义。
利用词典释义进行预筛选:查询所述术语在所述行业类别词典中对应的词典释义,并通过字符串编辑距离算法比较所述术语释义和词典释义的相似度,按照编辑距离从小到大对所述术语释义进行排序,并过滤相似度为零的术语释义,获得经过预筛选的术语释义。
匹配语料:提取语料库中与所述术语所在的句子相似度大于预设阈值的语料,按照相似度从高到低对所述语料进行排序,并过滤掉不包含所述术语的语料;
词对齐提取语料中的术语释义:采用词对齐方法获取所述语料中所述术语的语料释义。
术语释义筛选:通过字符串编辑距离算法比较所述经过预筛选的术语释义和所述语料释义的相似度,按照编辑距离从小到大对所述经过预筛选的术语释义进行排序,删除相似度为零的术语释义,获得最终术语释义。
本发明实施例提供的基于上下文语境的术语翻译方法,利用词典释义进行术语释义的预筛选后再利用词对齐方法提取语料库中术语的释义,能够提高术语释义的翻译准确率,从而实现基于上下文语境筛选出最佳释义,能够改善计算机辅助翻译中的术语提示功能,为译员提供符合上下文语境的最佳释义,节省了译员选择术语翻译的时间,规避翻译过程中出现的重复工作现象,可有效提升译员的翻译效率。
基于上述各实施例的内容,所述采用词对齐方法获取所述语料中所述术语对应的语料释义的步骤,具体为:
利用预设的打分模型对所述语料中的所述术语进行词对齐打分,并将词对齐打分最高的译文词汇作为所述术语的语料释义;
其中,所述预设的打分模型为:
上式中,src表示原文词汇,dst表示译文词汇,similarity表示原文词汇src和译文词汇dst的释义相似度,wi表示第i个因素的权重,scorei表示第i个因素的得分,qj表示原文词汇src的上下文四个词语中第j个词语的权重,distancej表示如果第j个词语已经对齐,对齐的词语和译文词汇dst间的距离,len表示语料原文中包含的动词和名词数量。
具体地,利用预设的打分模型对所有提取出的语料中的术语进行词对齐打分,打分模型包括三个方面的内容:
一是相似度衡量,similarity表示原文词汇src和译文词汇dst的释义相似度,如果完全相同,为1,80%相似,为0.8,一半相似,为0.5,完全不同,为0。
打分模型的第二个方面内容为打分因素衡量,wi表示第i个因素的权重,scorei表示第i个因素的得分(1代表完全满足,0.5代表满足一半)。其中,wi通过大量包含词对齐的双语句子训练得到,scorei包含如下类型:
src和dst词性是否相同,若相同,scorei为1,不相同,scorei为0;
src和dst前后各两个上下文词语对齐相关性,如果src的上下文词语已经和dst的上下文词语对齐,scorei为1;若一半对齐,scorei为0.5;若完全未对齐,scorei为0。例如,src的上下文词语为ABsrcCD,dst的上下文词语为EFdstGH,A对齐到E,B对齐到F,C对齐到G,D对齐到H,scorei为1。src的上下文词语为ABsrcCD,dst的上下文词语为EFdstGH,A对齐到G,B对齐到H,则scorei为0.5。
打分模型的第三个方面内容为惩罚值,其中,qj表示第src上下文四个词语中第j个词语的权重,例如src的上下文词语为ABsrcCD,B和C的权重为1,A和D的权重为0.5。distancej表示如果已经对齐,对齐的词语和dst的距离,len表示语料原文包含的名词和动词词语数量。例如:语料原文包含的名词和动词词语总数量为10,术语src的上下文词语为ABsrcCD,译文中词语dst的上下文词语为EFdstGH,A、B和C均未对齐,D对齐到H后面第5个词语,则distancej=5,第三部分的值为0.25。
当词对齐打分模型三部分总分大于1时,总分设为1。将词对齐打分最高的译文词汇作为所述术语的语料释义。
如图2所示,为本发明实施例提供的基于上下文语境的术语翻译装置的结构示意图,包括:术语释义获取模块20、语料提取模块21、词对齐模块22和释义筛选模块23,其中,
术语释义获取模块20,用于对待译文档进行分句处理,利用最大正向匹配算法结合译员预先选择的术语库将所述待译文档中的术语以及所述术语所在的句子提取出来,并从所述术语库中获取所述术语对应的一个或多个术语释义。
具体地,术语释义获取模块20可以利用现有通用的分句算法对待译文档进行分句处理,将待译文档切分为多个句子,便于后续提取术语及术语所在的句子。
译员在进行文档翻译时通常会预先选择连接多个术语库,术语库又称为自动化词典,根据术语库可以获取到术语的多个释义,本发明实施例为了利用术语的上下文语境确定出术语对应的最佳释义,术语释义获取模块20需要将待译文档中的术语和术语所在的句子提取出来。利用最大正向匹配算法可以将待译文档各句子中的术语提取出来(为了便于后文叙述,将所提取出的术语称为目标术语)。相对应地,术语所在的句子也可以确定。其中,最大正向匹配算法是基本的分词算法,应用较成熟,在此不再赘述。
然后术语释义获取模块20从术语库中获取目标术语对应的术语释义,术语释义是指该术语在术语库中的释义,一个术语在术语库中的释义可能是一个或多个。
语料提取模块21,用于提取语料库中与所述术语所在的句子匹配度大于预设阈值的语料,按照匹配度从高到低对所述语料进行排序,并过滤掉不包含所述术语的语料。
为了向译员提供准确的术语释义,本发明实施例需要利用术语的上下文语境,而上下文语境的利用可以通过语料匹配来实现。具体地,语料提取模块21提取语料库中与目标术语所在的句子匹配度大于预设阈值的语料,本发明实施例的语料库中存储有大量的句子原文及其对应的译文,可以通过ElasticSearch等搜索***按照预设阈值匹配出和目标术语所在句子类似的语料,预设阈值的取值可以根据需要设定,例如50%。
满足上述提取条件的语料可以是多个句子,语料提取模块21按照匹配度的高低对所提取出的语料进行排序。按照上述方法提取出来的语料可能存在不包含待译文档中的术语的情况,因此,语料提取模块21还需要过滤掉不包含待译文档术语的语料。
词对齐模块22,用于采用词对齐方法获取所述语料中所述术语对应的语料释义。
提取出的语料是与目标术语所在句子的匹配度大于预设阈值的句子及其译文,也可以认为是与目标术语所在句子相似度较高的句子。提取出的语料中目标术语的译文是已经翻译好的、已有的翻译资源,可以认为是比较准确的释义。为了向译员提供准确的术语释义,词对齐模块22需要找到所有提取出的语料中目标术语对应的译文并进行筛选。可以采用词对齐方法来获取,若语料中目标术语的上下文都通过词对齐方法实现了对齐,那么就可以直接获得目标术语的译文。
释义筛选模块23,用于利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选,获得最终术语释义。
具体地,在获得了语料释义后,释义筛选模块23利用语料释义对上述术语释义进行筛选。字符串编辑距离算法是指将一个字符串转换成另一个字符串所需的最小编辑次数,可以用于比较语料释义和术语释义之间的相似度,编辑距离较小,说明相似度较高。若相似度为零,说明编辑距离很大。
利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选是指通过字符串编辑距离算法比较所述术语释义和所述语料释义的相似度,删除相似度为零的术语释义,并按照编辑距离从小到大对术语释义进行排序,获得最终术语释义,最终术语释义是与语料释义最相似的术语释义。
本发明实施例提供的基于上下文语境的术语翻译装置,通过词对齐方法提取语料库中术语的释义,从而实现基于上下文语境筛选出最佳释义,能够改善计算机辅助翻译中的术语提示功能,为译员提供符合上下文语境的最佳释义,节省了译员选择术语翻译的时间,规避翻译过程中出现的重复工作现象,可有效提升译员的翻译效率。
基于上述实施例的内容,所述装置还包括:
分类模块,用于使用预先建立的分类器对待译文档进行分类,根据概率高低将所述待译文档划分到一个或多个行业类别;
预筛选模块,用于查询所述术语在所述行业类别词典中对应的词典释义,并利用所述词典释义对所述术语释义进行预筛选;
相应地,所述释义筛选模块具体用于:
利用所述语料释义结合字符串编辑距离算法对经过预筛选的所述术语释义进行筛选,获得最终术语释义。
具体地,分类模块根据大量已经带有行业标签的翻译稿按行业分类建立朴素贝叶斯文本分类器,按照行业设定分类。使用已建立好的分类器对待译文档进行分类,根据概率高低将文档划分到一个或多个类别。特殊地,当文档属于每一个分类的概率都很低时,认为文档不属于任何行业类别,属于通用类别。
预筛选模块查询所述术语在所述行业类别词典中对应的词典释义,并通过字符串编辑距离算法比较所述术语释义和词典释义的相似度,按照编辑距离从小到大对所述术语释义进行排序,并过滤相似度为零的术语释义,获得经过预筛选的术语释义。
本发明实施例提供的基于上下文语境的术语翻译装置,利用词典释义进行术语释义的预筛选后再利用词对齐方法提取语料库中术语的释义,能够提高术语释义的翻译准确率。
基于上述实施例的内容,所述词对齐模块22具体用于:
利用预设的打分模型对所述语料中的所述术语进行词对齐打分,并将词对齐打分最高的译文词汇作为所述术语的语料释义;
其中,所述预设的打分模型为:
上式中,src表示原文词汇,dst表示译文词汇,similarity表示原文词汇src和译文词汇dst的释义相似度,wi表示第i个因素的权重,scorei表示第i个因素的得分,qj表示原文词汇src的上下文四个词语中第j个词语的权重,distancej表示如果第j个词语已经对齐,对齐的词语和译文词汇dst间的距离,len表示语料原文中包含的动词和名词数量。
具体地,词对齐模块22利用预设的打分模型对所有提取出的语料中的术语进行词对齐打分,打分模型包括三个方面的内容:
一是相似度衡量,similarity表示原文词汇src和译文词汇dst的释义相似度,如果完全相同,为1,80%相似,为0.8,一半相似,为0.5,完全不同,为0。
打分模型的第二个方面内容为打分因素衡量,wi表示第i个因素的权重,scorei表示第i个因素的得分(1代表完全满足,0.5代表满足一半)。其中,wi通过大量包含词对齐的双语句子训练得到,scorei包含如下类型:
src和dst词性是否相同,若相同,scorei为1,不相同,scorei为0;
src和dst前后各两个上下文词语对齐相关性,如果src的上下文词语已经和dst的上下文词语对齐,scorei为1;若一半对齐,scorei为0.5;若完全未对齐,scorei为0。
打分模型的第三个方面内容为惩罚值,其中,qj表示第src上下文四个词语中第j个词语的权重。distancej表示如果已经对齐,对齐的词语和dst的距离。len表示语料原文包含的名词和动词词语数量。
图3示出了本发明实施例提供的电子设备的结构示意图,如图3所示,包括处理器(processor)301、存储器(memory)302和总线303;
其中,处理器301及存储器302分别通过总线303完成相互间的通信;处理器301用于调用存储302中的程序指令,以执行上述实施例所提供的基于上下文语境的术语翻译方法,例如包括:对待译文档进行分句处理,利用最大正向匹配算法结合译员预先选择的术语库将所述待译文档中的术语以及所述术语所在的句子提取出来,并从所述术语库中获取所述术语对应的一个或多个术语释义;提取语料库中与所述术语所在的句子匹配度大于预设阈值的语料,按照相似度从高到低对所述语料进行排序,并过滤掉不包含所述术语的语料;采用词对齐方法获取所述语料中所述术语对应的语料释义;利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选,获得最终术语释义。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述实施例所提供的基于上下文语境的术语翻译方法,例如包括:对待译文档进行分句处理,利用最大正向匹配算法结合译员预先选择的术语库将所述待译文档中的术语以及所述术语所在的句子提取出来,并从所述术语库中获取所述术语对应的一个或多个术语释义;提取语料库中与所述术语所在的句子匹配度大于预设阈值的语料,按照相似度从高到低对所述语料进行排序,并过滤掉不包含所述术语的语料;采用词对齐方法获取所述语料中所述术语对应的语料释义;利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选,获得最终术语释义。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于上下文语境的术语翻译方法,其特征在于,包括:
对待译文档进行分句处理,利用最大正向匹配算法结合译员预先选择的术语库将所述待译文档中的术语以及所述术语所在的句子提取出来,并从所述术语库中获取所述术语对应的一个或多个术语释义;
提取语料库中与所述术语所在的句子匹配度大于预设阈值的语料,按照匹配度从高到低对所述语料进行排序,并过滤掉不包含所述术语的语料;
采用词对齐方法获取所述语料中所述术语对应的语料释义;
利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选,获得最终术语释义。
2.根据权利要求1所述的方法,其特征在于,所述提取语料库中与所述术语所在的句子相似度大于预设阈值的语料的步骤之前,还包括:
使用预先建立的分类器对待译文档进行分类,根据概率高低将所述待译文档划分到一个或多个行业类别;
查询所述术语在所述行业类别词典中对应的词典释义,并利用所述词典释义对所述术语释义进行预筛选;
相应地,所述利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选,获得最终术语释义的步骤,具体为:
利用所述语料释义结合字符串编辑距离算法对经过预筛选的所述术语释义进行筛选,获得最终术语释义。
3.根据权利要求1所述的方法,其特征在于,所述采用词对齐方法获取所述语料中所述术语对应的语料释义的步骤,具体为:
利用预设的打分模型对所述语料中的所述术语进行词对齐打分,并将词对齐打分最高的译文词汇作为所述术语的语料释义;
其中,所述预设的打分模型为:
上式中,src表示原文词汇,dst表示译文词汇,similarity表示原文词汇src和译文词汇dst的释义相似度,wi表示第i个因素的权重,scorei表示第i个因素的得分,qj表示原文词汇src的上下文四个词语中第j个词语的权重,distancej表示如果第j个词语已经对齐,对齐的词语和译文词汇dst间的距离,len表示语料原文中包含的动词和名词数量。
4.根据权利要求1所述的方法,其特征在于,所述利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选,获得最终术语释义的步骤具体为:
通过字符串编辑距离算法比较所述术语释义和所述语料释义的相似度;
若相似度不全为零,则删除相似度为零的术语释义,并按照编辑距离从小到大对所述术语释义进行排序,获得最终术语释义。
5.根据权利要求2所述的方法,其特征在于,所述利用所述词典释义对所述术语释义进行预筛选的步骤,具体为:
通过字符串编辑距离算法比较所述术语释义和所述词典释义的相似度;
按照编辑距离从小到大对所述术语释义进行排序,并删除相似度为零的术语释义,获得经过预筛选的所述术语释义。
6.一种基于上下文语境的术语翻译装置,其特征在于,包括:
术语释义获取模块,用于对待译文档进行分句处理,利用最大正向匹配算法结合译员预先选择的术语库将所述待译文档中的术语以及所述术语所在的句子提取出来,并从所述术语库中获取所述术语对应的一个或多个术语释义;
语料提取模块,用于提取语料库中与所述术语所在的句子匹配度大于预设阈值的语料,按照匹配度从高到低对所述语料进行排序,并过滤掉不包含所述术语的语料;
词对齐模块,用于采用词对齐方法获取所述语料中所述术语对应的语料释义;
释义筛选模块,用于利用所述语料释义结合字符串编辑距离算法对所述术语释义进行筛选,获得最终术语释义。
7.根据权利要求6所述的装置,其特征在于,还包括:
分类模块,用于使用预先建立的分类器对待译文档进行分类,根据概率高低将所述待译文档划分到一个或多个行业类别;
预筛选模块,用于查询所述术语在所述行业类别词典中对应的词典释义,并利用所述词典释义对所述术语释义进行预筛选;
相应地,所述释义筛选模块具体用于:
利用所述语料释义结合字符串编辑距离算法对经过预筛选的所述术语释义进行筛选,获得最终术语释义。
8.根据权利要求6所述的装置,其特征在于,所述词对齐模块具体用于:
利用预设的打分模型对所述语料中的所述术语进行词对齐打分,并将词对齐打分最高的译文词汇作为所述术语的语料释义;
其中,所述预设的打分模型为:
上式中,src表示原文词汇,dst表示译文词汇,similarity表示原文词汇src和译文词汇dst的释义相似度,wi表示第i个因素的权重,scorei表示第i个因素的得分,qj表示原文词汇src的上下文四个词语中第j个词语的权重,distancej表示如果第j个词语已经对齐,对齐的词语和译文词汇dst间的距离,len表示语料原文中包含的动词和名词数量。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至5任一所述的方法。
CN201811025328.3A 2018-09-04 2018-09-04 基于上下文语境的术语翻译方法及装置 Active CN109299480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811025328.3A CN109299480B (zh) 2018-09-04 2018-09-04 基于上下文语境的术语翻译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811025328.3A CN109299480B (zh) 2018-09-04 2018-09-04 基于上下文语境的术语翻译方法及装置

Publications (2)

Publication Number Publication Date
CN109299480A true CN109299480A (zh) 2019-02-01
CN109299480B CN109299480B (zh) 2023-11-07

Family

ID=65166187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811025328.3A Active CN109299480B (zh) 2018-09-04 2018-09-04 基于上下文语境的术语翻译方法及装置

Country Status (1)

Country Link
CN (1) CN109299480B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413757A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 一种词语释义确定方法、装置及***
CN110543644A (zh) * 2019-09-04 2019-12-06 语联网(武汉)信息技术有限公司 包含术语翻译的机器翻译方法、装置与电子设备
CN110717340A (zh) * 2019-09-29 2020-01-21 百度在线网络技术(北京)有限公司 推荐方法、装置、电子设备及存储介质
CN111191469A (zh) * 2019-12-17 2020-05-22 语联网(武汉)信息技术有限公司 大规模语料清洗对齐方法及装置
CN111222346A (zh) * 2019-12-20 2020-06-02 北京海兰信数据科技股份有限公司 语料文件的处理方法及装置
CN111597826A (zh) * 2020-05-15 2020-08-28 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN111652006A (zh) * 2020-06-09 2020-09-11 北京中科凡语科技有限公司 一种计算机辅助翻译方法及装置
CN111738022A (zh) * 2020-06-23 2020-10-02 中国船舶工业综合技术经济研究院 一种国防军工领域机器翻译优化方法及***
CN111797621A (zh) * 2020-06-04 2020-10-20 语联网(武汉)信息技术有限公司 一种术语替换方法及***
CN112052334A (zh) * 2020-09-02 2020-12-08 广州极天信息技术股份有限公司 一种文本释义方法、装置及存储介质
CN112364669A (zh) * 2020-10-14 2021-02-12 北京中科凡语科技有限公司 机器翻译译后的术语翻译方法、装置、设备及存储介质
CN112836523A (zh) * 2019-11-22 2021-05-25 上海流利说信息技术有限公司 一种单词翻译方法、装置、设备和一种可读存储介质
CN113627200A (zh) * 2021-06-15 2021-11-09 天津师范大学 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法
CN114091483A (zh) * 2021-10-27 2022-02-25 北京百度网讯科技有限公司 翻译处理方法、装置、电子设备及存储介质
CN114238619A (zh) * 2022-02-23 2022-03-25 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及***及装置及介质
CN114781409A (zh) * 2022-05-12 2022-07-22 北京百度网讯科技有限公司 文本的翻译方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5850561A (en) * 1994-09-23 1998-12-15 Lucent Technologies Inc. Glossary construction tool
CA2793268A1 (en) * 2011-10-21 2013-04-21 National Research Council Of Canada Method and apparatus for paraphrase acquisition
CN106156013A (zh) * 2016-06-30 2016-11-23 电子科技大学 一种固定搭配型短语优先的两段式机器翻译方法
CN107908712A (zh) * 2017-11-10 2018-04-13 哈尔滨工程大学 基于术语提取的跨语言信息匹配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5850561A (en) * 1994-09-23 1998-12-15 Lucent Technologies Inc. Glossary construction tool
CA2793268A1 (en) * 2011-10-21 2013-04-21 National Research Council Of Canada Method and apparatus for paraphrase acquisition
CN106156013A (zh) * 2016-06-30 2016-11-23 电子科技大学 一种固定搭配型短语优先的两段式机器翻译方法
CN107908712A (zh) * 2017-11-10 2018-04-13 哈尔滨工程大学 基于术语提取的跨语言信息匹配方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413757B (zh) * 2019-07-30 2022-02-25 中国工商银行股份有限公司 一种词语释义确定方法、装置及***
CN110413757A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 一种词语释义确定方法、装置及***
CN110543644B (zh) * 2019-09-04 2023-08-29 语联网(武汉)信息技术有限公司 包含术语翻译的机器翻译方法、装置与电子设备
CN110543644A (zh) * 2019-09-04 2019-12-06 语联网(武汉)信息技术有限公司 包含术语翻译的机器翻译方法、装置与电子设备
CN110717340A (zh) * 2019-09-29 2020-01-21 百度在线网络技术(北京)有限公司 推荐方法、装置、电子设备及存储介质
CN110717340B (zh) * 2019-09-29 2023-11-21 百度在线网络技术(北京)有限公司 推荐方法、装置、电子设备及存储介质
CN112836523A (zh) * 2019-11-22 2021-05-25 上海流利说信息技术有限公司 一种单词翻译方法、装置、设备和一种可读存储介质
CN112836523B (zh) * 2019-11-22 2022-12-30 上海流利说信息技术有限公司 一种单词翻译方法、装置、设备和一种可读存储介质
CN111191469B (zh) * 2019-12-17 2023-09-19 语联网(武汉)信息技术有限公司 大规模语料清洗对齐方法及装置
CN111191469A (zh) * 2019-12-17 2020-05-22 语联网(武汉)信息技术有限公司 大规模语料清洗对齐方法及装置
CN111222346A (zh) * 2019-12-20 2020-06-02 北京海兰信数据科技股份有限公司 语料文件的处理方法及装置
CN111597826A (zh) * 2020-05-15 2020-08-28 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN111797621A (zh) * 2020-06-04 2020-10-20 语联网(武汉)信息技术有限公司 一种术语替换方法及***
CN111797621B (zh) * 2020-06-04 2024-05-14 语联网(武汉)信息技术有限公司 一种术语替换方法及***
CN111652006B (zh) * 2020-06-09 2021-02-09 北京中科凡语科技有限公司 一种计算机辅助翻译方法及装置
CN111652006A (zh) * 2020-06-09 2020-09-11 北京中科凡语科技有限公司 一种计算机辅助翻译方法及装置
CN111738022A (zh) * 2020-06-23 2020-10-02 中国船舶工业综合技术经济研究院 一种国防军工领域机器翻译优化方法及***
CN111738022B (zh) * 2020-06-23 2023-04-18 中国船舶工业综合技术经济研究院 一种国防军工领域机器翻译优化方法及***
CN112052334A (zh) * 2020-09-02 2020-12-08 广州极天信息技术股份有限公司 一种文本释义方法、装置及存储介质
CN112052334B (zh) * 2020-09-02 2024-04-05 广州极天信息技术股份有限公司 一种文本释义方法、装置及存储介质
CN112364669A (zh) * 2020-10-14 2021-02-12 北京中科凡语科技有限公司 机器翻译译后的术语翻译方法、装置、设备及存储介质
CN113627200A (zh) * 2021-06-15 2021-11-09 天津师范大学 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法
CN113627200B (zh) * 2021-06-15 2023-12-08 天津师范大学 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法
CN114091483A (zh) * 2021-10-27 2022-02-25 北京百度网讯科技有限公司 翻译处理方法、装置、电子设备及存储介质
CN114238619B (zh) * 2022-02-23 2022-04-29 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及***及装置及介质
CN114238619A (zh) * 2022-02-23 2022-03-25 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及***及装置及介质
CN114781409A (zh) * 2022-05-12 2022-07-22 北京百度网讯科技有限公司 文本的翻译方法、装置、电子设备和存储介质
CN114781409B (zh) * 2022-05-12 2023-12-01 北京百度网讯科技有限公司 文本的翻译方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN109299480B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN109299480A (zh) 基于上下文语境的术语翻译方法及装置
CN106919673B (zh) 基于深度学习的文本情绪分析***
KR102055656B1 (ko) 텍스트의 의미 처리를 위한 방법, 장치 및 제품
CN106951438A (zh) 一种面向开放域的事件抽取***及方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN104573046A (zh) 一种基于词向量的评论分析方法及***
CN107194617B (zh) 一种app软件工程师软技能分类***及方法
CN109446423B (zh) 一种新闻以及文本的情感判断***及方法
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
CN109783794A (zh) 文本分类方法及装置
CN107480200A (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN110674378A (zh) 基于余弦相似度和最小编辑距离的中文语义识别方法
CN109522415B (zh) 一种语料标注方法及装置
CN112131876A (zh) 一种基于相似度确定标准问题的方法及***
CN114265937A (zh) 科技情报的智能分类分析方法、***、存储介质及服务器
CN107391565A (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN104573030A (zh) 一种文本情绪预测方法及装置
CN109446313A (zh) 一种基于自然语言分析的排序***及方法
CN107301167A (zh) 一种功性能描述信息识别方法及装置
KR101429623B1 (ko) 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법
CN112328792A (zh) 一种基于dbscan聚类算法识别信用事件的优化方法
CN109359299A (zh) 一种基于商品数据的物联网设备能力本体自构建方法
CN108475265B (zh) 获取未登录词的方法与装置
CN106326495A (zh) 一种基于话题模型的中文文本自动分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant