CN103488627A - 全篇专利文献翻译方法及翻译*** - Google Patents

全篇专利文献翻译方法及翻译*** Download PDF

Info

Publication number
CN103488627A
CN103488627A CN201310400123.XA CN201310400123A CN103488627A CN 103488627 A CN103488627 A CN 103488627A CN 201310400123 A CN201310400123 A CN 201310400123A CN 103488627 A CN103488627 A CN 103488627A
Authority
CN
China
Prior art keywords
phrase
translation
rnp
module
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310400123.XA
Other languages
English (en)
Other versions
CN103488627B8 (zh
CN103488627B (zh
Inventor
任智军
李进
蒋宏飞
杨婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA PATENT INFORMATION CENTER
Original Assignee
CHINA PATENT INFORMATION CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA PATENT INFORMATION CENTER filed Critical CHINA PATENT INFORMATION CENTER
Priority to CN201310400123.XA priority Critical patent/CN103488627B8/zh
Publication of CN103488627A publication Critical patent/CN103488627A/zh
Application granted granted Critical
Publication of CN103488627B publication Critical patent/CN103488627B/zh
Publication of CN103488627B8 publication Critical patent/CN103488627B8/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种全篇专利文献的机器翻译方法和***,基于模板或规则方法或权重方法得到短语;然后通过短语频率或修正的短语频率或记忆借鉴等方法进行短语修正,最终得到识别名词短语RNP;对全文中识别名词短语标注RNP信息,翻译识别名词短语RNP并在短语存储器中保存相关信息;之后对全文进行逐句翻译,在翻译时,对于标注RNP的短语不再展开,直接从短语存储器中取译文;翻译完毕后,根据原文的标题信息进行按顺序输出。本发明能够获取专利文献中常用复杂名词短语,减少含有常用复杂名词短语的句子的分析时间,提高了翻译速度,同时还保证了常用复杂名词短语翻译的一致性。

Description

全篇专利文献翻译方法及翻译***
技术领域
本发明涉及机器翻译技术,尤其涉及全篇专利文献的机器翻译方法及翻译***。
背景技术
机器翻译是使用计算机实现从一种自然语言文本到另一种自然语言文本的翻译。其研究方法分为规则和统计两种。由于规则***开发周期长,资金和人力的需求大,所以规则***进展缓慢。相对而言,统计方法开发周期短、便于处理大规模语料等优点而显出优势。在统计机器翻译方法中,基于短语的翻译方法得到充分的发展。但从目前看,对于专业的领域的翻译来说,比如在专利文档的翻译中,较长的短语常常被分词为几个短语进行翻译。例如,“所述超低温热封聚丙烯流延膜,...”,可能会被分词为“所述”、“超低温”、“热”、“封”、“聚丙烯”和“流延膜”。而在专利文献撰写中,“所述”后的词语通常是固定的,其本身就可以看为一个固定短语,所以能将“超低温热封聚丙烯流延膜”作为一个短语整体进行处理,则只需要一次分析和翻译,就可以在此专利文献中出现该短语时直接套用。另外,对于复杂短语,在句法分析的时候,会由于上下语境的不同而产生不同的短语分词结果,造成同一篇专利文档中译文前后不一致,但对于专利文献来说,很多复杂短语是固定的,在全文中会多次出现,因此只要在全文范围内识别出这样的短语,就可以在全文翻译中直接套用其译文,而不必再对同样的内容进行分析。
公开号为CN103116578A的中国专利申请,公开一种融合句法树和统计机器翻译技术的机器翻译方法与装置,该方法首先建立不同语种语言之间的词典库、语法规则库、短语翻译概率表以及目标语语言模型,然后对原文输入句子进行切分、词性消兼和语法分析,生成句法树,然后采用自顶向下的策略遍历该句法树,对单个节点和部分跨句法的连续节点,取其叶节点的原文与统计机器翻译所训练出的短语翻译概率表进行智能匹配,利用短语翻译表的译文和目标语言的语言模型来达到提高输出译文流利度和准确度的目的。此方法对短语的提取不是基于全文的,因此会存在同样的短语翻译不一致以及多次分析、翻译的情况。
因此,在现有技术的翻译过程中,复杂名词短语不能保持一致性,同时,同一短语被多次地分析、翻译,耗时费力。
发明内容
为了克服现有的缺陷,本发明提出一种全篇专利文献的机器翻译方法和***。
根据本发明的一个方面,提出了一种全篇专利文献的机器翻译方法,该方法包括以下步骤:A步骤:针对文献全文,识别出各级标题信息并标注;B步骤:对全文进行词法分析,得到分词和词性标注信息;C步骤:根据B步骤的分词和词性标注信息进行短语识别,得到识别名词短语RNP并将该识别名词短语RNP翻译成目标语言;和D步骤:以句子为单位进行翻译,对于标注为RNP的短语直接使用步骤C所得的译文,翻译完毕后,按原文标题顺序输出。
根据本发明的另一个方面,提供了一种机器翻译***,包括:
输入模块,用于接收并分析文献全文,首先识别各级标题,然后进行词法分析,标注分词、词性信息;
短语识别模块,所述短语识别模块用于得到识别名词短语RNP短语翻译模块,所述短语翻译模块翻译识别名词短语,并保存在短语存储器中;
全文翻译模块,所述全文翻译模块对全文逐句翻译,对于识别名词短语RNP不再进行句法展开,直接从短语存储器中取译文;和
输出模块,所述输出模块将翻译结果按原标题顺序输出。
本发明提供一种全篇专利全文机器翻译方法和翻译***,解决了现有技术中常用复杂名词短语翻译不一致及翻译效率低的问题。
附图说明
本发明的上述及其它方面和特征将从以下结合附图对实施例的说明清楚呈现,在附图中:
图1是全篇专利文献机器翻译方法流程图;
图2是短语处理模块工作流程图;
图3是短语翻译器句法分析的一个例子;
图4是全篇专利文献机器翻译***的结构图;
图5是短语识别模块的工作流程图;和
图6是短语翻译模块的工作流程图。
具体实施方式
下面结合附图和具体实施例对本发明提供的一种全篇专利文献机器翻译方法和***进行详细描述。
如图1所示,图1提供了专利文献机器翻译方法总体技术方案实现流程图。该方法包括以下步骤:A步骤:接收全文,识别各级标题信息、XML标签信息、特征内容并标注;B步骤:对全文进行词法分析,得到分词和词性标注信息;其中,根据需要还可以进行浅层句法分析或完整的句法分析;C步骤:根据B步骤的分词结果对短语进行提取、判定、识别和修正,得到识别名词短语RNP;翻译识别名词短语RNP并存放在短语存储器中;D步骤:以句子为单位进行翻译,翻译时遇到标注为RNP的短语,直接从短语存储器中取译文,不再对短语进行分析,翻译完后按原文标题顺序输出译文。
在步骤A中,专利内容部分包括名称、摘要、权利要求书、说明书(技术领域、背景技术、发明内容、附图说明、具体实施方式);标注的方法举例如下:权利要求1可以标注为<claiml>。
在步骤C中,包括以下步骤:C01步骤:短语提取;C02步骤:短语判定;C03步骤:短语识别和修正;C04步骤:为全文中出现的所有该短语标注RNP标签;和C05步骤:短语翻译。
在步骤C01中,短语提取可以使用模板提取方法,即通过一些设定的边界信息,利用模板进行短语提取。
【例1】一种用于控制飞机飞行的***,其特征在于,...
可以将“一种”、“其特征在于”作为起始边界信息,利用模板:{一种}+{短语A}+{,其特征在于},提取短语“用于控制飞机飞行的***”。
短语提取方法还可以为规则提取方法,即利用词性标注特征POS(part-of-speech)加前后缀组合方法进行短语提取,撰写的规则例子如下:(-1)CAT(V)+(0)CAT[N]+(1)Suffix→NP[0,1]。
【例2】...提供词性标注方法
其中,后缀为“方法”,词性标注特征为:提供/v词性/n/标注/nv方法/n。
将后缀“方法”与“词性/n/标注/nv”结合,得到短语“词性标注方法”。
短语提取方法可以为计算权重法,对其权重进行打分,如果其权重高于设定值,比如0.5×ω*,则判定为候选短语,ω*为当前专利文档中短语权重的最大值。此外,在计算ω*时,要排除在停用高频短语列表中的短语。
权重打分方法可以为TF-IDF法:
&omega; NP = f NP &times; log N n NP
其中ωNP为短语的权重,fNP为短语在全文中的频率(其计算公式根据上文中公式),nNP为在专利文档库中出现的该短语的文档数,N为专利文档库中文档数。
打分方法还可以为TFC法:
&omega; NP = f NP &times; log ( N n NP ) &Sigma; NP [ f NP &times; log ( N n NP ) ] 2
其中,ωNP为短语的权重,fNP为短语在全文中的频率(其计算公式根据上文中公式),nNP为在专利文档库中出现该短语的文献数,N为专利文档库中文档数。∑NP表示对全文中所有短语求和。
打分方法还可以为ITC法:
&omega; NP = log ( f NP + 1.0 ) &times; log ( N n NP ) &Sigma; PN [ log ( f NP + 1.0 ) &times; log ( N n NP ) ] 2
其中,ωNP为短语的权重,fNP为短语在全文中的频率(其计算公式根据上文中公式),nNP为在专利文档库中出现该短语的文档数,N为专利文档库中文档数,∑NP表示对全文中所有短语求和。
权重打分方法还可以为TF-IWF法:
&omega; NP = f NP &times; log ( &Sigma; NP C NP C NP )
ωNP为短语的权重,fNP为短语在全文中的频率(其计算公式根据上文中公式),CNP为短语在全文中出现的次数,∑NP表示对全文中所有短语求和。
在计算出权重之后,根据短语出现的位置设置位置权重系数βi,对权重进行调整,公式如下:
【公式1】ω*=ω*βi
其中βi为位置权重系数。βi根据其在分析处理阶段(A步骤)中识别出的各标题部分的位置信息,取不同的值,具体如下:
β1表示说明书摘要、背景技术、具体实施方式部分的权重;
β2表示权利要求、技术领域部分的权重;
β3表示附图说明部分的权重;
β4表示标题、权利要求主题名称部分的权重。
βi取值范围的关系满足不等式1:
β1234
βi优选为:
0.1<β1<0.6
0.2<β2<0.8
0.3<β3<0.9
0.5<β4<1
且满足不等式1所限定的取值范围。
βi更加优选为:
β1=0.4
β2=0.5
β3=0.6
β4=0.8
停用高频短语列表是通过计算短语频
Figure BDA0000377841590000063
,降序排列后取排名1至排名n的短语而构成,计算短语频率的公式为:
【公式2】               f NPL = C NPL C L
其中fNPL表示该短语在专利文档库L中的频率,CNPL为该短语在专利文档库中出现的次数,CL表示专利文档库中所有短语出现的总次数,计算公式为:
【公式3】
C L = &Sigma; i N i L
Figure BDA0000377841590000071
表示专利文档库中短语i出现的次数。排名n为20-1000,优选为50-500,更优选为100。
该专利文档库可以是大于或等于一万篇的专利文档库,优选与所述被翻译的专利文档技术领域相同或相似的专利文档库。
进一步地,在步骤C01中可以使用上述三种方式的任意组合来进行短语提取。
在步骤C02中,短语判定方法可以为短语频率方法,即计算专利全文中该短语出现的频率,按照设定的选择阈值ε,如果出现频率小于该阈值,则该短语不属于候选短语。
短语频率的计算公式为:
【公式4】            f NP = C NP C
其中,fNP为该短语的频率,CNP为该短语在专利全文中出现的次数,C为专利全文中所有短语出现的总次数。C的计算公式为:
【公式5】
C = &Sigma; i N i
其中,Ni为短语i在专利全文中出现的次数。
阈值ε的计算公式为:
【公式6】              1 N ALL &le; &epsiv; &le; 100 N ALL
更优选为:
【公式7】              1 N ALL &le; &epsiv; &le; 20 N ALL
最优选为:
【公式8】              &epsiv; = 5 N ALL
其中,NALL为全篇专利文献中短语的总个数。
同时,查询该短语是否存在于停用高频短语列表中,若存在,则该短语不属于候选短语。
短语判定方法还可以是修正的短语频率法,计算方法为:
【公式9】           fNP′=fNPi
其中βi为位置权重系数,具体的取值在前面已有描述。
短语判定方法还可以为记忆鉴定方法,首先从一个专利文档库的所有专利全文中提取短语,经过人工判定等方式得到正确的短语,存入记忆库。判定时,使用边际编辑距离算法和最长公共字串法对提取的短语与记忆库中的短语进行比较,生成候选短语。
进一步地,短语判定方法还可以是上述3种方法的任意组合。对于多种判定方法,可以通过投票法对结果进行选择。所述投票法表示用多种方法获得的短语中,取相同结果数量最多的一种。例如,有两种方法得出结果为A,有一种方法得出结果为B,则取A为最终结果,即候选短语。
经过短语判定得到的短语为候选短语。
在步骤C03中,对候选短语进行识别和修正以得到识别名词短语RNP。所述错误修正方法,可以用CRF方法对短语标注结果进行概率打分,根据打分结果对于错误进行修正。打分公式为:
p ( y | x , &lambda; ) = 1 Z ( x ) exp ( &Sigma; j &lambda; j F j ( y , x ) )
F ( y , x ) = &Sigma; i n f ( y i - 1 , y i , x , i )
其中,f(yi-1,yi,x,i)为转移概率或发射概率,yi-1,yi是第i-1和第i个标记,x为观察序列。i为短语在观察序列中的位置。Z(x)是归一化因子。λj是训练获取的参数。
所述错误修正方法可以为规则方法,根据上下文和相应的语法规则,对错误进行修正。
所述错误修正方法可以为错误模式方法,对预先获得的所有错误模式进行记录,放入存储器,当判定后的短语符合错误模式时,根据错误模式进行修正。下面举例说明:
【例3】[其中气体发生器]由两个部分构成=>其中[气体发生器]由两个部分构成。
上例中,左边为原短语边界,右边为修正后的短语边界,左边原短语边界标注时,错误地将“其中”合并到名词短语中,发现这种错误模式后,根据错误模式进行修正,将“其中”排除在名词短语之外。
所述错误的修正方法,还可以是结合上述2种或2种以上方法,综合进行错误修正。其中,错误修正包括修改短语标注信息。
经过错误修正步骤后获得的短语为识别名词短语RNP。
在步骤C05中,判断识别名词短语RNP是否存在于短语存储器中。如果存在,则不作处理,直接对下一条短语进行判断,否则,执行下面步骤。
首先,对输入短语进行句法分析并进行核心词修正。目的是将句法分析默认的以动词为根节点的结构修正为以核心词/主题词作为根节点的结构。
【例4】词性/n/标注/nv方法/n
其修正后句法分析结果如图3所示。
其次,基于修正后的句法结构,采用CYK(Cocke-Younger-Kasami)算法,自底向上进行翻译。在此过程中,结合平均调序距离进行翻译评分。
再次,对CYK翻译过程获得的翻译结果,保留翻译评分最高的N个为候选译文,N优选为100,然后再根据目标语言专利文档集训练获得的语言模型评分进行重排序,确定最优译文。
所述平均调序距离公式为:
【公式10】
&Sigma;D = &Sigma; i L i / Z
其中ωi表示第i个词调序前后所处位置的距离
Figure BDA0000377841590000101
Z为词总数。
【例5】执行[0]命令[1]超时[2]=>Command[0]execution[1]timeout[2]
执行[0]=>execution[1] D1=1
命令[1]=>Command[0] D2=1
超时[2]=>timeout[2] D3=0
因此 D = ( 1 + 1 + 0 ) 3 &ap; 0.667
作为调序结果选择的一项评分,D与预先设定的调序距离阈值Df进行比较,排除评分大于Df的译文。所述Df为经验值,优选0.5≤Df≤3,更加优选为1≤Df≤2,最优选为Df=1.5。
所述根据目标语言专利文档集信息进行候选译文重排序,是将多个翻译候选结果通过利用目标语言专利文档库训练获得的语言模型进行语言模型评分,输出评分最高者所述专利文档库是一个专利全文数据库,其所含专利文档数量优选为一万篇以上。优选为根据待翻译的所述专利文档相同或相似的技术领域的专利文档库。
最后,将识别名词短语RNP按短语存储器格式保存在短语存储器中,供后续翻译使用。信息存放的数据格式为:短语、分词信息、词性标注信息、识别名词短语标签信息、译文信息。
在步骤C中,可以组合使用各分步骤中的方法。
在步骤D中,逐句翻译,对于标注为RNP的短语,作为名词NN处理,不再对其进行句法树展开。
【例6】本发明提供一种全篇专利文献机器翻译方法及***,其句法分析结果如图2所示。在译词选择阶段,对于标注为RNP的短语,从短语存储器中取出其译文作为短语译文。当句子中不合RNP标签时,根据句法分析结果进行翻译。将翻译后的目标语言翻译结果按原文标题顺序输出。
根据本发明的另一个方面,提出一种全篇专利文献翻译***,图4是全篇专利文献翻译***的结构图。所述全篇专利文献翻译***包括:输入模块,接收输入的专利全文,并对专利全文进行标题标识和标注,进行词法分析;短语识别模块,根据词法分析结果对短语进行识别,得到识别名词短语RNP,具体包括短语提取模块、短语判定模块、错误修正模块;短语翻译模块,包括判断单元、修正单元、翻译及评分单元、对比单元,对识别名词短语RNP进行翻译并在短语存储器中保存相关信息;专利全文翻译模块,是以句子为翻译单位的机器翻译模块或翻译器,对专利全文逐句进行翻译,在翻译过程中,如果遇到RNP短语,则不对其展开,直接取短语存储器中的译文;和输出模块,从专利全文语句翻译模块获取所有句子翻译结果,按照原文标题顺序输出译文。
输入模块首先识别各个专利内容部分,包括名称、摘要、权利要求书、说明书(技术领域、背景技术、发明或实用新型内容、附图说明、具体实施方式)。识别方法主要是以专利各部分的标题信息、XML标签信息、特征内容信息进行识别,并在识别后进行相应标注。例如权利要求1可以标注为<claim1>。
然后,在进一步确定段落单元及语句单元后,利用现有开源词法分析工具和句法分析工具对每条语句进行词法分析,也可以根据需要进行适度的句法分析,并给出语句的分词结果、词性标注结果以及句法分析结果。
短语识别模块,包括短语提取模块、短语判定模块、错误修正模块,图5是短语识别模块的工作流程图。
短语提取模块用于提取短语,方法可以为模板提取方法,根据设定的边界信息,利用模板进行短语提取。例如,一种用于控制飞机飞行的***,其特征在于,...。可以将“一种”、“其特征在于”作为起始边界信息,利用模板:{一种}+{短语A}+{,其特征在于},提取短语“用于控制飞机飞行的***”。
提取方法还可以为规则提取方法,利用词性标注特征POS(part-of-speech)加前后缀组合方法,规则的一个例子为:
(-1)CAT(V)+(0)CAT[N]+(1)Suffix→NP[0,1]。
【例7】...提供词性标注方法,其中,后缀为“方法”,词性标注特征为:提供/v词性/n/标注/nv方法/n。将后缀“方法”与“词性/n/标注/nv”结合,得到短语“词性标注方法”。
提取方法还可以为计算权重法,对其进行打分计算权重。如果高于设定值,比如0.5×ω*,则判定其为候选短语。ω*为去掉停用高频列表中的短语后全文剩余短语的权重的最大值。
所述停用高频短语列表是通过计算短语频率
Figure BDA0000377841590000121
降序排列后取排名1至排名n的短语而构成,计算短语频率的公式为:
【公式11】
f NPL = C NPL C L
其中fNPL表示该短语在专利文档库L中的频率,CNPL为该短语在专利文档库中出现的次数,CL表示专利文档库中所有短语出现的总次数,计算公式为:
【公式12】
C L = &Sigma; i N i L
表示专利文档库中短语i出现的次数。排名n为20-1000,优选为50-500,更优选为100。
该专利文档库中专利文献的数量大于或等于一万篇,优选与所述被翻译的专利文档技术领域相同或相似的专利文档库。
权重打分方法可以为TF-IDF法,
&omega; NP = f NP &times; log N n NP
其中ωNP为短语的权重,fNP为短语在全篇专利文献中的频率(其计算公式根据上文中公式),nNP为在专利文档库中出现的该短语的专利文档数,N为专利文档库中文档数。
打分方法还可以为TFC法:
&omega; NP = f NP &times; log ( N n NP ) &Sigma; NP [ f NP &times; log ( N n NP ) ] 2
其中,ωNP为短语的权重,fNP为短语在全篇专利文献中的频率(其计算公式根据上文中公式),nNP为在专利文档库中出现的该短语的专利文献数,N为专利文档库中文档数,∑NP表示对全篇专利文献中所有短语求和。
打分方法还可以为ITC法:
&omega; NP = log ( f NP + 1.0 ) &times; log ( N n NP ) &Sigma; NP [ log ( f NP + 1.0 ) &times; log ( N n NP ) ] 2
其中,ωNP为短语的权重,fNP为短语在全篇专利文献中的频率(其计算公式根据上文中公式),nNP为在专利文档库中出现的该短语的专利文献数,N为专利文档库中文档数,∑NP表示对全篇专利文献中所有短语求和。
打分方法还可以为TF-IWF法:
&omega; NP = f NP &times; log ( &Sigma; NP C NP C NP )
ωNP为短语的权重,fNP为短语在全篇专利文献中的频率(其计算公式根据上文中公式),CNP为短语在全篇专利文献中出现的次数,∑NP表示对全篇专利文献中所有短语求和。
在计算出权重之后,根据短语出现的位置,对权重进行调整,利用下面等式进行计算,
【公式13】ω*=ω*βi
其中βi为位置权重系数。βi根据其在分析处理阶段(A步骤)中识别出的各标题部分的位置信息,取不同的值,具体如下:
β1表示说明书摘要、背景技术、具体实施方式部分的权重;
β2表示权利要求、技术领域部分的权重;
β3表示附图说明部分的权重;
β4表示标题、权利要求主题名称部分的权重。
取值范围的关系满足不等式1:
β1234
βi优选为:
0.1<β1<0.6
0.2<β2<0.8
0.3<β3<0.9
0.5<β4<1
且满足不等式1所限定的取值范围。
βi更加优选为:
β1=0.4
β2=0.5
β3=0.6
β4=0.8
进一步地,提取方法可以使用上述方法的任意组合。
短语提取模块将其提取的短语发送给短语判定模块。短语判定模块对提取的短语进行判定,短语判定方法可以为短语频率方法,即计算专利全文中该短语出现的频率,按照设定的选择阈值ε,如果出现频率小于该阈值,则排除该短语。短语频率的计算公式为
【公式14】
f NP = C NP C
其中,fNP为该短语的频率,CNP为该短语在专利全文中出现的次数,C为专利全文中所有短语出现的总次数。C的计算公式为:
【公式15】
C = &Sigma; i N i
其中,Ni为短语i在专利全文中出现的次数。
阈值ε的计算公式为,【公式16】
1 N ALL &le; &epsiv; &le; 100 N ALL
更优选为:
【公式17】
1 N ALL &le; &epsiv; &le; 20 N ALL
最优选为:
【公式18】
&epsiv; = 5 N ALL
其中,NALL为全篇专利文献中短语的总个数。
查询该短语是否存在于停用高频短语列表中,若存在,则排除该短语。
短语判定方法还可以为根据短语出现位置修正的短语频率法,
【公式19】fNP′=fNPi
其中βi为位置权重系数。在上面已有描述。
短语判定方法还可以为记忆鉴定方法,所述专利文档库是一个专利全文数据库,其所含专利文档数量优选为一万篇以上。优选为根据待翻译的所述专利文档相同或相似的技术领域的专利文档库。短语判定方法还可以是上述3种方法的任意组合。如果应用了多种判定方法,可以通过投票法对结果进行选择。所述投票法表示用多种方法获得的短语中,取相同结果数量最多的一种。例如,有两种方法得出结果为“概率打分方法”,有一种方法得出结果为“打分方法”,则取“概率打分方法”为最终结果。
经过短语判定的短语为候选短语。错误修正模块,对候选短语中可能的识别错误进行修正,同时修改句子中的标注信息。
错误修正方法可以用CRF方法对候选短语进行概率打分,根据打分结果对于错误进行修正。打分公式为:
p ( y | x , &lambda; ) = 1 Z ( x ) exp ( &Sigma; j &lambda; j F j ( y , x ) )
F ( y , x ) = &Sigma; i n f ( y i - 1 , y i , x , i )
其中,f(yi-1,yi,x,i)为转移概率或发射概率,yi-1,yi是第i-1和第i个标记,x为观察序列。i为短语在观察序列中的位置。Z(x)是归一化因子。λj是训练获取的参数。
错误修正方法可以为规则方法,根据上下文和相应的语法规则,对错误进行修正。
错误修正方法可以为错误模式方法,对预先获得的所有错误模式进行记录,放入存储器,当判定后的短语符合错误模式时,根据错误模式进行修正。
【例8】[其中气体发生器]由两个部分构成=>其中[气体发生器]由两个部分构成。上例中,错误是将“其中”合并到名词短语中,发现这种错误模式后,根据错误模式进行修正,将“其中”排除在名词短语之外。
错误的修正方法,还可以是结合上述2种或2种以上方法,综合进行错误修正。在错误修正模块中,还修改上述短语标注信息。经过错误修正步骤后获得的短语为识别名词短语RNP。
短语翻译模块,用于翻译RNP短语并将结果保存到短语存储器中。短语翻译模块包含判断单元、修正单元、翻译及评分单元、对比单元,图6是短语翻译模块的工作流程图。
首先,识别名词短语RNP进入判断单元,判断其是否存在于短语存储器中,如果存在,则不作处理,对下一条短语进行判断;如果不存在,进入修正单元。
在修正单元中,对识别名词短语RNP进行句法分析,并将所述识别名词短语结构修正为以核心词/主题词作为根节点的结构;
【例9】词性/n/标注/nv方法/n,其修正后句法分析结果如图3所示。在翻译及评分单元中,对修正后的名词短语采用CYK(Cocke-Younger-Kasami)算法自底向上进行翻译,在此过程中结合平均调序距离进行评分。所述平均调序距离D,作为调序结果选择的一项评分,与预先设定的调序距离阈值Df进行比较,排除评分大于Df的译文。
平均调序距离公式为:
【公式20】
&Sigma;D = &Sigma; i L i / Z
其中ωi表示第i个词调序前后所处位置的距离Z为词总数。
【例10】执行[0]命令[1]超时[2]=>Command[0]execution[1]timeout[2]
执行[0]=>execution[1] D1=1
命令[1]=>Command[0] D2=1
超时[2]=>timeout[2] D3=0
因此 D = ( 1 + 1 + 0 ) 3 &ap; 0.667
所述Df为经验值,优选0.5≤Df≤3,更加优选为1≤Df≤2,最优选为Df=1.5。
接着,对CYK翻译过程获得的候选译文,保留得分最高的N个候选,N优选为100。
在对比单元中,根据目标语言专利文档集信息进行重排序,就是将多个候选译文通过利用目标语言专利文档库训练获得的语言模型进行语言模型评分,评分最高者为最优译文,将其存储在短语存储器中,保存的信息包括名词短语、分词信息、词性标注信息、识别名词短语标签信息、译文信息。所述专利文档库是一个专利全文数据库,其所含专利文档数量优选为一万篇以上。优选为根据待翻译的所述专利文档相同或相似的技术领域的专利文档库。
专利全文翻译模块是以句子为翻译单位的机器翻译模块或翻译器,对专利全文语句逐句进行翻译。
根据本发明的机器翻译方法相对于现有的机器翻译方法的改进在于进行句法分析,对于标注为RNP的短语,作为名词NN处理,不再对其进行句法树展开,保留RNP为附加信息。进行翻译,对于标注为RNP的短语,从短语存储器中取出其译文作为短语译文;其他部分按现有的统计方法与规则方法、模板方法的一种或它们的结合翻译。
输出模块从专利全文翻译模块获取所有句子翻译结果,按照原文的标题顺序输出译文。
<实施例1>
用根据本发明的机器翻译方法翻译如下专利全文,以下内容仅作为实施例给出本发明的工作方法的示例,省略了要旨之外的内容,本发明不限于本实施例。
权利要求书
1.一种超低温热封聚丙烯流延膜,由热封层、聚丙烯芯层和聚丙烯电晕层三层流延共挤复合而成,其特征是所述热封层主要由以下组分按重量比制成:聚丙烯无规共聚物10~80份,聚烯烃弹性体20~90份,爽滑剂0.1~0.5份,防粘连剂0.1~0.5份。
2.根据权利要求1所述的超低温热封聚丙烯流延膜,其特征是所述热封层各组分的重量比为:聚丙烯无规共聚物10~20份,聚烯烃弹性体80~90份,爽滑剂0.1~0.5份,防粘连剂0.1~0.5份。
3.根据权利要求1所述的超低温热封聚丙烯流延膜,其特征是所述聚丙烯电晕层主要由以下组分按重量比制成:聚丙烯100份,防粘连剂0.1~0.5份。
4.根据权利要求1所述的超低温热封聚丙烯流延膜,其特征是所述聚丙烯芯层主要由以下组分按重量比制成:聚丙烯均聚物100份,苯乙烯-乙烯-丁稀-苯乙烯嵌段共聚物3~5份,爽滑剂0,1~0.5份。
5........
......
首先在用户界面中输入该文本,短语提取模块提取在全文中多次出现的短语:
1 所述超低温热封聚丙烯流延膜
2 热封层
3 聚丙烯无规共聚物
4 ……
经过短语判定模块进行判定,得出候选短语为:
1 所述超低温热封聚丙烯流延膜
2 热封层
3 聚丙烯无规共聚物
4 ……
错误修正模块进行错误修正,例如,识别出1“所述超低温热封聚丙烯流延膜”有误,修正后结果如下。
1 超低温热封聚丙烯流延膜
2 热封层
3 聚丙烯无规共聚物
4 ……
经过错误修正模块进行错误修正后的短语,作为识别出的短语,对识别出的短语标注名词短语标签RNP,识别模块将上述短语的短语原文、分词信息、词性标注信息、标签信息放入存储器。如下表所示,
Figure BDA0000377841590000201
短语翻译模块从存储器中取得短语原文进行翻译,翻译译文分别为:
1 ultra-low temperature seal polypropylene cast film
2 sealant layer
3 random polypropylene copolymer
4 ……
短语翻译模块将译文存入存储器供其他模块使用。
Figure BDA0000377841590000202
Figure BDA0000377841590000211
句子翻译器根据分句结果,取得句子的分词、词性标注结果,在句法分析阶段,对标注为RNP的短语,作为名词NN处理,不再进行句法树展开,并保留RNP标签。在生成阶段,句子翻译器从词典中查找译文时,优先从存储器中获取译文,获得上述短语的译文,如下所示。
Claims
1.An ultra-low temperature seal polypropylene cast film,by castco-extruding a heat sealing layer,a polypropylene core layer and a polypropylenecorona layer,Wherein said heat seal layer is mainly composed of the followingcomponents by weight ratio,random polypropylene copolymer of10to80parts,polyolefin elastomers of20to90parts,slippery agent of0.1to0.5parts,anti-blocking agent of0.1to0.5parts.
2.The ultra-low temperature seal polypropylene cast film as claimed in claim1,characterized in that each component of said heat-sealing layer weight ratio is:random polypropylene copolymer of10to20parts,polyolefin elastomer of80to90parts,slip agentof0.1to0.5parts,anti-blocking agent of0.1to0.5parts.
3.The ultra-low temperature seal polypropylene cast film as claimed in claim1,wherein said polypropylene alkenyl corona layer mainly consists of thefollowing components by a weight ratio:100parts of polypropylene,0.1to0.5parts of anti-blocking agent.
Copies.
4.The ultra-low temperature seal polypropylene cast film as claimed in claim1,wherein said polypropylene alkenyl corona layer mainly consists of thefollowing components by a weight ratio:100parts of polypropylene homopolymer,3-5parts of Styrene-ethylene-Ding dilute-styrene block copolymer,0.1to0.5parts of slip agent.
5........
......
根据本发明的全篇专利文献机器翻译方法可以提高复杂名词短语的翻译准确性,降低了含有高频复杂名词短语的句法分析的难度,提高了句法分析的准确性,从而提高了翻译准确性,并减少了对高频短语进行句法分析的时间,从而提高了翻译速度。

Claims (21)

1.一种全篇专利文献的机器翻译方法,包括:
A步骤:针对文献全文,识别出各级标题信息并标注;
B步骤:对全文进行词法分析,得到分词和词性标注信息;
C步骤:根据B步骤的分词和词性标注信息进行短语识别,得到识别名词短语RNP并将所述识别名词短语RNP翻译成目标语言;和
D步骤:以句子为单位进行翻译,对于标注为RNP的短语直接使用C步骤所得的译文,翻译完毕后,按原文标题顺序输出。
2.根据权利要求1所述的方法,其中,所述C步骤包括:
C01步骤:采用模板提取法、规则提取法、权重计算法或所述三种方法任意结合对短语进行提取;
C02步骤:对提取的短语进行判定,得到候选短语;
C03步骤:对候选短语进行错误识别和修正,得到识别名词短语RNP;
C04步骤:为全文中出现的所有识别名词短语标注RNP标签;和
C05步骤:翻译最终识别名词短语并存放在短语存储器中。
3.根据权利要求2所述的方法,其中,所述C01步骤中权重计算法的步骤包括:
C0101步骤:对短语进行打分,方法可以为TF-IDF法、TFC法或ITC法;
C0102步骤:根据标题信息设置位置权重系数,短语的权重等于短语打分乘以位置权重系数;
C0103步骤:判断短语是否存在于专利文档库的停用高频短语列表中,若存在,则排除该短语;停用高频短语列表的产生方法为:在专利文档库中,短语频率为该短语在文档库中出现的次数与文档库中所有短语出现的总次数的比值,降序排列后前N个短语组成高频短语列表,N为20-1000的整数;和
C0104步骤:当短语的权重高于设定值时,则判定其为候选短语,设定值为0.5×ω*,ω*为当前专利文档中短语权重的最大值。
4.根据权利要求3所述的方法,其中,所述的位置权重系数包括:
β1,表示说明书摘要、背景技术、具体实施方式部分的权重;
β2,表示权利要求、技术领域部分的权重;
β3,表示附图说明部分的权重;和
β4,表示标题、权利要求主题名称部分的权重;
取值满足以下不等式:
β1234
5.根据权利要求4所述的方法,其中,β1、β2、β3和β4的取值为:
0.1<β1<0.6
0.2<β2<0.8
0.3<β3<0.9
0.5<β4<1。
6.根据权利要求4所述的方法,其中,β1、β2、β3和β4的取值为:
β1=0.4
β2=0.5
β3=0.6
β4=0.8。
7.根据权利要求2-6中任一项权利要求所述的方法,其中,所述C02步骤中判定方法为短语频率法,首先设定阈值,如果短语频率高于该阈值,并且短语不在专利文档库的停用高频短语列表中,则判定所述短语为候选短语,短语频率为该短语在全文中出现的次数与所有短语出现次数的比值;阈值ε范围为[1/全篇专利文献中短语的总个数,100/全篇专利文献中短语的总个数]。
8.根据权利要求2-6中任一项权利要求所述的方法,其中,所述C02步骤中判定方法为修正的短语频率法,首先设定阈值,如果短语频率高于该阈值,并且短语不在专利文档库的停用高频短语列表中,则判定所述短语为候选短语,短语频率为该短语在全文中出现的次数与所有短语出现次数的比值与位置权重系数的乘积;阈值ε范围为[1/全篇专利文献中短语的总个数,100/全篇专利文献中短语的总个数]。
9.根据权利要求8所述的方法,其中,所述C02步骤中的位置权重系数包括:
β1,表示说明书摘要、背景技术、具体实施方式部分的权重;
β2,表示权利要求、技术领域部分的权重;
β3,表示附图说明部分的权重;和
β4,表示标题、权利要求主题名称部分的权重;
并且取值满足以下不等式:
β1234
10.根据权利要求9所述的方法,其中,β1、β2、β3和β4的取值为:
0.1<β1<0.6
0.2<β2<0.8
0.3<β3<0.9
0.5<β4<1。
11.根据权利要求9所述的方法,其中,β1、β2、β3和β4的取值为:
β1=0.4
β2=0.5
β3=0.6
β4=0.8。
12.根据权利要求2-6中任一项权利要求所述的方法,其中,所述C02步骤采用记忆鉴定法进行判定,对专利文档库中所有专利全文提取短语,经过人工判定得到正确的短语,并将其保存在记忆库,将记忆库中的短语和待判定短语通过编辑距离算法和最长公共字串法进行比较,生成候选短语。
13.根据权利要求2-6中任一项权利要求所述的方法,其中,所述C02步骤采用短语频率法、修正的短语频率法、记忆鉴定法的任意组合进行判定,对不同判定方法的结果使用投票法进行选择,相同结果数量最多的短语为候选短语。
14.根据权利要求2所述的方法,其中,所述C03步骤采用CRF方法、规则方法、错误模式方法或此三种方法任意结合进行辨识和修正,得到识别名词短语RNP,同时修正短语标注信息。
15.根据权利要求2所示的方法,其中,所述C05步骤包括:
判断短语是否已在短语存储器中,若不在,进行短语翻译;翻译后,按短语存储器格式保存该短语,该短语存储器格式包括短语、分词信息、词性标注信息、识别名词短语标签信息和译文信息。
16.根据权利要求15所示的方法,其中,所述短语翻译包括以下步骤:
核心词修正,对短语进行句法分析,将短语的根节点修改为核心词/主题词;然后采用CYK算法进行翻译;
通过计算平均调序距离,保留得分高的至少一个候选译文;和
根据目标语言专利文档库信息进行译文候选重排序,将多个翻译候选结果通过利用目标语言专利文档库训练获得的语言模型进行语言模型评分,输出评分最高者。
17.一种全篇专利文献的机器翻译***,包括:
输入模块,用于接收并分析文献全文,首先识别各级标题,然后进行词法分析,标注分词、词性信息;
短语识别模块,所述短语识别模块用于得到识别名词短语RNP;
短语翻译模块,所述短语翻译模块翻译识别名词短语,并保存在短语存储器中;
全文翻译模块,所述全文翻译模块对全文逐句翻译,对于识别名词短语RNP不再进行句法展开,直接从短语存储器中取译文;和
输出模块,所述输出模块将翻译结果按原标题顺序输出。
18.根据权利要求17所述的***,其中,所述短语识别模块还包括:
短语提取模块,所述短语提取模块根据模板法、规则法、计算权重法或其结合提取短语;
短语判定模块,所述短语判定模块根据短语频率方法、修正的短语频率法、记忆鉴定方法、投票法或其结合进行短语判定;和
错误修正模块,所述错误修正模块采用CRF方法、规则方法或错误模式方法或其结合对候选短语进行修正,最终得到识别名词短语RNP。
19.根据权利要求17所述的***,其中,所述短语存储器包含短语、分词信息、词性标注信息、识别名词短语标签信息和译文信息。
20.根据权利要求17所述的***,其中,所述短语翻译模块包括:
判断单元,用于判断识别名词短语RNP是否存在于短语存储器中,如果存在,则不作处理转到下一条短语;如果不存在,进入修正单元;
修正单元,用于对识别名词短语RNP进行句法分析,并将所述识别名词短语结构修正为以核心词/主题词作为根节点的结构;
翻译及评分单元,对修正后的名词短语,采用CYK算法自底向上进行翻译,并结合平均调序距离进行评分;和
对比单元,用于根据目标语言专利文档集信息进行译文候选重排序,即将多个翻译候选结果通过利用目标语言专利文档库训练获得的语言模型进行语言模型评分,保存评分最高者。
21.根据权利要求17所述的***,其中,所述全文翻译模块包括:
句法分析单元,用于逐句分析句法,获取全文分析处理的分词、词性标注信息;和
翻译单元,对于识别名词短语RNP从短语存储器中取出译文,对于其他内容进行翻译。
CN201310400123.XA 2013-09-05 2013-09-05 全篇专利文献翻译方法及翻译*** Active CN103488627B8 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310400123.XA CN103488627B8 (zh) 2013-09-05 2013-09-05 全篇专利文献翻译方法及翻译***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310400123.XA CN103488627B8 (zh) 2013-09-05 2013-09-05 全篇专利文献翻译方法及翻译***

Publications (3)

Publication Number Publication Date
CN103488627A true CN103488627A (zh) 2014-01-01
CN103488627B CN103488627B (zh) 2017-10-10
CN103488627B8 CN103488627B8 (zh) 2017-12-22

Family

ID=49828869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310400123.XA Active CN103488627B8 (zh) 2013-09-05 2013-09-05 全篇专利文献翻译方法及翻译***

Country Status (1)

Country Link
CN (1) CN103488627B8 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298662A (zh) * 2014-04-29 2015-01-21 中国专利信息中心 一种基于有机物命名实体的机器翻译方法及翻译***
CN104516874A (zh) * 2014-12-29 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种对名词短语进行依存句法分析的方法及***
CN106484686A (zh) * 2016-10-21 2017-03-08 长沙市麓智信息科技有限公司 专利智能翻译***及其翻译方法
CN108153739A (zh) * 2016-12-05 2018-06-12 云拓科技有限公司 权利要求书的电脑自动翻译装置
TWI637278B (zh) * 2017-07-03 2018-10-01 雲拓科技有限公司 申請專利範圍的電腦自動翻譯裝置
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN110147558A (zh) * 2019-05-28 2019-08-20 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
CN110472256A (zh) * 2019-08-20 2019-11-19 南京题麦壳斯信息科技有限公司 一种基于篇章的机器翻译引擎测评优选方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060136824A1 (en) * 2004-11-12 2006-06-22 Bo-In Lin Process official and business documents in several languages for different national institutions
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060136824A1 (en) * 2004-11-12 2006-06-22 Bo-In Lin Process official and business documents in several languages for different national institutions
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马丽丽: "英汉机器翻译***中术语自动翻译技术的研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298662A (zh) * 2014-04-29 2015-01-21 中国专利信息中心 一种基于有机物命名实体的机器翻译方法及翻译***
CN104298662B (zh) * 2014-04-29 2017-10-10 中国专利信息中心 一种基于有机物命名实体的机器翻译方法及翻译***
CN104516874A (zh) * 2014-12-29 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种对名词短语进行依存句法分析的方法及***
CN106484686A (zh) * 2016-10-21 2017-03-08 长沙市麓智信息科技有限公司 专利智能翻译***及其翻译方法
CN108153739A (zh) * 2016-12-05 2018-06-12 云拓科技有限公司 权利要求书的电脑自动翻译装置
TWI637278B (zh) * 2017-07-03 2018-10-01 雲拓科技有限公司 申請專利範圍的電腦自動翻譯裝置
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN110147558A (zh) * 2019-05-28 2019-08-20 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
CN110147558B (zh) * 2019-05-28 2023-07-25 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
CN110472256A (zh) * 2019-08-20 2019-11-19 南京题麦壳斯信息科技有限公司 一种基于篇章的机器翻译引擎测评优选方法及***

Also Published As

Publication number Publication date
CN103488627B8 (zh) 2017-12-22
CN103488627B (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN103488627A (zh) 全篇专利文献翻译方法及翻译***
Oya et al. A template-based abstractive meeting summarization: Leveraging summary and source text relationships
US8301640B2 (en) System and method for rating a written document
US7467079B2 (en) Cross lingual text classification apparatus and method
US9218339B2 (en) Computer-implemented systems and methods for content scoring of spoken responses
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
CN108052499A (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
Darwish et al. Using Stem-Templates to Improve Arabic POS and Gender/Number Tagging.
CN108920455A (zh) 一种汉语自动生成文本的自动评价方法
Luong et al. LIG system for WMT13 QE task: Investigating the usefulness of features in word confidence estimation for MT
Eskander et al. Creating resources for Dialectal Arabic from a single annotation: A case study on Egyptian and Levantine
Qin et al. Learning latent semantic annotations for grounding natural language to structured data
CN112257442B (zh) 一种基于扩充语料库神经网络的政策文件信息提取方法
CN106250367B (zh) 基于改进的Nivre算法构建越南语依存树库的方法
CN112836525A (zh) 一种基于人机交互机器翻译***及其自动优化方法
Rosen Building and Using Corpora of Non-Native Czech.
US8977538B2 (en) Constructing and analyzing a word graph
JP2016152032A (ja) 難易度推定モデル学習装置、難易度推定装置、方法、及びプログラム
Li et al. Chinese frame identification using t-crf model
Silva et al. Improving CoGrOO: the Brazilian Portuguese Grammar Checker
CN112101019A (zh) 一种基于词性标注和组块分析的需求模板符合性检查优化方法
Gayen et al. Automatic identification of Bengali noun-noun compounds using random forest
Bonnell et al. Rule-based Adornment of Modern Historical Japanese Corpora using Accurate Universal Dependencies.
Vičič et al. Automated implementation process of machine translation system for related languages
CN115438654B (zh) 文章标题生成方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CI03 Correction of invention patent
CI03 Correction of invention patent

Correction item: Patentee

Correct: China Patent Information Center

False: China Patent Office Information

Number: 41-01

Volume: 33

Correction item: Patentee

Correct: China Patent Information Center

False: China Patent Office Information

Number: 41-01

Page: Fei Ye

Volume: 33