CN102214166B - 基于句法分析和层次模型的机器翻译***和方法 - Google Patents

基于句法分析和层次模型的机器翻译***和方法 Download PDF

Info

Publication number
CN102214166B
CN102214166B CN 201010144623 CN201010144623A CN102214166B CN 102214166 B CN102214166 B CN 102214166B CN 201010144623 CN201010144623 CN 201010144623 CN 201010144623 A CN201010144623 A CN 201010144623A CN 102214166 B CN102214166 B CN 102214166B
Authority
CN
China
Prior art keywords
phrase
syntax
translation
continuous
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010144623
Other languages
English (en)
Other versions
CN102214166A (zh
Inventor
熊张亮
何亮
万磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN 201010144623 priority Critical patent/CN102214166B/zh
Priority to KR1020110018439A priority patent/KR101777421B1/ko
Priority to US13/079,283 priority patent/US8818790B2/en
Publication of CN102214166A publication Critical patent/CN102214166A/zh
Application granted granted Critical
Publication of CN102214166B publication Critical patent/CN102214166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于句法分析和层次模型的机器翻译***和方法,所述机器翻译***包括词对齐模块、短语提取模块、词性句法标注模块、基于句法的非连续短语提取模块、基于非连续短语的翻译模块和评分输出模块。所述机器翻译***和方法在通用的基于连续短语的机器翻译模型基础上进行句法分析,从而从双语句对齐文本中提取基于句法的非连续短语规则库,解决全句上下文非连续固定搭配的问题,使其符合语言的句法特征;基于非连续短语规则库和短语对齐表进行翻译,对翻译结果基于评估模型进行评分,从而有效地改善了翻译效果。

Description

基于句法分析和层次模型的机器翻译***和方法
技术领域
本发明涉及机器翻译,具体来讲,涉及一种基于句法分析和层次模型的机器翻译***和方法。
背景技术
机器翻译是将一种自然语言翻译成另一种自然语言的自动翻译,机器翻译***的类型很多,目前流行的是基于连续短语的机器翻译(PBMT)***。机器翻译要解决的问题是利用计算机将源语言(SL)的句子或片段自动翻译成对应的目标语言(TL)的句子或片段。基于语料库的机器翻译包含一个双语对齐语料库(即每一句源语言句子均有一句或多句对应的目标语言的翻译),计算机进行自动翻译所需要的数据和知识都从语料库中得到。
PBMT***以短语为翻译的基本单位。在翻译过程中,***不是孤立地翻译每个词,而是将连续的多个词一起进行翻译。由于扩大了翻译的粒度,基于短语的方法很容易处理局部上下文依赖关系,能够很好地翻译习语和常用词搭配。一般的,在基于短语的方法中,短语可以是任意连续的字符串,没有句法上的限制,这样可以方便地从词语对齐的双语语料库中自动提取双语短语翻译为指定的一个源语言句子。基于短语的方法需要对***进行训练。训练的时候,先输入一个双语语料库,即一组互为翻译的句子。从词语对齐的结果中知道句子中哪些词是互为翻译的。接下来还需要进行短语提取,也就是提取出语料库中所有互为翻译的连续的词串,而不用管这个词串是否具有真正的含义。
PBMT具有如下缺陷:(1)由于局部上下文依赖关系,PBMT不能很好地进行处理较长的句子或短语,尤其是非连续的固定搭配所带来的长距离调序问题;(2)由于PBMT完全依靠连续短语统计信息,忽略了语言的句法特征,未能充分利用语料库所包含的知识,从而限制了其翻译效果的进一步提高。
发明内容
针对以上提到的缺点,本发明的目的在于提供一种基于句法分析和层次模型的机器翻译***和方法。
根据本发明的一方面,提供了一种基于句法分析和层次模型的机器翻译***,所述机器翻译***可包括:词对齐模块,从外部接收双语句对齐文本,并从接收的双语对齐文本中获得词对齐信息;短语提取模块,从词对齐模块接收词对齐信息,利用接收的词对齐信息进行短语提取,以获得短语对齐表;词性句法标注模块,从外部接收已标注语料库和双语句对齐文本,从已标注语料库中提取有用的语言知识及其概率分布信息,并利用提取出的语言知识及其概率分布信息对双语句对齐文本中的双语或者单语进行词性及句法标注,产生句法标注语料库;基于句法的非连续短语提取模块,从词性句法标注模块接收句法标注语料库,并基于句法标注语料库根据词对齐模块产生的对齐信息或短语提取模块产生的短语对齐表进行基于句法的非连续短语提取,以产生基于句法的非连续短语规则库;基于非连续短语的翻译模块,从非连续短语提取模块接收基于句法的非连续短语规则库,并对待翻译句子在所述基于句法的非连续短语规则库中检索所有可能的短语、翻译及其概率,并输出翻译结果;评分输出模块,从外部接收评估模型,基于评估模型对翻译结果进行评分,并输出得分最高的翻译结果。
所述机器翻译***还可包括:基于连续短语的翻译模块,从短语提取模块接收短语对齐表,对待翻译句子在短语对齐表中检索所有可能的短语、翻译及其概率,并将翻译结果输出到评分输出模块。
基于句法的非连续短语提取模块可包括:非连续短语提取模块,根据词对齐模块产生的词对齐信息或短语提取模块产生的短语对齐表,将双语句对齐文本的每句中双语对齐的连续短语采用非终结符代替,获得非连续短语规则库;句法过滤模块,基于句法标注语料库对非连续短语提取模块产生的非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库。
所述概率分布信息可包括特定词语属于特定词类的概率、特定短语属于特定类短语的概率以及上下文概率。
所述短语对齐表可包括源语言短语、目标语言短语和概率值。
根据本发明的另一方面,提供了一种基于句法分析和层次模型的机器翻译方法,所述机器翻译方法包括以下步骤:接收双语句对齐文本,并从接收的双语对齐文本中获得词对齐信息;利用词对齐信息进行短语提取,以获得短语对齐表;接收已标注语料库和双语句对齐文本,从已标注语料库中提取有用的语言知识及其概率分布信息,并利用提取出的语言知识及其概率分布信息对双语句对齐文本中的双语或者单语进行词性及句法标注,产生句法标注语料库;基于句法标注语料库根据对齐信息或短语对齐表进行基于句法的非连续短语提取,以产生基于句法的非连续短语规则库;对待翻译句子在所述基于句法的非连续短语规则库中检索所有可能的短语、翻译及其概率;接收评估模型,基于评估模型对所述翻译进行评分,并输出得分最高的翻译结果。
所述机器翻译方法还可包括以下步骤:对待翻译句子在短语对齐表中检索所有可能的短语、翻译及其概率。
产生基于句法的非连续短语规则库的步骤可包括以下步骤:根据词对齐信息或短语对齐表将双语句对齐文本的每句中双语对齐的连续短语采用非终结符代替,获得非连续短语规则库;基于句法标注语料库对非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库。
根据本发明的机器翻译***和方法在通用的基于连续短语的机器翻译模型基础上进行句法分析,从而从双语句对齐文本中提取基于句法的非连续短语规则库,解决全句上下文非连续固定搭配的问题,使其符合语言的句法特征;基于非连续短语规则库和短语对齐表进行翻译,对翻译结果基于评估模型进行评分,从而有效地改善了翻译效果。
附图说明
通过参照附图对本发明示例性实施例的详细描述,本发明的以上和其他特征和方面将变得更清楚,其中:
图1是示出根据本发明示例性实施例的基于句法分析和层次模型的机器翻译***的框图;
图2是示出构造句法标注语料库的示图;
图3是示出根据本发明示例性实施例的图1中示出的基于句法的非连续短语提取模块的示图;
图4是示出图3中的非连续短语提取模块操作的示例的示图;
图5是示出非连续短语规则库的单语句法分析过滤的示例的示图;
图6A和图6B是分别示出根据本发明示例性实施例和传统技术的机器翻译的示图;
图7是示出根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译方法的流程图。
具体实施方式
以下,将参照附图详细描述本发明的示例性实施例。
图1是示出根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译***。
如图1所示,根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译***包括:词对齐模块101、短语提取模块102、基于连续短语的翻译模块103、词性句法标注模块201、基于句法的非连续短语提取模块202、基于非连续短语的翻译模块301和评分输出模块302。
词对齐模块101、短语提取模块102、基于连续短语的翻译模块103是采用传统的基于连续短语的翻译***中所使用的模块,其与根据本发明示例性实施例的词性句法标注模块201、基于句法的非连续短语提取模块202共同构成根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译***的预处理部分。而基于连续短语的翻译模块103和根据本发明示例性实施例的基于非连续短语的翻译模块301和评分输出模块302可构成根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译***的翻译引擎。
参照图1,将双语句对齐文本输入到词对齐模块101,词对齐模块101利用工具(例如,GIZA++)从输入的双语对齐文本中获得词对齐信息,并将该对词齐信息输入到短语提取模块102。
短语提取模块102从词对齐模块101接收词对齐信息,利用接收的词对齐信息进行短语提取,从而获得短语对齐表(也被称为连续短语库),并将获得的短语对齐表发送到基于连续短语的翻译模块103和基于句法的非连续短语提取模块202。其中,所述短语对齐表包括以下三个部分:(1)源语言短语;(2)目标语言短语;(3)概率值。
在自然语言的计算机处理中,基于规则的句法剖析主要是使用Chomsky的上下文无关句法,但是其在处理自然语言的歧义时显得无能为力。
近年来对上下文无关句法的改进主要体现在两个方面:一方面是给上下文无关句法的规则加上概率,提出了概率上下文无关句法(PCFG),另一方面是除了给规则加概率之外,还考虑规则的中心词对于规则概率的影响,提出了概率词汇化上下文无关句法。
这些研究把基于规则的理性主义方法与基于统计的经验主义方法巧妙地结合起来,取得了较好的成果,为解决句法歧义问题提供了有力的手段。概率句法给一个句子或者单词的符号串指派一个概率,从而捕捉比一般的上下文无关句法更加细致的句法信息。概率上下文无关句法也是一种上下文无关句法,其中的每一个规则都标上选择该规则的概率,处理每一个上下文无关规则时,都假定它们在条件上是独立的,一个句子的概率使用剖析该句子时每一个规则的概率的乘积来计算。
下面将参照图2来以PCFG为例描述词性句法标注模块201构造句法标注语料库(这里,语料库也被称为树库)的具体操作。
首先,通过对语料库的标注处理(自动或人工进行),形成带有不同层次的标注信息的语料库,如标注了词类和句法树信息的宾州树库,其主要标注集如图2的(a)所示。将已标注语料库输入到词性句法标注模块201。
词性句法标注模块201利用统计工具从已标注语料库中提取有用的语言知识及其概率分布信息,即有指导的训练(supervised training)方法。主要的概率分布信息包括某词语属于某词类的概率、某短语属于某类短语的概率以及上下文概率。
词性句法标注模块201利用提取出的语言知识及其概率分布信息,对双语句对齐文本中的双语或者单语进行词性及句法标注,产生句法标注语料库,并将产生的句法标注语料库发送到基于句法的非连续短语提取模块202。一个句子可能有多种标注结果,我们选取其中概率最大的作为输出结果,如图2的(a)和(b)所述,根据概率计算,图2的(a)的概率为:P1=0.2×0.2×0.2×0.4×0.45×1.0×1.0×0.4×0.05=2.88×10-5;而图2的(b)的概率为:P2=0.8×0.2×0.05×0.4×0.4×0.3×0.4×0.4×0.4×0.05=1.2288×10-6,因此,选择图2的(a)的标注结果。
图2的(c)和(d)分别示出了部分句法标注集和已标注的中文句子。
基于句法的非连续短语提取模块202从词性句法标注模块201接收句法标注语料库,并基于句法标注语料库根据词对齐模块101产生的对齐信息或短语提取模块102产生的短语对齐表进行基于句法的非连续短语提取,以获得基于句法的非连续短语规则库。
下面将参照图3至图5来详细描述基于句法的非连续短语提取模块202如何产生基于句法的非连续短语规则库。
图3至图5示出了根据本发明的示例性实施例的非连续短语提取模块202具体构成和具体操作。
如图3所示,基于句法的非连续短语提取模块202包括非连续短语提取模块212和句法过滤模块222。
下面参照图4详细描述非连续短语提取模块212如何构造非连续短语规则库。
非连续短语提取模块212根据词对齐模块101产生的词对齐信息或短语提取模块102产生的短语对齐表,将双语句对齐文本的每句中双语对齐的连续短语采用[X]、[Y]等非终结符代替,获得非连续短语规则库。
图4示出了一个非连续短语规则提取实例。该实例的规则为:带[X]的[Y]|||[Y]with[X]|||0.10.30.6,其中,0.1是源语言到目标语言的翻译概率,0.3是目标语言到源语言的词翻译概率,0.6是源语言到目标语言的词翻译概率。
对非连续短语规则库的句法过滤的基本思想是保证句子中被提取的短语部分应该是一个具有相对独立性的句子成分短语,如名词短语(NP),数量词短语(QP)等,以保证后期的翻译质量。
句法过滤模块222基于句法标注语料库对非连续短语提取模块产生的非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库;
下面参照图5描述句法过滤模块222如何进行句法过滤。
图5示出了一个非连续短语规则库的单语句法分析过滤实例。
如图5所示,对输入的单语句子进行句法标注。
考虑对标注后的句子,挖去非代词名词短语(NP-NN),以[X]代替的情况,此处为“地铁路线图”,生成的非连续短语规则如图5中保留的第1条RULE。
考虑数量词短语(QP)的情况,具体为标记为QP的短语,且包含两个子节点,分别是CD与CLP,如(QP(CD两)(CLP(M张))),对CD以[X]代替,此处为“两”,生成的非连续短语规则如图5中保留的第2条规则;
由于不符合语法规则,被过滤掉的规则为图5中的“[X]给我地铁路线图吗?”。
以上参照附图详细描述了根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译***的预处理部分,下面将参照图1和图6描述根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译***的翻译引擎。
根据本发明的基于句法分析和层次模型的机器翻译***使用翻译模型、语言模型、调序模型和解码器。
根据本发明的基于句法分析和层次模型的机器翻译与传统技术的基于连续短语的机器翻译主要差别在于翻译模型的扩展和调序模型的相对弱化。
翻译模型提供源语言和目标语言短语之间的对应翻译关系,并用一个概率值表示这种对应翻译关系的程度,概率值越高,表明翻译对应的越准确,用于为源语言句子提供可能的目标语言翻译。基于层次短语的翻译模型将对应翻译关系由连续短语扩展至连续短语及基于句法的非连续短语。
语言模型存储了大量的概率值,这些概率值给出了每个词与其前后词或短语的概率关系信息,其作用是判断一个短语St符合目标语言句法、习惯的程度,用于对翻译结果进行选择,一般用一个概率值PLM(St)来衡量这个程度,PLM(St)值越高表示短语越符合目标语言。
调序模型用于调整翻译出来的目标语言结果中词或者短语的位置顺序,由于基于句法的非连续短语的存在,调序模型的功能部分被取代,其权重可相应较低。
翻译引擎的作用在于协调上述几个模型来对源语言句子进行翻译。
参照图1,基于连续短语的翻译模块103对从短语提取模块102输出的对经过词切分的待翻译的句子在短语对齐表中检索所有可能的短语、翻译及其概率。
基于非连续短语的翻译模块301从非连续短语提取模块202接收基于句法的非连续短语规则库,并针对经过词切分的待翻译的句子在所述基于句法的非连续短语规则库中检索所有可能的短语、翻译及其概率。
图6A示出根据本发明示例性实施例的基于句法分析和层次短语模型将中文翻译成英文的示图。
图6A中的标号(1)-(5)分别与下面的操作(1)-(5)一一对应。
(1)输入待翻译的中文句子;
(2)根据翻译模型,基于连续短语的翻译模块103在短语对齐表中搜索所有可能的短语、翻译及其概率;
(3)根据翻译模型,基于非连续短语的翻译模块301在非连续短语规则库中搜索所有可能的非连续短语、翻译及其概率;
(4)根据短语、非连续短语对的翻译概率和三元语言模型概率等,解码器计算各种可能翻译结果的总概率;
(5)解码器选取总概率最优的前N个句子作为N-best候选目标语言句。
在图6A中,(4)-(5)表示汇总计算总概率,从而选出N个候选句子。另外,在图6A中,|3,6|表示的范围均为[3,6),即包含3,但不包含6,范围是到6之前。
图6B是与图6A相应的根据传统技术的将中文翻译成英文的示图。
与根据本发明的图6A相比,主要区别在于,在传统技术翻译过程中仅利用连续短语进行翻译,而未利用句法分析过滤过的层次短语,例如X->([X]的[Y],[Y]of[X]),进行概率计算,生成翻译结果。例如,在本申请方法,“中国的上海”被翻译成“Shanghai of China”,而根据传统技术翻译的结果是“Chinese Shanghai”,故根据本发明的翻译结果明显好于根据传统技术的翻译结果。
下面将描述评分输出模块302基于评估模型对翻译结果进行评分。
输入到评分输出模块302的翻译输出是N个候选目标语言句子,N大于等于1。
评分输出模块302基于输入的评估模型还对输入的N个候选目标语言句子进行评分。
评估模型可以综合多个翻译特征,如语言模型特征、句子的词性序列模型特征、目标语言的句子长度等,来对这N个候选目标语言句子进行重新排序,选取总体最优的翻译作为翻译结果进行输出。
考虑实现的简便性和处理效率,在本发明的示例性实施例中以目标语言的语言模型作为评估模型进行描述,其作用是判断一个句子St符合目标语言句法和习惯的程度,从而对翻译结果进行选择。一般用概率值PLM(St)来衡量所述程度,PLM(St)值越高表示句子越符合目标语言。
考虑到处理效率和候选的目标语言句子的差异性,在本发明的当前示例性实施例中N=2,即一个仅基于连续短语翻译的输出句和一个基于句法分析和层次模型的输出句。
评分输出模块302基于以下基本流程进行评分:
1、接收N=2的候选目标语言句子,一个为仅基于连续短语翻译的输出句和一个基于句法分析和层次模型的输出句;
2、利用目标语言模型(即通过语言模型)对每一个可能的翻译计算其概率值;
3、选择得分最优的输出。
下面描述评分输出模块302进行评分的实例。
翻译源语言是中文,目标语言是英文。输入的源语言是:“请告诉我支付条件”。
翻译后的结果是(N=2):
1)Would you please tell me the pay terms.(基于连续短语的翻译结果)
2)Would you please tell me the terms of payment.(基于句法分析和层次模型的翻译结果)
用英语的语言模型对这两个结果进行打分,由于“支付条件”有其常用说法“terms of payment”,且“Would you please tell me the terms of payment.”更符合英语的句法规则及使用习惯,因此,语言模型会为该结果给出一个较高的分值:
1)对中间结果1进行打分:0.7
2)对中间结果2进行打分:0.9
5.选择分值最高的作为最终结果:Would you please tell me the terms ofpayment。
下面将参照图7描述根据本发明示例性实施例的基于句法分析和层次模型的机器翻译方法。
图7是示出根据本发明示例性实施例的基于句法分析和层次模型的机器翻译方法的流程图。
如图7所示,在步骤S701和S702,分别输入已标注语料库和双语句对齐文本。
在步骤S703,进行词性和句法标注。首先利用统计工具从输入的已标注语料库中提取有用的语言知识及其概率分布信息,然后,利用提取出的语言知识及其概率分布信息,对输入的双语句对齐文本中的双语或者单语进行词性及句法标注,最终产生句法标注语料库(或称为句法标注树库)。
在步骤S704,利用GIZA++工具从输入的双语句对齐文本获得词对齐信息。
在步骤S705,利用在步骤S704获得的词对齐信息提取短语,从而获得短语对齐表,所述短语对齐表包括以下三个部分:(1)源语言短语;(2)目标语言短语;(3)概率值。
在步骤S706,基于在步骤S703中获得的句法标注语料库根据在步骤S704中产生的对齐信息或在步骤S705中获得的短语对齐表来进行非连续短语提取,以获得基于句法的非连续短语规则库。
详细地讲,首先,基于在步骤S704中获得的对齐信息或在步骤S705中获得的短语对齐表,将双语句对齐文本的每句中双语对齐的连续短语采用[X],[Y]等非终结符代替,获得非连续短语规则库;然后,基于在步骤S703中获得的句法标注语料库进行句法过滤,以获得基于句法的非连续短语规则库;
在步骤S707,根据翻译模型,在短语对齐表和基于句法的非连续短语规则库中搜索所有可能的短语、非连续短语、翻译及其概率,输出总概率最有的N个翻译作为候选目标语言句。
在步骤S708,基于评估模型对候选目标语言句进行评分,并选择总体最优的作为最终输出。
以上参照附图描述了根据本发明示例性实施例的基于句法分析和层次模型的机器翻译***和方法,本领域技术人员应该理解的是,本发明不限于上述示例性实施例。例如,为了获得所有可能的翻译结果,在图1中包括了基于连续短语的翻译模块103,并在图7的步骤S707中包括了在短语对齐表中搜索所有可能的短语、非连续短语、翻译及其概率,但如果在图1中不包括基于连续短语的翻译模块103以及在图7的步骤S707中不包括了对短语对齐表的搜索也是可行的。另外,在本发明的示例性实施例中,评估模型不限于语言模型。
在基于本专利的原型***上进行了韩中翻译的实验。
测试集类型:封闭测试(在训练集中选择测试语句)为20%,开放测试(测试语句不属于训练集)为80%。
人工评测的结果:与传统的基于连续短语的机器翻译***相比,韩中语句流利度明显改善的句子增加了10%以上,达到86.5%人工评测良好率的实用程度。
在相当于目前主流手机硬件配置的嵌入式***中,平均翻译速度为2句/秒,实现了即时翻译。
Figure GSA00000062503400111
以下是韩中翻译(示例1)和中韩翻译(示例2)。
例子1(韩中翻译)
Figure GSA00000062503400112
例子2(中韩翻译)
中文:请把我的包送去我的房间。
基于连续短语模型的翻译结果:
Figure GSA00000062503400113
(翻译错误);
本发明的基于句法分析和层次模型的翻译结果:
Figure GSA00000062503400114
(翻译正确)。
根据本发明示例性实施例的基于句法分析和层次模型的机器翻译***和方法相对于现有技术中的基于连续短语的机器翻译***和方法可明显提高翻译的准确度,特别是在语料库规模受限的情况下。
根据本发明示例性实施例的基于句法分析和层次模型的机器翻译***和方法既可以应用于计算机***,也可应用于嵌入式***。
本发明引入了层次模型,由句子对齐的双语语料库提取获得对齐的非连续短语规则库,解决了全句上下文非连续固定搭配的翻译问题。
本发明增加了词性句法标注模块和基于句法的非连续短语提取模块,分析并获取语料库中各句的句法标注树(即,对经过句法标注的句子)基于句法标注树获得基于句法的非连续短语规则库,使其符合语言的句法特征,从而改善了翻译效果,并大幅度减小了非连续短语规则库的规模,适于在嵌入式***上应用;
本发明基于评估模型对翻译结果进行评分和选择,输出得分最高的翻译结果作为最终结果,从而可以有效融合各翻译模型的优点,保证了***的可扩展性,进一步改善了翻译效果。
本领域的技术人员应该理解,在不脱离本发明的精神和范围的情况下,可在形式和细节上进行各种改变。因此,如上所述的示例性实施例仅为了示出的目的,而不应该被解释为对本发明的限制。本发明的范围由权利要求限定。

Claims (10)

1.一种基于句法分析和层次模型的机器翻译***,包括:
词对齐模块,从外部接收双语句对齐文本,并从接收的双语句对齐文本中获得词对齐信息;
短语提取模块,从词对齐模块接收词对齐信息,利用接收的词对齐信息进行短语提取,以获得短语对齐表;
词性句法标注模块,从外部接收已标注语料库和双语句对齐文本,从已标注语料库中提取用于双语句对齐文本的语言知识及其概率分布信息,并利用提取出的语言知识及其概率分布信息对双语句对齐文本中的双语或者单语进行词性及句法标注,产生句法标注语料库;
基于句法的非连续短语提取模块,从词性句法标注模块接收句法标注语料库,并基于句法标注语料库根据词对齐模块产生的对齐信息或短语提取模块产生的短语对齐表进行基于句法的非连续短语提取,以产生基于句法的非连续短语规则库;
基于非连续短语的翻译模块,从非连续短语提取模块接收基于句法的非连续短语规则库,并对待翻译句子在所述基于句法的非连续短语规则库中检索待翻译句子的所有可能的短语、翻译及其翻译概率,并输出翻译结果;
评分输出模块,从外部接收评估模型,基于评估模型对翻译结果进行评分,并输出得分最高的翻译结果。
2.如权利要求1所述的基于句法分析和层次模型的机器翻译***,其特征在于所述机器翻译***还包括:基于连续短语的翻译模块,从短语提取模块接收短语对齐表,对待翻译句子在短语对齐表中检索所有可能的短语、翻译及其概率,并将翻译结果输出到评分输出模块。
3.如权利要求1或2所述的基于句法分析和层次模型的机器翻译***,其特征在于基于句法的非连续短语提取模块包括:非连续短语提取模块,根据词对齐模块产生的词对齐信息或短语提取模块产生的短语对齐表,将双语句对齐文本的每句中双语对齐的连续短语采用非终结符代替,获得非连续短语规则库;句法过滤模块,基于句法标注语料库对非连续短语提取模块产生的非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库。
4.如权利要求1所述的基于句法分析和层次模型的机器翻译***,其特征在于所述概率分布信息包括特定词语属于特定词类的概率、特定短语属于特定类短语的概率以及上下文概率。
5.如权利要求1所述的基于句法分析和层次模型的机器翻译***,其特征在于所述短语对齐表包括源语言短语、目标语言短语和概率值。
6.一种基于句法分析和层次模型的机器翻译方法,包括以下步骤:
接收双语句对齐文本,并从接收的双语句对齐文本中获得词对齐信息;
利用词对齐信息进行短语提取,以获得短语对齐表;
接收已标注语料库和双语句对齐文本,从已标注语料库中提取用于双语句对齐文本的语言知识及其概率分布信息,并利用提取出的语言知识及其概率分布信息对双语句对齐文本中的双语或者单语进行词性及句法标注,产生句法标注语料库;
基于句法标注语料库根据对齐信息或短语对齐表进行基于句法的非连续短语提取,以产生基于句法的非连续短语规则库;
对待翻译句子在所述基于句法的非连续短语规则库中检索待翻译句子的所有可能的短语、翻译及其翻译概率;
接收评估模型,基于评估模型对所述翻译进行评分,并输出得分最高的翻译结果。
7.如权利要求6所述的基于句法分析和层次模型的机器翻译方法,其特征在于所述机器翻译方法还包括以下步骤:对待翻译句子在短语对齐表中检索所有可能的短语、翻译及其概率。
8.如权利要求6或7所述的基于句法分析和层次模型的机器翻译方法,其特征在于产生基于句法的非连续短语规则库的步骤包括以下步骤:
根据词对齐信息或短语对齐表将双语句对齐文本的每句中双语对齐的连续短语采用非终结符代替,获得非连续短语规则库;
基于句法标注语料库对非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库。
9.如权利要求6所述的基于句法分析和层次模型的机器翻译方法,其特征在于所述概率分布信息包括特定词语属于特定词类的概率、特定短语属于特定类短语的概率以及上下文概率。
10.如权利要求6所述的基于句法分析和层次模型的机器翻译方法,其特征在于所述短语对齐表包括源语言短语、目标语言短语和概率值。
CN 201010144623 2010-04-06 2010-04-06 基于句法分析和层次模型的机器翻译***和方法 Active CN102214166B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN 201010144623 CN102214166B (zh) 2010-04-06 2010-04-06 基于句法分析和层次模型的机器翻译***和方法
KR1020110018439A KR101777421B1 (ko) 2010-04-06 2011-03-02 구문 분석 및 계층적 어구 모델 기반 기계 번역 시스템 및 방법
US13/079,283 US8818790B2 (en) 2010-04-06 2011-04-04 Syntactic analysis and hierarchical phrase model based machine translation system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010144623 CN102214166B (zh) 2010-04-06 2010-04-06 基于句法分析和层次模型的机器翻译***和方法

Publications (2)

Publication Number Publication Date
CN102214166A CN102214166A (zh) 2011-10-12
CN102214166B true CN102214166B (zh) 2013-02-20

Family

ID=44745481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010144623 Active CN102214166B (zh) 2010-04-06 2010-04-06 基于句法分析和层次模型的机器翻译***和方法

Country Status (1)

Country Link
CN (1) CN102214166B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116575B (zh) * 2011-11-16 2016-06-22 富士通株式会社 基于层次短语模型的译文词序概率确定方法及装置
KR101475284B1 (ko) * 2011-11-29 2014-12-23 에스케이텔레콤 주식회사 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법
CN103914447B (zh) * 2013-01-09 2017-04-19 富士通株式会社 信息处理设备和信息处理方法
CN104346325B (zh) * 2013-07-30 2017-05-10 富士通株式会社 信息处理方法和装置
CN104050160B (zh) * 2014-03-12 2017-04-05 北京紫冬锐意语音科技有限公司 一种机器与人工翻译相融合的口语翻译方法和装置
CN106372053B (zh) 2015-07-22 2020-04-28 华为技术有限公司 句法分析的方法和装置
CN106383818A (zh) * 2015-07-30 2017-02-08 阿里巴巴集团控股有限公司 一种机器翻译方法及装置
CN106484681B (zh) 2015-08-25 2019-07-09 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN106484682B (zh) 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN105320644B (zh) * 2015-09-23 2018-01-02 陕西中医药大学 一种基于规则的自动汉语句法分析方法
CN106156013B (zh) * 2016-06-30 2019-02-19 电子科技大学 一种固定搭配型短语优先的两段式机器翻译方法
KR102458244B1 (ko) * 2017-11-23 2022-10-24 삼성전자주식회사 기계 번역 방법 및 장치
CN108363704A (zh) * 2018-03-02 2018-08-03 北京理工大学 一种基于统计短语表的神经网络机器翻译语料扩展方法
CN108897852B (zh) * 2018-06-29 2020-10-23 北京百度网讯科技有限公司 对话内容连贯性的判断方法、装置以及设备
TWI703556B (zh) * 2018-10-24 2020-09-01 中華電信股份有限公司 語音合成方法及其系統
CN111104796B (zh) * 2019-12-18 2023-05-05 北京百度网讯科技有限公司 用于翻译的方法和装置
CN118095302A (zh) * 2024-04-26 2024-05-28 四川交通运输职业学校 一种基于计算机的辅助翻译方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1228566A (zh) * 1998-03-11 1999-09-15 英业达股份有限公司 不连续短语的匹配翻译装置和方法
CN1652106A (zh) * 2004-02-04 2005-08-10 北京赛迪翻译技术有限公司 基于语言知识库的机器翻译方法与装置
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和***
CN101685441A (zh) * 2008-09-24 2010-03-31 中国科学院自动化研究所 一种基于非连续短语的泛化重排序统计翻译方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
KR100911619B1 (ko) * 2007-12-11 2009-08-12 한국전자통신연구원 자동번역 시스템에서의 영어 어휘 패턴 구축 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1228566A (zh) * 1998-03-11 1999-09-15 英业达股份有限公司 不连续短语的匹配翻译装置和方法
CN1652106A (zh) * 2004-02-04 2005-08-10 北京赛迪翻译技术有限公司 基于语言知识库的机器翻译方法与装置
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和***
CN101685441A (zh) * 2008-09-24 2010-03-31 中国科学院自动化研究所 一种基于非连续短语的泛化重排序统计翻译方法及装置

Also Published As

Publication number Publication date
CN102214166A (zh) 2011-10-12

Similar Documents

Publication Publication Date Title
CN102214166B (zh) 基于句法分析和层次模型的机器翻译***和方法
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
CN101655837B (zh) 一种对语音识别后文本进行检错并纠错的方法
CN106096664B (zh) 一种基于社交网络数据的情感分析方法
CN104756100B (zh) 意图估计装置以及意图估计方法
CN110866399B (zh) 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN106777275A (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN105808525A (zh) 一种基于相似概念对的领域概念上下位关系抽取方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN110378409A (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN104881402A (zh) 中文网络话题评论文本语义倾向分析的方法及装置
WO2017177809A1 (zh) 语言文本的分词方法和***
CN103309926A (zh) 基于条件随机场的中英文混合命名实体识别方法及***
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
Dien et al. POS-tagger for English-Vietnamese bilingual corpus
CN104375988A (zh) 一种词语对齐方法及装置
CN108287825A (zh) 一种术语识别抽取方法及***
Kübler et al. Part of speech tagging for Arabic
CN106202255A (zh) 融合实体特性的越南语命名实体识别方法
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
Parameswarappa et al. Kannada word sense disambiguation using decision list
CN112183073A (zh) 一种适用于法律热线语音识别的文本纠错和补全方法
Tlili-Guiassa Hybrid method for tagging Arabic text
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant