CN101075230A - 一种基于语块的中文机构名翻译方法及装置 - Google Patents

一种基于语块的中文机构名翻译方法及装置 Download PDF

Info

Publication number
CN101075230A
CN101075230A CN 200610011923 CN200610011923A CN101075230A CN 101075230 A CN101075230 A CN 101075230A CN 200610011923 CN200610011923 CN 200610011923 CN 200610011923 A CN200610011923 A CN 200610011923A CN 101075230 A CN101075230 A CN 101075230A
Authority
CN
China
Prior art keywords
translation
piece
name
chinese
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200610011923
Other languages
English (en)
Other versions
CN101075230B (zh
Inventor
宗成庆
陈钰枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN2006100119232A priority Critical patent/CN101075230B/zh
Publication of CN101075230A publication Critical patent/CN101075230A/zh
Application granted granted Critical
Publication of CN101075230B publication Critical patent/CN101075230B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种基于语块的中文机构名翻译方法及装置,直接从中文机构名的结构入手,进行语块的切分,语块的翻译过程和顺序调整过程同时采用同步上下文无关文法的推导来完成,最终实现中文机构名的翻译。这种将整个实体划分成更小粒度单位进行翻译的方法,符合中文机构名构成方式和翻译规律,对于结构易变的机构名翻译具有很大的优势。在翻译***中,该装置相当于预处理部分,独立于用于句子翻译的机器翻译***。这种“分而治之”的策略大大降低了整句翻译的难度,从而提高了翻译***的整体性能。实验证明本发明在中文机构名翻译中的有效性。把它加入到机器翻译***中,按BLEU打分标准,翻译***的整体性能相对提高约13.3%。

Description

一种基于语块的中文机构名翻译方法及装置
技术领域
本发明涉及自然语言处理技术领域,涉及一种基于语块的中文机构名翻译方法及装置。
背景技术
命名实体包括人名、地名、机构名等七类。命名实体在人类语言中传递着重要信息,它的识别和翻译是自然语言处理研究中的关键技术之一。在多语言处理中,命名实体的识别和翻译结果直接影响到自然语言的理解。其中,机构名是最复杂的一类命名实体。它结构多变,可以是人名、地名甚至机构名的组合。如何翻译好机构名在整个翻译***中具有举足轻重的作用。因此,中文机构名的翻译研究具有重要的理论意义和实用价值。
命名实体翻译一般采用的方法是:对双语平行句子的语料进行对齐,抽取其中的命名实体翻译对,然后建立命名实体的翻译词典。这种查找字典方法比较适合人名和地名的翻译,因为人名和地名的结构一般都比较简单,但对于机构名,单纯采用这种方法是不足的,因为机构名可以是多种修饰语(包括人名,地名)的组合。它的粒度比较大,要保证在翻译词典中找到一致的源语言机构名比较困难,所以需要从中文机构名的组成结构研究出发,寻找基于结构的中文机构名翻译方法。
经典的统计机器翻译方法,例如基于短语的翻译,并不适合机构名的翻译,因为机构名虽然在命名实体中最为复杂,但相对句子来说,却比较简单而且有规律可循。翻译时大规模的解码搜索是不必要的,还可能会造成歧义。所以我们需要一个独立于整体翻译***的机构名翻译***。
中文机构名组成方式非常复杂,种类繁多,各类机构都有其独特的命名方式。按照它的功能性质,可以大致分为两类:行政管理类结构名和企业类机构名。企业类机构主要是私有的带有盈利性质的机构,例如酒店、银行、公司等,这类机构名多以地名开头,中间加以企业字号,例如“吉百利”等。大部分的企业字号属于未登录词。翻译时需要音译等方法进行处理,而且这类机构名的翻译主要是按词的顺序翻译,所以企业类机构名的翻译重点在于企业字号类未登录词的处理。而行政管理类机构主要是从属于国家或地方级别的公共机构,例如国家部门、省市政府、大学和协会等。这类机构名的组成比较规则,并且它的组成词大部分是已登录词。它的组成结构是一系列的修饰词加上最末必需的机构称呼词。例如“中国国际对外交流中心”(例a)。对LDC发布的LDC2005T34语料库(Chinese<->English Name Entity Lists(v1.0))进行实验的数据表明,在随机抽取的3457个包含2~20个词的行政管理类机构名(分词后)中,有43%的行政管理类机构名在翻译时需要进行词位置的调整。这就需要根据这类机构名组成结构方式进行翻译。所以行政管理类机构名的翻译重点在于分析它的组成结构,然后进行翻译时的位置调整。
发明内容
本发明目的是针对行政管理类机构名翻译存在的问题,这类机构名的长度很不稳定,而且机构名中还有嵌套的情况,机构名中还可能包含有另一个机构名,本发明的目的在于解决准确率低和错误率高问题,本发明正确分解机构名的结构,实现的是从中文机构名到对应英文机构名的翻译,为此,本发明提供一种基于语块的中文机构名翻译方法及装置。
本发明针对行政管理类机构名的翻译存在的问题,这类机构名的长度很不稳定,少至两个字,多至几十个字。而且机构名中还有嵌套的情况,机构名中还可能包含有另一个机构名,例如:“北京医科大学第一附属医院”,如何正确分解它的结构然后进行翻译是本发明的关键。
根据上述思路,本文从研究机构名组成结构规律入手,设计了一种适用于中文机构名翻译的基于语块的翻译方法,并通过实验证明该方法能获得比较高的翻译准确率,把该方法加入到机器翻译***中,能提高***的整体翻译质量。
本发明的第一方面,一种基于语块的中文机构名翻译方法,包括如下步骤:训练语料步骤:基于语块即最高级的修饰语语块、次高级修饰语语块、机构称呼词语块,从训练语料中提取每类语块的上下文无关文法规则及概率信息;翻译步骤:先将中文机构名切割成语块,然后利用同步上下文无关文法推导按照设置的三个步骤对语块位置进行调整,完成语块的翻译。
本发明的基本思想是将中文机构名切割为几个语块,根据语块的特点,以语块为单元,利用同步上下文无关文法(CFG)推导对语块进行位置的调整,同时也完成了语块的翻译。
本发明首先定义了机构名中包含的三类语块即最高级的修饰语语块、次高级修饰语语块、机构称呼词语块,然后根据其不同的特点对机构名进行切割,接着对包含的各个语块进行翻译,最后调整所有语块的翻译顺序。我们用同步上下文无关文法推导同时实现了后两个步骤。
本发明采用上述“切割语块”的思想来进行机构名的翻译,与简单的查找词典的翻译方法不同。机构名被切割成更小粒度的单位,这种思想符合机构名的构成方式和翻译规律,对于结构易变的机构名翻译具有很大的优势。分割语块后利用同步上下文无关文法推导来实现翻译。根据包含语块的特点,本发明限制了推导步骤,这相当于确定一条最优解码路径。这也是本发明提出的基于语块的翻译思想所在。同时这种方法独立于用于句子翻译的机器翻译***,作为预处理部分,简化了句子翻译难度。提高了翻译***的整体性能。
本发明的第二方面,一种基于语块的中文机构名翻译装置,包括:分词装置、语块分割装置以及语块翻译和顺序调整装置,上述装置依次顺序连接;中文机构名数据置入分词装置,语块分割装置分别与分词装置和语块翻译和顺序调整装置相连接,分词装置用于对需要翻译的中文机构名进行分词并输出分词后的中文机构名;语块分割装置用于将中文机构名切割成语块,即由分词装置输出分词后的中文机构名作为语块分割装置的输入,使语块分割装置输出切割成语块的中文机构名;语块翻译和顺序调整装置用于对语块进行翻译及顺序的调整并输出翻译结果,语块翻译和顺序调整装置基于语块的同步CFG推导模块,同步CFG推导模块包括CFG规则*模块和CFG普通规则模块,先运行CFG规则*模块的匹配过程,如果CFG规则*模块没有可匹配的规则*,则采用CFG普通规则进行三个推导步骤。
附图说明
通过以下结合附图的详细描述,本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中:
图1是本发明中翻译部分的中文机构名翻译装置结构图
图2是本发明中训练部分的整体框架图
图3是本发明例a的基于语块的同步CFG推导示例图
具体实施方式
下面结合附图对本发明作具体说明。应该指出,所描述的施例仅仅视为说明的目的,而不是对本发明的限制。
图1是本发明一种基于语块的中文机构名翻译***装置的结构图,在一台PC机上(Pentium 4处理器,3.00GHz,512M内存)运行基于语块的中文机构名翻译装置。由三部分装置构成:分词装置1、语块切割装置2、语块翻译和顺序调整装置3,上述装置依次顺序连接;中文机构名4数据置入分词装置1,语块分割装置2分别与分词装置1和语块翻译和顺序调整装置3相连接,分词装置1用于对待翻译中文机构名进行分词并输出分词后的中文机构名;语块分割装置2用于将中文机构名切割成语块即由分词装置1输出分词后的中文机构名作为语块分割装置2的输入,使语块分割装置2输出切割成语块的中文机构名;语块翻译和顺序调整装置3用于对语块进行翻译及顺序的调整,语块翻译和顺序调整装置3输出翻译结果5。语块翻译和顺序调整装置3基于语块的同步CFG推导模块,同步CFG推导模块包括CFG规则*模块6和CFG普通规则模块7,先运行CFG规则*模块的匹配过程,这种类似模板的匹配比较高效,如果CFG规则*模块没有可匹配的规则*,就采用CFG普通规则进行三个步骤的推导。
图2是本发明中训练部分的整体框架图,主要由四个部分组成:
分词部分:包括分词并运行GIZA++;
提取对位结果和获取词翻译概率部分:从中文到英文的对位结果中提取相对正确的对齐结果,并得到中文到英文的词翻译概率p(ei|oi);
语块切割部分:在对位的基础上,将中英对照机构名翻译对分别切割成若干个语块,并得到语块模型概率;
提取规则部分:根据切割后的语块,提取CFG普通规则和规则*。
训练过程得到的词翻译概率和CFG规则用于发明中的翻译部分。
图3是本发明例a的基于语块的同步CFG推导示例图,表示一个机构名例子的同步CFG推导过程。例a(中国国际对外交流中心)通过分词装置、语块切割装置后,依照本发明的三个推导步骤,利用训练过程得到的CFG普通规则,通过推导得到最后的翻译结果。
根据本发明基于语块的中文机构名翻译方法,可以分为训练过程和翻译过程两部分,训练语料具体过程如下:
训练过程包括:
a)对训练语料即机构名中英对照翻译对中的中文机构名进行分词;
b)利用GIZA++工具,从中文到英文方向,对训练语料中的机构名中英对照翻译对进行对位,由对位结果可以得到词的中英翻译概率p(ei|oi),另外还可以加入词典用以覆盖训练语料中未出现词的翻译对;
c)在训练语料对位结果的基础上,将中英对照机构名翻译对分别切割成若干语块,并得到语块概率模型p(oi1...oij|ci)和p(ci|ci-1);
d)根据本发明提取规则的定义,对训练语料中语块的切割后的每个语块中英翻译对,采用一个定义对每个机构名的对位结果提取同步上下文无关文法(Context-Free Grammar,CFG)规则,规则分为普通规则和规则*两类,并统计每条规则的概率信息。翻译过程包括:
aa)将待翻译的中文机构名进行分词,采用最大概率分词法或最大匹配法或其他分词方法;
bb)在分词结果的基础上,将机构名划分成若干个只包含单一称呼词的机构名,然后再分别将中文机构名切割成语块;
cc)在语块的基础上,用同步上下文无关文法推导方法对分割语块后的中文机构名进行推导,按照本发明设定的同步CFG三个推导步骤为机构名翻译设定的一条路径,即:利用训练过程得到的同步CFG规则为:普通规则和规则*,对对切割语块后的中文机构名进行同步CFG推导,相当于对语块进行翻译及顺序的调整,或加入词典辅助机构名的翻译,覆盖更多词的翻译,直至完成翻译。
所述训练过程中步骤a)和翻译过程步骤aa)可以利用各种分词工具,例如最大概率分词法。
所述训练过程中步骤b)中机构名中英翻译对的对位:利用统计机器翻译中的句子对位过程采用工具GIZA++,实现机构名中英翻译对的对位,由对位结果可以得到词的翻译概率,如果加入词典,就可以得到更多词的中英翻译概率。
所述训练过程中步骤c)中语块的切割:是将中英对照机构名翻译对分别切割成若干语块,这个切割过程是基于训练语料的对位结果。与翻译过程步骤bb)的语块切割过程是有区别的。
所述翻译过程中步骤bb)将中文机构名划分成若干个只包含单一称呼词的机构名,然后再分别切割成语块。
所述翻译过程中步骤cc)用上下文无关文法推导方法对分割语块后的中文机构名进行推导来完成翻译。推导遵循设定的三个步骤,必要时加入词典辅助机构名的翻译,这样可以覆盖更多词的翻译。
下面详细说明本发明技术方案中所涉及的各个细节问题:
1.分词
在训练过程和翻译过程,首先都需要对中文机构名进行分词,由于在行政管理类机构名中包含的需要音译的词比较少,分词结果大部分是正确的。可以采用各种分词方法,如最大概率法,最大匹配法等等。实施例采用实验室开发的基于81k词典的最大概率分词软件,来实现训练过程和翻译过程的分词。
2.训练过程中的机构名中英翻译对的对位和训练整体框架
已有中英对照的机构名翻译对,采用GIZA++对位工具,可以得到一系列生成文件,实施例中采用GIZA++工具中的IBM-4模型,只利用最后结果中的词对齐文件。
利用GIZA++工具,可以从两个方向(中文到英文和英文到中文)实现词对位,可以得到两个词对齐文件。如果机构名中包含有未登录词(绝大部分是需要音译的中文词),那么分词过程很可能将一个词错误地拆分成几个词。而GIZA++工具允许一个目标语言词对应最多一个源语言词。因此从英文到中文的对齐文件中对齐错误比较多,所以实施例中只利用从中文到英文的对齐文件。
为了提高规则提取的准确率乃至最后机构名翻译的正确率,所述为了获得更高准确率和可信度的对位关系,对从中文到英文的对齐文件进行了预处理,去除不符合条件的错误对齐结果,筛选其中同时满足两个条件的对位结果,这两个条件是:
1)、对齐文件中每个中文词都对应至少一个的英文词;
2)、每个中文词对应的英文词位置是连续的;
本发明认为满足这两个条件的对位是比较正确的,筛选出来用以后续步骤提取规则。
根据这部分比较正确的对位结果就得到词的中英翻译概率p(ei|oi),这个翻译概率应用于翻译过程中的三条特殊同步CFG规则中,同时利用对位结果进行语块的分割,这在后面部分有详细介绍。训练过程的整体框架图如图2所示。
3.语块切割
训练过程和翻译过程都有语块切割步骤,但两个过程中的切割步骤稍有差别。
如果机构名包含多个机构称呼词,首先要将它切分成若干个只包含一个机构称呼词的单位。例如将“北京医科大学第一附属医院”切分成“北京医科大学”和“第一附属医院”。这个切分过程需要根据称呼词,如“大学”,“研究所”等。称呼词可以从训练语料中提取。在只包含单一称呼词的机构名的基础上,我们定义了它可能包含的三类语块:所述中文机构名被分割成三类语块包括:
●所述第一类语块(FC,First Chunk):是中文机构名最高级的修饰语语块,常常是地名或序数词,例如:“北京第一”,它通常在机构名的最前部分。但有些机构名并不包含第一类语块。在翻译过程中,需要最先确定这个语块的位置,并且最高级修饰语语块内部的翻译是顺序的。
●第二类语块(SC,Second Chunk):是次高级修饰语语块,例如:“对外交流”,通常在机构名的中间位置。在翻译过程中,第二类语块的位置取决于第三类语块(下文介绍)的位置。二者是相邻的。第二类语块在第三类语块之前或之后,并且第二类语块内部的词翻译往往需要进行位置的调整。
●第三类语块(TC,Third Chunk):这部分在机构名的最后部分,是每个机构名必定包含的语块,它的最后一个词就是机构称呼词,例如“委员会”和“部”。在翻译过程中,第三类语块的位置在确定第一类语块位置后确定。并且第三类语块内部的词是顺序翻译。
所述在翻译过程中语块的分割,是根据一个切割模型:O代表一个包含单一称呼词的机构名,它包含n个中文词:o1,o2,...on,语块分割的任务就是从所有可能的语块序列中找到最大概率的语块序列:C*=c1...cm(m≤n,ci∈{FC,SC,TC}),其概率值可以通过贝叶斯公式得到:
p ( C | O ) = p ( O | C ) p ( C ) p ( O )
由于式中分母与C无关,所以求上式的最大值相当于寻找一个C*使得右边分子的两项乘积最大,即切割模型用以下公式表示:
C * = arg max C ( p ( O | C ) p ( C ) )
= arg max C ( p ( o 1 o 2 . . . o n | c 1 c 2 . . . c m ) p ( c 1 c 2 . . . c m ) )
&ap; arg max C [ &Pi; i = 1 m p ( o i 1 . . . o ij | c i ) p ( c i | c i - 1 ) ]
其中p(ci|ci-1)是语块上下文模型,j个中文词oi1...oij组成ci语块,上式的参数都可以由训练语料而得。中文机构名中的语块序列是遵循一定顺序。即首先第一类语块FC,然后是第二类语块SC,最后是第三类语块TC的排列顺序,每个中文机构名可能包含第一类语块FC、第二类语块SC,但一定包含第三类语块TC,所以每个机构名包含的语块顺序有以下几种方式:FC SC TC,FC TC,SC TC,TC。
所述在训练过程中语块的切割略不同于翻译中的切割过程,因为它是基于对位结果的。实施例中我们首先将对位结果里中文对应的英文翻译是连续的部分归为一个单位。例如:如果一个中文机构名的翻译是顺序的,即它只含有一个单位,对位结果经过这样的处理后,一部分对位结果直接体现出语块的分割。我们由这部分对位结果得到p(oi1...oij|ci)和p(ci|ci-1),再运用翻译过程中的切割模型对其他的对位结果进行切割,如此反复将所有训练语料中的机构名对位结果进行语块的切割,这是一个循环迭代的过程。
4.同步上下文无关文法(CFG)规则
所述机构名被切割成语块后,我们需要利用同步CFG规则对它进行推导,相当于完成语块的翻译及顺序的调整。
所述遵循David Chiang(2005)的同步上下文无关文法(CFG)规则的格式,在我们的基于语块的同步CFG重写规则中,基本结构如下:
X→(γ,α,~)
其中,X是非终结符,在本发明中,是以语块作为单位,γ和α是由终结符和非终结符组成的字符串。本发明中这个终结符和非终结符分别是一个语块的单位,~是出现在γ中的非终结符与出现在α中非终结符之间一一对应的关系。重写过程从一对关联的起始符号开始,在每一步操作中,利用一条规则同时改写两个关联的非终结符号。例如以下同步CFG规则:
X→<中国国际X,China International X>
X→<X中心,Center for X>
类似这样的规则可以直接从双语平行训练语料中提取,而不需要句法分析。另外为了覆盖所有情况,除了从训练语料中提取的CFG规则,我们添加了以下五条特殊规则:
规则(1)O→<O X,X O>
规则(2)O→<X,X>
规则(3)X→<FC X,EFC * X>
规则(4)X→<SC,ESC *>
规则(5)X→<X TC,X ETC *>
规则(1)是针对含有多个称呼词的机构名的处理方式,由于在包含多个称呼词的机构名中,级别较高的机构名往往被放在前面,例如:“北京医科大学第一附属医院”,但被翻译成英文时,一般把级别高的机构名置后,所以被翻译成:“NO.1 Hospital Attached to/the Beijing MedicalSciences University”。规则(1)描述了针对含多个称呼词的机构名的倒置翻译规律。
规则(2)是将各个语块连接起来成为一个机构名,同时完成对它的翻译。
规则(3)、规则(4)和规则(5)是三类特殊的规则,适用于在翻译过程中,如果没有找到相应语块的CFG规则(从训练语料中获得),就将它转变成基于语块内部词的翻译,并人为规定了语块的翻译是顺序的。EFC *,ESC *和ETC *分别代表FC、SC和TC语块基于词的最优翻译结果。
在规则(3)中,由于在FC中词的翻译一般是连续的,顺序还是逆序取决于翻译者的习惯。在本发明中,设置为顺序。
E FC * = arg max &Pi; i = 1 I p ( e i | o FC i ) , FC = o FC 1 , . . . o FC I
在规则(4)中,SC中的词在翻译中往往需要重新排序,所以利用位变模型来完成对它的翻译。
E SC * = arg max &Pi; i = 1 I p ( e i | o SCi ) &alpha; | a i - b i - 1 - 1 | , SC = o s C 1 , . . . o s C I
ai是第i个中文词被翻译成英文词的起始位置,bi-1表示第(i-1)个中文词被翻译成英文词的最末位置。
在规则(5)中,TC中词的翻译被设置成顺序。
E TC * = arg max &Pi; i = 1 I p ( e i | o TCi ) , TC = o TC 1 , . . . o TC I
训练语料得到的规则再加上这五类规则就组成了所有CFG普通规则的集合,它覆盖了所有机构名的翻译。后文提到的规则*也属于CFG规则,只是形式上有一点变化。
p(ei|oFCi),p(ei|oSCi)和p(ei|oTCi)就是从训练过程中得到的词的翻译对p(ei|oi)。这部分可以融入词典以覆盖更多词的翻译,也就是加入词典中词的翻译对。
5.训练过程中的同步CFG规则的提取
对训练语料进行语块的切割后,采用一个定义对每个机构名对位结果提取同步CFG规则,分为普通规则和规则*两类。
定义:给定一个机构名对<c1c2c3,e1e2e3>,其中c1,c2,c3分别代表中文机构名中包含的FC、SC和TC,e1,e2,e3表示c1,c2,c3相应的英文翻译。
(1)如果FC存在,<c1,e1>就是初始的第一类语块翻译对,将所有后续语块作为一个非终结符,则:
X→<c1 X,e1 X>或X→<c1 X,X e1>,是一条普通规则。
(2)如果SC存在,<c2,e2>是初始的第二类语块翻译对,则:
X→<c2,e2>,是一条普通规则。
(3)<c3,e3>是初始的第三类语块翻译对,将位于它之前的那个语块作为非终结符X,则:
X→<X c3,e3 X>或X→<X c3,X e3>,是一条普通规则。
(4)将FC、SC或TC任意一个语块作为非终结符X,这样得到的规则称为规则*。例如:<c1x2c3,e1x2e3>是一条规则*。
通过以上定义可以得到大量的精简规则,通过(4)得到的规则*相当于一个带变量的模板,它包含的终结符粒度要大于普通规则,规则*的优先级要高于普通规则,所以在翻译中先查找是否有可利用的规则*,再进行普通规则的同步CFG推导。
对每个语块,为选取最大概率的规则,直接采用对数线性模型:
( X &RightArrow; < &gamma; , &alpha; > ) = arg max &gamma; &Pi; i &theta; i ( X &RightArrow; < &gamma; , &alpha; > ) &lambda; i
其中,θi是规则的特征,实施例中采用的两个特征集是:
●p(γ|α),p(α|γ),可以通过极大似然估计方法得到,
P ( &gamma; | &alpha; ) = count ( c i , e i ) &Sigma; c i count ( c i , e i ) ;
●词汇权重pw(γ|α),pw(α|γ)。
λi参数都取为1。
6.所述翻译过程的同步CFG推导生成语块翻译和顺序调整装置3
通过训练过程得到CFG规则和规则*后,就可以对切割语块后的中文机构名进行同步CFG推导,相当于对语块进行翻译和调整顺序。
在本发明中,所述翻译过程的同步CFG推导,如果有可用的规则*,首先利用它对机构名进行推导,因为它的优先级高于普通规则,余下的非终结符再利用普通规则推导。如果没有可用的规则*,直接只利用普通规则进行推导。本发明设置了中文机构名CFG普通规则推导的三个步骤,遵循以下三个步骤,就完成对中文机构名的翻译:
步骤一、采用CFG普通规则确定第一类语块(FC)的位置和翻译;
步骤二、利用CFG普通规则确定第三类语块(TC)的位置和翻译;
步骤三、由于第一类和第三类语块的位置都已经确定,第二类语块的位置就已经确定,只要利用CFG普通规则确定第二类语块的翻译。
以上是中文机构名的CFG推导过程也相当于翻译过程,如果待翻译的中文机构名不包含第一类语块或者第二类语块,可以省略第一步骤或者第三步骤。
设定推导的三个步骤,是根据三类语块的特征,符合机构名翻译规律的。相当于人为设定了一条优化翻译解码路径,效率高且排除歧义。
7.实验结果
为了验证该方法的有效性,我们进行了两个实验,实验一是采用本文介绍的基于语块的方法来翻译中文机构名;实验二是测试将这个方法加入到翻译***中对整体翻译质量的影响。
训练语料采用LDC发布的中英双语命名实体表(LDC2005T34)。我们采用其中来源于中国和美国的机构名。词典采用的是LDC中英对照词典(LDC2002L27)。分词装置利用我们实验室开发的基于最大概率方法的分词工具。实验一的测试语料是432个随机抽取的集外中文机构名。我们以“意义的完整和正确性”作为评估的标准,设定了4个人工评估等级。等级和评估标准如表1所示:
              表1.评估标准及等级
  等级   评估标准
  一   至少有一个词没被翻译,意思不完整或不准确
  二   每个词都被翻译了,但意思不完整或不准确
  三   和标准相近,意思表达完整且准确
  四   和标准答案完全相同
表1中第四等级和第三等级的结果可以被归为正确的结果,而第一等级和第二等级结果被认为是错误的翻译结果,我们分别测试了单纯用训练语料的结果和加入词典辅助的结果,表2给出中文机构名翻译准确率和错误率,即结果如下:
                表2.中文机构名翻译准确率和错误率
  模型   准确率   错误率
  单纯训练语料的基于语块翻译方法   88.30%   11.70%
  等级4   等级3   等级2   等级1
  24.08%   64.22%   1.15%   10.55%
  训练语料+词典的基于语块翻译方法   93.35%   6.65%
  等级4   等级3   等级2   等级1
  25.00%   68.35%   4.36%   2.29%
从上表可以看出,利用本发明训练语料+词典的基于语块翻译方法来翻译中文机构名,对中文到英文的对齐文件进行预处理,去除不符合条件的错误对齐结果,筛选其中同时满足两个条件的对位结果,提高规则提取的准确率乃至最后机构名翻译的正确率。准确率可以达到93.35%,错误的结果主要源于词的歧义和未出现词,这证明了本发明提出的基于语块的方法有效。
在实验二中本发明采用863项目2004年评估语料中的308个中文句子。评估标准是自动BLEU打分。基准***是我们实验室开发的基于短语的翻译***,在基准***上加入机构名翻译***的方式如下:首先利用开发的命名实体识别工具识别出每个句子中包含的机构名,再利用本发明对它进行翻译,通过这样预处理后再运行基于短语的句子翻译***。从表3可以看到,加入中文机构名翻译装置后,提高了***的整体性能,BLEU打分相对提高了13.3%。
表3.基准***和加入机构名翻译装置后的翻译效果比较
  ***   BLEU打分
  基准***(基于短语的翻译***)   0.0555
  基准***+机构名翻译   0.0629
从上述实验结构表明,本发明解决了机构名翻译准确率低、错误率高的问题问题,从中文机构名的结构入手,进行语块的切分,语块的翻译过程和顺序调整过程同时采用同步上下文无关文法的推导来完成,最终实现中文机构名的翻译。这种将整个实体划分成更小粒度单位进行翻译的方法,符合中文机构名构成方式和翻译规律,对于结构易变的机构名翻译具有很大的优势。在翻译***中,该装置相当于预处理部分,独立于用于句子翻译的机器翻译***。这种“分而治之”的策略大大降低了整句翻译的难度,从而提高了翻译***的整体性能。本发明正确地分解了机构名的结构,实现了从中文机构名到对应英文机构名的翻译,本发明提供了一种准确率高、错误率低、基于语块的中文机构名翻译方法及装置。实验证明本发明在中文机构名翻译中的有效性。把它加入到机器翻译***中,能提高翻译***的整体性能。
上面描述是用于实现本发明及其实施例,各个步骤均为示例,本领域普通技术人员可以根据实际情况确定要使用的实际步骤,而且各个步骤有多种实现方法,均应属于本发明的范围之内。因此,本发明的范围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。

Claims (10)

1、一种基于语块的中文机构名翻译方法,其特征在于,采用如下步骤:
训练语料步骤:基于语块即最高级的修饰语语块、次高级修饰语语块、机构称呼词语块,从训练语料中提取每个语块的同步上下文无关文法规则及概率信息;
翻译步骤:先将中文机构名切割成语块,然后利用同步上下文无关文法推导按照设置的三个步骤对语块位置进行调整,完成语块的翻译。
2、根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,训练语料步骤包括:
a)对训练语料即机构名中英对照翻译对中的中文机构名进行分词;
b)利用GIZA++工具,从中文到英文方向,对训练语料中的机构名中英对照翻译对进行对位,由对位结果得到词的中英翻译概率p(ei|oi),或者加入词典用以覆盖训练语料中未出现词的翻译对;
c)在训练语料对位结果的基础上,将中英对照机构名翻译对分别切割成若干语块,并得到语块概率模型p(oi1...oij|ci)和p(ci|ci-1);
d)根据提取规则的定义,对训练语料中语块的切割后的每个语块中英翻译对,采用一个定义对每个机构名的对位结果提取同步上下文无关文法(Context-Free Grammar,CFG)规则,规则分为普通规则和规则*两类,并统计每条规则的概率信息。
3、根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,翻译步骤包括:
aa)将待翻译的中文机构名进行分词,采用最大概率分词法或最大匹配法或其他分词方法;
bb)在分词的结果基础上,将中文机构名划分成若干个只包含单一称呼词的机构名,然后再分别将中文机构名切割成语块;
cc)在语块的基础上,用同步上下文无关文法推导方法对分割语块后的中文机构名进行推导,按照设定的同步CFG三个推导步骤为机构名翻译设定一条路径,即利用训练过程得到的同步CFG规则为:普通规则和规则*,对切割语块后的中文机构名进行同步CFG推导;对语块进行翻译及顺序的调整,或加入词典辅助机构名的翻译,覆盖更多词的翻译,直至完成翻译。
4、根据权利要求1或2所述基于语块的中文机构名翻译方法,其特征在于,所述训练语料步骤:是对中文到英文方向的对齐文件进行预处理,去除不符合条件的错误对齐结果,筛选其中同时满足两个条件的对位结果,这两个条件是:
1)对齐文件中每个中文词都对应至少一个的英文词;
2)每个中文词对应的英文词位置是连续的;
满足这两个条件的对位结果是相对比较正确结果,则被筛选出用于后续提取规则步骤。
5、根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,所述中文机构名被分割成三类语块包括:第一类语块(First Chunk,FC)为最高级的修饰语语块,第二类语块(Second Chunk,SC)为次高级修饰语语块,第三类语块(Third Chunk,TC)为机构称呼词语块;在翻译过程中,需要最先确定最高级修饰语语块的位置,并且最高级修饰语语块内部的翻译是顺序的;在翻译过程中,次高级修饰语语块的位置取决于机构称呼词语块的位置,次高级修饰语语块在机构称呼词语块之前或之后,并且次高级修饰语语块内部的词翻译需要进行位置的调整;机构称呼词语块的位置在确定最高级的修饰语语块位置后确定,并且机构称呼词语块内部的词是顺序翻译。
6、根据权利要求1或3所述基于语块的中文机构名翻译方法,其特征在于,所述在翻译过程中语块的分割是根据语块切割模型,C*是所有可能的语块序列中最大概率的语块序列为:
C * = arg max C ( p ( O | C ) p ( C ) )
&ap; arg max C [ &Pi; i = 1 m p ( o i 1 . . . o ij | c i ) p ( c i | c i - 1 ) ]
中文机构名中的语块序列是遵循一定顺序,即首先第一类语块FC,然后是第二类语块SC,最后是第三类语块TC的排列顺序,每个中文机构名可能包含第一类语块FC、第二类语块SC,但一定包含第三类语块TC,所以每个机构名包含的语块顺序有以下几种形式为:FC SC TC,FC TC,SC TC,TC。
7、根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,所述基于语块的同步CFG重写规则,基本结构如下:
X→(γ,α,~)
其中,X是非终结符,是以语块作为单位,γ和α是由终结符和非终结符组成的字符串,所述这个终结符和非终结符分别是一个语块的单位,符号~是出现在γ中的非终结符与出现在α中非终结符之间一一对应的关系;重写过程从一对关联的起始符号开始,在每一步操作中,利用一条规则同时改写两个关联的非终结符号。
8、根据权利要求3所述基于语块的中文机构名翻译方法,其特征在于,所述为了覆盖所有机构名的翻译,除了从训练语料中提取的CFG规则,还另外添加了以下五条特殊规则:
规则(1)O→<O X,X O>
规则(2)O→<X,X>
规则(3)X→<FC X,EFC * X>
规则(4)X→<SC,ESC *>
规则(5)X→<X TC,X ETC *>
规则(1)描述了针对含多个称呼词的机构名的倒置翻译规律;
规则(2)是将各个语块连接起来成为一个机构名,同时完成对它的翻译;
规则(3)、规则(4)和规则(5)是三类特殊的规则,适用于在翻译过程中,如果没有找到相应语块的CFG规则即从训练语料中提取的规则,就将它转变成基于语块内部词的翻译,并人为规定了语块的翻译是顺序的。
9、根据权利要求1或3所述基于语块的中文机构名翻译方法,其特征在于,所述翻译过程的同步CFG推导,如果有可用的规则*,利用优先级高于普通规则的规则*对机构名进行推导,余下的非终结符再利用普通规则推导;如果没有可用的规则*,直接只利用普通规则进行推导;设置了中文机构名CFG普通规则推导的三个步骤,遵循以下三个步骤:
步骤一、采用CFG普通规则确定第一类语块的位置和翻译;
步骤二、利用CFG普通规则确定第三类语块的位置和翻译;
步骤三、由于第一类语块和第三类语块的位置都已经确定,第二类语块的位置就已经确定,只要利用CFG普通规则确定第二类语块的翻译;遵循所述的步骤,就完成对中文机构名的翻译。
10、一种基于语块的中文机构名翻译装置,其特征在于包括:分词装置、语块分割装置以及语块翻译和顺序调整装置,上述装置依次顺序连接;中文机构名数据置入分词装置,语块分割装置分别与分词装置和语块翻译和顺序调整装置相连接,分词装置用于对需要翻译的中文机构名进行分词并输出分词后的中文机构名;语块分割装置用于将中文机构名切割成语块,即由分词装置输出分词后的中文机构名作为语块分割装置的输入,使语块分割装置输出切割成语块的中文机构名;语块翻译和顺序调整装置用于对语块进行翻译及顺序的调整并输出翻译结果,语块翻译和顺序调整装置基于语块的同步CFG推导模块,同步CFG推导模块包括CFG规则*模块和CFG普通规则模块,先运行CFG规则*模块的匹配过程,如果CFG规则*模块没有可匹配的规则*,则采用CFG普通规则进行三个推导步骤。
CN2006100119232A 2006-05-18 2006-05-18 一种基于语块的中文机构名翻译方法及装置 Expired - Fee Related CN101075230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2006100119232A CN101075230B (zh) 2006-05-18 2006-05-18 一种基于语块的中文机构名翻译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006100119232A CN101075230B (zh) 2006-05-18 2006-05-18 一种基于语块的中文机构名翻译方法及装置

Publications (2)

Publication Number Publication Date
CN101075230A true CN101075230A (zh) 2007-11-21
CN101075230B CN101075230B (zh) 2011-11-16

Family

ID=38976284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006100119232A Expired - Fee Related CN101075230B (zh) 2006-05-18 2006-05-18 一种基于语块的中文机构名翻译方法及装置

Country Status (1)

Country Link
CN (1) CN101075230B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216819A (zh) * 2007-12-28 2008-07-09 北京邮电大学 基于领域本体的名片信息中译英自动翻译方法
CN101593173B (zh) * 2008-05-28 2011-08-10 中国科学院自动化研究所 一种汉英反向音译方法及装置
CN101676898B (zh) * 2008-09-17 2011-12-07 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
CN102662953A (zh) * 2012-03-01 2012-09-12 倪旻 与输入法集成的语义标注***和方法
CN105159892A (zh) * 2015-08-28 2015-12-16 长安大学 一种语料提取器及提取语料的方法
CN105320650A (zh) * 2014-07-31 2016-02-10 崔晓光 一种机器翻译方法及其***
CN106062736A (zh) * 2014-03-07 2016-10-26 国立研究开发法人情报通信研究机构 词语对齐分数算出装置、词语对齐装置、以及计算机程序
CN108763225A (zh) * 2016-06-28 2018-11-06 大连民族大学 属性信息多语机器翻译子***的翻译方法
CN111178090A (zh) * 2019-12-05 2020-05-19 语联网(武汉)信息技术有限公司 一种用于企业名称翻译的方法及***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5224040A (en) * 1991-03-12 1993-06-29 Tou Julius T Method for translating chinese sentences
CN1143232C (zh) * 1998-11-30 2004-03-24 皇家菲利浦电子有限公司 正文的自动分割
CN1570921A (zh) * 2003-07-22 2005-01-26 中国科学院自动化研究所 基于统计模型的口语解析方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216819A (zh) * 2007-12-28 2008-07-09 北京邮电大学 基于领域本体的名片信息中译英自动翻译方法
CN101216819B (zh) * 2007-12-28 2012-09-05 北京邮电大学 基于领域本体的名片信息中译英自动翻译方法
CN101593173B (zh) * 2008-05-28 2011-08-10 中国科学院自动化研究所 一种汉英反向音译方法及装置
CN101676898B (zh) * 2008-09-17 2011-12-07 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
CN102662953A (zh) * 2012-03-01 2012-09-12 倪旻 与输入法集成的语义标注***和方法
CN106062736A (zh) * 2014-03-07 2016-10-26 国立研究开发法人情报通信研究机构 词语对齐分数算出装置、词语对齐装置、以及计算机程序
CN106062736B (zh) * 2014-03-07 2019-04-05 国立研究开发法人情报通信研究机构 词语对齐分数算出装置、词语对齐装置、以及存储介质
CN105320650A (zh) * 2014-07-31 2016-02-10 崔晓光 一种机器翻译方法及其***
CN105159892A (zh) * 2015-08-28 2015-12-16 长安大学 一种语料提取器及提取语料的方法
CN105159892B (zh) * 2015-08-28 2018-04-03 长安大学 一种语料提取器及提取语料的方法
CN108763225A (zh) * 2016-06-28 2018-11-06 大连民族大学 属性信息多语机器翻译子***的翻译方法
CN111178090A (zh) * 2019-12-05 2020-05-19 语联网(武汉)信息技术有限公司 一种用于企业名称翻译的方法及***

Also Published As

Publication number Publication date
CN101075230B (zh) 2011-11-16

Similar Documents

Publication Publication Date Title
CN101075230A (zh) 一种基于语块的中文机构名翻译方法及装置
CN1591415A (zh) 机器翻译装置以及机器翻译计算机程序
CN1475907A (zh) 基于例子的机器翻译***
US8249856B2 (en) Machine translation
CN1670723A (zh) 改进的拼写检查***和方法
US20050228643A1 (en) Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
CN1426561A (zh) 带有跨语言阅读向导的计算机辅助阅读***和方法
CN1652106A (zh) 基于语言知识库的机器翻译方法与装置
CN101079028A (zh) 一种统计机器翻译中的在线翻译模型选择方法
CN1471029A (zh) 自动检测文件中搭配错误的***和方法
Wu et al. Inversion transduction grammar constraints for mining parallel sentences from quasi-comparable corpora
CN1945562A (zh) 训练音译模型、切分统计模型以及自动音译的方法和装置
CN1387650A (zh) 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
CN101065746A (zh) 文件自动丰富的方法和***
CN1801141A (zh) 一种基于现有译文的储存库的翻译方法及设备
CN1465018A (zh) 机器翻译技术
CN101051458A (zh) 基于组块分析的韵律短语预测方法
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN1702650A (zh) 用于将日文翻译成中文的设备和方法以及计算机程序产品
Yılmaz et al. TÜBİTAK Turkish-English submissions for IWSLT 2013
Ceauşu et al. Addressing smt data sparseness when translating into morphologically-rich languages
Hoang Improving statistical machine translation with linguistic information
CN1302415C (zh) 一种英汉翻译机器的实现方法
Yang et al. Inflating a small parallel corpus into a large quasi-parallel corpus using monolingual data for Chinese-Japanese machine translation
CN1595399A (zh) 汉语文本中词及词属性自动索引和检索的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111116

Termination date: 20190518

CF01 Termination of patent right due to non-payment of annual fee