CN105320650A - 一种机器翻译方法及其*** - Google Patents
一种机器翻译方法及其*** Download PDFInfo
- Publication number
- CN105320650A CN105320650A CN201410373465.1A CN201410373465A CN105320650A CN 105320650 A CN105320650 A CN 105320650A CN 201410373465 A CN201410373465 A CN 201410373465A CN 105320650 A CN105320650 A CN 105320650A
- Authority
- CN
- China
- Prior art keywords
- sentence
- translation
- coupling
- module
- disjunction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 166
- 238000000034 method Methods 0.000 title claims abstract description 100
- 239000000203 mixture Substances 0.000 claims description 141
- 238000010168 coupling process Methods 0.000 claims description 132
- 238000005859 coupling reaction Methods 0.000 claims description 132
- 230000008878 coupling Effects 0.000 claims description 124
- 239000000463 material Substances 0.000 claims description 106
- 239000003607 modifier Substances 0.000 claims description 93
- 230000008569 process Effects 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 8
- 230000001755 vocal effect Effects 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000007596 consolidation process Methods 0.000 claims 6
- 238000005111 flow chemistry technique Methods 0.000 claims 3
- 230000004048 modification Effects 0.000 abstract description 3
- 238000012986 modification Methods 0.000 abstract description 3
- 230000014616 translation Effects 0.000 description 76
- 230000000694 effects Effects 0.000 description 4
- 230000013011 mating Effects 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
一种机器翻译方法及其***,该方法采用语法分析与预存翻译语料匹配交替使用的方式,逐次逐个地处理各个语言单位。在不能整体匹配的情况下,分断语言单位,再在较小的语言单位的基础上匹配翻译,先形成局部译文,然后再将局部译文,按语言的修饰关系逐步整合,最终形成整句译文。
Description
技术领域
本发明关于一种机器翻译方法及其***,尤其关于基于语法分析和语料匹配交替使用的英中互译机器翻译方法和***。
技术背景
语言机器翻译大致经历过三个阶段。
最初人们试图分析语言的语法,基于语言语法建立规则,从而实现机器翻译。由于语言的语法规则最多能覆盖60%左右的语言现象,相当多的语言现象无法包括在语法规则内。所以基于语法分析的翻译质量,很快被基于语料比对翻译的质量所超过。行业内,普遍以为整体语法分析的道路行不通,转而在一些小的语言单位(又称语言颗粒)上总结规律,制定规则,借此改进翻译质量。但在细枝末节上下功夫,不能根本上解决翻译问题。且,不同文体的语言材料,规律大不相同,换一种文体,又要改变或新制定规则。再者,这种以最小语言颗粒为核心,逐渐粘裹其他语言颗粒,而形成的较大语言单位,都是在语言末梢形成的局部译文,语言整体结构的混乱,常常会将它们接搭错位,从而造成误解。
第二个阶段是在语法分析不成功的情况下,彻底扬弃了语法分析,而走了一条将以前翻译过的语料存储起来,在翻译新语言材料时,将新语料,以事先存储的语料比对,匹配上的即将原存储的语料调出使用的道路。这样可以避免就相同的语料重复翻译。只要原来存储的语料译文是准确的,重复利用的译文的准确性是可以保证的。市面上的达多思翻译软件就属这种。为了保证翻译的准确性,达多思翻译软件采用以整句为一个翻译单位。这种翻译方式的缺点是,如果没有事先翻译过并存储于计算机数据库中的语言材料,就不能翻译。整句作为一个翻译单位,准确度大致可以保证,但语言单位过大,匹配率较低。以英文为例,英文的单词有几百万个,韦氏大辞典收录的就60多万条,新英汉词典收录的有词条有14万多条;英文中专业文章句子较长,以专利文件为例,据统计,专利文件中,整句的平均词量(依不同公司的专利文件统计),从20几个到40几个不等。就以20个词放在少说15万个词(英文中几百万词汇,主要是技术词汇,专利文件中所面对的英文词汇是任何其他英文文件所不能比拟的)中去排列组合,是一个无法算清的超天文数字。在这样大的范围内,寻找到一种特定的排列组合,是很难匹配上的。所以一个语言单位中单词量越多,其排列组合越多,从而匹配的概率也就越小。所以达多思不是一个彻底的机器翻译软件,而是一个翻译工具软件,匹配不上或不能完全匹配上时,还需要人工翻译。另外,一个翻译者或一个翻译单位建设数据库的能力是有限的,面对几乎是无限的词汇组合形成的不同的句子,自建能覆盖所有情况的数据库几乎是不可能的。况且,逐步建设和积累数据库需要时间。在数据库积累尚不足够的情况下,达多思软件也不好使用。
第三个阶段,针对第二阶段匹配翻译数据库不足的缺陷,产生了基于网络大数据的匹配翻译方式。谷歌翻译是大数据翻译代表。这种翻译方式,在网络海量数据的支持下,使语言材料的匹配率大幅上升,一定程度上克服了达多思语料数据库不足的缺点。但随意从网络上抓取的翻译材料,其精准度依然存在问题。另外,虽然网络信息量超大,但对于一些长句子、某些专业的、小众化的语言材料也无能为力,例如专利文件翻译。这也是为什么在专利申请翻译中,大多还是使用达多思翻译软件。
发明内容
本发明的目的之一是提供了一种基于语法规则和语料匹配的翻译方法及其***。
本发明的目的之二是提供了一种语料匹配--语法分析--语言单位分断--语料匹配交替循环处理的翻译及其***。
本发明的目的之三是提供了一种多种语法和语料数据库的翻译方法及其***。
本发明的目的之四是提供了一种以英语为中心可以相对多种语言进行英语到目标语言的翻译的方法及其***。
本发明的目的之五是提供了一种多种语言翻译成英语目标语言的翻译的方法及其***。
本发明的目的之六是提供了一种以英语为标准,可以多种语言之间通过标准英语相互转译的方法及其***。
本发明是以某种语言为标准语言,或称中心语言。对该中心语言进行语法分析并建立语言单位分断规则。为此设置不同语法属性和语言结构属性的语法数据库。相应于上述中心语言的语法数据库,在环绕语言中建立相对应的语义数据库。由于该环绕语言的语义数据库与中心语言数据库有对应的关系,中心语言数据库的语法属性也某种程度映射到环绕语言上。这样,在逆向翻译时,很容易通过环绕语言语言单位的语法、语言结构和语义与中心语言的对应关系,找到中心语言语言单位的语法属性、语言结构属性和语义。
由于中心语言数据库具有与其他环绕语言数据库的对应关系,各环绕语言之间语言单位数据库,通过中心语言,也就具有了对应关系,从而两个不同的环绕语言之间的转译可以实现。
中心语言可以是任何语言,但以符号性强的语言作为中心语言较好。本发明示例性地以英文为中心语言。环绕语言可以是任何语言,本发明示例性地,以中文为环绕语言。
本发明基于语法分析和预存语料进行翻译。每次预存语料匹配翻译(以下简称“匹配翻译”)失败时,进行一次语法分析。语法分析是指基于对英语语法的分析,弄清句子中各个语言单位的语法属性、语言结构属性和判断出各个语言单位的起点和终点,从而将某个或某些语言单位同其他语言单位分断出来。然后对相关语言单位,用相关语料数据库进行匹配翻译。上述分断和匹配逐级进行,循环往复,直至分到最小语言单位,单词,为止,或成功完成匹配翻译为止。
本发明从语法属性、词性属性将语言分成,但不限于,如下语言单位:文章章节、自然段、整句、简单句、句子、动词现在分词短句、动词过去分词短句、动词不定式短句、从句引导词成分、副词成分、状语成分、定语成分、介词成分、介词词组部分、名词成分、谓语动词成分、形容词成分、状语部分、定语部分、主语部分、宾语部分、谓语动词部分、名词部分、介词词组部分、副词部分、形容词部分、从句引导词部分、连词部分、标点符号部分等。
上述语言单位之间有交集或完全重叠,是因为所述角度不同,从语言单位在句子中所起的语法作用讲,称作某某成分,从语言单位的中心语言成分+其他修饰语构成的一个语言单位时,称作某某部分。
当然也可以将词类或语类分得更多更细,如数词、代词、冠词、除谓语动词之外的动词、动名词等,但就本发明而言,上述分类已足够。冠词、数词、所有格代词、指示代词、作形容词的动词分词可以归在形容词类中,主格代词和宾格代词可以归在名词中;动名词规则动词现在分词中。
本发明将标点符号也看作语言单位,即看作一个独立的单词,虽然它不一定有相对应的语义,但大多数情况下,它有语法含义。
上述文章章节是指以文章小标题为表示的文章部分。
上述自然段是指文章作者的分段。
上述整句是指以句号或问号为截止符号的一个完整的句子。整句有两种情况,一种是整句中只要有一套主谓宾结构,该整句相当于简单句;整句的另一种情况是整句中有多套主谓宾结构,该整句为复合句。
上述句子为泛指,其包括整句、简单句、动词现在分词短句、动词不定式短句、动词过去分词短句、缩略句等等。
上述谓语动词部分是指简单句谓语动词部分、动词现在分词短句的谓语动词部分、动词过去分词的谓语动词部分、动词不定式的谓语动词部分。谓语动词部分可能由一个动词构成,也可能在由实意动词与助动词一起构成,还可以,依据本发明,由实意动词词组或实意动词句型构成,以及夹在其中的状语部分一起构成。
上述名词部分、副词部分、形容词部分、引导词部分、介词部分、都可能是由一个词构成或由词组或句型构成。
上述状语成分包括,但不限于,状语从句、作状语的介词词组、副词/副词词组、状语从句的缩略句、作状语的动词现在分词短句、作状语的动词不定式短句等。
上述的主语成分包括,但不限于,主语从句、名词/名词词组、本发明定义的作名词的动词现在分词、动词现在分词短句、起名词作用的动词不定式、起名词作用的动词不定式短句、形式主语it、there等。
上述宾语成分包括,但不限于,宾语从句、名词/名词词组、本发明定义的作名词的动词现在分词、动词现在分词短句、、起名词作用的动词、起名词作用的动词不定式短句、形式宾语it等。
上述介词部分包括两部分,一是介词部分,二是介词后的名词部分,语法上称为介词宾语的部分。介词宾语成分包括,名词/名词词组、作名词的动词现在分词(动名词)、动词现在分词短句(动名词短句)、等。
上述形容词成分包括:处于名词前修饰该名词的形容词,以及修饰该形容词的副词,作形容词的动词现在分词和动词过去分词,作形容词旳名词、数词和冠词等。
上述定语成分是指,处于名词后修饰该名词的后置定语成分,后置定语成分包括,定语从句、动词现在分词短句、动词过去分词短句、动词不定式、动词不定式短句、处于名词后修饰该名词的形容词、形容词+介词词组、介词词组等。
本发明对上述语言单位设置了相应的语法数据库和语义数据库。
本发明从大到小将文章的语言单位逐次分断,本发明需分断文章章节、自然段、整句、疑问句、简单句、状语部分、定语部分、主语部分、宾语部分、谓语动词部分、名词部分、形容词部分等。
为分断上述文章章节本发明设置了小标题语法数据库。
为分断上述自然段本发明设置了自然段语法数据库,该数据库由“句号或问号+硬回车”构成。
为分断上述整句本发明设置了整句语法数据库,该数据库由“句号或问号+空格”构成。
为分断上述疑问句本发明设置了疑问词语法数据库。
为分断上述简单句本发明设置了简单句语法数据库。简单句语法数据库是一组语法数据库的统称,它包括:实意谓语动词语法数据库、助动词语法数据库、从句引导词语法数据库、逗号语法数据库和连词语法数据库。
为分断上述状语部分本发明设置了状语成分语法数据库。该状语成分语法数据库是一组数据库的统称,它包括:副词语法数据库、介词语法数据库、动词现在分词语法数据库、动词不定式语法数据库,状语从句引导词语法数据库。
为分断上述定语部分本发明设置了定语成分语法数据库。该定语成分语法数据库是一组数据库的统称,它包括:名词语法数据库、动词现在分词语法数据库、动词过去分词语法数据库、动词不定式语法数据库、形容词语法数据库、介词语法数据库。
为分断上述主语部分本发明设置了主语部分语法数据库。该主语部分语法数据库是一组数据库的统称,它包括:特殊主语词汇语法数据库、主语从句识别语法数据库,动词现在分词语法数据库、动词不定式语法数据库和名词语法数据库。
为分断上述宾语部分本发明设置了宾语部分语法数据库。该宾语部分语法数据库是一组数据库的统称,它包括:特殊宾语词汇语法数据库、宾语从句识别语法数据库,动词现在分词语法数据库、动词不定式语法数据库和名词语法数据库。
有关语义数据库包括:文章章节语料数据库、自然段语料数据库、句子语料数据库、实意动词部分语料数据库,助动词部分语料数据库、动词现在分词短句语料数据库、动词过去分词/短句语料数据库、动词不定式短句语料数据库、主语成分语料数据库、定语成分语料数据库、主语成分语料数据库、宾语成分语料数据库、名词/名词词组语料数据库,副词/副词词组语料数据库、形容词/形容词词组语料数据库、介词词组语料数据库、从句引导词部分语料数据库、连词语料数据库。其中,状语成分语料数据库是一个统称,它具体包括:介词词组语料数据库、动词现在分词短句语料数据库、动词不定式短句语料数据库、状语从句缩略句语料数据库;定语成分语料数据库包括:动词现在分词短句语料数据库、动词不定式短句语料数据库、介词词组语料数据库、形容词/形容词词组语料数据库;主语成分语料数据库包括:名词/名词词组语料数据库、动词现在分词短句语料数据库、动词不定式短句语料数据库;宾语成分语料数据库包括:名词/名词词组语料数据库、动词现在分词短句语料数据库、动词不定式短句语料数据库。
上述句子的语法含义为动词与其宾语和/或主语构成的完整句子或句子部分,缩略句也包括在本发明的句子概念中。句子语料数据库,将整句、简单句、缩略句、动词现在分词短句、动词过去分词短句、动词不定式短句等包括其中,不做区分。
上述实意谓语动词语法数据库中进一步包括:动词词组和动词句型,并标引了动词属性,如及物、不及物,可否作系动词,是否与其他词类的词同形等。
上述助动词语法数据库包括:时态助动词、语态助动词和情态助动词,及其词组。
上述名词语法数据库包括:名词、名词词组、主格代词、宾格代词、名词句型。
上述介词语法数据库包括:介词、介词词组、介词句型。
上述副词语法数据库包括:副词、副词词组、副词句型。
上述形容词语法数据库包括:形容词、数词、所有格代词、指示代词、冠词、形容词词组、形容词句型等。
上述引导词语法数据库包括:状语从句引导词、主语从句引导词、宾语从句引导词(包括表语从句引导词)、定语从句引导词(包括同位语从句引导词)。除对各个引导词的语法属性做出标引外,还对其与其他引导词或疑问词是否同形做出标引。
上述连词语法数据库包括:并列连词和转折连词。并列连词中包括and、or和and/or,转折连词包括but、otherthan等。
上述疑问词语法数据库包括:疑问代词、疑问副词、疑问形容词(如whose[pensil]、which[pensil])等。
依据本发明,确定上述语言单位的语法性质是通过用上述语法数据库与待译语言材料的匹配来实现的。
依据本发明,在不同时机,用特定字词语法数据库,对特定语言单位中的词语进行匹配,匹配成功可以推定有关词语的语法性质;匹配失败的,也可以利用其匹配失败的结果来排除该词语的某种语法性质。确定了某一词语的语法性质后,可以利用这一结果,分析、确定其前或后的字词或语言单位的语法性质。例如,简单句谓语动词确定后,其前的语言单位可以确认为是主语成分,主语成分确定后,可以确认该主语部分的词语是名词性的;再如,动词分词确认后,其前的词被进一步确认为是名词的,可以确认动词分词短句作名词的后置定语成分;再如,用从句引导词语法数据库匹配,匹配上的引导词被确定后,即可确定其引出的句子为从句等等。
在明确各个句子部分的语法功能的基础上,本发明利用英语逗号、连词、从句引导词等词的特性找到相关语言单位的起始点和终点。
确定了语言单位的语法属性和语言单位的起点和终点,即可选择特定的数据库对相关的语言单位进行有针对性的匹配翻译。例如确定了主语部分,对主语部分,本发明用名词/名词词组语料数据库以及上述可制作名词的其他词语类语料数据库,对其进行匹配;确定为状语部分的,本发明用副词/副词词组语料数据库以及能作状语的其他词语语料数据库,对其进行匹配。特定化的语料数据库对特定化的语言单位进行匹配翻译,从语法和语义两个方面保证了译文的准确性。
文章章节的识别采用文章小标题数据库匹配,在某个小标题之后,并在两个小标题之间的文章内容为一个文章章节。
小标题的识别方法为无标点符号+硬回车。
自然段的识别方法为“句号或问号+硬回车”。
整句的识别方法是“句号+空格”或“问号+空格”。
简单句分段的方法是依次用实意谓语动词语法数据库和助动词语法数据库,对整句中的词语匹配,识别简单句谓语动词;在两个简单句谓语动词之间,依次用从句引导词语法数据库、逗号语法数据库和连词语法数据库,进行匹配,寻找到从句引导词、逗号或连词,从找到的从句引导词、逗号或连词处分断简单句。
状语成分的识别方法是,依次用副词语法数据库、动词分词语法数据库、动词不定式语法数据库、状语从句缩略句和介词语法数据库,对简单句中的词语进行匹配,匹配成功的,可以确认有关副词、动词现在分词短句、动词不定式短句、状语从句缩略句、和/或介词词组为状语成分
定语从句的识别方法是,在两个简单句谓语动词之间,用定语从句引导词语法数据库匹配。
定语成分的识别的方法是,对名词后的词语,依次用动词分词语法数、动词不定式语法数据库、形容词语法数据库和介词语法数据库,进行匹配,成功的的,可以确定有关动词分词短句、动词不定式短句、形容词和介词词组是定语成分。
对宾语从句的识别,采用对简单句谓语动词后的词语,用宾语从句引导词语法数据库匹配。
名词识别,采用名词语法数据库匹配。
形容词识别,采用形容词语法数据库匹配。
副词识别,采用副词语法数据库匹配。
依据本发明,分断句子成分,是在语料数据库匹配翻译失败(即匹配率为0%--99%)时,进行的。分断后,对被分断的各个部分,分别进行又一次匹配翻译,不能100%匹配上的,进行下一次分断,之后对被分断的语言单位,分别匹配翻译,然后将匹配译文先在本层级整合,然后再与其修饰的语言单位整合,逐级向上整合,直至形成整句译文。
不能形成匹配译文的,包括各个语言部分都不能形成匹配译文或某一语言单位或若干个语言单位不能形成匹配译文的,对不能形成匹配译文的语言单位,循环往复分断匹配的过程,直至不能分断为止。
本发明对语言单位的分断顺序,是从大到小,按简单句、状语成分部分、定语成分部分、主语部分、谓语动词部分和宾语部分、宾语部分、名词部分、形容词部分、修饰形容词的副词部分的顺序一次一次分断。
依据本发明,分断整句的第一步是确定分断的基准点。本发明所说的基准点之一是简单句的谓语动词。
为确定简单句谓语动词是用实意谓语动词语法数据库对整句的词语进行匹配,匹配上的,可以确定其为简单句谓语动词,再用助动词语法数据库对整句中的其他部分进行匹配,找到助动词,从实意动词前的第一个助动词至实意动词为简单句谓语动词部分。
依据本发明,在简单句谓语动词部分之间,用从句引导词语法数据库匹配,匹配成功的,从句引导词是两个简单句的分界线,从此处将两个简单句分断;
在两个简单句谓语动词部分之间,没有从句引导词的,用逗号语法数据库,进行匹配,寻找逗号,有逗号的,判断该逗号是否是简单句的分界线,是的,从该逗号处,将两个简单句分断;
句子分界线的逗号寻找失败的,在两个简单句谓语动词部分之间,用连词数据库,进行匹配,找到作为句子分界线的连词的,从该连词处将两个简单句分断。
判断两个谓语动词之间的逗号或连词是否是简单句的分界线的方法是:
(1)在两个简单句谓语动词部分之间,只有一个逗号,且没有连词的,该逗号为两个句子的分界线;
(2)在两个简单句谓语动词部分之间,有两个逗号,且没有连词的,第一个逗号前有名词的,并且两个逗号内为名词的,第二个逗号为两个句子的分界线;
(3)在两个简单句谓语动词部分之间,有两个逗号,且没有连词的,并且两个逗号内的词语为状语成分的,第二个逗号为两个句子的分界线;
(4)在两个简单句谓语动词部分之间,有若干个逗号,并只有一个连词的,判断连词后是否有一个逗号,如果连词后有一个逗号的,该逗号为句子的分界线;
(5)在两个简单句谓语动词部分之间,有若干个逗号只有一个连词,并且连词后没有逗号,两个简单句谓语动词之间第一个逗号为句子的分界线;
(6)在两个简单句谓语动词部分之间,有若干个逗号并有两个连词或两个以上连词的,判断最后一个连词后是否有一个逗号,如果最后一个连词后有一个逗号,该逗号为句子的分界线;
(7)在两个简单句谓语动词部分之间,只有一个连词,且没有逗号的,该连词为两个句子的分界线。
依据本发明,进行语法分析时,程序所做出的所有判断,如,语言单位的语法属性、词性属性、语言单位的起始点和终点、语言单位与其他语言为的修饰关系、以及匹配度(百分比)等,计算机都需记住,以备后续语法分析和判断时使用。前程序判断过的,在后需要时不必重复判断,直接拿过来使用。
计算机在第一次整句匹配的匹配成率,以后每次匹配翻译完成之后,计算各个语言单位的匹配成功率,和各个语言单位匹配成功率加和后形成的整句匹配成功率,然后同上次计算的匹配成功率相比较,记住两者较高的匹配成率。如果转人工处理的话,***输出匹配率最高的结果。
依据本发明,在另一个实施例中,语言单位的匹配率,不用百分比计算,而用所剩未匹配上的单词数来确定,例如某一语言单位的未匹配词量,为一个时,即可对未匹配上的字词,进行单词匹配,不再分析其所属语言单位性质、其词性等,也可在整合后未匹配字词在预设范围内的,直接转人工处理。
虽然本发明介绍了,从章节到单词的翻译全过程,但本发明的翻译***可以作为翻译工具***使用,在任何一步匹配翻译不成功后,都可即刻转入人工翻译。比如整句匹配率已达到95%,没必要再向下分析分断了。本发明的***亦设置匹配率调节控制单元。
本发明还提供了一种机器翻译***。本机器翻译***包括语法分析功能模块、记忆模块、语义功能模块和语言单位整合模块。
语法模块是在语义模块匹配翻译不成功的情况下,将文章分断成较小的语言单位。语法模块包括,但不限于,文章章节语法模块、自然段语法模块、整句语法模块、动词语法模块、简单句语法模块、状语成分语法模块、定语成分语法模块、主语成分语法模块、宾语成分语法模块、名词语法模块、介词语法模块、副词语法模块、形容词语法模块、逗号语法模块、连词语法模块。其中,状语成分语法模块,是一组模块的统称,它包括:介词语法模块、动词现在分词语法模块、动词不定式语法模块、副词语法模块;定义语法模块要是一个统称,它具体包括:动词现在分词语法模块、动词过去分词语法模块、动词不定式语法模块、介词语法模块、形容词语法模块;主语成分语法模块具体包括:名词语法模块、动词现在分词语法模块、动词不定式语法模块;宾语成分语法模块具体包括:名词语法模块、动词现在分词语法模块、动词不定式语法模块;动词语法模块,亦是一个统称,它具体包括实意谓语动词语法模块、助动词语法模块、动词现在分词语法模块、动词过去分词语法模块、动词不定式语法模块。
语义功能模块包含:句子语料模块、谓语动词语料模块、状语成分语料模块、定语成分语料模块、主语成分语料模块、宾语部分语料模块、介词词组语料模块、副词/副词词组语料模块、名词/名词词组语料模块、形容词/形容词词组语料模块、从句引导词语料模块、连词语料模块。其中,状语成分语料模块是一个统称,它具体包括:介词词组语料模块、动词现在分词短句语料模块、动词不定式短句语料模块、状语从句缩略句语料模块;定语成分语料模块包括:动词现在分词短句语料模块、动词不定式短句语料模块、介词词组语料模块、形容词/形容词词组语料模块;主语成分语料模块包括:名词/名词词组语料模块、动词现在分词短句语料模块、动词不定式短句语料模块;宾语成分语料模块包括:名词/名词词组语料模块、动词现在分词短句语料模块、动词不定式短句语料模块。
记忆模块,记忆每次语法功能模块操作所得出的某个或某些语言单位的语法属性、语言单位的语言结构属性、语言单位的起始点和终点、语言单位的修饰关系、语言单位的相对位置和匹配翻译率等。语言单位的相对位置是指某个语言单位相对于其他语言单位所处的位置,如处于某个语言单位之前或之后。例如,对于状语成分,该成分是处于谓语动词之前还是处于谓语动词之后。记忆模块,是在每次语法功能模块判断有了最终结果了,即将该结果存储,中间结果,在得出最终结果的过程中,当然也需要记住,但有了最后结果后,中间结果就没有必要记住了。许多语法分析过程不是单步骤的,需要好几个步骤,才能得出最终结果。例如,在分断状语成分时,要用可能作状语成分的副词语法分析功能子模块处理,不成功的,用介词语法功能子模块处理、不成功的,用动词语法功能子模块处理,介词语法功能子模块处理成功的,也还要对其前的词,用名词语法分析功能子模块处理,其前不是名词的,才能最终得出有关语言单位是否是状语成分。上述处理过程中的阶段结果,是下一步处理判断的基础,过程中不能不记住,但在有了最终结果后,即不需要存储记忆了。
语言单位整合模块,整合匹配翻译成功的语言单位,并依据目标语言的语言习惯,调整语序。依据本发明,整合语言单位,要自下而上,按修饰关系,将较小语言单位与其修饰的语言单位整合成较大语言单位,直至形成简单句译文。再将简单句译文,按它们之间的修饰关系,归并成复合句,对句与句之间没有修饰关系的并列句,按自然语序排列。本发明中,语言单位的修饰关系信息是由记忆模块提供的,调整语序,是指将目标语言语序与原文语序不一致,按目标语言语序调整。例如,目标语言是中文的,将谓语动词后的状语成分译文移到谓语动词前;对后置定语,可以另起一句翻译。
本机器翻译***的操作流程,与上述机器翻译方法相同。
附图说明
图1是本发明翻译方法的一个实施例的流程框图。
图2是本发明翻译***的一个实施例的处理流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明的一个优选的实施例为,用整句语法数据库,对待译文章进行匹配,找到句号和问号,从句和问号处将整句分断出来;用句子语料数据库匹配翻译;失败的用简单句语法数据库处理,分断出简单句,对分断出的简单句,用句子语料数据库匹配,失败的,用状语成分语法数据库处理,分断出状语部分,对分断出的状语部分,按其语法属性,用相应的动词现在分词短句语料数据库、介词词组预料数据库、动词不定式短句语料数据库、副词/副词词组语料数据库,状语从句缩略句语料数据库,匹配翻译,对剔除主语部分的简单句主体部分,用句子语料数据库匹配翻译;失败的,用定语成分语法数据库处理,分出定语部分,对分断出定语部分,按其语法属性,分别用动词现在短句分词语料数据库、动词过去分词短句语料数据库、动词不定式短句语料数据库、形容词语料数据库、介词词组语料数据库,匹配翻译;失败的,用主语成分语法数据库,将主语部分分断出来,对分断出来的主语部分,按主语成分识别时所确定的语法属性,分别用名词/名词词组语料数据库、动词现在分词短句语料数据库、动词不定式短句语料数据库,匹配翻译,对简单句谓语动词部分+并与部分,用句子语料数据库匹配翻译;简单句谓语动词部分+并与部分句子匹配翻译失败的,用宾语成分语法数据库,将宾语部分分断出来,对分断的宾语部分,按宾语识别时所确定的语法属性,分别用名词/名词词组语料数据库、动词现在分词短句语料数据库、动词不定式短句语料数据库,匹配翻译,对简单句谓语动词部分,用动词语料数据库匹配翻译;主语部分、宾语部分和/或状语部分匹配翻译失败的,按主语成分、宾语成分和/或状语成分识别时所确定的语法属性,对动词性短句的主语部分、宾语部分和/或状语部分,视为一个整句,按整句处理,缺失的步骤,计算机定为处理失败,从下一步骤开始接续处理;对于名词性词语,用名词语法数据库处理,分断名词词组中的名词,对分断出的名词用名词语料数据库匹配翻译;对名词前的词语,用形容词/形容词词组语料数据库,匹配翻译。
在本发明的一个实施例中,简单句谓语动词的识别方法是:
用实意谓语动词语法数据库,对某个整句的词语进行匹配。找出所有疑似实意谓语动词;用助动词语法数据库,对找出的疑似实意谓语动词前的词语匹配,找出助动词或助动词组。有助动词的,即可判定疑似实意谓语动词为简单句谓语动词,第一个助动词至找到的实意谓语动词为简单句谓语动词部分。没有找到助动词的,依次用动词现在分词语法数据库、动词过去分词语法数据库、动词不定式语法数据库,对疑似实意谓语动词进行匹配,排除非简单句谓语动词形态的动词,剩余的疑似实意谓语动词应是简单句谓语动词,该动词自己为简单句谓语动词部分。
在本发明的一个实施例中,简单句分断的方法是:识别判断简单句谓语动词,对两个简单句谓语动词之间的词语,用从句引导词语法数据库匹配,寻找从句引导词;寻找从句引导词失败的,用逗号语法数据库,对两个简单句谓语动词之间的词语匹配,寻找作为句子分界线的逗号,寻找作为句子分界线的逗号失败的,用连词语法数据库,对两个简单句谓语动词之间的词语匹配,寻找作为句子分界线的连词,无论哪次匹配成功的,即从找到的从句引导词、逗号或连词处,将两个简单句分断开。
在本发明的一个实施例中,状语成分分断的方式是:在简单句不能整体匹配翻译的情况下,分断简单句的状语成分。作为简单句状语成分的有:副词/副词词组、介词词组、动词分词短句,动词不定式短句、状语从句缩略句等。分断状语成分的方法是,用副词语法数据库,对简单句中的词语进行匹配,匹配成功的,对其后的词语用形容词语法数据库进行匹配,成功的,找到的副词不是本发明定义的状语成分;副词后形容词匹配失败的,可以确定找到的副词为状语成分;上述副词匹配失败的,用介词语法数据库匹配,介词匹配成功的,对介词前的词,用名词语法数据库进行匹配,是名词的,判断该介词词组是否在简单句谓语动词前,在简单句谓语动词前的,可以判定该介词词组为定语,不是状语成分,在简单句谓语动词后的,判断该介词是否是“of”,是of的,可以判定该介词是定语成分,不是状语成分,其他情况,用动词数据库中的动词句型匹配,匹配成功的,有关介词及其后的介词词组为状语成分,失败的,用名词语法数据库中的名词句型匹配,匹配成功的,可以判定该介词及其后的介词词组不是状语成分,而是定语成分,其他情况,一般可判断为状语成分;介词前的词不是名词的,可以判定该介词及其引导的介词词组为状语成分;介词匹配失败的,用动词现在分词语法数据库进行匹配,找到动词现在分词的,用名词语法数据库对动词现在分词前的词进行匹配,名词匹配成功的,可以判定,该动词现在分词及其后的动词分词短句不是状语成分,而是定语成分;动词现在分词前不是名词的,判断其是处于简单句谓语动词之前还是处于简单句谓语动词之后,如果处于简单句谓语动词之前,则在该动词现在分词至简单句谓语动词之间,用逗号语法数据库匹配,寻找逗号,逗号寻找成功的,可以判定该动词现在分词及其后的动词分词短句是状语成分,逗号寻找失败的,可以判定该动词现在分词及其后的动词分词短句,不是状语成分,而是作主语的动名词;如果找到的动词现在分词处于简单句谓语动词之后,则用逗号语法数据库,对该动词现在分词前的词,进行匹配,是逗号的,则可判断该动词分词及其后的动词分词短句是状语成分;动词现在分词匹配失败的。用动词不定式语法数据库,对简单句中的词语进行匹配,动词不定式匹配成功的,对其前的词,用名词语法数据库匹配,名词匹配失败的,用介词语法数据库,对动词不定式之前的词进行匹配,如果是“inorder”、“soas”等介词的,可以判定,该动词不定式及其短句为状语成分;上述介词匹配失败的,对动词不定式前的词,用副词语法数据库匹配,副词匹配成功的,该动词不定式与其前的副词与其构成一个状语成分;副词匹配失败的,判断该动词不定式是处于简单句谓语动词之前还是处于简单句谓语动词之后,处于简单句谓语动词之前的,用逗号语法数据库,对动词不定式与简单句谓语动词部分之间的词语匹配,寻找逗号,逗号寻找成功的,该动词不定式及其短句为状语成分,其间没有逗号的,该动词不定式及其短句,不是状语成分,而是简单句谓语动词的主语;如果有关动词不定式处于简单句谓语动词之后,判断该不定式前的词,是否紧接在简单句谓语动词之后,如果是紧跟接在简单句谓语动词之后,判断该简单句谓语动词是及物动词还是不及物动词,及物或不及物简单句谓语动词语法数据库预先为每个动词确定好的,是及物动词的,该动词不定式为简单句谓语动词的宾语部分,如果是不及物动词的,该动词不定式及其短句为状语成分;动词不定式前的词名词匹配成功的,判断该动词不定式是处于简单句谓语动词之前还是处于简单句谓语动词之后,处于简单句谓语动词之前的,可以判定,该动词不定式及其引导的短句不是状语成分,而是其前名词的定语成分;如果动词不定式处于简单句谓语动词之后,用动词语法数据库中的动词句型匹配,匹配成功的,该动词不定式及其短句是状语成分,动词句型匹配失败的,用名词语法数据库,进行匹配,成功的,有关不定式及其短句不是状语成分,而是定语成分;名词句型匹配也失败的,一般判定该动词不定式为状语成分;动词不定式匹配失败的,用状语从句引导词语法数据库进行匹配,寻找状语从句引导词及其后的状语从句缩略句,找到状语从句引导词的,可以判定该引导词及其引导的缩略句是状语成分。识别了状语成分之后,将找到的状语成分分断出来。
上述状语成分识别的顺序不重要,可以随意调整
在本发明的一个实施例中,定语成分的分断方式是:定语成分可能存在于主语部分、宾语部分和介词词组中。能作为简单句定语成分的语言单位有,动词现在分词短句、动词过去分词短句、动词不定式短句、介词词组、形容词、形容词+介词词组等。识别定语成分的方法是:用动词现在分词语法数据库,对剔除了状语成分的简单句主体部分中的词语匹配,寻找动词现在分词,找到动词现在分词的,用名词语法数据库,该动词现在分词前的词匹配,名词匹配成功的,可以判定有关动词现在分词及其短句是定语成分,如果该动词现在分词前不是名词的,该动词现在分词短句不是定语成分;动词现在分词匹配失败的,用动词过去分词语法数据库,对剔除了状语成分的简单句主体部分中的词语匹配,成功的,对其前的词,用名词语法数据库进行匹配,成功的,在对其后的词进行匹配,其后词名词匹配失败的,可以判定该动词过去分词及其短句为定语从句;动词过去分词后的词为名词的,该疑似动词过去分词不是定语成分;动词过去分词匹配失败的,用动词不定式语法数据库,对剔除了状语成分的简单句主体部分中的词语匹配,成功的,对不定式前的词语进行名词匹配,名词匹配成功的,采用上述分断状语成分时不定式识别的结果;动词不定式匹配失败的,用形容词语法数据库,对剔除了状语成分的简单句主体部分中的词语匹配,找到形容词的,对其前的词用名词语法数据库进行匹配,名词匹配成功的,在对找到的形容词后的词,用介词语法数据库匹配,寻找介词,介词寻找成功的,可以判定该形容词和其后的介词词组一起作为一个定语成分;形容词后没有介词词组的,对该形容词后的词,用名词语法数据库匹配,成功的,可以判定该形容词不是定语成分,形容词后名词匹配失败的,可以判定该形容词是定语成分;形容词匹配失败的,用介词语法数据库,对剔除了状语成分的简单句主体部分中的词语匹配,找到介词词组的,对介词词组前的词,用名词数据库匹配,名词匹配成功的,采用分断状语成分时的判断结果。识别定语成分后,将定语成分分断出来。上述识别定语的次序不是唯一的,可以随需要调整。
在本发明的一个实施例中主语部分的分断方式是:在上述分断出简单句谓语动词前的状语成分之后,应该简单句谓语动词前就只剩下简单句的主语部分了,所以无需再分析判断,可直接认定在剔除了简单句谓语动词部分前的状语成分之后,剩下的词语,即是为简单句谓语动词的主语部分。
在本发明的一个实施例中宾语部分的分断方式是:宾语部分处于简单句谓语动词的后面,在上述分断出简单句谓语动词后的状语成分之后,应该简单句谓语动词后就只剩下简单句的宾语部分了,所以无需再分析判断,可直接认定在剔除了简单句谓语动词部分后的状语成分之后,剩下的词语,即是为简单句谓语动词的宾语部分。
在本发明的一个实施例中,主语成分和宾语成分的识别方法是:对简单句谓语动词前、后的,并剔除了简单句谓语动词部分的状语部分后的词语,用名词语法数据库匹配处理,名词匹配失败的,用动词现在分词语法数据库匹配处理,失败的用动词不定式匹配处理,从而确定主语、宾语词语的语法属性。
本发明中在许多情况下可能需要识别名词,例如动词与名词同形、名词与形容词同形,确定主语成分、宾语成分、定语成分等。
在本发明的一个实施例中,名词识别的方法是:在判断简单句谓语动词时,如果找到的疑似动词与名词同形时,对疑似动词之后的词,用动词语法数据库进行匹配,疑似词后的词是动词的,该疑似词应是名词,不是简单句谓语动词。
在本发明的另一个实施例中,名词识别的方法是:在简单句谓语动词前或及物谓语动词后或介词后,应该是名词性词语的部分,用名词语法数据库匹配,没有发现名词的,用形容词语法数据库,进行匹配,找到形容词的,用形容词语法数据库中的the或a或an冠词对形容词前的词进行匹配,如果有冠词的,该形容词即是名词;在形容词语法匹配中找到了冠词,但没有找到其他形容词的,对冠词后的词语,用动词分词语法数据库进行匹配,匹配成功的,该动词分词即是名词;在形容词语法匹配中既没有找到了形容词也没有找到动词分词的,用动词不定式语法数据库,进行匹配,成功的,该动词不定式及其短句为名词。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种基于语料匹配和语法分析的机器翻译方法,该方法采用语法分析数据库判断语言单位的语法性质,并将某个语言单位与其他语言单位分断,然后用语义数据库,对被分断开的语言单位,匹配翻译,匹配翻译不成功的,进一步用语法分析数据库识别和判断被上次分断开的语言部分中的其他语言单位,并将被识别判断的语言单位与其他语言单位分断,然后用语义数据库,对被分断开的各个语言单位部分匹配翻译,往复循环,直至匹配翻译成功为止,或分断到最小语言单位而不能继续分断为止。
2.一种权利要求1所述的基于语料匹配和语法分析的机器翻译方法,所述的语法数据库包括:整句语法数据库、简单句语法数据库、从句引导词语法数据库、实意谓语动词语法数据库、助动词语法数据库、动词现在分词语法数据库、动词过去分词语法数据库、动词不定式语法数据库、状语成分语法数据库、定语成分语法数据库、主语成分语法数据库、宾语成分语法数据库、名词语法数据库、介词语法数据库、副词语法数据库、形容词语法数据库、逗号语法数据库、连词语法数据库;所述的语义数据库包括:句子语料数据库、实意谓语动词部分语料数据库、助动词部分语料数据库、动词现在分词短句语料数据库、动词过去分词短句语料数据库、动词不定式短句语料数据库、状语成分语料数据库、定语成分语料数据库、主语成分语料数据库、宾语成分语料数据库、介词词组语料数据库、副词/副词词组语料数据库、名词/名词词组语料数据库、形容词/形容词词组语料数据库、从句引导词语料数据库、连词语料数据库。
3.一种权利要求2所述的基于语料匹配和语法分析的机器翻译方法,所述的语法数据库进一步包括:文章章节语法数据库和自然段语法数据库;所述的语料数据库进一步包括:文章章节语料数据库和自然段语料数据库。
4.一种权利要求1所述的基于语料匹配和语法分析的机器翻译方法,其中,所述的语言单位分断和匹配翻译遵循,整句分断——匹配翻译——简单句分断——匹配翻译——简单句状语成分分断——匹配翻译——定语成分分断——匹配翻译——主语部分分断——匹配翻译——简单句谓语动词部分分断——匹配翻译——宾语部分分断——匹配翻译——主语部分和/或宾语部分名词部分分断——匹配翻译,的次序。
5.一种权利要求1、2、3和4所述的基于语料匹配和语法分析的机器翻译方法,其中,整句及其以下的语言单位分断和匹配翻译的方法包括:将待翻译语料,用整句语法数据库,分断成整句,用句子语料数据库,对整句匹配翻译,整句匹配翻译不成功的,用简单句语法数据库,将整句分断成若干个简单句,对分断出来的简单句,用句子语料数据库,匹配翻译,简单句匹配翻译不成功的,用状语成分语法数据库,分断简单句的状语成分,分断出来的状语成分,按分断时所确认的语言单位词性属性,分别用动词现在分词短句语料数据库、动词不定式短句语料数据库、介词词组语料数据库、副词/副词词组语料数据库,进行匹配翻译,之后,对剔除了状语成分的简单句主体部分,用句子语料数据库,匹配翻译,对简单句主体部分,句子匹配不成功的,用定语成分语法数据库分断定语成分,对分断出来的定语成分,按分断时所确认的语言单位词性属性,分别用动词现在分词短句语料数据库、动词过去分词短句语料数据库、动词不定式短句语料数据库、介词词组语料数据库、形容词/形容词词组语料数据库分别进行匹配翻译,对定语成分前的名词或名词词组,用名词或名词词组语料数据库匹配翻译,对剔除了定语成分的简单句主体部分,用句子语料子数据库,匹配翻译,分段匹配翻译成功的,将名词或名词词组译文与定语部分译文整合,将状语成分译文与句子译文整合,形成简单句译文后,再整合各个简单句译文,最终形成整句译文。
6.一种权利要求5所述的基于语料匹配和语法分析的机器翻译方法,该方法进一步包括:对剔除了定语成分的简单句主体部分,用句子语料子数据库,匹配翻译,简单句主体部分句子匹配翻译不成功的,用主语成分语法数据库,从简单句谓语动词部分的起点处将主语部分分断,依照分断主语成分时所确定的语言单位的词性属性,对分断出来的主语部分,分别用名词/名词词组语料数据库、动词现在分词语法数据库、动词不定式短句语料数据库,匹配翻译,将谓语动词部分和其宾语部分作为一个整体,用句子语料数据库匹配翻译,句子匹配翻译失败的,用宾语语法数据库,从简单句谓语动词部分的终点处分断宾语部分,依照分断宾语成分时所确定的语言单位的词性属性,对分断出来的宾语部分,分别用名词/名词词组语料数据库、动词现在分词语法数据库、动词不定式短句语料数据库,匹配翻译,将主语部分和谓语动词部分作为一个整体,用句子语料数据库匹配翻译,句子匹配翻译失败的,对谓语动词部分,用实意谓语动词部分语料数据库,匹配翻译;然后将主语部分与其定语部分整合,宾语部分与其定语部分整合,之后,将整合了定语成分的主语部分与谓语动词部分的译文整合,之后,将整合了定语成分的宾语部分与主语部分+谓语动词部分整合,之后,再整合各个简单句译文,最终形成整句译文。
7.一种权利要求5所述的基于语料匹配和语法分析的机器翻译方法,该分断匹配方法进一步包括:在整句分断处理之前,用文章章节语法数据库,将文章章节分断出来,用文章章节语料数据库匹配翻译,失败的,用自然段语法数据库,将自然的分断出来,用自然段语料数据库匹配翻译处理。
8.一种权利要求5和6所述的基于语料匹配和语法分析的机器翻译方法,该分断匹配方法进一步包括:对不能被句子语料模块匹配翻译处理的状语成分或定语成分,将其视为一个整句,按整句分断匹配流程处理,没有的语言部分视为处理失败,接续下一步处理;对于不能被介词词组语料数据库整体匹配翻译的介词词组,将其视为一个整句,介词是为动词,然后按整句分断匹配流程处理,没有的语言部分视为处理失败,接续下一步处理;对于主语部分和/或宾语部名词/名词词组语料数据库匹配翻译处理失败的,用名词语法数据库处理,分出主语部分和/或宾语部分中的名词,用名词/名词词组语料数据库,对分出的名词匹配翻译处理,对分出名词前的词用形容词/形容词词组语料数据库匹配翻译处理。
9.一种基于语料匹配和语法分析的机器翻译***,该***包括:语法模块、语义模块、记忆模块和译文整合模块,所述的语法模块用于识别判断语言单位的语法性质和语言词性属性,并用于将语言单位分断;所述语义模块,用其预存的语料数据,对待译语言单位,进行匹配,语法模块与语义模块交替使用,直至匹配翻译成功为止;所述记忆模块,在语法模块和语义模块处理过程中,用以记忆每次语法模块对语言单位语法性质和语言结构属性的判断结果、语言单位的相对位置、与前后语言单位的语法修饰关系、以及每次语义模块匹配翻译的匹配率结果;所述译文整合模块,用以按语言单位的修饰关系依次逐步将两两语言单位整合起来,译文整合可以在所有语言单位匹配翻译成功之后,整合,也可以在某一语言部分匹配翻译成功,就该语言部分,及时整合。
10.一种权利要求9所述的基于语料匹配和语法分析的机器翻译***,其中,所述语法模块包含:整句语法模块、简单句语法模块、实意谓语动词语法模块、助动词语法模块、动词现在分词语法模块、动词过去分词模块、动词不定式语法模块、状语成分语法模块、定语成分语法模块、主语成分语法模块、宾语成分语法模块、名词语法模块、介词语法模块、副词语法模块、形容词语法模块、逗号语法模块、连词语法模块;所述的语义模块包含:句子语料模块、实意谓语动词部分语料模块、助动词部分语料模块、动词现在分词短句语料模块、动词过去分词短句语料模块、动词不定式短句语料模块、状语成分语料模块、定语成分语料模块、主语成分语料模块、宾语成分语料模块、介词词组语料模块、副词/副词词组语料模块、名词/名词词组语料模块、形容词/形容词词组语料模块、从句引导词语料模块、连词语料模块。
11.一种权利要求10所述的基于语料匹配和语法分析的机器翻译***,其中,所述语法模块进一步包含:文章章节语法数据库和自然段语法数据库;所述语义模块进一步包含:文章章节语料数据库和自然段语料数据库。
12.一种权利要求9、10和11所述的基于语料匹配和语法分析的机器翻译***,该***进一步包括:在整句分断处理之前,用文章章节语法模块处理,将文章章节分断出来,用文章章节语料模块匹配翻译处理,失败的,用自然段语法模块处理,将自然的分断出来,用自然段语料模块匹配翻译处理。
13.一种权利要求9所述的基于语料匹配和语法分析的机器翻译***,其中,对整句及其以下的语言单位分断和匹配翻译的处理步骤为:整句模块分断处理,分出整句,语料模块匹配翻译处理;简单句语法模块分断处理,分出简单句,句子语料模块匹配翻译处理;状语成分语法模块处理,分断状语成分,对分断出的状语成分,按分断状语成分时所确定状语成分的语言单位词性属性,相应地采用副词/副词词组语料模块匹配翻译处理,介词词组语料模块匹配翻译处理,动词现在分词短句语料模块匹配翻译处理和句子语料模块匹配翻译处理,对剔除了状语成分的简单句主体部分,用句子语料模块匹配翻译处理;定语成分语法分析功能模块处理,分出定语成分,对分断出来的定语成分,按分断定语成分时所确定定语成分的语言结构属性,相应地采用句子语料模块匹配翻译处理、介词词组语料模块匹配翻译处理,形容词语料模块匹配翻译处理,对剔除了定语成分的简单句,用句子语料模块匹配翻译处理;主语成分语法模块分断主语部分处理,对分断出来的主语部分,用名词/名词词组语料模块、句子语料模块匹配翻译处理,将谓语动词部分和其宾语部分作为一个整体,用句子语料模块匹配翻译处理;宾语成分语法模块分断处理,对分断出来的宾语部分,用名词/名词词组语料模块、句子语料模块匹配翻译处理,将主语部分和谓语动词部分作为一个整体,用句子语料模块匹配翻译处理;对简单句谓语动词部分,用实意谓语动词部分语料模块匹配翻译处理;语言单位译文整合模块处理,将主语部分与其定语部分整合;宾语部分与其定语部分整合,之后,将整合了定语成分的主语部分与谓语动词部分的译文整合,之后,将整合了定语成分的宾语部分与谓语动词部分整合,之后再整合各个简单句译文,最终形成整句译文。
14.一种权利要求113所述的基于语料匹配和语法分析的机器翻译***,该***进一步包括:对不能被句子语料模块匹配翻译处理的状语成分或定语成分,将其视为一个整句,按整句分断匹配流程处理,没有的语言部分视为处理失败,接续下一模块处理,主语部分和/或宾语部分名词、名词词组语料模块匹配翻译处理,失败的,用名词语法模块处理,分出主语部分和/或宾语部分中的名词,用名词/名词词组语料模块,对分出的名词匹配翻译处理,对分出名词前的词用形容词/形容词词组语料模块匹配翻译处理;对不能被介词词组语料模块整体匹配翻译处理的介词词组,名词语法模块,分断出其中的名词,用名词/名词词组预料模块匹配翻译处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410373465.1A CN105320650B (zh) | 2014-07-31 | 2014-07-31 | 一种基于语料匹配和语法分析的机器翻译方法及其*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410373465.1A CN105320650B (zh) | 2014-07-31 | 2014-07-31 | 一种基于语料匹配和语法分析的机器翻译方法及其*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105320650A true CN105320650A (zh) | 2016-02-10 |
CN105320650B CN105320650B (zh) | 2019-03-26 |
Family
ID=55248055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410373465.1A Active CN105320650B (zh) | 2014-07-31 | 2014-07-31 | 一种基于语料匹配和语法分析的机器翻译方法及其*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105320650B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106855854A (zh) * | 2016-12-29 | 2017-06-16 | 北京奇虎科技有限公司 | 一种英文信息的识别方法和装置 |
CN107783968A (zh) * | 2017-11-23 | 2018-03-09 | 浪潮金融信息技术有限公司 | 一种语言转换方法、装置、可读介质及存储控制器 |
CN108304362A (zh) * | 2017-01-12 | 2018-07-20 | 科大讯飞股份有限公司 | 一种从句检测方法及装置 |
CN109800219A (zh) * | 2019-01-18 | 2019-05-24 | 广东小天才科技有限公司 | 一种语料清洗的方法和装置 |
CN109815503A (zh) * | 2019-01-29 | 2019-05-28 | 谢丹 | 一种人机交互翻译方法 |
CN112148838A (zh) * | 2020-09-23 | 2020-12-29 | 北京中电普华信息技术有限公司 | 一种业务源对象提取方法与装置 |
WO2021238604A1 (zh) * | 2020-05-25 | 2021-12-02 | 腾讯科技(深圳)有限公司 | 翻译方法、装置、电子设备及计算机可读存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1428721A (zh) * | 2001-12-27 | 2003-07-09 | 高庆狮 | 基于语义的机器翻译***及方法 |
EP1351158A1 (en) * | 2002-03-28 | 2003-10-08 | BRITISH TELECOMMUNICATIONS public limited company | Machine translation |
CN1471029A (zh) * | 2002-06-28 | 2004-01-28 | 自动检测文件中搭配错误的***和方法 | |
CN1617133A (zh) * | 2003-11-14 | 2005-05-18 | 高庆狮 | 句义表达式的生成方法、机器翻译及电子词典 |
CN1652106A (zh) * | 2004-02-04 | 2005-08-10 | 北京赛迪翻译技术有限公司 | 基于语言知识库的机器翻译方法与装置 |
CN1661593A (zh) * | 2004-02-24 | 2005-08-31 | 北京中专翻译有限公司 | 一种计算机语言翻译方法及其翻译*** |
CN1719444A (zh) * | 2005-07-19 | 2006-01-11 | 无敌科技(西安)有限公司 | 一种实现多数据翻译的方法 |
CN101075230A (zh) * | 2006-05-18 | 2007-11-21 | 中国科学院自动化研究所 | 一种基于语块的中文机构名翻译方法及装置 |
CN101339547A (zh) * | 2007-07-03 | 2009-01-07 | 株式会社东芝 | 用于机器翻译的装置和方法 |
WO2012079257A1 (zh) * | 2010-12-17 | 2012-06-21 | 北京交通大学 | 机器翻译装置和方法 |
CN102708205A (zh) * | 2012-05-21 | 2012-10-03 | 徐文和 | 一种供机器运用语言规律识别语言信息的方法 |
-
2014
- 2014-07-31 CN CN201410373465.1A patent/CN105320650B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1428721A (zh) * | 2001-12-27 | 2003-07-09 | 高庆狮 | 基于语义的机器翻译***及方法 |
EP1351158A1 (en) * | 2002-03-28 | 2003-10-08 | BRITISH TELECOMMUNICATIONS public limited company | Machine translation |
CN1471029A (zh) * | 2002-06-28 | 2004-01-28 | 自动检测文件中搭配错误的***和方法 | |
CN1617133A (zh) * | 2003-11-14 | 2005-05-18 | 高庆狮 | 句义表达式的生成方法、机器翻译及电子词典 |
CN1652106A (zh) * | 2004-02-04 | 2005-08-10 | 北京赛迪翻译技术有限公司 | 基于语言知识库的机器翻译方法与装置 |
CN1661593A (zh) * | 2004-02-24 | 2005-08-31 | 北京中专翻译有限公司 | 一种计算机语言翻译方法及其翻译*** |
CN1719444A (zh) * | 2005-07-19 | 2006-01-11 | 无敌科技(西安)有限公司 | 一种实现多数据翻译的方法 |
CN101075230A (zh) * | 2006-05-18 | 2007-11-21 | 中国科学院自动化研究所 | 一种基于语块的中文机构名翻译方法及装置 |
CN101339547A (zh) * | 2007-07-03 | 2009-01-07 | 株式会社东芝 | 用于机器翻译的装置和方法 |
WO2012079257A1 (zh) * | 2010-12-17 | 2012-06-21 | 北京交通大学 | 机器翻译装置和方法 |
CN102708205A (zh) * | 2012-05-21 | 2012-10-03 | 徐文和 | 一种供机器运用语言规律识别语言信息的方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106855854A (zh) * | 2016-12-29 | 2017-06-16 | 北京奇虎科技有限公司 | 一种英文信息的识别方法和装置 |
CN108304362A (zh) * | 2017-01-12 | 2018-07-20 | 科大讯飞股份有限公司 | 一种从句检测方法及装置 |
CN108304362B (zh) * | 2017-01-12 | 2021-07-06 | 科大讯飞股份有限公司 | 一种从句检测方法及装置 |
CN107783968A (zh) * | 2017-11-23 | 2018-03-09 | 浪潮金融信息技术有限公司 | 一种语言转换方法、装置、可读介质及存储控制器 |
CN109800219A (zh) * | 2019-01-18 | 2019-05-24 | 广东小天才科技有限公司 | 一种语料清洗的方法和装置 |
CN109815503A (zh) * | 2019-01-29 | 2019-05-28 | 谢丹 | 一种人机交互翻译方法 |
CN109815503B (zh) * | 2019-01-29 | 2023-04-25 | 谢丹 | 一种人机交互翻译方法 |
WO2021238604A1 (zh) * | 2020-05-25 | 2021-12-02 | 腾讯科技(深圳)有限公司 | 翻译方法、装置、电子设备及计算机可读存储介质 |
CN112148838A (zh) * | 2020-09-23 | 2020-12-29 | 北京中电普华信息技术有限公司 | 一种业务源对象提取方法与装置 |
CN112148838B (zh) * | 2020-09-23 | 2024-04-19 | 北京中电普华信息技术有限公司 | 一种业务源对象提取方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105320650B (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Filippova et al. | Sentence fusion via dependency graph compression | |
US9323747B2 (en) | Deep model statistics method for machine translation | |
US8548795B2 (en) | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system | |
US9098489B2 (en) | Method and system for semantic searching | |
CN105320650A (zh) | 一种机器翻译方法及其*** | |
US9047275B2 (en) | Methods and systems for alignment of parallel text corpora | |
US9053090B2 (en) | Translating texts between languages | |
US20130103390A1 (en) | Method and apparatus for paraphrase acquisition | |
Ehsan et al. | Grammatical and context‐sensitive error correction using a statistical machine translation framework | |
CN105320644A (zh) | 一种基于规则的自动汉语句法分析方法 | |
US20050171759A1 (en) | Text generation method and text generation device | |
Tsvetkov et al. | Generating English determiners in phrase-based translation with synthetic translation options | |
US8738353B2 (en) | Relational database method and systems for alphabet based language representation | |
Rabbani et al. | A new verb based approach for English to Bangla machine translation | |
Pretkalniņa et al. | Universal dependency treebank for Latvian: a pilot | |
Sinhal et al. | Machine translation approaches and design aspects | |
Dirix et al. | METISII: Example-based Machine Translation Using Monolingual CorporaSystem Description | |
Nuriev et al. | Machine translation of Russian connectives into French: Errors and quality failures | |
CN112380877B (zh) | 一种用于篇章级英译中机器翻译测试集的构建方法 | |
Rösener | Computational linguistics in the translator’s workflow—combining authoring tools and translation memory systems | |
Ehsan et al. | Statistical Parser for Urdu | |
Liu et al. | PENS: A machine-aided English writing system for Chinese users | |
Sugandhi et al. | Issues in parsing for machine aided translation from english to hindi | |
Muischnek et al. | Estonian particle verbs and their syntactic analysis | |
Arkhangelskiy et al. | Some challenges of the West Circassian polysynthetic corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231008 Address after: 706-A, 7th floor, No. 11 Zhongguancun Street, Haidian District, Beijing, 100086 Patentee after: Beijing Muyu Interactive Network Technology Co.,Ltd. Address before: 4th Floor, Block A, Zhongguancun Intellectual Property Building, No. A21 Haidian South Road, Haidian District, Beijing, 100080 Patentee before: Cui Xiaoguang |
|
TR01 | Transfer of patent right |