CN1100825A - 一种智能机译*** - Google Patents

一种智能机译*** Download PDF

Info

Publication number
CN1100825A
CN1100825A CN 93118098 CN93118098A CN1100825A CN 1100825 A CN1100825 A CN 1100825A CN 93118098 CN93118098 CN 93118098 CN 93118098 A CN93118098 A CN 93118098A CN 1100825 A CN1100825 A CN 1100825A
Authority
CN
China
Prior art keywords
chinese
dictionary
machine translation
translation
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 93118098
Other languages
English (en)
Inventor
黎庆源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
C & T Technology Development Ltd
Original Assignee
C & T Technology Development Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by C & T Technology Development Ltd filed Critical C & T Technology Development Ltd
Priority to CN 93118098 priority Critical patent/CN1100825A/zh
Publication of CN1100825A publication Critical patent/CN1100825A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种将英文翻译为中文的机译***,尤其是一种 智能机译***,***硬件包括IBM系列微机及其兼 容机,1M以上内存,15M以上自由硬盘空间,机译卡 及打印机。该机译***利用面向逻辑的功能合一文 法进行词法分析,语法分析和汉语生成。翻译准确, 并能翻译复杂句型。本***可直接将传真来的英文 原文图象、扫描仪接受的英文原文输入的以及键盘录 入的英文原文译成中文。

Description

本发明涉及一种能将英文自动译为汉语的机器翻译***。
二十世纪是信息时代,各种信息必须通过语言表达,而各国之间又必须进行信息交换,因而语言的翻译问题变得越来越重要。
近年来由于电子计算机技术的发展,加上语言识别和语言合成技术的发展,使得语言翻译机器有可能实现。但是这门领域的进展速度缓慢,只在个别局限领域的简单句型的翻译上取得一些成果,而复杂句型的翻译还很不尽人意。
语言翻译是个极其复杂的问题,词素的一词多义性加上句子的语法结构的歧义性,使得语言的识别困难重重。现有翻译***对这些问题都没有全面的解决方法,存在这样或那样的欠缺,因而不能满足实用要求,尤其不能翻译复杂句型。
中国专利CN 91108789.3只能将中文句子译成其它目标语言,而且不宜估复杂句型的翻译。
中国专利CN 87106964A只能将词组从一种语言翻译成另外一种语言。该翻译***没有考虑到词与词之间的语法关系。
中国专利CN 87104551叙述的是中文和日文的对译。对中文和日文的语法结构的识别与对英文的语法结构的识别是有较大差别的。
本发明的目的是提供一种实用的英-汉机器翻译***。它能用以下四种方式接受输入的英文原文:
直接接受传真发来的英文原文图像,将其转换成ASCⅡ码的英文文本文件。
从扫描仪接受英文原文的输入,将其转换成ASCⅡ码的英文文本文件。
从键盘录入的英文原文文本文件。
接受从键盘输入的英文句子。
该***能翻译复杂句型。
本发明是通过下述技术方案完成的:
英文原文输入后,先用正文预处理***(PRELEX.EXE)将英文原文分解成一个个句子,再以句子为单位逐句翻译。对句子的翻译包括词法分析(LEX.EXE)、语法分析(DCG.EXE)和汉语生成(TRA.EXE)三个复杂的过程。翻译结束后,可以使用本发明提供的文档管理***(EDIT.EXE和DISP.EXE)对翻译的结果进行译后编辑,也可以直接打印或显示。可以进行中英文单句对照、整篇文章的对照以及译文的单独显示和打印输出。本发明首次采用先进的面向逻辑的功能合一文法进行词法分析、语法分析和汉语生成,能处理非常复杂的句型,解决了许多翻译***解决不了的词法、语法和语义歧义,因而翻译结果准确度很高。
整个***的框图如图1所示。***由正文预处理予***、词法分析子***、语法分析子***、汉语生成子***、文档管理子***、词典及语境管理工具、词汇功能综合词典和语境知识库号等部分组成。
本***的核心采用了面向逻辑的功能合一方法(Logic Oriented Functional Unification Grammar,简称LOFUG)进行词法分析、语法分析和汉语生成。
功能合一文法(FUG)是从词素的功能结构出发,通过功能合一演算,确定句子的成份结构的。所谓词素的功能结构是指词性、词素做各种语法成份时的限制,在词素具有多义性时的取义的约束条件等信息。句子的成份结构则对应句子的语法树。功能合一演算是根据词素的功能结构,在词性关系满足成份结构约束的词素之间求相应功能特性的交集,根据交集的情况确定成份结构。下面举一个例子来说明功能合一演算。我们知道,在英语中,each既可以做限定词(如each person),又可以做副词(如The tickets are £l each),但怎样区分这两种用法呢?在句子Each PARTY must obey it中,each作为副词,位于句子之前,似乎可以用作状语(如Now he might be in home.),但我们给each一个属性,告诉语法分析程序,each不能做句前状语,则语法分析在取句前状语时,就可以根据这一属性否定each做句前状语的可能性,从而得到正确的分析结果。
LOFUG则利用逻辑型程序设计语言PROLOG的项来定义词素的各种功能结构和句子的各种成份结构,利用PROLOG的“项合一”和集合运算功能,实现包括词汇功能合一演算的广义合一演算,从而将功能合一方法(FUG)和逻辑型上下文无关文法(DCG)结合为一个整体。LOFUG与FUG原理相同,只不过使用的是程序语言PROLOG所提供的机制。可参看说明“语境知识库”时所举的例子。在翻译“on RMB basis”(PROLOG中的表示为translate(["on","RMB","basis"])时,与translate([“on”.X,"basis"])合一,并用“RMB”去替代X,然后在语境库中搜索is_money("RMB"),搜索到is_money(“RMB”),则合一成功,再查到“RMB”的汉语意思为“人民币”,因此将“on RMB basis”翻译为“用人民币”。
在图1所示的本发明功能结构示意图中,核心部分“词法分析***”、“语法分析***”均采用了LOFUG。
下面分别叙述各个组成部分的功能和结构。
1.正文预处理***
正文预处理***的功能是将英文文章分解成句子,然后以句子为单位提交给翻译***(词法分析***、语法分析***和汉语生成***)去翻译。将文章分解成句子的依据是各个可能作为句子结束标记的标点符号(如句号、问号、感叹号等),以及这些符号在文章中的前后若干个词素或标点符号的情况。
例如,在以下英文句子:
He studied in U.S.A.in 1989.He came home in 1990中,“U”、“S”、“A”后面都有句号,但都不是句子的结束符。“1989”后面的句号才是句子的结束符。
2.词汇功能综合词典
我们建立了一个经贸领域的语料库,然后利用此语料库建立了经贸领域专用的词汇功能综合词典,它共含50,000词条。每个词条不仅包含了词的词义、词性,还包含了词的词法、语法功能特性、专业知识特性、各种惯用语用法等。所以每一词汇的数据量平均相当于一般机器翻译***词典词条的5倍以上。
词典的文件组织形式为B+树结构(简单地说,B+树是一种可用来实现对大量数据进行高效率排序的数据结构),可以高效地进行顺序查找和随机查找。B+树中键的长度为15,对于长度超过15的词头,通过找出存放在词典中的全长度词头来确认。
3.语境知识库
提供针对经贸领域的有关各种语义特性的相互制约关系的知识,以保证高质量的词法、语法分析结果。例如货币符号RMB(人民币)、Y(美元)等,在特定的词语环境中,不能只考虑将货币符号直译出来,还要考虑货币符号对前后其它词语的翻译的影响。
用PROLOG表示这条语境知识如下:
translate(["on",X,"basis"]),[“用”,X_tran]):
is Money(X),
dic(X,X_tran).
is Money(RMB)
dic(RMB,“人民币”)
将X用RMB代入,则得出on RMB basis的翻译结果是“用人民币”。
语境知识库的文件组织形式同词汇功能综合词典。
4.词典及语境库管理工具
词汇功能综合词典和语境知识库的文件组织形式一样,它们统一由一个管理工具进行管理,称为词典及语境管理工具。词典中的一个词条和语境库中的一条知识,从结构上看都是一个“项”。各个项之间通过双向链表联结。各个项的键值及其在双向链表中的地址组成一棵B+树。
为了避免由于项的***、修改和删除所导致的链重组和B+树重组的巨大***开销,在进行上述操作时,不改变任何其它项的存放地址。进行项***时,先分配一个自由空间,将所要***的项写到这个空间,并将这块空间联到链的最后,然后将该项的键值及地址***到B+树索引中。进行项的删除操作时,将被删除项的前后两个项直接联结起来,从而将该项从链中去掉,并在B+树索引中将相应结点删掉,不进行链的重组。项的修改操作是项的***和删除揉作的组合。这样在经过多次的修改和删除操作之后,库中会残留一些自由空间片段。可以使用库的整理摸块来去掉这些自由空间片段。当库很大时,整理操作是很费时间的。
5.词法分析***
词法分件***利用词汇功能综合词典和语境知识库,分析一个句子中各个词的意义、词法功能特性和语境知识特性,从而归纳出每个英文句子的词汇功能特性(Funtional Sructure)表达式。详见实施例。
词法分析***首选将一个句子分解成一个个的词,再以每个词为键值查找B+树,从中找到相应词条的存放地址,再根据这个地址从库链表中读出相应的词条。词典中的每个词条存放的是一个词素的总的功能结构,词法分析***对这个总的结构进行分解,滤淖在具体的词法特征及上下文环境下不可取的功能特性,并对另一些功能特性进行分类综合,形成综合功能特性。
例如He hoped so中的“hoped”,词典中的hope有名词和动词两种词性,但是在该词法特征中,hope以过去时形式出现,因此不可能作名词。词法分析***会根据这种环境,滤掉hope的名词词性,从而减少了语法分析过程的歧义。
又如在He is interested in something中,intereted既可以形容词,又可以作为动词interest的过去分词。但是在这个特定的上下文环境中(前面有助动词is),加上interested本身已有形容词词性,可以认定它应不取动词词性。这样就可以滤掉interested的动词词性,减少语法分析的歧义。
用PROLOG表示这段语境知识如下(从%到一行结束的部分在PROLOG中表示注解):
%限制动词词性
Li mit Verb(Word1,Word2):-
isBe(Word1),%Word1是“be”
is Adj(Word2),%Word2是形容词
get Rid OF Verb(Word2).%去掉Word2的动词词性
对于一词多义的情况,词法分析***根据词典中总的功能结构,分解出每个词义的上下文信息,从而给出每个词义及其上下文信息的功能特性表达式,并对各个词义的每一类上下文信息求并集,形成该词素的综合功能特性表达式。
6.语法分析***
语法分析***利用语法、语义分析的结果,通过复杂的逻辑推理演算,概括出每个英文句子的成份结构表达式(参看实施例)。这里的复杂的逻辑推理演算包括匹配、合一、递归、回溯以及它们的复合演算。这些演算所反映的内容除了包括各种复杂句型的语法结构外,还包括语言心理学的一些内容。
心理学方法是人工智能技术的重要方法之一,也是FUG文法的核心方法。例如,人在理解语言时,会不断地根据当前已获得的信息对将出现的语法、语义现象作出预测,并对以前形成的概念进行制约。在我们的分析算法中,则利用有限自动机理论将这种预测和制约过程加以形式化,前者用以缩小以后语法分析的范围,后者则用以修正以前的分析结果,这就是引入了心理学方法的语言分析技术。这种技术在解决多义性方面起到了重要的作用。
在语言分析过程中,除了利用常规的演绎推理(Deduction)外,还充分利用了反演推理。所谓演绎推理,是指根据一些已知前提,去证明某些结论成立。所谓反演推理,则指根据某些已知结论(已知现象)去反推那些前提成立,所以它是演绎推理的逆运算。
语法分析***所产生的句子的成份结构表达式,是句子的一棵语法结构树,它可以是一个多重递归结构。例如一个句子可以带一个状语从句,而状语从句中又可以带一个定语从句。这就是一个多重递归的句子结构。由于引进多重递归的句子结构,使得语法分析***能分析非常复杂的句子。
7.汉语生成***
汉语生成***利用词法、词义分析***和语法分析***的结果,对每个词素取恰当的中文意义,并根据英汉句型对照关系的知识,生成中文译文。某些英语句型,在生成汉语时,需要重新调整其表示方法,以符合汉语习惯。详见实施例。
以下给出本发明的一个实施例:
***的软件清单及硬件结构
本***的硬件配置包括:
IBM系列微机或其兼容机
IM以上内存(包括640K常规内存)
15M以上自由硬盘空间
本***提供的机译卡(包括ROM和加密保护电路),ROM中装有三个可执行程序:
LEX.EXE-词法分析程序
DCG.EXE-语法分析程序
TRA.EXE-汉语生成程序
打印机(不打印则可不配备此项)
本***的软件配置为:
MS-DOS(PC-DOS)操作***
汉字***
本***提供的6个放在硬盘上的执行程序
MAIN.EXE-主控程序
DISP.EXE-文本显示程序
EDIT.EXE-文本编辑程序
HELP.EXE-显示帮助信息程序
PRELEX.EXE-文本预处理程序
DIC.EXE-词典及知识库管理工具
词典及语境库DIC.EXT(存放在硬盘上)
进行机器翻译时,主控程序依次从ROM中读入词法分析、语法分析和汉语生成程序,解密之后运行。硬件结构如图2所示。
在软件硬件具备的PC机上运行主控程序MAIN.EXE,即可启动C&T机译***,例如,假设MAIN.EXE等装在硬盘上的程序均放在C:/C&T TRAN目录下,且当前工作目录在C:/C&T TRAN下,则可由键盘输入TMAIN
从而启动本***。以下可以根据菜单提示,选择所需功能,如全文翻译、单句翻译、原文编辑、结果浏览,等等。
下面给出了一个从英文原句到汉语译文的翻译示例。
原文
This letter will be handed to you by Mr. Frank Chadwick,our senior represen tative,who will be spending much of his time during April and May in the Far East,where we are anxious to extend our interests.
词法分析结果
This  词性:限定词
词义:这
letter  词性:  名词
词义:  信
will 词性:助动词;情态动词
词义:将;愿
be  词义:是
handed  词性:动词
时态:过去时;过去分词
词义:交给;传
to    词性:介词
词义:向;到
(其余略)
语法分析结果
主语语段:This letter
限定词This修饰名词letter
名词letter主语
谓语语段:
will be handed to you by Mr.Frank Chadwick,our senior representative,who will be spending much of his time during April and May in the Far East,where we are anxious to extend our interests
谓语动词:will be handed时态;一般将来时语态;被动语态
状语语段:to you修饰will be handed
状语语段:
by Mr.Frank Chadwick,our senior representative,who will be spenging much of his time during April and May in the Far East,where we are anxious to extend our interests
介词短语,修饰will be handed
状语语段主语:Mr.Frank Chadiwick
同位语:Our senior representative
修饰  Mr.Franc Chadiwic
定语从句:
who will be spending much of his time during Aprial and May in the Far East,where we are anxious to extend own interests 修饰Mr.Franc Chadiwick
主语who
谓语动词 will be spending
宾语 much of his time
状语during April and May,修饰will be spending
状语in the Far East,where we are anxious to extend our interests
介词短语,修饰will be spending
介词宾语the Far East
定语从句where we are anxious to extend our interests
修饰Far East
汉语生成
who will be spending much of his time during April and May in the Far East,where we are anxious to extend our interests是定语从句,修饰representative。按照汉语习惯,定语应放在被修饰语之前。但是由于该定语从句较长,且又处于整个句子最后一段,所以将该定语从句直接放在被修饰词翻译在从句中,以保证语义的完整性。
全句翻译结果如下:
这封信将由Frank Chadwick先生,我们的高级代表,交给你们,该Frank Chadwick先生四月和五月在远东将花费很多他的时间,在远东我们渴望扩展我们的利益。
本发明的优点
(1)翻译准确度高
我们从三个方面定义准确度。这三个方面是:
信:译文忠实地表达原文语义
达:完全不懂英文的人也可以从译文领会原文的语义
雅:译文自然流畅,合乎汉语习惯表达方式
按照以上定义,本***在信、达方面准确率达95%,在信、达、雅方面的准确率达60-70%。
(2)翻译速度快
达到18,000字/小时
以下给出一个本***翻译结果与市场上其它一些英-汉机器翻译***的比较例。
原文:Girls who like music like boys who like football
本***翻译结果:喜欢音乐的女孩喜欢喜欢足球的男孩
高立智能机译***(高立科技公司)翻译结果:喜欢音乐的女孩喜欢男孩谁象足球
863AE智能机译***(快译通)翻译结果:这女孩们谁象音乐象这男孩们谁象足球
可以看出,本发明的翻译结果最为准确。
附图说明:
图1为本机译***流程框图。
图2为***硬件结构图。

Claims (7)

1、一种能准确地将英文译为中文的智能机译***,其特征在于整个***按如下方法步骤进行工作:
1)英文输入
2)正文予处理
3)词法分析
4)语法分析
5)汉语生成
6)文档管理(打印及译后编辑)
在进行词法分析时,由词汇功能综合词典及语境知识库、输入词法及语法的有关知识内容,并且该词典及语境知识库由一词典及语境知识库管理工具进行管理。
2、如权利要求1所述的智能机译***,其特征在于词法分析、语法分析及汉语生成均采用面向逻辑的功能合一文法(LOFUG)技术,使用逻辑型程序设计语言(PROLOG)。
3、如权利要求1所述的智能机译***,其特征在于***软件包括:MS-DOS(PC-DOS)操作***、汉字***、词汇功能综合词典、语境知识库、存放于硬盘上的六个可执行程序及存放于ROM中的三个可执行程序。
4、如权利要求3所述的智能机译***,其特征在于所述六个存放于硬盘的可执行程序为:
主控程序、文本显示程序、文本编辑程序、显示帮助信息程序、文本予处理程序、词典及知识库管理工具
5、如权利要求3所述的智能机译***,其特征在于所述存放于ROM中的三个可执行程序为:词法分析程序、语法分析程序及汉语生成程序
6、如权利要求1所述的智能机译***,其特征在于词典及语境知识库管理工具包括库的创造模块、链的***模块、项的检索模块、项的删除模块、项的修改模块、库的管理模块及库的删除模块。
7、一种智能机译***,其特征在于***硬件包括IBM系列微机或其兼容机,1M以上内存(包括640K常规内存),15M以上自由硬盘空间,本***机译卡及打印机(不打印可不配备)。
CN 93118098 1993-09-25 1993-09-25 一种智能机译*** Pending CN1100825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 93118098 CN1100825A (zh) 1993-09-25 1993-09-25 一种智能机译***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 93118098 CN1100825A (zh) 1993-09-25 1993-09-25 一种智能机译***

Publications (1)

Publication Number Publication Date
CN1100825A true CN1100825A (zh) 1995-03-29

Family

ID=4992337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 93118098 Pending CN1100825A (zh) 1993-09-25 1993-09-25 一种智能机译***

Country Status (1)

Country Link
CN (1) CN1100825A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609410A (zh) * 2012-04-12 2012-07-25 传神联合(北京)信息技术有限公司 规范文档辅助写作***及规范文档生成方法
CN104516939A (zh) * 2013-10-04 2015-04-15 高霆科技股份有限公司 一种用以建构人工智能计算机的平行硬件搜索***
CN104679735A (zh) * 2013-11-30 2015-06-03 赵会军 语用机器翻译方法
CN104873413A (zh) * 2015-05-20 2015-09-02 周淑华 一种易干型指甲油
CN105018555A (zh) * 2015-08-06 2015-11-04 重庆馗丰食品有限公司 一种大鲵皮胶原蛋白肽的制备方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609410A (zh) * 2012-04-12 2012-07-25 传神联合(北京)信息技术有限公司 规范文档辅助写作***及规范文档生成方法
CN102609410B (zh) * 2012-04-12 2014-12-17 传神联合(北京)信息技术有限公司 规范文档辅助写作***及规范文档生成方法
CN104516939A (zh) * 2013-10-04 2015-04-15 高霆科技股份有限公司 一种用以建构人工智能计算机的平行硬件搜索***
CN104679735A (zh) * 2013-11-30 2015-06-03 赵会军 语用机器翻译方法
CN104873413A (zh) * 2015-05-20 2015-09-02 周淑华 一种易干型指甲油
CN105018555A (zh) * 2015-08-06 2015-11-04 重庆馗丰食品有限公司 一种大鲵皮胶原蛋白肽的制备方法

Similar Documents

Publication Publication Date Title
US6278967B1 (en) Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
US6760695B1 (en) Automated natural language processing
US9672206B2 (en) Apparatus, system and method for application-specific and customizable semantic similarity measurement
US6782384B2 (en) Method of and system for splitting and/or merging content to facilitate content processing
US7526424B2 (en) Sentence realization model for a natural language generation system
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
Sinha et al. AnglaHindi: an English to Hindi machine-aided translation system
US9262409B2 (en) Translation of a selected text fragment of a screen
JP2003050797A (ja) スケーラブル機械翻訳システム
WO2002039318A1 (en) User alterable weighting of translations
Onyenwe et al. A Basic Language Resource Kit Implementation for the Igbo NLP Project
WO1997040453A1 (en) Automated natural language processing
Starko et al. VESUM: A Large Morphological Dictionary of Ukrainian As a Dynamic Tool.
CN1100825A (zh) 一种智能机译***
Bangalore Complexity of lexical descriptions and its relevance to partial parsing
Ismail et al. ALIF editor for generating Arabic normalized lexicons
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
Papageorgiou et al. Multi-level XML-based Corpus Annotation.
JP2008077512A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
WO1997048058A9 (en) Automated translation of annotated text
WO1997048058A1 (en) Automated translation of annotated text
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
Fransen Past, present and future: Computational approaches to mapping historical Irish cognate verb forms
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4635585B2 (ja) 質問応答システム、質問応答方法及び質問応答プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication