CN1111814C - 开放式全息模板式人机对话语言翻译方法及全息语义标注*** - Google Patents

开放式全息模板式人机对话语言翻译方法及全息语义标注*** Download PDF

Info

Publication number
CN1111814C
CN1111814C CN99804904A CN99804904A CN1111814C CN 1111814 C CN1111814 C CN 1111814C CN 99804904 A CN99804904 A CN 99804904A CN 99804904 A CN99804904 A CN 99804904A CN 1111814 C CN1111814 C CN 1111814C
Authority
CN
China
Prior art keywords
information
template
man
item
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN99804904A
Other languages
English (en)
Other versions
CN1296588A (zh
Inventor
刘莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN 98101156 external-priority patent/CN1231453A/zh
Priority claimed from CN 98125015 external-priority patent/CN1254895A/zh
Application filed by Individual filed Critical Individual
Publication of CN1296588A publication Critical patent/CN1296588A/zh
Application granted granted Critical
Publication of CN1111814C publication Critical patent/CN1111814C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种开放式全息模板式人机对话语言翻译方法,包括:建立一个以句子为对象的自然语言受限对话模板,模板中包含各种自然语言的所有必要语义信息要素,在模板上通过全选式人机对话确定自然语言符号实际携带的词汇信息项和句法信息项,完成原文信息求解,根据求解结果生成译文,并将求解结果转换成译文符号,供译文语义查询。该方法不依赖上下文语境作语义分析并充分利用人机优势互补的作用,用于在全球化网络通信中扫除语义信息传递障碍。

Description

开放式全息模板式人机对话语言翻译方法及全息语义标注***
技术领域
本发明涉及一种计算机翻译方法,更确切地说是涉及一种在计算机网络中适于各网络终端以不同自然语言进行信息传递交流的机器翻译方法。
背景技术
计算机网络技术以其四通八达、无处不到的优势而迅速开创出一个全球化的网络信息时代。但由于不同自然语言之间语义信息的传递交流障碍,已明显制约了网络及网络信息的使用效率,如何通过机器翻译处理使各网络终端用户仅使用自己的自然语言在网络上进行语义信息传递,对于节省网络空间、提高网络信息的传递效率和实现网络信息资源的大众化国际共享,都无疑具有重要的现实意义和很高的商业价值。
目前在机器翻译领域,一方面由人工智能教科书上***介绍的机器翻译方法在实际的产品开发中很少被使用,另一方面,在已开发出的机器翻译***中所应用的机器翻译方法又不能达到预期的目标,上述现象说明:基础理论研究严重滞后;所采用的机器翻译技术方法具有普遍共性的缺陷;预期目标本身不具有现实性。进入90年代以来,出现了大致两类新兴的机器翻译方法并逐渐成为自然语言信息处理的技术主流。一种是以对大规模真实文本的统计分析为基本手段建设语料库,另一种是人机对话及自然语言受限的机器翻译方法。
大规模真实文本的统计分析是通过对大规模真实文本进行符号、句型、词性、语义等多角度的信息取样分析,从而为任何一种自然语言中的符号串提供多种匹配模式,因而是一种基于经验的语言信息处理方法。从方法论上说,用这种自然语言信息处理方法可以将源语的多种匹配分析结果作叠加处理,并通过与译出目标语的多种匹配分析结果建立匹配关系,而直接完成自然语言的自动翻译,但现实状况是,自然语言***具有随机开放特性,任何统计方法都只能提供概率性知识,不可能对自然语言词汇及其概念定义进行准入限制,不可能确定各种省略表达部分的确切内容,也不可能解决生成目标语后的新增歧义。因此,大规模真实文本的统计分析虽然对于利用计算机进行各种自然语言信息处理来说确是有意义的基础工作,但对于机器翻译来说,这种技术手段还需要组合在一种全面有效的对象处理***方法中才能充分实现其应用价值。
人机对话及自然语言受限的机器翻译方法是由用户在输入端调整机器翻译词典和调整源语言表达方式,同时调整译文结果,该方法虽可获得较好的机器翻译质量,但要求用户熟练掌握机器翻译的源语和目标语并需付出相当高的人机对话学习成本及操作成本,与人工翻译不相上下。
本发明目的
本发明的目的是设计一种开放式全息模板式人机对话机器翻译方法,以全面解决计算机网络多语种信息传递交流障碍问题,试图取得机器翻译技术的实质性突破。这种突破必须满足以下要求:
1.对自然语言普通词汇及其概念定义进行有效的准入限制;
2.不依赖上下文语境进行语义分析;
3.通过直译手段实现语义信息准确传递;
4.找到生成目标语后的新增歧义解决办法;
5.用户只需熟练掌握母语;
6.利用大规模真实文本统计分析的手段与成果,充分实现人机优势互补;
7.满足向多种目标语言转换的需要。
本发明的另一个目的是提出一种全息语义标注***,利用其可对一文本进行全息语义标注,并将标注信息与文本一起存储。当需要时可将标注信息与文本一起调出。
本发明概述
根据本发明的一个方面提出一种开放式全息模板式人机对话语言翻译方法,包括下述步骤:
a.对各种自然语言进行通约限制;
b.建立一个以句子为对象的包括各种自然语言的必要语义信息要素的人机对话模板;
c.由人机对话模板提供与原文语言符号对应的经通约限制的所有备选语义信息项及供用户扩展的空白信息项;
d.先由翻译***的计算机对经通约限制的所有备选语义信息顶进行自动优选,再由原文用户在人机对话模板上对优选结果进行人工调整和确认;
e.由翻译***根据人机互补确定的语义信息项生成译文,并将所述人机互补确定的语义信息项转换成译文符号,连同译文提供给译文用户查询。
根据本发明的另一个方面提出一种全息语义标注***,包括:
必要语义信息库,其内存有基本词汇及其概念定义以及句法信息项;
文本输入装置,用于输入待对其进行语义标注的文本;
文本存储装置,用于存储通过文本输入装置输入的文本;
文本显示装置,用于显示存储在文本存储装置中的某一文本;
句子选择装置,用于选择文本显示装置所显示的文本中的某一句子;
句子结构自动分析装置,用于根据统计经验自动分析所选句子的结构;
语义标注模板显示装置,用于显示一语义标注模板,该语义标注模板在通过句子选择装置选择了一个句子时对应于所选择的句子被显示,其内包括有对应于该句子中各词汇的词汇信息要素项和句法信息要素项,词汇信息要素项中显示有对应词汇的在必要语义信息库中所包含的概念定义和所有同义词,而各句法信息要素项则根据所述句子结构自动分析装置分析的结果,显示对应词汇的所有可能的句法信息项,该各句法信息项存储于所述必要语义信息库中;
语义标注装置,用于供人对语义标注模板中的各词汇信息要素项中的概念定义及同义词和各句法信息要素项中的句法信息项进行选择;
标注文本存储装置,用于存储带有标注信息的文本;
标注指令装置,用于指令对文本显示装置显示的文本中的某一句子显示其标注;
标注显示装置,用于以所述标注模板的形式显示存储在标注文本存储装置中的对应于被指令句子的标注信息。
工业实用性
本发明开放式全息模板式人机对话机器翻译方法的技术特点是:人机对话的基本点是由用户对模板信息直接进行选择,对用户而言只需掌握母语,基本无学习成本;本方法是在充分考虑计算机对信息处理的实际边界能力并以语义信息传递的准确性为中心任务及实际目标而作出的;本方法充分利用了人机优势互补,翻译内容不受语言环境和应用领域限制;本方法通过建立统一受限标准和全息全选全程的人机对话,提供了一揽子解决机器翻译基本技术障碍的***方案,为根本改善机器翻译质量提供了全方位的技术保证;本方法可充分利用大规模语料库建设的成果,对自然语言的处理方法简洁实用,具有良好的可实施性;虽然在源语信息求解阶段,用户看不懂的语言不可能进行人机对话,但可在保证翻译质量的前提下实现一种语言输入得到多语种译出结果。
本发明的开放式全息模板式人机对话语言翻译方法在网络信息交流领域具有普遍应用的价值,在打开网络在线机器翻译服务方面有广阔的国际市场。
本发明的全息语义标注***可以将一文本的词汇释义及语法结构信息与文本同时存储,并在需要时显示这些标注信息。该***可广泛地用于法律文件的释义及语言教学等方面。
附图的简要说明
图1是以句子为对象的自然语言全息对话模板结构示意图;
图2示出了以一个英文句子为对象的全息对话模板的内容;
图3是不同自然语言之间词汇信息通约限制结构示意图;
图4a、图4b是人机对话过程中的两种对话信息显示方法示意图;
图5是句法成分信息的空间定位结构示意图;
图6是根据本发明的方法对一个英文句子进行翻译时的人机交互信息处理过程。
图7是译文用户查询自然语言符号“with a telescope”实际携带的句法信息项的示意图;
本发明的最佳实施方式
下面结合一个将英文句子翻译成中文的实例说明本发明的开放式全息模板式人机对话语言翻译方法的原理和实施过程。所采用的例句为“I saw a boy with a telescope near the bank.”(“我在银行附近看见一个带望远镜的男孩。”)
该例句中包含多个语言符号,这里所说的语言符号既可以是单词,也可以是短语。每个语言符号均携带了一定的语义信息,其中包括语言符号的概念定义、时态、语态以及该语言符号在句子中的成分等多种类别。例如,单词“saw”的概念定义是“看见”,时态为过去时,语态为主动语态,在句子中的成分是谓语。但是由于自然语言的复杂多样性,语言符号可能携带不止一个同类语义信息,例如上述单词“saw”的概念除了可以定义为“看见”,还可以定义为“理解与认识”,又如短语“with a telescope”的句法成分既可以是谓词修饰语,也可以是宾词修饰语。
本发明人认为自然语言翻译的根本任务就是将原文语言符号所携带的实际语义信息准确地传递给不同语言的用户。为此,本发明采取的手段是在原文用户方以人机交互的方式对原文的所有语义信息项进行求解,根据求解的结果生成译文,并将该求解结果转换为译文符号,随译文提供给译文用户以便查询,从而实现原文用户和译文用户共同参与的全程翻译,提高语义信息的传递质量。
为了对原文的语义信息进行求解,本发明建立了一个如图1所示的以句子为对象的自然语言全息对话模板,所谓“全息”是指在这个模板中包括各种自然语言文字符号***所有必要的语义信息要素,包括属于词汇信息要素的概念定义项、时态信息项及语态信息项,和属于句法信息要素的句法成分项。对话模板用来向原文用户提供与原文各语言符号相应的备选语义信息项以供人机交互选择。这些对话信息项的内容,如后面将要说明的,必须受到***的限制。该对话模板中还包括一些非用户必选信息项,如语义属性、语法属性、上位语义(格)等,这些信息项可以不由用户进行选择,只由计算机进行概率性自动求解,以便为自动转换生成译文提供相关信息。
为了在不同语言之间准确传递语义信息,最好采用直译手段,这是因为机器翻译***不可能随机调整目标语句子的词汇和句型。但由于各种自然语言的概念体系和句法体系之间存在差异,要想保证直译的译文质量,必须保证词汇信息项和句法信息项能在源语与目标语间作等价交换。因此本发明对不同自然语言间的差异通过建立***的通约限制原则进行统一整合处理。这种通约限制原则包括句法信息通约和词汇信息通约。
本发明设计的句法信息通约原则包括:统一合并功能同一、对象不同一的句法信息;尽量删除在语义聚合关系分析中并非不可缺少的句法概念,如英语语法中的直接宾语与间接宾语。本发明在对话模板上只提供经简化通约后的句法信息概念,作为不同自然语言的标准句法信息项供用户选择。
本发明设计的词汇信息通约原则如图3中所示,是通过对大语种词汇使用频率的统计分析和同义归并而确定一个基础概念集。但实际操作时,不是每一种自然语言的基础概念都是完整对应的,当出现对应空缺时,则要采用该语言的其他常用词汇对这一概念进行解释性描述,使各种语言的基础概念强制性对齐。如英文词汇orphan的动词义项被定为基础概念,而中文中没有对应词,则用“使成为孤儿”进行解释性描述。另外,以各种自然语言的基础概念的近义词作为近义附码。由于一种自然语言中某个词汇的全部近义概念也不可能在其它自然语言中全部找到对应概念,因此在当某种自然语言的近义概念出现对应空缺时则由基础概念词进行近义替换(人工翻译中近义替换也是不可避免的)。经过上述两项通约处理后仍不能处理的则作为冗余信息在全息对话模板中提供空白信息项。本发明在确定不同自然语言词汇的概念定义时,采用以内涵为中心的模糊通约(如中文的“学校”与英文的”school”);不考虑词性差异的概念统一通约(如不考虑英文词汇become的所有时态变形)和对多种语言中都使用的概念作优先考虑的概率通约处理。为了丰富语言的表达力,任何语言都需要有同一概念的近义词,因此以词汇的使用概率作为词汇概念冗余标准,优先选择多种语言中都使用的词汇,其次是在一种自然语言使用概率高的词汇。对于不满足上述两种情况的词汇则作为冗余概念处理,相应地在全息对话模板中提供空白信息项。经过通约限制处理后的概念定义才作为全息模板中的词汇备选项提供给不同自然语言用户进行选择,以保证不同自然语言词汇概念信息间能够等价互换。本发明还为不同自然语言中相对应的词汇概念设定了统一的编码,以便于在网络上进行信息传递。
另一方面,为了能对***未收入的自然语言符号进行处理,使得人机交互的方式更加灵活,在通约限制的基本原则下将本发明的对话模板设计成开放式的,即当某个原文自然语言符号未被收入在机器翻译***中时,原文用户可以调用***已收入的、已限定信息项的自然语言符号对其进行语义描述。
本发明的对多种自然语言概念***进行强制性通约受限的方法,与传统的中间语言方法间有着本质区别:传统的中间语言技术面对的是完全不受限的自然语言***,通过建立多种自然语言间的中间概念体系来实现多语互译,但各种自然语言概念体系的开放性使中间语言体系不可能具有周延性;强制性的通约受限方法是通过人机对话方式对词汇及义项作必要的限制和通约,对各种自然语言概念体系之间的差异和开放性进行合理限制,以保证多种自然语言的词汇概念及句法概念能成功地进行等价互换。
现在再参见图2,继续说明原文用户方对原文的语义信息进行求解的方法。该图中示出了人机对话模板向原文用户提供的与原文各语言符号相应的经通约限制的备选语义信息项。对原文的语义信息进行求解的过程也就是对人机对话模板中的这些备选信息项的选择、确认和补充的过程。
在对词汇信息项的选择中要充分利用人机优势互补,计算机自动优选所遵循的基本原则是:通过大规模的对真实文本的统计分析,排列出多义词的词汇信息项使用频率顺序,以缩小用户选项的搜寻范围;通过大规模的对真实文本的统计分析,根据句法信息项与词汇信息项间的相关性特性来优选词汇信息项,以进一步缩小信息项选择范围,例如凡可做主语的词汇都优选其名词义项,象图2中的“I”和“telescope”等;通过大规模的对真实文本的统计分析,获得词汇搭配的概率信息,进一步优选词汇信息项,如汉语“好漂亮的一朵花”,其中的“好”是多义词,而在形容词“漂亮”前的“好”字的最可能的义项解是程度副词“非常”;对于显性表达词性信息的文字符号,通过词性即可推导出所选词汇信息项来缩小信息项选择范围,如英语中“spring”的词根虽然是多义的,但其动词的过去式“sprang”则已明确限制了义项选择范围。
通过以上技术手段的自动选项处理,已能够将用户实际所需的大多数词汇信息项排在首位,由于表达语义所需要的词汇信息项已存在于用户心中,因此对用户而言,大多数的词汇信息项选择只是一个对模板中各首选信息项的确认过程。
各种自然语言中,无论是隐性表达还是显性表达的句法信息,大体上包括词性信息、句法成分信息和上位语义(格)信息,其中句法成分信息是唯一具有完整组织能力的,并具有普遍共性的句法组织***,因此,只要确定句法成分信息项,实际上已经确定了一个自然语言符号串的语义聚合关系。在句法信息项的选择中也要充分利用人机优势互补,其所遵循的基本原则是:通过大规模的对真实文本的统计分析获得词序、词性、上位语义(格)信息与句法信息之间的匹配关系,以自动优选句法信息项。如一个词汇的词序为1,词性为名词,上位语义为行为主体,则可判定为主语;用户通过选项操作最终确定句法成分信息项。
通过以人机对话方式在模板上选定词汇信息项和句法信息项,求解原文的实际语义信息。由用户直接在全息对话模板上选择各自然语言符号串实际携带的词汇信息项和句法信息项,是最简单的人机对话方式,其具体方法可以是对所确定的项进行黑体标注处理,如图1中所示。
通过在全息对话模板中对句子中词汇信息项和句法信息项的人机互补选择、确认,已能够完成自然语言的信息求解任务,因此不再需要依赖上下文语境对句子进行语义分析,
对于用户来说,分析和确定抽象的句法关系远比判断多义词信息项困难,因此,为了降低句法成分信息项的选择难度,实际操作时可象图5中所示的那样将呈线性排列的句法成分信息项转换成空间定位表达方式,协助进行句法成分信息项人机对话的选择。以句法信息的修饰区、核心区及补充区为横座标,以句法信息的主语区、谓语区及宾语区为纵座标,作出句法信息对话框架,由用户在框架中对“with a telescope”的修饰对象进行选择。
在实际的人机对话过程中也可以采用模板部分显示方法和模板虚拟方法,如图4a所示的句法信息全显(图中?号表示由用户再选择)和图4b所示的“I see a boy with a telescope near the bank”的虚拟对话模板后的对话显示方法。本领域的技术人员应该理解,人机对话过程中的对话信息显示方法可以有很多种,而不限于本说明书中的示例。
本发明的方法通过对语法概念和普通概念的***通约受限,以及在受限信息项范围内进行人机互补信息全选,已经具有了向多种自然语言表达形式作自动转换的必要信息,但总有被用户省略的句法成分,从逻辑上说只要确定了已有文字符号的所有信息项,大多数省略部分可由用户在阅读信息时根据上下文语境自动添加(如主词、宾词省略),但为了准确传递语义,对不可省略的句子成分还要通过全息对话模板进行添加,以保证机器翻译质量(如在一个句子的备选信息项中已经选了主词和宾词,则不可省略相关动词)。
为了解决生成目标语译文后发现新增歧义的问题,将经过全息对话的中间翻译结果随译文提供给目标语用户作直接查询,可实现目标语新增歧义的全面消解。如果用户有意保留语言表达的模糊性或双关性,则可在选择信息项时作多项同时选择。
参见图6,图中流程说明了本发明的开放式全息模板式人机对话语言翻译方法中的人机交互信息处理基本过程,其中中间列框11至17是翻译***计算机的主流程,左边列框21至26示出用户的参与过程,右边列框31至35示出入机交互过程中与内部数据库、规则库间的关系,单向箭头表示人机交互流向,双向箭头表示在语言翻译过程中对数据及规则的调用过程,所标的N表示***信息处理需要人机交互,所标的Y表示自动进入***流程的下一个操作步骤,##----##表示此翻译***与因特网***的信息处理接口。其上方表示原文用户端,其下方表示译文用户端。
处理过程开始,执行步骤11,由原文用户顺序输入待翻译的自然语言符号。
结合参见图2,在模板的序位1至10中依次填入本例中的十个自然语言符号“I saw a boy with a telescope near the bank”;***主程序的步骤12在可扩展的多语对应的词汇信息项符号库31中,对各自然语言符号进行词汇备用信息项搜索,当搜索不到时可通过步骤21由原文用户在模板上用***已收入的语义符号对自然语言符号的语义进行描述,上述过程最终生成模板中的由概念定义项、语义属性项、时态项、语态项等构成的词汇备用信息项,如果在某自然语言符号下出现概念定义信息项空白,如在符号“bank”处出现“?”,则原文用户可采用***中已提供有信息项的词汇符号对其进行语义描述,即模板中概念定义项“institution for keeping or lending money”;***主程序的步骤13,根据词汇信息项概率性优选规则库32中的规则,由计算机对列入模板中的各自然语言符号的多个词汇备用信息项进行自动优选,如模板中用黑体字指定的信息项,并可通过步骤22由原文用户对未获得确定优选的语义信息项进行选择确认;***主程序的步骤14,通过调用句法成分信息项自动标注规则库33,对列入模板中的各自然语言符号的句法信息项进行自动标注,上述过程最终生成模板中的句法成分项、词性项、上位“格”项;***主程序的步骤15,调用句法成分信息项自动优选规则库34,对各自然语言符号的句法成分信息项进行自动优选,其间可通过步骤24调用句法信息项三维结构模型库23,由原文用户在模板上对未获得唯一优选结果的句法信息项进行选择确认,如模板中用黑体字指定的信息项;***主程序至此就可以以自定的编码形式在网络上传递所确定的上述信息项。
对话模板中包括了自然语言符号所能携带的所有信息项,其全部备用信息项不仅包括自然语言符号的概念定义、时态信息、语态信息、句法信息、上位“格”信息、词性信息、单复数信息、阴阳性信息、而且可在开放式的模板下部扩展人工设计和标注的其它信息。
当原文用户在图6的步骤21中利用语义描述方法求解原文符号时,***程序还要自动进行其使用频率的统计,在使用频率达到一定水平时,即在翻译***收入的所有语种的自然语言符号库中同步增添新增的自然语言符号或新增信息项。如人工描述求解bank的使用频率达到一定水平时,***即在法语的自然语言符号库中添加新增的符号“banque”和利用***已收入的相应法语符号进行语义描述,并给出其它相关备选信息项。其它语言的扩展方法与其相同。
结合参见图7,译文用户端***主程序的步骤16,调用译文自动转换生成规则库35,根据多语符号与序位转换规则,将经原文用户确认的信息项求解结果自动转换成译文用户要求的自然语言译文,如图7中所示的中文转换生成结果“在银行附近我看见一男孩带望远镜”;***主程序在步骤17将会询问用户译文是否已经无歧义,如果有歧义,译文用户可在步骤26通过人机交互过程确定相关信息项的查询范围,其间可调用多语对应信息项符号库25,如译文用户为了求解“带望远镜”到底是修饰主语还是修饰宾语,如图7中?所示,就可直接查询该符号实际携带的句法信息项,从而确定是修饰宾语。至此翻译过程结束。
语义信息传递质量是全球化网络信息时代机器翻译技术赢得巨大国际市场的根本障碍,要想取得实质性突破,人机对话是不可避免的,本发明人机对话优势互补的翻译方案可切实提高翻译质量,具有实用价值。由于本方法具有语义信息传递准确、不受语言环境限制、用户操作使用方便、可同步转换生成多种目标语、对话方案多语通用及技术手段简单可靠等优点,因而在网络信息交流领域将会具有普遍应用价值,在网络的在线机译服务方面也会有广阔的市场。
根据上述方法的构思本发明还提供了一种全息语义标注***,该***包括:
必要语义信息库,其内存有基本词汇及其概念定义以及句法信息项;
文本输入装置,用于输入待对其进行语义标注的文本;
文本存储装置,用于存储通过文本输入装置输入的文本;
文本显示装置,用于显示存储在文本存储装置中的某一文本;
句子选择装置,用于选择文本显示装置所显示的文本中的某一句子;
句子结构自动分析装置,用于根据统计经验自动分析所选句子的结构;
语义标注模板显示装置,用于显示一语义标注模板,该语义标注模板在通过句子选择装置选择了一个句子时对应于所选择的句子被显示,其内包括有对应于该句子中各词汇的词汇信息要素项和句法信息要素项,词汇信息要素项中显示有对应词汇的在必要语义信息库中所包含的概念定义和所有同义词,而各句法信息要素项则根据所述句子结构自动分析装置分析的结果,显示对应词汇的所有可能的句法信息项,该各句法信息项存储于所述必要语义信息库中;
语义标注装置,用于供人对语义标注模板中的各词汇信息要素项中的概念定义及同义词和各句法信息要素项中的句法信息项进行选择;
标注文本存储装置,用于存储带有标注信息的文本;
标注指令装置,用于指令对文本显示装置显示的文本中的某一句子显示其标注;
标注显示装置,用于以所述标注模板的形式显示存储在标注文本存储装置中的对应于被指令句子的标注信息。
本发明的该全息语义标注***的一种应用为同文种全息语义标注***,以法律业为例:法律分门别类很多,需要建立相应的知识库。开发专家***具有广泛的应用价值。其中一个带普遍性的应用需求是普通用户对法律条文的语义理解和识别。国内外已有的各种专家***,都是“问答式”人-机介面:***依次提出许许多多问题,用户逐一作出“Yes”或“No”的选择,或者输入简单的数据,然后由***搜索知识库,根据问题与知识的匹配情况推断出某个结论,然后告诉用户。
这种“问答式”人-机介面呆板、繁琐,并且***所提问题事先设定,不灵活。这样的***显得智商太低。
如果在输入法律解释条文、合同、协议、诉状时,采用同文种语义标注技术,一次输入所使用语言符号的全息数据,将大大方便用户查询及分类整理。
同文种语义标注技术不仅适用于建立各类专家级知识***开发,而且对于提高法律解释、合同内容、技术说明文件的语义表述精确性均具有普遍实用价值。
同文种语义标注技术的实现方法:
仅应用全息翻译模板的原文加工技术并提供专业词库,即可实现同文种语义标注。
本发明的该全息语义标注***的一种应用为外语全息语言教学***。
计算机辅助教学目前已经应用的十分广泛。在外语教学领域领域的应用主要采用的是多媒体教学法(听、说、读、写并行)和应试题库教学。而语言全息模板为外语教学提供了一种***反映不同语言概念共性和符号化个性的计算机辅助教学手段。
当用户输入母语句子时:
如果用户选定母语词汇的概念定义,通过***提供的多语统一编码,全息模板即可调出多种语言的所有对应词汇。
如果用户选定母语句子的时态、语态、句法成分信息项,全息教学***则可利用全息翻译***的界面技术及内部转换规则,分步提供任意语种的符号变形和排序变换过程。
如果用户直接输入外语句子,通过***提供的多语统一编码,全息模板则既可提供外语的全息语义标注,也可将全息语义标注直接转换为母语。

Claims (14)

1、一种开放式全息模板式人机对话语言翻译方法,其特征在于包括下述步骤:
a.对各种自然语言进行通约限制;
b.建立一个以句子为对象的包括各种自然语言的必要语义信息要素的人机对话模板;
c.由人机对话模板提供与原文语言符号对应的经通约限制的所有备选语义信息项及供用户扩展的空白信息项;
d.先由翻译***的计算机对经通约限制的所有备选语义信息项进行以统计经验为基础的自动优选,再由原文用户在人机对话模板上对优选结果进行人工调整和确认;
e.由翻译***根据人机互补确定的语义信息项生成译文,并将所述人机互补确定的语义信息项转换成译文符号,连同译文提供给译文用户查询。
2、根据权利要求1所述的开放式全息模板式人机对话语言翻译方法,其特征在于:所述步骤b中的必要语义信息要素包括概念定义、时态信息、语态信息和句法成分信息项。
3、根据权利要求1或2所述的开放式全息模板式人机对话语言翻译方法,其特征在于所述步骤a中的对各种自然语言的通约限制包括:a1.统一合并功能同一、对象不同一的句法概念;a2.尽量删除可缺少的句法概念;a3.通过对主要语种词汇使用频率的统计分析和同义归并,建立多语通用基础概念集;a4.以各种自然语言的基础概念的近义词作为近义附码,当不同自然语言出现近义词对应空缺时,由基础概念词进行近义替换;a5.对于不能用基础概念进行统一表达的自然语言词汇或概念,由对话模板提供空白信息项。
4.根据权利要求1所述的开放式全息模板式人机对话语言翻译方法,其特征在于:所述的步骤c中,当与原文语言符号项对应的同语种某备选信息项中出现有空白时,用户可调用已被***收入的自然语言符号对其进行描述。
5.根据权利要求4所述的开放式全息模板式人机对话语言翻译方法,其特征在于该方法还包括:对由用户扩展的信息项进行使用频率统计,并根据使用频率统计结果确定新增通用基础概念,在翻译***的所有语种的人机对话模板中同步增添自然语言符号项及对应的信息项。
6.根据权利要求1所述的开放式全息模板式人机对话语言翻译方法,其特征在于:所述步骤d的对自动优选结果进行人工调整和确认的方法是由用户在全息对话模板上对不确定信息项进行人工选择。
7.根据权利要求1所述的开放式全息模板式人机对话语言翻译方法,其特征在于:所述步骤b的以句子为对象的人机对话模板是包括有三维空间定位句法的对话框架。
8.根据权利要求1所述的开放式全息模板式人机对话语言翻译方法,其特征在于:所述步骤b的以句子为对象的人机对话模板是虚拟的。
9.根据权利要求3所述的开放式全息模板式人机对话语言翻译方法,其特征在于:对各种自然语言的通约限制方法还包括有a6.以内涵为中心的模糊通约和a7.不考虑词性差异的概念统一通约。
10.根据权利要求1所述的开放式全息模板式人机对话语言翻译方法,其特征在于:所述步骤d中,用户可单项或多项地在全息对话模板上对优选结果进行人工调整和确认选择。
11.一种全息语义标注***,包括:
必要语义信息库,其内存有基本词汇及其概念定义以及句法信息项;
文本输入装置,用于输入待对其进行语义标注的文本;
文本存储装置,用于存储通过文本输入装置输入的文本;
文本显示装置,用于显示存储在文本存储装置中的某一文本;
句子选择装置,用于选择文本显示装置所显示的文本中的某一句子;
句子结构自动分析装置,用于根据统计经验自动分析所选句子的结构;
语义标注模板显示装置,用于显示一语义标注模板,该语义标注模板在通过句子选择装置选择了一个句子时对应于所选择的句子被显示,其内包括有对应于该句子中各词汇的词汇信息要素项和句法信息要素项,词汇信息要素项中显示有对应词汇的在必要语义信息库中所包含的概念定义和所有同义词,而各句法信息要素项则根据所述句子结构自动分析装置分析的结果,显示对应词汇的所有可能的句法信息项,该各句法信息项存储于所述必要语义信息库中;
语义标注装置,用于供人对语义标注模板中的各词汇信息要素项中的概念定义及同义词和各句法信息要素项中的句法信息项进行选择;
标注文本存储装置,用于存储带有标注信息的文本;
标注指令装置,用于指令对文本显示装置显示的文本中的某一句子显示其标注;
标注显示装置,用于以所述标注模板的形式显示存储在标注文本存储装置中的对应于被指令句子的标注信息。
12.根据权利要求11所述的全息语义标注***,其特征在于所述必要语义信息库中相对应地存有多种语种的通约受限的词汇及其概念定义并且相对应地存有多种语种的通约受限的句法信息项。
13、根据权利要求11所述的全息语义标注***,其特征在于在所述的某词汇的词汇信息要素项中还显示必要语义信息库中与该词汇的句法信息项相对应地存储的该指定语种的句法信息项。
14、根据权利要求11所述的全息语义标注***,其特征在于在所述的词汇信息要素项中的内容除所述可供选择的内容外,还可被改为其他用于说明该词汇意义的信息。
CN99804904A 1998-04-06 1999-04-06 开放式全息模板式人机对话语言翻译方法及全息语义标注*** Expired - Fee Related CN1111814C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN98101156.X 1998-04-06
CN 98101156 CN1231453A (zh) 1998-04-06 1998-04-06 全息全选全程模板式人机对话语言翻译方法
CN 98125015 CN1254895A (zh) 1998-11-20 1998-11-20 开放式全息全选全程模板式人机互补语言翻译方法
CN98125015.7 1998-11-20

Publications (2)

Publication Number Publication Date
CN1296588A CN1296588A (zh) 2001-05-23
CN1111814C true CN1111814C (zh) 2003-06-18

Family

ID=25744605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN99804904A Expired - Fee Related CN1111814C (zh) 1998-04-06 1999-04-06 开放式全息模板式人机对话语言翻译方法及全息语义标注***

Country Status (3)

Country Link
CN (1) CN1111814C (zh)
AU (1) AU3324999A (zh)
WO (1) WO1999052041A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598443A (zh) * 2013-10-31 2015-05-06 腾讯科技(深圳)有限公司 语言服务提供方法、装置及***

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100346337C (zh) * 2002-12-27 2007-10-31 联想(北京)有限公司 用于生成业务***信息的开放式自然语言动态生成***
ATE345533T1 (de) * 2003-04-18 2006-12-15 Ibm System und verfahren in einer datentabelle um rekursive, skalierbare schabloneninstanzen herzustellen
US10242667B2 (en) * 2016-06-03 2019-03-26 Maluuba Inc. Natural language generation in a spoken dialogue system
CN110852113B (zh) * 2019-10-10 2023-05-26 林原 翻译方法、装置、设备及存储介质
CN111738024B (zh) * 2020-07-29 2023-10-27 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2848458B2 (ja) * 1986-10-03 1999-01-20 ブリテッシュ・テレコミュニケイションズ・パブリック・リミテッド・カンパニー 言語翻訳システム
JP2814634B2 (ja) * 1989-12-29 1998-10-27 松下電器産業株式会社 機械翻訳装置
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
JP2821840B2 (ja) * 1993-04-28 1998-11-05 日本アイ・ビー・エム株式会社 機械翻訳装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598443A (zh) * 2013-10-31 2015-05-06 腾讯科技(深圳)有限公司 语言服务提供方法、装置及***

Also Published As

Publication number Publication date
AU3324999A (en) 1999-10-25
CN1296588A (zh) 2001-05-23
WO1999052041A1 (fr) 1999-10-14

Similar Documents

Publication Publication Date Title
Miháltz et al. Methods and results of the Hungarian WordNet project
JP7106802B2 (ja) リソースソート方法、ソートモデルをトレーニングする方法及び対応する装置
CN103314369B (zh) 机器翻译装置和方法
CN116244344B (zh) 基于用户需求的检索方法、装置以及电子设备
Mo Design and Implementation of an Interactive English Translation System Based on the Information‐Assisted Processing Function of the Internet of Things
CN1492354A (zh) 多国文字信息搜索方法和多国文字信息搜索引擎***
CN111291573A (zh) 有向图意义导向模型驱动的短语语义挖掘方法
CN201255881Y (zh) 实现多语种信息交流的***
CN1111814C (zh) 开放式全息模板式人机对话语言翻译方法及全息语义标注***
CN117010398A (zh) 一种基于多层知识感知的地址实体识别方法
Song et al. VoiceQuerySystem: A voice-driven database querying system using natural language questions
Qian et al. Ontological approach for Chinese language interface design
Akerkar et al. Natural Language Interface Using Shallow Parsing.
Ji et al. Design of English Translation Software Based on Improved GLR Algorithm
Shen et al. SPSQL: Step-by-step parsing based framework for text-to-SQL generation
CN1088011A (zh) 多文种电子文稿的模板校对方法和装置
Zou [Retracted] Analysis of Machine Translation and Post‐Translation Editing Ability Using Semantic Information Entropy Technology
CN1417707A (zh) 一种自然语言语义信息统一编码方法
Liu et al. Review and prospect of research on ancient book information processing in China
Ghayoomi Training vs post-training cross-lingual word embedding approaches: A comparative study
CN1231453A (zh) 全息全选全程模板式人机对话语言翻译方法
Prasad et al. Developing spell check and transliteration tools for Indian regional language–Kannada
JP3768157B2 (ja) 他言語オントロジー辞書利用装置及び方法並びにプログラム
Radovanovic Introducing Natural Language Interface to Databases for Data-Driven Small and Medium Enterprises: This paper summarizes major challenges and current approaches in the context of constructing Natural Language Interfaces to Databases for data-driven small and medium enterprises.
Li et al. WAAC: An End-to-End Web API Automatic Calls Approach for Goal-Oriented Intelligent Services

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee