CN1174332C - 转换表达方式的方法和装置 - Google Patents

转换表达方式的方法和装置 Download PDF

Info

Publication number
CN1174332C
CN1174332C CNB011162368A CN01116236A CN1174332C CN 1174332 C CN1174332 C CN 1174332C CN B011162368 A CNB011162368 A CN B011162368A CN 01116236 A CN01116236 A CN 01116236A CN 1174332 C CN1174332 C CN 1174332C
Authority
CN
China
Prior art keywords
sentence
key word
key
expression way
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB011162368A
Other languages
English (en)
Other versions
CN1319836A (zh
Inventor
胁田由实
松井谦二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1319836A publication Critical patent/CN1319836A/zh
Application granted granted Critical
Publication of CN1174332C publication Critical patent/CN1174332C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种表达方式转换方法,其中对于在语言资料库中的每个句子,从句子中选择关键字,从在所选择的关键字中的预定数量的关键字组合中识别处于共存关系的关键字组合,以及将从其中选择关键字的句子所转换成的表达方式和所识别的关键字组合事先关联,和其中从输入的句子中选择预定的关键字,组合所选择的关键字,比较每个句子的关键字的组合和先前所识别的关键字组合,选择与所比较结果一致或高度类似的一个或多个的句子,并输出所选择的句子所转换成的表达方式。

Description

转换表达方式的方法和装置
技术领域
本发明涉及一种转换输入句子的表达方式并输出经过转换的输入句子的表达方式的表达方式转换方法、表达方式转换装置以及程序,例如,一种执行语言转换比如书面语翻译或口语翻译、将书面语言转换为口语语言的句子模式转换或概述一个复杂或冗长的句子并输出概要的概要生成的表达方式转换方法、表达方式转换装置以及程序。
背景技术
下文以翻译软件程序作为常规技术的实例。
翻译软件程序包括语音识别装置和语言翻译装置,并通过如下的方式实现翻译:连续地执行语音识别以将以声音信号输入的声音句子转换为以文字串表示的输出句子,并连续地执行作为表达方式转换的语言翻译以将以文字串表示的输入句子翻译成另一种语言的句子。
按如上所描述的方式执行语言翻译的语言翻译装置包括分析输入句子的语法或语义结构的语言分析装置、基于所分析的结果将输入句子转换成另一种语言的语言转换装置以及从所翻译的结果中产生自然语言输出句子的输出句子生成装置。
在口语翻译软件程序以及一些书面翻译软件程序中,为正确地翻译不符合语法的不规则的表达方式(经常应用在口语中),经常应用这样的一种技术:依据语法规则并不能进行语法分析,但是可以学习类似于实际输入的句子的例句,并且可以搜索类似的例句以进行语言分析。参看在附图8中所示的实例来描述这种常规的翻译软件程序的实例。
在此描述将日语声音的句子翻译成英语声音的句子情况实例。要翻译的语言称为原始语言,原始语言所翻译成的语言称为目标语言。
在进行翻译之前,从附图8的双语言资料库1中提取声音语言的规则。在双语言资料库中1中,写有许多双语言声音例句,这些双语言声音句子每个都包括一对彼此对等的日语声音例句和英语声音例句。在附图9-1(a)中所示的在双语言资料库1中所写的双语言声音例句的实例为双语言声音例句70。
在此考虑这样的情况:当发出该句子的声音时遗漏或错误地识别了某些字词,将每个声音例句都分成最小的单元作为语义单元(下文中称为短语),并生成短语规则和短语间的依赖关系规则。
首先,短语确定装置61将双语言声音例句分成短语。在附图9-1(b)中,示出了所获得双语言短语作为双语言短语(A)71和双语言短语(B)72。
然后,双语言短语字典产生部分62以一定格式建立相关的短语字典62,在该字典中将在短语中的内容字转换为变量。
例如,在附图9-1(a)中所示的双语言声音例句70包括声音例句“Heya noyoyakuo onegai shitain desuga(部屋の予約をお願いしたいんですが)”和“I’d like to reserve a room,”将该例句划分为如下的两个双语言短语:(A)“heya no yoyaku(部屋の予約)”以及“reservea room”作为双语言短语(A)71;以及(B)“onegai shitain desuga(お願いしたいんですが)”和“I’d like to”作为双语言短语(B)72。
通过应用如在附图9-2(e)中所示前文中所产生的分类词汇表64,内容字比如“heya(部屋)”、“yoyaku(予約)”以及“onegai(お願い)”都分别以变量X、Y和Z表示。在此所分类的词汇表64是一种列出了内容字的表,变量将内容字作为它们的值。例如,变量X取值比如“heya(部屋)”或“kaigishitsu(会議室)”或“kuruma(車)”,内容字“heya(部屋)”是变量X可以取的值。因此,双语言短语(A)71的内容字“heya(部屋)”可以以变量X替换。
在这种方式中,两个双语言短语规则(A)“X no Y(XのY)”“YX”以及(B)“Z shitain desuga(Zしたいんですが)”“I’d like to”都写在双语言短语字典62中。
如附图9-2(d)所示,为了将短语的顺序关系作为短语间规则63的规则,短语间关系比如“(A)o(B)((A)を(3))”“(B)(A)”都存储在短语间规则表63中。在双语言资料库1中执行对所有的声音句子的这种处理。
在执行翻译的过程中,首先将原始语言声音输入到语音识别装置64中。语音识别装置64输出在声音上最类似的字串作为语音识别选择,例如从在双语言短语字典62中所书写的字串中输出作为从以短语间规则63书写的短语串中能够推测的短语和字串。
语言翻译装置65接收以这种方式识别的连续字串、将所输入的连续的字串转换成在双语言短语字典62中所书写的短语串并搜索与每个短语串相对应的短语间规则63。然后语言翻译装置65基于与每个短语对等的目标语言短语和目标语言的短语间规则将输入的原始语言识别结果句子转换为目标语言句子。
将所获得的目标语言句子以输入到输出句子生成装置66中,输出句子生成装置66校正不符合语法的目标语言句子。例如,输出句子生成装置66执行处理比如代词、动词和助动词的优化(例如转化到第三人称的形式、复数形式或过去式的形式)和整个句子的结构的优化。经过校正后的目标语言翻译结果句子例如作为文本输出。
然而,常规的翻译软件程序虽然具有能够处理不符合语法的输入的句子的优点,但是由于它们存在这样的问题,即各种各样的不同的双语言短语及其组合在书写他们时写为规则,因此翻译规则复杂并且错误极多,因此程序需要大量的时间来进行处理。
此外,复杂的规则需要通过输出句子产生部分来进行语法检查;特别是相对于零代词(zero pronouns)***,还没有一种能够完整且正确地***零代词的技术,有时错误地执行***。
此外,当由于声音识别误差等造成将部分不正确的句子输入到语言翻译部分中,由于基于错误的短语内和短语间的规则进行语言转换,所以输出的翻译结果根本不能表达原始意义。
发明内容
考虑上述的问题,本发明的一个目的是提供一种在结构上紧密并能够高速地处理的表达方式转换方法、表达方式转换装置以及程序。
考虑上述的问题,本发明的另一个目的是提供一种表达方式转换方法、表达方式转换装置以及程序,即使在由于语音识别错误等造成错误地识别输入句子的除了关键字部分以外的部分时,该表达方式转换方法、表达方式转换装置以及程序也能够输出正确地传达意图的结果而不会造成输出句子的意义相反。
考虑上述的问题,本发明的另一个目的是提供一种表达方式转换方法、表达方式转换装置以及程序,即使在由于语音识别错误等造成错误地识别部分输入句子时,该表达方式转换方法、表达方式转换装置以及程序也能够避免常规的问题:即输出根本不能表达句子意义的结果。
本发明的第一方面是一种表达方式转换方法,其中对于在语言资料库中的每个句子,从句子中选择关键字,从在所选择的关键字中的预定数量的关键字组合中识别处于共存关系的关键字组合,以及将从其中选择关键字的句子所转换成的表达方式和所识别的关键字组合事先关联,和
其中从输入的句子中选择预定的关键字,组合所选择的关键字,比较每个句子的关键字的组合和先前所识别的关键字组合,选择与所比较结果一致或高度类似的一个或多于一个的句子,并输出所选择的句子所转换成的表达方式。
本发明的第二方面是一种表达方式转换方法,其中通过应用分类信息,在分类信息中基于预定的特性事先对关键字进行分类并且给每个分类提供名称,对于在语言资料库中的每个句子,从句子中选择关键字,从在所选择的关键字所属的分类中的预定数量的分类组合中识别处于共存关系的关键字组合,以及将从其中选择关键字的句子所转换成的表达方式和所识别的分类组合事先关联,和
其中从输入的句子中选择预定的关键字,组合所选择的关键字所属的分类,比较每个句子的分类的组合和先前所识别的分类组合,选择与所比较结果一致或高度类似的一个或多于一个的句子,并输出所选择的句子所转换成的表达方式。
本发明的第三方面是一种表达方式转换方法,其中对于在语言资料库中的每个句子,从句子中选择关键字,从在所选择的关键字中的预定数量的关键字组合中识别处于共存关系的关键字组合,以及将从其中选择关键字的句子所转换成的表达方式和所识别的关键字组合事先关联,
其中通过应用分类信息,在分类信息中基于预定的特性事先对关键字进行分类并且给每个分类提供名称,所识别的关键字组合与分类组合关联由此识别句子的分类组合,以及
其中从输入的句子中选择预定的关键字,组合所选择的关键字所属的分类,比较每个句子的分类组合和先前所识别的分类组合,选择与所比较结果一致或高度类似的一个或多于一个的句子,并输出所选择的句子所转换成的表达方式。
本发明的第四方面是一种表达方式转换装置,包括:
关联装置,对于在语言资料库中的每个句子,该关联装置用于从句子中选择关键字、从在所选择的关键字中的预定数量的关键字组合中识别处于共存关系的关键字组合以及将所识别的关键字组合和从其中选择关键字的句子所转换成的表达方式事先关联;以及
转换装置,该转换装置用于从输入句子中选择预定的关键字、组合所选择的关键字、比较每个句子的关键字组合和事先所识别的关键字组合、选择与比较结果相一致或高度相似的一个或多于一个句子以及输出所选择的句子被转换成的表达方式。
本发明的第五方面是根据本发明的第四方面的表达方式转换装置,其中与比较结果相关程度较高时,在从所选择的表达方式中删除关键字所转换成的部分之后所说的转换装置输出所选择的表达方式,所说的关键字属于不一致的关键字组合并且不包括在一致的关键字组合中。
本发明的第六方面是根据本发明的第四方面的表达方式转换装置,其中句子所转换成的所说的表达方式仅包括关键字或与该关键字等效的词。
本发明的第七方面是一种表达方式转换装置,包括:
关联装置,通过应用分类信息,在分类信息中基于预定的特性事先对关键字进行分类并且给每个分类提供名称,对于在语言资料库中的每个句子,该关联装置从句子中选择关键字、从在所选择的关键字所属的分类中的预定数量的分类组合中识别处于共存关系的分类组合以及将所识别的分类组合和从其中选择关键字的句子所转换成的表达事先关联;以及
转换装置,该转换装置用于从输入句子中选择预定的关键字、组合所选择的关键字所属的分类、比较每个句子的分类组合和事先所识别的分类组合、选择与比较结果相一致或高度相似的一个或多个句子以及输出所选择的句子被转换成的表达方式。
本发明的第八方面是一种表达方式转换装置,包括:
关联装置,对于在语言资料库中的每个句子,该关联装置用于从句子中选择关键字、从在所选择的关键字中的预定数量的关键字组合中识别处于共存关系的关键字组合以及将所识别的关键字组合和从其中选择关键字的句子所转换成的表达事先关联,和
通过应用分类信息,在分类信息中基于预定的特性事先对关键字进行分类并且给每个分类提供名称,该关联装置将所识别的关键字组合与分类组合关联起来由此识别句子的分类组合;以及
转换装置,该转换装置用于从输入句子中选择预定的关键字、组合所选择的关键字所属的分类、比较每个句子的分类组合和事先所识别的分类组合、选择与比较结果相一致或高度相似的一个或多个句子以及输出所选择的句子被转换成的表达方式。
本发明的第九方面是根据本发明的第七或第八方面的表达方式转换装置,其中与比较结果相关程度较高时,在从所选择的表达方式中删除关键字所转换成的部分之后所说的转换装置输出所选择的表达方式,所说的关键字属于不一致的关键字组合并且不包括在一致的关键字组合中。
本发明的第十方面是根据本发明的第七或第八方面的表达方式转换装置,其中句子所转换成的所说的表达方式仅包括分类。
接着描述本发明的操作。
依据本发明,通过从输入句子中抽取关键字、通过应用所抽取的关键字将输入的句子转换为表示相同意义的标准的或简化的表达句子并输出该表达句子,可以使转换规则和句子产生规则简洁,因此可以应用简单的处理来执行表达方式转换。此外,即使当输入除了关键字以外的部分有错误的句子时,也能够将所输入的句子转换成可以正确理解意义的表达方式,因此可以解决通常的问题:即输出有错误部分的表达方式的转换结果的问题。
此外,依据本发明,通过抽取如下的字作为关键字:包括在输入句子中的某些内容字或为某些内容字所转换成的字,以及产生包括从输入的句子中所推测的句子意义所决定的表达方式和关键字的组合的标准或简化的表达句子,可以使转换规则和句子产生规则简洁,因此可以应用简单的处理来执行表达方式转换。此外,即使当输入除了关键字以外的部分有错误的句子时,也能够将所输入的句子转换成可以正确理解意义的表达方式,因此可以解决通常的问题:即输出有错误部分的表达方式的转换结果的问题。
此外,依据本发明,通过从输入句子中抽取关键字、从在所抽取的关键字或共存关系之间的共存关系中推测句子意义以及仅从关键字或关键字的等效词中所确定的字和所推测的意思的组合中产生标准的或简化的表达句子,可以使转换规则和句子产生规则简洁,因此可以应用简单的处理来执行表达方式转换。此外,即使当输入除了关键字以外的部分有错误的句子时,也能够将所输入的句子转换成可以正确理解意义的表达方式,因此可以解决通常的问题,即输出有错误部分的表达方式转换结果的问题。
此外,依据本发明,本发明除了上文所述的效果之外,通过事先产生关联输出标准或简化的表达模式、与该模式相对应的关键字组以及在关键字组或共存关系之间的共存关系的实例数据库、从输入句子中抽取关键字组、从实例数据库中选择包括与所抽取的关键字组最类似的关键字组的表达模式以及输出所选择的例句,还能够精确地忠于实际输入的句子的种类、意义范围以及句子模式来执行表达方式转换。
此外,依据本发明,在实例数据库中所写的每个表达模式都仅由关键字或关键字的等效词组成,因此能够改善效果。
此外,依据本发明,本发明除了上述效果之外,通过描述在实例数据库中所写的表达模式,关键字组以及在处于共存关系中的关键字或关键字组之间的共存关系是包括关键字的字的分类描述,即使当输入没有包括在实例数据库中的关键字时,可以选择适当的例句,因此能够实现能够处理更多种类的输入句子的表达方式转换。
此外,依据本发明,本发明除了上述效果之外,通过从输入句子中抽取关键字、从在所抽取的关键字之间的关系中推测输入的错误字、从除了被推测为错误的词的关键字以外的关键字中推测句子意义以及从通过所推测的句子意义中所确定的字组合中产生标准的或简化的表达方式,即使当关键字有错误时,根据错误的严重程度,也能够将所输入的句子转换成可以正确理解意义的表达方式或通知使用者该意义不能理解,因此可以解决通常的问题,即输出有错误部分的表达方式的转换结果的问题。
附图说明
附图1所示为依据本发明的第一实施例的翻译装置的视图;
附图2(a)所示为在本发明的第一实施例中所使用的实例DB的实例和双语言关键字的实例的视图;
附图2(b)所示为在本发明的第一实施例中所使用的所标记的语言资料库的实例;
附图3所示为在本发明的第一实施例中所使用的实例DB的视图;
附图4所示为依据本发明的第二翻译装置的视图;
附图5(a)所示为在本发明的第二实施例中所使用的分类词汇表的视图;
附图5(b)所示为在本发明的第二实施例中所侵用的实例DB的视图;
附图6所示为本发明的第三实施例的翻译装置的视图;
附图7所示为在本发明的第三实施例中所使用的实例DB的视图;
附图8所示为常规的翻译装置的结构视图;
附图9-1(a)所示为常规的双语言声音例句的实例;
附图9-1(b)所示为常规的双语言短语的实例视图;
附图9-1(c)所示为常规的双语言短语字典的实例视图;
附图9-2(d)所示为常规的短语间规则的实例视图;
附图9-2(e)所示为常规的分类词汇表的实例视图;
附图10(a)所示为在本发明的第一实施例中将英语句子转换到日语句子的情况中所使用的实例DB的例子和双语言关键字字典的例子的视图;
附图10(b)所示为在本发明的第一实施例中将英语句子转换到日语句子的情况中所使用的标记的语料库的实例的视图;
附图11(a)所示为在本发明的第二实施例中将英语句子转换到日语句子的情况中所使用的分类词汇表的实例的视图;
附图11(b)所示为在本发明的第二实施例中将英语句子转换到日语句子的情况中所使用的实例DB的视图;
附图12所示为在本发明的第三实施例中将英语句子转换到日语句子的情况中所使用的实例DB的视图;
附图13(a)所示为在本发明的第一实施例中将汉语句子转换到日语句子的情况中所使用的实例DB的例子和双语言关键字字典的例子的视图;
附图13(b)所示为在本发明的第一实施例中将汉语句子转换到日语句子的情况中所使用的标记的语料库的实例的视图;
附图14(a)所示为在本发明的第二实施例中将汉语句子转换到日语句子的情况中所使用的分类词汇表的实例的视图;
附图14(b)所示为在本发明的第二实施例中将汉语句子转换到日语句子的情况中所使用的实例DB的视图;
附图15所示为在本发明的第三实施例中将汉语句子转换到日语句子的情况中所使用的实例DB的视图;
具体实施方式
下文参考附图描述本发明的实施例。
(第一实施例)
首先描述第一实施例。在第一实施例中,描述这样的一种翻译装置,该翻译装置将通过声音输入的原始语言的句子(下文中将要进行表达方式转换的句子称为原始语言句子)转换为在另一种语言中的目标语言的句子(下文中将经过表达方式转换的句子称为目标语言的句子)。
附图1所示为依据本发明的一个实施例的翻译装置的结构。
本实施例的翻译装置包括标记的语料库1、依赖关系分析装置2、实例DB3、语音识别装置4、关键字抽取装置5、例句选择装置7、输出句子生成装置8以及双语言关键字字典6。
标记的语料库1为在其中将意义标签加入到每个双语言句子中的双语言资料库。
依赖关系分析装置2通过分析在标记的语料库1中的每个双语言句子的关键字之间的共存关系来产生实例DB 3。
在实例DB 3中,在例句中将代表在原始语言句子的关键字之间的共存关系的关键字对与目标语言句子关联起来,并将这些例句存储起来。
语音识别装置4从声音上识别作为原始语言句子的声音并输出字串选择。
关键字抽取装置5从语音识别装置4中接收字串选择,并从字串选择中抽取预定的关键字。
例句选择装置7将通过组合在输入句子中的关键字所得的关键字对与在实例DB3中的每个例句中的关键字对进行比较、选择最大数量的关键字对包括在输入句子中的例句作为其意义与所输入的句子的意义最接近的例句以及输出所选择的例句。
输出句子生成装置8校正输出例句的不符合语法性并例如以文字的形式或声音的形式输出经校正的例句作为目标语言句子。
在双语言关键字字典6中,在原始语言(下文中称要进行表达方式转换的语言为原始语言)中的关键字及其关键字在目标语言(在下文中称经过表达方式转换的句子的语言为目标语言)中的对等词都配对并存储。
接着描述如上文所描述的结构的本实施例的操作。
本实施例的翻译装置在执行翻译之前需要做如下的工作:确定关键字的内容和在关键字组和目标语言表达模式之间的对应关系;将关键字在目标语言中的对等词写在双语言关键字字典6中;以及将在关键字组和目标语言表达模式之间的对应关系写在实例DB 3中。
为做这些,首先,对于每个输入的句子的意义,代表意义的关键字和应用该关键字的表达模式都可以由开发者手工确定。可替换的是,执行如下的步骤:将意旨标签加入到在双语言资料库中的每个双语言句子中,依据该意旨对双语言资料库进行分类,将在句子意义中共有的字选择作为关键字选择,以及通过开发者检查关键字选择来半自动地确定关键字和表达模式。句子意义指的是表达类似的意旨的一个句子或多个不同的句子的一单元。双语言资料库是一种例句数据库,在该数据库中存储有各种各样的双语言句子。每个双语言的句子都包括彼此相关联的原始语言的句子和目标语言的句子。
从通过上述任一方法所确定的关键字和表达模式中生成用于转换的双语言关键字字典和实例DB。附图2(a)所示为在原始语言为日语和目标语言为英语的情况(即本实施例的翻译装置将日语语音转换为英语语音)中所使用的双语言关键字字典6的实例和实例DB 3的实例。
在附图2(a)的双语言关键字字典6的实例中,作为日语单词“kohi(コ一ヒ一)”的对等词,英语单词写为“coffee”,作为日语单词“miruku(ミルク)”的对等词,英语单词写为“milk”。作为不能通过单个的英语单词表示的日语单词“onegai(お願い )”的对等词,在要写入的英语对等词中写入“*。
在附图2(a)的实例DB 3的实例中,关键字组“kohi(コ一ヒ一)”和“onegai(お願い)”与目标语言表达模式“I’d like to coffee please”关联起来。同样地,关键字组“tsumetai(冷たい)”、“miruku(ミルク)”和“ari(あり)”都与目标语言表达模式“Do you have a cold milk?”相关。
此外,在附图2(a)的实例DB 3的实例中,在每个关键字中,关键字配对类似于(kohi(コ一ヒ一)→miruku(ミルク))。与这类似,在实例DB 3中写入的关键字无一例外地配对。这些关键字对每个都表示在该关键字之间的共存关系,并通过依赖关系分析装置2以如下的方式生成:
首先,依赖关系分析装置2对在标记的语料库1中的原始语言句子进行关系结构分析以将每个短语的依赖关系结构分类。当存在处于在依赖结构关系中的共存关系中的一对关键字时,将其信息加入到在实例DB 3中的对应的关键字和表达模式对中。具体地说,由于关键字关键字“kohi(コ一ヒ一)”和“onegai(お願い)”对于原始语言句子“kohi onegai(コ一ヒ一お願い)”是处于共存关系,如附图2(a)所示,加入共存关系如“(kohi(コ一ヒ一)→onegai(お願い)”,这里关键字成对。
这样,从标记的语料库1中产生如附图2(a)中所示的实例DB 3和双语言关键字字典6,并将在关键字之间的共存关系加入到实例DB 3中。
接着,描述通过应用以上述方式先前所生成的双语言关键字字典6和实例DB 3来执行翻译的操作。
在执行翻译的过程中,首先,语音识别装置4在声音上识别输入原始语言的语音并输出作为识别结果的字串选择。然后,将识别结果输入到关键字抽取装置5中。例如,当输入的原始语音为“Tsumetai kohi arimasuka?(冷たいコ一ヒ一ありますか?)”,作为语音识别的结果,识别结果句子“Tsumetai kohi arimasuka?(冷たいコ一ヒ一ありますか?)”输出到关键字抽取装置中。
然后,关键字抽取装置5从识别结果句子中抽取预定的关键字,并将所抽取的关键字输出到例句选择装置7中。例如,从识别结果句子“Tsumetai kohiarimasuka?(冷たいコ一ヒ一ありますか?)”中,关键字抽取装置5抽取三个关键字“tsumetai(冷たい)”、“kohi(コ一ヒ一)”和“ari(あり)”。
然后,例句选择装置7通过组合从关键字抽取装置5中输出的输入句子中的关键字来产生在输入句子中的关键字对。然后,例句选择装置7将在输入句子中的关键字对在实例DB 3中的每个例句中的关键字对进行比较,选择在输入句子中包括最多数量的关键字对的例句作为与输入句子的意义最接近的例句,并输出所选择的例句。
例如,对在输入句子中的三个关键字“tsumetai(冷たい)”、“kohi(コ一ヒ一)”和“ari(あり)”进行组合以生成三个关键字对“(tsumetai(冷たい)→kohi(一ヒ一))”、“(kohi(コ一ヒ一)→ari(あり))”和“(tsumetai(冷たい)→ari(あり))”。
然后,将在输入句子中的关键字对与在实例DB 3中的第一例句中的关键字对进行比较。在第一例句中的关键字对为“(kohi(コ一ヒ一)→onegai(お願い)”,在输入句子中没有一个关键字对包括在第一例句中。
然后,在输入句子中的关键字对与在实例DB 3中的第二例句中的关键字对进行比较。在第二例句中存在两个关键字对“(tsumetai(冷たい)→miruku(ミルク))”和“(miruku(ミルク)→ari(あり))”。虽然都包括了在输入句子中的关键字对“(tsumetai(冷たい)→miruku(ミルク))”和“(miruku(ミルク)→ari(あり))”,但是并不包括“(tsumetai(冷たい)→ari(あり))”。因此,第二例句包括两个输入句子的关键字对。
假设在这种方式中作为在输入句子中的关键字对与在实例DB3中的所有例句的关键字对进行比较的结果,第二例句包括在输入句子中的最多数量的关键字对。然后选择第二例句作为与该输入句子的意义最近似的例句并输出该句子。这就是说从例句选择装置7中输出目标语言表达模式“Do you have a coldmilk?”。
虽然在附图1中示出了输出句子生成装置8,但是并不是必需提供该输出句子生成装置8,通过将从例句选择装置7中输出的目标语言表达模式输出到外部,该装置可以用作翻译装置。
如上文所描述,依据本实施例,事先产生实例DB 3,在该实例DB 3中输出目标语言句子的标准或简化的表达模式、与该模式对应的关键字组以及在关键字之间的共存关系都关联起来,并从该输入句子中抽取关键字,从该实例DB3选择包括与所抽取的关键字组最近似的关键字组的表达模式,并输出所选择的表达模式。因此,即使在形成输出句子生成装置8的情况下,输出句子生成装置8应用转换规则和句子产生规则以对不符合语法的地方进行修正:代词、动词和助动词的优化(例如转换成第三人称的形式、复数的形式或过去形式);零代词的***以及句子的整体结构的优化,因此能够使转换规则和句子生成规则简洁,因此以较高的速度简单的处理来执行表达方式转换。
此外,即使在输入除了关键字以外的部分中存在错误的句子时,也能够将所输入的句子转换成能够正确地理解其意义的表达方式,因此能够解决这样的常规问题,即输出存在错误部分的表达方式转换结果。例如,即使在输入句子比如“Tsumetai miruku etto arimasuka(冷たいミルクえ一つとありますか)”或“Tsumetaino miruku arimasuka(冷たいのミルクありますか)”除了关键字“etto(え一つと)”或“no(の)”之外的部分有错误时,仍然能够将输入句子转换成其意义可以正确理解的表达方式比如“Do you have a cold milk?”
虽然在本实施例中描述的是通过例句选择装置3仅选择一个例句的情况,但是当多于一个的例句具有与将所抽取的关键字与在实例DB 3中的句子实例中的关键字对进行比较的结果相同的近似程度时,输出多个例句。
如附图3所示在先前所产生的实例DB 3中所写入的表达模式仅由关键字组成的情况下,不需要提供输出句子生成装置8,或者当提供输出句子生成装置8并应用转换规则和句子生成规则时,可以进一步使转换规则和句子生成规则简洁,因此可以实现更高效率的翻译装置。
(第二实施例)
接着,描述第二实施例。
附图4所示为依据本发明的一个实施例的翻译装置的结构。
实例DB11与第一实施例的实例DB的不同之处在于对关键字进行分类并替换为表示分类的意义代码。
在分类的词汇表12中,每个关键字都分配表示该关键字所属的分类的意义代码。
字分类装置13基于在所分类的词汇表12中的意义代码将在实例DB11中的关键字、成共存关系的关键字对以及包括在转换规则中的关键字替换为意义代码,由此对该关键字进行分类,并基于在词汇表中的意义代码通过关键字抽取装置5将所抽取的关键字替换为意义代码,由此对该关键字进行分类。
例句选择装置14将在输入句子中的关键字分类与在每个例句中的关键字分类对进行比较,并选择在输入句子中包括最多数量的关键字分类对的例句作为与所输入的句子的意义最接近的例句。
输出生成装置15将在所选择的例句中的关键字分类返回到包括在相同的分类中的输入的关键字中并输出该关键字。
除了这些以外,该结构都与第一实施例的结构相同。
接着,描述如上文所构造的实施例的操作。
在本的实施例的翻译装置中,与第一实施例类似,在执行翻译之前,确定关键字的内容和在关键字组和目标语言表达模式之间的对应关系并将其写入到双语言关键字字典16和实例DB11中。然后,依赖关系分析装置2类似地将在依赖结构关系中处于共存关系的关键字对加入到表达模式对中。
此外,字分类装置13基于在所分类的词汇表12中的意义代码将在实例DB11中的关键字、成共存关系的关键字对以及包括在转换规则中的关键字替换为意义代码,由此对该关键字进行分类。
附图5(a)所示为所分类的词汇表12的实例。附图5(b)所示为实例DB11。
在附图5(a)所示的所分类的词汇表12中,表示饮料比如“kohi(コ一ヒ一)”的意义代码为100,表示饮料状况比如“tsumetai(冷たい)”的意义代码为200。与之类似,通过所指定的意义代码对在所分类的词汇表12中的每个关键字进行分类。
在附图5(b)中所示的实例DB11的实例中,应用给在分类的词汇表12中中的关键字指定的意义代码,通过意义代码表示在第一实施例中所描述的附图2的实例DB3的实例中出现的关键字。
接着,描述通过应用以上文所述的方式先前所生成的实例DB11和双语言关键字字典16来执行翻译的操作。
在执行翻译的过程中,首先,将原始语音输入到语音识别装置4,语音识别装置4在声音上识别输入原始语言的语音并输出作为识别结果的字串选择。然后,将识别结果输入到关键字抽取装置5中。
然后,关键字抽取装置5从识别结果句子中抽取预定的关键字。
然后,字分类装置13基于在分类的字意义12中的意义代码将所抽取的关键字以该意义代码替换由此将对该关键字进行分类。
然后,例句选择装置14通过组合从在输入句子中通过字分类装置13所分类的关键字的分类来产生在输入句子中的关键字分类对。然后,例句选择装置14将在输入句子中的关键字分类对在实例DB11的每个例句中的关键字分类对进行比较,选择在输入句子中包括最多数量的关键字分类对的例句作为与输入句子的意义最接近的例句。
输出句子生成装置15将在通过例句选择装置14所选择的例句中的关键字分类返回到包括在相同的分类中的输入关键字中,通过应用双语言关键字字典16以所输入的关键字的对等词来替换该关键字并输出它们。
虽然在本实施例中描述的是通过例句选择装置14仅选择一个例句的情况,但是当多于一个的例句具有与将所抽取的关键字与在实例DB3中的句子实例中的关键字对进行比较的结果相同的近似程度时,输出多个例句。
如上文所描述,依据本实施例,事先产生实例DB11,在该实例DB11中输出目标语言句子的标准或简化的表达模式、与该模式对应的关键字分类组以及在关键字分类组之间的共存关系都关联起来,并从该输入句子中抽取关键字,基于分类词汇表12对所抽取的关键字进行分类,从该实例DB11选择包括与所分类的关键字组最近似的关键字分类组的表达模式,并将所分类的关键字返回到原始关键字并输出,因此与第一实施例一样能够使转换规则和句子生成规则简洁,并以简单的处理来执行表达方式转换。
此外,即使在输入除了关键字以外的部分中存在错误的句子时,也能够将所输入的句子转换成能够正确地理解其意义的表达方式,因此能够解决这样的常规问题,即输出存在错误部分的表达方式结果的问题。
此外,通过进行关键字分类,对于没有包括在例句中的新的输入句子可以输出正确的翻译结果,因此可以实现一种以较小的实例数据库处理各种各样的输入的句子的翻译装置。
在本实施例中,在进行翻译之前需要做如下的工作:确定关键字的内容和在关键字组和目标语言表达模式之间的对应关系并写在双语言关键字字典16和实例DB11中,将处于在依赖结构关系中的共存关系中的关键字对也加入到表达模式对中,然后。基于在所分类的词汇表12中的意义代码将在实例DB11中的关键字、成共存关系的关键字对以及包括在转换规则中的关键字替换为意义代码,由此对该关键字进行分类。然而,本发明并不限于这些,还执行如下的步骤:在进行翻译之前,对于在所标记的语料库1中的每个句子,通过应用分类的词汇表12以意义代码替换在该句子中的关键字,从在意义代码的预定数量的意义代码的组合中,识别处于共存关系中的意义代码的组合,并将所识别的意义代码和从其中选择意义代码的句子所转换成的表达方式事先关联。
(第三实施例)
接着,描述第三实施例。与第一和第二实施例一样,以一翻译装置作为实例来描述第三实施例。
附图6所示为本实施例的翻译装置的结构。
例句选择装置21除了执行第一实施例的例句选择装置7的功能外还对在实例DB3中的关键字对和所抽取的关键字组进行比较,并根据推测选择例句,即根据在所抽取的关键字中基于共存关系形成了关键字对的关键字而没有一个其它的关键字是错误地识别的字。
除了这一点外,该结构与第一实施例的结构相同。
接着描述如上文所描述的结构的本实施例的操作。
在本实施例的翻译装置中,与第一实施例一样,在执行翻译之前需要做如下的工作:确定关键字的内容和在关键字组和目标语言表达模式之间的对应关系并写入在双语言关键字字典6和实例DB3中,还将在关键字之间的共存关系写到实例DB3中。
接着,描述执行翻译的步骤。
在执行翻译的过程中,首先,将原始语音输入到语音识别装置4,语音识别装置4在声音上识别输入原始语言的语音并输出作为识别结果的字串选择。
关键字抽取装置接收从语音识别装置4中输出的识别结果并从识别结果句子中抽取预定的关键字。
然后,例句选择装置21将在实例DB3中的关键字对与所抽取的关键字对进行比较并推测在所有的抽取的关键字中基于共存关系形成了关键字对的关键字同时没有一个其它的关键字是被错误地识别的字。
然后通过应用除了被推测为错误地识别的关键字以外的关键字,例句选择装置21选择与输入句子的意义最接近的例句并与第一实施例一样输出所选择的例句。
附图7所示为这样的一个实例,在该实例中将“atsui miruku(熱いミルク)”输入到语音识别装置4,语音识别装置4错误地将其识别为“aoimiruku(青いミルク)”,这就是说虽然将声音“atsui miruku ha arimasuka(熱いミルクはありますか)”输入到语音识别装置4中,但是语音识别装置4错误地识别它,并输出识别结果句子“Aoi miruku ha arimasuka(青いミルクはありますか )”。
此外,在附图7的实例DB3的实例中,“kohi(コ一ヒ一)”和“onegai(お願い)”的关键字组构成了关键字对“kohi(コ一ヒ一)→onegai(お願い)”,目标语言表达模式“Coffee please”与其相对应。此外,“atui(熱い)”、“miruku(ミルク)”和“ari(あり)”的关键字组包括关键字对“(atui(熱い)→miruku(ミルク))”和“(miruku(ミルク)→ari(あり))”,目标语言表达模式“Do you have hot milk?”与其相对应。
如上所述当语音识别装置4错误地识别所输入的语音时,关键字抽取装置5接收识别结果句子“Aoi miruku ha arimasuka(青いミルクはありますか)”,并抽取三个关键字“aoi(青い)”、“miruku(ミルク)”和“ari(あり)”作为关键字。
在这种情况下,例句选择装置21将通过关键字抽取装置5所抽取的三个关键字“aoi(青い)”、“miruku(ミルク)”和“ari(あり)”组合以产生三个关键字对“aoi(青い)→miruku(ミルク)”、“aoi(青い)→ari(あり)”和“miruku(ミルク)→ari(あり)”,并将它们与在实例DB3中的关键字组进行比较。
这就是说,首先,比较在实例DB3中所写的在第一例句中的关键字对“(kohi(コ一ヒ一)→onegai(お願い))”与通过组合该三个关键字所产生的关键字对进行比较。作为比较结果,不存在与在第一例句中的关键字对“(kohi(コ一ヒ一)→onegai(お願い  ))”一致的关键字对。
然后,比较在实例DB3中所写的在第二例句中的关键字对“atsui(熱い)→miruku(ミルク)”和“miruku(ミルク)→ari(あり)”和通过组合该三个关键字所产生的关键字对。作为比较结果,在通过组合该三个关键字所产生的关键字对中,虽然在第二例句中没有关键字对与“aoi(青い)→miruku(ミルク)”和“aoi(青い)→ari(あり)”一致,但是“miruku(ミルク)→ari(あり)”与在第二例句中的一个关键字对相一致。
这就是说,在实例DB中的第二例句中的关键字对与通过组合该三个关键字所产生的关键字对的近似程度比在第一实施例中的关键字对的近似程度更高。由此,选择第二例句。
此外,在从第二例句中删除目标语言表达方式与下面的关键字相对应的部分之后输出该第二例句:包括在第二例句中的一个关键字对中并与通过组合该三个关键字所产生的关键字对都不一致的关键字,该关键字没有包括在与通过组合该三个关键字所产生的关键字对相一致的一个关键字对中。这就是说,由于“atsui(熱い)”是这样的一个关键字,查阅双语言关键字字典6,将与“atsui(熱い)”相对应的目标语言表达部分即“hot”从“Any hot milk?”中删除并输出句子“Any milk?”。
因此,当三个关键字对“aoi(青い)→miruku(ミルク)”、“aoi(青い)→ari(あり)”和“miruku(ミルク)→ari(あり)”和共存关系即在实例DB3中的关键字对进行比较时,由于与“atsui(熱い)”处于共存关系的字在识别结果中不存在,因此推测“atsui(熱い)”被错误地识别了,如上所述输出句子“Any milk?”。
虽然在本实施例中描述的是通过例句选择装置21仅选择一个例句的情况,但是当多于一个的例句具有与将所抽取的关键字与在实例DB 3中的句子实例中的关键字对进行比较的结果相同的近似程度时,输出多个例句。
在本实施例中的例句选择装置21的功能并不限于上述的功能,它还可以分为错误识别选择装置和句子选择装置。在这种情况下,错误识别字推测装置通过对从识别结果中抽取的关键字组与在实例DB3写入的关键字对进行比较,推测错误识别的字,而例句选择装置具有与第一实施例的例句选择装置7类似的功能。
在这种情况下,在执行翻译的过程中,错误识别字推测装置21将所产生的关键字对与在实例DB3中的每个例句中的关键字对进行比较,并推测对于所抽取的关键字基于共存关系形成了关键字对的关键字而没有一个其它的关键字为错误地识别的字。然后,然后通过应用除了由错误识别字推测装置推测为错误地识别的关键字以外的关键字,例句选择装置选择与输入句子的意义最接近的例句并象与第一实施例一样输出所选择的例句。通过这样,如上所述即使在错误地识别的部分包含在语音识别装置4所识别的结果中并且语音识别装置4输出识别结果,通过错误地识别字推测装置和例句选择装置处理所识别的结果,象上文所描述的一样输出“Any milk?”。
在第一至第三实施例的解释中原始语言为日语,目标语言为英语,或者翻译装置将日语句子转换为英语句子,但是原始语言句子和目标语言句子都还可以是其它的语言的句子。
下文分别描述在翻译装置将英语句子转换为日语的句子的情况下和在翻译装置将汉语句子转换为日语的句子的情况下与上文的实施例的主要区别。
首先,在翻译装置将英语句子转换为日语的句子的情况下,附图2、附图5和附图7分别以附图10、附图11和附图12替代。
这就是说,附图10(a)是在这种情况下的双语言关键字字典6和实例数据库3的实例。附图10(b)是在这种情况下的标记的语料库1的实例。
附图11(a)为在这种情况的分类词汇表12的实例。附图11(a)为实例数据库11的实例。
附图12所示为在这种情况下实例数据库3的实例。
很清楚上述的每个实施例都可以应用到翻译装置将英语句子转换为日语句子的情况中。
其次,在翻译装置将汉语句子转换为日语句子的情况中,附图2、附图5和附图7分别由附图13、附图14和附图15所替代。
这就是说,附图13(a)是在这种情况下的双语言关键字字典6和实例数据库3的实例。附图13(b)是在这种情况下的标记的语料库1的实例。
附图14(a)为在这种情况的分类词汇表12的实例。附图14(a)为实例数据库11的实例。
附图15所示为在这种情况下实例数据库3的实例。
很清楚上述的每个实施例都可以应用到翻译装置将汉语句子转换为日语句子的情况中。
虽然在本实施例中依赖关系分析装置2将处于共存关系中的关键字进行配对,但是本发明并不限于这些;依赖关系分析装置2还可以对处于依赖关系中的关键字对进行配对。
本实施例的标记的语料库1为本发明的的语料库的实例。本实施例的关键字对为本发明的关键字组合的实例。本实施例的依赖关系分析装置2为本发明的关联装置的实例。本实施例的关键字抽取装置5和例句选择装置7为本发明的转换装置的实例。本实施例的分类词汇表12为本发明的分类信息的实例。本实施例的依赖关系分析装置2和字分类装置13为本发明的关联装置的实例。本实施例的关键字抽取装置5和例句选择装置14为本发明的转换装置的实例。本实施例的关键字抽取装置5和例句选择装置21为本发明的转换装置的实例。本实施例的意义代码为本发明的分类名称的实例。
此外,本发明的预定数量并限于2,即在本实施例中预定数量还可以是1。在这种情况下,不是将关键字组合为关键字对并比较该关键字对,而是将关键字独立比较。在这种情况,应用三个关键字的组合来进行比较。此外,预定的数量可以是2和3。在这种情况下应用关键字对和三个关键字的组合来进行比较。总之,本发明的预定的数目只需要为一个给定的正整数或许多不同的正整数就可以。
此外,本发明的表达方式转换装置并不限于本实施例的翻译装置;本发明的表达方式转换装置只需要是一种能够将输入句子转换为不同的表达方式的装置,比如:将输入的文字转换为在不同的语言中的文字并输出所转换的文字(例如将日文转换为英文并输出英文)的翻译装置;将书面语言转换为口语语言的句子模式转换装置;以及概述复杂或冗长的句子并输出该概要的概要生成装置。
此外,本发明的表达方式转换方法并不限于本实施例的翻译方法;本发明的表达方式转换方法只需要是一种能够将输入句子转换为不同的表达方式的方法,比如:将输入的文字转换为在不同的语言中的文字并输出所转换的文字(例如将日文转换为英文并输出英文)的翻译转换;将书面语言转换为口语语言的句子模式转换;以及概述复杂或冗长的句子并输出该概要的概要生成。
如上所述,通过事先产生实例数据库,在该实例数据库中输出目标语言句子的标准或简化的表达模式与该模式对应的关键字组和在关键字之间的共存关系都关联起来,从该输入句子中抽取关键字,从该实例数据库选择包括与所抽取的关键字组最近似的关键字组的表达模式,并输出所选择的表达模式,因此,能够使转换规则和句子生成规则简单,因此以简单的处理来进行表达方式转换。
此外,即使在输入除了关键字以外的部分中存在错误的句子时,也能够将所输入的句子转换成能够正确地理解其意义的表达方式,因此能够解决这样的常规问题,即输出存在错误部分的表达方式转换结果的问题。
此外,即使当关键字有错误时,根据错误的程度,也能够将所输入的句子转换成可以正确理解意义的表达方式或通知使用者该意义不能理解,因此可以解决通常的问题,即输出有错误部分的表达方式转换结果的问题。
此外,本发明还可以是这样的一种程序,它使计算机执行上文所述的本发明的表达方式转换装置的所有或部分的装置(或装置、电路、功能部分等)的功能,该程序结合计算机运行。
此外,本发明还可以是这样的一种程序,它使计算机执行上文所述的本发明的表达方式转换方法的所有或部分步骤(或过程、操作、动作等)的操作,该程序结合计算机运行。
本发明的一些装置(或装置、电路、功能部分等)和本发明的的一些步骤(或过程、操作、动作等)是分别指许多装置中的一些装置和许多步骤中的一些步骤或分别指一个装置的某些功能和一个步骤的某些操作。
此外,在其上记录有本发明的程序的计算机可读记录媒体也包括在本发明之中。
此外,本发明的使用方式可以是这样的:将程序记录在计算机可读记录媒体上并在计算机中运行。
此外,本发明的使用方式可以是这样的:通过计算机可读的传输媒体传输程序并在计算机中运行。
记录媒体包括ROM。传输媒体包括比如因特网(Internet)和光、无线电波和声波的传输媒体。
如上所述,本发明的结构可以通过软件实现或通过硬件实现。
如上文所详述,依据本实施例,通过从该输入句子中抽取关键字,通过应用所抽取的关键字将输入句子转换为表示相同意义的标准或简化的表达句子,并输出所选择的表达模式,因此,能够使转换规则和句子生成规则简单,因此以简单的处理来进行表达方式转换。此外,即使在输入除了关键字以外的部分中存在错误的句子时,也能够将所输入的句子转换成能够正确地理解其意义的表达方式,因此能够解决这样的常规问题,即输出存在错误部分的表达方式转换结果的问题。
此外,通过抽取如下的字作为关键字:包括在输入句子中的某些内容字或为某些内容字所转换成的字的字,以及生成包括从输入的句子中所推测的句子意义所决定的表达方式和关键字的组合的标准或简化的表达句子,可以使转换规则和句子产生规则简洁,因此可以应用简单的处理来执行表达方式转换。
此外,即使当输入除了关键字以外的部分有错误的句子时,也能够将所输入的句子转换成可以正确理解意义的表达方式,因此可以解决通常的问题,即输出有错误部分的表达方式转换结果的问题。
此外,通过从输入句子中抽取关键字、从在所抽取的关键字或共存关系之间的共存关系中推测句子意义以及仅从关键字或关键字的等效词中所确定的字的组合和所推测的意思中产生标准的或简化的表达句子,可以使转换规则和句子产生规则简洁,因此可以应用简单的处理来执行表达方式转换。
此外,即使当输入除了关键字以外的部分有错误的句子时,也能够将所输入的句子转换成可以正确理解意义的表达方式,因此可以解决通常的问题,即输出有错误部分的表达方式转换结果的问题。
此外,本发明除了上文所述的效果之外,通过事先产生实例DB(在该实例DB中将输出标准或简化的表达模式、与该模式相对应的关键字组以及在关键字组或共存关系之间的共存关系关联起来)、从输入句子中抽取关键字组、从实例DB中选择包括与所抽取的关键字组最类似的关键字组的表达模式以及输出所选择的句子实例,能够精确地忠于实际输入的句子的种类、外延与内涵以及句子模式来执行表达方式转换。
此外,在实例DB中所写的每个表达模式都仅由关键字或关键字的等效词组成,因此能够改善效果。
此外,本发明除了上述效果之外,通过描述在实例DB中所写的表达模式,在处于共存关系中的关键字或关键字组之间的依赖关系以及关键字组是包括关键字的字的分类描述,即使当输入没有包括在实例DB中的关键字时,可以选择适当的例句,因此能够实现能够处理更多种类的输入句子的表达方式转换。
此外,本发明除了上述效果之外,通过从输入句子中抽取关键字、从在所抽取的关键字之间的关系中推测输入的错误字、从除了被推测为错误的词的关键字以外的关键字中推测句子意义以及从通过所推测的句子意义中所确定的字组合中产生标准的或简化的表达方式,即使当关键字有错误时,根据错误的严重程度,也能够将所输入的句子转换成可以正确理解意义的表达方式或通知使用者该意义不能理解,因此可以解决通常的问题,即输出有错误部分的表达方式转换结果的问题。
本发明提供一种在结构上简洁并能够高速地处理的表达方式转换方法、表达方式转换装置以及程序。
此外,本发明提供一种表达方式转换方法、表达方式转换装置以及程序,即使在由于语音识别错误等造成错误地识别输入句子的除了关键字部分以外的部分时,该表达方式转换方法、表达方式转换装置以及程序也能够输出正确地表达意义的结果而不会造成输出句子的意义相反。
此外,本发明提供一种表达方式转换方法、表达方式转换装置以及程序,即使在由于语音识别错误等造成错误地识别部分输入句子时,该表达方式转换方法、表达方式转换装置以及程序也能够避免常规的问题,即输出根本不能表达句子意义的结果的问题。

Claims (10)

1、一种表达方式转换方法,其中对于在语言资料库中的每个句子,从该句子中选择关键字,从在所选择的关键字中的预定数量的关键字组合中识别处于共存关系的关键字组合,以及事先关联从其中选择关键字的句子所转换成的表达方式和所识别的关键字组合,和
其中从输入的句子中选择预定的关键字,组合所选择的关键字,比较每个句子的关键字的组合和先前所识别的关键字组合,选择与所比较结果一致或高度类似的一个或多个句子,并输出所选择的句子所转换成的表达方式。
2、一种表达方式转换方法,其中通过应用分类信息,在分类信息中基于预定的特性事先对关键字进行分类并且给每个分类提供名称,对于在语言资料库中的每个句子,从句子中选择关键字,从在所选择的关键字所属的分类中的预定数量的分类组合中识别处于共存关系的关键字组合,以及将从其中选择关键字的句子所转换成的表达方式和所识别的分类组合事先关联,和
其中从输入的句子中选择预定的关键字,组合所选择的关键字所属的分类,比较每个句子的分类的组合和先前所识别的分类组合,选择与所比较结果一致或高度类似的一个或多个句子,并输出所选择的句子所转换成的表达方式。
3、一种表达方式转换方法,其中对于在语言资料库中的每个句子,从句子中选择关键字,从在所选择的关键字中的预定数量的关键字组合中识别处于共存关系的关键字组合,以及将从其中选择关键字的句子所转换成的表达方式和所识别的关键字组合事先关联,
其中通过应用分类信息,在分类信息中基于预定的特性事先对关键字进行分类并且给每个分类提供名称,所识别的关键字组合与分类组合关联由此识别句子的分类组合,以及
其中从输入的句子中选择预定的关键字,组合所选择的关键字所属的分类,比较每个句子的分类组合和先前所识别的分类组合,选择与所比较结果一致或高度类似的一个或多个句子,并输出所选择的句子所转换成的表达方式。
4、一种表达方式转换装置,包括:
关联装置,对于在语言资料库中的每个句子,该关联装置用于从句子中选择关键字、从在所选择的关键字中的预定数量的关键字组合中识别处于共存关系的关键字组合以及将所识别的关键字组合和从其中选择关键字的句子所转换成的表达方式事先关联;以及
转换装置,该转换装置用于从输入句子中选择预定的关键字、组合所选择的关键字、比较每个句子的关键字组合和事先所识别的关键字组合、选择与比较结果相一致或高度相似的一个或多个句子以及输出所选择的句子被转换成的表达方式。
5、根据权利要求4所述的表达方式转换装置,其中与比较结果相关程度较高时,在从所选择的表达方式中删除关键字所转换成的部分之后所说的转换装置输出所选择的表达方式,所说的关键字属于不一致的关键字组合并且不包括在一致的关键字组合中。
6、根据权利要求4所述的表达方式转换装置,其中句子所转换成的所说的表达方式仅包括关键字或与该关键字等效的词。
7、一种表达方式转换装置,包括:
关联装置,通过应用分类信息,在分类信息中基于预定的特性事先对关键字进行分类并且给每个分类提供名称,对于在语言资料库中的每个句子,该关联装置从句子中选择关键字、从在所选择的关键字所属的分类中的预定数量的分类组合中识别处于共存关系的分类组合以及将所识别的分类组合和从其中选择关键字的句子所转换成的表达方式事先关联;以及
转换装置,该转换装置用于从输入句子中选择预定的关键字、组合所选择的关键字所属的分类、比较每个句子的分类组合和事先所识别的分类组合、选择与比较结果相一致或高度相似的一个或多个句子以及输出所选择的句子被转换成的表达方式。
8、一种表达方式转换装置,包括:
关联装置,对于在语言资料库中的每个句子,该关联装置用于从句子中选择关键字、从在所选择的关键字中的预定数量的关键字组合中识别处于共存关系的关键字组合以及将所识别的关键字组合和从其中选择关键字的句子所转换成的表达方式事先关联,和
通过应用分类信息,在分类信息中基于预定的特性事先对关键字进行分类并且给每个分类提供名称,该关联装置将所识别的关键字组合与分类组合关联起来由此识别句子的分类组合;以及
转换装置,该转换装置用于从输入句子中选择预定的关键字、组合所选择的关键字所属的分类、比较每个句子的分类组合和事先所识别的分类组合、选择与比较结果相一致或高度相似的一个或多个句子以及输出所选择的句子被转换成的表达方式。
9、根据权利要求7或8所述的表达方式转换装置,其中与比较结果相关程度较高时,在从所选择的表达方式中删除关键字所转换成的部分之后所说的转换装置输出所选择的表达方式,所说的关键字属于不一致的关键字组合并且不包括在一致的关键字组合中。
10、根据权利要求7或8所述的表达方式转换装置,其中句子所转换成的所说的表达方式仅包括分类。
CNB011162368A 2000-03-10 2001-03-12 转换表达方式的方法和装置 Expired - Lifetime CN1174332C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000066494 2000-03-10
JP066,494/2000 2000-03-10

Publications (2)

Publication Number Publication Date
CN1319836A CN1319836A (zh) 2001-10-31
CN1174332C true CN1174332C (zh) 2004-11-03

Family

ID=18585847

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011162368A Expired - Lifetime CN1174332C (zh) 2000-03-10 2001-03-12 转换表达方式的方法和装置

Country Status (2)

Country Link
US (2) US6862566B2 (zh)
CN (1) CN1174332C (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1174332C (zh) * 2000-03-10 2004-11-03 松下电器产业株式会社 转换表达方式的方法和装置
GB2377046A (en) * 2001-06-29 2002-12-31 Ibm Metadata generation
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
JP3921523B2 (ja) * 2001-12-27 2007-05-30 独立行政法人情報通信研究機構 テキスト生成方法及びテキスト生成装置
US20030154069A1 (en) * 2002-02-14 2003-08-14 International Business Machines Corporation Computerized system and method for converting selected text between languages
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
US7171351B2 (en) * 2002-09-19 2007-01-30 Microsoft Corporation Method and system for retrieving hint sentences using expanded queries
JP3987533B2 (ja) * 2003-03-14 2007-10-10 富士通株式会社 翻訳支援装置
JP2004280574A (ja) * 2003-03-17 2004-10-07 Internatl Business Mach Corp <Ibm> 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
GB2411551B (en) 2003-04-22 2006-05-03 Spinvox Ltd A method of providing voicemails to a wireless information device
US8209185B2 (en) * 2003-09-05 2012-06-26 Emc Corporation Interface for management of auditory communications
US7499531B2 (en) * 2003-09-05 2009-03-03 Emc Corporation Method and system for information lifecycle management
US7457396B2 (en) * 2003-09-05 2008-11-25 Emc Corporation Automated call management
US8103873B2 (en) * 2003-09-05 2012-01-24 Emc Corporation Method and system for processing auditory communications
JP3790825B2 (ja) * 2004-01-30 2006-06-28 独立行政法人情報通信研究機構 他言語のテキスト生成装置
JP4076520B2 (ja) * 2004-05-26 2008-04-16 富士通株式会社 翻訳支援プログラムおよび単語対応付けプログラム
US7444287B2 (en) * 2004-07-01 2008-10-28 Emc Corporation Efficient monitoring system and method
US20060004579A1 (en) * 2004-07-01 2006-01-05 Claudatos Christopher H Flexible video surveillance
US8180742B2 (en) * 2004-07-01 2012-05-15 Emc Corporation Policy-based information management
US8244542B2 (en) * 2004-07-01 2012-08-14 Emc Corporation Video surveillance
US9268780B2 (en) * 2004-07-01 2016-02-23 Emc Corporation Content-driven information lifecycle management
US7707037B2 (en) * 2004-07-01 2010-04-27 Emc Corporation Archiving of surveillance data
US8180743B2 (en) 2004-07-01 2012-05-15 Emc Corporation Information management
US8229904B2 (en) * 2004-07-01 2012-07-24 Emc Corporation Storage pools for information management
US8626514B2 (en) * 2004-08-31 2014-01-07 Emc Corporation Interface for management of multiple auditory communications
US8249871B2 (en) * 2005-11-18 2012-08-21 Microsoft Corporation Word clustering for input data
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
US8976944B2 (en) * 2006-02-10 2015-03-10 Nuance Communications, Inc. Mass-scale, user-independent, device-independent voice messaging system
US8903053B2 (en) 2006-02-10 2014-12-02 Nuance Communications, Inc. Mass-scale, user-independent, device-independent voice messaging system
US20080063155A1 (en) * 2006-02-10 2008-03-13 Spinvox Limited Mass-Scale, User-Independent, Device-Independent Voice Messaging System
US7805289B2 (en) * 2006-07-10 2010-09-28 Microsoft Corporation Aligning hierarchal and sequential document trees to identify parallel data
WO2008084209A2 (en) 2007-01-09 2008-07-17 Spinvox Limited A mobile telephone programmed to allow a user to speak a message which is then remotely automatically converted to text
CN101802812B (zh) * 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
JP5239307B2 (ja) * 2007-11-20 2013-07-17 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム
CN101739395A (zh) * 2009-12-31 2010-06-16 程光远 机器翻译方法和***
CN102236637B (zh) * 2010-04-22 2013-08-07 北京金山软件有限公司 一种确定搭配词与中心词搭配程度的方法和***
US9223859B2 (en) * 2011-05-11 2015-12-29 Here Global B.V. Method and apparatus for summarizing communications
CN103399906B (zh) * 2013-07-29 2015-07-29 百度在线网络技术(北京)有限公司 在进行输入时基于社会关系提供候选词的方法和装置
WO2016117879A1 (ko) * 2015-01-23 2016-07-28 엘지이노텍(주) 착용형 디스플레이 장치
EP3324305A4 (en) * 2015-07-13 2018-12-05 Teijin Limited Information processing apparatus, information processing method, and computer program
US10437029B2 (en) * 2016-02-19 2019-10-08 Almalence Inc. Collapsible lens mount systems
CN106294639B (zh) * 2016-08-01 2020-04-21 金陵科技学院 基于语义的跨语言专利新创性预判分析方法
CN108009182B (zh) 2016-10-28 2020-03-10 京东方科技集团股份有限公司 一种信息提取方法和装置
JP6815899B2 (ja) * 2017-03-02 2021-01-20 東京都公立大学法人 出力文生成装置、出力文生成方法および出力文生成プログラム
KR102342066B1 (ko) * 2017-06-21 2021-12-22 삼성전자주식회사 뉴럴 네트워크 모델을 이용한 기계 번역 방법, 장치 및 그 장치를 학습시키기 위한 방법
US10635862B2 (en) * 2017-12-21 2020-04-28 City University Of Hong Kong Method of facilitating natural language interactions, a method of simplifying an expression and a system thereof
US20190237069A1 (en) * 2018-01-31 2019-08-01 GM Global Technology Operations LLC Multilingual voice assistance support
CN109035922B (zh) * 2018-09-04 2021-05-04 郑彪 一种基于视频的外语学习方法和设备
US11176330B2 (en) * 2019-07-22 2021-11-16 Advanced New Technologies Co., Ltd. Generating recommendation information
CN110427621B (zh) * 2019-07-23 2020-11-20 北京语言大学 一种汉语分类词语提取方法及***
CN110378704B (zh) * 2019-07-23 2021-10-22 珠海格力电器股份有限公司 基于模糊识别的意见反馈的方法、存储介质和终端设备

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765131A (en) * 1986-10-03 1998-06-09 British Telecommunications Public Limited Company Language translation system and method
US5384701A (en) * 1986-10-03 1995-01-24 British Telecommunications Public Limited Company Language translation system
JP2848458B2 (ja) 1986-10-03 1999-01-20 ブリテッシュ・テレコミュニケイションズ・パブリック・リミテッド・カンパニー 言語翻訳システム
US5708829A (en) * 1991-02-01 1998-01-13 Wang Laboratories, Inc. Text indexing system
US5369577A (en) * 1991-02-01 1994-11-29 Wang Laboratories, Inc. Text searching system
US5375235A (en) * 1991-11-05 1994-12-20 Northern Telecom Limited Method of indexing keywords for searching in a database recorded on an information recording medium
JP3367298B2 (ja) * 1994-11-15 2003-01-14 富士ゼロックス株式会社 言語情報提供装置、言語情報提供システムおよび言語情報提供方法
JP3549608B2 (ja) 1995-04-04 2004-08-04 富士通株式会社 識別子による階層構造データの構造判定方法および装置
JP3741156B2 (ja) * 1995-04-07 2006-02-01 ソニー株式会社 音声認識装置および音声認識方法並びに音声翻訳装置
JPH08329105A (ja) * 1995-05-31 1996-12-13 Canon Inc 文書処理方法及びその装置
JPH09146977A (ja) * 1995-11-28 1997-06-06 Nec Corp データ検索装置
JPH09231224A (ja) * 1996-02-26 1997-09-05 Fuji Xerox Co Ltd 言語情報処理装置
US5956711A (en) * 1997-01-16 1999-09-21 Walter J. Sullivan, III Database system with restricted keyword list and bi-directional keyword translation
US6185550B1 (en) * 1997-06-13 2001-02-06 Sun Microsystems, Inc. Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking
US6128613A (en) * 1997-06-26 2000-10-03 The Chinese University Of Hong Kong Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words
US5956668A (en) * 1997-07-18 1999-09-21 At&T Corp. Method and apparatus for speech translation with unrecognized segments
US5995919A (en) * 1997-07-24 1999-11-30 Inventec Corporation Multi-lingual recognizing method using context information
US6192332B1 (en) * 1998-04-06 2001-02-20 Mitsubishi Electric Research Laboratories, Inc. Adaptive electronic phrase book
JP3114703B2 (ja) * 1998-07-02 2000-12-04 富士ゼロックス株式会社 対訳文検索装置
JP3822990B2 (ja) 1999-01-07 2006-09-20 株式会社日立製作所 翻訳装置、記録媒体
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6571240B1 (en) * 2000-02-02 2003-05-27 Chi Fai Ho Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases
CN1174332C (zh) * 2000-03-10 2004-11-03 松下电器产业株式会社 转换表达方式的方法和装置
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system

Also Published As

Publication number Publication date
US20020010573A1 (en) 2002-01-24
CN1319836A (zh) 2001-10-31
US6862566B2 (en) 2005-03-01
US20040260533A1 (en) 2004-12-23

Similar Documents

Publication Publication Date Title
CN1174332C (zh) 转换表达方式的方法和装置
CN1652107A (zh) 语言变换规则产生装置、语言变换装置及程序记录媒体
CN1113305C (zh) 语言处理装置和方法
CN1168068C (zh) 语音合成***与语音合成方法
CN1158627C (zh) 用于字符识别的方法和装置
CN1578954A (zh) 机器翻译
CN1228762C (zh) 用于语音识别的方法、组件、设备及服务器
CN100337407C (zh) 对结构化文档进行编码和解码的方法和***
CN1608259A (zh) 机器翻译
CN1542649A (zh) 自然语言生成***中用于句子实现中排序的成分结构的语言信息统计模型
CN1942877A (zh) 信息提取***
CN1777888A (zh) 基于移动结构概念的句子结构分析及使用其的自然语言搜索
CN101067780A (zh) 智能设备的文字输入***及方法
CN1460244A (zh) 语句识别装置、语句识别方法、程序和媒体
CN1239793A (zh) 基于字符分类检索字符串的装置和方法
CN101080927A (zh) 内容推荐装置
CN1379882A (zh) 将二维数据转换为标准形式的方法
CN1119760C (zh) 自然语言处理装置及方法
CN1702650A (zh) 用于将日文翻译成中文的设备和方法以及计算机程序产品
CN1514387A (zh) 语音查询中的辨音方法
CN1120439C (zh) 机器翻译用中文生成装置
CN1910574A (zh) 自动翻译器及其方法和用于编写该方法的记录媒体
CN1224203A (zh) 智能型汉英即时同步共显式机器互译方法
CN1753083A (zh) 语音标记方法、***及基于语音标记的语音识别方法和***
CN1270687A (zh) 在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140718

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140718

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Japan Osaka

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CX01 Expiry of patent term

Granted publication date: 20041103

CX01 Expiry of patent term