CN1742273A

CN1742273A - 多模态语音－语音语言翻译和显示

Info

Publication number: CN1742273A
Application number: CNA038259265A
Authority: CN
Inventors: 高雨青; 顾良; 刘富华; 杰弗里·索里森
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-12-10
Filing date: 2003-04-23
Publication date: 2006-03-01
Also published as: EP1604300A1; AU2003223701A1; KR20050086478A; JP4448450B2; TWI313418B; TW200416567A; JP2006510095A; WO2004053725A1; US20040111272A1

Abstract

提供一种把源语言的自然语句翻译成符号表现和/或目标语言的多模态语音－语音语言翻译***和方法。***(100)包括把源语言的自然语句(402)输入***(100)的输入装置(102)；接收呈机器可读形式的自然语句(402)，并把自然语句(402)翻译成符号表现(404)和/或目标语言(406)的翻译器(104)；和显示自然语句的符号表现(404)的图像显示器(106)。另上，图像显示器(106)指示目标语言(406)的文本，符号表现(404)和源语言(402)的文本之间的相关性(408)。

Description

多模态语音-语音语言翻译和显示

美国政府对此发明具有已付费的许可，和在有限的情况下根据如与海军空间和海军作战***中心签定的合同No.N66001-99-2-8916的条款的合理的条款要求专利所有人许可其它人的权利。

技术领域

本发明涉及语言翻译***，更具体地说，涉及一种多模态语音-语音语言翻译***和方法，其中源语言被输入***中，被翻译成目标语言，并由各种模态(modality)，例如显示器、语音合成器等输出。

背景技术

可见图像用于人类交流非常古老和基本。从洞穴壁画到今天的儿童图画，图画、符号和图象表示在人类表达中一直起着重要的作用。图像和空间形体不仅被用于表现场景和物理对象，而且还被用于表现过程和更抽象的概念。随着时间的过去，象形文字体系，即可视语言已进化成更多地依赖于约定俗成，而不是依赖于它们的表现力的相似性的字母表和符号体系。

可视语言在有限的领域中被广泛使用。例如，在世界的多数地方，交通符号和公共场所中的国际性设施图标，例如电话，公共厕所，饭店，紧急出口等得到广泛接受和理解。

在过去的二三十年内，人们一直对用于人/机交互作用的可视语言，例如图形界面，图形编程语言等兴趣强烈。例如，微软的Windows^TM界面使用带有文件夹，文件柜，垃圾桶，绘图工具和已成为个人计算机的标准的其它惯用对象的桌面隐喻，因为它们使计算机更易于使用和更易于学习。但是，随着由于旅行的便利，通信媒体，例如因特网的速度的提高，和市场的全球化的结果，全球社会变得越来越小，可视语言将在语言不同的人们之间的交流中起日益重要的作用。另外，可视语言能够方便根本不能说话的人(例如聋人)，或者文盲间的交流。

由于可视语言的下述特征：(1)国际性-可视语言不依赖于特定的口头语言或书面语言；(2)由可视表示法的使用而产生的易学性；(3)便于绘图能力受损者使用的计算机辅助创作和显示；(4)自适应性(例如对于视力受损者的更大显示，对于色盲者的重新着色，对于初学者的消息的更明确表达)，和(5)高级的可视化技术，例如动画的应用(参见Tanimoto，StevenL.，“Representation and Learnability in Visual Languages for Web-basedInterpersonal Communication”，IEEE Proceedings of VL 1997，1997年9月23-26)，可视语言用于人类间的交流的潜力巨大。

发明内容

提供一种把源语言的自然语句翻译成符号表现和/或目标语言的多模态语音-语音语言翻译***和方法。本发明使用自然语言理解技术对口语句子中的概念和语义分类，把句子翻译成目标语言，并使用可视显示(例如图画，图像，图标或任何视频片段)向双方，例如讲话者和听者表示句子中的主要概念和语义，以帮助用户相互理解，并帮助源语言用户核实翻译的正确性。

旅行者熟悉可视描述(例如在关于行李和出租车的机场标记中使用的那些可视描述)的有效性。本发明通过连同口语输出一起，把这些及其它这样的图像包含到要显示的符号表现中，把同样的特征引入到交互式谈话模型中。符号表现甚至可包含动画，以静态显示所不能的方式指示主语/宾语和动作关系。

根据本发明的一个方面，语言翻译***包括把源语言的自然语句输入***的输入装置；接收呈机器可读形式的自然语句，并把自然语句翻译成符号表现的翻译器；和显示自然语句的符号表现的图像显示器。***还包括以可听见的方式产生目标语言的自然语句的文本-语音合成器。

翻译器包括对自然语句的元素分类，并依据类别标记元素的自然语言理解统计分类器；和从分类句子分析结构信息，并输出分类句子的语义分析树表示的自然语言理解分析器。翻译器还包括抽取自然语句的独立于语言的表现的国际语信息抽取器，和通过使独立于语言的表现的元素与可视描述相联系，产生自然语句的符号表现的符号图像生成器。

根据本发明的另一方面，翻译器把自然语句翻译成目标语言的文本，图像显示器显示目标语言的文本，符号表现和源语言的文本，其中图像显示器指示目标语言的文本，符号表现和源语言的文本之间的相关性。

根据本发明的另一方面，提供一种翻译语言的方法。所述方法包括下述步骤：接收源语言的自然语句；把自然语句翻译成符号表现，并显示自然语句的符号表现。

接收步骤包括下述步骤：以声学信号的形式接收口语自然语句；和把口语自然语句转换成机器可识别的文本。

在本发明的另一方面，所述方法还包括下述步骤：对自然语句的元素分类，并依据类别标记元素；从分类句子分析结构信息，并输出分类句子的语义分析树表示；和从语义分析树抽取自然语句的独立于语言的表现。

此外，所述方法还包括通过使独立于语言的表现的元素与可视描述相联系，产生自然语句的符号表现的步骤。

在另一方面，所述方法还包括下述步骤：使目标语言的文本，符号表现和源语言的文本相关联，并显示目标语言的文本，符号表现和源语言的文本之间的相关性。

根据本发明的另一方面，提供一种机器可读的确实包含可由机器执行的，从而实现翻译语言的方法步骤的指令程序的程序存储装置，所述方法步骤包括接收源语言的自然语句；把自然语句翻译成符号表现；和显示自然语句的符号表现。

附图说明

结合附图，根据下面的详细说明，本发明的上述及其它方面、特征和优点将变得更明显，其中：

图1是根据本发明的一个实施例的多模态语音-语音语言翻译***的方框图；

图2是图解说明根据本发明的一个实施例的把源语言的自然语句翻译成符号表现的方法的流程图；

图3是图解说明源语言的自然语句的符号表现的多模态语音-语音语言翻译的例证显示；

图4是用源语言和目标语言如何与符号表现相关联的指示符，图解说明源语言的自然语句，该句子的符号表现和翻译成目标语言的句子的多模态语音-语音语言翻译***的例证显示。

具体实施方式

下面将参考附图说明本发明的优选实施例。在下面的说明中，未详细描述公知的功能或构造，以避免使本发明掩蔽在不必要的细节中。

提供一种把源语言的自然语句翻译成符号表现和/或目标语言的多模态语音-语音语言翻译***和方法。本发明通过增加设备显示的输入句子的图形或符号表现的附加翻译，延伸了语音识别技术，自然语言理解技术，语义翻译技术，自然语言产生技术和语音合成技术。通过包括可视描述(例如，图画，图像，图标或视频片段)，翻译***向(源语言的)说话者指示语音被适当地识别和理解。另外，可视表现向双方指出由于翻译多义性的缘故，可能不正确的语义表现的多个方面。

任意语言的可视描述本身是一个挑战-尤其是对于抽象对话来说。但是，由于用于创建“国际语”(interlingua)表示法，即与语言无关的表示法的自然语言理解处理的缘故，在翻译过程中，可获得匹配适当图像的额外机会。在这种意义上，可视语言可被看作语言产生***以其为目标的另一目标语言。

要明白可用各种形式的硬件、软件、固件、专用处理器，或者它们的组合物来实现本发明。在一个实施例中，本发明可用软件实现成确实包含在程序存储装置上的应用程序。所述应用程序可被上传到包含任何适当体系结构的机器上并由所述机器执行。最好，在具有硬件，例如一个或多个中央处理器(CPU)，随机存取存储器(RAM)，只读存储器(ROM)和输入/输出(I/O)接口，比如键盘、光标控制装置(例如鼠标)和显示装置的计算机平台上实现所述机器。所述计算机平台还包括操作***和微指令代码。这里描述的各种进程和函数或者是微指令代码的一部分，或者是通过操作***执行的应用程序(或者它们的组合)的一部分。另外，各种其它***设备可与计算机平台连接，例如附加的数据存储装置和打印装置。

还要明白，由于可用软件实现在附图中描述的一些***组件和方法步骤，因此根据对本发明进行程序设计的方式，***组件(或者进程步骤)之间的实际连接可能不同。根据这里提供的本发明的教导，本领域的普通技术人员能够设想本发明的这些及类似的实现或构造。

图1是根据本发明的一个实施例的多模态语音-语音语言翻译***100的方框图，图2是图解说明把源语言的自然语句翻译成符号表现(representation)的方法的流程图。下面将参考图1和2详细说明所述***和方法。

参见图1和2，语言翻译***100包括把自然语句输入***100(步骤202)的输入设备102，接收呈机器可读形式的自然语句并把该自然语句翻译成符号表现的翻译器104，和显示自然语句的符号表现的图像显示器106。可选的是，***100将包括以可听见的方式产生目标语言的自然语句的文本-语音合成器108。

最好，输入装置102是与用于把口语单词转换成计算机或机器能够识别的文本单词(步骤204)的自动语音识别器(ASR)耦接的麦克风。ASR接收声音信号，比较该信号和输入源语言的声学模型110和语言模型112，从而把口语单词转换成文本。

可选的是，输入装置是直接输入文本单词的键盘或者把手写文本转换成计算机能够识别的文本单词(步骤204)的数字写字板或者扫描仪。

一旦自然语句呈计算机/机器可识别的形式，翻译器104就处理所述文本。翻译器104包括自然语言理解(NLU)统计分类器114，NLU统计分析器(parser)116，国际语信息抽取器120，翻译和统计自然语言生成器124和符号图像生成器130。

NLU统计分类器114从ASR102接收计算机可识别文本，查找句子中一般类别的位置，并标记某些元素(步骤206)。例如，ASR102可输入句子“I want to book a one way ticket to Houston，Texas for tomorrowmorning”。NLU分类器114将把Houston，Texas分类为地点“LOC”，并把它替换到输入句子中。此外，one way将被解释成票的类型，例如往返或单程(RT-OW)，tomorrow将被“DATE”替换，morning将被“TIME”替换，从而得到句子“I want to book a RT-OW ticket to LOC for DATETIME”。

分类后的句子随后被发送给NLU统计分析器116，抽取结构信息，例如主语/动词(步骤208)。分析器116与分析器模型118交互作用，从而确定输入句子的语法结构，和输出语义分析树。可关于特定的领域，例如运输、医疗等构成分析器模型118。

随后国际语信息抽取器120处理语义分析树，确定输入源句子的独立于语言的含义，也称为树形结构国际语(步骤210)。国际语信息抽取器120与规范器(canonicalizer)122耦接，规范器122把由文本表示的数目转换成由周围上下文确定的恰当格式化的数字。例如，如果输入文本“flight number two eighteen”，那么将输出数字“218”。此外，如果输入“time two eighteen”，那么将输出时间格式的“2:18”。

一旦确定了树形结构国际语，那么初始的输入源自然语句可被翻译成任何目标语言，例如一种不同的口语，或者翻译成符号表示法。对于口语来说，国际语被发送给翻译&统计自然语言生成器124，从而把国际语转换成目标语言(步骤212)。生成器124访问多语言字典126，以便把国际语翻译成目标语言的文本。随后用语义相关字典128处理目标语言的文本，明确表达要输出的文本的恰当含义。最后，用自然语言发生模型129处理该文本，用按照目标语言的可理解句子构成所述文本。目标语句随后被发送给文本-语音合成器108，以便以可听见的方式产生目标语言的自然语句。

国际语还被发送给符号图像生成器130，以便产生将在图像显示器106上显示的可视描述的符号表现(步骤214)。符号图像生成器130可访问图像符号模型，例如Blissymbolics或Minspeak，以产生符号表现。这里，生成器130将抽取恰当的符号来创建代表初始源句子的不同元素的“单词”，并把“单词”聚集在一起，从而传达初始源句子的预定含义。另一方面，生成器130将访问图像目录134，选择复合图像来表示国际语的元素。一旦构成了符号表现，它将被显示在图像显示装置106上。图3图解说明源语言的初始输入的自然语句的符号表现(步骤216)。

除了本发明的翻译***的功能优点之外，共用图形显示的存在极大地增加了说话者和听者的用户体验。不共用任何语言的人们之间的交流既困难又紧张。可视描述促进了共同体验的感觉，并向共同领域提供恰当的图像，从而通过手势或者通过连续的一系列交互作用简化交流。

在本发明的翻译***的另一实施例中，显示的符号表现将指示口语对话的哪一部分对应于显示的图像。图4中图解说明了本实施例的例证屏幕。

图4图解说明说话者说出的源语言的自然语句402，源句子的符号表现404，和源句子406到目标语言(这里为中文)的翻译。线条408指示图像对应的每种语言中的言语部分，因为流畅的语言翻译通常要求词序的改变。通过连接单词和短语的可视描述，并指示在每种语言中，它们出现在口头短语中的何处，听者能够更好地利用说话者提供的韵律提示，当前的语音识别***通常未记录的提示。

可选的是，当文本-语音合成器可听地产生其对应的单词或概念时，呈现在图像显示器上的每个图像被突出。

在另一实施例中，***将检测讲话者的情感，并把“情感”，例如“：-)”包含到目标语言的文本中。通过关于音调和音色分析接收的声音信号，可检测讲话者的情感。另一方面，本领域中已知，通过经神经网络分析捕捉的讲话者的图像，照相机将捕捉讲话者的情感。随后使讲话者的情感与机器可识别的文本相联系，供稍后翻译之用。

虽然参考本发明的一些优选实施例表示和说明了本发明，不过在不脱离由附加权利要求限定的本发明的精神和范围的情况下，可在细节和形式方面做出各种变化。

Claims

1、一种语言翻译***，包括：

把源语言的自然语句输入***的输入装置；

接收呈机器可读形式的自然语句，并把自然语句翻译成符号表现的翻译器；和

显示自然语句的符号表现的图像显示器。

2、按照权利要求1所述的***，还包括以可听见的方式产生目标语言的自然语句的文本-语音合成器。

3、按照权利要求1所述的***，其中输入装置是把口语单词转换成机器可识别文本的自动语音识别器。

4、按照权利要求1所述的***，其中翻译器还包括：

从自然语句分析结构信息，并输出自然语句的语义分析树表示的自然语言理解分析器。

5、按照权利要求1所述的***，其中翻译器还包括：

对自然语句的元素分类，并依据类别标记元素的自然语言理解统计分类器；和

从分类句子分析结构信息，并输出分类句子的语义分析树表示的自然语言理解分析器。

6、按照权利要求5所述的***，其中翻译器还包括抽取自然语句的独立于语言的表现的国际语信息抽取器。

7、按照权利要求6所述的***，其中翻译器还包括通过使独立于语言的表现的元素与可视描述相联系，产生自然语句的符号表现的符号图像生成器。

8、按照权利要求6所述的***，其中翻译器还包括把独立于语言的表现转换成目标语言的自然语言生成器。

9、按照权利要求1所述的***，其中翻译器把自然语句翻译成目标语言的文本，图像显示器显示目标语言的文本以及符号表现。

10、按照权利要求3所述的***，其中翻译器把自然语句翻译成目标语言的文本，图像显示器显示目标语言的文本，符号表现和源语言的文本。

11、按照权利要求10所述的***，其中图像显示器指示目标语言的文本，符号表现和源语言的文本之间的相关性。

12、一种翻译语言的方法，所述方法包括下述步骤：

接收源语言的自然语句；

把自然语句翻译成符号表现；和

显示自然语句的符号表现。

13、按照权利要求12所述的方法，其中接收步骤包括下述步骤：

接收口语自然语句作为声学信号；和

把口语自然语句转换成机器可识别的文本。

14、按照权利要求13所述的方法，还包括下述步骤：

从自然语句分析结构信息，并输出自然语句的语义分析树表示。

15、按照权利要求14所述的方法，还包括从语义分析树，抽取自然语句的独立于语言的表现的步骤。

16、按照权利要求13所述的方法，还包括下述步骤：

对自然语句的元素分类，并依据类别标记元素；和

从分类句子分析结构信息，并输出分类句子的语义分析树表示。

17、按照权利要求16所述的方法，还包括从语义分析树抽取自然语句的独立于语言的表现的步骤。

18、按照权利要求17所述的方法，还包括通过使独立于语言的表现的元素与可视描述相联系，产生自然语句的符号表现的步骤。

19、按照权利要求18所述的方法，还包括下述步骤：把独立于语言的表现转换成目标语言的文本，并显示目标语言的文本以及符号表现。

20、按照权利要求19所述的方法，还包括以可听见的方式产生目标语言的文本的步骤。

21、按照权利要求20所述的方法，还包括突出所显示符号表现的和目标语言的可听文本对应的元素的步骤。

22、按照权利要求19所述的方法，还包括下述步骤：使目标语言的文本，符号表现和源语言的文本相关联，和显示目标语言的文本，符号表现和源语言的文本之间的相关性。

23、一种机器可读的确实包含可由机器执行，从而实现翻译语言的方法步骤的指令程序的程序存储装置，所述方法步骤包括：

接收源语言的自然语句；

把自然语句翻译成符号表现；和

显示自然语句的符号表现。