CN101256559A

CN101256559A - 用于处理输入语音的装置和方法

Info

Publication number: CN101256559A
Application number: CN200810074190.6A
Authority: CN
Inventors: 知野哲朗; 釜谷聪史; 降幡建太郎
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-02-27
Filing date: 2008-02-27
Publication date: 2008-09-03
Also published as: US20080208597A1; JP2008209717A; JP4791984B2; US8954333B2

Abstract

本发明提供一种用于处理输入语音的装置和方法。分析单元对通过处理输入语音所获得的输入字符串执行词素学分析。生成单元将输入字符串分割成以预定的并且由一个或多个词素组成的分割为单位，并且生成包括部分该分割的输入字符串的分量的部分字符串。候选输出单元将所生成的部分字符串输出到显示单元。选择接收单元接收从所输出的部分字符串中所选择的部分字符串作为待处理的对象。

Description

用于处理输入语音的装置和方法

技术领域

本发明涉及一种用于对输入语音执行语音识别处理等并且输出处理结果的装置和方法。

背景技术

最近，使用语音输入的人机接口日益增多地实现了实际使用。例如，已经开发了如下语音操作***，其允许用户口头地输入预先设置的特定命令、识别该命令，并且自动地执行对应的操作，从而使得能够通过语音来使用该***。还开发了通过分析由用户所口头表达的任意句子将这些句子转换成字符串，来实现使用语音输入创建句子的***。已经开发并且已经利用了能够在用户和***之间使用语音语言等进行交互的语音对话***。

在各个***所使用的语音识别处理中，通常通过以下方法来对由用户装置所产生的语音的内容进行识别。通过麦克风等将产生的语音信号捕获到***中、将其转换成电信号，并且使用模数(A/D)转换器等将其以非常短的时间周期进行采样，以获得例如波形振幅的时间序列的数字数据。对该数字数据进行诸如快速傅立叶变换(FFT)分析之类的技术，以获得例如频率随时间的改变，从而提取产生的语音信号的特征数据。使用隐马尔可夫模型(HMM)法、动态规划(DP)法或者神经网络(NN)法，对例如被准备为与识别结果及其序列相关联的词典的音素标准样式，与由上述处理所提取的特征数据，进行比较和匹配，以生成所产生的语音内容的识别候选。为了提高识别的正确性，对生成的识别候选使用N-gram为代表的统计语言模型，以估计并且选择最有可能的候选，从而识别所产生的语音的内容。

在语音识别中，由于以下因素，执行百分之百的无错误识别是非常困难的，并且也被认为是不可能的。由于执行语音输入的环境中的噪声等等，不可能很好地将语音分割成部分。由于在个体之间变化的因素，例如音质、音量、说话速度、说话风格以及方言，输入语音的波形可能变形，并且可能不能正确地执行识别结果的检查。

还存在由于用户说的是***中没有准备的未知语言而不能执行识别、词语被错误地识别成了听起来相似的词语，以及由于准备的标准样式或者统计语言模式不完整而将词语错误地识别成了错词的情况。

当在错误识别之后继续处理时，通常引起错误操作。因此，需要一些操作来排除错误操作的影响、重新恢复、重新输入相同的语音等，这增加了用户的负担。即使当再次输入语音时也不能保证总能克服错误识别。

同时，当在继续处理之前纠正识别结果以避免这种问题时，通常需要键盘操作等等。因此，失去了语音输入的无需用手的特性，并且增加了用户的操作负担。

上述***将最有可能的候选输出作为正确识别结果。因此，即使语音识别以错误识别结束，***本身也没有办法知道哪个识别部分是错误的哪个部分是正确的。因此，为了纠正错误识别部分，用户必须确定错误识别部分并且随后纠正它。

鉴于这种问题，JP-A 2000-242645(KOKAI)提出了一种技术，其不仅生成一个最有可能的语音识别候选而且还生成多个具有相近的识别得分的语音识别候选，翻译所生成的候选，并且与多个翻译结果一起呈现翻译历史的摘要。这允许对话伙伴识别该处理结果的可靠性并且容易地假设说话者的语音内容，并且即使识别处理的性能很低时也能提供充分和平滑的通信。

然而，在JP-A 2000-242645(KOKAI)所描述的方法中，即使所提出的多个识别候选中包括了要选择的识别候选，当这个识别候选包括错误识别部分时该处理也不能继续，并且需要纠错或者重新输入。因此，与常规技术类似，失去了语音输入的无需用手的特性，或者增加了用户由于纠错处理的负担。

发明内容

根据本发明的一个方面，一种语音处理装置，包括：语音接收单元，用于接收输入语音；语音处理单元，用于从所述输入语音获得文本字符串；分析单元，用于执行所述文本字符串的词素学分析；生成单元，用于将所述文本字符串分割成以预定的并且由至少一个词素组成的分割为单位的分量，并且生成包括部分所述分量的部分字符串候选；第一输出单元，用于将所述部分字符串候选输出到显示单元；以及选择接收单元，用于接收从所述部分字符串候选中所选择的部分字符串。

根据本发明的另一方面，一种语音处理方法，包括：接收输入语音；从所述输入语音获得文本字符串；执行所述文本字符串的词素学分析；将所述文本字符串分割成以预定的并且由至少一个词素组成的分割为单位的分量，并且生成包括部分所述分量的部分字符串候选；将所述部分字符串候选输出到显示单元；以及接收从所述部分字符串候选中所选择的部分字符串。

附图说明

图1是根据本发明的第一实施例的语音翻译装置的配置的方框图；

图2是用于解释存储在选择存储单元中的信息的数据配置的实例的示意图；

图3是根据第一实施例的完整的语音翻译处理的流程图；

图4是根据第一实施例的部分表示生成处理的完整的流程图；

图5是用于解释日语输入语音的实例的示意图；

图6是用于解释日语语音输入的识别结果的实例的示意图；

图7是用于解释通过执行识别结果的词素学分析所获得的词素序列的实例的示意图；

图8是用于解释分割的分段的实例的示意图；

图9是用于解释作为要处理的对象的候选的实例的示意图；

图10是用于解释所选择的候选的实例的示意图；

图11是用于解释翻译结果的实例的示意图；

图12是根据本发明的第二实施例的语音翻译装置的配置的方框图；

图13是根据第二实施例的完整的语音翻译处理的流程图；

图14是用于解释翻译结果的实例的示意图；

图15是用于解释分割的分段的实例的示意图；

图16是用于解释作为要处理的对象的候选的实例的示意图；

图17是用于解释所选择的候选的实例的示意图；以及

图18是用于解释根据第一或者第二实施例的语音处理装置的硬件配置的示意图。

具体实施方式

以下将参考附图，详细解释根据本发明的用于执行语音处理的装置和方法的示例性实施例。

根据本发明的第一实施例的语音处理装置生成多个部分字符串(在下文中称为“部分表示”)，该多个部分字符串中的每一个是通过从语音识别结果中去除部分字符串所获得的，该装置将所生成的部分字符串呈现给用户，接收由用户从所呈现的部分表示中所选择的部分表示作为语音处理的对象，并且执行语音处理。

以下给出了将根据第一实施例的语音处理装置实现为语音翻译装置的示例性情况的解释，该语音翻译装置将用户以源语言输入的语音翻译成语义上等效的目标语言，并且输出所翻译的语音，从而支持跨语言通信。在这个实例中，分别将日语和英语用作源语言和目标语言，而源语言和目标语言不限于这个组合，并且第一实施例可以应用于任意语言的组合。

如图1中所示，语音翻译装置100具有语音接收单元101、识别单元102、确定单元103、分析单元104、生成单元105、候选输出单元106、选择接收单元107、翻译单元108、语言输出单元109以及选择存储单元121。

语音接收单元101以对非常短的时间周期为单位对通过麦克风(未显示)等输入的语音的模拟信号进行采样，将该信号转换成例如波形振幅的时间序列的立体声数字信号，并且输出该数字信号。可以将通常使用的A/D转换技术等用于语音接收单元101所执行的处理。

识别单元102接收从语音接收单元101输出的数字语音信号，并且执行语音识别处理，用于生成作为对应的日语文本的字符串的识别结果的候选，并且似然地表示识别概率(下文中称为“识别得分”)。在语音识别处理中，可以采用通常所利用的使用了线性预测编码(LPC)分析、隐马尔可夫模型(HMM)、动态规划、神经网络、N-gram语言模型等等的任意语音识别方法。

例如，识别单元102应用诸如快速傅立叶变换(FFT)分析之类的技术来分析频率随时间的改变，并且提取产生的语音信号的特征数据。识别单元102随后使用HMM法、动态规划法或者神经网络法，对被准备为与识别结果或其序列相关联的辞典的音素标准样式，与所提取的特征数据进行比较和匹配，并且生成所产生的语音内容的识别候选。

为了提高识别的正确性，识别单元102使用例如以N-gram为代表的统计语言模型，从生成的识别候选中估计并且选择最有可能的候选，以识别所产生的语音的内容。

确定单元103执行语音翻译处理所需要的多种确定处理。具体地，确定单元103确定语音识别结果的识别得分是否小于预定的阈值。只有当识别得分小于阈值时，才执行部分表示的生成。

确定单元103确定与输入的字符串(下文中称为“输入字符串”)相对应的部分表示是否存储在选择存储单元121中。当存储了该部分表示时，使用从选择存储单元121所获得的部分表示来继续该处理。在第一实施例中，因为为语音识别结果生成了该部分表示，所以该语音识别结果是输入字符串。

分析单元104从输入字符串中提取词素。分析单元104使用通常采用的词素分析技术来分析输入字符串中的词素，并且提取词素。当以词素序列的形式获得识别单元102所进行的语音识别处理的处理结果时，该语音识别结果可以直接用作词素学分析结果，而无需由分析单元104额外地执行词素分析处理。

生成单元105使用该词素学分析结果将输入字符串分割成多个句法或语义部分，并且从所分割的多个部分中选择任意数量的部分，从而生成与源语言表示(输入字符串)相对应的多个部分表示。

例如，当输入日语语音时，生成单元105在通过对输入语音的识别结果的词素学分析所获得的词类序列中，利用将每个预定的自足词类识别为分段的头部的方法来鉴别分段，从而将识别结果分割成分段。生成单元105将通过从字符串的头部一个接一个地移除所分割的分段所获得的字符串视为与源语言表示相对应的部分表示的候选。

用于分割识别结果的方法不限于此。可以通过使用了诸如语块、分段提取、短语结构提取、句法分析、依存分析(依存结构分析)以及命名实体(合适的表示提取)分析之类的典型的自然语言处理的方法，将输入字符串分割成句法或语义分割单元。生成单元105可以将输入字符串分割成以语义块为单位的分割，其中所述语义块是通过使用以时间或数值表示特别出现的字符或表达来作为线索所获得的。语义分割单元不限于此，并且可以是任意语义单元，例如程度、问候语以及惯用表达。

候选输出单元106可选择地在显示单元例如图像显示器(未示出)上，将生成单元105所生成的部分表示的候选的列表呈现给用户。

选择接收单元107接收用户从候选输出单元106所呈现的部分表示的候选中所选择的部分表示。选择接收单元107将所接收的部分表示的选择作为翻译处理的对象，输出到翻译单元108。

通过接收通过诸如触摸传感器之类的操作输入单元(未示出)以及对应于具有标记或排列的按钮或拨号盘所输入的部分表示，来实现选择接收单元107。

翻译单元108执行翻译处理，将由选择接收单元107所接收的待翻译的日语文本的字符串转换成语义上等价的英语文本。在翻译单元108的翻译处理中可以使用通常使用的被广义地归类为基于规则的方法和基于实例的方法的任意机器翻译技术。

根据基于规则的机器翻译，基于以前定义的规则，例如日语和英语语法和词典以及日语和英语词汇表之间的语义对应关系，将任意的日语字符串自动翻译成语义上等价的英语字符串。输出包括基于规则的翻译结果和用于表示翻译的确定性的基于规则的翻译得分的基于规则的翻译信息。

根据基于实例的机器翻译，将以前提供的与语义上等价的日语和英语实例对的平行翻译存储在存储单元中，并且基于输入文本与实例的相似性，参考所存储的平行翻译，恰当地检索与输入的日语文本相对应的英语文本，从而生成输入的日语句子的翻译结果。在基于实例的翻译处理中，适当地参考并且利用日语和英语词语之间的对应关系。

可以应用的翻译技术不限于上述那些技术。可以使用统计翻译，其根据基于大量实例数据的统计信息来获得源语言输入的平行翻译。

语言输出单元109将来自翻译单元108的翻译结果输出到诸如图像显示器之类的显示单元上。语言输出单元109可以执行文本语音合成，将翻译结果的文本信息转换成语音，并且向扬声器(未示出)等输出所合成的语音。在这种情况下，可以在语音合成处理中使用通常所使用的语音合成技术，例如文本到语音转换。

选择存储单元121对所选择的部分表示和输入字符串的组合进行存储，其中所选择的部分表示由选择接收单元107接收，所述输入字符串是由生成单元105用来生成部分表示的源。当确定单元103确定是否存储了与输入字符串相对应的部分表示时，参考选择存储单元121。

如图2中所示，将选择实例和生成源彼此关联地存储在选择存储单元121中，其中所述选择实例示出了接收的部分表示的选择，所述生成源示出了作为用来生成该选择实例的源的输入字符串。

可以通过通常所使用的任意存储介质，例如硬盘驱动器(HDD)、光盘、存储卡以及随机访问存储器(RAM)来配置选择存储单元121。

将参考图3解释根据第一实施例的语音翻译装置100所执行的语音翻译处理。

语音接收单元101确定是否输入了语音(下文中称为V)(步骤S301)。当没有输入语音V时(步骤S301：否)，重复该处理，直到输入语音V。

当输入了语音V时(步骤S301：是)，识别单元102执行输入的语音V的语音识别，以生成语音识别处理的结果(下文中称为R)以及识别得分(下文中称为S)(步骤S302)。

确定单元103确定识别得分S是否大于预定阈值(步骤S303)。当识别得分S大于预定阈值时(步骤S303：是)，生成单元105选择处理结果R作为待处理的对象(步骤S304)。识别得分S越大，语音识别结果的可靠性就越高。因此，认为即使当输出识别结果本身而没有生成部分表示时，通信也没有受到干扰。在第一实施例中，待处理的对象是翻译单元108的翻译处理的对象。

当识别得分S不大于预定阈值时(步骤S303：否)，确定单元103从选择存储单元121中检索与处理结果R匹配的生成源，并且从选择存储单元121中获得与所获取的生成源相对应的选择实例(步骤S305)。确定单元103确定是否获得了选择实例(步骤S306)。当确定单元103获得了选择实例时(步骤S306：是)，生成单元105选择所获得的选择实例作为待处理的对象(步骤S307)。

在步骤S305检索选择实例的处理中，不仅检索到与处理结果R完全匹配的生成源，而且可以检索到与处理结果R部分匹配的生成源。在这种情况下，获得替换了不同部分的选择实例。

当没有获得选择实例时(步骤S306：否)，执行用于生成处理结果R的部分表示的部分表示生成处理(步骤S308)。稍后将描述部分表示生成处理的细节。

候选输出单元106选择性地将待处理的对象的候选，包括部分表示生成处理中所生成的部分表示的集合(下文中称为L)以及作为部分表示的集合L的生成源的处理结果R，输出到显示单元(步骤S309)。

选择接收单元107接收用户从显示单元上所显示的作为待处理的对象的候选中所选择的候选(步骤S310)。选择接收单元107将接收的候选和处理结果R彼此关联地存储在选择存储单元121中(步骤S311)。这允许该装置学习用户所进行的部分表示选择，并且在稍后的语音翻译处理中使用该选择。选择接收单元107选择接收的候选作为待处理的对象(步骤S312)。待选择的候选的数目不限于一个。可以选择多个候选作为待处理的对象。

当生成单元105在步骤S304选择处理结果R作为待处理的对象时，当生成单元105在步骤S307选择从选择存储单元121所获得的选择实例作为待处理的对象时，或者当选择接收单元107在步骤S312选择所接收的候选作为待处理的对象时，翻译单元108将所选择的待处理的对象翻译成翻译目标语言(步骤S313)。如上所述，翻译单元108根据基于规则的或者基于实例的机器翻译，将源语言字符串翻译成目标语言字符串，其中该源语言字符串是待处理的对象。

语言输出单元109将翻译单元108所得到的翻译输出到显示单元(步骤S314)，并且终止语音翻译处理。语言输出单元109可以将通过执行目标语言字符串的语音合成所获得的语音输出到扬声器等，其中该目标语言字符串是所得到的翻译。

将参考图4，解释步骤S308的部分表示生成处理的细节。

分析单元104执行处理结果R的词素学分析，以生成词素序列(下文中称为P)(步骤S401)。生成单元105根据分段规则，从生成的词素序列P中提取分段(下文中称为Q)(步骤S402)。。

将解释分段规则的具体实例和分段处理的细节。在分段处理中，将处理结果R中的词素分类成预定的组，并且提取通过根据分段规则连接相邻的组中的词素所获得的分段，从而将处理结果R分割成分段。

将分段规则(下文中称为C)定义如下，例如：

<分段规则C>

C1：将词素序列中出现的词类分类到以下的组G1到G4中。

(G1)将单独形成语义单元的内容词语分类到这个组中。在日语中，将动词等分类到这个组中。

(G2)将单独或连续出现的并且形成语义单元的内容词语分类到这个组中。在日语中，将名词、形容词、数词等分类到这个组中。

(G3)将连接到另一个内容词语之前的功能词分类到这个组中。在日语中，将前缀等分类到这个组中。

(G4)将连接到另一个内容词语之后的功能词分类到这个组中。在日语中，将助词、后缀等分类到这个组中。

C2：将在句子的非末端的具有类别G3中的词类的词素连接到接下来出现的词素。

C3：将在句子的非开头的具有类别G4中的词类的词素连接到之前的词素。

C4：当具有类别G4中的词类的词素相邻时，将这些词素进行连接。

分段规则和分段处理不限于以上所述的那些。可以使用典型地使用的任意方法，例如语块、短语结构提取、句法分析、依存分析以及命名实体分析。

生成单元105将用于对处理的分段进行计数的计数器(下文中称为I)初始化为1(步骤S403)。生成单元105通过从分段Q中去除第I个分段来从处理结果R生成字符串，并且将生成的字符串添加到部分表示的集合L中(步骤S404)。

生成单元105将计数器I增加1(步骤S405)，并且确定计数器I是否超过了分段的数目(步骤S406)。当计数器I没有超过分段的数目时(步骤S406：否)，生成单元105通过通过去除下一个分段来生成部分表示并且将生成的部分表示添加到部分表示的集合L中，来重复该处理(步骤S404)。

当计数器I超过了分段的数目时(步骤S406：是)，生成单元105输出部分表示的集合L(步骤S407)，并且终止部分表示生成处理。

在第一实施例中，通过一个接一个地去除处理结果R中的分段，来生成多个部分表示，并且将其输出。可以通过去除多个分段来生成部分表示。在这种情况下，可以将通过选择接收单元107所接收的多个候选进行合并，以获得待处理的对象。

将解释根据第一实施例的语音翻译装置100所执行的语音翻译处理的具体实例。图5是用于解释日语语音输入(下文中称为V)作为输入语音的实例的示意图。

图5描绘了输入含义为“请给我两张从成田机场到波士顿的商务舱机票”的语音501作为日语语音输入V的情况(步骤S301)。

图6是用于解释日语语音输入V的识别结果(下文中称为J)的实例的示意图。图6描绘了输出含义为“请给我两张从成田机场到波士顿的地热档案票”的错误识别结果601作为识别结果J的情况，其中该识别结果J与识别得分S相关联(步骤S302)。

即，这个实例显示，在图5的语音501的下划线部分、含义为“商务舱”的日语被错误地识别成图6中的识别结果601的下划线部分、含义为“地热档案”的日语。

当将识别得分的预定阈值设置为“80”时，由于图6中所示情况下的识别得分为“72”，所以确定单元103执行从选择存储单元121中获得选择实例的处理(步骤S303：否，步骤S305)。

假设不能从选择存储单元121获得选择实例(步骤S306：否)，则执行部分表示生成处理(步骤S308)。在部分表示生成处理中，执行识别结果J的词素分析处理(步骤S401)。

图7是用于解释图6所示的作为识别结果J的词素学分析的结果的词素序列P的实例的示意图。图7描述了以包含彼此关联的分析词素和词素的词类的表为形式的词素序列P。

参考分段规则C和词素序列P，执行用于将识别结果J分割成分段的分段处理(步骤S402)。根据分段规则C1将词素序列P中出现的词类分类到组中。

例如，在图7所示的词素序列中，将词类为助词的四个日语词素和词类为后缀的日语词素分类到组G4中。

由于作为连接独立词类的两个名词彼此相邻，所以根据分段规则C4，将含义为“地热”的名词701和含义为“档案”的名词702进行连接。

根据分段规则C3，将在句子的非开头的、具有类别G4中的词类的每个词素(助词)连接到之前的词素。

根据分段规则C3，将在句子的非开头的、具有类别G4中的词类的每个词素(后缀)连接到之前的词素。

这个处理将识别结果J分割成分段。图8是用于解释分段处理所分割的分段Q的实例的示意图。在图8中，标记“/”所分开的单元表示分段。

通过一个接一个地去除各个分割分段来接连产生部分表示，并且将其添加到部分表示的集合L中(步骤S404)。图9是用于解释作为待处理的对象的候选的实例的示意图，该候选包括从如图8所示分割的分段Q中所生成的部分表示的集合L。如图9所示，作为待处理的对象的候选，还将原识别结果J(输出A)与部分表示的集合L一起输出(步骤S309)。

假设用户从输出的候选中选择了图9中的输出D(步骤S310)。图10描绘了用户选择输出D的情况，其中该输出D是去除了图6中包括识别结果601中下划线的日语的分段的部分表示。

在这种情况下，选择接收单元107将输出D和识别结果J彼此关联地存储在选择存储单元121中(步骤S311)。这样，将图2中所示的信息存储在选择存储单元121中。

选择所选择的候选作为待处理的对象(步骤S312)，并且将所选择的待处理的对象翻译成作为目标语言的英语(步骤S313)。如图11所示，即使利用去除了识别结果J的一部分分段的部分表示，当选择了适当的部分表示时，也可以输出不混淆说话者意图的翻译结果。

根据上述处理，即使当发生了用户的语音输入的部分错误识别时，用户也可以仅通过从呈现的候选中选择与用户的意图匹配的候选，来继续语音处理。因此，不再需要复杂的纠错操作，并且可以完全利用语音输入的无需用手的有利特性。

仅当识别结果的确定性很低时，才执行部分表示的生成。因此，避免了不必要的部分表示生成处理，使得降低了语音处理的负担并且增加了处理速度。

可以将以前对部分表示的选择结果存储在选择存储单元121中。因此，可以从选择存储单元121获得用于相同或者类似的识别错误的适当的部分表示，并且从而用户可以继续处理而无需选择候选。

与呈现识别结果的多个候选的常规技术不同，可以呈现从识别结果所新生成的多个部分表示作为待处理的对象。因此，尽管当多个识别结果都包括错误识别时常规技术需要负担繁重的纠错处理，在第一实施例中也可以生成不包括错误识别部分的部分表示。因此，无需纠错处理就可以继续该处理。

在第一实施例中，解释了将语音处理装置实现为用于翻译识别结果并且输出所得到的翻译的语音翻译装置的情况。可以将第一实施例应用于仅执行识别处理而不执行翻译处理的任意装置，例如语音操作***和语音对话***。

识别处理不限于对输入的语音进行识别的语音识别。可以将该识别处理应用于对用笔输入的字符串进行识别的字符串识别、手势识别，等等。

当可以从选择存储单元121获得选择实例时，选择所获得的选择实例作为待处理的对象，而可以优先于其它候选来呈现所获得的选择实例。例如，可以紧接着处理结果R来显示所获得的选择实例。可以将取决于选择该选择实例的频率的优先权存储在选择存储单元121中，并且可以根据优先权来显示选择实例。

当所生成的部分表示数目很大时，可以将待显示的部分表示限制为预先决定的数目。在这种情况下，可以显示预定数量的与识别结果的识别得分相对应的部分表示。因此，当例如识别得分低的时候，可以比识别得分高的情况显示更多的部分表示。

根据第一实施例的语音处理装置通过从语音识别结果中去除一部分字符串来生成多个部分表示，将生成的部分表示呈现给用户，并且接收用户从呈现的部分表示中所选择的部分表示作为语音处理的对象，以执行处理。因此，对语音识别结果的处理可以迅速地继续而无需负担繁重的纠错操作。

在第一实施例中，从语音识别结果生成部分表示。根据本发明的第二实施例的语音处理装置从通过翻译识别结果所获得的翻译结果来生成部分表示，并且将生成的部分表示呈现给用户。

如图12中所示，语音翻译装置1200包括语音接收单元101、识别单元102、确定单元103、分析单元104、生成单元105、候选输出单元106、选择接收单元1207、翻译单元1208、语言输出单元1209以及选择存储单元121。

在第二实施例中，选择接收单元1207、翻译单元1208以及语言输出单元1209的功能与第一实施例中的不同。其它组件和功能与图1中所示的那些相同，其中图1是根据第一实施例的语音翻译装置100的配置的方框图。因此，用相同的参考标号来指示这些组件，并且省略对其的解释。

选择接收单元1207与根据第一实施例的选择接收单元107的不同之处在于，选择接收单元107用于接收所选择的部分表示并且将接收的部分表示选择为待翻译的对象，而选择接收单元1207接收所选择的部分表示并且将接收的部分表示选择为待输出给用户的对象。在第二实施例中，在识别处理之后执行翻译处理，并且从翻译结果生成部分表示。

翻译单元1208与根据第一实施例的翻译单元108的不同之处在于，语言输出单元1209将作为来自识别单元102的识别结果的文本字符串翻译成目标语言。

语言输出单元1209与根据第一实施例的语言输出单元109的不同之处在于，语言输出单元109将来自翻译单元108的翻译结果输出到诸如图像显示器之类的显示单元，而语言输出单元1209输出翻译结果或者由选择接收单元1207所接收的翻译结果的部分表示。

将参考图13，解释根据第二实施例的语音翻译装置1200所执行的语音翻译处理。

语音接收单元101确定是否输入了语音V(步骤S1301)。当未输入语音V时(步骤S1301：否)，重复该处理直到输入语音V。

当输入了语音V时(步骤S1301：是)，识别单元103执行所输入的语音V的语音识别，以生成识别结果(下文中称为J)和识别得分S(步骤S1302)。

翻译单元1208将识别结果J翻译成目标语言，以生成处理结果R作为翻译结果(步骤S1303)。

从步骤S1304到步骤S1313的得分比较处理、选择实例获得处理、部分表示生成处理以及候选接收处理与根据第一实施例的语音翻译装置100所执行的步骤S303到S312的那些处理相同。因此，将省略对其的描述。

当在步骤S1305生成单元105选择处理结果R作为待处理的对象时，当在步骤S1308生成单元105选择从选择存储单元121所获得的选择实例作为待处理的对象时，或者当在步骤S1313选择接收单元1207选择接收的候选作为待处理的对象时，语言输出单元1209向显示单元输出所选择的待处理的对象(步骤S1314)，并且终止语音翻译处理。

将解释根据第二实施例的语音翻译装置1200所执行的语音翻译处理的具体实例。这里假设输入了与图5中所示的相同的日语语音输入V，并且获得了如图6所示的识别结果J。

在第二实施例中，不对识别结果而对翻译结果执行部分表示生成处理。因此，对图6中所示的识别结果J进行翻译，并且输出所得到的翻译(步骤S1303)。图14是用于解释通过对图6中所示的识别结果J进行翻译所获得的翻译结果的实例的示意图。

在第二实施例中，将翻译单元1208的翻译结果视为图4中所示的部分表示生成处理中的处理结果R，来执行部分表示生成处理。图15是用于解释分段Q的实例的示意图，其中通过部分表示生成处理中的分段处理来分割分段Q。

当获得分割的分段Q时，生成单元105通过一个接一个地去除分割的分段来接连生成部分表示，将所生成的部分表示添加到部分表示的集合L中(步骤S404)。图16是用于解释作为待处理的对象的候选的实例的示意图，包括基于图15所示分割的分段Q所生成的部分表示的集合L。

将图16所示的待处理的对象的候选呈现给用户(步骤S1310)，并且接收用户对候选的选择(步骤S1311)。图17描绘了用户选择输出E的情况，其中输出E是通过去除包括与图6中的识别结果601中的下划线的日语相对应的翻译的分段所生成的部分表示。

针对第一实施例中的语音识别结果生成和呈现部分表示，然而在第二实施例中，针对通过对语音识别结果进行翻译所获得的翻译结果，来执行诸如部分表示的生成、候选的呈现以及接收候选之类的处理。因此，可以理解目标语言的用户可以从所呈现的候选中选择恰当的候选。因此，可以连续地执行通信支持处理而无需负担繁重的纠错处理。

根据第二实施例的语音处理装置可以对于通过翻译识别结果所获得的翻译结果生成部分表示，并且呈现所生成的部分表示。因此，可以快速地继续支持跨语言通信的处理，而无需负担繁重的纠错处理。

将解释根据第一或第二实施例的语音处理装置的硬件配置。

如图18所示，根据第一或第二实施例的语音处理装置具有：控制器，例如中央处理器(CPU)；存储单元，例如只读存储器(ROM)52和RAM 53；通信接口(I/F)54，其连接到网络以建立通信；以及总线61，其连接各个组件。

将根据第一或第二实施例的语音处理装置所执行的语音处理程序预先安装在ROM 52等中。

可以将根据第一或第二实施例的语音处理装置所执行的语音处理程序以可安装格式或可执行格式的文件，存储在计算机可读存储介质中，例如只读光盘存储器(CD-ROM)、软盘(FD)、可写光盘(CD-R)以及数字多功能盘(DVD)。

可以将根据第一或第二实施例的语音处理装置所执行的语音处理程序存储在连接到诸如因特网之类的网络的计算机中，并且通过网络进行下载。可以通过诸如因特网之类的网络来提供或分发根据第一或第二实施例的语音处理装置所执行的语音处理程序。

根据第一或第二实施例的语音处理装置所执行的语音处理程序具有包括上述各个组件(语音接收单元、识别单元、确定单元、分析单元、生成单元、候选输出单元、选择接收单元、翻译单元以及语言输出单元)的模块配置。作为实际的硬件，CPU 51从ROM 52读取语音处理程序并且执行该程序，从而将各个组件加载到主存储单元，以在主存储单元上生成各个组件。

Claims

1、一种语音处理装置，包括：

语音接收单元，用于接收输入语音；

语音处理单元，用于从所述输入语音获得文本字符串；

分析单元，用于执行所述文本字符串的词素学分析；

生成单元，用于将所述文本字符串分割成以预定的并且由至少一个词素组成的分割为单位的分量，并且生成包括部分所述分量的部分字符串候选；

第一输出单元，用于将所述部分字符串候选输出到显示单元；以及

选择接收单元，用于接收从所述部分字符串候选中所选择的部分字符串。

2、如权利要求1所述的装置，其中，所述语音处理单元对所述输入语音执行语音识别处理，以获得识别的结果作为所述文本字符串。

3、如权利要求2所述的装置，其中，所述语音接收单元接收第一语言的所述输入语音，

所述装置进一步包括：

翻译单元，用于将所接收的部分字符串翻译成第二语言，以获得翻译结果；以及

第二输出单元，用于输出所述翻译结果。

4、如权利要求1所述的装置，其中：

所述语音接收单元接收第一语言的所述输入语音，以及

所述语音处理单元对所接收的输入语音执行语音识别处理，以获得识别的结果，并且将识别结果翻译成第二语言，以获得翻译的结果作为所述文本字符串。

5、如权利要求1所述的装置，其中，所述生成单元将所述文本字符串分割成以分割为单位的分量，并且生成包括部分所述分量的所述部分字符串候选，其中所述分割是包括词语、分段和短语的句子的句法结构单元。

6、如权利要求1所述的装置，其中，所述生成单元将所述文本字符串分割成以分割为单位的分量，并且生成包括部分所述分量的所述部分字符串候选，其中所述分割是包括数字、时间、程度、问候语以及惯用表达中的至少一个的短语的语义单元。

7、如权利要求1所述的装置，进一步包括：

存储单元，用于将所接收的部分字符串和作为所述部分字符串的生成源的所述文本字符串彼此关联地进行存储，其中

所述选择接收单元将所接收的部分字符串和作为所述部分字符串的生成源的所述文本字符串彼此关联地存储在所述存储单元中。

8、如权利要求7所述的装置，进一步包括：

确定单元，用于确定与所述文本字符串相对应的所述部分字符串是否存储在所述存储单元中，其中

当与所述文本字符串相对应的所述部分字符串存储在所述存储单元中时，所述生成单元从所述存储单元中获得与所述文本字符串相对应的所述部分字符串，以生成所述部分字符串候选。

9、如权利要求7所述的装置，进一步包括：

所述第一输出单元优先于未存储在所述存储单元中的部分字符串候选，输出存储在所述存储单元中的部分字符串候选。

10、如权利要求2所述的装置，其中

所述语音处理单元进一步计算用于指示所接收的输入语音的文本字符串的概率的似然性，以及

所述装置进一步包括确定单元，用于确定所述似然性是否小于预定阈值，其中

当所述确定单元确定所述似然性小于所述阈值时，所述生成单元生成所述部分字符串候选。

11、如权利要求10所述的装置，其中，当所述确定单元确定所述似然性大于所述阈值时，所述第一输出单元输出所述文本字符串。

12、如权利要求1所述的装置，其中，所述第一输出单元从所述部分字符串候选中提取预定数目的部分字符串候选，并且输出所提取的部分字符串候选。

13、如权利要求1所述的装置，其中

所述第一输出单元根据所述文本字符串的似然性，输出所述部分字符串候选中的预定数目的部分字符串候选。

14、一种语音处理方法，包括：

接收输入语音；

从所述输入语音获得文本字符串；

执行所述文本字符串的词素学分析；

将所述文本字符串分割成以预定的并且由至少一个词素组成的分割为单位的分量，并且生成包括部分所述分量的部分字符串候选；

将所述部分字符串候选输出到显示单元；以及

接收从所述部分字符串候选中所选择的部分字符串。