CN110032742B

CN110032742B - 响应语句生成设备、方法和存储介质以及语音交互***

Info

Publication number: CN110032742B
Application number: CN201811417322.0A
Authority: CN
Inventors: 渡部生圣
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-11-28
Filing date: 2018-11-26
Publication date: 2023-09-01
Anticipated expiration: 2038-11-26
Also published as: KR20190062274A; EP3489950B1; CN110032742A; JP6943158B2; US20190164551A1; KR102161579B1; EP3489950A1; US10861458B2; JP2019101064A

Abstract

为了通过鹦鹉学舌的方式生成包括针对用户的兴趣定制的内容的响应语句。响应语句生成设备包括：转换装置，用于将用户的输入语音转换成文本信息；提取装置，用于从输入语音中提取韵律信息；指定装置，用于基于文本信息和韵律信息来指定指示用户的情绪发生的情绪发生词语；以及生成装置，用于从文本信息中选择包括所指定的情绪发生词语的字符串并且通过对所选择的字符串执行预定处理来生成响应语句。

Description

响应语句生成设备、方法和存储介质以及语音交互***

技术领域

本公开内容涉及响应语句生成设备、方法和程序以及语音交互***。

背景技术

日本未审查专利申请公开第2009-193448号公开了一种与交互***有关的技术，该交互***分析人类话语的内容，生成用于执行鹦鹉学舌似(即，如鹦鹉那样准确重复人类的话语，下文中也简称“鹦鹉学舌”)的响应语句，并且将所生成的响应语句输出为语音。在日本未审查专利申请公开第2009-193448号中公开的技术中，通过基于预先准备的特殊表达列表从对表示话语内容的文本数据的分析结果中提取表示意图和/或主观想法的表达并且向所提取的表达添加某些应答响应(即，表达理解和/或赞同的应答声音)来生成响应语句。

发明内容

本发明人已经发现了以下问题。如上所描述的，在日本未审查专利申请公开第2009-193448号中公开的技术中，要提取的表达是在文本数据的基础上基于它们与特殊表达列表中限定的表达之间的匹配来指定的。然而，存在以下问题：即使表达在文本数据的基础上与特殊表达列表中的表达在形式上匹配，但是仍存在所匹配的表达可能与说话者的实际兴趣不一致的可能性。例如，存在在话语内容中充满由说话者发出的情绪的表达可能未被指定为要提取的表达的可能性。此外，在这种情况下，响应语句与说话者的兴趣不一致。

已经作出本公开内容以解决上面描述的问题，并且本公开内容的目的是提供一种用于通过鹦鹉学舌的方式来生成包括针对用户的兴趣定制的内容的响应语句的响应语句生成设备、方法和程序以及语音交互***。

第一示例性方面是一种响应语句生成设备，包括：转换装置，用于将用户的输入语音转换成文本信息；提取装置，用于从输入语音中提取韵律信息；指定装置，用于基于文本信息和韵律信息指定指示用户的情绪发生的情绪发生词语；生成装置，用于从文本信息中选择包括所指定的情绪发生词语的字符串，并且通过对所选择的字符串执行预定处理来生成响应语句。

如上所述，在本实施方式中，通过利用从表示用户的话语内容的语音数据中提取的韵律信息，将文本信息中的与用户表达情绪的部分相对应的字符串指定为情绪发生词语。此外，通过利用情绪发生词语作为响应语句的核心来生成响应语句。因此，可以通过鹦鹉学舌的方式生成包括针对用户的兴趣定制的内容的响应语句，并且将所生成的响应语句作为语音数据回应给用户。因此，可以做出给用户一种用户被用心倾听的感觉(下文中，也称为“用心倾听的感觉”)的响应。

此外，提取装置优选地通过对输入语音执行基频分析来将输入语音中的强调语音提取为韵律信息，并且指定装置优选地根据文本信息将与由韵律信息指示的强调语音相对应的字符串指定为情绪发生词语。以这种方式，可以从语音数据中适当地提取强调部分并且生成更合适的响应语句。

此外，转换装置优选地将关于输入语音中的各个声音发生的时间的信息与文本信息中的相应字符相关联，提取装置优选地包含关于强调语音中的各个声音已经在韵律信息中发生的时间的信息且将其与韵律信息一起提取，并且指定装置优选地根据文本信息将与包括在韵律信息中的关于时间的信息相对应的字符串指定为情绪发生词语。以这种方式，可以根据与输入语音相对应的文本信息准确地指定与强调语音相对应的字符串，并且生成更合适的响应语句。

此外，响应语句生成设备优选地还包含预先登记了情绪发生词语的候选的字典信息，并且指定装置优选地在进一步考虑字典信息的同时指定情绪发生词语。以这种方式，即使在基于韵律信息指定了多个强调表达的情况下，也可以指定更合适的情绪发生词语。因此，可以提高鹦鹉学舌的响应语句的准确性。

可替选地，响应语句生成设备优选地还包含通过对其他输入语音的机器学习而生成的词语情绪推理模型，并且指定装置优选地在进一步考虑词语情绪推理模型的同时指定情绪发生词语。以这种方式，即使在基于韵律信息指定了多个强调表达的情况下，也可以指定更合适的情绪发生词语。因此，可以提高鹦鹉学舌的响应语句的准确性。

第二示例性方面是一种响应语句生成方法，包括：将用户的输入语音转换成文本信息；从输入语音中提取韵律信息；基于文本信息和韵律信息指定指示用户的情绪发生的情绪发生词语；从文本信息中选择包括所指定的情绪发生词语的字符串，并且通过对所选择的字符串执行预定处理来生成响应语句。

第三示例性方面是一种用于使计算机执行以下处理的响应语句生成程序：将用户的输入语音转换成文本信息的处理；从输入语音中提取韵律信息的处理；基于文本信息和韵律信息指定指示用户的情绪发生的情绪发生词语的处理；以及从文本信息中选择包括所指定的情绪发生词语的字符串并且通过对所选择的字符串执行预定处理来生成响应语句的处理。这些第二方面和第三方面也被预期将提供与第一方面的有益效果类似的有益效果。

第四示例性方面是一种语音交互***，包括：语音输入装置，用于接收来自用户的输入语音；转换装置，用于将输入语音转换成文本信息；提取装置，用于从输入语音中提取韵律信息；指定装置，用于基于文本信息和韵律信息指定指示用户的情绪发生的情绪发生词语；生成装置，用于从文本信息中选择包括所指定的情绪发生词语的字符串，并且通过对所选择的字符串执行预定处理来生成响应语句；以及语音输出装置，用于将生成的响应语句转换成语音并且输出该语音。

如上所描述的，在第四方面中，各种装置以分布式方式设置在多个设备中。因此，例如，当它们分布在直接与用户交互的交互式机器人与外部服务器之间时，可以降低交互式机器人侧的处理负担。此外，可以在外部服务器侧容易地提高处理性能。因此，在第四方面中，除了与第一方面的有益效果类似的有益效果以外，还可以获得上面描述的额外的有益效果。

根据本公开内容，可以提供一种用于通过鹦鹉学舌的方式来生成包括针对用户的兴趣定制的内容的响应语句的响应语句生成设备、方法和程序以及语音交互***。

根据下文中给出的详细描述和附图，将更充分地理解本公开内容的以上以及其他目的、特征和优点，附图仅以说明的方式给出，因此不应被视为限制本公开内容。

附图说明

图1是示出根据本公开内容的第一实施方式的响应语句生成设备的配置的框图。

图2是示出根据本公开内容的第一实施方式的响应语句生成处理的流程的流程图。

图3是示出根据本公开内容的第二实施方式的响应语句生成设备的配置的框图；以及

图4是示出根据本公开内容的第三实施方式的语音交互***的整体配置的框图。

具体实施方式

在下文中，参照附图来详细描述应用包括上面描述的各方面的本公开内容的具体实施方式。贯穿整个附图，相同的附图标记被分配给相同的部件，并且为了使说明清楚，适当地省略了重复的说明。

<根据本公开内容的第一实施方式>

在聊天型交互式机器人中，指示交互式机器人正在用心倾听用户的言辞(或话语)是有效的，因为它们可以为聊天提供自然性。在这些言辞(或话语)中，鹦鹉学舌的响应(即，通过鹦鹉学舌来响应)是通过直接使用用户的话语中的词语和/或短语而作出的一种响应。例如，当用户说“昨天天气很热”时，可能期望交互式机器人通过说“天气很热”作为鹦鹉学舌的响应来回应用户的话语。

注意，在相关技术的语音交互***中，鹦鹉学舌的语句被用作响应以填充实际响应语句生成之前的时间。因此，在大多数情况下，过去用于生成鹦鹉学舌的语句的处理很简单。然而，由于鹦鹉学舌的方式是如上所描述的聊天型交互式机器人中的重要响应之一，因此，针对鹦鹉学舌的方式执行与过去相比更复杂的语言处理已经变得值得。

因此，在该实施方式中，从用户的话语内容推断出表现出用户情绪变化的表达词语，并且生成包括所推断的表达词语的鹦鹉学舌的响应语句。即，当生成鹦鹉学舌的响应语句时，选择了针对用户的兴趣定制的词语。通过这样做，可以做出可以给用户好的用心倾听的感觉的鹦鹉学舌的响应。

图1是示出根据本公开内容的第一实施方式的响应语句生成设备100的配置的框图。响应语句生成设备100接收由用户U发出的话语的内容作为输入语音201，从话语的内容中指定接近(即，基本上表达)用户U的兴趣的词语/短语，生成包括所指定的词语/短语的响应语句，并且将所生成的响应语句输出为输出语音209。以这样的方式，响应语句生成设备100与用户U进行交互(即，进行会话)。因此，响应语句生成设备100可以被视为语音交互***的示例。此外，根据该实施方式的响应语句生成设备100可以安装在例如机器人、PC(个人计算机)、移动终端(智能电话、平板电脑等)等中。

注意，响应语句生成设备100由例如主要使用微计算机的硬件形成，该微计算机包括：CPU(中央处理单元)，其执行运算处理等；存储器，其由ROM(只读存储器)和RAM(随机存取存储器)组成，并且存储由CPU执行的运算程序等；接口单元(I/F)，其在外部地接收和输出信号等。CPU、存储器和接口单元通过数据总线等彼此连接。

响应语句生成设备100包括例如语音输入单元110、转换单元120、提取单元130、情绪发生词语指定单元140、响应语句生成单元150以及语音输出单元160。语音输入单元110通过麦克风等接收来自用户U的输入语音201，并且将输入语音202输出至转换单元120和提取单元130。语音输入单元110是语音输入装置的示例。

转换单元120将输入语音202转换成文本信息。转换单元120是转换装置的示例。转换单元120将通过对转换后的文本信息或文本信息执行至少预定分析而获得的分析结果205输出至情绪发生词语指定单元140。此外，转换单元120将关于输入语音202中的各个声音发生的时间的信息与文本信息中的相应字符相关联。注意，关于时间的信息(下文中也称为时间信息)是例如从输入语音202的开始到各个声音的发生的经过时间，或者是关于各个声音已经发生的时间点的信息。即，时间信息是通过其可以指定文本信息中每个字符的位置的信息。

注意，转换单元120包括语音识别单元121、形态分析单元122以及依赖性分析单元123。例如，语音识别单元121将语音信息即输入语音202数字化。语音识别单元121从数字化的信息中检测话语部分，并且通过参考统计语言模型等对检测到的话语部分中的语音信息执行模式匹配来执行语音识别。

注意，统计语言模型是例如用于计算语言表达的出现概率——例如在语素的基础上通过学习连接概率获得的例如词语出现的分布或者出现在特定词语之后的词语的分布——的概率模型。统计语言模型预先存储在存储单元等(未示出)中。语音识别单元121将作为语音识别结果的文本信息203输出至形态分析单元122。

形态分析单元122将与输入语音202相对应的文本信息203划分成多个语素。此外，形态分析单元122将部分话语的类型(名词、形容词、动词、副词等)添加到每个语素，从而生成其中包含有部分话语信息的语素信息。形态分析单元122分析由语音识别单元121识别(即，获得)的文本信息203的构造。例如，形态分析单元122通过利用普通的形态分析器对字符串信息即文本信息203执行形态分析等，并且解释字符串信息的含义。形态分析单元122将分析结果204输出至依赖性分析单元123。

依赖性分析单元123分析在分析结果204中的语素信息项之间的依赖关系，并且将分析结果205(包括语素信息、依赖性信息、关于识别结果的文本信息等)输出至情绪发生词语指定单元140。

提取单元130是提取装置的示例。提取单元130从输入语音202中提取韵律信息206。具体地，提取单元130通过对输入语音202执行基频分析来将输入语音202中的强调语音提取为韵律信息206。注意，韵律信息206是指示输入语音202中的语调、重音、重音强度等的信息。然而，在该示例中，假定韵律信息206是特别地指示与输入语音202中的其他声音相比用户U已经强调的声音的位置。注意，提取单元130可以包括多个部分作为韵律信息206中的强调部分。

例如，提取单元130计算当前输入语音之前(一个样本之前)的输入语音的基频与当前输入语音的基频之间的比率。然后，当提取单元130确定当前基频已经增加特定值或更大值时，确定当前输入语音对应于强调语音的部分。可替选地，提取单元130基于过去的话语历史来计算基频范围。然后，当当前输入语音的基频超过该范围时，确定当前输入语音对应于强调语音的部分。

此外，提取单元130包含关于强调语音中的各个声音在韵律信息中出现的时间的信息，并且将其与韵律信息206一起提取。假定在该示例中时间信息是通过其可以指定输入语音202中的各个声音的位置的信息。因此，可以说韵律信息206包括与输入语音202中的其他声音相比用户U已经强调的声音相对应的时间信息。注意，与韵律特征提取有关的公知技术可以应用于提取单元130。

情绪发生词语指定单元140是指定单元的示例。情绪发生词语指定单元140基于作为文本信息的分析结果205以及韵律信息206指定指示用户U的情绪发生的情绪发生词语207。具体地，情绪发生词语指定单元140根据分析结果205将与由韵律信息206指示的强调语音相对应的字符串指定为情绪发生词语207。更具体地，情绪发生词语指定单元140根据分析结果205将与包括在韵律信息206中的时间信息相对应的字符串指定为情绪发生词语207。情绪发生词语指定单元140将所指定的情绪发生词语207和与分析结果205相对应的文本信息207a输出至响应语句生成单元150。

响应语句生成单元150是生成单元的示例。响应语句生成单元150从文本信息207a中选择包括所指定的情绪发生词语207的字符串，并且通过对所选择的字符串执行预定处理来生成响应语句208。例如，响应语句生成单元150从文本信息207a中选择包括情绪发生词语207的谓词术语。特别地，响应语句生成单元150优选地在考虑包括在文本信息207a中的语素信息和/或依赖性信息的同时选择包括情绪发生词语207的谓词术语。在这种情况下，响应语句生成单元150可以选择多个谓词术语。此外，作为预定处理的示例，响应语句生成单元150可以改变所选择的谓词术语中的词语的结尾等。可替选地，作为预定处理的另一示例，响应语句生成单元150可以移除所选择的谓词术语的一部分，和/或将其他词语或短语与谓词术语组合。例如，响应语句生成单元150可以从谓词术语中移除谓词部分，从而将其处理为疑问形式。响应语句生成单元150将所生成的响应语句208输出至语音输出单元160。注意，预定处理不限于上面描述的示例。

语音输出单元160将由响应语句生成单元150生成的响应语句208转换成语音(例如，话语)，并且通过使用扬声器等将所获得的语音(例如，话语)输出为针对用户U的输出语音209。语音输出单元160是语音输出装置的示例。

注意，响应语句生成设备100需要至少包括转换单元120、提取单元130、情绪发生词语指定单元140以及响应语句生成单元150。在这种情况下，响应语句生成设备100可以将输入语音202预先存储在存储单元(未示出)中。然后，转换单元120和提取单元130可以从存储单元中读出输入语音202并且执行它们相应的处理。此外，在这种情况下，响应语句生成单元150还可以将响应语句208存储在存储单元中。

图2是示出根据本公开内容的第一实施方式的响应语句生成处理的流程的流程图。首先，语音输入单元110接收用户U的话语内容作为语音(S101)。例如，假定用户U说出“偶尔出国旅行是愉快的”。

接下来，语音识别单元121对从语音输入单元110接收的输入语音202执行语音识别(S102)。然后，形态分析单元122对通过语音识别获得的文本信息203执行形态分析(S103)。接下来，依赖性分析单元123对通过形态分析获得的分析结果204执行依赖性分析(S104)。

此外，与步骤S102至步骤S104并行，提取单元130从输入语音202中提取韵律信息206(S105)。在该示例中，假定例如用户U强调“出国旅行”，并且韵律信息206包含关于与“出国旅行”相对应的声音的位置的信息及其在输入语音202中的时间信息。

在步骤S104和步骤S105之后，情绪发生词语指定单元140基于分析结果205和韵律信息206指定情绪发生词语207(S106)。例如，情绪发生词语指定单元140根据分析结果205将由用户U强调的字符串“出国旅行”指定为情绪发生词语207。

然后，响应语句生成单元150从文本信息207a中选择包括情绪发生词语207的字符串(S107)。例如，响应语句生成单元150根据文本信息207a将“出国旅行是愉快的”选择为包括情绪发生词语207的谓词术语。接下来，响应语句生成单元150通过对所选择的字符串执行预定处理来生成响应语句208(S108)。例如，响应语句生成单元150生成通过从谓词术语中移除谓词将谓词术语“出国旅行是愉快的”转换成疑问形式而获得的响应语句“是出国旅行吗？”。

之后，语音输出单元160将响应语句208转换成语音(例如，话语)(S109)。例如，生成与响应语句“是出国旅行吗？”相对应的语音数据。然后，语音输出单元160针对用户U输出转换后的输出语音209(S110)。例如，语音输出单元160针对用户U输出语音(例如，话语)“是出国旅行吗？”。

以这种方式，用户U可以接收对他/她自己的话语中强调的表达的适当的鹦鹉学舌的响应。即，根据该实施方式的响应语句生成设备100可以生成包括针对用户的兴趣定制的内容的鹦鹉学舌的响应语句。因此，用户U可以从响应语句生成设备100获得较好的用心倾听的感觉。

<根据本公开内容的第二实施方式>

根据本公开内容的第二实施方式是上面描述的第一实施方式的修改示例。

图3是示出根据本公开内容的第二实施方式的响应语句生成设备100a的配置的框图。与上面描述的响应语句生成设备100相比，响应语句生成设备100a包括情绪发生词语字典170作为附加部件。情绪发生词语字典170是其中至少一个情绪发生词语的一个或多个候选被预先登记为字符串信息的数据库。此外，除了由上面描述的情绪发生词语指定单元140执行的处理以外，情绪发生词语指定单元140a还通过进一步考虑情绪发生词语字典170来指定情绪发生词语207。以这种方式，在多个部分被指示为韵律信息中的强调声音的情况下，可以基于登记在情绪发生词语字典170中的情绪发生词语的候选来缩减(即，减少数目)与强调声音相对应的部分。因此，可以提高鹦鹉学舌的响应语句的准确性。

例如，类似于上面描述的示例，假定输入语音201为“偶尔出国旅行是愉快的”并且存在两个由用户U强调的声音“出国旅行”和“愉快”。在这种情况下，提取单元130包括用于指定韵律信息206中的两个声音“出国旅行”和“愉快”的两个位置或两个时间信息片段等。然后，首先，情绪发生词语指定单元140a根据分析结果205将“出国旅行”和“愉快”指定为与由韵律信息206指示的时间信息相对应的字符串。接下来，情绪发生词语指定单元140a参考情绪发生词语字典170，并且将在上面描述的处理中指定的两个字符串与登记在情绪发生词语字典170中的候选情绪词语“愉快”进行比较。然后，情绪发生词语指定单元140a将在比较中存在匹配的“愉快”指定为情绪发生词语207。

之后，响应语句生成单元150从文本信息207a中选择包括所指定的情绪发生词语“愉快”的谓词术语“出国旅行是愉快的”。然后，响应语句生成单元150通过留下情绪发生词语“愉快”并且改变词语的结尾来从谓词术语“出国旅行是愉快的”生成例如响应语句“这是愉快的，不是吗？”。

如上所描述的，在第二实施方式中，通过考虑情绪发生词语字典来指定情绪发生词语。因此，即使在存在多个候选情绪发生词语的情况下，也可以准确地指定情绪发生词语。此外，可以在考虑所指定的情绪发生词语的同时根据用户强调的表达来生成适当的鹦鹉学舌的响应语句。

注意，在第二实施方式中，可以使用词语情绪推理模型来代替情绪发生词语字典170。注意，词语情绪推理模型是通过对其他输入语音的机器学习预先生成的用于情绪发生词语的推理模型。在这种情况下，除了由情绪发生词语指定单元140执行的上面描述的处理以外，情绪发生词语指定单元140a还通过进一步考虑词语情绪推理模型来指定情绪发生词语207。以这种方式，可以提高鹦鹉学舌的响应语句的准确性。

注意，在第二实施方式中，可以使用专有名词数据库来代替情绪发生词语字典170。注意，专有名词数据库是其中至少一个专有名词被预先登记为字符串信息的数据库。在这种情况下，除了由情绪发生词语指定单元140执行的上面描述的处理以外，情绪发生词语指定单元140a通过进一步考虑专有名词数据库来指定情绪发生词语207。以这种方式，可以提高鹦鹉学舌的响应语句的准确性。

此外，在第二实施方式中，可以组合使用情绪发生词语字典170、词语情绪推理模型以及专有名词数据库中的至少两个。以这种方式，可以进一步提高鹦鹉学舌的响应语句的准确性。

<根据本公开内容的第三实施方式>

根据本公开内容的第三实施方式是上面描述的第一实施方式或第二实施方式的修改示例。在第三实施方式中，交互式机器人仅具有在交互式机器人与用户之间交换语音(例如，话语)的功能和与外部计算机通信的功能。同时，外部计算机包括上面描述的响应语句生成设备100或100a的配置的一部分。

图4是示出根据本公开内容的第三实施方式的语音交互***500的整体配置的框图。语音交互***500被配置成使得用户U可以与交互式机器人300交互(即，进行会话)。应当注意的是，交互式机器人300被配置成请求外部响应语句生成设备400对用户U发出的话语生成鹦鹉学舌的响应语句。例如，交互式机器人300和响应语句生成设备400通过通信网络例如LTE(长期演进)彼此连接，并且可以彼此执行数据通信。

交互式机器人300需要至少具有与用户U执行语音交互所需的最小配置。注意，交互式机器人300可以具有与公知的交互式机器人的功能相同的功能。此外，交互式机器人300可以具有生成用于与用户U进行交互(即，进行会话)的普通响应语句的功能。

交互式机器人300包括例如语音输入单元310、通信单元320以及语音输出单元330。语音输入单元310和语音输出单元330分别具有与上面描述的语音输入单元110和语音输出单元160的功能相同的功能。然而，语音输入单元310将从用户U接收的输入语音201输出至通信单元320作为输入语音202。此外，语音输出单元330将从通信单元320接收的响应语句208b转换成语音(例如，话语)，并且针对用户U输出该语音(例如，话语)作为输出语音209。

通信单元320通过例如无线通信发送/接收通信数据。通信单元320通过网络将输入语音202作为通信数据202a发送至响应语句生成设备400。此外，通信单元320通过网络从响应语句生成设备400接收通信数据208a。通信单元320将包括在所接收的通信数据208a中的响应语句208b输出至语音输出单元330。

响应语句生成设备400是信息处理装置例如计算机。响应语句生成设备400例如是安装在网络上的服务器。响应语句生成设备400包括通信单元410、转换单元420、提取单元430、情绪发生词语指定单元440以及响应语句生成单元450。转换单元420、提取单元430、情绪发生词语指定单元440以及响应语句生成单元450分别具有与上面描述的转换单元120、提取单元130、情绪发生词语指定单元140以及响应语句生成单元150的功能相同的功能。

通信单元410通过例如无线通信或有线通信发送/接收通信数据。通信单元410通过网络从交互式机器人300接收通信数据202a，并且将包括在通信数据202a中的输入语音202b输出至转换单元420和提取单元430。此外，通信单元410接收从响应语句生成单元450输出的响应语句208，并且将响应语句作为通信数据208a发送至交互式机器人300。

注意，交互式机器人300和响应语句生成设备400的配置不限于上面描述的配置。例如，交互式机器人300可以包括响应语句生成设备400的配置的一部分。即，交互式机器人300和响应语句生成设备400可以通过组合它们的配置来实现响应语句生成设备100或100a的配置。

以这种方式，通过在交互式机器人300与响应语句生成设备400之间分配处理，可以降低由交互式机器人300执行的处理，从而减小交互式机器人300的尺寸和重量。此外，通过增强响应语句生成设备400的处理能力，可以容易地提高语音交互***500的处理能力。因此，语音交互***500可以产生更复杂的响应。此外，在主要部件设置在交互式机器人300侧的情况下，维护操作员需要在他/她维护/检查语音交互***时访问交互式机器人300所在的位置。然而，通过将主要部件设置在响应语句生成设备400侧，可以消除对访问的需要。因此，可以减少维护例如维护/检查所需的人员负担。

注意，本公开内容不限于上面描述的实施方式，并且在不偏离本公开内容的精神和范围的情况下可以进行各种修改。尽管在上面描述的实施方式中将本公开内容描述为硬件配置，但是本公开内容不限于硬件配置。在本公开内容中，还可以通过使CPU(中央处理单元)执行计算机程序来实现任意处理。

可以使用任何类型的非暂态计算机可读介质来存储程序并将其提供至计算机。非暂态计算机可读介质包括任何类型的有形存储介质。非暂态计算机可读介质的示例包括磁存储介质(例如软盘、磁带、硬盘驱动器等)、光磁存储介质(例如，磁光盘)、CD-ROM(光盘只读存储器)、CD-R(可记录光盘)、CD-R/W、DVD(数字多功能光盘)以及半导体存储器(例如掩模ROM、PROM(可编程ROM)、EPROM(可擦除PROM)、闪存ROM、RAM(随机存取存储器)等)。可以利用任何类型的暂态计算机可读介质将程序提供至计算机。暂态计算机可读介质的示例包括电信号、光信号和电磁波。暂态计算机可读介质可以经由有线通信线路(例如，电线和光纤)或无线通信线路将程序提供至计算机。

根据如此描述的本公开内容，将明显的是，本公开内容的实施方式可以以多种方式变化。这些变型不应被视为偏离本公开内容的精神和范围，并且如将对于本领域技术人员明显的，所有这些修改旨在包括在所附权利要求书的范围内。

Claims

1.一种响应语句生成设备，包括：

转换装置，用于将用户的输入语音转换成文本信息；

提取装置，用于从所述输入语音中提取韵律信息；

指定装置，用于基于所述文本信息和所述韵律信息指定指示所述用户的情绪发生的情绪发生词语；以及

生成装置，用于从所述文本信息中选择包括所指定的情绪发生词语的字符串，并且通过对所选择的字符串执行预定处理来生成响应语句，

其中，

所述提取装置通过对所述输入语音执行基频分析来将所述输入语音中的强调语音提取为所述韵律信息，

所述转换装置将关于所述输入语音中的各个声音发生的时间的信息与所述文本信息中的相应字符相关联，

所述提取装置将关于所述强调语音中的各个声音已经发生的时间的信息包含在所述韵律信息中且将其与所述韵律信息一起提取，

所述指定装置根据所述文本信息将与包括在所述韵律信息中的关于所述时间的信息相对应的字符串指定为所述情绪发生词语，

所述响应语句生成设备还包含：预先登记了所述情绪发生词语的候选的字典信息，并且

所述指定装置在进一步考虑所述字典信息的同时指定所述情绪发生词语，以使得在多个部分被指示为所述韵律信息中的强调声音的情况下，基于登记在所述字典信息中的所述情绪发生词语的候选来缩减与所述强调声音相对应的部分。

2.根据权利要求1所述的响应语句生成设备，还包含通过对其他输入语音的机器学习而生成的词语情绪推理模型，其中，

所述指定装置在进一步考虑所述词语情绪推理模型的同时指定所述情绪发生词语。

3.一种响应语句生成方法，包括：

将用户的输入语音转换成文本信息；

从所述输入语音中提取韵律信息；

基于所述文本信息和所述韵律信息指定指示所述用户的情绪发生的情绪发生词语；以及

从所述文本信息中选择包括所指定的情绪发生词语的字符串，并且通过对所选择的字符串执行预定处理来生成响应语句，

其中，

通过对所述输入语音执行基频分析来将所述输入语音中的强调语音提取为所述韵律信息，

所述响应语句生成方法还包括：

将关于所述输入语音中的各个声音发生的时间的信息与所述文本信息中的相应字符相关联，以及

将关于所述强调语音中的各个声音已经发生的时间的信息包含在所述韵律信息中且将其与所述韵律信息一起提取，

根据所述文本信息将与包括在所述韵律信息中的关于所述时间的信息相对应的字符串指定为所述情绪发生词语，并且

在进一步考虑预先登记了所述情绪发生词语的候选的字典信息的同时指定所述情绪发生词语，以使得在多个部分被指示为所述韵律信息中的强调声音的情况下，基于登记在所述字典信息中的所述情绪发生词语的候选来缩减与所述强调声音相对应的部分。

4.一种存储程序的计算机可读存储介质，所述程序在执行时使得计算机执行以下处理：

将用户的输入语音转换成文本信息的处理；

从所述输入语音中提取韵律信息的处理；

基于所述文本信息和所述韵律信息指定指示所述用户的情绪发生的情绪发生词语的处理；以及

从所述文本信息中选择包括所指定的情绪发生词语的字符串并且通过对所选择的字符串执行预定处理来生成响应语句的处理，

其中，

所述程序在执行时还使得所述计算机执行以下处理：

5.一种语音交互***，包括：

语音输入装置，用于接收来自用户的输入语音；

转换装置，用于将所述输入语音转换成文本信息；

提取装置，用于从所述输入语音中提取韵律信息；

指定装置，用于基于所述文本信息和所述韵律信息指定指示所述用户的情绪发生的情绪发生词语；

生成装置，用于从所述文本信息中选择包括所指定的情绪发生词语的字符串，并且通过对所选择的字符串执行预定处理来生成响应语句；以及

语音输出装置，用于将所生成的响应语句转换成语音并且输出所述语音，

其中，

所述指定装置根据所述文本信息将与包括在所述韵律信息中的关于所述时间的信息相对应的字符串指定为所述情绪发生词语，并且

所述指定装置在进一步考虑预先登记了所述情绪发生词语的候选的字典信息的同时指定所述情绪发生词语，以使得在多个部分被指示为所述韵律信息中的强调声音的情况下，基于登记在所述字典信息中的所述情绪发生词语的候选来缩减与所述强调声音相对应的部分。