CN109074805A

CN109074805A - 信息处理设备、信息处理方法和程序

Info

Publication number: CN109074805A
Application number: CN201780019476.1A
Authority: CN
Inventors: 斋藤真里
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-03-31
Filing date: 2017-01-12
Publication date: 2018-12-21
Also published as: US11462213B2; US20210142796A1; JP6819672B2; WO2017168936A1; JPWO2017168936A1; EP3438974A4; EP3438974A1

Abstract

在用户与***之间实现更自然的交互。提供了一种信息处理设备，包括：控制单元，其根据与用户的发声识别相关的信息，从多个模式中选择响应于用户的发声方式的反馈模式，所述多个模式包括用于提供隐式反馈的第一模式和用于提供显式反馈的第二模式。还提供了一种信息处理方法，包括处理器根据与用户的发声识别相关的信息从多个模式中选择响应于用户的发声方式的反馈模式的步骤，所述多个模式包括用于提供隐式反馈的第一模式和用于提供显式反馈的第二模式。

Description

信息处理设备、信息处理方法和程序

技术领域

本公开内容涉及信息处理设备、信息处理方法和程序。

背景技术

近年来，已经提出了识别用户的发声或动作并且执行与所识别的输入对应的处理的各种设备。此外，已知对来自用户的输入执行反馈以提高输入的识别精度的技术。作为上述技术，存在专利文献1中描述的信息处理设备。

引用列表

专利文献

专利文献1：JP 2011-209787 A

发明内容

技术问题

然而，根据专利文献1中描述的信息处理设备，响应于输入的反馈方案是固定的，并且难以解决个体用户的情况。

因此，本公开内容将提出能够在用户与***之间实现更自然的对话的信息处理设备、信息处理方法和程序。

问题的解决方案

根据本公开内容，提供了一种信息处理设备，包括：控制单元，其根据与用户的发声识别相关的信息，从多个模式中选择响应于用户的发声方式的反馈模式。所述多个模式包括执行隐式反馈的第一模式和执行显式反馈的第二模式。

发明的有益效果

根据本公开内容，如上所述，可以在用户和***之间实现更自然的对话。注意，上述效果不一定是限制性的。利用或代替上述效果，可以实现本说明书中描述的任何一种效果或可以从本说明书中掌握的其他效果。

附图说明

图1是示出根据本公开内容的***配置示例的图。

图2是根据本公开内容的输入输出终端的功能框图。

图3是根据本公开内容的信息处理设备的功能框图。

图4是示出根据本公开内容的实施方式的输入输出终端与用户之间的对话的示例的图。

图5是示出根据实施方式的用于控制隐式反馈的流程的图。

图6是用于描述根据实施方式的输入输出终端的音量水平的图。

图7是示出根据实施方式的用于基于尝试识别的次数来控制反馈的流程的图。

图8是示出根据实施方式的用于基于发声模式的变化的判定来控制反馈的流程的图。

图9是示出根据实施方式的用于控制对发声位置和发声方向执行的反馈的流程的图。

图10是用于描述根据实施方式的用于控制其中添加了改进的原因的显式反馈的流程图。

图11是示出根据实施方式的用于基于视觉信息的反馈的附加控制的流程的图。

图12A是根据实施方式的使用指示符的反馈的示例。

图12B是根据实施方式的使用指示符的反馈的示例。

图13A是根据实施方式的使用头像的反馈的示例。

图13B是根据实施方式的使用头像的反馈的示例。

图13C是根据实施方式的使用头像的反馈的示例。

图14A是根据实施方式的使用图形的反馈的示例。

图14B是根据实施方式的使用图形的反馈的示例。

图14C是根据实施方式的使用图形的反馈的示例。

图15A是根据实施方式的使用头像的反馈的示例。

图15B是根据实施方式的使用头像的反馈的示例。

图15C是根据实施方式的使用头像的反馈的示例。

图16A是根据实施方式的使用图形的反馈的示例。

图16B是根据实施方式的使用图形的反馈的示例。

图17是示出输入输出终端和信息处理设备的硬件配置示例的图。

具体实施方式

在下文中，将参照附图详细描述本公开内容的一个或更多个优选实施方式。注意，在本说明书和附图中，具有基本相同的功能和结构的结构元件用相同的附图标记表示，并且省略对这些结构元件的重复说明。

注意，将按以下顺序给出描述。

1.根据本公开内容的反馈控制

1.1.根据声音识别技术的反馈

1.2.根据本公开内容的***配置示例

1.3.根据本公开内容的输入输出终端10

1.4.根据本公开内容的信息处理设备30

2.实施方式

2.1.关于反馈模式

2.2.隐式反馈的示例

2.3.切换与反馈相关的模式

2.4.添加了改进的原因的显式反馈

2.5.对通过视觉信息的反馈的附加控制

2.6.通过视觉信息的反馈的示例

3.输入输出终端10和信息处理设备30的硬件配置示例

4.结论

<1.根据本公开内容的反馈控制>

<<1.1.根据声音识别技术的反馈>>

近年来，已经提供了使用声音识别技术的各种设备。诸如家用电器，车载设备等使用声音识别技术的设备以及诸如个人计算机(PC)和智能电话的信息处理设备已经广泛用于普通消费者经常遇到的情况。此外，还期望在未来将使用声音识别技术的设备用作代替商业设施和社区设施中的人员向客户提供服务的主体。

根据上述设备，例如，可以识别用户的发声并且基于所识别的发声的内容来执行应用的处理。另外，上述设备具有在某些情况下根据对用户的发声的识别结果执行对用户的反馈的功能。例如，在设备不能识别用户的发声的情况下，通过在设备的显示单元上显示文本消息“我听不到你说话”来执行反馈。用户可以通过检查消息来感知发声的内容未被设备识别，并采取下一个动作。以这种方式，利用声音识别技术的设备可以通过执行与发声相关的反馈来要求用户改进他们的发声。此时，当来自设备的反馈的内容更清楚时，用户的发声改进的概率增加。

同时，来自设备的反馈显著影响用户对设备的印象。例如，在来自设备的反馈总是直截了当的情况下，用户可能会觉得设备“冰冷”或“生硬”。这是因为用户将和真人对话与和与设备对话进行比较。由于人与人之间的对话根据情况而变化，因此用户觉得始终执行不变的反馈的设备不自然。另外，上述印象可能导致设备的技术水平差的评估。此外，在来自设备的反馈清楚的情况下，假设一些用户将感到设备在发号施令而对设备产生反感。

通过关注以上几点来设计根据本公开内容的信息处理设备、信息处理方法和程序，并且其特征之一是：根据与用户的发声识别相关的信息，响应于用户的发声方式从多个模式中选择反馈模式。另外，在上述多个模式中包括执行隐式反馈的第一模式和执行显式反馈的第二模式。在以下描述中，将在列出特征的同时描述通过根据本公开内容的信息处理设备、信息处理方法和程序的特征实现的优点。

<<1.2.根据本公开内容的***配置示例>>

首先，将参照图1描述根据本公开内容的信息处理***的配置示例。参照图1，根据本公开内容的信息处理***包括输入输出终端10和信息处理设备30。另外，输入输出终端10和信息处理设备30连接，使得输入输出终端10和信息处理设备30可以经由网络20彼此通信。

这里，输入输出终端10可以是收集用户的发声并且基于该发声向用户呈现处理应用的结果的终端。另外，输入输出终端10可以具有响应于用户的发声执行反馈的功能。图1示出了下述示例，在该示例中，输入输出终端10响应于用户P1的发声“你好”，通过声音输出“我可以帮你吗？”来执行反馈。

另外，根据本公开内容的信息处理设备30具有基于由输入输出终端10收集的用户P1的发声来控制由输入输出终端10对用户P1的发声执行的反馈的功能。信息处理设备30可以经由网络20获取由输入输出终端10收集的用户P1的发声，并且根据基于发声的信息从多个模式中选择响应于发声方式的反馈模式。另外，在上述多个模式中可以包括执行隐式反馈的第一模式和执行显式反馈的第二模式。

另外，网络20可以包括各种局域网(LAN)、广域网(WAN)等，包括Ethernet(注册商标)。网络20可以是专用线路网络，例如互联网协议-虚拟专用网络(IP-VPN)。

注意，尽管在下面的描述中将描述包括输入输出终端10和信息处理设备30的***配置作为示例，但是根据本公开内容的信息***的配置不限于这样的示例。例如，信息处理设备30可以具有收集用户的发声并且执行对发声的反馈的功能。在信息处理设备30具有如上所述的输入和输出功能的情况下，信息处理设备30可以负责控制反馈并且还用作输入输出终端10。

另外，基于识别声音的结果来处理的应用的功能可以由输入输出终端10执行或者可以由信息处理设备30执行。基于用户的发声处理的应用的处理可以根据应用、输入输出终端10和信息处理设备30的规格适当地改变。

<<1.3.根据本公开内容的输入输出终端10>>

接下来，将详细描述根据本公开内容的输入输出终端10。如上所述，根据本公开内容的输入输出终端10具有收集用户的发声的功能。另外，输入输出终端10具有根据与用户的发声识别相关的信息向用户呈现关于由信息处理设备30控制的反馈的信息的功能。

根据本公开内容的输入输出终端10可以实现为具有上述功能的各种装置。例如，根据本公开内容的输入输出终端10可以是基于用户的发声执行各种类型的处理的专用智能体。智能体中可以包括交互式机器人、自动售货机、声音引导装置等。另外，根据本公开内容的输入输出终端10可以是诸如个人计算机(PC)、平板电脑或智能电话的信息处理终端。此外，输入输出终端10可以是在使用时结合到建筑物或车辆中的装置。根据本公开内容的输入输出终端10可以应用于适用于识别声音的功能的各种装置。

在下文中，将参照图2描述根据本公开内容的输入输出终端10的功能配置示例。参照图2，根据本公开内容的输入输出终端10包括声音输入单元110、传感器单元120、声音输出单元130、显示单元140、终端控制单元150和服务器通信单元160。

(声音输入单元110)

声音输入单元110具有收集用户的发声和环境声音的功能。声音输入单元110可以包括将用户的发声和环境声音转换成电信号的麦克风。另外，声音输入单元110可以包括具有收集特定方向上的声音的方向性的麦克风阵列。声音输入单元110还可以通过如上所述的麦克风阵列分别收集用户的发声和环境声音。另外，声音输入单元110可以包括多个麦克风和麦克风阵列。利用这种配置，可以更准确地检测声源的位置、方向、运动等。

(传感器单元120)

传感器单元120具有检测与包括用户的对象有关的各种类型的信息的功能。传感器单元120可以包括用于检测上述信息的多个传感器。传感器单元120可以包括用于检测用户的动作的成像元件、红外传感器、温度传感器等。另外，传感器单元120可以具有基于捕获的图像来执行图像识别的功能。例如，传感器单元120可以通过检测用户嘴部的运动来指定正在讲话的用户。

(声音输出单元130)

声音输出单元130具有将电信号转换成声音并且输出声音的功能。具体地，声音输出单元130具有基于关于由信息处理设备30控制的反馈的信息通过声音输出执行对用户的反馈的功能。声音输出单元130可以包括具有上述功能的扬声器。另外，包括在声音输出单元130中的扬声器可以具有在特定方向、距离等方面实现具有方向性的声音输出的功能。声音输出单元130可以例如通过包括具有该功能的扬声器、根据由传感器单元120检测到的用户的位置来执行声音输出。另外，声音输出单元130可以包括多个扬声器。在声音输出单元130包括多个扬声器的情况下，可以通过控制输出反馈的扬声器，根据用户的位置来执行反馈。后面将描述该功能的细节。

此外，声音输出单元130可以具有基于关于由信息处理设备30控制的反馈的信息来合成声音的功能。例如，声音输出单元130可以基于从信息处理设备30获取的文本信息的信息来执行文本读取(TTS：文本到发声)。

(显示单元140)

显示单元140具有基于关于由信息处理设备30控制的反馈的信息通过视觉信息执行对用户的反馈的功能。例如，该功能可以通过阴极射线管(CRT)显示装置、液晶显示(LCD)装置或有机发光二极管(OLED)装置来实现。另外，显示单元140可以用作接收用户操作的操作单元。例如，可以通过触摸板实现操作单元的功能。

(终端控制单元150)

终端控制单元150具有控制上述输入输出终端10的各个配置的功能。例如，终端控制单元150可以具有获取由声音输入单元110和传感器单元120检测到的各种类型的信息并且经由后面将描述的服务器通信单元160将信息发送到信息处理设备30的功能。另外，终端控制单元150可以经由服务器通信单元160获取与来自信息处理设备30的反馈相关的信息，并且基于该信息来控制声音输出单元130和显示单元140。另外，在输入输出终端10中设置了基于用户的发声来执行处理的应用的情况下，终端控制单元150可以控制应用的处理。

上面描述了根据本公开内容的输入输出终端10。在以上描述中，输入输出终端10具有接收诸如用户的发声的输入的功能以及向用户呈现对应于与用户的发声识别相关的信息的反馈的功能的示例性情况。同时，根据实施方式的***配置不限于这样的示例。根据本公开内容的***可以分别包括具有输入功能的输入终端和呈现上述反馈的输出终端。在这种情况下，输入终端可以包括例如如上所述的声音输入单元110、传感器单元120和终端控制单元150的功能。另外，输出终端可以包括例如如上所述的声音输出单元130、显示单元140和终端控制单元150的功能。根据本公开内容的***配置可以灵活地变形。

(服务器通信单元160)

服务器通信单元160具有经由网络20与信息处理设备30进行信息通信的功能。具体地，服务器通信单元160基于由终端控制单元150执行的控制将由声音输入单元110和传感器单元120获取的信息发送到信息处理设备30。此外，服务器通信单元160将关于从信息处理设备30获取的反馈的信息传送到终端控制单元150。

<<1.4.根据本公开内容的信息处理设备30>>

接下来，将详细描述根据本公开内容的信息处理设备30。根据本公开内容的信息处理设备30具有如下功能：根据与由输入输出终端10收集的用户的发声识别相关的信息，响应于用户的发声方式来控制由输入输出终端10执行的反馈。信息处理设备30可以根据与用户的发声识别相关的信息，从多种模式中选择响应于用户的发声方式的反馈模式。在上述多个模式中可以包括执行隐式反馈的第一模式和执行显式反馈的第二模式。另外，在上述发声方式中可以包括音量、发声速度、发声音调、发音清晰度、发声位置、发声方向、发声内容和环境声音。

根据本公开内容的信息处理设备30可以是具有上述功能的服务器。另外，信息处理设备30可以是检测用户的发声并且执行反馈的各种类型的智能体、PC、平板电脑或智能电话中的任何一种。

在下文中，将参照图3描述根据本公开内容的信息处理设备30的功能配置示例。参照图3，根据本公开内容的信息处理设备30包括终端通信单元310、声音分析单元320、声音识别单元330、状态存储单元340、位置检测单元350和输出控制单元360。

(终端通信单元310)

终端通信单元310具有经由网络20与输入输出终端10进行信息通信的功能。具体地，终端通信单元310将从输入输出终端10获取的各种类型的信息传递到声音分析单元320、声音识别单元330和位置检测单元350。此外，终端通信单元310具有获取关于由输出控制单元360控制的反馈的信息并且将该信息发送到输入输出终端10的功能。注意，在信息处理设备30控制多个输入输出终端10的情况下，终端通信单元310可以经由网络20与多个输入输出终端10进行信息通信。

(声音分析单元320)

声音分析单元320具有获取由输入输出终端10收集的信息并且分析该信息的功能。例如，声音分析单元320可以分析与用户的发声方式相关的信息，包括用户的音量、发声速度、发声音调、发音清晰度等。另外，除了用户的发声之外收集的环境声音可以被包括在上述用户的发声方式中。另外，声音分析单元320可以具有将用户的发声和环境声音与由输入输出终端10收集的信息分离的功能。可以基于关于与人类语音相关的频带等的信息或者可以通过发声活动检测(VAD)技术等来执行用户的发声和环境声音的分离。另外，在后面将描述的状态存储单元340存储与预定用户的声音相关的个体信息的情况下，声音分析单元320还可以使用该信息来分离用户的发声和环境声音。

另外，声音分析单元320可以具有分析由输入输出终端10收集的用户的发声并且指定用户的功能。可以通过将分析用户的发声的结果与存储在状态存储单元340中的用户的声纹信息进行比较来执行后面将描述的对用户的指定。

另外，声音分析单元320可以具有分析由输入输出终端10收集的用户的发声并且估计用户的感情的功能。例如，可以通过分析节奏、振幅、重音等来执行对用户的感情的估计。

(声音识别单元330)

声音识别单元330具有基于由输入输出终端10收集的声音和由声音分析单元320分离的用户的声音来识别用户的发声的功能。具体地，声音识别单元330可以具有将获取的声音信息转换成音素然后将音素转换成文本的功能。注意，由于声音识别单元330可以使用各种方法来识别声音，因此将省略详细描述。

(状态存储单元340)

状态存储单元340具有存储声音分析单元320和声音识别单元330执行处理的结果的功能。例如，状态存储单元340可以存储与由声音分析单元320分析的用户的发声方式以及由声音识别单元330识别声音的结果相关的信息。另外，状态存储单元340可以存储用户的属性信息，包括与用户的声音有关的特征、发声方式的趋势等。

(位置检测单元350)

位置检测单元350具有基于由输入输出终端10获取的信息来估计用户的发声位置和发声方向的功能。位置检测单元350可以基于由输入输出终端10的声音输入单元110收集的声音信息以及由各种传感器收集的信息——包括由传感器单元120获取的图像信息——来估计用户的发声位置和发声方向。此外，位置检测单元350可以基于上述信息来估计除正在说话的用户之外的人和对象的位置。

(输出控制单元360)

输出控制单元360具有从声音分析单元320、声音识别单元330、状态存储单元340和位置检测单元350获取各种类型的信息并且响应于用户的发声来控制反馈的功能。输出控制单元360基于上述信息从多个模式中选择响应于用户的发声方式的反馈模式。在多个模式中包括执行隐式反馈的第一模式和执行显式反馈的第二模式。另外，输出控制单元360可以生成要由输入输出终端10执行的关于通过声音或视觉信息的反馈的信息，并且经由终端通信单元310将信息发送到输入输出终端10。输出控制单元360可以通过检索基于来自后面将描述的输出DB(数据库)370的条件的反馈信息，生成关于反馈的上述信息。后面将描述由输出控制单元360执行的反馈控制的细节。

(输出DB 370)

输出DB 370可以是累积关于由输入输出终端10执行的通过声音或视觉信息的反馈的信息的数据库。输出DB 370可以存储与反馈有关的声音信息或者可以存储用于通过输入输出终端10的合成声音的功能输出声音的文本信息。另外，输出DB 370可以存储与由输入输出终端10通过视觉信息执行的反馈有关的图像信息或文本信息。

<2.实施方式>

<<2.1.关于反馈模式>>

上面已经描述了根据本公开内容的反馈控制的概要。接下来，将详细描述根据本公开内容的实施方式的反馈控制。根据实施方式的信息处理设备30可以根据与用户的发声识别相关的信息，从多个模式中选择响应于用户的发声方式的反馈模式。

(隐式反馈)

隐式反馈是包括间接改进用户的发声方式的方法的反馈。也就是说，在隐式反馈中，通过改变输入输出终端10的输出样式而不直接向用户呈现改进发声方式的方法来执行反馈。这里，根据实施方式的隐式反馈可以被限定为具有比用户的发声方式更高识别精度的发声方式的反馈。上述识别精度可以是输入输出终端10对用户发声的识别精度。换言之，在执行隐式反馈的第一模式中执行使用用户期望采用的发声方式的反馈。

例如，在用户的发声的音量小的情况下，可以在第一模式中执行通过具有比用户的发声音量更大的音量的声音输出的反馈。另外，例如，在用户的发声速度过高的情况下，可以在第一模式中执行通过以低于用户的发声速度的速度输出的声音的反馈。另外，根据实施方式，还可以在第一模式中沿与上述方向相反的方向来执行反馈。也就是说，在用户的发声的音量大的情况下，可以在第一模式中执行通过具有比用户的发声的音量小的音量的声音输出的反馈。另外，在用户的发声速度过低的情况下，例如，可以在第一模式中执行通过比用户的发声速度更高的速度的声音输出的反馈。

图4是示出在用户与输入输出终端10之间使用隐式反馈的对话的示例的图。在图4中，横轴表示经过的时间，而纵轴表示发声的音量的响度。这里，例如，与横轴相关的经过的时间的单位可以是毫秒(msec)。另外，例如，与纵轴相关的发声的音量的单位可以例如是分贝(dB)。在图4所示的示例中，用户首先执行发声Uv1。这里，例如，发声Uv1的发声内容可以是例如“你明天的安排是什么？”的询问。示例中的发声Uv1的发声音量可以是例如45dB。然而，由于发声Uv1是以小于可识别音量的音量执行的发声，因此信息处理设备30难以识别发声Uv1。因此，信息处理设备30使输入输出终端10输出具有可识别音量的***输出Sv1作为隐式反馈。这里，例如，***输出Sv1的发声内容例如可以是“我能帮你做什么？”的反问。另外，此时的***输出Sv1可以是例如60dB。

接下来，已经接收到作为隐式反馈的***输出Sv1的用户通过发声Uv2再次进行询问。例如，发声Uv2的发声内容可以是询问“明天是否有安排？”。另外，例如，在该示例中，发声Uv2的发声音量可以是45dB。也就是说，通过接收作为隐式反馈的***输出Sv1，用户的发声Uv2以比发声Uv1更大的音量执行，并且音量大于图4中的示例中的可识别音量。因此，发声Uv2被信息处理设备30识别，并且输入输出终端10基于所识别的发声Uv2来输出作为执行应用的结果的***输出Sv2。这里，***输出Sv2可以是与用户的安排相关的检索结果，例如，“你有明天下午去医院的安排。”注意，例如，此时的***输出Sv2可以以与***输出Sv1相等的音量执行。

注意，尽管在图4所示的示例中首先执行用户的发声，但是在输入输出终端10首先执行声音输出的情况下，也可以由输入输出终端10首先呈现具有可识别的音量的***输出作为示例，引导用户的发声的音量。

如上所述，在执行隐式反馈的第一模式中，通过呈现用户期望采用的具有高识别精度的样式作为示例来执行鼓励用户改进发声方式的反馈。

(显式反馈)

同时，显式反馈可以是指示响应于用户的发声方式直接改进方法的反馈。也就是说，与其中使输入输出终端10的输出的方式改变的隐式反馈不同，用于提高输入输出终端10的识别精度的改进方法可以通过显式反馈直接呈现给用户。因此，在执行显式反馈的第二模式中，具体呈现了用于改进用户可以采用的发声的方法以识别用户的发声。例如，在用户的发声的音量小的情况下，可以在第二模式中执行声音输出“请大声点。”。另外，例如，在用户的发声速度过高的情况下，可以在第二模式中执行声音输出“请说慢点。”。如上所述，在执行显式反馈的第二模式中，通过清楚地呈现用户可以采用的改进方式来执行鼓励用户改进发声方式的反馈。

根据包括用户的发声方式的与用户的发声识别相关的信息选择上述第一模式或者第二模式是根据实施方式的信息处理设备30的特征之一。如上所述，存在显式反馈会损害用户对设备的印象的可能性，并且如果经常使用显式反馈，则存在对话变得不自然的可能性。同时，尽管隐式反馈与显式反馈相比可以实现更接近于人与人之间对话那种更自然的对话，但是预期改进发声方式的效果低于显式反馈的效果。

考虑到上述方面，根据本实施方式的信息处理设备30采用其中执行隐式反馈的第一模式作为基础，并且根据情况执行将第一模式切换到执行显式反馈的第二模式的控制。通过信息处理设备30执行该控制，可以实现与用户的更自然的对话，并且提高用户的发声识别的精度。

<<2.2.隐式反馈的示例>>

接下来，将描述根据实施方式的隐式反馈的具体示例。在实施方式中，可以根据用户的发声方式执行各种类型的隐式反馈。图5是示出由根据实施方式的输出控制单元360执行的用于控制隐式反馈的流程的流程图。

参照图5，输出控制单元360首先确定是否可以识别用户的发声(S1101)。此时，输出控制单元360可以从声音识别单元330获取识别结果，然后进行确定。如果输出控制单元360在步骤S1101中确定已经识别出用户的发声(S1101：是)，则输出控制单元360结束与隐式反馈相关的控制，并且继续进行到基于所识别的声音的应用的处理。

同时，如果输出控制单元360在步骤S1101中确定没有识别出用户的发声(S1101：否)，则输出控制单元360将用户的发声的音量与环境声音的音量进行比较(S1102)。此时，输出控制单元360可以基于由声音分析单元320执行的分析结果来进行确定。如果输出控制单元360在步骤S1102中确定环境声音的音量超过用户的发声的音量(S1102：是)，则输出控制单元360生成用于提出调整环境的反馈信息(S1106)。

例如，上述用于提出调整环境的反馈可以是用于发出声音“周围声音很嘈杂”的命令。以这种方式，根据实施方式，在隐式反馈中可以包括使用户能够意识到发声改进的反馈以及期望用户采取的具有高识别精度的方式的反馈。

同时，如果输出控制单元360在步骤S1102中确定用户的发声的音量大于环境声音的音量(S1102：否)，则输出控制单元360确定用户的发声的音量是否大到足以被识别(S1103)。也就是说，输出控制单元360确定用户的发声不能被识别的原因是否为用户的发声的音量。

这里，在输出控制单元360确定用户的发声的音量不足的情况下(S1103：否)，输出控制单元360生成具有比用户的发声音量更大音量的声音输出的反馈信息(S1107)。例如，反馈信息可以是用于以比用户的发声的音量更大的音量来进行反问的命令。

同时，在输出控制单元360在步骤1103中确定用户的发声的音量已经足够的情况下(S1103：是)，输出控制单元360确定用户的发声是否已经能够被转换成音素(S1104)。也就是说，输出控制单元360确定用户的发声不能被识别的原因是用户的发声速度还是发音清晰度。

这里，在输出控制单元360确定用户的发声不能被转换成音素的情况下(S1104：否)，输出控制单元360生成以比用户的发声速度更低速度的声音输出的反馈信息(S1108)。例如，反馈信息可以是用于以比用户的发声速度更低的速度再次询问问题的命令。另外，反馈信息可以是用于使声音输出以音高、语调等方面的变化清楚地发音来执行的命令。

同时，在输出控制单元360在步骤S1104中确定用户的发声能够被转换成音素的情况下(S1104：是)，输出控制单元360确定是否可以将用户的发声转换成文本(S1105)。也就是说，输出控制单元360确定基于用户的发声转换成音素的信息是否已经被识别成词。

这里，在输出控制单元360确定用户的发声尚未被识别成词的情况下(S1105：否)，输出控制单元360通过使用被转换成音素的声音来生成作为声音输出的反馈信息(S1109)。例如，反馈信息可以是用于通过使用被转换成音素的声音的信息来反问问题“它是OO吗？”的命令。

上面已经描述了根据实施方式的隐式反馈的示例。如上所述，根据实施方式的信息处理设备30可以使输入输出终端10根据与用户的发声识别相关的信息执行各种类型的隐式反馈。通过信息处理设备30执行该控制，可以实现更接近于人与人之间的对话的更自然的对话。

<<2.3.切换与反馈相关的模式>>

接下来，将描述根据实施方式的与输出控制单元360执行的反馈相关的模式的选择。如上所述，根据实施方式的信息处理设备30可以根据与用户的发声识别相关的信息，选择响应于用户的发声方式的反馈模式。这里，在与用户的发声识别相关的信息中可以包括例如用户信息、内容信息、环境信息和装置信息。

上述用户信息是与用户相关的信息，并且可以是例如用户的发声方式、发声内容、属性信息、感情信息等。根据实施方式的输出控制单元360可以根据用户信息选择响应于用户的发声方式的反馈模式。

另外，上述内容信息可以是在用户的发声识别之后与要处理的应用相关的信息。这里，内容信息可以包括例如与应用的类型或规格相关的信息。根据实施方式的输出控制单元360可以根据内容信息选择响应于用户的发声方式的反馈模式。输出控制单元360可以选择主要适用于与用户交谈的目的的应用的第一模式，以及选择主要适用于检索信息的目的的应用第二模式。

另外，上述环境信息可以是与用户的周围环境和输入输出终端10相关的信息。例如，在环境信息中可以包括关于用户以外的人的检测，关于环境声音的信息等的信息。根据实施方式的输出控制单元360可以根据环境信息选择响应于用户的发声方式的反馈模式。

另外，上述装置信息可以是与输入输出终端10的类型或规格相关的信息。根据实施方式的输出控制单元360可以根据装置信息选择响应于用户的发声方式的反馈模式。例如，输出控制单元360可以在输入输出终端10是主要适用于与用户对话的目的的智能体的情况下选择第一模式，并且在输入输出终端10是用于类似商业或以机械方式使用的装置的情况下选择第二模式。

上面已经描述了与用户的发声识别相关的信息。如上所述，根据实施方式的信息处理设备30可以执行控制，使得执行隐式反馈的第一模式被用作基础，并且根据情况将第一模式切换到执行显式反馈的第二模式。在下文中，将通过列出具体示例来描述输出控制单元360切换与反馈相关的模式的条件。

(基于尝试识别的次数来选择模式)

首先，将描述基于尝试识别的次数来选择模式。根据实施方式的输出控制单元360可以基于在预定次数内未识别出用户的发声的事件来选择执行显式反馈的第二模式。注意，可以根据***和应用的规范以各种方式限定上述次数。尽管已经检测到与用户的发声相关的输入(认证失败的次数)，但是根据实施方式的预定次数可以是尚未进行识别的次数。替选地，预定次数可以是与识别相关的输入待机状态经历超时的次数(超时的次数)。替选地，预定次数可以是用户说话的次数(发声的次数)。此外，预定次数可以是上述示例的总次数。在下文中，将参照图6和图7详细描述上述控制。注意，在下面的描述中将描述确定用户的发声的音量的情况作为示例。

首先，将参照图6描述根据实施方式的声音输出的音量水平。图6是用于描述从输入输出终端10的声音输出单元130输出的声音的音量水平的图。在图6所示的示例中，声音输出的音量水平被限定为三个等级，即级别1至级别3，并且音量可以随着级别的数值增加而增加。这里，级别1可以是从声音输出单元130输出的声音的初始设置值。级别1的音量范围可以是例如从0dB至50dB。在用户的发声已被正常识别的情况下，输入输出终端10可以以级别1的音量执行后续响应。此外，级别2可以被限定为比级别1的音量大一级的音量。例如，音量范围可以是从51dB至70dB。另外，级别3是比级别2的音量大一级的音量，并且可以被限定为用于隐式反馈的最大音量。例如，级别3的音量范围可以被限定为从71dB至100dB或者等于或大于71dB。

接下来，将参照图7描述基于已经尝试识别的次数来选择第二模式。图7是示出由输出控制单元360基于已经尝试过的识别次数来执行的控制的流程的流程图。首先，输出控制单元360确定从输入输出终端10获取的用户的发声的音量是否不足以作为用于识别的音量(S1201)。

这里，在用户的发声的音量足以用于识别的情况下(S1201：否)，输出控制单元360结束与用户的发声的音量有关的确定处理。同时，在用户的发声的音量不足的情况下(S1201：是)，输出控制单元360生成用于使得以图6所示的级别2的音量执行隐式反馈的反馈信息(S1202)。也就是说，输出控制单元360使输入输出终端10执行具有比用户的发声音量大一级的音量的隐式反馈。

如果在步骤S1202中执行隐式反馈之后再次获取用户的发声，则输出控制单元360再次确定所获取的用户发声的音量是否不足以作为用于识别的音量(S1203)。这里，在用户的发声的音量足以用于识别的情况下(S1203：否)，输出控制单元360结束与用户的发声的音量有关的确定处理。

同时，在用户的发声的音量再次足够的情况下(S1203：是)，输出控制单元360生成用于使得以图6所示的级别3的音量执行隐式反馈的反馈信息(S1204)。也就是说，输出控制单元360使输入输出终端10以设定的最大音量执行隐式反馈。

如果在步骤S1204中执行隐式反馈之后再次获取用户的发声，则输出控制单元360再次确定所获取的用户发声的音量是否不足以作为用于识别的音量(S1205)。这里，在用户的发声的音量足以用于识别的情况下(S1205：否)，输出控制单元360结束与用户的发声的音量有关的确定处理。

同时，在用户的发声的音量再次不足的情况下(S1205：是)，输出控制单元360生成用于使得执行显式反馈的反馈信息(S1206)。也就是说，输出控制单元360确定隐式反馈不会导致用户的发声方式的改进并且使得输入输出终端10执行显式反馈。例如，输入输出终端10可以在由输出控制单元360执行的控制下针对用户执行声音输出“请大声点”。

如上所述，根据实施方式的输出控制单元360可以基于已经尝试识别的次数来选择执行显式反馈的第二模式。可以通过由输出控制单元360执行的上述控制，采用通过隐式反馈的自然对话作为基础，并且在预定次数内未识别出用户的发声的情况下提高识别的精度。

注意，在上面的描述中已经描述了将音量级别限定为三个等级并且已经尝试识别的次数为三的情况作为示例。然而，根据实施方式的基于已经尝试识别的次数来选择第二模式不限于这样的示例。可以适当地改变音量的级别和已经尝试识别的次数。另外，在上面的描述中已经描述了确定用户的发声方式中的用户的发声的音量的情况作为示例。然而，根据实施方式的基于已经尝试识别的次数来选择第二模式不限于这样的示例。输出控制单元360还可以确定用户的发声速度或发声清晰度并且选择第二模式。

(基于发声方式的变化程度来选择模式)

接下来，将描述基于用户的发声方式的改变程度来选择模式。根据实施方式的输出控制单元360可以基于在已经接收到隐式反馈的用户的发声方式中未识别出改进的事件来选择第二模式。在下文中，将参照图8详细描述上述控制。注意，在下面的描述中将描述确定用户发声的音量的情况作为示例。

首先，输出控制单元360确定从输入输出终端10获取的用户的发声的音量是否不足以作为用于识别的音量(S1301)。这里，在用户的发声的音量足以用于识别的情况下(S1301：否)，输出控制单元360结束与用户的发声的音量有关的确定处理。同时，在用户的发声的音量不足的情况下(S1301：是)，输出控制单元360生成用于使得以图6所示的级别2的音量执行隐式反馈的反馈信息(S1302)。

如果在步骤S1302中执行了隐式反馈之后再次获取用户的发声，则输出控制单元360将所获取的用户发声的音量与先前发声的音量进行比较，并且确定发声音量的改变程度(S1303)。此时，输出控制单元360可以通过获取存储在状态存储单元340中的分析用户的先前发声方式的结果来进行上述确定。

这里，在用户的发声的音量已经改变为足以识别的响度的情况下(S1303：变化充分)，输出控制单元360结束与用户的发声的音量有关的确定处理。同时，在步骤S1303中虽然音量发生了变化但是用户的发声的音量尚未达到可识别的响度的情况下(S1303：变化不充分)，输出控制单元360生成用于使得以图6中所示的级别3的音量来执行隐藏反馈的反馈信息(S1305)。另外，在步骤S1303中用户的发声的音量没有变化的情况下或者在发声的音量变小的情况下(S1303：无变化)，输出控制单元360确定隐式反馈不会导致用户发声方式的改进，并且使输入输出终端10执行显式反馈。

如上所述，根据实施方式的输出控制单元360可以基于用户的发声方式的改变程度来选择执行显式反馈的第二模式。通过由输出控制单元360执行的上述控制，即使在用户没有对隐式反馈做出反应的情况下，也可以提高识别的精度。

注意，在上面的描述中已经描述了确定在用户的发声方式中的用户的发声的音量的情况作为示例。然而，根据实施方式的基于用户的发声方式的改变程度来选择第二模式不限于这样的示例。输出控制单元360还可以确定用户的发声速度或发声清晰度，并且选择第二模式。

(基于发声位置或发声方向来选择模式)

接下来，将描述基于用户的发声位置或发声方向来选择模式。根据实施方式的输出控制单元360可以基于在已经接收到隐式反馈的用户的发声位置或发声方向上未观察到改进的事件来选择第二模式。以这种方式，根据实施方式，在用户的发声方式中可以包括用户的发声位置或发声方向。

图9是示出由输出控制单元360基于用户的发声位置或发声方向执行的控制的流程的流程图。首先，输出控制单元360确定从输入输出终端10获取的用户的发声的音量是否不足以作为用于识别的音量(S1401)。这里，在用户的发声的音量不足以进行识别的情况下(S1401：否)，输出控制单元360结束与用户的发声位置和发声方向有关的确定处理。

同时，在用户的发声的音量不足的情况下(S1401：是)，输出控制单元360确定用户的发声位置是否合适(S1402)。也就是说，输出控制单元360确定发声的音量不足是否是由发声位置引起的。此时，输出控制单元360可以基于由位置检测单元350估计的关于用户的发声位置的信息进行上述确定。

在输出控制单元360在步骤S1402中确定用户的发声位置不合适的情况下(S1402：否)，输出控制单元360生成用于使得执行针对用户的发声位置的隐式反馈的反馈信息(S1404)。例如，反馈信息可以是用于使输入输出终端10输出声音“你的声音听起来来自远的位置”的命令。

同时，在输出控制单元360在步骤S1402中确定用户的发声位置合适的情况下(S1402：是)，输出控制单元360确定用户的发声方向是否合适(S1403)。也就是说，输出控制单元360确定发声的音量不足是否由发声方向引起。此时，输出控制单元360可以基于由位置检测单元350估计的关于用户的发声方向的信息进行上述确定。

在输出控制单元360在步骤S1403中确定用户的发声方向合适的情况下(S1403：是)，输出控制单元360结束与用户的发声位置和发声方向有关的确定处理。

同时，在输出控制单元360在步骤S1403中确定用户的发声方向不合适的情况下(S1403：否)，输出控制单元360生成用于使响应于用户的发声方向的隐式反馈被执行的反馈信息(S1405)。反馈信息可以是用于使输入输出终端10输出声音“你在跟我说话吗？”的命令。另外，在步骤S1405中生成的反馈信息可以是对输出声音的扬声器的指定。例如，在输入输出终端10的声音输出单元130包括多个扬声器的情况下，可以通过限制扬声器输出隐式反馈来使用户能够知道发声方向。另外，在声音输出单元130包括麦克风阵列的情况下，在上述反馈信息中可以包括用于设置麦克风阵列的方向性的信息。

如果在步骤S1404或步骤S1405中执行隐式反馈之后再次获取与识别用户发声相关的信息，则输出控制单元360确定用户的发声位置或发声方向是否已被改进(S1406)。这里，在输出控制单元360确定用户的发声位置或发声方向已经改进的情况下(S1406：是)，输出控制单元360结束与发声位置和发声方向有关的确定处理。

同时，在输出控制单元360确定用户的发声位置或发声方向未被改进的情况下(S1406：否)，输出控制单元360生成用于使响应于用户的发声位置或发声方向的显式反馈被执行的反馈信息。例如，反馈信息可以是用于使输入输出终端10输出声音“请靠近麦克风”或“请对着麦克风讲话”的命令。

如上所述，根据实施方式的输出控制单元360可以基于用户的发声位置或发声方向来选择执行显式反馈的第二模式。注意，上面已经描述了用户发声的音量不足的情况，可以考虑环境声音的音量来控制基于用户的发声位置或发声方向来选择第二模式。例如，假设输入输出终端10是包含在建筑物中的智能体并且声音输入单元110和声音输出单元130被设置在建筑物中的多个房间中的情况。此时，在用户已经发声的房间中的环境声音大并且难以识别用户的发声的情况下，信息处理设备30可以生成用于将用户引导到另一个房间的反馈信息。也就是说，信息处理设备30可以引导用户，使得使用与已经检测到用户的发声的麦克风不同的另一麦克风来发声。以这种方式，可以由输出控制单元360基于用户的发声位置或发声方向控制反馈，根据输入输出终端10的规格来实现各种类型的反馈。

(基于发声方式分析来选择模式)

接下来，将描述基于对用户的发声方式的分析来选择模式。根据实施方式的输出控制单元360可以基于分析用户的发声方式的结果来控制反馈模式。在上述发声方式中可以包括发声的音量、发声速度、发声的声调、发音清晰度、发声位置、发声方向、发声内容和环境声音。

-基于用户的属性信息来选择模式-

首先，将描述基于用户的属性信息来选择模式。根据实施方式的输出控制单元360可以基于用户的属性信息来控制反馈模式。用户的属性信息可以是由声音分析单元320分析用户的发声方式获得的信息，或者是根据声音识别单元330识别声音的结果获得的信息。此外，在用户的属性信息中可以包括诸如用户的性别和性别的简档信息以及诸如使用的语言和发声方式的趋势之类的信息。

输出控制单元360可以基于用户的发声方式的趋势来选择反馈模式。例如，在由声音分析单元320执行分析的指定的用户具有发声的音量小的趋势的情况下，输出控制单元360可以优先选择第二模式。以这种方式，由输出控制单元360基于用户的发声趋势选择模式，可以期望缩短直到用户的发声被识别为止的时间。

另外，输出控制单元360可以基于用户关于模式执行的设置来选择反馈模式。在用户可以设置响应于发声的反馈模式的情况下，输出控制单元360可以根据由执行分析的声音分析单元320指定的用户的设置来设置反馈模式。

另外，输出控制单元360可以基于从多个用户的属性信息获得的统计信息来选择反馈模式。输出控制单元360可以通过使用特定属性信息作为关键字，获取具有特定属性的用户组的发声方式的趋势等，并且基于该趋势来选择模式。上述控制在输入输出终端10被未指定的大量用户使用的环境中尤其有效。

–基于用户的感情来选择模式-

接下来，将描述基于用户感情来选择模式。根据实施方式的输出控制单元360可以基于用户的感情来控制反馈模式。用户的感情可以是由声音分析单元320分析用户的发声方式而获得的信息。

例如，输出控制单元360可以基于对用户处于兴奋状态的估计来选择第一模式。如上所述，假设一些用户对显式反馈有反感。因此，在估计用户处于兴奋状态的情况下，输出控制单元360可以通过使输入输出终端10执行隐式反馈来减少用户的感情被冒犯的顾虑。

-基于发声内容来选择模式-

接下来，将描述基于用户的发声内容来选择模式。根据实施方式的输出控制单元360可以基于用户的发声内容来控制反馈模式。用户的发声内容可以是从声音识别单元330识别声音的结果获得的信息。

例如，输出控制单元360可以基于估计用户的发声内容包括隐私信息来选择第二模式。根据实施方式，存在在隐式反馈中执行使用已经能够被转换成音素或文本的元素来进行反问的可能性。因此，输出控制单元360可以设置第二模式，以防止将隐私信息泄露给除用户之外的人。另外，由输出控制单元360执行上述控制，可以提高与隐私信息相关的发声的识别精度并且在更短的时间内结束对话。

-根据环境信息来选择模式-

接下来，将描述基于环境信息来选择模式。根据实施方式的输出控制单元360可以基于在用户的周围已经检测到存在第三人的事件来控制反馈模式。对第三人的检测可以是从位置检测单元350执行的检测结果获得的信息，或者是从声音识别单元330识别声音的结果获得的信息。

例如，输出控制单元360可以基于在用户的周围已经检测到存在第三人的事件来选择第一模式。如上所述，一些用户从显式反馈中感到设备在某些情况下给出了命令。这样的用户通过周围的人听到明确反馈而预期对输入输出终端10上具有更差的印象。因此，在已经在用户的周围检测到存在第三人的情况下，输出控制单元360可以通过使输入输出终端10执行隐式反馈来减少用户的感情被冒犯的担忧。

<<2.4.添加了改进的原因的显式反馈>>

上面已经描述了由输出控制单元360相对于反馈做出的模式的选择。接下来，将描述根据实施方式的添加了改进原因的显式反馈。根据本公开内容的输出控制单元360可以使得输入输出终端10在执行显式反馈的第二模式中执行添加了改进的原因的反馈。如果输出控制单元360控制反馈，使得将改进发声方式的原因一起呈现给用户，则可以软化显式反馈的表达并减少用户感情被冒犯的可能性。

图10是示出由输出控制单元360添加改进的原因的流程的流程图。在图10所示的示例中，输出控制单元360获取声音分析单元320分析发声的结果并且确定检测到的声音类型的数目(S1501)。也就是说，输出控制单元360确定在收集的信息中是否包括多个人的声音。

在输出控制单元360在步骤S1501中确定仅检测到一个人的声音的情况下(S1501：一个人的声音)，输出控制单元360设置用于改进反馈信息的原因1(S1502)。这里，例如，在反馈信息中设置的改进原因1可以是诸如“因为周围声音过大”的附加信息。

另外，在输出控制单元360在步骤S1501中确定已经检测到多个人的声音的情况下(S1501：多个人的声音)，输出控制单元360在反馈信息中设置用于改进的原因2(S1503)。这里，例如，在反馈信息中设置的改进原因2可以是附加信息“因为另一个人可能正在讲话”。

另外，在输出控制单元360在步骤S1501中难以确定声音类型的数目的情况下(S1501：难以指定)，输出控制单元360设置用于改进反馈信息的原因3(S1504)。这里，例如，反馈信息的改进原因3可以是附加信息“因为有点难以听到你说话”。

如果在步骤S1502至S1504中设置了改进的一些原因，则输出控制单元360生成用于使得已经添加了改进原因的显式反馈被执行的反馈信息，并且将反馈信息发送到输入输出终端10(S1505)。例如，在步骤S1505中生成的反馈信息可以是输出信息“请大声点儿说话”和改进的原因的组合的信息。例如，在步骤S1502中设置了改进原因1的情况下，在步骤S1505中生成的信息可以是输出信息“请大声点儿说话，因为周围的声音太大”。

如上所述，根据实施方式的输出控制单元360可以使得输入输出终端10在执行显式反馈的第二模式中执行已经添加了改进原因的反馈。可以由输出控制单元360执行上述控制来软化显式反馈的表达并且实现更自然的对话。

<<2.5.对通过视觉信息的反馈的附加控制>>

接下来，将描述根据实施方式添加通过视觉信息的反馈。除了通过声音输出的反馈之外，根据实施方式的输出控制单元360还可以控制通过视觉信息的反馈。另外，输出控制单元360可以基于用户的发声方式未充分改变的事件添加通过视觉信息的反馈。在下文中，将参照图11详细描述由输出控制单元360执行的上述控制。

首先，输出控制单元360确定用户的发声的音量是否不足以作为用于识别的音量(S1601)。这里，在用户的发声的音量足以用于识别的情况下(S1601：否)，输出控制单元360结束与添加通过视觉信息的反馈相关的控制。同时，在用户的发声的音量不足的情况下(S1601：是)，输出控制单元360生成用于使得以图6所示的级别2的音量执行隐式反馈的反馈信息(S1602)。

如果在执行步骤S1602中的隐式反馈之后再次获取用户的发声，则输出控制单元360再次确定所获取的用户发声的音量是否不足以作为用于识别的音量(S1603)。这里，在用户的发声的音量足以用于识别的情况下(S1603：否)，输出控制单元360结束添加与通过视觉信息的反馈相关的控制。

同时，在用户的发声的音量再次不足的情况下(S1603：是)，输出控制单元360生成用于以图6中所示的级别3的音量执行隐式反馈的反馈信息(S1604)。另外，输出控制单元360生成用于使隐式反馈通过视觉信息来执行的反馈信息(S1605)。例如，用于使隐式反馈被执行的反馈信息可以是用于使输入输出终端10的显示单元140显示与通过声音输出的反馈类似的文本信息的命令。另外，用于使隐式反馈被执行的反馈信息可以是用于使用后面将描述的图像或动画的反馈被执行的命令。

如果在步骤S1604和S1605中执行隐式反馈之后再次获取用户的发声，则输出控制单元360再次确定所获取的用户发声的音量是否不足以作为用于识别的音量(S1606)。这里，在用户的发声的音量足以用于识别的情况下(S1606：否)，输出控制单元360结束与添加通过视觉信息的反馈相关的控制。

同时，在用户的发声的音量再次不足的情况下(S1606：是)，输出控制单元360生成用于使通过声音输出的显式反馈被执行的反馈信息(S1607)。另外，输出控制单元360生成用于使通过视觉信息的显式反馈被执行的反馈信息(S1608)。

如上所述，除了通过声音输出的反馈之外，根据实施方式的输出控制单元360还可以控制通过视觉信息的反馈。另外，输出控制单元360可以以类似于通过声音输出的反馈控制中的方式逐步地添加视觉反馈。由输出控制单元360执行上述控制，可以在仍然使用声音的隐式反馈作为基础的同时提高识别的精度。

<<2.6.通过视觉信息的反馈的示例>>

上面已经描述了根据实施方式的通过视觉信息的反馈的控制。在下文中，将参照图12至图16描述根据实施方式的通过视觉信息的反馈的示例。在上述视觉信息中可以包括图像中的字母、符号、头像、指示符或变化。

(通过指示符的隐性反馈)

图12是根据实施方式的用于通过视觉信息的隐式反馈的指示符的示例。参照图12A，在输入输出终端10的显示单元140上显示两个指示符i1和i2。这里，指示符i1可以是指示用户发声的音量的指示符。另外，指示符i2可以是指示输入输出终端10的输出音量的指示符。可以根据用户的发声的音量或输入输出终端10的输出音量的变化调整各个指示符i1和i2，使得渐变部占据的比例朝向显示单元140的上部变化。即，可以调整指示符i1，使得随着用户发声的音量增加，渐变部朝向屏幕的上部扩展，并且可以调整指示i2，使得随着输入输出终端10的输出音量的增加，渐变部朝向显示单元140的屏幕的上部扩展。

另外，图12B是示出另一指示符的示例的图。参照图12B，在输入输出终端10的显示单元140上显示两个指示符i3和i4。这里，指示符i3可以是指示用户发声的音量的指示符。另外，指示符i4可以是指示输入输出终端10的输出音量的指示符。可以根据用户的发声的音量或输入输出终端10的输出音量的变化调整各个指示符i3和i4，使得指示音量水平的条的数目朝向显示单元140的中心变化。也就是说，指示符i3可以被调整为使得随着用户的发声的音量的增加，条的数目朝向显示单元140的中心增加，并且指示符i4可以被调整为使得随着输入输出终端10的输出音量的增加，条的数目朝向显示单元140的中心增加。

用户可以通过检查显示在显示单元140上的指示符来将输入输出终端10的输出音量与用户发声的音量进行比较。以这种方式，期望用户识别出发声的音量不足并且改进发声方式的效果。

(通过头像响应于发声方向的隐式反馈)

接下来，将参照图13描述根据实施方式的在通过视觉信息的隐式反馈中使用的头像的示例。图13中示出的头像可以是用于响应于用户的发声方向的执行隐式反馈的图像或动画。参照图13A，头像1被显示在输入输出终端10的显示单元140上。另外，声音输入单元110被布置在输入输出终端10的下部。这里，头像a1可以是在用户的发声方向合适的情况下显示的头像的示例。

图13B是在用户的发声方向不合适的情况下显示的头像的示例。参照图13B，与图13A不同，从观察者的视点来看，声音输入单元110被布置在显示单元140的左侧。另外，从观察者的视点来看，头像a2被显示在显示单元140的左侧，并且视线指向声音输入单元110。

接下来，将参照图13C。图13C以与图13B中的方式类似的方式也示出了在用户的发声方向不合适的情况下显示的头像的示例。参照图13C，与图13A不同，从观察者的视点来看，声音输入单元110被布置在输入输出终端10的右侧。另外，从观察者的视点来看，头像a3被显示在显示单元140的右侧，并且视线指向声音输入单元110。

如上所述，在图13所示的示例中，在用户的发声方向不合适的情况下，通过指示声音输入单元110的位置的头像执行隐式反馈。期望通过用户在视觉上识别头像的图像或动画的动作来改进用户的发声方向的效果。

(使用图形响应于发声方向的隐式反馈)

接下来，将参照图14描述根据实施方式的用于通过视觉信息的隐式反馈的图形的示例。图14中示出的图形g1可以是用于响应于用户的发声方向执行隐式反馈的图像或动画。参照图14A，图形g1被显示在输入输出终端10的显示单元140上。另外，声音输入单元110被布置在输入输出终端10的下部。这里，图形g1可以是在用户的发声方向合适的情况下显示的图形的示例。

图14B是在用户的发声方向不合适的情况下显示的图形的示例。参照图14B，与图14A不同，从观察者的视点来看，声音输入单元110被布置在输入输出终端10的左侧。另外，从观察者的视点来看，图形g2被显示在左侧，并且被变形为朝向声音输入单元110侧扩展。

接下来，将参照图14C。与图14B一样，图14C也示出了在用户的发声方向不合适的情况下显示的图形的示例。参照图14C，与图14A不同，从观察者的视点来看，声音输入单元110被布置在输入输出终端10的右侧。另外，从观察者的视点来看，图形g3被显示在显示单元140的右侧，并且被变形为朝向声音输入单元110侧扩展。

如上所述，在图14所示的示例中，在用户的发声方向不合适的情况下，执行指示声音输入单元110的位置的图形的隐式反馈。期望通过用户在视觉上识别图形的图像或动画的动作来改进用户的发声方向的效果。注意，尽管上面已经描述了使图形的形状和显示位置改变的示例，但是可以通过使得显示在显示单元140的整个屏幕上的颜色的渐变的改变来指示声音输入单元110的位置。

(通过头像响应于发声位置的隐式反馈)

接下来，将参照图15描述通过头像响应于发声位置的隐式反馈的示例。图15中示出的头像可以是用于响应于用户的发声位置执行隐式反馈的图像或动画。参照图15A，头像a4被显示在输入输出终端10的显示单元140上。这里，头像a4可以是在用户的发声位置合适的情况下显示的头像的示例。

图15B是在用户的发声位置不合适的情况下(在距离远的情况下)显示的头像的示例。参照图15B，头像a5被显示为与头像a4相比更小，并且可以识别出面部表情已经改变。以这种方式，通过在图15B所示的示例中使得头像a5的大小和面部表情的改变来执行响应于用户的发声位置的隐式反馈。注意，尽管在图15B中示出了使得头像a5的面部表情看起来不满意的示例，但是头像a5的面部表情可以使用另一面部表情。例如，用户的发声位置远这一事实可以通过指示远位置的头像a5的视线来指示。

接下来，将参照图15C。与图15B一样，图15C也示出了在用户的发声位置不合适的情况下显示的头像的示例。参照图15C，可以识别出头像a6与头像a4相比显示为具有更淡的轮廓。以这种方式，在图15C所示的示例中通过使得头像a6的轮廓的强度改变来执行响应于用户的发声位置的隐式反馈。

如上所述，在图15所示的示例中，通过指示用户的发声位置不合适的头像来执行隐式反馈。期望通过用户在视觉上识别头像的图像或者动画的或动作来改进用户的发声方向的效果。

(通过箭头响应于发声方向和发声位置的隐式反馈)

接下来，将参照图16描述通过箭头响应于发声方向或发声位置的隐式反馈的示例。包括图16中所示的箭头的图形可以是执行响应于用户的发声方向或发声位置的隐式反馈的图像或动画。

参照图16A，图形g4和g5被显示在输入输出终端10的显示单元140上。这里，图形g4被显示为指示声音输入单元110的位置的箭头，并且图形g5被指示为耳朵图标。这里，在图16A所示的示例中，响应于用户的发声方向的隐式反馈由指示的声音输入单元110的位置的具有箭头或耳朵的形状的图形执行。

接下来，将使用图16继续描述。在图16B所示的示例中，与图16A不同，执行指示输入输出终端10与用户之间的相对位置的反馈。参照图16B，图形g6至g9被表示在输入输出终端10的显示单元140上。这里，图形g6被显示为指示声音输入单元110的位置的箭头。此外，图形g7和g8分别是指示输入输出终端10和用户的图标。如上所述，在图16B所示的示例中，在指示输入输出终端10与用户之间的相对位置的同时，响应于用户的发声方向的隐式反馈由指示声音输入单元110的位置的箭头执行。另外，如图16B所示的示例中的图形g9所表示的，可以执行指示除用户之外的声源的反馈。期望通过用户在视觉上识别指示声源的图形来改进用户的发声位置的效果。

<3输入输出终端10和信息处理设备30的硬件配置示例>

接下来，将描述由根据本公开内容的输入输出终端10和信息处理设备30共享的硬件配置示例。图17是示出根据本公开内容的输入输出终端10和信息处理设备30的硬件配置示例的框图。参照图17，例如，输入输出终端10和信息处理设备30具有CPU 871、ROM 872、RAM 873、主机总线874、桥接器875、外部总线876、接口877、输入单元878、输出单元879、存储单元880、驱动器881、连接端口882和通信单元883。注意，这里描述的硬件配置是示例，并且可以省略部分部件。另外，还可以包括除了这里描述的部件之外的部件。

(CPU 871)

例如，CPU 871用作运算处理装置或控制装置，并且基于记录在ROM 872、ram 873、存储单元880或可移除记录介质901中的各种程序来控制各个部件的整体或部分操作。

(ROM 872、RAM 873)

ROM 872是用于存储由CPU 871读取的程序、用于算术运算的数据等的装置。例如，由CPU 871读取的程序和在执行程序时适当改变的各种参数被临时或永久地存储在RAM873中。

(主机总线874、桥接器875、外部总线876、接口877)

例如，CPU 871、ROM 872和RAM 873经由可以高速传输数据的主机总线874彼此连接。同时，例如，主机总线874经由桥接器875以相对低的数据传输速度连接到外部总线876。另外，外部总线876经由接口877连接到各种部件。

(输入单元878)

例如，使用鼠标、键盘、触摸板、按钮、开关、控制杆等作为输入单元878。此外，在一些情况下，还使用能够通过使用红外线或其他无线电波发送控制信号的遥控器(以下也称为遥控器)作为输入单元878。

(输出单元879)

输出单元879是能够在视觉上或听觉上向用户通知所获取的信息的装置，诸如诸如阴极射线管(CRT)、LCD或有机EL的显示装置、诸如扬声器的音频输出装置或者例如耳机、打印机、移动电话或传真机。

(存储单元880)

存储单元880是用于存储各种数据的装置。例如，诸如硬盘驱动器(HDD)、半导体存储装置、光学存储装置、磁光存储装置等的磁存储装置被用作存储单元880。

(驱动器881)

驱动器881是读取记录在诸如磁盘、光盘、磁光盘或半导体盘的可移除记录介质901中的信息或者将信息写入可移除记录介质901中的装置。

(可移除记录介质901)

可移除记录介质901是DVD介质、Blu-ray(注册商标)介质、HD DVD介质、各种半导体存储介质等。当然，可移除记录介质901可以是其上安装有非接触型IC芯片的IC卡、电子装置等。

(连接端口882)

连接端口882是通用串行总线(USB)端口、IEEE 1394端口、小型计算机***接口(SCSI)、RS-232C端口或者用于连接诸如光学音频终端的外部连接装置902的光学音频终端或端口。

(外部连接装置902)

外部连接装置902是例如打印机、移动音乐播放器、数码相机、数字摄像机、IC记录器等。

(通信单元882)

通信单元883是用于建立到网络903的连接的通信装置，并且是有线或无线LAN、Bluetooth(注册商标)、无线USB(WUSB)通信卡、光通信路由器、非对称数字用户线(ADSL)路由器或者用于各种通信的模型等。

<4.结论>

如上所述，信息处理设备30可以根据与用户的发声识别相关的信息，从多个模式中选择响应于用户的发声方式的反馈模式。在上述多个模式中可以包括执行隐式反馈的第一模式和执行显式反馈的第二模式。另外，在上述发声方式中可以包括发声的音量、发声速度、发声音调、发音清晰度、发声位置、发声方向、发声内容和环境声音。利用这种配置，可以在用户和***之间实现更自然的对话。

以上已经参照附图描述了本公开内容的优选实施方式，而本公开内容不限于上述示例。本领域技术人员可以在所附权利要求书的范围内找到各种改变和修改，并且应该理解，这些改变和修改将在本质上落入本公开内容的技术范围内。

此外，本说明书中描述的效果仅仅是说明性或示例性的效果，而不是限制性的。也就是说，利用或代替上述效果，根据本公开内容的技术可以从本说明书的描述中实现本领域技术人员清楚的其他效果。

另外，本技术还可以如下配置。

(1)

一种信息处理设备，包括：

控制单元，其根据与用户的发声识别相关的信息，从多个模式中选择响应于所述用户的发声方式的反馈模式，

其中，所述多个模式包括执行隐式反馈的第一模式和执行显式反馈的第二模式。

(2)

根据(1)所述的信息处理设备，

其中，在所述第一模式中，执行包括响应于所述用户的发声方式的间接改进方法的反馈，并且

在所述第二模式中，执行指示响应于所述用户的发声方式的直接改进方法的反馈。

(3)

根据(2)所述的信息处理设备，其中，与所述用户的发声识别相关的信息包括用户信息、内容信息、环境信息和装置信息。

(4)

根据(3)所述的信息处理设备，

其中，所述用户信息包括所述用户的发声方式，并且

所述控制单元基于所述用户的发声方式来选择所述第一模式或者所述第二模式。

(5)

根据(4)所述的信息处理设备，其中，所述发声方式中包括下述中的至少一个：发声音量、发声速度、发声音调、发音清晰度、发声位置和发声方向。

(6)

根据(4)或(5)所述的信息处理设备，其中，所述控制单元基于在所述第一模式中接收到所述反馈的用户的发声方式中未观察到改进的事件来选择所述第二模式。

(7)

根据(4)至(6)中任一项所述的信息处理设备，其中，所述控制单元基于在执行所述第一模式中的反馈之后在预定次数内未识别出所述用户的所述发声的事件来选择所述第二模式。

(8)

根据(3)至(7)中任一项的信息处理设备，

其中，所述用户信息包括所述用户的发声内容，并且

所述控制单元基于所述用户的发声内容来选择所述第一模式或者所述第二模式。

(9)

根据(8)所述的信息处理设备，其中，所述控制单元基于估计出所述用户的发声内容包括隐私信息的事件来选择所述第二模式。

(10)

根据(3)至(9)中任一项所述的信息处理设备，其中，所述控制单元基于从所述环境信息中估计出存在与所述用户不同的另一个人的事件来选择所述第一模式。

(11)

根据(3)至(10)中任一项的信息处理设备，

其中，所述用户信息包括所述用户的属性信息，并且

所述控制单元基于所述用户的属性信息来选择所述第一模式或者所述第二模式。

(12)

根据(3)至(11)中任一项的信息处理设备，

其中，所述用户信息包括所述用户的感情信息，并且

所述控制单元基于从所述用户的发声估计出的所述用户的感情信息来选择所述第一模式或者所述第二模式。

(13)

根据(4)至(12)中任一项所述的信息处理设备，其中，在所述第一模式中，以比所述用户的发声音量更高识别精度的音量来执行反馈。

(14)

根据(4)至(13)中任一项所述的信息处理设备，其中，在所述第一模式中，以比所述用户的发声速度更高识别精度的速度来执行反馈。

(15)

根据(4)至(14)中任一项所述的信息处理设备，其中，在所述第一模式中，以比所述用户的发声音调更高识别精度的音调来执行反馈。

(16)

根据(2)至(15)中任一项所述的信息处理设备，其中，在所述第二模式中，执行添加了对改进所述发声方式的原因的反馈。

(17)

根据(2)至(16)中任一项所述的信息处理设备，其中，所述反馈包括通过视觉信息的反馈。

(18)

根据(2)至(17)中任一项所述的信息处理设备，其中，在所述第二模式中，执行指示要对与检测到所述用户的所述发声的传感器不同的另一传感器说话的反馈。

(19)

根据(11)所述的信息处理设备，其中，在所述用户的属性信息中包括下述中的至少一个：性别、年龄、使用的语言和发声方式的趋势。

(20)

根据(12)所述的信息处理设备，其中，所述控制单元基于估计所述用户处于兴奋状态的事件来选择所述第一模式。

(21)

根据(1)至(20)中任一项所述的信息处理设备，其中，在所述第一模式中，执行根据所述用户的发声方式的使用人工声音的反馈。

(22)

根据(17)所述的信息处理设备，其中，所述视觉信息包括字母、符号、头像、指示符或图像的变化。

(23)

一种信息处理方法，包括：

由处理器根据与用户的发声识别相关的信息，从多个模式中选择响应于所述用户的发声方式的反馈模式，

(24)

一种使计算机用作信息处理设备的程序，所述信息处理设备包括：

附图标记列表

10 输入输出终端

110 声音输入单元

120 传感器单元

130 声音输出单元

140 显示单元

150 终端控制单元

160 服务器通信单元

20 网络

30 信息处理设备

310 终端通信单元

320 声音分析单元

330 声音识别单元

340 状态存储单元

350 位置检测单元

360 输出控制单元

370 输出DB

Claims

1.一种信息处理设备，包括：

2.根据权利要求1所述的信息处理设备，

3.根据权利要求2所述的信息处理设备，其中，与所述用户的发声识别相关的信息包括用户信息、内容信息、环境信息和装置信息。

4.根据权利要求3所述的信息处理设备，

其中，所述用户信息包括所述用户的发声方式，并且

5.根据权利要求4所述的信息处理设备，其中，在所述发声方式中包括以下中的至少一个：发声的音量、发声速度、发声音调、发音清晰度、发声位置和发声方向。

6.根据权利要求4所述的信息处理设备，其中，所述控制单元基于在接收到所述第一模式的反馈的所述用户的发声方式中未观察到改进的事件，选择所述第二模式。

7.根据权利要求4所述的信息处理设备，其中，所述控制单元基于在执行所述第一模式的反馈之后在预定次数内未识别出所述用户的发声的事件，选择所述第二模式。

8.根据权利要求3所述的信息处理设备，

其中，所述用户信息包括所述用户的发声内容，并且

9.根据权利要求8所述的信息处理设备，其中，所述控制单元基于估计出所述用户的发声内容包括隐私信息的事件，选择所述第二模式。

10.根据权利要求3所述的信息处理设备，其中，所述控制单元基于从所述环境信息中估计出存在与所述用户不同的另一个人的事件，选择所述第一模式。

11.根据权利要求3所述的信息处理设备，

其中，所述用户信息包括所述用户的属性信息，并且

12.根据权利要求3所述的信息处理设备，

其中，所述用户信息包括所述用户的感情信息，并且

所述控制单元基于从所述用户的发声估计出的所述用户的感情信息，选择所述第一模式或者所述第二模式。

13.根据权利要求4所述的信息处理设备，其中，在所述第一模式中，以具有比所述用户的发声音量更高识别精度的音量来执行反馈。

14.根据权利要求4所述的信息处理设备，其中，在所述第一模式中，以具有比所述用户的发声速度更高识别精度的速度来执行反馈。

15.根据权利要求4所述的信息处理设备，其中，在所述第一模式中，以具有比所述用户的发声音调更高识别精度的音调来执行反馈。

16.根据权利要求2所述的信息处理设备，其中，在所述第二模式中，执行添加了改进所述发声方式的原因的反馈。

17.根据权利要求2所述的信息处理设备，其中，所述反馈包括通过视觉信息的反馈。

18.根据权利要求2所述的信息处理设备，其中，在所述第二模式中，执行指示要针对与检测到所述用户的发声的传感器不同的另一传感器进行发声的反馈。

19.一种信息处理方法，包括：

20.一种使计算机用作信息处理设备的程序，所述信息处理设备包括：