CN107408027A

CN107408027A - 信息处理设备、控制方法及程序

Info

Publication number: CN107408027A
Application number: CN201580078175.7A
Authority: CN
Inventors: 大村淳己
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-03-31
Filing date: 2015-12-28
Publication date: 2017-11-28
Anticipated expiration: 2035-12-28
Also published as: CN107408027B; EP3279790A1; US20180074785A1; JP6669162B2; JPWO2016157662A1; WO2016157662A1; EP3279790B1; EP3279790A4

Abstract

提供了信息处理设备、控制方法以及程序，其能够在存在多个用户语音时通过对各个用户输出适当的响应来提高语音识别***的便利性。该信息处理设备设置有：响应生成单元，其生成对来自多个用户的语音的响应；确定单元，其基于对应于多个用户的语音的顺序的优先级来确定针对各个用户的响应输出方法；以及输出控制单元，其执行控制以使得使用所确定的响应输出方法来输出所生成的响应。

Description

信息处理设备、控制方法及程序

技术领域

本公开内容涉及信息处理设备、控制方法及程序。

背景技术

传统技术中，已经开发了对来自用户的语音进行语音识别和语义分析并且通过声音进行响应的技术。具体地，由于近年来语音识别算法的进步和计算机技术的发展，可以在实际时间内执行语音识别处理，并且用于智能手机、平板电脑等的使用声音的用户接口(UI)已经变得普及。

例如，通过使用安装在智能手机、平板电脑等上的声音UI的应用程序，可以通过声音对用户说出的问题进行响应，或者可以执行与用户说出的指令相对应的处理。

例如，下面列出的专利文献1公开了一种语音对话控制方法，在该语音对话控制方法中，由***侧考虑响应内容的重要水平以在与单个用户的声音对话中在***正在做出响应时(换句话说，在***正在输出语音时)用户中断语音的情况下继续或停止响应。

此外，下面列出的专利文献2公开了一种声音对话设备，通过该设备用户可以容易地识别在多个用户与彼此讲话时谁的声音正在被输出。

引用列表

专利文献

专利文献1：JP 2004-325848A

专利文献2：JP 2009-261010A

发明内容

技术问题

然而，由于通过输出语音进行响应的特性，假定声音UI被用在***与用户之间的一对一对话中，并且假定声音UI不被用在***与多个用户之间的对话中。因此，例如，当假定在房屋或公共空间中使用声音UI***时，某个用户很可能占用该***。

此外，在上述专利文献1中描述的技术是用在与单个用户进行声音对话的响应***，并且该响应***很难同时对多个用户进行响应。此外，尽管在上述专利文献2中描述的技术涉及要由多个用户使用的***，但未假定多个用户使用自动地通过声音对来自用户的语音进行响应的声音UI。

因此，本公开内容提出了信息处理设备、控制方法及程序，其能够在多个用户讲话时通过对各个用户输出适当的响应来提高语音识别***的便利性。

解决方案

根据本公开内容，提供了一种信息处理设备，包括：响应生成单元，被配置成生成对来自多个用户的语音的响应；确定单元，被配置成基于根据来自多个用户的语音的顺序的优先级来确定对各个用户输出响应的方法；以及输出控制单元，被配置成执行控制以使得通过使用所确定的输出响应的方法来输出所生成的响应。

根据本公开内容，提供了一种控制方法，包括：生成对来自多个用户的语音的响应；基于根据来自多个用户的语音的顺序的优先级来确定对各个用户输出响应的方法；以及由输出控制单元执行控制以使得通过使用所确定的输出响应的方法来输出所生成的响应。

根据本公开内容，提供了一种使计算机用作以下单元的程序：响应生成单元，被配置成生成对来自多个用户的语音的响应；确定单元，被配置成基于根据来自多个用户的语音的顺序的优先级来确定对各个用户输出响应的方法；以及输出控制单元，被配置成执行控制以使得通过使用所确定的输出响应的方法来输出所生成的响应。

发明的有益效果

如上所述，根据本公开内容，可以在多个用户讲话时通过对各个用户输出适当的响应来提高语音识别***的便利性。

注意，上述效果不一定是限制性的。具有或代替上述效果，可以实现本说明书中描述的效果或者可以从本说明书中领会到的其他效果中的任何一个效果。

附图说明

图1是示出根据本公开内容的实施方式的语音识别***的概述的图。

图2是示出根据实施方式的信号处理设备的配置的示例的图。

图3是示出根据实施方式的语音识别***的操作过程的流程图。

图4是示出根据实施方式的通过声音和显示同时对来自多个用户的语音输出响应的示例的图。

图5A是示出根据实施方式的通过使用子显示器指示等待用户的通知的图。

图5B是示出根据实施方式的通过使用子显示器指示等待用户的通知的图。

图6是示出通过显示指示对非目标用户的响应的图标来节约显示区域的示例的图。

图7是示出根据实施方式的通过使用方向性声音同时响应的图。

图8是示出根据实施方式的出错显示的示例的图。

具体实施方式

在下文中将参考附图详细描述本公开内容的(一个或多个)优选实施方式。在本说明书和附图中，具有基本上相同功能和结构的结构元件使用相同的附图标记来表示，并且省略对这些结构元件的重复说明。

注意，按如下顺序给出描述。

1.根据本公开内容的实施方式的语音识别***的概述

2.配置

3.操作过程

4.响应输出示例

4-1.通过声音和显示响应

4-2.使用方向性同时响应

4-3.通过与外部设备协作响应

4-4.根据讲话者状态响应

4-5.根据语音内容响应

4-6.出错响应

5.总结

<<1.根据本公开内容的实施方式的语音识别***的概述>>

根据本公开内容的实施方式的语音识别***具有对来自用户的语音进行语音识别和语义分析并且通过声音进行响应的基本功能。在下文中，将参考图1来描述根据本公开内容的实施方式的语音识别***的概述。

图1是示出根据本公开内容的实施方式的语音识别***的概述的图。图1中所示的信息处理设备1具有能够对来自用户的语音进行语音识别和语义分析并且通过声音向用户输出响应的声音UI代理功能。信息处理设备1的外观不受特定限制。例如，如图1所示，信息处理设备1的外观可以是圆柱形，并且该设备可以被放置在房间里的地板或桌子上。此外，信息处理设备1包括由诸如发光二极管(LED)的发光元件构成的带状的发光单元18，以使得发光单元18在水平方向上围绕信息处理设备1的侧表面的中心区域。通过点亮发光单元18的一部分或全部，信息处理设备1可以向用户通知信息处理设备1的状态。例如，通过在与用户对话期间点亮发光单元18的在用户方向(即讲话者的方向)上的一部分，信息处理设备1可以操作成如图1所示那样好像信息处理设备1看着用户。此外，在生成响应或搜索数据期间，通过控制发光单元18以使得光围绕所述侧表面旋转，信息处理设备1可以向用户通知处理正在进行中。

然而，由于其通过输出声音进行响应的特性，传统上假定声音UI被用在***与一个用户之间的一对一对话中，并且假定声音UI不被用在***与多个用户之间的对话中。因此，例如，当假定在房屋或公共空间中使用声音UI***时，某个用户很可能占用该***。

然而，通过使用根据本公开内容的实施方式的语音识别***，可以在多个用户讲话时通过对各个用户输出适当的响应来提高语音识别***的便利性。

具体地，例如，如图1所示，信息处理设备1具有在墙壁20上投影图像的显示功能。信息处理设备1除了通过声音输出响应之外，还可以通过显示输出响应。因此，当信息处理设备1正在通过声音输出响应的同时另一用户讲话时，信息处理设备1可以输出显示诸如“等一会儿”的词语的图像以提示另一用户进行等待。这防止信息处理设备1在输出响应期间忽略来自另一用户的语音或停止响应，并且这使信息处理设备1能够灵活地操作。

具体地，例如，如图1所示，信息处理设备1响应于来自用户AA的语音30“明天天气怎么样？”而通过声音输出响应31“明天将是晴天”，并且在墙壁20上显示指示太阳的图示的响应图像21b。在这种情况下，当在通过声音输出响应31期间识别到来自用户BB的语音32“音乐会在什么时候？”时，信息处理设备1通过显示输出提示用户BB等待轮到他/她的响应图像21a“等一会儿”。此外，在这种情况下，信息处理设备1也可以在墙壁20上投影通过将识别的用户BB的语音内容转化为文本获得的语音内容图像21c“音乐会在什么时候？”。因此，用户BB可以意识到来自用户BB的语音被信息处理设备1正确地识别。

接下来，在通过声音对用户AA的响应的输出结束之后，信息处理设备1通过声音输出对等待的用户BB的响应。例如，如上所述，通过使用根据本实施方式的语音识别***，通过使对声音响应输出的占用根据语音顺序转移，多个用户可以同时使用该***。

已经描述了根据本公开内容的语音识别***的概述。注意，信息处理设备1的形状不限于图1所示的圆柱形。例如，信息处理设备1的形状可以是立方体、球体、多面体等。接下来，将描述根据本发明的实施方式的实现语音识别***的信息处理设备1的基本配置和操作过程。

<<2.基本配置>>

图2是示出根据实施方式的信息处理设备1的配置的示例的图。如图2所示，信息处理设备1包括控制单元10、通信单元11、麦克风12、扬声器13、摄像装置14、测距传感器15、投影单元16、存储单元17以及发光单元18。

(控制单元10)

控制单元10控制信息处理设备1的各个结构元件。控制单元10通过包括中央处理单元(CPU)、只读存储器(ROM)、随机存取存储器(RAM)以及非易失性存储器的微控制器来实现。此外，如图2所示，根据实施方式的控制单元10还用作语音识别单元10a、语义分析单元10b、响应生成单元10c、目标确定单元10d、响应输出方法确定单元10e以及输出控制单元10f。

语音识别单元10a识别由信息处理设备1的麦克风12收集的用户的声音，将该声音转换为字符串，并且获取语音文本。此外，语音识别单元10a还可以基于声音的特征来识别正在讲话的人，并且对声音源(换言之，讲话者的方向)进行估计。

语义分析单元10b通过使用自然语言处理等对由语音识别单元10a获取的语音文本进行语义分析。语义分析的结果输出至响应生成单元10c。

响应生成单元10c基于语义分析结果来生成对用户的语音的响应。例如，在用户的语音请求“明天的天气”的情况下，响应生成单元10c从网络上的天气预报服务器获取关于“明天的天气”的信息，并且生成响应。

在语音识别单元10a识别到来自多个用户的语音的情况下，目标确定单元10d基于预定的条件来确定各个用户的优先级，并且确定具有最高优先级的用户为目标用户，其他用户为非目标用户。来自多个用户的语音被识别的情况是指在第一用户讲话时来自第二用户的语音被识别的情况，或者在输出对来自第一用户的语音的声音响应期间来自第二用户的语音被识别的情况。此外，基于预定条件的各个用户的优先级可以是例如基于语音的顺序的优先级。具体地，在来自除了对设备讲话的第一用户以外的第二用户的语音被识别的情况下，目标确定单元10d设置优先级，以使得较早开始对话的第一用户的优先级高于较晚开始对话的第二用户的优先级。

此外，在存在显式中断处理的情况下，目标确定单元10d可以重置优先级，以使得使处理中断的非目标用户被改变为目标用户。例如，显式中断处理可以是预定命令的声音语音、预定的手势操作、基于感测的数据的用户的预定情况等。后面将详细描述中断处理。

响应输出方法确定单元10e基于多个用户的优先级来确定向每个用户输出响应的方法。例如，响应输出方法确定单元10e根据用户是否被目标确定单元10d确定为目标用户，来确定是通过声音输出响应还是通过显示输出响应。具体地，例如，响应输出方法确定单元10e向目标用户和非目标用户分配不同的响应输出方法，以使得目标用户占用使用声音的响应输出并且将使用显示的响应输出分配给非目标用户。此外，即使在使用显示的响应输出被分配给目标用户的情况下，响应输出方法确定单元10e也可以将部分显示区域分配给非目标用户。

输出控制单元10f执行控制以使得由响应生成单元10c生成的响应按照由响应输出方法确定单元10e确定的响应输出方法被输出。后面将描述根据实施方式的特定响应输出示例。

(通信单元11)

通信单元11与外部设备交换数据。例如，通信单元11与网络上的预定服务器连接，并且接收响应生成单元10c生成响应所需的信息。此外，通信单元11与***设备协作并且在输出控制单元10f的控制下将响应数据传送至目标设备。

(麦克风12)

麦克风12具有收集***的声音并且将收集的声音作为声音信号输出至控制单元10的功能。此外，麦克风12可以由阵列麦克风来实现。

(扬声器13)

扬声器13具有将声音信号转换为声音并且在输出控制单元10f的控制下输出声音的功能。

(摄像装置14)

摄像装置14具有通过使用信息处理设备1中包含的成像透镜捕获***图像，并且将捕获的图像输出至控制单元10的功能。摄像装置14可以由360度摄像装置、广角摄像装置等来实现。

(测距传感器15)

测距传感器15具有测量信息处理设备1与信息处理设备1的用户或用户周围的人之间的距离的功能。例如，测距传感器15可以由光学传感器(被配置为基于关于光发射定时与光接收定时之间的相位差的信息来测量距目标物体的距离的传感器)来实现。

(投影单元16)

投影单元16是显示设备的示例，并且具有在墙壁或者屏幕上投影(放大的)图像的显示功能。

(存储单元17)

存储单元17存储用于使信息处理设备1的各个结构元件运行的程序。此外，存储单元17存储各种参数和各种算法。各种参数在目标确定单元10d计算多个用户的优先级时使用。各种算法在响应输出方法确定单元10e根据优先级(或者根据基于优先级而确定的目标/非目标用户)确定输出方法时使用。此外，存储单元17存储用户的登记信息。用户的登记信息包括个人识别信息(声音特征、面部图像、个人图像特征(包括身体图像)、姓名、识别号码等)、年龄、性别、爱好/偏好、属性(家庭主妇、职员、学生等)、由用户持有的通信终端的信息等。

(发光单元18)

发光单元18可以由诸如LED的发光元件来实现，并且发光单元18的点亮方式和点亮位置被控制成使得全部灯被打开、一部分灯被打开或使得灯闪烁。例如，在控制单元10的控制下，语音识别单元10a识别的讲话者的方向上的部分发光单元18被打开。这使得信息处理设备1能够操作成好像信息处理设备1看着讲话者的方向。

已经描述了根据实施方式的信息处理设备1的配置的细节。注意，图2中示出的配置仅是示例，并且实施方式不限于此。例如，信息处理设备1还可以包括红外(IR)摄像装置、深度摄像装置、立体摄像装置、运动检测器等来获取周围环境的信息。此外，麦克风12、扬声器13、摄像装置14、发光单元18等在信息处理设备1中的安装位置不受特定限制。此外，根据实施方式的控制单元10的各个功能可以在经由通信单元11连接的云中。

<<3.操作过程>>

接下来，将参考图3来描述根据实施方式的语音识别***的操作过程的细节。

图3是示出根据实施方式的语音识别***的操作过程的流程图。如图3所示，在步骤S103中信息处理设备1的控制单元10首先确定用户是否在讲话。具体地，控制单元10通过使用语音识别单元10a对由麦克风12收集的声音信号执行语音识别，通过使用语义分析单元10b对该声音信号执行语义识别，并且确定声音信号是否是来自正在对***讲话的用户的语音。

下面，在步骤S106中，控制单元10确定是否多个用户在讲话。具体地，控制单元10可以基于由语音识别单元10a执行的用户(讲话者)识别来确定是否两个或更多个用户在讲话。

下面，在不是多个用户在讲话(换句话说，单个用户在讲话)的情况下(S106中为“否”)，控制单元10中的响应输出方法确定单元10e确定使用声音响应输出方法(S112)，并且输出控制单元10f通过声音输出由响应生成单元10c生成的响应(S115)。

另一方面，在多个用户在讲话的情况下(S106中为“是”)，在步骤S109中，控制单元10中的目标确定单元10d基于各个用户的优先级来确定目标用户和非目标用户。例如，目标确定单元10d通过提高第一用户的优先级来确定首先讲话的第一用户为目标用户，并且通过与第一用户的优先级相比降低第二用户的优先级来确定较晚讲话的第二用户为非目标用户。

接下来，在步骤S112中，响应输出方法确定单元10e根据由目标确定单元10d确定的目标/非目标用户来确定响应输出方法。例如，响应输出方法确定单元10e确定将使用声音的响应输出方法分配给目标用户(换言之，目标用户占用声音响应输出方法)，并且确定将使用显示的响应输出方法分配给非目标用户。

接下来，在步骤S115中，输出控制单元10f执行控制以使得通过使用由响应输出方法确定单元10e确定的方法来输出由响应生成单元10c根据语义分析单元10b对来自各个用户的语音执行的语义分析的结果而生成的对所述语音的响应。因此，例如，在通过声音输出对第一用户的语音的响应期间第二用户讲话的情况下，输出控制单元10f可以继续输出响应而不是停止响应。这是因为第一用户被确定为目标用户并且第一用户可以占用声音输出方法。此外，由于在来自第一用户的语音期间讲话的第二用户被确定为非目标用户并且将显示输出方法分配给第二用户，所以输出控制单元10f可以在通过声音输出对第一用户的响应的同时通过显示输出对第二用户的响应。具体地，输出控制单元10f通过显示输出对第二用户的响应，该响应指示第二用户等待轮到他/她。在通过声音对第一用户的响应结束之后，输出控制单元10f通过声音输出对第二用户的响应。这是因为，在通过声音对第一用户的响应结束时，第二用户的优先级提高，第二用户变为目标用户，并且第二用户可以占用声音响应输出。可替选地，在通过声音对第一用户的响应结束时只有一个等待用户的情况下，***以一对一的方式被使用。因此，响应输出方法确定单元10e执行控制以使得单个用户占用声音响应输出。

如上所述，通过使用根据实施方式的声音UI***，可以灵活地响应来自多个用户的语音，这提高了声音UI***的便利性。注意，后面将描述根据实施方式输出对多个用户的响应的具体示例。

最后，在步骤S118中，在响应期间发生显式中断处理的情况下(S118中为是)，控制单元10中的目标确定单元10d针对多个用户改变目标/非目标(S109)。具体地，与当前目标用户相比，目标确定单元10d提高中断用户的优先级，将中断用户确定为目标用户，并且将当前目标用户改变为非目标用户。接下来，控制单元10控制响应，以使得响应输出方法切换至根据改变重新确定的响应输出方法(S112和S115)。显式中断处理的示例包括如后面所描述的使用声音、手势等的处理。

例如，在以下情况的声音中断处理中提高中断用户的优先级：在讲出***名称例如“SS(***名称)，天气怎么样？”的情况下；在讲出预定的中断命令例如“中断：天气怎么样？”的情况下；在讲出指示用户着急或指示重要请求的词语例如“天气怎么样？赶快！”的情况下。可替选地，在中断用户比他/她平时的音量(或通常的音量)更大声地讲话或者中断用户很快地讲话的情况下，由于其被认为是显式中断处理，所以也提高中断用户的优先级。

可替选地，在中断用户使用预定的姿势例如举起他/她的手作为姿势中断处理时讲话的情况下，也提高中断用户的优先级。

此外，作为使用远程控制器或硬件(HW)按钮的中断处理，中断处理功能可以附接到信息处理设备1上或者操作信息处理设备1的远程控制器上设置的物理按钮。

可替选地，作为根据环境感测的内容的中断处理，显式中断处理可以基于由摄像装置14、测距传感器15等检测的内容来确定。作为示例，在感测到用户着急(例如，用户匆忙接近信息处理设备1)的情况下，或者在用户在比当前目标用户更靠近信息处理设备1的位置处对信息处理设备1讲话的情况下，可以确定存在显式中断处理并且提高用户的优先级。可替选地，在从预定的服务器等获取目标用户的日程表信息并且发现中断用户随后刚好有计划的情况下，可以确定存在显式中断处理并且可以提高用户的优先级。

上面已经描述了显式中断处理。然而，根据实施方式，除了上述的中断处理之外，还可以根据目标用户的属性来执行中断处理。换言之，在信息处理设备1可以识别讲话者的情况下，可以向各个用户分配静态或动态的优先级。具体地，例如，在用户AA登记为“儿子”，用户BB登记为“母亲”并且“母亲”的优先级被设置为高于“儿子”的优先级的情况下，控制用户BB的优先级以使得与用户BB的优先级相比，在用户BB中断信息处理设备1与用户AA之间的对话时用户BB的优先级提高。因此，将对用户AA的响应从声音输出切换至显示输出。

<<4.响应输出示例>>

接下来，将参考图4至图8来描述根据实施方式的输出对多个用户的响应的示例的细节。

<4-1.通过声音和显示的响应>

图4是示出根据实施方式通过声音和显示同时对来自多个用户的语音输出响应的示例的图。如图4中左侧所示，在信息处理设备1在通过声音输出对来自用户AA的语音30的响应31时识别到来自用户BB的语音32的情况下，信息处理设备1将首先开始对话的用户AA确定为目标用户并且继续输出声音响应31。另一方面，信息处理设备1将较晚开始对话的用户BB确定为非目标用户，并且输出提示用户BB等待的响应图像21a的显示。

接下来，如图4中右侧所示，在通过声音输出对用户AA的响应结束之后，信息处理设备1通过声音输出对等待用户B的响应33“感谢您的等候。音乐会的时间是下周五”。此外，如果需要，则信息处理设备1可以通过在墙壁20上投影响应图像21d来输出显示。此外，如图4右侧所示，为了显式示出声音响应输出的占用被转移至用户BB，可以控制信息处理设备1以使得打开发光单元18在用户BB的方向上的一部分，好像信息处理设备1看着用户BB。

如上所述，通过使用根据实施方式的语音识别***，通过使声音响应输出的占用根据来自用户的语音的顺序转移，多个用户可以同时使用该***。注意，指示非目标用户等待的方式不限于如图4中所示的对响应图像21a的投影。接下来，将描述对指示的修改。

(修改1)

例如，在目标用户还占用显示响应输出的情况下，信息处理设备1可以通过使用信息处理设备1上设置的子显示器或发光单元18向非目标用户输出等待指示。

可替选地，在子显示器或者发光单元18的显示区域或显示功能被限制的情况下，信息处理设备1可以通过使用图标或灯的颜色信息来输出等待指示。接下来将参考图5A和图5B来描述通过使用子显示器对等待的用户的通知。

例如，在如图5A所示的在侧表面上包括子显示器19的信息处理设备1x的情况下，输出控制单元10f可以使正在等待响应的非目标用户显现为队列。在图5A示出的示例中，可以直观地识别当前两个人正在等待响应。

可替选地，在图5B中所示的在侧表面上包括子显示器19的信息处理设备1x的情况下，输出控制单元10f可以使用目标用户的登记颜色清楚地显示用户的ID或姓名，以使当前正在等待响应的非目标用户显现为队列。在图5B所示的示例中，可以直观地识别当前谁正在等待响应。

(修改2)

可替选地，在对多个用户的响应中的每一个需要一定量的显示区域的情况下，信息处理设备1的显示区域被用完。在这样的情况下，信息处理设备1通过将对低优先级的用户的响应(换言之，对非目标用户的响应)显示为图标或文本来节省显示区域。图6是示出通过显示指示对非目标用户响应的图标来节省显示区域的示例的图。如图6所示，已经识别了来自用户AA的语音34“请显示我的日程表”的信息处理设备1输出响应35“当然”，并且在墙壁20上投影对应的日程表图像22a。

在这种情况下，由于日程表图像22a具有大量的信息，所以使用了显示区域200的大部分。因此，在显示日程表期间识别到来自用户BB的语音36“有任何我的邮件吗”的情况下，不可能允许如图4所示的那样显示响应图像21a和语音内容图像21c的空间。因此，信息处理设备1如图6所示的那样显示电子邮件的图标图像22b。从而，用户B可以直观地理解他/她的语音被正确地识别并且他/她处于等待响应的状态。

已经描述了根据实施方式的关于指示非目标用户等待的通知的响应的示例。注意，还可以结合修改1和修改2。

<4-2.使用方向性同时响应>

接下来，在扬声器13具有方向性并且可以在特定位置例如波前合成处产生声场的情况下，信息处理设备1可以同时通过声音输出对多个用户的响应。图7是示出使用方向性的声音同时响应的图。

如图7所示，信息处理设备1通过使用由摄像装置14和麦克风12感测的内容来识别各个讲话者的位置，朝向用户的相应位置输出对用户AA的声音响应37和对用户BB的声音响应38，并且同时输出该响应。在这种情况下，信息处理设备1还可以划分显示区域，将显示区域分配给各个用户，并且向用户AA显示响应图像23a和向用户BB显示响应图像23b。此外，与非目标用户的显示区域相比，信息处理设备1可以扩大目标用户的显示区域。

如上所述，通过使用根据实施方式的语音识别***，可以通过使用方向性的声音同时对多个用户进行响应，并且使得多个用户能够同时使用该***。

<4-3.通过与外部设备协作响应>

可选地，信息处理设备1可以与外部设备协作并且执行控制以使得外部设备输出对非目标用户的响应。例如，在目标用户占用声音响应输出和显示响应输出的情况下，信息处理设备1执行控制以使得对非目标用户的响应从非目标用户持有的移动通信终端和可穿戴终端、在附近或他/她自己的房间里的TV、在另一个地方的另一个声音UI***等输出。在这种情况下，信息处理设备1可以在信息处理设备1上设置的子显示器上显示信息，该信息指示外部设备输出响应。可替选地，信息处理设备1可以使移动通信终端或可穿戴终端输出声音例如“响应将从这里输出”。这使得能够向非目标用户通知要从哪个终端输出响应。

如上所述，通过使用根据实施方式的语音识别***，可以通过与外部设备协作同时对多个用户进行响应，并且使得多个用户能够同时使用该***。

<4-4.根据讲话者的状态响应>

此外，通过使用根据实施方式的信息处理设备1，还可以根据讲话者的状态来确定响应输出方法。例如，在用户不在信息处理设备1附近并且在距信息处理设备1稍远一点的地方大声地讲话的情况下，存在来自于信息处理设备1的声音或显示的输出不能被传送至用户的可能性。因此，信息处理设备1可以决定使用信息处理设备1与由用户持有的诸如移动通信终端、可穿戴设备等的外部设备协作的响应输出方法。可替选地，也可以使信息处理设备1暂时地存储响应内容，并且使信息处理设备1在用户移动至信息处理设备1的声音/显示输出有效范围内的情况下输出响应内容。

因此，例如，可以避免在首先讲话的目标用户在远离信息处理设备1的位置处的情况下信息处理设备1的声音输出或显示输出被占用。声音输出或显示输出可以分配给邻近的非目标用户。

<4-5.根据语音内容响应>

此外，通过使用根据实施方式的信息处理设备1，还可以根据响应内容来确定响应输出方法。例如，在响应具有大量信息例如日程表显示的情况下，信息处理设备1优选地将显示输出方法分配给这样的响应，并且允许另一用户使用声音输出方法。可替选地，在简单确认(例如，信息处理设备1对来自用户的语音“新宿线是否延迟？”输出简单的响应“否”)的情况下，通过声音和图像显示输出响应是没有必要的。信息处理设备1允许另一用户使用显示输出方法。可替选地，在来自用户的语音仅包括关于显示例如“请显示我的日程表”的指示的情况下，信息处理设备1也可以允许另一用户使用声音输出方法。

如上所述，通过根据来自用户的语音内容来优选地分配必要的响应输出方法并且允许其他用户使用其他响应输出方法，可以避免目标用户占用显示输出和声音输出二者，并且可以使多个用户能够同时使用该***。

<4-6.出错响应>

此外，在同时讲话的讲话者的数量超过允许同时讲话的讲话者的数量的情况下，根据实施方式的信息处理设备1可以显示出错。在下文中，将参考图8来描述出错显示的示例。

图8是示出根据实施方式的出错显示的示例的图。如图8所示，首先，已经识别了来自用户AA的语音40的信息处理设备1通过声音输出响应41并且投影响应图像24b。在响应期间，在用户BB讲出语音42“音乐会在什么时候？”，用户CC讲出语音43“请显示TV列表！”，用户DD讲出语音44“你今天有什么新闻？”，并且讲话者的数量超过信息处理设备1允许的同时讲话者的数量(例如，两个人)的情况下，如图8所示那样投影出错图像24a。

出错图像24a可以包括提示用户采取措施避免出错的内容例如“请一个一个讲！”。因此，用户BB、用户CC和用户DD可以理解当他们一个一个讲的时候出错会消失。

注意，在出错的原因是显示区域的限制的情况下，信息处理设备1可以将响应内容发送至与每个非目标用户相关联的设备等。

<5.总结>

如上所述，例如，通过使用根据本公开内容的实施方式的语音识别***，通过使对声音响应输出的占用根据语音的顺序而转移，多个用户可以同时使用该***，并且提高了语音识别***的便利性。

上面已经参考附图描述了本公开内容的(一个或多个)优选实施方式，但是本公开内容不限于以上示例。本领域技术人员可以找到在所附的权利要求书的范围内的各种变更和修改，并且应该理解，它们将自然地归入本公开内容的技术范围内。

例如，还可以创建用于使嵌入在上述信息处理设备1中的诸如CPU、ROM和RAM的硬件执行信息处理设备1的上述功能的计算机程序。此外，可以提供其中存储有计算程序的计算机可读记录介质。

此外，本说明书中描述的效果仅是说明性的或示例性的效果，而不是限制性的。即，具有或代替上述效果，根据本公开内容的技术可以实现本领域技术人员根据本说明书的描述清楚的其他效果。

此外，本技术也可以配置成如下。

(1)一种信息处理设备，包括：

响应生成单元，被配置成生成对来自多个用户的语音的响应；

确定单元，被配置成基于根据来自所述多个用户的语音的顺序的优先级，来确定对各个用户输出响应的方法；以及

输出控制单元，被配置成执行控制以使得通过使用所确定的输出响应的方法来输出所生成的响应。

(2)根据(1)所述的信息处理设备，

其中，在识别出来自除了正在讲话的用户以外的用户的语音的情况下，所述确定单元设置优先级，以使得较早开始对话的用户的优先级高于较晚开始对话的用户的优先级。

(3)根据(2)所述的信息处理设备，

其中，所述确定单元将具有最高优先级的用户确定为目标用户，并且将其他一个或更多个用户确定为非目标用户。

(4)根据(3)所述的信息处理设备，

其中，所述确定单元使所述目标用户占用使用声音的响应输出方法，并且将使用显示的响应输出方法分配给所述非目标用户。

(5)根据(4)所述的信息处理设备，其中，

所述响应生成单元生成提示所述非目标用户等待的响应，以及

所述输出控制单元执行控制以使得显示提示所述非目标用户等待的响应的图像。

(6)根据(5)所述的信息处理设备，其中，

所述响应生成单元生成对所述非目标用户的响应，所述响应指示对来自所述非目标用户的语音执行语音识别的结果，以及

所述输出控制单元执行控制以使得显示指示对来自所述非目标用户的语音执行语音识别的结果的响应的图像。

(7)根据(4)至(6)中的任意一项所述的信息处理设备，

其中，所述输出控制单元执行控制以使得显式示出等待响应的所述非目标用户。

(8)根据(4)至(7)中的任意一项所述的信息处理设备，

其中，在与所述目标用户的对话结束之后，所述确定单元使已经被所述目标用户占用的所述使用声音的响应输出方法转移到所述非目标用户。

(9)根据(4)至(8)中的任意一项所述的信息处理设备，

其中，所述使用显示的响应输出是通过投影进行的显示。

(10)根据(3)所述的信息处理设备，

其中，在所述目标用户占用所述使用显示的输出方法和所述使用声音的输出方法的情况下，所述确定单元将通过与外部设备协作来输出响应的方法分配给所述非目标用户。

(11)根据(3)所述的信息处理设备，

其中，所述确定单元将与根据对所述目标用户的响应的内容确定的响应输出方法不同的响应输出方法分配给所述非目标用户。

(12)根据(11)所述的信息处理设备，

其中，在对所述目标用户输出响应的方法占用了显示的情况下，所述确定单元将所述使用声音的输出方法分配给所述非目标用户。

(13)根据(3)所述的信息处理设备，

其中，所述确定单元根据所述目标用户的状态来确定输出响应的方法。

(14)根据(13)所述的信息处理设备，

其中，在所述目标用户处于与所述信息处理设备1相距预定值或更多的位置处的情况下，所述确定单元分配通过与外部设备协作来输出响应的方法。

(15)根据(2)至(14)中的任意一项所述的信息处理设备，

其中，所述确定单元响应于显式中断处理而改变所述优先级。

(16)根据(1)所述的信息处理设备，

其中，所述确定单元向多个用户分配从方向性声音输出单元输出响应的方法。

(17)根据(1)至(16)中的任意一项所述的信息处理设备，

其中，在基于语音识别结果讲话者的数量超过允许的讲话者的数量的情况下，所述输出控制单元执行控制以使得发出出错通知。

(18)一种控制方法，包括：

生成对来自多个用户的语音的响应；

基于根据所述来自多个用户的语音的顺序的优先级，来确定对各个用户输出响应的方法；以及

由输出控制单元执行控制以使得通过使用所确定的输出响应的方法来输出所生成的响应。

(19)一种程序，使计算机用作以下单元：

确定单元，被配置成基于根据来自多个用户的语音的顺序的优先级，来确定对各个用户输出响应的方法；以及

附图标记列表

1 信息处理设备

10 控制单元

10a 语音识别单元

10b 语义分析单元

10c 响应生成单元

10d 目标确定单元

10e 响应输出方法确定单元

10f 输出控制单元

11 通信单元

12 麦克风

13 扬声器

14 摄像装置

15 测距传感器

16 投影单元

17 存储单元

18 发光单元

19 子显示器

20 墙壁

权利要求书(按照条约第19条的修改)

1.(修改后)一种信息处理设备，包括：

输出控制单元，被配置成执行控制以使得通过使用所确定的输出响应的方法来输出所生成的响应，

其中，所述响应生成单元生成指示对来自用户的语音的应答的响应和提示其他用户等待应答的输出的响应。

2.(修改后)根据权利要求1所述的信息处理设备，其中，

所述确定单元确定被用户占用的响应输出方法和除所述响应输出方法以外的并且被其他用户共享的响应输出方法，以及

所述输出控制单元执行控制以使得通过使用所确定的响应输出方法来输出对来自所述各个用户的语音的响应。

3.(修改后)根据权利要求1所述的信息处理设备，

其中，所述输出控制单元执行控制以使得输出指示对来自用户的语音的应答的响应和与正在等待应答的输出的用户的语音识别结果相关的应用图标。

4.(修改后)根据权利要求1所述的信息处理设备，

其中，所述输出控制单元执行控制以使得输出对来自用户的语音的响应和其他用户的语音识别结果。

5.(修改后)根据权利要求1所述的信息处理设备，还包括：

语音识别单元，被配置为对来自多个用户的各个语音执行语音识别，其中，

所述响应生成单元基于根据来自所述多个用户的语音的顺序的优先级来生成指示对来自用户的语音的应答的响应和提示其他用户等待应答的输出的响应，以及

所述输出控制单元执行控制以使得在对来自所述用户的语音的响应结束之后输出指示对正在等待的所述其他用户的语音的应答的响应。

6.(修改后)根据权利要求5所述的信息处理设备，

7.(修改后)根据权利要求6所述的信息处理设备，

8.(修改后)根据权利要求7所述的信息处理设备，其中，

9.(修改后)根据权利要求8所述的信息处理设备，其中，

10.(修改后)根据权利要求7所述的信息处理设备，

11.(修改后)根据权利要求7所述的信息处理设备，

12.(修改后)根据权利要求7所述的信息处理设备，

其中，所述使用显示的响应输出是通过投影进行的显示。

13.(修改后)根据权利要求6所述的信息处理设备，

14.(修改后)根据权利要求6所述的信息处理设备，

15.(修改后)根据权利要求14所述的信息处理设备，

16.(修改后)根据权利要求6所述的信息处理设备，

其中，在所述目标用户处于与所述信息处理设备相距预定值或更多的位置处的情况下，所述确定单元分配通过与外部设备协作来输出响应的方法。

17.(修改后)根据权利要求6所述的信息处理设备，

18.(修改后)一种控制方法，包括，由处理器：

针对来自多个用户的语音生成指示对来自用户的语音的应答的响应和提示其他用户等待应答的输出的响应；

19.(修改后)一种程序，使计算机用作以下单元：

Claims

1.一种信息处理设备，包括：

2.根据权利要求1所述的信息处理设备，

3.根据权利要求2所述的信息处理设备，

4.根据权利要求3所述的信息处理设备，

5.根据权利要求4所述的信息处理设备，其中，

6.根据权利要求5所述的信息处理设备，其中，

7.根据权利要求4所述的信息处理设备，

8.根据权利要求4所述的信息处理设备，

9.根据权利要求4所述的信息处理设备，

其中，所述使用显示的响应输出是通过投影进行的显示。

10.根据权利要求3所述的信息处理设备，

11.根据权利要求3所述的信息处理设备，

12.根据权利要求11所述的信息处理设备，

13.根据权利要求3所述的信息处理设备，

14.根据权利要求13所述的信息处理设备，

15.根据权利要求2所述的信息处理设备，

16.根据权利要求1所述的信息处理设备，

17.根据权利要求1所述的信息处理设备，

18.一种控制方法，包括：

生成对来自多个用户的语音的响应；

19.一种程序，使计算机用作以下单元：