CN108369476A

CN108369476A - 信息处理设备、信息处理方法和程序

Info

Publication number: CN108369476A
Application number: CN201680071032.8A
Authority: CN
Inventors: 河野真; 河野真一; 中川佑辅
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-12-11
Filing date: 2016-09-26
Publication date: 2018-08-03
Anticipated expiration: 2036-09-26
Also published as: CN108369476B; WO2017098775A1; JPWO2017098775A1; US20200321018A1; JP6888553B2; US11087775B2; DE112016005648T5

Abstract

提供一种可以容易地抑制噪声输入的机制。一种信息处理设备包括：控制单元，该控制单元被配置为基于噪声的生成源与收集由用户所生成的声音的声音收集单元之间的位置关系，来控制输出以引导用户的动作改变所生成的声音的声音收集特性，该动作不同于与声音收集单元的处理相关的操作。一种由处理器执行的信息处理方法，该信息处理方法包括：基于噪声的生成源与收集由用户所生成的声音的声音收集单元之间的位置关系，来控制输出以引导用户的动作改变所生成的声音的声音收集特性，该动作不同于与声音收集单元的处理相关的操作。一种程序，用于使计算机实现：控制功能，用于基于噪声的生成源与收集由用户所生成的声音的声音收集单元之间的位置关系，来控制输出以引导用户的动作改变所生成的声音的声音收集特性，该动作不同于与声音收集单元的处理相关的操作。

Description

信息处理设备、信息处理方法和程序

技术领域

本公开涉及信息处理设备、信息处理方法和程序。

背景技术

近年来，分析输入声音等的声音处理技术的研究和开发已经取得进展。例如，已经开发了所谓的语音识别技术，其中接收由用户产生的语音作为输入语音，对输入语音执行语音识别，并且由此从输入语音识别字母串。

此外，已经开发了用于支持声音处理技术的技术。例如，专利文献1公开了一种帮助用户确定用于输入语音的语音识别模式已经开始的技术。

引用列表

专利文献

专利文献1：JP 2013-25605A

发明内容

技术问题

然而，在专利文献1中公开的相关技术中，存在由于噪声而可能无法获得输入语音的期望处理结果的可能性。例如，如果输入了与用户的语音混合的噪声，则可能无法获得正确的语音识别结果，因此很可能将执行与用户的意图不同的处理。

因此，本公开提出了容易地抑制噪声输入的机制。

问题的解决方案

根据本公开，提供了一种信息处理设备，包括：控制单元，该控制单元被配置为基于噪声的生成源与收集用户所生成的声音的声音收集单元之间的位置关系，来控制输出以引导用户的动作改变所生成的声音的声音收集特性，该动作不同于与声音收集单元的处理相关的操作。

另外，根据本公开，提供了一种由处理器执行的信息处理方法，该信息处理方法包括：基于噪声的生成源与收集用户所生成的声音的声音收集单元之间的位置关系，来控制输出以引导用户的动作改变所生成的声音的声音收集特性，该动作不同于与声音收集单元的处理相关的操作。

另外，根据本公开，提供了一种用于使得计算机实现以下控制功能的程序：基于噪声的生成源与收集用户所生成的声音的声音收集单元之间的位置关系，来控制输出以引导用户的动作改变所生成的声音的声音收集特性，该动作不同于与声音收集单元的处理相关的操作。

本发明的有益效果

根据上述的本公开，提供了一种能够容易地抑制噪声输入的机制。注意，上述效果不一定是限制性的。利用或取代上述效果，可以实现本说明书中描述的效果或可以从该说明书掌握的其他效果中的任何一种效果。

附图说明

[图1]图1是用于描述根据本公开的第一实施例的信息处理***的示意性配置示例的图。

[图2]图2是示出根据实施例的信息处理设备的示意性物理配置示例的框图。

[图3]图3是示出根据实施例的显示/声音收集设备的示意性物理配置示例的框图。

[图4]图4是示出根据实施例的信息处理***的每个设备的示意功能配置示例的框图。

[图5A]图5A是用于描述根据实施例的语音输入适合性确定处理的图。

[图5B]图5B是用于描述根据实施例的语音输入适合性确定处理的图。

[图6]图6是示出根据实施例的语音输入的适合性的确定模式的示例的图。

[图7A]图7A是示出存在多个噪声源的情况的示例的图。

[图7B]图7B是用于描述根据关于多个噪声源的声源方向信息来判定指示一个方向的声源方向信息的处理的图。

[图8]图8是示出用于基于噪声的声压来确定语音输入的适合性的模式的示例的图。

[图9]图9是示出根据实施例的信息处理设备的整体处理的概念的流程图。

[图10]图10是示出根据实施例的信息处理设备的方向确定值计算处理的概念的流程图。

[图11]图11是示出根据实施例的信息处理设备对多条声源方向信息进行求和处理的概念的流程图。

[图12]图12是示出根据实施例的信息处理设备进行的声压确定值的计算处理的概念的流程图。

[图13]图13是在可以进行语音输入的情况下的信息处理***的处理示例的说明图。

[图14]图14是在可以进行语音输入的情况下的信息处理***的处理示例的说明图。

[图15]图15是在可以进行语音输入的情况下的信息处理***的处理示例的说明图。

[图16]图16是在可以进行语音输入的情况下的信息处理***的处理示例的说明图。

[图17]图17是在可以进行语音输入的情况下的信息处理***的处理示例的说明图。

[图18]图18是在语音输入困难的情况下的信息处理***的处理示例的说明图。

[图19]图19是在语音输入困难的情况下的信息处理***的处理示例的说明图。

[图20]图20是在语音输入困难的情况下的信息处理***的处理示例的说明图。

[图21]图21是在语音输入困难的情况下的信息处理***的处理示例的说明图。

[图22]图22是在语音输入困难的情况下的信息处理***的处理示例的说明图。

[图23]图23是用于描述根据实施例的修改示例的信息处理***的处理示例的图。

[图24]图24是用于描述根据本公开的第二实施例的信息处理***的示意性配置示例的图。

[图25]图25是示出根据实施例的信息处理***的每个设备的示意功能配置示例的框图。

[图26]图26是用于描述根据实施例的语音输入适合性确定处理的图。

[图27]图27是示出根据实施例的语音输入的适合性的确定模式的示例的图。

[图28]图28是示出根据实施例的信息处理设备的整体处理的概念的流程图。

[图29]图29是示出根据实施例的信息处理设备的方向确定值计算处理的概念的流程图。

[图30]图30是示出根据实施例的信息处理设备的控制量判定处理的概念的流程图。

[图31]图31是用于描述根据实施例的信息处理***的处理示例的图。

[图32]图32是用于描述根据实施例的信息处理***的处理示例的图。

[图33]图33是用于描述根据实施例的信息处理***的处理示例的图。

[图34]图34是用于描述根据实施例的信息处理***的处理示例的图。

[图35]图35是用于描述根据实施例的信息处理***的处理示例的图。

具体实施方式

在下文中，将参考附图详细描述本公开的(一个或多个)优选实施例。注意，在本说明书和附图中，具有基本相同的功能和结构的结构元件用相同的附图标记表示，并且省略了对这些结构元件的重复说明。

此外，在本说明书和附图中，还存在这样的情况，其中通过对相同的附图标记的末尾添加不同的数字来区分具有基本相同的功能和结构的多个组件。例如，如噪声源10A和噪声源10B那样，根据需要区分具有基本相同的功能的多个组件。然而，在不需要区分具有基本相同的功能和结构的组件的情况下，仅添加相同的附图标记。例如，在不需要特别区分噪声源10A和噪声源10B的情况下，它们被简称为“噪声源10”。

注意，描述将按以下顺序提供。

1.第一实施例(引导用户避免噪声)

1-1.***配置

1-2.设备的配置

1-3.设备的处理

1-4.处理示例

1-5.第一实施例的概述

1-6.经修改的示例

2.第二实施例(针对高度敏感的声音收集，对声音收集单元的控制和对用户的引导)

2-1.***配置

2-2.设备的配置

2-3.设备的处理

2-4.处理示例

2-5.第二实施例的概述

3.应用示例

4.结论

<1.第一实施例(引导用户避免噪声)>

首先，将描述本公开的第一实施例。在第一实施例中，出于减少噪声被输入的可能性的目的而引导用户的动作。

<1-1.***配置>

将参考图1描述根据本公开的第一实施例的信息处理***的配置。图1是用于描述根据本实施例的信息处理***的示意性配置示例的图。

如图1所示，根据本实施例的信息处理***包括信息处理设备100-1、显示/声音收集设备200-1和声音处理设备300-1。注意，为了便于描述，根据第一和第二实施例的信息处理设备100将通过将对应于实施例的编号附加到名称的末尾来彼此区分，如同信息处理设备100-1和信息处理设备100-2。这同样适用于其他设备。

信息处理设备100-1通过通信连接到显示/声音收集设备200-1和声音处理设备300-1。信息处理设备100-1通过通信控制显示/声音收集设备200-1的显示。另外，信息处理设备100-1通过通信使声音处理设备300-1处理从显示/声音收集设备200-1获得的声音信息，并且控制显示/声音收集设备200-1的显示或者基于处理结果进行与显示有关的处理。与显示有关的处理可以是例如游戏应用的处理。

显示/声音收集设备200-1被用户佩戴，并且执行图像显示和声音收集。显示/声音收集设备200-1将从声音收集获得的声音信息提供给信息处理设备100-1，并且基于从信息处理设备100-1获得的图像信息来显示图像。显示/声音收集设备200-1例如是如图1所示的头戴式显示器(HMD)，并且包括位于佩戴显示/声音收集设备200-1的用户的嘴部处的麦克风。注意，显示/声音收集设备200-1可以是平视显示器(HUD)。另外，麦克风可以作为独立于显示/声音收集设备200-1的独立设备来提供。

声音处理设备300-1基于声音信息进行与声源方向、声压和声音识别有关的处理。声音处理设备300-1基于从信息处理设备100-1提供的声音信息来执行上述处理，并将处理结果提供给信息处理设备100-1。

在这种情况下，存在这样的情况：其中，当收集声音时，也会收集与期望声音不同的声音，即噪声。收集噪声的一个原因在于：由于难以预测噪声生成时间、生成噪声的地方、噪声生成的频率等，因此难以避免噪声。为了解决这个问题，可以想到在之后消除输入噪声。然而，由于要单独添加噪声消除处理，所以担心处理负荷和成本增加。另外，作为另一种方法，可以想到降低噪声被输入的可能性。例如，例示了已经注意到噪声的用户使麦克风远离噪声源的动作。然而，在用户佩戴着耳机等的情况下，用户不可能注意到噪声。即使用户已经注意到噪声，也很难准确找到噪声源。另外，即使用户已经注意到噪声，用户也很难确定噪声是否将被麦克风收集。此外，存在很难期望用户执行适当的动作以防止输入噪声的情况。例如，用户难以适当地确定为了避免噪声而期望的脸部的方向、覆盖麦克风的方式等。

因此，本公开的第一实施例提出了一种能够容易地抑制噪声输入的信息处理***。以下将详细描述作为根据第一实施例的信息处理***的组成元件的各个设备。

注意，尽管上面已经描述了信息处理***包括三个设备的示例，但是信息处理设备100-1和声音处理设备300-1可以在一个设备中实现，并且信息处理设备100-1、显示/声音收集设备200-1和声音处理设备300-1可以在一个设备中实现。

<1-2.设备配置>

接下来，将描述根据本实施例的信息处理***中包括的各个设备的配置。

首先，将参考图2和图3描述各个设备的物理配置。图2是示出根据本实施例的信息处理设备100-1的示意性物理配置示例的框图，并且图3是示出根据本实施例的显示/声音收集设备200-1的示意性物理配置示例的框图。

(信息处理设备的物理配置)

如图2所示，信息处理设备100-1包括处理器102、存储器104、网桥106、总线108、输入接口110、输出接口112、连接端口114和通信接口116。注意，由于声音处理设备300-1的物理配置与信息处理设备100-1的物理配置基本相同，因此下面将一起描述配置。

(处理器)

处理器102用作算术处理设备，并且是与各种程序协作实现下面将描述的实现信息处理设备100-1中包括的虚拟现实(VR)处理单元122、语音输入适合性确定单元124和输出控制单元126(在声音处理设备300-1的情况下，为声源方向估计单元322、声压估计单元324和语音识别处理单元326)的操作的控制模块。处理器102通过使用控制电路执行存储在存储器104或另一存储介质中的程序来使得将在下面描述的信息处理设备100-1的各种逻辑功能进行操作。处理器102可以是例如中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)或片上***(SoC)。

(存储器)

存储器104存储处理器102要使用的程序、算术参数等。存储器104例如包括随机存取存储器(RAM)，并临时存储要在处理器102的执行中使用的程序、在执行中适当改变的参数等。另外，存储器104包括只读存储器(ROM)，从而利用RAM和ROM实现信息处理设备100-1的存储单元。注意，外部存储设备可以经由连接端口、通信设备等用作存储器104的一部分。

注意，处理器102和存储器104通过由CPU总线等构成的内部总线彼此连接。

(网桥和总线)

网桥106连接总线。具体地，网桥106连接内部总线和总线108，内部总线连接处理器102和存储器104，总线108连接输入接口110、输出接口112、连接端口114和通信接口116。

(输入接口)

输入接口110由用户用来操作信息处理设备100-1或将信息输入到信息处理设备100-1。例如，输入接口110由例如用于用户输入信息的输入部分构成，诸如用于激活信息处理设备100-1的按钮、输入控制电路等，该输入控制电路基于用户的输入生成输入信号并将该信号输出到处理器102。注意，输入部分可以是鼠标、键盘、触摸面板、开关、控制杆等。通过操作输入接口110，信息处理设备100-1的用户可以向信息处理设备100-1输入各种数据或给出处理操作的指令。

(输出接口)

输出接口112用于向用户通知信息。输出接口112执行到例如诸如液晶显示(LCD)设备、有机发光二极管(OLED)设备、投影仪、扬声器或头戴式耳机之类的设备的输出。

(连接端口)

连接端口114是用于将装置直接连接到信息处理设备100-1的端口。连接端口114可以是例如通用串行总线(USB)端口、IEEE 1394端口、小型计算机***接口(SCSI)端口等。另外，连接端口114可以是RS-232C端口、光学音频端子、高清多媒体接口(HDMI，注册商标)端口等。通过将连接端口114连接到外部装置，可以在信息处理设备100-1和装置之间交换数据。

(通信接口)

通信接口116介入信息处理设备100-1与外部设备之间的通信，并且实现将在下面描述的通信单元120(在声音处理设备300-1的情况下，为通信单元320)的操作。通信接口116可以执行符合任意无线通信方案的无线通信，无线通信方案例如是诸如蓝牙(注册商标)、近场通信(NFC)、无线USB或TransferJet(注册商标)之类的短距离无线通信方案，诸如宽带码分多址(WCDMA，注册商标)、WiMAX(注册商标)、长期演进(LTE)或LTE-A之类的蜂窝通信方案，或者诸如Wi-Fi(注册商标)之类的无线局域网(LAN)。另外，通信接口116可以执行有线通信以使用电线执行通信。

(显示/声音收集设备的物理配置)

另外，显示/声音收集设备200-1包括处理器202、存储器204、网桥206、总线208、传感器模块210、输入接口212、输出接口214、连接端口216和通信接口218，如图3所示。

(处理器)

处理器202用作算术处理设备，并且是与各种程序协作实现下面将描述的显示/声音收集设备200-1中包括的控制单元222的操作的控制模块。处理器202通过使用控制电路执行存储在存储器204或另一存储介质中的程序来使得显示/声音收集设备200-1操作将在下面描述的各种逻辑功能。处理器202可以是例如CPU、GPU、DSP或SoC。

(存储器)

存储器204存储处理器202要使用的程序、算术参数等。存储器204例如包括RAM，并且临时存储要在处理器202的执行中使用的程序、在执行中适当改变的参数等等。另外，存储器204包括ROM，从而利用RAM和ROM实现显示/声音收集设备200-1的存储单元。注意，外部存储设备可以经由连接端口、通信设备等被用作存储器204的一部分。

注意，处理器202和存储器204通过由CPU总线等构成的内部总线彼此连接。

(网桥和总线)

网桥206连接总线。具体地，网桥206连接内部总线和总线208，内部总线连接处理器202和存储器204，总线208连接传感器模块210、输入接口212、输出接口214、连接端口216和通信接口218。

(传感器模块)

传感器模块210对显示/声音收集设备200-1及其周边进行测量。具体地，传感器模块210包括声音收集传感器和惯性传感器，并且从根据这些传感器获得的信号生成传感器信息。因此，实现了将在下面描述的声音收集单元224和脸部方向检测单元226的操作。声音收集传感器例如是从中获得可以检测声源的声音信息的麦克风阵列。注意，可以分开包括麦克风阵列以外的普通麦克风。以下，麦克风阵列和普通麦克风也将统称为麦克风。另外，惯性传感器是加速度传感器或角速度传感器。除了这些传感器之外，可以包括诸如地磁传感器、深度传感器、温度传感器、气压传感器和生物传感器之类的其他传感器。

(输入接口)

输入接口212由用户用来操作显示/声音收集设备200-1或将信息输入到显示/声音收集设备200-1。例如，输入接口212由例如用于用户输入信息的输入部分构成，诸如用于激活显示/声音收集设备200-1的按钮、输入控制电路等，该输入控制电路基于用户的输入生成输入信号并将该信号输出到处理器202。注意，输入部分可以是触摸面板、开关、控制杆等。通过操作输入接口212，显示/声音收集设备200-1的用户可以向显示/声音收集设备200-1输入各种数据或给出处理操作的指令。

(输出接口)

输出接口214用于向用户通知信息。输出接口214例如通过执行到诸如液晶显示(LCD)设备、OLED设备或投影仪之类的设备的输出来实现将在下面描述的显示单元228的操作。另外，输出接口214通过执行到诸如扬声器或头戴式耳机之类的设备的输出来实现将在下面描述的声音输出单元230的操作。

(连接端口)

连接端口216是用于将装置直接连接到显示/声音收集设备200-1的端口。连接端口216可以是例如USB端口、IEEE 1394端口、SCSI端口等。另外，连接端口216可以是RS-232C端口、光学音频端子、HDMI(注册商标)端口等。通过将连接端口216连接到外部装置，可以在显示/声音收集设备200-1与装置之间交换数据。

(通信接口)

通信接口218介入显示/声音收集设备200-1与外部设备之间的通信，并且实现将在下面描述的通信单元220的操作。通信接口218可以执行符合任意无线通信方案的无线通信，无线通信方案例如是诸如蓝牙(注册商标)、NFC、无线USB或TransferJet(注册商标)之类的短距离无线通信方案，诸如WCDMA(注册商标)、WiMAX(注册商标)、LTE或LTE-A之类的蜂窝通信方案，或者诸如Wi-Fi(注册商标)之类的无线LAN。另外，通信接口218可以执行有线通信以使用电线执行通信。

注意，信息处理设备100-1、声音处理设备300-1和显示/声音收集设备200-1可以不具有图2和图3中描述的一些配置，或可以具有额外的配置。此外，可以提供单芯片信息处理模块，其中图2中所描述的全部或部分配置可以被集成。

接下来，将参考图4描述根据本实施例的信息处理***的每个设备的逻辑配置。图4是示出根据本实施例的信息处理***的每个设备的示意性功能配置示例的框图。

(信息处理设备的逻辑配置)

如图4所示，信息处理设备100-1包括通信单元120、VR处理单元122、语音输入适合性确定单元124和输出控制单元126。

(通信单元)

通信单元120与显示/声音收集设备200-1和声音处理设备300-1进行通信。具体地，通信单元120从显示/声音收集设备200-1接收收集的声音信息和脸部方向信息，并将图像信息和输出声音信息发送到显示/声音收集设备200-1。另外，通信单元120将收集的声音信息发送到声音处理设备300-1，并且从声音处理设备300-1接收声音处理结果。通信单元120使用无线通信方案(例如，蓝牙(注册商标)或Wi-Fi(注册商标))与显示/声音收集设备200-1进行通信。另外，通信单元120使用有线通信方案与声音处理设备300-1进行通信。注意，通信单元120可以使用有线通信方案与显示/声音收集设备200-1进行通信，并且使用无线通信方案与声音处理设备300-1进行通信。

(VR处理单元)

VR处理单元122根据用户的模式执行关于虚拟空间的处理。具体地，VR处理单元122根据用户的动作或姿态来判定要显示的虚拟空间。例如，VR处理单元122基于指示用户的脸部的朝向的信息(脸部方向信息)来判定要显示的虚拟空间的坐标。另外，可以基于用户的讲话来判定要显示的虚拟空间。

注意，VR处理单元122可以控制使用游戏应用的声音收集结果等的处理。具体地，在执行使用声音收集结果的处理期间存在引导用户的动作的输出的情况下，VR处理单元122用作控制单元的一部分并且停止处理的至少一部分。更具体地，VR处理单元122停止使用声音收集结果的所有处理。例如，VR处理单元122在引导用户的动作的输出被执行的同时使游戏应用的处理停止进行。注意，输出控制单元126可以使得显示/声音收集设备200-1显示在执行输出之前正在显示的图像。

另外，VR处理单元122可以在使用声音收集结果的处理中仅停止使用用户的脸部的朝向的处理。例如，VR处理单元122在引导用户的动作的输出被执行的同时在游戏应用的处理中停止根据用户的脸部的朝向来控制显示图像的处理，并且允许其他处理继续。注意，游戏应用可以自己确定停止处理，而不是由VR处理单元122确定停止处理。

(语音输入适合性确定单元)

语音输入适合性确定单元124用作控制单元的一部分，并且基于噪声生成源(其也将被称为噪声源)与收集由用户生成的声音的显示/声音收集设备200-1之间的位置关系来确定语音输入的适合性。具体地，语音输入适合性确定单元124基于位置关系和脸部方向信息来确定语音输入的适合性。此外，将参考图5A和图5B详细描述根据本实施例的语音输入适合性确定处理。图5A和图5B是用于描述根据本实施例的语音输入适合性确定处理的图，并且图6是示出根据本实施例的用于确定语音输入的适合性的模式的示例的图。

例如，可以想到在显示/声音收集设备200-1的周边存在噪声源10的情况，如图5A所示。在这种情况下，首先，将从显示/声音收集设备200-1获得的收集到的声音信息提供给声音处理设备300-1，并且语音输入适合性确定单元124获取指示通过声音处理设备300-1的处理从声音处理设备300-1获得的声源方向的信息(以下也称为声源方向信息)。例如，语音输入适合性确定单元124经由通信单元120从声音处理设备300-1获取如图5B所示的指示从佩戴显示/声音收集设备200-1的用户到噪声源10的声源方向D1的声源方向信息(以下也称为FaceToNoiseVec)。

另外，语音输入适合性确定单元124从显示/声音收集设备200-1获取脸部方向信息。例如，语音输入适合性确定单元124通过通信从显示/声音收集设备200-1获取如图5B所示的指示佩戴显示/声音收集设备200-1的用户的脸部的朝向D3的脸部方向信息。

接下来，语音输入适合性确定单元124基于关于噪声源与显示/声音收集设备200-1之间的方向和用户的脸部的朝向之间的差异的信息来确定语音输入的适合性。具体地，语音输入适合性确定单元124使用关于所获取的噪声源的声源方向信息和脸部方向信息，来计算由声源方向信息所指示的方向与脸部方向信息所指示的方向所形成的角度。然后，语音输入适合性确定单元124根据计算出的角度确定方向确定值作为语音输入的适合性。例如，语音输入适合性确定单元124计算作为具有与获取的FaceToNoiseVec的方向相反的方向的声源方向信息的NoiseToFaceVec，然后计算由NoiseToFaceVec所指示的方向(即，从噪声源到用户的方向)与由脸部方向信息所指示的方向形成的角度α。然后，语音输入适合性确定单元124将根据用所计算的角度α作为输入的余弦函数的输出值确定作为方向确定值的值，如图6所示。方向确定值被设置为例如语音输入的适合性随着角度α变小而提高的值。

注意，除了角度之外，差异可以是方向或基本方向的组合，并且在这种情况下，方向确定值可以根据组合来设置。另外，尽管上面已经描述了使用NoiseToFaceVec的示例，但是可以使用具有与NoiseToFaceVec相反的方向的FaceToNoiseVec而不用改变。另外，虽然已经描述了当从上方观看用户时声源方向信息、脸部方向信息等的方向是在水平面上的方向的示例，但是方向可以是相对于水平面的垂直平面上的方向或三维空间中的方向。此外，方向确定值可以是图6所示的五个等级的值，或者可以是具有更精细的等级的值或具有更粗糙的等级的值。

另外，在存在多个噪声源的情况下，可以基于多条声源方向信息来执行语音输入适合性确定。具体地，语音输入适合性确定单元124根据基于多条声源方向信息获得的单个方向与由脸部方向信息指示的方向形成的角度来确定方向确定值。此外，将参考图7A和图7B描述在存在多个噪声源的情况下的语音输入适合性确定处理。图7A是示出存在多个噪声源的情况的示例的图，并且图7B是用于描述根据关于多个噪声源的声源方向信息来判定指示一个方向的声源方向信息的处理的图。

例如，考虑如图7A所示的存在两个噪声源的情况。在这种情况下，首先，语音输入适合性确定单元124从语音处理设备300-1获取多条声源方向信息。例如，语音输入适合性确定单元124从声音处理设备300-1获取指示如图7A所示的从噪声源10A和10B到佩戴显示/声音收集设备200-1的用户的方向D4和D5中的每一个的声源方向信息。

接下来，语音输入适合性确定单元124使用所获取的多条声源方向信息来计算关于噪声源的声压的基础的单条声源方向信息。例如，如下面将描述的，语音输入适合性确定单元124从声音处理设备300-1获取声压信息连同声源方向信息。接下来，语音输入适合性确定单元124基于获取的声压信息来计算噪声源之间的声压比，例如，噪声源10A的声压与噪声源10B的声压的比。然后，语音输入适合性确定单元124基于所计算的声压比，使用方向D5作为单位矢量V2来计算方向D4的矢量V1，将矢量V1添加到矢量V2，从而获取矢量V3。

然后，语音输入适合性确定单元124使用计算出的单条声源方向信息来确定上述方向确定值。例如，基于由指示计算出的矢量V3的方向的声源方向信息与脸部方向信息所形成的角度来确定方向确定值。注意，尽管已经描述了执行矢量计算的示例，但是方向确定值可以使用其他处理来确定。

上面已经描述了基于噪声源的方向确定语音输入的适合性的功能。此外，语音输入适合性确定单元124基于噪声源的声压来确定语音输入的适合性。具体地，语音输入适合性确定单元124根据收集到的噪声的声压级是否高于或等于确定阈值来确定语音输入的适合性。此外，将参考图8详细描述基于噪声的声压的语音输入适合性确定处理。图8是示出基于噪声的声压确定语音输入适合性的模式的示例的图。

首先，语音输入适合性确定单元124获取关于噪声源的声压信息。例如，语音输入适合性确定单元124经由通信单元120从声音处理设备300-1获取声压信息以及声源方向信息。

接下来，语音输入适合性确定单元124基于获取的声压信息来确定声压确定值。例如，语音输入适合性确定单元124确定与由获取的声压信息指示的声压级相对应的声压确定值。在图8的示例中，在声压级大于或等于0且小于60dB的情况下，即在人们感觉到相对安静的声音的情况下，声压确定值是1，并且在声压级大于或等于60且小于120dB的情况下，即在人们感觉到比较大的声音的情况下，声压确定值是0。注意，声压确定值不限于图8的示例，并且可以是具有更精细的等级的值。

(输出控制单元)

输出控制单元126用作控制单元的一部分，并且基于语音输入适合性确定结果来控制输出以引导用户的动作改变声音收集特性。具体地，输出控制单元126控制用于引导用户的脸部的朝向的改变的视觉呈现。更具体地，输出控制单元126根据从语音输入适合性确定单元124的确定获得的方向确定值判定指示用户的脸部的他或她应该改变的朝向和该改变的程度的显示对象(其在下面也将被称为脸部方向引导对象)。例如，在方向确定值较低的情况下，输出控制单元126判定引导用户的脸部的朝向的改变以使得方向确定值增加的脸部方向引导对象。注意，用户的动作是与显示/声音收集设备200-1的处理操作不同的操作。例如，与改变输入声音的声音收集特性的处理有关的操作(例如，关于显示/声音收集设备200-1的用于控制改变显示/声音收集设备200-1的输入音量的处理的输入操作)不包括在用户的动作中。

另外，输出控制单元126参考由引导的动作产生的用户的模式来控制与用户的模式的评估有关的输出。具体地，输出控制单元126基于由用户执行的引导的动作产生的用户的模式和用户的当前模式之间的偏差来判定指示用户的模式的评估的显示对象(其在下面也将被称为评估对象)。例如，输出控制单元126随着偏差进一步减小而判定指示语音输入的适合性正在提高的显示对象。

此外，输出控制单元126可以控制与收集到的噪声有关的输出。具体地，输出控制单元126控制输出以通知收集到的噪声的可到达区域。更具体地，输出控制单元126判定用于向用户通知从噪声源发出并到达用户的噪声之外的具有高于或等于预定阈值的声压级的噪声区域(其在下面也将被称为噪声可到达区域)的显示对象(其在下面也将被称为噪声可到达区域对象)。噪声可到达区域例如是如图5B所示的W1。另外，输出控制单元126控制输出以通知收集到的噪声的声压。更具体地，输出控制单元126根据噪声可到达区域中的声压判定噪声可到达区域对象的模式。例如，根据声压的噪声可到达区域对象的模式是噪声可到达区域对象的厚度。注意，输出控制单元126可以根据声压来控制噪声可到达区域对象的色调、饱和度、亮度、图案的粒度等。

另外，输出控制单元126可以控制语音输入的适合性的呈现。具体地，输出控制单元126基于用户的脸部的朝向或噪声的声压级来控制用于收集由用户生成的声音(语音)的适用性的通知。更具体地，输出控制单元126基于方向确定值或声压确定值来判定指示语音输入的适合性的显示对象(以下也将被称为语音输入适合性对象)。例如，在声压确定值为0的情况下，输出控制单元126判定指示语音输入不合适或者语音输入困难的语音输入适合性对象。另外，在方向确定值等于或小于阈值的情况下(即使声压确定值为1)，可以显示指示语音输入困难的语音输入适合性对象。

上面已经描述了控制引导用户的动作的输出的细节的功能。此外，输出控制单元126基于关于声音收集结果的信息来控制是否执行输出以引导用户的动作。具体地，输出控制单元126基于使用声音收集结果的处理的开始信息来控制是否执行引导用户的动作的输出。作为使用声音收集结果的处理，例示了例如计算机游戏、语音搜索、语音命令、语音到文本输入、语音代理、语音聊天、电话呼叫、通过语音的翻译等的处理。当接收到处理开始的通知时，输出控制单元126开始与引导用户的动作的输出有关的处理。

另外，输出控制单元126可以基于收集到的噪声的声压信息来控制是否执行引导用户的动作的输出。例如，在噪声的声压级小于下限阈值的情况下，即，在噪声对语音输入影响很小的情况下，输出控制单元126不执行引导用户的动作的输出。注意，输出控制单元126可以基于方向确定值来控制是否执行引导用户的动作的输出。例如，在方向确定值高于或等于阈值的情况下，即，在噪声的影响处于容许范围内的情况下，输出控制单元126可以不执行引导用户的动作的输出。

注意，输出控制单元126可以基于用户操作来控制是否执行用于引导的输出。例如，输出控制单元126基于用户输入的语音输入设置操作开始与引导用户的动作的输出相关的处理。

(显示/声音收集设备的逻辑配置)

显示/声音收集设备200-1包括通信单元220、控制单元222、声音收集单元224、脸部方向检测单元226、显示单元228和声音输出单元230，如图4所示。

(通信单元)

通信单元220与信息处理设备100-1进行通信。具体地，通信单元220将收集到的声音信息和脸部方向信息传送到信息处理设备100-1，并从信息处理设备100-1接收图像信息并输出声音信息。

(控制单元)

控制单元222整体上控制显示/声音收集设备200-1。具体地，控制单元222通过设置其操作参数等来控制声音收集单元224、脸部方向检测单元226、显示单元228和声音输出单元230的功能。另外，控制单元222使得显示单元228基于经由通信单元220获取的图像信息显示图像，并且使得声音输出单元230基于所获取的输出声音信息来输出声音。注意，控制单元222可以生成关于从声音收集单元224和脸部方向检测单元226(而不是声音收集单元224和脸部方向检测单元226)获得的信息的基础的收集的声音信息和脸部方向信息。

(声音收集单元)

声音收集单元224收集显示/声音收集设备200-1周围的声音。具体地，声音收集单元224收集在显示/声音收集设备200-1的周围生成的噪声和佩戴显示/声音收集设备200-1的用户的语音。另外，声音收集单元224生成收集到的声音的收集声音信息。

(脸部方向检测单元)

脸部方向检测单元226检测佩戴显示/声音收集设备200-1的用户的脸部的朝向。具体地，脸部方向检测单元226检测显示/声音收集设备200-1的姿态，从而检测佩戴显示/声音收集设备200-1的用户的脸部的朝向。另外，脸部方向检测单元226生成指示检测到的用户的脸部的朝向的脸部方向信息。

(显示单元)

显示单元228基于图像信息显示图像。具体地，显示单元228基于由控制单元222提供的图像信息来显示图像。注意，显示单元228显示上面描述的每个显示对象被叠加的图像，或者通过显示图像在外部图像上叠加上述的每个显示对象。

(声音输出单元)

声音输出单元230基于输出的声音信息输出声音。具体地，声音输出单元230基于由控制单元222提供的输出声音信息来输出声音。

(声音处理设备的逻辑配置)

声音处理设备300-1包括如图4示的通信单元320、声源方向估计单元322、声压估计单元324和语音识别处理单元326。

(通信单元)

通信单元320与信息处理设备100-1进行通信。具体地，通信单元320从信息处理设备100-1接收收集到的声音信息，并且将声源方向信息和声压信息发送到信息处理设备100-1。

(声源方向估计单元)

声源方向估计单元322生成关于所收集的声音信息的基础的声源方向信息。具体地，声源方向估计单元322基于收集的声音信息来估计从声音收集位置到声源的方向，并生成指示估计方向的声源方向信息。注意，虽然假定基于从麦克风阵列获得的收集的声音信息的现有声源估计技术被用于估计声源方向，但是技术不限于此，并且可以使用各种技术中的任何技术，只要使用该技术可以估计声源方向即可。

(声压估计单元)

声压估计单元324生成关于所收集的声音信息的基础的声压信息。具体地，声压估计单元324基于收集的声音信息来估计声音收集位置处的声压级，并生成指示估计的声压级的声压信息。注意，现有的声压估计技术用于估计声压级。

(语音识别处理单元)

语音识别处理单元326基于所收集的声音信息来执行语音识别处理。具体地，语音识别处理单元326基于收集的声音信息识别语音，然后生成识别的语音的文本信息或识别作为识别的语音的语音源的用户。注意，现有的语音识别技术用于语音识别处理。另外，生成的文本信息或用户识别信息可以经由通信单元320被提供给信息处理设备100-1。

<1-3.设备的处理>

接下来，将描述在信息处理***的组成元件之中执行主处理的信息处理设备100-1的处理。

(整体处理)

首先，将参考图9描述根据本实施例的信息处理设备100-1的整体处理。图9是示出根据本实施例的信息处理设备100-1的整体处理的概念的流程图。

信息处理设备100-1确定周围声音检测模式是否开启(步骤S502)。具体地，输出控制单元126确定用于检测显示/声音收集设备200-1周围的声音的模式是否开启。注意，周围声音检测模式可以在信息处理设备100-1正在激活时或者基于用户操作或特定处理的开始始终开启。另外，可以基于关键字的语音将周围声音检测模式设置为开启。例如，用于仅检测关键字的检测器可以被包括在显示/声音收集设备200-1中，并且显示/声音收集设备200-1可以通知信息处理设备100-1关键字已经被检测到的事实。在这种情况下，由于检测器的功耗在大多数情况下小于声音收集单元的功耗，所以可以降低功耗。

当周围声音检测模式被确定为开启时，信息处理设备100-1获取关于周围声音的信息(步骤S504)。具体地，在周围声音检测模式开启的情况下，通信单元120通过通信从显示/声音收集设备200-1获取收集到的声音信息。

接下来，信息处理设备100-1确定语音输入模式是否开启(步骤S506)。具体地，输出控制单元126确定使用显示/声音收集设备200-1的语音输入模式是否开启。注意，语音输入模式可以在信息处理设备100-1正在激活时或者基于用户操作或特定处理的开始始终开启，如周围声音检测模式。

当确定语音输入模式开启时，信息处理设备100-1获取脸部方向信息(步骤S508)。具体地，在语音输入模式开启的情况下，语音输入适合性确定单元124经由通信单元120从显示/声音收集设备200-1获取脸部方向信息。

接下来，信息处理设备100-1计算方向确定值(步骤S510)。具体地，语音输入适合性确定单元124基于脸部方向信息和声源方向信息来计算方向确定值。其细节将在下面描述。

接下来，信息处理设备100-1计算声压确定值(步骤S512)。具体地，语音输入适合性确定单元124基于声压信息来计算声压确定值。其细节将在下面描述。

接下来，信息处理设备100-1停止游戏处理(步骤S514)。具体地，VR处理单元122根据是否使用输出控制单元126执行引导用户的动作的输出来停止游戏应用的处理的至少一部分。

接下来，信息处理设备100-1生成图像信息并将图像信息通知给显示/声音收集设备200-1(步骤S516)。具体地，输出控制单元126根据方向确定值和声压确定值来判定用于引导用户的动作的图像，并经由通信单元120向显示/声音收集设备200-1通知关于所判定的图像的图像信息。

(方向确定值计算处理)

接下来，将参考图10描述方向确定值计算处理。图10是示出根据本实施例的信息处理设备100-1的方向确定值计算处理的概念的流程图。

信息处理设备100-1确定声压级是否高于或等于确定阈值(步骤S602)。具体地，语音输入适合性确定单元124确定从声音处理设备300-1获取的声压信息所指示的声压级是否高于或等于确定阈值。

如果声压级高于或等于阈值，则信息处理设备100-1计算关于从周围声源到用户的脸部的方向的声源方向信息(步骤S604)。具体地，语音输入适合性确定单元124使用从声音处理设备300-1获取的FaceToNoiseVec来计算NoiseToFaceVec。

接下来，信息处理设备100-1确定是否存在多条声源方向信息(步骤S606)。具体地，语音输入适合性确定单元124确定是否存在多个计算出的NoiseToFaceVecs。

如果确定存在多条声源方向信息，则信息处理设备100-1将多条声源方向信息相加(步骤S608)。具体地，如果确定存在多个计算出的NoiseToFaceVecs，则语音输入适合性确定单元124将多个NoiseToFaceVecs相加。其细节将在下面描述。

接下来，信息处理设备100-1使用由声源方向信息指示的方向和脸部的朝向来计算角度α(步骤S610)。具体地，语音输入适合性确定单元124计算由NoiseToFaceVec指示的方向和由脸部方向信息指示的脸部的朝向形成的角度α。

接下来，信息处理设备100-1确定用角度α作为输入的余弦函数的输出结果(步骤S612)。具体地，语音输入适合性确定单元124根据cos(α)的值来确定方向确定值。

在余弦函数的输出结果是1的情况下，信息处理设备100-1将方向确定值设置为5(步骤S614)。在余弦函数的输出结果不是1而是大于0的情况下，信息处理设备100-1将方向确定值设置为4(步骤S616)。在余弦函数的输出结果是0的情况下，信息处理设备100-1将方向确定值设置为3(步骤S618)。在余弦函数的输出结果小于0并且不是-1的情况下，信息处理设备100-1将方向确定值设置为2(步骤S620)。在余弦函数的输出结果是-1的情况下，信息处理设备100-1将方向确定值设置为1(步骤S622)。

注意，在步骤S602中声压级小于下限阈值的情况下，信息处理设备100-1将方向确定值设置为不可用(N/A)(步骤S624)。

(添加多条声源方向信息的处理)

接下来，将参考图11描述方向确定值计算处理中的多条声源方向信息的求和处理。图11是示出根据本实施例的信息处理设备100-1对多条声源方向信息进行求和处理的概念的流程图。

信息处理设备100-1选择一条声源方向信息(步骤S702)。具体地，语音输入适合性确定单元124选择多条声源方向信息中的一个，即NoiseToFaceVecs中的一个。

接下来，信息处理设备100-1确定是否存在未计算的声源方向信息(步骤S704)。具体地，语音输入适合性确定单元124确定是否存在未经历矢量添加处理的NoiseToFaceVec。注意，在没有未处理矢量相加的NoiseToFaceVec的情况下，处理结束。

如果确定存在未计算的声源方向信息，则信息处理设备100-1从未计算的声源方向信息中选择一个(步骤S706)。具体地，如果确定存在尚未执行矢量相加处理的NoiseToFaceVec，则语音输入适合性确定单元124选择一个与已经选择的声源方向信息不同的一个NoiseToFaceVec。

接下来，信息处理设备100-1计算所选择的两条声源方向信息的声压比(步骤S708)。具体地，语音输入适合性确定单元124计算所选择的两个NoiseToFaceVecs的声压级的比。

接下来，信息处理设备100-1使用声压比来添加声源方向信息的矢量(步骤S710)。具体地，语音输入适合性确定单元124基于所计算的声压级的比来改变与一个NoiseToFaceVec有关的矢量的大小，然后将两个NoiseToFaceVec的矢量加在一起。

(声压确定值的计算处理)

接下来，将参考图12描述声压确定值的计算处理。图12是示出根据本实施例的信息处理设备100-1进行的声压确定值的计算处理的概念的流程图。

信息处理设备100-1确定声压级是否小于确定阈值(步骤S802)。具体地，语音输入适合性确定单元124确定从声音处理设备300-1获取的声压信息所指示的声压级是否小于确定阈值。

如果确定声压级小于确定阈值，则信息处理设备100-1将声压确定值设置为1(步骤S804)。另一方面，如果确定声压级高于或等于确定阈值，则信息处理设备100-1将声压确定值设置为0(步骤S806)。

<1-4.处理示例>

接下来，将在下面描述信息处理***的处理示例。

(可以进行语音输入的情况)

首先，将参考图13至图17描述在可以进行语音输入的情况下的信息处理***的处理示例。图13至图17是用于描述在可以进行语音输入的情况下的信息处理***的处理示例的图。

将参考图13首先描述用户直接面对噪声源10的状态，即图6的(1)的状态。首先，信息处理设备100-1基于VR处理生成游戏画面。接下来，在噪声的声压级高于或等于下限阈值的情况下，信息处理设备100-1在游戏画面上叠加引导用户的动作的输出，即，上述显示对象。例如，输出控制单元126在游戏画面上叠加类似人的头部的显示对象20、作为指示头部的旋转方向的箭头的脸部方向引导对象22、其显示根据用户的模式的评估而改变的评估对象24、以及指示可以到达用户(即，显示/声音收集设备200-1)的噪声区域的噪声可到达区域对象26。声压级高于或等于预定阈值的区域的大小由噪声可到达区域对象26的宽度W2表示，并且声压级由厚度P2表示。注意，图13的噪声源10实际并未显示。另外，输出控制单元126将其显示根据语音输入的适合性而改变的语音输入适合性对象28叠加在游戏画面上。

由于用户的头部的旋转被引导，使得他或她的脸部在图6的(1)的状态下直接面向后方，脸部方向引导对象22的箭头形成为比在其他状态下更长。另外，评估对象24A被表示为麦克风，并且在图6的状态当中受噪声影响最大，因此麦克风被表示为比在其他状态下更小。相应地，向用户呈现对用户的脸部的朝向的评估较低的事实。相应地，在图13的示例中，由于噪声的声压级小于确定阈值，即声压确定值是1，并且用户直接面对噪声源，即方向确定值是1，所以指示语音输入不适合的语音输入适合性对象28A叠加在其上。此外，输出控制单元126可以根据噪声的声压级将指示噪声对语音输入的适合性的影响的显示对象叠加在其上。例如，从噪声可到达区域对象26生成的朝向语音输入适合性对象28A延伸、并且在中途将其方向移出画面的虚线如图13所示叠加在游戏画面上。

接下来，将参考图14来描述用户顺时针稍微旋转他或她的头部的状态，即图6的(2)的状态。由于用户在(2)的状态下从(1)的状态顺时针稍微旋转他或她的头部，脸部方向引导对象的箭头形成为比在(1)的状态下更短。另外，由于评估对象24A比在(1)的状态下受噪声影响更小，所以麦克风被表示为比在(1)的状态下更大。此外，评估对象24A可以更靠近显示对象20。因此，向用户呈现已经改善了用户的脸部的朝向的评估的事实。然后，向用户通知用户的动作如预期的那样被引导，并且可以接收对他或她的动作的满意度的感测。另外，因为用户已经旋转了他或她的头部，所以噪声源相对于脸部的朝向的位置改变，并且在这种情况下，噪声可到达区域对象26沿与头部的旋转方向相反的方向移动。另外，在图14的示例中，由于声压确定值为1，并且方向确定值为2，所以叠加了指示语音输入不适合的语音输入适合性对象28A。

接下来，将参考图15来描述用户进一步顺时针旋转他或她的头部的状态，即图6的(3)的状态。由于用户在(3)的状态下从(2)的状态进一步顺时针旋转他或她的头部，因此脸部方向引导对象22的箭头形成为比在(2)的状态下更短。另外，因为噪声的影响比在(2)的状态下更小，所以麦克风被表示为比在(2)的状态下更大，并且叠加了进一步增加了强调效果的评估对象24B。强调效果可以是例如改变的色调、饱和度、或亮度、改变的图案、闪烁等。另外，由于用户从(2)的状态进一步旋转他或她的头部，噪声可到达区域对象26进一步沿与头部的旋转方向相反的方向移动。此外，由于在图15的示例中声压确定值为1，并且方向确定值为3，因此叠加了指示语音输入适合的语音输入适合性对象28B。

接下来，将参考图16来描述用户进一步顺时针旋转他或她的头部的状态，即图6的(4)的状态。由于用户在(4)的状态下从(3)的状态进一步顺时针旋转他或她的头部，因此脸部方向引导对象22的箭头形成为比在(3)的状态下更短。另外，由于噪声的影响比在(3)的状态下更小，所以麦克风被表示为比在(3)的状态下更大，并且叠加了增加了强调效果的评估对象24B。此外，由于用户从(3)的状态进一步旋转他或她的头部，所以噪声可到达区域对象26进一步沿与头部的旋转方向相反的方向移动。结果，噪声可到达区域对象26可以不叠加在游戏画面上，如图16所示。注意，即使在这样的情况下，可以根据噪声的声压级来叠加指示噪声对语音输入的适合性的影响的显示对象(虚线显示对象)。另外，由于在图16的示例中声压确定值是1，并且方向确定值是4，因此叠加了指示语音输入适合的语音输入适合性对象28B。

最后，将参考图17来描述用户的脸部面对与噪声源所面对的方向相反的方向的状态，即图6的(5)的状态。由于用户不需要在(5)的状态下进一步旋转他或她的头部，所以箭头的脸部方向引导对象22不被叠加。另外，由于用户的脸部的朝向随着被引导而改变，所以字符串对象“朝向可以”被叠加为指示脸部的朝向适合于声音输入的显示对象。此外，可以改变显示对象20的周围的模式。例如，可以改变显示对象20的周围的色调、亮度等。另外，叠加了增加了强调效果的评估对象24B。注意，由于噪声的影响比在(4)的状态下更小，所以麦克风可以被表示为比在(4)的状态下更大。此外，由于用户的头部比在(4)的状态下进一步旋转，所以噪声可到达区域对象26被进一步移动到与头部的旋转方向相反的方向。结果，噪声可到达区域对象不叠加在游戏画面上，如图17所示。另外，由于在图17的示例中声压确定值是1，并且方向确定值是5，因此叠加指示语音输入适合的语音输入适合性对象28B。此外，由于声压确定值和方向确定值都具有最高值，所以强调效果被添加到语音输入适合性对象28B。强调效果可以是例如显示对象的大小、色调、亮度或图案的改变，或者显示对象的周边的模式的改变。

(语音输入困难的情况)

接下来，将参考图18至图22来描述在语音输入困难的情况下的信息处理***的处理示例。图18至图22是用于描述在语音输入困难的情况下的信息处理***的处理示例的图。

首先，将参考图18首先描述用户直接面对噪声源10的状态，即图6的(1)的状态。在图6的(1)的状态下，叠加在游戏画面上的显示对象20、脸部方向引导对象22、评估对象24A和语音输入适合性对象28A基本上是参考图13描述的相同显示对象。由于噪声的声压级在图18的示例中比在图13的示例中更高，因此噪声可到达区域26的厚度增加。另外，由于噪声的声压水平高于或等于确定阈值，因此指示噪声对于语音输入的适合性的影响的虚线显示对象从噪声可到达区域26生成并且被叠加以便延伸朝向并到达语音输入适合性对象28A。

接下来，将参考图19来描述用户顺时针稍微旋转他或她的头部的状态，即图6的(2)的状态。在(2)的状态下，脸部方向引导对象22的箭头形成为比在(1)的状态下更短。另外，评估对象24A的麦克风被表示为比在(1)的状态下更大。此外，噪声可到达区域对象26沿着与头部的旋转方向相反的方向移动。另外，由于在图19的示例中声压确定值是0，叠加了指示语音输入不适合的语音输入适合性对象28A。

接下来，将参考图20来描述用户顺时针进一步旋转他或她的头部的状态，即图6的(3)的状态。在(3)的状态下，脸部方向引导对象22的箭头形成为比在(2)的状态下更短。另外，麦克风被表示为比在(2)的状态下更大，并且叠加了增加了强调效果的评估对象24B。此外，噪声可到达区域对象26进一步沿与头部的旋转方向相反的方向移动。另外，由于在图20的示例中声压确定值是0，因此叠加了指示语音输入不适合的语音输入适合性对象28A。此外，在不太可能改善语音输入的适合性的情况下，可以将强调效果添加到语音输入适合性对象28A。例如，可以增加语音输入适合性对象28A的大小，如图20所示，或者可以改变语音输入适合性对象28A的色调、饱和度、亮度、图案等。

接下来，将参考图21来描述用户进一步顺时针旋转他或她的头部的状态，即图6的(4)的状态。在(4)的状态下，脸部方向引导对象22的箭头形成为比在(3)的状态下更短。另外，麦克风被表示为比在(3)的状态下更大，并且叠加了增加了强调效果的评估对象24B。此外，噪声可到达区域对象26进一步沿与头部的旋转方向相反的方向移动。结果，噪声可到达区域对象可以不叠加在游戏画面上，如图21所示。注意，即使在这种情况下，可以根据噪声的声压级来叠加指示噪声对于语音输入的适合性的影响的显示对象(虚线显示对象)。另外，由于在图21的示例中声压确定值是0，因此叠加了具有指示语音输入不适合的强调效果的语音输入适合性对象28A。

最后，将参考图22来描述用户的脸部面对与噪声源所面对的方向相反的方向，即图6的(5)的状态。在(5)的状态下，不叠加脸部方向引导对象22的箭头。另外，字符串对象“朝向可以”被叠加为指示脸部的朝向适合于语音输入的显示对象。此外，显示对象20的周围的模式可以改变。另外，叠加了增加了强调效果的评估对象24B。此外，噪声可到达区域对象26进一步沿与头部的旋转方向相反的方向移动。结果，噪声可到达区域对象不叠加在游戏画面上，如图22所示。另外，由于在图22的示例中声压确定值是0，因此叠加了具有指示语音输入不适合的强调效果的语音输入适合性对象28B。

<1-5.第一实施例的总结>

根据上述本公开的第一实施例，信息处理设备100-1基于噪声生成源和收集用户生成的声音的声音收集单元之间的位置关系控制输出以引导用户的动作改变所生成的声音的声音收集特性，该操作不同于与声音收集单元的处理有关的操作。因此，通过引导用户改变噪声源与显示/声音收集设备200-1之间的位置关系的动作，使得声音收集特性得到改善，用户可以仅通过遵循引导就实现几乎不输入噪声和语音输入适合的情况。另外，由于用户执行动作因而几乎不输入噪声，因此可以不将用于避免噪声的单独配置添加到信息处理设备100-1或信息处理***。因此，考虑到可用性、成本和设施，可以容易地抑制噪声输入。

另外，由用户生成的声音包括语音，并且信息处理设备100-1基于用户的脸部的位置关系和朝向来控制用于引导的输出。在此，为了改善用户的语音的声音收集特性，期望在语音生成方向(包括产生语音的嘴部的脸部的朝向)提供声音收集单元224即麦克风。实际上，在大多数情况下，麦克风被提供为定位在用户的嘴部处。但是，如果在语音方向上存在噪声源，则容易输入噪声。关于该问题，根据本配置，可以提示用户执行动作以防止噪声源出现在用户的脸部的朝向上。因此，可以在改善声音收集特性的同时抑制噪声输入。

此外，信息处理设备100-1基于关于从生成源到声音收集单元的方向或从声音收集单元到生成源的方向与用户的脸部的朝向之间的差异的信息，控制用于引导的输出。因此，在输出控制处理中使用从佩戴麦克风的用户到噪声源的方向或从噪声源到用户的方向，并且可以引导用户应该执行的更精确的动作。因此，可以更有效地抑制噪声输入。

另外，差异包括从生成源到声音收集单元的方向或从声音收集单元到生成源的方向与用户的脸部的朝向所形成的角度。因此，通过在输出控制处理中使用角度信息，可以提高输出控制的准确度或精度。此外，通过使用现有的角度计算技术来执行输出控制处理，可以降低设备开发的成本并且可以防止处理的复杂化。

另外，用户的动作包括用户的脸部的朝向的改变。因此，通过改变包括产生语音的嘴部的脸部的朝向，可以比其他动作更有效和容易地抑制噪声输入。注意，只要在其中包括对脸部的朝向的引导，就可以引导身体的朝向或运动。

此外，用于引导的输出包括与以由引导的动作引起的用户模式为基准的用户的模式的评估有关的输出。因此，用户可以确定他或她的动作是否已经按所引导的被执行。因此，基于引导的用户动作容易执行，并且因此可以更可靠地抑制噪声输入。

另外，用于引导的输出包括与由声音收集单元收集的噪声有关的输出。因此，通过向用户呈现关于不可见噪声的信息，用户可以确定噪声或噪声源。因此，用户可以直观地理解防止输入噪声的动作。

此外，与噪声有关的输出包括用于通知由声音收集单元收集的噪声的可到达区域的输出。因此，用户可以直观地理解用户应该执行什么动作以防止噪声到达用户。因此，用户可以更容易地执行抑制噪声输入的动作。

另外，与噪声有关的输出包括用于通知由声音收集单元收集的噪声的声压的输出。因此，用户可以确定噪声的声压级。因此，由于用户理解输入噪声的可能性，因此可以激励用户执行动作。

此外，用于引导的输出包括对用户的视觉呈现。在这里，视觉信息传递需要比通常使用其他感觉的信息呈现更大量的信息。因此，用户可以容易地理解动作的引导，并且因此可以平稳地引导动作。

另外，对用户的视觉呈现包括在图像或外部图像上叠加显示对象。因此，通过呈现用于在用户的视野中引导动作的显示对象，可以抑制集中或浸入在图像或外部图像中的障碍。此外，本实施例的配置可以应用于使用VR或增强现实(AR)的显示。

另外，信息处理设备100-1基于用户的脸部的朝向或噪声的声压来控制用于收集用户生成的声音的适合性的通知。因此，通过向用户直接传输语音输入的适用性，很容易确定语音输入的适合性。因此，可以容易地提示用户执行避免噪声输入的动作。

此外，信息处理设备100-1基于关于声音收集单元的声音收集结果的信息来控制是否执行用于引导的输出。因此，可以根据情况来控制是否执行用于引导的输出，而不会打扰用户。注意，可以基于用户做出的设置来控制是否执行用于引导的输出。

另外，与声音收集结果有关的信息包括使用声音收集结果的处理的开始信息。因此，在上述处理开始之前，可以停止诸如声音收集处理、声音处理、输出控制处理等一系列处理。因此，可以降低信息处理***的设备的处理负荷和功耗。

此外，与声音收集结果有关的信息包括由声音收集单元收集的噪声的声压信息。因此，例如，由于在噪声的声压级小于下限阈值的情况下，没有输入噪声或者噪声对语音输入的影响很小，因此可以停止上述一系列处理。相反，由于在噪声的声压级高于或等于下限阈值的情况下自动执行输出控制处理，因此可以提示用户执行抑制噪声输入的动作(甚至在用户注意到噪声之前)。

另外，在执行使用声音收集单元的声音收集结果的处理期间执行用于引导的输出的情况下，信息处理设备100-1停止处理的至少一部分。因此，例如，在游戏应用的处理期间执行用于引导的输出的情况下，通过打断或中断游戏应用的处理，可以防止游戏应用的处理在用户按照引导执行动作时进行。具体地，如果在根据用户的头部的动作执行处理时处理进行，则可能由于动作的引导而生成用户无意识的处理结果。即使在此时，根据本配置，也可以防止用户无意识的处理结果的生成。

此外，处理的至少一部分包括使用处理中的用户的脸部的朝向的处理。因此，通过仅停止受到脸部的朝向的改变影响的处理，用户可以享受其他处理的结果。因此，在处理结果可以独立于其他处理的情况下，可以提高用户便利性。

<1-6.经修改的示例>

上面已经描述了本公开的第一实施例。注意，本实施例不限于上述示例。以下将描述本实施例的经修改的示例。

作为本实施例的经修改的示例，用户的引导动作可以是另一动作。具体地，用户的引导动作包括用预定对象将噪声源与显示/声音收集设备200-1进行阻隔的动作(其在下面也将被称为阻隔动作)。阻隔动作包括例如将手放在噪声源与显示/声音收集设备200-1(即麦克风)之间的动作。此外，将参考图23描述本经修改的示例的处理示例。图23是用于描述根据本实施例的经修改的示例的信息处理***的处理示例的图。

将参考图23基于与图6的(3)的状态下的阻隔动作有关的处理来详细描述本经修改的示例的处理。在(3)的状态下，由于噪声源相对于用户的脸部的朝向存在于左侧，所以噪声可到达区域26对象叠加在游戏画面的左侧。

这里，由于麦克风被假定为被提供在用户的嘴部附近，因此麦克风被认为位于游戏画面的较低中心附近。因此，输出控制单元126叠加引导阻隔物的布置的显示对象(其在下面也将被称为阻隔物对象)，使得诸如手的阻隔物放置在麦克风和噪声源或噪声可到达区域对象26之间。例如，如图23所示，将类似于用户的手的阻隔物对象30叠加在噪声可到达区域对象26与游戏画面的较低中心之间。具体地，阻隔物对象可以是覆盖用户的嘴部(即麦克风)的形状的显示对象。

注意，在用户将他或她的手放置在叠加阻隔物对象30的位置的情况下，阻隔物对象30的模式可以改变。例如，可以改变阻隔物对象30的轮廓线的类型、厚度、色调或亮度，填充由轮廓线包围的区域等。此外，阻隔物可以是人体的另一部分(例如手指或手臂)，或除人体的一部分之外的对象(例如，除手以外的书、板、伞或可移动分隔物等)。注意，由于预定对象由用户操作，因此便携式对象是期望的。

如上所述，根据本实施例的经修改的示例，用户的引导动作包括使用这样的预定对象将噪声源与显示/声音收集设备200-1进行阻隔的动作。因此，例如，即使在用户不想改变他或她的脸部的朝向的情况下，例如，在根据用户的脸部的朝向来执行游戏应用等的处理的情况下，可以引导用户的动作来抑制噪声的输入。因此，可以增加享受抑制噪声输入的效果的机会，并且可以提高用户便利性。

<2.第二实施例(针对高度敏感的声音收集，对声音收集单元的控制和对用户的引导)>

上面已经描述了本公开的第一实施例。接下来，将描述本公开的第二实施例。在第二实施例中，控制声音收集单元(即显示/声音收集设备200-2)的声音收集模式，并引导用户的动作，使得以高灵敏度收集要收集的声音。

<2-1.***配置>

将参考图24描述根据本公开的第二实施例的信息处理***的配置。图24是用于描述根据本实施例的信息处理***的示意性配置示例的图。注意，将省略对与第一实施例的配置基本相同的配置的描述。

如图24所示，根据本实施例的信息处理***除了包括信息处理设备100-2、显示/声音收集设备200-2和声音处理设备300-2之外，还包括声音收集/成像设备400。

除了根据第一实施例的显示/声音收集设备200-1的配置之外，显示/声音收集设备200-2还包括发光体50。发光体50可以随着显示/声音收集设备200-2的激活而开始发光，或者可以随着特定处理的开始而开始发光。另外，发光体50可以输出可见光，或者可以输出除了可见光之外的诸如红外光之类的光。

声音收集/成像设备400包括声音收集功能和成像功能。例如，声音收集/成像设备400收集设备周围的声音，并将收集的关于收集到的声音的声音信息提供给信息处理设备100-2。另外，声音收集/成像设备400捕捉设备周围的环境并将关于捕捉的图像的图像信息提供给信息处理设备100-2。注意，声音收集/成像设备400是如图24中所示的固定设备，连接到信息处理设备100-2进行通信，并通过通信提供收集的声音信息和图像信息。另外，声音收集/成像设备400具有用于声音收集的波束形成功能。波束形成功能实现了高度灵敏的声音收集。

另外，声音收集/成像设备400可以具有控制位置或姿态的功能。具体地，声音收集/成像设备400可以自身移动或改变其自己的姿态(朝向)。例如，声音收集/成像设备400可以具有用于移动或姿态改变的电机之类的运动模块以及由电机驱动的轮子。此外，声音收集/成像设备400可以在保持其姿态的同时仅移动具有收集声音的功能的部分(例如，麦克风)，或者改变姿态。

这里，存在难以使用显示/声音收集设备200-2的麦克风的情况。在这种情况下，作为与显示/声音收集设备200-2分离的设备的声音收集/成像设备400被替代地用于语音输入等。然而，在显示/声音收集设备200-2是屏蔽型HMD(例如，VR显示设备)的情况下，佩戴显示/声音收集设备200-2的用户难以在视觉上检查外面。因此，用户不能确定声音收集/成像设备400的位置，并且因此很可能在错误的方向上说话。另外，即使在显示/声音收集设备200-2是透视型HMD(例如，AR显示设备)的情况下，用户也难以沿着以高灵敏度收集声音的方向观看，因此用户也有可能在错误的方向(即与以高灵敏度收集声音的方向不同的方向)上讲话。结果，诸如声压级或信噪比(SN比)的声音收集特性劣化，并且可能难以在基于收集到的声音的处理中获得期望的处理结果。

因此，本公开的第二实施例提出了一种可以更可靠地增强声音收集特性的信息处理***。下面将详细描述作为根据第二实施例的信息处理***的组成元件的每个设备。

注意，虽然上面已经描述了声音收集/成像设备400是独立设备的示例，但是声音收集/成像设备400可以与信息处理设备100-2或声音处理设备300-2集成。另外，虽然已经描述了声音收集/成像设备400具有声音收集功能和成像功能的示例，但是声音收集/成像设备400可以通过仅具有声音收集功能的设备以及仅具有成像功能的设备的结合来实现。

<2-2.设备配置>

接下来，将描述根据本实施例的信息处理***的每个设备的配置。注意，由于声音收集/成像设备400的物理配置与显示/声音收集设备200的物理配置类似，因此将省略其描述。另外，由于其他设备的物理配置与第一实施例的物理配置基本相同，所以将省略其描述。

将参考图25描述根据本实施例的信息处理***的每个设备的逻辑配置。图25是示出根据本实施例的信息处理***的每个设备的示意性功能配置示例的框图。注意，将省略对与第一实施例的功能基本相同的功能的描述。

(信息处理设备的逻辑配置)

除了通信单元120、VR处理单元122、语音输入适合性确定单元124以外，信息处理设备100-2还包括位置信息获取单元130、调整单元132和声音收集模式控制单元134，以及输出控制单元126，如图25所示。

(通信单元)

除了显示/声音收集设备200-2和声音处理设备300-2之外，通信单元120还与声音收集/成像设备400通信。具体地，通信单元120从声音收集/成像设备400接收收集到的声音信息和图像信息，并将下面将描述的声音收集模式指示信息发送到声音收集/成像设备400。

(位置信息获取单元)

位置信息获取单元130获取指示显示/声音收集设备200-2的位置的信息(其在下面也将被称为位置信息)。具体地，位置信息获取单元130使用经由通信单元120从声音收集/成像设备400获取的图像信息来估计显示/声音收集设备200-2的位置，并且生成指示估计的位置的位置信息。例如，位置信息获取单元130基于投射在由图像信息指示的图像上的发光体50的位置和大小来估计发光体50即显示/声音收集设备200-2相对于声音收集/成像设备400的位置。注意，指示发光体50的大小的信息可以预先存储在声音收集/成像设备400中或者经由通信单元120获取。另外，位置信息可以是相对于声音收集/成像设备400的信息或指示预定空间坐标的位置的信息。此外，位置信息的获取可以使用其他手段来实现。例如，可以使用显示/声音收集设备200-2的对象识别处理而不使用发光体50来获取位置信息，或者可以经由通信单元120获取由外部设备计算的位置信息。

(语音输入适合性确定单元)

语音输入适合性确定单元124用作控制单元的一部分，并且基于声音收集/成像设备400与要由声音收集/成像设备400收集的声音的生成源之间的位置关系来确定语音输入的适合性。具体地，语音输入适合性确定单元124基于声音收集/成像设备400与语音的生成源(嘴部或脸部)之间的位置关系和脸部方向信息来确定语音输入的适合性。此外，将参考图26和图27描述根据本实施例的语音输入适合性确定处理。图26是用于描述根据本实施例的语音输入适合性确定处理的图，并且图27是示出根据本实施例的语音输入的适合性的确定模式的示例的图。

将考虑例如如图26所示的显示/声音收集设备200-2和声音收集/成像设备400被布置的情况。在这种情况下，首先，语音输入适合性确定单元124基于位置信息指定显示/声音收集设备200-2(用户的脸部)和声音收集/成像设备400连接的方向(其在下面也将被称为声音收集方向)。例如，语音输入适合性确定单元124基于从位置信息获取单元130提供的位置信息指定从显示/声音收集设备200-2到声音收集/成像设备400的声音收集方向D6，如图26所示。注意，指示声音收集方向的信息也将被称为声音收集方向信息，并且指示从显示/声音收集设备200-2到声音收集/成像设备400的声音收集方向的声音收集方向信息与上述D6类似，其在下面将被称为FaceToMicVec。

另外，语音输入适合性确定单元124从显示/声音收集设备200-2获取脸部方向信息。例如，语音输入适合性确定单元124经由通信单元120从显示/声音收集设备200-2获取指示如图26所示的佩戴显示/声音收集设备200-2的用户的脸部的朝向D7的脸部方向信息。

接下来，语音输入适合性确定单元124基于关于声音收集/成像设备400与显示/声音收集设备200-2(即，用户的脸部)之间的方向与用户的脸部的朝向之间的差异的信息来确定语音输入的适合性。具体地，语音输入适合性确定单元124使用关于指定的声音收集方向和脸部方向信息的声音收集方向信息，来计算由声音收集方向信息所指示的方向与脸部方向信息所指示的方向所形成的角度。然后，语音输入适合性确定单元124根据计算出的角度确定方向确定值作为语音输入的适合性。例如，语音输入适合性确定单元124计算作为具有与指定的FaceToMicVec的方向相反的方向的声音收集方向信息的MicToFaceVec，然后计算由MicToFaceVec指示的方向(即从声音收集/成像设备400到用户的脸部的方向)与由脸部方向信息指示的方向形成的角度α。然后，语音输入适合性确定单元124根据用所计算的角度α作为输入的余弦函数的输出值确定作为方向确定值的值，如图27所示。方向确定值被设置为例如语音输入的适合性随着角度α变大而提高的值。

注意，除了角度之外，差异可以是方向或基本方向的组合，并且在这种情况下，方向确定值可以根据组合来设置。另外，尽管上面已经描述了使用MicToFaceVec的示例，但是可以使用具有与MicToFaceVec相反的方向的FaceToMicVec而不用改变。另外，虽然已经描述了当从上方观看用户时声源方向信息、脸部方向信息等的方向是在水平面上的方向的示例，但是方向可以是相对于水平面的垂直平面上的方向或三维空间中的方向。此外，方向确定值可以是图27所示的五个等级的值，或者可以是具有更精细的等级的值或具有更粗糙的等级的值。

此外，在声音收集/成像设备400执行用于声音收集的波束形成的情况下，语音输入适合性确定单元124可以基于指示波束形成的方向的信息(其在下面也将被称为波束形成信息)和脸部方向信息来确定声音输入的适合性。另外，波束形成的方向具有预定范围，预定范围内的一个方向可以用作波束形成方向。

(调整单位)

调整单元132用作控制单元的一部分，并且通过基于语音输入适合性确定结果控制声音收集模式控制单元134和输出控制单元126的操作，来控制声音收集/成像设备400的与声音收集特性有关的模式和引导收集的声音的生成方向的输出。具体地，调整单元132基于关于声音收集结果的信息来控制声音收集/成像设备400的模式的程度和引导用户的语音方向的输出的程度。更具体地，调整单元132基于要使用声音收集结果处理的内容的类型信息来控制模式的程度和输出的程度。

调整单元132基于方向确定值来判定例如整体控制量。接下来，调整单元132基于关于声音收集结果的信息使用判定的整体控制量来判定与声音收集/成像设备400的模式的改变有关的控制量和与用户的语音方向的改变有关的控制量。这可以说调整单元132将整体控制量分配给声音收集/成像设备400的模式的控制以及与引导用户的语音方向有关的输出的控制。另外，调整单元132基于所判定的控制量来使得声音收集模式控制单元134控制声音收集/成像设备400的模式，并且使得输出控制单元126控制引导语音方向的输出。注意，输出控制单元126可以使用方向确定值来执行控制。

另外，调整单元132根据内容的类型判定上述控制量的分配。例如，调整单元132相对于其要被提供(例如，显示屏)的细节根据用户的头部的移动而改变的内容来增加声音收集/成像设备400的模式的控制量，并且减小用于引导用户的语音方向的输出的控制量。另外，这同样适用于用户密切观察的内容，例如图像或动态图像。

注意，上述关于声音收集结果的信息可以是声音收集/成像设备400或用户的周围环境信息。例如，调整单元132根据声音收集/成像设备400或用户的周围屏蔽的存在或不存在、可移动空间的大小等来判定上述控制量的分配。

另外，关于声音收集结果的上述信息可以是用户的模式信息。具体地，调整单元132根据用户的姿态信息判定上述控制量的分配。例如，在用户面朝上的情况下，调整单元132减小声音收集/成像设备400的模式的控制量，并且增加用于引导用户的语音方向的输出的控制量。此外，调整单元132可以根据关于用户在内容中的浸入的信息(指示用户是否浸入内容或者浸入内容的程度的信息)来判定上述控制量的分配。例如，在用户浸入在内容中的情况下，调整单元132增加声音收集/成像设备400的模式的控制量，并减小引导用户的语音方向的输出的控制量。注意，可以基于生物信息(例如，用户的眼睛运动信息)来确定用户是否浸入内容和浸入内容的程度。

尽管上面已经描述了对声音收集/成像设备400的模式和引导语音方向的输出的控制的细节，但是调整单元132可以基于声音收集情况来判定是否进行控制。具体地，调整单元132基于作为声音收集/成像设备400的声音收集特性之一的声音收集灵敏度来判定是否进行控制。例如，在声音收集/成像设备400的声音收集灵敏度降低到等于或低于阈值的情况下，则调整单元132开始与控制有关的处理。

另外，调整单元132可以基于上述关于声音收集结果的信息来仅控制声音收集/成像设备400的模式和引导语音方向的输出中的一个。例如，在确定用户处于他或她难以移动或改变他或她的脸部的朝向的情况下，调整单元132可以仅使得声音收集模式控制单元134执行处理。相反，在声音收集/成像设备400既不具有移动功能也不具有声音收集模式控制功能或者这些功能被确定为并非正常操作的情况下，调整单元132可以仅使得输出控制单元126执行处理。

注意，尽管上面已经描述了调整单元132控制控制量的分配的示例，但是调整单元132可以基于语音输入适合性确定结果和关于声音收集结果的信息来彼此独立地控制声音收集/成像设备400的模式和引导用户的语音方向的输出。

(声音收集模式控制单元)

声音收集模式控制单元134控制与声音收集/成像设备400的声音收集特性相关的模式。具体地，声音收集模式控制单元134基于由调整单元132指示的控制量来判定声音收集/成像设备400的模式，并且生成指示到判定的模式的转换的信息(其在下面也将被称为声音收集模式指示信息)。更具体地，声音收集模式控制单元134控制声音收集/成像设备400的位置、姿态或声音收集的波束形成。例如，声音收集模式控制单元134基于由调整单元132指示的控制量来生成指示移动、姿态的改变、或者声音收集/成像设备400的波束形成的朝向或范围的声音收集模式指示信息。

注意，声音收集模式控制单元134可以基于位置信息分别控制波束形成。例如，当获取位置信息时，声音收集模式控制单元134使用从声音收集/成像设备400到由位置信息指示的位置的方向作为波束形成方向来生成声音收集模式指示信息。

(输出控制单元)

输出控制单元126基于调整单元132的指示来控制用于引导用户的语音方向的视觉呈现。具体地，输出控制单元126判定脸部方向引导对象，该脸部方向引导对象指示其中用户的脸部的朝向将根据由调整单元132指示的控制量来改变的方向。例如，在由调整单元132指示的方向确定值较低的情况下，输出控制单元126判定脸部方向引导对象，该脸部方向引导对象可能引导用户的脸部的朝向的改变，使得方向确定值增加。

另外，输出控制单元126可以控制通知声音收集/成像设备400的位置的输出。具体地，输出控制单元126基于用户的脸部和声音收集/成像设备400之间的位置关系来判定指示声音收集/成像设备400的位置的显示对象(其在下面也将被称为声音收集位置对象)。例如，输出控制单元126判定声音收集位置对象，该声音收集位置对象指示声音收集/成像设备400相对于用户的脸部的位置。

此外，输出控制单元126可以参考由引导引起的用户的脸部的朝向来控制用于评估用户的脸部的当前朝向的输出。具体地，输出控制单元126基于用户应当根据引导而改变的脸部的朝向与用户的脸部的当前朝向之间的偏离度来判定指示评估脸部的朝向的评估对象。例如，输出控制单元126判定指示语音输入的适合性随着偏离度进一步减小而提高的评估对象。

(声音收集/成像设备的逻辑配置)

声音收集/成像设备400包括通信单元430、控制单元432、声音收集单元434和成像单元436，如图25所示。

(通信单元)

通信单元430与信息处理设备100-2进行通信。具体地，通信单元430将收集的声音信息和图像信息发送到信息处理设备100-2，并且从信息处理设备100-2接收声音收集模式指示信息。

(控制单元)

控制单元432整体控制声音收集/成像设备400。具体地，控制单元432基于声音收集模式指示信息来控制与声音收集特性有关的设备的模式。例如，控制单元432设置麦克风的朝向或由声音收集模式指示信息指定的波束形成的朝向或范围。另外，控制单元432使得设备移动由声音收集模式指示信息指定的位置。

另外，控制单元432通过设置成像单元436的成像参数来控制成像单元436。例如，控制单元432设置成像参数，例如成像方向、成像范围、成像灵敏度和快门速度。注意，成像参数可以被设置为使得显示/声音收集设备200-2容易成像。例如，可以将用户的头部容易进入成像范围的方向设置为成像方向。另外，可以由信息处理设备100-2通知成像参数。

(声音收集单元)

声音收集单元434收集声音收集/成像设备400周围的声音。具体地，声音收集单元434收集在声音收集/成像设备400周围产生的诸如用户的语音之类的声音。另外，声音收集单元434执行与声音收集相关的波束形成处理。例如，声音收集单元434提高从被设置为波束形成方向的方向输入的声音的灵敏度。注意，声音收集单元434生成关于收集的声音的收集的声音信息。

(成像单元)

成像单元436对声音收集/成像设备400的周围进行成像。具体地，成像单元436基于由控制单元432设置的成像参数来执行成像。成像单元436例如通过诸如收集光线的成像镜头和变焦镜头之类的成像光学***、或者诸如电荷耦合设备(CCD)或互补金属氧化物半导体(CMOS)之类的信号转换元件来实现。另外，可以对可见光、红外进行成像，并且通过成像获得的图像可以是静止图像或动态图像。

<2-3.设备的处理>

接下来，将描述在信息处理***的组成元件之中执行主要处理的信息处理设备100-2的处理。注意，将省略对与第一实施例的处理基本相同的处理的描述。

(整体处理)

首先，将参考图28描述根据本实施例的信息处理设备100-2的整体处理。图28是示出根据本实施例的信息处理设备100-2的整体处理的概念的流程图。

信息处理设备100-2确定语音输入模式是否开启(步骤S902)。具体地，调整单元132确定使用声音收集/成像设备400的语音输入模式是否开启。

如果确定语音输入模式开启，则信息处理设备100-2获取位置信息(步骤S904)。具体地，如果确定语音输入模式开启，则位置信息获取单元130获取从声音收集/成像设备400提供的图像信息，并生成指示显示/声音收集设备200-2的位置的位置信息，即，基于图像信息的用户脸部的位置。

另外，信息处理设备100-2获取脸部方向信息(步骤S906)。具体地，语音输入适合性确定单元124获取从显示/声音收集设备200-2提供的脸部方向信息。

接下来，信息处理设备100-2计算方向确定值(步骤S908)。具体地，语音输入适合性确定单元124基于位置信息和脸部方向信息来计算方向确定值。其细节将在下面描述。

接下来，信息处理设备100-2判定控制量(步骤S910)。具体地，调整单元132基于方向确定值来判定声音收集/成像设备400的模式和引导语音方向的输出的控制量。判定的细节将在下面描述。

接下来，信息处理设备100-2基于控制量生成图像(步骤S912)，并将其图像信息通知给显示/声音收集设备200-2(步骤S914)。具体地，输出控制单元126基于由调整单元132指示的控制量来判定要叠加的显示对象，并且生成要在其上叠加显示对象的图像。然后，通信单元120将关于所生成的图像的图像信息发送到显示/声音收集设备200-2。

接下来，信息处理设备100-2基于控制量来判定声音收集/成像设备400的模式(步骤S916)，并且将声音收集模式指示信息通知给声音收集/成像设备400(步骤S918)。具体地，声音收集模式控制单元134生成指示转换到基于由调整单元132指示的控制量而判定的声音收集/成像设备400的模式的声音收集模式指示信息。然后，通信单元120将所生成的声音收集模式指示信息发送到声音收集/成像设备400。

(方向确定值计算处理)

随后，将参考图29描述根据本实施例的方向确定值计算处理。图29是示出根据本实施例的信息处理设备100-2的方向确定值计算处理的概念的流程图。

信息处理设备100-2基于位置信息来计算从声音收集/成像设备400到用户的脸部的方向(步骤S1002)。具体地，语音输入适合性确定单元124使用由位置信息获取单元130获取的位置信息来计算MicToFaceVec。

接下来，信息处理设备100-2使用所计算的方向和脸部的朝向来计算角度α(步骤S1004)。具体地，语音输入适合性确定单元124计算由MicToFaceVec指示的方向和脸部方向信息指示的脸部的朝向形成的角度α。

接下来，信息处理设备100-2确定用角度α作为输入的余弦函数的输出结果(步骤S1006)。具体地，语音输入适合性确定单元124根据cos(α)的值来确定方向确定值。

在余弦函数的输出结果是-1的情况下，信息处理设备100-2将方向确定值设置为5(步骤S1008)。在余弦函数的输出结果不是-1而小于0的情况下，信息处理设备100-2将方向确定值设置为4(步骤S1010)。在余弦函数的输出结果是0的情况下，信息处理设备100-2将方向确定值设置为3(步骤S1012)。在余弦函数的输出结果大于0并且不是1的情况下，信息处理设备100-2将方向确定值设置为2(步骤S1014)。在余弦函数的输出结果是1的情况下，信息处理设备100-2将方向确定值设置为1(步骤S1016)。

(控制量判定处理)

随后，将参考图30描述控制量判定处理。图30是示出根据本实施例的信息处理设备100-2的控制量判定处理的概念的流程图。

信息处理设备100-2获取关于声音收集结果的信息(步骤S1102)。具体地，调整单元132获取使用声音收集结果处理的内容类型信息、声音收集/成像设备400或影响声音收集结果的用户的周围环境信息、用户模式信息等。

接下来，信息处理设备100-2基于方向确定值和关于声音收集结果的信息来判定针对引导语音方向的输出的控制量(步骤S1104)。具体地，调整单元132基于从语音输入适合性确定单元124提供的方向确定值和关于声音收集结果的信息来判定要向输出控制单元126指示的控制量(方向确定值)。

另外，信息处理设备100-2基于方向确定值和关于声音收集结果的信息来判定针对声音收集/成像设备400的模式的控制量(步骤S1106)。具体地，调整单元132基于从语音输入适合性确定单元124提供的方向确定值和关于声音收集结果的信息来判定要向声音收集模式控制单元134指示的控制量。

<2-4.处理示例>

接下来，将参考图31至图35描述信息处理***的处理示例。图31至图35是用于描述根据本实施例的信息处理***的处理示例的图。

该描述参考图31从用户面对与用户面对声音收集/成像设备400的方向相反的方向的状态，即图27的(15)的状态开始。首先，信息处理设备100-2基于VR处理生成游戏画面。接下来，在声音收集灵敏度小于阈值的情况下，信息处理设备100-2判定针对声音收集/成像设备400的模式的控制量和针对引导用户的语音的方向的输出的控制量。然后，信息处理设备100-2将基于用于引导的输出的控制量判定的上述显示对象叠加在游戏画面上。下面主要描述用于引导的输出的示例。

例如，输出控制单元126在游戏画面上叠加指示人的头部的显示对象20、指示要改变的脸部的朝向的脸部方向引导对象32、用于指示声音收集/成像设备400的位置的声音收集位置对象34、以及用于使位置容易识别的显示对象36。注意，声音收集位置对象34也可以用作上述评估对象。

由于用户的头部的旋转被引导，使得在图27的(15)的状态下用户的脸部直接面向后方，叠加了脸部方向引导对象32L和32R的箭头，其提示用户将他或她的头部旋转到左右之间的任何一侧。另外，显示对象36被叠加为围绕显示对象20所指示的用户的头部的圆圈，并且声音收集位置对象34A被叠加在声音收集位置对象看起来位于用户正后方的位置。此外，声音收集位置对象34A用作评估对象，并且根据对用户的模式的评估用点图案的阴影表示。在图31的示例中，例如，用户的脸部的朝向对应于相对于方向确定值的最低值的方向，因此声音收集位置对象34A用暗点图案表示。此外，输出控制单元126可以将指示声音收集/成像设备400的声音收集灵敏度的显示对象叠加在游戏画面上。如图31所示，例如，在用户的当前模式下已经执行了语音输入的情况下，指示声音收集/成像设备400的声音收集灵敏度的“低灵敏度”的显示对象(其在下面也将被称为声音收集灵敏度对象)可以叠加在游戏画面上。注意，声音收集灵敏度对象可以是除了如图31所示的字符串之外的图形、符号等。

接下来，将参考图32描述用户逆时针稍微旋转他或她的头的状态，即图27的(14)的状态。在(14)的状态下，用户的头部从(15)的状态稍微逆时针旋转，因此脸部方向引导对象32L的箭头形成为比在(15)的状态下更短。另外，由于声音收集/成像设备400相对于脸部的朝向的位置由于用户的头部的旋转而改变，所以声音收集位置对象34A根据用户的头部的旋转而顺时针移动。另外，在图32的示例中，尽管声音收集位置对象34A的点图案的阴影被保持，但是基于脸部的引导朝向改变脸部的朝向，并且因此点图案的阴影可以改变为比在图27的(15)的状态下更亮。因此，向用户呈现已经改善了对用户的脸部的朝向的评估的事实。

接下来，将参考图33描述用户进一步逆时针旋转他或她的头部的状态，即图27的(13)的状态。在(13)的状态下，用户的头部从(14)的状态进一步顺时针旋转，因此脸部方向引导对象32L的箭头形成为比在(14)的状态下更短。另外，基于脸部的引导朝向改变脸部的朝向，叠加了点图案的阴影的声音收集位置对象34B改变为比在(14)的状态下更亮。此外，由于声音收集/成像设备400相对于脸部的方向的位置进一步从(14)的状态改变，所以声音收集位置对象34B根据头部的旋转从(14)的状态进一步顺时针移动。另外，由于声音收集/成像设备400的声音收集灵敏度已经提高，所以声音收集灵敏度对象从“低灵敏度”切换到“中等灵敏度”。

接下来，将参考图34描述用户进一步逆时针旋转他或她的头部的状态，即图27的(12)的状态。在(12)的状态下，用户的头部从(13)的状态进一步顺时针旋转，因此脸部方向引导对象32L的箭头形成为比在(13)的状态下更短。另外，由于基于脸部的引导朝向来改变脸部的朝向，叠加其点图案的阴影改变为比在(13)的状态下更亮的声音收集位置对象34C。此外，由于声音收集/成像设备400相对于脸部的朝向的位置从(13)的状态进一步改变，所以声音收集位置对象34C根据头部的旋转从(13)的状态进一步顺时针移动。另外，由于声音收集/成像设备400的声音收集灵敏度已经提高，所以声音收集灵敏度对象从“中等灵敏度”切换到“高灵敏度”。此外，输出控制单元126可以在游戏画面上叠加指示波束形成方向的显示对象(其在下面也将被称为波束形成对象)。例如，使用声音收集位置对象34C作为开始点来叠加指示波束形成方向的范围的波束形成对象，如图34所示。注意，波束形成对象的范围可能无法精确地与声音收集/成像设备400的波束形成方向的实际范围一致。其原因是给用户提供不可见波束形成方向的图像。

最后，将参考图35描述用户的脸部直接面对声音收集/成像设备400的状态，即图27的(11)的状态。在(11)的状态下，不需要使用户进一步旋转他或她的头部，因此脸部方向引导对象32L的箭头不被叠加。另外，由于声音收集/成像设备400位于用户的脸部前方的位置，所以声音收集位置对象34C在类似于用户的头部的显示对象20的前侧之后移动。此外，由于声音收集/成像设备400的声音收集灵敏度在由头部的旋转改变的范围中具有最高值，所以声音收集灵敏度对象从“高灵敏度”切换到“最高灵敏度”。

注意，尽管在上述一系列处理示例中已经描述了引导语音方向的输出是引导脸部的朝向的输出的示例，但是要被引导的目标可以是用户的移动。例如，指示用户的移动方向或移动目的地的显示对象可以替代脸部方向引导对象被叠加在游戏画面上。

另外，声音收集位置对象可以是指示声音收集/成像设备400的模式的显示对象。例如，输出控制单元126可以叠加指示在声音收集/成像设备400的实际移动之前、之后或期间的位置、姿态或波束形成方向、或者在其移动期间的状态等的显示对象。

<2-5.第二实施例的概述>

如上所述，根据本公开的第二实施例，信息处理设备100-2基于声音收集单元与要收集的声音的生成源之间的位置关系，来执行与声音收集特性有关的声音收集单元(声音收集/成像设备400)的模式和引导要由声音收集单元收集的声音的生成方向的输出有关的控制。因此，与仅控制声音收集单元的模式或者仅控制声音的生成方向的情况相比，可以进一步增加声音收集特性得以改善的可能性。例如，在不能充分控制声音收集单元的模式和声音的生成方向中的一个的情况下，可以在另一侧的控制下恢复声音收集特性。因此，可以更可靠地改善声音收集特性。

另外，要收集的声音包括语音，要收集的声音的生成方向包括用户的脸部的方向，并且信息处理设备100-2基于位置关系和用户的脸部的朝向来执行控制。这里，由于用户的语音是使用他或她的嘴执行的，所以如果执行处理以将语音方向设置为用户的脸部的朝向，则可以省略指定语音方向的单独处理。因此，可以避免处理的复杂化。

另外，信息处理设备100-2基于关于从生成源到声音收集单元的方向或从声音收集单元到生成源的方向与用户的脸部的朝向之间的差异的信息来执行控制。因此，由于在控制处理中使用从声音收集单元到用户的方向或从用户到声音收集单元的方向，所以可以更精确地控制声音收集单元的模式，并且可以更精确地引导语音方向。因此，可以更有效地改善声音收集特性。

另外，差异包括从生成源到声音收集单元的方向或者从声音收集单元到生成源的方向与用户的脸部的朝向所形成的角度。因此，通过在控制处理中使用角度信息，可以提高控制的准确度或精度。此外，通过使用现有的角度计算技术执行控制处理，可以降低设备开发的成本，并且可以防止处理的复杂化。

另外，信息处理设备100-2基于关于声音收集单元的声音收集结果的信息来控制声音收集单元的模式和用于引导的输出的程度。因此，与均匀地执行控制相比，可以实现适合于更多情况的声音收集单元的模式和用于引导的输出。因此，在更多情况下可以更可靠地改善声音收集特性。

另外，关于声音收集结果的信息包括要使用声音收集结果处理的内容的类型信息。因此，通过根据用户要观看的内容执行控制，可以改善声音收集特性而不妨碍用户的观看。此外，由于使用内容的类型的相对简单的信息来确定控制的细节，所以可以降低控制处理的复杂度。

另外，关于声音收集结果的信息包括声音收集单元或用户的周围环境信息。在此，存在难以根据声音收集单元或用户所在的地点改变移动或姿态的情况。关于这个问题，根据本配置，通过根据声音收集单元或用户的周围环境，使用控制分配对声音收集单元的模式和用于引导的输出执行控制，可以使声音收集单元或用户免于被迫执行困难的动作。

另外，关于声音收集结果的信息包括用户模式信息。这里，存在难以根据用户的模式将语音方向改变为引导方向的情况。关于这个问题，根据本配置，通过根据用户的模式使用控制分配对声音收集单元的模式和用于引导的输出执行控制，可以实现用户友好的引导。通常，由于用户倾向于认为他们想要避免执行额外的动作，所以当前配置在用户想要专注于观看内容等的情况下特别有利。

另外，用户模式信息包括关于用户的姿态的信息。因此，姿态可以根据用户从信息中指定的姿态改变，可以在期望的范围内被引导等。因此，可以使用户免于被迫执行荒谬的动作。

另外，用户模式信息包括关于将用户浸入要使用声音收集结果处理的内容中的信息。因此，可以改善声音收集特性，而不妨碍用户浸入在观看的内容中。因此，可以提高用户便利性而不会给用户带来不适。

另外，信息处理设备100-2基于声音收集单元的声音收集灵敏度信息来判定是否执行控制。因此，通过在声音收集灵敏度降低的情况下执行控制，例如与始终执行控制的情况相比，可以抑制设备的功耗。此外，通过在适当的时间向用户提供用于引导的输出，可以降低针对用户的输出的复杂度。

另外，信息处理设备100-2基于关于声音收集单元的声音收集结果的信息仅控制声音收集单元的模式和用于引导的输出中的一个。因此，即使在难以改变声音收集单元的模式或者提示用户的引导的情况下，也可以改善声音收集特性。

另外，声音收集单元的模式包括声音收集单元的位置或姿态。这里，声音收集单元的位置或姿态是用于判定对声音收集特性具有影响的元件中具有相对显著影响的声音收集方向的元件。因此，通过控制这样的位置或姿态，可以更有效地改善声音收集特性。

另外，声音收集单元的模式包括与声音收集单元的声音收集相关的波束形成的模式。因此，可以在不改变声音收集单元的姿态或移动声音收集单元的情况下改善声音收集特性。因此，可以不提供用于改变声音收集单元的姿态或者移动声音收集单元的配置，可以扩展适用于信息处理***的声音收集单元的变型，或者可以使声音收集单元的成本降低。

另外，用于引导的输出包括通知用户的脸部的朝向将被改变的方向的输出。因此，用户可以确定用于更高度敏感的语音输入的动作。因此，由于用户不知道用户无法采取声音输入或动作的原因，所以可以减少用户感觉不适的可能性。另外，由于直接向用户通知脸部的朝向，所以用户可以直观地理解要采取的动作。

另外，用于引导的输出包括通知声音收集单元的位置的输出。这里，用户主要理解，如果用户将他或她的脸部转向声音收集单元，则声音收集灵敏度提高。因此，通过如同在本配置中向用户通知声音收集单元的位置，用户可以在没有设备的精确引导的情况下直观地确定要采取的动作。因此，向用户进行通知变得简单，并且因此可以减少向用户进行通知的复杂度。

另外，用于引导的输出包括对用户的视觉呈现。这里，视觉信息呈现需要比通常使用其他感觉的信息呈现更大量的信息。因此，用户可以容易地理解引导，并且因此平滑的引导是可能的。

另外，用于引导的输出包括与参考由引导引起的用户的脸部的朝向而评估用户的脸部的朝向有关的输出。因此，用户可以确定他或她是否执行引导的动作。因此，由于用户容易基于引导执行动作，所以能够更可靠地改善声音收集特性。

<3.应用示例>

上面已经描述了根据本公开的每个实施例的信息处理***。信息处理设备100可以应用于各种领域和情况。下面将描述信息处理***的应用示例。

(应用于医学领域)

上述信息处理***可以应用于医学领域。这里，存在下述的许多情况：其中随着药物的进步，许多人提供手术等医疗服务。因此，手术助理之间的通信变得越来越重要。因此，为了鼓励这种通信，考虑使用上述显示/声音收集设备200通过语音来共享视觉信息和通信。例如，假定在手术过程中，位于佩戴显示/声音收集设备200的偏远地点的顾问在检查手术的情况的同时向操作员给出指示或建议。在这种情况下，顾问可能难以检查周围的情况，因为他或她专注于查看显示的手术情况。此外，在这种情况下，可以在附近存在噪声源，或者可以使用安装在与显示/声音收集设备200不同的位置处的独立声音收集设备。但是，根据信息处理***，即使在这种情况下，也可以引导用户避免来自噪声源的噪声并保持声音收集灵敏度。另外，可以控制声音收集设备侧，使得声音收集灵敏度增加。因此，可以实现顺畅的通信，可以确保医疗的安全性，并且可以缩短手术操作时间。

(应用于机器人)

另外，上述信息处理***可以应用于机器人。随着当前机器人技术的发展，一个机器人的多种功能(如姿态的改变、移动、语音识别和语音输出)的组合已经发展。因此，考虑了声音收集/成像设备400的上述功能的应用。例如，假定佩戴显示/声音收集设备200的用户在用户开始与机器人交谈的情况下对机器人讲话。然而，用户难以知道机器人的哪个部分设有声音收集设备，或者哪个方向确保了高声音收集灵敏度。为了解决这个问题，信息处理***建议朝向机器人的语音方向，因此可以以高声音收集灵敏度进行语音输入。因此，用户可以使用机器人而不用担心语音输入失败。

另外，作为另一个问题，考虑用户佩戴显示/声音收集设备200外出的情况。在这种情况下，用户周围通常存在其他对象，例如其他人、车辆、建筑物等。因此，为了避免噪声源或改善语音输入期间的声音收集灵敏度，他或她的脸部的朝向可能改变或移动。另外，如果使用户移动，也可能存在事故等的危险。为了解决这个问题，根据该信息处理***，当改变用户的模式存在困难或危险时，通过优先改变机器人侧(即声音收集设备侧)的模式，即使在室外地点也能够实现舒适的语音输入，同时确保用户的安全。注意，代替机器人或除了机器人之外，街道上的装置可以具有声音收集/成像设备400的功能。

<4.结论>

根据上述本公开的第一实施例，通过引导用户改变噪声源与显示/声音收集设备200-1之间的位置关系的动作，使得声音收集特性得以改善，用户可以实现适合于仅通过跟随引导难以输入噪声的语音输入的情况。另外，由于使用户执行动作而难以输入噪声，因此可以不将用于避免噪声的单独配置添加到信息处理设备100-1或信息处理***。因此，从可用性的角度和从成本和设施的角度来看，可以容易地抑制噪声的输入。

另外，根据本公开的第二实施例，与仅控制声音收集单元的模式或者声音的生成方向的情况相比，可以增加声音收集特性得以改善的可能性。例如，在不能充分控制声音收集单元的模式和声音的生成方向中的一个的情况下，可以通过控制另一侧来恢复声音收集特性。因此，可以更可靠地改善声音收集特性。

以上参考附图已经描述了本公开的(一个或多个)优选实施例，而本公开不限于上述示例。本领域技术人员可以在所附权利要求的范围内发现各种变化和修改，并且应该理解，它们自然会落入本公开的技术范围内。

例如，尽管在上述实施例中用户的语音是要收集的目标，但是本公开不限于此。例如，使用除了嘴之外的身体的一部位或对象产生的声音或者由声音输出设备等输出的声音可以是要收集的目标。

另外，虽然在上述实施例中已经描述了在视觉上呈现用于引导用户等的动作的示例输出，但是用于引导的输出可以是另一种类型的输出。用于引导的输出可以是例如语音输出或触觉振动输出。在这种情况下，显示/声音收集设备200可以不具有显示单元，即，可以是耳机。

另外，虽然在上述实施例中已经描述了线性收集噪声或用户的语音声音的示例，但是可以在反射之后收集这些声音。因此，考虑到声音的反射，可以控制引导用户的动作的输出和声音收集/成像设备400的模式。

另外，尽管在上述第二实施例中已经描述了信息处理设备100生成显示/声音收集设备200的位置信息的示例，但是显示/声音收集设备200可以生成位置信息。例如，通过将发光体50安装到声音收集/成像设备400上并在显示/声音收集设备200中提供成像单元，可以在显示/声音收集设备200侧执行生成位置信息的处理。

另外，虽然在第二实施例中已经描述了通过通信由信息处理设备100控制声音收集/成像设备400的模式的示例，但是佩戴显示/声音收集设备200的用户之外的用户可以被允许改变声音收集/成像设备400的模式。例如，信息处理设备100可以使附加包括在信息处理设备100中的外部设备或输出单元执行引导另一个用户改变声音收集/成像设备400的模式的输出。在这种情况下，可以简化声音收集/成像设备400的配置。

此外，在本说明书中描述的效果仅仅是说明性或示例性的效果，而不是限制性的。也就是说，利用或代替上述效果，根据本公开的技术可以实现本领域技术人员从本说明书的描述中清楚的其他效果。

此外，不仅包括其中上述实施例的流程图中所示的步骤按照所描述的顺序以时间序列方式执行的处理，而且还包括其中不必按照时间序列方式处理而是并行或单独执行的步骤的处理。而且，不言而喻，即使按照时间序列方式处理的步骤也可以根据情况在顺序上适当地改变。

另外，还可以产生用于使内置在信息处理设备100中的硬件展现出与信息处理设备100的上述各个逻辑配置的功能等同的功能的计算机程序。此外，还提供了存储有该计算机程序的存储介质。

另外，本技术也可以按如下配置。

(1)一种信息处理设备，包括：

控制单元，该控制单元被配置为基于噪声的生成源与收集由用户所生成的声音的声音收集单元之间的位置关系，来控制输出以引导用户的动作改变所生成的声音的声音收集特性，该动作不同于与声音收集单元的处理相关的操作。

(2)根据(1)所述的信息处理设备，

其中，由用户所生成的声音包括语音，并且

控制单元基于位置关系和用户的脸部的朝向来控制用于引导的输出。

(3)根据(2)所述的信息处理设备，其中，控制单元基于与从生成源到声音收集单元的方向或从声音收集单元到生成源的方向与用户的脸部的朝向之间的差异有关的信息来控制用于引导的输出。

(4)根据(3)所述的信息处理设备，其中，差异包括由从生成源到声音收集单元的方向或从声音收集单元到生成源的方向与用户的脸部的朝向形成的角度。

(5)根据(2)至(4)中任一项所述的信息处理设备，其中，用户的动作包括用户的脸部的朝向的改变。

(6)根据(2)至(5)中任一项所述的信息处理设备，其中，用户的动作包括利用预定对象将生成源与声音收集单元进行阻隔的动作。

(7)根据(2)至(6)中任一项所述的信息处理设备，其中，用于引导的输出包括与以由引导的动作引起的用户的模式为基准的用户的模式的评估有关的输出。

(8)根据(2)至(7)中任一项所述的信息处理设备，其中，用于引导的输出包括与由声音收集单元所收集的噪声有关的输出。

(9)根据(8)所述的信息处理设备，其中，与噪声有关的输出包括通知由声音收集单元所收集的噪声的可到达区域的输出。

(10)根据(8)或(9)所述的信息处理设备，其中，与噪声有关的输出包括通知由声音收集单元所收集的噪声的声压的输出。

(11)根据(2)至(10)中任一项所述的信息处理设备，其中，用于引导的输出包括对用户的视觉呈现。

(12)根据(11)所述的信息处理设备，其中，对用户的视觉呈现包括将显示对象叠加在图像或外部图像上。

(13)根据(2)至(12)中任一项所述的信息处理设备，其中，控制单元基于用户的脸部的朝向或噪声的声压来控制用于收集由用户所生成的声音的适合性的通知。

(14)根据(2)至(13)中任一项所述的信息处理设备，其中，控制单元基于与声音收集单元的声音收集结果有关的信息来控制是否执行用于引导的输出。

(15)根据(14)所述的信息处理设备，其中，与声音收集结果有关的信息包括使用声音收集结果的处理的开始信息。

(16)根据(14)或(15)所述的信息处理设备，其中，与声音收集结果有关的信息包括由声音收集单元所收集的噪声的声压信息。

(17)根据(2)至(16)中任一项所述的信息处理设备，其中，在执行使用声音收集单元的声音收集结果的处理期间执行用于引导的输出的情况下，控制单元停止处理的至少一部分。

(18)根据(17)所述的信息处理设备，其中，处理的至少一部分包括处理中的使用用户的脸部的朝向的处理。

(19)一种由处理器执行的信息处理方法，该信息处理方法包括：

基于噪声的生成源与收集由用户所生成的声音的声音收集单元之间的位置关系，来控制输出以引导用户的动作改变所生成的声音的声音收集特性，该动作不同于与声音收集单元的处理相关的操作。

(20)一种程序，用于使计算机实现：

另外，本技术也可以按如下配置。

(1)一种信息处理设备，包括：

控制单元，该控制单元被配置为基于声音收集单元和要由声音收集单元收集的声音的生成源之间的位置关系，来执行与和声音收集特性相关的声音收集单元的模式以及引导要收集的声音的生成方向的输出有关的控制。

(2)根据(1)所述的信息处理设备，

其中，要收集的声音包括语音，

要收集的声音的生成方向包括用户的脸部的方向，并且

控制单元基于位置关系和用户的脸部的方向来执行控制。

(3)根据(2)所述的信息处理设备，其中，控制单元基于与从生成源到声音收集单元的方向或从声音收集单元到生成源的方向与用户的脸部的朝向之间的差异有关的信息来执行控制。

(4)根据(3)所述的信息处理设备，其中，差异包括由从生成源到声音收集单元的方向或者从声音收集单元到生成源的方向与用户的脸部的朝向形成的角度。

(5)根据(2)至(4)中任一项所述的信息处理设备，其中，控制单元基于与声音收集单元的声音收集结果有关的信息来控制声音收集单元的模式和用于引导的输出的程度。

(6)根据(5)所述的信息处理设备，其中，与声音收集结果有关的信息包括要使用声音收集结果处理的内容的类型信息。

(7)根据(5)或(6)所述的信息处理设备，其中，与声音收集结果有关的信息包括声音收集单元或用户的周围环境信息。

(8)根据(5)至(7)中任一项所述的信息处理设备，其中，与声音收集结果有关的信息包括用户的模式信息。

(9)根据(8)所述的信息处理设备，其中，用户的模式信息包括关于用户的姿态的信息。

(10)根据(8)或(9)所述的信息处理设备，其中，用户的模式信息包括与用户浸入要使用声音收集结果处理的内容有关的信息。

(11)根据(2)至(10)中任一项所述的信息处理设备，其中，控制单元基于声音收集单元的声音收集灵敏度信息来判定是否执行控制。

(12)根据(2)至(11)中任一项所述的信息处理设备，其中，控制单元基于与声音收集单元的声音收集结果有关的信息仅控制声音收集单元的模式和用于引导的输出中的一个。

(13)根据(2)至(12)中任一项所述的信息处理设备，其中，声音收集单元的模式包括声音收集单元的位置或姿态。

(14)根据(2)至(13)中任一项所述的信息处理设备，其中，声音收集单元的模式包括与声音收集单元的声音收集相关的波束形成的模式。

(15)根据(2)至(14)中任一项所述的信息处理设备，其中，用于引导的输出包括通知用户的脸部的朝向将被改变的方向的输出。

(16)根据(2)至(15)中任一项所述的信息处理设备，其中，用于引导的输出包括通知声音收集单元的位置的输出。

(17)根据(2)至(16)中任一项所述的信息处理设备，其中，用于引导的输出包括对用户的视觉呈现。

(18)根据(2)至(17)中任一项所述的信息处理设备，其中，用于引导的输出包括与参考从引导引起的用户的脸部的朝向对用户的脸部的朝向的评估相关的输出。

(19)一种由处理器执行的信息处理方法，所述信息处理方法包括：

基于声音收集单元和要由声音收集单元收集的声音的生成源之间的位置关系，来执行与和声音收集特性相关的声音收集单元的模式以及引导要收集的声音的生成方向的输出有关的控制。

(20)一种程序，使计算机实现：

控制功能，用于基于声音收集单元和要由声音收集单元收集的声音的生成源之间的位置关系，来执行与和声音收集特性相关的声音收集单元的模式以及引导要收集的声音的生成方向的输出有关的控制。

参考标记列表

100信息处理设备

120通信单元

122VR处理单元

124语音输入适合性确定单元

126输出控制单元

130位置信息获取单元

132调整单位

134声音收集模式控制单元

200显示/声音收集设备

300声音处理设备

400声音收集/成像设备。

Claims

1.一种信息处理设备，包括：

控制单元，所述控制单元被配置为基于噪声的生成源与收集由用户所生成的声音的声音收集单元之间的位置关系，来控制输出以引导所述用户的动作改变所生成的声音的声音收集特性，所述动作不同于与所述声音收集单元的处理相关的操作。

2.根据权利要求1所述的信息处理设备，

其中，由所述用户所生成的所述声音包括语音，并且

所述控制单元基于所述位置关系和所述用户的脸部的朝向来控制所述用于引导的输出。

3.根据权利要求2所述的信息处理设备，其中，所述控制单元基于与从所述生成源到所述声音收集单元的方向或从所述声音收集单元到所述生成源的方向与所述用户的脸部的朝向之间的差异有关的信息来控制所述用于引导的输出。

4.根据权利要求3所述的信息处理设备，其中，所述差异包括由从所述生成源到所述声音收集单元的方向或从所述声音收集单元到所述生成源的方向与所述用户的脸部的朝向形成的角度。

5.根据权利要求2所述的信息处理设备，其中，所述用户的所述动作包括所述用户的脸部的朝向的改变。

6.根据权利要求2所述的信息处理设备，其中，所述用户的所述动作包括利用预定对象将所述生成源与所述声音收集单元进行阻隔的动作。

7.根据权利要求2所述的信息处理设备，其中，所述用于引导的输出包括与以由引导的动作引起的所述用户的模式为基准的所述用户的模式的评估有关的输出。

8.根据权利要求2所述的信息处理设备，其中，所述用于引导的输出包括与由所述声音收集单元所收集的所述噪声有关的输出。

9.根据权利要求8所述的信息处理设备，其中，与所述噪声有关的输出包括通知由所述声音收集单元所收集的所述噪声的可到达区域的输出。

10.根据权利要求8所述的信息处理设备，其中，与所述噪声有关的输出包括通知由所述声音收集单元所收集的所述噪声的声压的输出。

11.根据权利要求2所述的信息处理设备，其中，所述用于引导的输出包括对所述用户的视觉呈现。

12.根据权利要求11所述的信息处理设备，其中，对所述用户的所述视觉呈现包括将显示对象叠加在图像或外部图像上。

13.根据权利要求2所述的信息处理设备，其中，所述控制单元基于所述用户的脸部的朝向或所述噪声的声压来控制用于收集由所述用户所生成的声音的适合性的通知。

14.根据权利要求2所述的信息处理设备，其中，所述控制单元基于与所述声音收集单元的声音收集结果有关的信息来控制是否执行所述用于引导的输出。

15.根据权利要求14所述的信息处理设备，其中，与所述声音收集结果有关的所述信息包括使用所述声音收集结果的处理的开始信息。

16.根据权利要求14所述的信息处理设备，其中，与所述声音收集结果有关的所述信息包括由所述声音收集单元所收集的所述噪声的声压信息。

17.根据权利要求2所述的信息处理设备，其中，在执行使用所述声音收集单元的声音收集结果的处理期间执行所述用于引导的输出的情况下，所述控制单元停止所述处理的至少一部分。

18.根据权利要求17所述的信息处理设备，其中，所述处理的至少一部分包括所述处理中的使用所述用户的脸部的朝向的处理。

19.一种由处理器执行的信息处理方法，所述信息处理方法包括：

基于噪声的生成源与收集由用户所生成的声音的声音收集单元之间的位置关系，来控制输出以引导所述用户的动作改变所生成的声音的声音收集特性，所述动作不同于与所述声音收集单元的处理相关的操作。

20.一种程序，用于使计算机实现：

控制功能，用于基于噪声的生成源与收集由用户所生成的声音的声音收集单元之间的位置关系，来控制输出以引导所述用户的动作改变所生成的声音的声音收集特性，所述动作不同于与所述声音收集单元的处理相关的操作。