CN103688531A

CN103688531A - 控制装置、控制方法和程序

Info

Publication number: CN103688531A
Application number: CN201280035413.2A
Authority: CN
Inventors: 立石和也
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-07-26
Filing date: 2012-07-19
Publication date: 2014-03-26
Anticipated expiration: 2032-07-19
Also published as: JP5910846B2; JP2013026997A; BR112014001256A2; EP2737692A1; WO2013014886A1; EP2737692B1; US9398247B2; EP2737692A4; KR101913888B1; KR20140040230A; US20140313417A1; CN103688531B

Abstract

一种信息处理装置包括处理器，该处理器接收与再现内容的环境相对应的捕捉的图像数据和捕捉的声音数据，基于捕捉的图像数据来检测用户，基于检测的结果和捕捉的声音数据来分析环境的状况，并且基于分析的结果来控制与再现的内容相对应的音频音量。

Description

控制装置、控制方法和程序

技术领域

本技术涉及控制装置、控制方法和程序，具体而言涉及使得能够对诸如TV（电视接收机）之类的用于至少输出声音的输出装置的声音输出进行适当控制的控制装置、控制方法和程序。

背景技术

例如，专利文献1描述了一种TV，其检测周边噪音信息，根据用于拍摄周边图像的照相机的图像判定是否有观看者，并且在有观看者时基于噪音信息来抑制噪音。

另外，例如，专利文献2描述了一种记录和再现装置，其基于内容的音频信号生成内容分析信息，基于周边噪音生成环境噪音分析信息，并且基于内容分析信息和环境噪音分析信息来调节内容的音频信号的音量。

引文列表

专利文献

PTL1：日本专利申请特开2010-268284号公报

PTL2：日本专利申请特开2010-154388号公报

发明内容

技术问题

当在TV上观看节目的用户听到TV周围的说话语音，但该说话语音不是从该用户产生的时，也就是说该语音是来自一起居住的家庭成员之类的在TV所在的房间之外的地方进行的电话交谈的语音时，该电话交谈对于观看节目的用户来说是噪音，并且使其难以听到节目的声音（语音）。因此，在此情况下，希望调节TV的声音的输出，也就是说，增大TV的音量，使得观看节目的用户可容易听到TV上的节目的声音。

另一方面，当在TV周围听到的说话语音是从在TV上观看节目的用户产生的语音时，观看节目的用户自己产生语音。因此，不必调节TV的声音输出以允许观看节目的用户容易听到TV上的节目的声音。

如上所述，即使当在TV周围听到语音时，也有适于调节TV的声音输出的情况和适于不调节TV的声音输出的情况。

本技术是鉴于这种情况而完成的，并且使得能够对诸如TV之类的用于至少输出声音的输出装置的声音输出进行适当的控制。

解决问题的方案

根据本技术的一个方面，提供了一种信息处理装置，包括：处理器，该处理器：接收与再现内容的环境相对应的捕捉的图像数据和捕捉的声音数据；基于捕捉的图像数据来检测用户；基于检测的结果和捕捉的声音数据来分析环境的状况；以及基于分析的结果来控制与再现的内容相对应的音频音量。

根据本技术的另一方面的一种方法包括以下步骤：接收与再现内容的环境相对应的捕捉的图像数据和捕捉的声音数据；基于捕捉的图像数据来检测用户；基于检测的结果和捕捉的声音数据来分析环境的状况；以及基于分析的结果来控制与再现的内容相对应的音频音量。

在上述方面中，处理器从位于再现内容的环境中的照相机接收捕捉的图像数据并且基于捕捉的图像数据来检测脸部。

控制装置可以是独立的装置或者是构成一个装置的内部块。

可通过经由传输介质传输或记录在记录介质中来提供程序。

发明的有利效果

根据本技术，可以适当地控制输出装置的声音输出。

附图说明

图1是图示应用了本技术的TV的实施例的配置示例的框图。

图2是图示声音输出控制器14的配置示例的框图。

图3是说明声音输出控制器14执行的处理的流程图。

图4是说明音量/增益控制器35执行的声音输出控制处理的流程图。

图5说明音量/增益控制器35执行的声音输出控制的图。

图6是说明反映/登记声音调节键操作的处理的流程图。

图7是说明恢复处理的流程图。

图8是说明恢复处理的流程图。

图9是说明音量/增益控制器35执行的声音输出控制的另一示例的图。

图10是图示应用了本技术的计算机的实施例的配置示例的框图。

具体实施方式

<应用了本技术的TV的实施例>

图1是图示应用了本技术的TV的实施例的配置示例的框图。

在图1中，TV是用于至少输出声音的输出装置之一，并且具有调谐器11、信号处理器12、显示单元13、声音输出控制器14、扬声器单元15、控制器16和操作单元17。

调谐器11被提供以由天线（未示出）接收的电视广播信号的RF（Radio Frequency，射频）信号。

调谐器11对提供给它的RF信号进行检测和解调，实现由例如操作单元17的用户操作所选择的频道的节目的数据，并且将该数据提供给信号处理器12。

信号处理器12对来自调谐器11的节目的数据执行解码和其他必要的信号处理，将所得到的节目的视频（图像）数据提供给显示单元13，并且还将节目的音频（声音（语音））数据提供给扬声器单元15。

显示单元13例如包括LCD（液晶显示器）、有机EL（电致发光）等等，并且显示与来自信号处理器12的视频数据相对应的节目的图像。

声音输出控制器14拍摄TV周围的图像并且收集TV周围的环境声音，并且基于所得到的TV周围的拍摄图像和所得到的TV周围的环境声音来控制TV的声音输出，也就是说，例如控制扬声器单元15（的扬声器15L和15R）的音量之类的。

扬声器单元15具有用于输出L（左）声道的声音的扬声器15L和用于输出R（右）声道的声音的扬声器15R，并且根据声音输出控制器14的控制来输出与来自信号处理器12的音频数据相对应的节目的声音。

控制器16例如根据操作单元17等的操作来控制构成TV的每个块。

操作单元17是设在TV的壳体（主体）上的按钮、遥控器之类的，并且被用户操作以向控制器16提供与该操作相对应的操作信号。

<声音输出控制器14的配置示例>

图2是图示图1的声音输出控制器14的配置示例的框图。

在图2中，声音输出控制器14具有照相机21、麦克风（microphone）群组22、控制器23和存储单元24。

照相机21以预定的速率拍摄TV周围（尤其是例如在与显示单元13的显示屏幕相对的一侧）的周边图像，并且将所得到的拍摄图像提供给控制器23（的脸部检测器31）。

麦克风群组22具有多个麦克风，收集TV周围的环境声音，并且将环境声音提供给控制器23（的语音判定单元33）。

控制器23基于来自照相机21的所拍摄的TV周围的周边图像和来自麦克风群组22的TV周围的环境声音来控制TV的声音输出，例如扬声器单元15的扬声器15L和15R的音量。

也就是说，控制器23具有脸部检测器31、脸部信息获取单元32、语音判定单元33、状况分析器34、音量/增益控制器35和扬声器控制器36。

脸部检测器31在从照相机21提供来的拍摄图像上检测（人的）脸部，并向脸部信息获取单元42提供表示检测结果的脸部检测信息。

脸部信息获取单元32基于来自脸部检测器31的脸部检测信息之类的来获得关于拍摄图像上的脸部的脸部信息，并且将脸部信息提供给状况分析器34。

也就是说，脸部信息获取单元32例如从脸部检测信息中识别拍摄图像上显示的脸部的位置（例如在拍摄图像上的位置）和数目来作为脸部信息。

此外，脸部信息获取单元32对于在拍摄图像上显示的脸部执行个人识别以获得用于识别谁具有所识别的脸部（所识别的脸部是谁的脸部）的信息以及由个人识别所识别的人的年龄、性别等等来作为脸部信息。例如，家庭成员的个人识别所必要的信息可在TV等的初始化阶段输入。

语音判定单元33对从麦克风群组22提供来的环境声音执行频率分析之类的以检测环境声音的水平（增益）和产生环境声音的声音源的方向，并且还判定环境声音是人类的语音还是除了人类语音以外的声音（以下称为“非语音”）。

语音判定单元33将环境声音的水平、产生环境声音的声音源的方向和指示环境声音是语音还是非语音的判定结果作为关于环境声音的环境声音信息提供给状况分析器34。

状况分析器34基于从脸部信息获取单元32提供来的从拍摄图像获得的脸部信息和从语音判定单元33提供来的从环境声音获得的环境声音信息来分析TV周围的状况，并且将作为分析结果获得的TV周围的状况（以下称为“周边状况”）提供给音量/增益控制器35。

音量/增益控制器35根据来自状况分析器34的周边状况来控制扬声器控制器36，从而控制TV的声音输出，也就是说，例如，控制扬声器15L和15R的音量、扬声器15L和15R的声音输出的增益，等等。

音量/增益控制器35还根据操作单元17（图1）的用户操作来控制TV的声音输出。

也就是说，作为操作单元17的主体的按钮（键）和遥控器的按钮设有***作来调节TV的声音输出的声音调节键，例如***作来增大或减小音量的音量键、***作来静音的静音键，等等。

当用户对操作单元17的音量调节键进行操作时，控制器16向音量/增益控制器35提供作为与对音量调节键的操作相对应的操作信号的音量操作信号。

音量/增益控制器35根据从控制器16（来自图1）提供来的音量操作信号以及来自状况分析器34的周边状况来控制TV的声音输出。

如后文所述，音量/增益控制器35还可根据存储单元24中存储的信息来控制TV的声音输出。

扬声器控制器36根据来自音量/增益控制器35的控制来控制扬声器15L和15R的音量。

外部音频设备连接到TV，并且当节目的声音从外部音频设备的扬声器输出时，扬声器控制器36可根据来自音量/增益控制器35的控制来控制连接到TV的外部音频设备的扬声器的音量。

存储单元24存储控制器23的操作所必要的信息。

存储单元24的部分存储区域充当用于临时存储由麦克风群组22收集的环境声音的环境声音存储单元24A。

由麦克风群组22收集的环境声音被经由控制器23提供给环境声音存储单元24A。环境声音存储单元24A存储来自麦克风群组22的环境声音，并且当环境声音存储单元24A存储与其存储容量相对应量的环境声音时，以覆盖在最旧的环境声音上的方式存储从麦克风群组22新提供的环境声音。

因此，在环境声音存储单元24A中始终存储着预定时间段（例如，几十秒之类的）的最新环境声音。

<声音输出控制处理>

图3是说明图2的声音输出控制器14执行的处理的流程图。

在步骤S11中，声音输出控制器14收集环境声音信息和脸部信息，并且处理转到步骤S12。

也就是说，利用照相机21，拍摄TV周围的周边图像，并且所得到的拍摄图像被提供给脸部检测器31。

脸部检测器31检测在从照相机21提供来的拍摄图像上显示的脸部，并将表示检测结果的脸部检测信息提供给脸部信息获取单元32。

基于来自脸部检测器31的脸部检测信息之类的，脸部信息获取单元32获得例如拍摄图像上显示的脸部的位置、数目等等作为关于在拍摄图像上显示的脸部的脸部信息，并且将所获得的脸部信息提供给状况分析器34。

另一方面，TV周围的环境声音被麦克风群组22收集，并被提供给语音判定单元33。

语音判定单元33检测从麦克风群组22提供来的环境声音的水平和产生环境声音的声音源的方向，并且还判定环境声音是语音还是非语音。

语音判定单元33向状况分析器34提供环境声音的水平、产生环境声音的声音源的方向和指示环境声音是语音还是非语音的判定结果，作为环境声音信息。

由麦克风群组22收集的环境声音被提供给语音判定单元33，并且如上所述还被提供给环境声音存储单元24A并被临时存储在其中。

在步骤S12中，状况分析器34基于来自脸部信息获取单元32的脸部信息和来自语音判定单元33的环境声音信息来分析TV周围的周边状况，并将所分析的周边状况提供给音量/增益控制器35，并且处理转到步骤S13。

在步骤S13中，音量/增益控制器35根据来自状况分析器34的周边状况来控制扬声器控制器36以执行声音输出控制，用于控制TV的声音输出，也就是说，例如，扬声器15L和15R的音量、扬声器15L和15R的声音输出的增益等等，并且处理转到步骤S14。

在步骤S14中，音量/增益控制器35判定用户是否操作了声音调节键，该声音调节键是设在操作单元17中的并且在调节TV的声音输出时***作。

当在步骤S14中判定声音调节键未***作时，处理跳过步骤S15并且返回到步骤S11以重复相同的处理。

当在步骤S14中判定声音调节键***作时，也就是说，当用户操作了声音调节键并且从而与对声音调节键的操作相对应的音量操作信号被从控制器16（图1）提供给音量/增益控制器35时，处理转到步骤S15，音量/增益控制器35执行声音调节键操作反映/登记处理，通过该处理对声音调节键的操作被反映到TV的声音输出，并且关于该操作的操作信息被登记（存储）到存储单元24中，并且处理返回到步骤S11。

这里，“音量/增益控制器35在步骤S15中将对声音调节键的操作反映到TV的声音输出”指的是音量/增益控制器35通过根据对声音调节键的操作（音量操作信号）控制扬声器控制器36来控制TV的声音输出。

图4是说明音量/增益控制器35执行的根据周边状况的声音输出控制处理的流程图。

在步骤S21中，音量/增益控制器35基于周边状况判定TV周围的环境声音的水平是否小于预定的阈值。

当在步骤S21中判定环境声音的水平小于阈值时，也就是说，当在TV周围没有发生干扰对节目的观看的环境声音时，处理被返回。

当步骤S21中判定环境声音的水平不小于阈值时，也就是说，当有可能在TV周围发生干扰对节目的观看的环境声音时，处理转到步骤S22，并且音量/增益控制器35基于周边状况判定其水平不小于阈值的环境声音是否是人类语音。

当在步骤S22中判定其水平不小于阈值的环境声音（以下称为“大水平环境声音”）是人类的语音时，处理转到S23，并且音量/增益控制器35基于周边状况判定是否从拍摄图像中检测到脸部。

当在步骤S23中判定从拍摄图像中没有检测到脸部时，也就是说，在在TV周围听到人类的说话语音、但在TV周围没有人在观看节目的状况的情况下，处理转到步骤S24，并且音量/增益控制器35执行用于减小扬声器15L和15R的音量的声音输出控制，并且处理返回。

例如，观看节目的用户接收到电话呼叫并且在略微远离TV的地方进行电话交谈的状况或者用户将他/她的脸部转到位于与TV（照相机21）的方向完全不同的方向的房间并且与该房间中的他/她的家庭成员讲话的状况被认为是在TV周围听到人类的语音、但TV周围没有人存在的状况。

在此情况下，用户没有在观看节目，并且从TV输出的节目的语音（声音）可干扰用户进行的电话呼叫或者交谈。因此，音量/增益控制器35执行用于减小扬声器15L和15R的音量的声音输出控制。从而，可以防止TV的声音输出干扰用户进行的电话呼叫或交谈。

当在执行步骤S24的处理期间扬声器15L和15R的音量原本较小时，在步骤S24中可不执行用于调节音量的声音输出控制。

另一方面，当在步骤S23中判定从拍摄图像中检测到脸部时，也就是说当在由照相机21拍摄的拍摄图像上显示了一个或多个人的一个或多个脸部时，处理转到步骤S25，并且音量/增益控制器35基于周边状况判定相对于TV，产生作为语音的环境声音的声音源的方向和检测到脸部的位置的方向是否（被认为）相互一致。

当在步骤S25中判定产生作为语音的环境声音的声音源的方向与检测到（一个或多个脸部中的）任何脸部的位置的方向一致时，也就是说，在用户正观看节目并且观看节目的用户自己在进行交谈的状况的情况下，处理被返回。

这里，观看节目的用户在（与另一用户）进行关于节目的交谈的状况被认为是用户在观看节目并且用户在进行交谈的状况。

在此情况下，扬声器15L和15R的音量不被调节（保持不变）。

另外，当在步骤S25中判定产生作为语音的环境声音的声音源的方向与检测到脸部的位置的方向不一致时，也就是说，在用户在观看节目、但在TV周围听到除了用户以外的人的说话语音的状况的情况下，处理转到步骤S26，音量/增益控制器35执行用于增大扬声器15L和15R的音量的声音输出控制，并且处理返回。

也就是说，虽然有用户在观看节目、但没有在观看节目的用户在略微远离TV的地方（该用户未被显示在拍摄图像上的地方）发出一些噪音的状况被认为是用户在观看节目、但在TV周围听到除了用户以外的人的说话语音的状况。

在此情况下，发出一些噪音、而没有观看节目的用户的语音可干扰观看节目的用户的节目观看，从而音量/增益控制器35执行用于增大扬声器15L和15R的音量的声音输出控制。因此，观看节目的用户可观看节目，而不受在发出一些噪音、而没有观看节目的用户的干扰。

也就是说，当没有观看节目的用户产生干扰节目观看的语音时，扬声器15L和15R的音量被调节为增大。因此，在未观看节目的用户产生语音之前和之后，观看节目的用户能够在以相同的容易程度听到声音的同时观看节目。

另一方面，当在步骤S22中判定其水平不小于阈值的环境声音（大水平环境声音）不是人类的语音时，也就是说，当大水平环境声音是诸如电话或对讲机的呼叫声音之类的非语音时，处理转到步骤S27，并且音量/增益控制器35判定在存储单元24中登记（存储）的后文描述的登记声音中是否存在（被认为）与作为非语音的环境声音（大水平环境声音）一致的登记声音。

这里，当用户对操作单元17（图1）的声音调节键进行操作并且音量/增益控制器35根据对声音调节键的操作来执行声音输出控制时，关于对声音调节键的操作的操作信息和就在声音调节键***作之前的环境声音被相互关联地登记在存储单元24中。

登记声音指的是如上所述与操作信息相关联地登记在存储单元24中的环境声音。

当在步骤S27中判定不存在与作为非语音的环境声音一致的登记声音时，处理转到步骤S26，并且音量/增益控制器35执行用于增大扬声器15L和15R的音量的声音输出控制，使得用户的节目观看不受作为非语音的环境声音的干扰，并且处理返回。

当在步骤S27中判定存在与作为非语音的环境声音一致的登记声音时，处理转到步骤S28，并且音量/增益控制器35从存储单元24读出与和作为非语音的环境声音一致的登记声音相关联的操作信息，并且根据操作信息（所表示的对声音调节键的操作）来执行用于调节扬声器15L和15R的音量的声音输出控制，并且处理返回。

如上所述，在声音输出控制器14中，基于通过拍摄TV的周边而获得的拍摄图像和TV周围的环境声音来分析TV周围的周边状况，并且根据周边状况来控制TV的声音输出。因此，可以适当地控制声音的输出。

也就是说，例如，当在用户用来观看节目的TV周围听到说话语音并且该说话语音来自一起居住的家庭成员之类的在TV所在的房间之外的地方进行的电话交谈时，在图4的步骤S25中判定声音源的方向和检测到脸部的位置的方向不相互一致，并且来自TV的音量被调节到更大。因此，可以防止一起居住的家庭成员之类的进行的电话交谈干扰观看节目的用户的节目观看。

另外，当在TV周围听到的说话语音是由在TV上观看节目的用户产生的语音时，在图4的步骤S25中判定声音源的方向和检测到脸部的位置的方向相互一致，并且来自TV的音量不被调节（保持不变）。因此，可以防止在用户没有感到任何调节音量的需要的情况下对来自TV的音量的调节。

图5是说明图2的音量/增益控制器35执行的声音输出控制的图。

如参考图3和图4所描述的，音量/增益控制器35根据TV周围的周边状况执行用于调节来自TV的声音的声音输出控制。然而，除了TV周围的周边状况以外，还可根据（从TV）到观看节目的用户的距离（观看距离）、对观看节目的用户的个人识别的结果等等，来执行声音输出控制。

也就是说，在观看距离较长（不小于预定的阈值）的情况下，当增大音量时，例如，增大音量的调节量可被设定成大于预设的默认调节量（更大幅地增大音量）。

另外，在观看距离较短（小于预定阈值）的情况下，当增大音量时，例如，增大音量的调节量可被设定成小于默认调节量。

此外，例如，当作为对用户的个人识别的结果获得的观看节目的用户的年龄是不小于80岁的高龄时，当增大音量时，例如，增大音量的调节量可被设定成大于默认调节量。在此情况下，代替音量的增大（或者除了音量的增大以外），可以增大高龄人难以听到的频率成分的增益。

图6是说明音量/增益控制器35执行的声音调节键操作反映/登记处理的流程图，通过该处理，对声音调节键的操作被反映到TV的声音输出并且关于该操作的操作信息被登记（存储）到存储单元24中。

在步骤S41中，音量/增益控制器35根据在图3的步骤S14中判定被用户操作的声音调节键的操作来执行用于调节音量的声音输出控制，并且处理转到步骤S42。

也就是说，例如，当用户操作声音调节键以仅通过两个阶段之类的来增大音量时，音量/增益控制器35根据该操作来执行用于仅通过两个阶段增大音量的声音输出控制。

在步骤S42中，音量/增益控制器35从存储预定时间段的最新环境声音的环境声音存储单元24A中读出就在声音调节键***作之前的固定时间段中的环境声音（以下称为“就在操作之前的环境声音”），并且分析就在操作之前的环境声音，并且处理转到步骤S43。

在步骤S43中，音量/增益控制器35把就在操作之前的环境声音（的分析结果）作为登记声音与关于对声音调节键的操作的操作信息相关联地登记到存储单元24中，并且处理返回。

这里，如参考图4的步骤S27和S28所描述的，当在存储单元24中登记的登记声音中存在（被认为）与作为非语音的环境声音（大水平环境声音）一致的登记声音时，音量/增益控制器35根据与该登记声音相关联的操作信息来调节音量。

因此，在就在环境声音发生之后用户曾通过对声音调节键的用户操作按预定的调节量调节过音量（包括静音）的情况下，当后来发生类似的环境声音时，在没有任何对声音调节键的用户操作的情况下执行与曾执行过的相同量的调节。

也就是说，TV可表现出所谓的学习功能，就好像TV记住了用户执行的对声音调节键的操作那样。

如参考图4的步骤S27和S28所描述的，在根据与登记在存储单元24中并与环境声音一致的登记声音相关联的操作信息在音量/增益控制器35中执行对音量的调节的情况下，当与登记声音一致的环境声音后来消失时，音量可被调节为返回到原始音量。

类似地，即使当在图4的步骤S24、S26和S28中调节了音量或者在图6的步骤S41中根据对声音调节键的用户操作调节了音量的情况下，当周边状况返回到调节音量之前的原始状况时，音量也可以经历作为用于将音量返回到原始音量的调节处理的恢复处理。

图7是说明用于将在图4的步骤S24、S26和S28中调节的音量返回到原始音量的恢复处理的流程图。

当在图4的步骤S24、S26和S28中调节了音量时，图7的恢复处理开始。

在存储单元24（图2）中，存储了由状况分析器34获得的固定时间段的最新周边状况，并且最新周边状况之中的就在引起图4的步骤S24、S26和S28中的音量调节的大水平环境声音发生之前的周边状况被存储直到恢复处理完成为止。

在声音输出控制器14（图2）中，在步骤S51中，像图3的步骤S11中那样，脸部信息获取单元32收集脸部信息并且语音判定单元33收集环境声音信息，并且处理转到步骤S52。

在步骤S52中，状况分析器34像图3的步骤S12中那样基于由脸部信息获取单元32获得的脸部信息和由语音判定单元33获得的环境声音信息来分析TV周围的周边状况，并将分析出的周边状况提供给音量/增益控制器35，并且处理转到步骤S53。

这里，图7的步骤S51和S52的处理可被图3的步骤S11和S12的处理所替代。

在步骤S53中，音量/增益控制器35基于来自状况判定单元34的周边状况判定在图4的步骤S21中判定其水平不小于阈值的环境声音（大水平环境声音）是否消失。

当在步骤S53中判定大水平环境声音没有消失时，处理返回到步骤S51。

当在步骤S53中判定大水平环境声音消失时，处理转到步骤S54，并且音量/增益控制器35判定来自状况判定单元34的周边状况是否返回到了在水平不小于阈值的环境声音（大水平环境声音）发生之前存储在存储单元24中的状况（原始状况）。

当在步骤S54中判定来自状况判定单元34的周边状况尚未返回到大水平环境声音发生之前的原始状况时，处理返回到步骤S51。

另外，当在步骤S54中判定来自状况判定单元34的周边状况已返回到大水平环境声音发生之前的原始状况时，处理转到步骤S55，音量/增益控制器35执行用于使在图4的步骤S24、S26或S28中调节的音量返回到原始音量的声音输出控制，并且恢复处理完成。

有这样的情况，即，用户因为周边状况的变化而操作声音调节键。即使在用户因为周边状况的变化而操作声音调节键，从而在图6的步骤S41中根据对声音调节键的操作而调节音量的情况下，当周边状况后来返回到调节音量之前的原始状况（变化前的状况）时，音量/增益控制器35也可以像图7的恢复处理的情况中那样使音量返回到原始音量。

图8是说明用于使在图6的步骤S41中调节的音量返回到原始音量的恢复处理的流程图。

当在图6的步骤S41中调节了音量时，图8的恢复处理开始。

像图7的情况中那样，在存储单元24（图2）中，存储了固定时间段的最新周边状况，并且从最新周边状况中选择当用户因为周边状况的变化而操作声音调节键时（当就在周边状况改变之后声音调节键***作时）的变化前的周边状况，并且存储该变化前的周边状况直到图8的恢复处理完成为止。

像图3的步骤S11的情况中那样，在声音输出控制器14（图2）中，在步骤S61中脸部信息获取单元32收集脸部信息并且语音判定单元33收集环境声音信息，并且处理转到步骤S62。

在步骤S62中，状况分析器34像图3的步骤S12的情况中那样基于由脸部信息获取单元32获得的脸部信息和由语音判定单元33获得的环境声音信息来分析TV周围的周边状况，并将分析出的周边状况提供给音量/增益控制器35，并且处理转到步骤S63。

这里，图8的步骤S61和S62的处理可被图3的步骤S11和S12的处理所替代。

在步骤S63中，音量/增益控制器35判定来自状况判定单元34的周边状况是否返回到了在变化之前存储在存储单元24中的状况（原始状况）。

当在步骤S63中判定来自状况判定单元34的周边状况尚未返回到原始状况时，处理返回到步骤S61。

当在步骤S63中判定来自状况判定单元34的周边状况已返回到原始状况时，处理转到步骤S64，音量/增益控制器35执行用于使在图6的步骤S41中调节的音量返回到原始音量的声音输出控制，并且恢复处理完成。

图9是说明图2的音量/增益控制器35执行的声音输出控制的另一示例的图。

在环境声音是例如对讲机或电话的呼叫声音并且环境声音在语音判定单元33中被判定为是非语音（对环境声音的判定结果指示非语音）的情况下，当从拍摄图像中没有检测到脸部（从拍摄图像中检测到的脸部的数目为零）时，用户只是听节目的声音而没有观看图像并且希望稳定地听到节目的声音的状况被认为是TV周围的状况（周边状况）。

在此情况下，音量/增益控制器35可执行用于增大音量的声音输出控制。

当环境声音如上所述是非语音并且从拍摄图像中检测到脸部（从拍摄图像中检测到的脸部的数目是一个或多个）时，用户在观看节目并且希望稳定地听到节目的声音的状况被认为是TV周围的周边状况。

在此情况下，音量/增益控制器35也可执行用于增大音量的声音输出控制。

在环境声音是例如人类交谈之类的并且语音判定单元33判定环境声音是语音（对环境声音的判定结果指示语音）的情况下，当从拍摄图像中没有检测到脸部（从拍摄图像中检测到的脸部的数目为零）时，用户没有在观看任何节目并且在用电话之类的进行交谈的状况被认为是TV周围的周边状况。

在此情况下，音量/增益控制器35可执行用于减小音量的声音输出控制以防止从TV输出的节目的声音干扰用户的交谈。

在环境声音如上所述是语音的情况下，当从拍摄图像中检测到脸部（从拍摄图像中检测到的脸部的数目是一个或多个）并且产生作为环境声音的语音的声音源的方向与从拍摄图像中检测到的脸部（任何脸部）的位置的方向一致时，用户在观看节目的同时用电话之类的进行交谈的状况被认为是TV周围的周边状况。

在此情况下，音量/增益控制器35可保持音量不变，而不调节音量，也就是说，可以不执行声音输出控制。

在环境声音如上所述是语音的情况下，当从拍摄图像中检测到脸部并且产生作为环境声音的语音的声音源的方向与从拍摄图像中检测到的脸部（任何脸部）的位置的方向不一致时，有一用户在观看节目并且有一用户在进行交谈而没有观看任何节目（没有看TV一侧）的状况被认为是TV周围的周边状况。

在此情况下，音量/增益控制器35可执行用于增大音量的声音输出控制，以便防止没有观看节目的用户的交谈干扰正在观看节目的用户的节目观看。

另外，无论环境声音或者从拍摄图像中的脸部检测如何，在夜间（被设定为夜间的时间段）期间可执行用于减小音量的声音输出控制以例如防止声音传播过TV所在的房间的墙壁并且到达另一房间。

取代用于减小或增大音量的声音输出控制（或者与这种声音输出控制一起），音量/增益控制器35可以执行用于减小或增大节目的声音的预定频带的增益的声音输出控制。

例如，当环境声音是非语音时，通过分析该非语音的频率特性来检测该非语音中的具有高增益的频带（以下称为“高增益带”），并且增大节目的声音的高增益带的增益，从而使得作为噪音的非语音可以相当于经历噪音消除。

另外，如上所述，当在夜间防止声音传播过TV所在的房间的墙壁并到达另一房间时，可以执行用于减小（抑制）节目的声音的低音的增益的声音输出控制。

用于调节节目的声音的每个频率成分的增益的方式可以根据例如TV的模式——例如游戏模式和剧场（影院）模式——或者在TV上显示（输出）的作为节目的内容的类别（例如，体育节目之类的）而改变。

<对应用了本技术的计算机的描述>

接下来，可通过硬件或软件执行上述一系列处理。当通过软件执行该一系列处理时，构成该软件的程序被安装在通用计算机等中。

图10图示了计算机的实施例的配置示例，在该计算机中安装了用于执行上述一系列处理的程序。

该程序可被预先记录在计算机中包含的作为记录介质的硬盘105或ROM103中。

或者，该程序可被存储（记录）在可移除记录介质111中。可以以所谓的套装软件的形式提供这种可移除记录介质111。这里，作为可移除记录介质111，已知软盘、CD-ROM（致密盘只读存储器）、MO（磁光）盘、DVD（数字多功能盘）、磁盘、半导体存储器等等。

除了将程序从上述可移除记录介质111安装到计算机中以外，也可经由通信网络或广播网络将程序下载到计算机中并安装到计算机中包含的硬盘105中。也就是说，例如，可以将程序从下载站点经由用于数字卫星广播的人造卫星无线地发送到计算机或者通过线缆经由诸如LAN（局域网）或因特网之类的网络发送到计算机。

计算机包含CPU（中央处理单元）102，并且输入/输出接口110经由总线101连接到CPU102。

当用户操作输入单元107之类的以通过输入/输出接口110输入指令时，CPU102根据该指令执行ROM（只读存储器）103中存储的程序。或者，CPU102将硬盘105中存储的程序加载到RAM（随机存取存储器）104中并且执行该程序。

因此，CPU102执行根据上述流程图的处理或者上述框图的配置所要执行的处理。经由输入/输出接口110，CPU102例如根据需要从输出单元106输出处理结果，从通信单元108发送处理结果，将处理结果记录到硬盘105中等等。

输入单元107由键盘、鼠标、麦克风等等构成。输出单元106由LCD（液晶显示器）、扬声器等等构成。

这里，在本说明书中，由计算机根据程序执行的处理不一定需要根据被描述为流程图的顺序来按时序执行。也就是说，由计算机根据程序执行的处理包括并行或单独执行的处理（例如，并行处理或面向对象的处理）。

程序可由一个计算机（处理器）处理或者由多个计算机分散处理。另外，程序可被发送到远程计算机并由该远程计算机执行。

本技术的实施例不限于上述实施例，并且在不脱离本技术的主题的情况下可进行各种修改。

也就是说，本技术可被应用到除了TV以外的用于至少输出声音的输出装置。

在此实施例中，由调谐器11接收的节目被设定为处理对象。然而，根据本技术，除了由调谐器11接收的节目以外，记录器中记录的内容、从诸如因特网之类的网络上的服务器提供的内容等等也可被设定为处理对象。

当用户在图4的步骤S24或S26中操作声音调节键以在音量调节之后将音量调节返回到原始的时，当时的周边状况可被登记在存储单元24中（学习）。在以后的步骤S24或S26中，当周边状况与存储单元24中存储的状况一致时可以不执行（可以限制）音量调节。

在图4的步骤S24、S26或S28中在没有对声音调节键的用户操作时调节音量的情况下，如果在没有告知的情况下调节音量，则可能使用户感到不舒服。因此，指示音量调节的执行的消息可被显示在显示单元13上（或者利用语音从扬声器单元15输出）。

这里，指示音量调节的执行的消息的显示（输出）的开/关可通过用户对操作单元17的操作来切换。

另外，在图6的反映/登记声音调节键操作的处理中，在步骤S43中关于对声音调节键的操作的操作信息被与就在声音调节键***作之前的固定时间段的环境声音（就在操作之前的环境声音）相关联地登记在存储单元24中。然而，将操作信息登记到存储单元24中不仅可以与就在操作之前的环境声音相关联地执行，而且可以与个人识别的结果、时间段、TV上显示的节目的源（输入源）等等相关联地执行。

在关于对声音调节键的操作的操作信息被与就在操作之前的环境声音、个人识别的结果等等相关联地登记在存储单元24中的情况下，基于个人识别的结果等来识别观看节目的用户，并且即使当发生相同的就在操作之前的环境声音时也可根据对每个用户不同的对声音调节键的操作来执行音量调节。

这里，在关于对声音调节键的操作的操作信息被与个人识别的结果、时间段和输入源以及就在操作之前的环境声音相关联地登记在存储单元24中的情况下，当和与操作信息相关联的新的就在操作之前的环境声音等等完全相同的就在操作之前的环境声音等等已经被登记在存储单元24中时，操作信息和新的就在操作之前的环境声音等等的集合被登记在存储单元24中以覆盖相同的就在操作之前的环境声音等等。

本技术可被配置如下。

（1）一种信息处理装置，包括：

处理器，该处理器：

接收与再现内容的环境相对应的捕捉的图像数据和捕捉的声音数据；

基于所述捕捉的图像数据来检测用户；

基于所述检测的结果和所述捕捉的声音数据来分析所述环境的状况；以及

基于所述分析的结果来控制与再现的内容相对应的音频音量。

（2）如（1）所述的信息处理装置，其中

所述处理器从位于所述再现内容的环境中的照相机接收所述捕捉的图像数据并且基于所述捕捉的图像数据来检测脸部。

（3）如（1）所述的信息处理装置，其中

所述处理器从位于所述再现内容的环境中的麦克风接收所述声音数据。

（4）如（2）所述的信息处理装置，其中

所述处理器基于所述捕捉的图像数据来检测与检测到的脸部相对应的位置。

（5）如（2）所述的信息处理装置，其中

所述处理器基于所述捕捉的图像数据来检测多个脸部。

（6）如（2）所述的信息处理装置，其中

所述处理器确定与检测到的脸部相对应的脸部信息，所述脸部信息包括个人、年龄和性别中的至少一者。

（7）如（1）所述的信息处理装置，其中

所述处理器确定与所述捕捉的声音数据相对应的声音水平。

（8）如（1）所述的信息处理装置，其中

所述处理器确定与所述捕捉的声音数据的源相对应的方向。

（9）如（1）所述的信息处理装置，其中

所述处理器判定所述捕捉的声音数据是人类的语音还是除了人类的语音以外的声音。

（10）如（1）所述的信息处理装置，其中

所述分析包括判定与所述捕捉的声音数据相对应的声音水平是否大于或等于预定的阈值。

（11）如（10）所述的信息处理装置，其中

当判定所述水平小于所述预定的阈值时，所述处理器控制与所述再现的内容相对应的所述音频音量保持不变。

（12）如（10）所述的信息处理装置，其中

当判定所述水平大于所述预定的阈值时，所述处理器判定所述捕捉的声音数据是人类的语音还是除了人类的语音以外的声音。

（13）如（12）所述的信息处理装置，其中

当判定所述捕捉的声音数据是人类的语音并且基于所述捕捉的图像数据没有检测到脸部时，所述处理器控制与所述再现的内容相对应的所述音频音量降低。

（14）如（12）所述的信息处理装置，其中

当判定所述捕捉的声音数据是人类的语音并且基于所述捕捉的图像数据检测到脸部时，所述处理器确定与所述捕捉的声音数据的源相对应的方向。

（15）如（14）所述的信息处理装置，其中

当判定与所述捕捉的声音的源相对应的方向与基于所述捕捉的图像数据检测到的脸部的位置一致时，所述处理器控制与所述再现的内容相对应的所述音频音量保持不变。

（16）如（14）所述的信息处理装置，其中

当判定与所述捕捉的声音的源相对应的方向与基于所述捕捉的图像数据检测到的脸部的位置不一致时，所述处理器控制与所述再现的内容相对应的所述音频音量增大。

（17）如（12）所述的信息处理装置，其中

当判定所述捕捉的声音数据被判定为是除了人类的语音以外的声音时，所述处理器判定所述捕捉的声音数据是否对应于预先登记的环境声音。

（18）如（17）所述的信息处理装置，其中

当判定所述捕捉的声音数据对应于预先登记的环境声音时，所述处理器控制与所述再现的内容相对应的所述音频音量增大。

（19）如（17）所述的信息处理装置，其中

当判定所述捕捉的声音数据对应于预先存储的环境声音时，所述处理器基于预先存储的与所述环境声音相对应的设定来控制与所述再现的内容相对应的所述音频音量。

（20）一种由信息处理装置执行的方法，该方法包括：

基于所述捕捉的图像数据来检测用户；

（21）一种非暂态计算机可读介质，包括计算机程序指令，所述计算机程序指令当被信息处理装置执行时使得该信息处理装置执行一种方法，该方法包括：

基于所述捕捉的图像数据来检测用户；

附图标记列表

11 调谐器

12 信号处理器

13 显示单元

14 声音输出控制器

15 扬声器单元

15L、15R 扬声器

16 控制器

17 操作单元

21 照相机

22 麦克风群组

23 控制器

24 存储单元

24A 环境声音存储单元

31 脸部检测器

32 脸部信息获取单元

33 语音判定单元

34 状况分析器

35 音量/增益控制器

36 扬声器控制器

101 总线

102 CPU

103 ROM

104 RAM

105 硬盘

106 输出单元

107 输入单元

108 通信单元

109 驱动器

110 输入/输出接口

111 可移除记录介质

Claims

1.一种信息处理装置，包括：

处理器，该处理器：

基于所述捕捉的图像数据来检测用户；

2.如权利要求1所述的信息处理装置，其中

所述处理器从位于再现内容的所述环境中的照相机接收所述捕捉的图像数据并且基于所述捕捉的图像数据来检测脸部。

3.如权利要求1所述的信息处理装置，其中

所述处理器从位于再现内容的所述环境中的麦克风接收所述声音数据。

4.如权利要求2所述的信息处理装置，其中

5.如权利要求2所述的信息处理装置，其中

所述处理器基于所述捕捉的图像数据来检测多个脸部。

6.如权利要求2所述的信息处理装置，其中

所述处理器确定与检测到的脸部相对应的脸部信息，所述脸部信息包括个人、年龄和性别中的至少一个。

7.如权利要求1所述的信息处理装置，其中

所述处理器确定与所述捕捉的声音数据相对应的声音水平。

8.如权利要求1所述的信息处理装置，其中

所述处理器确定与所述捕捉的声音数据的源相对应的方向。

9.如权利要求1所述的信息处理装置，其中

10.如权利要求1所述的信息处理装置，其中

11.如权利要求10所述的信息处理装置，其中

当判定所述声音水平小于所述预定的阈值时，所述处理器控制与所述再现的内容相对应的音频音量保持不变。

12.如权利要求10所述的信息处理装置，其中

当判定所述声音水平大于所述预定的阈值时，所述处理器判定所述捕捉的声音数据是人类的语音还是除了人类的语音以外的声音。

13.如权利要求12所述的信息处理装置，其中

当判定所述捕捉的声音数据是人类的语音并且基于所述捕捉的图像数据没有检测到脸部时，所述处理器控制与所述再现的内容相对应的音频音量降低。

14.如权利要求12所述的信息处理装置，其中

15.如权利要求14所述的信息处理装置，其中

当判定与所述捕捉的声音的源相对应的方向与基于所述捕捉的图像数据检测到的脸部的位置一致时，所述处理器控制与所述再现的内容相对应的音频音量保持不变。

16.如权利要求14所述的信息处理装置，其中

当判定与所述捕捉的声音的源相对应的方向与基于所述捕捉的图像数据检测到的脸部的位置不一致时，所述处理器控制与所述再现的内容相对应的音频音量增大。

17.如权利要求12所述的信息处理装置，其中

18.如权利要求17所述的信息处理装置，其中

当判定所述捕捉的声音数据对应于预先登记的环境声音时，所述处理器控制与所述再现的内容相对应的音频音量增大。

19.如权利要求17所述的信息处理装置，其中

当判定所述捕捉的声音数据对应于预先存储的环境声音时，所述处理器基于先前存储的与所述环境声音相对应的设定来控制与所述再现的内容相对应的音频音量。

20.一种由信息处理装置执行的方法，该方法包括：

基于所述捕捉的图像数据来检测用户；

21.一种非暂态计算机可读介质，包括计算机程序指令，所述计算机程序指令当被信息处理装置执行时使得该信息处理装置执行一种方法，该方法包括：

基于所述捕捉的图像数据来检测用户；