CN101510425A

CN101510425A - 声音识别装置以及用于执行声音识别的方法

Info

Publication number: CN101510425A
Application number: CNA2009100074381A
Authority: CN
Inventors: 杉山博史; 铃木薰; 山本大介; 古贺敏之
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-02-15
Filing date: 2009-02-13
Publication date: 2009-08-19
Anticipated expiration: 2029-02-13
Also published as: US8155968B2; CN101510425B; JP5075664B2; JP2009192942A; US20090210227A1

Abstract

本发明涉及声音识别装置以及用于执行声音识别的方法。其中，声音识别装置包括：声音识别模块，对声音区间期间的音频信号执行声音识别；距离测量模块，测量用户和声音输入模块之间的当前距离；计算模块，基于声音特性计算推荐距离范围，在该推荐距离范围内估算出S/N比超过第一阈值；以及显示模块，显示推荐距离范围和当前距离。

Description

声音识别装置以及用于执行声音识别的方法

相关申请的交叉参考

本申请涉及包含在2008年2月15日提交的日本专利申请申请第2008-035126号中的主题，其全部内容通过引用结合于此作为参考。

技术领域

本申请涉及声音识别装置，以及用于执行声音识别的方法。

背景技术

通常，已经知道一种与用户执行声音交互的机器人，其被称作声音交互机器人。然而，在一些情况下由于从诸如家庭或办公室的实际环境中的各种设备输出的噪声，声音交互机器人可能不能正确地识别由用户发出的声音。为了提高在由家庭电器或用户的动作发出噪声的环境中的声音识别率，优选地由用户以适当的强度将声音输入到传声器中。

已经提出了一种用于通过在检测到用户声音时计算S/N比并在S/N比低于给定值时将机器人移向用户来改进S/N比的方法。这样的方法的示例在JP-A-2006-181651(同族美国公开是：US2006/0143017 A1)中被公开。然而，根据该方法，其没有确定机器人为了接收满足足以进行声音识别的S/N比的声音而需要向用户移近多少。此外，当周围噪声强度改变时，需要接收来自用户的另一声音来确定至用户的距离是否恰当。

已经提出了一种用于向用户指示实际声音强度和根据周围噪声强度的相对期望声音强度以使用户直觉地知道期望的声音音量的方法。该方法的示例在JP-A-2006-227499中被公开。然而，用户发出的大量声音是通过用户的头盖(brainpan)被用户听到的。因此，用户难以根据机器人发出的指示来调节声音的音量。同样，当周围噪声强度变化时，需要用户再次发出声音以接收适当强度范围内的声音。

上述传统方法采用了通过由用户发出的多个声音来调节用户的声音强度的方法。因此，这些方法需要用户每次在由于环境变化(诸如周围噪声强度的变化)而需要调节的时候再次发出声音。

发明内容

根据本发明的一个方面，提供了一种语音识别装置，包括：音频输入模块，其接收音频输入，并输出音频信号，该音频输入模块具有被配置为可调节的增益；语音识别模块，在音频信号中检测发现用户的语音出现的语音区间，并对该语音区间期间的音频信号执行语音识别；第一强度测量模块，测量语音区间中的音频信号的信号强度并将测量的信号强度作为语音强度输出；第二强度测量模块，测量噪声区间中的音频信号的信号强度并将测量的信号强度作为噪声强度输出，其中噪声区间是语音区间之外的时间区间；第一计算模块，计算作为语音强度与噪声强度之比的S/N比；距离测量模块，测量用户和语音输入模块之间的当前距离；第一存储模块，存储对应于语音识别模块能够执行具有给定识别率的语音识别的S/N比的第一阈值；第二存储模块，存储具有语音强度、当前距离以及增益的集合的语音特性，通过该语音特性，语音识别模块成功执行语音识别；第二计算模块，基于语音特性计算用于当前距离的推荐距离范围，在该推荐距离范围内，估算出S/N比超过第一阈值；以及显示模块，显示推荐距离范围和当前距离。

根据本发明的另一方面，提供了一种执行语音识别的方法，该方法包括：接收音频输入以输出具有被配置为可调节的增益的音频信号；在音频信号中检测发现出现用户的语音的语音区间以对该语音区间期间的音频信号执行语音识别；测量语音区间中的音频信号的信号强度以将测量的信号强度作为语音强度输出；测量噪声区间中的音频信号的信号强度，以将所测量的信号强度作为噪声强度输出，该噪声区间是语音区间之外的时间区间；计算作为语音强度与噪声强度之比的S/N比；测量距离用户的当前距离；存储对应于语音识别模块能够执行语音识别以具有给定识别率的S/N比的第一阈值；存储具有语音强度、当前距离以及增益的集合的语音特性，通过该语音特性，已经成功执行语音识别；基于语音特性计算用于当前距离的推荐距离范围，在该推荐距离范围内，估算出S/N比超过第一阈值；以及显示该推荐距离范围和当前距离。

附图说明

将参考附图描述实施本发明的各种特征的一般配置。提供的附图及其相关描述是为了示出本发明的实施例，而不用于限制本发明的范围。

图1是示出了根据本发明的第一实施例的声音交互机器人的外观的示意图。

图2是示出了根据第一实施例的声音交互机器人的使用的示例的示意图。

图3是根据第一实施例的声音交互机器人的功能框图。

图4是示出了在确定包括在输入至声音交互机器人的音频信号中的声音区间和噪声区间时的声音特性的示例的示意图。

图5是示出了存储在声音识别特性数据库中的噪声强度的上限和声音强度的下限和上限的示意图。

图6是示出了S/N比和声音识别率之间的相关性的示意图。

图7是示出了由推荐距离范围估算模块执行的处理的流程图。

图8是在推荐距离范围估算模块中的声音强度测量处理的流程图。

图9是由推荐距离范围估算模块调节增益和计算推荐距离范围的流程图。

图10是由推荐距离范围通知模块执行的处理的流程图。

图11是示出了根据第二实施例的包括用于用户鉴别的处理的配置的框图。

图12是包括用户鉴别的推荐距离范围估算模块的处理的流程图。

图13是示出了在指示器上显示推荐声音距离的示例的示意图。

图14是示出了由声音交互机器人的手臂的动作来通知用户是否处于推荐声音距离内的示例的示意图。

具体实施方式

以下，将参考附图描述本发明的实施例。在下面的描述中，相同或相似的部件用相同的参考标号表示，并且省略对其的重复描述。

第一实施例

下面将描述根据第一实施例的声音交互机器人。

图1是示出了根据第一实施例的声音交互机器人的外观的示意图。声音交互机器人100用于家庭使用，并设置有图像获取装置101和102(例如CCD摄像机)、声音输入装置103和104(例如传声器)、距离传感器105、遥控信号发射器/接收器109、指示器106、以及可移动部件107和108(例如机器人的手臂)。

声音输入装置103和104布置在声音交互机器人100的头部并将用户的声音(声音)转换为模拟信号。通过具有增益调节功能的传声器放大器放大经转换的模拟信号，通过A/D转换器(未示出)转换为数字信号，并作为声音数据被处理器(未示出)处理。

距离传感器105是用于测量至对象的距离并输出表示距离的信号的装置。距离传感器105可以是红外测距传感器或超声波测距传感器。距离传感器105靠近声音输入装置103布置，并用于测量用户和声音输入装置103以及104之间的距离。

指示器106布置在机器人100的主体的正面。指示器106是一种显示装置，例如LED和液晶面板，用于向用户显示随时间变化的信息。在第一实施例中，指示器106被用于向用户显示推荐的声音距离和用户与声音交互机器人100之间的距离。

遥控信号发射器/接收器109是用于发射或接收用于操作家用电器的遥控信号的装置。遥控信号发射器/接收器109接收从用户操作的遥控器发射的信号(例如红外码)。同样，遥控信号发射器/接收器109根据用户说出的指令，通过发送给定的信号(例如红外码)来操作家用电器，例如电视机203。

可移动部件107和108是用于使声音交互机器人100能够表现动作的部件。通过可移动部件107和108的动作，将用户是否处于推荐距离范围内的确定结果通知给用户，推荐距离范围是适于声音的距离范围。

图2是示出了根据第一实施例的声音交互机器人的使用的示意图。

声音交互机器人100可以被放置在餐桌202上使用，以及用户201对声音交互机器人100说出指令词汇。

例如，用户201说出指令词汇“打开电视机”，声音交互机器人100通过声音识别来识别指令以“打开电视机”。声音交互机器人100从遥控信号发射器/接收器109发射遥控信号，并打开电视机203的电源。假设在打开电视机203之前，用户201从图2中所示的距离D2向声音交互机器人100说话。在电视机203为开启的状态下，电视机203的声音成为增加噪声强度的噪声，使得说话声音与噪声的S/N比减小。

当用户201以恒定音量发出声音时，在发出声音以增加S/N比之前，用户201必须接近声音交互机器人100直至距离D1，距离D1小于图2中所示的D2。在第一实施例中，根据周围噪声强度来估算声音识别率大于特定值的声音交互机器人100和用户201之间的距离范围。

经估算的推荐距离范围以及由距离传感器105测量的用户201和声音交互机器人100之间的距离被通知给用户201。因此，用户201知道用户201是否处在推荐距离范围内，该推荐距离范围适合于该取决于噪声强度的声音，以及用户201需要向声音交互机器人100移动多少以位于推荐距离范围内。以该方式，可以支持用户移至适于发出满足期望正确率的声音识别的声音的距离范围内。

图13是示出了向用户201通知适于声音的推荐距离范围以及用户201和声音交互机器人100之间的距离的指示器106的示例的示意图。

指示器106使用条形1305来向用户通知当前距离。指示器106也通知声音交互机器人100和用户之间的推荐距离范围1302，以向用户通知声音推荐距离。

如图13中的部分(1)所示，指示器106用条形1305指示推荐距离范围1302、距离用户203太近的距离范围1301、距离用户太远的距离范围1303、以及距离用户203的当前距离。如图13中的部分(1)所示，用户203没有位于推荐距离范围1302内，而是距离声音识别装置100的距离太远。

图13中的部分(2)示出了当周围噪声强度与图13中的部分(1)所示的状态相比发生变化时的指示器106的显示的示例。因为周围噪声发生变化，所以推荐距离范围1302也被改变。

图13中的部分(3)示出了当用户203和声音交互机器人100之间的距离从图13中的部分(2)所示的状态变化时的指示器106的显示的示例。因为用户203和声音交互机器人100之间的距离更短，所以用户203位于推荐距离范围内。

图14是示出了声音交互机器人100使用可移动部件107和108的动作来通知用户是否位于推荐距离范围1302内的示例的示意图。上部示意图示出了用户和声音交互机器人100之间的距离关系。下部示意图示出了当声音交互机器人100确定用户位于各个距离(a)、(b)和(c)内时可移动部件107和108的动作。

在情况(a)中，至用户的距离太远，可移动部件107和108位于初始位置并且保持向下。在情况(b)中，至用户的距离被确定为位于适当的推荐距离范围内，可移动部件之一、可移动部件107向上举起。在情况(c)中，至用户的距离太近，可移动部件107和108都向上举起。

在此，使用两个可移动部件107和108的动作的组合模式可以通知至用户的距离是否合适。

下面将描述使根据第一实施例的声音交互机器人100能够估算推荐距离范围的机制。

图3是根据第一实施例的声音交互机器人100的功能框图。

根据第一实施例的声音交互机器人100具有声音输入模块301、声音识别模块302、指令执行模块303、强度测量模块305、用户声音强度数据库(以下表示为DB)306、推荐距离范围估算模块307、声音识别特性DB 308、以及推荐距离范围通知模块309。

声音输入模块301是用于接收音频输入(围绕声音交互机器人100的声音)并以给定增益值放大该声音以输出音频信号的模块。如图1所示，声音输入模块具有声音输入装置103和104、能够增益调节的传声器放大器、以及A/D转换器。音频信号被输出到声音识别模块302和强度测量模块305。

声音识别模块302对由声音输入模块301输出的音频信号执行声音识别。声音识别模块302通过执行频率分析或模式匹配来执行声音区间的检测处理(VAD：声音活动检测)以及确定检测到的声音区间中的词汇的识别处理。经过噪声去除处理提取的声音模式的形状和指令声音的记录的声音模式的形状被逐一地比较。匹配率最高的声音模式的形状被识别为声音内容。如果匹配率没有超过某一阈值，则声音识别被确定为失败，认为声音模式与任何注册声音都不匹配。

如果由声音识别模块302识别的词汇是对应于声音交互机器人100可执行的指令的指令词汇，则指令执行模块303用于根据指令执行处理。例如，如果识别出如前所述的指令词汇“打开电视机”，则指令执行模块303执行从遥控发射器/接收器109发射相应红外码的处理。

用户距离测量模块304是用于使用如图1所示的距离传感器105来测量用户201和声音交互机器人100之间的当前距离的模块。声音识别模块302开始检测声音区间的开始时间和连续操作的结束时间是被通知的事件、以及在声音区间中的每个固定时间间隔的距离传感器105输出的平均值被作为至用户201的距离输出至推荐距离范围估算模块307和推荐距离范围通知模块309。

强度测量模块305测量从声音输入模块301获取的音频信号的强度。声音识别模块302检测声音区间的开始时间和结束时间，并将开始时间和结束时间作为事件输出到强度测量模块305。从通知开始检测至通知结束检测的间隔被确定为声音区间，以及其他的间隔被确定为噪声区间。对于声音区间，计算该间隔内的音频信号的强度并输出至推荐距离范围估算模块307。此外，对于噪声区间，通过用每个给定的时间期间来划分该间隔来计算音频信号的强度，并作为噪声的强度输出至推荐距离范围估算模块307。

用户声音强度DB 306存储有用户声音特性的相关性，用户声音特性具有识别成功时的增益G、用户201和声音交互机器人100之间的距离D、以及声音强度V的集合(G、D、V)。

声音识别特性DB 308存储有用于声音识别模块302的声音识别性能的数值。更具体的，其存储了允许的噪声强度的上限、声音识别目标的声音强度的下限、以及S/N比和声音识别率之间的相关性。

推荐距离范围估算模块307调节音频信号的增益、估算满足适于声音鉴别的S/N比的声音距离范围、以及输出估算的推荐距离范围。使用(1)声音输入模块301的增益、(2)由强度测量模块305测量的噪声强度、(3)从用户声音强度DB 306访问到的集合(G、D、V)，以及(4)从声音识别特性DB 308访问到的声音识别模块302的特性值，由此确定对于当前噪声强度是否需要改变增益。如果需要改变增益，则确定新的增益，并且声音输入模块301被指示以调节增益。然后，声音识别模块302对如下S/N比进行估算，所述S/N比是为了确定的增益和噪声强度而呈现具有特定值或更高值的声音识别率所需的。从用户201的声音强度来估算对于所需的S/N比或更高的S/N比的推荐距离范围，并且所估算出的推荐距离范围被输出至推荐距离范围通知模块309。下面将描述确定增益和估算距离的具体方法。

推荐距离范围通知模块309将由推荐距离范围估算模块307通知的声音交互机器人100和用户201之间能够声音识别的推荐距离范围呈现给用户201。通过指示器106的通知或可移动部件107和108的动作的通知来作出用户201是否位于至用户201的推荐距离范围内的通知。声音交互机器人100可以设置有声音合成模块，其输出使声音交互机器人100讲话的合成声音，从而来通知用户。或者声音合成装置可以提供使声音交互机器人100能够讲话的功能。

图4是示出了在强度测量模块305确定输入音频信号中的声音区间和噪声区间时声音特性的示例的示意图。如图4所示，强度测量模块305确定输入音频信号的信号强度等于或低于给定强度L1的时间区间为噪声区间，以及确定噪声区间之外的时间区间为声音区间。换句话说，强度测量模块305确定从检测到声音开始的检测开始点至检测到声音结束的检测结束点的声音存在区间，以及确定其他时间区间为噪声区间。对于声音区间，从声音区间内的音频信号计算强度，并作为声音强度通知给推荐距离范围估算模块307和用户声音强度DB306。对于噪声区间，通过用每个给定时间周期划分噪声区间期间内的音频信号的信号强度，从而来计算音频信号的平均强度，并作为噪声强度通知给推荐距离范围估算模块307。

在本说明书中，术语“声音区间”用于描述在从声音输入模块301输出的信号中检测到存在用户发出的声音的时间期间，以及术语“噪声区间”用于描述没有检测到存在声音的时间期间。术语“声音区间”和“噪声区间”不暗示任何种类的周期性存在的声音或噪声。

接下来，下面将描述表示声音识别模块302中的声音识别的特性的数值与存储在声音识别特性DB 308中的声音识别模块302中的声音识别处理之间的关系。

声音识别模块302中的声音识别处理基本上被分为用于从输入音频信号检测用户的声音区间的声音区间检测处理和用于从检测到的声音区间中的音频信号识别说出的词汇的识别处理的两个阶段。

可以在这两个处理阶段分析导致声音识别性能降低的原因。一个原因是由噪声的高强度引起的，因此在声音区间之前和之后的包含噪声的范围被错误地检测为声音区间。另一原因是：由于S/N比低于满足所要求的识别率所需要的S/N比，因此在噪声信号叠加在声音区间中的信号上时，通过识别处理计算出的类似度降低了。如果类似度低，则信号处于作为确定基准的阈值之下而不能被确定，或被确定为错误的词汇。

声音识别特性DB 308存储以下列出的项目(a)至(d)四个参数，这些参数是使声音识别模块302能够执行声音识别处理所需的。

(a)满足需要的识别率所需的S/N比：SN1

(b)防止错误检测声音区间的噪声强度的上限：L1

(c)对于声音区间检测中的声音来说，正确检测声音区间所需的声音强度的下限：L2

(d)能够由A/D转换器的最大参考电压被正确转换为数字信号的信号强度的上限：L3。

使用预先准备的声音和噪声数据，可以在计算机上模拟具有诸如L1和L2的噪声强度对声音识别模块302的影响程度。

如参考图1所述，声音输入模块301具有声音输入装置103和104、能够调节增益的传声器放大器、以及A/D转换器，据此，L3是由声音输入模块301的功能决定的。

图6是示出了S/N比和声音识别率之间的相关性的示例。该曲线表示了S/N比和声音识别率之间的相关性，该相关性是通过输入噪声数据以变化的比例叠加在声音数据上的音频信号，并执行声音识别处理而获得的。在使用声音识别的***中，根据如何在***中使用声音识别结果的方式，可以将声音识别所需要的识别性能(声音识别率)预先确定为所需的规范。例如，在指令执行模块303执行对电视设备的操作的情况下，所需要的规范包括声音识别率为80％或更高。在该种情况下，由图6，作为满足要求的识别率所需的S/N比的SN1被确定为20dB或更高。S/N比和声音识别率之间的这种相关性被存储在声音识别特性DB 308中。

图5是示出了第一实施例的存储在声音识别特性DB 308中的噪声强度上限L1以及声音强度的下限L2和上限L3的示意图。

基于存储在声音识别S/N特性DB 308中的上述项目(a)至(d)的数值，执行控制以满足下面三个要求：

(1)调节增益使得噪声强度低于L1；

(2)调节增益或估算距离用户201的传声器的推荐距离，使得声音强度可以为从L2到L3；以及

(3)估算距离用户201的传声器的推荐距离，使得S/N比可以是SN1或更高。通过向用户201通知适于满足项目(2)和(3)的声音的推荐距离范围，满足所要求的声音识别率的音频信号可以被提供给声音识别模块302，从而完全展示出声音识别性能。

参考图6至图10，下面将描述用于估算满足项目(2)和(3)的推荐距离范围的方法。

下面将描述声音强度和从传声器至用户201的距离之间的关系。由于由用户201发出的声音被认为是点声源，所以声音强度与传播距离的平方成反比。声音输入模块301的增益可以随着强度而被线性调节。假设在声音识别模块302成功识别的情况下声音输入模块301的增益是G，用户距离测量模块304的检测距离是D，以及由强度测量模块305测量的声音强度是V，则由声音输入模块301输出的声音强度Vi在增益为Gi以及检测距离为Di的情况下可以通过下面公式(1)得出。

Vi＝V x (Gi/G) x (D/Di)² (1)

因此，声音强度为Vi情况下的距离Di可以从下面的公式(2)得出。

Di＝Sqrt((V/Vi) x (Gi/G)) x D (2)

因此，通过测量和存储识别成功时的集合(G、D、V)，由声音距离可以计算当前增益值下的声音强度。此外，从声音强度可以估算出推荐距离范围。用于用户201的集合(G、D、V)被记录在用户声音强度DB 306中。

图7是示出了根据第一实施例的声音交互机器人的操作的流程图。

当声音交互机器人100被激活时，开始下面的处理。

在步骤401，确定是否已经测量了用户201的声音强度。通过访问用户声音强度DB 306，如果用户201的声音强度信息没有被注册，则处理进行到步骤402，或者如果声音强度信息被注册了，则处理进行到步骤403。

在步骤402，用户201的声音强度被测量以在用户声音强度DB306中记录获取的集合(G、D、V)，并且处理返回到步骤401。

在步骤403，使用用户201的声音强度信息V完成根据噪声强度的增益调节以及计算距离传声器的适当距离，并将距离信息通知给推荐距离范围通知模块309。在步骤403执行适应周围噪声的声音识别直到存在装置的停止信号。如果出现停止信号，则声音交互机器人100的操作停止。

图8是示出了测量用户201的声音强度的步骤402的流程图。

在步骤801，向用户201作出声音的提示以测量用户201的声音强度。指示推荐距离范围通知模块309向用户201发出声音请求。发出声音请求的通知例如可以通过在图14部分(B)中示出的可移动部件107的动作、指示器106上的指示、由声音合成模块输出的声音、或显示在显示屏上的文字消息的请求来实现。

在步骤802，声音识别模块302等待来自用户201的声音，并在接收到该声音时执行声音识别。

在步骤803，当声音识别模块302声音识别成功时，处理进行到步骤804以计算声音强度。当声音识别模块302声音识别失败时，处理返回到步骤802以等待用户201发出的声音。

在步骤804，推荐距离范围估算模块307将从强度测量模块305获取的声音强度V、声音输出模块301的增益G以及从用户距离测量模块304获取的距离D记录在用户声音强度DB 306中，并且处理返回到步骤401。

图9是示出了步骤403的细节的流程图。使用记录在用户声音强度DB 306中的用户201的声音强度信息来执行根据噪声强度的增益调节、距离传声器的适合距离计算、以及向推荐距离范围通知模块309通知距离信息。

在步骤901，初始化声音输入模块301的增益。设置增益G0，假设前次声音交互机器100停止时的增益值或者当前噪声强度小于L1情况下的增益值是初始值。

在步骤902，指示声音识别模块302被指示开始声音识别处理。

在步骤903，操作等待，直到由强度测量模块305通知噪声强度，以及当噪声强度被通知时，处理进行到步骤904。

在步骤904，从通知的噪声强度N0和当前增益G0计算出获得噪声强度L1的增益G1。在此，因为可以随着来自声音输入模块301的输出信号的强度来线性地调节增益，所以通过下面的公式(3)可以获得增益G1。

G1＝G0 x L1/N0 (3)

在步骤905，用户距离测量模块304测量用户201和声音交互机器人100之间的当前距离D2。通过下面的公式(4)从公式(1)中得出增益G2，在增益G2处，来自用户201的声音的声音强度是声音识别所要求的最小声音强度L2。

G2＝G x (L2/V) x (D2/D)² (4)

在步骤906，对G1和G2进行比较。

当G1小于G2时，声音输入模块301的增益在步骤907被设置为G1。

当G2小于G1，则声音输入模块301的增益Gi在步骤908被设置为G2。

根据上述处理，执行了增益调节。

在步骤909，计算用于获取适于声音识别的声音强度的距离范围。第一，通过公式(2)来计算距离DL2，其提供了声音识别所要求的声音的声音强度的下限值L2。当在步骤908中增益被调节为G2时，当前距离D2被设置为DL2。

在步骤910，通过公式(2)来计算距离DL3，其提供了声音识别所要求的声音强度的上限值L3。

在步骤911，计算距离DSN1，在该距离处的S/N比为SN1。改变后(在步骤906被比较并改变)的增益被设置为GN。同样，该S/N比通过20log10(S/N)来计算。因为增益改变前为G0，增益改变后为GN，噪声强度为N，声音强度为S，S/N比通过20log10(S/N)来计算，S从公式(1)计算出，以及如公式(3)中所示的噪声强度与增益是线性的，所以由下面的公式(5)计算出DSN1。

S＝V x (GN/G) x (D/DSNl)²

N＝N0 x (GN/G0)

S/N＝(V/N0) x (G0/G) x (D/DSNl)²

SNl＝20Log10(S/N)

DNSl

＝squrt((V/N0) x (G0/G)/1n10(SN1/20))) x D (5)

适于声音识别的推荐距离范围是从DL3至DL2，且需要满足DSN1或更小的范围。如果在步骤912中确定满足DSN1<DL3，则处理进行到步骤914，否则处理进行到步骤913。

在步骤913，当确定满足DSN1≤DL2，则处理进行到步骤915，否则处理进行到步骤916。

在步骤914，由于噪声太大，即使用户来到比声音的声音强度为L3的距离更近的距离，也不能满足作为所要求的S/N比的SN1。因此，没有推荐距离范围被通知给推荐距离范围通知模块309，并且处理返回到步骤903。

在步骤915，因为噪声大，所以需要声音强度大于L2以满足作为所要求的S/N比的SN1。因此，适于声音的推荐距离范围是从DL3至DSN1。推荐距离范围估算模块307向推荐距离范围通知模块309通知获得的推荐距离范围，以及处理返回到步骤903。

在步骤916，当噪声小且声音强度大于或等于L2时，满足了所要求的S/N比，从而适于声音的推荐距离范围是从DL3至DL2。推荐距离范围估算模块307向推荐距离范围通知模块309通知获得的推荐距离范围，以及处理返回步骤903。

图10是示出了推荐距离范围通知模块309向用户201通知由推荐距离范围估算模块307通知的推荐距离范围的信息。

在步骤1001，当存在来自推荐距离范围估算模块307的推荐距离范围的通知时，处理进行到步骤1002。当没有推荐距离范围的更新通知时，处理进行到步骤1005。

在步骤1002，当通知没有推荐距离范围存在时，处理进行到步骤1003，或者如果存在推荐距离范围，则处理进行到步骤1004。

在步骤1003，向用户201通知噪声太大以致不存在能够识别声音的推荐距离范围的通知，以及处理进行到步骤1001。例如，其用如图14c所示的姿势来表现、显示在指示器106上、或通过合成声音输出。

在步骤1004，由推荐距离范围估算模块307通知的推荐距离范围的下限值被存储为内部变量DD1，以及上限值被存储为内部变量DD2。同样，如果推荐距离范围的上限值和下限值已经被存储，则由推荐距离范围估算模块307新通知的距离范围的内部变量(下限值DD1和上限值DD2)被更新并存储。

在步骤1005，从用户距离测量模块304获取用户201和声音交互机器人100之间的当前距离D的信息。

在步骤1006，当当前距离D小于DD1时，用户201位于比适于声音的推荐距离范围更近的位置，从而处理进行到步骤1008，否则，处理进行到步骤1007。

在步骤1007，当当前距离D处于推荐距离范围内时，用户201和声音交互机器人100之间的距离是适当的，从而处理进行到步骤1009，否则用户201的位置超出推荐距离范围，从而处理进行到步骤1010。

在步骤1008，做出通知用户201其位置太靠近机器人100的通知，以及处理返回到步骤1001。例如，可以通过在图14部分(C)中示出的姿势来做出通知、通过图13中所示的显示在指示器106上指示区域1301中的位置的条形1305来做出该通知、或由合成声音输出来做出通知。

在步骤1009，通知用户201位于推荐距离范围内，以及处理进行到步骤1001。例如，可以通过在图14部分(B)中示出的姿势来做出通知、通过图13中所示的显示在指示器106上指示区域1302中的位置的条形1305来做出通知、或由合成声音输出来做出通知。

在步骤1010，做出通知用户201其位置距离机器人100太远的通知，以及处理返回到步骤1001。例如，可以通过在图14部分(A)中示出的姿势、图13中所示的显示在指示器106上指示区域1303中的位置的条形1305来做出通知、或由合成声音输出来做出通知。

如上所述，声音交互机器人100在正常时间可以根据噪声强度和用户201的声音的声音强度来向用户201通知适于该声音的距离。用户可以在确认推荐距离范围和当前距离的同时发出声音，而不用按照现有技术通过重复声音来确认适当的声音强度或距离。因此，用户201知道用户是否位于取决于噪声强度的推荐距离范围内，或者用户应该移动多远以进入推荐距离范围。从而，可以支持用户从适于声音的推荐距离范围发出声音以满足声音识别准确度，由此来提高声音识别率。

尽管在第一实施例中估算并向用户通知适于声音的推荐距离范围，也可以提供使声音交互机器人100能够移动至计算出的推荐距离范围内的功能。

第二实施例

下面将描述根据第二实施例的声音交互机器人。

图11是根据第二实施例的声音交互机器人的功能框图。

根据第二实施例的声音交互机器人100还具有识别用户的功能，并且特征在于对于每个被识别的用户，切换所使用的DB。

如图11所示，声音交互机器人100设置有图像输入模块310和用户识别模块311。

图像输入模块310包括图像拾取装置101、102。在声音交互机器人100前面的用户210的图像被图像拾取装置101捕获并作为输入图像数据被输出。

用户识别模块311通过由图像输入模块310输入的图像来识别用户201。用户识别模块311可以使用通过执行脸部识别处理以识别用户201的脸部来识别用户的直接方法，或通过从背景图像的特性识别声音交互机器人100面向的方向来识别用户的间接方法。用户识别模块311在每个给定时间周期执行用户识别处理，并将代表用户201的ID通知给推荐距离范围估算模块307。

图12是示出了根据第二实施例的用于声音交互机器人100的推荐距离范围估算模块307的处理的流程图。

在步骤400，通过引用来自用户识别模块311的通知从而将用户201的用户ID设置为内部变量。

在步骤401，确定用户201的声音强度是否已经被测量。通过访问用户声音强度DB 306来检查是否存在具有该用户ID的声音强度信息，其中如果没有注册指定ID的声音强度信息，则处理进行到步骤402，或者如果存在注册，则处理进行到步骤403。

在步骤402，测量用户201的声音强度，其中获得的集合(G、D、V)被注册记录在用户ID作为检索关键字的用户声音强度DB306中。处理返回到步骤401。

在步骤403，使用用户201的声音强度信息来执行根据噪声强度的增益调节和距离传声器的适合距离计算，从而距离信息被通知给推荐距离范围通知模块309。

在步骤404，检查从用户识别模块311通知的用户ID是否没有从保存为内部变量的用户ID发生改变。如果用户ID改变了，则处理进行到步骤400，或者如果用户ID没有改变，则处理进行到步骤403。

根据第二实施例的声音交互机器人100，即使多个用户使用声音交互机器人100并且每个用户的声音的声音强度不相同，也可以估算对于每个用户的适当距离范围。估算适于声音的推荐距离范围，并通知给用户201，从而用户201知道用户是否位于取决于噪声强度的推荐距离范围内，或者用户应该移动多远以进入推荐距离范围。因此，可以支持用户从适于声音的推荐距离范围发出声音以满足声音识别准确性来提高声音识别率。

应该理解本发明不限于上述的特定实施例，并且本发明可以在不背离本发明的精神和范围的情况下由经修改的部件来实施。根据在上述实施例中披露的部件的适当组合可以以各种形式实施本发明。例如可以从作为实施例被描述的配置中删除一些部件。此外，在不同实施例中描述的部件可以适当地组合使用。

Claims

1.一种声音识别装置，包括：

音频输入模块，接收音频输入并输出音频信号，所述音频输入模块具有被配置为可调节的增益；

声音识别模块，检测所述音频信号中检测到用户的声音活动的声音区间，以及对所述声音区间期间的所述音频信号执行声音识别；

第一强度测量模块，测量在所述声音区间中的所述音频信号的声音强度并输出所述声音强度；

第二强度测量模块，测量在噪声区间中的所述音频信号的噪声强度并输出所述噪声强度，所述噪声区间是除了所述声音区间之外的时间区间；

第一计算模块，计算作为所述声音强度与所述噪声强度之比的S/N比；

距离测量模块，测量所述用户和所述声音输入模块之间的当前距离；

第一存储模块，存储与如下S/N比相对应的第一阈值，在所述S/N比处，所述声音识别模块能够以给定识别率执行声音识别；

第二存储模块，存储具有所述声音强度、所述当前距离和所述增益的集合的声音特性，通过所述声音特性，所述声音识别模块成功执行所述声音识别；

第二计算模块，基于所述声音特性，计算用于所述当前距离的推荐距离范围，在所述推荐距离范围内，估算出所述S/N比超过所述第一阈值；以及

显示模块，显示所述推荐距离范围和所述当前距离。

2.根据权利要求1所述的装置，进一步包括：第三存储模块，存储与可允许从所述音频输入模块输出的所述音频信号的上限相对应的第二阈值，

其中所述第二计算模块通过基于所述声音特性和所述增益来计算其中估算出所述声音强度不超过所述第二阈值的距离范围并将计算出的所述距离范围设置为所述推荐距离范围，从而来计算所述推荐距离范围。

3.根据权利要求2所述的装置，进一步包括：

第四存储模块，存储与在所述音频信号中可允许的所述噪声强度的上限相对应的第三阈值；以及

控制模块，控制所述声音识别模块的增益以控制所述噪声强度不超过所述第三阈值。

4.根据权利要求3所述的装置，进一步包括：

确定模块，确定所述当前距离是否位于所述推荐距离范围内；以及

通知模块，通知所述用户由所述确定模块确定的结果。

5.根据权利要求1所述的装置，其中所述第二存储模块利用对于多个用户中的每个用户都唯一的识别信息，为多个用户中的每个用户存储所述声音特性。

6.根据权利要求5所述的装置，其中所述第二计算模块基于由给定识别信息指定的所述声音特性来计算所述推荐距离范围。

7.根据权利要求6所述的装置，进一步包括：用户识别模块，识别发出声音的所述用户，并获取对应于所识别的用户的所述识别信息，

其中所述第二计算模块基于由所述用户识别模块获取的所述识别信息指定的所述声音特性来计算所述推荐距离范围。

8.一种用于执行声音识别的方法，所述方法包括：

接收音频输入以输出具有被配置为可调节的增益的音频信号；

在所述音频信号中检测找到出现用户声音的声音区间，以对所述声音区间期间的所述音频信号执行所述声音识别；

测量所述声音区间中所述音频信号的声音强度以输出所述声音强度；

测量在噪声区间中的所述音频信号的噪声强度以输出所述噪声强度，所述噪声区间是除了所述声音区间之外的时间区间；

计算作为所述声音强度和所述噪声强度之比的S/N比；

测量距离所述用户的当前距离；

存储与如下S/N比相对应的第一阈值，在所述S/N比处，能够以给定的识别率执行所述声音识别；

存储具有所述声音强度、所述当前距离和所述增益的集合的声音特性，通过所述声音特性成功识别声音；

基于所述声音特性计算用于所述当前距离的推荐距离范围，在所述推荐距离范围内，估算出所述S/N比超过所述第一阈值；以及

显示所述推荐距离范围和所述当前距离。