CN101510425A - 声音识别装置以及用于执行声音识别的方法 - Google Patents
声音识别装置以及用于执行声音识别的方法 Download PDFInfo
- Publication number
- CN101510425A CN101510425A CNA2009100074381A CN200910007438A CN101510425A CN 101510425 A CN101510425 A CN 101510425A CN A2009100074381 A CNA2009100074381 A CN A2009100074381A CN 200910007438 A CN200910007438 A CN 200910007438A CN 101510425 A CN101510425 A CN 101510425A
- Authority
- CN
- China
- Prior art keywords
- sound
- module
- user
- intensity
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000005236 sound signal Effects 0.000 claims abstract description 40
- 238000005259 measurement Methods 0.000 claims abstract description 10
- 238000003860 storage Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 11
- 230000009471 action Effects 0.000 description 8
- 101001053809 Homo sapiens Kinetochore-associated protein DSN1 homolog Proteins 0.000 description 6
- 102100024062 Kinetochore-associated protein DSN1 homolog Human genes 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000001105 regulatory effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Manipulator (AREA)
- Details Of Television Systems (AREA)
Abstract
本发明涉及声音识别装置以及用于执行声音识别的方法。其中,声音识别装置包括:声音识别模块,对声音区间期间的音频信号执行声音识别;距离测量模块,测量用户和声音输入模块之间的当前距离;计算模块,基于声音特性计算推荐距离范围,在该推荐距离范围内估算出S/N比超过第一阈值;以及显示模块,显示推荐距离范围和当前距离。
Description
相关申请的交叉参考
本申请涉及包含在2008年2月15日提交的日本专利申请申请第2008-035126号中的主题,其全部内容通过引用结合于此作为参考。
技术领域
本申请涉及声音识别装置,以及用于执行声音识别的方法。
背景技术
通常,已经知道一种与用户执行声音交互的机器人,其被称作声音交互机器人。然而,在一些情况下由于从诸如家庭或办公室的实际环境中的各种设备输出的噪声,声音交互机器人可能不能正确地识别由用户发出的声音。为了提高在由家庭电器或用户的动作发出噪声的环境中的声音识别率,优选地由用户以适当的强度将声音输入到传声器中。
已经提出了一种用于通过在检测到用户声音时计算S/N比并在S/N比低于给定值时将机器人移向用户来改进S/N比的方法。这样的方法的示例在JP-A-2006-181651(同族美国公开是:US2006/0143017 A1)中被公开。然而,根据该方法,其没有确定机器人为了接收满足足以进行声音识别的S/N比的声音而需要向用户移近多少。此外,当周围噪声强度改变时,需要接收来自用户的另一声音来确定至用户的距离是否恰当。
已经提出了一种用于向用户指示实际声音强度和根据周围噪声强度的相对期望声音强度以使用户直觉地知道期望的声音音量的方法。该方法的示例在JP-A-2006-227499中被公开。然而,用户发出的大量声音是通过用户的头盖(brainpan)被用户听到的。因此,用户难以根据机器人发出的指示来调节声音的音量。同样,当周围噪声强度变化时,需要用户再次发出声音以接收适当强度范围内的声音。
上述传统方法采用了通过由用户发出的多个声音来调节用户的声音强度的方法。因此,这些方法需要用户每次在由于环境变化(诸如周围噪声强度的变化)而需要调节的时候再次发出声音。
发明内容
根据本发明的一个方面,提供了一种语音识别装置,包括:音频输入模块,其接收音频输入,并输出音频信号,该音频输入模块具有被配置为可调节的增益;语音识别模块,在音频信号中检测发现用户的语音出现的语音区间,并对该语音区间期间的音频信号执行语音识别;第一强度测量模块,测量语音区间中的音频信号的信号强度并将测量的信号强度作为语音强度输出;第二强度测量模块,测量噪声区间中的音频信号的信号强度并将测量的信号强度作为噪声强度输出,其中噪声区间是语音区间之外的时间区间;第一计算模块,计算作为语音强度与噪声强度之比的S/N比;距离测量模块,测量用户和语音输入模块之间的当前距离;第一存储模块,存储对应于语音识别模块能够执行具有给定识别率的语音识别的S/N比的第一阈值;第二存储模块,存储具有语音强度、当前距离以及增益的集合的语音特性,通过该语音特性,语音识别模块成功执行语音识别;第二计算模块,基于语音特性计算用于当前距离的推荐距离范围,在该推荐距离范围内,估算出S/N比超过第一阈值;以及显示模块,显示推荐距离范围和当前距离。
根据本发明的另一方面,提供了一种执行语音识别的方法,该方法包括:接收音频输入以输出具有被配置为可调节的增益的音频信号;在音频信号中检测发现出现用户的语音的语音区间以对该语音区间期间的音频信号执行语音识别;测量语音区间中的音频信号的信号强度以将测量的信号强度作为语音强度输出;测量噪声区间中的音频信号的信号强度,以将所测量的信号强度作为噪声强度输出,该噪声区间是语音区间之外的时间区间;计算作为语音强度与噪声强度之比的S/N比;测量距离用户的当前距离;存储对应于语音识别模块能够执行语音识别以具有给定识别率的S/N比的第一阈值;存储具有语音强度、当前距离以及增益的集合的语音特性,通过该语音特性,已经成功执行语音识别;基于语音特性计算用于当前距离的推荐距离范围,在该推荐距离范围内,估算出S/N比超过第一阈值;以及显示该推荐距离范围和当前距离。
附图说明
将参考附图描述实施本发明的各种特征的一般配置。提供的附图及其相关描述是为了示出本发明的实施例,而不用于限制本发明的范围。
图1是示出了根据本发明的第一实施例的声音交互机器人的外观的示意图。
图2是示出了根据第一实施例的声音交互机器人的使用的示例的示意图。
图3是根据第一实施例的声音交互机器人的功能框图。
图4是示出了在确定包括在输入至声音交互机器人的音频信号中的声音区间和噪声区间时的声音特性的示例的示意图。
图5是示出了存储在声音识别特性数据库中的噪声强度的上限和声音强度的下限和上限的示意图。
图6是示出了S/N比和声音识别率之间的相关性的示意图。
图7是示出了由推荐距离范围估算模块执行的处理的流程图。
图8是在推荐距离范围估算模块中的声音强度测量处理的流程图。
图9是由推荐距离范围估算模块调节增益和计算推荐距离范围的流程图。
图10是由推荐距离范围通知模块执行的处理的流程图。
图11是示出了根据第二实施例的包括用于用户鉴别的处理的配置的框图。
图12是包括用户鉴别的推荐距离范围估算模块的处理的流程图。
图13是示出了在指示器上显示推荐声音距离的示例的示意图。
图14是示出了由声音交互机器人的手臂的动作来通知用户是否处于推荐声音距离内的示例的示意图。
具体实施方式
以下,将参考附图描述本发明的实施例。在下面的描述中,相同或相似的部件用相同的参考标号表示,并且省略对其的重复描述。
第一实施例
下面将描述根据第一实施例的声音交互机器人。
图1是示出了根据第一实施例的声音交互机器人的外观的示意图。声音交互机器人100用于家庭使用,并设置有图像获取装置101和102(例如CCD摄像机)、声音输入装置103和104(例如传声器)、距离传感器105、遥控信号发射器/接收器109、指示器106、以及可移动部件107和108(例如机器人的手臂)。
声音输入装置103和104布置在声音交互机器人100的头部并将用户的声音(声音)转换为模拟信号。通过具有增益调节功能的传声器放大器放大经转换的模拟信号,通过A/D转换器(未示出)转换为数字信号,并作为声音数据被处理器(未示出)处理。
距离传感器105是用于测量至对象的距离并输出表示距离的信号的装置。距离传感器105可以是红外测距传感器或超声波测距传感器。距离传感器105靠近声音输入装置103布置,并用于测量用户和声音输入装置103以及104之间的距离。
指示器106布置在机器人100的主体的正面。指示器106是一种显示装置,例如LED和液晶面板,用于向用户显示随时间变化的信息。在第一实施例中,指示器106被用于向用户显示推荐的声音距离和用户与声音交互机器人100之间的距离。
遥控信号发射器/接收器109是用于发射或接收用于操作家用电器的遥控信号的装置。遥控信号发射器/接收器109接收从用户操作的遥控器发射的信号(例如红外码)。同样,遥控信号发射器/接收器109根据用户说出的指令,通过发送给定的信号(例如红外码)来操作家用电器,例如电视机203。
可移动部件107和108是用于使声音交互机器人100能够表现动作的部件。通过可移动部件107和108的动作,将用户是否处于推荐距离范围内的确定结果通知给用户,推荐距离范围是适于声音的距离范围。
图2是示出了根据第一实施例的声音交互机器人的使用的示意图。
声音交互机器人100可以被放置在餐桌202上使用,以及用户201对声音交互机器人100说出指令词汇。
例如,用户201说出指令词汇“打开电视机”,声音交互机器人100通过声音识别来识别指令以“打开电视机”。声音交互机器人100从遥控信号发射器/接收器109发射遥控信号,并打开电视机203的电源。假设在打开电视机203之前,用户201从图2中所示的距离D2向声音交互机器人100说话。在电视机203为开启的状态下,电视机203的声音成为增加噪声强度的噪声,使得说话声音与噪声的S/N比减小。
当用户201以恒定音量发出声音时,在发出声音以增加S/N比之前,用户201必须接近声音交互机器人100直至距离D1,距离D1小于图2中所示的D2。在第一实施例中,根据周围噪声强度来估算声音识别率大于特定值的声音交互机器人100和用户201之间的距离范围。
经估算的推荐距离范围以及由距离传感器105测量的用户201和声音交互机器人100之间的距离被通知给用户201。因此,用户201知道用户201是否处在推荐距离范围内,该推荐距离范围适合于该取决于噪声强度的声音,以及用户201需要向声音交互机器人100移动多少以位于推荐距离范围内。以该方式,可以支持用户移至适于发出满足期望正确率的声音识别的声音的距离范围内。
图13是示出了向用户201通知适于声音的推荐距离范围以及用户201和声音交互机器人100之间的距离的指示器106的示例的示意图。
指示器106使用条形1305来向用户通知当前距离。指示器106也通知声音交互机器人100和用户之间的推荐距离范围1302,以向用户通知声音推荐距离。
如图13中的部分(1)所示,指示器106用条形1305指示推荐距离范围1302、距离用户203太近的距离范围1301、距离用户太远的距离范围1303、以及距离用户203的当前距离。如图13中的部分(1)所示,用户203没有位于推荐距离范围1302内,而是距离声音识别装置100的距离太远。
图13中的部分(2)示出了当周围噪声强度与图13中的部分(1)所示的状态相比发生变化时的指示器106的显示的示例。因为周围噪声发生变化,所以推荐距离范围1302也被改变。
图13中的部分(3)示出了当用户203和声音交互机器人100之间的距离从图13中的部分(2)所示的状态变化时的指示器106的显示的示例。因为用户203和声音交互机器人100之间的距离更短,所以用户203位于推荐距离范围内。
图14是示出了声音交互机器人100使用可移动部件107和108的动作来通知用户是否位于推荐距离范围1302内的示例的示意图。上部示意图示出了用户和声音交互机器人100之间的距离关系。下部示意图示出了当声音交互机器人100确定用户位于各个距离(a)、(b)和(c)内时可移动部件107和108的动作。
在情况(a)中,至用户的距离太远,可移动部件107和108位于初始位置并且保持向下。在情况(b)中,至用户的距离被确定为位于适当的推荐距离范围内,可移动部件之一、可移动部件107向上举起。在情况(c)中,至用户的距离太近,可移动部件107和108都向上举起。
在此,使用两个可移动部件107和108的动作的组合模式可以通知至用户的距离是否合适。
下面将描述使根据第一实施例的声音交互机器人100能够估算推荐距离范围的机制。
图3是根据第一实施例的声音交互机器人100的功能框图。
根据第一实施例的声音交互机器人100具有声音输入模块301、声音识别模块302、指令执行模块303、强度测量模块305、用户声音强度数据库(以下表示为DB)306、推荐距离范围估算模块307、声音识别特性DB 308、以及推荐距离范围通知模块309。
声音输入模块301是用于接收音频输入(围绕声音交互机器人100的声音)并以给定增益值放大该声音以输出音频信号的模块。如图1所示,声音输入模块具有声音输入装置103和104、能够增益调节的传声器放大器、以及A/D转换器。音频信号被输出到声音识别模块302和强度测量模块305。
声音识别模块302对由声音输入模块301输出的音频信号执行声音识别。声音识别模块302通过执行频率分析或模式匹配来执行声音区间的检测处理(VAD:声音活动检测)以及确定检测到的声音区间中的词汇的识别处理。经过噪声去除处理提取的声音模式的形状和指令声音的记录的声音模式的形状被逐一地比较。匹配率最高的声音模式的形状被识别为声音内容。如果匹配率没有超过某一阈值,则声音识别被确定为失败,认为声音模式与任何注册声音都不匹配。
如果由声音识别模块302识别的词汇是对应于声音交互机器人100可执行的指令的指令词汇,则指令执行模块303用于根据指令执行处理。例如,如果识别出如前所述的指令词汇“打开电视机”,则指令执行模块303执行从遥控发射器/接收器109发射相应红外码的处理。
用户距离测量模块304是用于使用如图1所示的距离传感器105来测量用户201和声音交互机器人100之间的当前距离的模块。声音识别模块302开始检测声音区间的开始时间和连续操作的结束时间是被通知的事件、以及在声音区间中的每个固定时间间隔的距离传感器105输出的平均值被作为至用户201的距离输出至推荐距离范围估算模块307和推荐距离范围通知模块309。
强度测量模块305测量从声音输入模块301获取的音频信号的强度。声音识别模块302检测声音区间的开始时间和结束时间,并将开始时间和结束时间作为事件输出到强度测量模块305。从通知开始检测至通知结束检测的间隔被确定为声音区间,以及其他的间隔被确定为噪声区间。对于声音区间,计算该间隔内的音频信号的强度并输出至推荐距离范围估算模块307。此外,对于噪声区间,通过用每个给定的时间期间来划分该间隔来计算音频信号的强度,并作为噪声的强度输出至推荐距离范围估算模块307。
用户声音强度DB 306存储有用户声音特性的相关性,用户声音特性具有识别成功时的增益G、用户201和声音交互机器人100之间的距离D、以及声音强度V的集合(G、D、V)。
声音识别特性DB 308存储有用于声音识别模块302的声音识别性能的数值。更具体的,其存储了允许的噪声强度的上限、声音识别目标的声音强度的下限、以及S/N比和声音识别率之间的相关性。
推荐距离范围估算模块307调节音频信号的增益、估算满足适于声音鉴别的S/N比的声音距离范围、以及输出估算的推荐距离范围。使用(1)声音输入模块301的增益、(2)由强度测量模块305测量的噪声强度、(3)从用户声音强度DB 306访问到的集合(G、D、V),以及(4)从声音识别特性DB 308访问到的声音识别模块302的特性值,由此确定对于当前噪声强度是否需要改变增益。如果需要改变增益,则确定新的增益,并且声音输入模块301被指示以调节增益。然后,声音识别模块302对如下S/N比进行估算,所述S/N比是为了确定的增益和噪声强度而呈现具有特定值或更高值的声音识别率所需的。从用户201的声音强度来估算对于所需的S/N比或更高的S/N比的推荐距离范围,并且所估算出的推荐距离范围被输出至推荐距离范围通知模块309。下面将描述确定增益和估算距离的具体方法。
推荐距离范围通知模块309将由推荐距离范围估算模块307通知的声音交互机器人100和用户201之间能够声音识别的推荐距离范围呈现给用户201。通过指示器106的通知或可移动部件107和108的动作的通知来作出用户201是否位于至用户201的推荐距离范围内的通知。声音交互机器人100可以设置有声音合成模块,其输出使声音交互机器人100讲话的合成声音,从而来通知用户。或者声音合成装置可以提供使声音交互机器人100能够讲话的功能。
图4是示出了在强度测量模块305确定输入音频信号中的声音区间和噪声区间时声音特性的示例的示意图。如图4所示,强度测量模块305确定输入音频信号的信号强度等于或低于给定强度L1的时间区间为噪声区间,以及确定噪声区间之外的时间区间为声音区间。换句话说,强度测量模块305确定从检测到声音开始的检测开始点至检测到声音结束的检测结束点的声音存在区间,以及确定其他时间区间为噪声区间。对于声音区间,从声音区间内的音频信号计算强度,并作为声音强度通知给推荐距离范围估算模块307和用户声音强度DB306。对于噪声区间,通过用每个给定时间周期划分噪声区间期间内的音频信号的信号强度,从而来计算音频信号的平均强度,并作为噪声强度通知给推荐距离范围估算模块307。
在本说明书中,术语“声音区间”用于描述在从声音输入模块301输出的信号中检测到存在用户发出的声音的时间期间,以及术语“噪声区间”用于描述没有检测到存在声音的时间期间。术语“声音区间”和“噪声区间”不暗示任何种类的周期性存在的声音或噪声。
接下来,下面将描述表示声音识别模块302中的声音识别的特性的数值与存储在声音识别特性DB 308中的声音识别模块302中的声音识别处理之间的关系。
声音识别模块302中的声音识别处理基本上被分为用于从输入音频信号检测用户的声音区间的声音区间检测处理和用于从检测到的声音区间中的音频信号识别说出的词汇的识别处理的两个阶段。
可以在这两个处理阶段分析导致声音识别性能降低的原因。一个原因是由噪声的高强度引起的,因此在声音区间之前和之后的包含噪声的范围被错误地检测为声音区间。另一原因是:由于S/N比低于满足所要求的识别率所需要的S/N比,因此在噪声信号叠加在声音区间中的信号上时,通过识别处理计算出的类似度降低了。如果类似度低,则信号处于作为确定基准的阈值之下而不能被确定,或被确定为错误的词汇。
声音识别特性DB 308存储以下列出的项目(a)至(d)四个参数,这些参数是使声音识别模块302能够执行声音识别处理所需的。
(a)满足需要的识别率所需的S/N比:SN1
(b)防止错误检测声音区间的噪声强度的上限:L1
(c)对于声音区间检测中的声音来说,正确检测声音区间所需的声音强度的下限:L2
(d)能够由A/D转换器的最大参考电压被正确转换为数字信号的信号强度的上限:L3。
使用预先准备的声音和噪声数据,可以在计算机上模拟具有诸如L1和L2的噪声强度对声音识别模块302的影响程度。
如参考图1所述,声音输入模块301具有声音输入装置103和104、能够调节增益的传声器放大器、以及A/D转换器,据此,L3是由声音输入模块301的功能决定的。
图6是示出了S/N比和声音识别率之间的相关性的示例。该曲线表示了S/N比和声音识别率之间的相关性,该相关性是通过输入噪声数据以变化的比例叠加在声音数据上的音频信号,并执行声音识别处理而获得的。在使用声音识别的***中,根据如何在***中使用声音识别结果的方式,可以将声音识别所需要的识别性能(声音识别率)预先确定为所需的规范。例如,在指令执行模块303执行对电视设备的操作的情况下,所需要的规范包括声音识别率为80%或更高。在该种情况下,由图6,作为满足要求的识别率所需的S/N比的SN1被确定为20dB或更高。S/N比和声音识别率之间的这种相关性被存储在声音识别特性DB 308中。
图5是示出了第一实施例的存储在声音识别特性DB 308中的噪声强度上限L1以及声音强度的下限L2和上限L3的示意图。
基于存储在声音识别S/N特性DB 308中的上述项目(a)至(d)的数值,执行控制以满足下面三个要求:
(1)调节增益使得噪声强度低于L1;
(2)调节增益或估算距离用户201的传声器的推荐距离,使得声音强度可以为从L2到L3;以及
(3)估算距离用户201的传声器的推荐距离,使得S/N比可以是SN1或更高。通过向用户201通知适于满足项目(2)和(3)的声音的推荐距离范围,满足所要求的声音识别率的音频信号可以被提供给声音识别模块302,从而完全展示出声音识别性能。
参考图6至图10,下面将描述用于估算满足项目(2)和(3)的推荐距离范围的方法。
下面将描述声音强度和从传声器至用户201的距离之间的关系。由于由用户201发出的声音被认为是点声源,所以声音强度与传播距离的平方成反比。声音输入模块301的增益可以随着强度而被线性调节。假设在声音识别模块302成功识别的情况下声音输入模块301的增益是G,用户距离测量模块304的检测距离是D,以及由强度测量模块305测量的声音强度是V,则由声音输入模块301输出的声音强度Vi在增益为Gi以及检测距离为Di的情况下可以通过下面公式(1)得出。
Vi=V x (Gi/G) x (D/Di)2 (1)
因此,声音强度为Vi情况下的距离Di可以从下面的公式(2)得出。
Di=Sqrt((V/Vi) x (Gi/G)) x D (2)
因此,通过测量和存储识别成功时的集合(G、D、V),由声音距离可以计算当前增益值下的声音强度。此外,从声音强度可以估算出推荐距离范围。用于用户201的集合(G、D、V)被记录在用户声音强度DB 306中。
图7是示出了根据第一实施例的声音交互机器人的操作的流程图。
当声音交互机器人100被激活时,开始下面的处理。
在步骤401,确定是否已经测量了用户201的声音强度。通过访问用户声音强度DB 306,如果用户201的声音强度信息没有被注册,则处理进行到步骤402,或者如果声音强度信息被注册了,则处理进行到步骤403。
在步骤402,用户201的声音强度被测量以在用户声音强度DB306中记录获取的集合(G、D、V),并且处理返回到步骤401。
在步骤403,使用用户201的声音强度信息V完成根据噪声强度的增益调节以及计算距离传声器的适当距离,并将距离信息通知给推荐距离范围通知模块309。在步骤403执行适应周围噪声的声音识别直到存在装置的停止信号。如果出现停止信号,则声音交互机器人100的操作停止。
图8是示出了测量用户201的声音强度的步骤402的流程图。
在步骤801,向用户201作出声音的提示以测量用户201的声音强度。指示推荐距离范围通知模块309向用户201发出声音请求。发出声音请求的通知例如可以通过在图14部分(B)中示出的可移动部件107的动作、指示器106上的指示、由声音合成模块输出的声音、或显示在显示屏上的文字消息的请求来实现。
在步骤802,声音识别模块302等待来自用户201的声音,并在接收到该声音时执行声音识别。
在步骤803,当声音识别模块302声音识别成功时,处理进行到步骤804以计算声音强度。当声音识别模块302声音识别失败时,处理返回到步骤802以等待用户201发出的声音。
在步骤804,推荐距离范围估算模块307将从强度测量模块305获取的声音强度V、声音输出模块301的增益G以及从用户距离测量模块304获取的距离D记录在用户声音强度DB 306中,并且处理返回到步骤401。
图9是示出了步骤403的细节的流程图。使用记录在用户声音强度DB 306中的用户201的声音强度信息来执行根据噪声强度的增益调节、距离传声器的适合距离计算、以及向推荐距离范围通知模块309通知距离信息。
在步骤901,初始化声音输入模块301的增益。设置增益G0,假设前次声音交互机器100停止时的增益值或者当前噪声强度小于L1情况下的增益值是初始值。
在步骤902,指示声音识别模块302被指示开始声音识别处理。
在步骤903,操作等待,直到由强度测量模块305通知噪声强度,以及当噪声强度被通知时,处理进行到步骤904。
在步骤904,从通知的噪声强度N0和当前增益G0计算出获得噪声强度L1的增益G1。在此,因为可以随着来自声音输入模块301的输出信号的强度来线性地调节增益,所以通过下面的公式(3)可以获得增益G1。
G1=G0 x L1/N0 (3)
在步骤905,用户距离测量模块304测量用户201和声音交互机器人100之间的当前距离D2。通过下面的公式(4)从公式(1)中得出增益G2,在增益G2处,来自用户201的声音的声音强度是声音识别所要求的最小声音强度L2。
G2=G x (L2/V) x (D2/D)2 (4)
在步骤906,对G1和G2进行比较。
当G1小于G2时,声音输入模块301的增益在步骤907被设置为G1。
当G2小于G1,则声音输入模块301的增益Gi在步骤908被设置为G2。
根据上述处理,执行了增益调节。
在步骤909,计算用于获取适于声音识别的声音强度的距离范围。第一,通过公式(2)来计算距离DL2,其提供了声音识别所要求的声音的声音强度的下限值L2。当在步骤908中增益被调节为G2时,当前距离D2被设置为DL2。
在步骤910,通过公式(2)来计算距离DL3,其提供了声音识别所要求的声音强度的上限值L3。
在步骤911,计算距离DSN1,在该距离处的S/N比为SN1。改变后(在步骤906被比较并改变)的增益被设置为GN。同样,该S/N比通过20log10(S/N)来计算。因为增益改变前为G0,增益改变后为GN,噪声强度为N,声音强度为S,S/N比通过20log10(S/N)来计算,S从公式(1)计算出,以及如公式(3)中所示的噪声强度与增益是线性的,所以由下面的公式(5)计算出DSN1。
S=V x (GN/G) x (D/DSNl)2
N=N0 x (GN/G0)
S/N=(V/N0) x (G0/G) x (D/DSNl)2
SNl=20Log10(S/N)
DNSl
=squrt((V/N0) x (G0/G)/1n10(SN1/20))) x D (5)
适于声音识别的推荐距离范围是从DL3至DL2,且需要满足DSN1或更小的范围。如果在步骤912中确定满足DSN1<DL3,则处理进行到步骤914,否则处理进行到步骤913。
在步骤913,当确定满足DSN1≤DL2,则处理进行到步骤915,否则处理进行到步骤916。
在步骤914,由于噪声太大,即使用户来到比声音的声音强度为L3的距离更近的距离,也不能满足作为所要求的S/N比的SN1。因此,没有推荐距离范围被通知给推荐距离范围通知模块309,并且处理返回到步骤903。
在步骤915,因为噪声大,所以需要声音强度大于L2以满足作为所要求的S/N比的SN1。因此,适于声音的推荐距离范围是从DL3至DSN1。推荐距离范围估算模块307向推荐距离范围通知模块309通知获得的推荐距离范围,以及处理返回到步骤903。
在步骤916,当噪声小且声音强度大于或等于L2时,满足了所要求的S/N比,从而适于声音的推荐距离范围是从DL3至DL2。推荐距离范围估算模块307向推荐距离范围通知模块309通知获得的推荐距离范围,以及处理返回步骤903。
图10是示出了推荐距离范围通知模块309向用户201通知由推荐距离范围估算模块307通知的推荐距离范围的信息。
在步骤1001,当存在来自推荐距离范围估算模块307的推荐距离范围的通知时,处理进行到步骤1002。当没有推荐距离范围的更新通知时,处理进行到步骤1005。
在步骤1002,当通知没有推荐距离范围存在时,处理进行到步骤1003,或者如果存在推荐距离范围,则处理进行到步骤1004。
在步骤1003,向用户201通知噪声太大以致不存在能够识别声音的推荐距离范围的通知,以及处理进行到步骤1001。例如,其用如图14c所示的姿势来表现、显示在指示器106上、或通过合成声音输出。
在步骤1004,由推荐距离范围估算模块307通知的推荐距离范围的下限值被存储为内部变量DD1,以及上限值被存储为内部变量DD2。同样,如果推荐距离范围的上限值和下限值已经被存储,则由推荐距离范围估算模块307新通知的距离范围的内部变量(下限值DD1和上限值DD2)被更新并存储。
在步骤1005,从用户距离测量模块304获取用户201和声音交互机器人100之间的当前距离D的信息。
在步骤1006,当当前距离D小于DD1时,用户201位于比适于声音的推荐距离范围更近的位置,从而处理进行到步骤1008,否则,处理进行到步骤1007。
在步骤1007,当当前距离D处于推荐距离范围内时,用户201和声音交互机器人100之间的距离是适当的,从而处理进行到步骤1009,否则用户201的位置超出推荐距离范围,从而处理进行到步骤1010。
在步骤1008,做出通知用户201其位置太靠近机器人100的通知,以及处理返回到步骤1001。例如,可以通过在图14部分(C)中示出的姿势来做出通知、通过图13中所示的显示在指示器106上指示区域1301中的位置的条形1305来做出该通知、或由合成声音输出来做出通知。
在步骤1009,通知用户201位于推荐距离范围内,以及处理进行到步骤1001。例如,可以通过在图14部分(B)中示出的姿势来做出通知、通过图13中所示的显示在指示器106上指示区域1302中的位置的条形1305来做出通知、或由合成声音输出来做出通知。
在步骤1010,做出通知用户201其位置距离机器人100太远的通知,以及处理返回到步骤1001。例如,可以通过在图14部分(A)中示出的姿势、图13中所示的显示在指示器106上指示区域1303中的位置的条形1305来做出通知、或由合成声音输出来做出通知。
如上所述,声音交互机器人100在正常时间可以根据噪声强度和用户201的声音的声音强度来向用户201通知适于该声音的距离。用户可以在确认推荐距离范围和当前距离的同时发出声音,而不用按照现有技术通过重复声音来确认适当的声音强度或距离。因此,用户201知道用户是否位于取决于噪声强度的推荐距离范围内,或者用户应该移动多远以进入推荐距离范围。从而,可以支持用户从适于声音的推荐距离范围发出声音以满足声音识别准确度,由此来提高声音识别率。
尽管在第一实施例中估算并向用户通知适于声音的推荐距离范围,也可以提供使声音交互机器人100能够移动至计算出的推荐距离范围内的功能。
第二实施例
下面将描述根据第二实施例的声音交互机器人。
图11是根据第二实施例的声音交互机器人的功能框图。
根据第二实施例的声音交互机器人100还具有识别用户的功能,并且特征在于对于每个被识别的用户,切换所使用的DB。
如图11所示,声音交互机器人100设置有图像输入模块310和用户识别模块311。
图像输入模块310包括图像拾取装置101、102。在声音交互机器人100前面的用户210的图像被图像拾取装置101捕获并作为输入图像数据被输出。
用户识别模块311通过由图像输入模块310输入的图像来识别用户201。用户识别模块311可以使用通过执行脸部识别处理以识别用户201的脸部来识别用户的直接方法,或通过从背景图像的特性识别声音交互机器人100面向的方向来识别用户的间接方法。用户识别模块311在每个给定时间周期执行用户识别处理,并将代表用户201的ID通知给推荐距离范围估算模块307。
图12是示出了根据第二实施例的用于声音交互机器人100的推荐距离范围估算模块307的处理的流程图。
在步骤400,通过引用来自用户识别模块311的通知从而将用户201的用户ID设置为内部变量。
在步骤401,确定用户201的声音强度是否已经被测量。通过访问用户声音强度DB 306来检查是否存在具有该用户ID的声音强度信息,其中如果没有注册指定ID的声音强度信息,则处理进行到步骤402,或者如果存在注册,则处理进行到步骤403。
在步骤402,测量用户201的声音强度,其中获得的集合(G、D、V)被注册记录在用户ID作为检索关键字的用户声音强度DB306中。处理返回到步骤401。
在步骤403,使用用户201的声音强度信息来执行根据噪声强度的增益调节和距离传声器的适合距离计算,从而距离信息被通知给推荐距离范围通知模块309。
在步骤404,检查从用户识别模块311通知的用户ID是否没有从保存为内部变量的用户ID发生改变。如果用户ID改变了,则处理进行到步骤400,或者如果用户ID没有改变,则处理进行到步骤403。
根据第二实施例的声音交互机器人100,即使多个用户使用声音交互机器人100并且每个用户的声音的声音强度不相同,也可以估算对于每个用户的适当距离范围。估算适于声音的推荐距离范围,并通知给用户201,从而用户201知道用户是否位于取决于噪声强度的推荐距离范围内,或者用户应该移动多远以进入推荐距离范围。因此,可以支持用户从适于声音的推荐距离范围发出声音以满足声音识别准确性来提高声音识别率。
应该理解本发明不限于上述的特定实施例,并且本发明可以在不背离本发明的精神和范围的情况下由经修改的部件来实施。根据在上述实施例中披露的部件的适当组合可以以各种形式实施本发明。例如可以从作为实施例被描述的配置中删除一些部件。此外,在不同实施例中描述的部件可以适当地组合使用。
Claims (8)
1.一种声音识别装置,包括:
音频输入模块,接收音频输入并输出音频信号,所述音频输入模块具有被配置为可调节的增益;
声音识别模块,检测所述音频信号中检测到用户的声音活动的声音区间,以及对所述声音区间期间的所述音频信号执行声音识别;
第一强度测量模块,测量在所述声音区间中的所述音频信号的声音强度并输出所述声音强度;
第二强度测量模块,测量在噪声区间中的所述音频信号的噪声强度并输出所述噪声强度,所述噪声区间是除了所述声音区间之外的时间区间;
第一计算模块,计算作为所述声音强度与所述噪声强度之比的S/N比;
距离测量模块,测量所述用户和所述声音输入模块之间的当前距离;
第一存储模块,存储与如下S/N比相对应的第一阈值,在所述S/N比处,所述声音识别模块能够以给定识别率执行声音识别;
第二存储模块,存储具有所述声音强度、所述当前距离和所述增益的集合的声音特性,通过所述声音特性,所述声音识别模块成功执行所述声音识别;
第二计算模块,基于所述声音特性,计算用于所述当前距离的推荐距离范围,在所述推荐距离范围内,估算出所述S/N比超过所述第一阈值;以及
显示模块,显示所述推荐距离范围和所述当前距离。
2.根据权利要求1所述的装置,进一步包括:第三存储模块,存储与可允许从所述音频输入模块输出的所述音频信号的上限相对应的第二阈值,
其中所述第二计算模块通过基于所述声音特性和所述增益来计算其中估算出所述声音强度不超过所述第二阈值的距离范围并将计算出的所述距离范围设置为所述推荐距离范围,从而来计算所述推荐距离范围。
3.根据权利要求2所述的装置,进一步包括:
第四存储模块,存储与在所述音频信号中可允许的所述噪声强度的上限相对应的第三阈值;以及
控制模块,控制所述声音识别模块的增益以控制所述噪声强度不超过所述第三阈值。
4.根据权利要求3所述的装置,进一步包括:
确定模块,确定所述当前距离是否位于所述推荐距离范围内;以及
通知模块,通知所述用户由所述确定模块确定的结果。
5.根据权利要求1所述的装置,其中所述第二存储模块利用对于多个用户中的每个用户都唯一的识别信息,为多个用户中的每个用户存储所述声音特性。
6.根据权利要求5所述的装置,其中所述第二计算模块基于由给定识别信息指定的所述声音特性来计算所述推荐距离范围。
7.根据权利要求6所述的装置,进一步包括:用户识别模块,识别发出声音的所述用户,并获取对应于所识别的用户的所述识别信息,
其中所述第二计算模块基于由所述用户识别模块获取的所述识别信息指定的所述声音特性来计算所述推荐距离范围。
8.一种用于执行声音识别的方法,所述方法包括:
接收音频输入以输出具有被配置为可调节的增益的音频信号;
在所述音频信号中检测找到出现用户声音的声音区间,以对所述声音区间期间的所述音频信号执行所述声音识别;
测量所述声音区间中所述音频信号的声音强度以输出所述声音强度;
测量在噪声区间中的所述音频信号的噪声强度以输出所述噪声强度,所述噪声区间是除了所述声音区间之外的时间区间;
计算作为所述声音强度和所述噪声强度之比的S/N比;
测量距离所述用户的当前距离;
存储与如下S/N比相对应的第一阈值,在所述S/N比处,能够以给定的识别率执行所述声音识别;
存储具有所述声音强度、所述当前距离和所述增益的集合的声音特性,通过所述声音特性成功识别声音;
基于所述声音特性计算用于所述当前距离的推荐距离范围,在所述推荐距离范围内,估算出所述S/N比超过所述第一阈值;以及
显示所述推荐距离范围和所述当前距离。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008-035126 | 2008-02-15 | ||
JP2008035126 | 2008-02-15 | ||
JP2008035126A JP5075664B2 (ja) | 2008-02-15 | 2008-02-15 | 音声対話装置及び支援方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101510425A true CN101510425A (zh) | 2009-08-19 |
CN101510425B CN101510425B (zh) | 2012-02-29 |
Family
ID=40955907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100074381A Expired - Fee Related CN101510425B (zh) | 2008-02-15 | 2009-02-13 | 声音识别装置以及用于执行声音识别的方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8155968B2 (zh) |
JP (1) | JP5075664B2 (zh) |
CN (1) | CN101510425B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102437825A (zh) * | 2010-09-29 | 2012-05-02 | 索尼公司 | 控制装置和控制方法 |
CN102640084A (zh) * | 2009-11-27 | 2012-08-15 | 三星电子株式会社 | 用于多用户和***的通信接口设备和方法 |
CN103259908A (zh) * | 2012-02-15 | 2013-08-21 | 联想(北京)有限公司 | 一种移动终端及其智能控制方法 |
CN104123484A (zh) * | 2013-04-25 | 2014-10-29 | 国民技术股份有限公司 | 终端、认证设备及其通信方法 |
CN104134440A (zh) * | 2014-07-31 | 2014-11-05 | 百度在线网络技术(北京)有限公司 | 用于便携式终端的语音检测方法和语音检测装置 |
CN104751852A (zh) * | 2015-03-20 | 2015-07-01 | 广东小天才科技有限公司 | 一种声音处理的方法和装置 |
CN104978956A (zh) * | 2014-04-14 | 2015-10-14 | 美的集团股份有限公司 | 语音控制方法和*** |
CN105527862A (zh) * | 2014-09-28 | 2016-04-27 | 联想(北京)有限公司 | 一种信息处理方法及第一电子设备 |
WO2017000774A1 (zh) * | 2015-06-30 | 2017-01-05 | 芋头科技(杭州)有限公司 | 一种机器人自身音源消除*** |
CN106796790A (zh) * | 2016-11-16 | 2017-05-31 | 深圳达闼科技控股有限公司 | 机器人语音指令识别的方法及相关机器人装置 |
CN106774882A (zh) * | 2012-09-17 | 2017-05-31 | 联想(北京)有限公司 | 一种信息处理的方法及电子设备 |
CN108290296A (zh) * | 2015-12-07 | 2018-07-17 | 川崎重工业株式会社 | 机器人***及其运转方法 |
CN108320742A (zh) * | 2018-01-31 | 2018-07-24 | 广东美的制冷设备有限公司 | 语音交互方法、智能设备及存储介质 |
CN108600060A (zh) * | 2018-04-28 | 2018-09-28 | 杭州任你说智能科技有限公司 | 一种智能语音红外控制家用电器的***和方法 |
CN109074816A (zh) * | 2016-06-15 | 2018-12-21 | 英特尔公司 | 远场自动语音识别预处理 |
CN109243441A (zh) * | 2018-09-26 | 2019-01-18 | 广东小天才科技有限公司 | 调整语音采集距离的引导方法、装置、终端及存储介质 |
CN109389975A (zh) * | 2017-08-09 | 2019-02-26 | 联想(新加坡)私人有限公司 | 语音辅助***、服务器装置、设备、其语音辅助方法 |
CN109389978A (zh) * | 2018-11-05 | 2019-02-26 | 珠海格力电器股份有限公司 | 一种语音识别方法及装置 |
CN109637540A (zh) * | 2019-02-28 | 2019-04-16 | 北京百度网讯科技有限公司 | 智能语音设备的蓝牙评测方法、装置、设备及介质 |
CN110390934A (zh) * | 2019-06-25 | 2019-10-29 | 华为技术有限公司 | 一种信息提示的方法和语音交互终端 |
CN111492425A (zh) * | 2017-12-19 | 2020-08-04 | 三星电子株式会社 | 语音识别设备和方法 |
CN111684521A (zh) * | 2018-02-02 | 2020-09-18 | 三星电子株式会社 | 用于说话者识别的处理语音信号方法及实现其的电子装置 |
CN112152667A (zh) * | 2019-06-11 | 2020-12-29 | 华为技术有限公司 | 一种识别电器的方法及装置 |
CN112261564A (zh) * | 2020-09-29 | 2021-01-22 | 雷国斌 | 一种基于语音识别的可声音放大接受设备 |
WO2022022647A1 (zh) * | 2020-07-31 | 2022-02-03 | 维沃移动通信有限公司 | 电子设备的录音方法及录音装置 |
CN108242236B (zh) * | 2016-12-26 | 2023-12-15 | 现代自动车株式会社 | 对话处理装置及其车辆和对话处理方法 |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7987212B2 (en) * | 2008-04-01 | 2011-07-26 | Trimble Navigation Limited | Merging data from survey devices |
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
KR20110047852A (ko) * | 2009-10-30 | 2011-05-09 | 삼성전자주식회사 | 동작 환경에 적응 가능한 음원녹음장치 및 그 방법 |
JP2011118822A (ja) * | 2009-12-07 | 2011-06-16 | Nec Casio Mobile Communications Ltd | 電子機器、発話検出装置、音声認識操作システム、音声認識操作方法及びプログラム |
FR2962048A1 (fr) * | 2010-07-02 | 2012-01-06 | Aldebaran Robotics S A | Robot humanoide joueur, methode et systeme d'utilisation dudit robot |
EP2509337B1 (en) * | 2011-04-06 | 2014-09-24 | Sony Ericsson Mobile Communications AB | Accelerometer vector controlled noise cancelling method |
JP6025037B2 (ja) * | 2012-10-25 | 2016-11-16 | パナソニックIpマネジメント株式会社 | 音声エージェント装置、及びその制御方法 |
KR102091003B1 (ko) * | 2012-12-10 | 2020-03-19 | 삼성전자 주식회사 | 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치 |
US10466795B2 (en) * | 2013-03-29 | 2019-11-05 | Lg Electronics Inc. | Mobile input device and command input method using the same |
US20140358535A1 (en) * | 2013-05-28 | 2014-12-04 | Samsung Electronics Co., Ltd. | Method of executing voice recognition of electronic device and electronic device using the same |
US9310800B1 (en) * | 2013-07-30 | 2016-04-12 | The Boeing Company | Robotic platform evaluation system |
EP2933067B1 (en) * | 2014-04-17 | 2019-09-18 | Softbank Robotics Europe | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method |
JP6514475B2 (ja) * | 2014-10-03 | 2019-05-15 | 株式会社Nttドコモ | 対話装置および対話方法 |
JP6635049B2 (ja) * | 2014-12-26 | 2020-01-22 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN105845135A (zh) * | 2015-01-12 | 2016-08-10 | 芋头科技(杭州)有限公司 | 一种机器人***的声音识别***及方法 |
DE102015206566A1 (de) * | 2015-04-13 | 2016-10-13 | BSH Hausgeräte GmbH | Haushaltsgerät und Verfahren zum Betreiben eines Haushaltsgeräts |
KR20180094875A (ko) * | 2015-12-18 | 2018-08-24 | 소니 주식회사 | 정보 처리 장치, 정보 처리 방법, 및 프로그램 |
US9881630B2 (en) * | 2015-12-30 | 2018-01-30 | Google Llc | Acoustic keystroke transient canceler for speech communication terminals using a semi-blind adaptive filter model |
CN105678145A (zh) * | 2016-01-04 | 2016-06-15 | 上海斐讯数据通信技术有限公司 | 一种智能终端及其解锁方法 |
US11665009B2 (en) * | 2016-07-13 | 2023-05-30 | Vocal Power-House Systems, LLC | Responsive communication system |
WO2018023231A1 (zh) * | 2016-07-31 | 2018-02-08 | 杨洁 | 根据声音移动机器人时的信息推送方法和机器人 |
WO2018023232A1 (zh) * | 2016-07-31 | 2018-02-08 | 杨洁 | 一种根据声音移动机器人的方法和机器人 |
JP6569926B2 (ja) * | 2016-08-17 | 2019-09-04 | パナソニックIpマネジメント株式会社 | 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム |
US10467509B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
US11107472B2 (en) | 2017-03-31 | 2021-08-31 | Intel Corporation | Management of human-machine dialogue involving multiple parties |
JP2018202567A (ja) * | 2017-06-07 | 2018-12-27 | シャープ株式会社 | 動作制御装置およびその制御方法、ロボットならびに制御プログラム |
US10438587B1 (en) * | 2017-08-08 | 2019-10-08 | X Development Llc | Speech recognition biasing |
CN107742516B (zh) * | 2017-09-29 | 2020-11-17 | 上海望潮数据科技有限公司 | 智能识别方法、机器人及计算机可读存储介质 |
US11450314B2 (en) * | 2017-10-03 | 2022-09-20 | Google Llc | Voice user interface shortcuts for an assistant application |
KR101972545B1 (ko) * | 2018-02-12 | 2019-04-26 | 주식회사 럭스로보 | 음성 명령을 통한 위치 기반 음성 인식 시스템 |
CN111788043B (zh) * | 2018-03-30 | 2024-06-14 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
JP7176244B2 (ja) * | 2018-06-20 | 2022-11-22 | カシオ計算機株式会社 | ロボット、ロボットの制御方法及びプログラム |
US11094327B2 (en) * | 2018-09-28 | 2021-08-17 | Lenovo (Singapore) Pte. Ltd. | Audible input transcription |
KR102228866B1 (ko) * | 2018-10-18 | 2021-03-17 | 엘지전자 주식회사 | 로봇 및 그의 제어 방법 |
KR102654874B1 (ko) | 2018-12-31 | 2024-04-05 | 삼성전자주식회사 | 화자 인식을 위한 뉴럴 네트워크 장치, 및 그 동작 방법 |
US11076219B2 (en) * | 2019-04-12 | 2021-07-27 | Bose Corporation | Automated control of noise reduction or noise masking |
KR102280692B1 (ko) * | 2019-08-12 | 2021-07-22 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스 |
KR102280690B1 (ko) * | 2019-08-15 | 2021-07-22 | 엘지전자 주식회사 | 지능적 음성 출력 방법, 음성 출력 장치 및 지능형 컴퓨팅 디바이스 |
KR20210050201A (ko) * | 2019-10-28 | 2021-05-07 | 엘지전자 주식회사 | 로봇, 로봇의 작동 방법 및 상기 로봇을 포함하는 로봇 시스템 |
CN114586374A (zh) * | 2019-10-30 | 2022-06-03 | 松下知识产权经营株式会社 | 拾音装置以及拾音方法 |
CN114745578A (zh) * | 2020-12-24 | 2022-07-12 | 惠州视维新技术有限公司 | 电视机控制方法、装置、电视机及计算机可读存储介质 |
CN112656309A (zh) * | 2020-12-25 | 2021-04-16 | 北京小狗吸尘器集团股份有限公司 | 扫地机的功能执行方法、装置、可读存储介质及电子设备 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02132499A (ja) * | 1988-11-14 | 1990-05-21 | Toshiba Corp | 音声入力装置 |
JP2877350B2 (ja) * | 1989-05-24 | 1999-03-31 | 株式会社東芝 | 環境モニタ付音声認識装置 |
JPH06236196A (ja) * | 1993-02-08 | 1994-08-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法および装置 |
JPH08250944A (ja) * | 1995-03-13 | 1996-09-27 | Nippon Telegr & Teleph Corp <Ntt> | 自動音量制御方法およびこの方法を実施する装置 |
JPH11316598A (ja) * | 1998-05-01 | 1999-11-16 | Kyocera Corp | 音声認識作動装置 |
JP3001000B1 (ja) * | 1998-09-08 | 2000-01-17 | セイコーエプソン株式会社 | 音声認識装置における連続単語認識方法および音声認識装置における連続単語認識処理プログラムを記録した記録媒体 |
EP1202603A4 (en) | 2000-06-22 | 2003-01-02 | Mitsubishi Electric Corp | VOICE RECOVERY SYSTEM, VOICE SIGNAL GENERATOR SYSTEM AND CALL SYSTEM |
JP2003131683A (ja) * | 2001-10-22 | 2003-05-09 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
JP4247002B2 (ja) * | 2003-01-22 | 2009-04-02 | 富士通株式会社 | マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置 |
JP4131392B2 (ja) * | 2003-01-28 | 2008-08-13 | ソニー株式会社 | ロボット装置およびロボット制御方法、記録媒体、並びにプログラム |
US20060195598A1 (en) * | 2003-03-28 | 2006-08-31 | Masahiro Fujita | Information providing device,method, and information providing system |
JP4213716B2 (ja) * | 2003-07-31 | 2009-01-21 | 富士通株式会社 | 音声認証システム |
EP1720374B1 (en) * | 2004-02-10 | 2011-10-12 | Honda Motor Co., Ltd. | Mobile body with superdirectivity speaker |
JP4204541B2 (ja) * | 2004-12-24 | 2009-01-07 | 株式会社東芝 | 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム |
JP2006227499A (ja) * | 2005-02-21 | 2006-08-31 | Toyota Motor Corp | 音声認識装置 |
US20070172083A1 (en) * | 2006-01-25 | 2007-07-26 | Cheng-Te Tseng | Method and apparatus for controlling a gain of a voice signal |
CN1819452A (zh) * | 2006-03-30 | 2006-08-16 | 北京中星微电子有限公司 | 一种适应语音输入距离变化的方法及其装置 |
KR20080111290A (ko) * | 2007-06-18 | 2008-12-23 | 삼성전자주식회사 | 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법 |
-
2008
- 2008-02-15 JP JP2008035126A patent/JP5075664B2/ja not_active Expired - Fee Related
-
2009
- 2009-02-12 US US12/370,133 patent/US8155968B2/en not_active Expired - Fee Related
- 2009-02-13 CN CN2009100074381A patent/CN101510425B/zh not_active Expired - Fee Related
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102640084A (zh) * | 2009-11-27 | 2012-08-15 | 三星电子株式会社 | 用于多用户和***的通信接口设备和方法 |
CN102640084B (zh) * | 2009-11-27 | 2016-03-02 | 三星电子株式会社 | 用于多用户和***的通信接口设备和方法 |
CN102437825B (zh) * | 2010-09-29 | 2016-12-07 | 索尼公司 | 控制装置和控制方法 |
CN102437825A (zh) * | 2010-09-29 | 2012-05-02 | 索尼公司 | 控制装置和控制方法 |
CN103259908A (zh) * | 2012-02-15 | 2013-08-21 | 联想(北京)有限公司 | 一种移动终端及其智能控制方法 |
CN103259908B (zh) * | 2012-02-15 | 2017-06-27 | 联想(北京)有限公司 | 一种移动终端及其智能控制方法 |
CN106774882A (zh) * | 2012-09-17 | 2017-05-31 | 联想(北京)有限公司 | 一种信息处理的方法及电子设备 |
CN106774882B (zh) * | 2012-09-17 | 2020-01-31 | 联想(北京)有限公司 | 一种信息处理的方法及电子设备 |
CN104123484A (zh) * | 2013-04-25 | 2014-10-29 | 国民技术股份有限公司 | 终端、认证设备及其通信方法 |
CN104978956A (zh) * | 2014-04-14 | 2015-10-14 | 美的集团股份有限公司 | 语音控制方法和*** |
CN104134440A (zh) * | 2014-07-31 | 2014-11-05 | 百度在线网络技术(北京)有限公司 | 用于便携式终端的语音检测方法和语音检测装置 |
CN105527862A (zh) * | 2014-09-28 | 2016-04-27 | 联想(北京)有限公司 | 一种信息处理方法及第一电子设备 |
CN105527862B (zh) * | 2014-09-28 | 2019-01-15 | 联想(北京)有限公司 | 一种信息处理方法及第一电子设备 |
CN104751852B (zh) * | 2015-03-20 | 2018-07-24 | 广东小天才科技有限公司 | 一种声音处理的方法和装置 |
CN104751852A (zh) * | 2015-03-20 | 2015-07-01 | 广东小天才科技有限公司 | 一种声音处理的方法和装置 |
US10482898B2 (en) | 2015-06-30 | 2019-11-19 | Yutou Technology (Hangzhou) Co., Ltd. | System for robot to eliminate own sound source |
WO2017000774A1 (zh) * | 2015-06-30 | 2017-01-05 | 芋头科技(杭州)有限公司 | 一种机器人自身音源消除*** |
CN108290296A (zh) * | 2015-12-07 | 2018-07-17 | 川崎重工业株式会社 | 机器人***及其运转方法 |
CN108290296B (zh) * | 2015-12-07 | 2021-05-07 | 川崎重工业株式会社 | 机器人***及其运转方法 |
CN109074816B (zh) * | 2016-06-15 | 2023-11-28 | 英特尔公司 | 远场自动语音识别预处理 |
CN109074816A (zh) * | 2016-06-15 | 2018-12-21 | 英特尔公司 | 远场自动语音识别预处理 |
CN106796790B (zh) * | 2016-11-16 | 2020-11-10 | 深圳达闼科技控股有限公司 | 机器人语音指令识别的方法及相关机器人装置 |
CN106796790A (zh) * | 2016-11-16 | 2017-05-31 | 深圳达闼科技控股有限公司 | 机器人语音指令识别的方法及相关机器人装置 |
CN108242236B (zh) * | 2016-12-26 | 2023-12-15 | 现代自动车株式会社 | 对话处理装置及其车辆和对话处理方法 |
CN109389975A (zh) * | 2017-08-09 | 2019-02-26 | 联想(新加坡)私人有限公司 | 语音辅助***、服务器装置、设备、其语音辅助方法 |
CN111492425A (zh) * | 2017-12-19 | 2020-08-04 | 三星电子株式会社 | 语音识别设备和方法 |
CN108320742A (zh) * | 2018-01-31 | 2018-07-24 | 广东美的制冷设备有限公司 | 语音交互方法、智能设备及存储介质 |
CN111684521A (zh) * | 2018-02-02 | 2020-09-18 | 三星电子株式会社 | 用于说话者识别的处理语音信号方法及实现其的电子装置 |
CN108600060A (zh) * | 2018-04-28 | 2018-09-28 | 杭州任你说智能科技有限公司 | 一种智能语音红外控制家用电器的***和方法 |
CN109243441A (zh) * | 2018-09-26 | 2019-01-18 | 广东小天才科技有限公司 | 调整语音采集距离的引导方法、装置、终端及存储介质 |
CN109243441B (zh) * | 2018-09-26 | 2023-01-20 | 广东小天才科技有限公司 | 调整语音采集距离的引导方法、装置、终端及存储介质 |
CN109389978B (zh) * | 2018-11-05 | 2020-11-03 | 珠海格力电器股份有限公司 | 一种语音识别方法及装置 |
CN109389978A (zh) * | 2018-11-05 | 2019-02-26 | 珠海格力电器股份有限公司 | 一种语音识别方法及装置 |
CN109637540A (zh) * | 2019-02-28 | 2019-04-16 | 北京百度网讯科技有限公司 | 智能语音设备的蓝牙评测方法、装置、设备及介质 |
CN112152667A (zh) * | 2019-06-11 | 2020-12-29 | 华为技术有限公司 | 一种识别电器的方法及装置 |
US11658702B2 (en) | 2019-06-11 | 2023-05-23 | Huawei Technologies Co., Ltd. | Electric appliance identification method and apparatus |
CN110390934B (zh) * | 2019-06-25 | 2022-07-26 | 华为技术有限公司 | 一种信息提示的方法和语音交互终端 |
CN110390934A (zh) * | 2019-06-25 | 2019-10-29 | 华为技术有限公司 | 一种信息提示的方法和语音交互终端 |
WO2022022647A1 (zh) * | 2020-07-31 | 2022-02-03 | 维沃移动通信有限公司 | 电子设备的录音方法及录音装置 |
CN112261564A (zh) * | 2020-09-29 | 2021-01-22 | 雷国斌 | 一种基于语音识别的可声音放大接受设备 |
CN112261564B (zh) * | 2020-09-29 | 2022-03-25 | 深圳市优创锐电子有限公司 | 一种基于语音识别的可声音放大接收设备 |
Also Published As
Publication number | Publication date |
---|---|
US8155968B2 (en) | 2012-04-10 |
CN101510425B (zh) | 2012-02-29 |
JP5075664B2 (ja) | 2012-11-21 |
JP2009192942A (ja) | 2009-08-27 |
US20090210227A1 (en) | 2009-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101510425B (zh) | 声音识别装置以及用于执行声音识别的方法 | |
US20200111498A1 (en) | Device control method, device management system, and voice input apparatus | |
CN105741836B (zh) | 声音识别装置以及声音识别方法 | |
US9093070B2 (en) | Method and mobile device for executing a preset control command based on a recognized sound and its input direction | |
EP2880844B1 (en) | Speech recognition models based on location indicia | |
US20130085757A1 (en) | Apparatus and method for speech recognition | |
WO2017141530A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
KR20140005639A (ko) | 전자 장치 및 이의 음성 인식 오류 수정 방법 | |
KR20180132011A (ko) | 음성 인식을 이용하여 전원을 제어하는 전자 장치 및 이의 전원 제어 방법 | |
US20170061959A1 (en) | Systems and Methods For Detecting Keywords in Multi-Speaker Environments | |
CN106094598A (zh) | 声控开关控制方法、***及声控开关 | |
US20170160710A1 (en) | Voice control type bath system and operating method thereof | |
US20060067164A1 (en) | User identification method, user identification device, electronic apparatus, and electronic system | |
KR101145401B1 (ko) | 로봇의 음성인식 성능 평가장치 및 평가 방법 | |
JP2009109536A (ja) | 音声認識システム及び音声認識装置 | |
US20210224066A1 (en) | Information processing device and information processing method | |
US20090083039A1 (en) | Robot apparatus with vocal interactive function and method therefor | |
KR101249549B1 (ko) | 노래방 환경에서 음성 인식기술을 이용한 곡목 검색 장치 | |
CN109035745A (zh) | 镶体式红外线家电控制器及其控制方法 | |
US11600275B2 (en) | Electronic device and control method thereof | |
US11659332B2 (en) | Estimating user location in a system including smart audio devices | |
US20220021962A1 (en) | In-ear wireless audio monitor system with integrated interface for controlling devices | |
CN116913275A (zh) | 电子装置的控制方法及装置 | |
CN107068125B (zh) | 乐器控制方法及装置 | |
JP2009109535A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120229 Termination date: 20170213 |
|
CF01 | Termination of patent right due to non-payment of annual fee |