CN105741838A - 语音唤醒方法及装置 - Google Patents
语音唤醒方法及装置 Download PDFInfo
- Publication number
- CN105741838A CN105741838A CN201610039038.9A CN201610039038A CN105741838A CN 105741838 A CN105741838 A CN 105741838A CN 201610039038 A CN201610039038 A CN 201610039038A CN 105741838 A CN105741838 A CN 105741838A
- Authority
- CN
- China
- Prior art keywords
- voice
- frame
- feature
- identification network
- default
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000000694 effects Effects 0.000 claims abstract description 29
- 238000001514 detection method Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 15
- 239000000284 extract Substances 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000000717 retained effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000007423 decrease Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 238000005457 optimization Methods 0.000 description 4
- 230000002618 waking effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请提出一种语音唤醒方法和装置,其中,该方法包括:获取用户输入的语音;采用跳帧策略对所述语音的数据帧进行处理,并通过时域能量算法对所述数据帧进行语音活动检测;提取所述语音的声学特征,根据预设的识别网络和声学模型对所述声学特征进行语音识别;若获知所述语音为所述识别网络中预设的唤醒词,则进行相应的操作。优化了语音唤醒的处理过程,能够在保证唤醒正确率不下降的前提下,极大的减少运算量,降低设备功耗,提高处理性能。
Description
技术领域
本申请涉及语音识别处理技术领域,尤其涉及一种语音唤醒方法及装置。
背景技术
语音唤醒技术是语音识别技术中重要分支,语音唤醒技术通过监听用户语音来判断用户是否说出了指定唤醒词来启动设备。目前在车载,导航,智能家居等方面有着重要的应用,用于用声音启动程序或者服务,
目前的语音唤醒手段主要是依靠垃圾词网络进行语音唤醒的,即选出一些垃圾词和唤醒词组成识别网络,得出最终的识别结果。
但是,语音唤醒技术需要对语音进行长期监听,需要打开录音设备并使设备长期处于运行计算状态。然而,目前的语音唤醒技术的识别网络和唤醒网络结构复杂,语音活动检测、解码等过程运算量较大。从而导致设备功耗较大,不能满足对语音进行长期监听,降低了处理性能。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种语音唤醒方法,该方法优化了语音唤醒的处理过程,能够在保证唤醒正确率不下降的前提下,极大的减少运算量,降低设备功耗,提高处理性能。
本申请的第二个目的在于提出一种语音唤醒装置。
为达上述目的,本申请第一方面实施例提出了一种语音唤醒方法,包括:获取用户输入的语音;采用跳帧策略对所述语音的数据帧进行处理,并通过时域能量算法对所述数据帧进行语音活动检测;提取所述语音的声学特征,根据预设的识别网络和声学模型对所述声学特征进行语音识别;若获知所述语音为所述识别网络中预设的唤醒词,则进行相应的操作。
本申请实施例的语音唤醒方法,通过获取用户输入的语音;采用跳帧策略对所述语音的数据帧进行处理,并通过时域能量算法对所述数据帧进行语音活动检测;提取所述语音的声学特征,根据预设的识别网络和声学模型对所述声学特征进行语音识别;若获知所述语音为所述识别网络中预设的唤醒词,则进行相应的操作。由此,优化了语音唤醒的处理过程,能够在保证唤醒正确率不下降的前提下,极大的减少运算量,降低设备功耗,提高处理性能。
为达上述目的,本申请第二方面实施例提出了一种语音唤醒装置,包括:获取模块,用于获取用户输入的语音;语音活动检测模块,用于采用跳帧策略对所述语音的数据帧进行处理,并通过时域能量算法对所述数据帧进行语音活动检测;提取模块,用于提取所述语音的声学特征;识别模块,用于根据预设的识别网络和声学模型对所述声学特征进行语音识别;处理模块,用于若获知所述语音为所述识别网络中预设的唤醒词,则进行相应的操作。
本申请实施例的语音唤醒装置,通过获取用户输入的语音;采用跳帧策略对所述语音的数据帧进行处理,并通过时域能量算法对所述数据帧进行语音活动检测;提取所述语音的声学特征,根据预设的识别网络和声学模型对所述声学特征进行语音识别;若获知所述语音为所述识别网络中预设的唤醒词,则进行相应的操作。由此,优化了语音唤醒的处理过程,能够在保证唤醒正确率不下降的前提下,极大的减少运算量,降低设备功耗,提高处理性能。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的语音唤醒方法的流程图;
图2是本申请另一个实施例的语音唤醒方法的流程图;
图3是本申请另一个实施例的语音唤醒方法的流程图;
图4是本申请另一个实施例的语音唤醒方法的流程图;
图5是本申请一个实施例的语音唤醒装置的结构示意图;
图6是本申请另一个实施例的语音唤醒装置的结构示意图;
图7是本申请另一个实施例的语音唤醒装置的结构示意图;
图8是本申请另一个实施例的语音唤醒装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的语音唤醒方法及装置。
图1是本申请一个实施例的语音唤醒方法的流程图。
如图1所示,该语音唤醒方法包括:
步骤101,获取用户输入的语音。
步骤102,采用跳帧策略对所述语音的数据帧进行处理,并通过时域能量算法对所述数据帧进行语音活动检测。
具体来说,本发明实施例提供的语音唤醒方法应用于语音识别***中,以对用户输入的语音进行识别,确定是否为识别网络中预设的唤醒词,以进行相应的处理操作。
用户通过语音交互的接口输入语音,然后采用优化的语音活动检测技术(voiceactivitydetech,VAD)检测输入的语音。
首先,利用语音平稳连续的特性,采用跳帧策略对所述语音的数据帧进行处理,从而与现有技术相比,可以节省一半的运算量。
需要说明的是,在不同的应用场景中可以采用不同的跳帧策略对语音的数据帧进行处理,例如包括:
第一种示例:奇数帧处理;
提取语音的第(2n-1)帧的特征,从而语音的第2n帧的特征采用第(2n-1)帧的处理结果;其中,n为正整数;
或者,
第二种示例:偶数帧处理;
提取所述语音的第2n帧的特征,从而语音的第(2n-1)帧的特征采用第2n帧的处理结果;其中,n为正整数。
然后,通过时域能量算法对所述数据帧进行语音活动检测。
与现有技术相比,不再采用频域算法,即不进行FFT,仅使用时域能量算法,节省FFT运算量,极大的优化VAD处理的功耗。
步骤103,提取所述语音的声学特征,根据预设的识别网络和声学模型对所述声学特征进行语音识别。
步骤104,若获知所述语音为所述识别网络中预设的唤醒词,则进行相应的操作。
具体地,对用户输入的语音进行语音活动检测后,对于检测出来的语音信息提取语音的声学特征。
然后,根据预先构建的识别网络和声学模型对用户语音的声学特征进行语音进行识别。
需要说明的是,为了进一步地的节约语音识别唤醒处理的功耗,可以根据应用需要优化预先构建的识别网络和声学模型,具体的识别处理算法也可以进一步地优化,后续会重点说明。语音处理算法的方式很多,例如:
根据预设的识别网络和声学模型,采用维特比算法对所述声学特征进行语音进行识别。
进而,根据识别结果进行相应的操作处理。即,当识别出用户输入的语音为唤醒词时,则进行相应的唤醒操作,当识别出用户输入的语音不是唤醒词时,则不进行相应的唤醒操作。
本实施例的语音唤醒方法,通过获取用户输入的语音,采用跳帧策略对所述语音的数据帧进行处理,并通过时域能量算法对所述数据帧进行语音活动检测,提取所述语音的声学特征,根据预设的识别网络和声学模型对所述声学特征进行语音识别,若获知所述语音为所述识别网络中预设的唤醒词,则进行相应的操作。由此,优化了语音唤醒的处理过程,能够在保证唤醒正确率不下降的前提下,极大的减少运算量,降低设备功耗,提高处理性能。
图2是本申请另一个实施例的语音唤醒方法的流程图。
如图2所示,针对图1中的步骤103,可以包括以下步骤:
步骤201,对采用滤波器filterbank提取的第一维度特征进行离散余弦变换,获取梅尔频率倒谱系数mfcc的第二维度特征。
步骤202,获取所述语音的振幅作为第三维度特征。
步骤203,将所述语音通过高通滤波器获取高频信号,获取所述高频信号的绝对值的对数值作为第四维度特征。
步骤204,根据所述第二维度特征、所述第三维度特征和所述第四维度特征确定所述语音的声学特征。
步骤205,根据预设的识别网络和声学模型对所述声学特征进行语音识别。
具体地,本实施例是针对上述实施例中提取语音的声学特征的优化处理,从而简化根据预设的识别网络和声学模型对声学特征进行语音识别的过程。
对用户输入的语音进行声学特征提取过程中,一般提取滤波器FilterBank特征,维度较高,运算量较大。
本实施例对FilterBank特征进行离散余弦变换,获取梅尔频率倒谱系数mfcc的维度特征,提取所述语音的振幅的维度特征,以及将语音通过高通滤波器获取高频信号,提取所述高频信号的维度特征。
从而,经过上述处理后提取输入语音的声学特征,为了更加清楚的说明本实施例提供的声学特征提取方法,举例说明如下:
假设对语音进行特征提取处理后提取出40维的filterbank特征,目前数目为40维,本发明采用的mfcc+其他特征(13+2),特征获取过程,具体如下:
1、将40维的filterbank特征进行dct变换(离散余弦变换),进而得到13维的mfcc特征;
2、接下来需要得到其他两个特征,首先将声音的响度(振幅)作为第14维特征;
3、然后将声音通过hpf(高通滤波器),可认为剩下的是高频信号,而人类语言信息也大都集中在高频,将通过hpf的信号的绝对值的log值作为第15维特征。
由此可见,通过减少特征数量的手段,减少特征提取运算的运算量,同时减少了后续向量乘矩阵的运算量。
基于上述实施例,本实施例的语音唤醒方法,进一步地通过对采用滤波器提取的第一维度特征进行离散余弦变换,获取梅尔频率倒谱系数的第二维度特征,获取所述语音的振幅作为第三维度特征,将所述语音通过高通滤波器获取高频信号,获取所述高频信号的绝对值的对数值作为第四维度特征,根据所述第二维度特征、所述第三维度特征和所述第四维度特征确定所述语音的声学特征,根据预设的识别网络和声学模型对所述声学特征进行语音进行识别。由此,优化了语音唤醒的处理过程,能够在保证唤醒正确率不下降的前提下,极大的减少运算量,降低设备功耗,提高处理性能,并且进一步地通过减少特征数量的手段,减少特征提取运算的运算量,同时减少了后续向量乘矩阵的运算量,从而进一步地减少了处理功耗。
图3是本申请另一个实施例的语音唤醒方法的流程图。
如图3所示,在图1中的步骤101之前,还可以包括以下步骤:
步骤301,通过编辑距离聚类的算法确定所述识别网络的垃圾词。
步骤302,根据所述垃圾词和预设的唤醒词构建所述识别网络。
具体地,基于上述实施例,在进行语音识别之前,应该构建用于语音识别的识别网络以及声学模型。
其中,识别网络是包括唤醒词和垃圾词的并行网络,目前的垃圾词的数量不够精简,本实施例通过编辑距离聚类的算法简化识别网络的垃圾词,进一步地减少运算量,减少了处理功耗。具体包括:
将所有的音节序列并联成一个识别网络;
根据所述识别网络对预设的语音训练集进行识别,获取数量大于预设的第一阈值的识别结果;
从所述识别结果中获取出现概率最高的那个音节A,其余的是B1到BN,分别计算A与B1到BN之间的编辑距离E,保留编辑距离最大的Bk,依次计算剩下的音节,直到保留的音节数量满足预设的第二阈值;
进而,将保留的音节数量作为所述识别网络的垃圾词。
为了更加清楚的说明上述对垃圾词的优化过程,通过编辑距离聚类的算法将原有的50个垃圾词优化至10个,减少构建的解码网络的大小,优化效率,举例说明如下:
将原来50个垃圾词优化到10个,并保持效果基本不变的流程如下:
步骤1:将所有的音节序列并联成一个识别网络,然后通过大量的语音输入,得到识别结果,其中识别结果数量最多的top20,就是表明最常用的20个垃圾词,可以用这20个垃圾词来代表全部的发音音节序列;
步骤2:得到上边的20个垃圾词还不够,需要进一步的精简,要选择出现概率最高的那个词A,其余的是B1,B2……B19,分别计算编辑距离E(AB1),E(AB2)……E(ABi),其中编辑距离最大的一个Bk保留;
然后A和Bk确定保留,剩下的18个和Bk计算编辑距离,然后和Bk编辑距离最大的那个Bj保留,然后剩下的17个和Bj计算编辑距离。
以此类推,这样的算法十次之后,就可以得到每次编辑距离最大的点,也就是能够最好的分散的点,之后用这10个垃圾词测试,效果和50个垃圾词效果差异不大。
由此,通过精简的,只有10个垃圾词和唤醒词并联的解码网络代替原本的50个垃圾词和唤醒词并联的解码网络,可以减少后续维特比运算的运算量;
步骤303,构建深度神经网络的声学模型,所述深度神经网络的维度M小于等于预设的门限值。
具体地,本实施例构建深度神经网络DNN的声学模型,并对深度神经网络的维度M设置了门限值,M需要小于等于预设的门限值。进而,加载优化后的声学模型,即减少DNN网络的维度,DNN似然计算的原理是矩阵运算。举例说明如下:
假设输入的特征是维度为A的向量,那么神经网络为矩阵B1,B2,B3……BN;
那么计算过程为A*B1*B2*B3……BN,输出结果为似然;
那么通过减少N的数量和其中每个矩阵的大小,可以有效的减少似然计算的计算量;
进而,在优化后的垃圾词网络上进行维特比解码,此刻通过加大裁剪力度,即,减少同时存在的活动节点的个数,减少功耗。
基于上述实施例,本实施例的语音唤醒方法,进一步地减少对识别网络的垃圾词的数量,以及声学模型的维度,进一步地简化了识别网络,可以减少后续维特比运算的运算量。
基于上述实施例,在所述根据预设的识别网络和声学模型对所述声学特征进行语音进行识别之后,还包括:
根据预设的拒绝策略停止语音识别,从而及时判定唤醒失败,停止运行维特比解码,极大的节省运算量,
需要说明的是,可以根据不同的应用场景设置不同的拒绝策略,通过图4所示实施例说明如下:
图4是本申请另一个实施例的语音唤醒方法的流程图。
如图4所示,在图1中的步骤103之后,还可以包括以下步骤:
步骤401,判断语音活动检测的语音长度和识别出垃圾词的数量的加权和是否大于预设的阈值。
步骤402,如果所述加权和大于所述阈值,则确定唤醒失败,则停止语音识别。
具体地,本实施例通过VAD判断的语音长度和识别出垃圾词的数量的加权和作为拒绝依据,即当语音长度和识别出垃圾词的数量的加权和大于某一门限时判定唤醒失败,停止运行维特比解码,极大的节省运算量。可以采用的公式如下:
Score=M*Length+N*GbgCnt;(Length为语音长度,GbgCnt为识别结果垃圾词数量,两者乘以系数,然后加和,M,N为实验数值)
如果Score>Threshold;停止进行识别。
基于上述实施例,本实施例的语音唤醒方法,进一步地通过判断语音活动检测的语音长度和识别出垃圾词的数量的加权和是否大于预设的阈值,如果所述加权和大于所述阈值,则确定唤醒失败,则停止语音识别。进一步地可以减少解码运算量,提高处理效率,节约功耗。
为了实现上述实施例,本申请还提出一种语音唤醒装置。
图5是本申请一个实施例的语音唤醒装置的结构示意图。
如图5所示,该语音唤醒装置包括:
获取模块11,用于获取用户输入的语音;
语音活动检测模块12,用于采用跳帧策略对所述语音的数据帧进行处理,并通过时域能量算法对所述数据帧进行语音活动检测;
其中,所述语音活动检测模块12用于:
提取所述语音的第(2n-1)帧的特征,以使所述语音的第2n帧的特征采用第(2n-1)帧的处理结果;其中,n为正整数;
或者,
提取所述语音的第2n帧的特征,以使所述语音的第(2n-1)帧的特征采用第2n帧的处理结果;其中,n为正整数。
提取模块13,用于提取所述语音的声学特征;
识别模块14,用于根据预设的识别网络和声学模型对所述声学特征进行语音识别;
具体地,所述识别模块14用于:
根据预设的识别网络和声学模型,采用维特比算法对所述声学特征进行语音进行识别。
处理模块15,用于若获知所述语音为所述识别网络中预设的唤醒词,则进行相应的操作。
需要说明的是,前述对语音唤醒方法实施例的解释说明也适用于该实施例的语音唤醒装置,此处不再赘述。
本申请实施例的语音唤醒装置,通过获取用户输入的语音,采用跳帧策略对所述语音的数据帧进行处理,并通过时域能量算法对所述数据帧进行语音活动检测,提取所述语音的声学特征,根据预设的识别网络和声学模型对所述声学特征进行语音识别,若获知所述语音为所述识别网络中预设的唤醒词,则进行相应的操作。由此,优化了语音唤醒的处理过程,能够在保证唤醒正确率不下降的前提下,极大的减少运算量,降低设备功耗,提高处理性能。
图6是本申请另一个实施例的语音唤醒装置的结构示意图,如图6所示,基于图5所示实施例,所述提取模块13,包括:
第一获取单元131,用于对采用滤波器filterbank提取的第一维度特征进行离散余弦变换,获取梅尔频率倒谱系数mfcc的第二维度特征;
第二获取单元132,用于获取所述语音的振幅作为第三维度特征;
第三获取单元133,用于将所述语音通过高通滤波器获取高频信号,获取所述高频信号的绝对值的对数值作为第四维度特征;
确定单元134,用于根据所述第二维度特征、所述第三维度特征和所述第四维度特征确定所述语音的声学特征。
需要说明的是,前述对语音唤醒方法实施例的解释说明也适用于该实施例的语音唤醒装置,此处不再赘述。
本申请实施例的语音唤醒装置,进一步地通过对采用滤波器提取的第一维度特征进行离散余弦变换,获取梅尔频率倒谱系数的第二维度特征,获取所述语音的振幅作为第三维度特征,将所述语音通过高通滤波器获取高频信号,获取所述高频信号的绝对值的对数值作为第四维度特征,根据所述第二维度特征、所述第三维度特征和所述第四维度特征确定所述语音的声学特征,根据预设的识别网络和声学模型对所述声学特征进行语音进行识别。由此,优化了语音唤醒的处理过程,能够在保证唤醒正确率不下降的前提下,极大的减少运算量,降低设备功耗,提高处理性能,并且进一步地通过减少特征数量的手段,减少特征提取运算的运算量,同时减少了后续向量乘矩阵的运算量,从而进一步地减少了处理功耗。
图7是本申请另一个实施例的语音唤醒装置的结构示意图,如图7所示,基于上述实施例,以图5所示实施例为例,还包括:
确定模块16,用于通过编辑距离聚类的算法确定所述识别网络的垃圾词;
在一个实施例中,所述确定模块16用于:
将所有的音节序列并联成一个识别网络,根据所述识别网络对预设的语音训练集进行识别,获取数量大于预设的第一阈值的识别结果;
从所述识别结果中获取出现概率最高的那个音节A,其余的是B1到BN,分别计算A与B1到BN之间的编辑距离E,保留编辑距离最大的Bk,依次计算剩下的音节,直到保留的音节数量满足预设的第二阈值;
将保留的音节数量作为所述识别网络的垃圾词。
第一构建模块17,用于根据所述垃圾词和预设的唤醒词构建所述识别网络。
第二构建模块18,用于构建深度神经网络的声学模型,所述深度神经网络的维度M小于等于预设的门限值。
需要说明的是,前述对语音唤醒方法实施例的解释说明也适用于该实施例的语音唤醒装置,此处不再赘述。
本申请实施例的语音唤醒装置,进一步地减少对识别网络的垃圾词的数量,以及声学模型的维度,进一步地简化了识别网络,可以减少后续维特比运算的运算量。
图8是本申请另一个实施例的语音唤醒装置的结构示意图,如图8所示,基于上述实施例,以图5为例,还包括:
拒绝模块19,用于根据预设的拒绝策略停止语音识别。
在一个实施例中,所述拒绝模块19用于:
判断语音活动检测的语音长度和识别出垃圾词的数量的加权和是否大于预设的阈值;
如果所述加权和大于所述阈值,则确定唤醒失败,则停止语音识别。
需要说明的是,前述对语音唤醒方法实施例的解释说明也适用于该实施例的语音唤醒装置,此处不再赘述。
本申请实施例的语音唤醒装置,进一步地通过判断语音活动检测的语音长度和识别出垃圾词的数量的加权和是否大于预设的阈值,如果所述加权和大于所述阈值,则确定唤醒失败,则停止语音识别。进一步地可以减少解码运算量,提高处理效率,节约功耗。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (18)
1.一种语音唤醒方法,其特征在于,包括以下步骤:
获取用户输入的语音;
采用跳帧策略对所述语音的数据帧进行处理,并通过时域能量算法对所述数据帧进行语音活动检测;
提取所述语音的声学特征,根据预设的识别网络和声学模型对所述声学特征进行语音识别;
若获知所述语音为所述识别网络中预设的唤醒词,则进行相应的操作。
2.如权利要求1所述的方法,其特征在于,所述采用跳帧策略对所述语音的数据帧进行处理,包括:
提取所述语音的第(2n-1)帧的特征,以使所述语音的第2n帧的特征采用第(2n-1)帧的处理结果;其中,n为正整数;
或者,
提取所述语音的第2n帧的特征,以使所述语音的第(2n-1)帧的特征采用第2n帧的处理结果;其中,n为正整数。
3.如权利要求1所述的方法,其特征在于,所述提取所述语音的声学特征,包括:
对采用滤波器filterbank提取的第一维度特征进行离散余弦变换,获取梅尔频率倒谱系数mfcc的第二维度特征;
获取所述语音的振幅作为第三维度特征;
将所述语音通过高通滤波器获取高频信号,获取所述高频信号的绝对值的对数值作为第四维度特征;
根据所述第二维度特征、所述第三维度特征和所述第四维度特征确定所述语音的声学特征。
4.如权利要求1所述的方法,其特征在于,所述根据预设的识别网络和声学模型对所述声学特征进行语音进行识别,包括:
根据预设的识别网络和声学模型,采用维特比算法对所述声学特征进行语音进行识别。
5.如权利要求1所述的方法,其特征在于,在所述获取用户输入的语音之前,还包括:
通过编辑距离聚类的算法确定所述识别网络的垃圾词;
根据所述垃圾词和预设的唤醒词构建所述识别网络。
6.如权利要求5所述的方法,其特征在于,所述通过编辑距离聚类的算法确定所述识别网络的垃圾词,包括:
将所有的音节序列并联成一个识别网络;
根据所述识别网络对预设的语音训练集进行识别,获取数量大于预设的第一阈值的识别结果;
从所述识别结果中获取出现概率最高的那个音节A,其余的是B1到BN,分别计算A与B1到BN之间的编辑距离E,保留编辑距离最大的Bk,依次计算剩下的音节,直到保留的音节数量满足预设的第二阈值;
将保留的音节数量作为所述识别网络的垃圾词。
7.如权利要求1所述的方法,其特征在于,在所述获取用户输入的语音之前,还包括:
构建深度神经网络的声学模型,所述深度神经网络的维度M小于等于预设的门限值。
8.如权利要求1-7任一所述的方法,其特征在于,在所述根据预设的识别网络和声学模型对所述声学特征进行语音进行识别之后,还包括:
根据预设的拒绝策略停止语音识别。
9.如权利要求8所述的方法,其特征在于,所述根据预设的拒绝策略停止语音识别,包括:
判断语音活动检测的语音长度和识别出垃圾词的数量的加权和是否大于预设的阈值;
如果所述加权和大于所述阈值,则确定唤醒失败,则停止语音识别。
10.一种语音唤醒装置,其特征在于,包括:
获取模块,用于获取用户输入的语音;
语音活动检测模块,用于采用跳帧策略对所述语音的数据帧进行处理,并通过时域能量算法对所述数据帧进行语音活动检测;
提取模块,用于提取所述语音的声学特征;
识别模块,用于根据预设的识别网络和声学模型对所述声学特征进行语音识别;
处理模块,用于若获知所述语音为所述识别网络中预设的唤醒词,则进行相应的操作。
11.如权利要求10所述的装置,其特征在于,所述语音活动检测模块用于:
提取所述语音的第(2n-1)帧的特征,以使所述语音的第2n帧的特征采用第(2n-1)帧的处理结果;其中,n为正整数;
或者,
提取所述语音的第2n帧的特征,以使所述语音的第(2n-1)帧的特征采用第2n帧的处理结果;其中,n为正整数。
12.如权利要求10所述的装置,其特征在于,所述提取模块,包括:
第一获取单元,用于对采用滤波器filterbank提取的第一维度特征进行离散余弦变换,获取梅尔频率倒谱系数mfcc的第二维度特征;
第二获取单元,用于获取所述语音的振幅作为第三维度特征;
第三获取单元,用于将所述语音通过高通滤波器获取高频信号,获取所述高频信号的绝对值的对数值作为第四维度特征;
确定单元,用于根据所述第二维度特征、所述第三维度特征和所述第四维度特征确定所述语音的声学特征。
13.如权利要求10所述的装置,其特征在于,所述识别模块用于:
根据预设的识别网络和声学模型,采用维特比算法对所述声学特征进行语音进行识别。
14.如权利要求10所述的装置,其特征在于,还包括:
确定模块,用于通过编辑距离聚类的算法确定所述识别网络的垃圾词;
第一构建模块,用于根据所述垃圾词和预设的唤醒词构建所述识别网络。
15.如权利要求14所述的装置,其特征在于,所述确定模块用于:
将所有的音节序列并联成一个识别网络,根据所述识别网络对预设的语音训练集进行识别,获取数量大于预设的第一阈值的识别结果;
从所述识别结果中获取出现概率最高的那个音节A,其余的是B1到BN,分别计算A与B1到BN之间的编辑距离E,保留编辑距离最大的Bk,依次计算剩下的音节,直到保留的音节数量满足预设的第二阈值;
将保留的音节数量作为所述识别网络的垃圾词。
16.如权利要求10所述的装置,其特征在于,还包括:
第二构建模块,用于构建深度神经网络的声学模型,所述深度神经网络的维度M小于等于预设的门限值。
17.如权利要求10-16任一所述的装置,其特征在于,还包括:
拒绝模块,用于根据预设的拒绝策略停止语音识别。
18.如权利要求17所述的装置,其特征在于,所述拒绝模块用于:
判断语音活动检测的语音长度和识别出垃圾词的数量的加权和是否大于预设的阈值;
如果所述加权和大于所述阈值,则确定唤醒失败,则停止语音识别。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610039038.9A CN105741838B (zh) | 2016-01-20 | 2016-01-20 | 语音唤醒方法及装置 |
KR1020160134077A KR101922776B1 (ko) | 2016-01-20 | 2016-10-17 | 음성 웨이크업 방법 및 장치 |
US15/335,985 US10482879B2 (en) | 2016-01-20 | 2016-10-27 | Wake-on-voice method and device |
JP2017005092A JP6453917B2 (ja) | 2016-01-20 | 2017-01-16 | 音声ウェイクアップ方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610039038.9A CN105741838B (zh) | 2016-01-20 | 2016-01-20 | 语音唤醒方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105741838A true CN105741838A (zh) | 2016-07-06 |
CN105741838B CN105741838B (zh) | 2019-10-15 |
Family
ID=56246391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610039038.9A Active CN105741838B (zh) | 2016-01-20 | 2016-01-20 | 语音唤醒方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10482879B2 (zh) |
JP (1) | JP6453917B2 (zh) |
KR (1) | KR101922776B1 (zh) |
CN (1) | CN105741838B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297777A (zh) * | 2016-08-11 | 2017-01-04 | 广州视源电子科技股份有限公司 | 一种唤醒语音服务的方法和装置 |
CN106328137A (zh) * | 2016-08-19 | 2017-01-11 | 镇江惠通电子有限公司 | 语音控制方法、装置及*** |
CN106611597A (zh) * | 2016-12-02 | 2017-05-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN107643967A (zh) * | 2017-10-27 | 2018-01-30 | 深圳市传测科技有限公司 | 一种自动语音唤醒测试装置、***及方法 |
CN108010515A (zh) * | 2017-11-21 | 2018-05-08 | 清华大学 | 一种语音端点检测和唤醒方法及装置 |
CN108764469A (zh) * | 2018-05-17 | 2018-11-06 | 普强信息技术(北京)有限公司 | 一种降低神经网络所需功耗的方法和设备 |
CN108899014A (zh) * | 2018-05-31 | 2018-11-27 | 中国联合网络通信集团有限公司 | 语音交互设备唤醒词生成方法及装置 |
CN109119079A (zh) * | 2018-07-25 | 2019-01-01 | 天津字节跳动科技有限公司 | 语音输入处理方法和装置 |
CN109147774A (zh) * | 2018-09-19 | 2019-01-04 | 华南理工大学 | 一种改进的延时神经网络声学模型 |
CN109243427A (zh) * | 2018-09-29 | 2019-01-18 | 深圳市智驾实业有限公司 | 一种车辆故障诊断方法及装置 |
CN109872713A (zh) * | 2019-03-05 | 2019-06-11 | 深圳市友杰智新科技有限公司 | 一种语音唤醒方法及装置 |
CN110111789A (zh) * | 2019-05-07 | 2019-08-09 | 百度国际科技(深圳)有限公司 | 语音交互方法、装置、计算设备和计算机可读介质 |
CN110192248A (zh) * | 2017-01-20 | 2019-08-30 | 三星电子株式会社 | 语音输入处理方法和用于支持该方法的电子设备 |
CN110473536A (zh) * | 2019-08-20 | 2019-11-19 | 北京声智科技有限公司 | 一种唤醒方法、装置和智能设备 |
CN110580908A (zh) * | 2019-09-29 | 2019-12-17 | 出门问问信息科技有限公司 | 一种支持不同语种的命令词检测方法及设备 |
CN110610710A (zh) * | 2019-09-05 | 2019-12-24 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别***的构建装置和构建方法 |
CN110767231A (zh) * | 2019-09-19 | 2020-02-07 | 平安科技(深圳)有限公司 | 一种基于时延神经网络的声控设备唤醒词识别方法及装置 |
CN111435593A (zh) * | 2019-01-14 | 2020-07-21 | 瑞昱半导体股份有限公司 | 语音唤醒装置及方法 |
CN112863497A (zh) * | 2020-12-31 | 2021-05-28 | 思必驰科技股份有限公司 | 语音识别的方法及装置、电子设备和计算机可读存储介质 |
CN113160823A (zh) * | 2021-05-26 | 2021-07-23 | 中国工商银行股份有限公司 | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 |
CN113782005A (zh) * | 2021-01-18 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 语音识别方法及装置、存储介质及电子设备 |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
CN109146450A (zh) * | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 支付方法、客户端、电子设备、存储介质和服务器 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
CN107738622B (zh) * | 2017-08-29 | 2020-09-11 | 科大讯飞股份有限公司 | 车辆智能响应方法及装置、存储介质、电子设备 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US11348572B2 (en) | 2017-10-23 | 2022-05-31 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
CN108492827B (zh) * | 2018-04-02 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 应用程序的唤醒处理方法、装置及存储介质 |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11062703B2 (en) * | 2018-08-21 | 2021-07-13 | Intel Corporation | Automatic speech recognition with filler model processing |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
CN109087630B (zh) * | 2018-08-29 | 2020-09-15 | 深圳追一科技有限公司 | 语音识别的方法及相关装置 |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
KR20200059054A (ko) * | 2018-11-20 | 2020-05-28 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
CN113366508A (zh) | 2019-01-04 | 2021-09-07 | 蒂普爱可斯有限公司 | 执行电子设备特定功能的训练模型创建方法、执行相同功能的学习模型、专用芯片及其操作方法及电子设备和*** |
KR102227512B1 (ko) * | 2019-01-04 | 2021-03-12 | 주식회사 딥엑스 | 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법, 전자기기를 위한 특정 기능 수행용 학습된 모델, 전자기기를 위한 특정 기능 수행 전용 칩, 전자기기를 위한 특정 기능 수행 전용 칩 동작 방법, 특정 기능 수행을 위한 전자기기, 및 전자기기 특정 기능 수행 시스템 |
TWI684912B (zh) * | 2019-01-08 | 2020-02-11 | 瑞昱半導體股份有限公司 | 語音喚醒裝置及方法 |
TW202029181A (zh) * | 2019-01-28 | 2020-08-01 | 正崴精密工業股份有限公司 | 語音識別用於特定目標喚醒的方法及裝置 |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
CN110070857B (zh) * | 2019-04-25 | 2021-11-23 | 北京梧桐车联科技有限责任公司 | 语音唤醒模型的模型参数调整方法及装置、语音设备 |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN111179974B (zh) * | 2019-12-30 | 2022-08-09 | 思必驰科技股份有限公司 | 一种命令词识别方法和装置 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN111599371B (zh) * | 2020-05-19 | 2023-10-20 | 苏州奇梦者网络科技有限公司 | 语音增加方法、***、装置及存储介质 |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
CN112435652A (zh) * | 2020-09-29 | 2021-03-02 | 江苏清微智能科技有限公司 | 一种基于图卷积神经网络的语音关键词识别***及方法 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN112669830A (zh) * | 2020-12-18 | 2021-04-16 | 上海容大数字技术有限公司 | 一种端到端多唤醒词的识别*** |
CN112885353B (zh) * | 2021-01-26 | 2023-03-14 | 维沃移动通信有限公司 | 语音唤醒方法、装置及电子设备 |
CN113593546B (zh) * | 2021-06-25 | 2023-09-15 | 青岛海尔科技有限公司 | 终端设备唤醒方法和装置、存储介质及电子装置 |
KR102378895B1 (ko) * | 2021-09-29 | 2022-03-28 | 주식회사 인피닉 | 음성 인식을 위한 호출어 학습 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
US20240071370A1 (en) * | 2022-08-26 | 2024-02-29 | Qualcomm Incorporated | Adaptive frame skipping for speech recognition |
US11893094B1 (en) * | 2023-06-05 | 2024-02-06 | University Of Sharjah | DCT-based watermarking scheme for deep neural networks |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61281300A (ja) * | 1985-06-07 | 1986-12-11 | ソニー株式会社 | 音声認識装置 |
US20130158999A1 (en) * | 2010-11-30 | 2013-06-20 | Mitsubishi Electric Corporation | Voice recognition apparatus and navigation system |
US20140163978A1 (en) * | 2012-12-11 | 2014-06-12 | Amazon Technologies, Inc. | Speech recognition power management |
CN105096939A (zh) * | 2015-07-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0607615B1 (en) * | 1992-12-28 | 1999-09-15 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
JP2835483B2 (ja) | 1993-06-23 | 1998-12-14 | 松下電器産業株式会社 | 音声判別装置と音響再生装置 |
DE69615227T2 (de) * | 1995-01-17 | 2002-04-25 | Nec Corp | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
US6314414B1 (en) * | 1998-10-06 | 2001-11-06 | Pavilion Technologies, Inc. | Method for training and/or testing a neural network with missing and/or incomplete data |
US6310652B1 (en) * | 1997-05-02 | 2001-10-30 | Texas Instruments Incorporated | Fine-grained synchronization of a decompressed audio stream by skipping or repeating a variable number of samples from a frame |
WO2000046789A1 (fr) * | 1999-02-05 | 2000-08-10 | Fujitsu Limited | Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son |
KR100340045B1 (ko) * | 1999-12-24 | 2002-06-12 | 오길록 | 저전력 음성 명령어 구동 휴대 정보단말 장치 및 그를 이용한 음성인식 방법 |
US7085716B1 (en) * | 2000-10-26 | 2006-08-01 | Nuance Communications, Inc. | Speech recognition using word-in-phrase command |
US6680753B2 (en) * | 2001-03-07 | 2004-01-20 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for skipping and repeating audio frames |
AU2002354201A1 (en) * | 2001-12-17 | 2003-06-30 | Asahi Kasei Kabushiki Kaisha | Speech recognition method, remote controller, information terminal, telephone communication terminal and speech recognizer |
JP2004219918A (ja) | 2003-01-17 | 2004-08-05 | Canon Inc | 音声認識環境判定方法 |
JP2004341033A (ja) * | 2003-05-13 | 2004-12-02 | Matsushita Electric Ind Co Ltd | 音声媒介起動装置およびその方法 |
JP4650888B2 (ja) | 2005-09-09 | 2011-03-16 | 株式会社豊田中央研究所 | 発話検出装置、方法及びプログラム |
US20080162129A1 (en) * | 2006-12-29 | 2008-07-03 | Motorola, Inc. | Method and apparatus pertaining to the processing of sampled audio content using a multi-resolution speech recognition search process |
US8260619B1 (en) * | 2008-08-22 | 2012-09-04 | Convergys Cmg Utah, Inc. | Method and system for creating natural language understanding grammars |
US20090198490A1 (en) * | 2008-02-06 | 2009-08-06 | International Business Machines Corporation | Response time when using a dual factor end of utterance determination technique |
KR101056511B1 (ko) * | 2008-05-28 | 2011-08-11 | (주)파워보이스 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
US8566088B2 (en) * | 2008-11-12 | 2013-10-22 | Scti Holdings, Inc. | System and method for automatic speech to text conversion |
US8548812B2 (en) * | 2008-12-22 | 2013-10-01 | Avaya Inc. | Method and system for detecting a relevant utterance in a voice session |
US8700399B2 (en) * | 2009-07-06 | 2014-04-15 | Sensory, Inc. | Systems and methods for hands-free voice control and voice search |
US9672815B2 (en) * | 2012-07-20 | 2017-06-06 | Interactive Intelligence Group, Inc. | Method and system for real-time keyword spotting for speech analytics |
US8442821B1 (en) * | 2012-07-27 | 2013-05-14 | Google Inc. | Multi-frame prediction for hybrid neural network/hidden Markov models |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
WO2015171154A1 (en) * | 2014-05-09 | 2015-11-12 | Nuance Communications, Inc. | Methods and apparatus for speech recognition using a garbage model |
US9520128B2 (en) * | 2014-09-23 | 2016-12-13 | Intel Corporation | Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition |
US10403268B2 (en) * | 2016-09-08 | 2019-09-03 | Intel IP Corporation | Method and system of automatic speech recognition using posterior confidence scores |
-
2016
- 2016-01-20 CN CN201610039038.9A patent/CN105741838B/zh active Active
- 2016-10-17 KR KR1020160134077A patent/KR101922776B1/ko active IP Right Grant
- 2016-10-27 US US15/335,985 patent/US10482879B2/en active Active
-
2017
- 2017-01-16 JP JP2017005092A patent/JP6453917B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61281300A (ja) * | 1985-06-07 | 1986-12-11 | ソニー株式会社 | 音声認識装置 |
US20130158999A1 (en) * | 2010-11-30 | 2013-06-20 | Mitsubishi Electric Corporation | Voice recognition apparatus and navigation system |
US20140163978A1 (en) * | 2012-12-11 | 2014-06-12 | Amazon Technologies, Inc. | Speech recognition power management |
CN105096939A (zh) * | 2015-07-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
Non-Patent Citations (3)
Title |
---|
周明忠等: "《基于平均幅度和加权过零率的VAD算法及其FPGA实现》", 《信息工程大学学报》 * |
李昱等: "《基于短时能量和短时过零率的VAD算法及其FPGA实现》", 《电子技术应用》 * |
石海燕: "《基于短时能量的语音信号端点检测》", 《电脑知识与技术》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297777A (zh) * | 2016-08-11 | 2017-01-04 | 广州视源电子科技股份有限公司 | 一种唤醒语音服务的方法和装置 |
CN106297777B (zh) * | 2016-08-11 | 2019-11-22 | 广州视源电子科技股份有限公司 | 一种唤醒语音服务的方法和装置 |
CN106328137A (zh) * | 2016-08-19 | 2017-01-11 | 镇江惠通电子有限公司 | 语音控制方法、装置及*** |
CN106611597A (zh) * | 2016-12-02 | 2017-05-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN106611597B (zh) * | 2016-12-02 | 2019-11-08 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN110192248A (zh) * | 2017-01-20 | 2019-08-30 | 三星电子株式会社 | 语音输入处理方法和用于支持该方法的电子设备 |
US11823673B2 (en) | 2017-01-20 | 2023-11-21 | Samsung Electronics Co., Ltd. | Voice input processing method and electronic device for supporting the same |
CN107643967A (zh) * | 2017-10-27 | 2018-01-30 | 深圳市传测科技有限公司 | 一种自动语音唤醒测试装置、***及方法 |
CN108010515A (zh) * | 2017-11-21 | 2018-05-08 | 清华大学 | 一种语音端点检测和唤醒方法及装置 |
CN108010515B (zh) * | 2017-11-21 | 2020-06-30 | 清华大学 | 一种语音端点检测和唤醒方法及装置 |
CN108764469A (zh) * | 2018-05-17 | 2018-11-06 | 普强信息技术(北京)有限公司 | 一种降低神经网络所需功耗的方法和设备 |
CN108899014A (zh) * | 2018-05-31 | 2018-11-27 | 中国联合网络通信集团有限公司 | 语音交互设备唤醒词生成方法及装置 |
CN109119079A (zh) * | 2018-07-25 | 2019-01-01 | 天津字节跳动科技有限公司 | 语音输入处理方法和装置 |
CN109147774A (zh) * | 2018-09-19 | 2019-01-04 | 华南理工大学 | 一种改进的延时神经网络声学模型 |
CN109147774B (zh) * | 2018-09-19 | 2021-07-20 | 华南理工大学 | 一种改进的延时神经网络声学模型 |
CN109243427A (zh) * | 2018-09-29 | 2019-01-18 | 深圳市智驾实业有限公司 | 一种车辆故障诊断方法及装置 |
CN111435593B (zh) * | 2019-01-14 | 2023-08-01 | 瑞昱半导体股份有限公司 | 语音唤醒装置及方法 |
CN111435593A (zh) * | 2019-01-14 | 2020-07-21 | 瑞昱半导体股份有限公司 | 语音唤醒装置及方法 |
CN109872713A (zh) * | 2019-03-05 | 2019-06-11 | 深圳市友杰智新科技有限公司 | 一种语音唤醒方法及装置 |
CN110111789B (zh) * | 2019-05-07 | 2022-02-08 | 阿波罗智联(北京)科技有限公司 | 语音交互方法、装置、计算设备和计算机可读介质 |
CN110111789A (zh) * | 2019-05-07 | 2019-08-09 | 百度国际科技(深圳)有限公司 | 语音交互方法、装置、计算设备和计算机可读介质 |
CN110473536A (zh) * | 2019-08-20 | 2019-11-19 | 北京声智科技有限公司 | 一种唤醒方法、装置和智能设备 |
WO2021042969A1 (zh) * | 2019-09-05 | 2021-03-11 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别***的构建装置和构建方法 |
CN110610710A (zh) * | 2019-09-05 | 2019-12-24 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别***的构建装置和构建方法 |
CN110610710B (zh) * | 2019-09-05 | 2022-04-01 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别***的构建装置和构建方法 |
CN110767231A (zh) * | 2019-09-19 | 2020-02-07 | 平安科技(深圳)有限公司 | 一种基于时延神经网络的声控设备唤醒词识别方法及装置 |
CN110580908A (zh) * | 2019-09-29 | 2019-12-17 | 出门问问信息科技有限公司 | 一种支持不同语种的命令词检测方法及设备 |
CN112863497A (zh) * | 2020-12-31 | 2021-05-28 | 思必驰科技股份有限公司 | 语音识别的方法及装置、电子设备和计算机可读存储介质 |
CN113782005A (zh) * | 2021-01-18 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 语音识别方法及装置、存储介质及电子设备 |
CN113782005B (zh) * | 2021-01-18 | 2024-03-01 | 北京沃东天骏信息技术有限公司 | 语音识别方法及装置、存储介质及电子设备 |
CN113160823A (zh) * | 2021-05-26 | 2021-07-23 | 中国工商银行股份有限公司 | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 |
CN113160823B (zh) * | 2021-05-26 | 2024-05-17 | 中国工商银行股份有限公司 | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20170206895A1 (en) | 2017-07-20 |
KR20170087390A (ko) | 2017-07-28 |
US10482879B2 (en) | 2019-11-19 |
JP6453917B2 (ja) | 2019-01-16 |
JP2017129860A (ja) | 2017-07-27 |
KR101922776B1 (ko) | 2019-02-20 |
CN105741838B (zh) | 2019-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105741838A (zh) | 语音唤醒方法及装置 | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN106940998B (zh) | 一种设定操作的执行方法及装置 | |
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
CN105529028B (zh) | 语音解析方法和装置 | |
CN105632486B (zh) | 一种智能硬件的语音唤醒方法和装置 | |
CN110838296B (zh) | 录音过程的控制方法、***、电子设备和存储介质 | |
CN105096941A (zh) | 语音识别方法以及装置 | |
CN111667818A (zh) | 一种训练唤醒模型的方法及装置 | |
CN109036393A (zh) | 家电设备的唤醒词训练方法、装置及家电设备 | |
CN112652306B (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
CN109272991A (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
JP7208951B2 (ja) | 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 | |
CN110268471A (zh) | 具有嵌入式降噪的asr的方法和设备 | |
CN111179944B (zh) | 语音唤醒及年龄检测方法、装置及计算机可读存储介质 | |
CN112825250A (zh) | 语音唤醒方法、设备、存储介质及程序产品 | |
CN112669818B (zh) | 语音唤醒方法及装置、可读存储介质、电子设备 | |
WO2023168713A1 (zh) | 交互语音信号处理方法、相关设备及*** | |
CN112509556B (zh) | 一种语音唤醒方法及装置 | |
CN112216286B (zh) | 语音唤醒识别方法、装置、电子设备及存储介质 | |
WO2019242312A1 (zh) | 家电设备的唤醒词训练方法、装置及家电设备 | |
CN117612519A (zh) | 一种语音唤醒方法、装置、设备及介质 | |
Gao et al. | Environmental Sound Classification Using CNN Based on Mel-spectogram | |
CN114822535A (zh) | 语音关键词识别方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |