CN114566156A - 一种关键词的语音识别方法及装置 - Google Patents
一种关键词的语音识别方法及装置 Download PDFInfo
- Publication number
- CN114566156A CN114566156A CN202210191909.4A CN202210191909A CN114566156A CN 114566156 A CN114566156 A CN 114566156A CN 202210191909 A CN202210191909 A CN 202210191909A CN 114566156 A CN114566156 A CN 114566156A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- keyword
- voice
- probability
- target keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000003062 neural network model Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 230000004913 activation Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种关键词的语音识别方法及装置,用以提高关键词语音识别的准确性,避免误唤醒。其中方法包括:获取一段时长的语音信号,并计算所述语音信号的语音识别特征;将所述语音识别特征输入神经网络模型,通过所述神经网络模型确定目标关键词的N个分类标签在所述语音信号中分别存在的概率,N为正整数;根据所述目标关键词的N个分类标签在所述语音信号中分别存在的概率,确定所述目标关键词的N个分类标签在所述语音信号中共同存在的概率;若所述目标关键词的N个分类标签在所述语音信号中共同存在的概率大于或等于设定阈值,则确定所述语音信号中存在所述目标关键词。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种关键词的语音识别方法及装置。
背景技术
随着技术的发展,智能语音识别的应用场景越来越广泛。其中,关键词唤醒是语音识别的第一步,具有较高鲁棒性的关键词识别方案可以优化人机交互体验,给后续的智能应用提供基础。
现有技术中,一般通过模式识别的方法进行关键词识别。具体包括:首先选取一段时间窗口,对时间窗口内的采样数据进行短时傅里叶变换,然后获取时间窗口内的采样数据对应的离散余弦倒谱系数,将该离散余弦倒谱系数作为语音特征输入到神经网络中进行分类,最终确定目标关键词存在的概率。
上述技术方案存在以下问题:在选择时间窗口时,需要以最长关键词所需要的最长预估时间作为固定的时间窗口,这样会导致一个时间窗口内语音存在的位置并不固定。在多关键词训练时,如果耗时最长的关键词与耗时最短的关键词的时长相差太大,模式识别任务很难学习到完整的关键词发音特征,从而导致较大的误唤醒存在。而且,当时间窗口中同时存在多个关键词的语音时,对关键词的类别的识别也不够准确。
发明内容
本申请提供一种关键词的语音识别方法及装置,用以提高关键词语音识别的准确性,避免误唤醒。
第一方面,本申请实施例提供一种关键词的语音识别方法,该方法包括:获取一段时长的语音信号,并计算所述语音信号的语音识别特征;将所述语音识别特征输入神经网络模型,通过所述神经网络模型确定目标关键词的N个分类标签在所述语音信号中分别存在的概率,N为正整数;根据所述目标关键词的N个分类标签在所述语音信号中分别存在的概率,确定所述目标关键词的N个分类标签在所述语音信号中共同存在的概率;若所述目标关键词的N个分类标签在所述语音信号中共同存在的概率大于或等于设定阈值,则确定所述语音信号中存在所述目标关键词。
不同于现有技术中基于语音识别的关键词识别,需要训练所有可能的发音作为分类的结果,通常分类目标较大,需要较大的模型参数,不利于资源受限的应用场景。本申请中的技术方案,通过将目标关键词划分为多个分类标签,以目标关键词中的分类标签作为分类目标,在不增加模型大小的情况下,具有显著提高关键词识别准确率和降低误识别的效果。分类标签可以是目标关键词中存在的音素、字、词等,由于语音在短的时间窗口内的位置和发生规律具有平稳性,如此,通过缩小检测粒度,神经网络模型可以更容易识别出分类标签之间的不同,进而识别出不同的类别,即关键词。
本申请对于相似关键词的训练任务有较好的表现,如果关键词具有较多类似的发音,直接训练关键词分类,模型很难关注到关键词的全部特征,从而产生训练的目标与实际特征相差较大,或者把数据集中的背景噪声当作关键词特征的情况,从而提高模型识别的误识别。
在一种可能的设计中,所述目标关键词的N个分类标签通过对所述目标关键词按照音素、字或词的粒度进行划分得到。
在一种可能的设计中,所述目标关键词的N个分类标签在所述语音信号中共同存在的概率与所述语音识别特征分别对应所述目标关键词的N个分类标签的概率相关联。
在一种可能的设计中,所述计算所述语音信号的语音识别特征,包括:按照设定的窗长和步长对所述语音信号进行分帧;针对每帧语音信号,通过对该帧语音信号进行短时傅里叶变换,确定该帧语音信号的时频特征;根据所述时频特征,确定基于过滤器组的特征和梅尔频率倒谱系数。
在一种可能的设计中,所述窗长大于或等于所述目标关键词的分类标签的最长发音长度,所述步长小于或等于所述窗长的一半。
在一种可能的设计中,所述方法还包括:采用多标签的训练方法对所述神经网络模型进行训练,直至所述神经网络模型收敛。
第二方面,本申请实施例提供一种关键词的语音识别装置,该装置可包括执行上述第一方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
示例性地,所述装置可包括通信模块和处理模块;其中:
所述通信模块,用于获取一段时长的语音信号;
所述处理模块,用于计算所述语音信号的语音识别特征;将所述语音识别特征输入神经网络模型,通过所述神经网络模型确定目标关键词的N个分类标签在所述语音信号中分别存在的概率,N为正整数;根据所述目标关键词的N个分类标签在所述语音信号中分别存在的概率,确定所述目标关键词的N个分类标签在所述语音信号中共同存在的概率;若所述目标关键词的N个分类标签在所述语音信号中共同存在的概率大于或等于设定阈值,则确定所述语音信号中存在所述目标关键词。
在一种可能的设计中,所述目标关键词的N个分类标签通过对所述目标关键词按照音素、字或词的粒度进行划分得到。
在一种可能的设计中,所述目标关键词的N个分类标签在所述语音信号中同时存在的概率与所述语音识别特征分别对应所述目标关键词的N个分类标签的概率相关联。
在一种可能的设计中,所述处理模块具体用于:按照设定的窗长和步长对所述语音信号进行分帧;针对每帧语音信号,通过对该帧语音信号进行短时傅里叶变换,确定该帧语音信号的时频特征;根据所述时频特征,确定基于过滤器组的特征和梅尔频率倒谱系数。
在一种可能的设计中,所述窗长大于或等于所述目标关键词的分类标签的最长发音长度,所述步长小于或等于所述窗长的一半。
在一种可能的设计中,所述处理模块还用于:采用多标签的训练方法对所述神经网络模型进行训练,直至所述神经网络模型收敛。
第三方面,本申请实施例还提供一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如第一方面的各种可能的设计中所述的方法。
第四方面,本申请实施例还提供一种芯片,其被部署有经多标签训练的神经网络模型以及权重,并且被配置为:当所述芯片接收到一段时长的语音信号时,执行如第一方面的各种可能的设计中所述的方法。
第五方面,本申请实施例还提供一种计算机可读存储介质,其中存储有计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得上述第一方面的任一种可能的设计中所述的方法实现。
第六方面,本申请实施例还提供一种计算机程序产品,包括计算机可读指令,当计算机可读指令被处理器执行时,使得上述第一方面的任一种可能的设计中所述的方法实现。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种关键词的语音识别方法的流程示意图;
图2为本申请实施例提供的一种神经网络模型的结构示意图;
图3为本申请实施例提供的一种关键词的语音识别装置的结构示意图;
图4为本申请实施例提供的一种关键词的语音识别方法的另一种结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
为了解决多关键词类别多,相似性大,直接分类对模型要求高,关键词识别准确率低,识别速度慢,而且大模型的关识别方法不适用在边缘端识别的离线或是算力资源受限的场景下等问题,本申请实施例提供一种关键词的语音识别方法。
本方法的核心在于,将关键词的分类标签从独热one-hot编码改变为多标签类别,进行多标签的分类任务。本申请采用的多标签分类任务,分类标签通过对关键词按照音素、单个的字或词等粒度划分得到,然后通过神经网络模型预测各个分类标签存在的概率,根据各个分类标签同时存在的概率,判断一段语音中是否存在目标关键词,该方法可以达到细粒度识别,提高识别准确性的技术效果。
与常规的语音识别关键词技术不同的是,本申请中语音还是一段一段的输入(一段的长度是与关键词的长度相关)分类用多标签任务,不需要进行帧级别的对齐,省去了标注的难度。
图1示例性示出了本申请实施例中提供的一种关键词的语音识别方法的流程示意图,如图1所示,该方法包括:
步骤101,获取一段时长的语音信号,并计算该语音信号的语音识别特征。
所述计算所述语音信号的语音识别特征可包括:按照设定的窗长和步长对所述语音信号进行分帧;然后,针对每帧语音信号,通过对该帧语音信号进行短时傅里叶变换,确定该帧语音信号的时频特征,也即将时域采样的特征转变为时频特征;进一步地,根据所述时频特征,确定基于过滤器组的特征fbank和梅尔频率倒谱系数mfcc,具体的,可根据人的听感将频域坐标转换成对数坐标得到fbank特征,在对数坐标上做逆傅里叶变换得到倒谱,从而获得mfcc特征。所述fbank特征和mfcc特征可作为语音识别特征在后续步骤中输入神经网络模型。
其中,分帧是指将一段语音信号根据语音的平稳性,分割成一小段一小段,这一小段信号中的语音发声规律类似,具有一档的平稳性。每一小段信号称为是一帧。在具体实现中,考虑到保持语音的连续,不同帧的信号之间会存在一定程度的重叠overlap。
窗长是指对语音信号分帧时分割的时间长度,步长是指按照窗口长度在时间维度上以固定的步长继续滑动以取得一帧信号。本申请中,窗长大于或等于目标关键词的分类标签的最长发音长度,步长小于或等于窗长的一半。例如,一帧信号的长度(即窗长)可以为20-40ms,步长可以为7-16ms,窗长和步长可以根据任务不同可以灵活选择。
示例性地,提取语音特征的过程可包括:首先对语音信号进行加窗处理,将语音信号分割成帧,前一帧和后一帧的语言信号存在时间上的先后关系。在每一帧内的语言信号应用快速傅里叶变换(FFT)求出各帧的功率谱。然后,利用Mel-scale对功率谱进行滤波器组处理。将功率谱变换为对数域后,将离散余弦变换应用于语音信号,计算MFCC系数。
计算任意频率的Mels的公式是:
mel(f)=2595×log10(1+f/700)
其中,Mel(f)为频率(Mels),f为频率(Hz)。
MFCCs的计算公式是:
其中,k是Mel倒谱系数的个数,S^k是filterbank的输出,C^n是最终的mfcc系数。
傅里叶变换输入是时间上的采样点,功能是将时域特征转换成时频特征,做完傅里叶的时频特征会根据人的发音规律转换为fbank和mfcc特征,这个转换是根据人耳听感的非线性响应产生的。频域坐标就是傅里叶变换之后的频域点数。将前后帧的语言信号变换得到的频域点数进行拼接,可得到时间序列(x)的频率特征(y)构成的特征矩阵。
步骤102,将语音识别特征输入神经网络模型,通过神经网络模型确定目标关键词的N个分类标签在语音信号中分别存在的概率,N为正整数。
本申请中,一个目标关键词可存在多个分类标签,分类标签的数量N可根据分类标签的划分粒度确定。目标关键词的N个分类标签可通过对目标关键词按照音素、字或词的粒度进行划分得到,也就是说,分类标签的划分粒度可以是音素、字或词。例如,关键词“小爱同学”是一个类别,该类别可以根据汉字细分成多个分类标签,每个分类标签是神经网络模型中的一个分类目标,也是上述类别的子类。“小爱同学”的“小”、“爱”、“同”、“学”4个字是4个分类标签。
图2示例性示出了本申请中所采用的神经网络模型的结构,如图2所示,该神经网络模型采用卷积神经网络,三层的卷积核全连接的搭配,图2中从左到右的每个方框分别代表神经网络模型中的输入层、4层卷积层(Convolutional layer,CONV)、2层全连接层(fullconnection,FC)和输出层。可选的,在不同的卷积层之间,还可包括BN操作,即对权值进行均值和方差的均一化。
输出层中的单元数量等于目标关键词的分类标签的数量之和,输出层中采用分类激活函数是softmax函数或sigmid函数。神经网络属于建立分类特征提取分类所需要的特征,分类激活函数是做非线性映射,最后的分类激活函数得到分类的结果,神经网络模型输出的结构直接进入激活函数得到映射。
上述神经网络模型可采用多标签的训练方法进行训练,直至神经网络模型收敛。其中,在训练过程中,可使用交叉熵损失或均方误差损失作为模型训练损失函数。该神经网络模型的输出层采用softmax函数或sigmid函数作为分类激活函数。
示例性地,神经网络模型的训练过程可包括:首先准备好语料和对应标注好的标签,标签是通过人工听语音的内容判断的真实结果。通过上述的特征提取方法,得到时间序列的频率特征矩阵,用上述的语料和对应的标签训练神经网络模型的参数。通过多次迭代,使得训练的权重能在标注数据的数据上预测最大可能的得到标注的标签。从而可以使用训练好的权重,去预测那些真实的语音,得出可能存在的标签的概率。
需要说明的时,本申请中的神经网络模型具有轻量级的特点,因此,能够适用于一般的关键词语音识别场景下,也能够适用于边缘端离线无法通过云端进行识别或者边缘端算力受限等关键词识别场景下。
该神经网络模型的参数在100k左右,在保持模型结构不变的条件下,通过这种方法可以对相似度较高的关键词实现更好的识别效果。直观理解,对于关键词较多的场景,需要分类每一个关键词,如果降低分类粒度,那最终的分类结果的数量可以少于关键词的数量,减少分类难度。对于关键词相似的部分,多标签往往比单个标签更好的关注到两个关键词不同的部分和相同的部分,可以使得模型训练具有较快收敛速度。
步骤103,根据目标关键词的N个分类标签在语音信号中分别存在的概率,确定目标关键词的N个分类标签在语音信号中共同存在的概率。
本申请中,可针对目标关键词的N个分类标签分别设置一个设定阈值。针对一个分类标签,根据神经网络模型输出的该分类标签存在的概率以及对应的设定阈值,判断语音信号中是否存在该分类标签。如果目标关键词的N个分类标签在语音信号中均存在,则进一步计算N个分类标签在语音信号中共同存在的概率,即N个分类标签同时存在的联合概率。联合概率是指一段语音信号的不同帧里面会被预测不同分类标签的概率,也就是说,不同的分类标签组合成词的最终概率是由每个分类标签的概率组合而来。
所述目标关键词的N个分类标签在所述语音信号中共同存在的概率与所述语音识别特征分别对应所述目标关键词的N个分类标签的概率相关联。具体的,目标关键词的N个分类标签在语音信号中同时存在的概率,等于语音识别特征分别对应目标关键词的N个分类标签的概率的乘积。
步骤104,若所述目标关键词的N个分类标签在所述语音信号中共同存在的概率大于或等于设定阈值,则确定语音信号中存在目标关键词。
所述设定阈值是指与N个分类标签同时存在语音信号中的概率对应的阈值。
可选的,可以根据N个分类标签在语音信号中共同存在的概率,判断N个分类标签的组合是否能组合成词,然后对这个词是否为关键词进行判断。
可以看出,传统的分类方法是直接以关键词为分类目标,一个关键词就是一个类别。但是本申请中的多标签分类是对每一个关键词(即类别)进行进一步的划分,得到更细粒度的分类标签,即类别的子类,每个类别是不同子类的组合,神经网络模型的预测结果会对每个关键词的子类预测结果进行比对,将子类的联合概率作为关键词识别的概率。子类的划分可以选择音素,单词,单字等。
综上所述,本申请的整体过程主要包括训练神经网络模型,以及利用训练好的神经网络模型进行关键词识别两部分。其中,利用训练好的神经网络模型进行关键词识别可包括:获取一段语音,计算这段语音的语音特征,将这段语音的语音特征输入神经网络模型,通过神经网络模型输出这段语音特征与目标关键词的各个分类标签分别对应的概率,根据每个分类标签的概率和设定阈值的大小,得出最终是否存在对应的分类标签,进而根据分类标签的种类和数量确定这段语音中是否存在目标关键词。
本申请中的技术方案还可具有如下的技术效果:
1)降低关键词识别的误识别率。本申请中的方法采用多目标分类任务,因此,分类目标不直接与目标关键词相关,而是采用音素、字、词等作为分类目标,更具体的是对于关键词分类化简为不同单词(单个音素或者单个英文单词或者单个汉字)每个关键词都是多个标签的组合。而预测的单个标签是具有相似的发音长度,根据多个标签同时存在的概率判断是否存在目标关键词。这种方法可以降低不同关键词之间的长度差异对模型识别效果的影响,多个分类目标同时判断目标关键词存在的概率,降低目标关键词识别的误识别率。
2)对于相似关键词的识别具有较高的准确率,本申请中的方法具有细粒度分类的效果,由于单个词/音素/汉字/英文字母通常发音比较固定,因此,神经网络模型很容易学习到类别之间的特征。如果关键词相似度较高直接训练分类任务,模型很容易关注语音背景的信息,学习到的分类特征不是关键词自身的特征,从而降低识别的准确率。
基于相同的发明构思,本申请还提供一种关键词的语音识别装置,该装置用于实现上述方法实施例中的方法。
如图3所示,该装置300包括:通信模块310和处理模块320。
通信模块310,用于获取一段时长的语音信号;
处理模块320,用于计算所述语音信号的语音识别特征;将所述语音识别特征输入神经网络模型,通过所述神经网络模型确定目标关键词的N个分类标签在所述语音信号中分别存在的概率,N为正整数;根据所述目标关键词的N个分类标签在所述语音信号中分别存在的概率,确定所述目标关键词的N个分类标签在所述语音信号中共同存在的概率;若所述目标关键词的N个分类标签在所述语音信号中共同存在的概率大于或等于设定阈值,则确定所述语音信号中存在所述目标关键词。
在一种可能的设计中,在一种可能的设计中,所述目标关键词的N个分类标签通过对所述目标关键词按照音素、字或词的粒度进行划分得到。
在一种可能的设计中,所述目标关键词的N个分类标签在所述语音信号中共同存在的概率与所述语音识别特征分别对应所述目标关键词的N个分类标签的概率相关联。
在一种可能的设计中,所述处理模块320具体用于:按照设定的窗长和步长对所述语音信号进行分帧;针对每帧语音信号,通过对该帧语音信号进行短时傅里叶变换,确定该帧语音信号的时频特征;根据所述时频特征,确定基于过滤器组的特征和梅尔频率倒谱系数。
在一种可能的设计中,所述窗长大于或等于所述目标关键词的分类标签的最长发音长度,所述步长小于或等于所述窗长的一半。
在一种可能的设计中,所述处理模块320还用于:采用多标签的训练方法对所述神经网络模型进行训练,直至所述神经网络模型收敛。
本申请实施例还提供一种芯片,其被部署有经多标签训练的神经网络模型以及权重,并且被配置为:当所述芯片接收到一段时长的语音信号时,执行如上文中所述的关键词的语音识别方法。
基于相同的技术构思,本申请实施例还提供了一种计算设备,如图4所示,包括至少一个处理器401,以及与至少一个处理器连接的存储器402,本申请实施例中不限定处理器401与存储器402之间的具体连接介质,图4中处理器401和存储器402之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器402存储有可被至少一个处理器401执行的指令,该至少一个处理器401通过执行存储器402存储的指令,可以实现上述秘密分享方法的步骤。
其中,处理器401是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器402内的指令以及调用存储在存储器402内的数据,从而进行资源设置。可选的,处理器401可包括一个或多个处理单元,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。在一些实施例中,处理器401和存储器402可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器401可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器402可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于相同的技术构思,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得上述方法实施例中的方法实现。
基于相同的技术构思,本申请实施例还提供一种计算机程序产品,包括计算机可读指令,当计算机可读指令被处理器执行时,使得上述方法实施例中的方法实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种关键词的语音识别方法,其特征在于,所述方法包括:
获取一段时长的语音信号,并计算所述语音信号的语音识别特征;
将所述语音识别特征输入神经网络模型,通过所述神经网络模型确定目标关键词的N个分类标签在所述语音信号中分别存在的概率,N为正整数;
根据所述目标关键词的N个分类标签在所述语音信号中分别存在的概率,确定所述目标关键词的N个分类标签在所述语音信号中共同存在的概率;
若所述目标关键词的N个分类标签在所述语音信号中共同存在的概率大于或等于设定阈值,则确定所述语音信号中存在所述目标关键词。
2.根据权利要求1所述的方法,其特征在于,所述目标关键词的N个分类标签通过对所述目标关键词按照音素、字或词的粒度进行划分得到。
3.根据权利要求1所述的方法,其特征在于,所述目标关键词的N个分类标签在所述语音信号中共同存在的概率与所述语音识别特征分别对应所述目标关键词的N个分类标签的概率相关联。
4.根据权利要求1所述的方法,其特征在于,所述计算所述语音信号的语音识别特征,包括:
按照设定的窗长和步长对所述语音信号进行分帧;
针对每帧语音信号,通过对该帧语音信号进行短时傅里叶变换,确定该帧语音信号的时频特征;
根据所述时频特征,确定基于过滤器组的特征和梅尔频率倒谱系数。
5.根据权利要求4所述的方法,其特征在于,所述窗长大于或等于所述目标关键词的分类标签的最长发音长度,所述步长小于或等于所述窗长的一半。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
采用多标签的训练方法对所述神经网络模型进行训练,直至所述神经网络模型收敛。
7.一种关键词的语音识别装置,其特征在于,所述装置包括:
通信模块,用于获取一段时长的语音信号;
处理模块,用于计算所述语音信号的语音识别特征;将所述语音识别特征输入神经网络模型,通过所述神经网络模型确定目标关键词的N个分类标签在所述语音信号中分别存在的概率,N为正整数;根据所述目标关键词的N个分类标签在所述语音信号中分别存在的概率,确定所述目标关键词的N个分类标签在所述语音信号中同时存在的概率;若所述目标关键词的N个分类标签在所述语音信号中共同存在的概率大于设定阈值,则确定所述语音信号中存在所述目标关键词。
8.一种芯片,其特征在于,其被部署有经多标签训练的神经网络模型以及权重,并且被配置为:
当所述芯片接收到一段时长的语音信号时,执行如权利要求1至5中任一项所述的关键词的语音识别方法。
9.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如权利要求1至6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得如权利要求1至6中任一项所述的方法实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210191909.4A CN114566156A (zh) | 2022-02-28 | 2022-02-28 | 一种关键词的语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210191909.4A CN114566156A (zh) | 2022-02-28 | 2022-02-28 | 一种关键词的语音识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114566156A true CN114566156A (zh) | 2022-05-31 |
Family
ID=81716159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210191909.4A Pending CN114566156A (zh) | 2022-02-28 | 2022-02-28 | 一种关键词的语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114566156A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863915A (zh) * | 2022-07-05 | 2022-08-05 | 中科南京智能技术研究院 | 一种基于语义保留的语音唤醒方法及*** |
-
2022
- 2022-02-28 CN CN202210191909.4A patent/CN114566156A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863915A (zh) * | 2022-07-05 | 2022-08-05 | 中科南京智能技术研究院 | 一种基于语义保留的语音唤醒方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zeng et al. | Effective combination of DenseNet and BiLSTM for keyword spotting | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
US9208778B2 (en) | System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification | |
CN110706690A (zh) | 语音识别方法及其装置 | |
CN107731233B (zh) | 一种基于rnn的声纹识别方法 | |
Wöllmer et al. | Bidirectional LSTM networks for context-sensitive keyword detection in a cognitive virtual agent framework | |
CN111429946A (zh) | 语音情绪识别方法、装置、介质及电子设备 | |
CN111276131A (zh) | 一种基于深度神经网络的多类声学特征整合方法和*** | |
CN111798840A (zh) | 语音关键词识别方法和装置 | |
CN106875936A (zh) | 语音识别方法及装置 | |
KR102655791B1 (ko) | 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들 | |
CN112017648A (zh) | 加权有限状态转换器构建方法、语音识别方法及装置 | |
CN114999463B (zh) | 语音识别方法、装置、设备及介质 | |
US20230031733A1 (en) | Method for training a speech recognition model and method for speech recognition | |
CN112562640A (zh) | 多语言语音识别方法、装置、***及计算机可读存储介质 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN111128174A (zh) | 一种语音信息的处理方法、装置、设备及介质 | |
CN114566156A (zh) | 一种关键词的语音识别方法及装置 | |
US11437043B1 (en) | Presence data determination and utilization | |
CN112542173A (zh) | 一种语音交互方法、装置、设备和介质 | |
CN112216270A (zh) | 语音音素的识别方法及***、电子设备及存储介质 | |
CN111048068A (zh) | 语音唤醒方法、装置、***及电子设备 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |