CN114927128A - 语音关键词的检测方法、装置、电子设备及可读存储介质 - Google Patents
语音关键词的检测方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN114927128A CN114927128A CN202210424846.2A CN202210424846A CN114927128A CN 114927128 A CN114927128 A CN 114927128A CN 202210424846 A CN202210424846 A CN 202210424846A CN 114927128 A CN114927128 A CN 114927128A
- Authority
- CN
- China
- Prior art keywords
- voice
- syllable
- keyword
- target keyword
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims description 13
- 238000000034 method Methods 0.000 claims abstract description 50
- 239000011159 matrix material Substances 0.000 claims abstract description 33
- 239000012634 fragment Substances 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims description 18
- 230000000873 masking effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 108010069898 fibrinogen fragment X Proteins 0.000 description 27
- 238000012549 training Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种语音关键词的检测方法、装置、电子设备及可读存储介质,该方法包括:获取待检测的语音片段和目标关键词,所述语音片段为包括多帧语音向量的序列,所述目标关键词为包括多个音节的序列;基于每一个所述音节和所述语音片段,提取每一个所述音节的语音特征,根据每一个所述音节的语音特征和每一个所述音节的基础语音模式计算每一个所述音节与所述语音片段之间的相关度,得到所述目标关键词与所述语音片段之间的相关度矩阵;基于所述相关度矩阵搜索所述目标关键词与所述语音片段间的最佳匹配路径,从而计算所述目标关键词与所述语音片段的匹配概率;若所述匹配概率大于或等于预设阈值,则判定在所述语音片段中包含有所述目标关键词。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音关键词的检测方法、装置、电子设备及可读存储介质。
背景技术
从语音中检出特定的关键的单词或短语,有广泛的应用场景。例如,在智能家电领域,关键词检出被用于设备语音唤醒和语音命令;在网络直播检查中,关键词检出被用于色情、暴力、侮辱性语言预警;在多媒体资料归档中,关键词检出用于音视频搜索。
现有的关键词检出方法一般有以下几类:
第一:大规模连续语音识别法。最直接的办法是利用大规模连续语音识别技术将音频转成文本,再基于文本内容来对关键词进行检测。这种方法的缺陷有两个:(1)大规模连续语音识别对计算资源消耗太大,不适合大规模在线检测,也无法在低计算能力的设备上运行;(2)难以检测词表中没有见过的词。
第二:部分解码法。通过设计包含关键词和填充成份的小型解码图来实现对关键词的检出。因为解码图是依目标关键词设计的,且规模较小,所以计算量低,可以在嵌入式设备上运行。同时,解码图的设计与生成便捷,因此可以支持任意关键词的检出。这一方法的问题是对不同关键词的路径权重需要重新调节,同时对噪声和混杂声音的抵抗力较低。
第三:端到端模型法。端到端模型法的基本方案是,给定一个语音片段,基于神经网络直接判断这一语音片段中是否包含某一指定关键词,如果包含则输出1,如果不包含则输出0。这一方法的最大缺陷是网络是特定关键词的,换一个关键词需要重新训练。而且训练每个关键词的网络需要准备大量目标关键词的语音片段,资源消耗太大。
发明内容
本发明提供一种语音关键词的检测方法、装置、电子设备及可读存储介质,用以解决现有技术中计算量大、需要重复训练识别目标关键词、对语音片段中的干扰抵抗能力差的缺陷,实现高效、准确地检测目标关键词。
本发明提供一种语音关键词的检测方法,包括:
获取待检测的语音片段和目标关键词,所述语音片段为包括多帧语音向量的序列,所述目标关键词为包括多个音节的序列;
基于每一个所述音节和所述语音片段,提取每一个所述音节的语音特征,根据每一个所述音节的语音特征和每一个所述音节的基础语音模式计算每一个所述音节与所述语音片段之间的相关度,得到所述目标关键词与所述语音片段之间的相关度矩阵;
基于所述相关度矩阵搜索所述目标关键词与所述语音片段间的最佳匹配路径,从而计算所述目标关键词与所述语音片段的匹配概率;
若所述匹配概率大于或等于预设阈值,则判定在所述语音片段中包含有所述目标关键词。
根据本发明提供的一种语音关键词的检测方法,所述基于每一个所述音节和所述语音片段,提取每一个所述音节的语音特征,具体包括:
获取每一个所述音节的掩蔽模式;
基于每一个所述音节的掩蔽模式,对所述语音片段中的每一帧所述语音向量进行掩码;
提取出与每一个所述音节对应的语音特征。
根据本发明提供的一种语音关键词的检测方法,所述根据每一个所述音节的语音特征和每一个所述音节的基础语音模式计算每一个所述音节与所述语音片段之间的相关度,得到所述目标关键词与所述语音片段之间的相关度矩阵,具体包括:
获取每一个所述音节的基础语音模式;
将单个所述音节的基础语音模式与单个所述音节和所述语音片段的语音特征间进行点积运算,得到单个所述音节与所述语音片段之间的相关度;
计算每一个所述音节与所述语音片段之间的相关度,得到所述目标关键词与所述语音片段之间的相关度矩阵。
根据本发明提供的一种语音关键词的检测方法,所述计算所述目标关键词与所述语音片段的匹配概率,具体为:
根据所述最佳匹配路径计算所述最佳匹配路径的平均匹配分值;
根据所述平均匹配分值,获取所述目标关键词与所述语音片段的匹配概率。
根据本发明提供的一种语音关键词的检测方法,所述根据所述最佳匹配路径计算所述最佳匹配路径的平均匹配分值,具体包括:
获取所述最佳匹配路径对应的帧数;
计算所述最佳匹配路径中每一个音节与每一帧语音向量对应的相关度的累加值;
所述累加值除以所述帧数,得到所述最佳匹配路径的平均匹配分值。
根据本发明提供的一种语音关键词的检测方法,还包括:
若所述匹配概率小于所述预设阈值,则判定在所述语音片段中不包括所述目标关键词。
本发明还提供一种语音关键词的检测装置,包括:
获取模块,用于获取待检测的语音片段和目标关键词,所述语音片段为包括多帧语音向量的序列,所述目标关键词为包括多个音节的序列;
第一计算模块,用于基于每一个所述音节和所述语音片段,提取每个所述音节的语音特征,根据每一个所述音节的语音特征和每一个所述音节的基础语音模式计算每一个所述音节与所述语音片段之间的相关度,得到所述目标关键词与所述语音片段之间的相关度矩阵;
第二计算模块,用于基于所述相关度矩阵搜索所述目标关键词与所述语音片段间的最佳匹配路径,从而计算所述目标关键词与所述语音片段的匹配概率;
结果判定模块,若所述匹配概率大于等于预设阈值,则判定在所述语音片段中包括所述目标关键词。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音关键词的检测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音关键词的检测方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音关键词的检测方法。
本发明提供的语音关键词的检测方法、装置、电子设备及可读存储介质,该检测方法通过以下步骤:获取待检测的语音片段和目标关键词,语音片段为包括多帧语音向量的序列,目标关键词为包括多个音节的序列;
基于每一个音节和语音片段,提取每个音节的语音特征,根据每一个音节的语音特征和每一个音节的基础语音模式计算每一个音节与语音片段之间的相关度,得到目标关键词与语音片段之间的相关度矩阵;
基于相关度矩阵搜索目标关键词与语音片段间的最佳匹配路径,从而计算目标关键词与语音片段的匹配概率;
若匹配概率大于等于预设阈值,则判定在语音片段中包括目标关键词。根据上述步骤从而判断出待检测的语音片段中包括目标关键词,本发明所提出的方案学习每个音节的掩码,通过掩码从语音片段中“抓取”出对应的频谱成份。因此,即便存在噪声干扰,甚至发音混叠,依然可以从中抓取出目标关键词,抗干扰能力强。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语音关键词的检测方法的流程示意图之一;
图2是本发明提供的语音关键词的检测方法的流程示意图之二;
图3是本发明提供的语音关键词的检测方法的流程示意图之三;
图4是本发明提供的语音关键词的检测方法的流程示意图之四;
图5是本发明提供的语音关键词的检测装置的结构示意图;
图6是本发明提供的电子设备的结构示意图;
图7为本发明提供的对语音片段进行掩蔽的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图4描述本发明的语音关键词的检测方法。
图1是本发明实施例提供的语音关键词的检测方法的流程示意图之一。
相比于现有技术中的缺陷,本发明的技术方案不限定具体的关键词,且在面对语音片段中的噪声干扰及发音混叠的情况,能够精准地抓取出目标关键词。
如图1所示,本发明实施例提供了一种语音关键词的检测方法,包括以下步骤:
101、获取待检测的语音片段X和目标关键词Q,语音片段X为包括t帧语音向量x的序列,即X=[x1,x2…,xt],目标关键词Q为包括n个音节q的序列,即Q=[q1,q2...,qn],其中,t、n均为正整数。
首先给定一个包含t帧语音向量x的定长语音片段X,该定长语音片段X=[x1,x2…,xt],其可能提取于待智能家电领域用于语音唤醒和语音命令的语音片段、直播视频中的语音片段或者多媒体资料归档中的语音片段。在本发明中采用每一帧的对数能量谱(LPS)作为该帧的语音向量x。
再给定一个目标关键词Q,任何一目标关键词Q都可以拆解成包含音节q的序列,即Q=[q1,q2...,qn]。音节是构成语音序列的单位,也是语音中最自然的语音结构单位。
本发明的目的是检测在语音片段X中是否包括目标关键词Q。
102、基于每一个音节q和语音片段X,提取每个音节q的语音特征,根据每一个音节q的语音特征和每一个音节q的基础语音模式b(q)计算每一个音节q与语音片段X之间的相关度,得到目标关键词Q与语音片段X之间的相关度矩阵。
103、基于相关度矩阵R搜索目标关键词Q与语音片段X间的最佳匹配路径p,从而计算目标关键词Q与语音片段X的匹配概率。即基于v和q的基础语音模式b(q)进行比较,从而得到该帧语音向量x和音节q的相关度。最后,再考虑x和q之间的时序关系,利用动态规划算法求解出最优匹配路径。
104、若匹配概率大于或等于预设阈值,则判定在语音片段X中包含有目标关键词Q。同时,若匹配概率小于预设阈值,则判定在语音片段X中不包括目标关键词Q。
具体的,如图2所示,步骤102中在目标关键词中每个音节q的语音特征的提取过程包括以下步骤:
201、获取每一个音节q的掩蔽模式m(q)。
202、基于每一个音节q的掩蔽模式m(q),对语音片段X中的每一帧语音向量x进行掩码。
203、提取出与每一个音节q对应的语音特征。
其中,每一个音节q的语音特征v=m(q)⊙X,即每一个音节q的掩码模式与每一帧语音向量进行积运算,⊙表示哈达玛积。
进一步的,如图7所示,在本发明中,对于一段语音片段X中的音节q。通过对齐,得到音节q在语音片段中的位置,在此位置之外的语音片段加上mask,即对该语音片段加上掩蔽。比如对于下图中的音节A,因为A之外的位置全部加为mask。
具体的,对原始信号为x[APPLE];xmask=x·[01000]其中1所在的位置为音节P所在的位置;通过点乘,xmask=[0P000]。
上述说明是在信号层面,实际mask操作是在特征层面,比如对信号x提取mfcc/fbank特征,然后再做mask。
具体的,本发明提出了一种称为“语音雕刻”的关键词处理方法,该方法的核心思想是学习每一个音节q(也可以是音素)在特定上下文中发音特征,并将这一发音特征形式化成一个掩码模式m(q)。
语音雕刻对每个音节q(或上下文相关音节)定义掩码m(q),此掩码m(q)通过但不限于神经网络学习得到的,m(q)为上文提到的语音雕刻中的刻刀,它将所关注的音节q从混淆的音频中刻画出来,只关注音节q的特性,其它音节的特征被掩盖住。掩码m(q)用来从原始语音片段X中的每一帧语音向量x中提取出和每个音节q相关的语音特征。
基于m(q)对输入语音片段X进行掩码,提取出和q对应的语音特征v,具体为:m(q)是一个和x等长的一维向量,且每个元素在0-1之间。语音特征提取过程如下(此语音特征为音节q在语音片段X上得到特征):
vq=m(q)⊙X (1)
其中⊙表示按元素乘,该公式具体表示为单个音节q的语音特征为该音节q的掩码m(q)与语音片段X中的每一帧语音向量x进行乘积。
进一步的,如图3所示,在步骤102中,根据每一个音节q的语音特征和每一个音节q的基础语音模式b(q)计算每一个音节q与语音片段X之间的相关度,得到目标关键词Q与语音片段X之间的相关度矩阵,具体包括以下步骤:
301、获取每一个音节q的基础语音模式b(q)。具体的,为每一个音节q定义基础语音模式b(q)(这个基础语音模型可以理解为是该音节q的一个词向量)。
在本发明中,定义语音片段X与每一个音节q之间的相关性为该音节的语音特征vq和该音节的基础语音模式b(q)之间的相关度r。这一相关度r可以采用简单的点积来计算,也可采用更为复杂的神经网络。在步骤302中以点积度量为例。
302、将单个音节q的基础语音模式b(q)与单个音节q和语音片段X的语音特征v间进行点积运算,得到单个音节q与语音片段X之间的相关度r。
用公式表示如下:
r=b(q)vq (2)
303、计算每一个音节q与语音片段X之间的相关度,得到目标关键词Q与语音片段X之间的相关度矩阵R。具体的,考虑到Q中有n个音节,可以对X-Q计算出一个语音片段X-关键词Q相关矩阵R:
R=b(Q)v(Q) (3)
其中,b(Q)表示获取目标关键词Q中每一个音节的基础语音模式,v(Q)表示目标关键词Q中每一个音节的与语音片段X中每一帧语音向量x的语音特征。
下表给出语音片段X-关键词Q相关矩阵R的一个示例,其中语音片段X中共有4帧语音,对应关键词Q中共有3个音节A、B、C。表中每个元素中的值表示相应的相关度r。
表1:语音-音节相关矩阵示例
在步骤103中,首先定义最佳路径p应满足如下约束条件:(1)p必须从q1开始并从qn完成;(2)p的每一步对应的语音帧序号(1、2…t)必然增加,音素序号(1、2…n)不能减小。|p|为路径p的长度。注意,因为Q可能包含在X的一个子片段中,p未必从第一个语音帧进入,也未必从第t个语音帧完成。因此有:n≤|p|≤t。
为了确定p,采用时序搜索算法。首先,只有当相关度r连续达到一定量级后才开始音节上的路径扩展,以保证最佳匹配路径p对应的语音确实以q1为起始;第二,在搜索时采用Viterbi算法,保证搜索效率;第三,在搜索结束时需在所有以qn为结束的路径中进行选择,得到最优匹配的p及其对应的最优平均路径匹配值s。
进一步的,如图4所示,根据最佳匹配路径p计算最佳匹配路径的平均匹配分值s,具体包括以下步骤:
401、获取最佳匹配路径p对应的帧数|p|;
402、计算最佳匹配路径p中每一个音节q与每一帧语音向量x对应的相关度r的累加值Rp;
403、累加值Rp除以帧数|p|,得到最佳匹配路径p的平均匹配分值s。
给定语音-音节相关矩阵R,可以在其中搜索一条最佳匹配路径p,并计算该最佳匹配路径的平均匹配分值s=Rp/|p|。
例如在表1中的灰色单元即是该相关矩阵中的最佳路径p,最佳匹配路径p对应的帧数|p|=4,每一个音节q与每一帧语音向量x对应的相关度r的累加值Rp=0.8+0.7+0.8+0.7=3,平均匹配分值s=Rp/|p|=0.75。
进一步的,计算目标关键词Q与语音片段X的匹配概率,具体为:根据最佳匹配路径计算最佳匹配路径的平均匹配分值;
根据平均匹配分值s,获取目标关键词Q与语音片段X的匹配概率。
基于分值s,即可对关键词Q的存在与否进行决策。在训练时,采用端到端训练,由模型输出s,经过Sigmoid函数归一化后即得到X与Q的匹配概率p(1|X,R)=sigmoid(s)。训练的目标是希望p(1|X,R)在正样例上接近1,在负样例上接近0,因此采用交叉熵准则来进行训练。
实际训练时,需制作大量正例与负例样本。可基于任何一个语音识别数据库来随机生成这些样例:如果选择和语音片段对应的文本,则得到正例,如果选择一个随机文本,则得到负例。因此,模型可以基于已有的语音数据库进行训练,不必再额外采集特定关键词的数据。
本发明以神经网络模型为基础结构。神经网络用来对X提取语音特征,计算音节q的掩码m(q)和基础模式b(q),以及计算更复杂的相关度r。本发明不限制神经网络的结构,全连接神经网络或卷积神经网络都可应用。
本发明的技术方案具有以下优势:
第一:自由替换关键词。本发明所提出的方案是与具体关键词无关的。模型学习的是每个音节的发音特征,而任何一个关键词都可以拆解成音节序列。因此,该方案可快速应用于任何关键词,不需要重新训练。
第二:抗干扰能力强。本发明所提出的方案学习每个音节的掩码,通过掩码从语音中“抓取”出对应的频谱成份。因此,即便存在噪声干扰,甚至发音混叠,依然可以从中抓取出目标关键词。
下面对本发明提供的一种语音关键词的检测装置进行描述,下文描述的一种语音关键词的检测装置与上文描述的一种语音关键词的检测方法可相互对应参照。
图5是本发明实施例提供的语音关键词的检测装置的结构示意图。
如图5所示,本发明实施例提供了一种语音关键词的检测装置,包括以下模块:获取模块51、第一计算模块52、第二计算模块53及结果判定模块54。
具体的,获取模块51用于获取待检测的语音片段X和目标关键词Q,语音片段X为包括t帧语音向量x的序列,即X=[x1,x2…,xt],目标关键词Q为包括n个音节q的序列,即Q=[q1,q2...,qn],其中,t、n均为正整数。
第一计算模块52用于基于每一个音节q和语音片段X,提取每个音节q的语音特征,根据每一个音节q的语音特征和每一个音节q的基础语音模式b(q)计算每一个音节q与语音片段X之间的相关度,得到目标关键词Q与语音片段X之间的相关度矩阵。
第二计算模块53用于基于相关度矩阵搜索目标关键词Q与语音片段X间的最佳匹配路径,从而计算目标关键词Q与语音片段X的匹配概率。
若匹配概率大于等于预设阈值,结果判定模块54则判定在语音片段X中包括目标关键词Q。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行一种语音关键词的检测方法,该方法包括以下步骤:
获取待检测的语音片段X和目标关键词Q,语音片段X为包括t帧语音向量x的序列,即X=[x1,x2…,xt],目标关键词Q为包括n个音节q的序列,即Q=[q1,q2...,qn],其中,t、n均为正整数;
基于每一个音节q和语音片段X,提取每个音节q的语音特征,根据每一个音节q的语音特征和每一个音节q的基础语音模式b(q)计算每一个音节q与语音片段X之间的相关度,得到目标关键词Q与语音片段X之间的相关度矩阵;
基于相关度矩阵搜索目标关键词Q与语音片段X间的最佳匹配路径,从而计算目标关键词Q与语音片段X的匹配概率;
若匹配概率大于等于预设阈值,则判定在语音片段X中包括目标关键词Q。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的一种语音关键词的检测方法,该方法包括以下步骤:
获取待检测的语音片段X和目标关键词Q,语音片段X为包括t帧语音向量x的序列,即X=[x1,x2…,xt],目标关键词Q为包括n个音节q的序列,即Q=[q1,q2...,qn],其中,t、n均为正整数;
基于每一个音节q和语音片段X,提取每个音节q的语音特征,根据每一个音节q的语音特征和每一个音节q的基础语音模式b(q)计算每一个音节q与语音片段X之间的相关度,得到目标关键词Q与语音片段X之间的相关度矩阵;
基于相关度矩阵搜索目标关键词Q与语音片段X间的最佳匹配路径,从而计算目标关键词Q与语音片段X的匹配概率;
若匹配概率大于等于预设阈值,则判定在语音片段X中包括目标关键词Q。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的一种语音关键词的检测方法,该方法包括以下步骤:
获取待检测的语音片段X和目标关键词Q,语音片段X为包括t帧语音向量x的序列,即X=[x1,x2…,xt],目标关键词Q为包括n个音节q的序列,即Q=[q1,q2...,qn],其中,t、n均为正整数;
基于每一个音节q和语音片段X,提取每个音节q的语音特征,根据每一个音节q的语音特征和每一个音节q的基础语音模式b(q)计算每一个音节q与语音片段X之间的相关度,得到目标关键词Q与语音片段X之间的相关度矩阵;
基于相关度矩阵搜索目标关键词Q与语音片段X间的最佳匹配路径,从而计算目标关键词Q与语音片段X的匹配概率;
若匹配概率大于等于预设阈值,则判定在语音片段X中包括目标关键词Q。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音关键词的检测方法,其特征在于,包括:
获取待检测的语音片段和目标关键词,所述语音片段为包括多帧语音向量的序列,所述目标关键词为包括多个音节的序列;
基于每一个所述音节和所述语音片段,提取每一个所述音节的语音特征,根据每一个所述音节的语音特征和每一个所述音节的基础语音模式计算每一个所述音节与所述语音片段之间的相关度,得到所述目标关键词与所述语音片段之间的相关度矩阵;
基于所述相关度矩阵搜索所述目标关键词与所述语音片段间的最佳匹配路径,从而计算所述目标关键词与所述语音片段的匹配概率;
若所述匹配概率大于或等于预设阈值,则判定在所述语音片段中包含有所述目标关键词。
2.根据权利要求1所述的语音关键词的检测方法,其特征在于,所述基于每一个所述音节和所述语音片段,提取每一个所述音节的语音特征,具体包括:
获取每一个所述音节的掩蔽模式;
基于每一个所述音节的掩蔽模式,对所述语音片段中的每一帧所述语音向量进行掩码;
提取出与每一个所述音节对应的语音特征。
3.根据权利要求2所述的语音关键词的检测方法,其特征在于,所述根据每一个所述音节的语音特征和每一个所述音节的基础语音模式计算每一个所述音节与所述语音片段之间的相关度,得到所述目标关键词与所述语音片段之间的相关度矩阵,具体包括:
获取每一个所述音节的基础语音模式;
将单个所述音节的基础语音模式与单个所述音节和所述语音片段的语音特征间进行点积运算,得到单个所述音节与所述语音片段之间的相关度;
计算每一个所述音节与所述语音片段之间的相关度,得到所述目标关键词与所述语音片段之间的相关度矩阵。
4.根据权利要求1所述的语音关键词的检测方法,其特征在于,所述计算所述目标关键词与所述语音片段的匹配概率,具体为:
根据所述最佳匹配路径计算所述最佳匹配路径的平均匹配分值;
根据所述平均匹配分值,获取所述目标关键词与所述语音片段的匹配概率。
5.根据权利要求4所述的语音关键词的检测方法,其特征在于,所述根据所述最佳匹配路径计算所述最佳匹配路径的平均匹配分值,具体包括:
获取所述最佳匹配路径对应的帧数;
计算所述最佳匹配路径中每一个音节与每一帧语音向量对应的相关度的累加值;
所述累加值除以所述帧数,得到所述最佳匹配路径的平均匹配分值。
6.根据权利要求1所述的语音关键词的检测方法,其特征在于,还包括:
若所述匹配概率小于所述预设阈值,则判定在所述语音片段中不包括所述目标关键词。
7.一种语音关键词的检测装置,其特征在于,包括:
获取模块,用于获取待检测的语音片段和目标关键词,所述语音片段为包括多帧语音向量的序列,所述目标关键词为包括多个音节的序列;
第一计算模块,用于基于每一个所述音节和所述语音片段,提取每个所述音节的语音特征,根据每一个所述音节的语音特征和每一个所述音节的基础语音模式计算每一个所述音节与所述语音片段之间的相关度,得到所述目标关键词与所述语音片段之间的相关度矩阵;
第二计算模块,用于基于所述相关度矩阵搜索所述目标关键词与所述语音片段间的最佳匹配路径,从而计算所述目标关键词与所述语音片段的匹配概率;
结果判定模块,若所述匹配概率大于等于预设阈值,则判定在所述语音片段中包括所述目标关键词。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述语音关键词的检测方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音关键词的检测方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音关键词的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210424846.2A CN114927128A (zh) | 2022-04-21 | 2022-04-21 | 语音关键词的检测方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210424846.2A CN114927128A (zh) | 2022-04-21 | 2022-04-21 | 语音关键词的检测方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114927128A true CN114927128A (zh) | 2022-08-19 |
Family
ID=82805935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210424846.2A Pending CN114927128A (zh) | 2022-04-21 | 2022-04-21 | 语音关键词的检测方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114927128A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357959A (zh) * | 2022-10-20 | 2022-11-18 | 广东时谛智能科技有限公司 | 基于语音指令进行设计的鞋体模型设计方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160125874A1 (en) * | 2014-10-31 | 2016-05-05 | Kabushiki Kaisha Toshiba | Method and apparatus for optimizing a speech recognition result |
CN111328416A (zh) * | 2017-11-15 | 2020-06-23 | 国际商业机器公司 | 用于自然语言处理中的模糊匹配的语音模式 |
CN112201246A (zh) * | 2020-11-19 | 2021-01-08 | 深圳市欧瑞博科技股份有限公司 | 基于语音的智能控制方法、装置、电子设备及存储介质 |
CN114255739A (zh) * | 2020-09-21 | 2022-03-29 | ***通信集团设计院有限公司 | 识别语音中关键词的方法及装置 |
CN114333790A (zh) * | 2021-12-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及程序产品 |
-
2022
- 2022-04-21 CN CN202210424846.2A patent/CN114927128A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160125874A1 (en) * | 2014-10-31 | 2016-05-05 | Kabushiki Kaisha Toshiba | Method and apparatus for optimizing a speech recognition result |
CN111328416A (zh) * | 2017-11-15 | 2020-06-23 | 国际商业机器公司 | 用于自然语言处理中的模糊匹配的语音模式 |
CN114255739A (zh) * | 2020-09-21 | 2022-03-29 | ***通信集团设计院有限公司 | 识别语音中关键词的方法及装置 |
CN112201246A (zh) * | 2020-11-19 | 2021-01-08 | 深圳市欧瑞博科技股份有限公司 | 基于语音的智能控制方法、装置、电子设备及存储介质 |
CN114333790A (zh) * | 2021-12-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及程序产品 |
Non-Patent Citations (1)
Title |
---|
邓淑卿;李玩伟;徐健;: "基于句法依赖规则和词性特征的情感词识别研究", 情报理论与实践, no. 05, 15 November 2017 (2017-11-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357959A (zh) * | 2022-10-20 | 2022-11-18 | 广东时谛智能科技有限公司 | 基于语音指令进行设计的鞋体模型设计方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110838289B (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
Jansen et al. | Efficient spoken term discovery using randomized algorithms | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
CN110189749A (zh) | 语音关键词自动识别方法 | |
CN111798840B (zh) | 语音关键词识别方法和装置 | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
KR100904049B1 (ko) | 음성 인식에 대한 통계적 의미 분류 시스템 및 방법 | |
CN105551485B (zh) | 语音文件检索方法及*** | |
CN114627863B (zh) | 一种基于人工智能的语音识别方法和装置 | |
CN111445898B (zh) | 语种识别方法、装置、电子设备和存储介质 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN111161726B (zh) | 一种智能语音交互方法、设备、介质及*** | |
CN112380319A (zh) | 一种模型训练的方法及相关装置 | |
CN111128128A (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
CN113793591A (zh) | 语音合成方法及相关装置和电子设备、存储介质 | |
CN106384587B (zh) | 一种语音识别方法及*** | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN114927128A (zh) | 语音关键词的检测方法、装置、电子设备及可读存储介质 | |
CN111428487B (zh) | 模型训练方法、歌词生成方法、装置、电子设备及介质 | |
CN115104151A (zh) | 一种离线语音识别方法和装置、电子设备和可读存储介质 | |
CN110708619B (zh) | 一种智能设备的词向量训练方法及装置 | |
CN111862963B (zh) | 语音唤醒方法、装置和设备 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
CN114974310A (zh) | 基于人工智能的情感识别方法、装置、计算机设备及介质 | |
CN117892735B (zh) | 一种基于深度学习的自然语言处理方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |