CN102426836A - 基于分位数自适应裁剪的快速关键词检出方法 - Google Patents

基于分位数自适应裁剪的快速关键词检出方法 Download PDF

Info

Publication number
CN102426836A
CN102426836A CN2011102445311A CN201110244531A CN102426836A CN 102426836 A CN102426836 A CN 102426836A CN 2011102445311 A CN2011102445311 A CN 2011102445311A CN 201110244531 A CN201110244531 A CN 201110244531A CN 102426836 A CN102426836 A CN 102426836A
Authority
CN
China
Prior art keywords
cutting
keyword
self
fractile
local path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102445311A
Other languages
English (en)
Other versions
CN102426836B (zh
Inventor
韩纪庆
袁浩
李海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN2011102445311A priority Critical patent/CN102426836B/zh
Publication of CN102426836A publication Critical patent/CN102426836A/zh
Application granted granted Critical
Publication of CN102426836B publication Critical patent/CN102426836B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

基于分位数自适应裁剪的快速关键词检出方法,涉及连续语音中关键词的快速检出方法。解决关键词检出***解码过程中自适应裁剪方法不能最大程度裁剪局部路径,导致***效率低下的问题。将检测语音特征提取得特征矢量序列,根据Viterbi解码,计算局部路径上活动模型状态产生特征矢量的概率,并累加得局部路径概率得分,再进行基于分位数的状态层局部路径裁剪,然后判断是否到达语音末尾,是则据解码过程生成的网格回溯找关键词,并基于后验概率确认关键词候选得到识别结果,否则重新解码。本发明能很好的嵌入原有的关键词检出***,同时在解码过程中的每一时刻,都能有效裁剪掉不可能的路径,最大程度上减小搜索空间规模,提高***检出效率。

Description

基于分位数自适应裁剪的快速关键词检出方法
技术领域
本发明涉及一种连续语音中关键词的快速检出方法,具体是在Viterbi解码过程中快速自适应裁剪局部路径的方法。
背景技术
语音识别是机器通过识别和理解过程将人类的语音信号转换为相应的文本或命令的技术,根本目的是研究出一种机器,使其具有听觉功能,即以人类的语音作为输入,理解并做出相应的反应。关键词检出是语音识别中一个重要的研究领域,是从连续语音中识别出一组给定词的过程。它是一种非受限的语音信号处理***,允许用户采用自然的说话方式,而不必局限于特定的语法。相比于连续语音识别,关键词检出具有检出率高、实用性强、时间耗费少等优点,具有广阔的应用前景。虽然关键词检出技术有这些优点,且近年来取得了长足的进步,但是其检出效率仍不够高。一般的关键词检出***,检出率通常能达到90%以上,但是***效率始终是制约其进一步发展的瓶颈。当前,随着网络的普及,网络上传播的音视频信息迅速增加,人们可以方便快速的从中获取海量的音视频数据。但是如何有效地从大量的多媒体数据中挖掘特定的信息成为一个问题。当前基于垃圾模型的关键词检出***,都是根据Viterbi解码算法在许多隐马尔科夫模型构成的大的模型上解码得到关键词和垃圾模型的序列。解码过程中,某一时刻可能存在大量的局部路径,及早删除不可能的路径,只在那些可能性高的路径上进行搜索,能大幅提高***的检出效率。但是传统的自适应裁剪方法对局部路径的裁剪不够彻底,每帧裁剪后通常会有一多半的路径会保留下来,而这其中有很多不可能的路径,导致***效率低下。因此,需要研究自适应的裁剪方法,进一步提高***的检出速度,改善实时性。
发明内容
本发明的目的是为了解决关键词检出***解码过程中,自适应裁剪方法不能有效最大程度裁剪局部路径,从而导致***效率低下的问题,本发明提供了一种基于分位数自适应裁剪的快速关键词检出方法。
本发明的基于分位数自适应裁剪的快速关键词检出方法是通过以下步骤实现:
步骤一、输入待检测语音信号,对输入的待检测语音信号进行预处理,特征提取得到语音特征矢量序列X={x1,x2,...xS},其中S代表自然数;
步骤二、根据Viterbi解码算法,将语音特征矢量序列在预先定义的识别网络上进行解码;
步骤三、对于任意时刻t,所有局部路径向前扩展一次得每个局部路径上对应的活动模型,同时计算每个活动模型的状态产生xt的概率,并累加每个活动模型的状态产生xt的概率得相应局部路径概率得分,其中,xt∈X,1≤t≤S,t取整数;
步骤四、进行基于分位数的状态层局部路径裁剪;
步骤五、判断是否到达语音末尾,是则转步骤六,否则转步骤二;
步骤六、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于分位数自适应裁剪的快速关键词检出方法。
本发明步骤一中对于一个语音文件,S是有限的。但是如果直接用麦克风输入语音,那么理论上S可以无限大,但这种情况在实际中很少。实际上是对输入的语音每隔一段时间就提取一帧特征矢量,可以随着时间向后推移,那么S就逐渐增大。
本发明步骤四中进行基于分位数的状态层局部路径裁剪,具体如下:
步骤1、设定t时刻要求保留局部路径的百分比α和加权因子λ,其中,α取值为0<α<1,λ的取值为1<λ<3;
步骤2、保存t时刻所有局部路径概率得分(即步骤三中得的相应局部路径概率得分)到数组score[1...N]中,假设t时刻共N条局部路径;
步骤3、根据二分查找算法在score[1...N]中查找第N×α大的数Sα,即上α分位数;
步骤4、设定t时刻裁剪的束宽度为beam(t)=λ×(Smax-Sα)(1<λ<3);
步骤5、设定t时刻的裁剪门限为thresh(t)=Smax-beam(t),其中Smax为数组score[1...N]中的最大数;
步骤6、遍历score[1...N]中每一维数据,如果小于thresh(t),则其对应的局部路径不再扩展,并丢弃其对应的数据结构,如果大于thresh(t),则其对应的局部路径继续扩展。
本发明步骤一中特征提取得到特征矢量序列的过程为:对说话人信号s(n)(即待检测语音信号)进行采样量化和预加重处理,假设说话人信号是短时平稳的,所以说话人信号可以进行分帧处理,具体分帧方法是采用可移动的有限长度窗口进行加权的方法来实现的,对加权后的语音信号sw(n)计算Mel倒谱系数(MFCC参数),从而得到特征矢量序列X={x1,x2,...,xs},其中,MFCC参数的提取过程如下:
(1)将待检测语音信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换,得到待检测语音信号的频谱;
(2)求出频谱平方(即能量谱),并用M个Mel带通滤波器进行滤波,由于每个频带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱为x′(k),1≤k≤M,k取整数;
(3)将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12~16个。MFCC系数为:
C n = Σ k = 1 M log x ′ ( k ) cos [ π ( k - 0.5 ) n / M ] , n=1,2,...L
(4)将步骤(3)直接得到的MFCC系数作为静态特征,再将静态特征做一阶和二阶差分,得到相应的动态特征。
本发明的有益效果:能很好的嵌入原有的关键词检出***,同时在解码过程中的每一时刻,都能有效的裁剪掉那些不可能的路径,最大程度上减小搜索空间的规模,提高***的检出效率。
本发明的基于分位数自适应裁剪的快速关键词检出方法的***性能曲线与传统基于均值自适应裁剪***性能曲线几乎完全重合。本发明的基于分位数自适应裁剪的快速关键词检出方法的***识别时间比(识别时间与测试语料时长之比)由64%(传统基于均值自适应裁剪***的***识别时间比)降低到了49%,***效率有了较大的提高。本发明的基于分位数自适应裁剪的快速关键词检出方法在尽可能保持***性能的前提下,提高了识别速度。
附图说明
图1是具体实施方式五的预先定义的识别网络的结构示意图;图2是关键词检出方法的***性能识别曲线图,其中,曲线1是具体实施方式七的基于分位数自适应裁剪的快速关键词检出方法的统性能识别曲线,曲线2是具体实施方式八的传统基于均值自适应裁剪的关键词检出方法的***识别性能曲线。
具体实施方式
本发明技术方案不局限于以下所列举具体实施方式,还包括各具体实施方式间的任意组合。
具体实施方式一:本实施方式为基于分位数自适应裁剪的快速关键词检出方法,其是通过以下步骤实现的:
步骤一、输入待检测语音信号,对输入的待检测语音信号进行预处理,特征提取得到语音特征矢量序列X={x1,x2,...xS},其中S代表自然数;
步骤二、根据Viterbi解码算法,将语音特征矢量序列在预先定义的识别网络上进行解码;
步骤三、对于任意时刻t,所有局部路径向前扩展一次得相应局部路径上对应的活动模型,同时计算每个活动模型的状态产生xt的概率,并累加每个活动模型的状态产生xt的概率得相应局部路径概率得分,其中,xt∈X,1≤t≤S,t取整数;
步骤四、进行基于分位数的状态层局部路径裁剪;
步骤五、判断是否到达语音末尾,是则转步骤六,否则转步骤二;
步骤六、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于分位数自适应裁剪的快速关键词检出方法。
本实施方式步骤六为本领域技术人员的公知常识,结合现有技术,即可完成。
本实施方式步骤一中对于一个语音文件,S是有限的。但是如果直接用麦克风输入语音,那么理论上S可以无限大,但这种情况在实际中很少。实际上是对输入的语音每隔一段时间就提取一帧特征矢量,可以随着时间向后推移,那么S就逐渐增大。
本实施方式的有益效果:能很好的嵌入原有的关键词检出***,同时在解码过程中的每一时刻,都能有效的裁剪掉那些不可能的路径,最大程度上减小搜索空间的规模,提高***的检出效率。
本实施方式的基于分位数自适应裁剪的快速关键词检出方法的***性能曲线与传统基于均值自适应裁剪***性能曲线几乎完全重合。本发明的基于分位数自适应裁剪的快速关键词检出方法的***识别时间比(识别时间与测试语料时长之比)由64%(传统基于均值自适应裁剪***的***识别时间比)降低到了49%,***效率有了较大的提高。本发明的基于分位数自适应裁剪的快速关键词检出方法在尽可能保持***性能的前提下,提高了识别速度。
具体实施方式二:本实施方式与具体实施方式一不同的是步骤四中进行基于分位数的状态层局部路径裁剪,具体如下:
步骤1、设定t时刻要求保留局部路径的百分比α和加权因子λ,其中,α取值为0<α<1,λ的取值为1<λ<3;
步骤2、保存t时刻所有局部路径概率得分(即步骤三中得的相应局部路径概率得分)到数组score[1...N]中,假设t时刻共N条局部路径;
步骤3、根据二分查找算法在score[1...N]中查找第N×α大的数Sα,即上α分位数;
步骤4、设定t时刻裁剪的束宽度为beam(t)=λ×(Smax-Sα) (1<λ<3);
步骤5、设定t时刻的裁剪门限为thresh(t)=Smax-beam(t),其中Smax为数组score[1...N]中的最大数;
步骤6、遍历score[1...N]中每一维数据,如果小于thresh(t),则其对应的局部路径不再扩展,并丢弃其对应的数据结构,如果大于thresh(t),则其对应的局部路径继续扩展。
其它步骤及参数与具体实施方式一相同。
本实施方式在Viterbi解码过程中基于分位数,快速自适应的裁剪不可能的局部路径,在处理每帧特征矢量之后,从***中所有局部路径的累积概率得分找到预先定义的上α分位数Sα,根据Sα和最大概率得分设置该时刻状态层的裁剪门限,并裁剪掉那些低于裁剪门限的局部路径。
具体实施方式三:本实施方式与具体实施方式一或二不同的是步骤一中特征提取得到特征矢量序列的过程为:对说话人信号s(n)(即待检测语音信号)进行采样量化和预加重处理,假设说话人信号是短时平稳的,所以说话人信号可以进行分帧处理,具体分帧方法是采用可移动的有限长度窗口进行加权的方法来实现的,对加权后的语音信号sw(n)计算Mel倒谱系数(MFCC参数),从而得到特征矢量序列X={x1,x2,...,xs}。其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式三不同的是MFCC参数的提取过程如下:
(1)将待检测语音信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换,得到待检测语音信号的频谱;
(2)求出频谱平方(即能量谱),并用M个Mel带通滤波器进行滤波,由于每个频带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱为x′(k),1≤k≤M,k取整数;
(3)将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12~16个。MFCC系数为
C n = Σ k = 1 M log x ′ ( k ) cos [ π ( k - 0.5 ) n / M ] , n=1,2,...L
(4)将步骤(3)直接得到的MFCC系数作为静态特征,再将静态特征做一阶和二阶差分,得到相应的动态特征。
其它步骤及参数与具体实施方式三相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是步骤二中所述预先定义的识别网络是由关键词模型和垃圾模型构成的。其它步骤及参数与具体实施方式一至四之一相同。
本实施方式中的预先定义的识别网络结构示意图,如图1所示。如图1所示,左右两处的节点把其他节点连接起来。箭头表示实际识别过程中,局部路径扩展的方向,对应于具体实施方式一的快速关键词检出方法中的步骤二。
本实施方式的***中,用户首先根据自己的需要设定一组希望监听的词(即图1中关键词模型1至关键词模型N),那么就根据这组词和单音素(即图1中的垃圾模型1至垃圾模型N)构成如图1中的识别网络。其中单音素是确定的。用户自己设定的希望监听的词,需要根据字典扩展成三音素的形式。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是步骤四中的上α分位数Sα定义为:
设x1,x2,...xN为N个观测值,将它们由大到小记为x(1),x(2),...x(N),即x(1)≥x(2)≥...≥x(N),称它们为次序计量值,其中第i个次序统计量值是x(i),表示大于x(i)的值有100×αN%个,其余的小于等于x(i)
对于0≤α<1,数据x1,x2,...xn的上α分位数是
Figure BDA0000085709500000061
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式为基于分位数自适应裁剪的快速关键词检出方法,其是通过以下步骤实现的:
步骤一、输入待检测语音信号,对输入的待检测语音信号进行预处理,特征提取得到语音特征矢量序列X={x1,x2,...xS},其中S代表自然数;
步骤二、根据Viterbi解码算法,将语音特征矢量序列在预先定义的识别网络上进行解码;
步骤三、对于任意时刻t,所有局部路径向前扩展一次得相应局部路径上对应的活动模型,同时计算每个活动模型的状态产生xt的概率,并累加每个活动模型的状态产生xt的概率得相应局部路径概率得分,其中,xt∈X,1≤t≤S,t取整数;
步骤四、进行基于分位数的状态层局部路径裁剪;
步骤五、判断是否到达语音末尾,是则转步骤六,否则转步骤二;
步骤六、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于分位数自适应裁剪的快速关键词检出方法。
其中,步骤四中进行基于分位数的状态层局部路径裁剪,具体如下:
步骤1、设定t时刻要求保留局部路径的百分比α和加权因子λ,其中,α取值为0<α<1,λ的取值为1<λ<3;
步骤2、保存t时刻所有局部路径概率得分(即步骤三中得的相应局部路径概率得分)到数组score[1...N]中,假设t时刻共N条局部路径;
步骤3、根据二分查找算法在score[1...N]中查找第N×α大的数Sα,即上α分位数;
步骤4、设定t时刻裁剪的束宽度为beam(t)=λ×(Smax-Sα) (1<λ<3);
步骤5、设定t时刻的裁剪门限为thresh(t)=Smax-beam(t),其中Smax为数组score[1...N]中的最大数;
步骤6、遍历score[1...N]中每一维数据,如果小于thresh(t),则其对应的局部路径不再扩展,并丢弃其对应的数据结构,如果大于thresh(t),则其对应的局部路径继续扩展。
本实施方式中,实验使用PC机,CPU为奔腾4双核,3.0GHz,1GB内存,步骤一中输入的待检测语音信号的语料时长为53min,其中包含710个测试文件,每个文件中的语音时长为3到6秒。
本实施方式的步骤二中所述预先定义的识别网络是由关键词模型和垃圾模型构成的,如图1所示。其中,用户首先根据自己的需要设定一组希望监听的词,那么就根据这组词和单音素构成如图1中的识别网络。其中单音素是确定的。用户自己设定的希望监听的词,需要根据字典扩展成三音素的形式。
本实施方式步骤一中的S取值会依据待检测语音信号的具体时长,***会自己运行。步骤四的步骤2中的N的取值,在每一时刻,***中存在的局部路径的个数是不同的。实际有多少条局部路径,那么N就是多少。***运行过程中会自动记录这个值。
本实施方式的基于分位数自适应裁剪的快速关键词检出方法的***识别性能曲线如图2中曲线1所示。
本实施方式的基于分位数自适应裁剪的快速关键词检出方法对语料时长为53min的待检测语音信号的识别时间为26min37s,计算观察概率的时间为11min56s,识别时间比为49%。
具体实施方式八:本实施方式为对比实验,采用传统基于均值自适应裁剪的关键词检出方法,对与具体实施方式七中相同的语料时长为53min的待检测语音信号进行关键词检出。
本实施方式的传统基于均值自适应裁剪的关键词检出方法的***识别性能曲线如图2中曲线2所示。
本实施方式的传统基于均值自适应裁剪的关键词检出方法对语料时长为53min的待检测语音信号的识别时间为34min2s,计算观察概率的时间为17min35s,识别时间比为64%。
由图1可见,具体实施方式七的基于分位数自适应裁剪的快速关键词检出方法的***识别性能曲线与具体实施方式八的传统基于均值自适应裁剪的关键词检出方法的***识别性能曲线几乎完全重合。
具体实施方式七的基于分位数自适应裁剪的快速关键词检出方法的***识别时间比(识别时间与测试语料时长之比)由传统基于均值自适应裁剪的关键词检出方法的64%降低到了49%,***效率有了较大的提高。
具体实施方式七的基于分位数自适应裁剪的快速关键词检出方法在尽可能保持***性能的前提下,提高了识别速度。

Claims (2)

1.基于分位数自适应裁剪的快速关键词检出方法,其特征在于基于分位数自适应裁剪的快速关键词检出方法是通过以下步骤实现:
步骤一、输入待检测语音信号,对输入的待检测语音信号进行预处理,特征提取得到语音特征矢量序列X={x1,x2,...xS},其中S代表自然数;
步骤二、根据Viterbi解码算法,将语音特征矢量序列在预先定义的识别网络上进行解码;
步骤三、对于任意时刻t,所有局部路径向前扩展一次得相应局部路径上对应的活动模型,同时计算每个活动模型的状态产生xt的概率,并累加每个活动模型的状态产生xt的概率得相应局部路径概率得分,其中,xt∈X,1≤t≤S,t取整数;
步骤四、进行基于分位数的状态层局部路径裁剪;
步骤五、判断是否到达语音末尾,是则转步骤六,否则转步骤二;
步骤六、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于分位数自适应裁剪的快速关键词检出方法。
2.如权利要求1所述的基于分位数自适应裁剪的快速关键词检出方法,其特征在于步骤四中进行基于分位数的状态层局部路径裁剪,具体如下:
步骤1、设定t时刻要求保留局部路径的百分比α和加权因子λ,其中,α取值为0<α<1,λ的取值为1<λ<3;
步骤2、保存t时刻所有局部路径概率得分到数组score[1...N]中,假设t时刻共N条局部路径;
步骤3、根据二分查找算法在score[1...N]中查找第N×α大的数Sα,即上α分位数;
步骤4、设定t时刻裁剪的束宽度为beam(t)=λ×(Smax-Sα) (1<λ<3);
步骤5、设定t时刻的裁剪门限为thresh(t)=Smax-beam(t),其中Smax为数组score[1...N]中的最大数;
步骤6、遍历score[1...N]中每一维数据,如果小于thresh(t),则其对应的局部路径不再扩展,并丢弃其对应的数据结构,如果大于thresh(t),则其对应的局部路径继续扩展。
CN2011102445311A 2011-08-25 2011-08-25 基于分位数自适应裁剪的快速关键词检出方法 Expired - Fee Related CN102426836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102445311A CN102426836B (zh) 2011-08-25 2011-08-25 基于分位数自适应裁剪的快速关键词检出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102445311A CN102426836B (zh) 2011-08-25 2011-08-25 基于分位数自适应裁剪的快速关键词检出方法

Publications (2)

Publication Number Publication Date
CN102426836A true CN102426836A (zh) 2012-04-25
CN102426836B CN102426836B (zh) 2013-03-20

Family

ID=45960810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102445311A Expired - Fee Related CN102426836B (zh) 2011-08-25 2011-08-25 基于分位数自适应裁剪的快速关键词检出方法

Country Status (1)

Country Link
CN (1) CN102426836B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021408A (zh) * 2012-12-04 2013-04-03 中国科学院自动化研究所 一种发音稳定段辅助的语音识别优化解码方法及装置
CN105869622A (zh) * 2015-01-21 2016-08-17 上海羽扇智信息科技有限公司 中文热词检测方法和装置
CN106875936A (zh) * 2017-04-18 2017-06-20 广州视源电子科技股份有限公司 语音识别方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337031A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for detecting a target keyword

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
JP2004037797A (ja) * 2002-07-03 2004-02-05 Pioneer Electronic Corp ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム
CN101359325A (zh) * 2007-08-01 2009-02-04 北京启明星辰信息技术有限公司 一种快速内容分析的多关键词匹配方法
CN101398820A (zh) * 2007-09-24 2009-04-01 北京启明星辰信息技术有限公司 一种大规模关键词匹配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
JP2004037797A (ja) * 2002-07-03 2004-02-05 Pioneer Electronic Corp ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム
CN101359325A (zh) * 2007-08-01 2009-02-04 北京启明星辰信息技术有限公司 一种快速内容分析的多关键词匹配方法
CN101398820A (zh) * 2007-09-24 2009-04-01 北京启明星辰信息技术有限公司 一种大规模关键词匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《中国优秀硕士学位论文全文数据库》 20100702 马素琴 基于相似度的文本聚类算法研究及应用 全文 1-2 , *
马素琴: "基于相似度的文本聚类算法研究及应用", 《中国优秀硕士学位论文全文数据库》, 2 July 2010 (2010-07-02) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021408A (zh) * 2012-12-04 2013-04-03 中国科学院自动化研究所 一种发音稳定段辅助的语音识别优化解码方法及装置
CN105869622A (zh) * 2015-01-21 2016-08-17 上海羽扇智信息科技有限公司 中文热词检测方法和装置
CN106875936A (zh) * 2017-04-18 2017-06-20 广州视源电子科技股份有限公司 语音识别方法及装置

Also Published As

Publication number Publication date
CN102426836B (zh) 2013-03-20

Similar Documents

Publication Publication Date Title
CN111816218B (zh) 语音端点检测方法、装置、设备及存储介质
CN101477798B (zh) 一种分析和提取设定场景的音频数据的方法
CN107967922A (zh) 一种基于特征的音乐版权识别方法
Yang et al. Characterizing speech adversarial examples using self-attention u-net enhancement
CN102402984A (zh) 基于置信度的关键词检出***裁剪方法
US20090012638A1 (en) Feature extraction for identification and classification of audio signals
CN102426836B (zh) 基于分位数自适应裁剪的快速关键词检出方法
CN102332262A (zh) 基于音频特征的歌曲智能识别方法
CN107293306B (zh) 一种基于输出的客观语音质量的评估方法
CN107577773A (zh) 一种音频匹配方法与装置、电子设备
Meyer et al. Efficient convolutional neural network for audio event detection
CN110264999B (zh) 一种音频处理方法、设备及计算机可读介质
Xie et al. Algorithm of abnormal audio recognition based on improved MFCC
WO2017045429A1 (zh) 一种音频数据的检测方法、***及存储介质
CN105161116A (zh) 多媒体文件高潮片段的确定方法及装置
CN110796027A (zh) 一种基于紧密卷积的神经网络模型的声音场景识别方法
CN108021675A (zh) 一种多设备录音的自动切分对齐方法
CN113035160A (zh) 基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质
Akimoto et al. POCO: A Voice Spoofing and Liveness Detection Corpus Based on Pop Noise.
CN116825131A (zh) 融合频带自向下注意力机制的电厂设备状态听觉监测方法
CN117746905B (zh) 基于时频持续性分析的人类活动影响评估方法及***
Kharamat et al. Durian ripeness classification from the knocking sounds using convolutional neural network
CN115148211A (zh) 音频敏感内容检测方法、计算机设备和计算机程序产品
Zeinali et al. Acoustic scene classification using fusion of attentive convolutional neural networks for DCASE2019 challenge
Chou et al. Bird species recognition by wavelet transformation of a section of birdsong

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130320