CN104732984B - 一种快速检测单频提示音的方法及*** - Google Patents

一种快速检测单频提示音的方法及*** Download PDF

Info

Publication number
CN104732984B
CN104732984B CN201510050590.3A CN201510050590A CN104732984B CN 104732984 B CN104732984 B CN 104732984B CN 201510050590 A CN201510050590 A CN 201510050590A CN 104732984 B CN104732984 B CN 104732984B
Authority
CN
China
Prior art keywords
signal
frequency
detected
frame
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510050590.3A
Other languages
English (en)
Other versions
CN104732984A (zh
Inventor
苏牧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201510050590.3A priority Critical patent/CN104732984B/zh
Publication of CN104732984A publication Critical patent/CN104732984A/zh
Application granted granted Critical
Publication of CN104732984B publication Critical patent/CN104732984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种快速检测单频提示音的方法及***,包括确定参考单频信号;根据参考单频信号的长度截取相应长度的待检测信号;根据单频信号本质上是一种周期性信号的特性,通过计算每帧信号的自相关函数,由于自相关函数的局部极值点可能是周期函数的频率点,因此在每帧信号的自相关函数上,搜索预定数量的最大候选值,进而通过代价损失函数找到一条平滑的基频曲线,通过获得的基频曲线与参考单频信号的基频曲线进行对比,实现对待测信号中是否存在提示音的精准检测。

Description

一种快速检测单频提示音的方法及***
技术领域
本发明涉及语音识别技术领域,尤其涉及一种快速检测单频提示音的方法及***。
背景技术
当前,带有语音转写功能的app在智能手机上如雨后春笋般出现,人们越来习惯使用语音输入获取自己想要的信息。一个典型的语音信息获取一般包含这些步骤:
1.用户点击触屏按钮伴随着单频提示音,***开始录音;
2.当用户语音输入完毕,或者再次点击按钮,或者***检测到静音自动停止,同时将语音送往云端(或者本地)进行语音识别;
3.拿到识别结果并进行后续处理(智能对话部分,在此不详细赘述);
4.最终用户获得期望的信息结果。
很多语音助手类app应用,或者具有自动转写功能的app应用里,当按下开始说话按键后,通常会有个提示说话音,此声音一般为几个(通常不多于3)单频声音的结合。这些声音很容易在录入的声音开头(由于智能手机录音的机制,这种提示音被录入的几率很大),被识别为语音(如一些app应用语音输入时,其经常会在第一个字前面***一些”啊俄”等***词),从而影响语音转写的正确率。在1中,一般播放提示音和录音是同时进行,这样,在语音开头很容易出现完整的或者部分提示音。这部分开头的提示音对识别过程有两个不利的因素:
a.语音识别作为模式识别的一种,是对某种模式进行建模,初始的提示音会与声学模型中各种模型进行匹配,找到其中最像的模型,因此,在提示音阶段,很容易被误识别为一些哼哼哈哈这样的文字,从而影响识别率;
b.提示音的特征与声学模型的静音模型相差比较大,在识别解码过程中很容易识别成为语音,从而增加***错误。
现有应用针对这种提示音的去除并没有很好的办法,一般是直接去掉语音前面的N帧语音(一般提示音的长度是已知的),但是这样做会存在一个风险:由于一般录音线程是单独启动,很多时候不是100%的概率可以录入全部提示音,或者只有一部分提示音,这样就有可能将正常的语音或者语音前面的静音切掉,这对语音识别***是灾难性的。
对此单频类提示音必须检测出并去除掉。本发明针对此种应用场景,提出一种快速检测单频提示音的方法及***。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种快速检测单频提示音的方法及***。
本发明解决上述技术问题的技术方案如下:一种快速检测单频提示音的方法,包括如下步骤:
步骤1,确定参考单频信号,根据参考单频信号确定搜索频率范围为Pmin至Pmax,所述参考单频频率在该范围内;
步骤2,根据参考单频信号的长度截取相应长度的待检测信号;
步骤3,根据搜索频率范围计算待检测信号的自相关函数Ck
步骤4,在待检测信号的每帧信号的自相关函数Ck上,搜索预定数量的最大候选值;
步骤5,设定一个代价损失函数,根据步骤4中搜索的最大候选值利用动态规划获得一条平滑的基频曲线;
步骤6,将所述基频曲线与目标单频信号的基频曲线进行比对,如果一致,则初步判定所述待检测信号为提示音,否则判断不是提示音,结束处理流程。
本发明的有益效果是:本发明根据单频信号本质上是一种周期性信号的特性,通过计算每帧信号的自相关函数,由于自相关函数的局部极值点可能是周期函数的频率点,因此在每帧信号的自相关函数Ck上,搜索预定数量的最大候选值,进而通过代价损失函数找到一条平滑的基频曲线,通过获得的基频曲线与参考单频信号的基频曲线进行对比,实现对待测信号中是否存在提示音的精准检测。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,还包括步骤6中当获得的基频曲线与目标单频信号的基频曲线一致时,进行如下进一步操作:
计算每帧待检测信号对应到单频信号附近的子带能量以及每帧信号的全带能量,并在时间轴分别将其累加得到待检测信号的子带能量Esub和全带能量Eall
计算待检测信号子带能量Esub和全带能量Eall的比值;
如果子带能量Esub和全带能量Eall的比值大于设定的阈值,则判定所述待检测信号为提示音,去掉该段待检测信号,否则判定所述待检测信号不是提示音,结束处理流程。
采用上述进一步方案的有益效果:由于待检测的语音信号前面可能只包含部分单频信号,或者根本没有录入单频信号,假如某个人声音的基频频率与待检测的单频信号的频率很接近,存在被误检测为提示音的风险,从而将正常语音删除,引起不必要的识别错误。为了避免这种错误的发生,求取每帧待检测语音信号的全带能量,以及对应单频点周围的子带能量,并将其分别累加,得到总的语音能量和单频点子带能量。当单频点子带能量与每帧信号全带能量的比值大于一个阈值时(例如0.7),则可以确定所检测的语音信号的该频点为提示音信号。
进一步,步骤3中计算自相关函数Ck的计算公式为:
其中,kmin和kmax分别是Pmax和Pmin的倒数,i代表当前语音帧序号,j代表当前语音帧内采样点的序号,m为语音帧的帧长,k代表相对偏移量,Si(j)代表第i帧语音的第j个采样点的幅度值,Si(j-k)代表第i帧语音的第j-k个采样点的幅度值。在上述每帧语音的自相关函数Ci(k)(kmin≤k≤kmax)上,搜索局部最大值,通常最多选取5个候选,定义其为Rmi(s),其中s<=5,同时其局部最大值所对应的频率值为
进一步,步骤5中根据代价损失函数,利用动态规划获得平滑基频曲线的公式如下:
其中,VoiceUnvoiceCost代表voice到unvoice,或者unvoice到voice的转移代价,是一个常数值;Fi j指第i帧的第j个频率后选值;指第i-1帧的第k个频率候选值;
定义D(i,j)为从第一帧到当前第i帧第j候选的最小累积损失;
其中,Rmi(j)是所述步骤3中第i帧语音的第j个局部最大值,N指最大候选值个数,为代价损失函数;
迭代上述公式,得到最优路径,即最终平滑的基频曲线。
进一步,计算待检测信号的子带能量Esub和全带能量Eall的计算公式如下:
其中,Esub表示待检测信号的子带能量,Eall表示全带能量,NFFT代表采样频率,fi是第i帧单频信号对应的FFT频率下标,X(bin)对应当前帧信号的快速傅里叶变换。
本发明解决上述技术问题的另一技术方案如下:一种快速检测单频提示音的***,包括参考单频信号选定模块、待检测信号截取模块、自相关函数计算模块、候选值确定模块、基频曲线获取模块和第一判决处理模块;
所述参考单频信号选定模块,其用于确定参考单频信号,根据参考单频信号确定搜索频率范围为Pmin至Pmax,所述参考单频频率在该范围内;
所述待检测信号截取模块,其用于根据参考单频信号的长度截取相应长度的待检测信号;
所述自相关函数计算模块,其用于根据搜索频率范围计算待检测信号的自相关函数Ck
所述候选值确定模块,其用于在待检测信号的每帧信号的自相关函数Ck上,搜索预定数量的最大候选值;
所述基频曲线获取模块,其用于设定一个代价损失函数,根据步骤4中搜索的最大候选值利用动态规划获得一条平滑的基频曲线;
所述第一判决处理单元,其用于将所述基频曲线与目标单频信号的基频曲线进行比对,如果一致,则初步判定所述待检测信号为提示音,否则判断不是提示音,结束处理流程。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,上述技术方案还包括子带能量计算模块、全带能量计算模块和第二判决处理模块;
所述子带能量计算模块,其用于计算每帧待检测信号对应到单频信号附近的子带能量,在时间轴将其累加得到待检测信号的子带能量Esub
所述全带能量计算模块,其用于计算计算每帧待检测信号对应到单频信号附近的全带能量,在时间轴将其累加得到最终的子带能量量Eall
所述第二判决处理单元,其用于计算计算待检测信号子带能量Esub和全带能量Eall的比值;如果子带能量Esub带能量Eall的比值大于设定的阈值,则判定所述待检测信号为提示音,去掉该段待检测信号,否则判定所述待检测信号不是提示音,结束处理流程。
进一步,利用动态规划获得平滑基频曲线的公式如下:
其中,VoiceUnvoiceCost代表voice到unvoice,或者unvoice到voice的转移代价,是一个常数值;Fi j指第i帧的第j个频率后选值;指第i-1帧的第k个频率候选值;
定义D(i,j)为从第一帧到当前第i帧第j候选的最小累积损失;
其中,Rmi(j)是所述步骤3中第i帧语音的第j个局部最大值,N指最大候选值个数,为代价损失函数;
迭代上述公式,得到最优路径,即最终平滑的基频曲线。
进一步,计算待检测信号的子带能量Esub和全带能量Eall的计算公式如下:
其中,Esub表示待检测信号的子带能量,Eall表示全带能量,NFFT代表采样频率,fi是第i帧单频信号对应的FFT频率下标,X(bin)对应当前帧信号的快速傅里叶变换。
附图说明
图1为本发明所述一种快速检测单频提示音的方法流程图;
图2为本发明所述一种快速检测单频提示音的***框图。
附图中,各标号所代表的部件列表如下:
1、参考单频信号选定模块,2、待检测信号截取模块,3、自相关函数计算模块,4、候选值确定模块,5、基频曲线获取模块,6、第一判决处理模块,7、子带能量计算模块,8、全带能量计算模块,9、第二判决处理模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种快速检测单频提示音的方法,包括如下步骤:
步骤1,确定参考单频信号,根据参考单频信号确定搜索频率范围为Pmin至Pmax,所述参考单频频率在该范围内;
步骤2,根据参考单频信号的长度截取相应长度的待检测信号;
步骤3,根据搜索频率范围计算待检测信号的自相关函数Ck
步骤4,在待检测信号的每帧信号的自相关函数Ck上,搜索预定数量的最大候选值,通常选取5个值;
步骤5,设定一个代价损失函数,根据步骤4中搜索的最大候选值利用动态规划获得一条平滑的基频曲线;
步骤6,将所述基频曲线与目标单频信号的基频曲线进行比对,如果一致,则初步判定所述待检测信号为提示音,否则判断不是提示音,结束处理流程。
上述技术方案还包括步骤6中当获得的基频曲线与目标单频信号的基频曲线一致时,进行如下进一步操作:
计算每帧待检测信号对应到单频信号附近的子带能量以及每帧信号的全带能量,并在时间轴分别将其累加得到待检测信号的子带能量Esub和全带能量Eall
计算待检测信号子带能量Esub和全带能量Eall的比值;
如果子带能量Esub和全带能量Eall的比值大于设定的阈值,则判定所述待检测信号为提示音,去掉该段待检测信号,否则判定所述待检测信号不是提示音,结束处理流程。
单频信号本质上是一种周期性信号的特性,最直接的提取这种周期性信号的方法就是通过求每帧信号自相关函数的方法获得,自相关函数的局部极值点就是可能的周期性信号的频率点。然后,自相关函数运算量极大,不适合嵌入式设备使用。由于自相关ACF和功率谱是一个FFT变换对,因此得到快速计算方法:FFT→|FFT|2→iFFT→ACF。
步骤3中计算自相关函数Ck的计算公式为:
其中,kmin和kmax分别是Pmax和Pmin的倒数,i代表当前语音帧序号,j代表当前语音帧内采样点的序号,m为语音帧的帧长,k代表相对偏移量,Si(j)代表第i帧语音的第j个采样点的幅度值,Si(j-k)代表第i帧语音的第j-k个采样点的幅度值。在上述每帧语音的自相关函数Ci(k)(kmin≤k≤kmax)上,搜索局部最大值,通常最多选取5个候选,定义其为Rmi(s),其中s<=5,同时其局部最大值所对应的频率值为值。
对每帧信号取五个可能的频率点,这样对于总共N帧的语音序列,得到了一个5xN的二维矩阵,需要在这个矩阵上找到一条针对某个代价损失函数的最优路径,步骤5中根据代价损失函数,利用动态规划获得平滑基频曲线的公式如下:
其中,VoiceUnvoiceCost代表voice到unvoice,或者unvoice到voice的转移代价,是一个常数值;Fi j指第i帧的第j个频率后选值;指第i-1帧的第k个频率候选值;
定义D(i,j)为从第一帧到当前第i帧第j候选的最小累积损失;
其中,Rmi(j)是所述步骤3中第i帧语音的第j个局部最大值,N指最大候选值个数,为代价损失函数;
迭代上述公式,得到最优路径,即最终平滑的基频曲线。
计算待检测信号的子带能量Esub和全带能量Eall的计算公式如下:
其中,Esub表示待检测信号的子带能量,Eall表示全带能量,NFFT代表采样频率,fi是第i帧单频信号对应的FFT频率下标,X(bin)对应当前帧信号的快速傅里叶变换。
如图2所示,一种快速检测单频提示音的***,包括参考单频信号选定模块1、待检测信号截取模块2、自相关函数计算模块3、候选值确定模块4、基频曲线获取模块5和第一判决处理模块6;所述参考单频信号选定模块1,其用于确定参考单频信号,根据参考单频信号确定搜索频率范围为Pmin至Pmax,所述参考单频频率在该范围内;所述待检测信号截取模块2,其用于根据参考单频信号的长度截取相应长度的待检测信号;所述自相关函数计算模块3,其用于根据搜索频率范围计算待检测信号的自相关函数Ck;所述候选值确定模块4,其用于在待检测信号的每帧信号的自相关函数Ck上,搜索预定数量的最大候选值;所述基频曲线获取模块5,其用于设定一个代价损失函数,根据步骤4中搜索的最大候选值利用动态规划获得一条平滑的基频曲线;所述第一判决处理单元6,其用于将所述基频曲线与目标单频信号的基频曲线进行比对,如果一致,则初步判定所述待检测信号为提示音,否则判断不是提示音,结束处理流程。
上述技术方案还包括子带能量计算模块7、全带能量计算模块8和第二判决处理模块9;所述子带能量计算模块7,其用于计算每帧待检测信号对应到单频信号附近的子带能量,在时间轴将其累加得到待检测信号的子带能量Esub;所述全带能量计算模块8,其用于计算计算每帧待检测信号对应到单频信号附近的全带能量,在时间轴将其累加得到最终的子带能量量Eall;所述第二判决处理单元9,其用于计算计算待检测信号子带能量Esub和全带能量Eall的比值;如果子带能量Esub带能量Eall的比值大于设定的阈值,则判定所述待检测信号为提示音,去掉该段待检测信号,否则判定所述待检测信号不是提示音,结束处理流程。
利用动态规划获得平滑基频曲线的公式如下:
其中,VoiceUnvoiceCost代表voice到unvoice,或者unvoice到voice的转移代价,是一个常数值;Fi j指第i帧的第j个频率后选值;指第i-1帧的第k个频率候选值;
定义D(i,j)为从第一帧到当前第i帧第j候选的最小累积损失;
其中,Rmi(j)是所述步骤3中第i帧语音的第j个局部最大值,N指最大候选值个数,为代价损失函数;
迭代上述公式,得到最优路径,即最终平滑的基频曲线。
计算待检测信号的子带能量Esub和全带能量Eall的计算公式如下:
其中,Esub表示待检测信号的子带能量,Eall表示全带能量,NFFT代表采样频率,fi是第i帧单频信号对应的FFT频率下标,X(bin)对应当前帧信号的快速傅里叶变换。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种快速检测单频提示音的方法,其特征在于,包括如下步骤:
步骤1,确定参考单频信号,根据参考单频信号确定搜索频率范围为Pmin至Pmax,所述参考单频频率在该范围内;
步骤2,根据参考单频信号的长度截取相应长度的待检测信号;
步骤3,根据搜索频率范围计算所述待检测信号的自相关函数Ck
步骤4,在所述待检测信号的每帧信号的自相关函数Ck上,搜索预定数量的最大候选值;
步骤5,设定一个代价损失函数,根据步骤4中搜索的最大候选值利用动态规划获得一条平滑的基频曲线;
步骤6,将所述基频曲线与目标单频信号的基频曲线进行比对,如果一致,则初步判定所述待检测信号为提示音,否则判断不是提示音,结束处理流程。
2.根据权利要求1所述一种快速检测单频提示音的方法,其特征在于,还包括步骤6中当获得的基频曲线与目标单频信号的基频曲线一致时,进行如下进一步操作:
计算每帧待检测信号对应到单频信号附近的子带能量以及每帧信号的全带能量,并在时间轴分别将其累加得到待检测信号的子带能量Esub和全带能量Eall
计算待检测信号子带能量Esub和全带能量Eall的比值;
如果子带能量Esub和全带能量Eall的比值大于设定的阈值,则判定所述待检测信号为提示音,去掉该段待检测信号,否则判定所述待检测信号不是提示音,结束处理流程。
3.根据权利要求1所述一种快速检测单频提示音的方法,其特征在于,步骤3中计算自相关函数Ck的计算公式为:
<mrow> <msub> <mi>C</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msub> <mi>S</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <msub> <mi>S</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>-</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <msup> <mrow> <mo>(</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>(</mo> <mi>j</mi> <mo>)</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <mi>j</mi> <mo>-</mo> <mi>k</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mrow> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> </mfrac> <mo>,</mo> <msub> <mi>k</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>&amp;le;</mo> <mi>k</mi> <mo>&amp;le;</mo> <msub> <mi>k</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> </mrow>
其中,kmin和kmax分别是Pmax和Pmin的倒数,i代表当前语音帧序号,j代表当前语音帧内采样点的序号,m为语音帧的帧长,k代表相对偏移量,Si(j)代表第i帧语音的第j个采样点的幅度值,Si(j-k)代表第i帧语音的第j-k个采样点的幅度值,在上述每帧语音的自相关函数Ci(k)(kmin≤k≤kmax)上,搜索局部最大值,通常最多选取5个候选,定义其为Rmi(s),其中s<=5,同时其局部最大值所对应的频率值为
4.根据权利要求1所述一种快速检测单频提示音的方法,其特征在于,步骤5中根据代价损失函数,利用动态规划获得平滑基频曲线的公式如下:
<mrow> <mi>C</mi> <mi>o</mi> <mi>s</mi> <mi>t</mi> <mi>F</mi> <mrow> <mo>(</mo> <msubsup> <mi>F</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>F</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mo>)</mo> </mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <msubsup> <mi>F</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>=</mo> <mn>0</mn> <mi>a</mi> <mi>n</mi> <mi>d</mi> <mi> </mi> <msubsup> <mi>F</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>V</mi> <mi>o</mi> <mi>i</mi> <mi>c</mi> <mi>e</mi> <mi>U</mi> <mi>n</mi> <mi>v</mi> <mi>o</mi> <mi>i</mi> <mi>c</mi> <mi>e</mi> <mi>C</mi> <mi>o</mi> <mi>s</mi> <mi>t</mi> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <msubsup> <mi>F</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>=</mo> <mn>0</mn> <mi>x</mi> <mi>o</mi> <mi>r</mi> <mi> </mi> <msubsup> <mi>F</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0.35</mn> <mo>*</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mn>3.0</mn> <mo>*</mo> <mo>|</mo> <mfrac> <msubsup> <mi>F</mi> <mi>i</mi> <mi>j</mi> </msubsup> <msubsup> <mi>F</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> </mfrac> <mo>|</mo> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <msubsup> <mi>F</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>&amp;NotEqual;</mo> <mn>0</mn> <mi>a</mi> <mi>n</mi> <mi>d</mi> <mi> </mi> <msubsup> <mi>F</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mo>&amp;NotEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,VoiceUnvoiceCost代表vo i ce到unvo i ce,或者unvo i ce到vo i ce的转移代价,是一个常数值;Fi j指第i帧的第j个频率后选值;指第i-1帧的第k个频率候选值;
定义D(i,j)为从第一帧到当前第i帧第j候选的最小累积损失;
<mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>Rm</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mi>min</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1..</mn> <mi>N</mi> </mrow> </munder> <mo>{</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>cos</mi> <mi>t</mi> <mi>F</mi> <mrow> <mo>(</mo> <msubsup> <mi>F</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>F</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mo>)</mo> </mrow> <mo>}</mo> </mrow>
其中,Rmi(j)是所述步骤3中第i帧语音的第j个局部最大值,N指最大候选值个数,为代价损失函数;
迭代上述公式,得到最优路径,即最终平滑的基频曲线。
5.根据权利要求2所述一种快速检测单频提示音的方法,其特征在于,计算待检测信号的子带能量Esub和全带能量Eall的计算公式如下:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>E</mi> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>T</mi> </msubsup> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>b</mi> <mi>i</mi> <mi>n</mi> <mo>=</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>-</mo> <mn>2</mn> </mrow> <mrow> <mi>b</mi> <mi>i</mi> <mi>n</mi> <mo>=</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>+</mo> <mn>2</mn> </mrow> </msubsup> <msup> <mrow> <mo>|</mo> <mi>X</mi> <mrow> <mo>(</mo> <mi>b</mi> <mi>i</mi> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> <mtd> <mrow> <msub> <mi>E</mi> <mrow> <mi>a</mi> <mi>l</mi> <mi>l</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>T</mi> </msubsup> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>b</mi> <mi>i</mi> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>b</mi> <mi>i</mi> <mi>n</mi> <mo>=</mo> <msub> <mi>N</mi> <mrow> <mi>F</mi> <mi>F</mi> <mi>T</mi> </mrow> </msub> <mo>/</mo> <mn>2</mn> </mrow> </msubsup> <msup> <mrow> <mo>|</mo> <mi>X</mi> <mrow> <mo>(</mo> <mi>b</mi> <mi>i</mi> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,Esub表示待检测信号的子带能量,Eall表示全带能量,NFFT代表采样频率,fi是第i帧单频信号对应的FFT频率下标,X(bin)对应当前帧信号的快速傅里叶变换。
6.一种快速检测单频提示音的***,其特征在于,包括参考单频信号选定模块、待检测信号截取模块、自相关函数计算模块、候选值确定模块、基频曲线获取模块和第一判决处理模块;
所述参考单频信号选定模块,其用于确定参考单频信号,根据参考单频信号确定搜索频率范围为Pmin至Pmax,所述参考单频频率在该范围内;
所述待检测信号截取模块,其用于根据参考单频信号的长度截取相应长度的待检测信号;
所述自相关函数计算模块,其用于根据搜索频率范围计算所述待检测信号的自相关函数Ck
所述候选值确定模块,其用于在所述待检测信号的每帧信号的自相关函数Ck上,搜索预定数量的最大候选值;
所述基频曲线获取模块,其用于设定一个代价损失函数,根据步骤4中搜索的最大候选值利用动态规划获得一条平滑的基频曲线;
所述第一判决处理单元,其用于将所述基频曲线与目标单频信号的基频曲线进行比对,如果一致,则初步判定所述待检测信号为提示音,否则判断不是提示音,结束处理流程。
7.根据权利要求6所述一种快速检测单频提示音的***,其特征在于,还包括子带能量计算模块、全带能量计算模块和第二判决处理模块;
所述子带能量计算模块,其用于计算每帧待检测信号对应到单频信号附近的子带能量,在时间轴将其累加得到待检测信号的子带能量Esub
所述全带能量计算模块,其用于计算计算每帧待检测信号对应到单频信号附近的全带能量,在时间轴将其累加得到最终的子带能量量Eall
所述第二判决处理单元,其用于计算计算待检测信号子带能量Esub和全带能量Eall的比值;如果子带能量Esub带能量Eall的比值大于设定的阈值,则判定所述待检测信号为提示音,去掉该段待检测信号,否则判定所述待检测信号不是提示音,结束处理流程。
8.根据权利要求6所述一种快速检测单频提示音的***,其特征在于,利用动态规划获得平滑基频曲线的公式如下:
<mrow> <mi>C</mi> <mi>o</mi> <mi>s</mi> <mi>t</mi> <mi>F</mi> <mrow> <mo>(</mo> <msubsup> <mi>F</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>F</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mo>)</mo> </mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <msubsup> <mi>F</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>=</mo> <mn>0</mn> <mi>a</mi> <mi>n</mi> <mi>d</mi> <mi> </mi> <msubsup> <mi>F</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>V</mi> <mi>o</mi> <mi>i</mi> <mi>c</mi> <mi>e</mi> <mi>U</mi> <mi>n</mi> <mi>v</mi> <mi>o</mi> <mi>i</mi> <mi>c</mi> <mi>e</mi> <mi>C</mi> <mi>o</mi> <mi>s</mi> <mi>t</mi> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <msubsup> <mi>F</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>=</mo> <mn>0</mn> <mi>x</mi> <mi>o</mi> <mi>r</mi> <mi> </mi> <msubsup> <mi>F</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0.35</mn> <mo>*</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mn>3.0</mn> <mo>*</mo> <mo>|</mo> <mfrac> <msubsup> <mi>F</mi> <mi>i</mi> <mi>j</mi> </msubsup> <msubsup> <mi>F</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> </mfrac> <mo>|</mo> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <msubsup> <mi>F</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>&amp;NotEqual;</mo> <mn>0</mn> <mi>a</mi> <mi>n</mi> <mi>d</mi> <mi> </mi> <msubsup> <mi>F</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mo>&amp;NotEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,VoiceUnvoiceCost代表voice到unvoice,或者unvoice到voice的转移代价,是一个常数值;Fi j指第i帧的第j个频率后选值;指第i-1帧的第k个频率候选值;
定义D(i,j)为从第一帧到当前第i帧第j候选的最小累积损失;
<mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>Rm</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mi>min</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1..</mn> <mi>N</mi> </mrow> </munder> <mo>{</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>cos</mi> <mi>t</mi> <mi>F</mi> <mrow> <mo>(</mo> <msubsup> <mi>F</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>F</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mo>)</mo> </mrow> <mo>}</mo> </mrow>
其中,Rmi(j)是所述步骤3中第i帧语音的第j个局部最大值,N指最大候选值个数,为代价损失函数;
迭代上述公式,得到最优路径,即最终平滑的基频曲线。
9.根据权利要求7所述一种快速检测单频提示音的***,其特征在于,计算待检测信号的子带能量Esub和全带能量Eall的计算公式如下:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>E</mi> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>T</mi> </msubsup> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>b</mi> <mi>i</mi> <mi>n</mi> <mo>=</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>-</mo> <mn>2</mn> </mrow> <mrow> <mi>b</mi> <mi>i</mi> <mi>n</mi> <mo>=</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>+</mo> <mn>2</mn> </mrow> </msubsup> <msup> <mrow> <mo>|</mo> <mi>X</mi> <mrow> <mo>(</mo> <mi>b</mi> <mi>i</mi> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> <mtd> <mrow> <msub> <mi>E</mi> <mrow> <mi>a</mi> <mi>l</mi> <mi>l</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>T</mi> </msubsup> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>b</mi> <mi>i</mi> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>b</mi> <mi>i</mi> <mi>n</mi> <mo>=</mo> <msub> <mi>N</mi> <mrow> <mi>F</mi> <mi>F</mi> <mi>T</mi> </mrow> </msub> <mo>/</mo> <mn>2</mn> </mrow> </msubsup> <msup> <mrow> <mo>|</mo> <mi>X</mi> <mrow> <mo>(</mo> <mi>b</mi> <mi>i</mi> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,Esub表示待检测信号的子带能量,Eall表示全带能量,NFFT代表采样频率,fi是第i帧单频信号对应的FFT频率下标,X(bin)对应当前帧信号的快速傅里叶变换。
CN201510050590.3A 2015-01-30 2015-01-30 一种快速检测单频提示音的方法及*** Active CN104732984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510050590.3A CN104732984B (zh) 2015-01-30 2015-01-30 一种快速检测单频提示音的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510050590.3A CN104732984B (zh) 2015-01-30 2015-01-30 一种快速检测单频提示音的方法及***

Publications (2)

Publication Number Publication Date
CN104732984A CN104732984A (zh) 2015-06-24
CN104732984B true CN104732984B (zh) 2018-01-12

Family

ID=53456823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510050590.3A Active CN104732984B (zh) 2015-01-30 2015-01-30 一种快速检测单频提示音的方法及***

Country Status (1)

Country Link
CN (1) CN104732984B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427870B (zh) * 2015-12-23 2019-08-30 北京奇虎科技有限公司 一种针对停顿的语音识别方法和装置
CN109524026B (zh) * 2018-10-26 2022-04-26 北京网众共创科技有限公司 提示音的确定方法及装置、存储介质、电子装置
CN109741762B (zh) * 2019-02-15 2020-12-22 嘉楠明芯(北京)科技有限公司 声音活动检测方法及装置和计算机可读存储介质
CN111933176B (zh) * 2020-09-22 2020-12-22 成都启英泰伦科技有限公司 一种批量定位语音内容的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10137685C1 (de) * 2001-08-01 2002-12-19 Tuerk & Tuerk Electronic Gmbh Verfahren zum Erkennen des Vorliegens von Sprachsignalen
CN102164328A (zh) * 2010-12-29 2011-08-24 中国科学院声学研究所 一种用于家庭环境的基于传声器阵列的音频输入***
CN103177731A (zh) * 2011-12-23 2013-06-26 福建联拓科技有限公司 一种改进的模拟亚音ctcss尾音检测的方法与装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120575B2 (en) * 2000-04-08 2006-10-10 International Business Machines Corporation Method and system for the automatic segmentation of an audio stream into semantic or syntactic units
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US20060247927A1 (en) * 2005-04-29 2006-11-02 Robbins Kenneth L Controlling an output while receiving a user input
US8762151B2 (en) * 2011-06-16 2014-06-24 General Motors Llc Speech recognition for premature enunciation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10137685C1 (de) * 2001-08-01 2002-12-19 Tuerk & Tuerk Electronic Gmbh Verfahren zum Erkennen des Vorliegens von Sprachsignalen
CN102164328A (zh) * 2010-12-29 2011-08-24 中国科学院声学研究所 一种用于家庭环境的基于传声器阵列的音频输入***
CN103177731A (zh) * 2011-12-23 2013-06-26 福建联拓科技有限公司 一种改进的模拟亚音ctcss尾音检测的方法与装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Feature Fusion for High-accuracy Keyword spotting";V.Mitra,J ET AL;《IEEE International Conference》;20141231;全文 *
"Keyword spotting based on the analysis of template matching distances";M. S. Barakat, C. H. Ritz,D. A. Stirling;《Signal Processing and Communication Systems》;20111231;全文 *
"Search for Keywords and Vocal Elements in Audio Recordings";M. Sigmund ET AL;《Elektronika it elektrotechnika》;20131231;第19卷(第9期);全文 *
"基于归一化互相关函数的基音检测算法";鲍长春;《通信学报》;19981031;第19卷(第10期);全文 *
"汉语文语转换***中的基频模型";胡文英;《万方数据》;20060227;全文 *

Also Published As

Publication number Publication date
CN104732984A (zh) 2015-06-24

Similar Documents

Publication Publication Date Title
KR101942521B1 (ko) 음성 엔드포인팅
US8140330B2 (en) System and method for detecting repeated patterns in dialog systems
US10242677B2 (en) Speaker dependent voiced sound pattern detection thresholds
TW201830377A (zh) 一種語音端點檢測方法及語音辨識方法
US20160098993A1 (en) Speech processing apparatus, speech processing method and computer-readable medium
US20120271631A1 (en) Speech recognition using multiple language models
CN104732984B (zh) 一种快速检测单频提示音的方法及***
JPH0222398B2 (zh)
CN105913849A (zh) 一种基于事件检测的说话人分割方法
US9953633B2 (en) Speaker dependent voiced sound pattern template mapping
Jaafar et al. Automatic syllables segmentation for frog identification system
JP2017027076A (ja) ピッチ周期の正確性を検出するための方法および装置
CN112002349B (zh) 一种语音端点检测方法及装置
US9240181B2 (en) Automatic collection of speaker name pronunciations
CN111108551B (zh) 一种声纹鉴定方法和相关装置
US10522160B2 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
CN114303186A (zh) 用于在语音合成中适配人类说话者嵌入的***和方法
Stan et al. Blind speech segmentation using spectrogram image-based features and mel cepstral coefficients
Badenhorst et al. Quality measurements for mobile data collection in the developing world
CN108847218A (zh) 一种自适应门限整定语音端点检测方法,设备及可读存储介质
US20210065684A1 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
US10818298B2 (en) Audio processing
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质
Lu et al. Pruning redundant synthesis units based on static and delta unit appearance frequency.
CN107039046B (zh) 一种基于特征融合的语音声效模式检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100191, Beijing, Huayuan Road, Haidian District No. 2 peony technology building, block A, 5

Patentee after: Yunzhisheng Intelligent Technology Co., Ltd.

Address before: 100191, Beijing, Huayuan Road, Haidian District No. 2 peony technology building, block A, 5

Patentee before: Beijing Yunzhisheng Information Technology Co., Ltd.

CP01 Change in the name or title of a patent holder