CN109785866A - 基于相关函数最大值的广播语音与噪声检测的方法 - Google Patents
基于相关函数最大值的广播语音与噪声检测的方法 Download PDFInfo
- Publication number
- CN109785866A CN109785866A CN201910171860.4A CN201910171860A CN109785866A CN 109785866 A CN109785866 A CN 109785866A CN 201910171860 A CN201910171860 A CN 201910171860A CN 109785866 A CN109785866 A CN 109785866A
- Authority
- CN
- China
- Prior art keywords
- correlation function
- maximum value
- voice signal
- frame
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本发明涉及一种基于相关函数最大值的广播语音与噪声检测的方法,通过对语音信号进行分帧;根据自(互)相关函数公式进行每帧语音信号相关函数计算;求取分帧每帧语音信号的自(互)相关函数或互相关函数的最大值;计算一秒内自(互)相关函数的最大值方差,设置一个阈值常数Th,当最大值方差大于Th时,便判断为语音,最大值方差小于Th时,便判定为噪声。此方法将语音中噪声识别区分出,便于提升广播或其他声音处理中的声音的清晰度。
Description
技术领域
本发明涉及一种语音识别技术,特别涉及一种基于相关函数最大值的广播语音与噪声检测的方法。
背景技术
调频广播中经常听到“呲呲”的声音,是一种叫做似高斯噪声中高幅值部分的失真引起的。这种典型的现象就是听众没有将收音机准确的调到某个台。现实生活中,一些人的声音和这些噪声极为相似,因此,使用傅里叶变换就很难将这些噪声和语音区分开来。
发明内容
本发明是针对调频广播中嘈杂声难识别区分的问题,提出了一种基于相关函数最大值的广播语音与噪声检测的方法,正确将噪声识别区分出。
本发明的技术方案为:一种基于相关函数最大值的广播语音与噪声检测的方法,具体包括如下步骤:
1)对输入的语音信号进行分帧:设定帧长大小,帧长范围为10~30ms,根据设定对输入的语音信号进行分帧;
2)根据自相关函数公式进行每帧语音信号自相关函数计算,根据互相关函数公式进行每帧语音信号与上一帧语音信号互相关函数计算;
3)求取分帧每帧语音信号的自相关函数或互相关函数的最大值;
4)计算一秒内自相关函数或互相关函数的最大值方差,任取自相关函数的最大值的方差或互相关函数的最大值方差,设置一个阈值常数Th,当最大值方差大于Th时,便判断为语音,最大值方差小于Th时,便判定为噪声;
5)进行下一秒内自相关函数或互相关函数的最大值方差,同步骤4)进行同样判断方法判定噪声,直到步骤1)分帧后的输入语音信号全部判定完毕。
所述步骤2)中自相关函数公式为:
所述互相关函数公式为:
其中xi(m)为第i帧的语音信号中的第m个数据;xi-1(m)为第i-1帧的语音信号中的第m个数据;k为延迟量,k=0,1,2,…,L-1;L为语音分帧后每帧的长度。
本发明的有益效果在于:本发明基于相关函数最大值的广播语音与噪声检测的方法,将语音中噪声识别区分出,便于提升广播或其他声音处理中的声音的清晰度。解决高斯噪声中高幅值部分的失真引起的噪声难以区别的问题。
附图说明
图1为本发明基于相关函数最大值的广播语音与噪声检测流程图。
具体实施方式
如图1所示基于相关函数的最大值的广播语音和噪声检测流程图,具体包括如下步骤:
1、对输入的语音信号进行分帧:由于语音信号是一个非稳态、时变的信号,但是可以在“短时间”范围内认为语音信号是稳态的,时不变的。这个短时间一般指10~30ms,本发明采用的帧长为20ms;
2、求每帧语音信号的短时自相关函数:下标i表示为第i帧,每帧数据的短时自(互)相关函数,自相关函数定义为公式(1),互相关函数的公式为公式(2);
其中xi(m)为第i帧的语音信号中的第m个数据;xi-1(m)为第i-1帧的语音信号中的第m个数据;k为延迟量(k=0,1,2,…,L-1);L为语音分帧后每帧的长度。
3、求取分帧每帧语音信号的自(互)相关函数的最大值。由于语音信号和噪声信号的自(互)相关函数的最大值大小相差比较多,可以利用这一特点来判断是有话帧还是噪声帧。由于1秒内噪声的自(互)相关函数的最大值波动程度比语音信号小,由此可判定每秒的音频是噪声还是语音,每帧长20ms,因此1s内有50帧;
4、计算一秒内50帧自(互)相关函数的最大值方差,方差可以反映信号的波动程度,因此根据噪声的情况,任取自相关函数的最大值的方差或互相关函数的最大值的方差,设置一个阈值常数Th。当方差大于Th时,便判断为语音,小于Th时,便判定为噪声。
5、进行下一秒内自(互)相关函数的最大值方差,同步骤4进行同样判断方法判定噪声,直到步骤1分帧后的输入的语音信号全部判定完毕,输出无噪声语音。
Claims (2)
1.一种基于相关函数最大值的广播语音与噪声检测的方法,其特征在于,具体包括如下步骤:
1)对输入的语音信号进行分帧:设定帧长大小,帧长范围为10~30ms,根据设定对输入的语音信号进行分帧;
2)根据自相关函数公式进行每帧语音信号自相关函数计算,根据互相关函数公式进行每帧语音信号与上一帧语音信号互相关函数计算;
3)求取分帧每帧语音信号的自相关函数或互相关函数的最大值;
4)计算一秒内自相关函数或互相关函数的最大值方差,任取自相关函数的最大值的方差或互相关函数的最大值方差,设置一个阈值常数Th,当最大值方差大于Th时,便判定为语音,最大值方差小于Th时,便判定为噪声;
5)进行下一秒内自相关函数或互相关函数的最大值方差,同步骤4)进行同样判断方法判定噪声,直到步骤1)分帧后的输入语音信号全部判定完毕。
2.根据权利要求1所述基于相关函数最大值的广播语音与噪声检测的方法,其特征在于,所述步骤2)中自相关函数公式为:
所述互相关函数公式为:
其中xi(m)为第i帧的语音信号中的第m个数据;xi-1(m)为第i-1帧的语音信号中的第m个数据;k为延迟量,k=0,1,2,…,L-1;L为语音分帧后每帧的长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910171860.4A CN109785866A (zh) | 2019-03-07 | 2019-03-07 | 基于相关函数最大值的广播语音与噪声检测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910171860.4A CN109785866A (zh) | 2019-03-07 | 2019-03-07 | 基于相关函数最大值的广播语音与噪声检测的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109785866A true CN109785866A (zh) | 2019-05-21 |
Family
ID=66487668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910171860.4A Pending CN109785866A (zh) | 2019-03-07 | 2019-03-07 | 基于相关函数最大值的广播语音与噪声检测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109785866A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872616A (zh) * | 2009-04-22 | 2010-10-27 | 索尼株式会社 | 端点检测方法以及使用该方法的*** |
CN103854662A (zh) * | 2014-03-04 | 2014-06-11 | 中国人民解放军总参谋部第六十三研究所 | 基于多域联合估计的自适应语音检测方法 |
US20150199979A1 (en) * | 2013-05-21 | 2015-07-16 | Google, Inc. | Detection of chopped speech |
CN105706167A (zh) * | 2015-11-19 | 2016-06-22 | 瑞典爱立信有限公司 | 有语音的话音检测方法和装置 |
CN106128480A (zh) * | 2016-06-21 | 2016-11-16 | 安徽师范大学 | 一种对带噪语音进行语音活动检测的方法 |
CN108039182A (zh) * | 2017-12-22 | 2018-05-15 | 西安烽火电子科技有限责任公司 | 一种语音激活检测方法 |
CN108511002A (zh) * | 2018-01-23 | 2018-09-07 | 努比亚技术有限公司 | 危险事件声音信号识别方法、终端和计算机可读存储介质 |
CN109243495A (zh) * | 2018-09-07 | 2019-01-18 | 成都必盛科技有限公司 | 语音检测方法及装置 |
CN109410977A (zh) * | 2018-12-19 | 2019-03-01 | 东南大学 | 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法 |
-
2019
- 2019-03-07 CN CN201910171860.4A patent/CN109785866A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872616A (zh) * | 2009-04-22 | 2010-10-27 | 索尼株式会社 | 端点检测方法以及使用该方法的*** |
US20150199979A1 (en) * | 2013-05-21 | 2015-07-16 | Google, Inc. | Detection of chopped speech |
CN103854662A (zh) * | 2014-03-04 | 2014-06-11 | 中国人民解放军总参谋部第六十三研究所 | 基于多域联合估计的自适应语音检测方法 |
CN105706167A (zh) * | 2015-11-19 | 2016-06-22 | 瑞典爱立信有限公司 | 有语音的话音检测方法和装置 |
CN106128480A (zh) * | 2016-06-21 | 2016-11-16 | 安徽师范大学 | 一种对带噪语音进行语音活动检测的方法 |
CN108039182A (zh) * | 2017-12-22 | 2018-05-15 | 西安烽火电子科技有限责任公司 | 一种语音激活检测方法 |
CN108511002A (zh) * | 2018-01-23 | 2018-09-07 | 努比亚技术有限公司 | 危险事件声音信号识别方法、终端和计算机可读存储介质 |
CN109243495A (zh) * | 2018-09-07 | 2019-01-18 | 成都必盛科技有限公司 | 语音检测方法及装置 |
CN109410977A (zh) * | 2018-12-19 | 2019-03-01 | 东南大学 | 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法 |
Non-Patent Citations (2)
Title |
---|
刘淑华 等: "基于自相关函数最大值的语音端点检测方法", 《电声技术》 * |
杨立春: "一种基于语音活动检测的声源定位方法", 《电脑知识与技术》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220093111A1 (en) | Analysing speech signals | |
US20210067867A1 (en) | Signal processing apparatus and signal processing method | |
CN110970053B (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
US9384759B2 (en) | Voice activity detection and pitch estimation | |
CN101625860B (zh) | 语音端点检测中的背景噪声自适应调整方法 | |
EP2881948A1 (en) | Spectral comb voice activity detection | |
CN103474074B (zh) | 语音基音周期估计方法和装置 | |
CN101625858B (zh) | 语音端点检测中短时能频值的提取方法 | |
Adami et al. | A new speaker change detection method for two-speaker segmentation | |
Narayanan et al. | The role of binary mask patterns in automatic speech recognition in background noise | |
Dev et al. | Robust features for noisy speech recognition using mfcc computation from magnitude spectrum of higher order autocorrelation coefficients | |
WO2018095167A1 (zh) | 声纹识别方法和声纹识别*** | |
Hazrati et al. | Leveraging automatic speech recognition in cochlear implants for improved speech intelligibility under reverberation | |
Han et al. | Continuous Speech Separation Using Speaker Inventory for Long Recording. | |
CN110169082B (zh) | 用于组合音频信号输出的方法和装置、及计算机可读介质 | |
CN108986844B (zh) | 一种基于说话人语音特征的语音端点检测方法 | |
CN109785866A (zh) | 基于相关函数最大值的广播语音与噪声检测的方法 | |
CN112489692A (zh) | 语音端点检测方法和装置 | |
KR101811716B1 (ko) | 음성 인식 방법 및 그에 따른 음성 인식 장치 | |
Xiong et al. | Channel selection using neural network posterior probability for speech recognition with distributed microphone arrays in everyday environments | |
Gburrek et al. | Informed vs. blind beamforming in ad-hoc acoustic sensor networks for meeting transcription | |
Araki et al. | Speaker indexing and speech enhancement in real meetings/conversations | |
Sundaram et al. | Usable Speech Detection Using Linear Predictive Analysis–A Model-Based Approach | |
Lee et al. | End-to-End Multi-Channel Speech Enhancement Using Inter-Channel Time-Restricted Attention on Raw Waveform. | |
Rehr et al. | Cepstral noise subtraction for robust automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190521 |