CN110751955B - 基于时频矩阵动态选择的声音事件分类方法及*** - Google Patents
基于时频矩阵动态选择的声音事件分类方法及*** Download PDFInfo
- Publication number
- CN110751955B CN110751955B CN201910900273.4A CN201910900273A CN110751955B CN 110751955 B CN110751955 B CN 110751955B CN 201910900273 A CN201910900273 A CN 201910900273A CN 110751955 B CN110751955 B CN 110751955B
- Authority
- CN
- China
- Prior art keywords
- time
- sound
- frequency matrix
- signal
- spectrogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000005236 sound signal Effects 0.000 claims abstract description 63
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000001228 spectrum Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims 2
- 238000000605 extraction Methods 0.000 abstract description 14
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000004880 explosion Methods 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于时频矩阵动态选择的声音事件分类方法及***,包括:采集设定区域环境内的声音信号数据,进行声音信号数据的预处理;对于预处理后的声音信号,生成语谱图;将原始语谱图逐步缩小,生成多个不同大小的时频矩阵;求取各个时频矩阵与原始语谱图之间的相似度,找到最优时频矩阵,将最优时频矩阵转换为图信号;从图信号中提取出特征事件;将提取到的特征事件送入分类器,得到声音事件的分类结果。本发明有益效果:简化特征提取过程,同时设置适合的动态阈值以保证提取的特征的完整性。采用基于图信号的方法计算两图像的相似度,为每一个声音信号动态选择时频矩阵,在减少计算量的同时尽可能保留声音信号的高能量谱信息。
Description
技术领域
本发明属于声音识别与分类技术领域,尤其涉及一种基于时频矩阵动态选择的声音事件分类方法及***。
背景技术
日常生活中在我们周围存在各种各样的声音场景,包括物体相互撞击发出的声音,气体喷射发出的声音,粒子下落发出的声音,物体摩擦发出的声音,各种铃声、喇叭声,电子乐器声音等等,真实环境中的非语言声音事件识别与分类引起越来越多人的关注。声音场景识别与分类有着各种应用,包括智能环境场景识别,基于声音的监测***,家居自动化,机器听觉等等。
现今语音识别技术非常普遍,但声音场景的识别与分类技术相对较少,其中基于图信号的特征提取方法更少。发明人发现,现有的图信号特征提取方法,纯净声音与含噪声音分别采用不同的特征提取过程,较为复杂;且将所有声音信号统一调整为固定大小的时频矩阵,不能有针对性的为不同类别、长度的声音信号选择合适的时频矩阵,计算量也比较大。
发明内容
为了解决上述问题,本发明提出一种基于时频矩阵动态选择的声音事件分类方法及***,增加了利用图信号方法计算两图像相似度进行动态选择时频矩阵的过程,为每一个声音信号选择最合适的时频矩阵。
在一些实施方式中,采用如下技术方案:
一种基于时频矩阵动态选择的声音事件分类方法,包括:
采集设定区域环境内的声音信号数据,进行声音信号数据的预处理;
对于预处理后的声音信号,生成语谱图;
将原始语谱图逐步缩小,生成多个不同大小的时频矩阵;
求取各个时频矩阵与原始语谱图之间的相似度,找到最优时频矩阵,将最优时频矩阵转换为图信号;
从图信号中提取出特征事件;将提取到的特征事件送入分类器,得到声音事件的分类结果。
利用动态时间规整方法计算原始语谱图与各个时频矩阵的相似度,即计算两个图信号序列的相对距离,随着缩减次数的增多,相对距离逐渐增大,当时频矩阵过小时,相对距离会出现一个突增的趋势,据此,为每一个声音信号选择合适大小的时频矩阵。
在另一些实施方式中,采用如下技术方案:
一种基于时频矩阵动态选择的声音事件分类***,包括:
用于采集设定区域环境内的声音信号数据,进行声音信号数据的预处理的装置;
用于对于预处理后的声音信号,生成语谱图的装置;
用于将原始语谱图逐步缩小,生成多个不同大小的时频矩阵的装置;
用于求取各个时频矩阵与原始语谱图之间的相似度,找到最优时频矩阵,将图像转换为图信号的装置;
用于从图信号中提取出特征事件;将提取到的特征事件送入分类器,得到声音事件分类结果的装置。
在另一些实施方式中,采用如下技术方案:
一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行上述的基于时频矩阵动态选择的声音事件分类方法。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行上述的基于时频矩阵动态选择的声音事件分类方法。
与现有技术相比,本发明的有益效果是:
(1)本发明方法增加了声音信号预处理过程,能够增大信号的高频分辨率,起到提高信噪比的作用。
(2)改进了特征提取算法,简化了特征提取过程;对纯净声音与含噪声音采用相同的特征提取算法,更加简单易于实现,且为每一个声音信号设置适合的动态阈值min(M)以保持信号的高能量谱对比信息,保证提取的特征的完整性。
(3)采用基于图信号的方法计算两图像的相似度,动态选择时频矩阵,为每一个声音信号选择合适大小的时频矩阵,可以在减少计算量的同时尽可能保留声音信号的高能量谱信息。
附图说明
图1为本发明实施例一中基于动态选择时频矩阵声音事件分类方法流程示意图;
图2(a)为本发明实施例一中声音样本horn的语谱图;
图2(b)为本发明实施例一中声音样本horn的图信号;
图3(a)为本发明实施例一中声音样本horn缩减一次后的时频矩阵;
图3(b)为本发明实施例一中声音样本horn缩减两次后的时频矩阵;
图3(c)为本发明实施例一中声音样本horn缩减三次后的时频矩阵;
图3(d)为本发明实施例一中声音样本horn缩减一次后的时频矩阵的图信号;
图3(e)为本发明实施例一中声音样本horn缩减两次后的时频矩阵的图信号;
图3(f)为本发明实施例一中声音样本horn缩减三次后的时频矩阵的图信号;
图4为本发明实施例一中时频矩阵图信号与原始语谱图的图信号相似度对比示意图;
图5为本发明实施例一中声音样本horn提取得到的特征事件示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
声音场景识别与分类有着各种应用,包括智能环境场景识别,基于声音的监测***,家居自动化,机器听觉等等。这种声音事件分类方法可以应用于环境场景识别应用中,各种声音检测***中,家居自动化等多种应用中,结合具体的应用场景,实现对应的操作。以通过声音事件分类进行声音监控为例进行说明,监控***通过对实时收集到的各类声音进行识别分类以判断危险事件,进而可采取应对措施,如枪声、***声等会触发报警***;例如在礼堂中,根据识别到的鼓掌声音自动变换灯光颜色、类型等;再如家居自动化中,各智能家居根据识别到的不同声音类型,自动进行预先设定好的操作等,声音分类具有广泛的应用场景。
在一个或多个实施例中,公开了一种基于时频矩阵动态选择的声音事件分类方法,如图1所示,包括以下步骤:
(1)采集设定区域环境内的声音信号数据,进行声音信号数据的预处理;在不同的应用环境与应用目的中,声音信号与噪声是会发生变化的。如声音监控***中,枪声、***声可触发报警***,此时枪声、***声就是要检测的声音信号,其他声音如脚步声、风声等就被视为噪声;礼堂中,鼓掌声音可自动变换灯光颜色和类型,此时鼓掌声就是需要的声音信号,人们说话的嘈杂声就是噪声;家居自动化中,各智能家居则根据识别到的不同声音类型自动采取对应的操作,此时预先设定的触发声音就是需要的声音信号,其他不相关声音就为噪声。
在声音分类过程中,预处理是基础与前提,直接影响到后续声音分类的准确率。该声音场景分类中,预处理主要包括去除声音信号首尾静音部分,最大值归一化和预加重。
为更好的进行特征提取与声音事件分类,首先是对每一个声音样本进行语音活动检测去除首尾静音部分,只保留有用信号部分。实验中认为声音信号幅度值小于等于0.002时为静音。
然后对声音信号进行最大值归一化处理,将绝对强度转化为相对强度,取消各数据间的数量级差别,避免因为数据数量级差别较大而造成预测误差较大。最后进行预加重,通过一阶高通滤波器完成,增强信号的高频分量,以增大信号的高频分辨率,起到提高信噪比的作用。预加重传递函数为H(Z)=1-a*z-1,系数0.9<a<1,实验中取a=0.98。
(2)对于预处理后的声音信号,生成语谱图;
将声音信号进行预处理后提取出最能代表声音本质的信息,用于后续识别分类。在该声音场景分类中,采用基于图信号的特征提取方法,利用语谱图高能量谱部分进行声音特征表示。
首先生成语谱图,因为声音信号是短时平稳的,所以可将信号分成多个相对较短的片段,称为帧,然后通过一个随帧移动的窗函数实现分帧。短时傅里叶变换用于生成语谱图,其公式为
其中,x(n)为时域输入信号,w(n)为海明窗函数,N为窗长,k为离散频率点坐标,n为时域点坐标。
以声音信号horn为例,其语谱图如图2(a)所示。
(3)选取时频参数,对语谱图大小进行调整;
为减少计算量,重新调整语谱图大小。采用动态的时频矩阵选择方法,以找到适合于不同类型、不同长度声音信号的最优时频矩阵大小,而不是将所有声音信号的语谱图统一调整为固定大小的时频矩阵,可以在保证提取到充分的有用信息的同时尽可能的减少计算量。本实施例采用双三次插值图像缩放算法调整语谱图大小,利用待采样点周围16个点的值作三次插值,不仅考虑到周围4个直接相邻点的影响,而且考虑到各相邻点变化率的影响。将原始语谱图逐步缩小,生成多个不同大小的时频矩阵,语谱图横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。将横纵坐标表示为特定数量的时频块,此时语谱图就可以理解为一个时频矩阵。从语谱图到时频矩阵的过程就是调整语谱图大小的过程。
然后采用一种新的基于图信号的方法来量化各个时频矩阵与原始语谱图之间的相似度,找到最优时频矩阵,将最优时频矩阵转换为图信号,计算相似度的目的是判断该时频矩阵是否包含了足够的原语谱图信息,权衡计算复杂度和相似度来寻找最优时频矩阵,从而实现时频矩阵的动态选择,为每一个声音信号选择合适大小的时频矩阵。
为了在减少计算量的同时不丢失过多信息,提出了一种新的基于图信号的方法来量化两幅图像的相似度,首先将原始语谱图与调整后得到的时频矩阵按列遍历转换为一维向量,分别得到各自的图信号,然后提取图信号的包络并进行插值处理与最大值归一化处理,最后利用动态时间规整方法计算原始语谱图与缩减后的时频矩阵的相似度,即计算两个图信号序列的相对距离,使之保持在一个合适的范围,随着缩减次数的增多,相对距离逐渐增大,当时频矩阵过小时,相对距离可能会出现一个突增的趋势,此时就可以为每一个声音信号选择到合适大小的时频矩阵。这种动态选择时频矩阵大小的方法为每一个声音信号选择了合适大小的时频矩阵,而不是将所有声音信号统一确定为一个固定大小的时频矩阵,可以在减少计算量的同时尽可能的保留声音信号的高能量谱信息。
以声音样本horn为例,语谱图及对应的图信号如图2(a)-(b)所示,采用双三次插值方法分别缩减三次后得到的时频矩阵及图信号如图3(a)-(f)所示。对比图2(a)-(b)与图3(a)-(f)可以发现,随着缩减次数的增多,图信号点数不断减少,但时频矩阵与原始语谱图的相似度也越来越低。
当相似度过低时,提取得到的特征信息将不足以判断声音类别,进而会影响分类效果,所以采用了基于图信号的方法来衡量两者的相似度。
以声音样本horn为例,缩减一次、两次、三次后的时频矩阵图信号与原始语谱图的图信号的相对距离分别为4.04%、12.49%、76.46%,其相似度对比如图4所示,缩减三次时相对距离急剧增大,时频矩阵与原始语谱图的相似度过低,故将声音样本horn进行两次缩减得到时频矩阵。原始语谱图大小为129*175,而调整后得到的时频矩阵大小仅为12*11,极大的减少了计算量同时又保留了足够的高能量谱特征。
(4)提取特征事件;
现有技术中纯净声音与含噪声音分别采用不同的特征提取方法,对含噪声音信号增加了局部噪声估计过程,然后再提取其特征。本实施方式对特征提取算法进行调整改进,对纯净声音与含噪声音采用相同的特征提取算法,更加简单易于实现。为每一个声音信号设置适合的动态阈值min(M)以保持信号的高能量谱对比信息,保证提取的特征的完整性。为得到其高能量谱特征信息,将调整后得到的时频矩阵图信号分帧,帧长为2,重叠率为50%,以提取得到最终的特征事件。
确定每一帧的最大值,生成各局部最大值向量M,如公式(2)所示。
M(j)=max(framej),j=1,…,length(G)-1 (2)
其中,G为图信号,j为帧数,framej为各帧信号,M向量存储各局部最大值。
纯净声音与含噪声音采用相同的特征提取方法,且每一个声音信号设置适合的动态阈值min(M)以保持信号的高能量谱对比信息,保证提取的特征的完整性,得到最终的特征向量E:
提取高能量谱信息,得到最终的特征向量E的过程如公式(3)所示。
其中,i为图信号点数,G(i)为图信号G的第i个图信号值,E(i)为特征向量E的第i个特征值。
仍以声音样本horn为例,提取得到的特征事件如图5所示。
(5)利用分类器进行声音分类
将提取到的特征事件送入分类器,最终实现声音事件分类。将提取得到的特征事件随机分为训练集与测试集,首先对训练数据进行不断的学习,建立模型,然后将训练好的模型应用于测试集对未知声音信号进行分类。
实施例二
在一个或多个实施例中,公开了一种基于时频矩阵动态选择的声音事件分类***,包括:
用于采集设定区域环境内的声音信号数据,进行声音信号数据的预处理的装置;
用于对于预处理后的声音信号,生成语谱图的装置;
用于将原始语谱图逐步缩小,生成多个不同大小的时频矩阵的装置;
用于求取各个时频矩阵与原始语谱图之间的相似度,找到最优时频矩阵,将图像转换为图信号的装置;
用于从图信号中提取出特征事件;将提取到的特征事件送入分类器,得到声音事件分类结果的装置。
实施例三
在一个或多个实施方式中,公开了一种终端设备,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中的基于时频矩阵动态选择的声音事件分类方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的基于时频矩阵动态选择的声音事件分类方法,可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.一种基于时频矩阵动态选择的声音事件分类方法,其特征在于,包括:
采集设定区域环境内的声音信号数据,进行声音信号数据的预处理;
对于预处理后的声音信号,生成语谱图;
将原始语谱图逐步缩小,生成多个不同大小的时频矩阵;
求取各个时频矩阵与原始语谱图之间的相似度,找到最优时频矩阵,将最优时频矩阵转换为图信号;求取各个时频矩阵与原始语谱图之间的相似度,找到最优时频矩阵,具体为:
利用动态时间规整方法计算原始语谱图与各个时频矩阵的相似度,即计算两个图信号序列的相对距离,随着缩减次数的增多,相对距离逐渐增大,当时频矩阵过小时,相对距离会出现一个突增的趋势,据此,为每一个声音信号选择合适大小的时频矩阵;
从图信号中提取出特征事件;从图信号中提取出特征事件,具体为:
将调整后得到的时频矩阵图信号分帧,确定每一帧的最大值,生成各局部最大值向量M;
M(j)=max(framej),j=1,…,length(G)-1;
其中,G为图信号,j为帧数,framej为各帧信号,M向量存储各局部最大值,M(j)为向量M中的第j个值;
其中,i为图信号点数,G(i)为图信号G的第i个图信号值,E(i)为特征向量E的第i个特征值;min(M)为设置的声音信号动态阈值,取向量M中所有值的最小值;为每一个声音信号设置适合的动态阈值min(M)以保持信号的高能量谱对比信息,保证提取的特征的完整性;
将提取到的特征事件送入分类器,得到声音事件的分类结果。
2.如权利要求1所述的一种基于时频矩阵动态选择的声音事件分类方法,其特征在于,所述进行声音信号数据的预处理,具体为:
对每一个声音样本进行语音活动检测,去除首尾静音部分;
对声音信号进行最大值归一化处理;
通过一阶高通滤波器对声音信号进行预加重处理,增强信号的高频分量。
4.如权利要求1所述的一种基于时频矩阵动态选择的声音事件分类方法,其特征在于,将原始语谱图逐步缩小,生成多个不同大小的时频矩阵,具体为:采用双三次插值算法调整语谱图大小。
5.如权利要求1所述的一种基于时频矩阵动态选择的声音事件分类方法,其特征在于,将提取到的特征事件送入分类器,得到声音事件分类结果,具体为:
将提取得到的特征事件随机分为训练集与测试集,对训练集数据进行不断的学习建立最优模型,将训练好的模型应用于测试集对未知声音信号进行分类。
6.一种基于时频矩阵动态选择的声音事件分类***,其特征在于,包括:
用于采集设定区域环境内的声音信号数据,进行声音信号数据的预处理的装置;
用于对于预处理后的声音信号,生成语谱图的装置;
用于将原始语谱图逐步缩小,生成多个不同大小的时频矩阵的装置;
用于求取各个时频矩阵与原始语谱图之间的相似度,找到最优时频矩阵,将图像转换为图信号的装置;求取各个时频矩阵与原始语谱图之间的相似度,找到最优时频矩阵,具体为:
利用动态时间规整方法计算原始语谱图与各个时频矩阵的相似度,即计算两个图信号序列的相对距离,随着缩减次数的增多,相对距离逐渐增大,当时频矩阵过小时,相对距离会出现一个突增的趋势,据此,为每一个声音信号选择合适大小的时频矩阵;
用于从图信号中提取出特征事件;从图信号中提取出特征事件,具体为:
将调整后得到的时频矩阵图信号分帧,确定每一帧的最大值,生成各局部最大值向量M;
M(j)=max(framej),j=1,…,length(G)-1;
其中,G为图信号,j为帧数,framej为各帧信号,M向量存储各局部最大值,M(j)为向量M中的第j个值;
其中,i为图信号点数,G(i)为图信号G的第i个图信号值,E(i)为特征向量E的第i个特征值;min(M)为设置的声音信号动态阈值,取向量M中所有值的最小值;为每一个声音信号设置适合的动态阈值min(M)以保持信号的高能量谱对比信息,保证提取的特征的完整性;
将提取到的特征事件送入分类器,得到声音事件分类结果的装置。
7.一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行权利要求1-5任一项所述的基于时频矩阵动态选择的声音事件分类方法。
8.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行权利要求1-5任一项所述的基于时频矩阵动态选择的声音事件分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910900273.4A CN110751955B (zh) | 2019-09-23 | 2019-09-23 | 基于时频矩阵动态选择的声音事件分类方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910900273.4A CN110751955B (zh) | 2019-09-23 | 2019-09-23 | 基于时频矩阵动态选择的声音事件分类方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110751955A CN110751955A (zh) | 2020-02-04 |
CN110751955B true CN110751955B (zh) | 2022-03-01 |
Family
ID=69276898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910900273.4A Active CN110751955B (zh) | 2019-09-23 | 2019-09-23 | 基于时频矩阵动态选择的声音事件分类方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751955B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111354353B (zh) * | 2020-03-09 | 2023-09-19 | 联想(北京)有限公司 | 一种语音数据处理方法及装置 |
CN111862989B (zh) * | 2020-06-01 | 2024-03-08 | 北京捷通华声科技股份有限公司 | 一种声学特征处理方法和装置 |
CN112309405A (zh) * | 2020-10-29 | 2021-02-02 | 平安科技(深圳)有限公司 | 多种声音事件的检测方法、装置、计算机设备及存储介质 |
CN113392259B (zh) * | 2021-05-14 | 2022-11-29 | 深圳航天科技创新研究院 | 声音刺激样本选择方法、控制设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1864200A (zh) * | 2003-10-03 | 2006-11-15 | 夏普株式会社 | 图像缩小方法、图像缩小装置、图像缩小程序及存储该程序的存储介质 |
CN104064186A (zh) * | 2014-06-26 | 2014-09-24 | 山东大学 | 一种基于独立分量分析的电气设备故障音检测方法 |
CN108717512A (zh) * | 2018-05-16 | 2018-10-30 | 中国人民解放军陆军炮兵防空兵学院郑州校区 | 一种基于卷积神经网络的恶意代码分类方法 |
CN109284717A (zh) * | 2018-09-25 | 2019-01-29 | 华中师范大学 | 一种面向数字音频复制粘贴篡改操作的检测方法及*** |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8300961B2 (en) * | 2008-12-12 | 2012-10-30 | Ecole De Technologie Superieure | Method and system for low complexity transcoding of images with near optimal quality |
CN102608441B (zh) * | 2011-01-25 | 2014-09-17 | 华北电力科学研究院有限责任公司 | 基于s变换的sdpqd信号识别方法、设备及*** |
JP5891916B2 (ja) * | 2012-04-09 | 2016-03-23 | 大日本印刷株式会社 | 画像拡大処理装置 |
TWI471854B (zh) * | 2012-10-19 | 2015-02-01 | Ind Tech Res Inst | 引導式語者調適語音合成的系統與方法及電腦程式產品 |
JP6349977B2 (ja) * | 2013-10-21 | 2018-07-04 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
CN104978962B (zh) * | 2014-04-14 | 2019-01-18 | 科大讯飞股份有限公司 | 哼唱检索方法及*** |
US10089762B2 (en) * | 2014-07-04 | 2018-10-02 | Mapillary Ab | Methods for navigating through a set of images |
US10891019B2 (en) * | 2016-02-29 | 2021-01-12 | Huawei Technologies Co., Ltd. | Dynamic thumbnail selection for search results |
CN108597539B (zh) * | 2018-02-09 | 2021-09-03 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
CN109979438A (zh) * | 2019-04-04 | 2019-07-05 | Oppo广东移动通信有限公司 | 语音唤醒方法及电子设备 |
-
2019
- 2019-09-23 CN CN201910900273.4A patent/CN110751955B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1864200A (zh) * | 2003-10-03 | 2006-11-15 | 夏普株式会社 | 图像缩小方法、图像缩小装置、图像缩小程序及存储该程序的存储介质 |
CN104064186A (zh) * | 2014-06-26 | 2014-09-24 | 山东大学 | 一种基于独立分量分析的电气设备故障音检测方法 |
CN108717512A (zh) * | 2018-05-16 | 2018-10-30 | 中国人民解放军陆军炮兵防空兵学院郑州校区 | 一种基于卷积神经网络的恶意代码分类方法 |
CN109284717A (zh) * | 2018-09-25 | 2019-01-29 | 华中师范大学 | 一种面向数字音频复制粘贴篡改操作的检测方法及*** |
Non-Patent Citations (2)
Title |
---|
Acoustic Event Classification using Graph Signals;Manjunath Mulimani 等;《TENCON 2017-2017 IEEE Region 10 Conference》;20171108;1812-1815页 * |
一种基于小波变换的图像自适应数字水印算法;万英杰 等;《华东师范大学学报(自然科学版)》;20051130;第30页及图4 * |
Also Published As
Publication number | Publication date |
---|---|
CN110751955A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751955B (zh) | 基于时频矩阵动态选择的声音事件分类方法及*** | |
Nilsson et al. | The successive mean quantization transform | |
CN108281146B (zh) | 一种短语音说话人识别方法和装置 | |
Dennis et al. | Image feature representation of the subband power distribution for robust sound event classification | |
KR101969504B1 (ko) | 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치 | |
US9008329B1 (en) | Noise reduction using multi-feature cluster tracker | |
US11482235B2 (en) | Speech enhancement method and system | |
US10540988B2 (en) | Method and apparatus for sound event detection robust to frequency change | |
CN110148422B (zh) | 基于传声器阵列确定声源信息的方法、装置及电子设备 | |
US20070129941A1 (en) | Preprocessing system and method for reducing FRR in speaking recognition | |
Scanlon et al. | Feature analysis for automatic speechreading | |
US10021483B2 (en) | Sound capture apparatus, control method therefor, and computer-readable storage medium | |
Gurbuz et al. | Application of affine-invariant Fourier descriptors to lipreading for audio-visual speech recognition | |
WO2022218134A1 (zh) | 多通道语音检测的***和方法 | |
US20220059114A1 (en) | Method and apparatus for determining a deep filter | |
Kong et al. | Waveform recognition in multipath fading using autoencoder and CNN with Fourier synchrosqueezing transform | |
Pandharipande et al. | Robust front-end processing for emotion recognition in noisy speech | |
US7966179B2 (en) | Method and apparatus for detecting voice region | |
Khan et al. | Using visual speech information in masking methods for audio speaker separation | |
CN111613247B (zh) | 一种基于麦克风阵列的前景语音检测方法及装置 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
KR102329353B1 (ko) | 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치 | |
CN111696573A (zh) | 声源信号处理方法及装置、电子设备和存储介质 | |
Dennis et al. | Image Representation of the Subband Power Distribution for Robust Sound Classification. | |
Sharan et al. | Subband spectral histogram feature for improved sound recognition in low SNR conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |