CN108648748A - 医院噪声环境下的声学事件检测方法 - Google Patents
医院噪声环境下的声学事件检测方法 Download PDFInfo
- Publication number
- CN108648748A CN108648748A CN201810297418.1A CN201810297418A CN108648748A CN 108648748 A CN108648748 A CN 108648748A CN 201810297418 A CN201810297418 A CN 201810297418A CN 108648748 A CN108648748 A CN 108648748A
- Authority
- CN
- China
- Prior art keywords
- audio
- event
- acoustic events
- feature
- target acoustical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 14
- 102100032202 Cornulin Human genes 0.000 claims abstract description 13
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims abstract description 13
- 230000005236 sound signal Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 239000012634 fragment Substances 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 16
- 238000000034 method Methods 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 229910002056 binary alloy Inorganic materials 0.000 claims description 6
- 229910001369 Brass Inorganic materials 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 239000010951 brass Substances 0.000 claims description 3
- 230000001149 cognitive effect Effects 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000005096 rolling process Methods 0.000 claims 1
- 230000036541 health Effects 0.000 abstract description 6
- 238000012360 testing method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明涉及声学事件检测方法,尤其涉及一种医院噪声环境下的声学事件检测方法。其较为准确的将语音识别成文字,提高了语音录入电子病历的识别率并且降低了误识率。包括以下几个步骤:步骤1、对每个声学事件的音频信号进行特征截取,并对音频信号的音频片段做相应的标注;步骤2、提取音频中每个目标声学事件的MFCC特征系数;步骤3、对语音音素进行作对齐;步骤4、生成语音的特征矩阵;步骤5、为每个目标声学事件建立一个CRNN模型;步骤6、对医院噪声环境下实时采集的待检测目标声学事件的音频信号经过预处理之后进行MFCC特征提取;步骤7、获得待检测目标声学事件的类别;步骤8、滤除与目标声学事件无关的音频片段。
Description
技术领域
本发明涉及声学事件检测方法,尤其涉及一种医院噪声环境下的声学事件检测方法。
背景技术
现有语音电子病历在很低信噪比情况下,或多个人讲话的情况下,识别率会大幅下降,因此声学事件检测成为如何去除医院环境中的噪声影响过程中关键的一步。
目前的语音识别器把非语音的都统一归为一类:噪声,实际上现实中的噪声可能比语音还要复杂,如果也能对各种噪声类型建模,有助于语音识别区分出哪些是有用的语音,这对语音电子病历的识别有着重大意义。
发明内容
本发明就是针对现有技术存在的缺陷,提供一种医院噪声环境下的声学事件检测方法,其较为准确的将语音识别成文字,提高了语音录入电子病历的识别率并且降低了误识率。
为实现上述目的,本发明采用如下技术方案,包括以下几个步骤。
步骤1、训练阶段,将目标声学事件的音频信号和医院环境噪声信号作为训练数据,对每个声学事件的音频信号进行特征截取,并对音频信号的音频片段做相应的标注。
步骤2、根据步骤1截取的特征,提取音频中每个目标声学事件的MFCC特征系数,包含声学事件所述特征的音频片段。
步骤3、根据提取的MFCC特征系数,采用HMM-CNN训练对齐模型,对语音音素进行作对齐。
步骤4、计算步骤3对齐后MFCC特征的倒谱均值和方差归一化的统计量,以声音事件编号为索引,每个统计量集合都是一个矩阵,即生成语音的特征矩阵。
步骤5、根据步骤4生成的特征矩阵,使用Theano作为Keras开发工具的后台为每个目标声学事件建立一个CRNN模型。
步骤6、在识别阶段,对医院噪声环境下实时采集的待检测目标声学事件的音频信号经过预处理之后进行MFCC特征提取。
步骤7、根据步骤6提取的MFCC系数,采用步骤5获得的CRNN模型进行分类识别,获得待检测目标声学事件的类别。
步骤8、在步骤7确定类别的声学事件中,对噪音事件进行基于时序和方位的综合分析,获得相应的事件序列编码,根据获得的事件序列编码,对当前的事件序列进行过滤,滤除与目标声学事件无关的音频片段。
优选地,所述步骤3中的对语音因素进行对齐的模型采用的方法包括以下几个步骤。
步骤3-1、根据MFCC特征进行处理以提取一个帧序列;每个帧被归一化到相同的比例,并馈送到产生与其属于一个类别后验概率的CNN中。
步骤3-2、CNN权重共享的特性降低训练参数来抑制过拟合,通过卷积层的卷积运算使原语音信号特征增强,并且降低底噪。
步骤3-3、在池化层利用语音信号频谱局部相关性原理,对特征进行子抽样,对数据进行降维并保留有用信息。
步骤3-4、在归一化之后,这个概率被用作HMM的输出概率,HMM被用来推断出最可能的特征帧序列。
优选地,所述步骤4中采用特征矩阵的方法为:计算提取特征的倒谱均值和方差归一化的统计量,以声音事件编号为索引,每个统计量集合都是一个特征矩阵。
优选地,所述步骤5中训练CRNN声学模型中的方法包括以下几个步骤。
步骤5-1、CNN中使用门控线性单元(GLU)作为激活函数,在音频分类中使用门控线性单元将注意力机制引入到神经网络的所有层中;通过将其值设置为接近于零的时域来处理相关的音频事件;应用卷积层以提取高级特征。
步骤5-2、采用双向递归神经网络(Bi-RNN)捕捉时间上下文信息,用向前神经网络(FNN)和音频类别的数量来预测每个帧的每个音频类别的后验。每个音频标签的预测概率是通过对所有帧的后验进行平均而获得的。
步骤5-3、将二进制交叉熵损失应用于音频记录的预测概率和基本事实之间;神经网络的权重可以通过使用反向传播计算的权重的梯度来更新。
其中GLU公式为。
Y=(W*X+b)⊙σ(V*X+c) (1)
上式中,σ是S型非线性,⊙是元素乘积,*是卷积算子;W和V是卷积滤波器,b和c是偏差;X表示第一层中的输入T-F表示或者间隔层的特征映射。
另外训练二进制交叉熵损失公式为。
其中,E是二元交叉熵,On和Pn分别表示样本指数n处的估计和参考标签向量;簇的大小由N.Adam表示作为随机优化方法。
与现有技术相比本发明有益效果。
本发明可以是使语音录入电子病历在医院噪声环境下较为准确的将语音识别成文字,提高了语音录入电子病历的识别率并且降低了误识率。实现了医院噪声环境下的目标声学事件检测,对噪声有一定的鲁棒性。
附图说明
下面结合附图和具体实施方式对本发明做进一步说明。本发明保护范围不仅局限于以下内容的表述。
图1是本发明整体结构框图。
图2是本发明CNN-HMM模型图。
图3是本发明CRNN模型图。
图中,1为池化层、2为隐藏层、3为卷积层。
具体实施方式
如图1-3所示,本发明涉及声学事件检测方法的研究尤其是医院环境下的噪音数据。具体步骤包括如下步骤。
在训练阶段。
1、首先对医院噪声进行全面的分析,本发明采用医院中各种声学事件进行检测分类,医疗设备声音数据包括:呼吸机,心电监护仪,心脏除颤起搏设备,护理车移动的声音,另外包括:打印机,患者哭声,共六种声学事件进行检测。数据各包括100个,每种事件长度不小于1秒,音频长度为十秒以上,目标声音事件类别是根据它们在原始注释中出现的频率和它们出现的不同记录的数量来选择的。数据集根据示例的数量将数据划分为训练和评估子集可用于每个事件类,同时也考虑到记录位置。为调整参数使之达到最佳效果,开发集进一步分为四个层次,每个记录只用一次作为测试数据。在这个阶段,强加的唯一条件是测试子集不包含训练中数据。声音事件数据由评估集中的五个记录组成,四个折叠分布12个记录到训练和测试子集中。声音事件数据由评估集中的五个记录组成,并且四个折叠分布10个记录到训练和测试子集中。
2、然后利用麦克风阵列语音录入***,采集各种目标声学事件的音频信号和噪声信号,将目标声学事件的音频和医院噪声信号作为训练数据,对每个声学事件的音频信号进行特征截取,并对音频片段做相应的标注。
3、根据截取的特征,提取音频中每个目标声学事件的MFCC特征系数,包含声学事件所述特征的音频片段。
4、根据提取的MFCC系数,对语音因素进行对齐的模型采用的方法为。
(1)根据MFCC特征进行处理以提取一个帧序列。每个帧被归一化到相同的比例,并馈送到产生与其属于一个类别后验概率的CNN中。
(2)CNN权重共享的特性降低训练参数来抑制过拟合,通过卷积层的卷积运算使原语音信号特征增强,并且降低底噪。CNN模型分为三层:池化层、隐藏层及卷积层。
(3)在池化层利用语音信号频谱局部相关性原理,对特征进行子抽样,对数据进行降维并保留有用信息。
(4)在归一化之后,这个概率被用作HMM的输出概率,HMM被用来推断出最可能的特征帧序列。
如图2为CNN-HMM模型图,通过训练好的CNN-HMM声学模型,对语音音素进行作对齐。
5、计算步骤三对齐后特征的倒谱均值和方差归一化的统计量,以声音事件编号为索引,每个统计量集合都是一个矩阵,即生成语音的特征矩阵。
6、根据步骤四生成的特征矩阵,使用Theano作为Keras开发工具的后台为每个目标声学事件建立一个CRNN模型。
训练CRNN声学模型中的方法为。
(1)、CNN中使用门控线性单元(GLU)作为激活函数,在音频分类中使用门控线性单元将注意力机制引入到神经网络的所有层中。通过将其值设置为接近于零的时域来处理相关的音频事件。如果一个GLU接近1,那么就应该有相应的 T-F单元。如果一个GLU接近0,那么相应的T-F单元应该被忽略。通过这种方式,网络将学习关注音频事件并忽略不相关的声音。应用卷积层以提取高级特征。
(2)、采用双向递归神经网络(Bi-RNN)捕捉时间上下文信息,用向前神经网络(FNN)和音频类别的数量来预测每个帧的每个音频类别的后验。每个音频标签的预测概率是通过对所有帧的后验进行平均而获得的。
(3)、将二进制交叉熵损失应用于音频记录的预测概率和基本事实之间。神经网络的权重可以通过使用反向传播计算的权重的梯度来更新;为每个目标声学事件建立一个CRNN声学模型,如图3为CRNN模型图。
结合图1,在识别阶段。
1、利用麦克风阵列语音录入***,对医院噪声环境下实时采集的待检测目标声学事件的音频信号经过预处理之后进行MFCC特征提取。
2、根据提取的MFCC系数,采用步骤五获得的CRNN模型进行分类识别,获得待检测目标声学事件的类别。
3、在步骤七确定类别的声学事件中,对噪音事件进行基于时序和方位的综合分析,获得相应的事件序列编码,根据获得的事件序列编码,对当前的事件序列进行过滤,滤除与目标声学事件无关的音频片段。
所述GLU公式为。
Y=(W*X+b)⊙σ(V*X+c) (1)
其中σ是S型非线性,⊙是元素乘积,*是卷积算子。W和V是卷积滤波器, b和c是偏差。X表示第一层中的输入T-F表示或者间隔层的特征映射。
另外训练二进制交叉熵损失公式为。
其中E是二元交叉熵,On和Pn分别表示样本指数n处的估计和参考标签向量。簇的大小由N.Adam表示作为随机优化方法。
本发明很好的解决了以往语音录入电子病历中噪声环境下的识别率问题,可以大大提高医护人员的工作效率和效果,可以很好的在语音录入电子病例领域推广应用。
可以理解的是,以上关于本发明的具体描述,仅用于说明本发明而并非受限于本发明实施例所描述的技术方案,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换,以达到相同的技术效果;只要满足使用需要,都在本发明的保护范围之内。
Claims (4)
1.医院噪声环境下的声学事件检测方法,其特征在于,包括以下几个步骤:
步骤1、训练阶段,将目标声学事件的音频信号和医院环境噪声信号作为训练数据,对每个声学事件的音频信号进行特征截取,并对音频信号的音频片段做相应的标注;
步骤2、根据步骤1截取的特征,提取音频中每个目标声学事件的MFCC特征系数,包含声学事件所述特征的音频片段;
步骤3、根据提取的MFCC特征系数,采用HMM-CNN训练对齐模型,对语音音素进行作对齐;
步骤4、计算步骤3对齐后MFCC特征的倒谱均值和方差归一化的统计量,以声音事件编号为索引,每个统计量集合都是一个矩阵,即生成语音的特征矩阵;
步骤5、根据步骤4生成的特征矩阵,使用Theano作为Keras开发工具的后台为每个目标声学事件建立一个CRNN模型;
步骤6、在识别阶段,对医院噪声环境下实时采集的待检测目标声学事件的音频信号经过预处理之后进行MFCC特征提取;
步骤7、根据步骤6提取的MFCC系数,采用步骤5获得的CRNN模型进行分类识别,获得待检测目标声学事件的类别;
步骤8、在步骤7确定类别的声学事件中,对噪音事件进行基于时序和方位的综合分析,获得相应的事件序列编码,根据获得的事件序列编码,对当前的事件序列进行过滤,滤除与目标声学事件无关的音频片段。
2.根据权利要求1所述的医院噪声环境下的声学事件检测方法,其特征在于:所述步骤3中的对语音因素进行对齐的模型采用的方法包括以下几个步骤:
步骤3-1、根据MFCC特征进行处理以提取一个帧序列;每个帧被归一化到相同的比例,并馈送到产生与其属于一个类别后验概率的CNN中;
步骤3-2、CNN权重共享的特性降低训练参数来抑制过拟合,通过卷基层的卷积运算使原语音信号特征增强,并且降低底噪;
步骤3-3、在池化层利用语音信号频谱局部相关性原理,对特征进行子抽样,对数据进行降维并保留有用信息;
步骤3-4、在归一化之后,这个概率被用作HMM的输出概率,HMM被用来推断出最可能的特征帧序列。
3.根据权利要求1所述的医院噪声环境下的声学事件检测方法,其特征在于:所述步骤4中采用特征矩阵的方法为:计算提取特征的倒谱均值和方差归一化的统计量,以声音事件编号为索引,每个统计量集合都是一个特征矩阵。
4.根据权利要求1所述的医院噪声环境下的声学事件检测方法,其特征在于:所述步骤5中训练CRNN声学模型中的方法包括以下几个步骤:
步骤5-1、CNN中使用门控线性单元(GLU)作为激活函数,在音频分类中使用门控线性单元将注意力机制引入到神经网络的所有层中;通过将其值设置为接近于零的时域来处理相关的音频事件;应用卷积层以提取高级特征;
步骤5-2、采用双向递归神经网络(Bi-RNN)捕捉时间上下文信息,用向前神经网络(FNN)和音频类别的数量来预测每个帧的每个音频类别的后验。每个音频标签的预测概率是通过对所有帧的后验进行平均而获得的;
步骤5-3、将二进制交叉熵损失应用于音频记录的预测概率和基本事实之间;神经网络的权重可以通过使用反向传播计算的权重的梯度来更新;
其中GLU公式为:
Y=(W*X+b)⊙σ(V*X+c) (1)
上式中,σ是S型非线性,⊙是元素乘积,*是卷积算子;W和V是卷积滤波器,b和c是偏差;X表示第一层中的输入T-F表示或者间隔层的特征映射。
另外训练二进制交叉熵损失公式为:
其中,E是二元交叉熵,On和Pn分别表示样本指数n处的估计和参考标签向量;簇的大小由N.Adam表示作为随机优化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810297418.1A CN108648748B (zh) | 2018-03-30 | 2018-03-30 | 医院噪声环境下的声学事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810297418.1A CN108648748B (zh) | 2018-03-30 | 2018-03-30 | 医院噪声环境下的声学事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108648748A true CN108648748A (zh) | 2018-10-12 |
CN108648748B CN108648748B (zh) | 2021-07-13 |
Family
ID=63745447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810297418.1A Expired - Fee Related CN108648748B (zh) | 2018-03-30 | 2018-03-30 | 医院噪声环境下的声学事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108648748B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961017A (zh) * | 2019-02-26 | 2019-07-02 | 杭州电子科技大学 | 一种基于卷积循环神经网络的心音信号分类方法 |
CN110085249A (zh) * | 2019-05-09 | 2019-08-02 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
CN110097193A (zh) * | 2019-04-28 | 2019-08-06 | 第四范式(北京)技术有限公司 | 训练模型的方法及***和预测序列数据的方法及*** |
CN110147788A (zh) * | 2019-05-27 | 2019-08-20 | 东北大学 | 一种基于特征增强crnn的金属板带产品标签文字识别方法 |
CN110179466A (zh) * | 2019-06-03 | 2019-08-30 | 珠海涵辰科技有限公司 | 基于智能终端的灾后呼吸检测*** |
CN110223713A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 声音事件检测模型训练方法及声音事件检测方法 |
CN110232927A (zh) * | 2019-06-13 | 2019-09-13 | 苏州思必驰信息科技有限公司 | 说话人验证反欺骗方法和装置 |
CN110334243A (zh) * | 2019-07-11 | 2019-10-15 | 哈尔滨工业大学 | 基于多层时序池化的音频表示学习方法 |
CN110600059A (zh) * | 2019-09-05 | 2019-12-20 | Oppo广东移动通信有限公司 | 声学事件检测方法、装置、电子设备及存储介质 |
CN111261192A (zh) * | 2020-01-15 | 2020-06-09 | 厦门快商通科技股份有限公司 | 一种基于lstm网络的音频检测方法、电子设备及存储介质 |
CN111259188A (zh) * | 2020-01-19 | 2020-06-09 | 成都嗨翻屋科技有限公司 | 一种基于seq2seq网络的歌词对齐方法及*** |
CN111259189A (zh) * | 2018-11-30 | 2020-06-09 | 马上消费金融股份有限公司 | 一种音乐分类方法及装置 |
CN111325313A (zh) * | 2018-12-13 | 2020-06-23 | 现代自动车株式会社 | 识别问题噪声源的噪声数据人工智能装置和预处理方法 |
CN111899760A (zh) * | 2020-07-17 | 2020-11-06 | 北京达佳互联信息技术有限公司 | 音频事件的检测方法、装置、电子设备及存储介质 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112309405A (zh) * | 2020-10-29 | 2021-02-02 | 平安科技(深圳)有限公司 | 多种声音事件的检测方法、装置、计算机设备及存储介质 |
CN112712804A (zh) * | 2020-12-23 | 2021-04-27 | 哈尔滨工业大学(威海) | 语音识别方法、***、介质、计算机设备、终端及应用 |
CN112863492A (zh) * | 2020-12-31 | 2021-05-28 | 思必驰科技股份有限公司 | 声音事件定位模型训练方法和装置 |
CN113159217A (zh) * | 2021-05-12 | 2021-07-23 | 深圳龙岗智能视听研究院 | 一种基于事件相机的注意力机制目标检测的方法 |
CN113761269A (zh) * | 2021-05-21 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置和计算机可读存储介质 |
CN113903003A (zh) * | 2021-10-15 | 2022-01-07 | 宿迁硅基智能科技有限公司 | 事件发生概率的确定方法、存储介质及电子装置 |
CN113920473A (zh) * | 2021-10-15 | 2022-01-11 | 宿迁硅基智能科技有限公司 | 完整事件确定方法、存储介质及电子装置 |
WO2023221237A1 (zh) * | 2022-05-16 | 2023-11-23 | 江苏大学 | 自适应层次聚合的弱监督声音事件检测方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1598770A2 (en) * | 2004-05-20 | 2005-11-23 | Microsoft Corporation | Low resolution optical character recognition for camera acquired documents |
WO2013057652A2 (en) * | 2011-10-17 | 2013-04-25 | Koninklijke Philips Electronics N.V. | A medical feedback system based on sound analysis in a medical environment |
CN104916289A (zh) * | 2015-06-12 | 2015-09-16 | 哈尔滨工业大学 | 行车噪声环境下快速声学事件的检测方法 |
-
2018
- 2018-03-30 CN CN201810297418.1A patent/CN108648748B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1598770A2 (en) * | 2004-05-20 | 2005-11-23 | Microsoft Corporation | Low resolution optical character recognition for camera acquired documents |
WO2013057652A2 (en) * | 2011-10-17 | 2013-04-25 | Koninklijke Philips Electronics N.V. | A medical feedback system based on sound analysis in a medical environment |
CN103875034A (zh) * | 2011-10-17 | 2014-06-18 | 皇家飞利浦有限公司 | 基于医疗环境中的声音分析的医疗反馈*** |
CN104916289A (zh) * | 2015-06-12 | 2015-09-16 | 哈尔滨工业大学 | 行车噪声环境下快速声学事件的检测方法 |
Non-Patent Citations (2)
Title |
---|
EMRE,CAKIR: "Convolutional Recurrent Neural Networks for Polyphonic Sound Event Detection", 《TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
OSCAR KOLLER: "Re-Sign: Re-Aligned End-to-End Sequence Modelling with Deep Recurrent CNN-HMMs", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259189A (zh) * | 2018-11-30 | 2020-06-09 | 马上消费金融股份有限公司 | 一种音乐分类方法及装置 |
CN111259189B (zh) * | 2018-11-30 | 2023-04-18 | 马上消费金融股份有限公司 | 一种音乐分类方法及装置 |
CN111325313A (zh) * | 2018-12-13 | 2020-06-23 | 现代自动车株式会社 | 识别问题噪声源的噪声数据人工智能装置和预处理方法 |
CN109961017A (zh) * | 2019-02-26 | 2019-07-02 | 杭州电子科技大学 | 一种基于卷积循环神经网络的心音信号分类方法 |
CN110097193A (zh) * | 2019-04-28 | 2019-08-06 | 第四范式(北京)技术有限公司 | 训练模型的方法及***和预测序列数据的方法及*** |
CN110085249A (zh) * | 2019-05-09 | 2019-08-02 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
CN110147788A (zh) * | 2019-05-27 | 2019-08-20 | 东北大学 | 一种基于特征增强crnn的金属板带产品标签文字识别方法 |
CN110179466A (zh) * | 2019-06-03 | 2019-08-30 | 珠海涵辰科技有限公司 | 基于智能终端的灾后呼吸检测*** |
CN110223713A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 声音事件检测模型训练方法及声音事件检测方法 |
CN110232927A (zh) * | 2019-06-13 | 2019-09-13 | 苏州思必驰信息科技有限公司 | 说话人验证反欺骗方法和装置 |
CN110232927B (zh) * | 2019-06-13 | 2021-08-13 | 思必驰科技股份有限公司 | 说话人验证反欺骗方法和装置 |
CN110334243A (zh) * | 2019-07-11 | 2019-10-15 | 哈尔滨工业大学 | 基于多层时序池化的音频表示学习方法 |
CN110600059A (zh) * | 2019-09-05 | 2019-12-20 | Oppo广东移动通信有限公司 | 声学事件检测方法、装置、电子设备及存储介质 |
CN110600059B (zh) * | 2019-09-05 | 2022-03-15 | Oppo广东移动通信有限公司 | 声学事件检测方法、装置、电子设备及存储介质 |
CN111261192A (zh) * | 2020-01-15 | 2020-06-09 | 厦门快商通科技股份有限公司 | 一种基于lstm网络的音频检测方法、电子设备及存储介质 |
CN111259188A (zh) * | 2020-01-19 | 2020-06-09 | 成都嗨翻屋科技有限公司 | 一种基于seq2seq网络的歌词对齐方法及*** |
CN111259188B (zh) * | 2020-01-19 | 2023-07-25 | 成都潜在人工智能科技有限公司 | 一种基于seq2seq网络的歌词对齐方法及*** |
CN111899760A (zh) * | 2020-07-17 | 2020-11-06 | 北京达佳互联信息技术有限公司 | 音频事件的检测方法、装置、电子设备及存储介质 |
CN111899760B (zh) * | 2020-07-17 | 2024-05-07 | 北京达佳互联信息技术有限公司 | 音频事件的检测方法、装置、电子设备及存储介质 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
WO2022001245A1 (zh) * | 2020-10-29 | 2022-01-06 | 平安科技(深圳)有限公司 | 多种声音事件的检测方法、装置、计算机设备及存储介质 |
CN112309405A (zh) * | 2020-10-29 | 2021-02-02 | 平安科技(深圳)有限公司 | 多种声音事件的检测方法、装置、计算机设备及存储介质 |
CN112712804A (zh) * | 2020-12-23 | 2021-04-27 | 哈尔滨工业大学(威海) | 语音识别方法、***、介质、计算机设备、终端及应用 |
CN112863492A (zh) * | 2020-12-31 | 2021-05-28 | 思必驰科技股份有限公司 | 声音事件定位模型训练方法和装置 |
CN113159217A (zh) * | 2021-05-12 | 2021-07-23 | 深圳龙岗智能视听研究院 | 一种基于事件相机的注意力机制目标检测的方法 |
CN113159217B (zh) * | 2021-05-12 | 2023-08-01 | 深圳龙岗智能视听研究院 | 一种基于事件相机的注意力机制目标检测的方法 |
CN113761269A (zh) * | 2021-05-21 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置和计算机可读存储介质 |
CN113761269B (zh) * | 2021-05-21 | 2023-10-10 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置和计算机可读存储介质 |
CN113903003A (zh) * | 2021-10-15 | 2022-01-07 | 宿迁硅基智能科技有限公司 | 事件发生概率的确定方法、存储介质及电子装置 |
CN113920473A (zh) * | 2021-10-15 | 2022-01-11 | 宿迁硅基智能科技有限公司 | 完整事件确定方法、存储介质及电子装置 |
WO2023221237A1 (zh) * | 2022-05-16 | 2023-11-23 | 江苏大学 | 自适应层次聚合的弱监督声音事件检测方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN108648748B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648748A (zh) | 医院噪声环境下的声学事件检测方法 | |
Kochetov et al. | Noise masking recurrent neural network for respiratory sound classification | |
US11646032B2 (en) | Systems and methods for audio processing | |
Dash et al. | Detection of COVID-19 from speech signal using bio-inspired based cepstral features | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN109394258A (zh) | 一种肺部呼吸音的分类方法、装置及终端设备 | |
CN110349597A (zh) | 一种语音检测方法及装置 | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 | |
Deb et al. | Detection of common cold from speech signals using deep neural network | |
Sadeghian et al. | Towards an automatic speech-based diagnostic test for Alzheimer’s disease | |
Chen et al. | Supervised and self-supervised pretraining based COVID-19 detection using acoustic breathing/cough/speech signals | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和*** | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
Banerjee et al. | A robust dataset-agnostic heart disease classifier from phonocardiogram | |
Deepa et al. | Speech technology in healthcare | |
Prasath | Design of an integrated learning approach to assist real-time deaf application using voice recognition system | |
Huynh et al. | Semi-supervised tree support vector machine for online cough recognition | |
CN114882888A (zh) | 基于变分自编码和对抗生成网络的声纹识别方法及*** | |
JP2020071755A (ja) | 情報処理装置 | |
Shanmugapriya et al. | Deep neural network based speaker verification system using features from glottal activity regions | |
Truong et al. | An ‘open-set’detection evaluation methodology for automatic emotion recognition in speech | |
Ekiz et al. | Covid-19 Detection from Cough, Breath, And Speech Sounds with Short-Time Fourier Transform and a CNN Model | |
CN117059283B (zh) | 一种基于肺结核预警的语音数据库分类和处理*** | |
Frost | Deep learning based methods for tuberculosis cough classification | |
CN118098288B (zh) | 一种基于自学习标签校正的弱监督语音抑郁症检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210713 |