CN112309423A - 驾驶环境下基于智能手机音频感知的呼吸道症状检测方法 - Google Patents

驾驶环境下基于智能手机音频感知的呼吸道症状检测方法 Download PDF

Info

Publication number
CN112309423A
CN112309423A CN202011216514.2A CN202011216514A CN112309423A CN 112309423 A CN112309423 A CN 112309423A CN 202011216514 A CN202011216514 A CN 202011216514A CN 112309423 A CN112309423 A CN 112309423A
Authority
CN
China
Prior art keywords
sub
sound
frame
sound signals
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011216514.2A
Other languages
English (en)
Inventor
李凡
吴玥
解亚东
杨松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202011216514.2A priority Critical patent/CN112309423A/zh
Publication of CN112309423A publication Critical patent/CN112309423A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/08Detecting, measuring or recording devices for evaluating the respiratory organs
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/68Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
    • A61B5/6887Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient mounted on external non-worn devices, e.g. non-medical devices
    • A61B5/6898Portable consumer electronic devices, e.g. music players, telephones, tablet computers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2503/00Evaluating a particular growth phase or type of persons or animals
    • A61B2503/20Workers
    • A61B2503/22Motor vehicles operators, e.g. drivers, pilots, captains

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Epidemiology (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Physiology (AREA)
  • Pulmonology (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种驾驶环境下基于智能手机音频感知的呼吸道症状检测方法。本方法利用智能手机的扬声器收集车内声音,通过基于自适应子带谱熵方法滤去汽车行驶噪声,然后提取去噪后声音的声学特征并将特征送入训练好的神经网络,来判断收集到的声音中是否存在咳嗽、打喷嚏和吸鼻子等呼吸道症状,并记录相关呼吸道症状的次数。本发明不依赖于各类预先架设的专业医疗设备,成本低、抗干扰性强、不存在泄露隐私问题,适用于驾驶噪声较平稳、驾驶员和乘客距离较近的检测环境。本发明采用基于自适应子带谱熵的去噪方法来消除各种驾驶噪声的影响,使得***对于环境噪声的鲁棒性较强,可准确高效地实现对三种典型呼吸道症状的检测和分类。

Description

驾驶环境下基于智能手机音频感知的呼吸道症状检测方法
技术领域
本发明涉及一种呼吸道症状检测方法,特别涉及一种驾驶环境下基于智能手机音频传感器,即扬声器和麦克风的音频感知能力的呼吸道症状检测方法,主要用于监测驾驶员和乘客是否存在咳嗽、打喷嚏和吸鼻子三种典型的呼吸道症状,属于移动计算应用技术领域。
背景技术
在与人类健康息息相关的呼吸道症状中,咳嗽、打喷嚏和吸鼻子是日常生活中最常见的几种呼吸道症状。尽管这些呼吸道症状看起来微不足道,它们确和超过100种疾病相关,比如感冒、流感、过敏等普通疾病,又比如肺炎、哮喘、慢性肺部疾病等较为严重的呼吸道疾病。这些呼吸道疾病大部分是可以治愈的,但仍需尽早发现,尤其是具有传染性的呼吸道疾病。因此,检测呼吸道症状不仅可以帮助个人发现健康问题,也可以帮助预防传染性疾病,促进公共卫生发展。
目前,检测呼吸道症状的方法主要依靠部署在医院和医疗机构、与医疗***相连的专用医疗设备。例如,利用呼吸监控装置检测病人嘴部的进出气量来判断病人是否咳嗽;通过在病人胸口安装一个带加速度计的设备来检测病人是否有异常呼吸状况。
然而,这些方法通常存在成本较高、难于部署、只适用于医院和医疗机构等地的问题。在移动计算应用领域,存在一些利用音频传感器检测呼吸道症状的方法。例如,通过让用户佩戴一个麦克风装置来收集用户周围声音,从而判断用户是否咳嗽;利用用户手机上的麦克风收集用户周围的声音,来判断用户是否有咳嗽、打喷嚏和吸鼻子等行为。但是,这些方法存在抗干扰性不强、只适用于较为安静的室内环境等问题。在驾驶环境中,尤其是在出租车等商业车辆中,由于其空间较小、乘客与驾驶员距离较近,十分容易造成传染性呼吸道疾病的传播。由于驾驶环境中的噪声较大、不易于部署专用设备,现有的方法并不适用于在驾驶环境中检测咳嗽、打喷嚏和吸鼻子等呼吸道症状。
综上所述,目前迫切需要一种利用驾驶员智能手机中的音频传感器来检测处于驾驶环境中的驾驶员和乘客是否有呼吸道症状的方法。
发明内容
本发明的目的是为了解决目前在驾驶环境中检测驾驶员和乘客的呼吸道症状成本过高、抗干扰性不强的问题,提出一种利用智能手机音频传感器检测驾驶员或乘客咳嗽、打喷嚏和吸鼻子等呼吸道症状的方法。
本发明的核心思想是:利用智能手机的扬声器收集车内声音,通过基于自适应子带谱熵方法滤去汽车行驶噪声,然后提取去噪后声音的声学特征并将特征送入训练好的神经网络,来判断收集到的声音中是否存在咳嗽、打喷嚏和吸鼻子等呼吸道症状,并记录相关呼吸道症状的次数。本发明方法尤其适用于驾驶噪声较为平稳、小型汽车中驾驶员和乘客距离较近的驾驶环境。
本发明的目的是通过以下技术方案实现的:
驾驶环境下基于智能手机扬音频感知的呼吸道症状检测方法,包括以下步骤:
步骤1:利用智能手机麦克风,收集驾驶环境中不同的驾驶员和乘客咳嗽、打喷嚏和吸鼻子的声音信号,基于自适应子带谱熵去噪方法,即ABSE去噪方法,滤去收集到声音信号中的汽车行驶噪声。
具体地,步骤1的实现方法如下:
步骤1.1:将智能手机置于车内,收集不同的驾驶员和乘客咳嗽、打喷嚏和吸鼻子三种行为的声音信号。
步骤1.2:将步骤1.1收集到的每个声音信号分成相同长度的子段,选取开始部分的n个子段声音信号(如2至10段)进行快速傅里叶变换(FFT),然后计算子段声音的平均能量谱,并初始化ABSE的阈值。
ABSE的阈值Ts=μθ+α·σθ;其中,
Figure BDA0002760582430000021
Figure BDA0002760582430000022
Hb(l)是第l个子段的ABSE值;α表示权值,根据实验结果选定。
步骤1.3:计算下一子段声音信号的ABSE值,并和步骤1.2得到的阈值进行对比。若该子段声音的ABSE值超过阈值,则对该子段声音进行FFT并计算能量谱,然后用该子段声音的能量谱减去步骤1.2得到的平均能量谱,并进行逆快速傅里叶变换(IFFT),得到该子段声音去噪后的声音信号。若该子段声音的ABSE值未超过阈值,则根据该子段声音的能量谱更新平均能量谱。
步骤1.4:重复步骤1.3,直到所有声音信号去噪完毕。将去噪后的声音信号通过高通滤波器滤去低频段的信号,然后取出滤波后的声音信号中包含咳嗽、打喷嚏和吸鼻子声音段,将这些声音段切分成不同信号帧,每一信号帧包含一次呼吸道症状,并用相应的行为对这些信号帧进行标记。
步骤2:对于步骤1中得到的去噪且标记的信号帧,提取每一帧的基于梅尔倒频谱系(MFCC)和伽马倒频谱系数(GFCC)的混合式声学特征,利用该特征训练一个基于长短时记忆(LSTM)神经网络的分类器。
具体地,步骤2的实现方法如下:
步骤2.1:对于步骤1得到的每个包含一次呼吸道症状的信号帧,分成长度相同的子帧,计算每个子帧的12维MFCC特征,并取每个子帧的前10维MFCC特征拼接成为该帧的MFCC特征向量。
步骤2.2:对于步骤1得到的每个包含一次呼吸道症状的信号帧,分成长度相同的子帧,计算每个子帧的31维的GFCC特征,并取每个子帧的前20维GFCC特征拼接成为该帧的GFCC特征向量。
步骤2.3:将步骤2.1得到的MFCC向量和步骤2.2得到的GFCC向量,拼接成一个混合式特征向量,然后将该混合式特征向量送入一个3层的LSTM网络进行训练,得到驾驶环境下三种呼吸道症状声音的分类器。
步骤3:在实际应用中,利用车内智能手机的麦克风持续收集车内的声音信号。利用步骤1.2的方法,从收集到的声音信号中去除汽车行驶噪声,并将去噪后的声音信号进行切分和补齐,使得每一段声音信号成为等长的信号帧。然后利用步骤2.2的方法,提取每一信号帧的声学特征,并将特征送入训练好的分类器进行判断。一旦分类器判断出有咳嗽、打喷嚏或者吸鼻子行为,则记录相应呼吸道症状并记录累计发生次数。
具体地,步骤3的实现方法如下:
步骤3.1:将用户手机的扬声器采样率设置为48kHz,该手机麦克风持续接受车内的声音信号。
步骤3.2:对于步骤3.1收集到的声音信号,先利用步骤1.2和1.3的方法去除收集到的声音信号中的驾驶噪声,选出ABSE值超过阈值的声音子段。若连续几个超过阈值的声音子段的总时长超过时间阈值T_1,则将该子段和切分成重叠的固定长度的子帧。若连续几个超过阈值的声音子段的总时长小于另一时间阈值T_2,则舍弃该子段和。若连续几个超过阈值的声音子段的总时长大于T_2小于T_1,则扩展该子段和长度为固定的帧长。将每个帧通过一个高通滤波器进行滤波。
步骤3.3:对于步骤3.2得到的每个固定长度的滤波后的帧,利用步骤2.1计算该帧的MFCC特征向量,然后利用步骤2.2计算该帧的GFCC特征向量,将两个向量拼接成该帧的混合式特征向量,然后送入训练好的LSTM网络进行分类,判断该帧是否包含咳嗽、打喷嚏或吸鼻子行为。
有益效果
1.本发明方法,相较现有技术,仅依靠智能手机中的麦克风持续接收驾驶环境中的声音信号,就可以实现对驾驶员和乘客的呼吸道症状的检测。因此本发明不依赖于各类预先架设的专业医疗设备,成本低、抗干扰性强、不存在泄露隐私问题,适用于驾驶噪声较平稳、驾驶员和乘客距离较近的检测环境。
2.本发明针对典型呼吸道症状的声音信号与驾驶噪声的特征不同,采用基于自适应子带谱熵的去噪方法来消除各种驾驶噪声的影响,使得***对于环境噪声的鲁棒性较强。
3.本发明针对三种典型呼吸道症状的声音信号特征不同,提取混合式声学特征,结合神经网络和深度学习技术,准确高效地实现对三种典型呼吸道症状的检测和分类。
附图说明
图1为本发明方法的原理图。
图2为本发明实施例不同呼吸道症状检测方法的准确率。
图3为本发明实施例不同呼吸道症状检测混淆矩阵。
图4为本发明实施例不同呼吸道症状在不同场景下的召回率。
具体实施方式
下面结合实施例和附图,对本发明方法做进一步详细说明。
如图1所示,一种驾驶环境下基于智能手机音频感知的呼吸道症状检测方法,包括以下步骤:
步骤1:利用智能手机的麦克风收集驾驶环境中不同的驾驶员和乘客咳嗽、打喷嚏和吸鼻子的声音信号,设计一种基于自适应子带谱熵(ABSE)的去噪方法滤去收集到声音信号中的汽车行驶噪声。
步骤1.1:招募16位志愿者作为驾驶员或者乘客来驾驶或乘坐测试车辆,志愿者将智能手机置于车内,收集车辆行驶过程中的咳嗽、打喷嚏和吸鼻子三种行为的声音信号。
步骤1.2:将步骤1.1收集到的每个声音信号分成长度为0.2秒的不重叠的子段,取开始10个子段的声音信号,进行快速傅里叶变换(FFT)后计算这些子段声音的平均能量谱E,并初始化ABSE的阈值Ts=μθ+α·σθ,其中
Figure BDA0002760582430000051
Figure BDA0002760582430000052
Hb(l)是第l个子段的ABSE值。权值α=0.1。
步骤1.3:计算下一子段声音信号的ABSE值并和步骤1.2得到的阈值进行对比。若该子段声音的ABSE值超过阈值,则对该子段声音进行FFT并计算能量谱,然后用该子段声音的能量谱减去步骤1.2得到的平均能量谱,并对相减后的信号进行逆快速傅里叶变换(IFFT),得到该子段声音去噪后的声音信号。若该子段声音的ABSE值未超过阈值,则根据该子段声音的能量谱更新平均能量谱,即Enew=0.7E+0.3Ecurrent,其中Ecurrent是当前子段的能量谱。
步骤2:收集汽油汽车行驶时产生的音频信号,训练一个基于长短时记忆神经网络(LSTM)的分类器。
步骤2.1:对于步骤1得到的每个包含一次呼吸道症状的帧,分成长度为0.07秒子帧,且两相邻子帧之间有一段长度为0.03秒的重叠区域。计算每个子帧的12维MFCC特征,并取每个子帧的前10维MFCC特征拼接成为该帧的120维MFCC特征向量。
步骤2.2:对于步骤1得到的每个包含一次呼吸道症状的帧,分成长度为0.07秒子帧,且两相邻子帧之间有一段长度为0.03秒的重叠区域。计算每个子帧的31维的GFCC特征,并取每个子帧的前20维GFCC特征拼接成为该帧的240维GFCC特征向量。
步骤2.3:将步骤2.1得到的MFCC向量和步骤2.2得到的GFCC向量拼接成一个360维的混合式特征向量,然后将该混合式特征向量送入一个3层的LSTM网络进行训练,得到驾驶环境下三种呼吸道症状声音的分类器。其中该LSTM网络包含2个LSTM层和1个全连接层,采用Tanh作为激活函数,每个LSTM层后面加上batch normalization层,用交叉熵代价函数作为损失函数。该LSTM网络的timestep值设为6,即每次的输入为当前子帧的特征向量和当前子帧之前的5个子帧的特征向量。对于第t个timestep,LSTM层利用公式ht=δ(W0[ht-1,xt+b0])·tanh(St),将输入xt映射为一个压缩向量ht,其中W0和b0分别表示权重矩阵和偏置向量,St代表第t个timestep的状态,ht-1表示前一个timestep对应的压缩向量,δ()表示激活函数。经过训练,得到三种典型呼吸道症状的分类器。
步骤3:在实际应用中,车内智能手机的麦克风持续收集车内的声音信号。利用步骤1.2的方法从收集到的声音信号中去除汽车行驶噪声,并将去噪后的声音信号进行切分和补齐,使得每一段声音信号成为等长的帧。然后利用步骤2.2的方法,提取每一帧的声学特征,并将特征送入训练好的分类器进行判断。一旦分类器判断出有咳嗽、打喷嚏或者吸鼻子行为,则记录相应呼吸道症状并记录累计发生次数。
步骤3.1:在实际应用时,将用户智能手机的扬声器采样率设置为44.1kHz,该智能手机麦克风持续地接受车内的声音信号。
步骤3.2:对于步骤3.1收集到的声音信号,先利用步骤1.2和1.3的方法去除收集到的声音信号中的驾驶噪声,选出ABSE值超过阈值的声音子段。我们记连续几个超过阈值的声音子段的总时长为d,若d>0.4秒,则将该子段和切分成长度为0.4秒、重叠区域长度为0.2秒的子帧;若d<0.2秒,则舍弃该子段和;若0.2<d<0.4,则分别向前和向后取1/2(0.4-d)秒长度的声音信号加入该子段和,使其成为长度为0.4秒的帧。将每个帧通过一个高通滤波器滤去800Hz以下的声音。
步骤3.3:对于步骤3.2得到的每个固定长度的滤波后的帧,利用步骤2.1计算该帧的120维MFCC特征向量,然后利用步骤2.2计算该帧的240维GFCC特征向量,将两个向量拼接成该帧的360维混合式特征向量,然后送入训练好的LSTM网络进行分类,判断该帧是否包含咳嗽、打喷嚏或吸鼻子行为。
实施例
为了测试本方法的性能,将本方法编写成一个安卓应用程序部署在不同型号的安卓手机中。并且招募了16位志愿者分别作为驾驶员和乘客,在不同的真实场景中驾驶和乘坐测试车辆。
首先,测试本方法在驾驶环境下的总体准确率。图2显示了本方法和另外两种检测呼吸道症状方法(SymDetector和CoughSense)的总体准确率。由图可以看出,本方法的检测三种典型呼吸道症状的总体准确率为93.91%,而其他两种方法的总体准确率只有70.55%和67.64%,充分说明本方法在驾驶环境下有较高的准确性。
然后,测试基于LSTM的三种典型呼吸道症状分类器的准确性。图3显示了该分类器的混淆矩阵。由图可以看出,每类呼吸道症状的识别准确率都在93.64%以上,平均的识别准确率为95.52%。极少量的数据被分到了错误的类别,是因为当智能手机距离用户较远时,一些声音较小的呼吸道症状容易被误分到其他类,体现了本发明准确率高。
最后,测试本方法在不同驾驶场景下的检测准确性。图4显示了每类呼吸道症状在城市街道、高速公路、乡村道路和停车场的检测召回率,由图可以看出停车场环境最安静,因此三类呼吸道症状在该区域中的检测召回率最高;高速公路上驾驶噪声较大,乡村道路不平整容易造成车辆颠簸,因此三类呼吸道症状在这两个区域中的检测召回率略低。然而在所有场景下三类呼吸道症状的检测召回率均不低于88.37%,体现了本发明普适性高。
以上所述的具体实例是对本发明的进一步解释说明,并不用于限定本发明的保护范围,凡在本发明原则和精神之内,所做的更改和等同替换都应是本发明的保护范围之内。

Claims (3)

1.驾驶环境下基于智能手机扬音频感知的呼吸道症状检测方法,其特征在于,包括以下步骤:
步骤1:利用智能手机麦克风,收集驾驶环境中不同的驾驶员和乘客咳嗽、打喷嚏和吸鼻子的声音信号,基于自适应子带谱熵去噪方法,即ABSE去噪方法,滤去收集到声音信号中的汽车行驶噪声;
步骤1.1:将智能手机置于车内,收集不同的驾驶员和乘客咳嗽、打喷嚏和吸鼻子三种行为的声音信号;
步骤1.2:将步骤1.1收集到的每个声音信号分成相同长度的子段,选取开始部分的n个子段声音信号进行快速傅里叶变换,然后计算子段声音的平均能量谱,并初始化ABSE的阈值Ts=μθ+α·σθ
其中,
Figure FDA0002760582420000011
Hb(l)是第l个子段的ABSE值;α表示权值;
步骤1.3:计算下一子段声音信号的ABSE值,并和步骤1.2得到的阈值进行对比;若该子段声音的ABSE值超过阈值,则对该子段声音进行FFT并计算能量谱,然后用该子段声音的能量谱减去步骤1.2得到的平均能量谱,并进行逆快速傅里叶变换,得到该子段声音去噪后的声音信号;若该子段声音的ABSE值未超过阈值,则根据该子段声音的能量谱更新平均能量谱;
步骤1.4:重复步骤1.3,直到所有声音信号去噪完毕;将去噪后的声音信号通过高通滤波器滤去低频段的信号,然后取出滤波后的声音信号中包含咳嗽、打喷嚏和吸鼻子声音段,将这些声音段切分成不同信号帧,每一信号帧包含一次呼吸道症状,并用相应的行为对这些信号帧进行标记;
步骤2:对于步骤1中得到的去噪且标记的信号帧,提取每一帧的基于梅尔倒频谱系MFCC和伽马倒频谱系数GFCC的混合式声学特征,利用该特征训练一个基于长短时记忆LSTM神经网络的分类器;
步骤3:在实际应用中,利用车内智能手机的麦克风持续收集车内的声音信号;利用步骤1的方法,从收集到的声音信号中去除汽车行驶噪声,并将去噪后的声音信号进行切分和补齐,使得每一段声音信号成为等长的信号帧;然后利用步骤2的方法,提取每一信号帧的声学特征,并将特征送入训练好的分类器进行判断;一旦分类器判断出有咳嗽、打喷嚏或者吸鼻子行为,则记录相应呼吸道症状并记录累计发生次数。
2.如权利要求1所述的驾驶环境下基于智能手机扬音频感知的呼吸道症状检测方法,其特征在于,步骤2包括以下步骤:
步骤2.1:对于步骤1得到的每个包含一次呼吸道症状信号的信号帧,分成长度相同的子帧,计算每个子帧的12维MFCC特征,并取每个子帧的前10维MFCC特征拼接成为该帧的MFCC特征向量;
步骤2.2:对于步骤1得到的每个包含一次呼吸道症状的信号帧,分成长度相同的子帧,计算每个子帧的31维的GFCC特征,并取每个子帧的前20维GFCC特征拼接成为该帧的GFCC特征向量;
步骤2.3:将步骤2.1得到的MFCC向量和步骤2.2得到的GFCC向量,拼接成一个混合式特征向量,然后将该混合式特征向量送入一个3层的LSTM网络进行训练,得到驾驶环境下三种呼吸道症状声音的分类器;
其中,LSTM网络包含2个LSTM层和1个全连接层,采用Tanh作为激活函数,每个LSTM层后面加上batch normalization层,用交叉熵代价函数作为损失函数;该LSTM网络的timestep值设为6,即每次的输入为当前子帧的特征向量和当前子帧之前的5个子帧的特征向量;对于第t个timestep,LSTM层利用ht=δ(W0[ht-1,xt+b0])·tanh(St),将输入xt映射为一个压缩向量ht,其中,W0和b0分别表示权重矩阵和偏置向量,St代表第t个timestep的状态,δ()表示激活函数;ht-1表示前一个timestep对应的压缩向量。
3.如权利要求1所述的驾驶环境下基于智能手机扬音频感知的呼吸道症状检测方法,其特征在于,步骤3包括以下步骤:
步骤3.1:利用用户手机的麦克风,持续接受车内的声音信号;
步骤3.2:对于步骤3.1收集到的声音信号,首先去除收集到的声音信号中的驾驶噪声,选出ABSE值超过阈值的声音子段;若连续几个超过阈值的声音子段的总时长超过时间阈值T_1,则将该子段和切分成重叠的固定长度的子帧;若连续几个超过阈值的声音子段的总时长小于另一时间阈值T_2,则舍弃该子段和;若连续几个超过阈值的声音子段的总时长大于T_2小于T_1,则扩展该子段和长度为固定的帧长;然后,将每个帧通过一个高通滤波器进行滤波。
步骤3.3:对于步骤3.2得到的每个固定长度的滤波后的信号帧,计算该信号帧的MFCC特征向量,然后计算该帧的GFCC特征向量,将两个向量拼接成该帧的混合式特征向量,送入训练好的LSTM网络进行分类,判断该帧是否包含咳嗽、打喷嚏或吸鼻子行为。
CN202011216514.2A 2020-11-04 2020-11-04 驾驶环境下基于智能手机音频感知的呼吸道症状检测方法 Pending CN112309423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011216514.2A CN112309423A (zh) 2020-11-04 2020-11-04 驾驶环境下基于智能手机音频感知的呼吸道症状检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011216514.2A CN112309423A (zh) 2020-11-04 2020-11-04 驾驶环境下基于智能手机音频感知的呼吸道症状检测方法

Publications (1)

Publication Number Publication Date
CN112309423A true CN112309423A (zh) 2021-02-02

Family

ID=74325622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011216514.2A Pending CN112309423A (zh) 2020-11-04 2020-11-04 驾驶环境下基于智能手机音频感知的呼吸道症状检测方法

Country Status (1)

Country Link
CN (1) CN112309423A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951267A (zh) * 2021-02-23 2021-06-11 恒大新能源汽车投资控股集团有限公司 一种乘车人健康监测方法和车载终端
JP2023018658A (ja) * 2021-07-27 2023-02-08 上海交通大学医学院付属第九人民医院 機械学習による音声手法に基づく困難気道の評価方法及び装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413113A (zh) * 2013-01-15 2013-11-27 上海大学 一种服务机器人智能情感交互的方法
US20160210988A1 (en) * 2015-01-19 2016-07-21 Korea Institute Of Science And Technology Device and method for sound classification in real time
CN110383375A (zh) * 2017-02-01 2019-10-25 瑞爱普健康有限公司 用于检测噪声背景环境中的咳嗽的方法和设备
CN110390952A (zh) * 2019-06-21 2019-10-29 江南大学 基于双特征2-DenseNet并联的城市声音事件分类方法
CN110719553A (zh) * 2018-07-13 2020-01-21 国际商业机器公司 具有认知声音分析和响应的智能扬声器***
CN110853620A (zh) * 2018-07-25 2020-02-28 音频分析有限公司 声音检测

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413113A (zh) * 2013-01-15 2013-11-27 上海大学 一种服务机器人智能情感交互的方法
US20160210988A1 (en) * 2015-01-19 2016-07-21 Korea Institute Of Science And Technology Device and method for sound classification in real time
CN110383375A (zh) * 2017-02-01 2019-10-25 瑞爱普健康有限公司 用于检测噪声背景环境中的咳嗽的方法和设备
CN110719553A (zh) * 2018-07-13 2020-01-21 国际商业机器公司 具有认知声音分析和响应的智能扬声器***
CN110853620A (zh) * 2018-07-25 2020-02-28 音频分析有限公司 声音检测
CN110390952A (zh) * 2019-06-21 2019-10-29 江南大学 基于双特征2-DenseNet并联的城市声音事件分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张科等: "基于融合特征以及卷积神经网络的环境声音分类***研究", 《西北工业大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951267A (zh) * 2021-02-23 2021-06-11 恒大新能源汽车投资控股集团有限公司 一种乘车人健康监测方法和车载终端
JP2023018658A (ja) * 2021-07-27 2023-02-08 上海交通大学医学院付属第九人民医院 機械学習による音声手法に基づく困難気道の評価方法及び装置
JP7291319B2 (ja) 2021-07-27 2023-06-15 上海交通大学医学院付属第九人民医院 機械学習による音声手法に基づく困難気道の評価方法及び装置

Similar Documents

Publication Publication Date Title
CN112309423A (zh) 驾驶环境下基于智能手机音频感知的呼吸道症状检测方法
CN104916289A (zh) 行车噪声环境下快速声学事件的检测方法
CN102499699B (zh) 基于脑电信号的车载嵌入式路怒驾驶状态检测装置及方法
CN110600054B (zh) 基于网络模型融合的声场景分类方法
Vij et al. Smartphone based traffic state detection using acoustic analysis and crowdsourcing
CN109816987B (zh) 一种汽车鸣笛电子警察执法抓拍***及其抓拍方法
CN111261189B (zh) 一种车辆声音信号特征提取方法
WO2009046359A2 (en) Detection and classification of running vehicles based on acoustic signatures
CN109965889B (zh) 一种利用智能手机扬声器和麦克风的疲劳驾驶检测方法
CN109009125B (zh) 基于移动终端音频的驾驶员细粒度呼吸监测方法及***
CN107179119A (zh) 提供声音检测信息的方法和装置以及包括该装置的车辆
CN109949823A (zh) 一种基于dwpt-mfcc与gmm的车内异响识别方法
CN115052761B (zh) 一种检测轮胎异常的方法和装置
CN110880328B (zh) 到站提醒方法、装置、终端及存储介质
CN109741609B (zh) 一种基于麦克风阵列的机动车鸣笛声监测方法
Foggia et al. Car crashes detection by audio analysis in crowded roads
Lee et al. Acoustic hazard detection for pedestrians with obscured hearing
Kubo et al. Design of ultra low power vehicle detector utilizing discrete wavelet transform
Qi et al. A low-cost driver and passenger activity detection system based on deep learning and multiple sensor fusion
CN206671813U (zh) 纯电动或混合动力汽车行人警示音控制***
Sobreira-Seoane et al. Automatic classification of traffic noise
CN112230208B (zh) 一种基于智能手机音频感知的汽车行驶速度检测方法
CN109389994A (zh) 用于智能交通***的声源识别方法及装置
CN110956977A (zh) 一种汽车鸣笛实时定位***及方法
CN116092193A (zh) 一种基于人体运动状态识别的行人航迹推算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210202

RJ01 Rejection of invention patent application after publication