CN111785300A - 一种基于深度神经网络的哭声检测方法和*** - Google Patents

一种基于深度神经网络的哭声检测方法和*** Download PDF

Info

Publication number
CN111785300A
CN111785300A CN202010535453.XA CN202010535453A CN111785300A CN 111785300 A CN111785300 A CN 111785300A CN 202010535453 A CN202010535453 A CN 202010535453A CN 111785300 A CN111785300 A CN 111785300A
Authority
CN
China
Prior art keywords
data
crying
neural network
sound data
deep neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010535453.XA
Other languages
English (en)
Other versions
CN111785300B (zh
Inventor
刘艳芳
魏庆凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuaiyu Electronics Co ltd
Original Assignee
Beijing Kuaiyu Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuaiyu Electronics Co ltd filed Critical Beijing Kuaiyu Electronics Co ltd
Priority to CN202010535453.XA priority Critical patent/CN111785300B/zh
Publication of CN111785300A publication Critical patent/CN111785300A/zh
Application granted granted Critical
Publication of CN111785300B publication Critical patent/CN111785300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Emergency Alarm Devices (AREA)

Abstract

本发明公开了一种基于深度神经网络的哭声检测方法和***,属于声音检测***;通过实时获取待检测环境的声音数据,再将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果,最后根据输出结果得到是否检测到哭声的结论。实时的获取声音数据进行检测,能够及时发出警告;同时将获取的声音数据通过经过合成数据训练的深度神经网络模型,能够在不同的场景中检测到哭声,同时也能够将易混淆的声音区分出来。大大提高了检测的准确率。

Description

一种基于深度神经网络的哭声检测方法和***
技术领域
本发明涉及声音检测领域,特别地,涉及一种基于深度神经网络的哭声检测方法和***。
背景技术
婴幼儿是祖国的希望,但是保姆虐婴,幼师打骂儿童事件屡见不鲜,从而引起父母深深的担忧。所以实时检测婴幼儿哭声事件,并能及时反馈给父母或者报警***,显得尤为重要。目前婴幼儿哭声检测技术,大多是对于家居环境下的婴儿进行哭声检测,卧室、家居环境一般较安静,底噪比较低。而对于环境比较复杂的非家居环境比如幼儿园、公园等,这些检测的准确率会明显降低,容易出现误报、漏报现象。同时对于一些易混淆的声音,与哭声类似,容易误检测成哭声,如喵喵叫、笑声)、叽叽喳喳谈话声、吱吱叫、尖声喊叫等。
发明内容
为了克服现有技术的不足,本发明提供一种基于深度神经网络的、能够在环境比较复杂的场景应用且能够区分易混淆声音的哭声检测方法和***。
本发明解决其技术问题所采用的技术方案是:
一方面,
一种基于深度神经网络的哭声检测方法,包括以下步骤:
获取待检测环境的声音数据;
将所述声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;
根据所述输出结果得到是否检测到哭声的结论。
进一步地,所述获取待检测环境的声音数据包括:
采用拾音器对待检测环境进行录音获得音频信号;
对所述音频信号进行音频特征提取和数据增强得到声音数据。
进一步地,所述经过合成数据训练的深度神经网络模型为采用纯净哭声数据、场景声音数据和易混声音数据合成的数据集训练得到的深度神经网络模型。
进一步地,所述深度神经网络模型的训练步骤为:
获取合成的数据集,所述数据集包括合成的音频信号;
根据所述合成的音频信号进行音频特征提取并进行数据增强得到深度神经网络的输入;
根据所述输入对深度神经网络模型进行训练。
进一步地,所述进行音频特征提取包括:
将音频信号进行预加重、分帧和加窗以及通过快速傅里叶变换得到频谱;
将所述频谱通过mel滤波器得到mel频谱;
对所述mel频谱取对数得到对数mel频谱特征。
进一步地,所述数据增强的方法包括:mixup、缩放和遮盖,所述数据增强用于消除模型的过拟合现象。
进一步地,所述获取合成的数据集包括:
分别获取纯净哭声数据、易混声音数据以及场景声音数据;
对所述纯净哭声数据、易混声音数据以及场景声音数据使用基于svm的半监督分类进行注释,并标注开始时间和结束时间形成样本标签;
将所述开始时间和所述结束时间内的纯净哭声数据的音频片段与易混声音数据以及场景声音数据进行混合,形成混合样本以及混合样本标签,即合成的数据集。
进一步地,所述输出结果为预设帧数内的音频信号是哭声的概率。
进一步地,根据所述输出结果得到是否检测到哭声的结论包括:
将所述概率与预设概率值进行比较;
若所述概率不小于所述预设概率值,则得出检测到哭声的结论;若所述概率小于所述预设概率值,则得出未检测到哭声的结论。
另一方面,
一种基于深度神经网络的哭声检测***,包括:
数据获取模块,获取待检测环境的声音数据;
模型输出模块,用于将所述声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;
结论获取模块,用于根据所述输出结果得到是否检测到哭声的结论。
本申请采用以上技术方案,至少具备以下有益效果:
本发明技术方案公开了一种基于深度神经网络的哭声检测方法和***,通过实时获取待检测环境的声音数据,再将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果,最后根据输出结果得到是否检测到哭声的结论。实时的获取声音数据进行检测,能够及时发出警告;同时将获取的声音数据通过经过合成数据训练的深度神经网络模型,能够在不同的场景中检测到哭声,同时也能够将易混淆的声音区分出来。大大提高了检测的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于深度神经网络的哭声检测方法的流程图;
图2是本发明实施例提供的另一种基于深度神经网络的哭声检测方法的流程图;
图3是本发明实施例提供的一种基于深度神经网络的哭声检测***的结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明的技术方案进行详细的描述说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。
参照图1,本发明实施例提供了一种基于深度神经网络的哭声检测方法,包括以下步骤:
实时获取待检测环境的声音数据;
将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;
根据输出结果得到是否检测到哭声的结论。
本发明实施例提供的一种基于深度神经网络的哭声检测方法,通过实时获取待检测环境的声音数据,再将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果,最后根据输出结果得到是否检测到哭声的结论。实时的获取声音数据进行检测,能够及时发出警告;同时将获取的声音数据通过经过合成数据训练的深度神经网络模型,能够在不同的场景中检测到哭声,同时也能够将易混淆的声音区分出来。大大提高了检测的准确率。
作为对上述实施例的进一步改进说明,本发明实施例提供了另一种基于深度神经网络的哭声检测方法,如图2所示,包括训练部分和预测部分,其中预测部分包括以下步骤:
实时获取待检测环境的声音数据;
具体的,采用拾音器对待检测环境进行录音获得音频信号;一些可选实施例中,拾音器包括但不限于:手机麦克风或者需要做哭声检测的产品麦克风。
对音频信号进行音频特征提取和数据增强得到声音数据。音频特征提取和数据增强详见下文。
将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;
其中,经过合成数据训练的深度神经网络模型为采用纯净哭声数据、场景声音数据和易混声音数据合成的数据集训练得到的深度神经网络模型。
进一步地,输出结果为预设帧数内的音频信号是哭声的概率。优选地,将提取得到的音频特征输入到训练好的神经网络模型,从而得到预测结果,该结果是299帧(3.5s)音频信号是哭声的概率p,0<=p<=1。这样避免了只考虑单帧而引起的预测结果不稳定的问题。
根据输出结果得到是否检测到哭声的结论。
由于在实时检测中,得到的结论只能是检测到哭声和没有检测到哭声两种情况,而根据深度神经网络模型得到的概率只是一个数值,因此必须根据这个概率得到其是否检测到哭声的结论。
示例性的,实时预测时,可以设置预测频率即每隔多久输出一次预测结果。当采集音频长度小于299帧时,会进行数据填充操作,输出预测结果。当超过299帧时,会根据设置的预测频率,输出当前时刻前299帧的预测结果。优选地,本发明实施例中预测频率为0.5s。
得到每299帧的状态预测概率为0~1的概率值,而最终需要的结果是有婴幼儿哭声或正常的判断结果。因此需要选择合适的阈值,将概率p转化为二值化的判断结果。
可选地,将概率与预设概率值进行比较;
若概率不小于预设概率值,输出值为1,得出检测到哭声的结论;若概率小于预设概率值,输出值为0,得出未检测到哭声的结论。
其中,训练部分主要为度神经网络模型的训练步骤,包括:
获取合成的数据集,数据集包括合成的音频信号;
一些可选实施例中,获取合成的数据集包括:
分别获取纯净哭声数据、易混声音数据以及场景声音数据;具体地,纯净的哭声数据包括日常安静环境录制以及网络收集,采样频率一般为44.1kHz;场景声音数据选择了一些典型的发生场景,如校园、教室、小型室内、办公室、公园、广场、商场、图书馆等等,数据获取方式同样包含自行录制和网络搜集。
对纯净哭声数据、易混声音数据以及场景声音数据使用基于svm的半监督分类进行注释,并标注开始时间和结束时间形成样本标签;一些可选实施例中,进一步地,对于收集的音频进行人工确认标注,确认标签。
将开始时间和结束时间内的纯净哭声数据的音频片段与易混声音数据以及场景声音数据进行混合,形成混合样本以及混合样本标签,即合成的数据集。
具体地,将哭声和易混声音数据与不同场景声音数据进行混合。具体操作为将纯净哭声数据和易混声音数据样本,根据标注的开始和结束时间,截取出相应的音频片段,然后与场景声音数据进行混合,形成新的混合样本和样本标签。控制合成样本的参数包括:样本与背景的信噪比(可选地,信噪比为-6dB/0dB/6dB中的任意一个),音频片段***位置与长度(示例性的,位置随机,长度不超过3s),生成合成样本的个数与标签(示例性的,合成哭声样本10000个,非哭声样本20000个。哭声合成样本标签为“哭声”,易混声音数据合成样本和场景音频的标签为“正常”),合成音频的采样率和长度(示例性的,采样率为44.1KHz,合成音频长度是4s,其中***音频最长为3s,背景音频长度为4s)。
根据合成的音频信号进行音频特征提取并进行数据增强得到深度神经网络的输入;作为本发明实施例中一种优选的实现方式,模型网络结构采用inception模块,该模块同一层级有多个尺寸的卷积核,从而拓宽网络的宽度,充分利用图像的信息。并且使用尺寸为1的卷积核,使得模型参数大大降低。训练损失函数为二分类交叉熵,采用adam优化器进行梯度下降运算。最终哭声检测模型测试集准确率为99%以上,实时预测时误报很少,而且预测概率值稳定在1左右。
根据输入对深度神经网络模型进行训练。对深度神经网络模型进行训练为本领域常用技术手段,在此不再详述。
需要说明的是,在训练部分和预测部分都包括的进行音频特征提取和数据增强,其中,音频特征提取包括:
将音频信号进行预加重、分帧和加窗以及通过快速傅里叶变换得到频谱;
将频谱通过mel滤波器得到mel频谱;
对mel频谱取对数得到对数mel频谱特征。
具体地,参数设置一般为:采样率44.1kHz,窗长2048个采样点,窗移512个采样点,选用汉明(hamming)窗,从而降低fft时矩形窗的频谱泄露,帧数是299,mel滤波器个数为128。为了匹配神经网络模型,本发明实施例将音频三个相同的对数mel频谱特征进行拼接,得到音频特征的维度为(128,299,3)。
一些可选实施例中,数据增强的方法包括但不限于:mixup、缩放和遮盖,数据增强用于消除模型的过拟合现象。
本发明实施例提供的另一种基于深度神经网络的哭声检测方法,采用哭声事件和易混事件与背景声混合的方式,形成鲁棒性更好的数据集,并训练得到能够适用于多种场景的卷积神经网络模型。该模型可以实时的对各种场景的哭声事件进行检测,而且更充分的利用了音频信号的信息,从而具有更强的鲁棒性和更高的准确率。相比于只针对特定环境分析、基音频率分析、svm分类等方法,本发明具有更广泛的适用性,而且实时性好,精度高。本方法通过纯净的哭声事件和哭声相似事件与多种生活场景数据混合方式得到数据集、训练深度卷积神经网络,对生活中的哭声事件进行检测。相对于已有方案有两方面优点:一是选用的数据集鲁棒性强,训练的模型适用于多数场景而且误报率低;二是建立inception模块的卷积神经网络,模型参数少,精度高,方便应用到所需设备上。哭声检测模型在测试集上的准确率为99%以上,实时预测时误报很少,而且预测概率值很稳定,接近1。
一个实施例中,如图3所示,本发明还提供了一种基于深度神经网络的哭声检测***300,包括:
数据获取模块301,用于实时获取待检测环境的声音数据;
一些实施例中,数据获取模块采用拾音器对待检测环境进行录音获得音频信号;对音频信号进行音频特征提取和数据增强得到声音数据。
模型输出模块302,用于将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;经过合成数据训练的深度神经网络模型为采用纯净哭声数据、场景声音数据和易混声音数据合成的数据集训练得到的深度神经网络模型。
结论获取模块303,用于根据输出结果得到是否检测到哭声的结论。其中,输出结果为预设帧数内的音频信号是哭声的概率。
具体地,结论获取模块用于将概率与预设概率值进行比较;
若概率不小于预设概率值,则得出检测到哭声的结论;若概率小于预设概率值,则得出未检测到哭声的结论。
本发明实施例提供的一种基于深度神经网络的哭声检测***,数据获取模块实时获取待检测环境的声音数据;模型输出模块将声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;结论获取模块根据输出结果得到是否检测到哭声的结论。通过适用于多种场景的卷积神经网络模型,可以实时的对各种场景的哭声进行检测,而且更充分的利用了音频信号的信息,从而具有更强的鲁棒性和更高的准确率。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于深度神经网络的哭声检测方法,其特征在于,包括以下步骤:
实时获取待检测环境的声音数据;
将所述声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;
根据所述输出结果得到是否检测到哭声的结论。
2.根据权利要求1所述的方法,其特征在于:所述实时获取待检测环境的声音数据包括:
采用拾音器对待检测环境进行录音获得音频信号;
对所述音频信号进行音频特征提取和数据增强得到声音数据。
3.根据权利要求1所述的方法,其特征在于:所述经过合成数据训练的深度神经网络模型为采用纯净哭声数据、场景声音数据和易混声音数据合成的数据集训练得到的深度神经网络模型。
4.根据权利要求3所述的方法,其特征在于:所述深度神经网络模型的训练步骤包括:
获取合成的数据集,所述数据集包括合成的音频信号;
根据所述合成的音频信号进行音频特征提取并进行数据增强得到深度神经网络的输入;
根据所述输入对深度神经网络模型进行训练。
5.根据权利要求2或4所述的方法,其特征在于:所述进行音频特征提取包括:
将音频信号进行预加重、分帧和加窗以及通过快速傅里叶变换得到频谱;
将所述频谱通过mel滤波器得到mel频谱;
对所述mel频谱取对数得到对数mel频谱特征。
6.根据权利要求2或4所述的方法,其特征在于:所述数据增强的方法包括:mixup、缩放和遮盖,所述数据增强用于消除模型的过拟合现象。
7.根据权利要求4所述的方法,其特征在于:所述获取合成的数据集包括:
分别获取纯净哭声数据、易混声音数据以及场景声音数据;
对所述纯净哭声数据、易混声音数据以及场景声音数据使用基于svm的半监督分类进行注释,并标注开始时间和结束时间形成样本标签;
将所述开始时间和所述结束时间内的纯净哭声数据的音频片段与易混声音数据以及场景声音数据进行混合,形成混合样本以及混合样本标签,即合成的数据集。
8.根据权利要求1所述的方法,其特征在于:所述输出结果为预设帧数内的音频信号是哭声的概率。
9.根据权利要求8所述的方法,其特征在于:根据所述输出结果得到是否检测到哭声的结论包括:
将所述概率与预设概率值进行比较;
若所述概率不小于所述预设概率值,则得出检测到哭声的结论;若所述概率小于所述预设概率值,则得出未检测到哭声的结论。
10.一种基于深度神经网络的哭声检测***,其特征在于,包括:
数据获取模块,用于实时获取待检测环境的声音数据;
模型输出模块,用于将所述声音数据输入到经过合成数据训练的深度神经网络模型中得到输出结果;
结论获取模块,用于根据所述输出结果得到是否检测到哭声的结论。
CN202010535453.XA 2020-06-12 2020-06-12 一种基于深度神经网络的哭声检测方法和*** Active CN111785300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010535453.XA CN111785300B (zh) 2020-06-12 2020-06-12 一种基于深度神经网络的哭声检测方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010535453.XA CN111785300B (zh) 2020-06-12 2020-06-12 一种基于深度神经网络的哭声检测方法和***

Publications (2)

Publication Number Publication Date
CN111785300A true CN111785300A (zh) 2020-10-16
CN111785300B CN111785300B (zh) 2021-05-25

Family

ID=72756262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010535453.XA Active CN111785300B (zh) 2020-06-12 2020-06-12 一种基于深度神经网络的哭声检测方法和***

Country Status (1)

Country Link
CN (1) CN111785300B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117935843A (zh) * 2024-03-22 2024-04-26 浙江芯劢微电子股份有限公司 一种低资源场景下的哭声检测方法、***

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103280220A (zh) * 2013-04-25 2013-09-04 北京大学深圳研究生院 一种实时的婴儿啼哭声识别方法
US20160027437A1 (en) * 2014-07-28 2016-01-28 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition and generation of speech recognition engine
US20160364963A1 (en) * 2015-06-12 2016-12-15 Google Inc. Method and System for Detecting an Audio Event for Smart Home Devices
CN107808658A (zh) * 2016-09-06 2018-03-16 深圳声联网科技有限公司 基于家居环境下实时的婴儿音频系列行为检测方法
US10217456B2 (en) * 2013-05-09 2019-02-26 International Business Machines Corporation Method, apparatus, and program for generating training speech data for target domain
CN110070893A (zh) * 2019-03-25 2019-07-30 成都品果科技有限公司 一种利用婴儿哭声进行情感分析的***、方法和装置
CN110085216A (zh) * 2018-01-23 2019-08-02 中国科学院声学研究所 一种婴儿哭声检测方法及装置
CN110097872A (zh) * 2019-04-30 2019-08-06 维沃移动通信有限公司 一种音频处理方法及电子设备
CN110176248A (zh) * 2019-05-23 2019-08-27 广西交通科学研究院有限公司 道路声音识别方法、***、计算机设备及可读存储介质
EP3557573A1 (en) * 2015-07-28 2019-10-23 Samsung Electronics Co., Ltd. Method and device for updating language model and performing speech recognition based on language model
CN110603588A (zh) * 2017-02-14 2019-12-20 爱浮诺亚股份有限公司 通信组装中用于用户声音活动检测的方法及其通信组装
CN111210811A (zh) * 2019-12-31 2020-05-29 深圳市瑞讯云技术有限公司 一种基音混合方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103280220A (zh) * 2013-04-25 2013-09-04 北京大学深圳研究生院 一种实时的婴儿啼哭声识别方法
US10217456B2 (en) * 2013-05-09 2019-02-26 International Business Machines Corporation Method, apparatus, and program for generating training speech data for target domain
US20160027437A1 (en) * 2014-07-28 2016-01-28 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition and generation of speech recognition engine
US20160364963A1 (en) * 2015-06-12 2016-12-15 Google Inc. Method and System for Detecting an Audio Event for Smart Home Devices
EP3557573A1 (en) * 2015-07-28 2019-10-23 Samsung Electronics Co., Ltd. Method and device for updating language model and performing speech recognition based on language model
CN107808658A (zh) * 2016-09-06 2018-03-16 深圳声联网科技有限公司 基于家居环境下实时的婴儿音频系列行为检测方法
CN110603588A (zh) * 2017-02-14 2019-12-20 爱浮诺亚股份有限公司 通信组装中用于用户声音活动检测的方法及其通信组装
CN110085216A (zh) * 2018-01-23 2019-08-02 中国科学院声学研究所 一种婴儿哭声检测方法及装置
CN110070893A (zh) * 2019-03-25 2019-07-30 成都品果科技有限公司 一种利用婴儿哭声进行情感分析的***、方法和装置
CN110097872A (zh) * 2019-04-30 2019-08-06 维沃移动通信有限公司 一种音频处理方法及电子设备
CN110176248A (zh) * 2019-05-23 2019-08-27 广西交通科学研究院有限公司 道路声音识别方法、***、计算机设备及可读存储介质
CN111210811A (zh) * 2019-12-31 2020-05-29 深圳市瑞讯云技术有限公司 一种基音混合方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IOANA-ALINA BĂNICĂ, HORIA CUCU: "Baby Cry Recognition in Real-World Conditions", 《IEEE》 *
高利剑,毛启容: "环境辅助的多任务混合声音事件检测方法", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117935843A (zh) * 2024-03-22 2024-04-26 浙江芯劢微电子股份有限公司 一种低资源场景下的哭声检测方法、***
CN117935843B (zh) * 2024-03-22 2024-07-23 浙江芯劢微电子股份有限公司 一种低资源场景下的哭声检测方法、***

Also Published As

Publication number Publication date
CN111785300B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
US20200227049A1 (en) Method, apparatus and device for waking up voice interaction device, and storage medium
US8971549B2 (en) Audio signal processing apparatus, audio signal processing method, and program
EP1081960B1 (en) Signal processing method and video/voice processing device
US8195038B2 (en) Brief and high-interest video summary generation
US7796860B2 (en) Method and system for playing back videos at speeds adapted to content
US8200061B2 (en) Signal processing apparatus and method thereof
CN106653059A (zh) 婴儿啼哭原因的自动识别方法及其***
CN108962284A (zh) 一种语音录制方法及装置
CN111785300B (zh) 一种基于深度神经网络的哭声检测方法和***
JP5723446B2 (ja) 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路
KR20160107734A (ko) 동영상의 시간정보를 이용한 유해 동영상 분류방법 및 장치
FR2910769A1 (fr) Procede de creation d&#39;un resume d&#39;un document audiovisuel comportant un sommaire et des reportages, et recepteur mettant en oeuvre le procede
CN112381054A (zh) 摄像机的工作状态检测方法及相关设备、***
CN113114986B (zh) 基于画面和声音同步的预警方法及相关设备
CN108093356B (zh) 一种啸叫检测方法及装置
CN112185421A (zh) 音质检测方法、装置、电子设备及存储介质
KR101369270B1 (ko) 멀티 채널 분석을 이용한 비디오 스트림 분석 방법
CN111767083B (zh) 误唤醒音频数据的收集方法、播放设备、电子设备、介质
CN112750458B (zh) 一种触屏声音检测方法和装置
US11048920B2 (en) Real-time modification of presentations based on behavior of participants thereto
CN114092726A (zh) 人脸比对阈值调节方法、装置和人脸识别设备及***
CN112309419B (zh) 多路音频的降噪、输出方法及其***
US20230326211A1 (en) System and method for artificial intelligence-based media matching for automating downstream media workflows
Otsuka et al. A video browsing enabled personal video recorder
CN105513103A (zh) 制作有声图片的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant