CN114254685A

CN114254685A - 声音检测模型的训练方法和装置、声音事件的检测方法

Info

Publication number: CN114254685A
Application number: CN202011011003.7A
Authority: CN
Inventors: 冯祺徽; 曹海涛
Original assignee: Midea Group Co Ltd
Current assignee: Midea Group Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2022-03-29

Abstract

本发明提供了一种声音检测模型的训练方法和装置、声音事件的检测方法，其中，声音检测模型的训练方法包括：获取训练声音信号，针对训练声音信号进行特征提取，建立二维特征图训练集；将神经网络模型导入二维特征图训练集，通过基于隐马尔可夫模型的损失函数对神经网络模型进行训练，得到声音检测模型。本发明实施例通过基于隐马尔科夫模型定义的损失函数，有利于通过声音事件检测来识别发生的特定事件，并针对发生的事件做出及时的应对，同时无需人员介入，使得声音检测不再依托于有经验的工人，一方面提高了检测效率，降低了检测门槛，另一方面不会对人的听觉造成损伤。

Description

声音检测模型的训练方法和装置、声音事件的检测方法

技术领域

本发明涉及声音检测技术领域，具体而言，涉及一种声音检测模型的训练方法、一种声音检测模型的训练装置、一种声音事件的检测方法、一种声音事件的检测装置、一种计算机设备、一种计算机可读存储介质和一种电子设备。

背景技术

在相关技术中，对产品进行声音质检属于工厂生产中的重要环节。可通过人工监听声音来判断是否出现螺丝没打紧、加热管没卡入支架等质量问题。但人工监听的方法效率低下，且容易对人的听觉造成损伤。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的第一方面提出一种声音检测模型的训练方法。

本发明的第二方面提出一种声音检测模型的训练装置。

本发明的第三方面提出一种声音事件的检测方法。

本发明的第四方面提出一种声音事件的检测装置。

本发明的第五方面提出一种计算机设备。

本发明的第六方面提出一种计算机可读存储介质。

本发明的第七方面提出一种电子设备。

有鉴于此，本发明的第一方面提供了一种声音检测模型的训练方法，包括：获取训练声音信号，针对训练声音信号进行特征提取，建立二维特征图训练集；将神经网络模型导入二维特征图训练集，通过基于隐马尔可夫模型的损失函数对神经网络模型进行训练，得到声音检测模型。

在该技术方案中，通过训练一种能够自动实现声音事件检测的神经网络模型，即一种声音检测模型，有利于实现自动的声音事件检测，提高声音事件检测的效率。

具体地，首先获取预先存储的训练声音信号，该训练声音信号为包含了多种声音“事件”的音频数据，针对于不同应用场景，可选用不同的训练声音信号。

然后，通过特征提取方法，对预先存储的训练声音信号进行特征提取，以将一维的声音信息转化为二维的特征图，并形成为二维特征图训练集。在训练时，将预设的神经网络模型中导入特征提取后的二维特征图训练集，并通过基于隐马尔可夫模型来定义的损失函数，对神经网络模型进行训练，最终得到训练好的声音检测模型。其中，基于隐马尔科夫模型定义的损失函数的作用时可以对声音片段的整体长度进行判别，进而判断一个声音片段的时长，与其被预测包含的“事件”是否相对应，进而通过对事件时长，对一段声音片段中发生事件的概率进行加权，从而使得训练得到的声音检测模型对声音事件的检测更加准确。

其中，“事件”可以是出现了生产事故导致的事故声音事件，如物品跌落、玻璃碎裂等事故声音，也可以是生产的产品出现了特定的质量问题，如螺丝未打紧(螺丝未打紧时，产品在测试运转时可能会出现特定的噪音)、加热管未卡在支架中(加热管松脱时，可能会由于加热管活动导致产生特定的噪音)等质量问题的噪音，也可以是工厂正常生产活动中出现的其他声音，如人员之间的交谈、机器正常运转时的噪音、下工铃或其他告警音等，本发明实施例对声音信号中的“事件”的具体类型不做限定。

本发明实施例通过基于隐马尔科夫模型定义的损失函数，对神经网络模型进行训练，通过该方法训练得到的声音检测模型，能够实现对工厂、街道、小区等场所进行准确的声音事件检测，有利于通过声音事件检测来识别发生的特定事件，并针对发生的事件做出及时的应对，同时无需人员介入，使得声音检测不再依托于有经验的工人，一方面提高了检测效率，降低了检测门槛，另一方面不会对人的听觉造成损伤。

另外，本发明提供的上述技术方案中的声音检测模型的训练方法还可以具有如下附加技术特征：

在上述技术方案中，针对声音信号进行特征提取，具体包括：对训练声音信号进行分帧，得到样本帧；通过第一窗函数对样本帧进行加窗处理，并对加窗后的样本帧进行特征提取，得到二维特征图训练集。

在该技术方案中，在对声音进行特征提取时，首先对声音信号进行分帧处理，得到一定长度的样本帧，其中每个样本帧为一个声音片段，且相邻的两个样本帧之间可以存在部分重叠。其中，样本帧的帧长度(声音样本的时长)和重叠长度可根据训练声音检测模型所要针对的具体应用的场景进行调整，举例来说，样本帧可以是帧长40ms，相邻的两个样本帧之间重叠20ms。能够理解的是，上述帧长和重叠帧长仅作为说明用的例子，本发明实施例对样本帧的长度和重叠长度不做限定。

在通过分帧的方法得到多个样本帧之后，进一步通过预设的第一窗函数，对得到的样本帧进行加窗处理。其中，窗函数可以是矩形窗，或非矩形窗，如汉明窗、汉宁窗等，本发明实施例对窗函数的具体类型不做限定。

在加窗处理后，进一步通过特征提取方法，对完成加窗的样本帧进行特征提取，进而得到二维的特征图训练集，将该二维特征图作为神经网络模型的训练材料，有利于加快声音检测模型的训练速度，能够增加最终得到的声音检测模型对声音事件的识别准确度。

在上述任一技术方案中，通过基于隐马尔可夫模型的损失函数对神经网络模型进行训练，具体包括：将神经网络模型输出的样本帧为事件帧的后验概率，输入至目标损失函数中；获取目标损失函输出的当前损失值，以目标损失值范围为目标持续训练神经网络模型，直至当前损失值落入目标损失值范围内。

在该技术方案中，在通过二维特征图训练集，对预设的神经网络模型进行训练时，将二维特征图训练集输入至神经网络模型中，神经网络模型会针对输入的二维特征图训练集，输出一个特定结果，具体为所输入的样本帧为“事件帧”的后验概率。

此处，如果一段声音片段(一个样本帧)中发生了“事件”，则将该声音片段(样本帧)确定为一个事件帧，相对应的，一个样本帧为事件帧的后验概率越高，也就说明这个样本帧中越有可能发生了“事件”。

在接收到神经网络模型输出的后验概率之后，将这个后验概率的值输入至基于隐马尔科夫模型的损失函数中，通过损失函数能够得到当前神经网络模型的损失值。其中，损失值能够代表神经网络模型当前的预测结果，与实际结果之间的差距，损失值越小，则说明神经网络模型的预测结果越准确。

在得到当前神经网络模型的当前损失值之后，将当前损失值与预设的目标损失值进行对比，并以目标损失值为目标，对神经网络模型进行持续的训练，通过输入更多的训练集来提高神经网络模型的预测准确度。当获取到神经网络模型预测的后验概率，其对应的当前损失值落入目标损失值范围之内时，则说明当前神经网络模型的预测准确度能够满足需求，此时保存当前训练得到的神经网络模型，并将其确定为作为目标的声音检测模型。

本发明实施例通过基于隐马尔科夫模型定义的损失函数，对神经网络模型进行训练，使得最终得到的声音检测模型判断一个声音片段的时长，与其被预测包含的“事件”是否相对应，进而通过对事件时长，对一段声音片段中发生事件的概率进行加权，有利于提高声音检测模型对声音事件识别的准确性。

在上述任一技术方案中，在通过目标损失函数对预设的神经网络模型进行训练之前，声音检测模型的训练方法还包括：获取预设的初始损失函数；通过隐马尔可夫模型的隐状态参数，根据神经网络模型输出的任一声音事件中事件帧的已持续帧数，对声音事件的后验概率进行加权，以得到基于隐马尔可夫模型的损失函数。

在该技术方案中，最终定义得到的损失函数具体如下：

其中，L为目标损失函数的值，o_t为第t帧对应的事件状态，o_t＝(0，1)，

为第1帧至第T帧的事件状态序列，

为第1帧至第T帧的二维特征图的序列，

为第t帧对应的后验概率，d_t-1为第t-1帧对应时刻下事件已持续的帧数，D(o_t|d_t-1)为隐马尔可夫模型的隐状态参数。

具体地，当o_t＝1时，则说明第t帧发生了事件，当o_t＝0时，则说明第t帧没有发生事件。通过上述损失函数的值为目标，对神经网络模型进行训练，能够使得神经网络模型学习到每一类事件的长度分布，从而使得最终得到的声音检测模型能够更加准确的对每一类事件进行分辨识别，有利于提高声音检测模型的检测精度。

在上述任一技术方案中，针对声音信号进行特征提取，具体包括：梅尔能量谱特征提取法、短时傅里叶变换提取法、梅尔倒谱系数提取法、巴克(Bark)域能量谱提取法、等效矩形带宽域(Erb，Equvivalent rectangular bandwidth)能量谱提取法或伽马通(Gammatone)倒谱系数提取法；以及神经网络模型具体包括：卷积-递归神经网络、卷积神经网络、递归神经网络、隐马尔科夫模型、高斯混合模型或支持向量机。

在该技术方案中，根据不同的声音环境，或特别针对不同的声音事件类型，选用梅尔能量谱特征提取法、短时傅里叶变换提取法、梅尔倒谱系数提取法、Bark域能量谱提取法、Erb域能量谱提取法或Gammatone倒谱系数提取法中的任意一种特征提取方法，来将一维的声音信号转换成为二维的特征图。本发明实施例对特征提取方法的具体类型不做限定。

为了适应多种应用环境，在进行声音事件的识别时，可以通过卷积-递归神经网络、卷积神经网络、递归神经网络、隐马尔科夫模型、高斯混合模型或支持向量机中的任意一种作为应用的神经网络模型，也可以选用上述神经网络模型中的多重，形成“多级”的神经网络模型。本发明实施例对神经网络模型的具体形态不做限定。

本发明第二方面提供了一种声音检测模型的训练装置，包括：信号处理模块，用于获取训练声音信号，针对声音信号进行特征提取，建立二维特征图训练集；训练模块，用于将预设的神经网络模型导入二维特征图训练集，通过目标损失函数对预设的神经网络模型进行训练，得到声音检测模型。

在该技术方案中，通过声音检测模型的训练装置，训练一种能够自动实现声音事件检测的神经网络模型，即声音检测模型，有利于实现自动的声音事件检测，提高声音事件检测的效率。

本发明第三方面提供了一种声音事件的检测方法，包括：通过上述任一技术方案中提供的声音检测模型的训练方法训练得到的声音检测模型，在待检测声音信号中确定至少一个事件帧；根据事件帧确定对应的检测结果，输出检测结果。

在该技术方案中，通过利用训练得到的声音检测模型，对待检测声音信号进行检测识别，有利于实现自动的声音事件检测，提高声音事件检测的效率。

具体地，对获取到的待检测信号，如通过麦克风等拾音设备，在工厂生产产品的过程中产生的声音进行拾取，进而得到工厂生产时声音的模拟信号或数字信号。通过该声音检测模型，可以对待检测信号进行声音检测分析，进而确定声音信号中包含的至少一个事件帧。

通过事件帧确定检测结果，如：“检测到16：00至16：01发生了螺丝松脱事件”。

其中，声音检测模型通过基于隐马尔科夫模型定义的损失函数训练得到，因此能够判断一个声音片段的时长，与其被预测包含的“事件”是否相对应，进而通过对事件时长，对一段声音片段中发生事件的概率进行加权，从而使得对声音事件的检测更加准确。

本发明实施例通过声音事件检测来识别发生的特定事件，并针对发生的事件做出及时的应对，同时无需人员介入，使得声音检测不再依托于有经验的工人，一方面提高了检测效率，降低了检测门槛，另一方面不会对人的听觉造成损伤。

在上述技术方案中，在待检测声音信号中确定至少一个事件帧，具体包括：针对待检测声音信号进行特征提取，建立二维特征图数据集；将声音检测模型导入二维特征图数据集，获取声音检测模型输出的至少一个事件帧。

在该技术方案中，在通过声音检测模型来确定待检测声音信号中的事件帧时，首先对待检测声音信号进行数据处理。具体地，首先通过特征提取方法，对待检测声音信号进行特征提取，进而将一维的声音信号转化为二维的特征图，最终建立对应的二维特征图数据集。

将建立好的二维特征图数据集输入到声音检测模型中，声音检测模型能够根据二维特征图数据集，预测对应的声音片段中是否发生了事件，进而输出对应的事件帧，实现对声音事件的准确检测，且该过程中无需人工介入，能够有效避免对人的听觉造成损伤等问题。

在上述任一技术方案中，获取声音检测模型输出的至少一个事件帧，具体包括：通过声音检测模型确定二维特征图数据集对应的多个时间帧；通过解空间算法分别计算每一个时间帧为事件帧的后验概率，将后验概率高于概率阈值的时间帧确定为事件帧。

在该技术方案中，一个“时间帧”就是一个声音片段，每个二维特征图数据集中可能包括有多个这样的时间帧，而声音检测模型可以分别预测每一个时间帧中发生“事件”的可能性，即一个时间帧具体为事件帧的后验概率。具体地，可通过解空间算法，来分别计算全部时间帧中的每一个时间帧，是事件帧的后验概率。

当一个事件帧为事件帧的后验概率，高于预设的后验概率阈值时，则认为这个声音片段中发生了事件，因此将对应的时间帧标记为一个事件帧，最终对得到的一个或多个事件帧进行规整，形成为最终的输出结果,有利于通过声音事件的检测结果来识别发生的特定事件，并针对发生的事件做出及时的应对。

在上述任一技术方案中，通过解空间算法分别计算每一个时间帧为事件帧的后验概率，具体包括：通过时间帧建立对应的时间帧序列，构建时间帧序列对应的事件序列的解空间；在解空间中，对事件序列进行求解，以得到每一个时间帧为事件帧的后验概率；以及声音事件检测方法还包括：通过动态规划算法确定事件序列的最优解序列。

在该技术方案中，首先构建事件序列的解空间，这个解空间包括了全部时间帧上所有事件的可能的组合，其中解空间的大小约为2^TK，其中T是时间帧序列的总长度，K为全部事件的种类数。

进一步地，在上述解空间中，对事件序列

进行求解，其中，

为第1帧至第T帧的事件状态序列，o₁为第1帧对应的事件状态，o_T为第T帧对应的事件状态，当o_t＝1时，则说明第t帧为事件帧，当o_t＝0时，则说明第t帧为非事件帧。具体可采用如下计算公式进行求解：

进一步地，利用动态规划算法，对上述公式进行快速解搜索，最终求得最优解序列

也就是使目标函数达到最大值的解序列。

其中，目标函数具体为：

由于上述目标函数中的解数量很大，因此为了精简计算，定义初始函数为：

并进一步定义转移函数，对初始函数进行迭代求解，转移函数具体为：

其中，

o_t为第t帧对应的事件状态，o_t＝(0，1)，

为第1帧至第T帧的事件状态序列，

为第1帧至第T帧的二维特征图的序列，

对于上述动态规划算法，其时间复杂度约为KD²T，其中K为事件种类数，D为事件的最大长度，T为序列长度，在一些情况下，为了实现并行计算，可以将复杂度进行压缩，如压缩为D²T。

通过解空间算法求解每一个时间帧是事件帧的决策结果，通过该决策结果，能够表述一个序列中，每个时间帧是否被标记为事件帧，有利于提高声音事件的检测精度，提高检测效率。

在上述任一技术方案中，针对待检测声音信号进行特征提取，建立二维特征图数据集，具体包括：对待检测声音信号进行分帧，以得到信号帧；通过第二窗函数对信号帧进行加窗处理，通过特征提取方法对加窗处理后的信号帧进行特征提取，得到二维特征图数据集。

在该技术方案中，在对待检测声音信号进行特征提取时，首先对待检测声音信号进行分帧处理，得到一定长度的信号帧，其中每个信号帧为一个声音片段，且相邻的两个信号帧之间可以存在部分重叠。其中，信号帧的帧长度(声音样本的时长)和重叠长度可根据实际针对的具体应用的场景进行调整，举例来说，信号帧可以是帧长40ms，相邻的两个信号帧之间重叠20ms。能够理解的是，上述帧长和重叠帧长仅作为说明用的例子，本发明实施例对样本帧的长度和重叠长度不做限定。

在通过分帧的方法得到多个样本帧之后，进一步通过预设的第二窗函数，对得到的信号帧进行加窗处理。其中，窗函数可以是矩形窗，或非矩形窗，如汉明窗、汉宁窗等，本发明实施例对窗函数的具体类型不做限定。

在加窗处理后，进一步通过特征提取方法，对完成加窗的信号帧进行特征提取，进而得到二维的特征图数据集，将该二维特征图数据集作为声音检测模型的输入，有利于提高声音事件的识别速度和准确度。

在上述任一技术方案中，特征提取方法包括：梅尔能量谱特征提取法、短时傅里叶变换提取法、梅尔倒谱系数提取法、巴克(Bark)域能量谱提取法、等效矩形带宽域(Erb，Equvivalent rectangular bandwidth)能量谱提取法或伽马通(Gammatone)倒谱系数提取法。

本发明第四方面提供了一种声音事件的检测装置，包括：检测模块，用于通过上述任一技术方案中提供的声音检测模型的训练方法训练得到的声音检测模型，在待检测声音信号中确定至少一个事件帧；输出模块，用于根据事件帧确定对应的检测结果，输出检测结果。

本发明第五方面提供了一种计算机设备，包括：存储器，其上存储有计算机程序；处理器，被配置为执行该计算机程序时实现如上述任一技术方案中提供的声音检测模型的训练方法的步骤，和/或如上述任一技术方案中提供的声音事件的检测方法的步骤，因此，该计算机设备同时包括如上述任一技术方案中提供的声音检测模型的训练方法和上述任一技术方案中提供的声音事件的检测方法的全部有益效果，在此不再赘述。

本发明第六方面提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时能够实现如上述任一技术方案中提供的声音检测模型的训练方法的步骤，和/或如上述任一技术方案中提供的声音事件的检测方法的步骤，因此，该计算机可读存储介质同时包括如上述任一技术方案中提供的声音检测模型的训练方法和上述任一技术方案中提供的声音事件的检测方法的全部有益效果，在此不再赘述。

本发明第七方面提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，处理器被配置为通过计算机程序执行如上述任一技术方案中提供的声音检测模型的训练方法的步骤，和/或如上述任一技术方案中提供的声音事件的检测方法的步骤，因此，该电子设备同时包括如上述任一技术方案中提供的声音检测模型的训练方法和上述任一技术方案中提供的声音事件的检测方法的全部有益效果，在此不再赘述。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了根据本发明实施例的声音检测模型的训练方法的流程图之一；

图2示出了根据本发明实施例的声音检测模型的训练方法的流程图之二；

图3示出了根据本发明实施例的声音检测模型的训练方法的流程图之三；

图4示出了根据本发明实施例的声音检测模型的训练方法的流程图之四；

图5示出了根据本发明实施例的声音检测模型的训练装置的结构框图；

图6示出了根据本发明实施例的声音事件的检测方法的流程图之一；

图7示出了根据本发明实施例的声音事件的检测方法的流程图之二；

图8示出了根据本发明实施例的声音事件的检测方法的流程图之三；

图9示出了根据本发明实施例的声音事件的检测方法的流程图之四；

图10示出了根据本发明实施例的声音事件的检测方法的流程图之五；

图11示出了根据本发明实施例的声音事件的检测装置的结构框图；

图12示出了根据本发明实施例中声音检测模型的生成逻辑示意图；

图13示出了根据本发明实施例中声音信号与声音事件检测的对应图；

图14示出了据本发明实施例的计算机设备的结构框图；

图15示出了根据本发明实施例的电子设备的结构框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

下面参照图1至图15描述根据本发明一些实施例所述声音检测模型的训练方法、声音检测模型的训练装置、声音事件的检测方法、声音事件的检测装置、计算机设备、计算机可读存储介质和电子设备。

实施例一

图1示出了根据本发明实施例的声音检测模型的训练方法的流程图之一，具体地，声音检测模型的训练方法，可以包括以下步骤：

步骤102，获取预存储的训练声音信号，并对其进行特征提取，从而建立二维特征图训练集；

步骤104，将预设的神经网络模型导入二维特征图训练集，通过基于隐马尔可夫模型的损失函数对神经网络模型进行训练，从而得到声音检测模型。

在本发明实施例中，通过训练一种能够自动实现声音事件检测的神经网络模型，即一种声音检测模型，有利于实现自动的声音事件检测，提高声音事件检测的效率。

实施例二

图2示出了根据本发明实施例的声音检测模型的训练方法的流程图之二，具体地，声音检测模型的训练方法，可以包括以下步骤：

步骤202，对训练声音信号进行分帧，得到样本帧；

步骤204，通过预设的第一窗函数对样本帧进行加窗处理，并对加窗后的样本帧进行特征提取，得到二维特征图训练集。

在本发明实施例中，在对声音进行特征提取时，首先对声音信号进行分帧处理，得到一定长度的样本帧，其中每个样本帧为一个声音片段，且相邻的两个样本帧之间可以存在部分重叠。其中，样本帧的帧长度(声音样本的时长)和重叠长度可根据训练声音检测模型所要针对的具体应用的场景进行调整，举例来说，样本帧可以是帧长40ms，相邻的两个样本帧之间重叠20ms。能够理解的是，上述帧长和重叠帧长仅作为说明用的例子，本发明实施例对样本帧的长度和重叠长度不做限定。

实施例三

图3示出了根据本发明实施例的声音检测模型的训练方法的流程图之三，具体地，声音检测模型的训练方法，可以包括以下步骤：

步骤302，将样本帧为事件帧的后验概率，输入至目标损失函数中；

步骤304，获取目标损失函输出的当前损失值，以目标损失值范围为目标持续训练预设的神经网络模型，直至当前损失值落入目标损失值范围内。

在本发明实施例中，在通过二维特征图训练集，对预设的神经网络模型进行训练时，将二维特征图训练集输入至神经网络模型中，神经网络模型会针对输入的二维特征图训练集，输出一个特定结果，具体为所输入的样本帧为“事件帧”的后验概率。

实施例四

图4示出了根据本发明实施例的声音检测模型的训练方法的流程图之四，具体地，声音检测模型的训练方法，可以包括以下步骤：

步骤402，获取预设的初始损失函数；

步骤404，通过隐状态参数，根据神经网络模型输出的声音事件中事件帧的已持续帧数，对该声音事件的后验概率进行加权，得到损失函数。

在本发明实施例中，最终定义基于隐马尔科夫模型的损失函数具体如下：

为第1帧至第T帧的事件状态序列，

为第1帧至第T帧的二维特征图的序列，

实施例五

在本发明的一些实施例中，针对声音信号进行特征提取，可以通过特征提取方法，对声音信号进行特征提取，其中，预设的特征提取方法包括：梅尔能量谱特征提取法、短时傅里叶变换提取法、梅尔倒谱系数提取法、巴克(Bark)域能量谱提取法、等效矩形带宽域(Erb，Equvivalent rectangular bandwidth)能量谱提取法或伽马通(Gammatone)倒谱系数提取法；对应的，神经网络模型具体包括：卷积-递归神经网络、卷积神经网络、递归神经网络、隐马尔科夫模型、高斯混合模型或支持向量机。

在本发明实施例中，根据不同的声音环境，或特别针对不同的声音事件类型，选用梅尔能量谱特征提取法、短时傅里叶变换提取法、梅尔倒谱系数提取法、Bark域能量谱提取法、Erb域能量谱提取法或Gammatone倒谱系数提取法中的任意一种特征提取方法，来将一维的声音信号转换成为二维的特征图。本发明实施例对特征提取方法的具体类型不做限定。

实施例六

图5示出了根据本发明实施例的声音检测模型的训练装置的结构框图，具体地，声音检测模型的训练装置500，包括：信号处理模块502，用于获取训练声音信号，针对声音信号进行特征提取，建立二维特征图训练集；训练模块504，用于将预设的神经网络模型导入二维特征图训练集，通过目标损失函数对预设的神经网络模型进行训练，得到声音检测模型。

在本发明实施例中，通过声音检测模型的训练装置，训练一种能够自动实现声音事件检测的神经网络模型，即声音检测模型，有利于实现自动的声音事件检测，提高声音事件检测的效率。

信号处理模块502还用于对训练声音信号进行分帧，得到样本帧；通过第一窗函数对样本帧进行加窗处理，并对加窗后的样本帧进行特征提取，得到二维特征图训练集。

在对声音进行特征提取时，首先对声音信号进行分帧处理，得到一定长度的样本帧，其中每个样本帧为一个声音片段，且相邻的两个样本帧之间可以存在部分重叠。其中，样本帧的帧长度(声音样本的时长)和重叠长度可根据训练声音检测模型所要针对的具体应用的场景进行调整，举例来说，样本帧可以是帧长40ms，相邻的两个样本帧之间重叠20ms。能够理解的是，上述帧长和重叠帧长仅作为说明用的例子，本发明实施例对样本帧的长度和重叠长度不做限定。

训练模块504还用于将神经网络模型输出的样本帧为事件帧的后验概率，输入至目标损失函数中；获取目标损失函输出的当前损失值，以目标损失值范围为目标持续训练预设的神经网络模型，直至当前损失值落入目标损失值范围内。

在通过二维特征图训练集，对预设的神经网络模型进行训练时，将二维特征图训练集输入至神经网络模型中，神经网络模型会针对输入的二维特征图训练集，输出一个特定结果，具体为所输入的样本帧为“事件帧”的后验概率。

训练模块504还用于获取预设的初始损失函数；通过隐马尔可夫模型的隐状态参数，根据神经网络模型输出的任一声音事件中事件帧的已持续帧数，对声音事件的后验概率进行加权，以得到基于隐马尔可夫模型的损失函数。

最终定义得到的损失函数具体如下：

为第1帧至第T帧的事件状态序列，

为第1帧至第T帧的二维特征图的序列，

其中，针对声音信号进行特征提取，具体包括：梅尔能量谱特征提取法、短时傅里叶变换提取法、梅尔倒谱系数提取法、巴克(Bark)域能量谱提取法、等效矩形带宽域(Erb，Equvivalent rectangular bandwidth)能量谱提取法或伽马通(Gammatone)倒谱系数提取法；以及神经网络模型具体包括：卷积-递归神经网络、卷积神经网络、递归神经网络、隐马尔科夫模型、高斯混合模型或支持向量机。

根据不同的声音环境，或特别针对不同的声音事件类型，选用梅尔能量谱特征提取法、短时傅里叶变换提取法、梅尔倒谱系数提取法、Bark域能量谱提取法、Erb域能量谱提取法或Gammatone倒谱系数提取法中的任意一种特征提取方法，来将一维的声音信号转换成为二维的特征图。本发明实施例对特征提取方法的具体类型不做限定。

实施例七

图6示出了根据本发明实施例的声音事件的检测方法的流程图之一，具体地，该声音事件的检测方法具体包括以下步骤：

步骤602，通过声音检测模型，在待检测声音信号中确定至少一个事件帧；

步骤604，根据事件帧确定对应的检测结果，输出检测结果。

在本发明实施例中，通过利用训练得到的声音检测模型，对待检测声音信号进行检测识别，有利于实现自动的声音事件检测，提高声音事件检测的效率。

实施例八

图7示出了根据本发明实施例的声音事件的检测方法的流程图之二，具体地，该声音事件的检测方法具体包括以下步骤：

步骤702，对待检测声音信号进行特征提取，得到二维特征图数据集；

步骤704，将二维特征图数据集输入至声音检测模型，获取声音检测模型输出的至少一个事件帧。

在本发明实施例中，在通过声音检测模型来确定待检测声音信号中的事件帧时，首先对待检测声音信号进行数据处理。具体地，首先通过特征提取方法，对待检测声音信号进行特征提取，进而将一维的声音信号转化为二维的特征图，最终建立对应的二维特征图数据集。

实施例九

图8示出了根据本发明实施例的声音事件的检测方法的流程图之三，具体地，该声音事件的检测方法具体包括以下步骤：

步骤802，通过声音检测模型确定二维特征图数据集对应的多个时间帧；

步骤804，通过解空间算法找出加权后的后验概率最高的事件帧序列，作为每个时间帧是否为事件帧的最优决策。

在本发明实施例中，一个“时间帧”就是一个声音片段，每个二维特征图数据集中可能包括有多个这样的时间帧，而声音检测模型可以分别预测每一个时间帧中发生“事件”的可能性，即一个时间帧具体为事件帧的后验概率。具体地，可通过解空间算法，找出后验概率最高的事件帧序列。

其中，当一个事件帧为事件帧的后验概率，高于预设的后验概率阈值时，则认为这个声音片段中发生了事件，因此将对应的时间帧标记为一个事件帧，最终对得到的一个或多个事件帧进行规整，形成为最终的输出结果,有利于通过声音事件的检测结果来识别发生的特定事件，并针对发生的事件做出及时的应对。

实施例十

图9示出了根据本发明实施例的声音事件的检测方法的流程图之四，具体地，该声音事件的检测方法具体包括以下步骤：

步骤902，通过时间帧建立对应的时间帧序列，构建时间帧序列对应的事件序列的解空间；

步骤904，在解空间中，对事件序列进行求解，并通过动态规划算法确定事件序列的最优解序列。

在本发明实施例中，首先构建事件序列的解空间，这个解空间包括了全部时间帧上所有事件的可能的组合，其中解空间的大小约为2^TK，其中T是时间帧序列的总长度，K为全部事件的种类数。

进一步地，在上述解空间中，对事件序列

进行求解，其中，

也就是使目标函数达到最大值的解序列。

其中，目标函数具体为：

其中，

o_t为第t帧对应的事件状态，o_t＝(0，1)，

为第1帧至第T帧的事件状态序列，

为第1帧至第T帧的二维特征图的序列，

实施例十一

图10示出了根据本发明实施例的声音事件的检测方法的流程图之五，具体地，该声音事件的检测方法具体包括以下步骤：

步骤1002，对待检测声音信号进行分帧，以得到信号帧；

步骤1004，通过第二窗函数对信号帧进行加窗处理，通过特征提取方法对加窗处理后的信号帧进行特征提取，得到二维特征图数据集。

在本发明实施例中，在对待检测声音信号进行特征提取时，首先对待检测声音信号进行分帧处理，得到一定长度的信号帧，其中每个信号帧为一个声音片段，且相邻的两个信号帧之间可以存在部分重叠。其中，信号帧的帧长度(声音样本的时长)和重叠长度可根据实际针对的具体应用的场景进行调整，举例来说，信号帧可以是帧长40ms，相邻的两个信号帧之间重叠20ms。能够理解的是，上述帧长和重叠帧长仅作为说明用的例子，本发明实施例对样本帧的长度和重叠长度不做限定。

其中，特征提取方法包括：梅尔能量谱特征提取法、短时傅里叶变换提取法、梅尔倒谱系数提取法、巴克(Bark)域能量谱提取法、等效矩形带宽域(Erb，Equvivalentrectangular bandwidth)能量谱提取法或伽马通(Gammatone)倒谱系数提取法。

实施例十二

图11示出了根据本发明实施例的声音事件的检测装置的结构框图，声音事件的检测装置1100包括：检测模块1102，用于通过上述任一实施例中提供的声音检测模型的训练方法训练得到的声音检测模型，在待检测声音信号中确定至少一个事件帧；输出模块1104，用于根据事件帧确定对应的检测结果，输出检测结果。

检测模块1102还用于针对待检测声音信号进行特征提取，建立二维特征图数据集；将声音检测模型导入二维特征图数据集，获取声音检测模型输出的至少一个事件帧。

在通过声音检测模型来确定待检测声音信号中的事件帧时，首先对待检测声音信号进行数据处理。具体地，首先通过特征提取方法，对待检测声音信号进行特征提取，进而将一维的声音信号转化为二维的特征图，最终建立对应的二维特征图数据集。

检测模块1102还用于通过声音检测模型确定二维特征图数据集对应的多个时间帧；通过解空间算法分别计算每一个时间帧为事件帧的后验概率，将后验概率高于概率阈值的时间帧确定为事件帧。

一个“时间帧”就是一个声音片段，每个二维特征图数据集中可能包括有多个这样的时间帧，而声音检测模型可以分别预测每一个时间帧中发生“事件”的可能性，即一个时间帧具体为事件帧的后验概率。具体地，可通过解空间算法，来分别计算全部时间帧中的每一个时间帧，是事件帧的后验概率。

检测模块1102还用于通过时间帧建立对应的时间帧序列，构建时间帧序列对应的事件序列的解空间；在解空间中，对事件序列进行求解，并通过动态规划算法确定事件序列的最优解序列；通过最优解序列确定时间帧序列中，每一个时间帧为事件帧的后验概率。

首先构建事件序列的解空间，这个解空间包括了全部时间帧上所有事件的可能的组合，其中解空间的大小约为2^TK，其中T是时间帧序列的总长度，K为全部事件的种类数。

进一步地，在上述解空间中，对事件序列

进行求解，其中，

进一步地，利用动态规划算法，对上述公式进行快速解搜索，最终球的最优解序列，也就是迭代求解的目标函数，该目标函数具体为：

其中，

o_t为第t帧对应的事件状态，o_t＝(0，1)，

为第1帧至第T帧的事件状态序列，

为第1帧至第T帧的二维特征图的序列，

通过解空间算法求解每一个时间帧是事件帧的后验概率，有利于提高声音事件的检测精度，提高检测效率。

检测模块1102还用于对待检测声音信号进行分帧，以得到信号帧；通过第二窗函数对信号帧进行加窗处理，通过特征提取方法对加窗处理后的信号帧进行特征提取，得到二维特征图数据集。

在对待检测声音信号进行特征提取时，首先对待检测声音信号进行分帧处理，得到一定长度的信号帧，其中每个信号帧为一个声音片段，且相邻的两个信号帧之间可以存在部分重叠。其中，信号帧的帧长度(声音样本的时长)和重叠长度可根据实际针对的具体应用的场景进行调整，举例来说，信号帧可以是帧长40ms，相邻的两个信号帧之间重叠20ms。能够理解的是，上述帧长和重叠帧长仅作为说明用的例子，本发明实施例对样本帧的长度和重叠长度不做限定。

实施例十三

在本发明的一些实施例中，以实际应用的角度举例，对本发明实施例进行完整说明。

具体地，声音事件检测，是指识别出声音信号中各种事件的类别和事件发生的起止时刻，以便于做出相应决策。在工厂的实际生产过程中，对产品进行声音质检是很重要的一个环节，例如，工人们对洗衣机进行通电测试时，通过监听整机声音来判断产品是否有质量问题，比如加热管未卡入支架或者电机螺钉没打紧等。这种传统的人工声音质检方法效率低下，且容易对人的听觉造成损伤。

本发明实施例提出应用声音事件检测算法，对声音信号进行自动识别，以确定当前是否发生特定的“事件”。其中，声音事件检测算法，主要有两个处理步骤：

1、利用信号处理领域的技术，把一维的声音信号转换为二维的特征图，如梅尔能量谱特征；

2、利用深度学习算法，如卷积-递归神经网络模型，识别出二维声音特征图中包含的事件信息，并输出事件类别和时间标签。

对神经网络的训练过程主要包含两步操作：一是利用卷积神经网络学习特征图的有效局部信息，该信息主要用于事件分类，二是利用递归神经网络学习时间帧之间的前后文信息，该信息主要用于确定时间标签。

图12示出了根据本发明实施例中声音检测模型的生成逻辑示意图，其中，训练的过程主要包括以下步骤：

1、采集声音信号作为训练集，对每条声音样本进行帧长40ms，重叠20ms的分帧并加汉明窗操作；

2、基于梅尔能量谱对声音信号进行特征提取，建立二维特征图；

3、定义新的损失函数(为求公式简洁，以下只列出单一声音事件类型的公式，由于每种事件的概率相互独立，只考虑一种事件类型不影响一般性)；

损失函数具体如下：

为第1帧至第T帧的事件状态序列，

为第1帧至第T帧的二维特征图的序列，

为第t帧对应的后验概率，d_t-1为第t-1帧对应时刻下事件已持续的帧数，D(o_t|d_t-1)为隐马尔可夫模型的隐状态参数。当o_t＝1时，则说明第t帧发生了事件，当o_t＝0时，则说明第t帧没有发生事件。

4、构建卷积-递归神经网络模型，导入二维特征图训练集，以最小化损失函数值为目标进行训练；

5、训练完成，保存卷积-递归神经网络模型的参数。

测试过程包括以下几个步骤：

1、采集声音信号作为测试集，对每条声音样本进行帧长20-40ms，重叠10-20ms的分帧并加汉明窗操作；

3、读取卷积-递归神经网络模型的参数，导入二维特征图测试集，得到模型的输出时间帧；

4、基于隐马尔可夫模型，通过动态规划的解空间搜索算法整合逐帧的后验概率,最终识别声音事件的类别以及起止时刻，具体包括以下步骤：

1)构建声音事件序列的解空间，即所有时间帧上所有事件的组合，解空间大小约为2^TK，其中T为序列长度，K为事件种类数；

2)对声音事件序列

计算解序列的分数，采用计算公式如下：

3)利用动态规划算法进行快速解搜索，得到最优解序列，也就是迭代求解目标函数：

初始函数定义为：

转移函数定义为：

其中，

o_t为第t帧对应的事件状态，o_t＝(0，1)，

为第1帧至第T帧的事件状态序列，

为第1帧至第T帧的二维特征图的序列，

该动态函数的复杂度约为KD²T，其中K为事件种类数，D为事件的最大长度，T为序列长度，在一些情况下，为了实现并行计算，可以将复杂度进行压缩，如压缩为D²T。

4)将40ms的帧整合成0.1s的片段，若该片段中有帧被识别为某事件发生，则认定该片段中该事件发生，否则无事件。然后将所有片段进一步整合，最终识别输出声音事件的类别以及起止时刻。

图13示出了根据本发明实施例中声音信号与声音事件检测的对应图，其中，通过将碎片的模型预测事件帧进行整合，在一定程度上解决声音事件检测算法中出现的事件碎片问题，能提高事件识别准确率，有助于后期实际落地应用。

实施例十四

图14示出了据本发明实施例的计算机设备的结构框图，计算机设备1400包括：存储器1402，其上存储有计算机程序；处理器1404，被配置为运行计算机程序时实现如上述任一实施例中提供的方法的步骤，因此，该计算机设备1400同时包括如上述任一实施例中提供的方法的全部有益效果，在此不再赘述。

实施例十五

在本发明的一些实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时能够实现如上述任一实施例中提供的声音检测模型的训练方法的步骤，和/或如上述任一实施例中提供的声音事件的检测方法的步骤，因此，该计算机可读存储介质同时包括如上述任一实施例中提供的声音检测模型的训练方法和上述任一实施例中提供的声音事件的检测方法的全部有益效果，在此不再赘述。

实施例十六

图15示出了根据本发明实施例的电子设备的结构框图，该电子设备1500包括但不限于：射频单元1502、网络模块1504、音频输出单元1506、输入单元1508、传感器1510、显示单元1512、用户输入单元1514、接口单元1516、存储器1518、处理器1520、以及电源1522等部件。本领域技术人员可以理解，图15中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本申请实施例中，电子设备包括但不限于移动终端、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、以及计步器等。

同时，处理器1520能够运行存储器1518上的计算机程序，进而实现上述任一实施例中方法的步骤，因此该电子设备还包括如上述任一实施例的全部有益效果，在此不再赘述。

应理解的是，本申请实施例中，射频单元1502可用于收发信息或收发通话过程中的信号，具体的，接收基站的下行数据或向基站发送上行数据。射频单元1502包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。

网络模块1504为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元1506可以将射频单元1502或网络模块1504接收的或者在存储器1518中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元1506还可以提供与电子设备1500执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元1506包括扬声器、蜂鸣器以及受话器等。

输入单元1508用于接收音频或视频信号。输入单元1508可以包括图形处理器(Graphics Processing Unit，GPU)5082和麦克风5084，图形处理器5082对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元1512上，或者存储在存储器1518(或其它存储介质)中，或者经由射频单元1502或网络模块1504发送。麦克风5084可以接收声音，并且能够将声音处理为音频数据，处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元1502发送到移动通信基站的格式输出。

电子设备1500还包括至少一种传感器1510，比如指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器以及其他传感器。

显示单元1512用于显示由用户输入的信息或提供给用户的信息。显示单元1512可包括显示面板5122，可以采用液晶显示器、有机发光二极管等形式来配置显示面板5122。

用户输入单元1514可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元1514包括触控面板5142以及其他输入设备5144。触控面板5142也称为触摸屏，可收集用户在其上或附近的触摸操作。触控面板5142可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1520，接收处理器1520发来的命令并加以执行。其他输入设备5144可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板5142可覆盖在显示面板5122上，当触控面板5142检测到在其上或附近的触摸操作后，传送给处理器1520以确定触摸事件的类型，随后处理器1520根据触摸事件的类型在显示面板5122上提供相应的视觉输出。触控面板5142与显示面板5122可作为两个独立的部件，也可以集成为一个部件。

接口单元1516为外部装置与电子设备1500连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/0)端口、视频I/0端口、耳机端口等等。接口单元1516可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备1500内的一个或多个元件或者可以用于在电子设备1500和外部装置之间传输数据。

存储器1518可用于存储软件程序以及各种数据。存储器1518可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据移动终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1518可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1520通过运行或执行存储在存储器1518内的软件程序和/或模块，以及调用存储在存储器1518内的数据，执行电子设备1500的各种功能和处理数据，从而对电子设备1500进行整体监控。处理器1520可包括一个或多个处理单元；优选的，处理器1520可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。

电子设备1500还可以包括给各个部件供电的电源1522，优选的，电源1522可以通过电源管理***与处理器1520逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

在本申请的一个实施例中，提供了一种可读存储介质，其上存储有程序或指令，该程序或指令被处理器执行时实现如上述任一实施例中提供的功能切换方法的步骤。

在该实施例中，可读存储介质能够实现本申请的实施例提供的功能切换方法的各个过程，并能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述功能切换方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

本发明的描述中，术语“多个”则指两个或两个以上，除非另有明确的限定，术语“上”、“下”等指示的方位或位置关系为基于附图所述的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制；术语“连接”、“安装”、“固定”等均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本发明中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声音检测模型的训练方法，其特征在于，包括：

获取训练声音信号，针对所述训练声音信号进行特征提取，建立二维特征图训练集；

将神经网络模型导入所述二维特征图训练集，通过基于隐马尔可夫模型的损失函数对所述神经网络模型进行训练，得到所述声音检测模型。

2.根据权利要求1所述的声音检测模型的训练方法，其特征在于，所述针对所述声音信号进行特征提取，具体包括：

对所述训练声音信号进行分帧，得到样本帧；

通过第一窗函数对所述样本帧进行加窗处理，并对加窗后的所述样本帧进行特征提取，得到所述二维特征图训练集。

3.根据权利要求2所述的声音检测模型的训练方法，其特征在于，所述通过基于隐马尔可夫模型的损失函数对所述神经网络模型进行训练，具体包括：

将所述神经网络模型输出的所述样本帧为事件帧的后验概率，输入至所述损失函数中；

获取所述损失函输出的当前损失值，以目标损失值范围为目标持续训练所述神经网络模型，直至所述当前损失值落入所述目标损失值范围内。

4.根据权利要求1至3中任一项所述的声音检测模型的训练方法，其特征在于，在所述通过目标损失函数对所述预设的神经网络模型进行训练之前，所述声音检测模型的训练方法还包括：

获取预设的初始损失函数；

通过所述隐马尔可夫模型的隐状态参数，根据所述神经网络模型输出的任一声音事件中所述事件帧的已持续帧数，对所述声音事件的后验概率进行加权，以得到所述基于隐马尔可夫模型的损失函数。

5.根据权利要求1至3中任一项所述的声音检测模型的训练方法，其特征在于，所述针对所述声音信号进行特征提取，具体包括：

通过特征提取方法，对所述声音信号进行特征提取，其中所述预设的特征提取方法包括：

梅尔能量谱特征提取法、短时傅里叶变换提取法、梅尔倒谱系数提取法、巴克域能量谱提取法、等效矩形带宽域能量谱提取法或伽马通倒谱系数提取法；以及

所述的神经网络模型具体包括：

卷积-递归神经网络、卷积神经网络、递归神经网络、隐马尔科夫模型、高斯混合模型或支持向量机。

6.一种声音检测模型的训练装置，其特征在于，包括：

信号处理模块，用于获取训练声音信号，针对所述声音信号进行特征提取，建立二维特征图训练集；

训练模块，用于将预设的神经网络模型导入所述二维特征图训练集，通过目标损失函数对所述预设的神经网络模型进行训练，得到所述声音检测模型。

7.一种声音事件的检测方法，其特征在于，包括；

通过以权利要求1至5中任一项所述的声音检测模型的训练方法训练得到的所述声音检测模型，在待检测声音信号中确定至少一个事件帧；

根据所述事件帧确定对应的检测结果，输出所述检测结果。

8.根据权利要求7所述的声音事件的检测方法，其特征在于，所述在待检测声音信号中确定至少一个事件帧，具体包括：

针对所述待检测声音信号进行特征提取，建立二维特征图数据集；

将所述声音检测模型导入所述二维特征图数据集，获取所述声音检测模型输出的至少一个所述事件帧。

9.根据权利要求8所述的声音事件的检测方法，其特征在于，所述获取所述声音检测模型输出的至少一个所述事件帧，具体包括：

通过所述声音检测模型确定所述二维特征图数据集对应的多个时间帧；

通过解空间算法分别计算每一个所述时间帧为所述事件帧的后验概率，将后验概率高于概率阈值的所述时间帧确定为所述事件帧。

10.根据权利要求9所述的声音事件的检测方法，其特征在于，所述通过解空间算法分别计算每一个所述时间帧为所述事件帧的后验概率，具体包括：

通过所述时间帧建立对应的时间帧序列，构建所述时间帧序列对应的事件序列的解空间；

在所述解空间中，对所述事件序列进行求解，以得到每一个所述时间帧为所述事件帧的后验概率；以及

所述声音事件检测方法还包括：

通过动态规划算法确定所述事件序列的最优解序列。

11.根据权利要求8至10中任一项所述的声音事件的检测方法，其特征在于，所述针对所述待检测声音信号进行特征提取，建立二维特征图数据集，具体包括：

对所述待检测声音信号进行分帧，以得到信号帧；

通过第二窗函数对所述信号帧进行加窗处理，通过特征提取方法对加窗处理后的所述信号帧进行特征提取，得到所述二维特征图数据集。

12.根据权利要求11所述的声音事件的检测方法，其特征在于，所述特征提取方法包括：

梅尔能量谱特征提取法、短时傅里叶变换提取法、梅尔倒谱系数提取法、巴克域能量谱提取法、等效矩形带宽域能量谱提取法或伽马通倒谱系数提取法。

13.一种声音事件的检测装置，其特征在于，包括：

检测模块，用于通过根据权利要求1至5中任一项所述的声音检测模型，在待检测声音信号中确定至少一个事件帧；

输出模块，用于根据所述事件帧确定对应的检测结果，输出所述检测结果。

14.一种计算机设备，其特征在于，包括:

存储器，其上存储有计算机程序；

处理器，被配置为执行所述计算机程序时实现如权利要求1至5中任一项所述的声音检测模型的训练方法，和/或如权利要求7至12中任一项所述的声音事件的检测方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的声音检测模型的训练方法，以及如权利要求7至12中任一项所述的声音事件的检测方法。

16.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被配置为通过所述计算机程序执行权利要求1至5中任一项所述的声音检测模型的训练方法，以及如权利要求7至12中任一项所述的声音事件的检测方法。