CN109243496A

CN109243496A - 声音识别方法和***

Info

Publication number: CN109243496A
Application number: CN201811290201.4A
Authority: CN
Inventors: 沈松
Original assignee: Oriental Zhice Beijing Technology Co ltd
Current assignee: Oriental Zhice Beijing Technology Co ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-01-18

Abstract

本申请提供一种声音识别方法和***，该方法包括：实时获取声音，所述声音包括交通噪声；将所述声音转换为离散数字信号以及特征量；根据所述离散数字信号以及所述特征量实时优化深度学习神经网络模型；利用深度学习神经网络模型对所述声音进行识别。本申请的声音识别方法和***，能够准确识别道路中出现的声音类型，并在识别过程中自动提高识别准确率。

Description

声音识别方法和***

技术领域

本申请涉及智能交通领域，尤其涉及一种声音识别方法和***。

背景技术

道路交通中，会产生许多不同的声音，随着智能交通技术的快速发展，对不同类型的声音进行及时而准确的识别就变得尤为重要。例如：

(1)对机动车鸣喇叭声、非法改装跑车的发动机轰声的识别，有利于纠正违法行为，创建安静文明的城市交通环境。

(2)对有警笛声的特种车辆的识别，有利于实现交通的智能疏导。

(3)对货车、小客车、大客车和摩托车行驶噪声的识别，有利于交通噪声分布的研究。

(4)对紧急刹车声、撞击声的识别，有利于交通事故的及时发现，尤其对于远离城市的高速公路。

(5)其他情形的声音，例如***声、强烈喊叫声，有利于突发事件的应急反应。

但是，由于交通声音***，不同类型的声音又具有非常相似的特性；而同一类别的声音也会有较大差异，例如喇叭声，不同型号的喇叭，或者安装在不同车辆上的相同喇叭，其声音特征也是千差万别，因此准确识别这些典型交通声音是非常困难的。当无法确定各个类型声音的统一特征时，声音识别的理论数学模型也难以确立。

发明内容

有鉴于此，本申请提供一种识别声音方法和***，能够准确识别道路中出现的声音类型，并在识别过程中自动提高识别准确率。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的第一方面，提出一种声音识别方法，该方法包括：实时获取声音，所述声音包括交通噪声；将所述声音转换为离散数字信号以及特征量；根据所述离散数字信号以及所述特征量实时优化深度学习神经网络模型；利用深度学习神经网络模型对所述声音进行识别。

在本申请的一种示例性实施例中，实时获取声音包括：实时采集环境声音；以及在所述环境声音满足第一条件时，实时获取所述声音。

在本申请的一种示例性实施例中，将所述声音转换为离散数字信号以及特征量包括：通过模数转换器得到离散数字信号；通过数字信号处理提取所述声音的特征向量。

在本申请的一种示例性实施例中，根据所述离散数字信号以及所述特征量实时优化深度学习神经网络模型，包括：将所述离散数字信号以及所述特征量输入深度学习神经网络模型；获取深度学习神经网络模型的输出向量，所述输出向量为所述声音与多个预定声音类型的相似度；根据所述输出向量确定所述声音的类型标签；根据所述离散数字信号、所述特征量以及所述样本标签优化深度学习神经网络模型。

在本申请的一种示例性实施例中，根据所述输出向量确定所述声音的类型标签包括：当判断所述输出向量中每一个元素的极值大于或等于阈值时，确定所述声音的类型标签；当判断输出向量中每一个元素的数值均小于阈值时，确定所述声音的类型标签。

在本申请的一种示例性实施例中，所述特征量包括下述特征中的至少一种：时域特征量；频域特征量；时频特征量。

在本申请的一种示例性实施例中，还包括：根据深度学习神经网络模型的输出向量调整阈值。

在本申请的一种示例性实施例中，利用深度学习神经网络模型对所述声音进行识别包括：将所述声音输入所述深度学习神经网络模型以获取相似度；根据所述相似度确定所述声音标签；其中，所述声音标签包括：喇叭声、警笛声、急刹声、撞击声、***声、喊叫声。

根据本申请实施例的第二方面，提出一种声音识别***，包括：至少一个前端***，用于实时采集环境声音；并将所述声音转换为离散数字信号以及特征量；利用深度学习神经网络模型对所述声音进行识别；

以及后端云中心，用于根据所述离散数字信号以及所述特征量实时优化深度学习神经网络模型。

在本申请的一种示例性实施例中，所述后端云中心还用于在判断深度学习神经网络模型的输出向量中每一个元素的极值大于或等于阈值时，确定所述声音的类型标签；以及在判断所述输出向量中每一个元素的数值均小于阈值时，确定所述声音的类型标签。

根据本申请的声音识别方法和***，能够准确识别道路中出现的声音类型，并在识别过程中自动提高识别准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。下面描述的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种声音识别方法的流程图。

图2是根据一示例性实施例示出的一种声音识别方法的流程图。

图3是根据一示例性实施例示出的一种声音识别方法的流程图。

图4是根据一示例性实施例示出的一种声音识别***的原理框图。

图5是根据另一示例性实施例示出的一种声音识别***的原理框图。

图6是根据一示例性实施例示出的一种神经网络模型示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图仅为本发明的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和步骤，也不是必须按所描述的顺序执行。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

下面结合附图对本发明示例实施方式进行详细说明。

根据本申请的声音识别方法，能够准确识别道路中出现的声音类型，并在识别过程中自动提高识别准确率。

图1是根据一示例性实施例示出的一种声音识别方法的流程图。参照图1，声音识别方法可以如下所示：

在步骤S110中，实时获取声音，所述声音包括交通噪声。其中，可以在各个路口或交通噪声较多的地方安装声学采集模块以获取声音，例如声压传感器或多个按照一定形式固定的声压传感器组。声压传感器可用于感应空气中的声波，其能够感受声压并将声波转换成可用输出信号。

根据示例实施例，步骤S110可以包括：实时采集环境声音；以及在所述环境声音满足第一条件时，实时获取所述声音。其中，第一条件可以指所述声音是否超过预定声级。当声波超过该预定声级时，认为所述声音属于交通噪声，触发声音样本的采集。

在步骤S120中，将所述声音转换为离散数字信号以及特征量。其中，通过声压传感器或声压传感器组采集得到的声音形式可能为模拟信号。可以通过模数转换器将模拟信号转换为离散数字信号。离散数字信号是在连续信号上采样得到的离散信号。离散数字信号的转换方式通常包括：采样；离散化。

根据示例实施例，步骤S120可以包括：通过模数转换器得到离散数字信号；通过数字信号处理提取所述声音的特征向量。其中，模数转换器可将时间连续、幅值也连续的模拟量转换为时间离散、幅值也离散的数字信号。

根据示例实施例，所述特征量包括下述特征中的至少一种：时域特征量；频域特征量；时频特征量。其中，时域特征量可以包括：信号的最大值、最小值、平均值、平均幅值、有效值、方根幅值、偏度指标、峭度指标、偏态因数、峰态因数、波形因数、脉冲因数、峰值因数、裕度因数、声压级等，但本发明的技术方案对此不作特殊限定。例如声音样本的离散数字信号序列为x(t)，部分时域特征量的计算方式下表所示。

频域特征量可以包括：频谱、频谱前若干主峰的频率、各主峰频率间隔等，但本发明的技术方案对此不作特殊限定。频谱的计算公式如下：

频谱曲线为幅值和频率关系曲线，例如，可从中选择幅值最大的前若干个点即为主峰，对应的频率值就是前若干主峰的频率，这些主峰的频率差为各主峰频率间隔。

时频特征量可以包括：各种时域特征量与时间的关系曲线、不同时间位置的频谱、声压级与时间关系曲线、主峰频率与时间关系曲线等，但本发明的技术方案对此不作特殊限定。例如，可从样本中选择不同时间段(可部分重叠)的信号，进行时域特征提取和频域特征提取，获取时域频域特征与时间变化的关系曲线。

在步骤S130中，根据所述离散数字信号以及所述特征量实时优化深度学习神经网络模型。其中，深度学习神经网络模型(DNN，Deep Neural Network)为具有多隐层的神经网络。相较于只含有一层隐层节点的浅层模型，其在识别率上具有显著的提高。DNN模型可通过构建具有多隐层的机器学习模型和海量的训练数据，来学习更有用的特征从而最终提升分类或预测的准确性。由于声音特征的复杂性，本发明的神经网络模型的层数可能需要较多，例如几十层，但本发明的技术方案对此并不作特殊限定。

其中，在将所述离散数字信号以及所述特征量输入深度学习神经网络模型前，可以先对所述离散数字信号以及所述特征量进行降维处理。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。例如，可采用主成分分析法(PCA，Principal Component Analysis)对数据进行压缩。

根据示例实施例，步骤S130可以包括：将所述离散数字信号以及所述特征量输入深度学习神经网络模型；获取深度学习神经网络模型的输出向量，所述输出向量为所述声音与多个预定声音类型的相似度；根据所述输出向量确定所述声音的类型标签；根据所述离散数字信号、所述特征量以及所述样本标签优化深度学习神经网络模型。

根据示例实施例，根据所述输出向量确定所述声音的类型标签包括：当判断所述输出向量中每一个元素的极值大于或等于阈值时，确定所述声音的类型标签；当判断输出向量中每一个元素的数值均小于阈值时，确定所述声音的类型标签。

根据示例实施例，可以使用TensorFlow确定深度学习神经网络模型的参数，还可以使用PepplePepple确定深度学习神经网络模型的参数。其中，TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习***。TensorFlow可被用于语音识别或图像识别等多项机器学习和深度学习领域。PepplePepple为由百度公司的人工智能学习***。

根据实施例，还可以根据深度学习神经网络模型的输出向量调整阈值。比如，随着模型参数的不断学习和优化，

在步骤S140中，利用深度学习神经网络模型对所述声音进行识别。

根据示例实施例，步骤S140可以包括：将所述声音输入所述深度学习神经网络模型以获取相似度；根据所述相似度确定所述声音标签；其中，所述声音标签包括：喇叭声、警笛声、急刹声、撞击声、***声、喊叫声。

根据本申请的声音识别方法，通过获取声音并将其转换为离散数字信号以及特征量，并根据离散数字信号、特征量以及样本标签对深度学习神经网络模型进行优化，能够准确识别道路中出现的声音类型，并在识别过程中自动提高识别准确率。

图2是根据一示例性实施例示出的一种声音识别方法的流程图。参考图2，声音识别方法可以包括：

步骤S210，将所述离散数字信号以及所述特征量输入深度学习神经网络模型。其中，可将输入规整为向量，该向量中的每一元素为一特征量。还可对输入向量做相应的数据预处理，例如归一化处理，本发明的技术方案对此并不作特殊限定。

步骤S220，获取深度学习神经网络模型的输出向量，所述输出向量为所述声音与多个预定声音类型的相似度。其中，多个预定声音类型可以是喇叭声、警笛声、急刹声、撞击声、***声、强烈喊叫声等，本发明的技术方案对此并不作特殊限定。

步骤S230，根据所述输出向量确定所述声音的类型标签。其中，当判断所述输出向量中每一个元素的极值大于或等于阈值时，可根据该极值在输出向量中的位置确定所述声音的类型标签；当判断输出向量中每一个元素的数值均小于阈值时，可通过人工手段确定所述声音的类型标签。

步骤S240，根据所述离散数字信号、所述特征量以及所述样本标签优化深度学习神经网络模型。其中，可根据离散数字信号、所述特征量以及所述样本标签形成样本对，将其加入训练集后，通过该训练集对深度学习神经网络模型进行训练，以提高神经网络模型的准确率。

图3是根据一示例性实施例示出的一种声音识别方法的流程图。参照图3，声音识别方法可以包括：

步骤S310，声音采集。通过安装在现场的前端***，监视环境噪声的声级突然变大情形，触发声音样本的采集，收集到的信号样本都传送至后端云中心。

步骤S320，声音特征提取。后端云中心对收集的声音样本进行若干种数字信号处理计算，提取其时域特征量、频域特征量、时频特征量，以及其他特征量。前述已介绍了特征量的具体形式，此处不再赘述。

步骤S330，获取样本标签。在后端云中心，对收集的声音样本，使用当前模型参数进行识别，对识别结果的可能性数值，设定一个阈值，大于该阈值则为其添加该识别结果的标签，小于该阈值，则通过人工手段判定声音类型并添加对应的标签。

步骤S340，对识别模型进行训练。后端云中心中运行有多层神经网络的声音识别模型的训练软件，该软件通过所有收集到样本的各种特征量，对多层神经网络模型的所有传递参数进行训练以获取优化的模型。

步骤S350，更新识别模型。训练后得到优化的声音识别模型，发送至现场安装的前端***，该***对实时采集的声音样本进行特征提取，然后使用训练后的模型进行多层神经网络的噪声模型识别计算，获得声音类型的判断结果。

为实现持续自动优化。安装在现场的前端***，不停地收集声音样本发送至后端云中心，循环步骤S320至S350，实现多层神经网络识别模型参数的持续优化，使得识别准确率不断提高。

根据本申请的声音识别方法，通过获取声音并将其转换为离散数字信号以及特征量，以采用深度学习神经网络模型对声音进行识别；并根据离散数字信号、特征量以及样本标签对深度学习神经网络模型进行优化，能够准确识别道路中出现的声音类型，并在识别过程中自动提高识别准确率。综上，本申请的声音识别方法通过实时采集声音样本，使用深度学习技术，对神经网络模型进行训练实现典型交通声音的实时检测识别；而随着***在运行过程中不断从实际道路中收集越来越多的声音样本，根据所述声音样本对深度学习神经网络模型持续优化训练，从而实现深度学习神经网络模型识别准确率的自动提升。

图4是根据一示例性实施例示出的一种声音识别***的原理框图。参照图4，声音识别***可以包括：至少一个前端***410以及后端云中心420。

在声音识别***中，前端***410用于实时采集环境声音；并将所述声音转换为离散数字信号以及特征量；利用深度学习神经网络模型对所述声音进行识别。

根据示例实施例，前端***410可包含模数转换器，用于将所述声音转换为离散数字信号。以及数字信号处理模块，用于提取所述声音的特征向量。

后端云中心420用于根据所述离散数字信号以及所述特征量实时优化深度学习神经网络模型。

根据示例实施例，后端云中心420可用于将所述离散数字信号以及所述特征量输入深度学习神经网络模型；获取深度学习神经网络模型的输出向量，所述输出向量为所述声音与多个预定声音类型的相似度；根据所述输出向量确定所述声音的类型标签；根据所述离散数字信号、所述特征量以及所述样本标签优化深度学习神经网络模型。

根据本申请的声音识别***，通过建立基于多层神经网络的声音识别模型，并通过后端云中心实时学习新样本以获得更新的模型。并将更新后的模型发回至前端***，能够准确识别道路中出现的声音类型，并在识别过程中自动提高识别准确率。优化模块用于根据所述离散数字信号、所述特征量以及所述样本标签优化深度学习神经网络模型。

图5是根据另一示例性实施例示出的一种声音识别***的原理框图。参照图5，声音识别***可以包括：至少一个前端***以及后端云中心。

后端云中心用于根据所述离散数字信号以及所述特征量实时优化深度学习神经网络模型。

根据示例实施例，声音采集模块可以包括一个声压传感器或多个按照一定形式固定的声压传感器组以及模数转换模块，声音传感器用于实时采集环境声音，当所述环境声音满足第一条件时，实时获取所述声音。其中，第一条件可以为所述声音是否超过预定声级。当声波超过该预定声级时，认为所述声音属于交通噪声，触发声音样本的采集。模数转换器用于将声声压传感器采集到的声音转换为离散数字信号。前端***410还可例如包括声阵列声音采集模块，所述声阵列声音采集模块为一传声器或由多个传声器按照一定形式排列而成的声阵列由至少一个传声器组成，用于实时采集环境声音。其中，声阵列可以是平面式声阵列，也可以是立体式声阵列，本发明对此不作特殊限定。

声音采集模块还可以包括信号转换模块，用于将所述声音转换为离散数字信号以及特征量。其中，特征量可以包括下述特征中的至少一种：时域特征量；频域特征量；时频特征量。

前端***还可以包括识别模块，识别模块可以是具有计算能力的CPU***，可以是PC计算机，也可以是嵌入式ARM***，运行检测和识别软件，使用一个基于神经网络的典型声音识别模型，实时检测并进行声音类型的判断。该模块中可以包含DSP、FPGA或GPU等实时计算芯片用于提升实时计算速度。

在前端***中，还可以包括一互联网通讯模块，用于通过有线或无线通讯等方式，使得前端***具有连接互联网的能力。

后端云中心用于根据所述离散数字信号以及所述特征量实时优化深度学习神经网络模型。其中，后端云中心可以包含按照云计算方式建立的位于互联网的服务器群，其中运行了典型声音神经网络模型的参数深度学习和训练软件。

根据示例实施例，后端云中心可以包括相似度模块、标签模块以及优化模块。其中，相似度模块用于将所述离散数字信号以及所述特征量输入深度学习神经网络模型；获取深度学习神经网络模型的输出向量，所述输出向量为所述声音与多个预定声音类型的相似度。标签模块用于根据所述输出向量确定所述声音的类型标签。优化模块，用于根据所述离散数字信号、所述特征量以及所述样本标签优化深度学习神经网络模型。

图6是根据一示例性实施例示出的一种神经网络模型示意图。参照图6，神经网络模型可以包括输入层、多个中间层以及输出层。

输入层具有n个输入节点，分别对应n个输入特征量以及声音样本。在将所述离散数字信号以及所述特征量输入深度学习神经网络模型前，可以先对所述离散数字信号以及所述特征量进行降维处理。降维处理可使高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而提升数据处理速度。例如，可采用主成分分析法(PCA，PrincipalComponent Analysis)对数据进行压缩。

中间层具有多层，由于声音特征的复杂性，该神经网络模型的层数较多，例如可选择为几十层，其具体数值根据实际经验或试验所得。针对具有多层的神经网络模型，应选择支持深度学习的样本训练算法。例如可选择谷歌公司的TensorFlow，或者百度公司的PepplePepple等，本发明并不以此为限。

输出层包含多个节点，每一节点输出当前声音样本与对应节点代表声音类型的相似度，相似度可以表征当前声音样本为对应声音类型的可能性。所有输出节点组成一个输出向量。

根据本申请的声音识别***，通过获取声音并将其转换为离散数字信号以及特征量，以采用深度学习神经网络模型对声音进行识别；并根据离散数字信号、特征量以及样本标签对深度学习神经网络模型进行优化，能够准确识别道路中出现的声音类型，并在识别过程中自动提高识别准确率。综上，该***能够实现从道路交通各种声音中准确识别出若干种典型声音的功能，并且随着***投入运行时间的不断增加，识别准确率会自动提高。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其他实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

应当理解的是，本发明并不限于这里已经示出的详细结构、附图方式或实现方法，相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种声音识别方法，其特征在于，包括：

实时获取声音，所述声音包括交通噪声；

将所述声音转换为离散数字信号以及特征量；

根据所述离散数字信号以及所述特征量实时优化深度学习神经网络模型；

利用深度学习神经网络模型对所述声音进行识别。

2.如权利要求1所述的方法，其特征在于，实时获取声音包括：

实时采集环境声音；以及

在所述环境声音满足第一条件时，实时获取所述声音。

3.如权利要求1所述的方法，其特征在于，将所述声音转换为离散数字信号以及特征量包括：

通过模数转换器得到离散数字信号；

通过数字信号处理提取所述声音的特征向量。

4.如权利要求1所述的方法，其特征在于，根据所述离散数字信号以及所述特征量实时优化深度学习神经网络模型，包括：

将所述离散数字信号以及所述特征量输入深度学习神经网络模型；

获取深度学习神经网络模型的输出向量，所述输出向量为所述声音与多个预定声音类型的相似度；

根据所述输出向量确定所述声音的类型标签；

根据所述离散数字信号、所述特征量以及所述样本标签优化深度学习神经网络模型。

5.如权利要求4所述的方法，其特征在于，根据所述输出向量确定所述声音的类型标签包括：

当判断所述输出向量中每一个元素的极值大于或等于阈值时，确定所述声音的类型标签；

当判断输出向量中每一个元素的数值均小于阈值时，确定所述声音的类型标签。

6.如权利要求1所述的方法，其特征在于，所述特征量包括下述特征中的至少一种：时域特征量；频域特征量；时频特征量。

7.如权利要求5所述的方法，其特征在于，还包括：

根据深度学习神经网络模型的输出向量调整阈值。

8.如权利要求1所述的方法，其特征在于，利用深度学习神经网络模型对所述声音进行识别包括：

将所述声音输入所述深度学习神经网络模型以获取相似度；

根据所述相似度确定所述声音标签；

其中，所述声音标签包括：喇叭声、警笛声、急刹声、撞击声、***声、喊叫声。

9.一种声音识别***，其特征在于，包括：

至少一个前端***，用于实时采集环境声音；并将所述声音转换为离散数字信号以及特征量；利用深度学习神经网络模型对所述声音进行识别；以及

后端云中心，用于根据所述离散数字信号以及所述特征量实时优化深度学习神经网络模型。

10.如权利要求9所述的***，其特征在于，所述后端云中心还用于在判断深度学习神经网络模型的输出向量中每一个元素的极值大于或等于阈值时，确定所述声音的类型标签；以及在判断所述输出向量中每一个元素的数值均小于阈值时，确定所述声音的类型标签。