CN111739554A

CN111739554A - 声学成像频率确定方法、装置、设备及存储介质

Info

Publication number: CN111739554A
Application number: CN202010566648.0A
Authority: CN
Inventors: 李俊; 万杉杉; 黄晴媛; 任颖
Original assignee: Zhejiang Xunfei Intelligent Technology Co ltd
Current assignee: Zhejiang Xunfei Intelligent Technology Co ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-10-02

Abstract

本申请公开了一种声学成像频率确定方法、装置、设备及存储介质，本申请通过对采集的音频数据进行快速傅里叶变换，将其从时域转换为频域，得到频谱特征，进一步可以基于频谱特征确定各个预设频点的声源能量值，可以理解的是，一般性的，目标声源的能量值都是较大的，为此，可以基于各预设频点的声源能量值，确定出用于表征目标声源能量下限的声源能量阈值，进而可以基于频谱特征和声源能量阈值，确定出目标声源的初步成像频率。相比于现有技术，本申请方法能够过滤掉部分声源能量值较低的噪声源，筛选得到目标声源的成像频率，进而可以基于目标声源的成像频率进行声学成像，其成像效果更佳。

Description

声学成像频率确定方法、装置、设备及存储介质

技术领域

本申请涉及声学成像技术领域，更具体的说，是涉及一种声学成像频率确定方法、装置、设备及存储介质。

背景技术

声学成像技术利用麦克风阵列技术确定声源位置，与摄像头结合，通过图像的方式展示声源的分布状态。图像以颜色和亮度表示声音的强弱。从而帮助人们快速定位噪声位置，解决人耳定位声音能力有限的问题。

现实中，噪声往往是多源的，即同一时刻听到的声音可能来自不同的发声源的叠加，这些不同的声源，其发声频率也不尽相同，有些低频，有些高频。在声学成像中的表现，则体现在多个热力图，或者热力图定位不准确等。而在实际应用场景中，我们的目标声源往往希望是单一的，所以可以通过调整频率，来确定我们的热点频率范围，从而过滤掉干扰，使得声学定位更加的清晰和准确。

现有技术一般由人工手动调节频率，而当用户不确定目标声源的频率范围时，为了保证能够成像，一般是暴力的选择全频段成像，这就会导致噪声源也会被成像，从而对目标声源形成干扰。

发明内容

鉴于上述问题，提出了本申请以便提供一种声学成像方法、装置、设备及存储介质，以解决现有人工调节频率所存在的无法滤除噪声，成像效果不佳的问题。具体方案如下：

一种声学成像频率确定方法，包括：

对采集的音频数据进行快速傅里叶变换，得到频谱特征；

基于所述频谱特征，确定各预设频点的声源能量值；

基于各预设频点的声源能量值，确定用于表征目标声源能量下限的声源能量阈值；

基于所述频谱特征及所述声源能量阈值，确定目标声源的初步成像频率范围。

优选地，所述采集的音频数据包括多路音频数据；

所述基于所述频谱特征，确定各预设频点的声源能量值，包括：

基于各路音频数据分别对应的频谱特征，计算每一预设频点上能量幅值的累加值，得到每一预设频点的声源能量值。

优选地，所述基于各预设频点的声源能量值，确定用于表征目标声源能量下限的声源能量阈值，包括：

对各预设频点的声源能量值进行平均处理，结果作为用于表征目标声源能量下限的声源能量阈值；

或，

对各预设频点的声源能量值进行加权平均处理，结果作为用于表征目标声源能量下限的声源能量阈值，其中各频点的加权系数为预设值。

优选地，所述基于所述频谱特征及所述声源能量阈值，确定目标声源的初步成像频率范围，包括：

基于所述频谱特征，确定声源能量超过所述声源能量阈值的至少一个待定频段；

基于所述至少一个待定频段，确定目标声源的初步成像频率范围。

优选地，所述基于所述至少一个待定频段，确定目标声源的初步成像频率范围，包括：

根据各所述待定频段对应的声源能量极大值，选取声源能量极大值最大的前N个待定频段，作为所述目标声源的初步成像频率范围。

优选地，还包括：

对所述目标声源的各初步成像频率范围进行有效性的标定，所述有效性用于表示初步成像频率范围是否为目标声源的有效成像频率范围。

优选地，还包括：

利用标定为有效的初步成像频率范围，结合当前采集的视频图像，生成当前的声学成像图。

优选地，所述对所述目标声源的各初步成像频率范围进行有效性的标定，包括：

针对各所述初步成像频率范围，结合当前采集的视频图像，生成当前的声学成像图；

针对所述当前的声学成像图中，与每一初步成像频率范围对应的发声源图像位置，判断所述发声源图像位置相对于上一时刻的声学成像图是否发生变动；

若否，则根据记录的上一时刻的声学成像图中所述发声源图像位置对应的初步成像频率范围的有效性，对当前的声学成像图中所述发声源图像位置对应的初步成像频率范围的有效性进行标定。

优选地，还包括：

若判断所述发声源图像位置相对于上一时刻的声学成像图发生变动，则对当前的声学成像图中所述发声源图像位置处的图像进行活体检测；

若检测出活体对象，则将当前的声学成像图中所述发声源图像位置对应的初步成像频率范围标定为无效；

若未检测出活体对象，则将当前的声学成像图中所述发声源图像位置对应的初步成像频率范围标定为有效。

一种声学成像频率确定装置，包括：

音频数据处理单元，用于对采集的音频数据进行快速傅里叶变换，得到频谱特征；

声源能量值确定单元，用于基于所述频谱特征，确定各预设频点的声源能量值；

声源能量阈值确定单元，用于基于各预设频点的声源能量值，确定用于表征目标声源能量下限的声源能量阈值；

初步成像频率范围确定单元，用于基于所述频谱特征及所述声源能量阈值，确定目标声源的初步成像频率范围。

一种声学成像频率确定设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上的声学成像频率确定方法的各个步骤。

一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上的声学成像频率确定方法的各个步骤。

借由上述技术方案，本申请的声学成像频率确定方法，通过对采集的音频数据进行快速傅里叶变换，将其从时域转换为频域，得到频谱特征，进一步可以基于频谱特征确定各个预设频点的声源能量值，可以理解的是，一般性的，目标声源的能量值都是较大的，为此，可以基于各预设频点的声源能量值，确定出用于表征目标声源能量下限的声源能量阈值，进而可以基于频谱特征和声源能量阈值，确定出目标声源的初步成像频率。相比于现有技术，本申请方法能够过滤掉部分声源能量值较低的噪声源，筛选得到目标声源的成像频率，进而可以基于目标声源的成像频率进行声学成像，其成像效果更佳。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的声学成像频率确定方法的一流程示意图；

图2为本申请实施例示例的一种频谱特征图；

图3为本申请实施例示例的一种声学成像图；

图4位本申请实施例提供的声学成像频率确定装置的结构示意图；

图5为本申请实施例提供的声学成像频率确定设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在介绍本申请方案之前，首先对声学成像的一些技术进行介绍。

声学照相机利用数字麦克风阵列，将采集的声音以彩色等高线图谱(以下称为声场热力图)的方式可视化呈现在屏幕上，形成类似于热成像仪对物体温度的探测效果。声学照相机一般以固定的帧率实时展示视频画面和声场热力图。即展示当前最新的视频帧和最新的音频数据帧(音频数据每帧的时间固定，如8ms)计算得到的声场热力图。

声学成像的关键在于视频画面与声场热力图叠加展示。视频有一个帧率的概念，如帧率为25fps，即每秒可以获取到25张照片。同样，音频也是分帧处理的，比如8ms为一帧，那么1s就有125帧。每帧音频数据都会通过算法计算得到对应的声场分布数据，即空间每个点的声强信息，声场分布数据经过坐标转换生成声场热力图。空间的划分由阵列、算法等决定。如空间可能在水平角与俯仰角均以3°的间隔划分，最终划分得到m*n个点。声场分布数据指声强在这m*n个波束上分布的数据。最后，空间的每个点都被映射到摄像头画面中，即视频画面与声场热力图叠加展示到屏幕上。

基于此，本申请实施例提供了一种声学成像频率确定方案，详细参照下述介绍。

结合图1所述，本申请的声学成像频率确定方法可以包括如下步骤：

步骤S100、对采集的音频数据进行快速傅里叶变换，得到频谱特征。

具体的，对于麦克风阵列所采集的音频数据，可以通过快速傅里叶变换，将其从时域变换到频域，得到频谱特征。

步骤S110、基于所述频谱特征，确定各预设频点的声源能量值。

其中，各预设频点可以按照如下方式确定：

将设定的全频段按照目标频率间隔进行分割，得到预设个数的频点。示例如，将0-16KHz作为全频段，定义目标频率间隔为62.5Hz，则分割可以得到257个频点。

基于频谱特征可以确定各频点的幅值，也即各频点的声源能量值。

步骤S120、基于各预设频点的声源能量值，确定用于表征目标声源能量下限的声源能量阈值。

可以理解的是，一般性的，目标声源的能量值都是较大的，为此，可以基于各预设频点的声源能量值，确定出用于表征目标声源能量下限的声源能量阈值。对于声源能量值低于声源能量阈值的频点，可以认为属于噪声源的频率范围，不属于目标声源的成像频率范围。

步骤S130、基于所述频谱特征及所述声源能量阈值，确定目标声源的初步成像频率范围。

具体的，在确定了声源能量阈值后，可以基于频谱特征及声源能量阈值，在各频点中确定出目标声源的初步成像频率范围。

本申请实施例的声学成像频率确定方法，通过对采集的音频数据进行快速傅里叶变换，将其从时域转换为频域，得到频谱特征，进一步可以基于频谱特征确定各个预设频点的声源能量值，可以理解的是，一般性的，目标声源的能量值都是较大的，为此，可以基于各预设频点的声源能量值，确定出用于表征目标声源能量下限的声源能量阈值，进而可以基于频谱特征和声源能量阈值，确定出目标声源的初步成像频率。相比于现有技术，本申请方法能够过滤掉部分声源能量值较低的噪声源，筛选得到目标声源的成像频率，进而可以基于目标声源的成像频率进行声学成像，其成像效果更佳。

可以理解的是，声学照相机上的声学麦克风可以是麦克风阵列形式，也即包含多个麦克风，则上述步骤S100中提及的音频数据可以是多路音频数据，也即包含各路麦克风分别采集的音频数据。

在此基础上，对音频数据进行快速傅里叶变换的过程，包括分别对每一路音频数据进行快速傅里叶变换，得到每一路音频数据对应的频谱特征。

进一步的，上述步骤S110，基于频谱特征，确定各预设频点的声源能量值的过程，可以包括：

本申请的另一个实施例中，介绍了上述S120，基于各预设频点的声源能量值，确定用于表征目标声源能量下限的声源能量阈值的可选实施方式。

一种可选的实施方式下，声源能量阈值的确定过程可以包括：

对各预设频点的声源能量值进行平均处理，结果作为用于表征目标声源能量下限的声源能量阈值。

另一种可选的实施方式下，声源能量阈值的确定过程可以包括：

对各预设频点的声源能量值进行加权平均处理，结果作为用于表征目标声源能量下限的声源能量阈值。

其中，各频点的加权系数为预设值。示例如，若预先确定目标声源所处的大致频率范围，如确定目标声源处于低频范围，则可以将目标声源所处的大致频率范围内的各频点的加权系数调高，将其它频点的加权系数调低。

本申请的又一个实施例中，介绍了上述步骤S130，基于所述频谱特征及所述声源能量阈值，确定目标声源的初步成像频率范围的可选实施方式。

确定目标声源的初步成像频率范围的过程，可以包括：

S1、基于所述频谱特征，确定声源能量超过所述声源能量阈值的至少一个待定频段。

具体的，在频谱特征图中，可以以纵轴上声源能量阈值处为起点，做一条平行于横轴频率的直线。则频谱波形会与该直线相交，筛选处于直线以上的波形，该波形所对应的横轴频段即可作为待定频段。

参见图2所示：

在频谱特征图中，声源能量阈值处做一条平行于横轴的直线，与频谱波形相交。其中，位于直线以上的波形有四个波峰，分别对应频点为i、i+1、j、j+2。则每个波峰所处波形与直线的两个交点对应的频率区间，作为一个待定频段，图2示例的共有四个待定频段。

S2、基于所述至少一个待定频段，确定目标声源的初步成像频率范围。

具体的，一种可选的方式下，可以将每个待定频段，均作为目标声源的初步成像频率范围。

再一种可选的方式下，可以根据各待定频段对应的声源能量极大值，选取声源能量极大值最大的前N个待定频段，作为目标声源的初步成像频率范围。

以图2为例进行说明：

定义N为2，则从图2可以看出，四个波峰中最大的两个为频点i和j+2对应的波峰。因此，可以将频点i和j+2所处的两个待定频段，作为目标声源的初步成像频率范围。

在上述各实施例的基础上，本申请方案还可以进一步增加对确定的目标声源的初步成像频率范围进行有效性标定的过程。其中，有效性用于表示初步成像频率范围是否为目标声源的有效成像频率范围。

可以理解的是，上述实施例中所确定的目标声源的各初步成像频率范围中，可能存在部分成像频率范围是无效的，也即属于噪声源的成像频率范围。因此，通过对各初步成像频率范围进行有效性标定，可以进一步排除掉部分无效的成像频率范围，更加精准的定位目标声源的有效成像频率范围。

在此基础上，可以利用标定为有效的初步成像频率范围，结合当前采集的视频图像，生成当前的声学成像图。

结合图3所示，其示例了一种生成的声学成像图的示意图。

图3示例了对变电站拍摄得到的声学成像图，能够确定变电站中各目标声源的位置。

接下来，介绍对各初步成像频率范围进行有效性标定的具体实现过程。

有效性标定过程可以包括：

S1、针对各所述初步成像频率范围，结合当前采集的视频图像，生成当前的声学成像图。

具体的，可以针对各初步成像频率范围进行波束形成计算，将每个波束的计算结果累加得到各个波束在初步成像频率范围内不同频点的能量值，也即得到最终的声场分布数据。

进一步，基于声场分布数据生成声场热力图，并将声场热力图与当前采集的视频图像进行叠加，得到当前的声学成像图。

可以确定的是，对于每个初步成像频率范围，均会在声学成像图中对应一热力图成像位置，也即对应一发声源图像位置。不同的初步成像频率范围可能对应不同或相同的发声源图像位置。

定义初步成像频率范围的个数为N，则生成的当前的声学成像图中发声源图像位置的个数为K，K≤N。

S2、针对所述当前的声学成像图中，与每一初步成像频率范围对应的发声源图像位置，判断所述发声源图像位置相对于上一时刻的声学成像图是否发生变动，若否，执行S3，若是，执行S4。

具体的，对于当前的声学成像图中K个发声源图像位置中的每一个，可以与上一时刻的声学成像图中对应的发声源图像位置进行对比，判断是否发生位置变动。具体的，可以是对比发声源图像位置间是否存在交集，若存在，则可以认为没有发生位置变动，若不存在，则可以认为发生了位置变动。

S3、根据记录的上一时刻的声学成像图中所述发声源图像位置对应的初步成像频率范围的有效性，对当前的声学成像图中所述发声源图像位置对应的初步成像频率范围的有效性进行标定。

具体的，当确定发声源图像位置未发生变动时，可以认为发声源没有发生变化，因此可以复用上一时刻声学成像图中发声源图像位置对应的初步成像频率范围的有效性。示例如，若上一时刻声学成像图中发声源图像位置1对应的初步成像频率范围为有效，且当前时刻的声学成像图中发声源图像位置1并未发生位置变动，则可以将发声源图像位置1对应的初步成像频率范围的有效性标定为有效。

S4、对当前的声学成像图中所述发声源图像位置处的图像进行活体检测。若检测出活体对象，则执行S5，若未检测出活体对象，则执行S6。

具体的，当确定发声源图像位置发生变动时，可以认为发声源发生了变化，因此需要重新判定有效性。本步骤中，通过对当前声学成像图中发声源图像位置处的图像进行活体检测，来确定有效性。

可以理解的是，目标声源一般是非活体的，如变压器等工业设备等。因此，若在图像中检测出活体对象，则说明对应的发声源图像位置为活体发声源，属于干扰噪声，而非目标声源，因此可以执行S5，将其对应的初步成像频率范围标定为无效，反之，则执行S6，将其对应的初步成像频率范围标定为有效。

S5、将当前的声学成像图中所述发声源图像位置对应的初步成像频率范围标定为无效。

S6、将当前的声学成像图中所述发声源图像位置对应的初步成像频率范围标定为有效。

下面对本申请实施例提供的声学成像频率确定装置进行描述，下文描述的声学成像频率确定装置与上文描述的声学成像频率确定方法可相互对应参照。

参见图4，图4为本申请实施例公开的一种声学成像频率确定装置结构示意图。

如图4所示，该装置可以包括：

音频数据处理单元11，用于对采集的音频数据进行快速傅里叶变换，得到频谱特征；

声源能量值确定单元12，用于基于所述频谱特征，确定各预设频点的声源能量值；

声源能量阈值确定单元13，用于基于各预设频点的声源能量值，确定用于表征目标声源能量下限的声源能量阈值；

初步成像频率范围确定单元14，用于基于所述频谱特征及所述声源能量阈值，确定目标声源的初步成像频率范围。

本申请的声学成像频率确定装置，通过对采集的音频数据进行快速傅里叶变换，将其从时域转换为频域，得到频谱特征，进一步可以基于频谱特征确定各个预设频点的声源能量值，可以理解的是，一般性的，目标声源的能量值都是较大的，为此，可以基于各预设频点的声源能量值，确定出用于表征目标声源能量下限的声源能量阈值，进而可以基于频谱特征和声源能量阈值，确定出目标声源的初步成像频率。相比于现有技术，本申请方法能够过滤掉部分声源能量值较低的噪声源，筛选得到目标声源的成像频率，进而可以基于目标声源的成像频率进行声学成像，其成像效果更佳。

可选的，所述采集的音频数据可以包括多路音频数据；则声源能量值确定单元基于所述频谱特征，确定各预设频点的声源能量值的过程，可以包括：

可选的，上述声源能量阈值确定单元基于各预设频点的声源能量值，确定用于表征目标声源能量下限的声源能量阈值的过程，可以包括：

或，

可选的，上述初步成像频率范围确定单元基于所述频谱特征及所述声源能量阈值，确定目标声源的初步成像频率范围的过程，可以包括：

可选的，上述初步成像频率范围确定单元基于所述至少一个待定频段，确定目标声源的初步成像频率范围的过程，可以包括：

可选的，本申请的装置还可以包括：

有效性标定单元，用于对所述目标声源的各初步成像频率范围进行有效性的标定，所述有效性用于表示初步成像频率范围是否为目标声源的有效成像频率范围。

进一步可选的，本申请的装置还可以包括：

声学成像图生成单元，用于利用标定为有效的初步成像频率范围，结合当前采集的视频图像，生成当前的声学成像图。

可选的，上述有效性标定单元对所述目标声源的各初步成像频率范围进行有效性的标定的过程，可以包括：

进一步可选的，有效性标定单元对所述目标声源的各初步成像频率范围进行有效性的标定的过程，还可以包括：

本申请实施例提供的声学成像频率确定装置可应用于声学成像频率确定设备，如声学照相机等。可选的，图5示出了声学成像频率确定设备的硬件结构框图，参照图5，声学成像频率确定设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

对采集的音频数据进行快速傅里叶变换，得到频谱特征；

基于所述频谱特征，确定各预设频点的声源能量值；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

对采集的音频数据进行快速傅里叶变换，得到频谱特征；

基于所述频谱特征，确定各预设频点的声源能量值；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种声学成像频率确定方法，其特征在于，包括：

对采集的音频数据进行快速傅里叶变换，得到频谱特征；

基于所述频谱特征，确定各预设频点的声源能量值；

2.根据权利要求1所述的方法，其特征在于，所述采集的音频数据包括多路音频数据；

3.根据权利要求1所述的方法，其特征在于，所述基于各预设频点的声源能量值，确定用于表征目标声源能量下限的声源能量阈值，包括：

或，

4.根据权利要求1所述的方法，其特征在于，所述基于所述频谱特征及所述声源能量阈值，确定目标声源的初步成像频率范围，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述至少一个待定频段，确定目标声源的初步成像频率范围，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求6所述的方法，其特征在于，所述对所述目标声源的各初步成像频率范围进行有效性的标定，包括：

9.根据权利要求8所述的方法，其特征在于，还包括：

10.一种声学成像频率确定装置，其特征在于，包括：

11.一种声学成像频率确定设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～9中任一项所述的声学成像频率确定方法的各个步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～9中任一项所述的声学成像频率确定方法的各个步骤。