CN110661988B

CN110661988B - 一种声音与图像混合阵列处理***

Info

Publication number: CN110661988B
Application number: CN201910750990.3A
Authority: CN
Inventors: 陈劲; 刘荣; 关升
Original assignee: Sichuan Tianyuan Hongchuang Technology Co ltd
Current assignee: Tianjin Xinmeng Microelectronics Technology Co ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2022-01-11
Anticipated expiration: 2039-08-14
Also published as: CN110661988A

Abstract

本发明公开了一种声音与图像混合阵列处理***，包括声阵列信号处理子***、图像阵列处理子***和显示模块；所述声阵列信号处理子***包括声音阵列接收模块和声音数据的存储与处理模块，所述图像阵列处理子***包括图像阵列接收模块与图像数据的存储与处理模块；显示模块用于将声阵列处理子***与图像阵列处理子***分别传送来的声强分布图和视频进行叠加显示，将声强分布图不同位置的声音分布与视频中该位置相对应的物体严格贴合，从而使得用户通过该模块就可得知画面中每个区域内的物体周围的声音分布情况。

Description

一种声音与图像混合阵列处理***

技术领域

本发明属于数据处理技术领域，具体涉及一种声音与图像混合阵列处理***。

背景技术

声音与图像是我们生活中最常接触到的，其中包含了大量的有用信息，在很多领域中都起到了关键性的作用，例如刑侦破案、远程会议等等。在实际应用当中提取到的通常是多种声源发出的混合声音信号，对其最常见的处理就是进行频谱分析，根据需要提取相应频带范围内的信号或者对信号进行分离。在混合声音信号当中，不同声源发出的声音强弱各有差异，因而可以对信号进行处理，将其在不同时间与空间上的声强分布直观的表示出来。

对图像的处理则更加常见，比如在电商领域经常需要对图像进行修饰，使其更加美观；在公共场合发生盗窃等事件时，经常需要获取监控摄像头拍到的画面对其进行分析。近年来，随着神经网络的不断发展，对图像的检测与识别已然变成了一个热点，吸引了大批的学者对其进行研究。

在某些情况下，单纯只对声音或者图像进行处理已经无法满足需求，需要同时对两者进行分析。声学相机是目前比较流行的应用实例，其主要用于噪声源的定位。通过将捕获到的声音与图像混合信号进行处理，最后便可通过显示器观察到画面当中不同位置上的声音分布情况，从而得出噪声可能存在的区域并采取相应的措施。本***同样是对采集到的声音与图像混合阵列进行处理，用户可以观察到不同强度的声音信号的分布情况，同时自行选择获取到的图像对其进行目标检测，由此得知画面中某个位置上的具体物体以及该位置上的声音分布。本***可以广泛应用于远程视频会议、考场行为监控等多个领域当中。

发明内容

本发明的目的在于克服现有技术的不足，提供一种声音与图像混合阵列处理***。

本发明是通过以下技术方案实现的：

一种声音与图像混合阵列处理***，包括声阵列信号处理子***、图像阵列处理子***和显示模块；

所述声阵列信号处理子***包括声音阵列接收模块和声音数据的存储与处理模块，所述声音阵列接收模块用于接收终端传送而来的声阵列信号数据包并将其中的有效数据解析出来供声音数据的存储与处理模块进行数据处理；所述声音数据的存储与处理模块包含“先存储后处理”与“先处理后存储”两种工作模式，这两种模式通过多线程编码的方式同时进行；

其中：“先存储后处理”模式下，先将有效数据进行保存，当数据存储完毕后便对数据进行处理，将接收到的数据在显示模块中以二维波形的形式显示；“先处理后存储”模式下，声音数据的存储与处理模块将接收到的有效声阵列数据首先暂时放置在内存当中，当数据帧数量达到要求后，将内存中保存的所有数据转换为二维矩阵，然后采用波达方向估计算法，得到声强分布图，声强分布图最后发送至显示模块；

所述图像阵列处理子***包括图像阵列接收模块与图像数据的存储与处理模块，所述图像阵列接收模块用于接收终端传送而来的图像阵列信号数据包并将其中的有效数据解析出来供图像数据的的存储与处理模块进行数据处理；所述图像数据的存储与处理模块包含“先存储后处理”与“先处理后存储”两种工作模式，这两种模式通过多线程编码的方式同时进行；

其中：“先存储后处理”模式下，先将原始图像数据以图片的形式保存在相应文件夹中，然后根据用户要求，对其进行目标检测，以获得图像的细节信息；“先处理后存储”模式下，是将接收到的图像数据直接发送至显示模块，显示模块会将声阵列处理子***所获得的声强分布图叠加于视频上，最终将叠加后的整体视频进行保存。

在上述技术方案中，本***中接收到的声音阵列数据和图像阵列数据是由一种声音与图像信号混合终端经千兆以太网线传输而得到的，该终端采用图像传感器和声传感器分别采集声音与图像数据，再将两种信号分别进行组帧，最后经过一根千兆以太网线传输至本***，利用千兆以太网线中的虚拟通道和端口同时互不干扰的传输图像、声音两种数据信号。

在上述技术方案中，所述声音阵列接收模块是根据终端传输声信号的虚拟通道所对应的端口号进行接收的，首先搜寻到该端口，一旦***开始运行且该通道上有数据到达时，声音阵列接收模块便会抓取所有传送而来的数据包并将其中的有效数据解析出来供声音数据的存储与处理模块进行数据处理。

在上述技术方案中，所述图像阵列接收模块是根据终端传输图像信号的虚拟通道所对应的端口号进行接收的，首先搜寻到该端口，一旦***开始运行且该通道上有数据到达时，图像阵列接收模块便会抓取所有传送而来的数据包并将其中的有效数据解析出来供图像数据的存储与处理模块进行数据处理。

在上述技术方案中，所述声音数据的存储与处理模块，在“先存储后处理”模式下：在保存数据之前，预先在硬盘或磁盘中建立保存数据的空间，在数据的存储过程中，采用内存映射机制以及交替存储的方法。

在上述技术方案中，所述图像数据的存储与处理模块，在“先存储后处理”模式下：在保存数据之前，预先在硬盘或磁盘中建立保存数据的空间，在数据的存储过程中，采用内存映射机制以及交替存储的方法。

在上述技术方案中，所述图像数据的存储与处理模块，在“先存储后处理”模式下：当数据达到后，图像数据的存储与处理模块将有效数据以.jpg图片的格式进行保存，同时在图像的命名当中加入图像形成当时的时间，这样可以方便用户通过图像的名称得知***获得该图像的时间，非常有利于后续的目标检测处理。

在上述技术方案中，所述图像数据的存储与处理模块，在“先存储后处理”模式下：利用神经网络算法，对图像进行目标识别。

在上述技术方案中，将神经网络算法封装成了一个单独的包，可以根据实际需求选择符合要求的网络进行检测。

在上述技术方案中，所述显示模块用于将声阵列处理子***与图像阵列处理子***分别传送来的声强分布图和视频进行叠加显示，将声强分布图不同位置的声音分布与视频中该位置相对应的物体严格贴合，从而使得用户通过该模块就可得知画面中每个区域内的物体周围的声音分布情况。

本发明的优点和有益效果为：

(1)本***采用多条流水线同步工作的模式，每条支线各自运行，不同支线之间又有信号相连，在保证多任务同步进行的情况下又可保证***的完整性。

(2)本***的每个模块当中都涉及到了一些参数和某些算法，在***组建的过程中，这些参数以及算法都被组装成了可替换的包，因此本***可以根据所相连的终端以及应用需求的更改而调整相应的参数包和算法包，大大提升了***的灵活性，使其可以应用于更多的领域当中。

(3)本***当中添加了现下大热的神经网络，利用其对图像进行目标识别，而不是单纯依赖人眼进行物体的识别。这种方式极大地提高了***的实用性，尤其是在周围环境较为昏暗且现场秩序较为混乱的情况下，仅仅依赖人眼是无法精确辨别画面中众多物体的分布情况的。

附图说明

图1是声音与图像混合阵列处理***的结构示意图。

图2是声音阵列信号与图像阵列信号的接收原理图。

图3是声音数据的存储与处理模块原理图。

图4是数据存储的过程图。

图5(a)是同时显示2路波形的界面图。

图5(b)是同时显示4路波形的界面图。

图6是声阵列处理子***的总体工作流程。

图7是图像数据的存储与处理模块的原理图。

图8是图像阵列处理子***的总体工作流程。

对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据以上附图获得其他的相关附图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合具体实施例进一步说明本发明的技术方案。

实施例一

参见附图1，一种声音与图像混合阵列处理***，包括声阵列信号处理子***、图像阵列处理子***和显示模块。

参见附图2，在本***中接收到的声音阵列数据和图像阵列数据是由一种声音与图像信号混合终端经千兆以太网线传输而得到的，该声音与图像信号混合终端专利号为2018218444886和2018113323057，该终端采用图像传感器和64路的声传感器分别采集声音与图像数据，再将两种信号分别进行组帧，最后经过一根千兆以太网线传输至本***。其中，利用千兆以太网线中的虚拟通道和端口便可同时互不干扰的传输两种信号，即将一根传输线在逻辑上划分出若干通道并设置不同的端口号，在传输数据时便可利用不同的通道传输多种数据。这里划分通道的操作是逻辑意义上的，并非是将实际的传输线进行切割，因而仅利用一根网线便实现了声音与图像两种信号的独立传输。

一、本***的声阵列信号处理子***包括声音阵列接收模块和声音数据的存储与处理模块。

所述声音阵列接收模块是根据终端传输声信号的虚拟通道所对应的端口号进行接收的，即首先搜寻到该端口，一旦***开始运行且该通道上有数据到达时，声音阵列接收模块便会抓取所有传送而来的数据包并将其中的有效数据解析出来供声音数据的存储与处理模块进行数据处理。需要说明的是，本声音阵列接收模块同样适用于采用相似传输模式的其它终端设备，只需调整相应的参数即可实现。

所述声音数据的存储与处理模块包含两种工作模式，即：“先存储后处理”与“先处理后存储”。如图3所示即为本模块的原理图，在***运行以后，这两种模式是同时进行的，通过多线程编码即可实现。

1、“先存储后处理”模式：

在该种工作模式下，接收到声阵列信号后首先将有效数据进行保存，随后对数据进行处理。进一步的说，在保存数据之前，预先建立保存数据的空间，即创建声学文件，该文件的创建位置可以根据实际需要进行修改。在数据的存储过程中，采用内存映射机制以及交替存储的方法。***创建的声学文件都位于硬盘或磁盘中，当要对其进行读写等普通操作时，必须要经过内存才可以实现，由此就会造成时间的浪费，无法保证数据读写的实时性，因此采用内存文件映射机制，即创建文件的同时创建一个指向该文件的内存指针，通过对该指针的操作便可实现对文件的间接读取等操作，大大的提升了***操作的实时性；而采用交替存储的方法则是为了保证数据存储的完整性，当某个文件所保存的数据量达到该文件的上限容量时，其后接收的数据就应该存入新的文件当中。倘若***此时再开始创建新文件，即便该过程耗时极短，期间仍旧会有一部分数据无处存放，由此便会造成数据的丢失，严重影响***的性能。因而本***利用两个文件和指针交替存储数据，保证在某个文件的容量达到上限时，新的空文件已经创建完毕，避免了因文件创建不及时导致的数据流失，使得数据的完整性可以切实得到保障。如图4所示即为数据存储的过程。

当数据存储完毕后便可对数据进行处理，将接收到的数据以二维波形的形式显示出来。由于与本***相连的终端上嵌入了64通道的声传感器阵列来采集声信号，因而波形显示中设置了8个可选支路与8个可选通道，分别对应终端的64条通道。用户可以根据实际需要选择显示模式，即选择需要同时显示的波形数量，其默认值为2，上限为8。通过声音信号的波形可以很好的观察到每个通道中信号的变化情况，而且在单一信号的情况下，可以根据波形图计算得到信号的频率。另外，同时显示多路信号波形，有助于对信号的同步性进行观察。如图5(a)和5(b)所示即为同时显示2路波形与同时显示4路波形的界面图。

2、“先处理后存储”模式：

在该种工作模式下，声音数据的存储与处理模块将接收到的有效声阵列数据首先暂时放置在内存当中，当数据帧数量达到要求后，将内存中保存的所有数据转换为二维矩阵，然后采用波达方向估计算法，得到声强分布图，声强分布图最后发送至显示模块。在本例当中，由终端发送而来的声学数据帧中的有效数据长度为1024Byte，其中包含了64个声传感器8次采样后的所有数据，***得到数据帧以后会先将其暂时存放在内存当中，直到累积得到128个数据帧以后将其中的有效数据转换成为一个维度为64*1024的二维矩阵；随后会对该矩阵进行波达方向估计算法，得到大小为180*180的矩阵，映射了空间当中不同位置上的输出信号功率；最终这些数据会被转换成为声强分布图，其利用不同的颜色和亮度来表示相应位置上声音的输出功率的大小，因此通过观察声强分布图便可得知不同空间当中声音的强弱分布。

进一步的，得到的声强分布图会被传送至显示模块当中与图像处理子***生成的视频进行动态叠加显示并保存。

二、本***的图像阵列处理子***包括图像阵列接收模块与图像数据的存储与处理模块。

图像数据的接收与声音数据的接收原理基本相同，同样是通过绑定终端传输图像阵列数据的通道对应的端口号来接收，一旦***开始运行且该通道上有数据到达时，图像阵列接收模块便会抓取所有传送而来的数据包并将其中的有效数据解析出来供图像数据的存储与处理模块进行数据处理。图像阵列接收模块亦可用于接收其余终端传输的图像阵列信号，只要更改相应参数即可实现。

所述图像数据的存储与处理模块有两种模式：“先存储后处理”与“先处理后存储”。前者是首先将原始图像数据以图片的形式保存在相应文件夹中，用户可以根据实际需要在相应位置选择所需的图像，通过神经网络对其进行目标检测，以获得图像的细节信息；后者则是将接收到的数据直接以视频的形式叠加声强分布图进行显示并保存。这两种模式是同步进行的。如图7所示即为图像数据的存储与处理模块的原理图。

1、“先存储后处理”模式：

在本工作模式当中，数据存储之前同样会先行创建用以存储数据的图像文件夹，当数据从相应端口达到后，图像数据的存储与处理模块将有效数据以.jpg图片的格式进行保存，同时在图像的命名当中加入图像形成当时的时间，这样可以方便用户通过图像的名称得知***获得该图像的时间，非常有利于后续的目标检测处理。在图像数据保存中同样采用了内存映射机制以及交替存储的方法。

当数据存储完成以后，在相应的文件夹当中便可看到不同时间捕获到的图片，当用户有需要时，可以随时根据图片的名称提取相应时段内的图像。当前图像处理领域当中最炙手可热的当属目标检测，其利用神经网络对大量图像进行训练，由此学习得到不同物体各自的特征，随后便可对随机的一张图片进行检测，详细指出其中存在的物体种类以及确切的位置。本***将这种神经网络算法嵌入了图像阵列处理子***当中，用户在选择所需图片以后，便可操作***对这些图像进行目标检测，从而清楚得知不同画面中的物体分布情况，包括物体的种类及其具体所在的位置。在某些情况下，尤其是在周围环境较为昏暗或者现场秩序及其混乱的情况下，单纯依靠人眼已经无法图像进行精确的判断，因而使用上述处理方法可以极大地提升***的应用精度以及实用性。由于神经网络算法发展迅速，且不同网络模型获得的效果也各不相同，所以这里将神经网络算法封装成了一个单独的包，可以根据实际需求选择符合要求的网络进行检测。

2、“先处理后存储”模式：

本工作模式中，接收到图像阵列信号以后不会对其进行分块进行保存，而是直接将数据以动态视频的形式进行显示，显示模块会将声阵列处理子***所获得的声强分布图叠加于视频上，最终将叠加后的整体视频进行保存。如图8所示即为图像阵列处理子***的总体工作流程。

三、本***的显示模块作用是，将声阵列处理子***与图像阵列处理子***分别传送来的声强分布图和视频进行叠加显示，将声强分布图不同位置的声音分布与视频中该位置相对应的物体严格贴合，从而使得用户通过该模块就可得知画面中每个区域内的物体周围的声音分布情况。

为了易于说明，实施例中使用了诸如“上”、“下”、“左”、“右”等空间相对术语，用于说明图中示出的一个元件或特征相对于另一个元件或特征的关系。应该理解的是，除了图中示出的方位之外，空间术语意在于包括装置在使用或操作中的不同方位。例如，如果图中的装置被倒置，被叙述为位于其他元件或特征“下”的元件将定位在其他元件或特征“上”。因此，示例性术语“下”可以包含上和下方位两者。装置可以以其他方式定位(旋转90度或位于其他方位)，这里所用的空间相对说明可相应地解释。

而且，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个与另一个具有相同名称的部件区分开来，而不一定要求或者暗示这些部件之间存在任何这种实际的关系或者顺序。

以上对本发明做了示例性的描述，应该说明的是，在不脱离本发明的核心的情况下，任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。

Claims

1.一种声音与图像混合阵列处理***，其特征在于：包括声阵列信号处理子***、图像阵列处理子***和显示模块；

其中：声音数据的存储与处理模块的“先存储后处理”模式下，先将有效数据进行保存，当数据存储完毕后便对数据进行处理，将接收到的数据在显示模块中以二维波形的形式显示；声音数据的存储与处理模块的“先处理后存储”模式下，声音数据的存储与处理模块将接收到的有效声阵列数据首先暂时放置在内存当中，当数据帧数量达到要求后，将内存中保存的所有数据转换为二维矩阵，然后采用波达方向估计算法，得到声强分布图，声强分布图最后发送至显示模块；

所述图像阵列处理子***包括图像阵列接收模块与图像数据的存储与处理模块，所述图像阵列接收模块用于接收终端传送而来的图像阵列信号数据包并将其中的有效数据解析出来供图像数据的存储与处理模块进行数据处理；所述图像数据的存储与处理模块包含“先存储后处理”与“先处理后存储”两种工作模式，这两种模式通过多线程编码的方式同时进行；

其中：图像数据的存储与处理模块的“先存储后处理”模式下，先将原始图像数据以图片的形式保存在相应文件夹中，然后根据用户要求，对其进行目标检测，以获得图像的细节信息；图像数据的存储与处理模块的“先处理后存储”模式下，是将接收到的图像数据直接发送至显示模块形成视频，显示模块会将声阵列处理子***所获得的声强分布图叠加于视频上，最终将叠加后的整体视频进行保存。

2.根据权利要求1所述的声音与图像混合阵列处理***，其特征在于：本***中接收到的声音阵列数据和图像阵列数据是由一种声音与图像信号混合终端经千兆以太网线传输而得到的，该终端采用图像传感器和声传感器分别采集声音与图像数据，再将两种信号分别进行组帧，最后经过一根千兆以太网线传输至本***，利用千兆以太网线中的虚拟通道和端口同时互不干扰的传输图像、声音两种数据信号。

3.根据权利要求2所述的声音与图像混合阵列处理***，其特征在于：所述声音阵列接收模块是根据终端传输声信号的虚拟通道所对应的端口号进行接收的，首先搜寻到该端口，一旦***开始运行且该通道上有数据到达时，声音阵列接收模块便会抓取所有传送而来的数据包并将其中的有效数据解析出来供声音数据的存储与处理模块进行数据处理。

4.根据权利要求2所述的声音与图像混合阵列处理***，其特征在于：所述图像阵列接收模块是根据终端传输图像信号的虚拟通道所对应的端口号进行接收的，首先搜寻到该端口，一旦***开始运行且该通道上有数据到达时，图像阵列接收模块便会抓取所有传送而来的数据包并将其中的有效数据解析出来供图像数据的存储与处理模块进行数据处理。

5.根据权利要求1所述的声音与图像混合阵列处理***，其特征在于：所述声音数据的存储与处理模块，在“先存储后处理”模式下：在保存数据之前，预先在硬盘或磁盘中建立保存数据的空间，在数据的存储过程中，采用内存映射机制以及交替存储的方法。

6.根据权利要求1所述的声音与图像混合阵列处理***，其特征在于：所述图像数据的存储与处理模块，在“先存储后处理”模式下：在保存数据之前，预先在硬盘或磁盘中建立保存数据的空间，在数据的存储过程中，采用内存映射机制以及交替存储的方法。

7.根据权利要求1所述的声音与图像混合阵列处理***，其特征在于：所述图像数据的存储与处理模块，在“先存储后处理”模式下：当数据达到后，图像数据的存储与处理模块将有效数据以.jpg图片的格式进行保存，同时在图像的命名当中加入图像形成当时的时间，这样可以方便用户通过图像的名称得知***获得该图像的时间。

8.根据权利要求1所述的声音与图像混合阵列处理***，其特征在于：所述图像数据的存储与处理模块，在“先存储后处理”模式下：利用神经网络算法，对图像进行目标识别。

9.根据权利要求8所述的声音与图像混合阵列处理***，其特征在于：将神经网络算法封装成了一个单独的包，可以根据实际需求选择符合要求的网络进行检测。

10.根据权利要求1所述的声音与图像混合阵列处理***，其特征在于：所述显示模块用于将声阵列处理子***与图像阵列处理子***分别传送来的声强分布图和视频进行叠加显示，将声强分布图不同位置的声音分布与视频中该位置相对应的物体严格贴合，从而使得用户通过该模块就可得知画面中每个区域内的物体周围的声音分布情况。