CN109040691B

CN109040691B - 一种基于前端目标检测的场景视频还原装置

Info

Publication number: CN109040691B
Application number: CN201810991638.4A
Authority: CN
Inventors: 卢荣新; 王泽民; 李珉; 施国鹏
Original assignee: Yishi Digital Technology Chengdu Co ltd
Current assignee: Yishi Digital Technology Chengdu Co ltd
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2020-08-28
Anticipated expiration: 2038-08-29
Also published as: CN109040691A

Abstract

本发明公开了一种基于前端目标检测的场景视频还原装置，包括目标检测模块、帧抽样调节模块和图像合成模块，目标检测模块用于分别对输入视频流的每一帧进行目标检测，并将检测出的目标数据发送给图像合成模块；帧抽样调节模块用于从输入视频流中抽取背景图像，将背景图像及与背景图像对应的属性信息发送给图像合成模块；并调整抽取背景图像的规则；图像合成模块用于将目标图像和背景图像进行合成，以得到还原的视频流。本设计可在保证对场景视频的准确还原情况下，大幅减小传输图像所需的带宽，有效节省数据存储空间。尤其是，本设计能对场景中的特定目标进行准确识别和提取，以实现对场景细节信息的准确再现。

Description

一种基于前端目标检测的场景视频还原装置

技术领域

本发明涉及图像传输领域，尤其是一种基于前端目标检测的场景视频还原装置。

背景技术

图像传输作为场景还原的基础，在安防、监控、追踪等领域得到了广泛的应用功能。但传统的图像传输为保证对场景的还原真实度，往往是将每一帧视频图像都传输到接收端，同时随着监控视频的高清化发展趋势，势必会将图像传输的带宽可数据存储量大幅提高。

现有一种图像传输方式，可以在一定程度上建设数据传输带宽和数据传输量，其通常将视频帧中的静态物体和动态物体做检测和分离，在传输的时候，只需要把动态的前景部分传到后台，在后台再把静态的背景与动态的前景进行合成，生成合成图像，该方法在做动态检测和静态检测时，一般采用前帧和后帧数据差异化检测法，当目标运动时，前帧数据和后帧数据出现差异，两帧数据相减，即可检测出动态的目标。

上述方式经试验可以至少节省1/3的传输带宽和数据量，但是，该种方式无法对静态目标进行分离，即会将一些静态目标作为背景，在合成时，会将部分静态目标覆盖，造成信息丢失，其属于一种不可靠的图像传输方法。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于前端目标检测的场景视频还原法，在图像传输过程中，有效节省带宽和数据存储量的同时，保证特定目标的有效性，进而对视频进行可靠还原。

本发明采用的技术方案如下：

一种基于前端目标检测的场景视频还原装置，包括目标检测模块、帧抽样调节模块和图像合成模块，其中：

目标检测模块用于基于对目标的训练结果，分别对输入视频流的每一帧进行目标检测，并将检测出的目标数据发送给图像合成模块，该目标数据包含目标图像和与目标图像对应的属性信息；

帧抽样调节模块用于从输入视频流中抽取背景图像，将背景图像及与背景图像对应的属性信息发送给图像合成模块；并根据目标检测模块所检测的目标数据，和/或对所抽取的背景图像的检测结果，调整抽取背景图像的规则；

图像合成模块用于根据目标图像的属性信息以及背景图像的属性信息，将目标检测模块所提取出的目标图像，以及帧抽样调节模块抽取的背景图像进行合成，以得到还原的视频流。

进一步的，目标图像的属性信息至少包括时间信息、帧号信息、中心点位置信息和图像尺寸信息，背景图像的属性信息至少包括时间信息、帧号信息和图像尺寸信息。

进一步的，在目标检测模块与图像合成模块之间，以及帧抽样调节模块与图像合成模块之间，均设置有传输模块，所述传输模块用于分别将目标检测模块和帧抽样调节模块输入的数据配置为预定格式发送到图像合成模块。需要说明的是，目标检测模块与图像合成模块之间的传输模块，和帧抽样调节模块与图像合成模块之间的传输模块可以为两个独立的传输模块，也可以为同一个传输模块。

进一步的，传输模块向图像合成模块发送的数据为JSON（JavaScript ObjectNotation，JS对象简谱）格式的数据。

进一步的，帧抽样调节模块从输入视频流中抽取背景图像的方式具体为：

从输入视频流中抽取视频帧图像，对目标检测模块进行监控，若目标检测模块在视频帧图像中检测到目标，则选取视频帧图像的未包含目标的区域作为背景图像；否则，将抽取的视频帧图像作为背景图像。

进一步的，帧抽样调节模块调整抽取背景图像的规则为：

帧抽样调节模块以预定周期从输入视频流中抽取背景图像，在每次抽取出背景图像后，根据目标检测模块在该背景图像对应的视频帧图像中检测出的目标数量，和/或该背景图像与上一次发送到图像合成模块的背景图像的差别，调整抽取背景图像的周期。

进一步的，根据目标检测模块在该背景图像对应的视频帧图像中检测出的目标数量，和/或该背景图像与上一次发送到图像合成模块的背景图像的差别，调整抽取背景图像的周期具体为：

规定以周期T在输入视频流中抽取背景图像，若目标检测模块在所抽取的背景图像所对应的视频帧图像中所检测到的目标数量未达到预设门限值，或者所抽取的背景图像同上一次发送到图像合成模块的背景图像的差异度未超过预设比例，则保持抽样周期T或增大抽样周期；若目标检测模块从背景图像所对应的视频帧图像中所检测到的目标数量达到预设门限值，或者所抽取的背景图像同上一次发送到图像合成模块的背景图像的差异度超过预设比例，则减小抽样周期。

进一步的，还包括：连接目标检测模块的目标归类数据库，以及连接目标归类数据库的目标检索模块，其中：

目标归类数据库用于对目标检测模块所检测的目标数据按目标类型进行分类存储，目标检测模块所检测的目标至少包含一种类型的目标；

目标检索模块用于根据检索条件，在目标归类数据库中检索相应的数据进行输出。

进一步的，目标检索模块还连接图像合成模块，用于在目标归类数据库中检索相应的目标数据后，将该目标数据传输给图像合成模块，以使其调取对应的背景图像进行图像合成，进而将合成的视频流反馈给目标检索模块进行输出

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本设计可在保证对场景视频的准确还原情况下，大幅减小传输图像所需的带宽，有效节省数据存储空间。尤其是，本设计能对场景中的特定目标（动态或静态）进行准确识别和提取，以实现对场景细节信息的准确再现。

2、通过将传输数据进行格式固定，即可以防止传输过程中的数据丢失，也方便接收端对数据的识别和同步。

3、本设计的帧抽样调整规则，可以对抽样周期进行动态调整，可同时满足对场景的高准确率还原和降低传输带宽需求的要求。同时，本设计还对特定目标进行归类记录，以便于对相应类别或特定场景的快捷检索。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是装置构造的一个实施例。

图2是装置构造的另一实施例。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书（包括任何附加权利要求、摘要）中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

对于同一个图像采集设备（常见的摄像头）所采集的画面来讲，背景图像在绝大数情况下，是保持不变的，且其占用换面的大部分空间，如果每一帧视频图像均传送，则对于背景图像的大部分数据量的传输是无效的工作量。而现有将动态区域和背景区域进行区分再分别传输的方案，将所有静态物均视为背景区域，则对于很多场景的监控来说是不可靠的，例如对机械设备运行的监控、对物流厂库的监控、对燃气（如煤气罐）存放的监控等，这些应用场景均为对静态物的监控，若仅对动态的人/物进行场景还原，则必然会丢失绝大部分有效信息，失去监控的意义。

如图1所示，本实施例公开了一种基于前端目标检测的场景视频还原装置，该装置可在保证对现场高准确率还原的情况下，有效节省数据的传输带宽和存储空间。该装置包括：目标检测模块、帧抽样调节模块和图像合成模块，其中：

目标检测模块用于基于对目标的训练结果，分别对输入视频流的每一帧进行目标检测，并将检测出的目标数据发送给图像合成模块，该目标数据包含目标图像和与目标图像对应的属性信息。在一个实施方式中，属性信息至少包括时间信息（到秒）、帧号信息、中心点位置信息和图像尺寸信息，或者还包括RGB信息。采用大量目标图片、视频，进行基于神经网络的深度学习，即可完成对目标的训练，其属于现有成熟技术，本设计中不对训练过程进行详细阐述。

帧抽样调节模块用于从输入视频流中抽取背景图像，将背景图像及与背景图像对应的属性信息发送给图像合成模块；并根据目标检测模块所检测的目标数据，和/或对所抽取的背景图像的检测结果，调整抽取背景图像的规则。在一个实施方式中，属性信息至少包括时间信息（到秒）、帧号信息和图像尺寸信息，或者还包括RGB信息。

图像合成模块用于根据所述目标图像的属性信息以及所述背景图像的属性信息，将目标检测模块所提取出的目标图像，以及帧抽样调节模块抽取的背景图像进行合成，以得到还原的视频流。

目标检测模块和帧抽样调节模块均连接到图像采集设备上，以获取到输入视频流，设置于图像发送端。通常的，图像合成模块配置于图像接收端，当然，配置于图像采集设备的近端也不影响本设置装置的正常使用。

因目标图像和背景图像均包含有相应的属性信息，根据各自的属性信息，即可将目标图像和背景图像进行对齐，以时间和该时间点的帧号即可进行数据对其，同时，基于目标图像的中心点位置信息、图像尺寸信息以及背景图像的尺寸信息，即可进行位置对其，进而确定出合成帧图像的图像（将目标图像填充到背景图像的相应区域），同时，结合目标图像和背景图像的RGB信息，即可确定出合成帧图像的RGB信息，最终合成视频流的帧图像。

对于目标图像和背景图像的传输（传输到图像合成模块），可采用JSON（JavaScript Object Notation，JS对象简谱）格式进行传输，如图2所示，对于格式的固定，可在目标检测模块和图像合成模块之间，帧抽样调节模块与图像合成模块之间，设置一个传输模块，以对传输数据的格式进行设置。例如目标数据传输格式如下：

{Datetime:time,FrameNo:number,Center:（x, y）,Image:data}；

Datetime：时间信息，精确到秒；

FrameNo：帧号信息，与时间信息构成唯一的标签数据；

Center：目标的中心点位置（即中心点位置信息），以坐标（x, y）形式表示；

Image：目标图像，该数据包含了目标大小（hight（高度）,width（宽度））、目标图像数据，以及RBG图像类型信息。

类似的，背景图像传输格式如下：

{Datetime:time,FrameNo.:number,Image:data}；

Datetime：时间信息，精确到秒；

FrameNo.：帧号信息，与时间信息构成唯一的标签数据；

Image：背景图像，该数据包含了目标大小（hight（高度）,width（宽度））、目标图像数据，以及RBG图像类型信息。

本实施例公开了帧抽样调节模块从输入视频流中抽取背景图像的具体方式：

本实施例公开了帧抽样调节模块调整抽取背景图像的规则：

帧抽样调节模块以预定周期从输入视频流中抽取背景图像，在每次抽取出背景图像后，根据目标检测模块在该背景图像对应的视频帧图像中检测出的目标数量，和/或该背景图像与上一次发送到图像合成模块的背景图像的差别，调整抽取背景图像的周期。在一个具体实施方式中，规定以周期T在输入视频流中抽取背景图像，若目标检测模块在所抽取的背景图像（可能为完整的视频帧图像，也可能为去除目标的视频帧图像剩余区域）所对应的视频帧图像中所检测到的目标数量未达到预设门限值（如预设门限值为5），或者所抽取的背景图像同上一次发送到图像合成模块的背景图像的差异度（如10%）未超过预设比例（比较相似度属于相同的原理），则保持抽样周期T或增大抽样周期（如调整为2T），反之，若目标检测模块从背景图像所对应的视频帧图像中所检测到的目标数量达到预设门限值，或者所抽取的背景图像同上一次发送到图像合成模块的背景图像的差异度超过预设比例，则减小抽样周期（如调整为T/2），进而在保证合成视频对现场的再现效果好的情况下，进一步节约传输带宽。例如原抽样周期（时间间隔）为60秒抽取一次背景图像（刷新一次背景），规定在背景图像变动不超过10%（或者相似度达到90%）的情况下，或者视频帧图像中检测的目标数量未达到5个的情况下，保持抽取背景图像的周期；在背景图像变动超过10%（或者相似度未达到90%）的情况下，或者视频帧图像中检测的目标数量达到5个的情况下，则调整抽取背景图像的周期为30秒。以720P（1280*720）的视频传输为例，完整的视频帧图像（无损传输）的数据量大小为1280*720*24/8/1024/1024=2.6MB，则传输一路完整视频（720P@25FPS）所需带宽约为65MB/S。若采用本设计的传输方案，设目标检测的平均尺寸为500*120，则目标传输所需带宽为25*500*120*24/8/1024/1024=4.29MB/S，若设置的背景图像传输间隔为60S，则背景图像传输所需带宽为2.6/60=0.04MB/S，总带宽则为4.33MB/S，相比较而言，所需带宽为原传输视频所需带宽的6.7%，极大地节省了带宽和数据存储空间。对于传统视频数据发送规则而言，其无论视频中是否含有目标，均会将数据进行发送，而实际上，视频中含有目标的情形仅占整个视频流的一部分，以K作为占空比描述有效视频流：K=含目标视频时长/总视频时长，则进一步的，实际所需带宽和存储空间比例为6.7%*K。

本实施例公开了另一种基于前端目标检测的场景视频还原装置，该装置还包括：连接目标检测模块的目标归类数据库，以及连接目标归类数据库的目标检索模块，其中：

目标归类数据库用于对目标检测模块所检测的目标数据按目标类型进行分类存储，所述目标检测模块所检测的目标至少包含一种类型的目标。在一种实施方式中，目标包括三类目标：行人、车辆和静态物体（如煤气罐、水瓶、包装箱等），通过构造以上三种类型目标的训练模型（行人模型、车辆模型和静态物体模型）分别对输入视频流进行检测，即可从输入视频流的视频帧图像中分别检测出以上三种类型的目标，相应的，在检测出的目标图像对应的属性信息中，会进行相应类型的标记，例如在传输的JSON格式的目标数据中，还包含有Type：（person|car|object），其中Type则表示目标的类型数据，person、car、object依次代表行人、车辆和静态物体的类型标记，在存储数据时，用三张表单分别存储三种类型的目标，根据类型标记将目标数据归类到相应的表单中。

在一种实施方式中，目标检索模块还连接图像合成模块，用于根据检索条件，在目标归类数据库中检索相应的目标数据，并将该目标数据传输给图像合成模块，以使其调取对应的背景图像进行图像合成，进而将合成的视频流反馈给目标检索模块进行输出。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种基于前端目标检测的场景视频还原装置，其特征在于，包括目标检测模块、帧抽样调节模块和图像合成模块，其中：

所述目标检测模块用于基于对目标的训练结果，分别对输入视频流的每一帧进行目标检测，并将检测出的目标数据发送给图像合成模块，该目标数据包含目标图像和与目标图像对应的属性信息；

所述帧抽样调节模块用于从输入视频流中抽取背景图像，将背景图像及与背景图像对应的属性信息发送给图像合成模块；并规定以周期 T 在输入视频流中抽取背景图像，T>0，若目标检测模块在所抽取的背景图像所对应的视频帧图像中所检测到的目标数量未达到预设门限值，或者所抽取的背景图像同上一次发送到图像合成模块的背景图像的差异度未超过预设比例，则保持抽样周期 T 或增大抽样周期；若目标检测模块从背景图像所对应的视频帧图像中所检测到的目标数量达到预设门限值，或者所抽取的背景图像同上一次发送到图像合成模块的背景图像的差异度超过预设比例，则减小抽样周期；

所述图像合成模块用于根据所述目标图像的属性信息以及所述背景图像的属性信息，将目标检测模块所提取出的目标图像，以及帧抽样调节模块抽取的背景图像进行合成，以得到还原的视频流。

2.如权利要求 1 所述的基于前端目标检测的场景视频还原装置，其特征在于，所述目标图像的属性信息至少包括时间信息、帧号信息、中心点位置信息和图像尺寸信息，所述背景图像的属性信息至少包括时间信息、帧号信息和图像尺寸信息。

3.如权利要求 1 所述的基于前端目标检测的场景视频还原装置，其特征在于，在所述目标检测模块与图像合成模块之间、所述帧抽样调节模块与图像合成模块之间，均设置有传输模块，所述传输模块用于分别将目标检测模块和帧抽样调节模块输入的数据配置为预定格式发送到图像合成模块。

4.如权利要求 3 所述的基于前端目标检测的场景视频还原装置，其特征在于，所述传输模块向图像合成模块发送的数据为 JSON（JavaScript Object Notation， JS 对象简谱）格式的数据。

5.如权利要求 1 所述的基于前端目标检测的场景视频还原装置，其特征在于，所述帧抽样调节模块从输入视频流中抽取背景图像的方式具体为：

从输入视频流中抽取视频帧图像，对目标检测模块进行监控，若目标检测模块在所述视频帧图像中检测到目标，则选取所述视频帧图像的未包含目标的区域作为背景图像；否则，将抽取的视频帧图像作为背景图像。

6.如权利要求 1-5 任一所述的基于前端目标检测的场景视频还原装置，其特征在于，还包括：连接目标检测模块的目标归类数据库，以及连接目标归类数据库的目标检索模块，其中：

所述目标归类数据库用于对目标检测模块所检测的目标数据按目标类型进行分类存储，所述目标检测模块所检测的目标至少包含一种类型的目标；

所述目标检索模块用于根据检索条件，在目标归类数据库中检索相应的数据进行输出。

7.如权利要求 6 所述的基于前端目标检测的场景视频还原装置，其特征在于，所述目标检索模块还连接所述图像合成模块，用于在目标归类数据库中检索相应的目标数据后，将该目标数据传输给图像合成模块，以使其调取对应的背景图像进行图像合成，进而将合成的视频

流反馈给目标检索模块进行输出。