CN117440104B - 一种基于目标显著性特征的数据压缩重建方法 - Google Patents
一种基于目标显著性特征的数据压缩重建方法 Download PDFInfo
- Publication number
- CN117440104B CN117440104B CN202311767134.1A CN202311767134A CN117440104B CN 117440104 B CN117440104 B CN 117440104B CN 202311767134 A CN202311767134 A CN 202311767134A CN 117440104 B CN117440104 B CN 117440104B
- Authority
- CN
- China
- Prior art keywords
- target
- grid
- data compression
- image
- results
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013144 data compression Methods 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000001514 detection method Methods 0.000 claims abstract description 45
- 238000007906 compression Methods 0.000 claims abstract description 40
- 230000006835 compression Effects 0.000 claims abstract description 40
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 5
- 230000005484 gravity Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000004321 preservation Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/46—Colour picture communication systems
- H04N1/64—Systems for the transmission or the storage of the colour picture signal; Details therefor, e.g. coding or decoding means therefor
- H04N1/648—Transmitting or storing the primary (additive or subtractive) colour signals; Compression thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本说明书公开了一种基于目标显著性特征的数据压缩重建方法,涉及数据压缩重构技术领域,包括将原始图像分为若干批次,并进行预处理;利用Mask R‑CNN模型对预处理后的图像进行目标检测,获得模型检测结果;将模型检测结果进行分组,获得所需目标和其他目标的数据集合;对预处理后的原始图像进行网格拆分,并对网格进行分组存储和压缩,获得其他目标压缩结果、背景压缩结果以及所需目标压缩结果;采用双线性插值方法对其他目标和背景的网格图像进行重建,并采用VAE模型对所需目标的网格图像进行重建,获得插值结果和重建样本;将插值结果和重建样本进行拼接,获得重建图像,以解决目前数据压缩重建技术存在保存信息冗杂、数据重建的准确性低的问题。
Description
技术领域
本发明属于数据压缩重构技术领域,具体涉及一种基于目标显著性特征的数据压缩重建方法。
背景技术
随着大数据应用的不断发展,各类传感器的数据量不断上升,这种日益增长的庞大数据量正在不断挑战着存储资源的极限,建立一种可以实现数据压缩以有效降低存储空间的智能算法迫在眉睫。目前已有一些现有工作,这些工作通常采用目标检测或显著性检测、图像分割等计算机视觉技术,通过将原始数据分割成不同区域,优先保留包含显著性特征的区域的信息,从而在保持主要内容的同时减小数据量。
然而,这些现有技术在处理复杂场景或具有多个显著性对象的图像或视频时,存在一些问题。例如,由于目标检测模型的误判,他们可能将一些非关键信息也进行保存,导致信息冗余。此外,现有技术可能有效利用目标检测模型所提供的类别信息,获取到目标间的关联关系,使得在与目标相关的重建过程中将干扰数据融入到数据生成模型中,降低数据重建时的准确性。
因此,目前数据压缩重建技术在处理复杂场景或多个显著性对象的图像或视频时存在保存信息冗杂、数据重建的准确性低的问题。
发明内容
本发明的目的是提供一种基于目标显著性特征的数据压缩重建方法,以解决目前数据压缩重建技术在处理复杂场景或多个显著性对象的图像或视频时存在保存信息冗杂、数据重建的准确性低的问题。
为实现上述目的,本发明采用如下技术方案:
一方面,本说明书提供一种基于目标显著性特征的数据压缩重建方法,包括:
将原始图像分为若干批次,并对分批后的目标批次的原始图像进行预处理;
利用Mask R-CNN模型对预处理后的原始图像进行目标检测,获得模型检测结果;
将所述模型检测结果按照目标类别标签进行分组,获得所需目标数据集合和其他目标数据集合;
对预处理后的原始图像进行网格拆分,并按照与所述所需目标数据集合和所述其他目标数据集合的归属关系对拆分后的网格进行分组存储和初步数据压缩,获得其他目标数据压缩存储结果、背景压缩存储结果以及所需目标数据压缩存储结果;
采用双线性插值方法对所述其他目标数据压缩存储结果和所述背景压缩存储结果对应的网格图像进行重建,并采用训练后的VAE模型对所述所需目标数据压缩存储结果对应的网格图像进行重建,获得插值结果和重建样本;
将所述插值结果和所述重建样本进行拼接,获得重建后的完整图像。
另一方面,本说明书提供一种基于目标显著性特征的数据压缩重建装置,包括:
预处理模块,用于将原始图像分为若干批次,并对分批后的目标批次的原始图像进行预处理;
目标检测模块,用于利用Mask R-CNN模型对预处理后的原始图像进行目标检测,获得模型检测结果;
目标分组模块,用于将所述模型检测结果按照目标类别标签进行分组,获得所需目标数据集合和其他目标数据集合;
图像压缩模块,用于对预处理后的原始图像进行网格拆分,并按照与所述所需目标数据集合和所述其他目标数据集合的归属关系对拆分后的网格进行分组存储和初步数据压缩,获得其他目标数据压缩存储结果、背景压缩存储结果以及所需目标数据压缩存储结果;
图像重构模块,用于采用双线性插值方法对所述其他目标数据压缩存储结果和所述背景压缩存储结果对应的网格图像进行重建,并采用训练后的VAE模型对所述所需目标数据压缩存储结果对应的网格图像进行重建,获得插值结果和重建样本;
图像拼接模块,用于将所述插值结果和所述重建样本进行拼接,获得重建后的完整图像。
基于上述技术方案,本说明书能够获得如下技术效果:
本方法结合使用深度学习算法Mask R-CNN和VAE模型,能够更准确地识别复杂场景中的显著性特征,并且能够处理多个具有相近显著性特征的图像之间的复杂相关关系,通过使用上述方法能够更精确地压缩和重建图像或视频数据,在保留重要信息的同时,提高了数据处理的准确性和实时性,从而解决目前数据压缩重建技术在处理复杂场景或多个显著性对象的图像或视频时存在保存信息冗杂、数据重建的准确性低的问题。
附图说明
图1是本发明一实施例中一种基于目标显著性特征的数据压缩重建方法的流程示意图。
图2是本发明一实施例中网格拆分的示意图。
图3是本发明一实施例中变分自编码器VAE模型的示意图。
图4是本发明一实施例中一种基于目标显著性特征的数据压缩重建装置的结构示意图。
图5是本发明一实施例中一种电子设备的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明,根据下面说明和权利要求书,本发明的优点和特征将更清楚。需要说明的是,附图均采用非常简化的形式且均适用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
需要说明的是,为了清楚地说明本发明的内容,本发明特举多个实施例以进一步阐释本发明的不同实现方式,其中,该多个实施例是列举式而非穷举式。此外,为了说明的简洁,前实施例中已提及的内容往往在后实施例中予以省略,因此,后实施例中未提及的内容可相应参考前实施例。
实施例1
请参照图1,图1所示为本实施例提供的一种基于目标显著性特征的数据压缩重建方法。本实施例中,该方法包括:
步骤102,将原始图像分为若干批次,并对分批后的目标批次的原始图像进行预处理;
本实施例中,步骤102的一种实现方式为:
步骤202,将原始图像分为若干批次,并对目标批次的原始图像进行图像尺寸调整,获得尺寸调整后图像;
具体地,将输入的图像表示为,其中/>表示一个批次(Batch)的图像集合,/>表示时间戳为/>的图像,/>表示时间戳的标号,表示一个批次中的图像数量。所述原始图像的预处理过程先后完成图像的尺寸调整、颜色空间的转换以及去噪。
图像尺寸调整将同一批次中的图片进行尺寸统一,使得后续算法的输入具备一致性。分别记录各个图像的长和宽为/>和/>,整理得到该批次图像的长度和宽度集合以及/>,计算得到其中的最大值/>和/>,将所有图像的存储尺寸统一为,扩充的部分均使用零值填充的方式完成,将完成上述处理的图像记为。
步骤204,对所述尺寸调整后图像进行灰度化处理,获得图像颜色空间转换后的图像;
具体地,图像颜色空间的转换将上述图像进行灰度化处理,解决由于一般图像均以RGB的格式进行存储时,其图像中的各个像素点均需要三元数组存储,使得占用空间较大的问题。目前存在多种灰度化方法,均可使用,为计算便携性,本发明主要采用平均法。假设将以RGB格式图像中的横向第/>个,纵向第/>个像素所需存储的数组表示为,平均法计算公式如下:
其中,表示灰度化后所记录的灰度值。更进一步,利用对数灰度变换将原图像中范围较窄的低灰度值映射到范围较宽的灰度区间,同时将范围较宽的高灰度值区间映射为较窄的灰度区间。灰度表换的公式如下:
表示灰度转换后的灰度值。对/>中的所有图像均进行上述处理,将处理后的结果记录为/>。
步骤206,对所述图像颜色空间转换后的图像中的噪声进行平滑处理,获得预处理后的原始图像。
具体地,图像去噪将上述图像中的噪声进行平滑处理。本发明使用通用的图像高斯滤波器去除图像中的噪声,将去噪后的结果表示为。
将完成上述所有经过图像预处理过程的原始图像结果表示为,作为后续特征检测算法的输入。
步骤104,利用Mask R-CNN模型对预处理后的原始图像进行目标检测,获得模型检测结果;
本实施例中,所述模型检测结果的包括:目标类别标签、目标所处外框线、目标重心、目标编号以及目标总量。
具体地,将步骤102中预处理之后的原始图像集合作为输入,基于目标检测模型获取图像中所含目标的相关信息,并将检测结果进行记录。所述目标检测模型可以使用多种模型完成,包括YOLO、Mask R-CNN、SSD等公知模型的其中一种均可。由于考虑到单张图像中常涉及多目标的特性,第二步中主要利用Mask R-CNN(MaskRegion-based Convolutional Neural Network)模型进行目标检测。检测后的记录信息包括由Mask R-CNN模型生成的各图形中的目标类别标签(Label)、目标所处外框线(BoundingBox)、目标重心(Center)等。
由于一般情况下,单张图片中可能包含多个目标,因此将其中的信息使用数组进行存储。对于预处理后图像集合中的每张图像/>,/>,将Mask R-CNN模型简记为/>,模型的检测结果记录为:
其中表示图像中包含的第/>个目标的类别标签,/>表示图像中包含的第个目标所处外框线、/>表示图像中包含的第/>个目标的重心,/>表示目标的编号,表示Mask R-CNN在检测第/>张图像时所检测到的目标总量。将图像集合中的所有图像的模型检测结果可记录为:/>
步骤106,将所述模型检测结果按照目标类别标签进行分组,获得所需目标数据集合和其他目标数据集合;
具体地,进行目标检测时,模型的检测结果中通常具有多个目标,但并非所有目标都属于分析所需的目标,另外,在开始进行检测时,模型是以图像为主要单位进行结果生成,而本文在进行数据压缩时则是以检测到的所需目标为主体的,两者存在一定的差别,为便于后续算法处理,进行数据的分组整理。将分析时所需的目标类别标签表示为,对于/>中所有的以/>为标签类别的数据结果组成所需目标数据集合,表示为:
相应的,所有的不是以为标签类别的数据结果组成其他目标数据集合,表示为:/>
原检测结果集被划分为两部分,即有。
步骤108,对预处理后的原始图像进行网格拆分,并按照与所述所需目标数据集合和所述其他目标数据集合的归属关系对拆分后的网格进行分组存储和初步数据压缩,获得其他目标数据压缩存储结果、背景压缩存储结果以及所需目标数据压缩存储结果;
本实施例中,步骤108的一种实现方式为:
步骤302,对所述预处理后的原始图像进行网格拆分,获得若干网格图像;
步骤304,对所述若干网格图像按照是否属于所述所需目标数据集合进行分组存储,获得所需目标网格集合、其他目标网格集合以及背景网格集合;
本实施例中,所述所需目标网格集合为所需目标所处外框线所在及其范围内的所有网格图像;所述其他目标网格集合为其他目标所处外框线所在及其范围内的所有网格图像;所述背景网格集合为剩余所有其他网格图像。
具体地,参考图2,对各预处理图像均使用相同的网格进行拆分。在图像网格化后的基础上,将所需目标所处外框线所在及其范围内部所有网格图像统称为目标网格集合,表示为/>。将其他目标所处外框线所在及其范围内部所有网格图像统称为其他目标网格集合,表示为/>。将所有其他网格图像统称为背景网格集合,表示为/>。特别的,当出现一个网格同属于目标网格集合与其他目标网格集合时,将该网格划分到目标网格集合中。由此,实现了图像的一种完整划分,即有/>。
基于此,本实施例基于目标检测模型(如Yolo、Mask R-CNN等)进行原始图像中与目标相关区域的提取,并基于提取后的目标框线信息以及图像的网格划分需要,分别提取目标网格集合、其他目标网格集合以及背景网格集合,为后续压缩算法提供数据预处理的功能。
步骤306,利用高斯滤波方法对所述其他目标网格集合和所述背景网格集合中的网格图像进行初步数据压缩,获得其他目标数据压缩存储结果和背景压缩存储结果;
本实施例中,步骤306的一种实现方式为:
使用一次尺寸的高斯卷积核处理所述其他目标网格集合中的网格数据,获得其他目标数据压缩存储结果;
使用两次尺寸的高斯卷积核处理所述背景网格集合中的网格数据,获得背景压缩存储结果。
具体地,利用高斯滤波方法对其他目标网格集合和背景集合/>中的网格图像进行向下采样。所述高斯核卷积运算(高斯滤波)使用高斯卷积核对图像进行加权平均。对背景网格集合/>中的图像使用的卷积核次数应大于对其他目标网格集合/>中的图像所使用的卷积核。一种简单的实现方式是使用一次/>尺寸的高斯卷积核处理,使用两次/>尺寸的高斯卷积核处理/>。卷积核的表达式如下:
在使用卷积核处理后,再删除所有的偶数行和列后得到缩小后的图像。
目标网格集合中的图像,保留原始分辨率。其他目标网格集合/>中的图像,使用一次/>高斯卷积核处理后,分辨率降为原先的/>,表示为/>;背景网格集合/>中的图像,使用两次/>高斯卷积核处理后,分辨率降为原先的/>,表示为/>。
在需要说明的时,后续可根据实际需要,调整卷积核的大小和使用次数,例如,在需要提高数据压缩比时,使用或/>等更大的高斯卷积核。
基于此,本实施例利用计算量相对较低的高斯滤波方式处理其他目标网格集合以及背景网格集合中的数据压缩,考虑到背景网格集合中所提供的与目标相关的信息量有限,对背景网格集合中的数据重复使用高斯滤波方法,进一步降低其数据的占用量。
步骤308,将所述所需目标网格集合输入VAE模型进行初步数据压缩,获得所需目标数据压缩存储结果。
本实施例中,在步骤308之前还包括:
将所述所需目标网格集合的网格图像作为训练样本;
基于所述训练样本和损失函数对所述VAE模型的进行训练,获得训练后的VAE模型。
本实施例中,步骤308的一种实现方式为:
将所述所需目标网格集合的网格图像输入所述训练后的VAE模型,使用其中的编码器进行数据压缩,获得所需目标数据压缩存储结果。
具体地,参考图3,将目标网格集合的数据作为变分自编码器VAE(VariationalAutoencoders)模型的输入数据集,记为。VAE模型假设输入的数据由/>个变量/>组成,该模型结合编码器和解码器两部分模块。编码器将输入数据压缩到未观测到的随机特征中,而解码器则实现将压缩后的数据从特征空间中映射回数据压缩前的数据空间中。将未观测到的目标显著性特征记为/>。
VAE模型的数据生成过程主要包含两个过程。首先从先验分布中采样一个,之后再根据条件分布/>,用/>生成/>。VAE模型希望找到一个参数从而最大化生成真实数据的概率:/>
其中表示分布的参数,其中/>可使用显著性特征/>的积分得到
更具体的,VAE模型的生成结果将使得其后验分布尽可能与其真实的后验分布/>保持一致。基于给定的训练样本/>,其训练损失为:
其中表示先验和后验分布的KL散度,其计算公式为:/>
VAE模型训练完成后,在进行数据存储时,目标网格图像数据,使用编码器进行数据压缩,将压缩后的图像数据表示为/>。
由此,原图像的压缩存储结果可表示为:/>。
步骤110,采用双线性插值方法对所述其他目标数据压缩存储结果和所述背景压缩存储结果对应的网格图像进行重建,并采用训练后的VAE模型对所述所需目标数据压缩存储结果对应的网格图像进行重建,获得插值结果和重建样本;
本实施例中,步骤110的一种实现方式为:
步骤402,采用OpenCV中的双线性插值库对所述其他目标数据压缩存储结果和所述背景压缩存储结果中对应的网格图像进行插值处理,获得插值结果;所述插值结果包括其他目标数据重构结果和背景重构结果;
具体地,其他目标网格集合和背景网格集合中网格的处理方式类似。更具体的,将网格集合中的单个网格记作,为灰度图形式的二维矩阵。定义图像中的元素坐标为,其中/>自左至右为正,/>自上至下为正。采用OpenCV中的双线性插值库处理,将插值结果记录为/>和/>。
步骤404,采用所述训练后的VAE模型中的解码器对所述所需目标数据压缩存储结果对应的网格图像进行重建,获得与所述所需目标网格集合的网格图像相近的重建样本。
具体地,目标网格集合中的图像则使用VAE模型进行生成。VAE模型的生成模型为,其中/>为编码器,/>为标准正态分布。生成样本时,首先从/>中随机采样一个/>,经过解码器之后,得到与训练数据/>相近的样本/>。
基于此,本实施例分层级处理网格数据的重构过程;对提供信息较少的其他目标网格集合以及背景网格集合,使用基于双线性插值的数据重构方法;而对于需要保留更加丰富信息的目标网格中的数据,建立对应的变分自编码器VAE模型,实现数据的压缩及重构。
步骤112,将所述插值结果和所述重建样本进行拼接,获得重建后的完整图像。
具体地,将图像重建后的结果表示为,整合一个批次中的所有图像的重建结果之后,一个批次的重建结果可以表示为:/>
本实施例中,在步骤112之后还包括:
完成一个批次的图像重建,输入下一个批次的图像数据,之后重复上述步骤102到步骤112的过程,进行下一阶段的图像重建。
综上,本方法结合使用深度学习算法Mask R-CNN和VAE模型,能够更准确地识别复杂场景中的显著性特征,并且能够处理多个具有相近显著性特征的图像之间的复杂相关关系,通过使用上述方法能够更精确地压缩和重建图像或视频数据,在保留重要信息的同时,提高了数据处理的准确性和实时性,从而解决目前数据压缩重建技术在处理复杂场景或多个显著性对象的图像或视频时存在保存信息冗杂、数据重建的准确性低的问题。
实施例2
请参照图4,图4所示为本实施例提供一种基于目标显著性特征的数据压缩重建装置,包括:
预处理模块,用于将原始图像分为若干批次,并对分批后的目标批次的原始图像进行预处理;
目标检测模块,用于利用Mask R-CNN模型对预处理后的原始图像进行目标检测,获得模型检测结果;
目标分组模块,用于将所述模型检测结果按照目标类别标签进行分组,获得所需目标数据集合和其他目标数据集合;
图像压缩模块,用于对预处理后的原始图像进行网格拆分,并按照与所述所需目标数据集合和所述其他目标数据集合的归属关系对拆分后的网格进行分组存储和初步数据压缩,获得其他目标数据压缩存储结果、背景压缩存储结果以及所需目标数据压缩存储结果;
图像重构模块,用于采用双线性插值方法对所述其他目标数据压缩存储结果和所述背景压缩存储结果对应的网格图像进行重建,并采用训练后的VAE模型对所述所需目标数据压缩存储结果对应的网格图像进行重建,获得插值结果和重建样本;
图像拼接模块,用于将所述插值结果和所述重建样本进行拼接,获得重建后的完整图像。
可选的,预处理模块包括:
尺寸调整单元,用于将原始图像分为若干批次,并对目标批次的原始图像进行图像尺寸调整,获得尺寸调整后图像;
颜色调整单元,用于对所述尺寸调整后图像进行灰度化处理,获得图像颜色空间转换后的图像;
去噪平滑单元,用于对所述图像颜色空间转换后的图像中的噪声进行平滑处理,获得预处理后的原始图像。
可选的,图像压缩模块包括:
网格拆分单元,用于对所述预处理后的原始图像进行网格拆分,获得若干网格图像;
网格图像分组单元,用于对所述若干网格图像按照是否属于所述所需目标数据集合进行分组存储,获得所需目标网格集合、其他目标网格集合以及背景网格集合;
其他目标及背景压缩单元,用于利用高斯滤波方法对所述其他目标网格集合和所述背景网格集合中的网格图像进行初步数据压缩,获得其他目标数据压缩存储结果和背景压缩存储结果;
目标图像压缩单元,用于将所述所需目标网格集合输入VAE模型进行初步数据压缩,获得所需目标数据压缩存储结果。
可选的,所述其他目标及背景压缩单元包括:
其他目标压缩子单元,用于使用一次尺寸的高斯卷积核处理所述其他目标网格集合中的网格数据,获得其他目标数据压缩存储结果;
背景图像压缩子单元,用于使用两次尺寸的高斯卷积核处理所述背景网格集合中的网格数据,获得背景压缩存储结果。
可选的,还包括:
训练样本获取模块,用于将所述所需目标网格集合的网格图像作为训练样本;
模型训练模块,用于基于所述训练样本和损失函数对所述VAE模型的进行训练,获得训练后的VAE模型。
可选的,图像重构模块包括:
插值重构单元,用于采用OpenCV中的双线性插值库对所述其他目标数据压缩存储结果和所述背景压缩存储结果中对应的网格图像进行插值处理,获得插值结果;所述插值结果包括其他目标数据重构结果和背景重构结果;
VAE模型重构单元,用于采用所述训练后的VAE模型中的解码器对所述所需目标数据压缩存储结果对应的网格图像进行重建,获得与所述所需目标网格集合的网格图像相近的重建样本。
基于此,本装置结合使用深度学习算法Mask R-CNN和VAE模型,能够更准确地识别复杂场景中的显著性特征,并且能够处理多个具有相近显著性特征的图像之间的复杂相关关系,通过使用上述方法能够更精确地压缩和重建图像或视频数据,在保留重要信息的同时,提高了数据处理的准确性和实时性,从而解决目前数据压缩重建技术在处理复杂场景或多个显著性对象的图像或视频时存在保存信息冗杂、数据重建的准确性低的问题。
实施例3
请参照图5,本实施例提供一种电子设备,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成一种基于目标显著性特征的数据压缩重建方法。当然,除了软件实现方式外,本说明书并不排除其他实现方式,比如逻辑器件亦或软硬件结合的方式等等,也就是以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
网络接口、处理器和存储器可以通过总线***相互连接。上述总线可以分为地址总线、数据总线、控制总线等。
存储器用于存放程序。具体地,程序可以包括程序代码,上述程序代码包括计算机操作指令。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。
处理器,用于执行上述存储器存放的程序,并具体执行:
步骤102,将原始图像分为若干批次,并对分批后的目标批次的原始图像进行预处理;
步骤104,利用Mask R-CNN模型对预处理后的原始图像进行目标检测,获得模型检测结果;
步骤106,将所述模型检测结果按照目标类别标签进行分组,获得所需目标数据集合和其他目标数据集合;
步骤108,对预处理后的原始图像进行网格拆分,并按照与所述所需目标数据集合和所述其他目标数据集合的归属关系对拆分后的网格进行分组存储和初步数据压缩,获得其他目标数据压缩存储结果、背景压缩存储结果以及所需目标数据压缩存储结果;
步骤110,采用双线性插值方法对所述其他目标数据压缩存储结果和所述背景压缩存储结果对应的网格图像进行重建,并采用训练后的VAE模型对所述所需目标数据压缩存储结果对应的网格图像进行重建,获得插值结果和重建样本;
步骤112,将所述插值结果和所述重建样本进行拼接,获得重建后的完整图像。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器的硬件的集成逻辑电路或者软件形式的指令完成。
基于同样的发明创造,本说明书实施例还提供一种计算机可读存储介质,上述计算机可读存储介质存储一个或多个程序,上述一个或多个程序当被包括多个应用程序的电子设备执行时,使得上述电子设备执行图1至图3对应的实施例提供的一种基于目标显著性特征的数据压缩重建方法。
本领域技术人员应明白,本说明书的实施例可提供为方法、***、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或者结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质上实施的计算机程序产品的形式。
另外,对于上述装置具体实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单,相关之处参见方法实施方式的部分说明即可。而且,应当注意的是,在本申请的***的各个模块中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本申请不受限于此,可以根据需要对各个部件进行重新划分或者组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例之间的不同之处。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或者步骤可以按照不同于实施例中的顺序来执行并且依然可以实现期望的结果。另外,在附图描绘的过程中不一定要求示出的特定顺序或者连续顺序才能实现期望的结果,在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于目标显著性特征的数据压缩重建方法,其特征在于,包括:
将原始图像分为若干批次,并对分批后的目标批次的原始图像进行预处理;
利用Mask R-CNN模型对预处理后的原始图像进行目标检测,获得模型检测结果;
将所述模型检测结果按照目标类别标签进行分组,获得所需目标数据集合和其他目标数据集合;
对预处理后的原始图像进行网格拆分,并按照与所述所需目标数据集合和所述其他目标数据集合的归属关系对拆分后的网格进行分组存储和初步数据压缩,获得其他目标数据压缩存储结果、背景压缩存储结果以及所需目标数据压缩存储结果;
采用双线性插值方法对所述其他目标数据压缩存储结果和所述背景压缩存储结果对应的网格图像进行重建,并采用训练后的VAE模型对所述所需目标数据压缩存储结果对应的网格图像进行重建,获得插值结果和重建样本;
将所述插值结果和所述重建样本进行拼接,获得重建后的完整图像。
2.根据权利要求1所述的方法,其特征在于,所述将原始图像分为若干批次,并对分批后的目标批次的原始图像进行预处理的步骤包括:
将原始图像分为若干批次,并对目标批次的原始图像进行图像尺寸调整,获得尺寸调整后图像;
对所述尺寸调整后图像进行灰度化处理,获得图像颜色空间转换后的图像;
对所述图像颜色空间转换后的图像中的噪声进行平滑处理,获得预处理后的原始图像。
3.根据权利要求2所述的方法,其特征在于,所述模型检测结果包括:目标类别标签、目标所处外框线、目标重心、目标编号以及目标总量。
4.根据权利要求3所述的方法,其特征在于,所述对预处理后的原始图像进行网格拆分,并按照与所述所需目标数据集合和所述其他目标数据集合的归属关系对拆分后的网格进行分组存储和初步数据压缩,获得其他目标数据压缩存储结果、背景压缩存储结果以及所需目标数据压缩存储结果的步骤包括:
对所述预处理后的原始图像进行网格拆分,获得若干网格图像;
对所述若干网格图像按照是否属于所述所需目标数据集合进行分组存储,获得所需目标网格集合、其他目标网格集合以及背景网格集合;
利用高斯滤波方法对所述其他目标网格集合和所述背景网格集合中的网格图像进行初步数据压缩,获得其他目标数据压缩存储结果和背景压缩存储结果;
将所述所需目标网格集合输入VAE模型进行初步数据压缩,获得所需目标数据压缩存储结果。
5.根据权利要求4所述的方法,其特征在于,所述所需目标网格集合为所需目标所处外框线所在及其范围内的所有网格图像;所述其他目标网格集合为其他目标所处外框线所在及其范围内的所有网格图像;所述背景网格集合为剩余所有其他网格图像。
6.根据权利要求4所述的方法,其特征在于,利用高斯滤波方法对所述其他目标网格集合和所述背景网格集合中的网格图像进行初步数据压缩,获得其他目标数据压缩存储结果和背景压缩存储结果的步骤包括:
使用一次尺寸的高斯卷积核处理所述其他目标网格集合中的网格数据,获得其他目标数据压缩存储结果;
使用两次尺寸的高斯卷积核处理所述背景网格集合中的网格数据,获得背景压缩存储结果。
7.根据权利要求4所述的方法,其特征在于,在所述将所述所需目标网格集合输入VAE模型进行初步数据压缩,获得所需目标数据压缩存储结果之前还包括:
将所述所需目标网格集合的网格图像作为训练样本;
基于所述训练样本和损失函数对所述VAE模型的进行训练,获得训练后的VAE模型。
8.根据权利要求7所述的方法,其特征在于,所述将所述所需目标网格集合输入VAE模型进行初步数据压缩,获得所需目标数据压缩存储结果的方式为将所述所需目标网格集合的网格图像输入所述训练后的VAE模型,使用其中的编码器进行数据压缩,获得所需目标数据压缩存储结果。
9.根据权利要求8所述的方法,其特征在于,所述采用双线性插值方法对所述其他目标数据压缩存储结果和所述背景压缩存储结果对应的网格图像进行重建,并采用训练后的VAE模型对所述所需目标数据压缩存储结果对应的网格图像进行重建,获得插值结果和重建样本的步骤包括:
采用OpenCV中的双线性插值库对所述其他目标数据压缩存储结果和所述背景压缩存储结果中对应的网格图像进行插值处理,获得插值结果;所述插值结果包括其他目标数据重构结果和背景重构结果;
采用所述训练后的VAE模型中的解码器对所述所需目标数据压缩存储结果对应的网格图像进行重建,获得与所述所需目标网格集合的网格图像相近的重建样本。
10.一种基于目标显著性特征的数据压缩重建装置,其特征在于,包括:
预处理模块,用于将原始图像分为若干批次,并对分批后的目标批次的原始图像进行预处理;
目标检测模块,用于利用Mask R-CNN模型对预处理后的原始图像进行目标检测,获得模型检测结果;
目标分组模块,用于将所述模型检测结果按照目标类别标签进行分组,获得所需目标数据集合和其他目标数据集合;
图像压缩模块,用于对预处理后的原始图像进行网格拆分,并按照与所述所需目标数据集合和所述其他目标数据集合的归属关系对拆分后的网格进行分组存储和初步数据压缩,获得其他目标数据压缩存储结果、背景压缩存储结果以及所需目标数据压缩存储结果;
图像重构模块,用于采用双线性插值方法对所述其他目标数据压缩存储结果和所述背景压缩存储结果对应的网格图像进行重建,并采用训练后的VAE模型对所述所需目标数据压缩存储结果对应的网格图像进行重建,获得插值结果和重建样本;
图像拼接模块,用于将所述插值结果和所述重建样本进行拼接,获得重建后的完整图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311767134.1A CN117440104B (zh) | 2023-12-21 | 2023-12-21 | 一种基于目标显著性特征的数据压缩重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311767134.1A CN117440104B (zh) | 2023-12-21 | 2023-12-21 | 一种基于目标显著性特征的数据压缩重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117440104A CN117440104A (zh) | 2024-01-23 |
CN117440104B true CN117440104B (zh) | 2024-03-29 |
Family
ID=89555744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311767134.1A Active CN117440104B (zh) | 2023-12-21 | 2023-12-21 | 一种基于目标显著性特征的数据压缩重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117440104B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428366A (zh) * | 2019-07-26 | 2019-11-08 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
CN113971763A (zh) * | 2020-12-21 | 2022-01-25 | 河南铮睿科达信息技术有限公司 | 一种基于目标检测和超分重建的小目标分割方法和装置 |
CN114155153A (zh) * | 2021-12-14 | 2022-03-08 | 安徽创世科技股份有限公司 | 一种高分辨率图像重建方法、装置 |
WO2023123924A1 (zh) * | 2021-12-30 | 2023-07-06 | 深圳云天励飞技术股份有限公司 | 目标识别方法、装置、电子设备及存储介质 |
CN116485652A (zh) * | 2023-04-26 | 2023-07-25 | 北京卫星信息工程研究所 | 遥感影像车辆目标检测的超分辨率重建方法 |
CN116740261A (zh) * | 2022-03-02 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 图像重建方法和装置、图像重建模型的训练方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011570B (zh) * | 2021-04-30 | 2023-04-07 | 电子科技大学 | 一种采用神经网络压缩***的人脸表情识别方法 |
-
2023
- 2023-12-21 CN CN202311767134.1A patent/CN117440104B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428366A (zh) * | 2019-07-26 | 2019-11-08 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
CN113971763A (zh) * | 2020-12-21 | 2022-01-25 | 河南铮睿科达信息技术有限公司 | 一种基于目标检测和超分重建的小目标分割方法和装置 |
CN114155153A (zh) * | 2021-12-14 | 2022-03-08 | 安徽创世科技股份有限公司 | 一种高分辨率图像重建方法、装置 |
WO2023123924A1 (zh) * | 2021-12-30 | 2023-07-06 | 深圳云天励飞技术股份有限公司 | 目标识别方法、装置、电子设备及存储介质 |
CN116740261A (zh) * | 2022-03-02 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 图像重建方法和装置、图像重建模型的训练方法和装置 |
CN116485652A (zh) * | 2023-04-26 | 2023-07-25 | 北京卫星信息工程研究所 | 遥感影像车辆目标检测的超分辨率重建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117440104A (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN110648334A (zh) | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 | |
CN111382867B (zh) | 神经网络压缩的方法、数据处理的方法及相关装置 | |
CN109784372B (zh) | 一种基于卷积神经网络的目标分类方法 | |
CN112329702B (zh) | 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质 | |
CN111079764B (zh) | 一种基于深度学习的低照度车牌图像识别方法及装置 | |
CN114022785A (zh) | 一种遥感影像语义分割方法、***、设备及存储介质 | |
CN111681273A (zh) | 图像分割方法、装置、电子设备及可读存储介质 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
CN111476719A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
JP2015106382A (ja) | 画像処理装置、画像処理方法およびプログラム | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN112700460B (zh) | 图像分割方法及*** | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN111860233A (zh) | 基于选择注意力网络的sar图像复杂建筑物提取方法及*** | |
CN110570442A (zh) | 一种复杂背景下轮廓检测方法、终端设备及存储介质 | |
CN115375548A (zh) | 一种超分辨率的遥感图像生成方法、***、设备和介质 | |
CN117440104B (zh) | 一种基于目标显著性特征的数据压缩重建方法 | |
CN116309612A (zh) | 基于频率解耦监督的半导体硅晶圆检测方法、装置及介质 | |
CN111862343A (zh) | 一种三维重建方法、装置、设备及计算机可读存储介质 | |
CN112001479B (zh) | 基于深度学习模型的处理方法、***及电子设备 | |
CN112419249B (zh) | 一种特殊服饰图片转化方法、终端设备及存储介质 | |
CN114387489A (zh) | 电力设备识别方法、装置和终端设备 | |
CN117333740B (zh) | 基于稳定扩散模型的缺陷图像样本生成方法和装置 | |
CN115984583B (zh) | 数据处理方法、装置、计算机设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |