CN117014633B - 一种跨模态数据压缩方法、装置、设备及介质 - Google Patents
一种跨模态数据压缩方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117014633B CN117014633B CN202311278736.0A CN202311278736A CN117014633B CN 117014633 B CN117014633 B CN 117014633B CN 202311278736 A CN202311278736 A CN 202311278736A CN 117014633 B CN117014633 B CN 117014633B
- Authority
- CN
- China
- Prior art keywords
- point cloud
- cross
- layer
- modal
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013144 data compression Methods 0.000 title claims abstract description 39
- 230000004927 fusion Effects 0.000 claims abstract description 77
- 230000009466 transformation Effects 0.000 claims abstract description 36
- 238000007906 compression Methods 0.000 claims abstract description 23
- 230000006835 compression Effects 0.000 claims abstract description 23
- 230000001131 transforming effect Effects 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 abstract description 5
- 239000002699 waste material Substances 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000002310 reflectometry Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种跨模态数据压缩方法、装置、设备及介质,分别从图像和点云几何中提取多层次的特征,将图像特征融合进点云特征中,得到原始点云属性,并使用融合后的点云特征预测点云属性,得到估计点云属性;使用区域自适应分层变换分别对原始点云属性以及估计点云属性进行变换,得到原始点云属性的多层次表示以及估计点云属性的多层次表示;采用预建的跨模态深度熵编码模型对齐原始点云属性与估计点云属性的多层次表示,提取得到邻居上下文、祖先上下文与跨模态上下文,通过融合并估计层次特征的概率分布;使用算术编码器编码点云属性的多层次表示得到编码结果码流。本申请能够提高点云属性的压缩性能,减少跨模态数据存储与传输中的浪费。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种跨模态数据压缩方法、装置、设备及介质。
背景技术
近年来,利用来自不同传感器的跨模态数据的互补特性完成已经在各种领域得到了广泛应用。特别是在自动驾驶等计算机视觉任务中,激光雷达和相机数据的融合被广泛使用。相机能够提供稠密的二维纹理和形状信息,而激光雷达扫描周围环境以提供稀疏的三维几何和反射强度,生成具有几何属性信息的点云。然而在计算机视觉任务中使用多模态数据会增加存储和传输成本。
由于多模态数据得到了广泛的应用,针对多模态数据组合设计压缩方案已成为一种趋势。在图像压缩领域,一些方法利用2D图像间的跨模态相关性,如颜色-深度图像组合或颜色/红外图像组合间的相关性以增强图像压缩性能。这些方法集中于利用二维图像数据间的跨模态冗余,而无法用于消除二维图像与三维点云属性间的跨模态冗余信息。现有的点云属性压缩方案无法利用多模态数据中的跨模态冗余,造成了跨模态数据存储与传输中的浪费。
发明内容
为了解决上述问题,本发明提出一种跨模态数据压缩方法、装置、设备及介质,能够消除二维图像与三维点云属性间的跨模态冗余信息,提高点云属性的压缩性能,减少跨模态数据存储与传输中的浪费。
本发明实施例提供一种跨模态数据压缩方法,所述方法包括:
分别从图像和点云几何中提取多层次的特征,在每个层次上将图像特征融合进点云特征中,得到原始点云属性,并使用融合后的点云特征预测点云属性,得到估计点云属性;
使用区域自适应分层变换分别对所述原始点云属性以及所述估计点云属性进行变换,得到所述原始点云属性的多层次表示以及所述估计点云属性的多层次表示;
采用预建的跨模态深度熵编码模型对齐原始点云属性与估计点云属性的多层次表示,提取得到邻居上下文、祖先上下文与跨模态上下文,通过融合并估计层次特征的概率分布;
使用算术编码器编码点云属性的多层次表示得到编码结果码流。
优选地,所述分别从图像和点云几何中提取多层次的特征,在每个层次上将图像特征融合进点云特征中,得到原始点云属性,并使用融合后的点云特征预测点云属性,得到估计点云属性,具体包括:
使用U形卷积神经网络提取所述图像中的图像特征;
使用U形稀疏卷积神经网络从所述点云几何中提取点云特征;
使用预建的跨模态深度融合模型将所述图像特征融合进所述点云特征中,得到所述原始点云属性;
使用全连接神经网络对融合特征进行预测,得到所述估计点云属性。
作为一种优选方案,所述采用预建的跨模态深度熵编码模型对齐原始点云属性与估计点云属性的多层次表示,提取得到邻居上下文、祖先上下文与跨模态上下文,通过融合并估计层次特征的概率分布,具体包括;
采用所述跨模态深度熵编码模型分别从所述原始点云属性的多层次表示中除第1层外的每一层的邻居上下文以及祖先上下文;
采用所述跨模态深度熵编码模型分别从所述估计点云属性的多层次表示中除第1层外的每一层的跨模态上下文;
获取所述原始点云属性的多层次表示中除第1层外的每一层的融合上下文;
基于得到的每一层的融合上下文对所述原始点云属性的该层进行概率预测。
进一步地,所述使用算术编码器编码点云属性的多层次表示得到编码结果码流,具体包括;
将所述原始点云属性的多层次表示中除第1层外的每一层的高频部分编码为码流;
将所述原始点云属性的多层次表示中的第1层通过无损压缩写入码流,得到所述编码结果码流。
作为上述方案的改进,所述方法还包括:
从所述编码结果码流中获取待解压点云属性的多层次表示的第1层;
基于第1层的高频部分和低频部分通过区域自适应分层变换得到第2层的低频部分;
采用所述跨模态深度熵编码模型分别从所述原始点云属性的多层次表示中除第1层外的每一层的邻居上下文以及祖先上下文;
采用所述跨模态深度熵编码模型分别从所述估计点云属性的多层次表示中除第1层外的每一层的跨模态上下文;
获取所述原始点云属性的多层次表示中除第1层外的每一层的融合上下文;
基于得到的每一层的融合上下文对所述原始点云属性的该层进行概率预测;
将所述原始点云属性的多层次表示中除第1层外的每一层的高频部分分别从所述编码结果码流中解码;
基于所述原始点云属性的多层次表示中某一层的高频部分与低频部分通过区域自适应分层变换得到后一层的低频部分;
根据得到的每一层的低频部分获取解码结果。
优选地,所述跨模态深度熵编码模型具体为:;
其中,高频信息序列,/>是分层高频信息/>分布的概率估计,/>是提取的跨模态上下文,/>是提取的祖先上下文,/>是提取的邻居上下文,,/>和/>分别为对所述估计点云属性的分层高频信息使用区域自适应分层变换得到的低频系数和高频系数,/>,/>和/>对所述原始点云属性的分层高频信息使用区域自适应分层变换得到的低频系数和高频系数,/>,分别为所述原始点云属性的分层高频信息的低频系数、权重和深度,为所述原始点云属性的概率分布,h i为多层次表示中第i层的所有高频因子,h ij为多层次表示中第i层的第j个高频因子,/>为编码第i层因子所使用的熵模型的参数。
作为一种优选方案,所述跨模态深度熵编码模型使用交叉熵损失训练得到;
所述跨模态深度融合模型使用均方误差损失训练得到;
所述跨模态深度融合模型的损失函数为:;
所述跨模态深度熵编码模型的损失函数为:;
其中,是真实的点云属性,/>是预测的点云属性,/>为所述跨模态深度融合模型的损失值,/>为所述跨模态深度熵编码模型的损失值,/>为所述原始点云属性的近似概率分布,/>是提取的跨模态上下文,/>是提取的祖先上下文,/>是提取的邻居上下文,/>是所述原始点云属性的真实概率估计,/>所述原始点云属性的分层高频信息,i为点云属性的多层次表示的层数,j为点云属性的多层次表示某层中第j个高频因子,/>为编码第i层因子所使用的熵模型的参数。
本发明实施例还提供一种跨模态数据压缩装置,所述装置包括:
点云属性预测模块,用于分别从图像和点云几何中提取多层次的特征,在每个层次上将图像特征融合进点云特征中,得到原始点云属性,并使用融合后的点云特征预测点云属性,得到估计点云属性;
变换模块,用于使用区域自适应分层变换分别对所述原始点云属性以及所述估计点云属性进行变换,得到所述原始点云属性的多层次表示以及所述估计点云属性的多层次表示;
概率计算模块,用于采用预建的跨模态深度熵编码模型对齐原始点云属性与估计点云属性的多层次表示,提取得到邻居上下文、祖先上下文与跨模态上下文,通过融合并估计层次特征的概率分布;
编码模块,用于使用算术编码器编码点云属性的多层次表示得到编码结果码流。
优选地,所述点云属性预测模块具体用于:
使用U形卷积神经网络提取所述图像中的图像特征;
使用U形稀疏卷积神经网络从所述点云几何中提取点云特征;
使用预建的跨模态深度融合模型将所述图像特征融合进所述点云特征中,得到所述原始点云属性;
使用全连接神经网络对融合特征进行预测,得到所述估计点云属性。
优选地,所述概率计算模块具体用于:
采用所述跨模态深度熵编码模型分别从所述原始点云属性的多层次表示中除第1层外的每一层的邻居上下文以及祖先上下文;
采用所述跨模态深度熵编码模型分别从所述估计点云属性的多层次表示中除第1层外的每一层的跨模态上下文;
获取所述原始点云属性的多层次表示中除第1层外的每一层的融合上下文;
基于得到的每一层的融合上下文对所述原始点云属性的该层进行概率预测。
作为上述方案的改进,所述编码模块具体用于;
将所述原始点云属性的多层次表示中除第1层外的每一层的高频部分编码为码流;
将所述原始点云属性的多层次表示中的第1层通过无损压缩写入码流,得到所述编码结果码流。
优选地,所述方法还包括解码模块,用于:
从所述编码结果码流中获取待解压点云属性的多层次表示的第1层;
基于第1层的高频部分和低频部分通过区域自适应分层变换得到第2层的低频部分;
采用所述跨模态深度熵编码模型分别从所述原始点云属性的多层次表示中除第1层外的每一层的邻居上下文以及祖先上下文;
采用所述跨模态深度熵编码模型分别从所述估计点云属性的多层次表示中除第1层外的每一层的跨模态上下文;
获取所述原始点云属性的多层次表示中除第1层外的每一层的融合上下文;
基于得到的每一层的融合上下文对所述原始点云属性的该层进行概率预测;
将所述原始点云属性的多层次表示中除第1层外的每一层的高频部分分别从所述编码结果码流中解码;
基于所述原始点云属性的多层次表示中某一层的高频部分与低频部分通过区域自适应分层变换得到后一层的低频部分;
根据得到的每一层的低频部分获取解码结果。
优选地,所述跨模态深度熵编码模型具体为:;
其中,高频信息序列,/>是分层高频信息/>分布的概率估计,/>是提取的跨模态上下文,/>是提取的祖先上下文,/>是提取的邻居上下文,,/>和/>分别为对所述估计点云属性的分层高频信息使用区域自适应分层变换得到的低频系数和高频系数,/>,/>和/>对所述原始点云属性的分层高频信息使用区域自适应分层变换得到的低频系数和高频系数,/>,分别为所述原始点云属性的分层高频信息的低频系数、权重和深度,为所述原始点云属性的概率分布,h i为多层次表示中第i层的所有高频因子,h ij为多层次表示中第i层的第j个高频因子,/>为编码第i层因子所使用的熵模型的参数。
作为一种优选方案,所述跨模态深度熵编码模型使用交叉熵损失训练得到;
所述跨模态深度融合模型使用均方误差损失训练得到;
所述跨模态深度融合模型的损失函数为:;
所述跨模态深度熵编码模型的损失函数为:;
其中,是真实的点云属性,/>是预测的点云属性,/>为所述跨模态深度融合模型的损失值,/>为所述跨模态深度熵编码模型的损失值,/>为所述原始点云属性的近似概率分布,/>是提取的跨模态上下文,/>是提取的祖先上下文,/>是提取的邻居上下文,/>是所述原始点云属性的真实概率估计,/>所述原始点云属性的分层高频信息,i为点云属性的多层次表示的层数,j为点云属性的多层次表示某层中第j个高频因子,/>为编码第i层因子所使用的熵模型的参数。
本发明实施例还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项实施例所述的一种跨模态数据压缩方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一项实施例所述的一种跨模态数据压缩方法。
本发明提供一种跨模态数据压缩方法、装置、设备及介质,分别从图像和点云几何中提取多层次的特征,在每个层次上将图像特征融合进点云特征中,得到原始点云属性,并使用融合后的点云特征预测点云属性,得到估计点云属性;使用区域自适应分层变换分别对所述原始点云属性以及所述估计点云属性进行变换,得到所述原始点云属性的多层次表示以及所述估计点云属性的多层次表示;采用预建的跨模态深度熵编码模型对齐原始点云属性与估计点云属性的多层次表示,提取得到邻居上下文、祖先上下文与跨模态上下文,通过融合并估计层次特征的概率分布;使用算术编码器编码点云属性的多层次表示得到编码结果码流。本申请能够消除二维图像与三维点云属性间的跨模态冗余信息,提高点云属性的压缩性能,减少跨模态数据存储与传输中的浪费。
附图说明
图1是本发明实施例提供的一种跨模态数据压缩方法的流程示意图;
图2是本发明实施例提供的点云属性预测的流程示意图;
图3是本发明实施例提供的点云属性编码的流程示意图;
图4是本发明实施例提供的点云属性解码过程的流程示意图;
图5是本发明实施例提供的点云属性预测训练的流程示意图;
图6是本发明实施例提供的点云属性编码训练的流程示意图;
图7是本发明实施例提供的一种跨模态数据压缩装置的结构示意图;
图8是本发明实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例提供的一种跨模态数据压缩方法的流程示意图,所述方法包括步骤S1~S4;
S1,分别从图像和点云几何中提取多层次的特征,在每个层次上将图像特征融合进点云特征中,得到原始点云属性,并使用融合后的点云特征预测点云属性,得到估计点云属性;
S2,使用区域自适应分层变换分别对所述原始点云属性以及所述估计点云属性进行变换,得到所述原始点云属性的多层次表示以及所述估计点云属性的多层次表示;
S3,采用预建的跨模态深度熵编码模型对齐原始点云属性与估计点云属性的多层次表示,提取得到邻居上下文、祖先上下文与跨模态上下文,通过融合并估计层次特征的概率分布;
S4,使用算术编码器编码点云属性的多层次表示得到编码结果码流。
在本实施例具体实施时,在进行跨模态数据压缩时,分别从图像和点云几何中提取多层次的特征,在每个层次上将图像特征融合进点云特征中,得到原始点云属性,基于融合后的点云特征预测点云属性,得到估计点云属性;并将估计点云属性用作跨模态先验。
使用区域自适应分层变换RAHT分别对所述原始点云属性以及所述估计点云属性进行变换,使用RAHT对原始点云属性进行变换,得到所述原始点云属性的多层次表示。
使用RAHT对估计点云属性进行变换,得到估计点云属性的多层次表示。
采用预建的跨模态深度熵编码模型对齐原始点云属性与估计点云属性的多层次表示,对齐原始点云属性与估计点云属性的多层次表示,提取得到邻居上下文、祖先上下文与跨模态上下文,通过融合并估计层次特征的概率分布;
使用算术编码器编码点云属性的多层次表示,最低层直接存储入码流,不进行额外的编码,以得到编码结果码流。
本申请提出的跨模态数据压缩方法,分别从图像和点云几何中分别提取多层次的特征,在每个层次上将图像特征融合进点云特征,再使用融合后的点云特征估计点云属性用作编解码的辅助信息。在点云属性编解码时,分别使用RAHT提取原始点云属性与预测点云属性的多层次特征,再使用本申请提出的跨模态深度熵编码模块分别提取邻居上下文、祖先上下文与跨模态上下文,将他们融合并估计层次特征的概率分布。本方法通过属性预测利用图像颜色和点云反射率属性间的跨模态冗余,提高点云属性的压缩性能。
本申请提出的跨模态点云属性压缩方法对比已有的单模态点云属性压缩方法实现了显著的率失真性能提升,在KITTI数据集上获得近1.02dBBD-PSNR增益和11.16% BD-Rate降低,以及nuScenes数据集上的近0.42dBBD-PSNR增益和4.74%BD-Rate降低。本申请提供的跨模态数据压缩方法足够灵活,当不使用辅助信息时,仍然能够保持接近于单模态方法的压缩性能。
在本发明提供的又一实施例中,所述步骤S1具体包括:
使用U形卷积神经网络提取所述图像中的图像特征;
使用U形稀疏卷积神经网络从所述点云几何中提取点云特征;
使用预建的跨模态深度融合模型将所述图像特征融合进所述点云特征中,得到所述原始点云属性;
使用全连接神经网络对融合特征进行预测,得到所述估计点云属性。
在本申请具体实施时,参见图2,是本发明实施例提供的点云属性预测的流程示意图;
在图2中,进行点云属性预测时,使用U形卷积神经网络提取分层图像特征;
使用U形稀疏卷积神经网络从所述点云几何中提取点云特征;
使用预建的跨模态深度融合模型将所述图像特征融合进所述点云特征中,得到点云几何-图像融合特征,作为所述原始点云属性;
全连接神经网络对点云几何-图像融合特征进行点云属性预测,得到点云属性预测结果,即所述估计点云属性。
具体地,所述全连接神经网络具体使用一个逐点多层感知机将融合特征转化为估计点云属性。
由于图像颜色与点云反射属性之间的巨大差异和复杂对应关系,难以手工设计显式的图像颜色和反射率属性转换方式。提出了一种基于跨模态对齐和特征融合的点云属性预测方法,以建立图像颜色与点云反射率强度之间的联系。由于需要将稠密的2D网格和稀疏的3D点云属性对齐,图像和点云之间的跨模态特征无法使用2D数据中常见的对齐方式,使用两个U形神经网络分支分别从图像和点云几何中分别提取多层次的特征,并在每个层次上将图像特征融合到点云特征中。最后,使用点逐点多层感知机(pointwise MLP)将特征转换为点云属性的估计值。使用两个U型网络分别从点云几何和参考图像中提取特征,并通过融合模块在每层将图像特征融合到点云特征中,网络的第一个分支以点云几何为输入,通过多层特征提取模块的U型网络提取点云特征。包括稀疏卷积和带有残差连接的转置稀疏卷积。网络的第二个分支以参考图像为输入,并通过一个特征提取模块在不同比例上生成中间特征。该模块包括具有残差连接的卷积层,ReLU激活函数和步长为2的最大池化层。获得不同比例的特征后,通过转置卷积增加特征图大小。这些特征由跨模态对齐和融合模块融合到点云分支中。
在两个特征提取网络之间使用跨模态对齐和融合模型,将图像与点云属性中的跨模态信息在特征域中对齐。为了将来自图像分支的特征融合到点云分支中,需要为每个点(x,y,z)在图像中找到对应的位置(u,v)。激光雷达坐标系中的点可以通过齐次变换T转换为相机坐标系中的点,然后通过投影矩阵M转换为图像坐标系中的点。变换T可以从激光雷达和相机的相对位置中获得,而矩阵M取决于相机的内部参数。这些参数由成像***确定,只有少量数据(几个浮点数)。然后,对于点云中的每个点,使用最近邻插值从图像中对应位置抽取特征,并自适应地使用权重映射(w)以注意机制的方式在融合特征的同时排除干扰信息。通过齐次转换和投影矩阵/>将点云从3D LiDAR空间投影到图像空间以从图像中采用特征,并基于自适应加权策略将图像特征与点云特征进行融合。齐次变换/>和投影矩阵/>由相机相对于 LiDAR 传感器的相对姿态和相机的内参数确定。
使用点云几何和参考图像预测点云属性,并将预测的属性用作跨模态先验。在深度熵模型中,使用稀疏卷积来聚合祖先、邻居和跨模态上下文,以更准确地估计概率。
在本发明提供的又一实施例中,所述步骤S3具体包括:
采用所述跨模态深度熵编码模型分别从所述原始点云属性的多层次表示中除第1层外的每一层的邻居上下文以及祖先上下文;
采用所述跨模态深度熵编码模型分别从所述估计点云属性的多层次表示中除第1层外的每一层的跨模态上下文;
获取所述原始点云属性的多层次表示中除第1层外的每一层的融合上下文;
基于得到的每一层的融合上下文对所述原始点云属性的该层进行概率预测。
在本实施例具体实施时,参见图3,是本发明实施例提供的点云属性编码的流程示意图;
使用RAHT对点云属性进行变换,得到待压缩点云属性的多层次表示,即原始点云属性的多层次表示;
通过图像以及点云几何的点云属性预测,得到点云属性预测结果,使用RAHT对点云属性进行变换,得到点云属性预测结果的多层次表示,即估计点云属性的多层次表示。
对于所述原始点云属性的多层次表示以及所述估计点云属性的多层次表示中由第2层~第N层,N为多层次表示的层数;
对第2层~第N层中的每一层,即第i层,i=2,3,...,N;
对第i层待压缩点云属性的多层次标识,提取邻居上下文与祖先上下文;即采用所述跨模态深度熵编码模型分别从所述原始点云属性的多层次表示中除第1层外的每一层的邻居上下文以及祖先上下文。
从第i层点云属性预测结果的多层次表示中提取跨模态上下文,即采用所述跨模态深度熵编码模型分别从所述估计点云属性的多层次表示中除第1层外的每一层的跨模态上下文。
获取第i层待压缩点云属性的融合上下文,即获取所述原始点云属性的多层次表示中除第1层外的每一层的融合上下文。
基于融合上下文对第i层待压缩点云属性进行概率预测,得到概率分布。
将第i层表示中的高频部分编码为码流。
通过点云属性编码的跨模态深度熵编码模型,基于RAHT变换得到的多层次表示,结合提取邻居上下文、祖先上下文与跨模态上下文进行准确的概率估计。
在本发明提供的又一实施例中,所述步骤S4具体包括:
将所述原始点云属性的多层次表示中除第1层外的每一层的高频部分编码为码流;
将所述原始点云属性的多层次表示中的第1层通过无损压缩写入码流,得到所述编码结果码流。
在本实施例具体实施时,参见图3,基于RAHT变换得到的多层次表示,结合提取邻居上下文、祖先上下文与跨模态上下文进行准确的概率估计之后,进行具体的编码时,将2到N层编码结果写入码流,并将第1层通过无损压缩写入码流,得到所述编码结果码流。
在本发明提供的又一实施例中,所述方法还包括:
从所述编码结果码流中获取待解压点云属性的多层次表示的第1层;
基于第1层的高频部分和低频部分通过区域自适应分层变换得到第2层的低频部分;
采用所述跨模态深度熵编码模型分别从所述原始点云属性的多层次表示中除第1层外的每一层的邻居上下文以及祖先上下文;
采用所述跨模态深度熵编码模型分别从所述估计点云属性的多层次表示中除第1层外的每一层的跨模态上下文;
获取所述原始点云属性的多层次表示中除第1层外的每一层的融合上下文;
基于得到的每一层的融合上下文对所述原始点云属性的该层进行概率预测;
将所述原始点云属性的多层次表示中除第1层外的每一层的高频部分分别从所述编码结果码流中解码;
基于所述原始点云属性的多层次表示中某一层的高频部分与低频部分通过区域自适应分层变换得到后一层的低频部分;
根据得到的每一层的低频部分获取解码结果。
所述方法还包括解码器的解码过程,参见图4,是本发明实施例提供的点云属性解码过程的流程示意图。
通过图像以及点云几何的点云属性预测,得到点云属性预测结果,使用RAHT对点云属性进行变换,得到点云属性预测结果的多层次表示,即估计点云属性的多层次表示。
从码流中获取待解压点云属性的多层次表示中的第一层;
基于第1层的高频部分和低频部分通过区域自适应分层变换得到第2层的低频部分;
对于所述原始点云属性的多层次表示以及所述估计点云属性的多层次表示中由第2层~第N层,N为多层次表示的层数;
对第2层~第N层中的每一层,即第i层,i=2,3,...,N;
对第i层待压缩点云属性的多层次标识,提取邻居上下文与祖先上下文;即采用所述跨模态深度熵编码模型分别从所述原始点云属性的多层次表示中除第1层外的每一层的邻居上下文以及祖先上下文。
从第i层点云属性预测结果的多层次表示中提取跨模态上下文,即采用所述跨模态深度熵编码模型分别从所述估计点云属性的多层次表示中除第1层外的每一层的跨模态上下文。
获取第i层待压缩点云属性的融合上下文,即获取所述原始点云属性的多层次表示中除第1层外的每一层的融合上下文。
基于融合上下文对第i层待压缩点云属性进行概率预测,得到概率分布。
将第i层表示中的高频部分从码流中解码。
基于所述原始点云属性的多层次表示中某一层的高频部分与低频部分通过区域自适应分层变换得到后一层的低频部分;
根据得到的每一层的低频部分获取解码结果。
不断对第2层~第N层中每一层进行解码,直到所有原始点云属性的层次表示解码完成以获取点云属性的重建结果。
在本发明提供的又一实施例中,所述跨模态深度熵编码模型具体为:;
其中,高频信息序列,/>是分层高频信息/>分布的概率估计,/>是提取的跨模态上下文,/>是提取的祖先上下文,/>是提取的邻居上下文,,/>和/>分别为对所述估计点云属性的分层高频信息使用区域自适应分层变换得到的低频系数和高频系数,/>,/>和/>对所述原始点云属性的分层高频信息使用区域自适应分层变换得到的低频系数和高频系数,/>,分别为所述原始点云属性的分层高频信息的低频系数、权重和深度,为所述原始点云属性的概率分布,h i为多层次表示中第i层的所有高频因子,h ij为多层次表示中第i层的第j个高频因子,/>为编码第i层因子所使用的熵模型的参数。
在本实施例具体实施时,为了提高熵估计的准确性,预先构建一种跨模态深度熵编码模型,该模型以祖先、邻居和跨模态上下文的上下文信息作为条件。
首先使用RAHT变换将原始点云属性转化为分层表示,分层表示中每层包括低频部分与高频部分。对于第一层直接存储其低频与高频部分。对于其余层,仅需要编码其高频部分,因为高层的低频部分可由低层的高频部分与低频部分计算得到。对于给定分层的高频信息序列,模型的目标是最小化编码后比特流的长度。
根据信息论,在给定一组高频符号的分布时,信息熵/>代表了无损压缩的编码速率下限,其中/>是符号/>分布的概率估计,/>是/>的实际概率分布,准确的概率分布估计可以降低编码的比特率。
使用多种上下文融合的方式来提升概率分布的准确性。跨跨模态深度熵编码模型的熵模型可定义为:
其中,是分层高频信息/>分布的概率估计,/>是提取的跨模态上下文,/>是提取的祖先上下文,/>是提取的邻居上下文。
模型构建时,需要先进行上下文信息获取。分别根据以下规则获取邻居上下文、祖先上下文与跨模态上下文。
跨模态上下文,该上下文包括对估计属性应用RAHT变换中得到的低频系数/>和高频系数/>,定义跨模态上下文为/>。
祖先上下文,对于每个待编码的分层高频信息/>,使用其上层分层表示中的低频系数/>和高频系数/>作为祖先上下文/>。
邻居上下文,对于第i层中的每个高频因子/>,使用与其对应的低频系数/>、权重/>和深度/>作为其邻居上下文,定义邻居上下文为/>。
上下文深度融合,首先将上述的几种上下文按通道维度拼接,接着使用稀疏卷积网络聚合上下文特征。然后,通过一个全分解概率模型得到量化后的高频层次表示信息的概率分布,h i为多层次表示中第i层的所有高频因子,h ij为多层次表示中第i层的第j个高频因子,/>为编码第i层因子所使用的熵模型的参数,由训练得到,编码每层使用的熵模型的参数均不相同,i为点云属性的多层次表示的层数,j为点云属性的多层次表示某层中第j个高频因子。
在本发明提供的又一实施例中,所述跨模态深度熵编码模型使用交叉熵损失训练得到;
所述跨模态深度融合模型使用均方误差损失训练得到;
所述跨模态深度融合模型的损失函数为:;
所述跨模态深度熵编码模型的损失函数为:;
其中,是真实的点云属性,/>是预测的点云属性,/>为所述跨模态深度融合模型的损失值,/>为所述跨模态深度熵编码模型的损失值,/>为所述原始点云属性的概率分布,/>是提取的跨模态上下文,/>是提取的祖先上下文,/>是提取的邻居上下文,/>是所述原始点云属性的近似的概率估计,/>所述原始点云属性的分层高频信息,i为点云属性的多层次表示的层数,j为点云属性的多层次表示某层中第j个高频因子,/>为编码第i层因子所使用的熵模型的参数。
在本发明提供的又一实施例中,所述跨模态深度熵编码模型使用交叉熵损失训练得到;
所述跨模态深度融合模型使用均方误差损失训练得到;
所述跨模态深度融合模型的损失函数为:;
所述跨模态深度熵编码模型的损失函数为:;
其中,是真实的点云属性,/>是预测的点云属性,/>为所述跨模态深度融合模型的损失值,/>为所述跨模态深度熵编码模型的损失值,/>为所述原始点云属性的近似概率分布,/>是提取的跨模态上下文,/>是提取的祖先上下文,/>是提取的邻居上下文,/>是所述原始点云属性的真实概率估计,/>所述原始点云属性的分层高频信息,h i为多层次表示中第i层的所有高频因子,h ij为多层次表示中第i层的第j个高频因子,/>为编码第i层因子所使用的熵模型的参数,i为点云属性的多层次表示的层数,j为点云属性的多层次表示某层中第j个高频因子,/>为编码第i层因子所使用的熵模型的参数。
在本实施例具体实施时,在进行点云编解码前,需要对模型进行训练,所述跨模态深度熵编码模型使用交叉熵损失训练得到。
所述跨模态深度融合模型使用均方误差损失训练得到。
参见图5,是本发明实施例提供的点云属性预测训练的流程示意图;在进行点云属性预测的训练时,计算点云属性预测时的预计损失,并根据损失更新网络参数,通过训练迭代次数K次,不断迭代网络参数,以使模型达到预设的精度。
参见图6,是本发明实施例提供的点云属性编码训练的流程示意图;在进行点云属性编码的训练时,计算点云属性编码时的累加损失,并根据损失更新网络参数,通过训练迭代次数K次,不断迭代网络参数,以使模型达到预设的精度。
对于跨模态深度融合模型,使用均方误差(MSE)作为点云属性估计的损失函数:;
其中,为所述跨模态深度融合模型的损失值,/>是真实的点云属性,/>是预测的点云属性。
对于跨模态深度熵编码模型,使用交叉熵损失来优化比特流的比特率,通过使用以下损失函数优化深度熵模型,使得近似估计的概率分布尽可能逼近真实的概率分布/>:
跨模态深度熵编码模型的损失函数为:
;
其中,为所述跨模态深度熵编码模型的损失值,/>为所述原始点云属性的近似的概率分布,/>是提取的跨模态上下文,/>是提取的祖先上下文,/>是提取的邻居上下文,/>是所述原始点云属性的真实的概率估计,/>所述原始点云属性的分层高频信息,i为点云属性的多层次表示的层数,j为点云属性的多层次表示某层中第j个高频因子,/>为编码第i层因子所使用的熵模型的参数。
与其他单模态点云属性压缩方法相比,本申请提出的多模态压缩方案具有更好的点云属性压缩性能。
通过评估不同压缩比下,参考图像质量对点云属性比特率节省的影响,本发明使用常用的图像编解码器,即BPG和JPEG,在高、中、低质量下分别以QP={23, 28, 35}和QP={75, 35, 10}压缩参考图像,并使用压缩后的参考图像进行点云属性估计。本申请提供的点云属性压缩方法在低质量的参考图像下具有良好的鲁棒性。当使用BPG作为图像压缩方法时,即使是低质量的参考图像,仍然能够实现可观的比特率节省。
在本发明提供的又一实施例中,参见图7,是本发明实施例提供的一种跨模态数据压缩装置的结构示意图,所述装置包括:
点云属性预测模块,用于分别从图像和点云几何中提取多层次的特征,在每个层次上将图像特征融合进点云特征中,得到原始点云属性,并使用融合后的点云特征预测点云属性,得到估计点云属性;
变换模块,用于使用区域自适应分层变换分别对所述原始点云属性以及所述估计点云属性进行变换,得到所述原始点云属性的多层次表示以及所述估计点云属性的多层次表示;
概率计算模块,用于采用预建的跨模态深度熵编码模型对齐原始点云属性与估计点云属性的多层次表示,提取得到邻居上下文、祖先上下文与跨模态上下文,通过融合并估计层次特征的概率分布;
编码模块,用于使用算术编码器编码点云属性的多层次表示得到编码结果码流。
本实施例提供的跨模态数据压缩装置,能够执行上述任一实施例提供的跨模态数据压缩方法的所有步骤与功能,在此对该装置的具体功能不作赘述。
参见图8,是本发明实施例提供的一种终端设备的结构示意图。所述终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如一种跨模态数据压缩程序。所述处理器执行所述计算机程序时实现上述各个一种跨模态数据压缩方法实施例中的步骤,例如图1所示的步骤S1~S4。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述一种跨模态数据压缩装置中的执行过程。例如,所述计算机程序可以被分割成各个模块,各模块具体功能在上述任一实施例提供的一种跨模态数据压缩方法中已作详细说明,在此对该装置的具体功能不作赘述。
所述一种跨模态数据压缩装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述一种跨模态数据压缩装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是一种跨模态数据压缩装置的示例,并不构成对一种跨模态数据压缩装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种跨模态数据压缩装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种跨模态数据压缩装置的控制中心,利用各种接口和线路连接整个一种跨模态数据压缩装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种跨模态数据压缩装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述一种跨模态数据压缩装置集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (8)
1.一种跨模态数据压缩方法,其特征在于,所述方法包括:
分别从图像和点云几何中提取多层次的特征,在每个层次上将图像特征融合进点云特征中,得到原始点云属性,并使用融合后的点云特征预测点云属性,得到估计点云属性;
使用区域自适应分层变换分别对所述原始点云属性以及所述估计点云属性进行变换,得到所述原始点云属性的多层次表示以及所述估计点云属性的多层次表示;
采用预建的跨模态深度熵编码模型对齐原始点云属性与估计点云属性的多层次表示,提取得到邻居上下文、祖先上下文与跨模态上下文,通过融合并估计层次特征的概率分布;
使用算术编码器编码点云属性的多层次表示得到编码结果码流;
所述采用预建的跨模态深度熵编码模型对齐原始点云属性与估计点云属性的多层次表示,提取得到邻居上下文、祖先上下文与跨模态上下文,通过融合并估计层次特征的概率分布,具体包括;
采用所述跨模态深度熵编码模型分别从所述原始点云属性的多层次表示中除第1层外的每一层的邻居上下文以及祖先上下文;
采用所述跨模态深度熵编码模型分别从所述估计点云属性的多层次表示中除第1层外的每一层的跨模态上下文;
获取所述原始点云属性的多层次表示中除第1层外的每一层的融合上下文;
基于得到的每一层的融合上下文对所述原始点云属性的该层进行概率预测;
所述跨模态深度熵编码模型具体为:;
其中,高频信息序列,/>是分层高频信息分布的概率估计,/>是提取的跨模态上下文,/>是提取的祖先上下文,/>是提取的邻居上下文,/>,/>和/>分别为对所述估计点云属性的分层高频信息使用区域自适应分层变换得到的低频系数和高频系数,/>,/>和/>分别为对所述原始点云属性的分层高频信息使用区域自适应分层变换得到的低频系数和高频系数,,/>分别为所述原始点云属性的分层高频信息的低频系数、权重和深度,/>为所述原始点云属性的概率分布,h i为多层次表示中第i层的所有高频因子,h ij为多层次表示中第i层的第j个高频因子,/>为编码第i层因子所使用的熵模型的参数。
2.根据权利要求1所述的跨模态数据压缩方法,其特征在于,所述分别从图像和点云几何中提取多层次的特征,在每个层次上将图像特征融合进点云特征中,得到原始点云属性,并使用融合后的点云特征预测点云属性,得到估计点云属性,具体包括:
使用U形卷积神经网络提取所述图像中的图像特征;
使用U形稀疏卷积神经网络从所述点云几何中提取点云特征;
使用预建的跨模态深度融合模型将所述图像特征融合进所述点云特征中,得到所述原始点云属性;
使用全连接神经网络对融合特征进行预测,得到所述估计点云属性。
3.根据权利要求2所述的跨模态数据压缩方法,其特征在于,所述使用算术编码器编码点云属性的多层次表示得到编码结果码流,具体包括;
将所述原始点云属性的多层次表示中除第1层外的每一层的高频部分编码为码流;
将所述原始点云属性的多层次表示中的第1层通过无损压缩写入码流,得到所述编码结果码流。
4.根据权利要求3所述的跨模态数据压缩方法,其特征在于,所述方法还包括:
从所述编码结果码流中获取待解压点云属性的多层次表示的第1层;
基于第1层的高频部分和低频部分通过区域自适应分层变换得到第2层的低频部分;
采用所述跨模态深度熵编码模型分别从所述原始点云属性的多层次表示中除第1层外的每一层的邻居上下文以及祖先上下文;
采用所述跨模态深度熵编码模型分别从所述估计点云属性的多层次表示中除第1层外的每一层的跨模态上下文;
获取所述原始点云属性的多层次表示中除第1层外的每一层的融合上下文;
基于得到的每一层的融合上下文对所述原始点云属性的该层进行概率预测;
将所述原始点云属性的多层次表示中除第1层外的每一层的高频部分分别从所述编码结果码流中解码;
基于所述原始点云属性的多层次表示中某一层的高频部分与低频部分通过区域自适应分层变换得到后一层的低频部分;
根据得到的每一层的低频部分获取解码结果。
5.根据权利要求2所述的跨模态数据压缩方法,其特征在于,所述跨模态深度熵编码模型使用交叉熵损失训练得到;
所述跨模态深度融合模型使用均方误差损失训练得到;
所述跨模态深度融合模型的损失函数为:;
所述跨模态深度熵编码模型的损失函数为:;
其中,是真实的点云属性,/>是预测的点云属性,/>为所述跨模态深度融合模型的损失值,/>为所述跨模态深度熵编码模型的损失值,/>为所述原始点云属性的近似概率分布,/>是提取的跨模态上下文,/>是提取的祖先上下文,/>是提取的邻居上下文,/>是所述原始点云属性的真实概率估计,/>所述原始点云属性的分层高频信息,i为点云属性的多层次表示的层数,j为点云属性的多层次表示某层中第j个高频因子,/>为编码第i层因子所使用的熵模型的参数。
6.一种跨模态数据压缩装置,其特征在于,所述装置包括:
点云属性预测模块,用于分别从图像和点云几何中提取多层次的特征,在每个层次上将图像特征融合进点云特征中,得到原始点云属性,并使用融合后的点云特征预测点云属性,得到估计点云属性;
变换模块,用于使用区域自适应分层变换分别对所述原始点云属性以及所述估计点云属性进行变换,得到所述原始点云属性的多层次表示以及所述估计点云属性的多层次表示;
概率计算模块,用于采用预建的跨模态深度熵编码模型对齐原始点云属性与估计点云属性的多层次表示,提取得到邻居上下文、祖先上下文与跨模态上下文,通过融合并估计层次特征的概率分布;
编码模块,用于使用算术编码器编码点云属性的多层次表示得到编码结果码流;
所述概率计算模块具体用于:
采用所述跨模态深度熵编码模型分别从所述原始点云属性的多层次表示中除第1层外的每一层的邻居上下文以及祖先上下文;
采用所述跨模态深度熵编码模型分别从所述估计点云属性的多层次表示中除第1层外的每一层的跨模态上下文;
获取所述原始点云属性的多层次表示中除第1层外的每一层的融合上下文;
基于得到的每一层的融合上下文对所述原始点云属性的该层进行概率预测;
跨模态深度熵编码模型具体为:;
其中,高频信息序列,/>是分层高频信息分布的概率估计,/>是提取的跨模态上下文,/>是提取的祖先上下文,/>是提取的邻居上下文,/>,/>和/>分别为对所述估计点云属性的分层高频信息使用区域自适应分层变换得到的低频系数和高频系数,/>,/>和/>分别为对所述原始点云属性的分层高频信息使用区域自适应分层变换得到的低频系数和高频系数,,/>分别为所述原始点云属性的分层高频信息的低频系数、权重和深度,/>为所述原始点云属性的概率分布,h i为多层次表示中第i层的所有高频因子,h ij为多层次表示中第i层的第j个高频因子,/>为编码第i层因子所使用的熵模型的参数。
7.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的跨模态数据压缩方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至5中任意一项所述的跨模态数据压缩方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311278736.0A CN117014633B (zh) | 2023-10-07 | 2023-10-07 | 一种跨模态数据压缩方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311278736.0A CN117014633B (zh) | 2023-10-07 | 2023-10-07 | 一种跨模态数据压缩方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117014633A CN117014633A (zh) | 2023-11-07 |
CN117014633B true CN117014633B (zh) | 2024-04-05 |
Family
ID=88571310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311278736.0A Active CN117014633B (zh) | 2023-10-07 | 2023-10-07 | 一种跨模态数据压缩方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117014633B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117915114B (zh) * | 2024-03-15 | 2024-07-09 | 深圳大学 | 一种点云属性压缩方法、装置、终端及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372986A (zh) * | 2021-12-30 | 2022-04-19 | 深圳大学 | 注意力引导多模态特征融合的图像语义分割方法及装置 |
WO2022150680A1 (en) * | 2021-01-11 | 2022-07-14 | Interdigital Patent Holdings, Inc. | Apparatus and method for point cloud processing |
CN115065822A (zh) * | 2022-06-02 | 2022-09-16 | 奥特酷智能科技(南京)有限公司 | 点云几何信息压缩***、方法及计算机*** |
CN115082674A (zh) * | 2022-07-12 | 2022-09-20 | 西安电子科技大学 | 基于注意力机制的多模态数据融合三维目标检测方法 |
CN116016953A (zh) * | 2022-12-27 | 2023-04-25 | 中山大学·深圳 | 一种基于深度熵编码的动态点云属性压缩方法 |
CN116152267A (zh) * | 2023-04-24 | 2023-05-23 | 中国民用航空飞行学院 | 基于对比性语言图像预训练技术的点云实例分割方法 |
WO2023098018A1 (zh) * | 2021-12-02 | 2023-06-08 | 之江实验室 | 一种基于多帧点云的运动目标检测***和方法 |
WO2023130333A1 (zh) * | 2022-01-06 | 2023-07-13 | 上海交通大学 | 编解码方法、编码器、解码器以及存储介质 |
CN116824585A (zh) * | 2023-07-04 | 2023-09-29 | 重庆大学 | 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置 |
-
2023
- 2023-10-07 CN CN202311278736.0A patent/CN117014633B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022150680A1 (en) * | 2021-01-11 | 2022-07-14 | Interdigital Patent Holdings, Inc. | Apparatus and method for point cloud processing |
WO2023098018A1 (zh) * | 2021-12-02 | 2023-06-08 | 之江实验室 | 一种基于多帧点云的运动目标检测***和方法 |
CN114372986A (zh) * | 2021-12-30 | 2022-04-19 | 深圳大学 | 注意力引导多模态特征融合的图像语义分割方法及装置 |
WO2023130333A1 (zh) * | 2022-01-06 | 2023-07-13 | 上海交通大学 | 编解码方法、编码器、解码器以及存储介质 |
CN115065822A (zh) * | 2022-06-02 | 2022-09-16 | 奥特酷智能科技(南京)有限公司 | 点云几何信息压缩***、方法及计算机*** |
CN115082674A (zh) * | 2022-07-12 | 2022-09-20 | 西安电子科技大学 | 基于注意力机制的多模态数据融合三维目标检测方法 |
CN116016953A (zh) * | 2022-12-27 | 2023-04-25 | 中山大学·深圳 | 一种基于深度熵编码的动态点云属性压缩方法 |
CN116152267A (zh) * | 2023-04-24 | 2023-05-23 | 中国民用航空飞行学院 | 基于对比性语言图像预训练技术的点云实例分割方法 |
CN116824585A (zh) * | 2023-07-04 | 2023-09-29 | 重庆大学 | 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117014633A (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11252441B2 (en) | Hierarchical point cloud compression | |
US8204325B2 (en) | Systems and methods for texture synthesis for video coding with side information | |
CN114467302A (zh) | 针对点云压缩的基于块的预测编码 | |
CN112866694B (zh) | 联合非对称卷积块和条件上下文的智能图像压缩优化方法 | |
CN117014633B (zh) | 一种跨模态数据压缩方法、装置、设备及介质 | |
US20230300354A1 (en) | Method and System for Image Compressing and Coding with Deep Learning | |
WO2023130333A1 (zh) | 编解码方法、编码器、解码器以及存储介质 | |
Wang et al. | Raw image reconstruction with learned compact metadata | |
WO2022067775A1 (zh) | 点云的编码、解码方法、编码器、解码器以及编解码*** | |
CN113947538A (zh) | 一种多尺度高效卷积自注意力单幅图像除雨方法 | |
CN107231556B (zh) | 一种图像云储存设备 | |
US20230237704A1 (en) | Point cloud decoding and encoding method, and decoder, encoder and encoding and decoding system | |
WO2022131948A1 (en) | Devices and methods for sequential coding for point cloud compression | |
CN116016953A (zh) | 一种基于深度熵编码的动态点云属性压缩方法 | |
TW202406344A (zh) | 一種點雲幾何資料增強、編解碼方法、裝置、碼流、編解碼器、系統和儲存媒介 | |
CN117315189A (zh) | 点云重建方法、***、终端设备及计算机存储介质 | |
CN115086660A (zh) | 基于点云属性预测的解码、编码方法、解码器及编码器 | |
Killea et al. | DeepCompress: Efficient Point Cloud Geometry Compression | |
WO2024074122A1 (en) | Method, apparatus, and medium for point cloud coding | |
WO2023131136A1 (en) | Method, apparatus, and medium for point cloud coding | |
WO2023093866A1 (en) | Method, apparatus, and medium for point cloud coding | |
WO2024074123A1 (en) | Method, apparatus, and medium for point cloud coding | |
WO2024074121A1 (en) | Method, apparatus, and medium for point cloud coding | |
WO2024060161A1 (zh) | 编解码方法、编码器、解码器以及存储介质 | |
WO2024008019A1 (en) | Method, apparatus, and medium for point cloud coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |