CN114092579B - 一种基于隐式神经网络的点云压缩方法 - Google Patents

一种基于隐式神经网络的点云压缩方法 Download PDF

Info

Publication number
CN114092579B
CN114092579B CN202111357338.9A CN202111357338A CN114092579B CN 114092579 B CN114092579 B CN 114092579B CN 202111357338 A CN202111357338 A CN 202111357338A CN 114092579 B CN114092579 B CN 114092579B
Authority
CN
China
Prior art keywords
network
implicit
hidden
decoder
hidden variables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111357338.9A
Other languages
English (en)
Other versions
CN114092579A (zh
Inventor
邹文钦
杨柏林
江照意
叶振虎
丁璐赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202111357338.9A priority Critical patent/CN114092579B/zh
Publication of CN114092579A publication Critical patent/CN114092579A/zh
Application granted granted Critical
Publication of CN114092579B publication Critical patent/CN114092579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于隐式神经网络的点云压缩方法。本发明首先给定数据集中的某一类别形状,划分为训练集和测试集两个部分;对原始的数据集中的mesh模型进行预处理,得到SDF值;其次设计一个基于auto‑decoder并融合熵模型的整体网络框架,输入为观察信息和经过熵模型量化的隐变量,输出为查询点的SDF估计值;然后进行模型训练和推断,得到表示单个形状的隐变量,最后将隐变量压缩为二进制字符串,进一步增加压缩率,并将压缩后的字符串传输给解码端。本发明不需要通过复杂的3d卷积对3d形状进行处理,通过简单的MLP表示隐式网络,结构更加简单。

Description

一种基于隐式神经网络的点云压缩方法
技术领域
本发明属于三维重构和点云压缩领域,具体涉及一种基于隐式神经网络的点云压缩方法。
背景技术
近年来,点云数据的获取和应用领域变得越来越多样,如自动驾驶,VR和AR等领域都有点云数据的身影。相比于Mesh或者Voxel,点云没有复杂的拓扑结构,可以通过雷达传感器直接获取,但点云通常有海量的数据,直接存储和传输需要耗费大量的内存资源和网络带宽,因此,高效的点云压缩方案十分必要的。
传统的主流点云压缩方法基于MPEG提出的两种基本压缩框架,一种是VPCC,一种是GPCC。VPCC借鉴视频的压缩技术,用来对动态点云序列进行实时压缩,而GPCC是对点云的一些几何属性进行压缩,如颜色,法线等,通常用来压缩静态点云。深度学习的发展使得点云压缩有了新的前景,相较于传统方法,现有的深度学习方法很多都是基于VAE框架,首先对原始通过多层卷积层进行点云下采样到隐式空间,再结合不同的熵模型,在训练过程中得到隐空间的概率分布,对 encoder之后的信息进行量化和熵编码得到比特流,解码端通过比特流和decoder进行上采样过程最终可以重构出新的点云。利用深度学习方法进行点云压缩,压缩率和精度各方面的效果都比传统的方法有了进一步的提高。但现有的深度学习的方法网络参数比较大,而且只能在固定分辨率下进行压缩和重建,导致可扩展性较差。
自2019来,隐函数神经网络在3d形状表示领域引起了广泛关注,隐函数的主要思想是通过给定原始形状的观察信息和查询点的位置,判断出空间中查询点是在形状的内外部,由多层感知机构成的网络通过学习拟合出隐式曲面,最终可以通过marching cube算法来重构出新的形状。
隐式网络是定义在整个输入的连续域上,比离散表示更加高效,可以处理各种拓扑结构的输入,如体素,mesh和点云。隐式网络不仅是空间连续的,而且理论上可以不限制分辨率输出。相比与现有的深度学习方法,隐式网络的整体结构更为简单,无需多层的上采样操作,具有良好的可扩展性和泛化能力。因此,考虑将隐式网络应用到点云压缩领域,对未来点云压缩的进一步发展有着十分重要的意义。
发明内容
本发明针对现有技术的不足,提出一种基于隐式神经网络的点云压缩方法。
本发明包括以下步骤:
步骤1:给定ShapeNet数据集中的某一类别形状,划分为训练集和测试集两个部分。
步骤2:对原始的数据集中的mesh模型进行预处理,得到SDF 值。
步骤3:设计一个基于auto-decoder并融合熵模型的整体框架,输入为观察信息和经过熵模型量化的隐变量,输出为查询点的SDF 估计值,通过SDF值构造L1损失,并设计隐变量的正则化项增加泛化能力,最终整个网络的损失如下:
其中fθ是训练集共享参数的隐式网络,sj是输入点的真实SDF值, L是L1损失函数,是经过熵模型处理后的隐变量,xj是采样点。/>是熵模型的压缩损失,/>是网络学习出的隐变量的概率分布函数,,其中σ,λ都是超参数。
步骤4:将预处理后的训练集中的扰动点作为隐式网络的输入x,同时随机初始化固定维度的隐变量,将隐变量经过熵模型后和输入x 拼接,作为隐式网络的输入并进行训练,学习到这一类别输入的共同特征。
步骤5:推断阶段,将解码器decoder部分的隐式网络权重固定,通过少量的迭代过程优化随机初始化的隐变量,得到最终表示单个形状的隐变量,解码端可以通过隐变量和网络权重得到重构后的形状。
步骤6:对测试阶段的隐变量进行量化和算术编码,将隐变量压缩为二进制字符串,进一步增加压缩率,并将压缩后的字符串传输给解码端。
本发明的有益效果:本发明能够在特定类别的数据集上实现可观的压缩率,通过隐函数网络得到表示原始输入的隐变量信息,对隐变量进行量化压缩,整体的网络不需要通过复杂的3d卷积对3d形状进行处理,通过简单的MLP表示隐式网络,结构更加简单。
附图说明
图1为auto-decoder网络的组成图;
图2为本发明的整体网络框架图;
图3为不同隐变量维度的网络测试得到不同的重构损失和压缩比特率图。
具体实施方式
以下结合附图,对本发明进一步说明:
步骤1:针对ShapeNet中的某一个类别的形状划分为训练集和测试集,利用同一个类别的形状是为了保证训练集和测试集都有类似的形状特征。
步骤2:对原始的数据集中的mesh模型进行预处理,将mesh模型归一化到单位球,接着在mesh模型表面采样固定的点数并加上扰动得到空间任意位置的扰动点,计算空间中的扰动点离mesh模型表面采样点的距离和符号,即SDF值,将SDF值和对应扰动点的坐标保存到新的文件中。
步骤3:设计整体的网络框架,输入为观察信息和经过熵模型量化后的隐变量,输出为查询点的SDF估计值。其中的auto-decoder 原理如图1所示,在encoder-decoder的通用框架上去掉了解码器 encoder部分,直接使用中间层的隐变量作为解码器decoder部分的输入,反向传播时同时更新解码器decoder的参数和隐变量的值,推断阶段时,没有编码器encoder部分的冗余,使得输出精度更高。
在auto-decoder的基础上融合熵模型部分,以实现对隐变量的进一步处理,如图2所示,P是初始的观察点信息,Z是随机初始化的一个维度的隐变量;训练过程中,首先将隐变量通过量化器Q输入到一个全分解的熵模型Entorpy Model中,通过全分解的熵模型Entropy Model预测隐变量的概率分布,Y是隐变量,是量化后的值, AE是算术编码器,AD是算术解码器,/>是经过熵模型处理后的隐变量,D是解码器decoder。
本发明用多层的全连接网络来训练网络参数θ,训练集中的所有单个形状Si都在同一个隐式网络上学习共有的特性。传统的方法网络框架中的解码器decoder部分是将中间的隐变量利用3d卷积等方式进行多层上采样,而隐式网络则是通过利用隐变量在隐式网络学习拟合表示形状的隐式曲面,所需的网络参数更少,可扩展性也更好。
为了学习的参数θ,对于包含N个形状的数据集,针对每个特定形状Si,准备了K个采样点和采样点的SDF值,以及对应的隐变量zi,训练时通过计算网络输出SDF值和输入点的真实SDF 值sj之间的L1损失,同时最大限度地提高所有训练形状的联合对数后验,即对隐向量增加一个L2正则化项,再加上熵模型的损失:
其中fθ是训练集共享参数的隐式网络,sj是输入点的真实SDF值, L是L1损失函数,是经过熵模型处理后的隐变量,xj是采样点。/>是熵模型的压缩损失,/>是网络学习出的隐变量的概率分布函数,σ,λ都是超参数。
步骤4:将预处理后的训练集中的扰动点作为隐式网络的输入x,同时随机初始化一个固定维度的隐变量,将隐变量经过熵模型的处理后和x拼接,作为隐式网络的输入并进行训练,训练过程中,通过反向传播更新熵模型和隐式网络的权重,由于训练集的数据都有一定程度上的相似性,所以整个隐式网络可以学习到这些数据的共同特征。
步骤5:在推断阶段,由于训练后已经得到解码器decoder的网络参数,固定解码器decoder的网络权重,使用类似的损失函数微调每个新形状的隐变量z的值:
步骤6:得到最终表示单个形状的隐变量后,由于训练时熵模型已经学习到了隐空间的概率分布,结合概率分布对隐变量进行量化和算术编码,将隐变量压缩为二进制字符串,传输给解码端,解码端通过隐变量和网络参数进行解压。
实施例:
实验结果如图3所示,具体包括:
步骤1:使用ShapeNet数据集中的凳子数据集进行训练和测试,对训练集和测试集进行预处理,实验中使用学习率为0.0005的ADAM 优化器,batch_size设置为12,训练60个epoch。
步骤2:通过控制初始隐变量的维度来控制最终形状重构的效果,选取隐变量的维度有8,16,32,64,128,256,不同维度的初始化隐变量结合解码器decoder和熵模型分别进行单独训练。
步骤3:测试阶段,将测试集的数据分别通过训练好的不同隐变量维度的网络进行测试,得到不同的重构损失和压缩比特率,如图3 所示,本发明的bpp(bit per point)变化为0.0898,0.1172,0.1563, 02383,0.3672,0.6055,重构损失变化为0.0835,0.0382,0.0405,0.0316, 0.0250,0.0220,由实验结果可以看出,与同样使用ShapeNet进行压缩的深度学习方法比较,本发明基于隐式函数网络的压缩方法具有更高的精度。

Claims (4)

1.一种基于隐式神经网络的点云压缩方法,其特征在于该方法包括以下步骤:
步骤1:给定ShapeNet数据集中的某一类别形状,划分为训练集和测试集两个部分;
步骤2:对原始的数据集中的mesh模型进行预处理,得到SDF值;
步骤3:设计一个基于auto-decoder并融合熵模型的整体网络框架,输入为观察信息和经过熵模型量化的隐变量,输出为查询点的SDF估计值;
通过SDF值构造L1损失,并设计隐变量的正则化项增加泛化能力,最终整个网络的损失如下:
其中fq是训练集共享参数的隐式网络,sj是输入点的真实SDF值,L是L1损失函数,是经过熵模型处理后的隐变量,xj是采样点;/>是网络学习出的隐变量的概率分布函数,/>是熵模型的压缩损失,s,λ都是超参数;
步骤4:将预处理后的训练集中的扰动点作为隐式网络的输入x,同时随机初始化固定维度的隐变量,将隐变量经过熵模型后和输入x拼接,作为隐式网络的输入并进行训练,学习到这一类别输入的共同特征;
步骤5:推断阶段,将解码器decoder部分的隐式网络权重固定,通过少量的迭代过程优化随机初始化的隐变量,得到最终表示单个形状的隐变量x的值:
解码端通过隐变量和网络权重得到重构后的形状;
步骤6:对测试阶段的隐变量进行量化和算术编码,将隐变量压缩为二进制字符串,进一步增加压缩率,并将压缩后的字符串传输给解码端。
2.根据权利要求1所述的一种基于隐式神经网络的点云压缩方法,其特征在于:所述的auto-decoder是在encoder-decoder的通用框架上去掉了解码器encoder部分,直接使用中间层的隐变量作为解码器decoder部分的输入,反向传播时同时更新解码器decoder的参数和隐变量的值。
3.根据权利要求1所述的一种基于隐式神经网络的点云压缩方法,其特征在于:在整体网络框架训练过程中,隐变量通过量化器Q输入到一个全分解的熵模型Entorpy Model中,通过全分解的熵模型Entropy Model预测隐变量的概率分布。
4.根据权利要求1所述的一种基于隐式神经网络的点云压缩方法,其特征在于:采用多层的全连接网络来训练网络参数q,训练集中的所有单个形状Si都在同一个隐式网络上学习共有的特性。
CN202111357338.9A 2021-11-16 2021-11-16 一种基于隐式神经网络的点云压缩方法 Active CN114092579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111357338.9A CN114092579B (zh) 2021-11-16 2021-11-16 一种基于隐式神经网络的点云压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111357338.9A CN114092579B (zh) 2021-11-16 2021-11-16 一种基于隐式神经网络的点云压缩方法

Publications (2)

Publication Number Publication Date
CN114092579A CN114092579A (zh) 2022-02-25
CN114092579B true CN114092579B (zh) 2024-05-14

Family

ID=80301091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111357338.9A Active CN114092579B (zh) 2021-11-16 2021-11-16 一种基于隐式神经网络的点云压缩方法

Country Status (1)

Country Link
CN (1) CN114092579B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597082A (zh) * 2023-05-17 2023-08-15 杭州电子科技大学 一种基于隐式三维重建的轮毂工件数字化方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201703122D0 (en) * 2017-02-27 2017-04-12 Nokia Technologies Oy Encoding and decoding three dimensional video data
WO2019019680A1 (zh) * 2017-07-28 2019-01-31 北京大学深圳研究生院 一种基于kd树和优化图变换的点云属性压缩方法
CN110349230A (zh) * 2019-07-15 2019-10-18 北京大学深圳研究生院 一种基于深度自编码器的点云几何压缩的方法
CN110691243A (zh) * 2019-10-10 2020-01-14 叠境数字科技(上海)有限公司 一种基于深度卷积网络的点云几何压缩方法
CN111612859A (zh) * 2020-05-22 2020-09-01 潍坊学院 一种基于数据降维的三维点云模型压缩方法及其实现***
WO2021013334A1 (en) * 2019-07-22 2021-01-28 Toyota Motor Europe Depth maps prediction system and training method for such a system
US10970518B1 (en) * 2017-11-14 2021-04-06 Apple Inc. Voxel-based feature learning network
CN113284203A (zh) * 2021-05-04 2021-08-20 北京航空航天大学 基于八叉树编码和体素上下文的点云压缩及解压缩方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201703122D0 (en) * 2017-02-27 2017-04-12 Nokia Technologies Oy Encoding and decoding three dimensional video data
WO2019019680A1 (zh) * 2017-07-28 2019-01-31 北京大学深圳研究生院 一种基于kd树和优化图变换的点云属性压缩方法
US10970518B1 (en) * 2017-11-14 2021-04-06 Apple Inc. Voxel-based feature learning network
CN110349230A (zh) * 2019-07-15 2019-10-18 北京大学深圳研究生院 一种基于深度自编码器的点云几何压缩的方法
WO2021013334A1 (en) * 2019-07-22 2021-01-28 Toyota Motor Europe Depth maps prediction system and training method for such a system
CN110691243A (zh) * 2019-10-10 2020-01-14 叠境数字科技(上海)有限公司 一种基于深度卷积网络的点云几何压缩方法
CN111612859A (zh) * 2020-05-22 2020-09-01 潍坊学院 一种基于数据降维的三维点云模型压缩方法及其实现***
CN113284203A (zh) * 2021-05-04 2021-08-20 北京航空航天大学 基于八叉树编码和体素上下文的点云压缩及解压缩方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于生成对抗网络的点云形状保结构补全;缪永伟;刘家宗;陈佳慧;舒振宇;;中国科学:信息科学;20200531(05);全文 *
法向贴图混合自适应压缩算法;杨柏林等;《第四届和谐人机环境联合学术会议论文集》;20081231;全文 *

Also Published As

Publication number Publication date
CN114092579A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
Gai et al. New image denoising algorithm via improved deep convolutional neural network with perceptive loss
CN110517329B (zh) 一种基于语义分析的深度学习图像压缩方法
CN111258992A (zh) 一种基于变分自编码器的地震数据扩充方法
CN111147862B (zh) 一种基于目标编码的端到端图像压缩方法
CN111275640B (zh) 一种融合二维离散小波变换和生成对抗网络的图像增强方法
Hu et al. An image compression and encryption scheme based on deep learning
Laha et al. Design of vector quantizer for image compression using self-organizing feature map and surface fitting
Saravanan et al. Intelligent Satin Bowerbird Optimizer Based Compression Technique for Remote Sensing Images.
CN113595993B (zh) 边缘计算下模型结构优化的车载感知设备联合学习方法
CN113096239B (zh) 一种基于深度学习的三维点云重建方法
CN108197707A (zh) 基于全局误差重建的卷积神经网络的压缩方法
CN114092579B (zh) 一种基于隐式神经网络的点云压缩方法
CN117499711A (zh) 视频生成模型的训练方法、装置、设备及存储介质
CN115022637A (zh) 一种图像编码方法、图像解压方法以及装置
Liu Literature review on image restoration
Fahim et al. Enhancing single-view 3D mesh reconstruction with the aid of implicit surface learning
Li et al. Towards communication-efficient digital twin via AI-powered transmission and reconstruction
Obukhov et al. Tt-nf: Tensor train neural fields
CN114511092B (zh) 一种基于量子线路的图注意力机制实现方法
Ramasinghe et al. A learnable radial basis positional embedding for coordinate-mlps
Hu et al. IMMAT: Mesh reconstruction from single view images by medial axis transform prediction
EP4388498A1 (en) Adaptive deep-learning based probability prediction method for point cloud compression
Kingkan et al. Generating mesh-based shapes from learned latent spaces of point clouds with VAE-GAN
Zhu et al. Few-shot 3D shape generation
Shi et al. Research on Optimization Algorithm of auto-encoding neural network applied to rolling bearing fault diagnosis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant