CN114255328A

CN114255328A - 一种基于单视图与深度学习的古文物三维重建方法

Info

Publication number: CN114255328A
Application number: CN202111510170.0A
Authority: CN
Inventors: 李红波; 叶成庆; 杨杰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-29

Abstract

本发明涉及古文物图片的三维重建技术领域，公开了一种基于单视图与深度学习的古文物三维重建方法，包括如下步骤：步骤1：输入古文物及与所述古文物相似工艺品的数据集；步骤2：根据“编码器‑解码器”的网络结构，使用带有3D‑ResVGG网络和多路径通道注意力模块的编码器对所述数据集进行深度信息挖掘和特征提取，生成古文物三维网络模型；步骤3：通过智能AI工具将需要进行三维重建的古文物图片进行预处理，生成预设类型图片；步骤4：将作为单视图的所述预设类型图片输入到所述古文物三维网络模型中，生成完整的需要进行三维重建的古文物图片的古文物三维模型。本发明提出了一种新的3D‑ResVGG网络，通过多分支模型训练，完善了原有VGG架构过拟合的问题。

Description

一种基于单视图与深度学习的古文物三维重建方法

技术领域

本发明涉及古文物图片的三维重建技术领域，具体涉及一种基于单视图与深度学习的古文物三维重建方法。

背景技术

古文物是人类在社会活动中遗留下来的具有历史、艺术、科学价值的遗物和遗迹，它是人类宝贵的历史文化遗产。很多时候，人们对古文物的了解，仅仅是通过图片来观察了解到，这样对古文物的了解会不够深刻。因为，我们生活在一个三维世界中，但是人眼所看到的是物体的二维投影，而且通过摄像机等设备获取的物体形式通常是二维图像，因此，基于图像的三维重建是计算机视觉、计算机动画、工业制造等多个领域的核心问题。现实世界中，所有的物体都以三维形式存在，且具有形状、外观和纹理等特征。对于工程测绘技术来说，三维重建可帮助其遥感***获取所需要的地表空间信息，并做到了实时性；在人机交互领域，三维重建技术更是奠定了高级人机界面的基础，真正实现了以沉浸式和具有交互性的虚拟现实技术；在建筑信息化领域，是文物建筑保护、工程质量检测与管理、建筑拆迁管理和建筑物改造或装修的重要利器。

同时，文物数据作为一个向公众传播、保存、展示历史文化、社会风貌的载体，其保护工作逐渐被大众重视起来。三维重建技术发展到今天，已逐渐成为在历史文物数据保存方面最为领先的应用技术。它可以将真实文物的几何信息长久保存下来，为推动文物的应用研究和深入的数据分析提供了极大的便利。

除此之外，在可视化技术领域，实体文物信息的数字化和计算机领域的可视化技术均有了较大规模的应用，文化教育的相关产业将有更多的机会去发挥文物的社会教育职能，以进一步拓展和满足大众的鉴赏需求。

在三维重建中传统方法中比较成熟的是立体视觉理论，立体视觉是基于小孔成像原理通过相机模拟人眼观看物体的几何规律计算视差进而推导深度的科学方法。近年来随着智能手机的普及和手机厂商对镜头虚化的追求，基于双目视觉的三维重建越来越成熟，通过相机的双摄计算出视差图，通过视差图计算深度图进而还原三维场景，与此同时，TOF传感器加入也为这个问题带来了新的解决思路，TOF传感器可以直接获得稀疏的深度信息，虽然不够精确但可以双目视觉的计算。在三维重建技术发展的同时，一大批立体视觉设备的诞生，如立体相机，Kinect等。然而尽管有大量立体视觉设备等的涌现，但在网络环境中容易获取的大多数古文物图片资料仍是单目单视图为主，并不是包含深度的RGBD或者给定相机参数的双目视图，缺乏关联信息的单视图图片很难通过立体视觉理论进行重建，也因此引出了一个新的计算机视觉问题：单视图的三维重建问题。

单视图三维重建任务是一个十分困难的计算机视觉任务。传统方法的提取特征的方法主要是构造手工特征，利用算子提取图像的纹理和轮廓、计算光流提取运动信息、通过灰度判断明暗关系，这些都是提取手工特征常用的手段，利用这些特征加上辅助的假设条件完成三维模型的重建，当然受限于特征包含的信息量，传统方法效果并不理想。

发明内容

针对目前古文物视图图片稀缺以及三维模型数据集稀少的问题，在现有研究以及实现古文物三维模型数据集的基础上，提出一种基于单视图与深度学习的古文物三维重建方法，通过对古文物三维网络模型训练完成后输入单视图图片即可生成模型，以实现二维图像到三维模型之间的映射，使得在单视图图片的情况下进行三维重建，并且，该算法不需要图像注释或分类标签进行训练，克服了过去无法解决的缺乏纹理和宽基线特征匹配等问题。

本发明通过下述技术方案实现：

一种基于单视图与深度学习的古文物三维重建方法，包括如下步骤：

步骤1：输入古文物及与所述古文物相似工艺品的数据集，所述数据集包括古文物及与所述古文物相似工艺品的多角度的多视图图片以及训练用体素模型；

步骤2：根据“编码器-解码器”的网络结构，使用带有3D-ResVGG网络和多路径通道注意力模块的编码器对所述数据集进行深度信息挖掘和特征提取，生成古文物三维网络模型；

步骤3：通过智能AI工具将需要进行三维重建的古文物图片进行预处理，生成预设类型图片；

步骤4：将作为单视图的所述预设类型图片输入到所述古文物三维网络模型中，生成完整的需要进行三维重建的古文物图片的古文物三维模型。

作为优化，步骤2中，所述古文物三维网络模型包括编码器、迭代卷积模块和解码器，所述编码器由残差网络结构结合多路径通道注意力模块以及3D-ResVGG网络组成，所述迭代卷积模块由一组迭代卷积单元组成，所述迭代卷积单元在空间上分布在三维网格结构中，每个所述迭代卷积单元负责重建最终输出的体素概率结果。

作为优化，所述3D-ResVGG网络为在ResNet网络的向前传播部分添加了两组1*1卷积，并结合ResNet残差模块和VGG网络架构得到。

作为优化，所述多路径通道注意力模块的作用为：使用所述多路径通道注意力模块，在3D-ResVGG网络进行特征提取的过程中进行分组卷积，以多路径多组卷积核的形式对数据信息进行深度挖掘，获取数据的深度信息。

作为优化，步骤2中的编码器对所述数据集进行深度信息挖掘和特征提取的具体步骤为：

步骤2.1、所述3D-ResVGG网络接收数据集并对所述数据集进行特征提取生成特征图；

步骤2.2、所述多路径通道注意力模块对由所述3D-ResVGG网络生成的特征图进行分组提取：根据特征图的特点按卷积核将所述特征图分为多组，选取适应的若干组卷积核对所述特征图进行分组卷积；

步骤2.3、将卷积后的每组所述特征图模拟残差网络结构进行一组1*1卷积，获取对应的若干组特征图；

步骤2.4、将经过步骤2.3的若干组特征图进行拼接组合，得到一个高尺度、高维度、信息量更为丰富的特征图。

作为优化，步骤2.2中，信息卷积核选取3组以对所述特征图进行分组卷积。

作为优化，所述迭代卷积单元由长短时卷积网络构成，所述长短时卷积网络根据输入的特征图的具体格式选取具体的卷积单元数量，从三维的角度对通过编码器提取出的特征图进行迭代卷积，以分类网络的形式获取特征图中每一处卷积的体素概率结果并收集保留成一组三维概率信息。

作为优化，步骤2中，所述迭代卷积单元对输入的多组所述特征图进行卷积运算的具体过程为：所述迭代卷积单元对多组多角度的所述特征图进行迭代卷积运算以循环提取所述特征图的信息，对该迭代卷积单元涉及的体素概率进行动态更新，并最终结合所有迭代卷积单元的体素概率数据合成一组三维体素概率模型。

作为优化，在所述迭代卷积模块中，所述迭代卷积单元的具体结构由所述特征图的分辨率决定，X*X*X的迭代卷积单元用于处理X分辨率的特征图的数据。

作为优化，通过损失函数来验证所述古文物三维网络模型是否可靠，所述损失函数为在交叉熵函数改进后的特征正则化softmax函数。

本发明与现有技术相比，具有如下的优点和有益效果：

1.本发明可以通过输入单幅古文物图片生成对应的三维体素模型，通过多幅二维图像完成古文物三维网络模型的训练操作，再利用古文物三维网络模型对待测二维图像进行重建操作。

2.本发明针对传统ResNet网络中存在的显存占用和灵活度较低的问题，以及传统VGG架构中在网络层数较深的情况下出现的过拟合问题，提出了一种新的3D-ResVGG网络，该网络在原有ResNet和VGG网络架构的基础上，通过多分支模型训练，将ResNet中的3*3残差算子改进为一组3*3卷积结合1*1卷积分支的形式，在每组大分支后再添加Relu的形式，完善了原有VGG架构过拟合的问题。

3.本发明改进了传统编码器网络存在的无法对信息进行深度提取，以及训练速度较慢等问题，提升了整体三维重建的精度和深度。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为本发明所述的一种基于单视图与深度学习的古文物三维重建方法的古文物三维模型的结构示意图；

图2是为本发明所述的一种基于单视图与深度学习的古文物三维重建方法中的流程图；

图3是为本发明所述的一种基于单视图与深度学习的古文物三维重建方法中的编码器流程图；

图4是本发明中多路径通道注意力模块结构图；

图5是本发明中3D-ResVGG网络结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

步骤1：输入古文物及与所述古文物相似工艺品(如何判断它们之间是否相似？)使用现有的ShapeNetVox数据集，其中包括如瓷器，灯，碗，桌椅等与古文物相似的体素模型的数据集，所述数据集包括古文物及与所述古文物相似工艺品的多角度的多视图图片以及训练用体素模型；这里的数据集可以使用现有的ShapeNetVox数据集，其中包括如瓷器，灯，碗，桌椅等与古文物相似的体素模型。

步骤3：通过智能AI工具将需要进行三维重建的古文物图片进行预处理，生成预设类型图片；这里的智能AI工具可以包括但不限于为PhotoScissor，利用PhotoScissor等图片处理工具对图片进行分割，裁剪等预处理。

本实施例中，步骤2中，所述古文物三维网络模型包括编码器、迭代卷积模块和解码器。其中，所述编码器由残差网络结构结合多路径通道注意力模块以及3D-ResVGG网络组成，多路径通道注意力模块为一种高效的多尺度通道注意力机制网络，编码器的输入为单视图的二维图像，编码器的输出为二维特征向量，需要将二维特征向量转换为三维信息；

迭代卷积模块所使用的是一组迭代卷积单元，该迭代卷积单元由一组长短时卷积网络构成，即由连续的长短时及LRU网络构成，所述迭代卷积单元在空间上分布在三维网格结构中，每个所述迭代卷积单元负责重建最终输出的体素概率模块，具体的，迭代卷积单元根据网络输入图片的具体格式选取具体的卷积单元数量，例如，根据图片的空间分辨率确定，如空间分辨率为32，则有32*32*32个卷积单元，从三维的角度对通过上述方式提取出的特征图进行迭代卷积，以分类网络的形式获取特征图中每一处卷积的体素概率结果并收集保留成一组三维概率信息，其中，特征图的具体格式根据图片大小决定，相当于对图片进行切割，切成许多个小块，每个小块代表了小块所在位置的体素概率；解码器的输入为迭代卷积模块处理得到的三维信息，解码器的输出为单幅图像的三位预测体素占用。

如图5所示，本实施例中，所述3D-ResVGG网络为在ResNet网络的向前传播部分添加了两组1*1卷积，并结合ResNet残差模块和VGG网络架构得到。所述3D-ResVGG网络通过结合ResNet残差模块和VGG网络架构两者的优点，实现了在仅使用3*3卷积和1*1卷积的基础上，完成高精度的特征提取。

本实施例中，所述多路径通道注意力模块的作用为：使用所述多路径通道注意力模块，在3D-ResVGG网络进行特征提取的过程中进行分组卷积，卷积以后通过激活函数Relu进行激活，以多路径多组卷积核的形式对数据信息进行深度挖掘，获取数据的深度信息。

具体的，如图3-4所示，本实施例中，步骤2中的编码器对所述数据集进行深度信息挖掘和特征提取的具体步骤为：

步骤2.2、所述多路径通道注意力模块对由所述3D-ResVGG网络生成的特征图进行分组提取：根据特征图的特点按卷积核将所述特征图分为多组，选取适应的若干组卷积核对所述特征图进行分组卷积，这样可以降低参数量和提高特征图提取的精度；这里的特征图的特点具体是指根据特征图的数量确定分为三组或四组，卷积核由实际训练需求选取，如对精度要求高可选取数量较低的卷积核，如对时间有要求可选取高核数的卷积核，例如，根据特征图的特点按卷积核1*1，3*3，5*5，7*7，9*9将所述特征图分为多组，选取适应的三组进行分组卷积；这里的降低参数量，指的是在三维神经网络中，如果不分组，生成12个特征图，而12特征图可能会因为太大而使得服务器一次处理不了，但分组就可以为3、3、3、3四组，服务器一次可以处理3个。

步骤2.3、为防止结果过拟合，将卷积后的每组所述特征图模拟残差网络结构进行一组1*1卷积，获取对应的若干组特征图；如按照步骤2.2的具体举例来说，可以获取三组特征图，

步骤2.4、将经过步骤2.1-2.3的加权和残差处理后的若干组特征图进行拼接组合，得到一个高尺度、高维度、信息量更为丰富的特征图。

图4中，“输入”为多组特征图，Split这个节点即将多组特征图进行分组，conv为卷积核，path为路径，SE为残差模块，“输出”为组合拼接后的特征图。

本实施例中，步骤2中，所述迭代卷积单元对输入的多组所述特征图进行卷积运算的具体过程为：所述迭代卷积单元对多组多角度的所述特征图进行迭代卷积运算以循环提取所述特征图的信息，对该迭代卷积单元涉及的体素概率进行动态更新，在多视图的情况下，每一张视图的处理都会对现生成的体素概率模型进行更新，生成更精确的概率模型，并最终结合所有迭代卷积单元的体素概率数据合成一组三维体素概率模型。需要说明的是，这里的循环提取特征图的信息，指的是在迭代卷积单元的输入层和输出层之间的一个隐藏层对生成的特征图的信息再重新进行一次处理，其中，迭代卷积单元(长短时网络)的隐藏层在三维网格中设置为

本实施例中，在所述迭代卷积模块中，所述迭代卷积单元的具体结构由所述特征图的分辨率决定，X*X*X的迭代卷积单元用于处理X分辨率的特征图的数据，X为正整数。

本实施例中，通过损失函数来验证所述古文物三维网络模型是否可靠，所述损失函数为在交叉熵函数改进后的特征正则化softmax函数。在现有的A-softmax和L-softmax基础上添加了对数据的归一化处理，在多组数据质量不同时，根据具体的图片数据情况进行特征提取，减少由于图片质量造成的样本注意力集中失效等问题。

其具体的公式如下：

其中，θ定义为间隔角度、m为引入的参数因子，定义为角度特征距离参数，通过m来调节特征间的距离，固定为4、s为缩放因子，固定为30。

本发明的编码器为在现有的ResNet网络上进行改进的3D-ResVGG网络，结合ResNet残差模块和VGG网络架构两者的优点，实现了在仅使用3*3卷积和1*1卷积的基础上，完成高精度的特征提取；迭代卷积模块由一组迭代卷积单元组成，每一个迭代卷积单元生成一处体素概率，经过多视图图像输入组成完整的三维体素概率模型；解码器是由传统的resnet网络构成，使用现有技术resnet实现，传统的resnet网络模型能够防止网络学习过深引起的过拟合问题，同时也解决了在编码器及迭代卷积模块可能引起的体素概率模型精度不稳定的问题，最后卷积的神经网络构成。其中，编码器的输入为单视图的二维图像，编码器的输出为二维特征向量，需要将其转换为三维信息；迭代卷积模块完成分布在三维网格中的体素概率模型。解码器的输入为迭代卷积模块处理得到的三维信息，解码器的输出为单幅图像的三位预测体素占用。

下面结合具体的实验对实施例1中的方案进行可行性验证，详见下文描述：

1)实验数据集

ShapeNet数据集

该数据集由物体的三维CAD模型组成，是目前为止包含丰富注释的最大的三维模型数据集。其在WordNet分类下进行组织，为每一个三维模型提供丰富的语义注释，包括物理尺寸、关键字等，注释可通过基于Web的界面提供，以实现对象属性的数据可视化。ShapeNet共包含超过300万个模型，其中22万个模型被归类为3135个类别。

2)评估标准

IoU:Intersection-over-Union

本发明采用IoU作为评价指标，该评价指标越大越好。公式如下，其中，I(x)为指示函数，t表示阈值。若概率大于该阈值则该位置存在体素,具体公式：

3)训练过程

本发明用ShapeNet数据集对古文物三维网络模型进行训练。输入为127*127*3的图片，经过该古文物三维网络模型后，输出为32*32*32的体素空间。

综上所述，本发明实例通过上述的实验过程、实验数据及实验结果，验证了实施例1中方案的可行性，本发明实例提供的三维物体重建算法对二维图像具有良好的三维重建能力。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于单视图与深度学习的古文物三维重建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于单视图与深度学习的古文物三维重建方法，其特征在于，步骤2中，所述古文物三维网络模型包括编码器、迭代卷积模块和解码器，所述编码器由残差网络结构结合多路径通道注意力模块以及3D-ResVGG网络组成，所述迭代卷积模块由一组迭代卷积单元组成，所述迭代卷积单元在空间上分布在三维网格结构中，每个所述迭代卷积单元负责重建最终输出的体素概率结果。

3.根据权利要求1所述的一种基于单视图与深度学习的古文物三维重建方法，其特征在于，所述3D-ResVGG网络为在ResNet网络的向前传播部分添加了两组1*1卷积，并结合ResNet残差模块和VGG网络架构得到。

4.根据权利要求3所述的一种基于单视图与深度学习的古文物三维重建方法，其特征在于，所述多路径通道注意力模块的作用为：使用所述多路径通道注意力模块，在3D-ResVGG网络进行特征提取的过程中进行分组卷积，以多路径多组卷积核的形式对数据信息进行深度挖掘，获取数据的深度信息。

5.根据权利要求4所述的一种基于单视图与深度学习的古文物三维重建方法，其特征在于，步骤2中的编码器对所述数据集进行深度信息挖掘和特征提取的具体步骤为：

6.根据权利要求5所述的一种基于单视图与深度学习的古文物三维重建方法，其特征在于，步骤2.2中，信息卷积核选取3组以对所述特征图进行分组卷积。

7.根据权利要求6所述的一种基于单视图与深度学习的古文物三维重建方法，其特征在于，所述迭代卷积单元由长短时卷积网络构成，所述长短时卷积网络根据输入的特征图的具体格式选取具体的卷积单元数量，从三维的角度对通过编码器提取出的特征图进行迭代卷积，以分类网络的形式获取特征图中每一处卷积的体素概率结果并收集保留成一组三维概率信息。

8.根据权利要求7所述的一种基于单视图与深度学习的古文物三维重建方法，其特征在于，步骤2中，所述迭代卷积单元对输入的多组所述特征图进行卷积运算的具体过程为：所述迭代卷积单元对多组多角度的所述特征图进行迭代卷积运算以循环提取所述特征图的信息，对该迭代卷积单元涉及的体素概率进行动态更新，并最终结合所有迭代卷积单元的体素概率数据合成一组三维体素概率模型。

9.根据权利要求8所述的一种基于单视图与深度学习的古文物三维重建方法，其特征在于，在所述迭代卷积模块中，所述迭代卷积单元的具体结构由所述特征图的分辨率决定，X*X*X的迭代卷积单元用于处理X分辨率的特征图的数据。

10.根据权利要求1-9任一所述的一种基于单视图与深度学习的古文物三维重建方法，其特征在于，通过损失函数来验证所述古文物三维网络模型是否可靠，所述损失函数为在交叉熵函数改进后的特征正则化softmax函数。