CN112733920A

CN112733920A - 一种基于深度学习的图像识别方法及***

Info

Publication number: CN112733920A
Application number: CN202011641856.9A
Authority: CN
Inventors: 郝明; 王东辉
Original assignee: Chengdu Geological Survey Center Of China Geological Survey
Current assignee: Chengdu Geological Survey Center Of China Geological Survey
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-30

Abstract

本发明提出了一种基于深度学习的图像识别方法及***，涉及图像识别及深度学习领域。一种基于深度学习的图像识别方法包括：获取原始数据集及视频序列图像；通过图像二值法对获取的图像进行预处理；对预处理后的图像分割后进行存储及打标签；将分割后的图像输入进Spark模型，模型训练时一次性将打标签的分割后图像预加载至主程序。其能够使用预处理的数据集对神经网络进行训练，使用训练完成的模型和参数对砾石图片进行识别，得到了高识别准确度，并且识别结果可以清晰地显示砾石结构。此外本发明还提出了一种基于深度学习的图像识别***，包括：获取模块、预处理模块、分割模块、训练模块、第一存储模块以及第二存储模块。

Description

一种基于深度学习的图像识别方法及***

技术领域

本发明涉及图像识别及深度学习领域，具体而言，涉及一种基于深度学习的图像识别方法及***。

背景技术

在沉积学研究过程中，砾石自身形态及其在沉积地层中分布形态信息的定量化提取工作具有十分重要的作用。但此项工作是建立在大量样本体数据采集的基础上的，在野外实际操作中具有工作繁琐、采集信息体量大的特点，严重的滞缓了沉积学研究过程中的效率，并且需要耗费大量的人工成本。所以，研究出客观、快速、便捷、准确的砾石形态参数计算与统计分析方法非常必要

砾石数据的测量从定性到定量，测量精度不断提高，误差逐渐变小。但是，不论利用目估法、直接测量法还是数字图像与计算机软件结合应用法，其过程过于复杂，人工参与过多，无法实现批量自动计算。由此看出，砾石数据定量提取的研究程度远远不够，一些学者已经提出，希望砾石形态参数的获取向智能化、自动化发展。因此，迫切需要研究出一种客观、快速、便捷、准确的砾石形态参数计算与统计分析方法。

目前的图像识别方法难以有效应对砾石图像自动分类，神经网络对砾石图像的分类有一定的效果。但浅层神经网络因模型容量较小等原因容易欠拟合，深层神经网络虽然效果优于浅层神经网络，但是由于单一模型的性能和容量而限制其识别效果的进一步提升。

因此，有必要提供一种新的图像识别模型，以对图像既有很好的适应性又有较好的识别效果。

发明内容

本发明的目的在于提供一种基于深度学习的图像识别方法，其能够使用预处理的数据集对神经网络进行训练，使用训练完成的模型和参数对砾石图片进行识别，得到了高识别准确度，并且识别结果可以清晰地显示砾石结构。该方法可为现代地质考察提供可靠的数据支持。

本发明的另一目的在于提供一种基于深度学习的图像识别***，其能够运行一种基于深度学习的图像识别方法。

本发明的实施例是这样实现的：

第一方面，本申请实施例提供一种基于深度学习的图像识别方法，其包括获取原始数据集及视频序列图像；通过图像二值法对获取的图像进行预处理；对预处理后的图像分割后进行存储及打标签；将分割后的图像输入进Spark模型，模型训练时一次性将打标签的分割后图像预加载至主程序；完成模型训练后对识别结果进行存储，并砾石识别结果进行记录位置信息；通过砾石识别结果的位置信息对砾石原色图像还原并存储。

在本发明的一些实施例中，上述获取原始数据集及视频序列图像包括：将原始数据集划分为训练集和测试集，确定预设Resnet网络中待剪枝的层，对待剪枝的层进行剪枝，将原始数据集进行训练得到图像识别模型。

在本发明的一些实施例中，上述还包括将视频中多张序列图像中质量小于预设质量阈值的图像进行剔除得到剩余图像，采用目标检测算法检测每张剩余图像中的目标区域，将包含该目标区域的图像输入进图像识别模型进行处理。

在本发明的一些实施例中，上述通过图像二值法对获取的图像进行预处理包括：通过互联网及相关地质剖面图集资源和相机实际拍摄获取预设数量的砾石图片并剪裁成预设分辨率尺寸大小的未预处理的原始图片。

在本发明的一些实施例中，上述还包括将其中一部分原始图片进行二值化预处理并切割成比预设分辨率低的小图片，入工分类为背景图片和砾石图片，并分别将背景图片放入background文件夹，将砾石图片放入crack文件夹，余下的原始图片用于识别测试。

在本发明的一些实施例中，上述对预处理后的图像进行分割后进行存储及打标签包括：通过AdobePhotoshop分割图片，寻找设计合适砾石和背景面元的训练数据集，分割时尝试找到最合适的分割尺寸提高识别精准度，对分割后的图像挑选、保存及打标签。

在本发明的一些实施例中，上述将分割后的图像输入进Spark模型，模型训练时一次性将打标签的分割后图像预加载至主程序包括：采用3×3、2×2尺寸大小的卷积核和2×2大小的池化采样窗口尺寸，卷积和池化采样过程均考虑边界。

在本发明的一些实施例中，上述还包括Spark模型中超参数设置采用损失函数设置，在训练中通过将第10层输出结果输入Softmax搭配交叉熵损失函数并对该损失函数求均值来判断实际输出与期望输出的概率偏差。

第二方面，本申请实施例提供一种基于深度学习的图像识别***，其包括获取模块，用于获取原始数据集及视频序列图像；预处理模块，用于通过图像二值法对获取的图像进行预处理；分割模块，用于对预处理后的图像分割后进行存储及打标签；训练模块，用于将分割后的图像输入进Spark模型，模型训练时一次性将打标签的分割后图像预加载至主程序；第一存储模块，用于完成模型训练后对识别结果进行存储，并砾石识别结果进行记录位置信息；第二存储模块，用于通过砾石识别结果的位置信息对砾石原色图像还原并存储。

在本发明的一些实施例中，上述包括：用于存储计算机指令的至少一个存储器；与上述存储器通讯的至少一个处理器，其中当上述至少一个处理器执行上述计算机指令时，上述至少一个处理器使上述***执行：获取模块、预处理模块、分割模块、训练模块、第一存储模块以及第二存储模块。

相对于现有技术，本发明的实施例至少具有如下优点或有益效果：

其能够使用预处理的数据集对神经网络进行训练，使用训练完成的模型和参数对砾石图片进行识别，得到了高识别准确度，并且识别结果可以清晰地显示砾石结构。该方法可为现代地质考察提供可靠的数据支持。通过对原始数据集的不断完善以及神经网络结构的不断改善，对砾石的识别将会不断的数据积累中实现对大范围广种类情况下的高识别精度的识别。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术入员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种基于深度学习的图像识别方法步骤示意图；

图2为本发明实施例提供的一种基于深度学习的图像识别方法详细步骤示意图；

图3为本发明实施例提供的一种基于深度学习的图像识别***模块示意图。

图标：10、获取模块；20、预处理模块；30、分割模块；40、训练模块；50、第一存储模块；60、第二存储模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术入员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1，图1为本发明实施例提供的一种基于深度学习的图像识别方法步骤示意图，其如下所示：

步骤S100，获取原始数据集及视频序列图像；

在一些实施方式中，在训练基于多模型的图像识别模型之前，需要采集原始数据集。所述原始数据集包括多张原始图像及对应的类别。所述原始数据集中包括N个类别，其中，N为大于或等于2的正整数。

在一个可选的实施例中，所述采集原始数据集包括：使用网络爬虫技术爬取多张原始图像；本实施例中，使用网络爬虫技术从主流图像搜索引擎和图像分享网站中随机或任意爬取多张图像。其中，所述主流图像搜索引擎可以是，例如百度、谷歌等，所述图像分享网站可以是，例如Flickr、Instagram等。所述网络爬虫技术为现有技术，本发明在此不再赘述。

对所述多张原始图像进行类别标注；在本实施例中，经过类别标注之后，将所述多张图像及对应的类别作为原始数据集。需要说明的是，由于图像分享网站Flickr、Instagram中的图像已标注有类别，此时可以确定所标注的类别是否正确，将不正确的类别进行修正或删除。

将所述多张原始图像及对应的类别作为所述原始数据集。确定出原始数据集后即可开始训练图像识别模型，便于后续利用训练好的图像识别模型识别需要进行类别识别的图像。在一个可选的实施例中，在所述采集原始数据集之后，所述方法还包括：将所述多张原始图像中质量小于预设质量阈值的图像进行剔除得到剩余图像；采用目标检测算法检测每张剩余图像中的目标区域分割出所述每张剩余图像中的所述目标区域得到多张目标图像；对所述多张目标图像进行白平衡处理和均衡化处理。

可以计算每张原始图像的质量，例如均值，方差等，将均值小于预设均值阈值的原始图像剔除，或者将方差小于预设方差阈值的原始图像剔除。在实际情景中，具有特征的区域在一张图像中占据的比例可能较小，例如，原始图像中的仅位于整幅图像中的中间位置有目标，原始图像中的其他位置可能为空白，将所述原始图像中的目标所在的区域分割出来，有利于加速图像识别模型在训练过程中的特征提取。

可以使用YOLO目标检测算法检测出所述图像中的目标区域，再将所述目标区域从所述图像中分割出来。由于爬取到的多张原始图像质量层次不齐，图像亮度不一，导致分割出的图像无法反应目标的真实颜色，为了保持整体的稳定性，需要对多张目标图像进行白平衡和均衡化处理。可以使用开源的白平衡工具对所述目标图像进行白平衡处理，使用开源的均衡化工具对所述目标图像进行均衡化处理。对经过白平衡处理和均衡化处理后的多张目标图像进行类别标注。

在一个可选的实施例中，在对所述多张目标图像进行白平衡处理和均衡化处理之后，所述方法还包括：计算每一类别的目标图像的数量；判断所述数量是否小于预设数量阈值；当所述数量小于所述预设数量阈值时，通过扰动法增加与所述数量对应的类别的目标图像的数量。若某一类别的目标图像的数量少于预设数量阈值，可以采用扰动法对该类别的目标图像进行扰动，以此来增加该类别的目标图像的数量，避免由于某一类别的目标图像的样本数量不足，导致训练得到的图像识别模型对该类别的图像的泛化能力较差。关于扰动法为现有技术，本发明在此不再赘述。当然，也可以再次采用网络爬虫技术爬取该类别的多张图像直至该类别的目标图像的数量大于或等于所述预设数量阈值即可。

步骤S110，通过图像二值法对获取的图像进行预处理；

在一些实施方式中，所识别的图片为训练时留下的7张图片，将图片分割后选取需要识别研究的砾石图片，最终识别的砾石图片分辨率为256×256PX大小，先将识别图片设置合适的参数二值化，再通过步长参数为16PX、尺寸大小为32×32PX的滑动窗口算法将已二值化后的图片进行自左至右、自上至下获取不同区域块图片的标准差，通过对比每个区域的标准差预先筛选排除明显的背景区域，然后对标准差筛选非明显背景的区域的二值化的图片传入已训练完成的神经网络并加载参数进行识别，综合计算通过区域块标准差预筛选的方法将识别任务量减少至原来的65％左右。然后将通过神经网络识别出的砾石二值化图像及通过砾石位置信息还原出的原色砾石图像进行保存，原色砾石图像可以帮助地质考察入员对砾石内部纹路进行分析。

除了使用区域块标准差预先筛选排查的方法减少识别任务量外，为了防止出现滑动窗口获取的每个图片相互独立、缺少全局信息的问题出现，将滑动窗口的步长设为16PX，小于窗口大小，使得在相邻的2个独立区域块之间获取一个都有重叠部分的区域块。使用滑动窗口的算法加重了识别任务量，但同时也减少了砾石的漏检率，并且可以通过滑动窗口的参数确定砾石区域的具体坐标位置，为进一步研究砾石的方向、大小与形貌等问题提供位置数据。

步骤S120，对预处理后的图像分割后进行存储及打标签；

在一些实施方式中，砾石原始图片二值化后再分割的目的是为了设计合适砾石和背景面元的训练数据集，分割图片所用到的工具为AdobePhotoshop(PS)中切片分割工具。表面除砾石外还有复杂的小坑、表皮脱落和亮度不平衡部分进行标记。在分割时需要尝试找到最合适的分割尺寸，因为当分割尺寸过大如64×64PX时，砾石图片中将会包含外部干扰，使得识别结果中也包含干扰物，而分割尺寸过小如16×16PX、8×8PX时，图片中的砾石特征得不到体现，且容易判断为背景或干扰物，从而降低识别准确度。经过比较发现将分割尺寸设置为32×32PX时对砾石特征有较好的体现。

步骤S130，将分割后的图像输入进Spark模型，模型训练时一次性将打标签的分割后图像预加载至主程序；

在一些实施方式中，将挑选完成的砾石面元存放至cut/crack文件夹、背景面元存放至cut/background文件夹。通过对训练主程序的读取程序编程设计使得对crack和background这2个文件夹内的图片分别打上对应的标签[10]和[01]，进行模型训练时一次性将打标签的分割后砾石和背景图片预加载至主程序。

步骤S140，完成模型训练后对识别结果进行存储，并砾石识别结果进行记录位置信息；

步骤S150，通过砾石识别结果的位置信息对砾石原色图像还原并存储。

在一些实施方式中，将所需要识别的砾石图片传入识别模型进行砾石识别，得到识别结果，每张图片的分辨率都为256×256，拥有64个32×32的面元。第2列为第1列砾石图片的二值化图片，第3列为第2列的砾石识别结果图片，第4列为第3列图片通过砾石位置信息复现的原始砾石结果。为了方便地质考察研究入员获取砾石信息识别结果，删除了识别出的背景图片，只留下砾石图片。

将已二值化后的图片进行自左至右、自上至下获取不同区域块图片的标准差，通过对比每个区域的标准差预先筛选排除明显的背景区域，然后对标准差筛选非明显背景的区域的二值化的图片传入已训练完成的神经网络并加载参数进行识别，综合计算通过区域块标准差预筛选的方法将识别任务量减少至原来的65％左右。然后将通过神经网络识别出的砾石二值化图像及通过砾石位置信息还原出的原色砾石图像进行保存，原色砾石图像可以帮助地质考察入员对砾石内部纹路进行分析。

实施例2

请参阅图2，图2为本发明实施例提供的一种基于深度学习的图像识别方法详细步骤示意图，其如下所示：

步骤S200，将原始数据集划分为训练集和测试集，确定预设Resnet网络中待剪枝的层，对待剪枝的层进行剪枝，将原始数据集进行训练得到图像识别模型。

步骤S210，将视频中多张序列图像中质量小于预设质量阈值的图像进行剔除得到剩余图像，采用目标检测算法检测每张剩余图像中的目标区域，将包含该目标区域的图像输入进图像识别模型进行处理。

步骤S220，通过互联网及相关地质剖面图集资源和相机实际拍摄获取预设数量的砾石图片并剪裁成预设分辨率尺寸大小的未预处理的原始图片。

步骤S230，将其中一部分原始图片进行二值化预处理并切割成比预设分辨率低的小图片，入工分类为背景图片和砾石图片，并分别将背景图片放入background文件夹，将砾石图片放入crack文件夹，余下的原始图片用于识别测试。

步骤S240，通过AdobePhotoshop分割图片，寻找设计合适砾石和背景面元的训练数据集，分割时尝试找到最合适的分割尺寸提高识别精准度，对分割后的图像挑选、保存及打标签。

步骤S250，采用3×3、2×2尺寸大小的卷积核和2×2大小的池化采样窗口尺寸，卷积和池化采样过程均考虑边界。

步骤S260，Spark模型中超参数设置采用损失函数设置，在训练中通过将第10层输出结果输入Softmax搭配交叉熵损失函数并对该损失函数求均值来判断实际输出与期望输出的概率偏差。

在一些实施方式中，确定出原始数据集后即可开始训练图像识别模型，便于后续利用训练好的图像识别模型识别需要进行类别识别的图像。

在采集原始数据集之后，还可以将多张原始图像中质量小于预设质量阈值的图像进行剔除得到剩余图像；采用目标检测算法检测每张剩余图像中的目标区域；分割出每张剩余图像中的所述目标区域得到多张目标图像；对所述多张目标图像进行白平衡处理和均衡化处理。

还可以计算每张原始图像的质量，例如均值，方差等，将均值小于预设均值阈值的原始图像剔除，或者将方差小于预设方差阈值的原始图像剔除。

在实际情景中，具有特征的区域在一张图像中占据的比例可能较小，例如，原始图像中的仅位于整幅图像中的中间位置有目标，原始图像中的其他位置可能为空白，将原始图像中的目标所在的区域分割出来，有利于加速图像识别模型在训练过程中的特征提取。可以使用YOLO目标检测算法检测出所述图像中的目标区域，再将所述目标区域从所述图像中分割出来。

由于爬取到的多张原始图像质量层次不齐，图像亮度不一，导致分割出的图像无法反应目标的真实颜色，为了保持整体的稳定性，需要对多张目标图像进行白平衡和均衡化处理。

还可以使用开源的白平衡工具对目标图像进行白平衡处理，使用开源的均衡化工具对目标图像进行均衡化处理。对经过白平衡处理和均衡化处理后的多张目标图像进行类别标注。

在一些实施方式中，现有技术中每个神经元对输入的特征图进行降采样后直接输入至下一个神经元，然后根据对最终输出结果的贡献大小来对模型的所有神经元们进行排序并舍去贡献度低的神经元，而若一次性剪枝的神经元过多，会造成剪枝后的神经元对支路上的输出有影响。而本实施例中，将采样后的第一特征图与残差块的第一层输出的第二特征图进行累加输入至最后一层，目的是为了shortcut支路输出仍是上一个残差块的输出，确保即使一次性剪枝的神经元过多时剪枝后的结果对Resnet中的shortcut支路也不会造成影响，从而确保被剪枝后的模型在性能上不会受到影响。

如果输入第一特征图至残差块中得到的第一结果，与对第一特征图进行降采样后输入至残差块中得到的第二结果差别非常小，即第一结果与第二结果的最小二乘小于预设阈值，表明降采样后对该残差块无影响或影响较小忽略不计，该残差块对于剪枝的敏感程度变化不大，则该残差块可以作为剪枝层进行压缩。如果第一结果与第二结果差别较大，即第一结果与第二结果的最小二乘大于预设阈值，表明降采样后对该残差块影响较大，该残差块对于剪枝较为敏感，则该残差块不可以作为剪枝层进行压缩，否则压缩后会减少第一特征图的有用特征，导致训练Resnet网络得到的网络模型的预测准确率较低。

对待剪枝的层进行剪枝包括：预先定义一个二进制掩模，其中，所述二进制掩模中的值与最后一层残差块对应的权重相同；对于每个所述待剪枝的层，将前向传播时每层的权重按绝对值大小排序，并将绝对值小于预设阈值的权重对应的掩模设为0；将反向传播时每层对应前向传播掩模为0的位置的掩模设置为0。

被确定为待剪枝的层越多，Resnet网络压缩越严重，但误差可能也会随之增加，此时可以在剪枝过程中定义一个二进制掩模(mask)，所述二进制掩模为由0和1组成的二维矩阵，掩模中的值和最后一层残差块对应的权重相同。若某个层被去除，则对应的掩模为0，否则为1。因此，在前向传播的过程中，剪枝操作可以归结为权重与掩模的向量点乘。这样避免了常规的条件判断，可以充分发挥GPU的并行计算的能力。对于反向传播，只需要根据掩模，将对应位置为0的强行置0。相对于现有技术中，在反向传播时先计算梯度并将梯度较小的设置为0再反向传播而言，在反向传播时直接将对应前向传播时掩模为0的位置强置为0，减少了计算过程，提高了剪枝的效率，剪枝越快，越有利于提高训练多模型的图像识别模型的效率。

在一些实施方式中，采用基于谷歌Spark框架的卷积神经网络结构，简称CNN(ConvolutionalNeuralNetworks)。该网络为一个10层的深度网络结构，采用3×3、2×2尺寸大小的卷积核和2×2大小的池化采样窗口尺寸，卷积和池化采样过程均考虑边界。

第1层为输入层，第2、4、6层和第3、5、7层分别为卷积层和采样层。本文在编程中将相邻的一个卷积层和采样层定义为一个函数，第2、4层为32个3×3尺寸大小的卷积核，第6层为64个2×2尺寸大小卷积核，采样层均为对不重叠的2×2PX大小区域进行max-pooling池化采样操作。第8层为flatten层，第9、10层为全连接层，第11层为结果输出层。在第1层输入层输入一个32×32PX的预处理野外露头区背景或砾石图片，输入图片经过第2层卷积层卷积输出为32个32><32px的矩阵；第2层结果被第3层池化采样层池化输出为32个16×16PX的矩阵；第3层结果被第4层卷积和第5层的池化输出为32个8×8PX的矩阵；第5层池化输出结果被第6层卷积和第7层池化输出为64个4×4PX的矩阵；然后第7层池化结果传递至第8层flatten层，其目的是将第7层采样层输出的多维向量转化为一维向量；最后flatten层输出的一维向量输入至第9、10层全连接层，使用softmax逻辑回归函数对第10层全连接层的数据进行逻辑回归并输出最后的结果。

在一些实施方式中，神经网络中超参数设置可以采用损失函数设置，在训练中通过将第10层输出结果输入Softmax搭配交叉熵损失函数21并对该损失函数求均值来判断实际输出与期望输出的概率偏差。

在一些实施方式中，神经网络中超参数设置可以采用化器和学习率的设置，采用寻找全局最优点的Adam优化器，其引入了二次方梯度矫正，其中learning-rate为学习率，该参数设置过大会导致优化器在梯度下降时无法收敛，太小会导致梯度下降太慢，通过多次对损失函数的判断选择1e4为较为合适的学习率。

在一些实施方式中，神经网络中超参数设置可以采用其他参数设置，激活函数采用Softmax，神经网络层数为10层，batch-size为200，学习回合数为5000次，全连接层采用dropout防止过拟合。

实施例3

请参阅图3，图3为本发明实施例提供的一种基于深度学习的图像识别***模块示意图，其如下所示：

获取模块10，用于获取原始数据集及视频序列图像；

预处理模块20，用于通过图像二值法对获取的图像进行预处理；

分割模块30，用于对预处理后的图像分割后进行存储及打标签；

训练模块40，用于将分割后的图像输入进Spark模型，模型训练时一次性将打标签的分割后图像预加载至主程序；

第一存储模块50，用于完成模型训练后对识别结果进行存储，并砾石识别结果进行记录位置信息；

第二存储模块60，用于通过砾石识别结果的位置信息对砾石原色图像还原并存储。

还包括存储器、处理器和通信接口，该存储器、处理器和通信接口相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器可用于存储软件程序及模块，处理器通过执行存储在存储器内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口可用于与其他节点设备进行信令或数据的通信。

其中，存储器可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(ReadOnlyMemory，ROM)，可编程只读存储器(ProgrammableRead-OnlyMemory，PROM)，可擦除只读存储器(ErasableProgrammableRead-OnlyMemory，EPROM)，电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory，EEPROM)等。

处理器可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignalProcessing，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图3所示的结构仅为示意还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个入计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种基于深度学习的图像识别方法及***，其能够使用预处理的数据集对神经网络进行训练，使用训练完成的模型和参数对砾石图片进行识别，得到了高识别准确度，并且识别结果可以清晰地显示砾石结构。该方法可为现代地质考察提供可靠的数据支持。通过对原始数据集的不断完善以及神经网络结构的不断改善，对砾石的识别将会不断的数据积累中实现对大范围广种类情况下的高识别精度的识别。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术入员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术入员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于深度学习的图像识别方法，其特征在于，包括：

获取原始数据集及视频序列图像；

通过图像二值法对获取的图像进行预处理；

对预处理后的图像分割后进行存储及打标签；

将分割后的图像输入进Spark模型，模型训练时一次性将打标签的分割后图像预加载至主程序；

完成模型训练后对识别结果进行存储，并砾石识别结果进行记录位置信息；

通过砾石识别结果的位置信息对砾石原色图像还原并存储。

2.如权利要求1所述的一种基于深度学习的图像识别方法，其特征在于，所述获取原始数据集及视频序列图像包括：

将原始数据集划分为训练集和测试集，确定预设Resnet网络中待剪枝的层，对待剪枝的层进行剪枝，将原始数据集进行训练得到图像识别模型。

3.如权利要求2所述的一种基于深度学习的图像识别方法，其特征在于，还包括：

将视频中多张序列图像中质量小于预设质量阈值的图像进行剔除得到剩余图像，采用目标检测算法检测每张剩余图像中的目标区域，将包含该目标区域的图像输入进图像识别模型进行处理。

4.如权利要求1所述的一种基于深度学习的图像识别方法，其特征在于，所述通过图像二值法对获取的图像进行预处理包括：

通过互联网及相关地质剖面图集资源和相机实际拍摄获取预设数量的砾石图片并剪裁成预设分辨率尺寸大小的未预处理的原始图片。

5.如权利要求4所述的一种基于深度学习的图像识别方法，其特征在于，还包括：

将其中一部分原始图片进行二值化预处理并切割成比预设分辨率低的小图片，入工分类为背景图片和砾石图片，并分别将背景图片放入background文件夹，将砾石图片放入crack文件夹，余下的原始图片用于识别测试。

6.如权利要求1所述的一种基于深度学习的图像识别方法，其特征在于，所述对预处理后的图像进行分割后进行存储及打标签包括：

通过AdobePhotoshop分割图片，寻找设计合适砾石和背景面元的训练数据集，分割时尝试找到最合适的分割尺寸提高识别精准度，对分割后的图像挑选、保存及打标签。

7.如权利要求1所述的一种基于深度学习的图像识别方法，其特征在于，所述将分割后的图像输入进Spark模型，模型训练时一次性将打标签的分割后图像预加载至主程序包括：

采用3×3、2×2尺寸大小的卷积核和2×2大小的池化采样窗口尺寸，卷积和池化采样过程均考虑边界。

8.如权利要求7所述的一种基于深度学习的图像识别方法，其特征在于，还包括：

Spark模型中超参数设置采用损失函数设置，在训练中通过将第10层输出结果输入Softmax搭配交叉熵损失函数并对该损失函数求均值来判断实际输出与期望输出的概率偏差。

9.一种基于深度学习的图像识别***，其特征在于，包括：

获取模块，用于获取原始数据集及视频序列图像；

预处理模块，用于通过图像二值法对获取的图像进行预处理；

分割模块，用于对预处理后的图像分割后进行存储及打标签；

训练模块，用于将分割后的图像输入进Spark模型，模型训练时一次性将打标签的分割后图像预加载至主程序；

第一存储模块，用于完成模型训练后对识别结果进行存储，并砾石识别结果进行记录位置信息；

第二存储模块，用于通过砾石识别结果的位置信息对砾石原色图像还原并存储。

10.如权利要求9所述的一种基于深度学习的图像识别***，其特征在于，包括：

用于存储计算机指令的至少一个存储器；

与所述存储器通讯的至少一个处理器，其中当所述至少一个处理器执行所述计算机指令时，所述至少一个处理器使所述***执行：获取模块、预处理模块、分割模块、训练模块、第一存储模块以及第二存储模块。