CN111340088A - 图像特征训练方法、模型、装置和计算机存储介质 - Google Patents
图像特征训练方法、模型、装置和计算机存储介质 Download PDFInfo
- Publication number
- CN111340088A CN111340088A CN202010107584.8A CN202010107584A CN111340088A CN 111340088 A CN111340088 A CN 111340088A CN 202010107584 A CN202010107584 A CN 202010107584A CN 111340088 A CN111340088 A CN 111340088A
- Authority
- CN
- China
- Prior art keywords
- feature
- training
- layer
- feature training
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种人工智能领域中深度学***。
Description
技术领域
本发明涉及图像特征训练的技术领域;特别涉及一种图像特征训练方法、模型、装置和计算机存储介质。
背景技术
图像特征训练是机器学习或深度学习在计算机视觉领域极其重要的研究方向之一,是特征训练的重要环节,在神经网络为基础的衍生网络模型中应用非常广泛,典型的衍生网络包括Alex-Net网络、VGG-Net网络、Le-Net网络、Google-Net网络等。图像特征训练过程中比较常用的技术步骤包括卷积操作、池化操作和全连接操作,其中卷积操作和池化操作可以被多次、反复、组合执行。比如,原始图像依次经过卷积、池化、卷积、池化操作后再执行全连接操作;亦或依次经过卷积、卷积、池化、卷积、卷积、池化操作后再执行全连接操作,以学习原始图像中的特征信息。
现有的图像特征训练,都要基于多级特征训练层提取图像特征,当前特征训练层的输入为上一特征训练层的输出,下一特征训练层的输入为当前特征训练层的输出。当前特征训练层仅与相邻特征训练层交互的设计缺陷,将会不可避免地损失至少部分除相邻特征训练层以外其他各特征训练层的特征信息,这些损失的局部特征信息在后续的特征训练层中无法得到补偿,从而导致图像特征训练效果不佳。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,
本发明的第一个目的在于提出一种图像特征训练方法,通过将前序各特征训练层的至少部分输出融合相加作为当前特征训练层的输入,以弥补特征训练时的特征学***。
本发明的第二个目的在于提出一种图像特征训练装置,主要通过设置输入确定模块和输出确定模块,将前序各特征训练层的至少部分输出融合相加作为当前特征训练层的输入,以弥补特征训练时的特征学***。
本发明的第三个目的在于提出一种图像特征训练模型,对采用本发明第一个目的所提出的图像特征训练方法所确定的最后一层特征训练层输出依次执行至少一组卷积和池化操作,以获取图像特征训练模型,从而提升图像特征提取质量和预测效果。
本发明的第四个目的在于提出一种计算机存储介质,将前序特征训练层的至少部分输出融合相加作为当前特征训练层的输入以计算机指令储存在计算机中,所述指令被执行时可以弥补特征训练时的特征训练损失,从而提升图像特征提取质量和预测效果。
为达到上述目的,本发明第一方面实施例提出一种图像特征训练方法,该方法包括:接收待特征训练图像的特征图作为第一特征训练层的输入;设置特征训练层的层数;所述第三特征训练层及后续各所述特征训练层的输入至少由部分非相邻的前序所述特征训练层的输出确定,所述后续各所述特征训练层的数量与所述设置特征训练层的层数相关联;对各所述特征训练层的输入至少执行一次卷积操作以确定所述特征训练层的输出。
优选地,各所述特征训练层依次连接。
优选地,至少基于预先配置的卷积核和滑窗间隔确定所述特征图,所述特征图包含所述待特征训练图像的局部特征。
优选地,至少根据所述待特征训练图像的特征形状确定所述卷积核的类型。
优选地,所述卷积核为包括偏移矩阵参数的可变形卷积核,所述偏移矩阵参数参与图像特征学习并可被训练和更新。
优选地,根据学习策略确定所述滑窗间隔,所述学习策略包括:在接近图像边缘区域设置较大的卷积核滑窗间隔;在远离图像边缘区域设置较小的卷积核滑窗间隔。
优选地,所述至少基于所述卷积核和所述滑窗间隔确定所述特征图包括:将所述卷积核在所述图像上以所述滑窗间隔为步长执行卷积操作以获得所述特征图。
优选地,所述设置特征训练层的层数取值为大于等于2且小于等于15的整数,以提升所述图像特征训练的效果。
更优地,所述设置特征训练层的层数取值为5时,所述图像特征训练的效果最优。
优选地,所述第三特征训练层及后续各所述特征训练层的输入至少由部分非相邻的前序所述特征训练层的输出确定包括:根据各所述特征训练层对后续各所述特征训练层影响程度设置各所述特征训练层权重;将各所述特征训练层权重对应地赋予前序非相邻各所述特征训练层的输出确定各所述特征训练层对当前特征训练层的有效输出;将各所述特征训练层对当前特征训练层的有效输出与上一所述特征训练层的输出相加并将相加结果更新当前所述特征训练层的输入。
优选地,所述各所述特征训练层权重参与所述图像特征学习并可被训练和更新。
为达到上述目的,本发明第二方面实施例提出一种图像特征训练装置,其特征在于,所述装置包括:特征图接收模块,用于接收待特征训练图像的特征图作为第一特征训练层的输入;层数设置模块,用于设置特征训练层的层数;输入确定模块,用于至少由部分前序所述特征训练层的输出确定所述第三特征训练层及后续各所述特征训练层的输入,所述后续各所述特征训练层的数量与层数设置模块相关联;输出确定模块,用于对各所述特征训练层的输入至少执行卷积操作以确定所述特征训练层的输出。
优选地,第二层特征训练层的输入为所述第一层特征训练层的输出。
优选地,至少基于预先配置的卷积核和滑窗间隔确定所述特征图,所述特征图包含所述待特征训练图像的局部特征。
优选地,至少根据所述待特征训练图像的特征形状确定所述卷积核的类型。
优选地,所述卷积核为包括偏移矩阵参数的可变形卷积核,所述偏移矩阵参数参与图像特征学习并可被训练和更新。
优选地,根据学习策略确定所述滑窗间隔,所述学习策略包括:在接近图像边缘区域设置较大的卷积核滑窗间隔;在远离图像边缘区域设置较小的卷积核滑窗间隔。
优选地,所述至少基于所述卷积核和所述滑窗间隔确定所述特征图包括:将所述卷积核在所述图像上以所述滑窗间隔为步长执行卷积操作以获得所述特征图。
优选地,所述设置特征训练层的层数取值为大于等于2且小于等于15的整数,以提升所述图像特征训练的效果。
更优地,所述设置特征训练层的层数取值为5时,所述图像特征训练的效果最优。
优选地,所述卷积核确定模块至少根据待学习图像特征的形状确定所述卷积核。
优选地,所述卷积核为包括偏移矩阵参数的可变形卷积核,所述偏移矩阵参数参与所述图像特征学习并可被训练和更新。
优选地,所述滑窗间隔确定模块根据学习策略确定所述滑窗间隔,所述学习策略包括:在接近图像边缘区域设置较大的卷积核滑窗间隔;在远离图像边缘区域设置较小的卷积核滑窗间隔。
优选地,所述特征图获得模块将所述卷积核在所述图像上以所述滑窗间隔为步长执行卷积操作以获得所述特征图
优选地,所述输入确定模块包括:权重设置模块,用于根据各所述特征训练层对后续各所述特征训练层影响程度设置各所述特征训练层权重;有效输出确定模块,用于将各所述特征训练层权重对应地赋予前序非相邻各所述特征训练层的输出确定各所述特征训练层对当前特征训练层的有效输出;输入相加模块,用于将各所述特征训练层对当前特征训练层的有效输出与上一所述特征训练层的输出相加并将相加结果更新当前所述特征训练层的输入。
优选地,所述权重参与所述图像特征学习并可被训练和更新。
为达到上述目的,本发明第三方面实施例提出一种图像特征训练模型,其特征在于,对采用上述任一项所述的图像特征训练方法所确定的最后一层特征训练层输出依次执行至少一组卷积和池化操作,得到图像特征训练模型。
为达到上述目的,本发明第四方面实施例提出一种计算机存储介质,用于存储计算机可读指令,当所述可读指令由所述计算机执行时,使得所述计算机执行上述任一项所述的图像特征训练方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过对本发明的实践了解到。
以下结合附图及实施例进一步说明本发明。
附图说明
图1为本发明实施例的图像特征训练方法的基本流程框图。
图2为本发明实施例的图像特征训练方法的基本原理框图之一。
图3为本发明实施例的图像特征训练方法的基本原理框图之二。
图4为本发明实施例的可变形卷积的示意图。
图5为本发明实施例的图像特征训练装置的结构框图。
图6为本发明实施例的图像特征训练模型的流程框图。
图7为本发明实施例的图像特征训练模型的基本原理框图。
具体实施方式
实施例一
卷积神经网络模型在提取、训练和预测图像特征方面具有较好的学习效果,经过大量特定数据集的训练即可实现较好的图像预测精度。卷积神经网络模型在实际应用中,每一层卷积层对输入的特征图执行卷积操作后获得的较高阶特征通常无法保证特征完整,换言之,通过卷积操作所提取的图像特征可能会出现不同程度的特征丢失现象,从而导致所提取到的高阶特征是不完整的、失真的、与原始图像中对应的特征相差较大,并最终导致所述模型预测结果与预期结果相差较大,精度较低。
卷积神经网络是深度学习技术领域中具有代表性的神经网络之一,在图像分析和处理领域取得了众多突破性的进展,如比较常用的标准图像数据标注集有ImageNet。卷积神经网络多用于诸如图像特征提取分类、场景识别等技术场景,相较于传统的图像处理算法,卷积神经网络的优点在于避免了对图像复杂的前期预处理过程,尤其是人工参与图像预处理过程,只需要对指定的图像数据标注集进行充分地有监督或无监督学习,就可以较高的精度对目标图像进行预测。
结合图1-3,详细阐述本发明实施例提供的图像特征训练方法,包括以下步骤:
S1、接收待特征训练图像的特征图作为第一特征训练层的输入;
图像特征训练模型接收的初始输入数据是待特征训练的图像经过卷积操作后所获得的特征图,应当理解,原始的一幅一幅的图像无法直接作为图像特征训练模型的第一特征训练层的输入。所述第一特征训练层的输入为特征图的前提是需要将待特征学习图像进行初始化处理,所述初始化处理至少包括调整图像尺寸大小、变更图像通道数、图像滤波、图像插值中的一种。将所述初始化处理后的图像执行卷积操作从而获得所述图像对应的特征图,而该特征图即作为所述第一特征训练层的输入。
接收到的待特征训练的图像,既可以是彩色多通道图像,如三通道RGB图像,也可以是单通道的灰度图像。特征训练模型对接收的待特征学习图像的尺寸有限制,比如26像素*26像素、28像素*28像素,如果接收的待特征学习图像尺寸与模型要求的尺寸不一致,在接收所述待特征学习图像之后,对所述图像进行尺寸校准,使得校准后的图像尺寸与模型要求的尺寸保持一致,以便后续处理。
S2、设置特征训练层的层数;
图像特征训练方法或过程,必然在有限数量的特征训练层中执行训练和预测操作。
比如,卷积神经网络模型如下:
第一层特征训练层:接收特征图;
第二层特征训练层:对所述第一层特征训练层中的特征图执行卷积操作;
第三层特征训练层:对所述第二层特征训练层中的卷积结果执行池化操作;
第四层特征训练层:对所述第三层特征训练层中的池化结果执行二次卷积操作;
第五层特征训练层:对所述第四层特征训练层中的二次卷积结果执行二次池化操作;
第六层特征训练层:对所述第五层特征训练层中的二次池化结果执行全连接操作。
如上例,则特征训练方法包括六层,也即,图像特征训练层的层数或数量为6,以此类推。
应当理解,将特征训练层的层数取值设置在合理的区间范围可以使得图像的特征训练和预测效果更好,在训练资源增加不多的情况下使得预测精度更高;在层数取特定数值的时候可以使得预测精度达到同类模型的最佳水平。
下表1为所述特征训练层数与平均预测精度的映射关系,所用卷积核大小为3*3,预测对象为手写数字。可以看出,特征训练层的层数设计与最终的平均预测精度是直接关联的,当所述设置特征训练层的层数取值为大于等于2且小于等于15的整数时,可以获得85%以上的预测精度,预测效果较好。当所述设置特征训练层的层数设置为5层时可以获得最优的平均预测精度。当所述设置特征训练层的层数设置为大于等于16时,产生明显的过拟合现象,并且训练的参数过于庞大导致算法过于复杂,从而最终影响到预测精度和预测效率。
表1特征训练层数与平均预测精度的映射关系
特征训练层数 | 预测精度 | 特征训练层数 | 预测精度 | 特征训练层数 | 预测精度 |
2 | 86.31% | 7 | 89.64% | 12 | 88.29% |
3 | 86.87% | 8 | 89.20% | 13 | 87.24% |
4 | 89.22% | 9 | 89.08% | 14 | 86.06% |
5 | 92.06% | 10 | 88.97% | 15 | 85.65% |
6 | 90.73% | 11 | 88.63% | 16 | 82.75% |
应当理解,设置特征训练层的层数与图像特征训练方法或训练模型的预测精度和预测效率相关联,在深度学习技术实践中设置较优的取值范围或最优值能否在确保预测精度的前提下降低训练过程中需要学习的参数量,从而进一步提升预测效率,是训练过程中非常重要和关键的一个步骤。
S3、所述第三特征训练层及后续各所述特征训练层的输入至少由部分非相邻的前序所述特征训练层的输出确定,所述后续各所述特征训练层的数量与所述设置特征训练层的层数相关联;
在确定了所述特征训练层的层数后,就可以执行训练过程了。图像特征训练方法基于的训练网络由第一特征训练层、第二特征训练层、……、第N特征训练层,这里的N应当理解为步骤S2所述的设置的特征训练层的层数。假设步骤S2设置的特征训练层的层数为最优值5,那么训练方法或模型共涉及5个依次连接的特征训练层,分别为第一特征训练层、第二特征训练层、第三特征训练层、第四特征训练层和第五特征训练层。各所述特征训练层至少与其他各所述特征训练层维持不同程度的连接关系,所述连接关系应当理解为前序特征训练层的输出连接与之相关联的、彼此发生数据传输的其他各所述特征训练层的输入,也即前序特征训练层与其他各所述特征训练层保持有数据通道以便完成不同程度的数据传输。
所述第三特征训练层及后续各所述特征训练层的输入至少由部分非相邻的前序所述特征训练层的输出确定,应当理解,所述第三特征训练层及后续各所述特征训练层的输入不再仅仅如现有技术记载的“仅与与当前特征训练层前序相邻的特征训练层连接”,而且还与与当前特征训练层非相邻的至少部分前序所述特征训练层保持连接关联。
假设特征训练层的层数为5层,图2示例性地展示了所述图像特征训练方法对应的全连接场景,示例性的,方框1表明第一特征训练层及其内部处理,以此类推:
第三特征训练层的输入由第一特征训练层的输出与第二特征训练层的输出共同确定,所述第一特征训练层与所述第三特征训练层非相邻,所述第二特征训练层与所述第三特征训练层相邻;所述第一特征训练层、所述第二特征训练层均为所述第三特征训练层的前序特征训练层,第四特征训练层、第五特征训练层均为所述第三特征训练层的后续特征训练层。
第四特征训练层的输入由第一特征训练层的输出、第二特征训练层的输出和第三特征训练层的输出共同确定,所述第一特征训练层、所述第二特征训练层均与所述第四特征训练层非相邻,所述第三特征训练层与所述第四特征训练层相邻;所述第一特征训练层、第二特征训练层和第三特征训练层均为所述第四特征训练层的前序特征训练层,第五特征训练层为所述第四特征训练层的后续特征训练层。
第五特征训练层的输入由第一特征训练层的输出、第二特征训练层的输出、第三特征训练层的输出和第四特征训练层的输出共同确定,所述第一特征训练层、所述第二特征训练层和所述第三特征训练层均与所述第五特征训练层非相邻,所述第四特征训练层与所述第五特征训练层相邻;所述第一特征训练层、第二特征训练层、第三特征训练层和第四特征训练层均为所述第五特征训练层的前序特征训练层,第五特征训练层为该网络架构或模型中的最后一层所述特征训练层,没有后续特征训练层。
容易理解,图2示例性的展示了图像特征训练方法对应的全连接网络架构,对于部分连接的非全连接网络架构,也适用于所述图像特征训练方法及其所对应的步骤。其中“部分连接”的网络架构,不再完全如图2所示的“全连接”。
以第四特征训练层的“部分连接”举例如下:
第四特征训练层的输入由第二特征训练层的输出和第三特征训练层的输出共同确定,而并未直接由第一特征训练层的输出确定;或,
第四特征训练层的输入由第一特征训练层的输出和第三特征训练层的输出共同确定,而并未直接由第二特征训练层的输出确定。
以第五特征训练层的“部分连接”举例如下:
第五特征训练层的输入由第一特征训练层的输出和第四特征训练层的输出共同确定;或,第五特征训练层的输入由第二特征训练层的输出和第四特征训练层的输出共同确定;或,第五特征训练层的输入由第三特征训练层的输出和第四特征训练层的输出共同确定;或,
第五特征训练层的输入由第一特征训练层、第二特征训练层的输出和第四特征训练层的输出共同确定;或,
第五特征训练层的输入由第一特征训练层、第三特征训练层的输出和第四特征训练层的输出共同确定;或,
第五特征训练层的输入由第二特征训练层、第三特征训练层的输出和第四特征训练层的输出共同确定。
所述后续各所述特征训练层的数量与所述设置特征训练层的层数相关联,应当理解,后续各所述特征训练层的数量受设置的特征训练层的层数控制,假设特征训练层的层数为5,当前为第三特征训练层,则后续特征训练层为第四特征训练层和第五特征训练层;如果设置的特征训练层的经验层数为7,则后续特征训练层为第四特征训练层、第五特征训练层、第六特征训练层和第七特征训练层。当前特征训练层的所述后续各所述特征训练层,是从当前特征训练层的下一所述特征训练层开始,依次往后,直到最后一层所述特征训练层为止。
假设当前特征训练层所在位置为网络架构中的第m层,特征训练层的层数为n,那么,当前特征训练层的后续各所述特征训练层分别为网络架构中的第m+1层、第m+2层、……、第n层(最后一层)。
进一步地,所述第三特征训练层及后续各所述特征训练层的输入至少由部分非相邻的前序所述特征训练层的输出确定包括:
S301、根据各所述特征训练层对后续各所述特征训练层影响程度设置各所述特征训练层权重;
以设置的5层所述特征训练层为例,参见图3,其他层数以此类推。
图像特征训练模型包括第1层特征训练层L1、第2层特征训练层L2、第3层特征训练层L3、第4层特征训练层L4和第5层特征训练层L5。L1、L2、……、Ln中的每一层都有同时包括数据输入和数据输出。
为了体现不同的特征训练层提取的图像特征对后续高阶特征的影响程度,分别给予每一层特征训练层专有的权重矩阵:
L1对L2的权重设为a12,L1对L3的权重设为a13,L1对L4的权重设为a14,L1对L5的权重设为a15;
L2对L3的权重设为a23,L2对L4的权重设为a24,L2对L5的权重设为a25;
L3对L4的权重设为a34,L3对L5的权重设为a35;
L4对L5的权重设为a45。
其中,a12,a13,……,a45的取值范围为[0,1]的实数,包括边界。
S302、将各所述特征训练层权重对应地赋予前序非相邻各所述特征训练层的输出确定各所述特征训练层的有效输出;
将L1对L3的权重a13赋予L1的输出o(L1),得到o(L1)*a13;
将L1对L4的权重a14赋予L1的输出o(L1),得到o(L1)*a14;
将L1对L5的权重a15赋予L1的输出o(L1),得到o(L1)*a15;
将L2对L4的权重a24赋予L2的输出o(L2),得到o(L2)*a24;
将L2对L5的权重a25赋予L2的输出o(L2),得到o(L2)*a25;
将L3对L5的权重a35赋予L3的输出o(L3),得到o(L3)*a35;
换言之,
L3的权重元素a13仅仅来自于L1的补偿;
L4的权重矩阵元素a14来自于L1的补偿,a24来自于L2的补偿;
L5的权重矩阵元素a15来自于L1的补偿,a25来自于L2的补偿,a35来自于L3的补偿。
因此,
将L3的权重元素a13赋予前序非相邻各特征训练层L1的输出o(L1),得到L1对L3的有效输出o(L1)*a13。
将L4的权重元素a14对应地赋予前序非相邻特征训练层L1的输出o(L1),得到L1对L4的有效输出o(L1)*a14;a24对应地赋予前序非相邻特征训练层L2的输出o(L2),得到L2对L4的有效输出o(L2)*a24。
将L5的权重元素a15对应地赋予前序非相邻特征训练层L1的输出o(L1),得到L1对L5的有效输出o(L1)*a15;a25对应地赋予前序非相邻特征训练层L2的输出o(L2),得到L2对L5的有效输出o(L2)*a25;a35对应地赋予前序非相邻特征训练层L3的输出o(L3),得到L3对L5的有效输出o(L3)*a35。
S303、将各所述特征训练层对当前特征训练层的有效输出与上一所述特征训练层的输出相加并将相加结果更新当前所述特征训练层的输入。
所述相加,即实现多数据的叠加融合,应当理解为逻辑求和运算,语义理解为各层所有的有效输出的加法运算从而实现多数据叠加。
L3的输入i(L3)=相加结果为o(L2)+o(L1)*a13;
L4的输入i(L4)=相加结果为o(L3)+o(L1)*a14+o(L2)*a24;
L5的输入i(L5)=相加结果为o(L4)+o(L1)*a15+o(L2)*a25+o(L3)*a35;
其中,i(L3)表示L3的输入,i(L4)表示L4的输入,i(L5)表示L5的输入,以此类推。
需要说明的是,当a12,a13,……,a45中任一取边界值0时,表明该权重对应的特征训练层未对后续特征训练层产生影响,在这种情况下,后续各特征训练层的输入由部分前序所述特征训练层的输出确定。应当理解,后续各特征训练层的输入不必然包含所有前序特征训练层的输出。当a12,a13,……,a45中任一取边界值1时,表明该权重对应的特征训练层对后续特征训练层产生直接影响。
S4、对各所述特征训练层的输入至少执行一次卷积操作以确定所述特征训练层的输出。
参见图2,数字方框代表特征训练层,每个特征训练层对输入内容至少执行一次卷积操作,并将所述卷积操作的结果作为所述特征训练层的输出。所说卷积操作在深度学习领域中主要作用在于提取图像的纹理、形状等特征信息,不同的卷积操作可以提取不同种类、不同类型的局部特征信息。应当理解,S4步骤中的卷积操作不仅可以提取图像中的特征数据,而且可以获得因经过多层所述特征训练层的传输而造成的局部特征信息损失,获得不同程度的特征损失补偿,从而使得训练、预测效果更佳。
L1的输出数据流可以用如下公式表示:
o(L1)=f(i(L1));
o(L2)=f(i(L2));
以此类推,
o(Ln)=f(i(Ln))。
其中,f()表示至少执行一次卷积操作。
特征训练层除了执行卷积操作以外,还可以在执行卷积操作之后再执行非线性化处理,非线性化处理可以克服图像线性分类的缺陷,使得模型预测更接近实际场景,非线性处理至少包括ReLU函数处理、sigmoid函数处理、tanh函数处理中的一种。
进一步地,所述卷积操作步骤应当至少包括确定卷积核和滑窗间隔、确定卷积结果两个子步骤。
S401、确定卷积核和滑窗间隔;
卷积核是卷积操作不可缺少的关键要素,卷积核通常为奇数阶、正方形尺寸,比如1像素*1像素、3像素*3像素、5像素*5像素。进一步地,卷积核采用3像素*3像素尺寸的核参与步骤S1中的待特征学习图像执行卷积操作。所述卷积核以矩阵形式参与运算,所述卷积核矩阵共享权值。卷积核矩阵参与训练和学习,因此所述卷积核矩阵初始值可取任意值或经验值。
执行卷积操作除了需要确定卷积核以外,还必须确定滑窗间隔。所述滑窗间隔作为卷积核滑动步长,可以确保卷积核滑动在时域上的非连续性。应当理解,滑窗间隔越大,模型训练计算量越小,但特征学***衡。进一步地,所述滑窗间隔采用step=1、2或3。
S402、基于所述卷积核和所述滑窗间隔确定卷积结果;
根据步骤S401中确定的所述卷积核和所述滑窗间隔可以确定卷积结果,即当前特征训练层输入数据的输出结果,所述输出结果为特征图(Feature Map)。将输入数据与所述卷积核已确定的所述滑窗间隔为步长作卷积操作,特征图的数量与图像通道数、卷积核数量相关联,若图像通道数为3,或者卷积核数量为3,那么特征图的数量也是3。
实施例二
上述实施例一记载的步骤S1所述接收待特征训练图像的特征图作为第一特征训练层的输入,还可以进一步优化为“至少基于预先配置的卷积核和滑窗间隔确定所述特征图,所述特征图包含所述待特征训练图像的局部特征”,其余步骤保持不变。
S101-1、确定卷积核和滑窗间隔;
所述至少基于预先配置的卷积核和滑窗间隔确定所述特征图,所述卷积核和滑窗间隔参数可以被预先按照经验值或实验值进行配置。
对于特定场景或特定领域中的图像特征学习和预测,为提高模型最终的预测精度,根据待学习图像特征的形状属性确定卷积核。可以理解,不同形状的图像特征选用不同的卷积核。比如,军事上经常需要对舰船图像进行识别和预测,或者工业产线经常需要对某种特定形状的机械零件进行训练和预测,针对不同的应用场景,卷积核应当体现出差异性。
进一步地,参见图4,图4(a)显示的是3*3普通(非可变形)卷积核,而图4(b)显示的是3*3可变形卷积核,很明显,图4(b)在图4(a)的基础上,卷积核的每个元素都发生了偏移,从而使得所述偏移之后的卷积核(例如图4(b))可以更好地适应特定的图像特征,比如所要学习的图像特征主要为条形昆虫,那么可变形卷积核的元素可以偏移为类似长条形状,从而使得对于条形昆虫特征的提取效率更高,效果更好。
卷积核采用可变形卷积核,在奇数阶、正方形尺寸的卷积核基础上,保持阶数不变,将卷积核元素作方位偏移,形成偏移矩阵参数。偏移矩阵参数参与所述图像特征学习和训练过程,并被更新优化。
下表展示的是对于同一幅32像素*32像素的灰度图,当所述图像特征训练方法采用3*3尺寸卷积核、3*3可变形尺寸卷积核、5*5尺寸卷积核、5*5可变形尺寸卷积核,且滑窗间隔均为2,分别在CIFAR、ImageNet、SVHN等数据集上训练后预测误差。可以看出,根据待学习图像特征的形状确定的3*3可变形卷积在3个数据集上预测精度远高于3*3普通正方形卷积核,5*5可变形卷积核的预测精度同样高于5*5普通正方形卷积核所述卷积核的预测精度。应当理解,采用可变形卷积核在特定场景下的预测精度优于普通正方形卷积核预测精度。
卷积核 | CIFAR数据集 | ImageNet数据集 | SVHN数据集 |
3*3普通(卷积核尺寸,下同),2(滑窗间隔,下同) | 13.63% | 9.33% | 6.20% |
3*3可变形,2 | 7.80% | 5.96% | 3.59% |
5*5普通,2 | 11.35% | 7.48% | 3.27% |
5*5可变形,2 | 6.31% | 3.69% | 1.17% |
进一步地,所述可变形卷积是在普通正方形卷积核的基础上将核内若干像素作偏移形成的,因此,偏移操作必定形成偏移矩阵数据。为了进一步提升图像特征训练效果、提升图像预测精度,所述偏移矩阵数据的初始设定值参与所述图像特征学习并可被训练和更新。应当理解,被训练和更新后的偏移矩阵数据比初始值产生更好的预测效果。
实施例三
上述实施例一记载的步骤S1还可以进一步作如下优化,其余步骤保持不变。
S101-2、确定卷积核和滑窗间隔;
实施例一和实施例二中确定滑窗间隔的结果为step=1、2或3,这样的结果并未考虑到图像特征位置因素,因为大多数场景下,图像待学习特征位于图像边缘位置的几率要远低于非边缘区域,因此对图像边缘区域和非边缘区域应当确定出不同的所述滑窗间隔。
根据学习策略确定所述滑窗间隔,所述学习策略包括:在接近图像边缘区域设置较大的卷积核滑窗间隔;在远离图像边缘区域设置较小的卷积核滑窗间隔。比如,在图像边缘区域采用step=3或4,而在非边缘区域采用step=1或2。采用所述学习策略确定不同的滑窗间隔,使得所述图像特征的学习效率明显提升,训练计算量得到大幅降低,而特征学习质量几乎没有下降。
实施例四
将实施例二中所述的可变形卷积核与实施例三中所述的根据学习策略确定所述滑窗间隔同时应用以进一步优化实施例一中的步骤S1。
S101-3、确定卷积核和滑窗间隔;
素数卷积核采用包括偏移矩阵参数的可变形卷积核,所述偏移矩阵参数参与所述图像特征学习并可被训练和更新;所述滑窗间隔根据学习策略确定,在接近图像边缘区域设置较大的卷积核滑窗间隔;在远离图像边缘区域设置较小的卷积核滑窗间隔,从而达到优于实施例二或实施例三单独实施的有益效果。
下表展示的是对于同一幅32像素*32像素的灰度图,当所述图像特征训练方法采用3*3可变形卷积核且根据学习策略确定滑窗间隔,分别在CIFAR、ImageNet、SVHN等数据集上训练后预测误差,与实施例一、二和三的误差对比。很明显,实施例四的预测效果明显优于实施例一、二和三。
卷积核 | CIFAR数据集 | ImageNet数据集 | SVHN数据集 |
3*3普通(卷积核尺寸,下同),2(滑窗间隔,下同) | 13.63% | 9.33% | 6.20% |
3*3可变形,2 | 7.80% | 5.96% | 3.59% |
3*3普通,学习策略确定滑窗间隔 | 11.98% | 9.02% | 5.44% |
3*3可变形,学习策略确定滑窗间隔 | 5.97% | 3.55% | 1.12% |
实施例五
图5所示为本发明实施例的图像特征训练装置的结构框图,所述装置包括:特征图接收模块510,层数设置模块520,输入确定模块530以及输出确定模块540。
其中,特征图接收模块510,用于接收待特征训练图像的特征图作为第一特征训练层的输入;层数设置模块520,用于设置特征训练层的层数;输入确定模块530,用于至少由部分前序所述特征训练层的输出确定所述第三特征训练层及后续各所述特征训练层的输入,所述后续各所述特征训练层的数量与层数设置模块相关联;输出确定模块540,用于对各所述特征训练层的输入至少执行卷积操作以确定所述特征训练层的输出。
进一步地,至少基于预先配置的卷积核和滑窗间隔确定所述特征图接收模块510所接收的特征图,所述特征图包含所述待特征训练图像的局部特征。
进一步地,所述卷积核为包括偏移矩阵参数的可变形卷积核,所述偏移矩阵参数参与图像特征学习并可被训练和更新。
进一步地,所述设置特征训练层的层数取值为大于等于2且小于等于15的整数,以提升所述图像特征训练的效果。
更进一步地,当所述特性训练层的层数设置为5时,所述图像特征训练和预测效果在同类方法中预测的效果最佳。
进一步地,所述输入确定模块530包括:权重设置模块5301,用于根据各所述特征训练层对后续各所述特征训练层影响程度设置各所述特征训练层权重;有效输出确定模块5302,用于将各所述特征训练层权重对应地赋予前序非相邻各所述特征训练层的输出确定各所述特征训练层对当前特征训练层的有效输出;输入相加模块5303,用于将各所述特征训练层对当前特征训练层的有效输出与上一所述特征训练层的输出相加并将相加结果更新当前所述特征训练层的输入。
进一步地,所述有效输出通过加法器执行相加。
实施例六
图6所示为本发明实施例的图像特征训练模型的结构框图,图7所示为本发明实施例的图像特征训练模型的原理示意框图。由对采用所述的图像特征训练方法所确定的最后一层特征训练层输出依次执行至少一组卷积和池化操作所得到图像特征训练模型。参见图7,假设最后一层特征训练层为Ln,将Ln的输出依次一组或两组及以上的卷积和池化操作,以构建图像特征训练模型。
应当理解,实施例一中的所述步骤S1至所述步骤S4(包括每个步骤中的所有子步骤)所形成的图像特征训练方法基础上,将最后一层特征训练层的输出依次连接卷积层和池化层,能够形成图像特征训练模型。所述图像特征训练模块可以用于图像有监督学习,比如图像分类、图像检测等领域。所述连接的卷积层用于提取图像的高阶特征,池化层用于压缩和减少后续神经网络全连接层和输出层的计算量,降低冗余,减少过拟合以最终提升预测效果。
进一步地,图7不仅包括一组所述卷积层和所述池化层的操作,还包括多组所述卷积层和所述池化层的场景,这种设计可以更好地学习图像特征,有助于进一步学习图像高阶特征,预测精度更高。
应当理解,至少一组卷积和池化操作,为依次执行一组卷积和池化操作是必须的,后续可以执行若干次卷积操作,或者若干次池化操作,或者若干次卷积和若干次池化操作。也即,以下操作都是可行的且有效的:
对o(Ln)依次执行卷积、池化操作;
对o(Ln)依次执行卷积、池化、卷积、池化操作;
对o(Ln)依次执行卷积、池化、卷积、卷积操作;
对o(Ln)依次执行卷积、池化、卷积、卷积、池化操作;
对o(Ln)依次执行卷积、池化、卷积、池化、池化操作;
以此类推,不再累述。
实施例七
一种计算机存储介质,用于存储计算机可读指令,当所述可读指令由所述计算机执行时,使得所述计算机执行所述图像特征训练方法。本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的实施例仅用于说明本发明的技术思想及特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,不能仅以本实施例来限定本发明的专利范围,即凡依本发明所揭示的精神所作的同等变化或修饰,仍落在本发明的专利范围内。
Claims (10)
1.一种图像特征训练方法,其特征在于,所述方法包括:
接收待特征训练图像的特征图作为第一特征训练层的输入;
设置特征训练层的层数;
所述第三特征训练层及后续各所述特征训练层的输入至少由部分非相邻的前序所述特征训练层的输出确定,所述后续各所述特征训练层的数量与所述设置特征训练层的层数相关联;
对各所述特征训练层的输入至少执行一次卷积操作以确定所述特征训练层的输出。
2.如权利要求1所述的图像特征训练方法,其特征在于,至少基于预先配置的卷积核和滑窗间隔确定所述特征图,所述特征图包含所述待特征训练图像的局部特征。
3.如权利要求2所述的图像特征训练方法,其特征在于,至少根据所述待特征训练图像的特征形状确定所述卷积核的类型。
4.如权利要求2所述的图像特征训练方法,其特征在于,所述卷积核为包括偏移矩阵参数的可变形卷积核,所述偏移矩阵参数参与图像特征学习并可被训练和更新。
5.如权利要求1所述的图像特征训练方法,其特征在于,所述设置特征训练层的层数取值为大于等于3且小于等于15的整数,以提升所述图像特征训练的效果。
6.如权利要求1所述的图像特征训练方法,其特征在于,所述第三特征训练层及后续各所述特征训练层的输入至少由部分非相邻的前序所述特征训练层的输出确定包括:
根据各所述特征训练层对后续各所述特征训练层影响程度设置各所述特征训练层权重;
将各所述特征训练层权重对应地赋予前序非相邻各所述特征训练层的输出确定各所述特征训练层对当前特征训练层的有效输出;
将各所述特征训练层对当前特征训练层的有效输出与上一所述特征训练层的输出相加并将相加结果更新当前所述特征训练层的输入。
7.一种图像特征训练装置,其特征在于,所述装置包括:
特征图接收模块,用于接收待特征训练图像的特征图作为第一特征训练层的输入;
层数设置模块,用于设置特征训练层的层数;
输入确定模块,用于至少由部分前序所述特征训练层的输出确定所述第三特征训练层及后续各所述特征训练层的输入,所述后续各所述特征训练层的数量与层数设置模块相关联;
输出确定模块,用于对各所述特征训练层的输入至少执行卷积操作以确定所述特征训练层的输出。
至少基于预先配置的卷积核和滑窗间隔确定所述特征图,所述特征图包含所述待特征训练图像的局部特征。
所述卷积核为包括偏移矩阵参数的可变形卷积核,所述偏移矩阵参数参与图像特征学习并可被训练和更新。
所述设置特征训练层的层数取值为大于等于2且小于等于15的整数,以提升所述图像特征训练的效果。
8.如权利要求7所述的图像特征训练装置,其特征在于,所述输入确定模块包括:
权重设置模块,用于根据各所述特征训练层对后续各所述特征训练层影响程度设置各所述特征训练层权重;
有效输出确定模块,用于将各所述特征训练层权重对应地赋予前序非相邻各所述特征训练层的输出确定各所述特征训练层对当前特征训练层的有效输出;
输入相加模块,用于将各所述特征训练层对当前特征训练层的有效输出与上一所述特征训练层的输出相加并将相加结果更新当前所述特征训练层的输入。
9.一种图像特征训练模型,其特征在于,对采用权利要求1-6任一所述的图像特征训练方法所确定的最后一层特征训练层输出依次执行至少一组卷积和池化操作,得到图像特征训练模型。
10.一种计算机存储介质,用于存储计算机可读指令,当所述可读指令由所述计算机执行时,使得所述计算机执行权利要求1-7任一所述的图像特征训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010107584.8A CN111340088A (zh) | 2020-02-21 | 2020-02-21 | 图像特征训练方法、模型、装置和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010107584.8A CN111340088A (zh) | 2020-02-21 | 2020-02-21 | 图像特征训练方法、模型、装置和计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111340088A true CN111340088A (zh) | 2020-06-26 |
Family
ID=71185436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010107584.8A Pending CN111340088A (zh) | 2020-02-21 | 2020-02-21 | 图像特征训练方法、模型、装置和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111340088A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085088A (zh) * | 2020-09-03 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN112906701A (zh) * | 2021-02-08 | 2021-06-04 | 重庆兆光科技股份有限公司 | 一种基于多注意力神经网络的细粒度图像识别方法及*** |
-
2020
- 2020-02-21 CN CN202010107584.8A patent/CN111340088A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085088A (zh) * | 2020-09-03 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN112906701A (zh) * | 2021-02-08 | 2021-06-04 | 重庆兆光科技股份有限公司 | 一种基于多注意力神经网络的细粒度图像识别方法及*** |
CN112906701B (zh) * | 2021-02-08 | 2023-07-14 | 重庆兆光科技股份有限公司 | 一种基于多注意力神经网络的细粒度图像识别方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287978B (zh) | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 | |
CN111046962B (zh) | 基于稀疏注意力的卷积神经网络模型的特征可视化方法及*** | |
CN109389556B (zh) | 一种多尺度空洞卷积神经网络超分辨率重构方法及装置 | |
CN105701508B (zh) | 基于多级卷积神经网络的全局‑局部优化模型及显著性检测算法 | |
CN109635744B (zh) | 一种基于深度分割网络的车道线检测方法 | |
CN111080511B (zh) | 一种端到端的高分辨率多特征提取的人脸交换方法 | |
CN109858487B (zh) | 基于分水岭算法和图像类别标签的弱监督语义分割方法 | |
CN109961396B (zh) | 一种基于卷积神经网络的图像超分辨率重建方法 | |
CN109919209B (zh) | 一种领域自适应深度学习方法及可读存储介质 | |
CN111507993A (zh) | 一种基于生成对抗网络的图像分割方法、装置及存储介质 | |
CN113033570A (zh) | 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法 | |
CN111489394B (zh) | 物体姿态估计模型训练方法、***、装置及介质 | |
CN111340088A (zh) | 图像特征训练方法、模型、装置和计算机存储介质 | |
CN114419323B (zh) | 基于跨模态学习与领域自适应rgbd图像语义分割方法 | |
CN112836820B (zh) | 用于图像分类任务的深度卷积网络训练方法、装置及*** | |
CN111340089A (zh) | 图像特征学习方法、模型、装置和计算机存储介质 | |
CN116091823A (zh) | 一种基于快速分组残差模块的单特征无锚框目标检测方法 | |
CN107729885B (zh) | 一种基于多重残差学习的人脸增强方法 | |
CN110807752B (zh) | 一种基于卷积神经网络的图像注意力机制处理方法 | |
CN113592885A (zh) | 基于SegNet-RS网络的大障碍物轮廓分割方法 | |
CN111667401A (zh) | 多层次渐变图像风格迁移方法及*** | |
CN117291816A (zh) | 一种基于Zero-DCE网络结构用于图像对比度增强的方法 | |
CN114022458A (zh) | 骨架检测方法、装置、电子设备和计算机可读存储介质 | |
CN108009980B (zh) | 一种基于特征分类细节增强的多稀疏字典灰度图彩色化方法 | |
CN112116626A (zh) | 一种基于柔性卷积的单目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |