CN111931615B - 一种机器人目标识别方法、***、装置和存储介质 - Google Patents
一种机器人目标识别方法、***、装置和存储介质 Download PDFInfo
- Publication number
- CN111931615B CN111931615B CN202010736456.XA CN202010736456A CN111931615B CN 111931615 B CN111931615 B CN 111931615B CN 202010736456 A CN202010736456 A CN 202010736456A CN 111931615 B CN111931615 B CN 111931615B
- Authority
- CN
- China
- Prior art keywords
- layer
- point
- constructing
- convolution
- convolution layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000012360 testing method Methods 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000011176 pooling Methods 0.000 claims description 72
- 125000004122 cyclic group Chemical group 0.000 claims description 21
- 230000004931 aggregating effect Effects 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000004590 computer program Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005056 compaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种机器人目标识别方法,其特征在于,包括:制作图像数据集;对所述图像处理集进行预处理;构建网络模型,所述网络模型用于识别所述图像数据集的图像数据;利用所述图像数据集训练所述网络模型;识别目标,从所述图像数据集选取一个测试样本输入到所述网络模型中,输出识别结果。所述网络模型用于识别所述图像数据集的图像数据,用所述图像数据集对所述网络模型进行测试调优,输出识别结果,达到优化网络模型的效果。
Description
技术领域
本发明涉及人工智能领域,特别涉及一种机器人目标识别方法、***、装置和存储介质。
背景技术
近年来,各种深度卷积网络在目标识别技术上的研究取得了巨大的成功,使得深度卷积网络可以使用大量数据来学***。但是目前的研究重点大多在于如何构建层数更深、宽度更广的神经网络,这样会导致神经网络结构庞大。现有的高精度目标识别模型都是建立在各种大型深度卷积网络模型之上的,同时这种模型需要大量的计算资源,使得网络只能在性能高的处理器上运行,这不利于模型移植到机器人。机器人需要在有限的计算资源里实现精准的识别,同时还需要模型精简和迅速。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种一种机器人目标识别方法、***、装置和存储介质,所述一种机器人目标识别方法、***、装置和存储介质能够利用轻量化的卷积神经网络提高网络计算能力,能使网络参数减少的同时又不损失网络性能,所述网络模型引入注意机制可模仿人类的注意力机制,帮助网络关注于关键区域,节省计算资源,合理分配网络空间的技术效果。
第一方面,本发明实施例提出一种具有上述功能的机器人目标识别方法。包括:
制作图像数据集;
对所述图像处理集进行预处理;
构建网络模型,所述网络模型用于识别所述图像数据集的图像数据;
利用所述图像数据集训练所述网络模型;
识别目标,从所述图像数据集选取一个测试样本输入到所述网络模型中,输出识别结果。
根据本发明实施例的机器人目标识别方法,至少具有如下技术效果:所述网络模型用于识别所述图像数据集的图像数据,用所述图像数据集对所述网络模型进行测试调优,输出识别结果,达到优化网络模型的效果。
根据本发明实施例的机器人目标识别方法,所述图像数据集包括用于训练网络模型的训练验证集和用于测试网络模型的测试集。
根据本发明实施例的机器人目标识别方法,所述对所述图像处理集进行预处理,包括:
调整接收到的图像的大小,得到归一化的格式图像;
对所述归一化的格式图像进行滤波处理,得到滤波图像;
对所述滤波图像进行图像增强处理,得到增强图像。
根据本发明实施例的机器人目标识别方法,所述构建网络模型包括:构建第一标准卷积层,所述第一标准卷积层的卷积核大小为3*3,所述第一标准卷积层的步长为2,所述第一标准卷积层的卷积核的数目为32,所述第一标准卷积层的边缘用0填充;设置循环变量Times并初始化所述循环变量Times=1;执行循环体;所述循环变量Times自增1,判断Times是否大于13,如果Times不大于13,重复执行所述循环体,如果Times大于13,不执行所述循环体;构建池化层,将得到的特征图进行平均池化处理,下采样的窗口大小为4,步长为2,经过所述池化层后输出1024张特征图,大小为1*1;构建Dropout层;构建全连接层,使用1024个神经元对经过所述池化层下采样处理后的特征图进行全连接,将特征图转换为一维的特征向量;构建Softmax分类器,输出识别结果。
根据本发明实施例的机器人目标识别方法,所述构建循环体包括:构建第一深度可分离卷积层,所述第一深度可分离卷积层卷积核的大小为3*3,所述第一深度可分离卷积层步长为1,所述第一深度可分离卷积层卷积核的数目为32,所述第一深度可分离卷积层边缘用0填充,所述第一深度可分离卷积层与所述第一标准卷积层连接;构建第一逐点卷积层,所述第一逐点卷积层的卷积核大小为1*1,所述第一逐点卷积层的步长为1,所述第一逐点卷积层的卷积核数目为64,所述第一逐点卷积层的边缘用0填充,所述第一逐点卷积层与所述第一深度可分离卷积层连接;构建第一平均池化层,用于聚合空间维度信息,所述第一平均池化层下采样处理后得到第一特征描述,所述第一平均池化层与所述第一逐点卷积层连接;构建第一最大池化层,用于聚合空间维度信息,所述第一最大池化层下采样处理后得到第二特征描述,所述第一最大池化层与所述第一逐点卷积层连接;构建多层感知器,所述第一特征描述和所述第二特征描述输入到所述多层感知器,生成特征向量,所述多层感知器与所述第一平均池化层连接,所述多层感知器与所述第一最大池化层连接;构建第一相加层,通过元素求和的方式把所述第一特征描述和所述第二特征描述相加,生成通道注意力图,所述第一相加层与所述多层感知器连接;构建第一相乘层,用于自适应学习所述图像的特征,通过元素相乘的方式把所述第一逐点卷积层的输出和所述通道注意力图相乘。
根据本发明实施例的机器人目标识别方法,所述循环体还包括:构建第二平均池化层,用于聚合空间维度信息,所述第二平均池化层下采样处理后得到第三特征描述,所述第二平均池化层与所述第一相乘层连接;构建第二最大池化层,用于聚合空间维度信息,所述第二最大池化层下采样处理后得到第四特征描述,所述第二最大池化层与所述第一相乘层连接;构建第一连接层,用于连接所述第三特征描述和所述第四特征描述,所述第一连接层与所述第二平均池化层连接,所述第一连接层与所述第二最大池化层连接;构建第二标准卷积层,通过将所述第三特征描述和所述第四特征描述输入到所述第二标准卷积层进行卷积运算,得到空间注意图,所述第二标准卷积层的大小为7*7;构建第二相乘层,用于自适应学习所述图像的特征,通过元素相乘的方式把所述第一相乘层的输出和所述空间注意图相乘。
根据本发明实施例的机器人目标识别方法,所述利用所述图像数据集训练所述网络模型包括:所述训练网络模型包括:预训练,输入所述图像数据集,预训练所述网络模型;特征图提取,输入移动目标训练样本,先使用3×3深度卷积,再使用1×1的逐点卷积用来提取特征,然后通过平均池化和最大池化来得到通道注意图和空间注意图,最后相乘得到特征图;误差计算,计算误差损失值;权值更新,利用基于梯度下降的深度学习反向传播算法更新网络模型的权值;迭代收敛,遍历整个目标训练集,重复执行所述特征图提取、所述误差计算和所述权值更新,迭代并计算所述网络模型在所述目标训练验证集上的误差值,直到该误差值达到训练阈值为止。
第二方面,本发明实施例还提出一种机器人目标识别***,包括:图像数据集单元,包括用于训练网络模型的训练验证集单元和用于测试所述网络模型的测试集单元;图像预处理单元,用于预处理所述训练验证集单元和所述测试集单元的图像,所述图像预处理单元与所述图像数据集单元连接;网络模型单元,用于图像目标识别,所述网络模型单元与所述图像预处理单元连接。
第三方面,本发明实施例还提供了一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面所述的一种机器人目标识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现本发明第一方面所述的一种机器人目标识别方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的机器人目标识别方法的流程图;
图2为本发明实施例的对所述图像处理集进行预处理的流程图;
图3为本发明实施例的网络模型的流程图;
图4为本发明实施例的所述循环体第一部分的流程图;
图5为本发明实施例的所述循环体第二部分的流程图;
图6为本发明实施例的训练网络模型的流程图;
图7为本发明实施例的一种机器人目标识别***的流程图;
附图标记:
图像数据集单元601、图像预处理单元602、网络模型单元603。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
参照图1,描述根据本发明第一实施例的机器人目标识别方法。包括:
S101:制作图像数据集;
S102:对所述图像处理集进行预处理;
S103:构建网络模型,所述网络模型用于识别所述图像数据集的图像数据;
S104:训练网络模型,利用所述图像数据集训练所述网络模型;
S105:识别目标,从所述图像数据集选取一个测试样本输入到所述网络模型中,输出识别结果。
根据本发明实施例的机器人目标识别方法,至少具有如下技术效果:能够利用轻量化的卷积神经网络提高网络计算能力,能使网络参数减少的同时又不损失网络性能,所述网络模型引入注意机制可模仿人类的注意力机制,帮助网络关注于关键区域,节省计算资源,合理分配网络空间的技术效果。
参照图1,根据本发明第一实施例的机器人目标识别方法。包括:
所述图像数据集包括用于训练网络模型的训练验证集和用于测试网络模型的测试集。
参照图2,根据本发明第一实施例的机器人目标识别方法。所述对所述图像处理集进行预处理,包括:
S201:图像转化,用于调整接收到的图像的大小,得到归一化的格式图像;
S202:图像滤波,对所述归一化的格式图像进行滤波处理,得到滤波图像;
S203:图像增强,对所述滤波图像进行图像增强处理,得到增强图像。
参照图3,根据本发明第一实施例的机器人目标识别方法,所述网络模型包括:
S301:第一标准卷积层,所述第一标准卷积层的卷积核大小为3*3,所述第一标准卷积层的步长为2,所述第一标准卷积层的卷积核的数目为32,所述第一标准卷积层的边缘用0填充;
S302:设置循环变量Times并初始化所述循环变量Times=1;
S303:执行循环体;
S304:所述循环变量Times自增1,判断Times是否大于13,如果Times不大于13,重复执行所述循环体,如果Times大于13,不执行所述循环体;
S305:池化层,将得到的特征图进行平均池化处理,下采样的窗口大小为4,步长为2,经过所述池化层后输出1024张特征图,大小为1*1;
S306:Dropout层;
S307:全连接层,使用1024个神经元对经过所述池化层下采样处理后的特征图进行全连接,将特征图转换为一维的特征向量;
S308:Softmax分类器,输出识别结果。
参照图4,根据本发明第一实施例的机器人目标识别方法,所述循环体包括:
S401:第一深度可分离卷积层,所述第一深度可分离卷积层卷积核的大小为3*3,所述第一深度可分离卷积层步长为1,所述第一深度可分离卷积层卷积核的数目为32,所述第一深度可分离卷积层边缘用0填充,所述第一深度可分离卷积层与所述第一标准卷积层连接;
S402:第一逐点卷积层,所述第一逐点卷积层的卷积核大小为1*1,所述第一逐点卷积层的步长为1,所述第一逐点卷积层的卷积核数目为64,所述第一逐点卷积层的边缘用0填充,所述第一逐点卷积层与所述第一深度可分离卷积层连接;
S403:第一平均池化层,用于聚合空间维度信息,所述第一平均池化层下采样处理后得到第一特征描述,所述第一平均池化层与所述第一逐点卷积层连接;
S404:第一最大池化层,用于聚合空间维度信息,所述第一最大池化层下采样处理后得到第二特征描述,所述第一最大池化层与所述第一逐点卷积层连接;
S405:多层感知器,所述第一特征描述和所述第二特征描述输入到所述多层感知器,生成特征向量,所述多层感知器与所述第一平均池化层连接,所述多层感知器与所述第一最大池化层连接;
S406:第一相加层,通过元素求和的方式把所述第一特征描述和所述第二特征描述相加,生成通道注意力图,所述第一相加层与所述多层感知器连接;
S407:第一相乘层,用于自适应学习所述图像的特征,通过元素相乘的方式把所述第一逐点卷积层的输出和所述通道注意力图相乘。
参照图5,根据本发明第一实施例的机器人目标识别方法,所述循环体还包括:
S408:第二平均池化层,用于聚合空间维度信息,所述第二平均池化层下采样处理后得到第三特征描述,所述第二平均池化层与所述第一相乘层连接;
S409:第二最大池化层,用于聚合空间维度信息,所述第二最大池化层下采样处理后得到第四特征描述,所述第二最大池化层与所述第一相乘层连接;
S410:第一连接层,用于连接所述第三特征描述和所述第四特征描述,所述第一连接层与所述第二平均池化层连接,所述第一连接层与所述第二最大池化层连接;
S411:第二标准卷积层,通过将所述第三特征描述和所述第四特征描述输入到所述第二标准卷积层进行卷积运算,得到空间注意图,所述第二标准卷积层的大小为7*7;
S412:第二相乘层,用于自适应学习所述图像的特征,通过元素相乘的方式把所述第一相乘层的输出和所述空间注意图相乘。
参照图6,根据本发明第一实施例的机器人目标识别方法,所述训练网络模型包括:
S501:预训练,输入所述图像数据集,预训练所述网络模型;
S502:特征图提取,输入移动目标训练样本,先使用3×3深度卷积,再使用1×1的逐点卷积用来提取特征,然后通过平均池化和最大池化来得到通道注意图和空间注意图,最后相乘得到特征图;
S503:误差计算,计算误差损失值;
S504:权值更新,利用基于梯度下降的深度学习反向传播算法更新网络模型的权值;
S505:迭代收敛,遍历整个目标训练集,重复执行所述特征图提取、所述误差计算和所述权值更新,迭代并计算所述网络模型在所述目标训练验证集上的误差值,直到该误差值达到训练阈值为止。
参照图7,根据本发明第二实施例的一种机器人目标识别***,其特征在于,包括:
601:图像数据集单元,包括用于训练网络模型的训练验证集单元和用于测试所述网络模型的测试集单元;
602:图像预处理单元,用于预处理所述训练验证集单元和所述测试集单元的图像,所述图像预处理单元与所述图像数据集单元连接;
603:网络模型单元,用于图像目标识别,所述网络模型单元与所述图像预处理单元连接。
一种机器人目标识别装置,其特征在于,包括至少一个处理器,以及与所述至少一个处理器连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7任一项所述的方法。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1-7任一项所述的方法。
应当认识到,本发明实施例中的方法步骤可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机***通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机***的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所述技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (8)
1.一种机器人目标识别方法,其特征在于,包括:
制作图像数据集;
对所述图像处理集进行预处理;
构建网络模型,所述网络模型用于识别所述图像数据集的图像数据;
利用所述图像数据集训练所述网络模型;
识别目标,从所述图像数据集选取一个测试样本输入到所述网络模型中,输出识别结果;
所述构建网络模型包括:
构建第一标准卷积层,所述第一标准卷积层的卷积核大小为3*3,所述第一标准卷积层的步长为2,所述第一标准卷积层的卷积核的数目为32,所述第一标准卷积层的边缘用0填充;
设置循环变量Times并初始化所述循环变量Times=1;
执行循环体;
所述循环变量Times自增1,判断Times是否大于13,如果Times不大于13,重复执行所述循环体,如果Times大于13,不执行所述循环体;
构建池化层,将得到的特征图进行平均池化处理,下采样的窗口大小为4,步长为2,经过所述池化层后输出1024张特征图,大小为1*1;
构建Dropout层;
构建全连接层,使用1024个神经元对经过所述池化层下采样处理后的特征图进行全连接,将特征图转换为一维的特征向量;
构建Softmax分类器,输出识别结果;
构建循环体包括:
构建第一深度可分离卷积层,所述第一深度可分离卷积层卷积核的大小为3*3,所述第一深度可分离卷积层步长为1,所述第一深度可分离卷积层卷积核的数目为32,所述第一深度可分离卷积层边缘用0填充,所述第一深度可分离卷积层与所述第一标准卷积层连接;
构建第一逐点卷积层,所述第一逐点卷积层的卷积核大小为1*1,所述第一逐点卷积层的步长为1,所述第一逐点卷积层的卷积核数目为64,所述第一逐点卷积层的边缘用0填充,所述第一逐点卷积层与所述第一深度可分离卷积层连接;
构建第一平均池化层,用于聚合空间维度信息,所述第一平均池化层下采样处理后得到第一特征描述,所述第一平均池化层与所述第一逐点卷积层连接;
构建第一最大池化层,用于聚合空间维度信息,所述第一最大池化层下采样处理后得到第二特征描述,所述第一最大池化层与所述第一逐点卷积层连接;
构建多层感知器,所述第一特征描述和所述第二特征描述输入到所述多层感知器,生成特征向量,所述多层感知器与所述第一平均池化层连接,所述多层感知器与所述第一最大池化层连接;
构建第一相加层,通过元素求和的方式把所述第一特征描述和所述第二特征描述相加,生成通道注意力图,所述第一相加层与所述多层感知器连接;
构建第一相乘层,用于自适应学习所述图像的特征,通过元素相乘的方式把所述第一逐点卷积层的输出和所述通道注意力图相乘。
2.根据权利要求1所述的一种机器人目标识别方法,其特征在于,所述图像数据集包括用于训练网络模型的训练验证集和用于测试网络模型的测试集。
3.根据权利要求1所述的一种机器人目标识别方法,其特征在于,所述对所述图像处理集进行预处理,包括:
调整接收到的图像的大小,得到归一化的格式图像;
对所述归一化的格式图像进行滤波处理,得到滤波图像;
对所述滤波图像进行图像增强处理,得到增强图像。
4.根据权利要求1所述的一种机器人目标识别方法,其特征在于,所述构建循环体还包括:
构建第二平均池化层,用于聚合空间维度信息,所述第二平均池化层下采样处理后得到第三特征描述,所述第二平均池化层与所述第一相乘层连接;
构建第二最大池化层,用于聚合空间维度信息,所述第二最大池化层下采样处理后得到第四特征描述,所述第二最大池化层与所述第一相乘层连接;
构建第一连接层,用于连接所述第三特征描述和所述第四特征描述,所述第一连接层与所述第二平均池化层连接,所述第一连接层与所述第二最大池化层连接;
构建第二标准卷积层,通过将所述第三特征描述和所述第四特征描述输入到所述第二标准卷积层进行卷积运算,得到空间注意图,所述第二标准卷积层的大小为7*7;
构建第二相乘层,用于自适应学习所述图像的特征,通过元素相乘的方式把所述第一相乘层的输出和所述空间注意图相乘。
5.根据权利要求1所述的一种机器人目标识别方法,其特征在于,所述利用所述图像数据集训练所述网络模型包括:
预训练,输入所述图像数据集,预训练所述网络模型;
提取特征图,输入移动目标训练样本,先使用3×3深度卷积,再使用1×1的逐点卷积用来提取特征,然后通过平均池化和最大池化来得到通道注意图和空间注意图,最后相乘得到特征图;
计算误差,计算误差损失值;
更新权值,利用基于梯度下降的深度学习反向传播算法更新网络模型的权值;
迭代收敛,遍历整个目标训练集,重复执行所述特征图提取、所述误差计算和所述权值更新,迭代并计算所述网络模型在所述目标训练验证集上的误差值,直到该误差值达到训练阈值为止。
6.一种机器人目标识别***,其特征在于,包括:
图像数据集单元,包括用于训练网络模型的训练验证集单元和用于测试所述网络模型的测试集单元;
图像预处理单元,用于预处理所述训练验证集单元和所述测试集单元的图像,所述图像预处理单元与所述图像数据集单元连接;
网络模型单元,用于图像目标识别,所述网络模型单元与所述图像预处理单元连接;
构建网络模型包括:
构建第一标准卷积层,所述第一标准卷积层的卷积核大小为3*3,所述第一标准卷积层的步长为2,所述第一标准卷积层的卷积核的数目为32,所述第一标准卷积层的边缘用0填充;
设置循环变量Times并初始化所述循环变量Times=1;
执行循环体;
所述循环变量Times自增1,判断Times是否大于13,如果Times不大于13,重复执行所述循环体,如果Times大于13,不执行所述循环体;
构建池化层,将得到的特征图进行平均池化处理,下采样的窗口大小为4,步长为2,经过所述池化层后输出1024张特征图,大小为1*1;
构建Dropout层;
构建全连接层,使用1024个神经元对经过所述池化层下采样处理后的特征图进行全连接,将特征图转换为一维的特征向量;
构建Softmax分类器,输出识别结果;
构建循环体包括:
构建第一深度可分离卷积层,所述第一深度可分离卷积层卷积核的大小为3*3,所述第一深度可分离卷积层步长为1,所述第一深度可分离卷积层卷积核的数目为32,所述第一深度可分离卷积层边缘用0填充,所述第一深度可分离卷积层与所述第一标准卷积层连接;
构建第一逐点卷积层,所述第一逐点卷积层的卷积核大小为1*1,所述第一逐点卷积层的步长为1,所述第一逐点卷积层的卷积核数目为64,所述第一逐点卷积层的边缘用0填充,所述第一逐点卷积层与所述第一深度可分离卷积层连接;
构建第一平均池化层,用于聚合空间维度信息,所述第一平均池化层下采样处理后得到第一特征描述,所述第一平均池化层与所述第一逐点卷积层连接;
构建第一最大池化层,用于聚合空间维度信息,所述第一最大池化层下采样处理后得到第二特征描述,所述第一最大池化层与所述第一逐点卷积层连接;
构建多层感知器,所述第一特征描述和所述第二特征描述输入到所述多层感知器,生成特征向量,所述多层感知器与所述第一平均池化层连接,所述多层感知器与所述第一最大池化层连接;
构建第一相加层,通过元素求和的方式把所述第一特征描述和所述第二特征描述相加,生成通道注意力图,所述第一相加层与所述多层感知器连接;
构建第一相乘层,用于自适应学习所述图像的特征,通过元素相乘的方式把所述第一逐点卷积层的输出和所述通道注意力图相乘。
7.一种机器人目标识别装置,其特征在于,包括至少一个处理器,以及与所述至少一个处理器连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010736456.XA CN111931615B (zh) | 2020-07-28 | 2020-07-28 | 一种机器人目标识别方法、***、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010736456.XA CN111931615B (zh) | 2020-07-28 | 2020-07-28 | 一种机器人目标识别方法、***、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931615A CN111931615A (zh) | 2020-11-13 |
CN111931615B true CN111931615B (zh) | 2024-01-09 |
Family
ID=73314754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010736456.XA Active CN111931615B (zh) | 2020-07-28 | 2020-07-28 | 一种机器人目标识别方法、***、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931615B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400114A (zh) * | 2013-07-18 | 2013-11-20 | 上海交通大学 | 针对人脸识别的光照归一化处理*** |
CN106295564A (zh) * | 2016-08-11 | 2017-01-04 | 南京理工大学 | 一种邻域高斯结构和视频特征融合的动作识别方法 |
CN106651830A (zh) * | 2016-09-28 | 2017-05-10 | 华南理工大学 | 一种基于并行卷积神经网络的图像质量测试方法 |
CN110321874A (zh) * | 2019-07-12 | 2019-10-11 | 南京航空航天大学 | 一种轻量化的卷积神经网络行人识别方法 |
CN110632572A (zh) * | 2019-09-30 | 2019-12-31 | 中国人民解放军战略支援部队信息工程大学 | 基于无意调相特性的雷达辐射源个体识别方法及装置 |
CN110705379A (zh) * | 2019-09-12 | 2020-01-17 | 广州大学 | 一种基于多标签学习的卷积神经网络的表情识别方法 |
-
2020
- 2020-07-28 CN CN202010736456.XA patent/CN111931615B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400114A (zh) * | 2013-07-18 | 2013-11-20 | 上海交通大学 | 针对人脸识别的光照归一化处理*** |
CN106295564A (zh) * | 2016-08-11 | 2017-01-04 | 南京理工大学 | 一种邻域高斯结构和视频特征融合的动作识别方法 |
CN106651830A (zh) * | 2016-09-28 | 2017-05-10 | 华南理工大学 | 一种基于并行卷积神经网络的图像质量测试方法 |
CN110321874A (zh) * | 2019-07-12 | 2019-10-11 | 南京航空航天大学 | 一种轻量化的卷积神经网络行人识别方法 |
CN110705379A (zh) * | 2019-09-12 | 2020-01-17 | 广州大学 | 一种基于多标签学习的卷积神经网络的表情识别方法 |
CN110632572A (zh) * | 2019-09-30 | 2019-12-31 | 中国人民解放军战略支援部队信息工程大学 | 基于无意调相特性的雷达辐射源个体识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111931615A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Teow | Understanding convolutional neural networks using a minimal model for handwritten digit recognition | |
CN112418392A (zh) | 一种神经网络构建方法以及装置 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
CN112236779A (zh) | 基于卷积神经网络的图像处理方法和图像处理装置 | |
CN111914997B (zh) | 训练神经网络的方法、图像处理方法及装置 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111832592B (zh) | Rgbd显著性检测方法以及相关装置 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
CN108510058B (zh) | 神经网络中的权重存储方法以及基于该方法的处理器 | |
CN111797881B (zh) | 图像分类方法及装置 | |
CN111797970B (zh) | 训练神经网络的方法和装置 | |
CN112215332A (zh) | 神经网络结构的搜索方法、图像处理方法和装置 | |
CN108932455B (zh) | 遥感图像场景识别方法及装置 | |
CN111797992A (zh) | 一种机器学习优化方法以及装置 | |
CN111931901A (zh) | 一种神经网络构建方法以及装置 | |
CN114595799A (zh) | 一种模型训练方法及装置 | |
CN113592060A (zh) | 一种神经网络优化方法以及装置 | |
EP4401007A1 (en) | Neural network acquisition method, data processing method and related device | |
CN111738403A (zh) | 一种神经网络的优化方法及相关设备 | |
CN114091554A (zh) | 一种训练集处理方法和装置 | |
CN112686225A (zh) | Yolo神经网络的训练方法、行人检测方法和相关设备 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
CN114821096A (zh) | 一种图像处理方法、神经网络的训练方法以及相关设备 | |
CN113536970A (zh) | 一种视频分类模型的训练方法及相关装置 | |
CN113449548A (zh) | 更新物体识别模型的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |