CN109583584B - 可使具有全连接层的cnn接受不定形状输入的方法及*** - Google Patents

可使具有全连接层的cnn接受不定形状输入的方法及*** Download PDF

Info

Publication number
CN109583584B
CN109583584B CN201811353465.XA CN201811353465A CN109583584B CN 109583584 B CN109583584 B CN 109583584B CN 201811353465 A CN201811353465 A CN 201811353465A CN 109583584 B CN109583584 B CN 109583584B
Authority
CN
China
Prior art keywords
layer
pooling
coordinates
feature
coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811353465.XA
Other languages
English (en)
Other versions
CN109583584A (zh
Inventor
卢宇彤
瞿毅力
陈志广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811353465.XA priority Critical patent/CN109583584B/zh
Publication of CN109583584A publication Critical patent/CN109583584A/zh
Application granted granted Critical
Publication of CN109583584B publication Critical patent/CN109583584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种可使具有全连接层的CNN接受不定形状输入的方法及***,本发明通过在现有的具有全连接层的CNN网络的卷积池化后新增加一个包含在对特征图添加坐标通道后进行处理输出固定尺寸的新特征图的变步池化层以及一个由多个全连接层和一个softmax函数层构成的坐标预测网络,通过坐标预测网络确定包含有效像素区域的特征图块中心点坐标(X,Y)的概率分布向量,并根据特征图的横向尺寸W与纵向尺寸H的情况做不同处理,最终使网络能接受不定形状输入。本发明能够有效解决在具有全连接层的CNN中不能接受不定形状输入的缺陷,可使给定的只可接受固定形状输入的具有全连接层的CNN能接受不定形状输入,且其他要求不变,具有兼容性好的优点。

Description

可使具有全连接层的CNN接受不定形状输入的方法及***
技术领域
本发明属于深度学习的模型设计领域,具体而言涉及一种可使给定的只可接受固定形状输入的具有全连接层的CNN能接受不定形状输入的方法及***。
背景技术
在实际生活中,我们所能接触的图片是千姿百态多种多样的,有的是长条形,有的是正方形,有的分辨率高,有的分辨率很低。这些数量庞大、种类繁多的图片促进了以卷积神经网络(convolution neural network,简称CNN)为基础的计算机视觉技术的发展。基于CNN的计算机视觉技术在图像分类、目标检测和许多其他识别任务,甚至是非识别任务中展现出了巨大的潜能,因此对CNN中的基本算子的发展就显得更为必要和有意义。
当前许多的CNN的结构都由两部分组成,卷积部分和其后的全连接部分。卷积部分最基本的操作是卷积和池化。卷积通过一个参数可学习的卷积核采用窗口滑动方式对图片计算加权和,得到一个变换后的特征图。特征图是一个三维矩阵,除了横向和纵向两个维度的尺寸外,还有第三个通道方向的维度,这个维度上是相互独立的特征矩阵,这些矩阵在该维度上堆叠成完整的特征图。池化是通过一个参数固定的池化核,采用窗口滑动方式对图片进行采样,得到一个较原图更为抽象的缩略图。卷积和池化组合可以使得网络能对不同尺度级别的特征进行学习,设置多个卷积核实现了多重特征的学习。卷积部分学习之后,历经了多次变换的神经元将被传送到全连接层,全连接层采用all-to-all方式将传进来的神经元经过多次变换得到一个固定长度的向量,再通过一个softmax函数将向量变换为一个概率分布向量。在图片分类任务中,概率分布向量中每个维度的值表示一个类别的概率,向量长度与类标个数一致;在图片定位任务中,概率分布向量中每个维度的值表示一个坐标的概率,向量长度与坐标个数一致。
从前述CNN的作用原理可以看出,卷积部分网络参数数目与输入图片的形状无关,并不需要固定的图像尺寸,他可以接收任意形状的图片输入产生对应尺寸的特征图。而另一方面,全连接层的参数数目直接取决于输入神经元的个数和输出个数。神经元输出个数和类标个数一致,是定值。一个网络的参数数目是固定的才能采用迭代更新的方式学习。因此,CNN的全连接部分需要固定尺寸的输入。
当前绝大部分CNN在训练和预测时都有一个使用限定,它们都需要输入的图像尺寸是固定的(比如224×224)。从前面的分析可知,固定尺寸输入的问题来源于全连接层,也是网络的最后阶段。而全连接层在图片分类任务、检测任务。定位任务等领域依然有着广泛的应用和前景。因此,当前通用的解决方案是对图片进行裁剪或缩放变形。裁剪的过程中会损失掉许多像素,缩放变形会破坏图片内容的角度、比例等结构信息,造成几何失真。
在当前计算机视觉领域,使用CNN对图片分类、物体检测、语义分割等,都使用ImageNet、cifar10等基准数据集,这些数据集中的图片基本都是生活中常见的物品,这些物品在这些图片在进行缩放形变后,基本不影响我们识别。比如一只猫,在图片被纵向压缩一半后,我们依然能识别出这是一只猫。绝大多数应用场景,就和识别猫一样,对形变不敏感。
然而近年来,随着计算机视觉领域的发展,越来越多的科学大数据采用CNN进行处理。计算机视觉领域应用场景对图片处理的要求也越来越细粒度,例如人脸识别。这些都说明,很多应用场景将是对形变敏感的,过去通过缩放形变方式对图片的预处理将不能满足需求。而对图片的裁剪在很多场景下都不适用。因此,在这些重叠的应用场景下,我们需要一种能接收并学习不定形状图片的CNN改进方法。
2014年,SPPNet被提出,它的核心方法是一个叫做“空间金字塔池化(spatialpyramid pooling,简称SPP)”的池化策略,可以消除形状固定的限制,不管输入图像的尺寸或比例如何,SPPNet的网络结构能够产生固定大小的输出。由于这些优点,SPP可以帮助改进各类基于CNN的图像分类方法。在ImageNet大规模视觉识别任务挑战(ILSVRC)2014上的38个参赛组中,SPP方法在物体检测上排名第2,在物体分类上排名第3。但SPP在对具有几何标签的不定形状的几何形状图片数据集的分类任务中表现较差,这说明基于空间位置的采样本质上依然是一种压缩形变,并没有解决几何失真问题,同时也说明经过多层卷积和池化之后的特征图依然保留了输入图片中的几何相关性。
在固定尺寸输入时,全连接层将多层卷积和池化后高度抽象的特征图拉直成一个神经元向量,经过多次变换得到概率分布向量。2012年dropout被提出来用于防止在CNN训练中产生过拟合。dropout指随机将全连接层一定比例的神经元置零,使其失效。dropout的有效说明了全连接层的分类不需要全部的特征图输入也能有效。因此,在不定形状输入时,在这些不同形状特征图中提取出一个有效信息区域,通过对SPP的改进可以实现所有有效信息区域的固定形状尺寸的输出,再用这些特征图的有效信息区域进行分类是可行的。2018年7月,优步公司提出通过添加坐标通道可以更好的处理图片定位任务。这与我们对特征图有效信息区域的提取任务十分契合。因此,如何实现使具有全连接层的CNN接受不定形状输入,已经成为一项亟待解决的关键技术问题。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种可使具有全连接层的CNN接受不定形状输入的方法及***,本发明能够有效解决在具有全连接层的CNN中不能接受不定形状输入的缺陷,可使给定的只可接受固定形状输入的具有全连接层的CNN能接受不定形状输入,且其他要求不变,具有兼容性好的优点。
为了解决上述技术问题,本发明采用的技术方案为:
一种可使具有全连接层的CNN接受不定形状输入的方法,实施步骤包括:
1)输入指定范围内的任意尺寸的图片;
2)将图片通过卷积池化处理得到特征图;
3)针对步骤2)得到的特征图的横向尺寸W与纵向尺寸H,如果特征图的横向尺寸W与纵向尺寸H不相等则跳转执行下一步;否则,跳转执行步骤10);
4)对特征图添加坐标通道后进行变步池化处理输出固定尺寸的新特征图;
5)根据新特征图,通过多个全连接层和一个softmax函数层构成的坐标预测网络确定包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量,其中坐标预测网络的全连接层根据卷积池化处理得到特征图的最大的横向尺寸WMAX、最大的纵向尺寸HMAX和变步池化层输出的新特征图拉直后的长度进行设计;
6)根据包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量获取K对坐标,根据K对坐标分别剪切出正方形特征图块并通过变步池化变成尺寸相同的K个特征图有效信息区域,将K个特征图有效信息区域分别通过全连接层、softmax函数层变换得到K个概率分布向量,并通过损失函数层输出K个损失值,找出最小的损失值作为最小预测损失值lossmin及其对应的坐标(XMIN、YMIN);
8)将坐标(XMIN、YMIN)作为标签和包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量计算两个坐标的交叉熵并求和得到交叉熵损失值lossXY
9)获取交叉熵损失值lossXY、最小预测损失值lossmin之和作为总损失值loss1,且以总损失值loss1对总的损失函数求导,开启反向传播反向逐层计算出各层参数的梯度值,然后根据各层参数梯度更新这些参数,完成本轮迭代,然后退出或者进入下一轮迭代过程;
10)中心点坐标特征图直接经过变步池化处理得到一个特征图有效信息区域,将该特征图有效信息区域通过全连接层、softmax函数层缩放为一个概率分布向量,并通过预设的损失函数计算输出一个损失值loss2;以该损失值loss2对总的损失函数求导,开启反向传播反向逐层计算出各层参数的梯度值,然后根据各层参数梯度更新这些参数,完成本轮迭代,然后退出或者进入下一轮迭代过程。
步骤4)中对特征图添加坐标通道的具体步骤包括:在其通道方向添加特征图元素在横纵方向上的X、Y两个坐标通道信息,X、Y坐标均以特征图左上角为原点,从0开始取整数值,特征图当前所有通道中相同位置的元素坐标值相同,X、Y两个坐标通道依次堆叠到现有通道的后面。
步骤4)中进行变步池化处理输出固定尺寸的新特征图的详细步骤包括:
4.1)设定对输入的特征图横向和纵向固定分区的数量,在通道方向不做处理,保留所有通道;
4.2)设定对每个分区进行池化的池化核的大小,核的尺寸可以大于、小于和等于分区的尺寸;
4.3)设定池化方式,可选的方式包括最大池化、平均池化和最小池化;
4.4)根据固定数量的分区,对每个分区按照设定池化方式进行池化;初始时池化核左上角与分区的左上角对齐,按先横向后纵向的顺序,逐行地对每个分区执行一次池化操作:a)当核的尺寸小于分区的尺寸时,分区内未被池化核覆盖的区域则不作处理而被丢弃;b)当核的尺寸等于分区时,特征图的每个元素刚好均被池化核覆盖一遍;c)当核的尺寸大于分区的尺寸时,核超出的部分将覆盖到其他分区,则池化范围扩大为池化核覆盖的范围;如果池化核覆盖区域超出下边界,则将池化核的下边界自动被调整为特征图的下边界;如果池化核覆盖区域超出右边界,则将池化核的右边界自动被调整为特征图的右边界;
4.5)每个分区池化出的元素根据原来的分区位置进行拼接组装,得到一个尺寸为设定的横纵方向上分区的数量的特征图。
步骤5)特征图的最大的横向尺寸WMAX、最大的纵向尺寸HMAX的获取步骤包括:针对图片数据集分别迭代输入任意形状的图片,将图片通过卷积池化处理得到特征图,并记录特征图的横向尺寸W与纵向尺寸H,最终计算或预估出特征图的所有横向尺寸W与纵向尺寸H中的最大的横向尺寸WMAX和最大的纵向尺寸HMAX
步骤5)的坐标预测网络的多个全连接层和一个softmax函数层中,第一层全连接层的输入长度均设定为变步池化层输出特征图拉直后的长度;第二层全连接层与AlexNet一致,输入输出长度均为4096,且以第一层全连接层的输出作为输入;最后一层全连接层全连接层为两个并列的全连接层,均以第二层全连接层输出作为输入,两者输出长度分别设定为特征图的最大的横向尺寸WMAX、最大的纵向尺寸HMAX,分别用来预测X坐标和Y坐标;softmax函数层位于最后一层全连接层之后,用于将最后一层全连接的输出缩放为概率分布向量,从而输出包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量。
步骤6)中根据包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量获取K对坐标的详细步骤包括:根据包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量得到概率前K的K个X坐标和概率前K的K个Y坐标,根据获取步骤2)得到的特征图的横向尺寸W与纵向尺寸H以判断特征图的形状,当特征图的横向尺寸W大于纵向尺寸H时,将得到的概率前K的K个X坐标与概率最高的Y坐标组成K对坐标;当特征图的横向尺寸W小于纵向尺寸H时,得到的概率最高的X坐标与概率前K的K个Y坐标组成K对坐标。
步骤6)中剪切出正方形特征图块的详细步骤包括:
6.1)针对每一对坐标,计算其对应特征图的横向尺寸W1与纵向尺寸H1
6.2)将横向尺寸W1和纵向尺寸H1进行比较,如果横向尺寸W1大于纵向尺寸H1,则以坐标XC对应的纵线为裁剪中线裁取XC对应的纵线两边各H1/2宽的范围作为正方形特征图块;否则如果横向尺寸W1小于纵向尺寸H1,则以坐标YC对应的横线为裁剪中线裁取YC对应的横线两边各W1/2宽的范围作为正方形特征图块;其中,XC、YC为有效信息区域中心点的坐标。
步骤6.2)中以坐标XC对应的纵线为裁剪中线裁取XC对应的纵线两边各H1/2宽的范围具体是指:当H1/2>=XC时,直接裁取(0,0)、(0,H1)、(H1,H1)、(H1,0)四个坐标点依次连线围成的正方形特征图块;当H1/2>=W1-XC时,我们直接裁取(W1-H1,0)、(W1-H1,H1)、(W1,H1)、(W1,0)四个坐标点依次连线围成的正方形特征图块;当H1/2<XC<W1-H1/2时,裁取(XC-H1/2,0)、(XC-H1/2,H1)、(XC+H1/2,H1)、(XC+H1/2,0)四个坐标点依次连线围成的正方形特征图块;其中,XC、YC为预测的特征图块中心点的坐标,W1为步骤6.1)得到的特征图的横向尺寸,H1为步骤6.1)得到的特征图的纵向尺寸。
步骤6.2)中以坐标YC对应的横线为裁剪中线裁取YC对应的横线两边各W1/2宽的范围具体是指:当W1/2>=YC时,直接裁取(0,0)、(0,W1)、(W1,W1)、(W1,0)四个坐标点依次连线围成的正方形特征图块;当W1/2>=H1-YC时,直接裁取(H1-W1,0)、(H1-W1,W1)、(H1,W1)、(H1,0)四个坐标点依次连线围成的正方形特征图块;当W1/2<YC<H1-W1/2时,裁取(YC-W1/2,0)、(YC-W1/2,W1)、(YC+W1/2,W1)、(YC+W1/2,0)四个坐标点依次连线围成的正方形特征图块;其中,XC、YC为预测的特征图块中心点的坐标,W1为步骤6.1)得到的特征图的横向尺寸,H1为步骤6.1)得到的特征图的纵向尺寸。
本发明还提供一种可使具有全连接层的CNN接受不定形状输入的***,包括计算机设备,所述计算机设备被编程以执行本发明所述可使具有全连接层的CNN接受不定形状输入的方法的步骤。
和现有技术相比,本发明具有下述优点:本发明通过在现有CNN网络的卷积池化后新增加一个包含在对特征图添加坐标通道后进行处理输出固定尺寸的新特征图的变步池化层以及一个由多个全连接层和一个softmax函数层构成的坐标预测网络,通过坐标预测网络确定包含有效像素区域的特征图块中心点坐标(X,Y)的概率分布向量,并根据特征图的横向尺寸W与纵向尺寸H的情况做不同处理:
在特征图的横向尺寸W与纵向尺寸H不同时,根据包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量获取K对坐标,根据K对坐标分别剪切出正方形特征图块并通过变步池化变成尺寸相同的K个特征图有效信息区域,将K个特征图有效信息区域分别通过全连接层、softmax函数层变换得到K个概率分布向量,并通过损失函数层输出K个损失值,找出最小的损失值作为最小预测损失值lossmin及其对应的坐标(XMIN、YMIN);将坐标(XMIN、YMIN)作为标签和有效像素区域的中心点坐标(X,Y)的概率分布向量计算两个坐标的交叉熵并求和得到交叉熵损失值lossXY;获取交叉熵损失值lossXY、最小预测损失值lossmin之和作为总损失值loss1,且以总损失值loss1对总的损失函数求导,开启反向传播反向逐层计算出各层参数的梯度值,然后根据各层参数梯度更新这些参数,完成本轮迭代;
在特征图的横向尺寸W与纵向尺寸H相同时,中心点坐标特征图整体直接经过变步池化处理得到一个特征图有效信息区域,将该特征图有效信息区域通过变步池化层、全连接层、softmax函数层缩放为一个概率分布向量,并通过预设的损失函数计算输出一个损失值loss2;以该损失值loss2对总的损失函数求导,开启反向传播反向逐层计算出各层参数的梯度值,然后根据各层参数梯度更新这些参数,完成本轮迭代。
通过上述方式,本发明能够有效解决在具有全连接层的CNN中不能接受不定形状输入的缺陷,可使给定的只可接受固定形状输入的具有全连接层的CNN能接受不定形状输入,且其他要求不变,具有兼容性好的优点。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例方法的基本流程示意图。
图2为本发明实施例中CNN的分层结构示意图。
图3为本发明实施例中变步池化的原理示意图。
图4为本发明实施例中特征图添加坐标通道再进行变步池化处理的示意图
图5为本发明实施例中W>H时截取正方形特征图块的示意图。
图6为本发明实施例中W<H时截取正方形特征图块的示意图。
具体实施方式
下文将以AlexNet为例,对本发明可使具有全连接层的CNN接受不定形状输入的方法及***进行进一步的详细说明,AlexNet是一个具有全连接层的经典CNN模型,在图片分类等任务中表现优秀,但它不能接受不同形状的输入,本发明可使具有全连接层的CNN接受不定形状输入的方法及***将使得AlexNet接受不定形状输入。
如图1所示,本实施例可使具有全连接层的CNN接受不定形状输入的方法实施步骤包括:
1)输入指定范围内的任意尺寸的图片;
2)将图片通过卷积池化处理得到特征图;
3)针对步骤2)得到的特征图的横向尺寸W与纵向尺寸H,如果特征图的横向尺寸W与纵向尺寸H不相等则跳转执行下一步;否则,跳转执行步骤10);
4)对特征图添加坐标通道后进行变步池化处理输出固定尺寸的新特征图;
5)根据新特征图,通过以特征图的最大的横向尺寸WMAX、最大的纵向尺寸HMAX设计的多个全连接层和一个softmax函数层构成的坐标预测网络确定包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量;
6)根据包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量获取K对坐标,根据K对坐标分别剪切出正方形特征图块并通过变步池化变成尺寸相同的K个特征图有效信息区域,将K个特征图有效信息区域分别通过全连接层、softmax函数层变换得到K个概率分布向量,并通过损失函数层输出K个损失值,找出最小的损失值作为最小预测损失值lossmin及其对应的坐标(XMIN、YMIN);
8)将坐标(XMIN、YMIN)作为标签和包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量计算两个坐标的交叉熵并求和得到交叉熵损失值lossXY
9)获取交叉熵损失值lossXY、最小预测损失值lossmin之和作为总损失值loss1,且以总损失值loss1对总的损失函数求导,开启反向传播反向逐层计算出各层参数的梯度值,然后根据各层参数梯度更新这些参数,完成本轮迭代,然后退出或者进入下一轮迭代过程;
10)特征图直接经过变步池化处理得到一个特征图有效信息区域,将该特征图有效信息区域通过全连接层、softmax函数层缩放为一个概率分布向量,并通过预设的损失函数计算输出一个损失值loss2;以该损失值loss2对总的损失函数求导,开启反向传播反向逐层计算出各层参数的梯度值,然后根据各层参数梯度更新这些参数,完成本轮迭代,然后退出或者进入下一轮迭代过程。
如图2所示,其中虚线图框中的内容为本实施例可使具有全连接层的CNN接受不定形状输入的方法改造后的新增部分,其中现有部分如下:
图片输入层,用于输入指定范围内的任意尺寸的图片。
卷积池化部分,包括多个卷积层和池化层,用于将图片通过卷积池化处理得到特征图。
卷积池化部分的原始后续层部分,包括三个全连接层、softmax函数层、损失函数层,用于将特征图有效信息区域分别通过全连接层、softmax函数层变换得到概率分布向量,并通过损失函数层输出损失值。
新增部分如下:
添加坐标层,用于对卷积池化处理得到特征图补充横纵坐标通道信息。
变步池化层#1,用于对添加坐标通道后的特征图进行变步池化处理输出固定尺寸的新特征图。
坐标预测网络,包括多个全连接层和一个softmax函数层,用于根据新特征图确定包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量,其中全连接层根据特征图的最大的横向尺寸WMAX、最大的纵向尺寸HMAX和变步池化层#1输出的新特征图拉直后的长度进行设计;
提取特征图块,用于坐标预测网络预测中心点坐标的概率分布向量获取K对坐标,根据K对坐标分别剪切出正方形特征图块;
变步池化层#2,用于将提取特征图块输出的K个特征图块通过变步池化变成尺寸相同的K个特征图有效信息区域;
坐标交叉熵损失函数层,用于将坐标(XMIN、YMIN)作为标签和坐标预测网络预测中心点坐标的概率分布向量计算两个坐标的交叉熵并求和得到交叉熵损失值lossXY
总损失函数层,用于获取交叉熵损失值lossXY、最小预测损失值lossmin之和作为总损失值loss1
本实施例中,步骤3)中对特征图添加坐标通道的具体步骤包括:在其通道方向添加特征图元素在横纵方向上的X、Y两个坐标通道信息,X、Y坐标均以特征图左上角为原点,从0开始取整数值,特征图当前所有通道中相同位置的元素坐标值相同,X、Y两个坐标通道依次堆叠到现有通道的后面。坐标通道的添加根据使用场景是可选的。
现有的SPP的池化策略通过将图片划分成固定数量的分区,对每个分区最大池化,再将池化结果拼接成向量的方式,实现了接收不定输入和产生固定输出,但是该分区方法破坏了分区与分区之间的关联性,为此需要进行多种不同尺度的分区再拼接这些输出。本实施例中的变步池化方法采用和SPP一样的分区方法,需要固定横纵方向上分区的次数外,同时还需要确定核的大小。在核大小大于分区子图大小时,其效果和普通池化一样,在核大小等于分区子图大小时,则与SPP一样。变步池化将对分区子图的处理结果按原位拼接,得到可继续采用卷积或池化学习的特征图。
本实施例中,步骤3)中进行变步池化处理输出固定尺寸的新特征图的详细步骤包括:
3.1)设定对输入的特征图横向和纵向固定分区的数量,在通道方向不做处理,保留所有通道;
3.2)设定对每个分区进行池化的池化核的大小,核的尺寸可以大于、小于和等于分区的尺寸;
3.3)设定池化方式,可选的方式包括最大池化、平均池化和最小池化;
3.4)根据固定数量的分区,对每个分区按照设定池化方式进行池化;初始时池化核左上角与分区的左上角对齐,按先横向后纵向的顺序,逐行地对每个分区执行一次池化操作:
a)当核的尺寸小于分区的尺寸时,分区内未被池化核覆盖的区域则不作处理而被丢弃;
b)当核的尺寸等于分区时,特征图的每个元素刚好均被池化核覆盖一遍;当核的尺寸等于分区的尺寸且池化方式为最大池化时,算子处理效果与SPP和某些设置下普通池化算子的效果一致;
c)当核的尺寸大于分区的尺寸时,核超出的部分将覆盖到其他分区,则池化范围扩大为池化核覆盖的范围;如果池化核覆盖区域超出下边界,则将池化核的下边界自动被调整为特征图的下边界;如果池化核覆盖区域超出右边界,则将池化核的右边界自动被调整为特征图的右边界;这样的池化效果与通常设置下普通池化算子的效果一致。
图3(a)~(d)分别为本实施例中采用的变步池化过程中,池化核尺寸小于分区尺寸的情况、池化核尺寸等于分区尺寸的情况、池化核尺寸大于分区尺寸的情况、池化核尺寸大于分区尺寸时下边界和右边界的情况;
3.5)每个分区池化出的元素根据原来的分区位置进行拼接组装,得到一个尺寸为设定的横纵方向上分区的数量的特征图。
整个池化过程,可以看作是步数固定但步长随着特征图尺寸变化而变化的池化过程,因此上述池化操作过程称为变步池化。特征图添加坐标通道再进行变步池化处理的原理如图4所示,通过对特征图添加坐标通道后进行变步池化处理,最终输出固定尺寸的新特征图。
本实施例中,步骤4)特征图的最大的横向尺寸WMAX、最大的纵向尺寸HMAX的获取步骤包括:针对图片数据集分别迭代输入任意形状的图片,将图片通过卷积池化处理得到特征图,并记录特征图的横向尺寸W与纵向尺寸H,最终计算或预估出特征图的所有横向尺寸W与纵向尺寸H中的最大的横向尺寸WMAX和最大的纵向尺寸HMAX。在完成坐标通道的添加之后,然后本实施例将得到的不同形状的特征图进行变步池化处理,得到相同尺寸的新特征图。此时,可选择性地对该新特征图进行卷积池化学习,然后将最后得到的新特征图拉直成神经元向量,再将该神经元向量输入包含两个输出层的多层全连接网络,分别得到一个长度与WMAX相同的向量和一个长度与HMAX相同的向量,再用softmax函数将两个向量变换为X坐标的概率分布向量和Y坐标的概率分布向量。
参见图2,步骤4)的坐标预测网络的多个全连接层和一个softmax函数层中,第一层全连接层的输入长度均设定为变步池化层输出的新特征图拉直后的长度;第二层全连接层与基础模型一致且以第一层全连接层的输出作为输入(与AlexNet一致,输入输出长度均为4096);最后一层全连接层全连接层为两个并列的全连接层,均以第二层全连接层输出作为输入,两者输出长度分别设定为特征图的最大的横向尺寸WMAX、最大的纵向尺寸HMAX,分别用来预测X坐标和Y坐标;softmax函数层位于最后一层全连接层之后,用于将最后一层全连接的输出缩放为概率分布向量,从而输出包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量。
有效信息区域提取时,接收到一对预测坐标XC、YC和一个特征图。首先,我们设定变步池化的横纵方向的分区数量(也就是输出尺寸)和池化核尺寸,此处分区横向和纵向的尺寸要求相同、池化核横向和纵向的尺寸要求相同。然后获取特征图的横向尺寸W与纵向尺寸H以判断特征图的形状。最后根据特征图形状选用坐标,再根据坐标对特征图进行裁剪,得到包含有效像素区域的特征图块,最后将特征图块根据设置进行变步池化处理,此时变步池化处理前无需添加坐标通道。
本实施例中,步骤6)中根据包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量获取K对坐标的详细步骤包括:根据包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量得到概率前K的K个X坐标和概率前K的K个Y坐标,根据获取步骤2)得到的特征图的横向尺寸W与纵向尺寸H以判断特征图的形状,当特征图的横向尺寸W大于纵向尺寸H时,将得到的概率前K的K个X坐标与概率最高的Y坐标组成K对坐标;当特征图的横向尺寸W小于纵向尺寸H时,得到的概率最高的X坐标与概率前K的K个Y坐标组成K对坐标。
本实施例中,步骤6)中剪切出正方形特征图块的详细步骤包括:
6.1)针对每一对坐标,计算其对应特征图的横向尺寸W1与纵向尺寸H1
6.2)将横向尺寸W1和纵向尺寸H1进行比较,如果横向尺寸W1大于纵向尺寸H1,则以坐标XC对应的纵线为裁剪中线裁取XC对应的纵线两边各H1/2宽的范围作为正方形特征图块(得到一个横向纵向尺寸均为H1的特征图块),如图5所示;否则如果横向尺寸W11小于纵向尺寸H1,则以坐标YC对应的横线为裁剪中线裁取YC对应的横线两边各W11/2宽的范围作为正方形特征图块(得到一个横向纵向尺寸均为W11的特征图块),如图6所示;其中,XC、YC为预测的特征图块中心点的坐标。
本实施例中,步骤6.2)中以坐标XC对应的纵线为裁剪中线裁取XC对应的纵线两边各H1/2宽的范围具体是指:当H1/2>=XC时,直接裁取(0,0)、(0,H1)、(H1,H1)、(H1,0)四个坐标点依次连线围成的正方形特征图块;当H1/2>=W1-XC时,我们直接裁取(W1-H1,0)、(W1-H1,H1)、(W1,H1)、(W1,0)四个坐标点依次连线围成的正方形特征图块;当H1/2<XC<W1-H1/2时,裁取(XC-H1/2,0)、(XC-H1/2,H1)、(XC+H1/2,H1)、(XC+H1/2,0)四个坐标点依次连线围成的正方形特征图块;其中,XC、YC为预测的特征图块中心点的坐标,W1为步骤6.1)得到的特征图的横向尺寸,H1为步骤6.1)得到的特征图的纵向尺寸。
本实施例中,步骤6.2)中以坐标YC对应的横线为裁剪中线裁取YC对应的横线两边各W1/2宽的范围具体是指:当W1/2>=YC时,直接裁取(0,0)、(0,W1)、(W1,W1)、(W1,0)四个坐标点依次连线围成的正方形特征图块;当W1/2>=H1-YC时,直接裁取(H1-W1,0)、(H1-W1,W1)、(H1,W1)、(H1,0)四个坐标点依次连线围成的正方形特征图块;当W1/2<YC<H1-W1/2时,裁取(YC-W1/2,0)、(YC-W1/2,W1)、(YC+W1/2,W1)、(YC+W1/2,0)四个坐标点依次连线围成的正方形特征图块;其中,XC、YC为预测的特征图块中心点的坐标,W1为步骤6.1)得到的特征图的横向尺寸,H1为步骤6.1)得到的特征图的纵向尺寸。
本实施例中,步骤8)将坐标(XMIN、YMIN)作为标签,根据包含有效像素区域特征图块的中心点坐标(X,Y)的概率分布向量计算两个坐标的交叉熵并求和得到交叉熵损失值lossXY时,交叉熵损失值lossXY的函数表达式如式(1)所示;
Figure GDA0002450207360000111
式(1)中,WMAX为最大的横向尺寸,HMAX为最大的纵向尺寸,pX(Xi)是指预测得到X坐标的概率分布向量中对应坐标为Xi的概率值;qX(Xi)是指将X坐标的真实标签通过独热编码(one-hot编码)转换得到概率分布向量中对应坐标为Xi的概率值;pY(Yj)是指预测得到Y坐标的概率分布向量中对应坐标为Yj的概率值,qY(Yj)是指将Y坐标的真实标签通过独热编码转换得到概率分布向量中对应坐标为Yj的概率值。
在针对一个数据集进行训练时,卷积池化部分的第一层可以接收一张不定形状的图片。如此往复,直到整个数据集训练完成。预测时,如果输入为正方形,那么AlexNet的全连接层输出唯一一个概率分布向量即为预测结果;否则,AlexNet的全连接层输出的概率分布向量中,与坐标预测网络中概率最大的横纵坐标对应的向量即为预测结果。AlexNet经过本实施例前述可使具有全连接层的CNN接受不定形状输入的方法上述的改进之后即可实现对不定形状输入的训练和预测,整个改进在模型设计阶段完成,模型训练和预测时,除去不同迭代批次可以接受的输入形状不同外,其他要求不变,包括一个迭代批次内的输入尺寸一致的限制。此外,本实施例还提供一种可使具有全连接层的CNN接受不定形状输入的***,包括计算机设备,该计算机设备被编程以执行本实施例前述可使具有全连接层的CNN接受不定形状输入的方法的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种可使具有全连接层的CNN接受不定形状输入的方法,其特征在于实施步骤包括:
1)输入指定范围内的任意尺寸的图片;
2)将图片通过卷积池化处理得到特征图;
3)针对步骤2)得到的特征图的横向尺寸W与纵向尺寸H,如果特征图的横向尺寸W与纵向尺寸H不相等则跳转执行下一步;否则,跳转执行步骤10);
4)对特征图添加坐标通道后进行变步池化处理输出固定尺寸的新特征图;
5)根据新特征图,通过多个全连接层和一个softmax函数层构成的坐标预测网络确定包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量,其中坐标预测网络的全连接层根据卷积池化处理得到特征图的最大的横向尺寸WMAX、最大的纵向尺寸HMAX和变步池化层输出的新特征图拉直后的长度进行设计;
6)根据包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量获取K对坐标,根据K对坐标分别剪切出正方形特征图块并通过变步池化变成尺寸相同的K个特征图有效信息区域,将K个特征图有效信息区域分别通过全连接层、softmax函数层变换得到K个概率分布向量,并通过损失函数层输出K个损失值,找出最小的损失值作为最小预测损失值lossmin及其对应的坐标(XMIN、YMIN);
8)将坐标(XMIN、YMIN)作为标签和包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量计算两个坐标的交叉熵并求和得到交叉熵损失值lossXY
9)获取交叉熵损失值lossXY、最小预测损失值lossmin之和作为总损失值loss1,且以总损失值loss1对总的损失函数求导,开启反向传播反向逐层计算出各层参数的梯度值,然后根据各层参数梯度更新这些参数,完成本轮迭代,然后退出或者进入下一轮迭代过程;
10)将特征图整体直接经过变步池化处理得到一个特征图有效信息区域,将该特征图有效信息区域通过全连接层、softmax函数层缩放为一个概率分布向量,并通过预设的损失函数计算输出一个损失值loss2;以该损失值loss2对总的损失函数求导,开启反向传播反向逐层计算出各层参数的梯度值,然后根据各层参数梯度更新这些参数,完成本轮迭代,然后退出或者进入下一轮迭代过程。
2.根据权利要求1所述的可使具有全连接层的CNN接受不定形状输入的方法,其特征在于,步骤4)中对特征图添加坐标通道的具体步骤包括:在其通道方向添加特征图元素在横纵方向上的X、Y两个坐标通道信息,X、Y坐标均以特征图左上角为原点,从0开始取整数值,特征图当前所有通道中相同位置的元素坐标值相同,X、Y两个坐标通道依次堆叠到现有通道的后面。
3.根据权利要求1所述的可使具有全连接层的CNN接受不定形状输入的方法,其特征在于,步骤4)中进行变步池化处理输出固定尺寸的新特征图的详细步骤包括:
4.1)设定对输入的特征图横向和纵向固定分区的数量,在通道方向不做处理,保留所有通道;
4.2)设定对每个分区进行池化的池化核的大小,核的尺寸可以大于、小于和等于分区的尺寸;
4.3)设定池化方式,可选的方式包括最大池化、平均池化和最小池化;
4.4)根据固定数量的分区,对每个分区按照设定池化方式进行池化;初始时池化核左上角与分区的左上角对齐,按先横向后纵向的顺序,逐行地对每个分区执行一次池化操作:a)当核的尺寸小于分区的尺寸时,分区内未被池化核覆盖的区域则不作处理而被丢弃;b)当核的尺寸等于分区时,特征图的每个元素刚好均被池化核覆盖一遍;c)当核的尺寸大于分区的尺寸时,核超出的部分将覆盖到其他分区,则池化范围扩大为池化核覆盖的范围;如果池化核覆盖区域超出下边界,则将池化核的下边界自动被调整为特征图的下边界;如果池化核覆盖区域超出右边界,则将池化核的右边界自动被调整为特征图的右边界;
4.5)每个分区池化出的元素根据原来的分区位置进行拼接组装,得到一个尺寸为设定的横纵方向上分区的数量的特征图。
4.根据权利要求1所述的可使具有全连接层的CNN接受不定形状输入的方法,其特征在于,步骤5)特征图的最大的横向尺寸WMAX、最大的纵向尺寸HMAX的获取步骤包括:针对图片数据集分别迭代输入任意形状的图片,将图片通过卷积池化处理得到特征图,并记录特征图的横向尺寸W与纵向尺寸H,最终计算或预估出特征图的所有横向尺寸W与纵向尺寸H中的最大的横向尺寸WMAX和最大的纵向尺寸HMAX
5.根据权利要求1所述的可使具有全连接层的CNN接受不定形状输入的方法,其特征在于,步骤5)中多个全连接层和一个softmax函数层构成的坐标预测网络中,第一层全连接层的输入长度均设定为变步池化层输出特征图拉直后的长度;第二层全连接层与AlexNet一致,输入输出长度均为4096,且以第一层全连接层的输出作为输入;最后一层全连接层全连接层为两个并列的全连接层,均以第二层全连接层输出作为输入,两者输出长度分别设定为特征图的最大的横向尺寸WMAX、最大的纵向尺寸HMAX,分别用来预测X坐标和Y坐标;softmax函数层位于最后一层全连接层之后,用于将最后一层全连接的输出缩放为概率分布向量,从而输出包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量。
6.根据权利要求1所述的可使具有全连接层的CNN接受不定形状输入的方法,其特征在于,步骤6)中根据包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量获取K对坐标的详细步骤包括:根据包含有效像素区域的特征图块的中心点坐标(X,Y)的概率分布向量得到概率前K的K个X坐标和概率前K的K个Y坐标,根据获取步骤2)得到的特征图的横向尺寸W与纵向尺寸H以判断特征图的形状,当特征图的横向尺寸W大于纵向尺寸H时,将得到的概率前K的K个X坐标与概率最高的Y坐标组成K对坐标;当特征图的横向尺寸W小于纵向尺寸H时,得到的概率最高的X坐标与概率前K的K个Y坐标组成K对坐标。
7.根据权利要求1所述的可使具有全连接层的CNN接受不定形状输入的方法,其特征在于,步骤6)中剪切出正方形特征图块的详细步骤包括:
6.1)针对每一对坐标,计算其对应特征图的横向尺寸W1与纵向尺寸H1
6.2)将横向尺寸W1和纵向尺寸H1进行比较,如果横向尺寸W1大于纵向尺寸H1,则以坐标XC对应的纵线为裁剪中线裁取XC对应的纵线两边各H1/2宽的范围作为正方形特征图块;否则如果横向尺寸W1小于纵向尺寸H1,则以坐标YC对应的横线为裁剪中线裁取YC对应的横线两边各W1/2宽的范围作为正方形特征图块;其中,XC、YC为预测的特征图块的中心点的坐标。
8.根据权利要求7所述的可使具有全连接层的CNN接受不定形状输入的方法,其特征在于,步骤6.2)中以坐标XC对应的纵线为裁剪中线裁取XC对应的纵线两边各H1/2宽的范围具体是指:当H1/2>=XC时,直接裁取(0,0)、(0,H1)、(H1,H1)、(H1,0)四个坐标点依次连线围成的正方形特征图块;当H1/2>=W1-XC时,直接裁取(W1-H1,0)、(W1-H1,H1)、(W1,H1)、(W1,0)四个坐标点依次连线围成的正方形特征图块;当H1/2<XC<W1-H1/2时,裁取(XC-H1/2,0)、(XC-H1/2,H1)、(XC+H1/2,H1)、(XC+H1/2,0)四个坐标点依次连线围成的正方形特征图块;其中,XC、YC为预测的特征图块的中心点的坐标,W1为步骤6.1)得到的特征图的横向尺寸,H1为步骤6.1)得到的特征图的纵向尺寸。
9.根据权利要求7所述的可使具有全连接层的CNN接受不定形状输入的方法,其特征在于,步骤6.2)中以坐标YC对应的横线为裁剪中线裁取YC对应的横线两边各W1/2宽的范围具体是指:当W1/2>=YC时,直接裁取(0,0)、(0,W1)、(W1,W1)、(W1,0)四个坐标点依次连线围成的正方形特征图块;当W1/2>=H1-YC时,直接裁取(H1-W1,0)、(H1-W1,W1)、(H1,W1)、(H1,0)四个坐标点依次连线围成的正方形特征图块;当W1/2<YC<H1-W1/2时,裁取(YC-W1/2,0)、(YC-W1/2,W1)、(YC+W1/2,W1)、(YC+W1/2,0)四个坐标点依次连线围成的正方形特征图块;其中,XC、YC为预测的特征图块的中心点的坐标,W1为步骤6.1)得到的特征图的横向尺寸,H1为步骤6.1)得到的特征图的纵向尺寸。
10.一种可使具有全连接层的CNN接受不定形状输入的***,包括计算机设备,其特征在于:所述计算机设备被编程以执行权利要求1~9中任意一项所述可使具有全连接层的CNN接受不定形状输入的方法的步骤。
CN201811353465.XA 2018-11-14 2018-11-14 可使具有全连接层的cnn接受不定形状输入的方法及*** Active CN109583584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811353465.XA CN109583584B (zh) 2018-11-14 2018-11-14 可使具有全连接层的cnn接受不定形状输入的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811353465.XA CN109583584B (zh) 2018-11-14 2018-11-14 可使具有全连接层的cnn接受不定形状输入的方法及***

Publications (2)

Publication Number Publication Date
CN109583584A CN109583584A (zh) 2019-04-05
CN109583584B true CN109583584B (zh) 2020-07-10

Family

ID=65922368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811353465.XA Active CN109583584B (zh) 2018-11-14 2018-11-14 可使具有全连接层的cnn接受不定形状输入的方法及***

Country Status (1)

Country Link
CN (1) CN109583584B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956129A (zh) * 2019-11-28 2020-04-03 重庆中星微人工智能芯片技术有限公司 用于生成人脸特征向量的方法、装置、设备和介质
CN113255700B (zh) * 2021-06-10 2021-11-02 展讯通信(上海)有限公司 图像的特征图的处理方法及装置、存储介质、终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447190A (zh) * 2015-12-18 2016-03-30 小米科技有限责任公司 基于卷积神经网络的图片检索方法、装置和服务器
CN107506763A (zh) * 2017-09-05 2017-12-22 武汉大学 一种基于卷积神经网络的多尺度车牌精准定位方法
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN107918780A (zh) * 2017-09-01 2018-04-17 中山大学 一种基于关键点检测的衣服种类和属性分类方法
CN108090464A (zh) * 2017-12-29 2018-05-29 浙江大华技术股份有限公司 一种人脸检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447190A (zh) * 2015-12-18 2016-03-30 小米科技有限责任公司 基于卷积神经网络的图片检索方法、装置和服务器
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN107918780A (zh) * 2017-09-01 2018-04-17 中山大学 一种基于关键点检测的衣服种类和属性分类方法
CN107506763A (zh) * 2017-09-05 2017-12-22 武汉大学 一种基于卷积神经网络的多尺度车牌精准定位方法
CN108090464A (zh) * 2017-12-29 2018-05-29 浙江大华技术股份有限公司 一种人脸检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Exploit All the Layers: Fast and Accurate CNN Object Detector with Scale Dependent Pooling and Cascaded Rejection Classifiers;Fan Yang 等;《2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20160627;第2129-2137页 *
基于多尺度的深度卷积网络的场景识别;李东阳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第3期);第I138-5435页 *

Also Published As

Publication number Publication date
CN109583584A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN107229904B (zh) 一种基于深度学习的目标检测与识别方法
WO2020228446A1 (zh) 模型训练方法、装置、终端及存储介质
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN111079674B (zh) 一种基于全局和局部信息融合的目标检测方法
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN110197182A (zh) 基于上下文信息和注意力机制的遥感影像语义分割方法
CN113674334B (zh) 基于深度自注意力网络和局部特征编码的纹理识别方法
US20210081695A1 (en) Image processing method, apparatus, electronic device and computer readable storage medium
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和***
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN110751195B (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及***
CN108596240B (zh) 一种基于判别特征网络的图像语义分割方法
CN112101262B (zh) 一种多特征融合手语识别方法及网络模型
WO2023030182A1 (zh) 图像生成方法及装置
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及***
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN113496148A (zh) 一种多源数据融合方法及***
CN114612709A (zh) 图像金字塔特征指导的多尺度目标检测方法
CN114581789A (zh) 一种高光谱图像分类方法及***
CN112241736A (zh) 一种文本检测的方法及装置
CN117237623B (zh) 一种无人机遥感图像语义分割方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant