CN111860764A - 视觉任务处理方法及其模型训练方法、装置和电子*** - Google Patents
视觉任务处理方法及其模型训练方法、装置和电子*** Download PDFInfo
- Publication number
- CN111860764A CN111860764A CN202010509859.0A CN202010509859A CN111860764A CN 111860764 A CN111860764 A CN 111860764A CN 202010509859 A CN202010509859 A CN 202010509859A CN 111860764 A CN111860764 A CN 111860764A
- Authority
- CN
- China
- Prior art keywords
- position point
- filter
- data
- network
- filters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 230000000007 visual effect Effects 0.000 title claims abstract description 64
- 238000012549 training Methods 0.000 title claims abstract description 57
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims abstract description 112
- 238000012545 processing Methods 0.000 claims description 67
- 238000011176 pooling Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 abstract description 9
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 31
- 238000010586 diagram Methods 0.000 description 13
- 239000000284 extract Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种视觉任务处理方法及其模型训练方法、装置和电子***,通过预设的网络模型,提取待处理图像的特征数据;其中,该网络模型包括至少一层卷积网络;将包括多个位置点的数据矩阵输入至卷积网络;针对每个位置点,根据该位置点上的数据,确定该位置点的指定滤波器;通过该指定滤波器提取该位置点的特征数据。该方式在无需增加滤波器数量的情况下,对不同的数据采用不同的滤波器提取特征,因而提取到的特性更加有效,从而提高了特征提取效率,有利于从整体上提高网络模型的准确性等性能。
Description
技术领域
本发明涉及神经网络技术领域,尤其是涉及一种视觉任务处理方法及其模型训练方法、装置和电子***。
背景技术
深度学习网络模型中,卷积网络通常用于提取特征数据;一层卷积网络中通常包含多个滤波器;每个滤波器以滑动窗口的形式,在空间维度上提取该卷积网络的输入数据的每个局部位置的特征,从而得到一个通道的特征数据;因而,输出该卷积网络的特征数据的通道数,与该卷积网络的滤波器的数量相同。一层卷积网络中的每个滤波器用于提取特定的特征,为了能够提取到更加丰富的特征,通常采用的方式是增加卷积网络中的滤波器数量,但是,一方面这会导致网络模型的运算量很大,另一方面会提取到很多冗余的特征,导致网络模型提取特征的效率较低,不利于从整体上提高网络模型的准确性等性能。
发明内容
有鉴于此,本发明的目的在于提供视觉任务处理方法及其模型训练方法、装置和电子***,以提高网络模型提取特征的效率。
第一方面,本发明实施例提供了一种视觉任务处理方法,该方法包括:获取待处理图像,将待处理图像输入至预设的网络模型中,输出待处理图像对应的特征数据;基于特征数据,完成预设的视觉任务;其中,网络模型包括至少一层卷积网络;输入至卷积网络的数据矩阵包括多个位置点;针对每个位置点,通过该位置点的指定滤波器提取该位置点的特征数据;指定滤波器根据该位置点上的数据确定。
进一步的,卷积网络包括第一子网络和第二子网络;第一子网络用于:根据数据矩阵,生成多种滤波器;第二子网络用于:针对数据矩阵中的每个位置点,根据该位置点上的数据,从多种滤波器中选择指定滤波器,以通过指定滤波器提取该位置点的特征数据。
进一步的,第一子网络具体用于:对数据矩阵进行平均池化操作,得到池化结果;其中,池化结果的尺度与待生成的滤波器的尺度相匹配;对池化结果进行第一卷积操作,得到第一卷积结果;其中,第一卷积结果的通道数与待生成的滤波器的种类数相关联;对第一卷积结果进行第二卷积操作,得到第二卷积结果;其中,第二卷积结果包括多个滤波器;每个滤波器的通道数与数据矩阵的通道数,以及卷积网络输出数据的通道数相关联。
进一步的,池化结果的尺度与待生成的滤波器的尺度相同;第一卷积结果的通道数等于待生成的滤波器的种类数的平方值;每个滤波器的通道数等于数据矩阵的通道数与卷积网络输出数据的通道数的乘积。
进一步的,第二子网络具体用于:对数据矩阵进行第三卷积操作,得到第三卷积结果;其中,第三卷积结果的通道数与多种滤波器的种类数相关联;针对第三卷积结果中的每个位置点,对该位置点上的数据进行多分类处理,得到分类结果;分类结果包括该位置点使用每个滤波器提取特征数据的概率值;将概率值最大的滤波器,确定为该位置点的目标滤波器。
进一步的,第三卷积结果的通道数与多种滤波器的种类数相同。
第二方面,本发明实施例提供了一种应用于视觉任务处理的网络模型训练方法,该方法包括:将样本图像输入至初始模型;初始模型包括至少一层卷积网络;针对卷积网络,根据输入至卷积网络的数据矩阵生成多种滤波器;对数据矩阵的每个位置点,根据该位置点上的数据,从多种滤波器中确定该位置点的指定滤波器;通过指定滤波器,提取该位置点的特征数据;基于预设的损失函数和初始模型输出的特征数据,计算损失值;根据损失值对初始模型进行迭代训练,得到训练后的网络模型。
进一步的,根据该位置点上的数据,从多种滤波器中确定该位置点的指定滤波器的步骤,包括:对该位置点上的数据进行多分类处理,得到分类结果;其中,分类结果包括该位置点使用每个滤波器提取特征数据的概率值;将概率值最大的滤波器,确定为该位置点的目标滤波器;根据损失值对初始模型进行迭代训练,得到训练后的网络模型的步骤,包括:针对卷积网络,根据分类结果,确定卷积网络在进行反向传播时,各个位置点的目标滤波器;根据损失值和各个位置点的目标滤波器,调整卷积网络的网络参数,得到训练后的网络模型。
进一步的,根据分类结果,确定卷积网络在进行反向传播时,各个位置点的目标滤波器的步骤,包括:针对每个位置点执行下述操作:针对每个滤波器,将该滤波器乘以该位置点使用该滤波器提取特征数据的概率值,得到乘积结果;将每个滤波器的乘积结果求和,得到该位置点的目标滤波器。
进一步的,根据损失值和各个位置点的目标滤波器,调整卷积网络的网络参数步骤,包括:根据各个位置点的目标滤波器,计算各个位置点的特征数据;根据各个位置点的特征数据,计算分类结果的梯度;根据分类结果的梯度和损失值,调整卷积网络的网络参数。
第三方面,本发明实施例提供了一种视觉任务处理装置,该装置包括:数据输出模块,用于获取待处理图像,将待处理图像输入至预设的网络模型中,输出待处理图像对应的特征数据;任务处理模块,用于基于特征数据,完成预设的视觉任务;其中,网络模型包括至少一层卷积网络;输入至卷积网络的数据矩阵包括多个位置点;针对每个位置点,通过该位置点的指定滤波器提取该位置点的特征数据;指定滤波器根据该位置点上的数据确定。
第四方面,本发明实施例提供了一种应用于视觉任务处理的网络模型训练装置,该装置包括:输入模块,用于将样本图像输入至初始模型;初始模型包括至少一层卷积网络;生成模块,用于针对卷积网络,根据输入至卷积网络的数据矩阵生成多种滤波器;对数据矩阵的每个位置点,根据该位置点上的数据,从多种滤波器中确定该位置点的指定滤波器;通过指定滤波器,提取该位置点的特征数据;计算模块,用于基于预设的损失函数和初始模型输出的特征数据,计算损失值;训练模块,用于根据损失值对初始模型进行迭代训练,得到训练后的网络模型。
第五方面,本发明实施例提供了一种电子***,该电子***包括:处理设备和存储装置;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行如第一方面任一实施方式的视觉任务处理方法和第二方面任一实施方式的应用于视觉任务处理的网络模型训练方法。
第六方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行如第一方面任一实施方式的视觉任务处理方法和第二方面任一实施方式的应用于视觉任务处理的网络模型训练方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供了一种视觉任务处理方法及其模型训练方法、装置和电子***,通过预设的网络模型,提取待处理图像的特征数据;其中,该网络模型包括至少一层卷积网络;将包括多个位置点的数据矩阵输入至卷积网络;针对每个位置点,根据该位置点上的数据,确定该位置点的指定滤波器;通过该指定滤波器提取该位置点的特征数据。该方式中,对输入至卷积网络的数据矩阵中的每个位置点,根据该位置点上的数据确定该位置点的指定滤波器,进而基于该指定滤波器提取该位置点上的特征数据,该方式在无需增加滤波器数量的情况下,对不同的数据采用不同的滤波器提取特征,因而提取到的特性更加有效,从而提高了特征提取效率,有利于从整体上提高网络模型的准确性等性能。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子***的结构示意图;
图2为本发明实施例提供的一种视觉任务处理方法的流程图;
图3为本发明实施例提供的一种视觉任务处理方法中,第一子网络的应用方法的流程图;
图4为本发明实施例提供的一种的滤波器生成方法示意图;
图5为本发明实施例提供的一种视觉任务处理方法中,第二子网络的应用方法的流程图;
图6为本发明实施例提供的另一种的滤波器生成方法示意图;
图7为本发明实施例提供的一种多滤波器卷积示意图;
图8为本发明实施例提供的一种应用于视觉任务处理的网络模型训练方法的流程图;
图9为本发明实施例提供的另一种应用于视觉任务处理的网络模型训练方法的流程图;
图10为本发明实施例提供的一种视觉任务处理装置的结构示意图;
图11为本发明实施例提供的一种应用于视觉任务处理的网络模型训练装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,特征提取通常是在整个空间维度上共享滤波器,忽视了特征之间的关系;为了提高网络性能,通常通过增加通道数来增加滤波器的数量,但是,会增加网络的运算量,使得网络运行时间较长,不利于实际运用;另外,多个滤波器重复性地在整个空间维度上提取特征,会提取到大量冗余的特征,导致网络模型提取特征的效率较低,不利于从整体上提高网络模型的准确性等性能;其次,若为每个位置上单独设计滤波器,对于空间维度上相似的信息,使得在结构上过于复杂。
基于此,本发明实施例提供的一种视觉任务处理方法及其模型训练方法、装置和电子***,该技术可以应用于安防设备、计算机、手机、摄像机、平板电脑、车辆终端设备等多种设备中,该技术可以采用关软件和硬件实现,下面通过实施例进行描述。
实施例一:
首先,参照图1来描述用于实现本发明实施例的视觉任务的处理方法及其模型训练方法、装置和电子***的示例电子***100。
如图1所示的一种电子***的结构示意图,电子***100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108,另外可以包括一个或多个图像采集设备110,这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子***100的组件和结构只是示例性的,而非限制性的,根据需要,电子***也可以具有其他组件和结构。
处理设备102可以是网关,也可以为智能终端,或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对电子***100中的其它组件的数据进行处理,还可以控制电子***100中的其它组件以执行期望的功能。
存储装置104可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行程序指令,以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置108可以向外部(例如,用户)输出各种信息(例如,图像、声音或数据),并且可以包括显示器、扬声器等中的一个或多个。
图像采集设备110可以采集预览视频帧或图像数据(如待处理图像或训练图像),并且将采集到的预览视频帧或图像数据存储在存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的视觉任务处理方法及其模型训练方法、装置和电子***的示例电子***中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将图像采集设备110设置于可以采集到图片的指定位置。当上述电子***中的各器件集成设置时,该电子***可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端、摄像机等智能终端。
实施例二:
本实施例提供了一种视觉任务处理方法,如图2所示,该方法包括如下步骤:
步骤S202,获取待处理图像,将待处理图像输入至预设的网络模型中,输出待处理图像对应的特征数据;
上述待处理图像可以是包含人脸、物体、风景、文字的图像,比如,摄像头抓拍的人脸和行人图像,或者商场超市摆放的物体图像,或者各种建筑、自然景观图像,或者各种文本图像等;另外,上述待处理图像可以是包含多个通道的特征图,比如,根据图像的基本颜色,可以将图像分为红、绿、蓝三种颜色的特征图,即三通道的特征图。上述预设的网络模型可以是CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent NeuralNetwork,循环神经网络)、DNN(Deep Neural Network,深度神经网络)等网络模型;该网络模型通常可以包含有多层卷积网络,还可以包含有多个滤波器。实际实现时,通过上述预设的网络模型中的滤波器,提取待处理图像中多个位置点的特征数据。
步骤S204,基于该特征数据,完成预设的视觉任务;
上述预设的视觉任务可以包括人脸识别、物体检索、目标检测、图像语义分割、场景文字识别、人体关键点检测、视频分类、度量学习等;上述特征数据可以是关于人脸、物体、语义、场景、文字等各类图像的特征数据;实际是现实,根据输出的特征数据可以识别待处理图像的目标任务;比如,根据输出的人脸特征数据,可以识别待处理图像包含的人脸;再如,根据输出的物体特征数据,可以从包含有多种类型物体的待处理图像中检索到目标物体;再如,根据输出的文字特征数据,可以从包含有多个文字的待处理图像中识别语义或者文字场景等;进而完成预设的视觉任务。
其中,网络模型包括至少一层卷积网络;输入至卷积网络的数据矩阵包括多个位置点;针对每个位置点,通过该位置点的指定滤波器提取该位置点的特征数据;指定滤波器根据该位置点上的数据确定。
上述卷积网络也可以称为卷积层(Convolutional layer),卷积神经网络中每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到的;卷积层的作用是卷积运算,卷积运算的目的是提取输入的不同特征,第一层卷积层通常只能提取一些低级的特征如边缘、线条和角等层级,更多层的网络可以从低级特征中迭代提取更复杂的特征。上述数据矩阵通常是指图像数据;数据矩阵的行对应图像的高(单位为像素),数据矩阵的列对应图像的宽(单位为像素),数据矩阵的元素,即上述位置点,可以对应图像的像素等数据;比如,数据矩阵元素可以对应图像中像素的灰度值。
实际实现时,通过卷积网络,可以根据数据矩阵的形状、尺度、数据特征等特性,以及视觉任务的实际需求,生成多个滤波器;其中,不同的滤波器可以提取不同的特征;另外,输入至卷积网络的数据矩阵中的每个位置点,可以根据该位置点的数据,通过卷积网络中的包含的各类函数和卷积核,比如,分类函数、损失函数等,根据每个位置点的数据,以及网络中的不同滤波器提取不同特征的功能,可以对每个位置点的数据进行分类,得到每个位置点采用不同滤波器提取该位置点数据的结果,比如,每个位置点采用不同滤波器提取该位置点数据的准确率、使用概率、运算速度、提取效果等,使得每个位置点可以确定一个最优的指定滤波器,提取该位置点的数据特征;也可以通过每个滤波器对该位置点的数据分别进行特征提取,通过计算损失值,确定该位置点的指定滤波器;最后,通过该位置点的指定滤波器提取该位置点的特征数据,以使不同的数据可以采用不同的滤波器提取特征。
本发明实施例提供了一种视觉任务处理方法,通过预设的网络模型,提取待处理图像的特征数据;其中,该网络模型包括至少一层卷积网络;将包括多个位置点的数据矩阵输入至卷积网络;针对每个位置点,根据该位置点上的数据,确定该位置点的指定滤波器;通过该指定滤波器提取该位置点的特征数据。该方式中,对输入至卷积网络的数据矩阵中的每个位置点,根据该位置点上的数据确定该位置点的指定滤波器,进而基于该指定滤波器提取该位置点上的特征数据,该方式在无需增加滤波器数量的情况下,对不同的数据采用不同的滤波器提取特征,因而提取到的特性更加有效,从而提高了特征提取效率,有利于从整体上提高网络模型的准确性等性能。
进一步的,上述卷积网络包括第一子网络和第二子网络;其中,第一子网络用于:根据数据矩阵,生成多种滤波器;
上述数据矩阵可以是之前卷积网络输出的数据矩阵,也可以是输入至网络模型的初始图像;上述滤波器的数量以及种类通常根据输入的数据矩阵生成;另外,一个卷积网络中滤波器的数量可以与该卷积网络输出的通道数量相同;比如,卷积网络要求输出的特征数据的通道为n,则可以通过第一子网络,根据数据矩阵,生成n种滤波器。生成的多种滤波器之间在整个网络模型的空间维度上相互不共享,也就是说,对于输入的数据矩阵,该数据矩阵中不同位置点上采用的滤波器可以是不同的。
第二子网络用于:针对数据矩阵中的每个位置点,根据该位置点上的数据,从多种滤波器中选择指定滤波器,以通过指定滤波器提取该位置点的特征数据。
通常标准或者普通的卷积网络,针对数据矩阵中的每个位置点,通常通过该网络中的所有滤波器提取该位置点的特征数据;本实施中,利用第二子网络,可以通过机器学习中的分类函数,比如,Logistic、softmax、argmax等函数,利用数据矩阵中的每个位置点的数据,计算每个位置点选择每个滤波器提取特征的结果数据,比如,可以计算每个位置点使用每个滤波器提取特征的效果、使用概率等数据,根据计算的结果数据,可以得到每个位置点对应的指定滤波器,通过该指定滤波器提取该位置点的特征数据,以使不同的数据可以采用不同的滤波器提取特征。
实施例三:
本实施例提供了一种视觉任务处理方法中,第一子网络的应用方法流程图,该方法在上述实施例的基础上实现。本实施例重点描述第一子网络的具体应用方法。如图3所示,该方法包括如下步骤:
步骤S302,对数据矩阵进行平均池化操作,得到池化结果;其中,池化结果的尺度与待生成的滤波器的尺度相匹配;
上述平均池化操作,即对数据矩阵中包括的每个位置点的数据计算均值;上述待生成的滤波器的尺度可以根据待处理图像的数据矩阵等特性进行设定,比如,可以是3×3大小的滤波器;实际实现时,通常会根据待生成滤波器的尺度大小,对数据矩阵进行平均池化操作,同时可以将数据矩阵进行采样处理,得到与待生成的滤波器的尺度相匹配的池化结果,该池化结果也可以称为特征图。另外,上述与待生成的滤波器的尺度相匹配,可以是池化结果的尺度与待生成的滤波器的尺度大小相同,或者池化结果的尺度与待生成的滤波器的尺度大小相差一定的倍数。
优选的实施方式:上述池化结果的尺度与待生成的滤波器的尺度相同;这就需要对数据矩阵中包括的每个位置点的数据计算均值,同时将数据矩阵进行采样处理,以使池化结果的尺度与待生成的滤波器的尺度相同。
步骤S304,对池化结果进行第一卷积操作,得到第一卷积结果;其中,第一卷积结果的通道数与待生成的滤波器的种类数相关联;
上述第一卷积操作,即通过一个预设尺度的卷积核,对上述池化结果进行卷积计算,得到第一卷积结果;其中,第一卷积结果的尺度通常不变;具体的,通过第一卷积操作,将池化结果的通道数转换成与待生成的滤波器的种类数相关联的通道数;比如,第一卷积结果的通道数与待生成的滤波器的种类数相同,或者第一卷积结果的通道数为待生成的滤波器的种类数的倍数,或者第一卷积结果的通道数为待生成的滤波器的种类数的次方数等;上述预设尺度的卷积核可以是1×1卷积核。
优选的实施方式:第一卷积结果的通道数等于待生成的滤波器的种类数的平方值;比如,预设的待生成的滤波器的种类数为m,则第一卷积结果的通道数为m2。
步骤S306,对第一卷积结果进行第二卷积操作,得到第二卷积结果;其中,第二卷积结果包括多个滤波器;每个滤波器的通道数与数据矩阵的通道数,以及卷积网络输出数据的通道数相关联。
上述第二卷积操作可以是通过一个预设尺度的卷积核,通过分组卷积的方式,对第一卷积结果进行卷积计算,得到第二卷积结果;实际实现时,可以将上述第一卷积结果进行分组卷积操作,得到多组滤波器,即上述多个滤波器;其中的分组数量可以与待生成滤波器的数量相关联,比如,分组数量与待生成滤波器的数量相同;需要注意的是,第二卷积操作的分组卷积方式只是在第一卷积结果的深度上进行划分,即某几个通道为一组,具体的每组滤波器的数量,即每个滤波器的通道数,由数据矩阵的通道数,以及卷积层输出数据的通道数决定,比如,每个滤波器的通道数等于数据矩阵的通道数与卷积层输出数据的通道数的和,或者每个滤波器的通道数等于数据矩阵的通道数与卷积层输出数据的通道数的乘积,或者每个滤波器的通道数等于数据矩阵的通道数与卷积层输出数据的通道数的差值等。
优选的实施方式:每个滤波器的通道数等于数据矩阵的通道数与卷积网络输出数据的通道数的乘积;这就需要对第一卷积结果进行第二卷积操作时,确定分组卷积的具体方式,以使得到的每个滤波器的通道数等于数据矩阵的通道数与卷积层输出数据的通道数的乘积。
综上,本实施例以待生成滤波器的尺度为3×3、数量为m,数据矩阵的通道数为C,输出通道数为O,尺度大小为U×V,步长为1为例进行具体说明,参考图4所示的一种的滤波器生成方法示意图。
首先,为了生成m个滤波器,数据矩阵通过平均池化操作(对应图中的pooling),将U×V大小的数据矩阵进行采样,得到尺度为3×3、通道数为C的数据矩阵,即池化结果;然后,通过一个1×1卷积核,对该池化结果进行第一卷积操作(对应图中的第一个conv),将通道数为C的数据矩阵转换为通道数为m×m的数据矩阵,即上述第一卷积结果;最后,通过一个1×1分组卷积(对应图中的第二个conv),设置分组卷积的分组数量g=m,得到通道数为m×O×C、大小为3×3的数据矩阵,即上述第二卷积结果;其中,第二卷积结果包括m个滤波器,每个滤波器的形状均为O×C×3×3,即每个滤波器的通道数等于数据矩阵的通道数C与卷积层输出数据的通道数O的乘积。具体的,数据矩阵通过第一子网络生成的m个滤波器可以表示为W0,W1,…,Wm-1。
该方式中,利用卷积网络包括的第一子网络,根据数据矩阵,生成多种滤波器;其中,多种滤波器可以在空间维度上动态使用,以方便数据矩阵中的多个位置点,选择该位置点的指定滤波器,提取该位置点的特征数据;在无需增加滤波器数量的情况下,对不同的数据采用不同的滤波器提取特征,因而提取到的特性更加有效,从而提高了特征提取效率,有利于从整体上提高网络模型的准确性等性能。
实施例四:
本实施例提供了一种视觉任务处理方法中,第二子网络的应用方法,该方法在上述实施例的基础上实现。本实施例重点描述第二子网络的具体应用方法。如图5所示,该方法包括如下步骤:
步骤S502,对数据矩阵进行第三卷积操作,得到第三卷积结果;其中,第三卷积结果的通道数与多种滤波器的种类数相关联;
上述第三卷积操作,即通过一个预设尺度的卷积核,对数据矩阵进行卷及计算,得到第三卷积结果;其中,第三卷积结果的尺度通常不变;具体的,通过第三卷积操作,是将数据矩阵的通道数转换成与多种滤波器的种类数相关联的通道数;比如,第三卷积结果的通道数与多种滤波器的种类数相同,或者第三卷积结果的通道数为多种滤波器的种类数的倍数,或者第三卷积结果的通道数为多种滤波器的种类数的次方数等;上述预设尺度的卷积核可以是1×1卷积核。
优选的实施方式:上述第三卷积结果的通道数与多种滤波器的种类数相同;比如,多种滤波器的种类数为m,则第三卷积结果的通道数为m。
步骤S504,针对第三卷积结果中的每个位置点,对该位置点上的数据进行多分类处理,得到分类结果;分类结果包括该位置点使用每个滤波器提取特征数据的概率值;
上述第三卷积结果中的每个位置点通常包括所有通道的位置点;比如,第三卷积结果的通道数为m,则上述第三卷积结果中的每个位置点表示的是,数据矩阵在m个通道上的位置点;本实施以第三卷积结果的通道数为m为例,进行说明,通常将每个位置点上的m个通道上的数据进行多分类处理,即通过分类器等处理方法,比如,softmax函数等,将每个位置点上的m个通道上的数据映射成为(0,1)的值,这些值的累加和为1(满足概率的性质),通常可以将其理解为概率;其中,每个位置点的映射值的数量通常为第三卷积结果的通道数m,每个映射值即为该位置点中其中一个通道使用其中一个滤波器的提取对应特征数据的概率值。另外,每个映射值,即每个滤波器提取特征数据的概率值,都标识有对应的滤波器,以及对应的位置坐标。
步骤S506,将概率值最大的滤波器,确定为该位置点的目标滤波器。
具体的,可以利用求参函数,比如,argmax函数,在每个位置的每个概率值中,选取最大概率值,以及该最大概率值标识的对应的滤波器,将该滤波器,确定为该位置点的目标滤波器。
综上,本实施例以生成的滤波器的尺度为3×3、数量为m,数据矩阵的通道数为C,尺度大小为U×V为例进行具体说明,参考图6所示的另一种具体的滤波器生成方法示意图。
首先,通过一个1×1卷积核,对数据矩阵进行第三卷积操作(对应图中的conv),将通道数为C的数据矩阵转换为通道数为m的数据矩阵,即上述第三卷积结果;然后,在数据矩阵的通道维度上,针对每个位置点的数据进行多分类处理(对应图中的softmax),得到一个通道数为m,尺度大小为U×V的特征图,即上述分类结果;其中,该特征图的每个位置点包含m个滤波器的使用概率值;最后,通过argmax操作得到空间分布mask,(对应图中的U×V矩形图),空间分布mask中每个位置点表示选取最大概率值对应点的滤波器的下标。具体的,进行特征提取操作时,对于空间维度的任一位置(u,v),空间分布mask上对应的值为i=masku,v,则该位置使用的滤波器为Wi,对应的输出特征图中的值为:Yu,v=conv(Xu,v,Wi)。
该方式中,利用卷积网络包括的第二子网络,针对数据矩阵中的每个位置点,对该位置点上的数据进行多分类处理,得到包括该位置点使用每个滤波器提取特征数据的分类结果;考虑到空间维度上部分相似的信息可共享同一个滤波器,根据分类结果中的概率值,利用可学习的空间分布指导滤波器的选取和设计;该方式在无需增加滤波器数量的情况下,对不同的数据采用不同的滤波器提取特征,因而提取到的特性更加有效,从而提高了特征提取效率,有利于从整体上提高网络模型的准确性等性能。
本实施例提供了一个具体的实施方式,如图7所示的多滤波器卷积示意图,上述输入数据矩阵对应图中的X,输出的待处理图像对应的特征数据对应图中的Y;根据数据矩阵,通过第一子网络,生成m个滤波器W0,W1,…,Wm-1;然后,根据数据矩阵,利用第二子网络,生成一个通道数为m的特征图,该特征图的每个位置点包含m个滤波器的使用概率值;在通道维度上取最大概率值的下标,得到空间分布mask;该空间分布mask值的范围是[0,m-1]。mask中每个位置的值代表了该位置应该使用的滤波器下标;对于空间维度的每个位置,有m个滤波器可供选择,可以根据空间分布mask中的值选取对应的滤波器进行卷积操作,得到待处理图像对应的特征数据Y。
实施例五:
本实施例提供了一种应用于视觉任务处理的网络模型训练方法,如图8所示,该方法包括如下步骤:
步骤S802,将样本图像输入至初始模型;初始模型包括至少一层卷积网络;
上述样本图像可以是包含人脸、物体、风景、文字的多张图像;上述初始模型可以是CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent NeuralNetwork,循环神经网络)、DNN(Deep Neural Network,深度神经网络)等网络模型;该网络模型通常可以包含有多层卷积网络,还可以包含有多个滤波器。
步骤S804,针对卷积网络,根据输入至卷积网络的数据矩阵生成多种滤波器;对数据矩阵的每个位置点,根据该位置点上的数据,从多种滤波器中确定该位置点的指定滤波器;通过指定滤波器,提取该位置点的特征数据;
上述卷积网络也可以称为卷积层(Convolutional layer),卷积神经网络中每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到的;卷积层的作用是卷积运算,卷积运算的目的是提取输入的不同特征;上述数据矩阵通常是指上述样本图像的图像数据,可以是之前卷积网络输出的数据矩阵,也可以是输入至初始模型的样本图像。
具体的,在训练网络模型的前向传播时包括,根据数据矩阵,利用上述卷积网络,生成多种滤波器;其中,滤波器的数量通常根据数据矩阵预先设定;利用上述卷积网络,可以通过机器学习包含的分类函数,比如,Logistic、softmax、argmax等函数,利用数据矩阵中的每个位置点的数据,计算每个位置点选择每个滤波器的结果数据,比如,可以计算每个位置点使用每个滤波器的效果值、使用概率等数据,根据计算的结果数据,得到每个位置点对应的指定滤波器,通过该指定滤波器提取该位置点的特征数据。
步骤S806,基于预设的损失函数和初始模型输出的特征数据,计算损失值;
上述预设的损失函数可以度量初始模型输出的特征数据与真实数据之间的差异;通常通过损失函数,比如,计算初始模型输出的特征数据与真实数据之间的差异,该差异可以是均方误差损失、平均绝对值误差损失、平均绝对百分误差等损失值;其中,损失函数可以是均方误差损失函数、合页损失函数、交叉熵损失函数、CTC(Connectionist TemporalClassification,连接时序类分类)损失函数等。
步骤S808,根据损失值对初始模型进行迭代训练,得到训练后的网络模型。
对初始模型进行迭代训练,可以通过前向传播和反向传播算法进行循环迭代的方式,训练网络模型;在网络模型的训练过程中,通常利用前向传播算法计算损失值,利用计算得到的损失值,通过反向传播算法,减小输出数据与实际数据之间的差异,同时调整网络模型的参数,优化网络模型。比如,如果计算出的损失值不收敛,则选择下一个样本图像进行模型的训练,利用前向传播算法,继续执行步骤S802、步骤S804和步骤S806,至损失值收敛,得到作为应用于视觉任务处理的网络模型;如果损失值收敛,则停止执行上述步骤,将训练后的网络模型输出,作为应用于视觉任务处理的网络模型。损失值收敛,是指对于不同的样本图像,输出的损失值为固定值,或者十分接近某一固定值;比如,对于10个样本图像,损失值均为10,或者在9.8-10.2之间,这两种情况均可以认为损失值已经收敛。
除了损失值收敛之外,还可以将损失值满足预设的损失阈值作为应用于视觉任务处理的网络模型的结束训练条件。这里需要说明的是,损失阈值一般为一个范围,例如,损失阈值可以是0.1-0.5,或者小于30%等。只要损失值在损失阈值的范围内,即可以说明损失值满足预设的损失阈值。
本发明实施例提供了一种应用于视觉任务处理的网络模型训练方法,利用样本图像训练包含有至少一层卷及网络的初始模型,针对该卷积网络,根据输入至卷积网络的数据矩阵生成多种滤波器;对数据矩阵的每个位置点,根据该位置点上的数据,从多种滤波器中确定该位置点的指定滤波器;通过该指定滤波器,提取该位置点的特征数据;基于预设的损失函数和输出的特征数据,计算损失值;根据该损失值对初始模型进行迭代训练,得到训练后的网络模型;该方式中训练得到的网络模型,在无需增加滤波器数量的情况下,对不同的数据采用不同的滤波器提取特征,因而提取到的特性更加有效,从而提高了特征提取效率,有利于从整体上提高网络模型的准确性等性能。
实施例六:
本实施例提供了另一种应用于视觉任务处理的网络模型训练方法,该方法在上述实施例的基础上实现。本实施例重点描述根据该位置点上的数据,从多种滤波器中确定该位置点的指定滤波器的步骤的具体实现过程(通过步骤S904实现),以及根据损失值对初始模型进行迭代训练,得到训练后的网络模型的步骤的具体实现过程(通过步骤S908-S910实现);如图9所示,该方法包括如下步骤:
步骤S902,将样本图像输入至初始模型;初始模型包括至少一层卷积网络;
步骤S904,针对卷积网络,根据输入至卷积网络的数据矩阵生成多种滤波器;对数据矩阵的每个位置点,对该位置点上的数据进行多分类处理,得到分类结果;其中,分类结果包括该位置点使用每个滤波器提取特征数据的概率值;将概率值最大的滤波器,确定为该位置点的目标滤波器;通过该目标滤波器,提取该位置点的特征数据;
上述多分类处理,具体的,在进行分类处理前,首先需要将数据矩阵的通道数转换为生成的滤波器的数量;本实施例以生成m个滤波器为例进行说明,可以将每个位置点上的m个通道上的数据进行多分类处理,即通过分类器等处理方法,比如,softmax函数等,将每个位置点上的m个通道上的数据映射成为(0,1)的值,这些值的累加和为1,即满足概率的性质,通常可以将其理解为概率;其中,每个位置点的映射值的数量通常为第三卷积结果的通道数m,每个映射值即为该位置点中其中一个通道使用其中一个滤波器的提取对应特征数据的概率值。另外,每个映射值,即每个滤波器提取特征数据的概率值,都标识有对应的滤波器,以及对应的位置坐标;利用求参函数,比如,argmax函数,在每个位置的每个概率值中,选取最大概率值,以及该最大概率值标识的对应的滤波器,将该滤波器,确定为该位置点的目标滤波器;通过该目标滤波器,提取该位置点的特征数据。
步骤S906,基于预设的损失函数和初始模型输出的特征数据,计算损失值;
步骤S908,针对卷积网络,根据分类结果,确定卷积网络在进行反向传播时,各个位置点的目标滤波器;
上述反向传播通常是指,一种有效的计算梯度的方法;具体的,计算得到损失值后,如果该损失值不收敛,针对卷积网络中的参数,根据上述分类结果包括的每个位置点使用每个滤波器提取特征数据的概率值,可以通过选取最大值、线性相加、线性相乘、排列组合等方式,确定卷积网络在进行反向传播时,各个位置点的目标滤波器。
上述根据分类结果,确定卷积网络在进行反向传播时,各个位置点的目标滤波器的步骤,包括:
针对每个所位置点执行下述操作:
步骤A1,针对每个滤波器,将该滤波器乘以该位置点使用该滤波器提取特征数据的概率值,得到乘积结果;
步骤A2,将每个滤波器的乘积结果求和,得到该位置点的目标滤波器。
具体的,本实施例以滤波器的数量为m为例进行说明,对于数据矩阵的每一个位置点,均有m个滤波器和m个表示使用每个滤波器的概率值;卷积网络在进行反向传播,执行该位置点的卷积操作时,计算m个滤波器和与之对应的概率值的乘积结果,得到m个乘积结果;将m个乘积结果线性相加,计算得到该位置点的新滤波器,即上述目标滤波器。
步骤S910,根据损失值和各个位置点的目标滤波器,调整卷积网络的网络参数,得到训练后的网络模型。
如果损失值不收敛,根据该损失值和各个位置点的目标滤波器,对该卷积网络进行方向传播计算,调整卷积网络的网络参数;反向传播通常借助微积分中的求导法则,计算两个或两个以上复合函数的导数,将输出单元的梯度反向传播回输入单元,根据计算出的梯度,调整网络模型的可学习参数优化模型,得到训练后的网络模型。
上述根据损失值和各个位置点的目标滤波器,调整卷积网络的网络参数,得到训练后的网络模型的步骤,包括:
步骤B1,根据各个位置点的目标滤波器,计算各个位置点的特征数据;
实际实现时,可以根据空间分布mask上的位置(u,v)的概率值为α0,α1,…,αm-1,利用加权求和的方式得到进行反向传播时,卷积计算的目标滤波器,通过该目标滤波器进行卷积计算,提取每个位置点的特征数据,该过程可以表示为:Yu,v=conv(Xu,v,α0·W0+α1·W1+…+αm-1·Wm-1)。
步骤B2,根据各个位置点的特征数据,计算分类结果的梯度;
步骤B3,根据分类结果的梯度和损失值,调整卷积网络的网络参数。
具体的,为了在反向传播时计算分类结果的梯度,可以根据前向传播的方式进行反传,即,根据上述步骤S908的方法计算出各个位置点的目标滤波器,通过该目标滤波器提取数据矩阵各个位置点的特征数据;根据各个位置点的特征数据,计算分类结果的梯度,即分类结果中每个位置点使用每个滤波器提取特征数据的概率值在该位置点的特征数据处的方向导数;该梯度包括梯度的方向,该梯度的方向指明了误差扩大的方向,因此在更新卷积网络的网络参数的权重时需要对其取反,从而减小权重引起的误差。
该方式中,在训练网络模型时,通过前向传播的方式,针对卷积网络,根据分类结果,确定卷积网络在进行反向传播时,各个位置点的目标滤波器;根据该损失值和各个位置点的目标滤波器,调整卷积网络的网络参数,得到训练后的网络模型;考虑到了空间维度上部分相似的信息可共享同一个滤波器,设计了一个有效的可学习空间分布的结构用于指导多个滤波器在空间维度上的动态使用的网络模型,在无需增加滤波器数量的情况下,对不同的数据采用不同的滤波器提取特征,因而提取到的特性更加有效,从而提高了特征提取效率,有利于从整体上提高网络模型的准确性等性能。
实施例七:
对应于上述方法实施例,参见图10所示的一种视觉任务处理装置的结构示意图,该装置包括:
数据输出模块1010,用于获取待处理图像,将待处理图像输入至预设的网络模型中,输出待处理图像对应的特征数据;
任务处理模块1020,用于基于特征数据,完成预设的视觉任务;
其中,网络模型包括至少一层卷积网络;输入至卷积网络的数据矩阵包括多个位置点;针对每个位置点,通过该位置点的指定滤波器提取该位置点的特征数据;指定滤波器根据该位置点上的数据确定。
本发明实施例提供了一种视觉任务处理装置,通过预设的网络模型,提取待处理图像的特征数据;其中,该网络模型包括至少一层卷积网络;将包括多个位置点的数据矩阵输入至卷积网络;针对每个位置点,根据该位置点上的数据,确定该位置点的指定滤波器;通过该指定滤波器提取该位置点的特征数据。该方式中,对输入至卷积网络的数据矩阵中的每个位置点,根据该位置点上的数据确定该位置点的指定滤波器,进而基于该指定滤波器提取该位置点上的特征数据,该方式在无需增加滤波器数量的情况下,对不同的数据采用不同的滤波器提取特征,因而提取到的特性更加有效,从而提高了特征提取效率,有利于从整体上提高网络模型的准确性等性能。
进一步的,上述卷积网络包括第一子网络和第二子网络;第一子网络用于:根据数据矩阵,生成多种滤波器;第二子网络用于:针对数据矩阵中的每个位置点,根据该位置点上的数据,从多种滤波器中选择指定滤波器,以通过指定滤波器提取该位置点的特征数据。
进一步的,上述第一子网络具体用于:对数据矩阵进行平均池化操作,得到池化结果;其中,池化结果的尺度与待生成的滤波器的尺度相匹配;对池化结果进行第一卷积操作,得到第一卷积结果;其中,第一卷积结果的通道数与待生成的滤波器的种类数相关联;对第一卷积结果进行第二卷积操作,得到第二卷积结果;其中,第二卷积结果包括多个滤波器;每个滤波器的通道数与数据矩阵的通道数,以及卷积网络输出数据的通道数相关联。
进一步的,上述池化结果的尺度与待生成的滤波器的尺度相同;第一卷积结果的通道数等于待生成的滤波器的种类数的平方值;每个滤波器的通道数等于数据矩阵的通道数与卷积网络输出数据的通道数的乘积。
进一步的,上述第二子网络具体用于:对数据矩阵进行第三卷积操作,得到第三卷积结果;其中,第三卷积结果的通道数与多种滤波器的种类数相关联;针对第三卷积结果中的每个位置点,对该位置点上的数据进行多分类处理,得到分类结果;分类结果包括该位置点使用每个滤波器提取特征数据的概率值;将概率值最大的滤波器,确定为该位置点的目标滤波器。
进一步的,上述第三卷积结果的通道数与多种滤波器的种类数相同。
本发明实施例提供的视觉任务处理装置,与上述实施例提供的视觉任务处理方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例八:
对应于上述方法实施例,参见图11所示的一种应用于视觉任务处理的网络模型训练装置的结构示意图,该装置包括:
输入模块1110,用于将样本图像输入至初始模型;初始模型包括至少一层卷积网络;
生成模块1120,用于针对卷积网络,根据输入至卷积网络的数据矩阵生成多种滤波器;对数据矩阵的每个位置点,根据该位置点上的数据,从多种滤波器中确定该位置点的指定滤波器;通过指定滤波器,提取该位置点的特征数据;
计算模块1130,用于基于预设的损失函数和初始模型输出的特征数据,计算损失值;
训练模块1140,用于根据损失值对初始模型进行迭代训练,得到训练后的网络模型。
本发明实施例提供了一种应用于视觉任务处理的网络模型训练装置,利用样本图像训练包含有至少一层卷及网络的初始模型,针对该卷积网络,根据输入至卷积网络的数据矩阵生成多种滤波器;对数据矩阵的每个位置点,根据该位置点上的数据,从多种滤波器中确定该位置点的指定滤波器;通过该指定滤波器,提取该位置点的特征数据;基于预设的损失函数和输出的特征数据,计算损失值;根据该损失值对初始模型进行迭代训练,得到训练后的网络模型;该方式中训练得到的网络模型,在无需增加滤波器数量的情况下,对不同的数据采用不同的滤波器提取特征,因而提取到的特性更加有效,从而提高了特征提取效率,有利于从整体上提高网络模型的准确性等性能。
进一步的,上述生成模块用于:对该位置点上的数据进行多分类处理,得到分类结果;其中,分类结果包括该位置点使用每个滤波器提取特征数据的概率值;将概率值最大的滤波器,确定为该位置点的目标滤波器;
上述训练模块用于:针对卷积网络,根据分类结果,确定卷积网络在进行反向传播时,各个位置点的目标滤波器;根据损失值和各个位置点的目标滤波器,调整卷积网络的网络参数,得到训练后的网络模型。
进一步的,上述训练模块用于:针对每个位置点执行下述操作:针对每个滤波器,将该滤波器乘以该位置点使用该滤波器提取特征数据的概率值,得到乘积结果;将每个滤波器的乘积结果求和,得到该位置点的目标滤波器。
进一步的,上述训练模块用于:根据各个位置点的目标滤波器,计算各个位置点的特征数据;根据各个位置点的特征数据,计算分类结果的梯度;根据分类结果的梯度和损失值,调整卷积网络的网络参数。
本发明实施例提供的应用于视觉任务处理的网络模型训练装置,与上述实施例提供的应用于视觉任务处理的网络模型训练方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例九:
本发明实施例提供了一种电子***,该电子***包括:图像采集设备、处理设备和存储装置;图像采集设备,用于获取预览视频帧或图像数据;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行如上述视觉任务处理方法,或者上述应用于视觉任务处理的网络模型训练方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子***的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行如上述视觉任务处理方法,或者上述应用于视觉任务处理的网络模型训练方法的步骤。
本发明实施例所提供的视觉任务处理方法、装置和电子***的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (14)
1.一种视觉任务处理方法,其特征在于,所述方法包括:
获取待处理图像,将所述待处理图像输入至预设的网络模型中,输出所述待处理图像对应的特征数据;
基于所述特征数据,完成预设的视觉任务;
其中,所述网络模型包括至少一层卷积网络;输入至所述卷积网络的数据矩阵包括多个位置点;针对每个所述位置点,通过该位置点的指定滤波器提取该位置点的特征数据;所述指定滤波器根据该位置点上的数据确定。
2.根据权利要求1所述的方法,其特征在于,所述卷积网络包括第一子网络和第二子网络;
所述第一子网络用于:根据所述数据矩阵,生成多种滤波器;
所述第二子网络用于:针对所述数据矩阵中的每个位置点,根据该位置点上的数据,从所述多种滤波器中选择指定滤波器,以通过所述指定滤波器提取该位置点的特征数据。
3.根据权利要求2所述的方法,其特征在于,所述第一子网络具体用于:
对所述数据矩阵进行平均池化操作,得到池化结果;其中,所述池化结果的尺度与待生成的滤波器的尺度相匹配;
对所述池化结果进行第一卷积操作,得到第一卷积结果;其中,所述第一卷积结果的通道数与待生成的滤波器的种类数相关联;
对所述第一卷积结果进行第二卷积操作,得到第二卷积结果;其中,所述第二卷积结果包括多个滤波器;每个所述滤波器的通道数与所述数据矩阵的通道数,以及所述卷积网络输出数据的通道数相关联。
4.根据权利要求3所述的方法,其特征在于,所述池化结果的尺度与待生成的滤波器的尺度相同;
所述第一卷积结果的通道数等于待生成的滤波器的种类数的平方值;
每个所述滤波器的通道数等于所述数据矩阵的通道数与所述卷积网络输出数据的通道数的乘积。
5.根据权利要求2所述的方法,其特征在于,所述第二子网络具体用于:
对所述数据矩阵进行第三卷积操作,得到第三卷积结果;其中,所述第三卷积结果的通道数与所述多种滤波器的种类数相关联;
针对所述第三卷积结果中的每个位置点,对该位置点上的数据进行多分类处理,得到分类结果;所述分类结果包括该位置点使用每个所述滤波器提取特征数据的概率值;
将概率值最大的滤波器,确定为该位置点的目标滤波器。
6.根据权利要求5所述的方法,其特征在于,所述第三卷积结果的通道数与所述多种滤波器的种类数相同。
7.一种应用于视觉任务处理的网络模型训练方法,其特征在于,所述方法包括:
将样本图像输入至初始模型;所述初始模型包括至少一层卷积网络;
针对所述卷积网络,根据输入至所述卷积网络的数据矩阵生成多种滤波器;对所述数据矩阵的每个位置点,根据该位置点上的数据,从所述多种滤波器中确定该位置点的指定滤波器;通过所述指定滤波器,提取该位置点的特征数据;
基于预设的损失函数和所述初始模型输出的特征数据,计算损失值;
根据所述损失值对所述初始模型进行迭代训练,得到训练后的网络模型。
8.根据权利要求7所述的方法,其特征在于,根据该位置点上的数据,从所述多种滤波器中确定该位置点的指定滤波器的步骤,包括:
对该位置点上的数据进行多分类处理,得到分类结果;其中,所述分类结果包括该位置点使用每个所述滤波器提取特征数据的概率值;将概率值最大的滤波器,确定为该位置点的目标滤波器;
所述根据所述损失值对所述初始模型进行迭代训练,得到训练后的网络模型的步骤,包括:
针对所述卷积网络,根据所述分类结果,确定所述卷积网络在进行反向传播时,各个位置点的目标滤波器;
根据所述损失值和所述各个位置点的目标滤波器,调整所述卷积网络的网络参数,得到训练后的网络模型。
9.根据权利要求8所述的方法,其特征在于,根据所述分类结果,确定所述卷积网络在进行反向传播时,各个位置点的目标滤波器的步骤,包括:
针对每个所述位置点执行下述操作:
针对每个所述滤波器,将该滤波器乘以该位置点使用该滤波器提取特征数据的概率值,得到乘积结果;
将每个所述滤波器的乘积结果求和,得到该位置点的目标滤波器。
10.根据权利要求8所述的方法,其特征在于,根据所述损失值和所述各个位置点的目标滤波器,调整所述卷积网络的网络参数的步骤,包括:
根据所述各个位置点的目标滤波器,计算所述各个位置点的特征数据;
根据所述各个位置点的特征数据,计算所述分类结果的梯度;
根据所述分类结果的梯度和所述损失值,调整所述卷积网络的网络参数。
11.一种视觉任务处理装置,其特征在于,所述装置包括:
数据输出模块,用于获取待处理图像,将所述待处理图像输入至预设的网络模型中,输出所述待处理图像对应的特征数据;
任务处理模块,用于基于所述特征数据,完成预设的视觉任务;
其中,所述网络模型包括至少一层卷积网络;输入至所述卷积网络的数据矩阵包括多个位置点;针对每个所述位置点,通过该位置点的指定滤波器提取该位置点的特征数据;所述指定滤波器根据该位置点上的数据确定。
12.一种应用于视觉任务处理的网络模型训练装置,其特征在于,所述装置包括:
输入模块,用于将样本图像输入至初始模型;所述初始模型包括至少一层卷积网络;
生成模块,用于针对所述卷积网络,根据输入至所述卷积网络的数据矩阵生成多种滤波器;对所述数据矩阵的每个位置点,根据该位置点上的数据,从所述多种滤波器中确定该位置点的指定滤波器;通过所述指定滤波器,提取该位置点的特征数据;
计算模块,用于基于预设的损失函数和所述初始模型输出的特征数据,计算损失值;
训练模块,用于根据所述损失值对所述初始模型进行迭代训练,得到训练后的网络模型。
13.一种电子***,其特征在于,所述电子***包括:处理设备和存储装置;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理设备运行时执行如权利要求1至6任一项所述的视觉任务处理方法和权利要求7-10所述的应用于视觉任务处理的网络模型训练方法。
14.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理设备运行时执行如权利要求1至6任一项所述的视觉任务处理方法和权利要求7-10所述的应用于视觉任务处理的网络模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010509859.0A CN111860764A (zh) | 2020-06-05 | 2020-06-05 | 视觉任务处理方法及其模型训练方法、装置和电子*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010509859.0A CN111860764A (zh) | 2020-06-05 | 2020-06-05 | 视觉任务处理方法及其模型训练方法、装置和电子*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111860764A true CN111860764A (zh) | 2020-10-30 |
Family
ID=72987646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010509859.0A Pending CN111860764A (zh) | 2020-06-05 | 2020-06-05 | 视觉任务处理方法及其模型训练方法、装置和电子*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860764A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101527034A (zh) * | 2008-03-07 | 2009-09-09 | 深圳迈瑞生物医疗电子股份有限公司 | 自适应帧相关的方法和装置 |
US20100026880A1 (en) * | 2008-07-31 | 2010-02-04 | Atsushi Ito | Image Processing Apparatus, Image Processing Method, and Program |
CN105184741A (zh) * | 2015-08-03 | 2015-12-23 | 山东师范大学 | 基于改进非局部均值的三维cbct图像除噪方法 |
CN109948784A (zh) * | 2019-01-03 | 2019-06-28 | 重庆邮电大学 | 一种基于快速滤波算法的卷积神经网络加速器电路 |
CN110210321A (zh) * | 2019-05-08 | 2019-09-06 | 华南理工大学 | 基于多维尺度变换网络与分块加权法的欠样本人脸识别方法 |
CN111080567A (zh) * | 2019-12-12 | 2020-04-28 | 长沙理工大学 | 基于多尺度动态卷积神经网络的遥感图像融合方法及*** |
-
2020
- 2020-06-05 CN CN202010509859.0A patent/CN111860764A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101527034A (zh) * | 2008-03-07 | 2009-09-09 | 深圳迈瑞生物医疗电子股份有限公司 | 自适应帧相关的方法和装置 |
US20100026880A1 (en) * | 2008-07-31 | 2010-02-04 | Atsushi Ito | Image Processing Apparatus, Image Processing Method, and Program |
CN105184741A (zh) * | 2015-08-03 | 2015-12-23 | 山东师范大学 | 基于改进非局部均值的三维cbct图像除噪方法 |
CN109948784A (zh) * | 2019-01-03 | 2019-06-28 | 重庆邮电大学 | 一种基于快速滤波算法的卷积神经网络加速器电路 |
CN110210321A (zh) * | 2019-05-08 | 2019-09-06 | 华南理工大学 | 基于多维尺度变换网络与分块加权法的欠样本人脸识别方法 |
CN111080567A (zh) * | 2019-12-12 | 2020-04-28 | 长沙理工大学 | 基于多尺度动态卷积神经网络的遥感图像融合方法及*** |
Non-Patent Citations (2)
Title |
---|
BERT DE BRABANDERE ET AL.: "Dynamic Filter Networks", 《ARXIV》, 6 June 2016 (2016-06-06), pages 1 - 14 * |
吴刚 等,: "融合ADMM相关滤波器与序列重要性重采样的时间序列预测", 《昆明理工大学学报(自然科学版)》, vol. 2019, no. 6, 15 December 2019 (2019-12-15), pages 52 - 60 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112651438A (zh) | 多类别图像的分类方法、装置、终端设备和存储介质 | |
CN108121931B (zh) | 二维码数据处理方法、装置及移动终端 | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN111325271B (zh) | 图像分类方法及装置 | |
CN116188805B (zh) | 海量图像的图像内容分析方法、装置和图像信息网络 | |
CN110246148B (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
CN111105017B (zh) | 神经网络量化方法、装置及电子设备 | |
TWI643137B (zh) | 物件辨識方法及物件辨識系統 | |
WO2022236824A1 (zh) | 目标检测网络构建优化方法、装置、设备、介质及产品 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测*** | |
CN114694185B (zh) | 一种跨模态目标重识别方法、装置、设备及介质 | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
CN112907569A (zh) | 头部图像区域的分割方法、装置、电子设备和存储介质 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN112329808A (zh) | 一种Deeplab语义分割算法的优化方法及*** | |
CN115713462A (zh) | 超分辨模型训练方法、图像识别方法、装置及设备 | |
Yang et al. | No‐reference image quality assessment via structural information fluctuation | |
CN112418256A (zh) | 分类、模型训练、信息搜索方法、***及设备 | |
CN113516697A (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN116580174A (zh) | 一种虚拟场景实时构建方法 | |
CN113962332B (zh) | 基于自优化融合反馈的显著目标识别方法 | |
CN113780305B (zh) | 一种基于两种线索交互的显著性目标检测方法 | |
CN111860764A (zh) | 视觉任务处理方法及其模型训练方法、装置和电子*** | |
CN115019057A (zh) | 图像特征提取模型确定方法及装置、图像识别方法及装置 | |
CN113449559B (zh) | 一种表格识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |