CN111488901A - 在cnn中从多个模块内的输入图像提取特征的方法及装置 - Google Patents

在cnn中从多个模块内的输入图像提取特征的方法及装置 Download PDF

Info

Publication number
CN111488901A
CN111488901A CN201911291510.8A CN201911291510A CN111488901A CN 111488901 A CN111488901 A CN 111488901A CN 201911291510 A CN201911291510 A CN 201911291510A CN 111488901 A CN111488901 A CN 111488901A
Authority
CN
China
Prior art keywords
feature map
test
feature
nonlinear
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911291510.8A
Other languages
English (en)
Other versions
CN111488901B (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
呂东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111488901A publication Critical patent/CN111488901A/zh
Application granted granted Critical
Publication of CN111488901B publication Critical patent/CN111488901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种在CNN中利用第1至第n模块而从输入图像提取特征的方法,其特征在于,包括:学习装置使第k模块的第1卷积层,将第1_1特征图至第k_1特征图或由其经既定运算的各个特征图逐要素合算,使第k模块的第2卷积层生成第k_2特征图的步骤;使池化层,在从第n模块输出的第n_2特征图或由其经既定运算的特征图上对ROI区域进行池化,将生成的池化特征图输入到特征分类器的步骤;使损失层参照特征分类器的输出值和与其对应的GT而算出损失的步骤,该方法可以优化硬件,提高CNN处理量,本发明的学习方法及测试方法可以适当地就用于小型网络、移动装置等,能够满足关键绩效指标。

Description

在CNN中从多个模块内的输入图像提取特征的方法及装置
技术领域
本发明涉及一种在CNN(Convolutional Neural Network,卷积神经网络)中利用多个模块内的卷积层从输入图像提取特征的学习方法、学习装置、以及利用其的测试方法及测试装置,其能够实现满足关键绩效指标(Key Performance Index,KPI)的硬件优化。
背景技术
深层卷积神经网络(Deep Convolutional Neural Network,Deep CNN)是在深度学习领域发生的惊人发展的核心。为了解决文字识别问题,CNN早在90年代就已经被使用了,而像现在如此广泛应用,得益于最近的研究成果。这样的深度CNN在2012年ImageNet图像分类大赛中战胜其他竞争者而赢得了冠军。之后,卷积神经网络成为了机器学习(Machine Learning)领域中非常有用的工具。
这种CNN可以包括:特征提取器,所述特征提取器从图像提取特征(Feature);特征分类器,所述特征分类器参照特征提取器提取的特征,识别图像或检测图像内的客体。
在以往CNN中,为了从图像提取特征,可以使用包括卷积层的多个卷积模块。例如,各个模块使用3x3大小的过滤器卷积核,针对图像或与之对应的特征图,应用3x3卷积运算,从图像提取特征。
但是,根据以往CNN的卷积运算,如果将输入图像的大小设为(X、Y)、将输入图像的通道数设为Z,将过滤器卷积核的大小设为(M、M),将过滤器数设为L,则运算量为XYZM2L,参数的个数为L(ZM2+1)个,由于诸如通道数、过滤器数、卷积核大小等的众多要素,存在运算量与参数的数个增加的缺点。由于这种运算量的增加,为了防止计算性能低下,可以使用比输入图像的尺寸缩小的,即二次采样的特征图。但是,由于这种二次采样,特征图的尺寸缩小,因而存在图像识别或客体检测所需的特征提取性能低下的问题。
因此,本发明人旨在提出一种在减小运算量的同时准确地提取特征的方法。
发明内容
本发明的目的在于全部解决上述问题。
本发明另一目的是减小在CNN中提取特征所需的运算量。
本发明又一目的是减小运算量并提高特征提取性能。
本发明的目的是通过以下技术方案实现的:
根据本发明的一个方面,一种在卷积神经网络CNN中利用第1至第n模块而从输入图像提取特征的方法,其特征在于,包括:(a)步骤,被输入训练图像后,学习装置(i)使第1模块的第1卷积层,针对所述训练图像应用1x1卷积运算,生成第1_1特征图,(ii)使所述第1模块的第2卷积层针对所述第1_1特征图或由其经既定运算的特征图应用MxM卷积运算,生成第1_2特征图;(b)步骤,在使k从2增加至n的同时,所述学习装置(i)使第k模块的第1卷积层,针对第(k-1)模块输出的第(k-1)_2特征图或由其经既定运算的特征图,应用1x1卷积运算,生成第k_1特征图,(ii)将所述第1_1特征图或由其经既定运算的特征图至所述第k_1特征图或由其经既定运算的特征图中的至少一部分,进行逐要素合算而生成第k-1合成特征图,(iii)使所述第k模块的第2卷积层,针对所述第k-1合成特征图或由其经既定运算的特征图,应用MxM卷积运算,生成第k_2特征图;及(c)步骤,所述学习装置(i)使池化层在第n_2特征图或由其经既定运算的特征图上,对与关注区域ROI对应的区域进行池化,生成池化特征图,(ii)将所述池化特征图输入到特征分类器,使所述特征分类器识别所述训练图像或检测所述训练图像上的至少一个客体,(iii)使损失层参照所述特征分类器的输出值和与其对应的地面真值GT而算出至少一个损失,进而通过利用所述损失的反向传播,调整所述第1模块的所述第1及所述第2卷积层至第n模块的第1及第2卷积层中至少一部分的至少一个参数。
一个实施例,其特征在于,在所述(a)步骤中,所述学***均和方差,将所述第1_1特征图上的所述特征值分别归一化而生成第1_1归一化特征图,使所述第1模块的第1激活层,(i)针对所述第1_1归一化特征图上的各个所述特征值应用非线性运算,生成第1_1非线性特征图后,(ii)将所述第1_1非线性特征图输入到所述第1模块的所述第2卷积层;在所述(b)步骤中,所述学***均和方差,将所述第k_1特征图上的特征值分别归一化,生成第k_1归一化特征图,(ii)使所述第k模块的第1激活层,针对将所述第1_1归一化特征图至所述第k_1归一化的特征图中至少一部分逐要素合算而生成的所述第k-1合成特征图上的各个所述特征值,应用非线性运算,生成第k_1非线性特征图后,(iii)将所述第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
一个实施例,其特征在于,在所述(a)步骤中,所述学***均和方差,将所述第1_1特征图上的所述特征值分别归一化,生成第1_1归一化特征图,(ii)使所述第1模块的第1激活层,(1)针对所述第1_1归一化特征图上的各个所述特征值,应用非线性运算,生成第1_1非线性特征图后,(2)将所述第1_1非线性特征图输入到所述第1模块的所述第2卷积层;在所述(b)步骤中,所述学习装置(i)使所述第k模块的第1批量归一化层,将所述第1_1特征图至所述第k_1特征图中至少一部分逐要素合算,将由此生成的所述第k-1合成特征图上的各个特征值归一化,生成第k_1归一化特征图,(ii)使所述第k模块的第1激活层,(1)针对所述第k_1归一化特征图上的各个所述特征值,应用非线性运算,使得生成第k_1非线性特征图后,(2)将所述第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
一个实施例,其特征在于,在所述(a)步骤中,所述学***均和方差,将所述第1_2特征图上的所述特征值分别归一化而生成第1_2归一化特征图,(ii)使所述第1模块的第2激活层,(1)针对所述第1_2归一化特征图上的各个所述特征值,应用非线性运算,生成第1_2非线性特征图后,(2)使得将所述第1_2非线性特征图从所述第1模块输出;在所述(b)步骤中,所述学***均和方差,将所述第k_2特征图上的所述特征值分别归一化而生成第k_2归一化特征图,(ii)使所述第k模块的第2激活层,(1)针对所述第k_2归一化特征图上的各个所述特征值,应用非线性运算,生成第k_2非线性特征图后,(2)将所述第k_2非线性特征图从所述第k模块输出。
一个实施例,其特征在于,所述学习装置(i)使所述第1模块的所述第1卷积层,针对所述训练图像应用1x1卷积运算,(ii)使所述第k模块的所述第1卷积层,针对所述第(k-1)_2特征图或由其经既定运算的特征图,应用1x1卷积运算,使特征维数增加C倍。
一个实施例,其特征在于,所述C小于所述MxM。
根据本发明的另一个方面,一种在CNN中利用第1至第n模块而从输入图像提取特征的测试方法,其特征在于,包括:(a)步骤,学习装置执行:(I)第1流程,(i)使第1模块的第1卷积层,针对训练图像应用1x1卷积运算,生成学习用第1_1特征图,(ii)使所述第1模块的第2卷积层,针对所述学习用第1_1特征图或由其经既定运算的学习用特征图,应用MxM卷积运算,生成学习用第1_2特征图;(II)第2流程,在使k从2增加至n的同时,(i)使第k模块的第1卷积层,针对从第k-1模块输出的学习用第(k-1)_2特征图或由其经既定运算的学习用特征图,应用1x1卷积运算,生成学习用第k_1特征图,(ii)将所述学习用第1_1特征图或由其经既定运算的学习用特征图至所述学习用第k_1特征图或由其经既定运算的学习用特征图中至少一部分逐要素合算,生成学习用第k-1合成特征图,(iii)使所述第k模块的第2卷积层,针对所述学习用第k-1合成特征图或由其经既定运算的学习用特征图,应用MxM卷积运算,生成学习用第k_2特征图;及(III)第3流程,(i)使池化层,在学习用第n_2特征图或由其经既定运算的学习用特征图上,对与学习用ROI对应的学习用区域进行池化,生成学习用池化特征图,(ii)将所述学习用池化特征图输入到特征分类器,使所述特征分类器识别所述训练图像或检测所述训练图像上的至少一个学习用客体,(iii)使损失层参照所述特征分类器的输出值和与其对应的GT而算出至少一个损失,进而通过利用所述损失的反向传播,调整所述第1模块的所述第1及所述第2卷积层至所述第n模块的第1及第2卷积层中至少一部分的至少一个参数,进而在如此状态下,测试装置(i)获得测试图像,使所述第1模块的所述第1卷积层,针对所述测试图像应用1x1卷积运算,生成测试用第1_1特征图,(ii)使所述第1模块的所述第2卷积层,针对所述测试用第1_1特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,使得生成测试用第1_2特征图;(b)步骤,在使k从2增加至n的同时,所述测试装置(i)使所述第k模块的所述第1卷积层,针对所述从第k-1模块输出的测试用第(k-1)_2特征图或由其经既定运算的测试用特征图,应用1x1卷积运算,使得生成测试用第k_1特征图,(ii)将所述测试用第1_1特征图或由其经既定运算的测试用特征图至所述测试用第k_1特征图或由其经既定运算的测试用特征图中至少一部分逐要素合算,生成测试用第k-1合成特征图,(iii)使所述第k模块的所述第2卷积层,针对所述测试用第k-1合成特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,生成测试用第k_2特征图;及(c)步骤,所述测试装置(i)使所述池化层,在测试用第n_2特征图或由其经既定运算的测试用特征图上,对与测试用ROI对应的测试用区域进行池化,使得生成测试用池化特征图,(ii)将所述测试用池化特征图输入到所述特征分类器,使所述特征分类器识别所述测试图像或检测所述测试图像上的至少一个测试用客体。
一个实施例,其特征在于,在所述(a)步骤中,所述测试装置使第1批量归一化层,利用所述测试用第1_1特征图上的特征值的平均和方差,将所述测试用第1_1特征图上的所述特征值分别归一化而生成测试用第1_1归一化特征图,使所述第1模块的第1激活层,(i)针对所述测试用第1_1归一化特征图上的所述特征值分别应用非线性运算,生成测试用第1_1非线性特征图后,(ii)使所述测试用第1_1非线性特征图输入到所述第1模块的所述第2卷积层;在所述(b)步骤中,所述测试装置(i)使所述第k模块的第1批量归一化层,利用所述测试用第k_1特征图上的特征值的平均和方差,将所述测试用第k_1特征图上的所述特征值分别归一化,生成测试用第k_1归一化特征图,(ii)使所述第k模块的第1激活层,针对将所述测试用第1_1归一化特征图至所述测试用第k_1归一化特征图中至少一部分逐要素合算而生成的所述测试用第k-1合成特征图上的所述特征值,分别应用非线性运算,生成测试用第k_1非线性特征图后,(iii)将所述测试用第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
一个实施例,其特征在于,在所述(a)步骤中,所述测试装置(i)使所述第1模块的第1批量归一化层,利用所述测试用第1_1特征图上的所述特征值的平均和方差,将所述测试用第1_1特征图上的所述特征值分别归一化,生成测试用第1_1归一化特征图,(ii)使所述第1模块的第1激活层,(1)针对所述测试用第1_1归一化特征图上的各个所述特征值,应用非线性运算,生成测试用第1_1非线性特征图后,(2)将所述测试用第1_1非线性特征图输入到所述第1模块的所述第2卷积层;在所述(b)步骤中,所述测试装置(i)使所述第k模块的第1批量归一化层,将所述测试用第1_1特征图至所述测试用第k_1特征图中至少一部分逐要素合算,将由此生成的所述测试用第k-1合成特征图上的各个特征值归一化,生成测试用第k_1归一化特征图,(ii)使所述第k模块的第1激活层,(1)针对所述测试用第k_1归一化特征图上的所述特征值分别应用非线性运算,生成测试用第k_1非线性特征图后,(2)将所述测试用第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
一个实施例,其特征在于,在所述(a)步骤中,所述测试装置(i)使所述第1模块的第2批量归一化层,利用所述测试用第1_2特征图上的所述特征值的平均和方差,将所述测试用第1_2特征图上的各个所述特征值归一化,生成测试用第1_2归一化特征图,(ii)使所述第1模块的第2激活层,(1)针对所述测试用第1_2归一化特征图上的各个所述特征值,应用非线性运算,生成测试用第1_2非线性特征图后,(2)将所述测试用第1_2非线性特征图从所述第1模块输出;在所述(b)步骤中,所述测试装置(i)使所述第k模块的第2批量归一化层,利用所述测试用第k_2特征图上的所述特征值的平均和方差,将所述测试用第k_2特征图上的所述特征值分别归一化,生成测试用第k_2归一化特征图,(ii)使所述第k模块的第2激活层,(1)针对所述测试用第k_2归一化特征图上的各个所述特征值,应用非线性运算,生成测试用第k_2非线性特征图后,(2)将所述测试用第k_2非线性特征图从所述第k模块输出。
一个实施例,其特征在于,所述测试装置(i)使所述第1模块的所述第1卷积层,针对所述测试图像应用1x1卷积运算,(ii)使所述第k模块的所述第1卷积层,针对所述测试用第(k-1)_2特征图或由其经既定运算的测试用特征图,应用1x1卷积运算,使测试用特征维数增加C倍。
一个实施例,其特征在于,所述C小于所述MxM。
根据本发明的又另一个方面,一种在CNN中利用第1至第n模块而从输入图像提取特征的学习装置,其特征在于,包括:存储指令的至少一个存储器;及至少一个处理器,所述至少一个处理器构成为运行指令,所述指令用于执行:(I)流程,(i)使第1模块的第1卷积层,针对训练图像应用1x1卷积运算,生成第1_1特征图,(ii)使所述第1模块的第2卷积层,针对所述第1_1特征图或由其经既定运算的特征图,应用MxM卷积运算,生成第1_2特征图;(II)流程,在使k从2增加至n的同时,(i)使第k模块的第1卷积层,针对从第k-1模块输出的第(k-1)_2特征图或由其经既定运算的特征图,应用1x1卷积运算,生成第k_1特征图,(ii)将所述第1_1特征图或由其经既定运算的特征图至所述第k_1特征图或由其经既定运算的特征图中至少一部分逐要素合算,生成第k-1合成特征图,(iii)使所述第k模块的第2卷积层,针对所述第k-1合成特征图或由其经既定运算的特征图,应用MxM卷积运算,生成第k_2特征图;及(III)流程,(i)使池化层,在第n_2特征图或由其经既定运算的特征图上,对与ROI对应的区域进行池化,生成池化特征图,(ii)将所述池化特征图输入到特征分类器,使所述特征分类器识别所述训练图像或检测所述训练图像上的至少一个客体,(iii)使损失层参照所述特征分类器的输出值和与其对应的GT而算出至少一个损失,从而通过利用所述损失的反向传播,调整所述第1模块的所述第1及所述第2卷积层至第n模块的第1及第2卷积层中至少一部分的至少一个参数。
一个实施例,其特征在于,在所述(I)流程中,所述处理器使第1批量归一化层,利用所述第1_1特征图上的特征值的平均和方差,将所述第1_1特征图上的所述特征值分别归一化,生成第1_1归一化特征图,使所述第1模块的第1激活层,(i)针对所述第1_1归一化特征图上的各个所述特征值,应用非线性运算,生成第1_1非线性特征图后,(ii)将所述第1_1非线性特征图输入到所述第1模块的所述第2卷积层;在所述(II)流程中,所述处理器(i)使所述第k模块的第1批量归一化层,利用所述第k_1特征图上的所述特征值的平均和方差,将所述第k_1特征图上的所述特征值分别归一化,生成第k_1归一化特征图,(ii)使所述第k模块的第1激活层,将所述第1_1归一化特征图至所述第k_1归一化特征图中至少一部分逐要素合算,针对由此生成的所述第k-1合成特征图上的各个所述特征值,应用非线性运算,生成第k_1非线性特征图后,(iii)将所述第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
一个实施例,其特征在于,在所述(I)流程中,所述处理器(i)使所述第1模块的第1批量归一化层,利用所述第1_1特征图上的所述特征值的平均和方差,将所述第1_1特征图上的所述特征值分别归一化,生成第1_1归一化特征图,(ii)使所述第1模块的第1激活层,(1)针对所述第1_1归一化特征图上的各个所述特征值,应用非线性运算,生成第1_1非线性特征图后,(2)将所述第1_1非线性特征图输入到所述第1模块的所述第2卷积层;在所述(II)流程中,所述处理器(i)使所述第k模块的第1批量归一化层,将所述第1_1特征图至所述第k_1特征图中至少一部分逐要素合算,将由此生成的所述第k-1合成特征图上的各个特征值归一化,生成第k_1归一化特征图,(ii)使所述第k模块的第1激活层,(1)针对所述第k_1归一化特征图上的各个所述特征值,应用非线性运算,生成第k_1非线性特征图后,(2)将所述第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
一个实施例,其特征在于,在所述(I)流程中,所述处理器(i)使所述第1模块的第2批量归一化层,利用所述第1_2特征图上的所述特征值的平均和方差,将所述第1_2特征图上的所述特征值分别归一化,生成第1_2归一化特征图,(ii)使所述第1模块的第2激活层,(1)针对所述第1_2归一化特征图上的各个所述特征值,应用非线性运算,生成第1_2非线性特征图后,(2)将所述第1_2非线性特征图从所述第1模块输出;在所述(II)流程中,所述处理器(i)使所述第k模块的第2批量归一化层,利用所述第k_2特征图上的特征值的平均和方差,将所述第k_2特征图上的所述特征值分别归一化,生成第k_2归一化特征图,(ii)使所述第k模块的第2激活层,(1)针对所述第k_2归一化特征图上的各个所述特征值,应用非线性运算,生成第k_2非线性特征图后,(2)将所述第k_2非线性特征图从所述第k模块输出。
一个实施例,其特征在于,所述处理器(i)使所述第1模块的所述第1卷积层,针对所述训练图像,应用1x1卷积运算,(ii)使所述第k模块的所述第1卷积层,针对所述第(k-1)_2特征图或由其经既定运算的特征图,应用1x1卷积运算,使特征维数增加C倍。
一个实施例,其特征在于,所述C小于所述MxM。
根据本发明的又另一个方面,一种在CNN中利用第1至第n模块而从输入图像提取特征的测试装置,其特征在于,包括:存储指令的至少一个存储器;及至少一个处理器,所述至少一个处理器构成为运行所述指令,所述指令用于如下状态,即事先由学习装置执行:第1流程,(i)使第1模块的第1卷积层,针对训练图像应用1x1卷积运算,生成学习用第1_1特征图,(ii)使所述第1模块的第2卷积层,针对所述学习用第1_1特征图或由其经既定运算的学习用特征图,应用MxM卷积运算,生成学习用第1_2特征图;第2流程,在使k从2增加到n的同时,(i)使第k模块的第1卷积层,针对从第k-1模块输出的学习用第(k-1)_2特征图或由其经既定运算的学习用特征图,应用1x1卷积运算,使得生成学习用第k_1特征图,(ii)将所述学习用第1_1特征图或由其经既定运算的学习用特征图至所述学习用第k_1特征图或由其经既定运算的学习用特征图中至少一部分逐要素合算,生成学习用第k-1合成特征图,(iii)使所述第k模块的第2卷积层,针对所述学习用第k-1合成特征图或由其经既定运算的学习用特征图,应用MxM卷积运算,使得生成学习用第k_2特征图;及第3流程,(i)使池化层,在学习用第n_2特征图或由其经既定运算的学习用特征图上,对与学习用ROI对应的学习用区域进行池化,生成学习用池化的特征图,(ii)将所述学习用池化特征图输入到特征分类器,使所述特征分类器识别所述训练图像或检测所述训练图像上的至少一个学习用客体,(iii)使损失层参照所述特征分类器的输出值和与其对应的GT而算出至少一个损失,从而通过利用所述损失的反向传播,调整所述第1模块的所述第1及所述第2卷积层至所述第n模块的第1及第2卷积层中至少一部分的至少一个参数,在这种状态下,所述指令执行:(I)流程,(i)使所述第1模块的所述第1卷积层,针对测试图像应用1x1卷积运算,生成测试用第1_1特征图,(ii)使所述第1模块的所述第2卷积层,针对所述测试用第1_1特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,生成测试用第1_2特征图;(II)流程,在使k从2增加到n的同时,(i)使所述第k模块的所述第1卷积层,针对从所述第k-1模块输出的测试用第(k-1)_2特征图或由其经既定运算的测试用特征图,应用1x1卷积运算,使得生成测试用第k_1特征图,(ii)将所述测试用第1_1特征图或由其经既定运算的测试用特征图至所述测试用第k_1特征图或由其经既定运算的测试用特征图中至少一部分逐要素合算,生成测试用第k-1合成特征图,(iii)使所述第k模块的所述第2卷积层,针对所述测试用第k-1合成特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,使得生成测试用第k_2特征图;及(III)流程,(i)使所述池化层,在测试用第n_2特征图或由其经既定运算的测试用特征图上,对与测试用ROI对应的测试用区域进行池化,生成测试用池化特征图,(ii)将所述测试用池化特征图输入到所述特征分类器,使所述特征分类器识别所述测试图像或检测所述测试图像上的至少一个测试用客体。
一个实施例,其特征在于,在所述(I)流程中,所述处理器使第1批量归一化层,利用所述测试用第1_1特征图上的特征值的平均和方差,将所述测试用第1_1特征图上的所述特征值分别归一化,生成测试用第1_1归一化特征图,使所述第1模块的第1激活层,(i)针对所述测试用第1_1归一化特征图上的所述特征值分别应用非线性运算,生成测试用第1_1非线性特征图后,(ii)将所述测试用第1_1非线性特征图输入到所述第1模块的所述第2卷积层;在所述(II)流程中,所述处理器(i)使所述第k模块的第1批量归一化层,利用所述测试用第k_1特征图上的特征值的平均和方差,将所述测试用第k_1特征图上的所述特征值分别归一化,生成测试用第k_1归一化特征图,(ii)使所述第k模块的第1激活层,将所述测试用第1_1归一化特征图至所述测试用第k_1归一化特征图中至少一部分逐要素合算,针对由此生成的所述测试用第k-1合成特征图上的所述特征值,分别应用非线性运算,生成测试用第k_1非线性特征图后,(iii)将所述测试用第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
一个实施例,其特征在于,在所述(I)流程中,所述处理器(i)使所述第1模块的第1批量归一化层,利用所述测试用第1_1特征图上的所述特征值的平均和方差,将所述测试用第1_1特征图上的所述特征值分别归一化,生成测试用第1_1归一化特征图,(ii)使所述第1模块的第1激活层,(1)针对所述测试用第1_1归一化特征图上的各个所述特征值,应用非线性运算,生成测试用第1_1非线性特征图后,(2)将所述测试用第1_1非线性特征图输入到所述第1模块的所述第2卷积层;在所述(II)流程中,所述处理器(i)使所述第k模块的第1批量归一化层,将所述测试用第1_1特征图至所述测试用第k_1特征图中至少一部分逐要素合算,将由此生成的所述测试用第k-1合成特征图上的各个特征值归一化,生成测试用第k_1归一化特征图,(ii)使所述第k模块的第1激活层,(1)针对所述测试用第k_1归一化特征图上的所述特征值分别应用非线性运算,生成测试用第k_1非线性特征图后,(2)将所述测试用第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
一个实施例,其特征在于,在所述(I)流程中,所述处理器(i)使所述第1块的第2批量归一化层,利用所述测试用第1_2特征图上的所述特征值的平均和方差,将所述测试用第1_2特征图上的各个所述特征值归一化,生成测试用第1_2归一化特征图,(ii)使所述第1模块的第2激活层,(1)针对所述测试用第1_2归一化特征图上的各个所述特征值,应用非线性运算,生成测试用第1_2非线性特征图后,(2)将所述测试用第1_2非线性特征图从所述第1模块输出;在所述(II)流程中,所述处理器(i)使所述第k模块的第2批量归一化层,利用所述测试用第k_2特征图上的所述特征值的平均和方差,将所述测试用第k_2特征图上的所述特征值分别归一化,生成测试用第k_2归一化特征图,(ii)使所述第k模块的第2激活层,(1)针对所述测试用第k_2归一化特征图上的各个所述特征值,应用非线性运算,生成测试用第k_2非线性特征图后,(2)将所述测试用第k_2非线性特征图从所述第k模块输出。
一个实施例,其特征在于,所述处理器(i)使所述第1模块的所述第1卷积层,针对所述测试图像应用1x1卷积运算,(ii)使所述第k模块的所述第1卷积层,针对所述测试用第(k-1)_2特征图或由其经既定运算的测试用特征图,应用1x1卷积运算,使测试用特征维数增加C倍。
一个实施例,其特征在于,所述C小于所述MxM。
此外,还提供了计算机可读记录介质,用于记录执行本发明的方法的计算机程序。
与现有技术相比,本发明的优点在于:
本发明具有能够减小在CNN中提取特征所需的运算量并提高计算速度的效果。
另外,还具有能够减小运算量并提高特征提取性能的另一效果。
附图说明
为了用于说明本发明实施例而附带的下面的图,只是本发明实施例中的一部分,本发明所属技术领域的普通技术人员(以下称为“普通技术人员”)可以不进行发明性作业,基于这些图获得其他图。
图1概略地图示了本发明一个实施例的在CNN中利用多个模块内的卷积层而从训练图像提取特征的学习装置。
图2概略地图示了本发明一个实施例的利用多个模块内的卷积层而从训练图像提取特征的方法。
图3a和图3b概略地图示了本发明一个实施例的多个模块内的卷积层的构成。
图4a和图4b概略地图示了本发明另一实施例的多个模块内的卷积层的构成。
图5概略地图示了本发明另一实施例的在CNN中利用第1至第n模块而从测试图像提取特征的测试装置。
图6概略地图示了本发明另一实施例的利用多个模块内的卷积层而从测试图像提取特征的测试方法。
附图标记
100、200:计算装置;
110、210:通信部;
120、220:处理器;
230:数据库
具体实施方式
后述有关本发明的详细说明,为了使本发明的目的、技术方案及优点更分明,参照作为示例而图示本发明可实施的特定实施例的附图。对这些实施例进行了详细说明,以便普通技术人员足以实施本发明。
另外,在本发明的详细说明及权利要求中,“包括”字样的术语及其变形,并非要将其他技术特征、附加物、构成要素或步骤排除在外。对于普通技术人员而言,本发明的其他目的、优点及特性,一部分从本说明书,而一部分则从本发明的实施中显现出来。以下的示例及附图是作为实例而提供的,并非意图限定本发明。
本发明中提及的各种图像可以包括铺装或非铺装道路相关图像,是可以假定此时会在道路环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像,但并非必须限定于此,本发明中提及的各种图像也可以是与道路无关的图像(例如与非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内相关的图像),是可以推断此时会在非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像,但并非必须限定于此。
下面为了让本发明所属技术领域的普通技术人员能够容易地实施本发明,参照附图,就本发明优选实施例进行详细说明。
图1概略地图示了本发明一个实施例的在CNN中利用多个模块内的第1至第n卷积层而从训练图像提取特征的学习装置。参照图1,学习装置100包括通信部110和处理器120。另外,学习装置可以还包括存储器115,所述存储器115能够存储执行下面的流程所需的计算机可读指令(Instruction)。根据一个实施例,处理器、存储器、介质等可以统合为集成处理器(Integrated Processor)。
首先,通信部110获得训练图像。此时,训练图像可以存储于数据库130,数据库130中存储有与训练图像对应的GT(Ground Truth,地面真值)。
然后,处理器120执行如下流程:(i)使第1模块的第1卷积层,针对训练图像应用1x1卷积运算,生成第1_1特征图,(ii)使第1模块的第2卷积层,针对第1_1特征图或由其经既定运算的特征图,应用MxM卷积运算,生成第1_2特征图。而且,处理器120执行如下流程:(i)使第k模块的第1卷积层,针对从第k-1模块输出的第(k-1)_2特征图或由其经既定运算的特征图,应用1x1卷积运算,生成第k_1特征图,(ii)将第1_1特征图或由其经既定运算的特征图至第k_1特征图或由其经既定运算的特征图中至少一部分逐要素合算(ElementwiseAdding)而生成第k-1合成特征图,(iii)使第k模块的第2卷积层,针对第k-1合成特征图或由其经既定运算的特征图,应用MxM卷积运算,生成第k_2特征图。然后,处理器120执行如下流程:(i)使池化层,在第n_2特征图或由其经既定运算的特征图中,对与ROI(Region OfInterest,关注区域)对应的区域进行池化,生成经池化的特征图,(ii)将池化的特征图输入到特征分类器,使特征分类器识别训练图像或检测训练图像上的至少一个客体,(iii)使损失层参照特征分类器的输出值和与其对应的GT而算出至少一个损失,进而通过利用损失的反向传播,调整第1模块的第1及第2卷积层至第n模块的第1及第2卷积层中至少一部分的至少一个参数。
此时,只要是搭载处理器并具有运算能力的计算装置,均可采纳为本发明的学习装置100。另外,在图1中,只显示了一个学习装置100,但不限定于此,学习装置也可以分成多个装置并执行功能。
下面参照图2,说明如此构成的本发明一个实施例的在CNN中利用第1至第n模块而从训练图像提取特征的方法。
首先,如果输入训练图像,则学习装置100使第1模块C1针对所述训练图像应用深度可分离卷积运算(Depthwise Separable Convolution Operation),生成第1特征图或由其经既定运算的特征图。而且,学习装置100使第2模块C2至第n模块Cn,针对从之前模块输出的各个对应的特征图或由其经既定运算的特征图,依次应用深度可分离卷积运算,使得输出第2特征图或由其经既定运算的特征图至第n特征图或由其经既定运算的特征图。
此时,参照图3a和图3b,对利用第1模块C1至第n模块Cn,针对训练图像或与从之前模块输出的所述训练图像对应的特征图,分别依次应用深度可分离卷积运算的流程进行更详细说明,则如下。
首先,如果输入训练图像,则学习装置100使第1模块C1的第1卷积层C1_1,针对训练图像应用1x1卷积运算,使得输出第1_1特征图。此时,1x1卷积运算的运算量相比MxM卷积运算为1/M2,因而为了提高特征提取性能,可以使特征图的通道增加C倍。此时,C可以为MxM。即,与MxM卷积相比,在相同的计算性能下,使得可以利用增加C倍的特征维数(Dimension)。而且,学习装置100使第1模块C1的第2卷积层C1_4,针对第1_1特征图或由其经既定运算的特征图,应用MxM卷积运算,使得输出第1_2特征图。
此时,学***均和方差进行归一化,生成第1_1归一化特征图。而且,归一化特征图可以如下述公式1所示表示,γ和β为可学***均和方差进行归一化而生成的值。
[公式1]
Figure BDA0002319259460000142
Figure BDA0002319259460000141
而且,学习装置100使第1模块C1的第1激活层C1_3,(i)针对第1_1归一化特征图上的各个特征值,应用非线性运算,生成第1_1非线性特征图后,(ii)使得将第1_1非线性特征图输入到第1模块C1的第2卷积层C1_4。此时,非线性运算可以为ReLU,但不限定于此。
另外,学***均和方差进行归一化,使得根据公式1生成第1_2归一化特征图。而且,学习装置100使第1模块C1的第2激活层C1_6,(1)针对第1_2归一化特征图上的各个特征值,应用非线性运算,生成第1_2非线性特征图后,(2)使得第1_2非线性特征图从第1模块C1输出。
然后,学习装置100可以在使k从2增加到n的同时,(i)使第k模块Ck的第1卷积层Ck_1,针对从第k-1模块C(k-1)输出的第(k-1)_2特征图或由其经既定运算的特征图,应用1x1卷积运算,使得输出第k_1特征图,(ii)将第1_1特征图或由其经既定运算的特征图至第k_1特征图或由其经既定运算的特征图中至少一部分逐要素合算(Elementwise Adding)而生成第k-1合成特征图,(iii)使第k模块Ck的第2卷积层Ck_4,针对第k-1合成特征图或由其经既定运算的特征图,应用MxM卷积运算,使得输出第k_2特征图。
此时,学***均和方差进行归一化,生成第k_1归一化特征图。而且,学习装置100可以(i)使第k模块Ck的第1激活层Ck_3,将第1_1归一化特征图至第k_1归一化特征图中至少一部分逐要素合算,针对由此生成的第k-1合成特征图上的各个特征值,应用非线性运算,生成第k_1非线性特征图后,(ii)将第k_1非线性特征图输入到第k模块Ck的第2卷积层Ck_4。
另外,学***均和方差进行归一化,根据公式1,生成第k_2归一化特征图。而且,学习装置100可以使第k模块Ck的第2激活层Ck_6,(1)针对第k_2归一化特征图上的各个特征值,应用非线性运算,生成第k_2非线性特征图后,(2)使得第k_2非线性特征图从第k模块Ck输出。
而且,以上说明了将第1_1归一化特征图至第k_1归一化特征图中至少一部分逐要素合算而生成第k-1合成特征图后,使得针对第k模块Ck的第1激活层Ck_3应用非线性运算。作为另一示例,也可以将从第1模块C1的第1卷积层C1_1输出的第1_1特征图至从第k模块Ck的第1卷积层Ck_1输出的第k_1特征图中至少一部分逐要素合算,生成第k-1合成特征图。
即,参照图4a和图4b,可以将从第1模块C1的第1卷积层C1_1输出的第1_1特征图至从第k模块Ck的第1卷积层Ck_1输出的第k_1特征图中至少一部分逐要素合算,生成第k-1合成特征图。而且,使第k模块Ck的第1批量归一化层Ck_2,将第k-1合成特征图上的各个特征值利用第k-1合成特征图上的特征值的平均和方差进行归一化,生成第k_1归一化特征图。使第k模块Ck的第1激活层Ck_3,针对第k_1归一化特征图上的各个特征值,应用非线性运算,使得输出第k_1非线性特征图后,使得将第k_1非线性特征图输入到第k模块Ck的第2卷积层Ck_4。
重新参照图2,学习装置100可以(i)使池化层122,在从第n模块Cn输出的第n_2特征图或由其经既定运算的特征图上,对与ROI对应的区域进行池化,生成池化特征图,(ii)将池化特征图输入到特征分类器123,使特征分类器123识别训练图像或检测训练图像上的客体。
而且,学习装置100使损失层124,参照特征分类器123的输出值和与其对应的GT而算出至少一个损失,进而可以通过利用损失的反向传播,调整第1模块C1的第1及第2卷积层C1_4至第n模块Cn的第1及第2卷积层Cn_4中至少一部分的至少一个参数。
图5概略地图示了本发明一个实施例的在CNN中利用第1至第n模块而从测试图像提取特征的测试装置,参照图5,测试装置200包括通信部210和处理器220。另外,测试装置可以还包括存储器215,所述存储器215能够存储用于执行以下流程的计算机可读指令(Instruction)。根据一个实施例,处理器、存储器、介质等可以统合为集成处理器(Integrated Processor)。
首先,通信部210获得测试图像。
此时,可以是借助于学习装置而调整了第1模块的第1及第2卷积层至第n模块的第1及第2卷积层中至少一个参数的状态。
作为参考,在以下说明中,为了避免混同,附加有“学习用”字样的语句是针对与前面说明的学习流程相关的术语,而附加有“测试用”字样的语句是针对与测试流程相关的术语。
即,如参照图4a和4b所作的说明,可以是如下状态:输入了训练图像后,(I)学习装置(i)使第1模块的第1卷积层,针对训练图像应用1x1卷积运算,使得输出学习用第1_1特征图,(ii)使第1模块的第2卷积层,针对学习用第1_1特征图或由其经既定运算的学习用特征图,应用MxM卷积运算,使得输出学习用第1_2特征图,(II)学习装置在使k从2增加到n的同时,(i)使第k模块的第1卷积层,针对从第k-1模块输出的学习用第(k-1)_2特征图或由其经既定运算的学习用特征图,应用1x1卷积运算,使得输出学习用第k_1特征图,(ii)将学习用第1_1特征图或由其经既定运算的学习用特征图至学习用第k_1特征图或由其经既定运算的学习用特征图中至少一部分逐要素合算,生成学习用第k-1合成特征图,(iii)使第k模块的第2卷积层,针对学习用第k-1合成特征图或由其经既定运算的学习用特征图,应用MxM卷积运算,使得输出学习用第k_2特征图,(III)学习装置(i)使池化层,在学习用第n_2特征图或由其经既定运算的学习用特征图上,对与学习用ROI对应的区域进行池化,生成学习用池化特征图,(ii)使得将学习用池化特征图输入到特征分类器,使特征分类器识别训练图像或检测训练图像上的学习用客体,(iii)使损失层参照特征分类器的输出值和与其对应的GT而算出至少一个损失,进而通过利用损失的反向传播,调整第1模块的第1及第2卷积层至第n模块的第1及第2卷积层中至少一部分的至少一个参数。
在该状态下,处理器220执行如下流程:(i)使第1模块的第1卷积层,针对测试图像应用1x1卷积运算,使得输出测试用第1_1特征图,(ii)使第1模块的第2卷积层,针对测试用第1_1特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,使得输出测试用第1_2特征图。而且,处理器220在使k从2增加到n的同时,执行如下流程:(i)使第k模块的第1卷积层,针对测试用第(k-1)_2特征图或由其经既定运算的测试用特征图,应用1x1卷积运算,使得输出测试用第k_1特征图,(ii)将测试用第1_1特征图或由其经既定运算的测试用特征图至测试用第k_1特征图或由其经既定运算的测试用特征图中至少一部分逐要素合算,生成测试用第k-1合成特征图,(iii)使第k模块的第2卷积层,针对测试用第k-1合成特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,使得输出测试用第k_2特征图。
另外,处理器220执行如下流程:(i)使池化层,在测试用第n_2特征图或由其经既定运算的测试用特征图上,对与测试用ROI对应的区域进行池化,生成测试用池化特征图,(ii)将测试用池化特征图输入到特征分类器223,使特征分类器识别测试图像或检测测试图像上的测试用客体。
此时,只要是搭载处理器并具有运算能力的计算装置,便可以采纳为本发明的测试装置200。另外,在图5中,只显示了一个测试装置200,但不限定于此,测试装置也可以分成多个装置并执行功能。
下面参照图6,说明在CNN中利用多个模块内的第1至第n卷积层而从测试图像提取特征的方法。在以下说明中,对于能够从参照图2至图4a和图4b进行说明的学习方法而容易地理解的部分,省略详细说明。
首先,如参照图2至图4a和4b所作的说明,在调整了第1模块C1的第1及第2卷积层及C1_4至第n模块Cn的第1及第2卷积层Cn_1及Cn_4中至少一部分的至少一个参数的状态下,输入测试图像后,测试装置200使第1模块C1,针对测试图像应用深度可分离卷积运算,生成第1测试用特征图。
测试装置200使第2模块C2至第n模块Cn,针对从之前模块输出的测试用特征图或由其经既定运算的测试用特征图,依次应用深度可分离卷积运算,生成测试用第2特征图或由其经既定运算的测试用特征图至测试用第n特征图或由其经既定运算的测试用特征图。
此时,测试装置200如参照图3a和图3b所作的说明,(i)使第1模块C1的第1卷积层C1_1,针对测试图像应用1x1卷积运算,生成测试用第1_1特征图,(ii)使第1模块C1的第2卷积层C1_4,针对测试用第1_1特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,生成测试用第1_2特征图。
即,测试装置200可以(i)使第1模块C1的第1卷积层C1_1,针对测试图像应用1x1卷积运算,生成测试用第1_1特征图,(ii)使第1模块C1的第1批量归一化层C1_2,将测试用第1_1特征图上的各个特征值利用测试用第1_1特征图上的特征值的平均和方差进行归一化,生成测试用第1_1归一化特征图。而且,测试装置200使第1模块C1的第1激活层C1_3,(i)针对测试用第1_1归一化特征图上的各个特征值,应用非线性运算,生成测试用第1_1非线性特征图后,(ii)使得将测试用第1_1非线性特征图输入到第1模块C1的第2卷积层C1_4。而且,测试装置200(i)使第1模块C1的第2卷积层C1_4,针对测试用第1_1特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,生成测试用第1_2特征图,(ii)使第1模块C1的第2批量归一化层C1_5,将测试用第1_2特征图上的各个特征值利用测试用第1_2特征图上的特征值的平均和方差进行归一化,使得生成测试用第1_2归一化特征图。而且,测试装置200可以使第1模块C1的第2激活层C1_6,(1)对测试用第1_2归一化特征图上的各个特征值应用非线性运算,生成测试用第1_2非线性特征图后,(2)使得测试用第1_2非线性特征图从第1模块C1输出。
然后,测试装置200可以在使k从2增加到n的同时,(i)使第k模块Ck的第1卷积层Ck_1,针对从第k-1模块C(k-1)输出的测试用第(k-1)_2特征图或由其经既定运算的测试用特征图,应用1x1卷积运算,生成测试用第k_1特征图,(ii)将测试用第1_1特征图或由其经既定运算的测试用特征图至测试用第k_1特征图或由其经既定运算的测试用特征图中至少一部分逐要素合算,生成测试用第k-1合成特征图,(iii)使第k模块Ck的第2卷积层Ck_4,针对测试用第k-1合成特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,生成测试用第k_2特征图。
此时,测试装置200(i)使第k模块Ck的第1卷积层Ck_1,针对从第k-1模块C(k-1)输出的测试用第(k-1)_2特征图或由其经既定运算的测试用特征图,应用1x1卷积运算,生成测试用第k_1特征图,(ii)使第k模块Ck的第1批量归一化层Ck_2,将测试用第k_1特征图上的各个特征值利用测试用第k_1特征图上的特征值的平均和方差进行归一化,生成测试用第k_1归一化特征图。而且,测试装置200(i)将测试用第1_1归一化特征图至测试用第k_1归一化特征图中至少一部分逐要素合算,针对由此生成的测试用第k-1合成特征图上的各个特征值,应用非线性运算,生成测试用第k_1非线性特征图后,(ii)将测试用第k_1非线性特征图输入到第k模块Ck的第2卷积层Ck_4。
另外,测试装置200(i)使第k模块Ck的第2卷积层Ck_4,针对测试用第k_1特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,生成测试用第k_2特征图,(ii)使第k模块Ck的第2批量归一化层Ck_5,将测试用第k_2特征图上的各个特征值利用测试用第k_2特征图上的特征值的平均和方差进行归一化,生成测试用第k_2归一化特征图。而且,测试装置200使第k模块Ck的第2激活层Ck_6,(1)针对测试用第k_2归一化特征图上的各个特征值,应用非线性运算,生成测试用第k_2非线性特征图后,(2)使得测试用第k_2非线性特征图从第k模块Ck输出。
而且,将以上在第1批量归一化层C1_2归一化的测试用第1_1归一化特征图至在第1批量归一化层Ck_2归一化的测试用第k_1归一化特征图中至少一部分逐要素合算,生成测试用第k-1合成特征图后,使第k模块Ck的第1激活层Ck_3,应用非线性运算。
但是,也可以将从第1模块C1的第1卷积层C1_1输出的测试用第1_1特征图至从第k模块Ck的第1卷积层Ck_1输出的测试用第k_1特征图中至少一部分逐要素合算,生成测试用第k-1合成特征图。
即,如参照图4a和图4b所作的说明,可以(i)将从第1模块C1的第1卷积层C1_1输出的测试用第1_1特征图至从第k模块Ck的第1卷积层Ck_1输出的测试用第k_1特征图中至少一部分逐要素合算,生成测试用第k-1合成特征图,(ii)使第k模块Ck的第1批量归一化层Ck_2,将测试用第k-1合成特征图上的各个特征值利用测试用第k-1合成特征图上的特征值的平均和方差进行归一化,生成测试用第k_1归一化特征图,(iii)使第k模块Ck的第1激活层Ck_3,(1)针对测试用第k_1归一化特征图上的各个特征值,应用非线性运算,使得输出测试用第k_1非线性特征图后,(2)将测试用第k_1非线性特征图输入到第k模块Ck的第2卷积层Ck_4。
重新参照图6,测试装置200可以(i)使池化层222,在测试用第n_2特征图或由其经既定运算的测试用特征图上,对与测试用ROI对应的区域进行池化,使得生成测试用池化特征图,(ii)将测试用池化特征图输入到特征分类器223,使特征分类器223识别测试图像或检测测试图像上的测试用客体。
通过本发明的学习方法及测试方法的硬件优化可以提高CNN处理量,满足关键绩效指标。因此,可以适当地将学习方法及测试方法用于小型网络、移动装置等。
另外,以上说明的本发明的实施例可以体现为可通过多样计算机构成要素而执行的程序命令的形态,记录于计算机可读记录介质。所述计算机可读记录介质可以单独或组合包括程序命令、数据文件、数据结构等。所述计算机可读记录介质中记录的程序命令可以是为本发明而特别设计、构成的,或者也可以是计算机软件领域从业人员公知并可使用的。在计算机可读记录介质的示例中,包括诸如硬盘、软盘及磁带的磁介质,诸如CD-ROM(只读光盘驱动器)、DVD(数字化视频光盘)的光记录介质,诸如软式光盘(floptical disk)的磁-光介质(magneto-optical media),及诸如只读存储器(ROM)、随机存储器(RAM)、快闪存储器等的为了存储及执行程序命令而特殊构成的硬件装置。在程序命令的示例中,不仅有借助于编译程序而制成的机器语言代码,还包括使用解释器等而能够借助于计算机运行的高级语言代码。所述硬件装置为了执行本发明的处理,可以构成为一个以上的软件模块而运转,反之亦然。
以上根据诸如具体构成要素等的特定事项和限定的实施例及附图,对本发明进行了说明,但这只是为了帮助更全面理解本发明而提供的,并非本发明限定于所述实施例,只要是本发明所属技术领域的技术人员,便可以从这种记载导出多样的修订及变形。
因此,本发明的思想不局限于所述说明的实施例确定,后述权利要求书以及与该权利要求书等同地或等效地变形的所有内容均属于本发明的思想范畴。

Claims (24)

1.一种在卷积神经网络CNN中利用第1至第n模块而从输入图像提取特征的方法,其特征在于,包括:
(a)步骤,被输入训练图像后,学习装置(i)使第1模块的第1卷积层,针对所述训练图像应用1x1卷积运算,生成第1_1特征图,(ii)使所述第1模块的第2卷积层针对所述第1_1特征图或由其经既定运算的特征图应用MxM卷积运算,生成第1_2特征图;
(b)步骤,在使k从2增加至n的同时,所述学习装置(i)使第k模块的第1卷积层,针对第(k-1)模块输出的第(k-1)_2特征图或由其经既定运算的特征图,应用1x1卷积运算,生成第k_1特征图,(ii)将所述第1_1特征图或由其经既定运算的特征图至所述第k_1特征图或由其经既定运算的特征图中的至少一部分,进行逐要素合算而生成第k-1合成特征图,(iii)使所述第k模块的第2卷积层,针对所述第k-1合成特征图或由其经既定运算的特征图,应用MxM卷积运算,生成第k_2特征图;及
(c)步骤,所述学习装置(i)使池化层在第n_2特征图或由其经既定运算的特征图上,对与关注区域ROI对应的区域进行池化,生成池化特征图,(ii)将所述池化特征图输入到特征分类器,使所述特征分类器识别所述训练图像或检测所述训练图像上的至少一个客体,(iii)使损失层参照所述特征分类器的输出值和与其对应的地面真值GT而算出至少一个损失,进而通过利用所述损失的反向传播,调整所述第1模块的所述第1及所述第2卷积层至第n模块的第1及第2卷积层中至少一部分的至少一个参数。
2.根据权利要求1所述的方法,其特征在于,
在所述(a)步骤中,
所述学***均和方差,将所述第1_1特征图上的所述特征值分别归一化而生成第1_1归一化特征图,使所述第1模块的第1激活层,(i)针对所述第1_1归一化特征图上的各个所述特征值应用非线性运算,生成第1_1非线性特征图后,(ii)将所述第1_1非线性特征图输入到所述第1模块的所述第2卷积层;
在所述(b)步骤中,
所述学***均和方差,将所述第k_1特征图上的特征值分别归一化,生成第k_1归一化特征图,(ii)使所述第k模块的第1激活层,针对将所述第1_1归一化特征图至所述第k_1归一化的特征图中至少一部分逐要素合算而生成的所述第k-1合成特征图上的各个所述特征值,应用非线性运算,生成第k_1非线性特征图后,(iii)将所述第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
3.根据权利要求1所述的方法,其特征在于,
在所述(a)步骤中,
所述学***均和方差,将所述第1_1特征图上的所述特征值分别归一化,生成第1_1归一化特征图,(ii)使所述第1模块的第1激活层,(1)针对所述第1_1归一化特征图上的各个所述特征值,应用非线性运算,生成第1_1非线性特征图后,(2)将所述第1_1非线性特征图输入到所述第1模块的所述第2卷积层;
在所述(b)步骤中,
所述学习装置(i)使所述第k模块的第1批量归一化层,将所述第1_1特征图至所述第k_1特征图中至少一部分逐要素合算,将由此生成的所述第k-1合成特征图上的各个特征值归一化,生成第k_1归一化特征图,(ii)使所述第k模块的第1激活层,(1)针对所述第k_1归一化特征图上的各个所述特征值,应用非线性运算,使得生成第k_1非线性特征图后,(2)将所述第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
4.根据权利要求1所述的方法,其特征在于,
在所述(a)步骤中,
所述学***均和方差,将所述第1_2特征图上的所述特征值分别归一化而生成第1_2归一化特征图,(ii)使所述第1模块的第2激活层,(1)针对所述第1_2归一化特征图上的各个所述特征值,应用非线性运算,生成第1_2非线性特征图后,(2)使得将所述第1_2非线性特征图从所述第1模块输出;
在所述(b)步骤中,
所述学***均和方差,将所述第k_2特征图上的所述特征值分别归一化而生成第k_2归一化特征图,(ii)使所述第k模块的第2激活层,(1)针对所述第k_2归一化特征图上的各个所述特征值,应用非线性运算,生成第k_2非线性特征图后,(2)将所述第k_2非线性特征图从所述第k模块输出。
5.根据权利要求1所述的方法,其特征在于,
所述学习装置(i)使所述第1模块的所述第1卷积层,针对所述训练图像应用1x1卷积运算,(ii)使所述第k模块的所述第1卷积层,针对所述第(k-1)_2特征图或由其经既定运算的特征图,应用1x1卷积运算,使特征维数增加C倍。
6.根据权利要求5所述的方法,其特征在于,
所述C小于所述MxM。
7.一种在CNN中利用第1至第n模块而从输入图像提取特征的测试方法,其特征在于,包括:
(a)步骤,学习装置执行:(I)第1流程,(i)使第1模块的第1卷积层,针对训练图像应用1x1卷积运算,生成学习用第1_1特征图,(ii)使所述第1模块的第2卷积层,针对所述学习用第1_1特征图或由其经既定运算的学习用特征图,应用MxM卷积运算,生成学习用第1_2特征图;(II)第2流程,在使k从2增加至n的同时,(i)使第k模块的第1卷积层,针对从第k-1模块输出的学习用第(k-1)_2特征图或由其经既定运算的学习用特征图,应用1x1卷积运算,生成学习用第k_1特征图,(ii)将所述学习用第1_1特征图或由其经既定运算的学习用特征图至所述学习用第k_1特征图或由其经既定运算的学习用特征图中至少一部分逐要素合算,生成学习用第k-1合成特征图,(iii)使所述第k模块的第2卷积层,针对所述学习用第k-1合成特征图或由其经既定运算的学习用特征图,应用MxM卷积运算,生成学习用第k_2特征图;及(III)第3流程,(i)使池化层,在学习用第n_2特征图或由其经既定运算的学习用特征图上,对与学习用ROI对应的学习用区域进行池化,生成学习用池化特征图,(ii)将所述学习用池化特征图输入到特征分类器,使所述特征分类器识别所述训练图像或检测所述训练图像上的至少一个学习用客体,(iii)使损失层参照所述特征分类器的输出值和与其对应的GT而算出至少一个损失,进而通过利用所述损失的反向传播,调整所述第1模块的所述第1及所述第2卷积层至所述第n模块的第1及第2卷积层中至少一部分的至少一个参数,进而在如此状态下,测试装置(i)获得测试图像,使所述第1模块的所述第1卷积层,针对所述测试图像应用1x1卷积运算,生成测试用第1_1特征图,(ii)使所述第1模块的所述第2卷积层,针对所述测试用第1_1特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,使得生成测试用第1_2特征图;
(b)步骤,在使k从2增加至n的同时,所述测试装置(i)使所述第k模块的所述第1卷积层,针对所述从第k-1模块输出的测试用第(k-1)_2特征图或由其经既定运算的测试用特征图,应用1x1卷积运算,使得生成测试用第k_1特征图,(ii)将所述测试用第1_1特征图或由其经既定运算的测试用特征图至所述测试用第k_1特征图或由其经既定运算的测试用特征图中至少一部分逐要素合算,生成测试用第k-1合成特征图,(iii)使所述第k模块的所述第2卷积层,针对所述测试用第k-1合成特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,生成测试用第k_2特征图;及
(c)步骤,所述测试装置(i)使所述池化层,在测试用第n_2特征图或由其经既定运算的测试用特征图上,对与测试用ROI对应的测试用区域进行池化,使得生成测试用池化特征图,(ii)将所述测试用池化特征图输入到所述特征分类器,使所述特征分类器识别所述测试图像或检测所述测试图像上的至少一个测试用客体。
8.根据权利要求7所述的测试方法,其特征在于,
在所述(a)步骤中,
所述测试装置使第1批量归一化层,利用所述测试用第1_1特征图上的特征值的平均和方差,将所述测试用第1_1特征图上的所述特征值分别归一化而生成测试用第1_1归一化特征图,使所述第1模块的第1激活层,(i)针对所述测试用第1_1归一化特征图上的所述特征值分别应用非线性运算,生成测试用第1_1非线性特征图后,(ii)使所述测试用第1_1非线性特征图输入到所述第1模块的所述第2卷积层;
在所述(b)步骤中,
所述测试装置(i)使所述第k模块的第1批量归一化层,利用所述测试用第k_1特征图上的特征值的平均和方差,将所述测试用第k_1特征图上的所述特征值分别归一化,生成测试用第k_1归一化特征图,(ii)使所述第k模块的第1激活层,针对将所述测试用第1_1归一化特征图至所述测试用第k_1归一化特征图中至少一部分逐要素合算而生成的所述测试用第k-1合成特征图上的所述特征值,分别应用非线性运算,生成测试用第k_1非线性特征图后,(iii)将所述测试用第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
9.根据权利要求7所述的测试方法,其特征在于,
在所述(a)步骤中,
所述测试装置(i)使所述第1模块的第1批量归一化层,利用所述测试用第1_1特征图上的所述特征值的平均和方差,将所述测试用第1_1特征图上的所述特征值分别归一化,生成测试用第1_1归一化特征图,(ii)使所述第1模块的第1激活层,(1)针对所述测试用第1_1归一化特征图上的各个所述特征值,应用非线性运算,生成测试用第1_1非线性特征图后,(2)将所述测试用第1_1非线性特征图输入到所述第1模块的所述第2卷积层;
在所述(b)步骤中,
所述测试装置(i)使所述第k模块的第1批量归一化层,将所述测试用第1_1特征图至所述测试用第k_1特征图中至少一部分逐要素合算,将由此生成的所述测试用第k-1合成特征图上的各个特征值归一化,生成测试用第k_1归一化特征图,(ii)使所述第k模块的第1激活层,(1)针对所述测试用第k_1归一化特征图上的所述特征值分别应用非线性运算,生成测试用第k_1非线性特征图后,(2)将所述测试用第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
10.根据权利要求7所述的测试方法,其特征在于,
在所述(a)步骤中,
所述测试装置(i)使所述第1模块的第2批量归一化层,利用所述测试用第1_2特征图上的所述特征值的平均和方差,将所述测试用第1_2特征图上的各个所述特征值归一化,生成测试用第1_2归一化特征图,(ii)使所述第1模块的第2激活层,(1)针对所述测试用第1_2归一化特征图上的各个所述特征值,应用非线性运算,生成测试用第1_2非线性特征图后,(2)将所述测试用第1_2非线性特征图从所述第1模块输出;
在所述(b)步骤中,
所述测试装置(i)使所述第k模块的第2批量归一化层,利用所述测试用第k_2特征图上的所述特征值的平均和方差,将所述测试用第k_2特征图上的所述特征值分别归一化,生成测试用第k_2归一化特征图,(ii)使所述第k模块的第2激活层,(1)针对所述测试用第k_2归一化特征图上的各个所述特征值,应用非线性运算,生成测试用第k_2非线性特征图后,(2)将所述测试用第k_2非线性特征图从所述第k模块输出。
11.根据权利要求7所述的测试方法,其特征在于,
所述测试装置(i)使所述第1模块的所述第1卷积层,针对所述测试图像应用1x1卷积运算,(ii)使所述第k模块的所述第1卷积层,针对所述测试用第(k-1)_2特征图或由其经既定运算的测试用特征图,应用1x1卷积运算,使测试用特征维数增加C倍。
12.根据权利要求11所述的测试方法,其特征在于,
所述C小于所述MxM。
13.一种在CNN中利用第1至第n模块而从输入图像提取特征的学习装置,其特征在于,包括:
存储指令的至少一个存储器;及
至少一个处理器,所述至少一个处理器构成为运行指令,所述指令用于执行:(I)流程,(i)使第1模块的第1卷积层,针对训练图像应用1x1卷积运算,生成第1_1特征图,(ii)使所述第1模块的第2卷积层,针对所述第1_1特征图或由其经既定运算的特征图,应用MxM卷积运算,生成第1_2特征图;(II)流程,在使k从2增加至n的同时,(i)使第k模块的第1卷积层,针对从第k-1模块输出的第(k-1)_2特征图或由其经既定运算的特征图,应用1x1卷积运算,生成第k_1特征图,(ii)将所述第1_1特征图或由其经既定运算的特征图至所述第k_1特征图或由其经既定运算的特征图中至少一部分逐要素合算,生成第k-1合成特征图,(iii)使所述第k模块的第2卷积层,针对所述第k-1合成特征图或由其经既定运算的特征图,应用MxM卷积运算,生成第k_2特征图;及(III)流程,(i)使池化层,在第n_2特征图或由其经既定运算的特征图上,对与ROI对应的区域进行池化,生成池化特征图,(ii)将所述池化特征图输入到特征分类器,使所述特征分类器识别所述训练图像或检测所述训练图像上的至少一个客体,(iii)使损失层参照所述特征分类器的输出值和与其对应的GT而算出至少一个损失,从而通过利用所述损失的反向传播,调整所述第1模块的所述第1及所述第2卷积层至第n模块的第1及第2卷积层中至少一部分的至少一个参数。
14.根据权利要求13所述的学习装置,其特征在于,
在所述(I)流程中,
所述处理器使第1批量归一化层,利用所述第1_1特征图上的特征值的平均和方差,将所述第1_1特征图上的所述特征值分别归一化,生成第1_1归一化特征图,使所述第1模块的第1激活层,(i)针对所述第1_1归一化特征图上的各个所述特征值,应用非线性运算,生成第1_1非线性特征图后,(ii)将所述第1_1非线性特征图输入到所述第1模块的所述第2卷积层;
在所述(II)流程中,
所述处理器(i)使所述第k模块的第1批量归一化层,利用所述第k_1特征图上的所述特征值的平均和方差,将所述第k_1特征图上的所述特征值分别归一化,生成第k_1归一化特征图,(ii)使所述第k模块的第1激活层,将所述第1_1归一化特征图至所述第k_1归一化特征图中至少一部分逐要素合算,针对由此生成的所述第k-1合成特征图上的各个所述特征值,应用非线性运算,生成第k_1非线性特征图后,(iii)将所述第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
15.根据权利要求13所述的学习装置,其特征在于,
在所述(I)流程中,
所述处理器(i)使所述第1模块的第1批量归一化层,利用所述第1_1特征图上的所述特征值的平均和方差,将所述第1_1特征图上的所述特征值分别归一化,生成第1_1归一化特征图,(ii)使所述第1模块的第1激活层,(1)针对所述第1_1归一化特征图上的各个所述特征值,应用非线性运算,生成第1_1非线性特征图后,(2)将所述第1_1非线性特征图输入到所述第1模块的所述第2卷积层;
在所述(II)流程中,
所述处理器(i)使所述第k模块的第1批量归一化层,将所述第1_1特征图至所述第k_1特征图中至少一部分逐要素合算,将由此生成的所述第k-1合成特征图上的各个特征值归一化,生成第k_1归一化特征图,(ii)使所述第k模块的第1激活层,(1)针对所述第k_1归一化特征图上的各个所述特征值,应用非线性运算,生成第k_1非线性特征图后,(2)将所述第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
16.根据权利要求13所述的学习装置,其特征在于,
在所述(I)流程中,
所述处理器(i)使所述第1模块的第2批量归一化层,利用所述第1_2特征图上的所述特征值的平均和方差,将所述第1_2特征图上的所述特征值分别归一化,生成第1_2归一化特征图,(ii)使所述第1模块的第2激活层,(1)针对所述第1_2归一化特征图上的各个所述特征值,应用非线性运算,生成第1_2非线性特征图后,(2)将所述第1_2非线性特征图从所述第1模块输出;
在所述(II)流程中,
所述处理器(i)使所述第k模块的第2批量归一化层,利用所述第k_2特征图上的特征值的平均和方差,将所述第k_2特征图上的所述特征值分别归一化,生成第k_2归一化特征图,(ii)使所述第k模块的第2激活层,(1)针对所述第k_2归一化特征图上的各个所述特征值,应用非线性运算,生成第k_2非线性特征图后,(2)将所述第k_2非线性特征图从所述第k模块输出。
17.根据权利要求13所述的学习装置,其特征在于,
所述处理器(i)使所述第1模块的所述第1卷积层,针对所述训练图像,应用1x1卷积运算,(ii)使所述第k模块的所述第1卷积层,针对所述第(k-1)_2特征图或由其经既定运算的特征图,应用1x1卷积运算,使特征维数增加C倍。
18.根据权利要求17所述的学习装置,其特征在于,
所述C小于所述MxM。
19.一种在CNN中利用第1至第n模块而从输入图像提取特征的测试装置,其特征在于,包括:
存储指令的至少一个存储器;及
至少一个处理器,所述至少一个处理器构成为运行所述指令,所述指令用于如下状态,即事先由学习装置执行:第1流程,(i)使第1模块的第1卷积层,针对训练图像应用1x1卷积运算,生成学习用第1_1特征图,(ii)使所述第1模块的第2卷积层,针对所述学习用第1_1特征图或由其经既定运算的学习用特征图,应用MxM卷积运算,生成学习用第1_2特征图;第2流程,在使k从2增加到n的同时,(i)使第k模块的第1卷积层,针对从第k-1模块输出的学习用第(k-1)_2特征图或由其经既定运算的学习用特征图,应用1x1卷积运算,使得生成学习用第k_1特征图,(ii)将所述学习用第1_1特征图或由其经既定运算的学习用特征图至所述学习用第k_1特征图或由其经既定运算的学习用特征图中至少一部分逐要素合算,生成学习用第k-1合成特征图,(iii)使所述第k模块的第2卷积层,针对所述学习用第k-1合成特征图或由其经既定运算的学习用特征图,应用MxM卷积运算,使得生成学习用第k_2特征图;及第3流程,(i)使池化层,在学习用第n_2特征图或由其经既定运算的学习用特征图上,对与学习用ROI对应的学习用区域进行池化,生成学习用池化的特征图,(ii)将所述学习用池化特征图输入到特征分类器,使所述特征分类器识别所述训练图像或检测所述训练图像上的至少一个学习用客体,(iii)使损失层参照所述特征分类器的输出值和与其对应的GT而算出至少一个损失,从而通过利用所述损失的反向传播,调整所述第1模块的所述第1及所述第2卷积层至所述第n模块的第1及第2卷积层中至少一部分的至少一个参数,在这种状态下,所述指令执行:(I)流程,(i)使所述第1模块的所述第1卷积层,针对测试图像应用1x1卷积运算,生成测试用第1_1特征图,(ii)使所述第1模块的所述第2卷积层,针对所述测试用第1_1特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,生成测试用第1_2特征图;(II)流程,在使k从2增加到n的同时,(i)使所述第k模块的所述第1卷积层,针对从所述第k-1模块输出的测试用第(k-1)_2特征图或由其经既定运算的测试用特征图,应用1x1卷积运算,使得生成测试用第k_1特征图,(ii)将所述测试用第1_1特征图或由其经既定运算的测试用特征图至所述测试用第k_1特征图或由其经既定运算的测试用特征图中至少一部分逐要素合算,生成测试用第k-1合成特征图,(iii)使所述第k模块的所述第2卷积层,针对所述测试用第k-1合成特征图或由其经既定运算的测试用特征图,应用MxM卷积运算,使得生成测试用第k_2特征图;及(III)流程,(i)使所述池化层,在测试用第n_2特征图或由其经既定运算的测试用特征图上,对与测试用ROI对应的测试用区域进行池化,生成测试用池化特征图,(ii)将所述测试用池化特征图输入到所述特征分类器,使所述特征分类器识别所述测试图像或检测所述测试图像上的至少一个测试用客体。
20.根据权利要求19所述的测试装置,其特征在于,
在所述(I)流程中,
所述处理器使第1批量归一化层,利用所述测试用第1_1特征图上的特征值的平均和方差,将所述测试用第1_1特征图上的所述特征值分别归一化,生成测试用第1_1归一化特征图,使所述第1模块的第1激活层,(i)针对所述测试用第1_1归一化特征图上的所述特征值分别应用非线性运算,生成测试用第1_1非线性特征图后,(ii)将所述测试用第1_1非线性特征图输入到所述第1模块的所述第2卷积层;
在所述(II)流程中,
所述处理器(i)使所述第k模块的第1批量归一化层,利用所述测试用第k_1特征图上的特征值的平均和方差,将所述测试用第k_1特征图上的所述特征值分别归一化,生成测试用第k_1归一化特征图,(ii)使所述第k模块的第1激活层,将所述测试用第1_1归一化特征图至所述测试用第k_1归一化特征图中至少一部分逐要素合算,针对由此生成的所述测试用第k-1合成特征图上的所述特征值,分别应用非线性运算,生成测试用第k_1非线性特征图后,(iii)将所述测试用第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
21.根据权利要求19所述的测试装置,其特征在于,
在所述(I)流程中,
所述处理器(i)使所述第1模块的第1批量归一化层,利用所述测试用第1_1特征图上的所述特征值的平均和方差,将所述测试用第1_1特征图上的所述特征值分别归一化,生成测试用第1_1归一化特征图,(ii)使所述第1模块的第1激活层,(1)针对所述测试用第1_1归一化特征图上的各个所述特征值,应用非线性运算,生成测试用第1_1非线性特征图后,(2)将所述测试用第1_1非线性特征图输入到所述第1模块的所述第2卷积层;
在所述(II)流程中,
所述处理器(i)使所述第k模块的第1批量归一化层,将所述测试用第1_1特征图至所述测试用第k_1特征图中至少一部分逐要素合算,将由此生成的所述测试用第k-1合成特征图上的各个特征值归一化,生成测试用第k_1归一化特征图,(ii)使所述第k模块的第1激活层,(1)针对所述测试用第k_1归一化特征图上的所述特征值分别应用非线性运算,生成测试用第k_1非线性特征图后,(2)将所述测试用第k_1非线性特征图输入到所述第k模块的所述第2卷积层。
22.根据权利要求19所述的测试装置,其特征在于,
在所述(I)流程中,
所述处理器(i)使所述第1模块的第2批量归一化层,利用所述测试用第1_2特征图上的所述特征值的平均和方差,将所述测试用第1_2特征图上的各个所述特征值归一化,生成测试用第1_2归一化特征图,(ii)使所述第1模块的第2激活层,(1)针对所述测试用第1_2归一化特征图上的各个所述特征值,应用非线性运算,生成测试用第1_2非线性特征图后,(2)将所述测试用第1_2非线性特征图从所述第1模块输出;
在所述(II)流程中,
所述处理器(i)使所述第k模块的第2批量归一化层,利用所述测试用第k_2特征图上的所述特征值的平均和方差,将所述测试用第k_2特征图上的所述特征值分别归一化,生成测试用第k_2归一化特征图,
(ii)使所述第k模块的第2激活层,(1)针对所述测试用第k_2归一化特征图上的各个所述特征值,应用非线性运算,生成测试用第k_2非线性特征图后,(2)将所述测试用第k_2非线性特征图从所述第k模块输出。
23.根据权利要求19所述的测试装置,其特征在于,
所述处理器(i)使所述第1模块的所述第1卷积层,针对所述测试图像应用1x1卷积运算,(ii)使所述第k模块的所述第1卷积层,针对所述测试用第(k-1)_2特征图或由其经既定运算的测试用特征图,应用1x1卷积运算,使测试用特征维数增加C倍。
24.根据权利要求23所述的测试装置,其特征在于,
所述C小于所述MxM。
CN201911291510.8A 2019-01-25 2019-12-16 在cnn中从多个模块内的输入图像提取特征的方法及装置 Active CN111488901B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/258,221 US10452980B1 (en) 2019-01-25 2019-01-25 Learning method and learning device for extracting feature from input image by using convolutional layers in multiple blocks in CNN, resulting in hardware optimization which allows key performance index to be satisfied, and testing method and testing device using the same
US16/258221 2019-01-25

Publications (2)

Publication Number Publication Date
CN111488901A true CN111488901A (zh) 2020-08-04
CN111488901B CN111488901B (zh) 2023-11-21

Family

ID=68241803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911291510.8A Active CN111488901B (zh) 2019-01-25 2019-12-16 在cnn中从多个模块内的输入图像提取特征的方法及装置

Country Status (5)

Country Link
US (1) US10452980B1 (zh)
EP (1) EP3686793A1 (zh)
JP (1) JP7252120B2 (zh)
KR (1) KR102326238B1 (zh)
CN (1) CN111488901B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
US11109586B2 (en) 2019-11-13 2021-09-07 Bird Control Group, Bv System and methods for automated wildlife detection, monitoring and control
CN113515969B (zh) * 2020-04-09 2023-04-07 广西壮族自治区自然资源信息中心 基于卷积神经网络的多时态遥感影像地表覆盖分类方法
CN113034512B (zh) * 2021-03-15 2022-11-11 南京理工大学 基于特征分割的焊缝跟踪方法
CN113160199B (zh) * 2021-04-29 2022-06-17 武汉联影医疗科技有限公司 影像识别方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018026040A (ja) * 2016-08-12 2018-02-15 キヤノン株式会社 情報処理装置および情報処理方法
US20180137338A1 (en) * 2016-11-16 2018-05-17 The Governing Council Of The University Of Toronto System and method for classifying and segmenting microscopy images with deep multiple instance learning
JP2018125713A (ja) * 2017-02-01 2018-08-09 日本放送協会 予測装置およびプログラム
CN108717568A (zh) * 2018-05-16 2018-10-30 陕西师范大学 一种基于三维卷积神经网络的图像特征提取与训练方法
CN108875161A (zh) * 2018-05-31 2018-11-23 长江勘测规划设计研究有限责任公司 基于卷积神经网络深度学习的流量等级预测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
CA3045333A1 (en) 2016-12-01 2018-06-07 Berkeley Lights, Inc. Automated detection and repositioning of micro-objects in microfluidic devices
US10467493B2 (en) * 2017-07-14 2019-11-05 Google Llc Object detection using neural network systems
KR102585216B1 (ko) * 2017-12-14 2023-10-05 삼성전자주식회사 영상 인식 방법 및 그 장치
US10547823B2 (en) * 2018-09-25 2020-01-28 Intel Corporation View interpolation of multi-camera array images with flow estimation and image super resolution using deep learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018026040A (ja) * 2016-08-12 2018-02-15 キヤノン株式会社 情報処理装置および情報処理方法
US20180137338A1 (en) * 2016-11-16 2018-05-17 The Governing Council Of The University Of Toronto System and method for classifying and segmenting microscopy images with deep multiple instance learning
JP2018125713A (ja) * 2017-02-01 2018-08-09 日本放送協会 予測装置およびプログラム
CN108717568A (zh) * 2018-05-16 2018-10-30 陕西师范大学 一种基于三维卷积神经网络的图像特征提取与训练方法
CN108875161A (zh) * 2018-05-31 2018-11-23 长江勘测规划设计研究有限责任公司 基于卷积神经网络深度学习的流量等级预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SEN CAO等: "ThinNet: An Efficient Convolutional Neural Network for Object Detection" *
ZHONGXU HU等: "3D separable convolutional neural network for dynamic hand gesture recognition" *

Also Published As

Publication number Publication date
US10452980B1 (en) 2019-10-22
CN111488901B (zh) 2023-11-21
KR102326238B1 (ko) 2021-11-16
KR20200092847A (ko) 2020-08-04
JP2020119524A (ja) 2020-08-06
EP3686793A1 (en) 2020-07-29
JP7252120B2 (ja) 2023-04-04

Similar Documents

Publication Publication Date Title
CN111488901A (zh) 在cnn中从多个模块内的输入图像提取特征的方法及装置
US10692002B1 (en) Learning method and learning device of pedestrian detector for robust surveillance based on image analysis by using GAN and testing method and testing device using the same
US10740593B1 (en) Method for recognizing face using multiple patch combination based on deep neural network with fault tolerance and fluctuation robustness in extreme situation
EP3686779B1 (en) Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same
CN110874563B (zh) 通过cnn的多个图像输出的提供集成的特征图的方法及装置
CN111476247B (zh) 利用了1xK或Kx1卷积运算的CNN方法及装置
CN106897714A (zh) 一种基于卷积神经网络的视频动作检测方法
CN110910395A (zh) 图像编码方法和装置、利用它们的测试方法和测试装置
JP6957050B2 (ja) モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same}
CN111488782A (zh) 利用拉普拉斯金字塔网络检测道路障碍物的方法和装置
US10402695B1 (en) Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
EP3686790A1 (en) Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
US10387754B1 (en) Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same
CN111460877A (zh) 利用图像级联及cnn的客体检测方法及装置
CN111476310B (zh) 一种图像分类方法、装置及设备
KR102645698B1 (ko) 얼굴의 정렬 형태에 강인한 얼굴 인식 방법 및 그 장치
US10402686B1 (en) Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
KR20220045424A (ko) 인공 신경망을 압축하는 방법 및 장치
CN108460335B (zh) 视频细粒度识别方法、装置、计算机设备及存储介质
CN110472092B (zh) 一种街景图片的地理定位方法及***
CN116958687A (zh) 一种基于改进detr的面向无人机的小目标检测方法及装置
KR20180135616A (ko) 딥 네트워크 구조 및 딥 러닝 기반 영상 인식 시스템
EP4064126B1 (en) Methods for training and testing perception network by using images obtained from multiple imaging devices having diverse specifications and learning device and testing device using the same
CN117612231B (zh) 人脸检测方法、装置、电子设备和存储介质
Murashov Feature description of informative fragments in the problem of computerized attribution of paintings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant