CN105938557A - 图像识别方法、图像识别装置 - Google Patents

图像识别方法、图像识别装置 Download PDF

Info

Publication number
CN105938557A
CN105938557A CN201610086087.8A CN201610086087A CN105938557A CN 105938557 A CN105938557 A CN 105938557A CN 201610086087 A CN201610086087 A CN 201610086087A CN 105938557 A CN105938557 A CN 105938557A
Authority
CN
China
Prior art keywords
convolution
image
characteristic quantity
pixel
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610086087.8A
Other languages
English (en)
Other versions
CN105938557B (zh
Inventor
石井育规
筑泽宗太郎
羽川令子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of CN105938557A publication Critical patent/CN105938557A/zh
Application granted granted Critical
Publication of CN105938557B publication Critical patent/CN105938557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种能够高速且高精度地进行图像识别的图像识别方法等。进行图像的输入(S1),对输入的图像进行利用不同的卷积滤波器进行的卷积处理,分别取得包含构成所述图像的多个像素的各位置处的所述卷积处理的处理结果的值在内的处理结果信息,基于包含于各个所述处理结果信息的所述多个像素的各位置处的所述卷积处理的处理结果的值,决定一个与所述多个像素的各位置相对应的特征量,输出所决定的与多个像素的各位置相对应的特征量(S3),基于所输出的与多个像素的各位置相对应的特征量来执行识别处理(S6),输出通过执行识别处理而得到的识别处理结果(S8)。

Description

图像识别方法、图像识别装置
技术领域
本发明涉及图像识别方法、图像识别装置。
背景技术
近年来,谋求使用识别在图像中的何处映照了何物的图像识别技术来高速且高精度地识别各式各样的物体。例如专利文献1公开了一种图像识别技术,其通过利用多个卷积神经网络分类器(以下,记作分类器),能够高精度地进行图像识别。
现有技术文献
专利文献
专利文献1:日本特开2014-49118号公报
发明内容
发明要解决的问题
然而,上述那样的现有技术虽然能够高精度地进行图像识别,但是却存在处理速度慢这样的问题。
本发明是为了解决上述问题而做成的,其目的在于提供一种能够高速且高精度地进行图像识别的图像识别方法、图像识别装置。
用于解决问题的手段
本发明的一技术方案的图像识别方法是图像识别装置的计算机所进行的图像识别方法,进行所述图像的输入,分别使用不同的卷积滤波器对输入的所述图像进行卷积处理,分别取得包含构成所述图像的多个像素的各位置处的所述卷积处理的处理结果的值在内的处理结果信息,
基于包含于各个所述处理结果信息的所述多个像素的各位置处的所述卷积处理的处理结果的值,决定一个与所述多个像素的各位置相对应的特征量,输出所述决定的与多个像素的各位置相对应的特征量,基于所述输出的与多个像素的各位置相对应的特征量来执行识别处理,输出通过执行所述识别处理而得到的识别处理结果信息。
另外,上述总括性或具体的方案可以由***、集成电路、计算机程序或能够由计算机读取的CD-ROM等记录介质来实现,也可以由***、集成电路、计算机程序以及记录介质的任意的组合来实现。
发明的效果
根据本发明,能够实现能高速且高精度地进行图像识别的图像识别方法等。
附图说明
图1是表示实施方式的分类***的结构的一例的框图。
图2是表示实施方式的分类器的结构的一例的框图。
图3是表示实施方式的卷积处理部的结构的一例的框图。
图4是表示实施方式的卷积处理部的处理结果的一例的图。
图5是表示本实施方式的子采样部的子采样处理的一例的图。
图6是用于说明实施方式的分类器的工作的流程图。
图7是表示图6中的工作的详情的流程图。
图8A是用于说明第2层以后的卷积处理的图。
图8B是用于说明第2层以后的卷积处理的图。
图9是表示比较例的分类***的一例的图。
图10是表示比较例的分类器的结构的框图。
图11是表示比较例的分类***中的识别处理的算法功能块的图。
图12是用于说明比较例的分类***所进行的识别处理的流程图。
图13A是用于说明使用服务器提供服务的方式的一例的图。
图13B是用于说明使用服务器提供服务的方式的一例的图。
图13C是用于说明使用服务器提供服务的方式的一例的图。
图14是用于说明服务的类型的一例的图。
图15是用于说明服务的类型的一例的图。
图16是用于说明服务的类型的一例的图。
图17是用于说明服务的类型的一例的图。
具体实施方式
(成为本发明基础的见解)
在图像识别技术中,通常分为如下两个阶段,即:1)从图像提取特征量的处理,2)根据特征量判别物体的判别处理。例如,在特征提取处理中进行卷积处理,从图像中的识别对象物体提取辉度的分布、辉度的差分(边缘)等用于识别的特征量。另外,例如在判别处理中,利用Boosting和/或SVM(Support Vector Machine支持向量机)等统计的机器学习手法,根据在卷积处理中提取的特征量来判别是否为识别对象。
以往,卷积处理中所使用的特征量提取滤波器(卷积滤波器)是人为设计的。近年来,由于摄影环境的完善、经由互联网对大量的学习数据的收集成为现实、以及GPU等大规模计算机环境的基础设施完备,因此对自动进行特征量提取滤波器的设计的方式的研究不断发展。这样的方式总称为深度学习(Deep Learning)。特别是,在图像识别的领域,作为深度学习技术,正在研究将特征量提取滤波器视为针对2维图像的卷积处理的卷积神经网络。该卷积神经网络有在深度学习技术中也适合图像识别,能够在削减参数值的同时提高精度的特征。
然而,以往的卷积神经网络中所使用的特征量提取滤波器(以下也记作卷积滤波器)的分辨率是用户所设定的固定值。因此,若学习图像的具有特征的区域的分辨率与用户所设定的分辨率之间的差异较大,则存在难以从学习图像中的识别对象物体提取能够用于识别的有效的特征量的问题。而且,以往并没有研究针对这样问题的技术上的解决方案。
本发明的一方案的图像识别方法是图像识别装置的计算机所进行的图像识别方法,进行所述图像的输入,分别使用不同的卷积滤波器对输入的所述图像进行卷积处理,分别取得包含构成所述图像的多个像素的各位置处的所述卷积处理的处理结果的值在内的处理结果信息,基于包含于各个所述处理结果信息的所述多个像素的各位置处的所述卷积处理的处理结果的值,决定一个与所述多个像素的各位置相对应的特征量,输出所述决定的与多个像素的各位置相对应的特征量,基于所述输出的与多个像素的各位置相对应的特征量来执行识别处理,输出通过执行所述识别处理而得到的识别处理结果信息。
这样,能够按输入图像所包含的多个像素的每个位置,从通过并行地进行分别使用不同的卷积滤波器的卷积处理而算出的多个处理结果中,选择性地利用有利于识别的信息,因此不仅能够高速地进行图像识别,还能够提高图像识别精度。
由此,能够实现能高速且高精度地进行图像识别的图像识别方法。
另外,也可以是,例如,所述分别使用不同的卷积滤波器的卷积处理是分别使用分辨率或尺度参数不同的多个卷积滤波器对所述输入的所述图像进行的卷积处理。
根据该结构,使用分辨率或尺度参数(滤波器尺寸)不同的卷积滤波器来执行卷积处理,因此,即使在具有特征的区域的分辨率因输入图像的不同而不同的情况下,也能够提取对于识别而言有效的特征量。
另外,也可以是,例如,所述分别使用不同的卷积滤波器的卷积处理包括第1卷积处理和第2卷积处理,该第1卷积处理是使用第1分辨率的卷积滤波器对所述输入的所述图像进行的处理,该第2卷积处理是使用分辨率高于所述第1分辨率的第2分辨率的卷积滤波器对所述输入的所述图像进行的处理。
根据该结构,使用分辨率不同的至少2个卷积滤波器执行卷积处理,因此,即使在具有特征的区域的分辨率因输入图像的不同而不同的情况下,也能够提取对于识别而言有效的特征量。
另外,也可以是,例如,所述分别使用不同的卷积滤波器的卷积处理是分别使用处理对象的颜色不同的卷积滤波器对所述输入的所述图像进行的卷积处理。
根据该结构,为了利用颜色的不同判别物体的不同,分别使用处理对象的颜色不同的卷积滤波器来执行卷积处理,因此,即使在具有特征的区域的颜色因输入图像的不同而不同的情况下,也能够提取对于识别而言有效的特征量。
另外,也可以是,例如,在与所述多个像素的各位置相对应的特征量的输出中,按所述多个像素的每个位置,选择所述位置处的所述多个处理结果的值中的最大值作为所述位置的特征量,由此决定一个与所述位置相对应的特征量,输出所述决定的与所述位置相对应的特征量。
另外,也可以是,例如,在与所述多个像素的各位置相对应的特征量的输出中,按所述多个像素的每个位置,算出所述位置处的所述多个处理结果的值的中值或平均值,将所述算出的值决定为所述位置处的特征量,由此决定一个与所述位置相对应的特征量,输出所述决定的与所述位置相对应的特征量。
根据该结构,能够利用通过分别使用不同的卷积滤波器并行地进行卷积处理而算出的多个处理结果信息各自所包含的与像素的位置相对应的处理结果的值(输出值)中的输出成为最大的值、这些值的中值或平均值作为与像素的位置相对应的特征量。由此,能够根据输入图像中的对象而挑选合适的特征量,能够提高图像识别精度。
另外,例如,也可以是,进而,在所述多个像素的各位置的特征量的输出中,
输出所述选择的包括各位置的特征量在内的选择结果,
按包含所述位置相邻的多个像素的每个区域进行如下的子采样处理:将与该区域所包含的多个像素的位置相对应的特征量中的任一特征量决定为代表该区域的特征量即代表特征量,基于在进行所述子采样处理时所决定的所述代表特征量,执行所述识别处理。
根据该结构,应对输入图像的位置偏差、输入图像的尺寸的偏差的能力更强。
另外,也可以是,例如,在进行所述子采样处理时,将所述区域所包含的多个特征量中的值最大的特征量决定为所述代表特征量。
所述图像的输入、各个所述处理结果信息的取得、所述各位置的特征量的输出、所述识别处理的执行以及所述识别处理结果的输出可以由图像识别装置的计算机所具备的处理器进行。
另外,本发明的一方案的图像识别装置具有:图像输入部,其进行所述图像的输入;卷积处理部,其分别使用不同的卷积滤波器对输入的所述图像进行卷积处理,分别取得包含构成所述图像的多个像素的各位置处的所述卷积处理的处理结果的值在内的处理结果信息,基于包含于各个所述处理结果信息的所述多个像素的各位置处的所述卷积处理的处理结果的值,决定一个与所述多个像素的各位置相对应的特征量,输出所述决定的与多个像素的各位置相对应的特征量;识别处理部,其基于由所述卷积处理部输出的与所述多个像素的各位置相对应的特征量来执行识别处理;以及识别结果输出部,其输出通过所述识别处理部执行所述识别处理而得到的识别处理结果。
此外,也可以是,例如,所述图像输入部、所述卷积处理部、所述识别处理部以及所述识别结果输出部中的至少一方包含处理器。
以下所说明的实施方式均表示本发明的一具体例子。以下的实施方式中所示的数值、形状、结构要素、步骤、步骤的顺序等是一例,并非旨在限定本发明。此外,对于以下的实施方式的结构要素中没有记载于表示最上位概念的独立权利要求中的结构要素,设为任意的结构要素来进行说明。另外,在所有的实施方式中,也可以将各自的内容组合起来。
(实施方式)
以下,参照附图,首先说明比较例的图像识别方法等,然后说明本实施方式的图像识别方法等。
(分类***900的结构)
图9是表示比较例的分类***900的一例的图。
图9所示的分类***900具有多个分类器(分类器90a、分类器90b、…、分类器90N),在输入了分类对象物(识别处理对象图像)时,通过利用多个分类器来执行分类处理(识别处理),输出其结果(分类结果、识别处理结果)。
多个分类器均为同一卷积神经网络分类器。多个分类器各自具有一个用于进行卷积的卷积滤波器(特征量提取滤波器)。这些滤波器的设定值(滤波器系数)是通过后述的学习处理来预先学习的。
另外,构成图9所示的分类***900的分类器90a、分类器90b、…、分类器90N是同一分类器,因此,以下作为代表对分类器90a结构进行说明。
图10是表示比较例的分类器90a的结构的框图。
如图10所示,分类器90a包括:图像输入部91,其读入图像(输入图像);卷积处理部92,其进行针对读入的输入图像的卷积处理;子采样部93,其进行子采样处理;识别处理部94,其进行识别处理;以及识别结果输出部95,其输出识别结果。此外,进行卷积处理和子采样处理的次数根据输入图像的分辨率,分类对象(识别处理对象)的种类或者复杂程度,或者分类数(识别对象的数量)等而被设定为任意的值。例如,在分类器90a从图像检测出人朝向正面的脸部的情况下,进行卷积处理的次数可以较少,但是在需要识别像狗那样多种多样的犬种的情况下,则与人的正面脸部相比需要更多的卷积处理。
(分类***900的工作)
接着,对作为比较例的分类***900的工作的识别处理进行说明。
(识别处理)
图11是表示分类***900中的识别处理的算法功能块的图。
在使用了多个分类器的分类***900进行的图像识别中,使用输入层901、包括卷积处理层903和子采样层904的中间层902、以及输出层905来进行识别处理。对输入层901输入输入图像的像素值列。中间层902不限于一个,也有存在多个的情况,但是在图11所示的例子中,为了便于说明仅记载了一个中间层902。在卷积处理层903中进行卷积处理,在子采样层904中进行子采样处理。在中间层902中,多数情况下是在进行卷积处理之后,进行子采样处理,但是也可以在子采样处理后进行卷积处理。输出层905输出识别结果的标签。识别结果的标签例如表示狗、猫等映在输入图像中的识别对象物体。
在卷积处理层903中进行卷积处理,该卷积处理进行针对2维图像的卷积。该卷积处理中所使用的卷积滤波器(特征量提取滤波器),在后述的学习处理中,预先学习了滤波器系数。即,滤波器系数使用的是用图像与标签之间的对应已知的集合(学习图像与标签)在学习处理中求出的系数。
图12是用于说明分类***900所进行的识别处理的流程图。
以下,对分类***900具有N个分类器(分类器90a、分类器90b、…、分类器90N)的情况进行说明。
首先,分类***900利用输入层901读入输入图像(S91),对读入的输入图像实施预定的前处理(S92)。预定的前处理例如是从该输入图像减去输入图像集合的平均等,使输入图像的偏差一致的处理。
接着,分类***900利用卷积处理层903进行卷积处理(S93)。
具体而言,分类***900如以下那样利用卷积处理层903进行卷积处理(S93)。即,当将输入图像设为Img,将第n个(n是1~N中的任一整数)分类器90n的卷积滤波器设为F(n)(卷积滤波器的总数为N)时,某一像素(i、j)的卷积结果(Conv(Img、F(n)、i,j)能够使用以下的(式1)算出。
(数学式1)
C o n v ( Im g , F ( n ) , i , j ) = Σ p Σ f h Σ f w Im g ( f w + i , f h + j , p ) × F ( n ) ( f w , f h , p ) …(式1)
在(式1)中,i、j分别表示输入图像的第i个像素和第j个像素,p表示第p个像素的颜色(例如,若为RGB,则p=0时为R,p=1时为G,p=2时为B)。分类***900能够通过一边改变i和j的值一边对Img的全部像素实施使用(式1)的卷积处理,来得到第n个分类器90n的卷积滤波器即F(n)的卷积处理结果。即,分类***900能够得到第n个分类器90n的卷积处理结果。
如上述那样,分类***900具有N个分类器(分类器90a、分类器90b…分类器90N),因此卷积滤波器为N个。因此,在分类***900中,利用N个卷积滤波器对一张图像(输入图像)进行卷积处理,因此能够得到N个卷积处理结果。
接着,分类***900利用子采样层904进行子采样处理(S94)。子采样处理是对卷积处理层903的输出即N个卷积处理结果分别按每个特定的区域(is,js)以预定的基准sb进行子采样的处理。例如,在从某一像素(0、0)针对2×2区域进行最大值的子采样的情况下,选择最大的像素值作为该2×2区域的4像素的代表值。
此外,像这样对最大值进行子采样的方法被称为Max-pooling。另外,采样的方法不限于最大值,也可以是平均值。对平均值进行子采样的方法被称为Average-pooling。通过进行子采样,1)不仅能够减少信息量,2)在识别时,在应对输入图像的xy方向的位置偏移方面较强。
这样一来,分类***900在进行S94(子采样处理)之后,根据S93(卷积处理)和S94(子采样处理)的处理次数即中间层902的处理次数来判定是否结束中间层902的处理(S95)。其原因在于,通过反复进行预定次数的S93的处理和S94的处理,能够通过卷积处理从输入图像提取特征量,并且能够进行数据(特征量)的子采样,因此能够提取对识别物体而言有效的特征量。
当在S95中分类***900判定为不结束中间层902的处理的情况下(在S95为否),使处理返回至S93,再次进行卷积处理层903的卷积处理。然后,若在卷积处理层903的卷积处理之后存在子采样层904,则再次进行子采样处理。
另一方面,在S95中,分类***900判定为由于已经实施了预定次数的卷积处理和子采样处理,所以结束中间层902的处理的情况下(在S95为是),利用输出层905执行识别处理(S96),将其结果(识别结果)输出到外部(S97)。
在此,对识别映在输入图像中的物体是何物的识别处理(分类处理)进行说明。
(识别处理)
例如,分类***900进行识别映在输入图像中的物体符合预定的10种中的哪一种的识别处理。在该情况下,分类***900在输出层905中,向外部输出根据输入图像而将10个变量(物体标签)中的一个变量设为1并将以外的变量设为0的结果(识别结果)。
接着,对识别处理时的输出层905的具体的输出方法进行说明。
输出层905使用在中间层902提取(算出)的特征量,通过Softmax法和/或SVM法,输出标签(物体标签)相对于映在输入图像中的物体的可靠度。
在此,例如Softmax法通过以下方式来实现。即,以识别k个物体的问题为例,将排列了作为真值的k个变量的向量设为Tr[0]、Tr[1]、…、Tr[k-1],将排列了输出层的k个输出的向量设为θ[0]、θ[1]、…、θ[k-1]。此时标签j的Softmax值能够使用以下的(式2)算出。然后,能够根据算出的Softmax值的大小对识别为了哪个标签的物体进行判断。
(数学式2)
S o f t m a x ( j ) e θ T j Tr ( i ) Σ l = 1 k e θ T l Tr ( i ) …(式2)
如以上那样,分类***900能够使用多个具有卷积滤波器的分类器,来进行映在输入图像中的物体的识别处理,该卷积滤波器具有在学习处理中预先学习到的滤波器系数。
(学习处理)
接着,说明学习处理。
如上述那样,识别处理所使用的多个分类器各自所具有的卷积滤波器的滤波器系数是事先通过使用了大量学习数据的学习处理而学习到的。
作为滤波器系数的学习方法,公知有随机梯度下降法(Stochastic GradientDecent法)。
首先,对成为随机梯度下降法的基础的方式即梯度下降法进行说明。在某一学习图像中,假设输出的真值由用户赋予。此时,在梯度下降法中,基于真值与识别处理的输出值的误差,按照从接近输出层的层的滤波器系数向前方的顺序依次修正滤波器系数。
另一方面,在随机梯度下降法中,并非是针对图像一张一张地进行该滤波器系数的修正处理,而是在几个图像进行识别处理并求出累积误差,之后使用这些累积误差进行滤波器系数的修正。若针对每张图像修正滤波器系数,则修正值有可能发生振动,但通过使用多张的结果来求出修正值,具有学习时的偏倚和/或振动减少这样的优点。
(式3)是滤波器系数修正式。将求出累积误差的函数设为Loss,将学***方误差或交叉熵的误差等,无论用何种方法来算出都可以。通过使用(式3),能够使用误差和滤波器系数的微分来更新滤波器系数。另外,学习率γ是决定一次以何种程度更新误差的加权,是根据学习对象而由用户决定的值。
(数学式3)
W = W - γ d d W L o s s ( F ( W , i n ) , t r u e ) …(式3)
通过对输入图像和真值进行比较,并反复更新滤波器系数,能够算出容易识别输入图像的滤波器系数。
通过使用大量的学习数据进行该学习,能够求出泛化性能高的滤波器系数。
如以上那样,比较例的分类***900即以往的卷积神经网络进行识别处理。该识别处理中所使用的卷积滤波器的滤波器系数预先被学习处理。
接着,进行对本实施方式的图像识别方法等的说明。
(分类***1的结构)
图1是表示本实施方式的分类***1的结构的一例的框图。图2是表示本实施方式的分类器10的结构的一例的框图。
图1所示的分类***1是具有一个分类器10的卷积神经网络。分类***1在被输入了分类对象物(识别处理对象图像)时,通过利用分类器10来执行分类处理(识别处理),并输出其结果(分类结果、识别处理结果)。
(分类器10的结构)
分类器10是对图像执行识别处理,并输出识别结果的图像识别装置的一例。如图2所示,分类器10包括图像输入部11、卷积处理部12、子采样部13、识别处理部14以及识别结果输出部15。
另外,图2所示的分类器10相对于图10所示的分类器90a等,卷积处理部12的结构差异较大。
图像输入部11进行图像的输入。在本实施方式中,图像输入部11读入被输入的图像(输入图像)。
卷积处理部12对同一输入图像进行利用多个不同的卷积滤波器进行的卷积处理。关于卷积处理,由于已经进行了说明,因此,此处省略详细的说明。与输入图像所包含的各像素对应的位置的、卷积处理的处理结果信息具有相当于卷积滤波器的数量的个数。
各个处理结果信息例如包括所述输入图像所包含的多个像素的各位置处的所述卷积处理的处理结果的值。
另外,处理结果信息所包含的处理结果的值与输入图像所包含的多个像素的某一个的位置相关联,因此,有时也将处理结果信息所包含的要素(处理结果)称作像素,将要素的位置称作像素的位置,将处理结果的值称作像素值。
卷积处理部12例如基于输入图像所包含的多个像素的各位置处的卷积处理的处理结果的值,决定一个与多个像素的各位置相对应的特征量,并输出含有所决定的各位置的特征量的输出结果信息(也称作选择结果)。
此外,特征量与输入图像所包含的多个像素的某一个的位置相关联,因此,有时也将输出结果信息所包含的要素(特征量)称作像素,将要素的位置称作像素的位置,将特征量的值称作像素值。
卷积处理部12例如按多个像素的每个位置进行如下处理:选择输入图像所包含的像素的位置处的多个处理结果的值中具有最大值的处理结果,将所选择的处理结果的值决定为该像素的位置处的特征量,输出所决定的该像素的位置处的特征量。
或者,卷积处理部12也可以例如按多个像素的每个位置进行如下处理:算出输入图像所包含的像素的位置处的多个处理结果的值中的中值或平均值,将算出的值决定为该像素的位置处的特征量,输出所决定的该像素的位置处的特征量。
由此,卷积处理部12决定一个与输入图像所包含的多个像素的各位置相对应的特征量,输出与所决定的多个像素的各位置相对应的特征量。
在本实施方式中,如图2所示,卷积处理部12例如具有第1卷积处理部121、第2卷积处理部122、第3卷积处理部123以及输出选择部124。
第1卷积处理部121、第2卷积处理部122以及第3卷积处理部123各自具有一个用于进行针对输入图像的每个像素的卷积的卷积滤波器,这些卷积滤波器彼此不同。
即,卷积处理部12具有3个不同的卷积滤波器,使用这3个不同的卷积滤波器对输入图像进行卷积处理。3个卷积滤波器各自例如分辨率或者尺度参数(滤波器尺寸)不同,或者处理对象的颜色不同。
在此,图3是表示本实施方式的卷积处理部12的结构的一例的框图。在图3所示的例子中,卷积处理部12具备作为第1卷积处理部121的低分辨率卷积处理部121a、作为第2卷积处理部122的中分辨率卷积处理部122a以及作为第3卷积处理部123的高分辨率卷积处理部123a。
低分辨率卷积处理部121a是使用卷积处理部12所具有的3个卷积滤波器中的与第1分辨率相对应的分辨率最低(低分辨率)的卷积滤波器来对输入图像进行卷积处理的处理部。中分辨率卷积处理部122a是使用卷积处理部12所具有的3个卷积滤波器中的与分辨率高于第1分辨率的第2分辨率相对应的,分辨率不是最低也不是最高(中分辨率)的卷积滤波器来对输入图像进行卷积处理的处理部。高分辨率卷积处理部123a是使用卷积处理部12所具有的3个卷积滤波器中的与分辨率高于第2分辨率的第3分辨率相对应的最高分辨率(高分辨率)的卷积滤波器来对输入图像进行卷积处理的处理部。
此外,在本实施方式中,对使用3个分辨率不同的卷积滤波器的例子进行了说明,但分辨率不同的卷积滤波器的数量不限于3个。
例如,分辨率不同的卷积滤波器的数量既可以是2个,也可以是4个以上。即,分辨率不同的卷积滤波器的数量是至少2个即可。
输出选择部124通过由第1卷积处理部121~第3卷积处理部123对输入图像进行卷积处理,从而得到3个处理结果信息。
3个处理结果信息分别包括输入图像所包含的多个像素的各位置处的对应的卷积处理的处理结果的值。
输出选择部124例如基于3个处理结果信息各自所包含的多个像素的各位置处的卷积处理的处理结果的值,决定一个与多个像素的各位置相对应的特征量,输出包含所决定的各位置的特征量的输出结果信息。
输出选择部124例如按多个像素的每个位置进行如下处理:选择输入图像所包含的像素的位置处的多个处理结果的值中具有最大值的处理结果,将所选择的处理结果的值决定为该像素的位置处的特征量,输出所决定的该像素的位置处的特征量。
或者,输出选择部124例如也可以按多个像素的每个位置进行如下处理:算出输入图像所包含的像素的位置处的多个处理结果的值中的中值或平均值,将算出的值决定为该像素的位置处的特征量,输出所决定的该像素的位置处的特征量。
由此,输出选择部124决定一个与输入图像所包含的多个像素的各位置相对应的特征量,输出所决定的与多个像素的各位置相对应的特征量。
在使用图9~图11所示的例子中,将3个处理结果信息所包含的处理结果全部输出,相对于此,在本实施方式中,在卷积处理部12、更具体而言,在具有输出选择部124,输出一个与多个像素的各位置相对应的特征量这一点上大为不同。
在此,对如下情况的例子进行说明,即:输出选择部124从由图3所示的低分辨率卷积处理部121a、中分辨率卷积处理部122a以及高分辨率卷积处理部123a进行卷积处理而得到的针对构成输入图像的多个像素的各个像素的3个卷积处理的处理结果的值(即多个像素值),选择最大的值。
图4是表示本实施方式的卷积处理部12的处理结果的一例的图。
由低分辨率卷积处理部121a、中分辨率卷积处理部122a以及高分辨率卷积处理部123a进行的卷积处理中的输入图像使用同一输入图像。
在图4(a)的上段,示出了在低分辨率卷积处理部121a中使用低分辨率的卷积滤波器对4×4的输入图像进行了卷积处理所得到的处理结果(低分辨率卷积处理结果)的值的一例。如图4(a)的上段所示,在输入图像所包含的4×4的像素的各个像素中,示出了进行低分辨率的卷积处理所得到的处理结果的值。在本实施方式中,输入图像所包含的像素是4×4=16,所以示出了16个处理结果的值。各处理结果的值示于与输入图像所包含的像素相对应的位置。
在图4(a)的中段,示出了在中分辨率卷积处理部122a中使用中分辨率的卷积滤波器对4×4的输入图像进行了卷积处理所得到的处理结果(中分辨率卷积处理结果)的值的一例。如图4(a)的中段所示,在输入图像所包含的4×4的像素的各个像素中,示出了进行中分辨率的卷积处理所得到的处理结果的值。在本实施方式中,输入图像所包含的像素是4×4=16,所以示出了16个处理结果的值。各处理结果的值示于与输入图像所包含的各像素相对应的位置。
在图4(a)的下段,示出了在高分辨率卷积处理部123a中使用高分辨率的卷积滤波器对4×4的输入图像进行了卷积处理所得到的处理结果(高分辨率卷积处理结果)的值的一例。如图4(a)的下段所示,在输入图像所包含的4×4的像素的各个像素中,示出了进行高分辨率的卷积处理所得到的处理结果的值。在本实施方式中,输入图像所包含的像素是4×4=16,所以示出了16个处理结果的值。各处理结果的值示于与输入图像所包含的各像素相对应的位置。
在该情况下,在图4的(b)中,输出选择部124进行选择最大的像素值的输出选择处理。
例如,使用图4(a)的进行了低分辨率卷积处理时的处理结果信息(图4(a)所示的低分辨率卷积处理结果)、进行了中分辨率卷积处理时的处理结果信息(图4(a)所示的中分辨率卷积处理结果)以及进行了高分辨率卷积处理时的处理结果信息(图4(a)所示的高分辨率卷积处理结果)所包含的左上角的位置的值来进行说明。
该值表示的是在位于输入图像的左上角的像素中分别进行了低分辨率卷积处理、中分辨率卷积处理、高分辨率卷积处理时的处理结果的值。各处理结果的值是“1”、“3”、“3”。
输出选择部124从这些处理结果的值中选择具有最大的值的处理结果,将所选择的处理结果的值(该例中为“3”)决定为与位于左上角的像素相对应的特征量。
输出选择部124输出“3”作为与位于左上角的像素相对应的特征量。
此外,在最大值的值有2个以上的情况下,输出选择部124选择与最大值相对应的2个以上的处理结果的值中的任一值即可。
输出选择部124对输入图像所包含的其他像素也进行同样的处理,由此输出输出结果信息(图4(c)所示的选择结果)。
图4(c)所示的选择结果例如与卷积处理的处理结果同样,示出了与输入图像所包含的各像素的位置相对应的选择结果的值。在图4所示的例子中,输入图像所包含的像素是4×4=16,因此,选择结果输出的是与各像素的位置相对应的16个值。
图4的(c)的选择结果所包含的值包括与输入图像所包含的各像素相对应的位置处的、低分辨率卷积处理结果~高分辨率卷积处理结果的值中最大的值(像素值)。
像这样,卷积处理部12通过具备低分辨率卷积处理部121a、中分辨率卷积处理部122a、高分辨率卷积处理部123a以及输出选择部124,能够在输入图像所包含的各像素中,向输出侧(识别处理部14)传递输出如下结果信息(或者,也称作选择结果),该输出结果信息仅包括输入图像与处理结果的相关最高的处理结果的值(即,最大的像素值)作为各像素的特征量。即,由于不向输出侧(识别处理部14)传递各个处理结果所包含的全部的值,所以能够削减分类器10的参数数量,因此能够削减整个分类***1所使用的存储量。
另外,卷积处理部12并列利用分辨率不同的多个卷积滤波器,从而也起到即使在映在输入图像中的物体的大小、分辨率不同的情况下也能够高效地从物体提取特征量这一效果。
子采样部13进行如下的子采样处理:从自卷积处理部12(更具体而言是输出选择部124)输出的选择结果所包含的多个特征量中决定成为代表的代表特征量。
选择结果所包含的多个特征量分别与输入图像所包含的多个像素的某一个的位置相关联,因此,有时也将选择结果所包含的特征量称作像素值,将代表特征量称作代表像素值,将特征量的位置(即,与特征量相对应的输入图像的像素的位置)称作像素的位置。
子采样部13例如预先确定具有包含输入图像或选择结果所包含的多个像素中相邻的多个像素在内的大小的区域,以上述区域的大小分割选择结果所包含的多个特征量,按分割出的每个区域决定代表特征量。
子采样部13例如分割选择结果,将分割出的区域所包含的多个像素的各位置的特征量中最大值的特征量决定为代表特征量。其原因在于,最大值的特征量表现出与上述区域相对应的输入图像的区域和处理结果之间相关最高的结果。因此,子采样部13针对每个上述区域,将该区域所包含的特征量中具有最大的值的特征量决定为该区域的代表特征量。
在本实施方式中,子采样部13针对卷积处理部12的输出结果,按每个特定的区域(is,js)以预定的基准sb进行子采样处理。例如,在从某一像素(0、0)对2×2区域进行最大值的子采样的情况下,选择具有最大值的特征量(像素值)作为该2×2区域的4像素的代表值。
在此,使用图4的(c)所示的选择结果,对子采样部13决定代表特征量的情况的例子进行说明。
图5是表示本实施方式的子采样部13的子采样处理的一例的图。在图5中,示出了子采样部13从某一像素(0、0)对2×2区域进行最大像素值的子采样处理而得到结果的一例。在图5的(a)中示出了图4的(c)所示的选择结果。子采样部13在该选择结果即按每个像素选择了最大像素值的图像中,在将左上设为原点(0,0)的情况下,如图5的(b)所示,对2×2区域(4像素)进行采样,从而得到与各像素相对应的像素值3、8、6、4。然后、子采样部13通过对进行采样而得到的多个像素值中的最大值(最大的像素值)进行采样,从而选择8作为包含4个像素的区域的代表特征量。另外,子采样部13例如对其他的区域也进行同样的处理。子采样部13例如对图5(a)所示的选择结果中的包含右上的像素在内的2×2区域、包含左下的像素在内的2×2区域以及包含右下的像素在内的2×2区域分别进行采样,从而选择8、9、9作为代表特征量。
此外,通过反复进行预定次数的卷积处理部12的卷积处理和子采样部13的子采样处理,能够从输入图像通过卷积处理提取特征量,并进行数据(特征量)的子采样,能够提取对识别物体而言有效的特征。
此外,以反复进行预定次数的卷积处理部12的卷积处理和子采样部13的子采样处理的内容为例进行了说明,但并不限定于此。
例如,也可以是,将输入图像作为输入,通过卷积处理部12向识别处理部14输出进行了卷积处理所得到的选择结果。
识别处理部14基于通过卷积处理部12输出的输出结果来执行识别处理。例如,在识别处理部14中,基于由子采样部13决定的代表特征量来执行识别处理。此外,关于识别处理的具体方法与在比较例中所说明的相同,因此省略在此的说明。
识别结果输出部15输出通过识别处理部14执行识别处理而得到的识别处理结果。
(分类器10的工作)
接着,对如以上那样构成的分类器10的工作进行说明。
图6是用于说明本实施方式的分类器10的工作的流程图。图7是表示图6的工作的详情的流程图。
首先,分类器10进行图像的输入的图像输入处理(S1)。更详细而言,如图7所示,分类器10读入图像(输入图像)(S11),对读入的输入图像实施预定的前处理(S12)。
接着,分类器10进行卷积处理(S3)。具体而言,在S3中,分类器10对输入的同一图像进行由多个不同的卷积滤波器进行的卷积处理(S31),从构成通过进行卷积处理(S31)而得到的图像的多个像素的各位置处的多个处理结果的值中,决定一个与各位置相对应的特征量(S32)。
更详细而言,如图7所示,在S31中,分类器10例如在低分辨率卷积处理部121a中利用低分辨率的卷积滤波器对输入图像进行卷积处理(S311)。另外,在S31中,分类器10在中分辨率卷积处理部122a中利用中分辨率的卷积滤波器对输入图像进行卷积处理(S312),在高分辨率卷积处理部123a中利用高分辨率的卷积滤波器对输入图像进行卷积处理(S313)。这样一来,分类器10能够得到以各种分辨率对与同一输入图像所包含的各像素相对应的位置进行了卷积处理时的处理结果的值。此外,在S31中,进行S311~S313的处理的顺序不限于图7所示的情况。在S31中,无论顺序如何,只要进行S311~S313的处理即可。接着,在S32中,分类器10如图7所示那样进行如下的输出选择处理:对在S31中利用各分辨率的卷积滤波器在与输入图像所包含的各像素相对应的位置进行卷积处理所得到的处理结果的值进行比较,仅输出最大值作为各位置处的特征量。将此作为接下来的子采样层的输入,分类器10进行子采样处理(S4)。然后,将子采样处理(S4)的处理结果作为新的输入,反复进行卷积处理(S3)和子采样处理(S4)。根据该反复进行的次数是否大于阈值,对是否结束卷积处理(S3)进行判定(S5)。在S5中分类器10判定为不结束卷积处理(S3)的情况下(S5为否),使处理返回至S3。在S5中分类器10判定为结束卷积处理(S3)的情况下(S5为是),使处理进入S6。
此外,也可以是,例如不反复进行卷积处理(S3)和子采样处理(S4),而是在子采样处理(S4)之后,进入后述的识别处理(S6)。在该情况下,例如将S5中的阈值设定为1即可。
在此,对分类器10进行多次(在多层的卷积处理层中)卷积处理(S3)的情况进行说明。
图8A和图8B是用于说明第2层以后的卷积处理的图。图8A示出了排列了N个第1层(子采样层)的输出的行列,图8B在概念上示出了第2层的卷积滤波器(卷积滤波器)。
在第2个卷积处理层中,使用图8A所示的排列了N个第1层(子采样层)的输出的行列和图8B所示的第2层的卷积滤波器,进行3维卷积处理。对于第2层的卷积滤波器而言,若将卷积滤波器的纵向、横向分别设为Fy2、Fx2,则高度成为与由第1层输出的滤波器数相同的N。将卷积处理进行与第2层的滤波器数相同的次数。并且,与第1层同样,若在卷积处理层之后存在子采样层,则进行子采样处理。
通过反复进行预定次数的以上的处理,能够从输入图像通过卷积处理提取特征量并进行数据(特征量)的子采样处理,能够提取对识别物体而言有效的特征。
返回到图6和图7进行说明。在S5中,在分类器10判定为结束卷积处理(S3)的情况下(S5为是),分类器10进行识别处理(S6)。更具体而言,分类器10基于在S3的卷积处理中所选择的多个像素的像素值来执行识别处理。
接着,分类器10输出在S6中进行识别处理后得到的结果(识别结果信息)(S8)。更具体而言,分类器10输出通过在S6中执行识别处理而得到的处理结果(识别处理结果信息)。
(效果等)
根据本实施方式,通过并行地进行利用不同的卷积滤波器进行的卷积处理,能够从算出的输入图像所包含的多个像素的各位置处的多个处理结果的值中,按每个像素选择性地利用有利于识别的信息,因此不仅能够高速地进行图像识别,还能够提高图像识别精度。由此,能够实现能高速且高精度地进行图像识别的图像识别方法、图像识别装置。
另外,实现图像识别装置的本实施方式的分类***1仅具有1个具有不同的卷积滤波器的分类器10即可,因此,作为神经网络,构造更为简单,能够实现对处理速度的改善。
另外,在本实施方式的图像识别装置等中,并列利用分辨率不同的多个卷积滤波器。由此,即使在映在输入图像中的物体的大小、分辨率不同的情况下,也能够高效地从物体提取特征量。换言之,若在分类器10的第1层(中间层)中能够应对多个分辨率,则即使在输入的图像中的分辨率未知的情况下,也能够从低分辨率到高分辨率进行多种应对,因此能够进行更适于识别的特征量的提取。
例如,在文字识别等中,对于直线,利用容许些许误差的低分辨率的卷积滤波器进行特征量的提取,对于曲线,利用仅能表现弯曲状态的高分辨率的卷积滤波器进行特征量的提取即可。另外,例如在识别性能易于受位置偏移的影响的情况下,使用低分辨率的卷积滤波器进行处理即可,在不易受位置偏移的影响的情况下,利用高分辨率的卷积滤波器进行处理即可。由此,能够配合图像的性质,自动选择分辨率。
此外,在本实施方式中,对使用卷积处理部12所具有的作为不同的卷积滤波器的,低分辨率卷积滤波器、中分辨率卷积滤波器以及高分辨率卷积滤波器这3个不同的卷积滤波器的例子进行了说明,但不限于此。卷积滤波器的数量、卷积滤波器的分辨率不限于此,可以根据识别对象而设为更少的卷积滤波器。在该情况下,能够进一步削减存储量和/或计算量。另外,对于卷积滤波器的分辨率,若知道作为识别对象的图像(输入图像)的特征的部位(边缘等)的分辨率,则也可以据此来决定。
另外,在本实施方式中,对多个卷积滤波器中分辨率或尺度参数不同的情况的例子进行了说明,但不限于此。例如,也可以是,在多个卷积滤波器中,各个处理对象的颜色不同。更具体而言,第1卷积处理部121、第2卷积处理部122以及第3卷积处理部123分别利用分辨率或尺度参数不同的多个滤波器对输入图像进行卷积处理,但不限于此。例如,第1卷积处理部121、第2卷积处理部122以及第3卷积处理部123也可以用各自处理对象的颜色不同的多个卷积滤波器对输入图像进行卷积处理。而且,也可以利用输出选择部124对由多个卷积滤波器处理后所得到的处理结果进行选择处理。由此、本实施方式的分类器10能够在与辉度的轮廓相比在颜色的变化、分布上具有特征那样的输入图像群中取得有效的特征量。
以上,在实施方式中说明了分类器10的各处理,但实施各处理的主体、装置没有特别限定。例如,可以利用组装于在本地配置的特定的装置内的处理器等(以下进行说明)进行处理。另外,也可以利用在与本地的装置不同的场所配置的服务器等进行处理。另外,也可以通过在本地的装置和服务器之间进行信息的协作,来分担本发明所说明的各处理。例如,也可以是,本地的装置具备作为分类器10的一部分的图像输入部11和识别结果输出部15,服务器具有作为分类器10的另一部分的卷积处理部12、子采样部13以及识别处理部14。
另外,在上述实施方式中,在利用服务器实现分类器10的处理的一部分或全部的情况下,例如能够在以下云服务器的类型中实现。但是,能实现上述实施方式中所说明的处理的云服务器的类型不限于这些。
以下,对通过实现分类器10的处理的一部分或全部的服务器提供的服务进行说明。
图13A~图13C是用于说明使用服务器提供服务的方式的一例的图。
在图13A中,示出了服务器(1100)具有数据中心运营公司(11001)所运营的云服务器(110011)以及服务供应商所运营的服务器(110021)的结构。
云服务器(110011)是经由互联网与各种各样的设备协作的虚拟服务器。主要管理难以由通常的数据库管理工具等进行处理的庞大的数据(大数据)等。数据中心运营公司(11001)进行数据管理、云服务器(110011)的管理以及进行这些管理的数据中心的运营等。关于数据中心运营公司(11001)所进行的劳务,详情后述。在此,数据中心运营公司(11001)不限于只进行数据管理和/或云服务器(110011)的运营等的公司。
在对上述实施方式中进行了说明的分类器10、分类***1进行开发、制造的制造商一并进行数据管理和/或云服务器(110011)的管理等的情况下,制造商相当于数据中心运营公司(11001)(图13B)。
此外,数据中心运营公司(11001)不限于一个公司。例如在制造商以及其他管理公司共同进行或者分担进行数据管理和/或云服务器(110011)的运营的情况下,两者或者任一者相当于数据中心运营公司(11001)(图13C)。
服务供应商(11002)具有服务器(110021)。在此所说的服务器(110021)不论其规模如何,例如也包括利用个人用PC或者网关设备进行工作的服务器。另外,有时服务供应商不具有服务器(110021)。
接着,对上述服务中信息的流向进行说明。
例如在图13A所示的家A(1210)中用数码相机等家电设备拍摄的图像被送往云服务器(110011)(图13A的箭头(a))。
云服务器(110011)接收例如从家A(1210)、其他的家B发送的由家电设备拍摄的图像并储存。
接着,数据中心运营公司(11001)的云服务器(110011)将储存的图像等信息以一定的单位提供给服务供应商(11002)。在此,既可以是数据中心运营公司能够整理所储存的图像等信息并提供给服务供应商(11002)的单位,也可以是服务供应商(11002)所要求的单位。虽然记载为一定的单位,但也可以不是一定的,有时提供的信息量也根据状况而变化。
数据中心运营公司(11001)提供给服务供应商(11002)的图像等信息根据需要而保存于服务供应商(11002)所具有的服务器(110021)(图13A的箭头(b))。
然后,服务供应商(11002)基于图像等,将适合向用户提供的服务的信息(例如由作为分类器10的一部分的卷积处理部12和子采样部13进行处理而得到的处理结果的信息、基于所提供的图像等信息而学习到的分辨率、应该对多个不同的卷积滤波器设定的设定值)提供给用户。
所提供的用户既可以是使用1个或多个家电设备的用户(1211),也可以是处于家之外的用户(1212)。
向用户提供服务的方法可以是例如不再次经由云服务器(110011),而是从服务供应商(11002)直接向用户提供(图13A的箭头(e)或(f))。
另外,向用户提供服务的方法也可以是例如再次经由数据中心运营公司(11001)的云服务器(110011),向用户提供(图13A的箭头(c)、(d))。另外,也可以是,数据中心运营公司(11001)的云服务器(110011)基于由家电设备拍摄的图像等,将适合向用户提供的服务的信息(在云服务器(110011)例如具有作为分类器10的一部分的卷积处理部12和子采样部13的情况下,由该一部分进行处理而得到的处理结果的信息、基于所提供的图像等信息而学习到的分辨率、应该对多个不同的卷积滤波器设定的设定值)提供给服务供应商(11002)。
关于服务的类型,在以下进行说明。
(服务的类型1:自己公司数据中心型)
图14是用于说明服务的类型的一例的图。
图14具体而言是表示服务的类型1(自己公司数据中心型)的图。本类型是服务供应商(11002)从图示的家A(1210)取得图像等信息,并对用户提供适合服务的信息的类型。
在本类型中,服务供应商(11002)具有数据中心运营公司的功能。即,服务供应商具有进行对大数据的管理的云服务器(110011)。因此,不存在数据中心运营公司。
在本类型中,服务供应商(11002)对数据中心(云服务器(110011))进行运营、管理(1100203)。另外,服务供应商(11002)对OS(1100202)和应用(1100201)进行管理。服务供应商(11002)使用由服务供应商(11002)管理的OS(1100202)和应用(1100201),执行例如相当于作为分类器10的一部分的卷积处理部12和子采样部13的处理,对用户提供适合服务的信息(1100204)。
(服务的类型2:IaaS利用型)
图15是用于说明服务的类型的一例的图。
图15具体而言是表示服务的类型2(IaaS利用型)的图。
在此,IaaS是基础设施即服务的简称,是将用于构筑计算机***并使其运作的基础本身,作为经由互联网的服务而提供的云服务提供模型。
在本类型中,数据中心运营公司对数据中心(云服务器(110011))进行运营、管理(1100103)。另外,服务供应商(11002)对OS(1100202)和应用(1100201)进行管理。服务供应商(11002)使用由服务供应商(11002)管理的OS(1100202)和应用(1100201),执行例如相当于作为分类器10的一部分的卷积处理部12和子采样部13的处理,对用户提供适合服务的信息(1100204)。
(服务的类型3:PaaS利用型)
图16是用于说明服务的类型的一例的图。
图16具体而言是表示服务的类型3(PaaS利用型)的图。在此,PaaS是平台即服务的简称,是将成为用于构筑软件并使其运作的基台的平台,作为经由互联网的服务而提供的云服务提供模型。
在本类型中,数据中心运营公司(11001)对OS(1100102)进行管理,对数据中心(云服务器(110011))进行运营、管理(1100103)。另外,服务供应商(11002)对应用(1100201)进行管理。使用由服务供应商(11002)、数据中心运营公司管理的OS(1100102)和由服务供应商(11002)管理的应用(1100201),执行例如相当于作为分类器10的一部分的卷积处理部12和子采样部13的处理,对用户提供适合服务的信息(1100204)。
(服务的类型4:SaaS利用型)
图17是用于说明服务的类型的一例的图。
图17具体而言是表示服务的类型4(SaaS利用型)的图。在此,SaaS是软件即服务的简称。例如,是具有如下功能的云服务提供模型,即:没有数据中心(云服务器)的公司、个人(利用者)能够经由互联网等网络使用由具有数据中心(云服务器)的平台提供者所提供的应用。
在本类型中,数据中心运营公司(11001)对应用(1100101)进行管理,对OS(1100102)进行管理,对数据中心(云服务器(110011))进行运营、管理(1100103)。另外,服务供应商120使用由数据中心运营公司(11001)管理的OS(1100102)和应用(1100101),执行例如相当于作为分类器10的一部分的卷积处理部12和子采样部13的处理,对用户提供适合服务的信息(1100204)。
在以上任一类型中,都设为服务供应商11002进行对用户提供适合服务的信息的行为。另外,例如服务供应商或数据中心运营公司可以自己开发OS、应用或大数据的数据库等,也可以外包给第三者。
另外,本发明还包括以下这样的情况。
(1)上述装置具体而言是由微处理器、ROM、RAM、硬盘单元、显示器单元、键盘、鼠标等构成的计算机***。所述RAM或硬盘单元存储有计算机程序。所述微处理器按照所述计算机程序进行工作,从而各装置实现其功能。在此,计算机程序为了实现预定的功能,构成为组合了多个表示对计算机的指令的命令码。
(2)构成上述装置的构成要素的一部分或全部可以由一个***LSI(Large ScaleIntegration:大规模集成电路)构成。***LSI是将多个构成部集成于一个芯片上制造出的超多功能LSI,具体而言是构成为包括微处理器、ROM、RAM等的计算机***。在所述RAM存储有计算机程序。所述微处理器按照所述计算机程序进行工作,从而***LSI实现其功能。
(3)构成上述装置的构成要素的一部分或全部也可以由能够相对于各装置装卸的IC卡或单个模块构成。所述IC卡或所述模块是由微处理器、ROM、RAM等构成的计算机***。所述IC卡或所述模块可以包括上述的超多功能LSI。微处理器按照计算机程序进行工作,从而所述IC卡或所述模块实现其功能。该IC卡或该模块可以具有防篡改性。
(4)本发明可以是上述内容所示的方法。另外,既可以是利用计算机实现这些方法的计算机程序,也可以是包括所述计算机程序的数字信号。
(5)另外,本发明可以是将所述计算机程序或所述数字信号记录在能够由计算机读取的记录介质,例如软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(注册商标)Disc)、半导体存储器等上的物体。另外,也可以是记录于这些记录介质的所述数字信号。
另外,本发明也可以是将所述计算机程序或所述数字信号经由电信线路、无线通信线路或有线通信线路、以互联网为代表的网络、数据广播等进行传递的物体。
另外,本发明也可以是具备微处理器和存储器的计算机***,所述存储器存储有上述计算机程序,所述微处理器按照所述计算机程序进行工作。
另外,也可以将所述程序或所述数字信号记录在所述记录介质并进行传递,或者将所述程序或所述数字信号经由所述网络等进行传递,从而利用独立的其他计算机***进行实施。
(6)也可以将上述实施方式及其变形例分别组合。
产业上的可利用性
本发明能够用于能高速且高精度地从图像识别图像中所包含的物体是何物的图像识别方法、图像识别装置以及程序,特别是能够用于针对由数码相机、电影摄像机、监控摄像机、车载摄像机、可佩戴摄像机等摄像装置取得的图像的图像识别方法、图像识别装置以及程序。
附图标记说明
1、900 分类***
10、90A、90B、90N 分类器
11、91 图像输入部
12、92 卷积处理部
13、93 子采样部
14、94 识别处理部
15、95 识别结果输出部
901 输入层
902 中间层
903 卷积处理层
904 子采样层
905 输出层
121 第1卷积处理部
121A 低分辨率卷积处理部
122 第2卷积处理部
122A 中分辨率卷积处理部
123 第3卷积处理部
123A 高分辨率卷积处理部
124 输出选择部

Claims (11)

1.一种图像识别方法,是图像识别装置的计算机所进行的图像识别方法,
进行所述图像的输入,
分别使用不同的卷积滤波器对输入的所述图像进行卷积处理,分别取得包含构成所述图像的多个像素的各位置处的所述卷积处理的处理结果的值在内的处理结果信息,
基于包含于各个所述处理结果信息的所述多个像素的各位置处的所述卷积处理的处理结果的值,决定一个与所述多个像素的各位置相对应的特征量,输出所述决定的与多个像素的各位置相对应的特征量,
基于所述输出的与多个像素的各位置相对应的特征量来执行识别处理,
输出通过执行所述识别处理而得到的识别处理结果信息。
2.根据权利要求1所述的图像识别方法,
所述分别使用不同的卷积滤波器的卷积处理是分别使用分辨率或尺度参数不同的多个卷积滤波器对所述输入的所述图像进行的卷积处理。
3.根据权利要求1所述的图像识别方法,
所述分别使用不同的卷积滤波器的卷积处理包括第1卷积处理和第2卷积处理,该第1卷积处理是使用第1分辨率的卷积滤波器对所述输入的所述图像进行的处理,该第2卷积处理是使用分辨率高于所述第1分辨率的第2分辨率的卷积滤波器对所述输入的所述图像进行的处理。
4.根据权利要求1所述的图像识别方法,
所述分别使用不同的卷积滤波器的卷积处理是分别使用处理对象的颜色不同的卷积滤波器对所述输入的所述图像进行的卷积处理。
5.根据权利要求1所述的图像识别方法,
在与所述多个像素的各位置相对应的特征量的输出中,
按所述多个像素的每个位置,选择所述位置处的所述多个处理结果的值中的最大值作为所述位置处的特征量,由此决定一个与所述位置相对应的特征量,输出所述决定的与所述位置相对应的特征量。
6.根据权利要求1所述的图像识别方法,
在与所述多个像素的各位置相对应的特征量的输出中,
按所述多个像素的每个位置,算出所述位置处的所述多个处理结果的值的中值或平均值,将所述算出的值决定为所述位置处的特征量,由此决定一个与所述位置相对应的特征量,输出所述决定的与所述位置相对应的特征量。
7.根据权利要求1所述的图像识别方法,
进而,在与所述多个像素的各位置相对应的特征量的输出中,
按包含所述位置相邻的多个像素的每个区域进行如下的子采样处理:将与该区域所包含的多个像素的位置相对应的特征量中的任一特征量决定为代表该区域的特征量即代表特征量,
基于在进行所述子采样处理时所决定的所述代表特征量,执行所述识别处理。
8.根据权利要求7所述的图像识别方法,
在进行所述子采样处理时,将与所述区域所包含的多个像素的位置相对应的特征量中的值最大的特征量决定为所述代表特征量。
9.根据权利要求1所述的图像识别方法,
所述图像的输入、各个所述处理结果信息的取得、与所述多个像素的各位置相对应的特征量的输出、所述识别处理的执行以及所述识别处理结果信息的输出中的至少一方由图像识别装置的计算机所具备的处理器进行。
10.一种图像识别装置,具备:
图像输入部,其进行所述图像的输入;
卷积处理部,其分别使用不同的卷积滤波器对输入的所述图像进行卷积处理,分别取得包含构成所述图像的多个像素的各位置处的所述卷积处理的处理结果的值在内的处理结果信息,基于包含于各个所述处理结果信息的所述多个像素的各位置处的所述卷积处理的处理结果的值,决定一个与所述多个像素的各位置相对应的特征量,输出所述决定的与多个像素的各位置相对应的特征量;
识别处理部,其基于由所述卷积处理部输出的与所述多个像素的各位置相对应的特征量来执行识别处理;以及
识别结果输出部,其输出通过所述识别处理部执行所述识别处理而得到的识别处理结果信息。
11.根据权利要求10所述的图像识别装置,
所述图像输入部、所述卷积处理部、所述识别处理部以及所述识别结果输出部中的至少一方包含处理器。
CN201610086087.8A 2015-03-06 2016-02-15 图像识别方法、图像识别装置 Active CN105938557B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2015-045257 2015-03-06
JP2015045257 2015-03-06
JP2015-156871 2015-08-07
JP2015156871 2015-08-07

Publications (2)

Publication Number Publication Date
CN105938557A true CN105938557A (zh) 2016-09-14
CN105938557B CN105938557B (zh) 2021-08-10

Family

ID=55588027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610086087.8A Active CN105938557B (zh) 2015-03-06 2016-02-15 图像识别方法、图像识别装置

Country Status (4)

Country Link
US (1) US9940548B2 (zh)
EP (1) EP3065084A1 (zh)
JP (1) JP6706788B2 (zh)
CN (1) CN105938557B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107333107A (zh) * 2017-07-21 2017-11-07 广东美的制冷设备有限公司 监控拍摄方法、装置及其设备
CN107480677A (zh) * 2017-08-07 2017-12-15 北京深睿博联科技有限责任公司 一种识别三维ct图像中感兴趣区域的方法及装置
CN109784259A (zh) * 2019-01-08 2019-05-21 江河瑞通(北京)技术有限公司 基于图像识别的水体透明度智能识别方法及塞氏盘组件
WO2019223154A1 (zh) * 2018-05-25 2019-11-28 平安科技(深圳)有限公司 单页高负载图像识别方法、装置、计算机设备及存储介质
CN110880034A (zh) * 2018-09-06 2020-03-13 三星电子株式会社 使用卷积神经网络的计算装置及其操作方法

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10043112B2 (en) * 2014-03-07 2018-08-07 Qualcomm Incorporated Photo management
US9875429B2 (en) 2015-10-06 2018-01-23 Adobe Systems Incorporated Font attributes for font recognition and similarity
US10074042B2 (en) * 2015-10-06 2018-09-11 Adobe Systems Incorporated Font recognition using text localization
JP6815743B2 (ja) * 2016-04-15 2021-01-20 キヤノン株式会社 画像処理装置及びその方法、プログラム
US10726573B2 (en) 2016-08-26 2020-07-28 Pixart Imaging Inc. Object detection method and system based on machine learning
CN107786867A (zh) * 2016-08-26 2018-03-09 原相科技股份有限公司 基于深度学习架构的图像辨识方法及***
US10007868B2 (en) 2016-09-19 2018-06-26 Adobe Systems Incorporated Font replacement based on visual similarity
KR20180073314A (ko) * 2016-12-22 2018-07-02 삼성전자주식회사 컨볼루션 신경망 시스템 및 그것의 동작 방법
US10699184B2 (en) * 2016-12-29 2020-06-30 Facebook, Inc. Updating predictions for a deep-learning model
US11132619B1 (en) * 2017-02-24 2021-09-28 Cadence Design Systems, Inc. Filtering in trainable networks
US10261903B2 (en) 2017-04-17 2019-04-16 Intel Corporation Extend GPU/CPU coherency to multi-GPU cores
US10776880B2 (en) * 2017-08-11 2020-09-15 American International Group, Inc. Systems and methods for dynamic real-time analysis from multi-modal data fusion for contextual risk identification
JP2019036899A (ja) * 2017-08-21 2019-03-07 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP6811965B2 (ja) * 2017-09-29 2021-01-13 株式会社Spectee 画像処理装置、画像処理方法及びプログラム
US11151669B1 (en) 2017-11-16 2021-10-19 State Farm Mutual Automobile Insurance Company Systems and methods for identifying hidden home maintenance costs
US11023985B1 (en) 2017-11-16 2021-06-01 State Farm Mutual Automobile Insurance Company Systems and methods for executing a customized home search
US10140553B1 (en) 2018-03-08 2018-11-27 Capital One Services, Llc Machine learning artificial intelligence system for identifying vehicles
JP6801020B2 (ja) * 2019-01-11 2020-12-16 セコム株式会社 画像認識装置、画像認識方法、及び画像認識プログラム
US10950017B2 (en) 2019-07-08 2021-03-16 Adobe Inc. Glyph weight modification
US11295181B2 (en) 2019-10-17 2022-04-05 Adobe Inc. Preserving document design using font synthesis
KR20210097448A (ko) * 2020-01-30 2021-08-09 삼성전자주식회사 영상 데이터 처리 방법 및 영상 데이터 처리 방법을 수행하는 센서 장치
WO2021200199A1 (ja) * 2020-03-30 2021-10-07 ソニーグループ株式会社 情報処理装置、情報処理方法および情報処理プログラム
KR20210133084A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 뉴럴 네트워크의 학습 방법 및 장치
CN111767858B (zh) 2020-06-30 2024-03-22 北京百度网讯科技有限公司 图像识别方法、装置、设备和计算机存储介质
CN112288028A (zh) * 2020-11-06 2021-01-29 神思电子技术股份有限公司 一种基于流卷积的图像识别方法
WO2022190157A1 (ja) * 2021-03-08 2022-09-15 株式会社日立国際電気 撮像装置及び映像処理システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008153194A1 (en) * 2007-06-15 2008-12-18 Canon Kabushiki Kaisha Calculation processing apparatus and method
CN101681450A (zh) * 2007-06-13 2010-03-24 佳能株式会社 计算处理装置及其控制方法
CN101809597A (zh) * 2007-09-26 2010-08-18 佳能株式会社 计算处理装置及方法
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4846924B2 (ja) * 2001-05-31 2011-12-28 キヤノン株式会社 パターン認識装置
CN103679185B (zh) 2012-08-31 2017-06-16 富士通株式会社 卷积神经网络分类器***、其训练方法、分类方法和用途
US9524450B2 (en) * 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
US10282663B2 (en) * 2015-08-15 2019-05-07 Salesforce.Com, Inc. Three-dimensional (3D) convolution with 3D batch normalization
CN106570564B (zh) * 2016-11-03 2019-05-28 天津大学 基于深度网络的多尺度行人检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101681450A (zh) * 2007-06-13 2010-03-24 佳能株式会社 计算处理装置及其控制方法
WO2008153194A1 (en) * 2007-06-15 2008-12-18 Canon Kabushiki Kaisha Calculation processing apparatus and method
CN101809597A (zh) * 2007-09-26 2010-08-18 佳能株式会社 计算处理装置及方法
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SZEGEDY CHRISTIAN: ""Going Deeper with Convolutions"", 《ARXIV.ORG》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107333107A (zh) * 2017-07-21 2017-11-07 广东美的制冷设备有限公司 监控拍摄方法、装置及其设备
CN107480677A (zh) * 2017-08-07 2017-12-15 北京深睿博联科技有限责任公司 一种识别三维ct图像中感兴趣区域的方法及装置
CN107480677B (zh) * 2017-08-07 2020-04-28 北京深睿博联科技有限责任公司 一种识别三维ct图像中感兴趣区域的方法及装置
WO2019223154A1 (zh) * 2018-05-25 2019-11-28 平安科技(深圳)有限公司 单页高负载图像识别方法、装置、计算机设备及存储介质
CN110880034A (zh) * 2018-09-06 2020-03-13 三星电子株式会社 使用卷积神经网络的计算装置及其操作方法
CN109784259A (zh) * 2019-01-08 2019-05-21 江河瑞通(北京)技术有限公司 基于图像识别的水体透明度智能识别方法及塞氏盘组件
CN109784259B (zh) * 2019-01-08 2021-04-13 江河瑞通(北京)技术有限公司 基于图像识别的水体透明度智能识别方法及塞氏盘组件

Also Published As

Publication number Publication date
JP2017033529A (ja) 2017-02-09
JP6706788B2 (ja) 2020-06-10
US20160259995A1 (en) 2016-09-08
CN105938557B (zh) 2021-08-10
EP3065084A1 (en) 2016-09-07
US9940548B2 (en) 2018-04-10

Similar Documents

Publication Publication Date Title
CN105938557A (zh) 图像识别方法、图像识别装置
CN110472534A (zh) 基于rgb-d数据的3d目标检测方法、装置、设备和存储介质
JP7032536B2 (ja) インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体
CN112434721A (zh) 一种基于小样本学习的图像分类方法、***、存储介质及终端
CN105446988B (zh) 预测类别的方法和装置
CN107690657A (zh) 根据影像发现商户
CN105938558A (zh) 学习方法
US20150370888A1 (en) Systems and methods for automatic narrative creation
CN106233747A (zh) 辨识数据生成装置、图像辨识装置以及辨识数据生成方法
CN110222880A (zh) 业务风险的确定方法、模型训练方法和数据处理方法
CN112288572B (zh) 业务数据处理方法及计算机设备
CN110648309B (zh) 基于条件生成对抗网络合成红细胞图像的方法及相关设备
CN112215238B (zh) 一种通用特征提取模型构建方法、***及装置
CN109614414B (zh) 一种用户信息的确定方法及装置
CN110390314A (zh) 一种视觉感知方法及设备
CN106445977A (zh) 图片推送方法及装置
CN107944478A (zh) 图像识别方法、***以及电子设备
CN110349013A (zh) 风险控制方法及装置
CN110231974A (zh) 运维信息的可视化方法、装置、设备及可读存储介质
US20200272672A1 (en) Machine-learning based personalization
CN107885754B (zh) 基于lda模型从交易数据中提取信用变量的方法和装置
CN109408669A (zh) 一种针对不同应用场景的内容审核方法及装置
CN104899232B (zh) 协同聚类的方法和设备
CN113448876B (zh) 一种业务测试方法、装置、计算机设备及存储介质
CN112329852B (zh) 地表覆盖影像的分类方法、装置和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant