CN108307660B

CN108307660B - 信息处理方法、信息处理装置以及程序

Info

Publication number: CN108307660B
Application number: CN201780003739.XA
Authority: CN
Inventors: G·塞奈; 筑泽宗太郎; M·Y·金; L·里加佐
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-11-09
Filing date: 2017-10-20
Publication date: 2023-08-22
Anticipated expiration: 2037-10-20
Also published as: JP2018077829A; EP3540687A1; JP6964234B2; EP3540687A4; US10796184B2; WO2018088170A1; CN108307660A; US20190251383A1

Abstract

信息处理方法包括：输入步骤(S1)，将影像输入到神经网络；处理步骤(S2)，对影像所包含的当前帧进行卷积处理，算出作为当前的特征图的当前特征图，使对影像所包含的过去帧进行卷积处理所获得的过去特征图与当前特征图结合，使用结合了的过去特征图与当前特征图，推定物体候选区域，使用结合了的过去特征图以及当前特征图、与推定出的物体候选区域，推定当前帧中映现的一个以上物体的位置以及识别信息；和输出步骤(S3)，将在处理步骤(S2)中推定出的影像的当前帧中映现的一个以上的物体的位置以及识别信息作为物体检测结果进行输出。

Description

信息处理方法、信息处理装置以及程序

技术领域

本公开涉及信息处理方法、信息处理装置以及程序，尤其涉及计算机使用神经网络(Neural Network：NN)进行的信息处理方法、信息处理装置及其程序。

背景技术

近年来，用于将作为事先检测事故等的可能性并加以避免的***的先进驾驶辅助***(Advanced Driver Assistance System：ADAS)以及自动驾驶车辆实际应用的应对正在盛行。作为实现它们的重要功能，具有对路上的障碍物进行检测的障碍物检测功能。

作为实现障碍物检测功能的技术，使用深度学习(deep learning)来检测动态图像中映现的多个物体的物体检测技术正受到关注(例如非专利文献1)。在非专利文献1中，通过使用Faster-RCNN作为深度学习中所用的CNN(Convolution Neural Network，卷积神经网络)，与使用R-CNN(Regions with CNN features)的情况相比较，实现了识别率的提高和检测速度的高速化。

现有技术文献

非专利文献1：Shaoqing Ren and al.,Faster R-CNN:Towards Real-TimeObject Detection with Region Proposal Networks,International Conference onComputer Vision(ICCV),2015,pages 1440-1448.

非专利文献2：Iandola F.N.,and al.,SqueezeNet:AlexNet-level accuracywith 50x fewer parameters and<MB model size,arXiv preprint,arXiv:1602.07360,2016.

非专利文献3：Kaiming He and al.,Deep Residual Learning for ImageRecognition,The IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016,pp.770-778.

非专利文献4：Alex Krizhevsky and al.,ImageNet Classification with DeepConvolutional Neural Networks,Part of:Advances in Neural InformationProcessing Systems 25(NIPS 2012).

发明内容

本公开的一个技术方案涉及的信息处理方法，是计算机使用神经网络进行的信息处理方法，该信息处理方法包括：输入步骤，将映现一个以上的物体的影像输入到所述神经网络；处理步骤，使所述神经网络所具有的卷积层对所述影像所包含的当前帧进行卷积处理，算出作为当前的特征图(feature map)的当前特征图，使结合部将过去特征图与所述当前特征图结合，所述结合部用于将两个以上的特征图结合成一个特征图，所述过去特征图是使所述卷积层对所述影像所包含并且在时间上位于所述当前帧之前的过去帧进行卷积处理所获得的特征图，使候选区域生成网络即RPN(Region Proposal Network)使用结合了的所述过去特征图与所述当前特征图推定物体候选区域，所述候选区域生成网络是所述神经网络所具有的，用于推定物体候选区域，使兴趣区池化层即RoI(Region of Interest)池化(pooling)层使用结合了的所述过去特征图以及所述当前特征图、与推定出的所述物体候选区域，推定所述当前帧中映现的一个以上物体的位置以及识别信息，所述兴趣区池化层是所述神经网络所具有的，用于进行类(class)推定；和输出步骤，将在所述处理步骤中推定出的所述影像的当前帧中映现的一个以上的物体的位置以及识别信息作为物体检测结果进行输出。

此外，这些总括性的或者具体的技术方案既可以通过***、方法、集成电路、计算机程序或者计算机能够读取的CD-ROM等记录介质来实现，也可以通过***、方法、集成电路、计算机程序以及记录介质的任意组合来实现。

根据本公开的信息处理方法等，能够进一步提高计算机使用神经网络进行的物体检测的处理速度。

附图说明

图1是表示实施方式中的信息处理装置的构成的一例的框图。

图2是表示图1所示的处理部的详细构成的一例的框图。

图3是表示图2所示的CNN的详细构成的一例的图。

图4A是表示SqueezeNet的网络模型的图。

图4B是表示图4A所示的Fire Module的构成的图。

图5是表示实施方式中的信息处理装置的物体检测处理的流程图。

图6是表示实施方式中的信息处理装置的物体检测处理的一例的图。

图7是表示图5所示的步骤S2的物体检测处理的详情的流程图。

图8是概念性地表示实施方式中的物体检测处理的详情的图。

图9是表示变形例1中的处理部的详细构成的一例的框图。

图10是表示变形例2中的处理部的详细构成的一例的框图。

图11是表示实施例中的使用了KITTI MOD Data set的评价车类的识别率而得到的实验结果的图。

图12是表示实施例中的使用了KITTI MOD Data set的评价步行者(行人)类的识别率而得到的实验结果的图。

图13是表示实施例中的使用了KITTI MOD Data set的评价骑行者(cyclist)类的识别率而得到的实验结果的图。

图14是表示实施例中的使用了KITTI MOD Data set的处理速度的评价结果的图。

具体实施方式

(得到本公开的一个技术方案的经过)

物体检测技术是识别图像中的物体的位置和种类的图像识别技术之一。近年来，使用深度学习的物体检测技术受到关注，通过使用卷积神经网络(CNN)实现了高识别性能。然而，使用深度学习的物体检测技术存在一般而言需要巨大的运算量且检测速度慢这一问题。

在非专利文献1中，通过使用Faster-RCNN作为深度学***均准确率)进行了评价。

如此，根据非专利文献1中提出的使用Faster-RCNN的物体检测技术，与使用R-CNN的情况相比较，实现了识别率的提高和检测速度的高速化。

然而，例如汽车在以时速为100km行驶的情况下，即使检测速度为5fps，也会在从作为障碍物的物体出现到发现它为止前进约5.56m。也就是说，使用Faster-RCNN的物体检测技术的检测速度即5fps是不足以用于与障碍物的冲突回避的速度。

如此，根据非专利文献1中提出的物体检测技术，由于没有达到实时检测，因此难以应用于ADAS以及自动驾驶等要求实时物体检测的***。

本公开是鉴于上述情况而做出的，目的在于提供能够进一步提高计算机使用神经网络进行的物体检测的处理速度的信息处理方法、信息处理装置以及程序。

本公开的一个技术方案涉及的信息处理方法，是计算机使用神经网络进行的信息处理方法，该信息处理方法包括：输入步骤，将映现一个以上的物体的影像输入到所述神经网络；处理步骤，使所述神经网络所具有的卷积层对所述影像所包含的当前帧进行卷积处理，算出作为当前的特征图的当前特征图，使结合部将过去特征图与所述当前特征图结合，所述结合部用于将两个以上的特征图结合成一个特征图，所述过去特征图是使所述卷积层对所述影像所包含并且在时间上位于所述当前帧之前的过去帧进行卷积处理所获得的特征图，使候选区域生成网络即RPN(Region Proposal Network)使用结合了的所述过去特征图与所述当前特征图推定物体候选区域，所述候选区域生成网络是所述神经网络所具有的，用于推定物体候选区域，使兴趣区池化层即RoI(Region of Interest)池化层使用结合了的所述过去特征图以及所述当前特征图、与推定出的所述物体候选区域，推定所述当前帧中映现的一个以上物体的位置以及识别信息，所述兴趣区池化层是所述神经网络所具有的，用于进行类推定；和输出步骤，将在所述处理步骤中推定出的所述影像的当前帧中映现的一个以上的物体的位置以及识别信息作为物体检测结果进行输出。

由此，能够进一步提高计算机使用神经网络进行的物体检测的处理速度。

在此，例如也可以为，所述神经网络具有三个以上的卷积层，使所述三个以上的卷积层中的一个卷积层对所述影像所包含的所述当前帧进行卷积处理，算出所述当前特征图，针对所述影像所包含的各个所述过去帧，使所述三个以上的卷积层中除了所述一个卷积层之外的、并且所对应的卷积层对所述过去帧进行卷积处理，算出所述过去特征图。

另外，例如也可以为，所述神经网络具有一个卷积层，使所述卷积层对所述影像所包含的所述过去帧进行卷积处理，算出所述过去特征图，并将所述过去特征图存储于存储器，在使所述过去特征图与所述当前特征图结合时，结合所述存储器所存储的所述过去特征图、与使所述卷积层对所述影像所包含的所述当前帧进行卷积处理算出的所述当前特征图。

另外，例如所述卷积层由比预定网络模型轻量的网络模型构成。

在此，所述轻量的网络模型是计算机使用所述神经网络进行所述处理步骤的处理速度比5fps快的网络模型。

再者，例如也可以为，所述轻量的网络模型是具有多个Fire Module的SqueezeNet，所述Fire Module包括Squeeze层和Expand层，所述Squeeze层为1×1滤波器(filter)，所述Expand层并列排列有1×1滤波器以及3×3滤波器。

以下说明的实施方式均表示本公开的一个具体例。在以下的实施方式中所示的数值、形状、构成要素、步骤、步骤的顺序等仅为一例，并非旨在限定本公开。另外，对于以下实施方式中的构成要素中的、没有记载在表示最上位概念的独立权利要求中的构成要素，作为任意的构成要素进行说明。另外，在所有的实施方式中，也可以组合各自的内容。

(实施方式)

以下，参照附图，进行对实施方式中的信息处理装置10的信息处理方法等的说明。

[信息处理装置10的构成]

图1是表示本实施方式中的信息处理装置10的构成的一例的框图。图2是表示图1所示的处理部12的详细构成的一例的框图。

信息处理装置10由使用神经网络的计算机等实现，如图1所示那样通过输入部11、处理部12以及输出部13来构成。信息处理装置10在被输入了映现一个以上的物体的影像时，输出包含物体的识别信息以及位置信息的物体检测结果。此外，信息处理装置10也可以输出附加了物体检测结果的影像。

＜输入部11＞

输入部11将映现一个以上的物体的影像输入到神经网络。更具体而言，输入部11将分别包含于映现一个以上的物体的影像的、在时间序列上连续的当前帧以及过去帧输入到处理部12。在此，过去帧是在时间上位于当前帧之前的帧，包含于影像。此外，过去帧不限于一个帧，也可以是作为在时间上位于当前帧之前的帧的、时间上连续的两个以上的帧。另外，所谓时间上连续的两个以上的帧，只要是以处理部12能够进行物体检测的时间间隔在时间序列上连续的帧即可。因此，连续的帧的时间间隔根据想要检测的物体或者车载摄像头(camera)自身的移动速度等来变更即可。

在本实施方式中，设为输入部11将作为在时间序列上连续的两个图像的当前帧以及过去帧输入到处理部12来进行说明。

＜处理部12＞

处理部12使用本公开的神经网络，进行推定影像的当前帧中映现的一个以上的物体的位置以及识别信息的物体检测处理。在本实施方式中，如图2所示，处理部12具备CNN121、CNN122、结合部124、RFP125以及ROI池化层126。换言之，本公开的神经网络具备CNN121、CNN122、结合部124、RFP125以及ROI池化层126。此外，以下也将本公开的神经网络称为Temporal Faster-RCNN。

《CNN121、CNN122》

CNN121以及CNN122是本公开的神经网络所具有的两个以上的卷积层的一例，通过用于根据被输入的图像算出特征图的卷积神经网络(CNN)构成。构成CNN121以及CNN122的卷积神经网络相同，共享权重。另外，构成CNN121以及CNN122的卷积神经网络是事先学习得到的。

CNN121对影像所包含的当前帧进行卷积处理，算出作为当前的特征图的当前特征图。更具体而言，CNN121对由输入部11输入的当前帧进行卷积处理，算出相对于当前帧的特征图。

CNN122对影像所包含并且在时间上位于当前帧之前的过去帧进行卷积处理，算出过去特征图。更具体而言，CNN121对由输入部11输入的过去帧进行卷积处理，算出相对于过去帧的特征图。

在此，对构成CNN121以及CNN122的卷积神经网络的网络模型的一例进行说明。图3是表示图2所示的CNN121的详细构成的一例的图。此外，CNN122的详细构成也与图3同样，因此省略说明。图4A是表示SqueezeNet的网络模型的图。图4B是表示图4A所示的Fire Module的构成的图。

构成CNN121的卷积神经网络的网络模型是具有多个Fire Module的SqueezeNet，所述Fire Module包括Squeeze层和Expand层，Squeeze层为1×1滤波器，Expand层并列排列有1×1滤波器以及3×3滤波器。图3所示的CNN121例如由图4A所示的SqueezeNet 221中除了识别层之外的CNN部分即conv1～fire9构成。如图3所示，在作为最后一层的fire9，输出集拢为512。此外，SqueezeNet的详情公开于非专利文献2。

SqueezeNet例如如图4A所示那样具有：两个卷积层即conv1、conv10；三个MaxPooling层即maxpool/2；以及八个Fire Module即fire2～fire9。

八个Fire Module分别例如如图4B所示的Fire Module222那样，由三个卷积层CNN1、CNN2、CNN3构成。CNN1被称为作为1×1滤波器的Squeeze层。CNN2为3×3滤波器，CNN3为1×1滤波器，由并列排列的CNN2以及CNN3构成Expand层。也就是说，Fire Module由Squeeze层和Expand层构成。

而且，在Fire Module中，通过作为Squeeze层的CNN1，减小给予构成Expand层的CNN2的通道(channel)数，并通过与CNN2并列排列的CNN3来实质上将通道数平分，从而能够极力降低通道数。

此外，三个Max Pooling层为了保持SqueezeNet的精度而被***到conv1、fire4、fire8、conv10之后。

如此，在SqueezeNet中，通过使用Fire Module取代卷积层，构成进行参数削减的非常省内存的网络。另外，SqueezeNet能够维持精度并且使运算量降低。

由上可知，在本实施方式中，为了削减运算量，将SqueezeNet应用于为了算出特征图所使用的CNN121。

此外，SqueezeNet是比图像识别所使用的预定网络模型轻量的网络模型的一例。在此，预定网络模型例如是在Faster-RCNN以及R-CNN等中使用的VGG(Visual GemetryGroup：超分辨率测试序列)等，是以往图像识别所使用的卷积神经网络的网络模型。因此，适用于CNN121的网络模型不限于SqueezeNet。只要是计算机使用本公开的神经网络进行物体检测处理的处理速度比5fps快的轻量的网络模型，就能够适用于CNN121。作为适用于CNN121的网络模型，例如既可以是通常说的AlexNet，也可以是通常说的ResidualNet。对于AlexNet，非专利文献3中已公开，对于ResidualNet，非专利文献4中已公开。

《结合部124》

结合部124将两个以上的特征图结合成一个特征图。更具体而言，结合部124将CNN122对影像所包含的在时间上位于当前帧之前的过去帧进行卷积处理获得的特征图即过去特征图与当前特征图结合。

在本实施方式中，使过去特征图与当前特征图的区域连结来进行结合。换言之，结合部124使对不同时间的帧进行卷积处理所获得的特征图的所有区域连结来进行结合。

结合部124将结合获得的一个特征图输出到RFP125以及ROI池化层126。

《RFP125》

RFP125是用于推定物体候选区域的网络，也被称为候选区域生成网络(RegionProposal Network，RPN)。具体而言，RFP125是事先学习得到的。RFP125针对特征图，在检测窗口进行光栅扫描，输出表示像是物体的得分(score)和物体的区域这两方。如此，RFP125能够使用特征图，同时进行物体候选的推定和其区域的识别。

在本实施方式中，RFP125使用通过结合部124结合了的过去特征图与当前特征图，推定物体候选区域。更具体而言，RFP125针对连结了相对于当前帧的当前特征图与相对于过去帧的过去特征图所得的特征图，推定物体候选区域，物体候选区域包含表示像是物体的得分和物体的区域这两方。

另外，RFP125将推定出的物体候选区域输出到ROI池化层126。

《ROI池化层126》

ROI池化层126用于进行类推定。更具体而言，ROI池化层126使用将输入变形为任意尺寸的输出的ROI pooling，进行对物体候选区域的类识别，由此进行物体检测。

在本实施方式中，ROI池化层126使用通过结合部124结合了的过去特征图以及当前特征图、与通过RFP125推定出的物体候选区域，推定当前帧中映现的一个以上物体的位置以及识别信息。

＜输出部13＞

输出部13将在处理部12中推定出的影像的当前帧中映现的一个以上的物体的位置以及识别信息作为物体检测结果进行输出。

如此，输出部13能够将被输入到输入部11的影像中映现的一个以上的物体的位置以及识别信息作为物体检测结果输出。此外，输出部13也可以将物体检测结果附加于被输入到输入部11的影像并输出。

[信息处理装置10的工作]

以下，对如上所述构成的信息处理装置10的工作的一例进行说明。

图5是表示本实施方式中的信息处理装置10的物体检测处理的流程图。图6是表示本实施方式中的信息处理装置10的物体检测处理的一例的图。

首先，信息处理装置10进行将映现一个以上的物体的影像输入到作为本公开的神经网络的Temporal Faster-RCNN的输入处理(S1)。例如如图6所示，信息处理装置10将映现物体501和物体502两物体的影像50输入到Temporal Faster-RCNN。

接着，信息处理装置10进行推定影像中映现的一个以上物体的位置以及识别信息的物体检测处理(S2)，并进行作为物体检测结果输出的输出处理(S3)。例如如图6所示，信息处理装置10将影像50a作为物体检测结果输出，影像50a附有表示物体501、502的位置的框503、504以及表示物体501为车辆、物体502为动物的识别信息。

图7是表示图5所示的步骤S2的物体检测处理的详情的流程图。图8是概念性地表示本实施方式中的物体检测处理的详情的图。

在步骤S2中，首先，信息处理装置10对影像所包含的当前帧进行卷积处理，算出当前特征图(S21)。更具体而言，信息处理装置10对影像所包含的当前帧以及过去帧各个进行卷积处理，算出当前特征图以及过去特征图。在图8所示的例子中，信息处理装置10通过使CNN121对当前帧50_t进行卷积处理从而算出作为当前的特征图的当前特征图51_t。另外，信息处理装置10通过使CNN122对在时间上位于当前帧50_t之前的过去帧50_t-1进行卷积处理从而算出作为过去的特征图的过去特征图51_t-1。

接着，信息处理装置10将对过去帧进行卷积处理所获得的过去特征图与当前特征图结合(S22)。在图8所示的例子中，信息处理装置10通过使结合部124将当前特征图51_t与过去特征图51_t-1连结，结合了当前特征图51_t与过去特征图51_t-1。而且，信息处理装置10使结合部124将结合当前特征图51_t与过去特征图51_t-1所获得的一个特征图输出到RFP125和ROI池化层126。

接着，信息处理装置10使用结合了的过去特征图与当前特征图，推定物体候选区域(S23)。在图8所示的例子中，信息处理装置10使RFP125使用结合过去特征图51_t-1与当前特征图51_t所获得的一个特征图，推定了包含表示像是物体的得分和物体的区域这两方的物体候选区域52。

接着，信息处理装置10使用结合了的过去特征图以及当前特征图、与推定出的物体候选区域，推定当前帧中映现的一个以上物体的位置以及识别信息(S24)。在图8所示的例子中，信息处理装置10使ROI池化层126使用结合过去特征图51_t-1与当前特征图51_t所获得的一个特征图，进行对物体候选区域52的类识别，由此，推定了当前帧中映现的一个以上物体的位置以及识别信息。

[效果等]

在使用深度学习的物体检测中，从运算量的观点来看，特征图的算出最成为问题。于是，通过对用于算出特征图的卷积神经网络应用作为比图像识别通常所使用的VGG等预定网络模型轻量的网络模型的SqueezeNet等，削减特征图的算出的运算量。

另一方面，由于在算出的特征图中含有与物体的候选位置以及物体的种类有关的信息，因此对识别性能造成大的影响。也就是说，当通过对用于算出特征图的卷积神经网络应用SqueezeNet等来实现轻量化时，识别性能会大幅降低。于是，通过将时间序列信息、即过去的帧的信息与当前的帧的信息同时使用于识别，维持运算量并且抑制识别性能的降低。更具体而言，通过将过去的帧的物体检测中算出的特征图也利用于当前的帧的物体检测，维持运算量并且实现识别性能的提高。

在本实施方式的信息处理装置10中，具备应用了SqueezeNet等轻量的网络模型的CNN121以及CNN122，将相对于过去帧的过去特征图与相对于当前帧的当前特征图利用于当前帧的物体检测。

在学习时，使CNN121以及CNN122每次都对使用的所有帧进行特征图的算出。另一方面，在检测时，仅通过CNN121算出当前帧的特征图即可，对于过去帧的特征图，使用在过去帧为当前帧时CNN122算出并保持的特征图即可。由此，虽然学习时的运算量因使用的过去帧的数量而大幅增大，但是能够使得检测时的运算量几乎不增大。

如此，能够通过利用多帧的特征图即当前帧以及过去帧的特征图，使由于使用SqueezeNet等轻量的网络模型进行特征图的算出从而在削减运算量的同时由此出现恶化的识别性能得到提高。也就是说，在使特征图的算出处理轻量化的情况下也能够抑制识别率的降低。

如上所述，根据本实施方式中的信息处理装置10，能够进一步提高计算机使用神经网络进行的物体检测的处理速度。由此，能够将本实施方式中的信息处理装置10应用于ADAS以及自动驾驶等要求实时物体检测的***。

此外，例如关于身体的大部分被驻停车辆遮挡住的步行者等局部被遮隐了的物体，在利用静态图像等单帧的特征图的情况下，无法进行检测。另一方面，在本实施方式的信息处理装置10中，由于利用动态图像等多帧的特征图，因此也能够检测例如身体的大部分被驻停车辆等遮挡住的步行者等局部被遮隐了的物体。

(变形例1)

在上述的实施方式中，处理部12具备CNN121以及CNN122、即两个根据被输入的图像算出特征图的卷积神经网络，但不限于此。也可以仅具备一个算出特征图的卷积神经网络。以下，将该情况作为变形例1，以与实施方式的不同之处为中心进行说明。

[处理部12A的构成]

图9是表示变形例1中的处理部12A的详细构成的一例的框图。对与图2同样的要素附加同一标号，并省略详细说明。

如图9所示，处理部12A具备CNN121a、存储器123、结合部124a、RFP125以及ROI池化层126。处理部12A与实施方式中的处理部12相比，在如下之处构成是不同的：追加了存储器123；仅具备一个作为卷积网络的CNN121a。换言之，本公开的神经网络也可以为具备CNN121a、存储器123、结合部124a、RFP125以及ROI池化层126。

＜存储器123＞

存储器123通过硬盘或者半导体存储器等构成，存储信息。在本变形例中，存储器123存储CNN121a算出的相对于过去帧的过去特征图。

＜CNN121a＞

CNN121a是本公开的神经网络所具有的一个卷积层的一例，根据被输入的图像算出特征图。CNN121a对影像所包含的过去帧进行卷积处理，算出过去特征图。而且，CNN121a将算出的过去特征图存储于存储器123。更具体而言，CNN121a对由输入部11输入的过去帧进行卷积处理，算出相对于过去帧的特征图，并存储于存储器123。

另外，CNN121a对影像所包含的当前帧进行卷积处理，算出作为当前的特征图的当前特征图。更具体而言，CNN121a对由输入部11输入的当前帧进行卷积处理，算出相对于当前帧的特征图。

另外，构成CNN121a的神经网络的网络模型如上所述那样，是SqueezeNet等比图像识别所使用的预定网络模型轻量的网络模型。此外，详情如上所述，因此省略在此的说明。

＜结合部124a＞

如图9所示，结合部124a将存储器123所存储的过去特征图、与CNN121a对影像所包含的当前帧进行卷积处理算出的当前特征图结合。其他如上所述，因此省略在此的说明。

此外，本变形例的信息处理装置的其他构成以及工作如对上述的实施方式的信息处理装置10的其他构成以及工作所说明的那样。

[效果等]

根据本变形例中的信息处理装置，通过具备存储器123以及应用了SqueezeNet等轻量的网络模型的CNN121a，能够将相对于过去帧的过去特征图与相对于当前帧的当前特征图利用于当前帧的物体检测。

如此，能够将相对于在时刻T-1的当前帧的特征图保存于存储器123，并在时刻T作为相对于过去帧的特征图传播，与相对于在时刻T的当前帧的特征图一起利用。

如上所述，根据本变形例中的信息处理装置，在使特征图的算出处理轻量化的情况下也能够抑制识别率的降低，因此，能够进一步提高计算机使用神经网络进行的物体检测的处理速度。

(变形例2)

在上述的实施方式中，作为在当前帧的物体检测中利用的多帧的特征图的一例，列举使用当前帧和一个过去帧这两个帧的特征图为例进行了说明，但不限于此。也可以使用当前帧和两个以上的过去帧的特征图。以下，将该情况作为变形例2，以与实施方式的不同之处为中心进行说明。

[处理部12B的构成]

图10是表示变形例2中的处理部12B的详细构成的一例的框图。对与图2同样的要素附加同一标号，并省略详细说明。

如图10所示，处理部12B具备CNN121、CNN122-1…CNN122-n、结合部124b、RFP125以及ROI池化层126。在此，n为2以上的自然数。处理部12B与实施方式中的处理部12相比，在CNN122具备多个即CNN122-1…CNN122-n之处，构成是不同的。换言之，本公开的神经网络也可以为具备CNN121、CNN122-1…CNN122-n、结合部124b、RFP125以及ROI池化层126。

＜CNN121、CNN122-1…CNN122-n＞

CNN121以及CNN122-1…CNN122-n是本公开的神经网络所具有的三个以上的卷积层的一例，根据被输入的图像算出特征图。

CNN121是三个以上的卷积层中的一个卷积层，对当前帧t进行卷积处理，算出当前特征图。

另一方面，CNN122-1…CNN122-n是三个以上的卷积层中除了上述的一个卷积层之外的卷积层。CNN122-1…CNN122-n分别对所对应的过去帧t-1～过去帧t-n进行卷积处理，算出过去特征图。

此外，构成CNN121以及CNN122-1…CNN122-n的神经网络的网络模型如上所述那样，是SqueezeNet等比图像识别所使用的预定网络模型轻量的网络模型。此外，详情如上所述，因此省略在此的说明。

＜结合部124b＞

如图10所示，结合部124b将CNN122-1…CNN122-n算出的相对于过去帧t-1～过去帧t-n各个的过去特征图、与CNN121算出的相对于当前帧t的当前特征图结合。其他如上所述，因此省略在此的说明。

[效果等]

如此，为了与当前特征图结合而利用的过去特征图不限于一个过去帧的特征图，也可以是两个以上的过去帧的特征图。

根据本变形例中的信息处理装置，通过具备应用了SqueezeNet等轻量的网络模型的CNN121a以及CNN122-1…CNN122-n，能够将相对于两个以上的过去帧各个的过去特征图、与相对于当前帧的当前特征图利用于当前帧的物体检测。

(实施例)

对作为信息处理装置10中所使用的神经网络的Temporal Faster-RCNN的有效性进行了验证，因此作为实施例来说明其实验结果。

在本实施例中，使用KITTI MOD Data set评价了信息处理装置10中所用的神经网络的性能，因此对其结果进行说明。

＜KITTI MOD Data set＞

KITTI MOD Data set是由实景影像组成的多物体检测基准(bench mark)数据集。影像中包含有城市地区、郊区以及高速路的影像。在影像中，最多包含有15辆车辆和30位步行者，由7481枚学习用图像和7518枚测试用图像构成。另外，整个数据集中包含有80256个带有标签的物体。

本实验使用分割作为学习用图像所提供的数据而得到的3682枚小型(mini)学习用图像、3799枚小型测试图像进行。另外，本实验对作为路上的障碍物、检测优先级高的车、步行者、骑行者这三种物体进行。

＜实验条件＞

本实验使用以下参数进行。即，本实验在Learning rate：0.005、Learning ratestep：迭代30,000次以后0.1倍、raising input scales：[400,600,800,1000]、Maximumwidth:2000、Testing scale:600下进行。多帧使用条件为全部使用当前的帧与过去三帧。

在本实验中，评价了在将多帧的SqueezeNet使用于特征图的算出的情况下是否能够兼顾运算量削减与高识别率维持。

＜实验结果＞

图11是表示本实施例中的使用了KITTI MOD Data set的评价车类的识别率而得到的实验结果的图。图12是表示本实施例中的使用了KITTI MOD Data set的评价步行者类的识别率而得到的实验结果的图。图13是表示本实施例中的使用了KITTI MOD Data set的评价骑行者类的识别率而得到的实验结果的图。识别率为MAP(Mean Average Precision)，单位为％。

此外，在图11～图13中，Mono Frame表示单帧，Multi Frames表示多帧。SQN表示SqueezeNet，VGG表示VGG16。另外，Easy、Moderate、Hard是表示检测难易度的标签。这些表示检测难易度的标签预先附加于KITTI MOD Data set。另外，在图11～图13中，MultiFrames SQN与在本公开的Temporal Faster-RCNN中算出特征图所使用的神经网络相符。另外，Mono Frame VGG与比较例的神经网络相符，与在Faster-RCNN中算出特征图所使用的神经网络相符。

如图11～图13所示，可知Multi Frames SQN的识别率在所有条件下都比MonoFrame SQN的识别率提高了。例如在检测难易度为Moderate的情况下，如图12以及图13所示，在步行者类中识别率大幅提高了+18％，在骑行者类中大幅提高了+9％。另一方面，如图11所示，在车类中识别率提高了+4.68％，提高得比其他类低。考虑这是因为，与步行者或者骑行者相比，车的移动速度较快，因此在10fps的KITTI MOD Data set中帧间的移动量过大。

另外，如图11所示，Multi Frames VGG的识别率当在车类中检测难易度为hard的情况下，与Mono Frame VGG的识别率相比有所提高。关于其他类，降低了少许。考虑这是因为，VGG-16是巨大的网络，因而以本实验中所使用的小型学习用图像的数据规模，没能进行足够的学习。

图14是表示本实施例中的使用了KITTI MOD Data set的处理速度的评价结果的图。此外，处理速度是使用NVIDIA GeForce GTX1080的GPU评价出的。

如图14所示，可知Multi Frames SQN的处理速度与Mono Frame VGG的处理速度相比，大约是其2.4倍。此外，关于内存用量，对Mono Frame与Multi Frames进行比较，增加没有超过6％左右，没有产生与内存大小有关的实用上的大的影响。

根据以上的实验结果可知，与由Mono Frame VGG所示的Faster-RCNN相比，由Multi Frames SQN所示的本公开的神经网络即Temporal Faster-RCNN能够将识别率的降低抑制在3.7％～10％，并且实现约2.4倍的高速化。

另外，可知若与将作为单纯的高速化方法的Faster-RCNN的VGG-16部分替换成SqueezeNet的情况相比，通过使用多帧，增加12.9％的运算量，而能够提高7.7％～17.9％的识别率。

如上所述，根据本公开涉及的信息处理装置以及信息处理方法，能够进一步提高计算机使用神经网络进行的物体检测的处理速度。因此，能够将本公开涉及的信息处理装置以及信息处理方法充分地应用于ADAS或者自动驾驶等要求实时物体检测的***。

(其他实施方式的可能性)

以上，在实施方式中对本公开的信息处理方法进行了说明，但关于实施各处理的主体和/或装置，不特别限定。也可以由装入配置在本地的特定装置内的处理器等(以下说明)来处理。另外，也可以由配置在与本地装置不同的场所的云服务器等来处理。

此外，本公开不限定于上述实施方式。例如也可以将任意组合本说明书中记载的构成要素、或者除去若干个构成要素而实现的其他实施方式作为本公开的实施方式。另外，在不偏离本公开的主旨即权利要求书记载的文字所示的含义的范围内对上述实施方式实施本领域技术人员想到的各种变形而得到的变形例也包含于本公开。

另外，本公开进一步也包括如下的情况。

(1)上述装置具体而言是由微处理器、ROM、RAM、硬盘单元、显示器单元、键盘、鼠标等构成的计算机***。在所述RAM或者硬盘单元中存储有计算机程序。通过所述微处理器按照所述计算机程序进行工作，各装置实现其功能。在此，计算机程序是为了实现预定的功能而组合多条命令代码而构成的，所述命令代码表示对计算机的指令。

(2)构成上述装置的构成要素的一部分或全部也可以由1个***LSI(Large ScaleIntegration：大规模集成电路)构成。***LSI是将多个构成部集成在一个芯片上制造而成的超多功能LSI，具体而言，是包括微处理器、ROM、RAM等而构成的计算机***。在所述RAM中存储有计算机程序。通过所述微处理器按照所述计算机程序进行工作，***LSI实现其功能。

(3)构成上述装置的构成要素的一部分或全部可以由能够装卸于各装置的IC卡或单个模块构成。所述IC卡或所述模块是由微处理器、ROM、RAM等构成的计算机***。所述IC卡或所述模块也可以包括上述超多功能LSI。通过微处理器按照计算机程序进行工作，所述IC卡或所述模块实现其功能。该IC卡或该模块也可以具有防篡改性。

(4)另外，本公开也可以是上述所示的方法。另外，既可以是通过计算机实现这些方法的计算机程序，也可以是由所述计算机程序构成的数字信号。

(5)另外，本公开也可以将所述计算机程序或所述数字信号记录于计算机可读取的记录介质，例如软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(注册商标)Disc)、半导体存储器等。另外，也可以是记录在这些记录介质中的所述数字信号。

另外，本公开也可以经由电通信线路、无线或有线通信线、以互联网为代表的网络、数据广播等传送所述计算机程序或所述数字信号。

另外，本公开也可以是具备微处理器和存储器的计算机***，所述存储器存储有上述计算机程序，所述微处理器按照所述计算机程序工作。

另外，也可以通过将所述程序或所述数字信号记录于所述记录介质而移送，或者经由所述网络等移送所述程序或所述数字信号，从而利用独立的其他计算机***实施。

产业上的可利用性

本公开能够利用于使用深度学习的信息处理方法、信息处理装置以及程序，尤其能够利用于ADAS以及自动驾驶等要求实时物体检测的***。

标号说明

10：信息处理装置 11：输入部

12、12A、12B：处理部 13：输出部

50、50a：影像 50_t：当前帧

50_t-1：过去帧 51_t：当前特征图

51_t-1：过去特征图 52：物体候选区域

121、121a、122、122-1…122-n：CNN

123：存储器 124、124a、124b：结合部

125：RFP 126：ROI池化层

501、502：物体 503、504：框

Claims

1.一种信息处理方法，是计算机使用神经网络进行的信息处理方法，该信息处理方法包括：

输入步骤，将映现一个以上的物体的影像输入到所述神经网络；

处理步骤，

使所述神经网络所具有的第一卷积层对所述影像所包含的当前帧进行卷积处理，算出作为当前的特征图的当前特征图，

使结合部将过去特征图与所述当前特征图结合，所述结合部用于将两个以上的特征图结合成一个特征图，所述过去特征图是使所述神经网络所具有的第二卷积层对所述影像所包含并且在时间上位于所述当前帧之前的过去帧进行卷积处理所获得的特征图，

使候选区域生成网络即RPN使用结合了的所述过去特征图与所述当前特征图推定物体候选区域，所述候选区域生成网络是所述神经网络所具有的，用于推定物体候选区域，

使兴趣区池化层即RoI池化层使用结合了的所述过去特征图以及所述当前特征图、与推定出的所述物体候选区域，推定所述当前帧中映现的一个以上物体的位置以及识别信息，所述兴趣区池化层是所述神经网络所具有的，用于进行类推定；和

输出步骤，将在所述处理步骤中推定出的所述影像的当前帧中映现的一个以上的物体的位置以及识别信息作为物体检测结果进行输出。

2.根据权利要求1所述的信息处理方法，

所述神经网络具有包括所述第一卷积层和所述第二卷积层的三个以上的卷积层，

针对所述影像所包含的各个所述过去帧，使所述三个以上的卷积层中除了所述第一卷积层之外的、并且所对应的卷积层对所述过去帧进行卷积处理，算出所述过去特征图。

3.根据权利要求1所述的信息处理方法，

所述第一卷积层的构成与所述第二卷积层同样，

使所述第二卷积层对所述影像所包含的所述过去帧进行卷积处理，算出所述过去特征图，并将所述过去特征图存储于存储器，

在使所述过去特征图与所述当前特征图结合时，结合所述存储器所存储的所述过去特征图、与使所述第一卷积层对所述影像所包含的所述当前帧进行卷积处理算出的所述当前特征图。

4.根据权利要求1至3中任一项所述的信息处理方法，

所述第一卷积层和所述第二卷积层由比预定网络模型轻量的网络模型构成。

5.根据权利要求4所述的信息处理方法，

所述轻量的网络模型是计算机使用所述神经网络进行所述处理步骤的处理速度比5fps快的网络模型。

6.根据权利要求4所述的信息处理方法，

所述轻量的网络模型是具有多个Fire Module的SqueezeNet，所述Fire Module包括Squeeze层和Expand层，所述Squeeze层为1×1滤波器，所述Expand层并列排列有1×1滤波器以及3×3滤波器。

7.根据权利要求5所述的信息处理方法，

8.一种计算机可读取记录介质，记录有程序，该程序使计算机执行：

输入步骤，将映现一个以上的物体的影像输入到神经网络；

处理步骤，

使结合部将过去特征图与所述当前特征图结合，所述结合部用于将两个以上的特征图结合成一个特征图，所述过去特征图是使所述神经网络所具有的第二卷积层对所述影像所包含的在时间上位于所述当前帧之前的过去帧进行卷积处理所获得的特征图，

9.一种信息处理装置，是由使用神经网络的计算机实现的信息处理装置，该信息处理装置具备：

输入部，将映现一个以上的物体的影像输入到所述神经网络；

处理部，

输出部，将在所述处理部中推定出的所述影像的当前帧中映现的一个以上的物体的位置以及识别信息作为物体检测结果进行输出。