CN113435237B

CN113435237B - 物体状态识别装置、识别方法和计算机可读的记录介质以及控制装置

Info

Publication number: CN113435237B
Application number: CN202110294980.0A
Authority: CN
Inventors: 桥本大辅
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-03-23
Filing date: 2021-03-19
Publication date: 2023-12-26
Anticipated expiration: 2041-03-19
Also published as: JP7115502B2; US11776277B2; CN113435237A; US20210295058A1; JP2021149863A

Abstract

本公开涉及物体状态识别装置、识别方法和识别用计算机程序及控制装置。物体状态识别装置将按时间序列获得的一系列图像输入到第1识别器来从各图像检测包含预定物体的物体区域，对于各图像判定是否是物体区域内包含预定物体以外的其他物体的混合状态，通过将从各图像的物体区域内的像素值求取的特征按时间序列输入到递归结构的第2识别器，并且将存储于存储部的第2识别器的递归利用的内部状态应用于第2识别器，识别伴随时间序列外观变化的预定物体的状态。再者，对于各图像，在该图像上的物体区域是混合状态时，将第2识别器的最新内部状态废弃，在不是混合状态时，用最新内部状态更新存储于存储部的内部状态。由此能识别图像表示的物体的状态。

Description

物体状态识别装置、识别方法和计算机可读的记录介质以及控制装置

技术领域

本发明涉及识别图像中表示的物体的状态的物体状态识别装置、物体状态识别方法和物体状态识别用计算机程序、以及利用这种物体状态识别装置的控制车辆行驶的控制装置。

背景技术

正在研究对如由摄像头(camera)获得的图像这样的传感器信息所表示的物体进行检测的技术。近年来，为了检测物体，提出了通过使用所谓的深度神经网络(以下，简称为DNN)这一机器学习方法来提高检测精度的技术。

另外，为了跟踪(追踪)图像中表示的物体，提出了利用时间序列(时间顺序)的多个图像或者从这些图像获得的特征量作为神经网络的输入的技术(例如，参照专利文献1)。

例如，专利文献1所公开的物体跟踪方法将按时间序列连续的两个以上的图像输入到神经网络。该物体跟踪方法对上述两个以上的图像各自的特征量即由神经网络提取到的特征量进行比较来比对相似性。而且，该物体跟踪方法基于该比对结果，将与在时间序列上的前一图像中映现的作为跟踪候选的一个以上的物体一致的、在与前一图像相比在时间序列上的后一图像中映现的一个以上的物体的识别信息和位置信息，作为识别结果输出。另外，所使用的神经网络包括两个以上的具有1个以上的全连接层和0个以上的卷积层的同一构造，由同一构造间的对应的层共享参数。

现有技术文献

专利文献1：日本特开2018-26108号公报

发明内容

发明所要解决的问题

成为检测对象的物体的状态有时由该物体的外观的时间序列变化来表示。然而，在上述技术中，不过是对成为检测对象的物体进行跟踪，因此，有时无法准确地识别图像中表示的该物体的状态。

于是，本发明的目的在于，提供一种能够识别图像中表示的物体的状态的物体状态识别装置。

用于解决问题的技术方案

根据一个实施方式，提供一种物体状态识别装置。该物体状态识别装置具有：物体检测部，其通过将按时间序列获得的一系列图像输入到预先被学习(训练)为检测预定物体的第1识别器(分类器)，对于一系列图像的每个图像，在该图像上检测包含预定物体的物体区域；混合状态判定部，其对于在一系列图像的每个图像中检测出的物体区域，判定是否是在该物体区域内包含预定物体以外的其他物体的混合状态；以及状态识别部，其通过将从在一系列图像的每个图像中检测出的物体区域内的像素值求取的特征按时间序列顺序输入到具有递归结构的第2识别器，并且将存储于存储部的第2识别器的被递归地利用的内部状态应用于该第2识别器，识别伴随时间序列外观变化的预定物体的状态。而且，状态识别部对于一系列图像的每个图像，在该图像上的物体区域是混合状态的情况下，废弃通过将关于该图像上的物体区域的特征输入到第2识别器而更新出的最新的内部状态，另一方面，在该图像上的物体区域不是混合状态的情况下，用通过将关于该图像上的物体区域的特征输入到第2识别器而更新出的最新的内部状态，将存储于存储部的内部状态更新。

在该物体状态识别装置中，优选为，第1识别器还被学习为计算混合度，混合度表示物体区域是混合状态的确定性(准确度)，每当物体检测部将一系列图像的每个图像按时间序列顺序输入到第1识别器时，第1识别器计算关于该图像上的物体区域的混合度，混合状态判定部对于一系列图像的每个图像，在关于该图像上的物体区域的混合度大于等于预定阈值的情况下，判定为该图像上的物体区域是混合状态。

或者，在该物体状态识别装置中，优选为，混合状态判定部对于一系列图像的每个图像，通过将关于该图像上的物体区域的特征输入到预先被学习为计算混合度的第3识别器，计算关于该图像上的物体区域的混合度，并在关于该图像上的物体区域的混合度大于等于预定阈值的情况下，判定为该图像上的物体区域是混合状态，混合度表示物体区域是混合状态的确定性。

又或者，在该物体状态识别装置中，优选为，混合状态判定部对于一系列图像的每个图像，计算该图像上的物体区域与由第1识别器检测出的包含其他物体的其他物体区域的重复程度，并在重复程度大于等于预定阈值的情况下，判定为该图像上的物体区域是混合状态。

根据本发明的另一技术方案，提供一种控制车辆的行驶的控制装置。该控制装置具有：存储部；物体检测部，其通过将由搭载于车辆的拍摄部按时间序列获得的一系列图像输入到预先被学习为检测其他车辆的第1识别器，对于一系列图像的每个图像，在该图像上检测包含其他车辆的物体区域；混合状态判定部，其对于在一系列图像的每个图像中检测出的物体区域，判定是否是在该物体区域内包含其他车辆以外的其他物体的混合状态；状态识别部，其通过将从在一系列图像的每个图像中检测出的物体区域内的像素值求取的特征按时间序列顺序输入到具有递归结构的第2识别器，并且将存储于存储部的第2识别器的被递归地利用的内部状态应用于该第2识别器，识别伴随时间序列外观变化的其他车辆的状态；驾驶计划部，其基于其他车辆的状态，预测其他车辆行驶的轨迹，并基于预测出的轨迹，设定车辆的行驶预定路径以使车辆与其他车辆相距大于等于预定距离；以及车辆控制部，其控制车辆以使车辆沿着行驶预定路径行驶。而且，状态识别部对于一系列图像的每个图像，在该图像上的物体区域是混合状态的情况下，废弃通过将关于该图像上的物体区域的特征输入到第2识别器而更新出的最新的内部状态，另一方面，在该图像上的物体区域不是混合状态的情况下，用通过将关于该图像上的物体区域的特征输入到第2识别器而更新出的最新的内部状态，将存储于存储部的内部状态更新。

根据本发明的又一技术方案，提供一种物体状态识别方法。该物体状态识别方法包括：通过将按时间序列获得的一系列图像输入到预先被学习为检测预定物体的第1识别器，对于一系列图像的每个图像，在该图像上检测包含预定物体的物体区域；对于在一系列图像的每个图像中检测出的物体区域，判定是否是在物体区域内包含预定物体以外的其他物体的混合状态；通过将从在一系列图像的每个图像中检测出的物体区域内的像素值求取的特征按时间序列顺序输入到具有递归结构的第2识别器，并且将存储于存储部的第2识别器的被递归地利用的内部状态应用于该第2识别器，识别伴随时间序列外观变化的预定物体的状态；对于一系列图像的每个图像，在该图像上的物体区域是混合状态的情况下，废弃通过将关于该图像上的物体区域的特征输入到第2识别器而更新出的最新的内部状态，另一方面，在该图像上的物体区域不是混合状态的情况下，用通过将关于该图像上的物体区域的特征输入到第2识别器而更新出的最新的内部状态，将存储于存储部的内部状态更新。

根据本发明的又一技术方案，提供一种物体状态识别用计算机程序。该物体状态识别用计算机程序包含用于使计算机执行以下处理的命令：通过将按时间序列获得的一系列图像输入到预先被学习为检测预定物体的第1识别器，对于一系列图像的每个图像，在该图像上检测包含预定物体的物体区域；对于在一系列图像的每个图像中检测出的物体区域，判定是否是在该物体区域内包含预定物体以外的其他物体的混合状态；通过将从在一系列图像的每个图像中检测出的物体区域内的像素值求取的特征按时间序列顺序输入到具有递归结构的第2识别器，并且将存储于存储部的第2识别器的被递归地利用的内部状态应用于该第2识别器，识别伴随时间序列外观变化的预定物体的状态；对于一系列图像的每个图像，在该图像上的物体区域是混合状态的情况下，废弃通过将关于该图像上的物体区域的特征输入到第2识别器而更新出的最新的内部状态，另一方面，在该图像上的物体区域不是混合状态的情况下，用通过将关于该图像上的物体区域的特征输入到第2识别器而更新出的最新的内部状态，将存储于存储部的内部状态更新。

发明效果

本发明涉及的物体状态识别装置起到能够识别图像中表示的物体的状态这一效果。

附图说明

图1是安装有物体状态识别装置的车辆控制***的概略构成图。

图2是作为物体状态识别装置的一个实施方式的电子控制装置的硬件构成图。

图3是电子控制装置的处理器的涉及包括物体状态识别处理的车辆控制处理的功能框图。

图4是表示作为第1识别器所利用的DNN的结构的一例的图。

图5是表示混合状态以及非混合状态的一例的图。

图6是表示对成为状态识别对象的车辆的选择的一例的图。

图7是与状态识别处理关联的各部分的处理的时间图。

图8是表示检测物体列表的一例的图。

图9是包括物体状态识别处理的车辆控制处理的工作流程图。

标号说明

1车辆控制***；2摄像头；3电子控制装置(物体状态识别装置)；4车内网络；21通信接口(I/F)；22存储器；23处理器；31物体检测部；32跟踪部；33混合状态判定部；34状态识别部；35驾驶计划部；36车辆控制部。

具体实施方式

以下，参照附图，对物体状态识别装置、在物体状态识别装置中执行的物体状态识别方法、以及物体状态识别用计算机程序进行说明。该物体状态识别装置对于按时间序列获得的一系列图像中表示的成为检测对象的物体(以下，有时称为检测对象物体)，识别该物体的伴随时间序列外观变化的状态。为此，该物体状态识别装置通过将该一系列图像输入到预先被学习为对检测对象物体进行检测的第1识别器，按每个图像，在该图像上检测包含该检测对象物体的区域(以下，有时称为物体区域)，并且对于各个物体区域，求取混合度，该混合度表示在该物体区域内不仅包含对应的检测对象物体而且包含有其他物体(特别是其他检测对象物体)的确定性。另外，该物体状态识别装置通过跟踪从各图像中检测出的检测对象物体，将在各图像中表示出相同的检测对象物体的物体区域彼此相关联。而且，该物体状态识别装置通过将从一系列图像中的表示出相同的检测对象物体的物体区域内的像素值求取的特征按时间序列顺序输入到具有递归结构的第2识别器，识别该检测对象物体的状态。这时，该物体状态识别装置在关于最新图像中的物体区域的混合度大于等于预定的混合度阈值的情况下，废弃通过将该最新图像的物体区域的特征输入到第2识别器而更新出的、被递归地利用的第2识别器的内部状态，在输入下一图像的物体区域的特征时应用更新前的内部状态。由此，即使在物体区域内包含有除关注的检测对象物体以外的其他物体，该物体状态识别装置也能够减轻其他物体带给检测对象物体的状态的识别结果的影响。

例如，假设检测对象物体为车辆。车辆在左转或右转的情况下使转向指示灯(turnsignal)闪烁。另外，车辆在减速时使刹车指示灯(brake lamp)点亮，在停车等时使危险指示灯(hazard lamp)闪烁。这些转向指示灯或者刹车指示灯这样的车辆的信号灯的点亮或者闪烁伴随着时间序列的车辆外观的变化，并且表示了与车辆的行为有关的状态。然而，在示出转向指示灯、刹车指示灯或者危险指示灯的各个图像中，并不知道这些指示灯的明灭的时间序列变化，因此，难以从示出转向指示灯、刹车指示灯或者危险指示灯的各个图像中精确地识别转向指示灯或者危险指示灯是否在闪烁、刹车指示灯是点亮的还是熄灭的。于是，如上所述，该物体状态识别装置通过将从时间序列的一系列图像中的每个图像的物体区域内的像素值求取的特征输入到具有递归结构的第2识别器，能够精确地识别转向指示灯或者危险指示灯有无闪烁、刹车指示灯的点亮和熄灭。

以下，对将物体状态识别装置应用于车辆控制***的例子进行说明。在本例中，物体状态识别装置通过对由搭载于车辆的摄像头获得的时间序列的一系列图像执行物体状态识别处理，将存在于车辆周围的其他车辆作为检测对象物体进行检测。而且，作为检测出的其他车辆的伴随外观变化的状态，该物体状态识别装置识别左右任一方的转向指示灯或者危险指示灯是否是闪烁状态、刹车指示灯是点亮的状态还是熄灭的状态。

图1是安装有物体状态识别装置的车辆控制***的概略构成图。另外，图2是作为物体状态识别装置的一个实施方式的电子控制装置的硬件构成图。在本实施方式中，搭载于车辆10且控制车辆10的车辆控制***1具有用于对车辆10周围进行拍摄的摄像头2和作为物体状态识别装置的一例的电子控制装置(ECU)3。摄像头2与ECU3经由遵循如控制器局域网这样的标准的车内网络4可通信地连接。此外，车辆控制***1也可以还具有存储用于车辆10的自动驾驶控制的地图的储存装置。再者，车辆控制***1也可以具有如LiDAR(激光雷达)或者雷达这样的测距传感器、如GPS接收机这样的用于依据卫星定位***来测定车辆10的自身位置的接收机、用于与其他设备进行无线通信的无线终端、以及用于搜索车辆10的行驶预定路线的导航装置等。

摄像头2是拍摄部的一例，拍摄部是用于检测预定的检测范围内存在的物体的传感器，摄像头2具有由CCD(电荷耦合器件)或者C-MOS(互补金属氧化物半导体)等对可见光具有敏感度的光电转换元件的阵列所构成的二维检测器、以及形成在该二维检测器上成为拍摄对象的区域的像的成像光学***。而且，摄像头2以朝向车辆10前方的方式例如安装在车辆10的车室内。而且，摄像头2每隔预定的拍摄周期(例如1/30秒～1/10秒)对车辆10的前方区域进行拍摄，生成映现出该前方区域的图像。由摄像头2获得的图像优选为彩色图像。此外，车辆10也可以设置有拍摄方向或者焦点距离不同的多个摄像头。

摄像头2每当生成图像时，就将该生成的图像经由车内网络4向ECU3输出。

ECU3控制车辆10。在本实施方式中，ECU3基于从由摄像头2获得的时间序列的一系列图像中检测出的物体，控制车辆10以自动驾驶车辆10。为此，ECU3具有通信接口21、存储器22和处理器23。

通信接口21是通信部的一例，具有用于将ECU3与车内网络4连接的接口电路。即，通信接口21经由车内网络4与摄像头2连接。而且，通信接口21每当从摄像头2接收到图像时，就将接收到的图像交给处理器23。

存储器22是存储部的一例，例如具有易失性半导体存储器以及非易失性半导体存储器。此外，在如后所述处理器23具有多个运算单元的情况下，存储器22也可以按每个运算单元具有专用的存储电路。而且，存储器22存储在由ECU3的处理器23执行的物体状态识别处理中所使用的各种数据和参数，例如从摄像头2接收到的图像、用于确定在物体状态识别处理中利用的各识别器的各种参数、以及物体的每个种类的置信度阈值等。再者，存储器22将如表示与检测出的物体有关的信息的检测物体列表这样的在物体状态识别处理的中途生成的各种数据进行一定期间的存储。更进一步，存储器22也可以存储如地图信息这样的在车辆10的行驶控制中利用的信息。

处理器23是控制部的一例，具有一个或多个CPU(Central Processing Unit，中央处理单元)及其***电路。处理器23也可以还具有如逻辑运算单元、数值运算单元或者图形处理单元(Graphics Processing Unit：GPU)这样的其他的运算电路。而且，处理器23在车辆10行驶期间每当从摄像头2接收到图像时，就对接收到的图像执行包括物体状态识别处理的车辆控制处理。而且，处理器23基于检测出的车辆10周围的物体，控制车辆10以自动驾驶车辆10。

图3是ECU3的处理器23的涉及包括物体状态识别处理的车辆控制处理的功能框图。处理器23具有物体检测部31、跟踪部32、混合状态判定部33、状态识别部34、驾驶计划部35和车辆控制部36。处理器23具有的这些各部分例如是由在处理器23上工作的计算机程序所实现的功能模块。或者，处理器23具有的这些各部分也可以是设置于处理器23的专用的运算电路。另外，处理器23具有的这些各部分中的物体检测部31、跟踪部32、混合状态判定部33以及状态识别部34执行物体状态识别处理。此外，在车辆10设置有多个摄像头的情况下，处理器23也可以按每个摄像头，基于由该摄像头获得的图像来执行物体状态识别处理。

物体检测部31每当从摄像头2接收到图像时，通过将接收到的最新图像输入到用于检测物体的第1识别器，检测该图像中表示的包含检测对象物体(即其他车辆)的区域(即物体区域)，并且确定该检测对象物体的种类。再者，物体检测部31按每个物体区域，计算关于该物体区域的混合度。

在本实施方式中，物体检测部31利用DNN作为第1识别器，DNN被预先学习为检测图像中表示的包含检测对象物体的物体区域，识别检测对象物体的种类，并且计算混合度。物体检测部31利用的DNN例如可以设为具有卷积神经网络(以下，简称为CNN)型架构的DNN。

图4是表示作为第1识别器所利用的DNN的结构的一例的图。DNN400具有设置在被输入图像的输入侧的主干部401、以及相比于主干部401设置在靠输出侧的位置检测部402、种类推定部403和混合度推定部404。位置检测部402基于来自主干部401的输出，将图像上表示的检测对象物体的外接矩形作为物体区域进行输出。种类推定部403基于来自主干部401的输出，计算通过位置检测部402检测出的物体区域内表示的检测对象物体的每个种类的置信度。而且，混合度推定部404基于来自主干部401的输出，计算各物体区域的混合度。此外，位置检测部402、种类推定部403和混合度推定部404中的两个以上也可以一体地形成。

主干部401例如可以设为具有从输入侧向输出侧串联连接的多个层的CNN。该多个层包括两个以上的卷积层。再者，主干部401具有的多个层也可以包括按每一个或多个卷积层而设置的池化层。更进一步，主干部401具有的多个层也可以包括一个以上的全连接层。例如，主干部401可以配置为与SSD(Single Shot MultiBox Detector)的基础层同样的结构。或者，主干部401也可以按照如VGG-19、AlexNet或者Network-In-Network这样的其他的CNN架构来构成。

主干部401被输入图像时，通过对该图像执行各层中的运算，输出根据该图像计算出的特征图(feature map)。此外，主干部401也可以输出分辨率不同的多个特征图。例如，主干部401也可以输出分辨率与被输入的图像的分辨率相同的特征图、和分辨率比被输入的图像的分辨率低的一个以上的特征图。

位置检测部402、种类推定部403和混合度推定部404分别被输入从主干部401输出的特征图。而且，位置检测部402、种类推定部403和混合度推定部404分别例如可以设为具有从输入侧向输出侧串联连接的多个层的CNN。关于位置检测部402、种类推定部403和混合度推定部404中的每一个，CNN具有的多个层包括两个以上的卷积层。另外，关于位置检测部402、种类推定部403和混合度推定部404中的每一个，CNN具有的多个层也可以包括按每一个或多个卷积层所设置的池化层。此外，CNN具有的卷积层以及池化层也可以对于位置检测部402、种类推定部403和混合度推定部404共通化。再者，关于位置检测部402、种类推定部403和混合度推定部404中的每一个，多个层也可以包括一个以上的全连接层。在该情况下，优选为全连接层相比于各卷积层设置在靠输出侧。另外，对于全连接层，也可以直接输入来自各卷积层的输出。另外，种类推定部403的输出层既可以设为按照Softmax函数来计算检测对象物体的各个种类的置信度的Softmax层，也可以设为按照Sigmoid函数来计算检测对象物体的各个种类的置信度的Sigmoid层。更进一步，混合度推定部404的输出层可以设为按照Sigmoid函数来计算物体区域的各自的混合度的Sigmoid层。

位置检测部402以及种类推定部403例如被学习为，按图像上的各种位置、各种尺寸以及各种纵横比的每个区域，输出检测对象物体的各个种类的置信度。据此，识别器400通过被输入图像，按图像上的各种位置、各种尺寸以及各种纵横比的每个区域，输出检测对象物体的各个种类的置信度。而且，位置检测部402以及种类推定部403将关于任一种类的检测对象物体的置信度大于等于预定的置信度阈值的区域检测为表示有该种类的检测对象物体的物体区域。

另一方面，混合度推定部404例如被学习为，按图像上的各种位置、各种尺寸以及各种纵横比的每个物体区域，将该物体区域内包含有检测对象物体以外的其他物体的置信度作为混合度进行输出。

用于识别器400的学习的监督(教师)数据包含的图像(监督图像)例如被标注有检测对象物体的种类(例如普通乘用车、巴士、卡车、双轮车等)和表示有检测对象物体的物体区域、即该检测对象物体的外接矩形。再者，对于监督图像上的各个物体区域，标注有是包含除了该物体区域所包含的检测对象物体以外的其他物体的混合状态还是不包含该检测对象物体以外的物体的非混合状态。

图5是表示混合状态以及非混合状态的一例的图。物体区域501是非混合状态的物体区域的一例。物体区域501内不包含除了作为一个检测对象物体的车辆511以外的其他物体。因此，基于从物体区域501内的像素值求取的特征，能够精确地识别车辆511的状态。另一方面，物体区域502是混合状态的物体区域的一例。物体区域502内不仅包含作为检测对象物体的车辆512，还包含有其他车辆513的一部分。因此，从物体区域502内的像素值求取的特征不仅包含车辆512的特征，也包含其他车辆513的特征。尤其，在本例中，其他车辆513的转向指示灯以及刹车指示灯包含于物体区域502，所以其他车辆513的转向指示灯或者刹车指示灯的点亮或者熄灭会影响对车辆512的转向指示灯或者刹车指示灯的点亮或者熄灭等的判定。因此，若将从物体区域502内的像素值求取的特征用于识别车辆512的状态，车辆512的状态的识别精度可能会降低。此外，其他车辆513本身也可以是检测对象物体，在该情况下，会由第1识别器检测出以其他车辆513作为对象的物体区域。

使用如上所述的大量监督图像，例如按照误差反向传播法这样的学习方法来学习识别器400。处理器23通过利用这样学习过的识别器400，能够精确地从图像中检测成为检测对象的物体。另外，识别器400能够对于各物体区域精确地计算混合度。

此外，物体检测部31也可以检测除了车辆10周围的其他车辆以外的影响车辆10的行驶控制的物体。这样的物体例如包括人、道路标识、信号机(交通灯)、车道标线等道路标示以及道路上的其他物体等。在该情况下，第1识别器只要预先学习为也检测这些物体即可。而且，物体检测部31能够通过将图像输入到该第1识别器，也检测这些物体。

物体检测部31也可以进一步通过执行非极大值抑制(Non-maximum suppression：NMS)处理，从至少局部重复的两个以上的物体区域中的、被推定为表示有同一物体的物体区域中选择一个物体区域。

物体检测部31将各物体区域在图像上的位置和范围、以及该物体区域所包含的物体的种类登记到检测物体列表中。而且，物体检测部31将检测物体列表存储于存储器22。再者，对于各物体区域，物体检测部31将由第1识别器的主干部从该物体区域所包含的各像素计算出并且向状态识别部34输出的特征图存储于存储器22。此外，向状态识别部34输出的特征图可以设为分辨率与输入到第1识别器的图像的分辨率相同的特征图。另外，在由第1识别器的主干部具有的池化层等计算出分辨率比被输入的图像的分辨率低的特征图的情况下，也可以将该低分辨率的特征图向状态识别部34输出。再者，也可以向状态识别部34输出由第1识别器的主干部计算出的分辨率互不相同的多个特征图。

再者，物体检测部31按每个物体区域，将对于该物体区域计算出的混合度向混合状态判定部33进行输出。

跟踪部32对于从最新图像中检测出的物体区域的每一个，通过参照检测物体列表，将该物体区域内表示的检测对象物体与从过去的图像中检测出的检测对象物体相关联，从而跟踪该物体区域内表示的检测对象物体。再者，在存在多于预定数量(例如5～10)的正在跟踪的检测对象物体的情况下，跟踪部32从这些正在跟踪的检测对象物体中选择预定数量的检测对象物体作为成为状态识别对象的物体。

跟踪部32例如通过对最新图像中的关注的物体区域以及过去的图像中的物体区域应用如Lucas-Kanade方法这样的基于光流(optical flow)的跟踪处理，跟踪该物体区域内表示的检测对象物体。因此，跟踪部32例如通过对关注的物体区域应用如SIFT(尺度不变特征转换)或者Harris算子这样的用于提取特征点的过滤器，从该物体区域提取多个特征点。而且，跟踪部32对于多个特征点中的每一个，按照所应用的跟踪方法来确定过去的图像中的物体区域内的对应的点，从而计算光流即可。或者，跟踪部32也可以通过对最新图像中的关注的物体区域以及过去的图像中的物体区域应用适用于跟踪从图像中检测出的移动物体的其他跟踪方法，跟踪该物体区域内表示的检测对象物体。

跟踪部32将从最新图像中检测出的检测对象物体中的、不与过去的图像中表示的检测对象物体相关联的检测对象物体作为新的跟踪对象，对其分配与其他正在跟踪的检测对象物体不同的识别编号，并将该分配的识别编号登记到检测物体列表中。另一方面，跟踪部32对于从最新图像中检测出的检测对象物体中的、与过去的图像中表示的检测对象物体相关联的检测对象物体即正在跟踪的检测对象物体，关联与分配给该正在跟踪的检测对象物体的识别编号相同的识别编号。

如上所述，在存在多于预定数量的正在跟踪的检测对象物体的情况下，跟踪部32从正在跟踪的检测对象物体中选择预定数量的检测对象物体作为成为状态识别对象的物体。

例如，离车辆10越近的检测对象物体对车辆10的驾驶控制的影响越大，因此，跟踪部32从正在跟踪的检测对象物体中，按离车辆10的距离从近到远的顺序选择预定数量的检测对象物体。例如，图像上表示有检测对象物体的物体区域越大，推定为从车辆10到该检测对象物体的距离越近。于是，跟踪部32例如按最新图像上的物体区域的尺寸从大到小的顺序选择预定数量的检测对象物体。

或者，跟踪部32也可以基于正在跟踪的各个检测对象物体的物体区域在图像上的下端的位置，选择预定数量的检测对象物体。在检测对象物体行驶于与车辆10正在行驶的道路相同的道路的情况下，推定为在图像上的表示有该检测对象物体的物体区域的下端的位置是该检测对象物体所位于的路面上的位置。而且，检测对象物体距离车辆10越近，从摄像头2向该检测对象物体所位于的路面上的位置的方位越朝下，因此在图像上的物体区域的下端也越靠近图像的下端。据此，物体区域的下端的位置越靠近图像的下端，推定为从车辆10到该物体区域内表示的检测对象物体的距离越近。于是，跟踪部32也可以从正在跟踪的检测对象物体中，按照在最新图像中物体区域的下端与图像的下端的距离从近到远的顺序选择预定数量的检测对象物体。

或者，跟踪部32也可以对于正在跟踪的检测对象物体的每一个，基于表示有该检测对象物体的物体区域的尺寸(例如宽度)、和假定与该检测对象物体为同一种类的基准物***于从车辆10相距预定距离处的情况下的基准尺寸之比，推定从车辆10到该检测对象物体的距离。又或者，在车辆控制***1具有如LiDAR或者雷达这样的测距传感器(未图示)的情况下，也可以通过该测距传感器对到正在跟踪的各检测对象物体的距离进行测量。在该情况下，例如测量与在图像上的表示有检测对象物体的物体区域的重心对应的、与从摄像头2的方位相当的从测距传感器的方位上的距离，作为从车辆10到该检测对象物体的距离。而且，跟踪部32按照推定或者测量出的从车辆10起的距离从近到远的顺序选择预定数量的检测对象物体即可。

又或者，跟踪部32也可以从正在跟踪的检测对象物体中，选择按每个车道所确定的数量的检测对象物体。例如，跟踪部32选择行驶于与车辆10正在行驶的车道相同的车道的检测对象物体中的、推定为离车辆10最近的检测对象物体。再者，跟踪部32从车辆10正在行驶的车道的左右相邻的两个车道、以及进而与这些相邻车道相邻的车道(即以车辆10正在行驶的车道为中心的左右各两个车道)中的每个车道，选择推定为离车辆10最近的检测对象物体。在该情况下，例如在物体检测部31从最新图像中检测出车道标线的情况下或者定位处理部(未图示)从最新图像中检测出车道标线的情况下，跟踪部32基于车道标线与物体区域的位置关系，确定各检测对象物体正在行驶的车道即可。例如，跟踪部32对于关注的检测对象物体，判定为该检测对象物***于由如下两条车道标线夹着的车道上即可，该两条车道标线位于包含该检测对象物体的物体区域的下端的两侧。另外，跟踪部32按每个车道，执行与上述的检测对象物体的选择同样的处理，从而选择正行驶于该车道的检测对象物体中的离车辆10最近的检测对象物体即可。此外，跟踪部32也可以按每个车道，按离车辆10从近到远的顺序选择两个以上的检测对象物体。

图6是表示对成为状态识别对象的车辆的选择的一例的图。图像600中映现有多个车辆，各车辆被检测为检测对象物体。表示有行驶于与车辆10正在行驶的车道右侧相邻的车道的各车辆中的车辆601的物体区域最大，被推定为离车辆10最近。因此，车辆601被选择为成为状态识别对象的物体。而且，从包含车辆601的物体区域611的各像素值求取的特征被用于进行关于车辆601的状态的识别。

同样地，表示有行驶于与车辆10正在行驶的车道相同的车道的各车辆中的车辆602的物体区域最大，被推定为离车辆10最近。因此，车辆602被选择为成为状态识别对象的物体。而且，从包含车辆602的物体区域612的各像素值求取的特征被用于进行关于车辆602的状态的识别。

根据变形例，跟踪部32也可以将正在跟踪的所有检测对象物体选择为成为状态识别对象的物体。

跟踪部32将成为状态识别对象的检测对象物体的识别编号通知给状态识别部34。另外，跟踪部32基于关于状态识别对象的判定结果，将检测物体列表中的、表示成为状态识别对象的检测对象物体的索引的值更新。

混合状态判定部33每当接收到每个物体区域的混合度时，对于各物体区域，判定是否是混合状态。例如，混合状态判定部33对于混合度大于等于预定的混合度阈值的物体区域，判定为是混合状态，另一方面，对于混合度小于预定的混合度阈值的物体区域，判定为是非混合状态。

此外，混合状态判定部33也可以参照检测物体列表，确定各物体区域中的、包含成为状态识别对象的检测对象物体的物体区域，仅对所确定的物体区域，判定是否是混合状态。

混合状态判定部33将每个物体区域的是否是混合状态的判定结果通知给状态识别部34。

状态识别部34每当从摄像头2获得图像时，即对于由摄像头2获得的时间序列的一系列图像中的每个图像，对于正在跟踪的检测对象物体中的成为状态识别对象的检测对象物体的每一个，将从包含该检测对象物体的物体区域内的像素值求取的特征输入到具有递归结构的第2识别器。由此，状态识别部34识别伴随时间序列外观变化的该检测对象物体的状态。

状态识别部34可以利用例如由第1识别器的主干部计算出的特征图中的、表示有检测对象物体的物体区域所包含的特征，作为从该物体区域内的像素值求取的特征。由此，不仅能够将检测对象物体本身的特征利用于状态识别，而且能够将检测对象物体周围环境的特征也利用于状态识别。在本实施方式中，第2识别器能够也考虑由作为检测对象物体的车辆与其他车辆的相对的位置关系带来的影响、例如作为检测对象物体的车辆的转向指示灯等的一部分被其他车辆遮挡这样的状况，识别作为检测对象物体的车辆的状态。例如，在特征图的分辨率与输入到第1识别器的图像的分辨率相同的情况下，与该图像上的物体区域对应的、特征图上的区域内所包含的各特征成为从物体区域内的像素值求取的特征。另外，在特征图的分辨率比输入到第1识别器的图像的分辨率低的情况下，根据特征图的分辨率与输入的图像的分辨率之比将物体区域的坐标修正后的位置以及范围成为与物体区域对应的、特征图上的区域。例如，假设输入的图像上的物体区域的左上端位置和右上端位置分别为(tlX,tlY)和(brX,brY)，对输入的图像进行1/N(N为2以上的整数)的缩小(downsizing)而算出特征图。在该情况下，与图像上的物体区域对应的特征图上的区域的左上端位置和右下端位置分别成为(tlX/N,tlY/N)和(brX/N,brY/N)。

根据变形例，状态识别部34也可以将输入到第1识别器的图像上的表示有检测对象物体的物体区域内的各像素的值本身作为向第2识别器输入的、从表示有检测对象物体的物体区域内的像素值求取的特征。或者，状态识别部34也可以将对该物体区域内的各像素进行如卷积运算这样的预定的过滤处理所获得的值作为向第2识别器输入的、从表示有检测对象物体的物体区域内的像素值求取的特征。

状态识别部34对于各物体区域，执行将提取到的特征进行下采样(downsampling)、上采样(up sampling)、双线性(bi-linear)内插或者双三次(bi-cubic)内插等尺寸转换处理，从而将尺寸调节(resize)为预定尺寸(例如32×32)。由此，即使在跟踪检测对象物体的中途车辆10与检测对象物体间的相对距离变化从而图像上的检测对象物体的尺寸发生变化，第2识别器也将被输入的特征作为恒定尺寸来处理，因此，能简化第2识别器的构成。

状态识别部34能够使用例如RNN(Recurrent Neural Network，循环神经网络)、LSTM(Long Short Term Memory，长短期记忆)或者GRU(Gated Recurrent Unit，门控循环单元)这样的具有递归性的结构的神经网络，作为具有递归结构的第2识别器。第2识别器只要处理物体区域所包含的特征即可，所以与第1识别器相比，输入层以及中间层的尺寸较小就足够，并且如加权系数这样的用于规定第2识别器的参数数量较少就足够。因此，第2识别器与第1识别器相比，能够使运算量较少，使处理器23的运算负荷较小。再者，第2识别器的学习所需要的运算量也被削减。此外，在第1识别器以及第2识别器分别构成为神经网络的情况下，也可以使用共同的监督数据，利用误差反向传播法一体地学习这些神经网络。

第2识别器具有递归结构，因此每当按时间序列顺次输入特征时，就将在内部递归地利用的内部状态(也被称为中间状态或者隐藏状态)更新。由此，第2识别器能够基于关注的正在跟踪的检测对象物体的外观的时间序列的变化，识别该检测对象物体的状态。该内部状态存储于存储器22。而且，第2识别器每当被输入关于关注的正在跟踪的检测对象物体的特征时，就从存储器22读取与该检测对象物体有关的最新的内部状态并将其应用于第2识别器的运算。

在本实施方式中，针对由摄像头2顺次获得的图像，通过将在最后判定为包含关注的正在跟踪的检测对象物体的物体区域是非混合状态时的从该物体区域求出的特征输入到第2识别器而更新出的内部状态保存于存储器22。据此，对于关注的正在跟踪的检测对象物体，在紧前面的图像的物体区域为非混合状态的情况下，状态识别部34将通过向第2识别器输入从紧前面的图像的物体区域求出的特征而算出的存储于存储器22的最新的内部状态应用于第2识别器，识别关注的正在跟踪的检测对象物体的状态。另一方面，对于关注的正在跟踪的检测对象物体，在紧前面的图像的物体区域为混合状态的情况下，状态识别部34应用将从比紧前面的图像更前面的任一图像中的、最后为非混合状态时的物体区域求出的特征输入到第2识别器时的内部状态。

在本实施方式中，如上所述，作为检测对象物体(即车辆10周围的其他车辆)的状态，状态识别部34识别左右任一方的转向指示灯或者危险指示灯是否是闪烁状态、刹车指示灯是点亮的状态还是熄灭的状态。为此，作为第2识别器的输出层的激励函数，例如使用Sigmoid函数。由此，第2识别器能够输出各状态的置信度。而且，状态识别部34将各状态的置信度与对应的阈值进行比较，判定为检测对象物体的状态是置信度大于等于对应的阈值的状态。例如，假设关于检测对象物体的左转向指示灯在闪烁的状态的置信度为0.8，另一方面，关于左转向指示灯没在闪烁的状态的置信度为0.2。而且，设阈值为0.5，则状态识别部34判定为检测对象物体的状态是左转向指示灯在闪烁的状态。

或者，作为第2识别器的输出层的激励函数，也可以使用Softmax函数。在该情况下，作为检测对象物体的状态，第2识别器输出左转向指示灯闪烁、右转向指示灯闪烁、危险指示灯闪烁、刹车指示灯点亮或者以上均不是这样的判定结果。据此，状态识别部34将由从第2识别器输出的判定结果所表示的状态作为检测对象物体的状态即可。

状态识别部34对于成为状态识别的对象的检测对象物体的每一个，在包含该检测对象物体的物体区域为非混合状态的情况下，将第2识别器的状态识别结果以及更新出的内部状态写入存储器22，将存储于存储器22的状态识别结果以及内部状态更新，并且通知给驾驶计划部35。

另一方面，状态识别部34在包含该检测对象物体的物体区域为混合状态的情况下，不将第2识别器的状态识别结果以及更新出的内部状态写入存储器22而将其废弃。而且，状态识别部34将存储于存储器22的关于该检测对象物体的以前的状态识别结果通知给驾驶计划部35。

如此，从混合状态的物体区域求出的特征不会被利用于对该物体区域所包含的检测对象物体的状态的识别，因此，状态识别部34能够抑制检测对象物体的状态的识别精度的降低。

图7是与状态识别处理关联的各部分的处理的时间图。处理器23的各部分的处理例如由在处理器23上工作的调度程序(未图示)管理，并按照图7所示的时间图执行。在图7中，横轴表示时间。另外，在图7中，各个块表示该块内所示的处理被执行，各个箭头表示各处理之间的数据(图像、特征等)的交接。例如在时刻t1，ECU3从摄像头2收取到图像时，通过处理器23具有的GPU，执行对于该图像的、由物体检测部31进行的检测对象物体的检测处理。此外，也可以在进行检测对象物体的检测处理之前，对图像进行如对比度校正或者颜色转换这样的预处理。

当进行了检测对象物体的检测处理时，通过处理器23具有的CPU，进行将检测出的物体的种类以及物体区域向检测物体列表登记等物体检测的后处理，之后，由跟踪部32执行跟踪处理。而且，在跟踪处理之后，通过GPU，执行由状态识别部34进行的关于各个物体区域的输入到第2识别器的特征的提取、和提取到的特征的尺寸调整以及使用第2识别器的状态识别处理。另外，与跟踪处理或者状态识别处理并行地进行对于各个物体区域的是否是混合状态的判定处理。如上所述，由于第2识别器的运算量相对较少，因此各个检测对象物体的状态识别处理所需的运算时间较少就足够。而且，获得的检测对象物体的状态识别的结果被利用于驾驶计划部35以及车辆控制部36的处理中。再者，对于各个物体区域，基于是否是混合状态的判定结果，进行是将第2识别器的最新的内部状态写入存储器22来更新、还是将该最新的内部状态废弃的处理。此外，为了使由CPU进行的处理与由GPU进行的处理间的任务的切换成本以及存储器传输量最小化，优选将对于各检测对象物体的特征的提取处理、状态识别处理以及状态识别处理结果的读取处理汇总为批处理来执行。

图8是表示检测物体列表的一例的图。在检测物体列表800中，对于正在跟踪的检测对象物体的每一个，保存表示该物体是否是状态识别对象的索引、分配给该物体的识别编号、表示存储有与该物体有关的信息的存储器22的地址的指针以及由状态识别部34进行了状态识别的次数(即，对第2识别器输入了从对应的物体区域求出的特征的次数)。再者，在检测物体列表800中，对于正在跟踪的检测对象物体的每一个，还保存表示物体区域的位置和范围的信息(未图示)以及表示检测对象物体的种类的信息(未图示)等。另外，在关于各检测对象物体的指针所表示的存储器22上的存储区域801内，存储最新图像中的被输入到第2识别器的特征、最后更新了的第2识别器的内部状态、以及来自最后更新了的第2识别器的输出结果等。

驾驶计划部35参照检测物体列表，生成车辆10的一个以上的行驶预定路径(轨迹)以使得车辆10不与车辆10周围存在的物体碰撞。行驶预定路径例如表示为从当前时刻到之后预定时间为止的各时刻的、车辆10的目标位置的集合。例如，驾驶计划部35参照检测物体列表，使用关于摄像头2的向车辆10的安装位置等信息执行视点转换处理，由此将检测物体列表中的物体的图像内坐标转换为鸟瞰图像上的坐标(鸟瞰坐标)。而且，驾驶计划部35通过对一系列鸟瞰坐标执行使用卡尔曼滤波(Kalman Filter)或者粒子滤波(Particlefilter)等的追踪处理，对登记于检测物体列表中的物体进行跟踪，从由该跟踪结果获得的轨迹，推定各个物体的到之后预定时间为止的预测轨迹。此时，驾驶计划部35将检测对象物体的状态识别结果利用于预测轨迹的推定。例如，在关注的检测对象物体的状态是左转向指示灯在闪烁的状态的情况下，该检测对象物体向左侧变道或者左转的可能性高。于是，驾驶计划部35对于该检测对象物体，推定向左侧变道或者左转的预测轨迹。另外，在关注的检测对象物体的状态是刹车指示灯点亮的状态的情况下、或者是危险指示灯在闪烁的状态的情况下，该检测对象物体减速的可能性高。于是，驾驶计划部35对于该检测对象物体，推定较当前时刻减速这样的预测轨迹。再者，在关注的检测对象物体的状态是左右的转向指示灯以及危险指示灯均不闪烁并且刹车指示灯熄灭的状态的情况下，该检测对象物体不减速而直行的可能性高。于是，驾驶计划部35对于该检测对象物体，推定不减速而直行这样的预测轨迹。

驾驶计划部35基于正在跟踪的各物体的预测轨迹以及车辆10的位置、速度和姿势，生成车辆10的行驶预定路径以使得对于任一物体，到之后预定时间为止的正在跟踪的各个物体与车辆10间的距离的预测值都大于等于预定距离。此外，驾驶计划部35能够基于表示例如从搭载于车辆10的GPS接收机(未图示)获得的车辆10的当前位置的当前位置信息，推定车辆10的位置、速度和姿势。或者也可以，定位处理部(未图示)每当由摄像头2获得图像时，就从该图像中检测车辆10左右的车道标线，通过将检测出的车道标线与存储于存储器22的地图信息进行匹配，推定车辆10的位置、速度和姿势。再者，驾驶计划部35例如也可以参照车辆10的当前位置信息和存储于存储器22的地图信息，确认车辆10可行驶的车道的数量。而且，驾驶计划部35也可以在车辆10可行驶的车道存在多个的情况下，生成行驶预定路径以变更车辆10行驶的车道。

此外，驾驶计划部35也可以生成多个行驶预定路径。在该情况下，驾驶计划部35也可以选择多个行驶预定路径中的、车辆10的加速度的绝对值的总和成为最小的路径。

驾驶计划部35将生成的行驶预定路径通知给车辆控制部36。

车辆控制部36控制车辆10的各部分以使车辆10沿着所通知的行驶预定路径行驶。例如，车辆控制部36按照所通知的行驶预定路径以及由车速传感器(未图示)测量的车辆10的当前的车速，求取车辆10的加速度，并以成为该加速度的方式设定油门位置或者制动量。而且，车辆控制部36按照所设定的油门位置求取燃料喷射量，将与该燃料喷射量相应的控制信号向车辆10的发动机的燃料喷射装置输出。或者，车辆控制部36将与所设定的制动量相应的控制信号向车辆10的制动器输出。

再者，车辆控制部36在车辆10为了沿着行驶预定路径行驶而变更车辆10的路线的情况下，按照该行驶预定路径求取车辆10的转向角，将与该转向角相应的控制信号向控制车辆10的方向盘的致动器(未图示)输出。

图9是由处理器23执行的包括物体状态识别处理的车辆控制处理的工作流程图。处理器23每当从摄像头2接收到图像时，就按照图9所示的工作流程图执行车辆控制处理。此外，在以下所示的工作流程图中，步骤S101～S108的处理对应于物体状态识别处理。

处理器23的物体检测部31将从摄像头2获得的最新图像输入到第1识别器，检测该图像中表示的一个以上的检测对象物体。即，物体检测部31在图像上检测包含检测对象物体的一个以上的物体区域(步骤S101)。再者，物体检测部31按检测出的每个检测对象物体，识别该检测对象物体的种类。而且，物体检测部31将检测出的检测对象物体登记到检测物体列表中。更进一步，物体检测部31按检测出的每个物体区域，计算该物体区域的混合度(步骤S102)。

处理器23的跟踪部32对于最新图像中的包含检测对象物体的物体区域的每一个，基于该物体区域和过去的图像中的物体区域，跟踪最新图像中的该物体区域内表示的检测对象物体(步骤S103)。再者，跟踪部32从正在跟踪的检测对象物体中，选择预定数量的检测对象物体作为成为状态识别的对象的检测对象物体(步骤S104)。

另外，处理器23的混合状态判定部33对于选择出的检测对象物体的每一个，基于包含该检测对象物体的物体区域的混合度，判定该物体区域是否是混合状态(步骤S105)。

处理器23的状态识别部34对于选择出的成为状态识别的对象的检测对象物体的每一个，提取从示出该检测对象物体的物体区域内的像素值求取的特征(步骤S106)。而且，状态识别部34对于成为状态识别的对象的检测对象物体的每一个，将提取出的特征输入到具有递归结构的第2识别器，并且将存储器22所保持的关于该检测对象物体的第2识别器的内部状态应用于第2识别器，由此识别该检测对象物体的状态(步骤S107)。

再者，状态识别部34对于成为状态识别的对象的检测对象物体的每一个，在包含该检测对象物体的物体区域为非混合状态的情况下，用识别了该检测对象物体的状态时的第2识别器的最新的内部状态，将存储于存储器22的内部状态更新，并且将检测对象物体的状态的识别结果写入存储器22。另一方面，在该物体区域为混合状态的情况下，状态识别部34将该最新的内部状态以及状态的识别结果废弃(步骤S108)。即，第2识别器的内部状态以及状态的识别结果不被更新。

处理器23的驾驶计划部35参照检测物体列表，对于登记于检测物体列表中的各检测对象物体，以与参照状态识别结果所推定的该物体的预测轨迹相距大于等于预定距离的方式，生成车辆10的行驶预定路径(步骤S109)。而且，处理器23的车辆控制部36控制车辆10以使车辆10沿着行驶预定路径行驶(步骤S110)。然后，处理器23结束车辆控制处理。

如上所述，该物体状态识别装置通过将按时间序列获得的一系列图像分别输入到第1识别器，从一系列图像的每个图像中检测包含检测对象物体的物体区域。另外，该物体状态识别装置对于一系列图像的每个图像，判定包含检测对象物体的物体区域是否是混合状态。而且，该物体状态识别装置通过将从物体区域提取出的特征按时间序列顺序输入到具有递归结构的第2识别器，识别检测对象物体的状态。再者，该物体状态识别装置在最新图像的物体区域为非混合状态的情况下，将第2识别器的内部状态更新，并使得在下个图像的物体区域的特征被输入到第2识别器时，在第2识别器中应用被更新的内部状态。另一方面，在物体区域为混合状态的情况下，该物体状态识别装置将第2识别器的内部状态废弃，并使得在下一图像的物体区域的特征被输入到第2识别器时，在第2识别器中应用此前所存储的内部状态。由此，该物体状态识别装置能够捕捉图像中表示的检测对象物体的时间序列的外观变化作为在状态识别的判定中所利用的特征的时间序列的变化。再者，当在物体区域内包含关注的检测对象物体以外的其他物体、特别是其他检测对象物体的情况下，该物体状态识别装置能够抑制该其他物体的信息影响对关注的检测对象物体的状态的识别。因此，该物体状态识别装置能够准确地识别检测对象物体的状态。再者，该物体状态识别装置利用从各个图像中检测物体的第1识别器，从时间序列的一系列图像的每个图像，提取向第2识别器输入的特征，因此，与将图像整体输入到具有递归结构的识别器来识别物体的状态相比，整体而言能够削减运算量。另外，第1识别器的学习所使用的图像是静态图像即可，另一方面，虽然第2识别器的学习需要动态图像，但该动态图像所包含的各个图像的尺寸可以比第1识别器的学习所利用的图像的尺寸小。因此，该物体状态识别装置能够削减各识别器的学习所需的成本(例如，监督图像的标注所需的成本、监督图像的收集所需的成本等)，并且削减各识别器的学习所需的运算量以及运算时间。

根据变形例，混合状态判定部33也可以对于各物体区域，使用与第1识别器分别设置并且预先被学习为对是否是混合状态进行判定的第3识别器，判定该物体区域是否是混合状态。在该情况下，混合状态判定部33例如对于各物体区域，将从该物体区域内的像素值求取的且与输入到第2识别器的特征同样的特征输入到第3识别器。而且，第3识别器输出关于该物体区域的混合度，混合状态判定部33在所输出的混合度大于等于预定的混合度阈值的情况下，判定为该物体区域是混合状态，另一方面，在所输出的混合度小于预定的混合度阈值的情况下，判定为该物体区域是非混合状态即可。

在该情况下，第3识别器例如可以设为具有CNN型架构的DNN。而且，第3识别器的输出层使用Sigmoid函数，输出具有0～1中的任一值的混合度。此外，在该变形例中，第1识别器无需计算混合度，所以也可以省略混合度推定部。因此，第1识别器例如也可以是如SSD或者Faster R-CNN这样的从图像中检测物体区域并且输出物体区域内表示的检测对象物体的种类的推定结果的DNN。

或者，状态识别部34使用的第2识别器也可以被学习为将混合度与检测对象物体的状态的识别结果一起输出。又或者，混合状态判定部33也可以对于各个物体区域，算出与其他物体区域的重复程度、例如IoU(Intersection over Union，并交比)作为混合度。

另外，状态识别部34也可以对于判定为是混合状态的物体区域，不将从该物体区域求出的特征输入到第2识别器而将该特征废弃。在该情况下，由于第2识别器不进行运算，因此状态识别部34也可以不执行从判定为是混合状态的物体区域求出的特征的尺寸调整等处理。再者，在状态识别部34自身进行从物体区域提取特征的处理的情况下，也可以对于判定为是混合状态的物体区域，省略提取其特征的处理本身。由此，进一步削减状态识别部34的运算量。

根据另一变形例，物体检测部31也可以利用DNN以外的识别器从图像中检测检测对象物体。例如，物体检测部31也可以使用如下支持向量机(Support Vector Machine：SVM)作为第1识别器，该支持向量机预先被学习为以从设定在图像上的窗口(window)算出的特征量(例如HOG)作为输入，输出成为检测对象的物体表示于该窗口的置信度。物体检测部31将设定在图像上的窗口的位置、尺寸以及纵横比进行各种变更，并从该窗口算出特征量，将算出的特征量向SVM输入，由此对于该窗口求取置信度。而且，物体检测部31对于任一种类的检测对象物体判定为在置信度大于等于预定的置信度阈值的窗口表示有该检测对象物体，并且将该窗口作为物体区域即可。此外，也可以按成为检测对象的物体的每个种类来准备SVM。在该情况下，物体检测部31对于各窗口，通过将从该窗口算出的特征量向各自的SVM输入，按物体的各种类算出置信度即可。在该情况下，向状态识别部34的第3识别器输入的物体区域的特征可以设为从判定为表示有检测对象物体的窗口(即物体区域)提取的、被输入到SVM的如HOG这一特征量。

上述的实施方式或者变形例涉及的物体状态识别装置也可以安装于车载设备以外。例如，上述的实施方式或者变形例涉及的物体状态识别装置也可以构成为，从通过以按预定周期对屋外或屋内的预定区域进行拍摄的方式设置的监视摄像头所生成的图像中检测物体，并识别检测出的物体的状态。而且，物体状态识别装置也可以，在一定期间内检测出物体的情况下，使与物体状态识别装置连接的显示器显示表示检测出了物体这一情况、以及该物体的状态的识别结果的消息。

另外，实现上述的实施方式或者变形例的、物体状态识别装置的处理器23的各部分的功能的计算机程序也可以以记录于半导体存储器、磁记录介质或者光记录介质这样的计算机可读取的可携带式的记录介质中的形式来提供。

如上，本领域技术人员能够在本发明的范围内按照所实施的方式进行各种变更。

Claims

1.一种物体状态识别装置，具有：

物体检测部，其通过将按时间序列获得的一系列图像输入到预先被学习为检测预定的物体的第1识别器，对于所述一系列图像的每个图像，在该图像上检测包含所述物体的物体区域；

混合状态判定部，其对于在所述一系列图像的每个图像中检测出的所述物体区域，判定是否是在该物体区域内包含所述物体以外的其他物体的混合状态；以及

状态识别部，其通过将从在所述一系列图像的每个图像中检测出的所述物体区域内的像素值求取的特征按时间序列顺序输入到具有递归结构的第2识别器，并且将与所述第2识别器相关联且存储于存储部的所述第2识别器的被递归地利用的内部状态应用于所述第2识别器，识别伴随时间序列外观变化的所述物体的状态，

所述状态识别部对于所述一系列图像的每个图像，在该图像上的所述物体区域不是所述混合状态的情况下，用通过将关于该图像上的所述物体区域的所述特征输入到所述第2识别器而更新出的所述第2识别器的最新的内部状态，将与所述第2识别器相关联的被递归地利用的内部状态更新，在该图像上的所述物体区域是所述混合状态的情况下，用将关于所述一系列图像中的不是所述混合状态的前一图像的所述物体区域的所述特征输入到所述第2识别器而更新出的所述第2识别器的最新的内部状态，将与所述第2识别器相关联的被递归地利用的内部状态更新。

2.根据权利要求1所述的物体状态识别装置，

所述第1识别器还被学习为计算混合度，所述混合度表示所述物体区域是所述混合状态的确定性，

每当所述物体检测部将所述一系列图像的每个图像按时间序列顺序输入到所述第1识别器时，所述第1识别器计算关于该图像上的所述物体区域的所述混合度，

所述混合状态判定部对于所述一系列图像的每个图像，在关于该图像上的所述物体区域的所述混合度大于等于预定阈值的情况下，判定为该图像上的所述物体区域是所述混合状态。

3.根据权利要求1所述的物体状态识别装置，

所述混合状态判定部对于所述一系列图像的每个图像，通过将关于该图像上的所述物体区域的所述特征输入到预先被学习为计算混合度的第3识别器，计算关于该图像上的所述物体区域的所述混合度，并在关于该图像上的所述物体区域的所述混合度大于等于预定阈值的情况下，判定为该图像上的所述物体区域是所述混合状态，所述混合度表示所述物体区域是所述混合状态的确定性。

4.根据权利要求1所述的物体状态识别装置，

所述混合状态判定部对于所述一系列图像的每个图像，计算该图像上的所述物体区域与由所述第1识别器检测出的包含其他物体的其他物体区域的重复程度，并在所述重复程度大于等于预定阈值的情况下，判定为该图像上的所述物体区域是所述混合状态。

5.一种控制装置，是控制车辆的行驶的控制装置，具有：

存储部；

物体检测部，其通过将由搭载于所述车辆的拍摄部按时间序列获得的一系列图像输入到预先被学习为检测其他车辆的第1识别器，对于所述一系列图像的每个图像，在该图像上检测包含所述其他车辆的物体区域；

混合状态判定部，其对于在所述一系列图像的每个图像中检测出的所述物体区域，判定是否是在该物体区域内包含所述其他车辆以外的其他物体的混合状态；

状态识别部，其通过将从在所述一系列图像的每个图像中检测出的所述物体区域内的像素值求取的特征按时间序列顺序输入到具有递归结构的第2识别器，并且将与所述第2识别器相关联且存储于所述存储部的所述第2识别器的被递归地利用的内部状态应用于所述第2识别器，识别伴随时间序列外观变化的所述其他车辆的状态；

驾驶计划部，其基于所述其他车辆的状态，预测所述其他车辆行驶的轨迹，并基于预测出的所述轨迹，设定所述车辆的行驶预定路径以使所述车辆与所述其他车辆相距大于等于预定距离；以及

车辆控制部，其控制所述车辆以使所述车辆沿着所述行驶预定路径行驶，

6.一种物体状态识别方法，包括：

通过将按时间序列获得的一系列图像输入到预先被学习为检测预定的物体的第1识别器，对于所述一系列图像的每个图像，在该图像上检测包含所述物体的物体区域；

对于在所述一系列图像的每个图像中检测出的所述物体区域，判定是否是在该物体区域内包含所述物体以外的其他物体的混合状态；

通过将从在所述一系列图像的每个图像中检测出的所述物体区域内的像素值求取的特征按时间序列顺序输入到具有递归结构的第2识别器，并且将与所述第2识别器相关联且存储于存储部的所述第2识别器的被递归地利用的内部状态应用于所述第2识别器，识别伴随时间序列外观变化的所述物体的状态；

对于所述一系列图像的每个图像，在该图像上的所述物体区域不是所述混合状态的情况下，用通过将关于该图像上的所述物体区域的所述特征输入到所述第2识别器而更新出的所述第2识别器的最新的内部状态，将与所述第2识别器相关联的被递归地利用的内部状态更新，在该图像上的所述物体区域是所述混合状态的情况下，用将关于所述一系列图像中的不是所述混合状态的前一图像的所述物体区域的所述特征输入到所述第2识别器而更新出的所述第2识别器的最新的内部状态，将与所述第2识别器相关联的被递归地利用的内部状态更新。

7.一种计算机可读的记录介质，存储有物体状态识别用计算机程序，其使计算机执行：