CN114093022A

CN114093022A - 活动检测装置、活动检测***及活动检测方法

Info

Publication number: CN114093022A
Application number: CN202110701812.9A
Authority: CN
Inventors: M·克林基特; M·查布拉; 木村淳一; 村上智一
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-07-07
Filing date: 2021-06-24
Publication date: 2022-02-25
Also published as: JP7494033B2; JP2022014776A; EP3937076A1; US20220012502A1

Abstract

提供一种灵活且高精度的活动检测装置、活动检测***及活动检测方法。一种活动检测装置，包括：输入部(210)，输入至少包括第1图像及第2图像的图像序列；目标检测部(220)，在图像序列中检测第1目标；组件模型部(230)，生成对第1目标赋予特征的第1特性信息，并且包括至少1个能够单独训练的组件模型；以及活动检测部(240)，基于第1特性信息，生成与第1图像中的第1目标对应的第1目标状态以及与第2图像中的第1目标对应的第2目标状态，并基于第1目标状态和第2目标状态，判定与第1目标有关的活动，输出表示所判定的活动的第1活动检测结果。

Description

活动检测装置、活动检测***及活动检测方法

技术领域

本发明涉及活动检测装置、活动检测***及活动检测方法。

背景技术

近年来，照片、运动图像、图像等的影像内容正在迅速增加，为了推进利用IoT的社会创新，与高精度的影像监视技术有关的需求变高。特别是，对利用影像内容正确地确定与规定的目标有关的行动或状况的技术的需求增加。在影像解析的技术领域中，检测与规定的目标有关的行动或状况的技术被称作“活动检测”(Activity Detection)。

关于以高精度进行这样的活动检测的技术，提出了若干技术方案。

例如，根据Jun Lei et al.的研究(非专利文献1)，记载有：“在该研究中，著者提出了将卷积神经网络(CNN)与隐马尔可夫模型(HMM)组合的层级型架构。著者使用根据图像数据直接学***的特征的CNN的强能力，有效地提取牢固的活动特征。HMM将相邻的子活动的汇集性依赖关系模型化，被用于推测活动序列。为了将这两个模型的优点组合，构建CNN－HMM的混合结构。高斯混合模型被替换为CNN，将HMM的释放分布模型化。关于CNN－HMM模型，使用植入的维特比算法进行训练，在CNN的训练中使用的数据通过强制排列而被赋予标签。”。

非专利文献1：Jun Lei et al.，“Continuous action segmentation andrecognition using hybrid convolutional neural network－hidden Markov modelmodel”.IET Computer Vision(Volume：10，Issue：6，9.2016)

在非专利文献1中，记载了使用将卷积神经网络与隐马尔可夫模型组合的层级型架构来检测解析对象的影像中的活动的手段。

但是，非专利文献1所记载的手段由于特征提取被限定于卷积神经网络，所以没有考虑在影像中检测到的目标的空间上的位置关系及朝向等的语义的信息，检测与该目标有关的活动的精度受限。

为了提供更高精度的活动检测，与***结构被固定的以往的手段不同，要求具有更灵活且能够端对端地学习的***结构的活动检测方法。

所以，本发明的目的是使用能够单独训练的组件模型来判定与对象的目标有关的特性信息、并基于根据这些特性信息生成的目标状态生成活动检测结果，从而提供更灵活且高精度的活动检测手段。

发明内容

为了解决上述课题，代表性的本发明的活动检测装置之一包括：输入部，输入至少包括第1图像及第2图像的图像序列；目标检测部，在上述图像序列中检测第1目标；组件模型部，生成对上述第1目标赋予特征的第1特性信息，并且包括能够单独训练的至少1个组件模型；以及活动检测部，基于上述第1特性信息，生成与上述第1图像中的上述第1目标对应的第1目标状态以及与上述第2图像中的上述第1目标对应的第2目标状态，并基于上述第1目标状态和上述第2目标状态，判定与上述第1目标有关的活动，输出表示所判定的上述活动的第1活动检测结果。

发明效果

根据本发明，使用能够单独训练的组件模型来判定与对象的目标有关的特性信息、并基于根据这些特性信息生成的目标状态生成活动检测结果，从而能够提供更灵活且高精度的活动检测手段。

上述以外的课题、构成及效果通过以下的实施方式的说明会变得更清楚。

附图说明

图1是表示用来实施本发明的实施方式的计算机***的图。

图2是表示有关本发明的实施方式的活动检测***的构成的一例的图。

图3是表示有关本发明的实施方式的活动检测处理的流程的一例的图。

图4是表示有关本发明的实施方式的活动检测装置的训练阶段的一例的图。

图5是表示有关本发明的实施方式的活动检测装置的推理阶段的一例的图。

图6是表示有关本发明的实施方式的马尔可夫模型的一例的图。

图7是表示有关本发明的实施方式的活动检测装置的具体例的图。

标号说明

210 输入部

215A、215B、215C 客户端终端

220 目标检测部

230 组件模型部

240 活动检测部

250 储存器部

251 组件模型

252 马尔可夫模型

具体实施方式

以下，参照附图对本发明的实施方式进行说明。另外，并不由该实施方式限定本发明。此外，在图面的记载中，对于相同的部分赋予相同的标号而表示。

(实施方式的概要)

如上述那样，对于正确地确定与规定的目标有关的活动的技术即“活动检测”的需求变高。通常，活动检测包括在空间上确定与特定的活动有关的目标的处理(所谓的“object localization”)、判定该活动何时开始、何时结束的处理(所谓的“activityrecognition”)及识别该活动的类别的处理(所谓的“activity classification”)。

但是，为了训练能够以高精度进行上述那样的活动检测的、能够端对端学习的活动检测***，需要将构成该活动检测***的目标检测模型、目标跟踪模型、活动再识别模型等各自的机器学习模型端对端地进行训练，需要庞大的量的学习用数据。由于难以按作为检测对象的每个活动来获得这样的庞大的量的学习用数据，所以难以构建及导入完全能够端对端学习的活动检测用的机器学习***。

为了解决上述的学习用数据的问题，有时作为构成活动检测***的目标检测模型、目标跟踪模型、活动再识别模型等各自的机器学习模型而使用已经训练的模型，构成活动检测用的管线的情况。

但是，在由这样的已训练模型构成的活动检测用管线的情况下，有以下的问题。

1)由于仅将对各个已训练模型的输出进行汇集而生成活动检测结果的神经网络通过误差反向传播法(Backpropagation)进行训练，所以各个已训练模型没有与该神经网络一起训练，精度没有提高。

2)由于仅最终的活动检测结果被从管线的最终层输出，所以不能掌握各个已训练模型的中途结果，***成为黑盒。

3)为了应对新的物体，需要基于用户的手工作业的、对条件分支进行定义的决策树，所以花费用户的工夫，而且***不能立即应对新的物体。

所以，在本发明中，使用能够单独训练的组件模型，判定与对象的目标有关的特性信息。这里的组件模型例如也可以是从光流模型、目标跟踪模型、目标确定模型、神经网络特征模型、目标属性模型及目标骨骼模型中选择的至少1个。由组件模型判定的目标的特性信息被汇集而被表现为例如马尔可夫模型的目标状态。然后，基于马尔可夫模型中的目标状态彼此的关系、转移，检测与该目标有关的活动。

在本发明的活动检测手段中，不仅是最终的活动检测结果，还将表示印证由各个组件模型生成的特性信息的结果的理由的说明通知一起输出，所以用户能够将各个组件模型的性能单独地评价。在特定的组件模型的性能不充分的情况下，能够仅将该组件模型再训练，所以不需要将***整体再训练。此外，在有关本发明的活动检测结果中，根据马尔可夫模型的目标状态彼此的关系、转移来进行判定，所以不需要制作定义条件分支的决策树。

由此，能够提供与以往相比更灵活且高精度的活动检测方法。

接着，参照图1对用来实施本发明的实施方式的计算机***300进行说明。在本说明书中公开的各种实施方式的机构及装置也可以适用于任意的适当的计算***。计算机***300的主要组件包括1个以上的处理器302、存储器(memory)304、终端接口312、储存器(storage)接口314、I/O(输入输出)设备接口316及网络接口318。这些组件也可以经由存储器总线306、I/O总线308、总线接口单元309及I/O总线接口单元310被相互连接。

计算机***300也可以包括被统称为处理器302的1个或多个通用可编程中央处理装置(CPU)302A及302B。在一实施方式中，计算机***300也可以具备多个处理器，此外在其他的实施方式中，计算机***300也可以是单一的CPU***。各处理器302也可以执行保存在存储器304中的命令，包括板上集成缓存。

在一实施方式中，存储器304也可以包括用来存储数据及程序的随机访问半导体存储器、存储装置或存储介质(易失性或非易失性的某一种)。存储器304也可以保存实施在本说明书中说明的功能的程序、模块及数据结构的全部或一部分。例如，存储器304也可以保存活动检测应用350。在一实施方式中，活动检测应用350也可以包含在处理器302上执行后述的功能的命令或记述。

在一实施方式中，活动检测应用350也可以代替基于处理器的***或除了基于处理器的***以外，经由半导体设备、芯片、逻辑门、电路、电路卡及/或其他物理硬件设备而由硬件实施。在一实施方式中，活动检测应用350也可以包含命令或记述以外的数据。在一实施方式中，也可以提供相机、传感器或其他数据输入设备(未图示)，以使其与总线接口单元309、处理器302或计算机***300的其他硬件直接通信。

计算机***300也可以包括进行处理器302、存储器304、显示***324及I/O总线接口单元310间的通信的总线接口单元309。I/O总线接口单元310也可以与用来在与各种I/O单元之间传输数据的I/O总线308连结。I/O总线接口单元310也可以经由I/O总线308与也作为I/O处理器(IOP)或I/O适配器(IOA)周知的多个I/O接口单元312、314、316及318通信。

显示***324也可以包括显示控制器、显示存储器或其两者。显示控制器能够将视频、音频或其两者的数据提供给显示装置326。此外，计算机***300也可以包括构成为收集数据并将该数据提供给处理器302的1个或多个传感器等的设备。

例如，计算机***300也可以包括：收集心率数据或压力水平数据等的生物计量传感器；收集湿度数据、温度数据、压力数据等的环境传感器；以及收集加速度数据、运动数据等的运动传感器等。也可以使用这以外的类型的传感器。显示***324也可以与单独的显示器画面、电视机、平板电脑或便携型设备等的显示装置326连接。

I/O接口单元具备与各种储存器或I/O设备通信的功能。例如，终端接口单元312能够进行视频显示装置、扬声器电视机等的用户输出设备，键盘、鼠标、小键盘、触控板、跟踪球、按钮、手写笔或其他指针设备等的用户输入设备那样的用户I/O设备320的安装。用户也可以使用用户接口对用户输入设备进行操作，从而对用户I/O设备320及计算机***300输入输入数据及指示，接受来自计算机***300的输出数据。用户接口例如也可以经由用户I/O设备320显示在显示装置上或通过扬声器再现，或经由打印机印刷。

储存器接口314能够进行构成为将1个或多个盘驱动器或直接访问储存器装置322(通常是磁盘驱动储存器装置，但也可以是构成为看起来是单一的盘驱动器的盘驱动器的阵列或其他的储存器装置)的安装。在一实施方式中，储存器装置322也可以作为任意的二次存储装置安装。也可以将存储器304的内容存储在储存器装置322中，根据需要从储存器装置322读出。I/O设备接口316也可以提供对于打印机、传真机等的其他I/O设备的接口。网络接口318也可以提供通信路径，以使计算机***300与其他设备能够相互通信。该通信路径例如也可以是网络330。

在一实施方式中，计算机***300也可以是多用户主机计算机***、单用户***或服务器计算机等的不具有直接的用户接口的、接收来自其他计算机***(客户端)的请求的设备。在其他实施方式中，计算机***300也可以是台式计算机、便携型计算机、笔记本电脑、平板计算机、口袋计算机、电话、智能电话或任意的其他适当的电子设备。

接着，参照图2对有关本发明的实施方式的活动检测***的构成对进行说明。

图2是表示有关本发明的实施方式的活动检测***200的构成的一例的图。如图2所示，活动检测***200主要由客户端终端215A、215B、215C、网络235及活动检测装置205构成。活动检测装置205经由网络235与客户端终端215A、215B、215C连接。

客户端终端215A、215B、215C(以下统称为“客户端终端215”)是用来向活动检测装置205委托作为活动检测处理的解析对象的图像序列的终端。客户端终端215也可以将指定检测对象的活动、目标等的条件的条件电文发送给活动检测装置205，或从活动检测装置205接收表示活动检测的结果的活动检测结果。

客户端终端也可以是由个人利用的终端，也可以是警察局或民间企业等的组织中的终端。此外，客户端终端215例如也可以是台式个人电脑、笔记本电脑、平板电脑、智能电话等任意的设备。

此外，客户端终端215也可以是传感器或相机等。例如，有关本发明的实施方式的客户端终端215也可以是录像并取得解析对象的图像序列的监视相机等。

另外，在图2中，作为一例而表示了包括3个客户端终端的构成，但本发明并不限定于此，活动检测***200的客户端终端215的数量及种类也可以根据活动检测***200的使用目的而适当地选择。此外，客户端终端215既可以是相同的委托者的终端，也可以是不同的委托者的终端。

活动检测装置205是实施对规定的对象的图像序列的活动检测处理、在时间空间上确定该对象的图像序列中的与目标有关的活动并分类的装置。如后述那样，活动检测装置205也可以将表示检测到的活动的时间空间上的坐标及类别等信息的活动检测结果向上述的客户端终端215输出。

如图2所示，活动检测装置205包括输入部210、目标检测部220、组件模型部230、活动检测部240和储存器部250。

输入部210是用来从客户端终端215取得解析对象的图像序列的功能部。例如，输入部210也可以取得由设置在车站的站台等处的监视相机等的客户端终端215录像的影像作为对象图像的序列。这里取得的对象的图像序列例如也可以是由多个图像(至少第1图像及第2图像)构成的。此外，输入部210也可以将指定想要检测的活动或目标等的条件的条件电文与对象的图像序列一起从客户端终端215取得。

目标检测部220是用来检测对象的图像序列中的目标(例如，第1目标、第2目标等)的功能部。目标检测部220例如也可以使用Viola－Jones Object Detection、Scale－invariant feature transform、Histogram of oriented gradients的机器学习方法，或Region Proposals、Single Shot Multibox Detector、You Only Look Once、Single－shot Refinement Neural Network for Object Detection、Retina－Net、Deformableconvolutional Networks的深度学习方法等任意的方法来检测目标。

目标检测部220也可以从对象的图像序列中检测例如由从客户端终端215A等取得的条件电文指定的目标，也可以检测对象的图像序列中的全部目标。

组件模型部230是包括至少1个用于判定与在活动检测处理中使用的目标有关的特性信息的组件模型的功能部。这里的组件模型，是能够单独地训练的机器学习或深度学习模型。这里，能够单独地训练是指能够利用与对象的活动检测任务无关的训练用数据进行训练。由此，将各个组件模型用与该组件模型的任务一致、较容易获得的数据进行训练，所以不需要获得与对象的活动检测任务相匹配的庞大的训练用数据。

另外，组件模型部230也可以包括至少1个组件模型，但为了提取对从图像序列中检测到的目标更高度地赋予特征的特性信息，优选的是包括多个组件模型的构成。此外，组件模型部所包括的组件模型的数量及种类也可以根据活动检测***200的使用目的而适当地选择。

活动检测部240是用来基于由组件模型部230判定的目标的特性信息判定与该目标有关的活动，并输出活动检测结果的功能部。更具体地讲，活动检测部240也可以基于由组件模型部230判定的目标的特性信息，对于拍摄有在对象的图像序列中检测到的目标的各个图像(帧)生成与该目标对应的目标状态，基于这些目标状态的马尔可夫模型中的转移来检测活动。

另外，这里，“与目标有关的活动”既可以是该目标进行的活动(投掷球等)，也可以是对该目标进行的活动(被狗咬等)，也可以是在与该目标相同的时间空间的区域中发生的任意的事件。

储存器部250是用来保存上述的功能部使用的各种数据的存储部。储存器部250例如如图2所示，也可以保存在组件模型部230中使用的组件模型251、在活动检测部240中使用的马尔可夫模型252。这里的储存器部250例如也可以是闪存存储器、硬盘驱动器等任意的存储介质。

组件模型251是由组件模型部230使用的能够单独训练的组件模型。作为一例，有关本发明的实施方式的组件模型包括光流模型(Optical Flow Model)、目标跟踪模型(Object Tracking Model)、目标再识别定模型(Object Re－Identification Model)、神经网络特征模型(Neural Network Feature Model)、目标属性模型(Object AttributeModel)及目标骨骼模型(Object Skeleton Model)等，但也可以使用其以外的组件模型。另外，在图2中，作为一例而表示储存器部250保存1个组件模型251的构成，但如上述那样，实际上也可以是包括多个组件模型251的构成。

马尔可夫模型252是由活动检测部240所进行的活动检测处理使用的马尔可夫模型。马尔可夫模型252是用来将不规则地变化的***模型化的概率模型。关于马尔可夫模型252的详细情况后述。

通过以上说明的构成，有关本发明的实施方式的活动检测***200使用能够单独训练的组件模型判定关于对象的目标的特性信息，并基于根据这些特性信息生成的目标状态生成活动检测结果，从而能够提供更灵活且高精度的活动检测方法。

接着，参照图3对有关本发明的实施方式的活动检测处理进行说明。

图3是表示有关本发明的实施方式的活动检测处理360的流程的一例的图。图3所示的活动检测处理360由已训练的活动检测装置执行，是用来判定与拍摄在对象的图像序列中的目标有关的活动、并输出表示该活动的活动检测结果的处理。

首先，在步骤S365中，活动检测装置的输入部(例如，图2所示的活动检测装置205的输入部210)输入由多个图像构成的图像序列。这里的图像序列例如也可以是从客户端终端向活动检测装置发送的作为活动检测处理的解析对象的图像序列(监视相机的影像等)。此外，这里，活动检测装置的输入部也可以将指定检测对象的活动、目标等的条件的条件电文与图像序列一起接收。作为一例，该条件电文也可以指定“将店里的商品不结账而出店的人”或“确定戴着红色帽子的男性的行动”。

接着，在步骤S370中，活动检测装置的目标检测部(例如，图2所示的活动检测装置205的目标检测部220)从在步骤S365中输入的图像序列中检测第1目标。这里的第1目标，例如既可以是由在步骤S365中接收到的条件电文指定的目标(例如，“戴着红色帽子的男性”)，也可以是对象的图像序列中的任意的目标。这里，为了检测第1目标，目标检测部也可以使用R－CNN(Region－based Convolutional Neural Network)、Faster－RCNN(FasterRegion－based Convolutional Neural Network)、SPP－NET(Spatial Pyramid PoolingNetwork)、YOLO(You Only Look Once)、SSD(Single Shot Detection)、R－FCN(Region－based Fully Convolutional Networks)、Mask－RCNN(Mask Region－basedConvolutional Neural Network)、Cascade R－CNN(Cascade Region－basedConvolutional Neural Network)等任意的方法。

接着，在步骤S375中，活动检测装置的组件模型部(例如，图2所示的活动检测装置205的组件模型部230)按构成图像序列的每个图像生成对在步骤S370中检测到的第1目标赋予特征的第1特性信息。如上述那样，这里的组件模型部也可以包括光流模型、目标跟踪模型、目标再识别模型、神经网络特征模型、目标属性模型及目标骨骼模型等。

此外，这里的特性信息是表示第1目标的空间坐标、时间坐标、移动路径、特征量、大小、颜色、分类(人、狗、车等)、骨骼信息等特性的信息。在步骤S375中生成的特性信息根据组件模型的数量、种类及功能而不同。例如，在组件模型部包括卷积神经网络和Openpose等的骨骼检测模型的情况下，在步骤S375中生成的特性信息包括由卷积神经网络生成的第1目标的特征量和由Openpose生成的第1目标的骨骼信息。

在步骤S380中，活动检测装置的活动检测部基于在步骤S375中生成的特性信息，判定与第1目标有关的活动，输出表示该活动的活动检测结果。更具体地讲，活动检测部240按构成图像序列的每个图像，将由组件模型部230生成的目标的特性信息表现为马尔可夫模型中的目标状态，基于目标状态彼此的关系、转移来判定第1目标的活动。

作为一例，研究图像序列由第1图像和第2图像构成的情况。首先，如上述那样，该图像序列在被输入到输入部之后，被组件模型部所包含的各个组件模型处理，生成对第1目标赋予特征的特性信息。然后，活动检测部基于由组件模型生成的特性信息，在马尔可夫模型中生成与第1图像中的第1目标对应的第1目标状态以及与第2图像中的第1目标对应的第2目标状态，并基于第1目标状态和第2目标状态判定与第1目标有关的活动，输出表示该活动的活动检测结果。该活动检测结果也可以是表示检测到的活动的类别(发生了什么)、时间坐标(何时发生)、空间坐标(在哪里发生)、关系目标(与怎样的目标有关)等信息的通知。此外，也可以将这里生成的活动检测结果返送给例如委托了活动检测的客户端终端。

接着，参照图4对有关本发明的实施方式的活动检测装置的训练阶段进行说明。

图4是表示有关本发明的实施方式的活动检测装置400的训练阶段的一例的图。如上述那样，在有关本发明的实施方式的活动检测手段中，在活动的检测中使用通过多个能够单独训练的组件模型的输出进行训练的马尔可夫模型。

如上述那样，这里的组件模型例如也可以从光流模型、目标跟踪模型、目标再识别模型、神经网络特征模型、目标属性模型及目标骨骼模型中选择。

如图4所示，活动检测装置400主要包括组件模型420、422、424和马尔可夫模型440。另外，图4所示的组件模型420、422、424与图2所示的组件模型251实质上对应，马尔可夫模型440与图2所示的马尔可夫模型252实质上对应。

组件模型420、422、424各自的初期的训练是通过训练用数据410、412、414单独地实施。这里的训练用数据410、412、414各自不需要是活动检测用的训练数据，也可以是基于该组件模型的种类及功能选择的数据。例如，在组件模型420是在影像中跟踪目标的目标跟踪模型的情况下，训练用数据410也可以是目标跟踪用的训练用数据。此外，训练用数据410、412、414分别也可以是与不同的领域对应的数据，也可以是相互关联的数据。

这样，通过用不同领域的训练用数据单独地进行各个组件模型420、422、424的初期训练，与将这些组件模型一起用相同的活动检测用数据训练的情况相比，训练用数据的获得变得容易，而且能够达成更高的解析精度。另外，以上作为一例而说明了各个组件模型420、422、424的初期训练基于不同的训练用数据实施的构成，但本发明并不限定于此，当然也可以基于活动检测用的训练数据进行各个组件模型420、422、424的初期训练。

在上述的各领域的训练结束后，将活动检测的训练用数据415向组件模型420、422、424各自输入。该活动检测的训练用数据415例如也可以是由多个图像构成的图像序列。

组件模型420、422、424分别通过将该活动检测的训练用数据415解析，按构成活动检测的训练用数据415的每个图像，生成对该图像中的目标赋予特征的特性信息371、372、373。另外，生成该特性信息的处理也可以按图像中的每个目标来进行。此外，这里的特性信息430、432、434的内容根据组件模型的种类而不同。例如，在组件模型367是目标属性部的情况下，由组件模型422生成的特性信息432也可以生成表示目标的大小、形状、颜色等属性的信息作为特性信息。

马尔可夫模型440是利用由组件模型420、422、424分别生成的特性信息430、432、434来训练。更具体地讲，马尔可夫模型440也可以按构成图像序列的每个图像，基于关于各目标生成的特性信息430、432、434来生成与该目标对应的目标状态。由此，构成活动检测的训练用数据415的图像序列的各个图像中的各目标在马尔可夫模型440中与不同的目标状态对应。

这里的目标状态，是将目标的特性用一维的意义上的二进制形式表示的数据结构。作为一例，在对象的目标是人的情况下，关于该目标生成的目标状态也可以用二进制形式表示该目标是否在跑、是否拿着行李、是否在骑自行车等各种各样的特性。

这样，按构成活动检测的训练用数据415的每个图像，基于由组件模型420、422、424分别生成的特性信息生成目标状态，并通过这些目标状态来训练马尔可夫模型440。此外，如后述那样，通过使用已训练的马尔可夫模型440，能够正确地检测与对象的目标有关的目标。

接着，参照图5对有关本发明的实施方式的活动检测装置的推理阶段进行说明。

图5是表示有关本发明的实施方式的活动检测装置500的推理阶段的一例的图。在推理阶段中，在参照图4说明的训练阶段中训练的组件模型及马尔可夫模型进行对于对象的图像序列的活动检测的处理。

如图5所示，活动检测装置500主要包括组件模型520、522、524和马尔可夫模型540。另外，图5所示的组件模型520、522、524和马尔可夫模型540除了是已训练这一点以外，与图4所示的组件模型420、422、424及马尔可夫模型440实质上对应，所以这里省略其说明。

首先，组件模型520、522、524分别被输入作为活动检测的对象的图像序列510，根据该组件的种类及功能进行处理，从而按构成图像序列510的每个图像，生成关于拍摄在图像序列510中的目标的特性信息530、532、534。例如，在组件模型520是目标属性部的情况下，组件模型520也可以生成表示目标的大小、形状、颜色等属性的信息作为特性信息530。

然后，马尔可夫模型540将由组件模型520、522、524分别生成的特性信息530、532、534表现为马尔可夫模型540中的目标状态，如后述的图6所示，基于这些目标状态判定与拍摄在图像序列510中的目标有关的活动。

接着，参照图6对有关本发明的实施方式的马尔可夫模型进行说明。

图6是表示有关本发明的实施方式的马尔可夫模型600的一例的图。图6所示的马尔可夫模型600与例如图2所示的马尔可夫模型252实质上对应。马尔可夫模型600是用来将不规则地变化的***模型化的概率模型。在马尔可夫模型600中，假定未来的状态仅受当前的状态左右，不受过去发生的事件影响。

在本发明中，通过将由上述的组件模型生成的特性信息表现为马尔可夫模型中的目标状态，能够基于目标状态彼此的关系、转移来预测未来的目标状态或导出没有拍摄在对象的图像序列中的目标状态，此外由此能够判定目标的活动。

另外，以下作为一例而说明将由上述的组件模型生成的特性信息表现为马尔可夫模型中的目标状态、并基于它们的目标状态进行活动检测的情况，但本发明并不限定于此，例如可以考虑在组件模型与马尔可夫模型之间设定所谓的知识图谱(Knowledge Graph)作为新层的构成。但是，在知识图谱中，由于不能表现伴随于时间的经过的变化，所以从表现伴随于时间的经过的变化、提高活动检测的精度的观点来看，优选的是例如如图7所示的构成。此外，作为活动检测的方法，也可以使用图形卷积(Graph Convolution)或概率图模型(Probabilistic Graphical Model)。

以下，作为有关本发明的实施方式的马尔可夫模型的一例，说明表示作为第1目标的人(图6所示的“P”)将作为第2目标的车(图6所示的“V”)起动、行驶、停车的状况的图像序列为解析对象的情况。

首先，如上述那样，如果将构成对象的图像序列的各个图像由上述的组件模型分析，则按每个图像生成关于各个目标的特性信息，基于该特性信息，在马尔可夫模型中按每个图像生成对各个目标的目标状态。例如，如图6所示，基于对象的图像序列生成人乘车到车上的目标状态605、车行驶的目标状态615、人下车的目标状态625和人从车卸下行李的目标状态650。由此，各个目标状态对应于在图像序列中的特定的图像中拍摄的特定的目标。

此外，马尔可夫模型600基于所生成的目标状态的因果关系，能够导出与在对象的图像序列中没有明确地拍摄到的事件对应的目标状态。例如，马尔可夫模型600也可以基于人乘车到车上的目标状态605和车行驶的目标状态615，导出车被起动的目标状态610并追加到模型中。此外，作为其他的例子，马尔可夫模型也可以基于车行驶的目标状态615和人下车的目标状态625导出车停车的目标状态620并追加到模型中。

也可以在马尔可夫模型600中按每个图像生成对各个目标的目标状态后，判定对象的目标的活动。更具体地讲，也可以基于与第1图像中的第1目标对应的第1目标状态以及与第2图像中的第1目标对应的第2目标状态来检测第1目标的活动。例如，也可以基于人乘车到车上的目标状态605(第1目标状态)和人下车的目标状态625(第2目标状态)来判定“人通过车而移动了”的活动。

另外，以上作为一例说明了基于与同一目标对应的2个目标状态进行活动的判定的情况，但有关本发明的实施方式的马尔可夫模型600并不限定于此，也可以基于与同一目标对应的3个以上的目标状态或与多个不同的目标对应的目标状态来进行。

例如，在一实施方式中，第1目标状态的活动的判定也可以基于与相同的图像序列中的第2目标对应的目标状态来进行。更具体地讲，第1目标的活动也可以基于与第1目标对应的目标状态以及与第2目标对应的目标状态来判定。例如，也可以基于人(第1目标)乘车到车上的目标状态605和车(第2目标)行驶的目标状态615来判定“人驾驶车”的活动。原则上，为了检测更正确且详细的活动，优选的是基于尽可能多的目标状态进行活动检测。

如以上说明，通过将由组件模型生成的特性信息表现为马尔可夫模型中的目标状态，能够基于目标状态彼此的关系来预测未来的目标状态或导出没有拍摄在对象的图像序列中的目标状态，此外，由此能够判定目标的活动。

另外，以上作为一例而说明了基于至少1个目标状态进行活动的判定的情况，但本发明并不限定于此，活动的判定也可以基于目标状态的转移来进行。这里的目标状态的转移是指从1个目标状态向其他目标状态的转移(即，目标状态的变化或转变等)。此外，也可以将这些目标状态的转移也表现为马尔可夫模型中的新的目标状态。通过基于目标状态的转移进行活动的判定，能够进行更高精度的活动检测。

接着，参照图7对有关本发明的实施方式的活动检测装置的具体例进行说明。

图7是表示有关本发明的实施方式的活动检测装置205的具体例的图。如图7所示，活动检测装置205主要包括输入部210、目标检测部220、组件模型部230和活动检测部240。

另外，由于这些功能部与参照图2说明的活动检测装置205的功能部实质上对应，所以这里省略其说明。

如上述那样，有关本发明的实施方式的组件模型部230也可以根据活动检测的使用目的，包括任意的机器学习模型、深度学习模型、概率模型或软件模块中的至少1个作为组件模型。例如，图7所示的组件模型部230也可以包括目标跟踪部710、光流部720、目标再识别部730、神经网络特征部740、目标属性部750和目标骨骼部760作为组件模型。

目标跟踪部710是用来在构成图像序列的各个图像中跟踪所检测到的第1目标的组件模型，也可以使用SORT(Simple Online and Realtime Tracking)、DeepSORT、Discriminative Correlation Filter等方法。

光流部720是用来将第1目标在图像序列中的运动用向量等表示的组件模型，例如也可以使用Phase Correlation、Block－based Methods、Differential Method，Discreteoptimization Method等方法。

目标再识别部730是用来判定拍摄在构成图像序列的各个图像中的目标是否是第1目标的组件模型，例如也可以使用Edge Pattern、HOG(Histogram of orientedgradients)Features、SIFT(Scale Invariant Feature Transform)Features、CNNFeatures等方法。

神经网络特征部740是用来提取第1目标的特征量的组件模型，例如也可以使用GoLeNet、ResNet、ResNext、DenseNet、CNN等方法。

目标属性部750是用来判定第1目标的属性(大小、性别、颜色、分类等)的组件模型，例如也可以使用HOG、SIFT、CNN、GoLeNet、ResNet、ResNext、DenseNet等方法。

目标骨骼部760是用来推测第1目标的骨骼的组件模型，例如也可以使用Pictorial Structures Framework、Deformable Part Models、OpenPose、PifPaf、PoseFlow、Convolutional Pose Machines、DeepCut、Stacked Hour－Glass Network、HRNet等方法。如图7所示，例如在由目标检测部220检测到的目标是人的情况下，目标骨骼部760也可以直接输入目标检测部220的输出。

首先，如上述那样，在输入部210从客户端终端(例如，图2所示的客户端终端215A、215B、215C等)取得解析对象的图像序列后，目标检测部220从图像序列中检测例如由与解析对象的图像序列一起从客户端终端接收到的条件电文指定的第1目标。

并且，组件模型部230的各组件模型按构成图像序列的每个图像，生成对第1目标赋予特征的特性信息。例如，在组件模型部230是如图7所示的构成的情况下，目标跟踪部710、光流部720、目标再识别部730、神经网络特征部740、目标属性部750及目标骨骼部760分别对图像序列进行处理，生成对第1目标赋予特征的特性信息。

此外，各组件模型也可以与特性信息一起生成与该特性信息的生成过程有关的信息作为说明通知。该说明通知也可以是表示印证该特性信息的结果的理由的信息。例如，在目标属性部750对图像序列进行处理的结果是作为第1目标的属性之一而判定为第1目标是“女性”的情况下，也可以生成“因为头发较长，穿着裙子，所以判定为女性”作为表示印证该结果的理由的说明通知。这里生成的各组件模型的说明通知与特性信息一起被传送至活动检测部240。

然后，如上述那样，活动检测部240将由各个组件模型生成的特性信息汇集，按构成图像序列的每个图像，生成基于该图像中的第1目标的特性的目标状态。接着，如上述那样，活动检测部240基于马尔可夫模型中的目标状态彼此的关系、转移，判定第1目标的活动。并且，活动检测部240也可以与表示所判定的第1目标的活动的活动检测结果762一起输出由各组件模型生成的说明通知764。进而，也可以将表示由活动检测部240内部的处理进行的马尔可夫模型中的状态的关系性、转移的结果的图形的图像或文本作为说明通知764输出。在此情况下，例如对于“人从车下车”的活动检测结果762，作为说明通知764而输出“车停止，从车的场所开始检测人”这样的印证判断的理由。

由此，确认活动检测部240的输出的用户能够将活动检测结果762和表示印证作为该活动检测结果的来源的特性信息的理由的说明通知764一起确认。因此，例如在由活动检测部240得到的活动检测结果为错误的情况下，通过确认来自各个组件模型的说明通知，能够更容易地掌握从组件模型中哪个组件模型引起了该错误的活动检测。此外，由此为了纠正该错误的活动检测结果、提高活动检测装置的活动检测精度，不用将全部的组件模型再训练，而能够仅将引起了错误的活动检测结果的组件模型再训练，所以能够比以往更高效地进行活动检测装置的训练。

此外，在一实施方式中，也可以将上述的组件模型(例如，光流部720、目标再识别部730、神经网络特征部740、目标属性部750、目标骨骼部760)基于马尔可夫模型(在图7中没有例示)的活动检测结果进行再训练。例如，在组件模型是神经网络的情况下，也可以基于马尔可夫模型的活动检测结果通过误差反向传播法来再训练该组件模型。

作为一例，在由马尔可夫模型得到的活动检测结果中，虽然检测到特定的活动、但由某组件模型生成的特性信息包含不对应于该活动的错误的特性等的情况下，通过用由马尔可夫模型得到的活动检测结果来再训练该组件模型，能够使该组件模型的精度提高。

以上，对本发明的实施方式进行了说明，但本发明并不限定于上述的实施方式，在不脱离本发明的主旨的范围内能够进行各种变更。

Claims

1.一种活动检测装置，其特征在于，包括：

输入部，输入至少包括第1图像及第2图像的图像序列；

目标检测部，在上述图像序列中检测第1目标；

组件模型部，生成对上述第1目标赋予特征的第1特性信息，并且包括至少1个能够单独训练的组件模型；以及

活动检测部，基于上述第1特性信息，生成与上述第1图像中的上述第1目标对应的第1目标状态以及与上述第2图像中的上述第1目标对应的第2目标状态，并基于上述第1目标状态和上述第2目标状态，判定与上述第1目标有关的活动，输出表示所判定的上述活动的第1活动检测结果。

2.如权利要求1所述的活动检测装置，其特征在于，

上述目标检测部在上述图像序列中检测第2目标；

上述组件模型部判定对上述第2目标赋予特征的第2特性信息；

上述活动检测部基于上述第2特性信息，生成与上述第1图像中的上述第2目标对应的第3目标状态，并基于上述第1目标状态、上述第2目标状态及上述第3目标状态，判定与上述第1目标有关的活动，输出表示所判定的上述活动的第2活动检测结果。

3.如权利要求1所述的活动检测装置，其特征在于，

上述组件模型包括从光流模型、目标跟踪模型、目标再识别模型、神经网络特征模型、目标属性模型及目标骨骼模型中选择的至少1个。

4.如权利要求1所述的活动检测装置，其特征在于，

各个上述组件模型生成与上述第1特性信息的生成过程有关的信息作为说明通知；

上述活动检测部将上述说明通知与上述第1活动检测结果一起输出。

5.如权利要求4所述的活动检测装置，其特征在于，

上述第1目标状态及上述第2目标状态以意义上的二进制形式表示对上述第1目标赋予特征的特性。

6.如权利要求5所述的活动检测装置，其特征在于，

上述活动检测部在马尔可夫模型中生成上述第1目标状态和上述第2目标状态；

上述活动检测部基于上述马尔可夫模型中的上述第1目标状态与上述第2目标状态的关系，判定与上述第1目标有关的上述活动。

7.如权利要求6所述的活动检测装置，其特征在于，

上述活动检测部基于上述马尔可夫模型中的从上述第1目标状态向上述第2目标状态的转移，判定与上述第1目标有关的上述活动。

8.如权利要求7所述的活动检测装置，其特征在于，

上述活动检测部基于上述马尔可夫模型中的上述第1目标状态和上述第2目标状态的因果关系，导出与上述图像序列中没有表示的事件对应的目标状态。

9.如权利要求8所述的活动检测装置，其特征在于，

上述活动检测部输出作为印证检测结果的理由的、在与上述第1目标有关的上述活动的判定中使用的上述第1目标状态与上述第2目标状态的关系，作为上述说明通知。

10.一种活动检测***，客户端终端与活动检测装置经由通信网络连接而成，其特征在于，

上述活动检测装置包括：

输入部，从上述客户端终端输入至少包括第1图像及第2图像的图像序列；

目标检测部，在上述图像序列中检测第1目标；

活动检测部，基于上述第1特性信息，生成与上述第1图像中的上述第1目标对应的第1目标状态以及与上述第2图像中的上述第1目标对应的第2目标状态，并基于上述第1目标状态和上述第2目标状态，判定与上述第1目标有关的活动，输出表示所判定的上述活动的活动检测结果。

11.如权利要求10所述的活动检测***，其特征在于，

上述目标检测部在上述图像序列中检测第2目标；

上述活动检测部基于上述第2特性信息，生成与上述第1图像中的上述第2目标对应的第3目标状态，并基于上述第1目标状态、上述第2目标状态及上述第3目标状态，判定与上述第1目标有关的活动检测结果。

12.一种活动检测方法，其特征在于，包括：

输入至少包括第1图像及第2图像的图像序列的步骤；

在上述图像序列中检测第1目标的步骤；

使用至少1个能够单独训练的组件模型生成对上述第1目标赋予特征的第1特性信息的步骤；以及

基于上述第1特性信息，生成与上述第1图像中的上述第1目标对应的第1目标状态以及与上述第2图像中的上述第1目标对应的第2目标状态，并基于上述第1目标状态和上述第2目标状态，判定与上述第1目标有关的活动，输出表示所判定的上述活动的活动检测结果的步骤。

13.如权利要求12所述的活动检测方法，其特征在于，

还包括：

在上述图像序列中检测第2目标的步骤；

生成对上述第2目标赋予特征的第2特性信息的步骤；以及

基于上述第2特性信息，生成与上述第1图像中的上述第2目标对应的第3目标状态，并基于上述第1目标状态、上述第2目标状态及上述第3目标状态，判定与上述第1目标有关的活动，输出表示所判定的上述活动的第2活动检测结果的步骤。

14.如权利要求12所述的活动检测方法，其特征在于，

使用至少1个能够单独训练的组件模型生成对上述第1目标赋予特征的第1特性信息的步骤还包括：生成与上述第1特性信息的生成过程有关的信息作为说明通知的步骤。