JP2019020820A

JP2019020820A - 映像認識システム

Info

Publication number: JP2019020820A
Application number: JP2017136239A
Authority: JP
Inventors: 森田　健一; Kenichi Morita; 健一森田; 英克高田; Hidekatsu Takada; 裕樹渡邉; Hiroki Watanabe; マルティンクリンキグト; Klinkigt Martin; 眞之藤田; Masayuki Fujita; 栄二岡村; Eiji Okamura
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-07-12
Filing date: 2017-07-12
Publication date: 2019-02-07
Anticipated expiration: 2037-07-12
Also published as: JP6909657B2

Abstract

【課題】映像認識システムにおいて、未定義の監視対象の外見や動作を識別する。【解決手段】映像分類部１４１は、映像データベース１５０に蓄積された特徴量を用いて撮影した映像を、映像識別器で識別可能な定義済み映像で構成される定義済み映像グループと、映像識別器では識別不可能な未定義映像で構成される未定義映像グループとに分類する。映像識別部１３１は、未定義映像グループが存在する場合、撮影した映像が未定義映像グループに属するかを判定する。表示部１０４は撮影した映像が未定義映像であることを表示する。【選択図】図１

Description

本発明は、映像認識システムに関する。

一般的に、監視向けの映像認識システムは、監視対象の外見や動作が定義済みの場合に、監視映像に写る物体が監視対象であることを識別可能である。

このような映像認識システムは、例えば、特許文献１に記載されている。特許文献１では、カメラにより撮像されて入力される映像が予め定められたカテゴリに含まれるものであるか否かを判別する。この際、予めカテゴリに属する映像サンプルを複数のクラスに分割し、その分割結果に基づいて学習した識別器それぞれの識別結果を統合する。この統合結果に基づき、入力された映像が予め定められたカテゴリに含まれるものであるか否かを判別する。

特開２００８−２５０９０８号公報

特許文献１では、監視対象の外見や動作が定義済みの場合に、監視映像に写る物体が監視対象であることを識別可能である。しかし、特許文献１には、未定義の監視対象の外見や動作を識別することについては言及されていない。

本発明の目的は、映像認識システムにおいて、未定義の監視対象の外見や動作を識別することにある。

本発明の一態様の映像認識システムは、映像撮像装置が撮影した映像の内容を予め定められた第１の映像識別器を用いて識別する映像識別部と、前記撮影した映像から特徴量を抽出する特徴量抽出部と、前記映像識別部によって識別された識別結果と、前記特徴量抽出部により抽出された前記特徴量とを蓄積する映像データベースと、前記映像データベースに蓄積された前記特徴量に基づいて前記映像を分類する映像分類部と、情報を表示する表示部と、を有し、前記映像分類部は、前記映像データベースに蓄積された前記特徴量を用いて、前記撮影した映像を、前記第１の映像識別器で識別可能な定義済み映像で構成される定義済み映像グループと、前記第１の映像識別器では識別不可能な未定義映像で構成される未定義映像グループとに分類し、前記映像識別部は、前記未定義映像グループが存在する場合、前記撮影した映像が前記未定義映像グループに属するかを判定し、前記表示部は、前記撮影した映像が前記未定義映像グループに属すると判定された場合、前記撮影した映像が前記未定義映像であることを表示することを特徴とする。

本発明の一態様によれば、映像認識システムにおいて、未定義の監視対象の外見や動作を識別することができる。

実施例の映像認識システムの全体構成図である。実施例の映像認識システムのハードウェア構成図である。映像データベースの構成及びデータ例の説明図である。ニューラルネットワークの説明図である。ニューラルネットワークの説明図である。映像分類結果の説明図である。映像分類結果の説明図である。映像分類結果の説明図である。映像認識処理のシーケンス図である。設定画面の一例を示す図である。表示画面の一例を示す図である。

以下、図面を参照して実施例について説明する。

図１を参照して、実施例の映像認識システム１００の全体構成について説明する。
実施例の映像認識システム１００は、映像撮影装置１０１、映像記憶装置１０２、入力装置１０３、表示装置１０４及びサーバ計算機１１０を有する。

映像撮影装置１０１は、映像を撮影して映像データを作成し、それを出力する装置である。映像記憶装置１０２は、映像データを保存し要求に応じて出力する記憶媒体である。映像記憶装置１０２は、コンピュータ内蔵のハードディスクドライブ、または、ＮＡＳ（ＮｅｔｗｏｒｋＡｔｔａｃｈｅｄＳｔｏｒａｇｅ）もしくはＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）などのネットワークで接続されたストレージシステムを用いて構成することができる。

映像撮影装置１０１又は映像記憶装置１０２から出力された映像は、いずれもサーバ計算機１１０の映像入力部１１１に入力される。映像認識システム１００は、図１に示すように映像撮影装置１０１及び映像記憶装置１０２の両方を備えてもよいが、いずれか一方のみを備えてもよい。

映像認識システム１００が映像撮影装置１０１及び映像記憶装置１０２の両方を備える場合、映像入力部１１０への映像データの入力元が必要に応じて映像撮影装置１０１又は映像記憶装置１０２に切り替えられてもよい。あるいは、映像撮影装置１０１から出力された映像データが一旦映像記憶装置１０２に記憶され、そこから映像入力部１１０に入力されてもよい。その場合、映像記憶装置１０２は、例えば、映像撮影装置１０１から継続的に入力される映像データを一時的に保持するキャッシュメモリであってもよい。

なお、映像記憶装置１０２に保存される映像データ及び映像撮影装置１０１によって作成される映像データは、撮影された物体の認識に利用できるものである限り、どのような形式のデータであってもよい。例えば、映像撮影装置１０１がビデオカメラであり、それによって撮影された動画像データが映像データとして出力されてもよいし、そのような映像データが映像記憶装置１０２に記憶されてもよい。

あるいは、映像撮影装置１０１がスチルカメラであり、それによって所定の間隔（少なくとも撮影された物体を追跡できる程度の間隔）で撮影された一連の静止画像データが映像データとして出力されてもよい。あるいは、そのような映像データが映像記憶装置１０２に記憶されてもよい。また、映像撮影装置１０１は、複数台のビデオカメラ、あるいは、スチルカメラであってもよいし、その両方で構成されてもよい。

入力装置１０３は、マウス、キーボード、タッチデバイスなど、ユーザの操作をサーバ計算機１１０に伝えるための入力インタフェースである。表示装置１０４は、液晶ディスプレイなどの出力インタフェースであり、サーバ計算機１１０の映像認識結果の表示や、ユーザとの対話的操作などのために用いられる。例えば、タッチパネル等を用いることによって入力装置１０３と表示装置１０４は一体化されてもよい。

サーバ計算機１１０は、入力された映像データが予め定義済みの監視対象の外見や動作を含む映像であるか否かを識別する映像識別装置として機能する。また、サーバ計算機１１０は、映像データを機械学習特徴量を用いて分類することが可能な映像分類装置として機能する。さらに、サーバ計算機１１０は、予め定義されていない監視対象の外見や動作を識別するための映像識別器を半自動的に生成可能な新規映像識別器生成装置として機能する。

サーバ計算機１１０が扱う映像は、一箇所以上の場所で撮影された定点観測の映像であってもよい。あるいは、アクションカメラ、ドローン搭載のカメラ、ウェアラブルカメラなどのような移動型のカメラによって撮影された映像であってもよい。また、検索対象の物体は、人物または車両などの任意の物体である。なお、実施例の映像認識システム１００は、例えば、映像認識対象を人物の外見や行動とする。

サーバ計算機１１０は、映像入力部１１１、機械学習パラメータ保持部１２１、機械学習特徴量抽出部１２２、機械学習特徴量登録部１２３、映像識別部１３１、識別結果登録部１３２、識別結果統合部１３３、映像分類部１４１、及び分類条件制御部１４２を備える。

映像入力部１１１は、映像撮影装置１０１によって撮影された映像データを受け取るか、または、映像記憶装置１０２から映像データを読み出し、それをサーバ計算機１１０内部で使用するデータ形式に変換する。具体的には、映像入力部１１１は、映像（動画データ形式）をフレーム（静止画データ形式）に分解する動画デコード処理を行う。得られたフレームは、機械学習特徴量抽出部１２２及び映像識別部１３１に送られる。

機械学習特徴量抽出部１２２は、機械学習パラメータ保持部１２１に保持された機械学習パラメータを使用して映像データの特徴量を抽出する。以降、この機械学習パラメータ１２１を用いて算出した全ての特徴量を機械学習特徴量と言う。機械学習特徴量の抽出は、公知の方法を含む任意の方法によって行うことができる。

機械学習パラメータ保持部１２１が保持している機械学習パラメータが深層学習技術を前提とするネットワークモデルである場合、機械学習特徴量抽出部１２２は、そのネットワークモデルに従い映像入力部１１１より受け付けた映像の機械学習特徴量を算出する。深層学習技術を前提とするネットワークモデルには、例えば、静止画中の物体認識に適したｆａｓｔｅｒＲ−ＣＮＮや映像中の人物行動認識に適した３ｄｉｍｅｎｓｉｏｎ−ＣＮＮなどがある。

特徴量抽出の詳細については、図４を用いて後述する。機械学習特徴量抽出部１２２により算出された機械学習特徴量は、機械学習特徴量登録部１２３に送られる。機械学習特徴量登録部１２３は、機械学習特徴量を映像データベース１５０に登録する。

映像識別部１３１は、映像入力部１３１より受け付けた映像データが、予め定義された人物の外見または動作を含むか否かを判別する。予め定義される人物の外見または動作の種類は、単数であっても良いし複数であってもよい。映像識別部１３１によって算出された識別結果は、識別結果登録部１３２及び識別結果統合部１３３に送られる。

識別結果登録部１３２は、識別結果を映像データベース１５０に登録する。
識別結果統合部１３３は、映像データと識別結果を統合する。例えば、映像データに予め定義された人物の外見または動作が含まれる場合、映像データに予め定義された人物の外見または動作が含まれることを明示する情報を付与する。表示装置１０４は、識別結果統合部１３３により作成された映像データを表示する。

映像分類部１４１は、映像データベース１５０に登録された映像データと、映像データの各フレームに対応する機械学習特徴量と識別結果を受け付けるとともに、分類条件制御部１４２より映像分類条件を受け付け、映像データの分類を実施する。映像データの分類方法については、図５を用いて後述する。映像分類結果は映像識別部１３１に送られる。映像データベース１５０に登録するデータの詳細については図３を用いて後述する。

図２を参照して、実施例の映像認識システム１００のハードウェア構成について説明する。
サーバ計算機１１０は、例えば、相互に接続されたプロセッサ２０１および記憶装置２０２を有する一般的な計算機である。記憶装置２０２は任意の種類の記憶媒体によって構成される。例えば、記憶装置２０２は、半導体メモリ及びハードディスクドライブを含んでもよい。

この例において、図１に示した映像入力部１１１、機械学習特徴量抽出部１２２、機械学習特徴量登録部１２３、映像識別部１３１、識別結果登録部１３２、識別結果統合部１３３、映像分類部１４１及び分類条件制御部１４２といった機能部は、プロセッサ２０１が記憶装置２０２に格納された処理プログラム２０３を実行することによって実現される。言い換えると、この例において、上記の各機能部が実行する処理は、実際には、処理プログラム２０３に記述された命令に従うプロセッサ２０１によって実行される。また、映像データベース１５０及び機械学習パラメータ保持部１２１は、記憶装置２０２に含まれる。

サーバ計算機１１０は、さらに、プロセッサに接続されたネットワークインターフェース装置（ＮＩＦ）２０４を含む。映像撮影装置１０１は、例えば、ネットワークインターフェース装置２０４を介してサーバ計算機１１０に接続される。映像記憶装置１０２は、ネットワークインターフェース装置２０４を介してサーバ計算機１１０に接続されたＮＡＳまたはＳＡＮであってもよいし、記憶装置２０２に含まれてもよい。

図３を参照して、映像データベース１５０の構成及びデータ例について説明する。
ここではテーブル形式の構成例を示すが、データ形式は任意でよい。
映像データベース１５０は、図３に示す映像データ管理情報３００を含む。図３のテーブル構成及び各テーブルのフィールド構成は、実施例に必要な構成であり、アプリケーションに応じてテーブル及びフィールドを追加してもよい。

映像データ管理情報３００は、映像ＩＤフィールド３０１、カメラＩＤフィールド３０２、撮影時刻フィールド３０３、映像データフィールド３０４、識別器＃１フィールド３０５、識別器＃２フィールド３０６、識別器＃３フィールド、機械学習特徴量フィールド３１１、識別器＃Ｎ２フィールド３１２及び識別器＃Ｎ２フィールド３１３を有する。

映像ＩＤフィールド３０１は、各映像データの識別情報（以下、映像ＩＤという）を保持する。カメラＩＤフィールド３０２は、カメラＩＤを保持する。カメラＩＤは、映像撮影装置１０１であるカメラを特定するために必要となる値である。映像データが映像記憶装置１０２から映像入力部１１１に入力される場合は、入力される映像データが格納するカメラＩＤを保持する。必要に応じて、映像データ管理情報３００は、ファイル名フィールドを有し、ファイル名フィールドは、映像記憶装置１０２から映像入力部１１１に入力される映像データのファイル名を保持しても良い。

撮影時刻フィールド３０３は、映像入力部１１１に入力される映像データが撮影された時刻を保持する。映像データフィールド３０４は、映像入力部１１１に入力される映像データを保有する。映像データフィールド３０４は、連続するフレーム画像や動画ファイルなどのいかなる映像ファイルフォーマットのデータを保持してもよい。実施例においては、映像データフィールド３０４は、予め設定されたフレーム数の連続するフレーム画像（いわゆるモーションＪＰＥＧ）のバイナリデータを保持するものとする。

識別器＃１フィールド３０５、識別器＃２フィールド３０６及び識別器＃３フィールド３０７は、映像識別部１３１が映像入力部１１１より受け付けた映像データを識別した結果を保持する。映像識別部１３１による映像識別の詳細については、図５を用いて後述する。

図３においては、映像識別部１３１が３種類の識別器（識別器＃１、識別器＃２及び識別器＃３）を有するものとする。そして、映像データ管理情報３００は、それぞれの識別器（識別器＃１、識別器＃２及び識別器＃３）による識別結果を、識別器＃１フィールド３０５、識別器＃２フィールド３０６及び識別器＃３フィールド３０７に保持する場合について記載している。しかし、映像識別部１３１は任意の個数の映像識別器を備えても良く、映像データ管理情報３００は映像識別器の個数に対応する識別器フィールドを備えても良い。

機械学習特徴量フィールド３１１は、機械学習特徴量抽出部１２２が映像入力部１１１より受け付けた映像データから抽出した特徴量を保持する。識別器＃Ｎ１フィールド３１２及び識別器＃Ｎ２フィールド３１３は、映像識別部１３１が映像入力部１１１より受け付けた映像データを、映像分類部１４１によって生成される識別器によって識別した結果を保持する。

映像分類部１４１は、２種類の識別器（識別器＃Ｎ１及び識別器＃Ｎ２）を生成する。そして、映像データ管理情報３００が、それぞれの識別器（識別器＃Ｎ１及び識別器＃Ｎ２）による識別結果を、識別器＃Ｎ１フィールド３１２、識別器＃Ｎ２フィールド３１３に保持する。しかし、映像データ管理情報３００は、映像分類部１４１が生成する識別器の個数に合わせて、追加の識別器フィールドを備えても良い。

図４Ａ、図４Ｂを参照して、機械学習特徴量抽出部１２２が機械学習特徴量を抽出する際に使用する深層学習型のニューラルネットワークの一例について説明する。
図４Ａのニューラルネットワークは、一般に知られているニューラルネットワークに準ずるものであり、入力層、最終層および１層以上の中間層で構成される。各層内の丸記号はノードを、ノード間の線はネットワーク接続をそれぞれ示している。

各ノードは、１層前のノードのうちネットワーク接続されているノードの数値と該当するネットワーク接続部の重みの積を用いた四則演算によって算出されるものとする。各ノード間の演算時に使用される重みは機械学習パラメータ保持部１２１が保持する重みパラメータを使用するものとする。

入力層は、映像入力部１１１により映像から抽出された１枚または複数のフレーム画像の全体あるいは部分領域の画素値の多次元配列データで構成される。中間層の各層と最終層は、例えば、２次元畳み込み層、３次元畳み込み層、プーリング層、完全結合層などのように、ニューラルネットワークの構成要素として一般に知られているものであれば、どのような構成でもよい。最終層は全ての層における演算を実施した結果となる。

また、ネットワーク構造は、図４Ａに示したような演繹型のニューラルネットワーク構造以外に、再帰型ニューラルネットワーク（ＲＮＮ）や長短期記憶（ＬＳＴＭ）といった再帰型のニューラルネットワーク構造であってもよい。機械学習特徴量抽出部１２２は、図４Ａのようなネットワーク構造の中間層と最終層のうち１層または数層の数値データを連結した多次元配列データを特徴量として出力する。

なお、重みパラメータについては、映像分類システム１００の映像撮影装置１０１で撮影された映像以外の映像の学習により獲得したものであっても良い。具体的には、機械学習パラメータ保持部１２１は、人物の動作の識別に適した３Ｄ−ＣＮＮのようなニューラルネットワークモデルと、ウェブ上に公開されている様々な映像を用いて学習済みのニューラルネットワークモデルの重みパラメータを保持しても良い。機械学習特徴量抽出部１２２は、像認識システム１００が監視カメラの映像を扱う場合であっても良いし、監視カメラ以外の撮影装置によって学習済みのニューラルネットワークを用いて特徴量抽出を行っても良い。

次に、図４Ｂを参照して、映像分類部１４１の処理の概要について説明する。
機械学習特徴量抽出部１２２が、図４Ａのようなニューラルネットワーク構造を有し、かつ、その最終層が定義済みの映像を識別する機能を有する場合（つまり、最終層が図３における識別器＃１〜＃３として機能する場合）、映像分類部１４１は、ニューラルネットワークの中間層の計算値のクラスタリングにより映像を分類する。

さらに、得られた各映像分類グループについて、分類グループに含まれる映像がニューラルネットワークの最終層によって識別不可能な映像で構成されるかを算出する。そして、任意の閾値以上の映像がニューラルネットワークの最終層によって実現される識別器によって識別不可能な映像で構成される映像分類グループは、未定義の人物行動を収めた映像分類グループであることを見出す。その結果、映像分類部１４１は、図４Ｂのように、図３の識別器＃Ｎ１、識別器＃Ｎ２を自動的に生成する。

図５Ａ〜図５Ｃを参照して、映像分類部１４１が映像データベース１５０に登録済みの映像を分類した結果と、映像識別部１３１による映像識別結果の関係について説明する。
映像分類部１４１は、映像データベース１５０に登録済みの機械学習特徴量３１１をクラスタリングすることにより映像分類を行うが、クラスタリングに際し、図５Ａ〜図５Ｃに示すような映像分類結果と映像識別結果の関係を元に、クラスタリング条件を調整する。

はじめに、図５Ａについて説明する。
表の列は、映像分類部１４１によって分類された分類結果に対応し、図５Ａの場合、６種類に映像グループに分類されていることがわかる。表の行は、映像識別部１３１の有する識別器で正事例として識別した映像であることを示す。表の数値は、映像分類部１４１によって分類された映像グループ別の映像識別結果の割合である。例えば、表の左端の映像グループの数値列をみると、映像識別部１３１が保持する識別器＃１に該当するデータが８０％、識別器＃２に該当するデータが１０％、識別器＃３に該当するデータが３％、識別器＃４に該当するデータが５％、何れの識別器でも正事例とならなかったデータが２％の内訳になっていることが読み取れる。

このように、映像分類部１４１における映像分類においては、映像識別部１３１では正事例とならない映像が予め設定した割合以上となる映像分類を１つ以上生じるように分類数（クラスタ数）を調整する最適化が行われても良い。

図５Ａのように、映像分類部１４１による映像の分類が行われ、未定義の映像グループである＃Ｎ１、＃Ｎ２が発見された場合、映像識別部１３１は、従来の映像識別＃１〜＃４に加えて、＃Ｎ１、＃Ｎ２に該当するかの判定も可能となる。つまり、映像識別部は図５Ｂのように更新される。

次に、図５Ｃについて説明する。図５Ｃは、映像識別部１３１では、任意の一つの識別器（図５Ｃでは識別器＃１）の正事例と判定される映像が分割されるような映像分類となる場合の例である。このように、映像分類部１４１における映像分類においては、映像識別部１３１では任意の一つの識別器の正事例となる映像が、複数のグループに分解されるように分類数（クラスタ数）を調整する最適化が行われても良い。

図６を参照して、実施例１の映像認識処理について説明する。
最初に、映像入力部１１１が、映像撮影装置１０１または映像記憶装置１０２から入力された映像データをデコードし、連続するフレーム画像を抽出する（ステップＳ６０１）。尚、映像データが複数種類入力される場合、それぞれの映像データのフレームレートは異なっても良い。

次に、機械学習特徴量抽出部１２２は、映像入力部１１１より受け付けた連続するフレーム画像から機械学習特徴量を抽出する（ステップＳ６０２）。抽出された機械学習特徴量は、機械学習特徴量登録部１２３により、映像データベース１５０に登録される。

次に、映像識別部１３１は、ステップＳ６０２で機械学習特徴量抽出部１２２が受け付けた連続するフレーム画像を受け付け、映像識別を実施する（ステップＳ６０３）。抽出された識別結果は、識別結果登録部１３２により、映像データベース１５０に登録される。さらに、識別結果は、識別結果統合部１３３により映像データと統合され、表示装置１０４に出力される。

ステップＳ６０１〜Ｓ６０３の処理により、サーバ計算機１１０は、定義済みの映像内容を識別する映像識別装置として機能する。

映像分類部１４１は、予め設定されたタイミングで映像データベースを参照し、機械学習特徴量に基づく映像分類を実施し、分類結果と映像識別部１３１による識別結果との比較により、未定義の人物行動を収めた映像が存在するか否かを判定する（ステップＳ６０４）。
次に、映像分類部１４１は、各映像が複数の分類グループのいずれに属するかを映像データベース１５０に登録する（ステップＳ６０５）。

また、分類グループに映像識別部１３１が有する識別器では識別出来ない映像データで構成される分類グループが存在する場合、映像分類部１４１は、映像識別部１３１に、分類グループに映像識別部１３１が有する識別器では識別出来ない映像データで構成される分類グループ（以降、未定義映像グループという）が存在することを通知する（ステップＳ６０６）。

次に、ステップＳ６０６における映像分類部１４１から映像識別部１３１への通知が実施された場合以降に、サーバ計算機１１０が実施する映像認識処理について説明する。

はじめに、映像入力部１１１が映像撮影装置１０１または映像記憶装置１０２から入力された映像データをデコードし、連続するフレーム画像を抽出する（ステップＳ６１１）。

次に、機械学習特徴量抽出部１２２は、映像入力部１１１より受け付けた連続するフレーム画像から機械学習特徴量を抽出する（ステップＳ６１２）。抽出された機械学習特徴量は、機械学習特徴量登録部１２３により、映像データベース１５０に登録される。

次に、映像識別部１３１は、ステップＳ６１２で機械学習特徴量抽出部１２２が受け付けた連続するフレーム画像と機械学習特徴量抽出部１２２が抽出した機械学習特徴量を受け付け、映像識別を実施する（ステップＳ６１３）。

ここで、映像識別部１３１は、ステップＳ６０３と同様に、予め保持する映像識別器による映像識別を実施するとともに、機械学習特量抽出部１２２より受け付けた機械学習特徴量を、映像データベース１５０に登録済みの機械学習特徴量と比較し、ステップＳ６０５において映像分類部１４１が生成した分類グループのいずれに属するかを識別する。

ステップＳ６１３における識別結果は、識別結果登録部１３２により、映像データベース１５０に登録される。さらに、識別結果は、識別結果統合部１３３により映像データと統合され、表示装置１０４に出力される（ステップＳ６１４）。この際、映像データが未定義映像グループに該当する場合は、映像監視において注視すべき映像データであることを示すテキストメッセージや記号データを映像データと統合して表示装置１０４に出力してもよい。

最後に、ユーザが未定義映像グループについて意味付けする処理（アノテーション）について説明する。

はじめに、映像分類部１４１は、入力装置１０４を用いてユーザが入力した映像分類結果の表示要求を受け付けると、映像データベースに登録されている映像分類結果を読み出して表示装置１０３に出力する（ステップＳ６２１）。次に、ユーザは表示装置１０３により映像分類結果を確認し、未定義映像グループの内容を説明するテキストを入力装置１０４により入力することでアノテーションを実施する（ステップＳ６２２）。この際、ユーザは、未定義映像グループを監視対象とするか否かの設定を行っても良い。

図７を参照して、サーバ計算機１０７が入力された映像を解析する処理の条件を設定するための設定画面について説明する。ユーザは、設定画面から映像分類条件を入力する。
図７に示すように、映像分類条件の設定画面は、映像分類手法選択部７０１、映像分類数指定部７０２、映像分類モード選択部７０３、映像分類結果表示部７０４、映像分類別映像データ再生部７０５、映像分類番号指定部７０６、再生制御部７０７、映像説明テキスト入力部７０８及び監視アラート設定部７０９を有する。
図７は一例であり、図７に示す設定画面と同様の設定が行えるものであれば、異なるデザインの設定画面であっても良い。

ユーザは、映像分類手法選択部７０１により映像分類部１４１が実施する映像分類において使用するクラスタリング手法を選択することが出来る。選択可能なクラスタリング手法は、一般に知られているクラスタリング手法を含みいかなる手法を含んでも良い。ユーザは、映像分類数指定部７０２に数値を入力することで、映像分類数を決定することが出来る。映像分類モード選択部７０３により、ユーザは、映像分類数の最適化方法を指定することが出来る。

例えば、映像分類数が映像分類数指定部７０２の値となるように指定するか、図５Ａのように未定義の映像分類が生じるように映像分類数を最適化するか、図５Ｂのように定義済みの任意の識別結果が分割されるように映像分類数を最適化するかを選択することが出来る。

映像分類手法選択部７０１、映像分類数指定部７０２、映像分類モード選択部７０３のいずれかが変更されると、映像分類が実施され、映像分類結果が映像分類結果表示部７０４に表示される。

映像分類結果表示部７０４の表示内容は、図５Ａ〜図５Ｃに示すような表であってもよいし、階層型クラスタリング手法によって分類される場合には、クラスタリング結果の木構造であっても良い。

さらに、ユーザは分類番号指定部７０６を用いて詳細を確認したい映像分類番号を指定し、再生制御部７０７により再生を開始させることにより、映像データ再生部７０５に表示される映像データを確認することが可能である。ユーザは、分類番号指定部７０６で指定した映像データについて映像説明テキスト入力部７０８を用いてアノテーションすることや、監視アラート設定部７０９により同様の映像を識別した際に画面上に警告を表示するか否かを設定することが可能である。

図８を参照して、サーバ計算機１０７が入力された映像を解析した処理の結果を表示するためのモニタ画面に一例について説明する。
図８に示すように、表示装置１０４であるディスプレイ上に６種類の映像を同時に表示する。映像表示エリア８０１〜８０６にはそれぞれ異なる映像が表示される。それぞれの表示内容は、映像識別部１３１が映像識別を実施し、識別結果統合部１３３が識別結果と映像を統合したものである。

ステップＳ６０１〜Ｓ６０３により、映像識別部１３１の有する予め定義済みの識別器によって映像データが監視対象の外見または動作を含むことが識別された場合、図８の表示エリア８０１のメッセージ８０７、表示エリア８０２のメッセージ８０８、表示エリア８０３のメッセージ８０９のような識別結果の意味情報が統合された映像データが表示される。

これらは、図３及び図５Ａ〜図５Ｃで示した識別器＃１〜３が、倒れている人物が存在するか否か、視線の先が正常な人とは異なる人物が存在するか否か（表示エリア８０２では監視カメラ位置を確認している例）、長時間一定箇所に留まっている人物が存在するか否かについて識別出来る識別器であり、それぞれの映像が識別器＃１〜３に該当すると判定された場合の結果である。

いずれの識別器によっても該当すると判定がされない正常な映像については、表示エリア８０６のようにメッセージは表示されず、単に映像のみが再生されてもよい。あるいは、正常であることを示すメッセージが表示されても良い。なお、表示エリア８０６の映像は人物が単に歩いて通り過ぎていく場合の例である。

一方、ステップＳ６０４〜Ｓ６０６の実施を前提とし、ステップＳ６１１〜Ｓ６１４により、映像分類部１４１が見出した物体の外見または動作を含むことが識別された場合、図８の表示エリア８０４のメッセージ８１０、表示エリア８０５のメッセージ８１１のような新たに監視対象とするべき可能性のある映像であることを示す意味情報が統合された映像データが表示される。表示エリア８０４は、人物がふらふらと歩いている映像の例であり、表示エリア８０５は、人物が大きな荷物を放置して去っていく映像の例である。

これらは、図３及び図５Ａ〜図５Ｃで示した識別器＃Ｎ１、＃Ｎ２が、ふらふら歩いている人物が存在するか否か、大きな荷物を置いて去っていく人物が存在するか否かについて識別出来る識別器である。しかし、未だステップＳ６２２によるアノテーションは実施されておらず、ステップＳ６１１〜Ｓ６１４により見出された監視対象候補の映像に該当すると判定された場合の結果である。

さらに、ステップＳ６２１〜ステップＳ６２２のように、映像分類部１４１が見出した物体の外見または動作であって、かつ、ユーザによる意味付けが行われた映像に該当すると識別された場合、メッセージ８１０、メッセージ８１１は、ふらふらしている人がいる、大きな荷物を置いて去っていく人がいる、などの表示に更新される。

以上述べてきたように、実施例では、映像分類部１４１は、映像データベース１５０に蓄積された機械学習特徴量を用いて撮影した映像を、映像識別器＃１〜＃４（第１の映像識別器）で識別可能な定義済み映像で構成される定義済み映像グループと、第１の映像識別器＃１〜＃４では識別不可能な未定義映像で構成される未定義映像グループとに分類する。

映像識別部１３１は、未定義映像グループが存在する場合、撮影した映像が未定義映像グループに属するかを判定する。表示装置１０４は、撮影した映像が未定義映像グループに属すると判定された場合、撮影した映像が未定義映像であることを表示する。

機械学習特徴量抽出部１２２は、未定義映像グループに含まれる第１の映像識別器＃１〜＃４では識別不可能な未定義映像から機械学習特徴量を抽出する。映像分類部１４１は、この機械学習特徴量に基づいて、第１の映像識別器＃１〜＃４では識別不可能な未定義映像を識別するための映像識別器＃Ｎ１、＃Ｎ２（第２の映像識別器）を新たに生成する。

このようにして、実施例では、映像認識システムにおいて、未定義の監視対象の外見や動作を識別することができる。

１００映像分類システム
１０１映像撮影装置
１０２映像記憶装置
１０３入力装置
１０４表示装置
１１０サーバ計算機
１１１映像入力部
１２１機械学習パラメータ保持部
１２２機械学習特徴量抽出部
１２３機械学習特徴量登録部
１３１映像識別部
１３２識別結果登録部
１３３識別結果統合部
１４１映像分類部
１４２分類条件制御部
１５０映像データベース

Claims

映像撮像装置が撮影した映像の内容を予め定められた第１の映像識別器を用いて識別する映像識別部と、
前記撮影した映像から特徴量を抽出する特徴量抽出部と、
前記映像識別部によって識別された識別結果と、前記特徴量抽出部により抽出された前記特徴量とを蓄積する映像データベースと、
前記映像データベースに蓄積された前記特徴量に基づいて前記映像を分類する映像分類部と、
情報を表示する表示部と、を有し、
前記映像分類部は、
前記映像データベースに蓄積された前記特徴量を用いて、前記撮影した映像を、前記第１の映像識別器で識別可能な定義済み映像で構成される定義済み映像グループと、前記第１の映像識別器では識別不可能な未定義映像で構成される未定義映像グループとに分類し、
前記映像識別部は、
前記未定義映像グループが存在する場合、前記撮影した映像が前記未定義映像グループに属するかを判定し、
前記表示部は、
前記撮影した映像が前記未定義映像グループに属すると判定された場合、前記撮影した映像が前記未定義映像であることを表示することを特徴とする映像認識システム。
前記特徴量抽出部は、
前記第１の映像識別器では識別不可能な前記未定義映像から前記特徴量を抽出し、
前記映像分類部は、
前記特徴量に基づいて、前記第１の映像識別器では識別不可能な前記未定義映像を識別するための第２の映像識別器を新たに生成することを特徴とする請求項１に記載の映像認識システム。
前記映像分類部は、
予め定められたタイミングで前記映像データベースを参照し、前記映像データベースに蓄積された前記特徴量に基づいて前記撮影した映像を分類することを特徴とする請求項１に記載の映像認識システム。
前記映像識別部は、
前記撮影した映像が前記定義済み映像グループに属すると判定した場合、
前記第１の映像識別器によって識別された識別結果の意味情報を前記定義済み映像と統合して前記表示部に出力することを特徴とする請求項１に記載の映像認識システム。
前記映像識別部は、
前記撮影した映像が前記未定義映像グループに属すると判定した場合、
前記第２の映像識別器によって識別された識別結果の意味情報を前記未定義済み映像と統合して前記表示部に出力することを特徴とする請求項１に記載の映像認識システム。
前記第２の映像識別器によって識別された識別結果の前記意味情報は、前記未定義映像が監視すべき映像であることを示すメッセージを含むことを特徴とする請求項５に記載の映像認識システム。
情報を入力する入力部を更に有し、
前記入力部は、前記未定義映像が前記監視すべき映像であることを示す前記メッセージの入力を受け付けることを特徴とする請求項６に記載の映像認識システム。
前記特徴量抽出部は、機械学習を行う機械学習特徴量抽出部を構成し、
前記機械学習特徴量抽出部が演算に用いるネットワークモデルと前記ネットワークモデルの各ノードにおける重み情報を格納する学習済みパラメータを保持する機械学習パラメータ保持部を更に有し、
前記機械学習特徴量抽出部は、
前記学習済みパラメータを用いて前記ネットワークモデルに従い、中間層又は最終層による計算結果からなる多次元数値配列を前記特徴量として出力することを特徴とする請求項１に記載の映像認識システム。