JP7448721B2

JP7448721B2 - 撮像装置及び映像処理システム

Info

Publication number: JP7448721B2
Application number: JP2023504880A
Authority: JP
Inventors: 嵩臣神田
Original assignee: Hitachi Kokusai Electric Inc
Current assignee: Hitachi Kokusai Electric Inc
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2024-03-12
Anticipated expiration: 2041-03-08
Also published as: WO2022190157A1; JPWO2022190157A1

Description

本発明は、撮像装置及び映像処理システムに関し、特に、機械学習で推論処理可能でプライバシー保護のための映像加工処理機能を有する撮像装置及び映像処理システムに関する。

近年、監視カメラなどで多数の人物を撮影するカメラの需要が増えている。これらのカメラはＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）に接続され、遠隔から映像監視ができるというメリットがある。一方で、セキュリティを突破された場合は、撮影された情報が流出する等して、プライバシー保護の観点で問題となることもある。

そこで、特許文献１では撮影画像に対して、可逆型のモザイク処理やマスク処理などの加工処理を行うことによって、プライバシー保護を行う手法が開示されている。加工処理された画像は、対応する復元処理を行うことによって、元画像を復元することができる。

特開２００９－３３７３８号公報

特許文献１では、仮に復元処理を行うための復元情報も含めて外部に流失した場合、悪意のある第三者が復元処理を行い元の画像を入手することが可能となる。これを防ぐためには非可逆の画像をＬＡＮ上に配信する必要があるが、その場合は、元画像を復元することができない。このため、画像認識技術などによる顔認識や行動認識を行うことができなくなる。

本発明は、上記課題に鑑みて、画像情報のより高い保護を行いながら画像に関する所定の情報を伝えることができる撮像装置及び映像処理システムを提供することを目的とする。

上記目的を達成するため、代表的な本発明の撮像装置の一つは、映像を撮影して画像を取得し、前記画像内から所定の領域を検出し、検出した検出領域をリサイズして検出領域の特徴量を抽出し、前記抽出した特徴量を二次元に配列したマスク画像として前記取得した画像の検出領域に配置した画像を出力することを特徴とする。

さらに本発明の映像処理システムの一つは、撮像装置と、映像処理装置とを備え、前記撮像装置は、映像を撮影して画像を取得し、前記画像内から所定の領域を検出し、検出した検出領域をリサイズして検出領域の特徴量を抽出し、前記抽出した特徴量を二次元に配列したマスク画像として前記取得した画像の検出領域に配置した画像を出力し、前記映像処理装置は、前記撮像装置が出力した画像を入力して、前記マスク画像から特徴量を取得し、この特徴量に基づく推論処理を行うことを特徴とする。

本発明によれば、撮像装置及び映像処理システムにおいて、画像情報のより高い保護を行いながら画像に関する所定の情報を伝えることができる。
上記以外の課題、構成及び効果は、以下の実施形態により明らかにされる。

図１は、本発明の映像処理システムの一実施形態を示すブロック図である。図２は、図１の処理システム部の一例を示すブロック図である。図３は、本発明の映像処理システムで適用する特徴量を算出する処理の一例を示す図である。図４は、本発明の映像処理システムにおける撮像装置の処理の一例を示す図である。図５は、本発明の映像処理システムにおける映像処理装置の処理の一例を示す図である。

本発明を実施するための形態を説明する。

図１は、本発明の映像処理システムの一実施形態を示すブロック図である。図１の映像処理システムは、撮像装置１と映像処理装置５を備えている。そして、撮像装置１は、撮像部２と、処理システム部３を備えている。また、映像処理装置５は、処理システム部６と、表示出力部７を備えている。なお、表示出力部７は、映像処理装置５に備えず映像処理装置５とは別体で構成してもよい。映像処理装置５はパソコン、タブレット型コンピュータ、サーバなどを適用可能である。

撮像装置１は、１個以上のカメラの構成を備えており、様々な場所に配置可能である。例えば、監視カメラとして監視箇所に配置するなどである。

撮像部２は、レンズや絞りを介して撮像素子に入射光を結像して情報を得るカメラの構成である。ここでの撮像素子の例としては、ＣＣＤ（Ｃｈａｒｇｅ－ＣｏｕｐｌｅｄＤｅｖｉｃｅ）イメージセンサやＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）イメージセンサ等があげられる。得られた情報は処理システム部３へ送られる。また、撮像部２は、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などの映像処理用ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）を用い撮影処理を行うことができる。一方この映像処理用ＩＣは、処理システム部３と一体化してもよい。

処理システム部３は、撮像部２で撮影した情報を取得して後述する図４の処理を行う。具体的な構成例については図２で後述し、具体的な処理の内容は図４で後述する。処理した情報は、処理システム部６へ送られる。

処理システム部６は、処理システム部３からの情報を取得して後述する図５の処理を行う。具体的な構成例については図２で後述し、具体的な処理の内容は図５で後述する。

表示出力部７は、処理システム部６で処理した内容を表示できる装置である。例えば液晶ディスプレイ（ＬＣＤ）、有機ＥＬ（ＯＥＬ）ディスプレイ、タッチパネル等の構成により表示させる。

撮像装置１と映像処理装置５の間は、インターネット網などを介して情報のやりとりを行える。例えばＬＡＮ等に接続する。この他、専用の通信回線を介して情報をやりとりしてもよい。すなわち、遠隔地にある撮像装置１の処理内容を映像処理装置５で確認できる。また、撮像装置１と映像処理装置５は１対１でなくともよく、１つの撮像装置１に対して複数の映像処理装置５が対応してもよく、複数の撮像装置１に対して１つの映像処理装置５が対応してもよい。また、映像処理装置５は、撮像装置１の設定や操作を可能に構成してもよい。

図２は、図１の処理システム部の一例を示すブロック図である。処理システム部３、６の具体例として図２のコンピュータシステム３００として説明する。

コンピュータシステム３００の主要コンポーネントは、１つ以上のプロセッサ３０２、メモリ３０４、端末インターフェース３１２、ストレージインターフェース３１４、Ｉ／Ｏ（入出力）デバイスインターフェース３１６、及びネットワークインターフェース３１８を含む。これらのコンポーネントは、メモリバス３０６、Ｉ／Ｏバス３０８、バスインターフェース３０９、及びＩ／Ｏバスインターフェース３１０を介して、相互的に接続されてもよい。

コンピュータシステム３００は、プロセッサ３０２と総称される１つ又は複数の処理装置３０２Ａ及び３０２Ｂを含んでもよい。各プロセッサ３０２は、メモリ３０４に格納された命令を実行し、オンボードキャッシュを含んでもよい。処理装置としては、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｏｎｇＵｎｉｔ）等を適用できる。

メモリ３０４は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体（揮発性又は不揮発性のいずれか）を含んでもよい。また、メモリ３０４は、コンピュータシステム３００の仮想メモリ全体を表しており、ネットワークを介してコンピュータシステム３００に接続された他のコンピュータシステムの仮想メモリを含んでもよい。メモリ３０４は、概念的には単一のものとみなされてもよいが、キャッシュおよび他のメモリデバイスの階層など、より複雑な構成となる場合もある。

メモリ３０４は、本実施形態で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ３０４は、アプリケーション３５０を格納していてもよい。アプリケーション３５０は、後述する機能をプロセッサ３０２上で実行する命令又は記述を含んでもよく、あるいは別の命令又は記述によって解釈される命令又は記述を含んでもよい。アプリケーション３５０は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および／または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。アプリケーション３５０は、命令又は記述以外のデータを含んでもよい。また、カメラやセンサ等の他のデータ入力デバイスが、バスインターフェース３０９、プロセッサ３０２、またはコンピュータシステム３００の他のハードウェアと直接通信するように提供されてもよい。

コンピュータシステム３００は、プロセッサ３０２、メモリ３０４、表示システム３２４、及びＩ／Ｏバスインターフェース３１０間の通信を行うバスインターフェース３０９を含んでもよい。Ｉ／Ｏバスインターフェース３１０は、様々なＩ／Ｏユニットとの間でデータを転送するためのＩ／Ｏバス３０８と連結していてもよい。Ｉ／Ｏバスインターフェース３１０は、Ｉ／Ｏバス３０８を介して、Ｉ／Ｏプロセッサ（ＩＯＰ）又はＩ／Ｏアダプタ（ＩＯＡ）としても知られる複数のＩ／Ｏインターフェース３１２、３１４、３１６、及び３１８と通信してもよい。表示システム３２４は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置３２６に提供することができる。また、コンピュータシステム３００は、データを収集し、プロセッサ３０２に当該データを提供するように構成された１つまたは複数のセンサ等のデバイスを含んでもよい。表示システム３２４は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置３２６に接続されてもよい。表示装置３２６は、オーディオをレンダリングするためスピーカを含んでもよい。あるいは、オーディオをレンダリングするためのスピーカは、Ｉ／Ｏインターフェースと接続されてもよい。これ以外に、表示システム３２４が提供する機能は、プロセッサ３０２を含む集積回路によって実現されてもよい。同様に、バスインターフェース３０９が提供する機能は、プロセッサ３０２を含む集積回路によって実現されてもよい。

Ｉ／Ｏインターフェースは、様々なストレージ又はＩ／Ｏデバイスと通信する機能を備える。例えば、端末インターフェース３１２は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザＩ／Ｏデバイス３２０の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザＩ／Ｏデバイス３２０及びコンピュータシステム３００に対して入力データや指示を入力し、コンピュータシステム３００からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザＩ／Ｏデバイス３２０を介して、表示装置に表示されたり、スピーカによって再生されたりしてもよい。

ストレージインターフェース３１４は、１つ又は複数のディスクドライブや直接アクセス記憶装置３２２の取り付けが可能である。記憶装置３２２は、任意の二次記憶装置として実装されてもよい。メモリ３０４の内容は、記憶装置３２２に記憶され、必要に応じて記憶装置３２２から読み出されてもよい。Ｉ／Ｏデバイスインターフェース３１６は、他のＩ／Ｏデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース３１８は、コンピュータシステム３００と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク３３０であってもよい。

コンピュータシステム３００は、プロセッサ３０２、メモリ３０４、バスインターフェース３０９、表示システム３２４、及びＩ／Ｏバスインターフェース３１０の間の直接通信経路を提供するバス構造を備えているが、コンピュータシステム３００は、階層構成、スター構成、又はウェブ構成のポイントツーポイントリンク、複数の階層バス、平行又は冗長の通信経路を含んでもよい。さらに、Ｉ／Ｏバスインターフェース３１０及びＩ／Ｏバス３０８が単一のユニットとして示されているが、実際には、コンピュータシステム３００は複数のＩ／Ｏバスインターフェース３１０又は複数のＩ／Ｏバス３０８を備えてもよい。また、Ｉ／Ｏバス３０８を様々なＩ／Ｏデバイスに繋がる各種通信経路から分離するための複数のＩ／Ｏインターフェースが示されているが、Ｉ／Ｏデバイスの一部または全部が、１つのシステムＩ／Ｏバスに直接接続されてもよい。

コンピュータシステム３００は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム（クライアント）からの要求を受信するデバイスであってもよい。

図２のコンピュータシステム３００を図１の処理システム部３に適用する場合は、表示装置３２６は任意の構成であり、備えていてもいなくてもよい。また、撮像部２はユーザＩ／Ｏデバイス３２０として適用可能である。また、図２のコンピュータシステム３００を図１の処理システム部６として適用した場合は、表示装置３２６は表示出力部７として適用可能である。また、ネットワーク３３０は、処理システム部３と処理システム部６との間に介在するネットワークとして適用可能である。

図３は、本発明の映像処理システムで適用する特徴量を算出する処理の一例を示す図である。図３は、顔の画像から人物を推定するＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ）による機械学習の構成例を示す。各層の上部に記載した数はその層のニューロンの数であるが、これらは一例を示している。

入力層１１から特定の画像の一部分が入力され、それが１層目の畳込み層１２、プーリング層１３と伝達され、後段の層である畳込み層１２、プーリング層１３とつながっている。これらの処理の後には全結合層があり、入力層１６、中間層１７、出力層１８が存在する。出力層１８のニューロンの数はクラスの数と等価である。顔認識を行う場合は特定できる人の数とほぼ等価となる。尚、入力層１１から特定の画像の一部分が入力される場合、例として２００×２００の画像が６４×６４にリサイズされたのちに入力されている。

入力層１１では、特定の大きさの画像情報（図３では６４×６４ピクセル）を取得する。図３の例では、顔検出により取り込んだ人の顔の画像である。

次に、畳込み層１２では畳み込み処理を行う。入力層１１で取得した画像に対してフィルタをかけていく。フィルタをかけることにより、サイズは小さくなる（図３では６０×６０）。そして、用意したフィルタの数（図３では８個）分だけ出力される。

次に、プーリング層１３ではプーリング処理を行う。畳込み層１２で出力した情報に対して圧縮をかけていく。これにより、サイズは半分となる（図３では３０×３０）。

次に、畳込み層１４では畳み込み処理を行う。プーリング層１３で圧縮した情報に対して、さらにフィルタをかけて、サイズを小さくする（図３では２６×２６）。そして、用意したフィルタの数（図３では１６個）分だけ出力される。

次に、プーリング層１５ではプーリング処理を行う。畳込み層１４で出力した情報に対して圧縮をかけていく。これにより、サイズは半分となる（図３では１３×１３）。

次に、全結合層の入力層１６では、プーリング層１５で三次元の情報（１３×１３×１６）を一次元の情報（２７０４）に並べなおしたものである。ここでの情報は特徴量を示している。なお、図３では、畳込み層とプーリング層の繰り返しは、２回（２層）での繰り返しで示したが、これに限ることはなく、さらに多くの繰り返しとしてもよい。

全結合層の入力層１６から、マスク画像を形成することができる。マスク画像は、ここでは元の画像が特定できない（顔であれば画像のみから誰かを特定できない）画像を意味する。この処理は、非可逆な映像加工処理であり、一度マスク画像を形成すると元の画像を復元することはできなくなる。

具体的には、図３に示すように全結合層の入力層１６の情報である一次元の情報１６－１（図３では２７０４）を二次元の画像情報１６－２（図３では５２×５２）に並べなおす。このときの情報は、画像の情報として、白黒画像であれば色の濃さの情報として、カラー画像であれば、色の種類と濃さの情報として、保持することができる。例えば、白黒の画像であれば１ピクセルが８ビットの情報として、ＲＧＢのカラー画像であれば１ピクセルが２４ビットの情報として変換可能である。その５２×５２ピクセルの画像情報を２００×２００ピクセルのマスク画像１６－３に引き延ばす。これは、もともと取り込んだ顔の画像の大きさに合わせるための変換処理である。

そして、作成されたマスク画像１６－３は推論処理のため元の一次元の情報に戻す。具体的には、マスク画像１６－３（図３では２００×２００）を、引き延ばす前の二次元の画像情報１６－４（図３では５２×５２）をリサイズにより戻して、さらに、一次元の情報１６－１（図３では２７０４）に並べなおす。このことにより、全結合層の入力層１６の情報を、一旦マスク画像１６－３に変換して、画像に載せることが可能となる。

次に、全結合層の中間層１７では、図３では１０００個のニューロン数を適用している。これは、一例であり、必要に応じてふさわしい数が適用できる。また、中間層１７の数を増やして、複数の層で構成してもよい。

次の、全結合層の出力層１８では、１００個のニューロン数を適用している。ここでは、このニューロン数はクラス数となり、分類可能な数に相当する。例えば、顔の認識であれば、Ａさん、Ｂさん、Ｃさんというようにして、一番発火したニューロンから誰であるかを推定する。このような推論処理により、１００人の人の分類が可能である。もしくは、９９人の分類として、残りの１つはその他とすることも可能である。

図４は、本発明の映像処理システムにおける撮像装置の処理の一例を示す図である。ここでの処理は、撮像装置１側で行い、特に記載がない場合は撮像装置１の処理システム部３で行われる。ここでは、非可逆な映像加工処理が行われる。

撮像装置１ではまず初めに映像撮影２１を行う。これは撮像部２により行い、撮像素子とＦＰＧＡなどの映像処理用ＩＣなどで実現できる。撮影は映像で撮影される。例えば、１秒間に３０フレーム（３０ｆｐｓ）以上等の撮影とする等である。撮像部２で撮影された映像は１フレームの画像ごとに処理システム部３へ送られそれぞれ処理を行うことができる。

次に、処理システム部３では、この入力された映像に対して顔検出２２を行う。顔検出２２は、人間の顔の形を識別し、顔を含む範囲を検出する処理である。これは既存の手法を用いて自動で行われる。人間の顔と識別した場合はその領域を検出する。また、後述する処理を行うため、顔と識別した範囲が、ある程度の画素数以上の場合に検出する処理とすることができる。入力層１６の１つのニューロンが扱うビット数が、１ピクセルのビット数と同じ場合、図４の例では、最小の範囲が５２×５２ピクセルに設定されている。

次に、検出領域のリサイズ部で検出領域のリサイズ２３を行う。これは、顔検出２２で検出された領域をあらかじめ決めたサイズにリサイズする。このリサイズは、顔検出２２で検出される領域は一定でないため次の特徴量の計算に適した所定のサイズへの変換を行うものである。図４の例では、２００×２００ピクセルを６４×６４ピクセルへ変換する処理を行う。

次に、特徴量計算部で検出領域の特徴量計算２４を行う。ここでは、ＣＮＮなどを用いて顔認識に必要な特徴量を求める。この特徴量の計算は、図３で説明した入力層１１～全結合層の入力層１６までの処理と同様である。

次に、特徴量の再配列／リサイズ２５を行う。ここでは、顔検出を行った領域に適用できる大きさのフォーマットにデータを変換する処理を行う。全結合層の入力層１６で算出された特徴量のニューロンの数は２７０４であり、これを二次元に変換すると５２×５２の領域となる。一方、顔検出２２で検出した領域は２００×２００である。特徴量のニューロンの数から算出される二次元の領域５２×５２のデータを、顔検出２２の領域２００×２００に当てはめるため、１ニューロンのデータがおおよそ４画素に拡大して割り当てる。これにより、領域５２×５２のデータを領域２００×２００のデータに変換する。なお、ここでの特徴量の再配列／リサイズ２５の処理は、図３で説明した一次元の情報１６－１から、マスク画像１６－３までの処理と同様である。

ここで、上述した拡大率が大きいほどマスクの領域の画素間やフレーム間の変化が少なくなる。これにより、画素間やフレーム間の急激な変化が緩和されて非可逆コーデックによる処理が行いやすくなる。また、この特徴量は顔検出が行われる最小の画像サイズのデータ領域に収まる必要があるが、この最小サイズによっては例えばＣＮＮの途中のプーリング層の出力を特徴量として扱うことも可能である。

次に、再配列された特徴量は顔検出２２で検出された元画像へのマスク処理２６が行われる。これは、顔検出２２で検出した領域に再配列された特徴量（２００×２００）をマスク画像１６－３として当てはめることにより元画像上に配置される。マスク画像１６－３は、特徴量に基づく色の種類や濃さの画像のため、顔検出２２で検出した領域の元画像とは異なり、人の顔とは異なる情報となっている。

次に、マスク処理２６が行われた画像に対して、マスク処理メタデータ付与２７が行われる。ここでは、マスク処理が行われた画像のインデックス番号や画像上の始点の座標、その一辺の長さなどが付与される。これにより、マスク処理が行われている領域を特定するために情報やマスク処理が行われた画像を特定するための情報が付与される。

次に、外部出力２８される。ここで、外部出力する際には伝送容量を圧縮するためにコーデックによる処理が行われる。映像の場合では一般に非可逆コーデックが用いられるが、アプリケーションによっては画像の間欠伝送のみでよく、その場合は可逆コーデックを用いてもよい。ここでの外部出力された情報は、インターネット網等を介して映像処理装置５へ送られる。

図５は、本発明の映像処理システムにおける映像処理装置の処理の一例を示す図である。ここでの処理は、映像処理装置５側で行い、特に記載がない場合は映像処理装置５の処理システム部６で行われる。ここでは、機械学習による推論処理を行い、人を特定する。

まず、図４の外部出力２８において撮像装置１から出力された画像を有する映像データを映像処理装置５の映像入力部に映像入力３１を行う。

次に、その映像データのメタデータから特徴量の抽出／リサイズ・再配列部で、特徴量の抽出、リサイズ、再配列３２の処理を行う。この処理は、まず初めに映像データから、マスク画像１６－３の抽出を行う。これは、付与されているメタデータから範囲を特定することができる。次に、二次元の画像情報１６－４（図５では５２×５２）に戻して、さらに、一次元の情報１６－５（図５では２７０４）に並べなおす。これは、図３と同様である。これにより特徴量の値が得られる。なお、この値は、途中でリサイズやコーデック等の処理を行っているため、データの値がわずかにずれて、完全に一致しない場合もある。しかし、このずれは次の特徴量から推論結果を取得する処理に影響がない程度であり、元の特徴量（一次元の情報１６－１）と同じか近しい値が得られる。

次に、特徴量から推論結果の取得３３を行う。これは、図３の全結合層１６～１８の処理と同様である。ここでは、特徴量から推論結果取得部によってそのクラスを特定する。図５の例の場合では、推論処理により、顔から個人を特定することができる。

なお、個人の顔に関する情報は、映像処理装置５に記憶しておくことで、上記の処理を行える。例えば、１００人分のクラスを出力する場合は、１００人分の情報を保持しておき、特徴量から個人を特定することが可能となる。また、予め記録した人に該当しない場合は、その他の人であることを出力するクラスを１つ用意しておくことも可能である。

また、特徴量のデータ構造やニューラルネットワークのパラメータ等の特徴量の抽出のためのパラメータ等の取り決めは、事前に撮像装置１と映像処理装置５の間で共有しておく。このことで、マスク画像１６－３が映像処理装置５に送られた場合、一次元の情報１６－５に戻して特徴量からクラスを出力することが可能となる。このパラメータの設定について、映像処理装置５から撮像装置１の設定も行える機能を有しておいてもよい。

上記の実施形態は、顔検出により人を特定する処理の例について示したが、人の行動についても特定できる。例えば、撮像装置１では、人検出機能を備え、人全体を検出すると共に特徴量が含まれる二次元画像により人全体をマスクする。そして、映像処理装置５では、その特徴量からマスクした人の行動が何であるかを推論するものである。この場合、クラスは人の行動の種類ごとに出力する。

（効果）
上記の実施形態では、プライバシー保護が重要となる人物領域（顔や人全体）の非可逆なマスク処理が実現できる。それと同時に、その伝送先では人や行動の特定に必要なデータも含めて受信でき、必要に応じて後処理の推論を実行する。このことによってマスクされた領域でも、その人が誰であるかや行動が何であるかを判別することができる。

従来の可逆なマスク処理を用いる場合、マスクされていた部分を復号すると例えば元の人の画像が復元され、それが流出すると画像に含まれるあらゆる個人情報が流出することとなる。その一方で、本実施形態による手法では万が一情報が流出し悪意のある第三者に復号されたとしても、顔認識であればそれに対応付けられる名前などのラベル情報のみ、行動認識であればその行動のラベル情報のみの最小限の情報に抑えられる。

さらに、撮像装置側で人認識や行動認識結果まで推論を行う場合、そのデータを伝送して、その通信を傍受されてしまうとラベル情報が流出してしまう。一方で、本実施形態では受信した映像処理装置５側で特徴量から推論を行う。このため、撮像装置１からのデータが流出したとしても、特徴量のデータ構造や、ニューラルネットワークのパラメータの構造等の取り決めが分からない限り、推論を行うことができない。このため、撮像装置１からの情報は、通信の暗号化に加えて二重に保護されており、より復号が難しいデータとすることができる。また、特徴量をマスク画像１６－３に埋め込むことで伝送容量の削減をすることができる。

以上の様に、本発明の実施形態について説明してきたが、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

例えば、上記の実施形態では、伝送容量の削減のために特徴量をマスク画像１６－３に埋め込む処理を行っている。しかし、画像には特徴量の情報を埋め込まない適当なマスク処理（例えば、同一の色と濃さでのマスク）を行い、特徴量の情報と画像とを分けて伝送する構成も適用できる。

また、上記の実施形態では、ＣＮＮによる例を示したが、機械学習としては、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）の手法を用いても、本発明を適用することができる。

１…撮像装置、２…撮像部、３…処理システム部、５…映像処理装置、６…処理システム部、７…表示出力部、１１…入力層、１２…畳込み層、１３…プーリング層、１４…畳込み層、１５…プーリング層、１６…全結合層の入力層、１７…全結合層の中間層、１８…全結合層の出力層、２１…映像撮影、２２…顔検出、２３…検出領域のリサイズ、２４…検出領域の特徴量計算、２５…特徴量の再配列／リサイズ、２６…元画像へのマスク処理、２７…マスク処理メタデータ付与、２８…外部出力、３１…映像入力、３２…特徴量の抽出／リサイズ・再配列、３３…特徴量から推論結果の取得、３００…コンピュータシステム、３０２…プロセッサ、３０２Ａ、３０２Ｂ…処理装置、３０４…メモリ、３０６…メモリバス、３０８…Ｉ／Ｏバス、３０９…バスインターフェース、３１０…Ｉ／Ｏバスインターフェース、３１２…端末インターフェース、３１４…ストレージインターフェース、３１６…Ｉ／Ｏデバイスインターフェース、３１８…ネットワークインターフェース、３２０…ユーザＩ／Ｏデバイス、３２２…記憶装置、３２４…表示システム、３２６…表示装置、３３０…ネットワーク、３５０…アプリケーション

Claims

映像を撮影して画像を取得し、前記画像内から所定の領域を検出し、検出した検出領域をリサイズして検出領域の特徴量を抽出し、前記抽出した特徴量を二次元に配列したマスク画像として前記取得した画像の検出領域に配置した画像を出力し、
前記特徴量の抽出は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ）又はＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）の手法を用いて行うことを特徴とする撮像装置。
請求項１に記載の撮像装置において、
前記所定の領域は、人の顔の領域であることを特徴とする撮像装置。
映像を撮影して画像を取得し、前記画像内から所定の領域を検出し、検出した検出領域をリサイズして検出領域の特徴量を抽出し、前記抽出した特徴量を二次元に配列したマスク画像として前記取得した画像の検出領域に配置した画像を出力し、
出力する前記画像には、当該画像内における前記マスク画像の範囲を特定する情報を付与することを特徴とする撮像装置。
撮像装置と、映像処理装置とを備え、
前記撮像装置は、映像を撮影して画像を取得し、前記画像内から所定の領域を検出し、検出した検出領域をリサイズして検出領域の特徴量を抽出し、前記抽出した特徴量を二次元に配列したマスク画像として前記取得した画像の検出領域に配置した画像を出力し、
前記映像処理装置は、前記撮像装置が出力した画像を入力して、前記マスク画像から特徴量を取得し、この特徴量に基づく推論処理を行うことを特徴とする映像処理システム。
請求項４に記載の映像処理システムにおいて、
前記特徴量の抽出及び前記推論処理は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ）又はＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）の手法を用いて行うことを特徴とする映像処理システム。
請求項４に記載の映像処理システムにおいて、
前記所定の領域は人の顔の領域であり、前記推論処理は人を識別する処理であることを特徴とする映像処理システム。
請求項４に記載の映像処理システムにおいて、
前記映像処理装置から前記撮像装置での特徴量の抽出に用いられるパラメータを設定する機能を有することを特徴とする映像処理システム。