WO2019225692A1

WO2019225692A1 - 映像処理装置、映像処理方法、および映像処理プログラム

Info

Publication number: WO2019225692A1
Application number: PCT/JP2019/020423
Authority: WO
Inventors: 弘員柿沼; 喜秀外村; 広夢宮下; 長田　秀信; 日高　浩太
Original assignee: 日本電信電話株式会社
Priority date: 2018-05-24
Filing date: 2019-05-23
Publication date: 2019-11-28
Also published as: JP6715289B2; JP2019204333A; US11461903B2; US20210158534A1

Abstract

入力画素と背景画素の特徴ベクトルが近い場合でも正確且つ高速な識別を可能にする。映像処理装置は、入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する特徴抽出部と、特徴抽出部によって抽出された特徴の階調数を削減する量子化部と、画素ごとの特徴の組み合わせを非線形の識別を行う機械学習アルゴリズムによって学習し、機械学習によるネットワークを構築する学習部１０７と、学習部１０７によって構築されたネットワークの演算を代替するＬＵＴを生成するＬＵＴ生成部１０９と、ＬＵＴ生成部１０９によって生成されたＬＵＴを参照することによって、入力画像の各画素の前景らしさを高速に推定する前景領域推定部１０３と、前景領域推定部１０３によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、未分類領域に対してのみ境界補正を行う境界補正部１２１とを備える。

Description

映像処理装置、映像処理方法、および映像処理プログラム

　本発明は、映像処理装置、映像処理方法、および映像処理プログラムに関し、特に、機械学習を用いて映像中の背景と前景にある被写体を分離する技術に関する。

　任意背景の映像中から任意の領域を抽出する手法として、背景差分法がある（特許文献１）。背景差分法は、予め撮影した背景画像の特徴ベクトル（色や距離など）と、入力画像の特徴ベクトルの差を用いて、背景画像を取得した時点から変化のあった領域のみを抽出する手法であり、比較的単純な処理であることから高速な領域抽出が可能である。

　ただし、一般的な撮影シーンにおいて、単純な閾値を用いた背景差分法を適用しても、正しく抽出されない領域（例：背景の色と類似の色を持つ被写体の衣服）や、誤って抽出されてしまう領域（例：被写体の足元に生じた影）が現れ、期待通りに任意領域のみを正確に抽出することは困難である。そのため、教師データを用いて最近傍識別器を学習させることにより、閾値を柔軟に設定し、背景差分法をベースとしながら、より高精度に前景と背景を識別する手法が提案されている（非特許文献１）。

特許第３１２３５８７号

加藤丈和，柴田智行，和田俊和："最近傍識別器を用いた背景差分と色検出の統合"，情報処理学会研究報告コンピュータビジョンとイメージメディア 2004.6 (2003-CVIM-142)(2004):p.31-36

　背景差分法では、基本的に、入力画像の画素（入力画素と呼ぶ）の特徴ベクトル（例えばＲ，Ｇ，Ｂの３値）と、背景画像の画素（背景画素と呼ぶ）の特徴ベクトルの差を算出した後、その差がどれだけ大きければ前景と判定するかを決める閾値を設定する必要がある。しかしながら、グリーンスクリーンやブルースクリーンを使用しない一般的な撮影シーンにおいては、前景と背景の特徴ベクトルの差が僅かしかない画素が多く、前景と背景を分離できる閾値の範囲が狭く限られてくる。同時に、閾値の設定が繊細になればなるほど、背景の僅かな変化がノイズとして前景に表出しやすくなるため、単純に画像全体に対して一律の閾値で前景と背景に分離することは困難である。理想的には、入力画素と背景画素の特徴ベクトルごとに異なる閾値を設定できることが望ましいが、組み合わせの数が膨大になる上に、１組の特徴ベクトルでも座標によっては最適な閾値が異なる場合があるため、全体最適化された閾値は簡単には決めることができない。

　最近傍識別器を用いた手法では、入力画像と背景画像の画素の色の組み合わせを学習させ、特徴空間における前景と背景の最適な識別面を求める。これにより、単純な閾値設定による背景差分法よりも精度は向上するものの、与えられた特徴ベクトルを線形識別する手法であるため、入力画素と背景画素の特徴ベクトルが近く、特徴空間でのベクトルの分布が複雑な場合の識別は難しい。また、高解像度・高フレームレートの映像の実時間処理を実現するには識別にかかる処理時間も短縮する必要がある。

　本発明は、このような事情に鑑みてなされたもので、入力画素と背景画素の特徴ベクトルが近い場合でも正確且つ高速な識別が可能な映像処理装置、映像処理方法、および映像処理プログラムを提供することを目的とする。

　上記目的を達成するため、第１の態様に係る発明は、映像処理装置であって、入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する特徴抽出部と、前記特徴抽出部によって抽出された特徴の階調数を削減する量子化部と、前記画素ごとの特徴の組み合わせを非線形の識別を行う機械学習アルゴリズムによって学習し、機械学習によるネットワークを構築する学習部と、前記学習部によって構築されたネットワークの演算を代替するルックアップテーブル（ＬＵＴ）を生成するＬＵＴ生成部と、前記ＬＵＴ生成部によって生成されたＬＵＴを参照することによって、入力画像の各画素の前景らしさを推定する前景領域推定部と、前記前景領域推定部によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、前記未分類領域に対してのみ境界補正を行う境界補正部とを備えることを要旨とする。

　第２の態様に係る発明は、第１の態様に係る発明において、前記量子化部が、入力画像の特徴に合わせて量子化方法を変えることを要旨とする。

　第３の態様に係る発明は、第１または第２の態様に係る発明において、前記境界補正部が、前記前景領域推定部によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、さらに、前記未分類領域を境界画素付近の特徴に合わせて２種類以上の補正対象領域に分類し、前記補正対象領域ごとに補正手法を変えることを要旨とする。

　第４の態様に係る発明は、第１から第３のいずれか１つの態様に係る発明において、前記特徴抽出部が、入力画像と、異なる時間の入力画像のいずれかを自動あるいは半自動で補正、または、異なる時間の入力画像を編集した別の画像に切り替えることを要旨とする。

　第５の態様に係る発明は、第１から第４のいずれか１つの態様に係る発明において、前記学習部が、異なる機械学習アルゴリズム、または、異なる機械学習のパラメータ設定によって、異なる性質を持つ複数種類のネットワークを構築し、前記ＬＵＴ生成部が、前記複数種類のネットワークから複数種類のＬＵＴを生成し、前記前景領域推定部が、予め設定した画像の領域ごとに異なるＬＵＴを参照することを要旨とする。

　第６の態様に係る発明は、映像処理方法であって、コンピュータが、入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する特徴抽出ステップと、前記特徴抽出ステップで抽出された特徴の階調数を削減する量子化ステップと、前記画素ごとの特徴の組み合わせを非線形の識別を行う機械学習アルゴリズムによって学習し、機械学習によるネットワークを構築する学習ステップと、前記学習ステップで構築されたネットワークの演算を代替するＬＵＴを生成するＬＵＴ生成ステップと、前記ＬＵＴ生成ステップで生成されたＬＵＴを参照することによって、入力画像の各画素の前景らしさを推定する前景領域推定ステップと、前記前景領域推定ステップで推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、前記未分類領域に対してのみ境界補正を行う境界補正ステップとを実行することを要旨とする。

　第７の態様に係る発明は、映像処理プログラムであって、第１から第５のいずれか１つの態様に係る発明の各機能部としてコンピュータを機能させることを要旨とする。

　本発明によれば、入力画素と背景画素の特徴ベクトルが近い場合でも正確且つ高速な識別が可能な映像処理装置、映像処理方法、および映像処理プログラムを提供することが可能である。

本発明の実施の形態における学習処理の説明図である。本発明の実施の形態においてＬＵＴを複数用いる場合の説明図である。本発明の実施の形態における抽出処理の説明図である。本発明の実施の形態における映像処理装置の構成を示すブロック図である。本発明の実施の形態における映像処理装置の構成を示すブロック図である。本発明の実施の形態における映像処理装置の構成を示すブロック図である。本発明の実施の形態における画像の具体例を示す図である。本発明の実施の形態における教師データの具体例を示す図である。本発明の実施の形態におけるインデックス生成処理の説明図である。本発明の実施の形態におけるインデックス生成処理の説明図である。本発明の実施の形態におけるＬＵＴ生成処理の説明図である。本発明の実施の形態における学習処理の流れを示すフローチャートである。本発明の実施の形態における抽出処理の流れを示すフローチャートである。本発明の実施の形態と従来技術の実験結果を示すグラフである。

　以下、図面を用いて本発明の実施の形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号を付している。

　＜概要＞
　本発明の実施の形態では、特徴ベクトルが近い場合でも正確な識別ができるよう、特徴空間の変換を行った上で推定することが可能なニューラルネットワーク（ＮＮ）を利用して、入力画像と背景画像の画素の色の組み合わせを学習させ、各画素の前景らしさを推定する。さらに、構築したＮＮの演算処理をルックアップテーブル（ＬＵＴ）参照処理に置き換えることで、動画像に対する実時間処理を可能としながら、抽出した領域の境界領域や前景か背景かが曖昧な領域の画素については、対象画素の色に近い周辺画素をスパースに探索し、１画素ずつ前景か背景かを再識別していくことで、被写体の境界を精緻に補正しつつ、高速な処理を可能とする。

　本発明の実施の形態における処理は、学習処理と抽出処理に分かれる。学習処理は事前処理であり、抽出処理は実時間処理である。以下、図面を参照しながら各処理を詳細に説明する。

　＜学習処理＞
　図１は、本発明の実施の形態における学習処理（事前処理）の説明図である。この図に示すように、学習処理では以下の１－１～１－６の処理を行う。

　１－１の処理では、被写体が画像中に含まれていない時間のカメラの入力画像を背景画像として予め１枚取得しておく。

　１－２の処理では、カメラの入力画像をサンプル画像として取得し、手動で被写体領域を切り抜いたマスク画像（白：前景となる被写体、黒：背景）を作成しておく。

　１－３の処理では、作成したマスクの前景にあたる座標に対して、サンプル画像と背景画像の画素の特徴の組み合わせ（合計６次元の特徴ベクトル）を前景画素の教師データとする。

　１－４の処理では、作成したマスクの背景にあたる座標に対して、サンプル画像と背景画像の画素の特徴の組み合わせ（合計６次元の特徴ベクトル）を背景画素の教師データとする。これら教師データの６次元の特徴ベクトルを入力、その組み合わせが前景か背景かの確率を出力として、ＮＮに学習させる。

　１－５の処理では、サンプル画像（学習データ）が複数枚ある場合は１－２～１－４の処理をその枚数分繰り返す。

　１－６の処理では、ＮＮの演算処理は時間がかかり、動画像に対する実時間処理には適していないため、ＮＮの入出力の関係をＬＵＴ化する。具体的には、６次元の特徴ベクトルの全組み合わせをＮＮに入力し、それらに紐づく出力を得ることで、入力と出力との関係をテーブル化する。

　‐補足‐
　画像の特徴は、基本的に色情報を想定しているため、１画素で３次元の特徴ベクトルを持ち、具体的なバリエーションとしては、“８ビットのＲＧＢ画像の各画素値Ｒ，Ｇ，Ｂ”、“８ビットのＨＳＶ画像の各画素値Ｈ，Ｓ，Ｖ”、“１０ビットのＹＵＶ画像の各画素値Ｙ，Ｕ，Ｖ”などを挙げることができる。例えば、６次元の特徴ベクトルが０～２５５（８ビット）の画素値を持つＲ_ｔ，Ｇ_ｔ，Ｂ_ｔ，Ｒ_ｂ，Ｇ_ｂ，Ｂ_ｂであるとする。この場合、全色の組み合わせは２５６＾６通りであるが、このデータサイズのテーブルは昨今の一般的な計算機のメモリ上で扱うには大きすぎるため、各色の画素値を０～３１（６ビット）の３２＾６通りなどに量子化して、現実的に扱えるデータサイズのＬＵＴを生成する。量子化の具体例としては、０～２５５の２５６階調の画像であれば、全画素値を８で割り、０～３１の等間隔な３２階調の画像にするというものがある。

　なお、次元数と階調数はシステムで扱えるサイズや対象のシーンに合わせて柔軟に変更することが可能であり、必ずしも６次元３２階調の特徴ベクトルである必要はない。具体的には、背景画像をグレースケールに変換して４次元１２８階調の特徴ベクトル（Ｒ_ｔ，Ｇ_ｔ，Ｂ_ｔ，Ｇｒａｙ_ｂ）としたり、背景画像の色相と明度だけを参照して５次元６４階調の特徴ベクトル（Ｒ_ｔ，Ｇ_ｔ，Ｂ_ｔ，Ｈ_ｂ，Ｖ_ｂ）としたりと、異なる種類の特徴量の組み合わせを学習してＬＵＴを生成しても良い。さらに、例えば、シーンの背景が大幅に変化する場合、背景差分の効果が得にくく、多くの背景画素が前景画素として現れてしまうと考えられるため、背景画素は学習させずに、３次元１２８階調の特徴ベクトル（Ｒ_ｔ，Ｇ_ｔ，Ｂ_ｔ）だけを学習させ、入力画素のみから前景か背景かを識別するＬＵＴを生成するということもできる。

　また、後述の抽出処理において参照するＬＵＴも１種類である必要はなく、画像の領域ごとに異なる複数のＬＵＴを参照しても良い。これにより、例えば、シーン中に背景画素の色変化の少ない領域（画像の下部の地面の領域）と、背景画素の色変化の多い領域（画像の上部の空の領域）がある場合、画像の下部領域は６次元３２階調の特徴ベクトルで学習した結果のＬＵＴを、画像の上部領域は３次元１２８階調の特徴ベクトルで学習した結果のＬＵＴを参照するように分けることで、シーンの特徴に合った識別結果を得ることができる。

　このように、参照するＬＵＴを複数用いる場合、図２に示す参照ＬＵＴ指定画像のような、どの画素がどのＬＵＴを参照するかを示すデータ（画素の座標とＬＵＴの種類が対応付けられたテーブル等）を予め用意しておく必要がある。図２の例では、背景画素の色変化の少ない地面の領域Ｅ_２については、６次元３２階調の特徴ベクトルで学習した結果のＬＵＴ（２）を参照し、背景画素の色変化の多い空の領域Ｅ_１については、３次元１２８階調の特徴ベクトルで学習した結果のＬＵＴ（１）を参照するようになっている。

　＜抽出処理＞
　図３は、本発明の実施の形態における抽出処理（実時間処理）の説明図である。この図に示すように、抽出処理では以下の２－１～２－７の処理を行う。

　２－１の処理では、予め背景画像に対して、ＬＵＴ生成時と同様の量子化を行っておく。

　２－２の処理では、入力画像に対して、ＬＵＴ生成時と同様の量子化を行う。

　２－３の処理では、量子化した入力画像と背景画像の、同一座標の画素の組み合わせを学習処理で生成したＬＵＴの入力とし、出力を得る。これを画像内の全画素に対して行い、前景らしさの度合いを表した前景事後確率画像を得る。

　２－４の処理では、前景事後確率画像を参照して、前景事後確率の高い領域を前景、確率事後確率の低い領域を背景と設定した後、前景か背景かの確率が曖昧な領域や、前景と背景の境界となる領域を未分類領域と設定した３値の画像（ＴＲＩＭＡＰ）を生成する。すなわち、前景事後確率画像を任意の閾値を設定して２値化したときに、細かなノイズや被写体領域の欠けを含んでいる場合があるため、事後確率が曖昧な値の範囲を設定し、その領域に対して境界補正処理を行うことで、識別精度を向上させるようになっている。

　２－５の処理では、生成したＴＲＩＭＡＰの未分類領域に対して、高速な境界補正処理を行う。このような高速な境界補正処理としては、「宮下広夢，竹内広太，長田秀信，小野朗：“4K映像のための高速な被写体抽出”，電子情報通信学会技術研究報告(MVE研究会)，117(73)，pp.189-190(Jun.2017)」に記載の技術を用いることができる。

　２－６の処理では、入力画像を境界補正処理によって生成されたマスク画像でマスクすることで、被写体抽出画像を出力する。

　２－７の処理では、２－２～２－６の処理を繰り返し行い、動画像に対する実時間処理を実現する。

　＜映像処理装置＞
　図４は、本発明の実施の形態における映像処理装置の構成を示すブロック図である。この映像処理装置は、撮像部２００と、画像処理部１００と、画像編集部４００と、表示部３００とを備える。撮像部２００は、対象を撮影するカメラ等である。画像処理部１００は、撮像部２００からの画像に画像処理を施すコンピュータ等である。画像編集部４００は、画像処理部１００からの画像を編集する外部アプリケーション等である。表示部３００は、画像処理部１００からの画像を表示する表示装置等である。

　以下、画像処理部１００について詳細に説明する。画像処理部１００は、撮像部２００からの画像に画像処理を施すコンピュータ等であって、機能的には、画像入力部１０１と、色補正部１４１と、量子化画像生成部１０２と、前景領域推定部１０３と、境界補正部１２１と、画像合成部１０４と、画像出力部１０５と、画像記憶部１０６と、学習部１０７と、量子化器生成部１３１と、インデックス生成部１０８と、ＬＵＴ生成部１０９とを備える。

　画像入力部１０１は、画像を入力する機能部である。具体的には、撮像部２００から出力される画像を取り込む。

　画像記憶部１０６は、画像を記憶する記憶装置である。具体的には、入力画像を背景画像あるいは教師画像の元画像として記憶する、または教師画像作成部４０１によって作成された画像を教師画像として記憶する。

　色補正部１４１は、必要に応じて色補正を行う機能部である。具体的には、入力画像の色を背景画像の色に近付くように補正し、その色補正行列で入力画像を毎フレーム変換する、または、背景画像の色をある一時点の入力画像の色に近付くように補正し、その色補正行列で背景画像を変換することで、照明変化後の背景差分の精度を向上させる。

　量子化器生成部１３１は、量子化ルールを決定する機能部である。具体的には、入力画像や教師画像を参照して、対象の撮影シーンにおける画像の特徴ベクトルを適切に圧縮する量子化ルールを決定する。ここでは、量子化器生成部１３１の量子化ルールは、与えられた特徴ベクトルの階調数を等間隔な３２階調にするものとする。

　量子化画像生成部１０２は、画像の特徴ベクトルの量子化を行う機能部である。具体的には、入力画像と背景画像の両方に対して、量子化器生成部１３１によって生成された量子化ルールを適用し、各画像の特徴ベクトルの量子化を行う。

　学習部１０７は、学習を行う機能部である。具体的には、前景のみ画像、前景以外画像、背景画像の３種類の画像の特徴ベクトルの組み合わせからネットワークを構築する。ここでは、非線形の識別を行う機械学習のアルゴリズムとしてＮＮを用いるものとする。

　インデックス生成部１０８は、インデックスを生成する機能部である。具体的には、多次元の特徴ベクトルの全ての組み合わせに対して、量子化器生成部１３１によって生成された量子化ルールを適用し、ＬＵＴのインデックスを生成する。

　ＬＵＴ生成部１０９は、ＬＵＴを生成する機能部である。具体的には、ネットワークに量子化したインデックスを入力し、その出力を順に並べることでＬＵＴを生成する。

　前景領域推定部１０３は、前景領域らしさを推定する機能部である。具体的には、入力画像と背景画像に対してＬＵＴを適用し、前景領域らしさを推定する。なお、ＬＵＴを利用しない場合は、従来の背景差分や、（撮像部からステレオ画像が得られる場合は）ステレオ視差を利用することで前景領域らしさを推定する。

　境界補正部１２１は、境界補正処理を行う機能部である。具体的には、前景領域推定部１０３から得られた前景らしさを、前景、背景と１種類以上の未分類領域に分類し、未分類領域に対して、対象画素の周囲の入力画素と背景画素を参照し、対象画素が前景か背景かを識別する境界補正処理を行う。

　画像合成部１０４は、画像を合成する機能部である。具体的には、前景と背景に分類された２値画像（マスク画像）と入力画像を合成して前景のみを抽出した画像を得る。

　画像出力部１０５は、表示部３００に対して画像を出力する機能部である。

　このような映像処理装置によれば、固定カメラで撮影した画像を対象とした、背景差分法をベースとした被写体抽出において、被写体と背景の画素の特徴ベクトルが近い場合でも、ＮＮを用いることでより正確に前景か背景かの推定ができるようになる。さらに、ネットワーク演算処理をＬＵＴ参照処理に置き換えることで、動画像に対しても高速な被写体抽出処理を可能にする。

　なお、画像入力部１０１、画像記憶部１０６、量子化器生成部１３１、学習部１０７、インデックス生成部１０８、ＬＵＴ生成部１０９から構成される機能部を事前学習手段１００Ａと呼ぶ（図５参照）。事前学習手段１００Ａは、学習処理（事前処理）を行う機能部である。

　また、画像入力部１０１、画像記憶部１０６、色補正部１４１、量子化画像生成部１０２、前景領域推定部１０３、境界補正部１２１、画像合成部１０４、画像出力部１０５から構成される機能部を実時間抽出手段１００Ｂと呼ぶ（図６参照）。実時間抽出手段１００Ｂは、抽出処理（実時間処理）を行う機能部である。

　さらに、以下の説明では、入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する機能部を「特徴抽出部」と呼ぶ場合がある。また、特徴抽出部によって抽出された特徴の階調数を削減する機能部を「量子化部」と呼ぶ場合がある。

　‐補足‐
　なお、画像記憶部１０６に記憶される背景画像は、撮像部２００から出力された、前景（被写体）が写っていない過去のある一時点の画像である。入力画像は、撮像部２００から今まさに出力されている画像である。前景以外画像とは、少なくとも抽出対象の前景は排除されている画像である。背景画像の具体例を図７（ａ）に、入力画像の具体例を図７（ｂ）に、前景のみ画像の具体例を図７（ｃ）に、前景以外画像の具体例を図７（ｄ）に示す。

　また、上記の説明では、１種類以上の未分類領域に分類することとしているが、未分類領域を２種類設定した場合は、複数の境界補正手法を選択的に適用する従来手法を使用してもよい。このような従来手法としては、「山口真理子，長田秀信，小野朗，“高速・精緻な被写体抽出のための適応的マッティング手法，”2017信学総大，no.D-11-29, March 2017．」がある。

　また、入力画像と背景画像から手動で教師画像を作成する教師画像作成部４０１は、外部アプリケーションなどの画像編集部４００が備えるものとする。「教師画像」は、前景画素の教師データと背景画素の教師データの二つである。前景画素の教師データの具体例を図８（ａ）に示す。前景画素の教師データは、Ｒ_ｔ，Ｇ_ｔ，Ｂ_ｔ，Ｒ_ｂ，Ｇ_ｂ，Ｂ_ｂの組み合わせで、前景のみ画像において有効な画素数分用意する。背景画素の教師データの具体例を図８（ｂ）に示す。背景画素の教師データは、Ｒ_ｔ，Ｇ_ｔ，Ｂ_ｔ，Ｒ_ｂ，Ｇ_ｂ，Ｂ_ｂの組み合わせで、前景以外画像において有効な画素数分用意する。

　次に、インデックス生成部１０８の処理について補足説明する。特徴ベクトルを「８ビットのＲＧＢ画像で、背景画素のＲＧＢと前景画素のＲＧＢからなるベクトル」とした場合、６次元の全特徴ベクトルは図９のようになり、全部で２５６＾６行になる。このような場合、インデックス生成部１０８は、量子化ルールを参照して、図１０の３２＾６通りの６次元の特徴ベクトルを生成し、この特徴ベクトルの組み合わせをインデックスと呼ぶ。なお、インデックスと呼ぶ理由は、特徴ベクトル（ａ，ｂ，ｃ，ｄ，ｅ，ｆ）を参照することで、以下のように、この組み合わせがＬＵＴの何行目の入力に対応するかを特定できるためである。

　　index =　a*32^5+b*32^4+c*32^3+d*32^2+e*32^1+f*32^0
　ＬＵＴ生成部１０９では、図１１のように、インデックスを学習によって構築したネットワークに順に入力し、これにより得られた出力を順に並べた行列（３２＾６行１列）が最終的なＬＵＴである。

　＜学習処理の流れ＞
　図１２は、本発明の実施の形態における学習処理の流れを示すフローチャートである。このフローチャートのステップＳ６１～Ｓ６５の動作主体は量子化器生成部１３１である。

　まず、入力・背景画像を記憶し、教師画像を生成し、学習する（ステップＳ５１→Ｓ５２→Ｓ５３）。ここで、インデックスが生成済みである場合、ＬＵＴを生成する（ステップＳ５４→Ｓ５５）。一方、インデックスが生成済みでない場合、量子化器生成部１３１によって量子化ルールを生成しないときは、初期量子化器（等間隔）を設定し、ＬＵＴを生成する（ステップＳ５４→Ｓ６１→Ｓ６５→Ｓ５５）。また、量子化器生成部１３１によって量子化ルールを生成するときは、教師データを取得し、量子化器を生成し、インデックスを量子化し、ＬＵＴを生成する（ステップＳ５４→Ｓ６１→Ｓ６２→Ｓ６３→Ｓ６４→Ｓ５５）。

　＜抽出処理の流れ＞
　図１３は、本発明の実施の形態における抽出処理の流れを示すフローチャートである。このフローチャートのステップＳ２０１～Ｓ２０５の動作主体は色補正部１４１、ステップＳ３０１～Ｓ３０３の動作主体は量子化器生成部１３１、ステップＳ１０６～Ｓ１０９の動作主体は前景領域推定部１０３、ステップＳ４０１～Ｓ４０３の動作主体は境界補正部１２１である。

　まず、画像を読み込む（ステップＳ１０１）。ここで、入力画像を色補正する場合、色補正行列を生成済でないときは、入力画像の背景領域矩形を指定し、２背景を近付ける行列を推定し、入力画像を色補正する（ステップＳ２０１→Ｓ２０２→Ｓ２０３→Ｓ２０４→Ｓ２０５）。また、色補正行列を生成済であるときは、入力画像を色補正する（ステップＳ２０１→Ｓ２０２→Ｓ２０５）。

　一方、入力画像を色補正しない場合、量子化器生成部１３１によって量子化ルールを生成しないときは、初期量子化器（等間隔）を設定する（ステップＳ２０１→Ｓ３０１→Ｓ１０２）。また、量子化器生成部１３１によって量子化ルールを生成するときは、教師データを取得し、前景画素教師データと、背景画素教師データの特徴ベクトルの偏りに合わせた量子化器を生成する（ステップＳ２０１→Ｓ３０１→Ｓ３０２→Ｓ３０３）。

　次いで、背景画像が量子化済でない場合、背景画像を量子化し、入力画像を量子化する（ステップＳ１０３→Ｓ１０４→Ｓ１０５）。一方、背景画像が量子化済である場合、入力画像を量子化する（ステップＳ１０３→Ｓ１０５）。

　次いで、ＬＵＴを利用しない場合、従来の背景差分や、ステレオ視差利用による前景の推定を行い、ＴＲＩＭＡＰ生成のための閾値を指定する（ステップＳ１０６→Ｓ１０７→Ｓ１０９）。一方、ＬＵＴを利用する場合、ＬＵＴ適用による前景の推定を行い、ＴＲＩＭＡＰ生成のための閾値を指定する（ステップＳ１０６→Ｓ１０８→Ｓ１０９）。

　次いで、境界補正を行う場合、境界領域を設定（ＴＲＩＭＡＰを生成）し、境界の精緻化を実施し、入力画像にマスクを適用し、抽出画像の書き出しを行う（ステップＳ４０１→Ｓ４０２→Ｓ４０３→Ｓ１１１→Ｓ１１２）。一方、境界補正を行わない場合、前景領域の設定（２値化）を行い、入力画像にマスクを適用し、抽出画像の書き出しを行う（ステップＳ４０１→Ｓ１１０→Ｓ１１１→Ｓ１１２）。

　＜ポイント＞
　本発明の実施の形態のポイントとしては、以下の点を挙げることができる。
・最新の入力画像と、異なる時間に得られた入力画像における、同一座標画素の最大６次元の特徴ベクトルを１組の入力として、ＮＮに学習させる点。
・ＮＮによる前景画素推定時にＴＲＩＭＡＰを生成し、境界補正処理と組み合わせることで、より高精度な被写体領域の抽出を可能にしている点。
・ＮＮの入出力の関係をＬＵＴ化することで、演算回数が大幅に削減されるため、動画像に対しても毎フレーム高速に適用することができる点。

　＜実験＞
　４Ｋ解像度のカメラで撮影した柔道競技の映像を用いて、従来の背景差分を用いた被写体抽出、サポートベクタマシン（ＳＶＭ）（線形の識別を行う機械学習アルゴリズム）を用いた被写体抽出、本発明の実施の形態（ＮＮによる機械学習）の被写体抽出の精度比較実験を行った。各方法を用いて被写体を抽出した場合のエラー画素の総数を図１４に示す。図１４に示すように、本発明の実施の形態の精度が最も良い結果になった。特に、背景の色に近い被写体の頭部や、床の色に近い被写体の柔道着、足元に発生する影の領域においてもエラー画素が少なく、正確に識別できていることがわかった。これは、入力された特徴ベクトルがＮＮモデル内で適切な特徴空間に変換されたため識別できていると考えられる。また、本発明の実施の形態における抽出処理については、４Ｋ映像に対してリアルタイムに（３０ＦＰＳ以上のフレームレートで）処理ができることを確認している。

　＜まとめ＞
　以上説明したように、本発明の実施の形態における映像処理装置は、入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する特徴抽出部と、特徴抽出部によって抽出された特徴の階調数を削減する量子化部と、画素ごとの特徴の組み合わせを非線形の識別を行う機械学習アルゴリズム（例えば、ＮＮ）によって学習し、機械学習によるネットワークを構築する学習部１０７と、学習部１０７によって構築されたネットワークの演算を代替するＬＵＴを生成するＬＵＴ生成部１０９と、ＬＵＴ生成部１０９によって生成されたＬＵＴを参照することによって、入力画像の各画素の前景らしさを高速に推定する前景領域推定部１０３と、前景領域推定部１０３によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、未分類領域に対してのみ境界補正を行う境界補正部１２１とを備える。これにより、入力画素と背景画素の特徴ベクトルが近い場合でも正確且つ高速な識別が可能となる。

　ここで、量子化部は、入力画像の特徴に合わせて量子化方法を変えてもよい。これにより、適切に特徴ベクトルを削減し、前景、背景の識別精度の低下を抑制することが可能となる。

　また、境界補正部１２１は、前景領域推定部１０３によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、さらに、未分類領域を境界画素付近の特徴に合わせて２種類以上の補正対象領域に分類し、補正対象領域ごとに補正手法を変えてもよい。これにより、境界の特徴に適した抽出画像を得ることが可能となる。

　また、特徴抽出部は、入力画像と、異なる時間の入力画像のいずれかを自動あるいは半自動で補正、または、異なる時間の入力画像を編集した別の画像に切り替えてもよい。これにより、同一のＬＵＴを参照しながら撮影シーンの変化に適応した抽出画像を得ることが可能となる。

　また、学習部１０７は、異なる機械学習アルゴリズム、または、異なる機械学習のパラメータ設定によって、異なる性質を持つ複数種類のネットワークを構築し、ＬＵＴ生成部１０９は、複数種類のネットワークから複数種類のＬＵＴを生成し、前景領域推定部１０３は、予め設定した画像の領域ごとに異なるＬＵＴを参照してもよい。これにより、撮影シーンの背景の特徴に適応した抽出画像を得ることが可能となる。なお、ここでいう「異なる機械学習」には線形識別の機械学習アルゴリズムも含むものとする。

　また、本発明の実施の形態における映像処理方法は、入力画像と、異なる時間の入力画像から画素ごとの特徴を抽出し、抽出した特徴ごとに前景らしさを推定するＮＮを構築し、入力画像の各画素の前景らしさを導出する方法である。

　また、このような映像処理方法は、画素ごとに前景らしさを導出する方法であって、入力画像の特徴に合わせて量子化方法を変えることで適切に特徴ベクトルを削減し、構築したネットワークの演算処理をＬＵＴ参照処理により高速に処理する方法であってもよい。

　また、このような映像処理方法は、画素ごとに前景らしさを導出する方法であって、導出した前景らしさを、前景、背景、前景と背景の境界画素を含む１種類以上の未分類領域に分類し、未分類領域に対してのみ注目画素の周辺情報を加味した境界補正を行うことで、被写体の境界が精緻になった抽出画像を高速に得る方法であってもよい。

　また、このような映像処理方法は、画素ごとに前景らしさを導出する方法であって、入力画像と異なる時間の入力画像のいずれかを自動あるいは半自動で補正、または、異なる時間の入力画像を別の画像に切り替えることで、同一のＬＵＴを使い続けながら、撮影シーンの変化に対して頑健な出力結果を得る方法であってもよい。

　また、このような映像処理方法は、画素ごとに前景らしさを導出する方法であって、異なる時間の入力画像を、異なる時間の入力画像を編集した画像や、出力結果のマスク画像を編集した画像に置き換えることで、異なる性質を持つ複数のネットワークを構築・ＬＵＴを生成し、画像の領域ごとに異なるＬＵＴを参照することで、シーンに適した出力結果を得る方法であってもよい。

　なお、本発明の実施の形態は、このような映像処理装置や映像処理方法として実現することができるだけでなく、このような映像処理装置が備える各機能部としてコンピュータを機能させる映像処理プログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ－ＲＯＭ等の記録媒体やインターネット等の伝送媒体を介して配信することができるのはいうまでもない。

　＜その他の実施の形態＞
　上記のように、本発明の実施の形態によって記載したが、この開示の一部をなす論述および図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例および運用技術が明らかとなる。

　例えば、本発明の実施の形態に記載した映像処理装置（図４参照）は、一つのハードウエア上に構成されても良いし、その機能や処理数に応じて複数のハードウエア上に構成されても良い。また、既存の映像処理システム上に実現されても良い。

　本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。

　１００…画像処理部
　１０１…画像入力部
　１０２…量子化画像生成部
　１０３…前景領域推定部
　１０４…画像合成部
　１０５…画像出力部
　１０６…画像記憶部
　１０７…学習部
　１０８…インデックス生成部
　１０９…ＬＵＴ生成部
　１２１…境界補正部
　１３１…量子化器生成部
　１４１…色補正部
　２００…撮像部
　３００…表示部
　４００…画像編集部
　４０１…教師画像作成部

Claims

　入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する特徴抽出部と、
　前記特徴抽出部によって抽出された特徴の階調数を削減する量子化部と、
　前記画素ごとの特徴の組み合わせを非線形の識別を行う機械学習アルゴリズムによって学習し、機械学習によるネットワークを構築する学習部と、
　前記学習部によって構築されたネットワークの演算を代替するルックアップテーブル（ＬＵＴ）を生成するＬＵＴ生成部と、
　前記ＬＵＴ生成部によって生成されたＬＵＴを参照することによって、入力画像の各画素の前景らしさを推定する前景領域推定部と、
　前記前景領域推定部によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、前記未分類領域に対してのみ境界補正を行う境界補正部と
　を備えることを特徴とする映像処理装置。
　前記量子化部は、入力画像の特徴に合わせて量子化方法を変えることを特徴とする請求項１に記載の映像処理装置。
　前記境界補正部は、前記前景領域推定部によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、さらに、前記未分類領域を境界画素付近の特徴に合わせて２種類以上の補正対象領域に分類し、前記補正対象領域ごとに補正手法を変えることを特徴とする請求項１または２に記載の映像処理装置。
　前記特徴抽出部は、入力画像と、異なる時間の入力画像のいずれかを自動あるいは半自動で補正、または、異なる時間の入力画像を編集した別の画像に切り替えることを特徴とする請求項１から３のいずれか１項に記載の映像処理装置。
　前記学習部は、異なる機械学習アルゴリズム、または、異なる機械学習のパラメータ設定によって、異なる性質を持つ複数種類のネットワークを構築し、
　前記ＬＵＴ生成部は、前記複数種類のネットワークから複数種類のＬＵＴを生成し、
　前記前景領域推定部は、予め設定した画像の領域ごとに異なるＬＵＴを参照する
　ことを特徴とする請求項１から４のいずれか１項に記載の映像処理装置。
　コンピュータが、
　入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する特徴抽出ステップと、
　前記特徴抽出ステップで抽出された特徴の階調数を削減する量子化ステップと、
　前記画素ごとの特徴の組み合わせを非線形の識別を行う機械学習アルゴリズムによって学習し、機械学習によるネットワークを構築する学習ステップと、
　前記学習ステップで構築されたネットワークの演算を代替するＬＵＴを生成するＬＵＴ生成ステップと、
　前記ＬＵＴ生成ステップで生成されたＬＵＴを参照することによって、入力画像の各画素の前景らしさを推定する前景領域推定ステップと、
　前記前景領域推定ステップで推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、前記未分類領域に対してのみ境界補正を行う境界補正ステップと
　を実行することを特徴とする映像処理方法。
　請求項１乃至５のいずれか１項に記載した各機能部としてコンピュータを機能させることを特徴とする映像処理プログラム。