JP6579657B2

JP6579657B2 - 判定装置及びプログラム並びに遠隔コミュニケーション支援装置

Info

Publication number: JP6579657B2
Application number: JP2015246703A
Authority: JP
Inventors: 建鋒徐; 茂之酒澤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2015-12-17
Filing date: 2015-12-17
Publication date: 2019-09-25
Anticipated expiration: 2035-12-17
Also published as: JP2017111685A

Description

本発明は、映像における歩行者等の移動対象が映像のカメラ視点に向かって真っすぐに移動している場合であっても当該移動の判定を行うことのできる判定装置及びプログラム並びに遠隔コミュニケーション支援装置に関する。

カメラ画像や映像より歩行者その他の対象を検出したり追跡したりする技術には、多くの従来技術がある。例えば、非特許文献２では、HoG特徴量を用いて人物を検出する技術が開示されている。また、非特許文献１では、高速道路や交差点近辺等を対象とした交通監視技術として、設置されたカメラの映像より全ての動きを追跡し、当該追跡した結果からオブジェクトの属性（トラックや乗用車、バイクといった属性）を推定することが開示されている。

Kilger, M. "Video-based traffic monitoring." Image Processing and its Applications, 1992. International Conference on. IET, 1992 Dalal, N.; Triggs, B., "Histograms of oriented gradients for human detection," in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on , vol.1, no., pp.886-893 vol. 1, 25-25 June 2005 Kalman, R. E. (1960). "A New Approach to Linear Filtering and Prediction Problems". Journal of Basic Engineering 82: 35. doi:10.1115/1.3662552 Zivkovic, Z., "Improved adaptive Gaussian mixture model for background subtraction," Pattern Recognition, 2004. ICPR 2004. Proceedings of the 17th International Conference on , vol.2, no., pp.28,31 Vol.2, 23-26 Aug. 2004 Manuela Zuger and Thomas Fritz. 2015. Interruptibility of Software Developers and its Prediction Using Psycho-Physiological Sensors. In Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems (CHI '15). ACM, New York, NY, USA, 2981-2990.

しかしながら、従来技術では、オフィスにおける歩行者の歩行判定を適切に行うことができなかった。

図１は、従来技術では適切に判定できなかった、オフィスにおける歩行者とそのカメラ撮影との例を模式的に説明するための図である。図１において、オフィス空間O1（の一部分）には、互いに垂直な壁W1及びW2が配置され、水平なフロアF1及び通路P1が配置されている。当該オフィスで働く人物H1は、会議に向かう等の仕事上の移動のため、双方向矢印A1で示されるように、壁W2に配置されたドアD1に向かう方向に、あるいはその逆方向に、通路P1を移動する。ここで、ドアD1の上部において壁W2に配置されたカメラC1が、当該矢印A1で示される人物H1の移動方向に対して正面の向きとなるように撮影を行っているものとする。従来技術では、このようにカメラC1が配置されている場合に、人物H1の歩行の判定を必ずしも適切に行うことができなかった。

図２は、図１のようにしてオフィスに配置されたカメラに対して真っすぐに向かってくる歩行者の判定を、従来技術では適切に行えないことを模式的に説明するための、カメラ映像の例を示す図である。図２では[1]に、時刻がt1,t2,t3と進行していく際にそれぞれカメラ映像に撮影されている画像P(t1),P(t2),P(t3)が示されており、ここではオフィス内の歩行者がカメラに向かって近づいてきている様子が撮影されている。そして、図２の[2]は、従来技術においてこのような画像P(t1),P(t2),P(t3)に対して歩行者の歩行の判定を下すことが困難であることを説明するためのものであり、各時刻の画像P(t1),P(t2),P(t3)につきそれぞれ歩行者が領域R(t1),R(t2),R(t3)として検出されていることを示している。

従来技術においては、当該例として示される領域R(t1),R(t2),R(t3)を検出できたとしても、これら領域から歩行者が歩行しているものであると判定することが困難である。当該困難となる事情として、例えば以下のような点を挙げることができる。

すなわち、例えば時刻t1〜t2間においては領域R(t1)から領域R(t2)へと変化していくが、この際、領域のサイズの変化はあるとしても、当該変化する領域の移動量が小さいという点である。特に、領域R(t1)と領域R(t2)とを比較すると、その下辺（歩行者の足の下端部分に相当）は移動していることを見て取ることができるが、その上辺（歩行者の頭の上端部分に相当）はほとんど移動していない。従来技術では、このような領域から歩行者の判定を行うことは困難である。

さらに、同様の傾向は歩行者がカメラにさらに接近してきた以降の時刻t2〜t3でより顕著となっている。なぜなら、ここでは歩行者がカメラにかなり接近していることからその全身を領域として画像内に捉えることができないからである。例えば、領域R(t2)には歩行者の膝より上の部分しか捉えられておらず、領域R(t3)には歩行者の上半身しか捉えられていない。

当該時刻t2〜t3のように、歩行者がカメラにかなり接近していると、その全身を画像に捉えられないことから、領域R(t2)〜R(t3)のサイズ変化があるものの移動が見られないこととなり、従来技術では、このような領域から歩行者の判定を行うことは困難である。

以上のように、オフィス配置のカメラによって撮影される歩行者が真っすぐ向かってくるような映像に関しては、時刻t1〜t2のように歩行者がある程度カメラから遠くに存在する場合であっても、時刻t2〜t3のように歩行者がかなりカメラに近づいている場合であっても、従来技術では歩行者の判定を行うことが困難であった。

また、時刻t1,t2,t3が図２の説明とは逆向きに進むとした場合を考えることで明らかなように、同様に配置されたカメラで歩行者が真っすぐに遠ざかっていく映像を得る場合であっても、従来技術では、歩行者の判定を行うことが困難であった。

本発明は、上記従来技術の課題を解決し、映像における移動対象が映像におけるカメラ視点に対して真っすぐに移動している場合であっても判定を行うことが可能な判定装置及びプログラム並びに遠隔コミュニケーション支援装置を提供することを目的とする。

上記目的を達成するため、本発明は、判定装置であって、映像を解析して移動対象の検出及び追跡を行う検出追跡部と、前記追跡された移動対象の領域の変化に基づいて、移動対象における移動の判定を、前記映像におけるカメラ視点に対して真っすぐに近づく又は遠ざかる移動の判定を含めて行う判定部と、を備えることを特徴とする。

また、本発明は、コンピュータを前記判定装置として機能させるプログラムであることを特徴とする。

さらに、本発明は、前記判定装置と、通知部と、を備える遠隔コミュニケーション支援装置であって、前記判定装置が第一地点の映像を解析することで、当該映像におけるカメラ視点に対して真っすぐに近づく又は遠ざかる移動対象があることが判定された場合に、前記通知部が、第二地点に対して通知を行うことを特徴とする。

前記判定装置又はプログラムによれば、前記追跡された移動対象の領域の変化に基づいて、移動対象における移動の判定を、前記映像におけるカメラ視点に対して真っすぐに近づく又は遠ざかる移動の判定を含めて行うことができる。

前記遠隔コミュニケーション支援装置によれば、前記判定装置による判定があった際に第二地点へ通知を行うことで、第一地点と第二地点との間の遠隔コミュニケーションを支援することができる。

オフィスにおける歩行者とそのカメラ撮影との例を模式的に説明するための図である。図１のようなカメラ撮影による歩行者の映像の例を示す図である。一実施形態に係る判定装置の機能ブロック図である。一実施形態に係る検出追跡部1の機能ブロック図である。画像の座標を説明するための図である。追跡部の処理を説明するための図である。一実施形態に係る判定部の機能ブロック図である。一実施形態に係る判定部の処理のフローチャートである。テレプレゼンスロボットがオフィス空間に配置されている例を示す図である。一実施形態に係る遠隔コミュニケーション支援装置の機能ブロック図である。制御部の処理を説明するための図である。

図３は、一実施形態に係る判定装置の機能ブロック図である。判定装置10は、検出追跡部1及び判定部4を備え、歩行者等の移動対象が撮影された映像を入力として受け取り、当該映像を各部1,4で解析することにより、当該映像の各時点における歩行者等の移動対象の状態を判定して出力する。

判定装置10では特に、移動対象の状態として、入力された映像における歩行者等の移動対象が歩行等によって、当該映像を撮影しているカメラに対して真っすぐに向かってきている状態であるか、及び／又は、当該カメラから真っすぐに離れていく状態にあるか、という判定結果を得ることができる。すなわち、図２で説明したような状態に関する判定結果を得ることができる。

なお、判定装置10に入力される映像における移動対象は人物の他にも、図２で説明したような振る舞いを示すものであれば、動物、ロボット、乗り物その他の任意の移動する対象であってよく、判定装置10ではこのような任意の対象に関して、映像を撮影しているカメラに向かって真っすぐに近づいてきている状態である、あるいはその逆向きに遠ざかっていっている状態である、という判定結果を得ることができる。同様に、撮影環境もオフィスに限られず、屋外等でもよい。また同様に移動の態様も、歩行に限らず走りその他であってもよい。

ただし、以下の説明においては、わかりやすい具体例で説明するという観点から、移動対象は図２で説明したようにオフィス環境における歩行者であり、歩行によってカメラに真っすぐに近づいている、あるいはその逆向きに進んでいる、ということを判定する場合を主な例として説明するものとする。すなわち、歩行者の歩行に関する判定は、移動対象がカメラに真っすぐに近づく／カメラから真っすぐに遠ざかる一例にすぎず、以下説明する処理によって、人物以外の同様の移動が判定可能であり、人物の移動であった場合でも、歩行に限らず走ることで近づく／遠ざかるような場合も判定可能である。

判定装置10の各部1,4の概要は次の通りである。

検出追跡部1は、移動対象が撮影された映像を読み込んで、当該映像の各時刻の画像（各フレーム）において、移動対象の検出及び追跡を行い、当該追跡結果を判定部4へと出力する。

判定部4は、検出追跡部1より出力された当該映像の各時刻における追跡結果（各時刻において移動対象が占める領域、当該領域の位置、速度、大きさ変化等）に対して分類器及びルールベースの判定手法を適用することにより、各時刻における移動対象が映像におけるカメラに対して真っすぐに近づいている状態であるか、その逆に遠ざかっている状態か、また、その他の状態であるか、という判定結果を出力する。

以下、各部1,4の詳細を説明する。

図４は、一実施形態に係る検出追跡部1の機能ブロック図であり、検出追跡部1は検出部2及び追跡部3を備える。各部2,3の概要は次の通りである。

検出部2は、入力される移動対象が撮影された映像の各時刻の画像につき、移動対象の領域を（その他の背景領域と区別される）前景領域として検出し、当該検出された各時刻における前景領域を追跡部3へと出力する。追跡部3では、当該出力された各時刻の前景領域は移動対象の本来の領域に対してノイズを含むものであることから、カルマンフィルタを適用することによって、移動対象の各時刻における追跡結果を得て、判定部4へと出力する。以下、各部2,3の詳細を説明する。

検出部2では、以下の第一〜第三処理を順に実施することで、前景領域を得て追跡部3へと出力する。

第一処理として、周知の手法である背景差分法を適用することで、映像の各時刻の画像につき前景領域を検出する。ここで、背景差分法としては種々のものが利用可能であるが、例えば前掲の非特許文献４に開示のものを利用することができる。非特許文献４においては、混合正規分布(Mixture of Gaussian Distribution, MoG)を用いて背景をモデル化し、新たに観測された画像を用いて逐次的に背景モデルを更新しながら、当フレームの前景領域（動きのある領域）を検出している。

第二処理として、上記の第一処理で得た前景領域は本来の移動対象の領域の他にも、いわゆるゴマ塩状の領域等をノイズとして含んでいるので、当該ノイズ影響を低減するために、第一処理で得た前景領域に対してさらに、2値画像におけるノイズ低減処理として周知の膨張・収縮処理を適用する。ここで、膨張(erode)処理は以下の式(1)で示され、収縮(dilate)処理は以下の式(2)で示される。

なお、式(1),(2)において、dst(x,y)は膨張・収縮処理のそれぞれにおける出力画像（出力される前景領域）の構成画素を、src(x,y)は入力画像（入力される前景領域）の構成画素を表す。(x,y)は当該画像（すなわち領域）内に含まれる座標であり、図５に示すように、画像処理分野において慣用的に用いられているのと同様に、画像P（横Nx、縦Nyのサイズとする）の左上の頂点を原点とし、右方向にx軸を、下方向にy軸を取るものとする。図４では画像P内において座標(x,y)=(a1,a2)として特定される点Aが当該座標系を用いた画素位置指定の例として示されている。以下、本発明の説明において、図５で示したのと同様の座標系を用いる。

式(1),(2)では各画素位置(x,y)に関して、2値画像処理の分野で行われているように、当該位置に前景領域が存在すれば0の値（最小値の黒）を定義し、存在しなければ1の値（最大値の白）を定義するものとする。こうして、式(1),(2)では共に各画素位置(x,y)の所定近傍の一連の画素(x+x', y+y')を参照することで、式(1)では画素位置(x,y)の所定近傍内に1つでも0すなわち前景領域に属している画素があれば当該位置(x,y)を前景領域に置き換えることで膨張処理が実施され、式(2)ではこの逆の処理（近傍に1つでも背景領域があれば背景領域に置き換える処理）によって収縮処理が実施される。ここで、近傍については所定距離内などを採用すればよい。

第三処理として、上記の第二処理において前掲領域におけるゴマ塩状のノイズ領域は除去されたものの、本来は１つである移動対象が２つ以上の互いに近接した前景領域に分断されてしまっている可能性があるので、さらに、このような分断している領域を１つの移動対象であるものとして互いに合併する処理を行う。例えば、移動対象が歩行者である場合で当該歩行者が大きく腕を振って歩いているような場合、第二処理を終えた時点で頭、胴体及び脚の領域と腕の領域とが互いに分断されて別の前景領域となってしまっていることがあるので、第三処理ではこのような分断された領域を本来の１つの歩行者の領域であるものとして合併する。

第三処理は具体的には例えば、第二処理において得られた複数の前景領域のうち、領域の中心間の距離が所定の閾値以下となるようなもの同士を合併すればよい。ここで、領域の中心に関しては、領域の重心や、領域を囲む最小サイズの矩形の中心（対角線の交点）等の、領域に関して定義される所定位置を採用すればよい。当該囲む矩形については追跡部3に関して後述する図６におけるのと同様の矩形を用いることができる。

追跡部3では、上記の検出部2における最後の処理としての第三処理を経た前景領域を入力として受け取り、これに前掲の非特許文献３等に開示されている周知のカルマンフィルタを適用して、判定部4へと出力する。ここで、カルマンフィルタの適用に際して状態及び状態遷移を定義する必要があるが、例えば以下のようにすればよい。

まず、状態に関しては次のように定義すればよい。すなわち、各時刻の画像P(t)における前景領域F(t)に関して、図６に示すように当該前景領域F(t)を囲む最小矩形R(t)の中心C(t)（対角線の交点）を当該前景領域F(t)の位置(x(t),y(t))として定義し、さらに、この速度(v_x(t),v_y(t))を定義し、当該位置及び速度を合わせた(x(t),y(t), v_x(t),v_y(t))を状態として定義する。なお、速度(v_x(t),v_y(t))に関しては例えば、現時刻tの直近の過去時刻t-1の位置(x(t-1),y(t-1))との差分として以下の式(3),(4)のように求めればよい。

また、位置及び速度として定義された状態の時刻tから時刻t+1への状態遷移については以下の式(5)〜(8)ように定義すればよい。ここで、n_x(t),n_y(t),n_vx(t),n_vy(t)はノイズである。

判定部4では、検出追跡部1の追跡部3が以上のように出力した移動対象の状態(x(t),y(t), v_x(t),v_y(t))及び矩形領域R(t)の情報に基づき、移動対象が以下のように定義される3つの状態W,T,Nのいずれに該当するかを出力する。
W：walkingすなわち、歩行等で移動している状態である。
T：toward cameraすなわち、カメラ視点に向かって真っすぐに移動している状態である。
N：non-walkingすなわち、歩行等での移動をしていない状態である、あるいは移動対象ではない。

上記では移動に関して歩行(walking)として状態を表す符号として採用しているが、前述の通り、歩行は移動の一例に過ぎないことに注意されたい。また、状態Tに関してはカメラ視点に向かって真っすぐに近づくよう移動する状態の他、その逆向きであるカメラ視点から真っすぐに遠ざかる（away from camera）場合も含むものとする。

なお、現時刻の画像P(t)において追跡部3が2以上の移動対象につきその状態を求めている場合は、判定部4では各移動対象につきそれぞれ、状態W,T,Nのいずれに該当するかを出力する。以下、判定部4が現時刻tの画像P(t)における移動対象に関して当該３つの状態W,T,Nのいずれに該当するかを判定する処理の詳細を説明する。

図７は、一実施形態に係る判定部4の機能ブロック図であり、判定部4は状態N（移動対象に該当しない）であるか否かを判定する第一判定部41と、状態W（移動している）であるか否かを判定する第二判定部42と、状態T（カメラ視点に対して真っすぐに移動している）であるか否かを判定する第三判定部43と、を備える。

図８は、図７の第一〜第三判定部41〜43が互いに連携して判定を行う一実施形態のフローチャートである。以下、図８の各ステップを説明しながら、各部41〜43の詳細を説明する。

ステップS1では、第一判定部41が、移動対象の状態(x(t),y(t), v_x(t),v_y(t))に対して事前学習されたランダム木やSVM（サポートベクトルマシン）等の分類器を適用し、移動対象ではなく状態Nに該当するか否かを判定してから、ステップS2へと進む。

ここで、ステップS1の目的は、次の通りである。すなわち、検出追跡部1においては移動対象として検出されたが、実際は歩行者のように継続的に移動するものではなく、オフィス空間にある物（パソコンなど）が偶然少し動いたものであった、あるいは人物の動きではあるが歩行のように移動を伴うものではなく、頭や手だけが動いていたものであった、というような場合をノイズとして排除することがステップS1の目的である。従って、分類器を事前に学習する際には、学習用映像に対して検出追跡部1を適用し、一連の移動対象の追跡結果を得たうえで、人手などにより追跡された移動対象が本当に移動対象であるか否かのラベル付与を行ったものを学習用データとし、分類器を構築するようにすればよい。

ステップS2では、ステップS1の判定結果が状態N（移動対象ではない）であったか否かが判断され、状態Nであった場合はステップS11へと進み、判定部4の判定結果として状態Nを出力して当該フローを終了する。一方、ステップS2で状態Nではなかった場合にはステップS3へと進む。

ステップS3では、第二判定部42が、ルールベースの手法により移動対象が状態Wに該当するか否かを判定してから、ステップS4へ進む。ステップS3の詳細は以下の通りである。

すなわち、移動対象の状態(x(t),y(t), v_x(t),v_y(t))に関して、過去時刻t0から現時刻tに至るまでの各時刻i(i=t0,t0+1,t0+2, … , t-2,t-1,t)の一連の状態(x(i),y(i), v_x(i),v_y(i))を参照することにより、時刻t0〜t間におけるx方向の移動量D_xと平均速度avg_v_xとを求め、以下のルールベースの式(9)が成立する場合に、状態Wであると判定する。そして、成立しなければ状態Wではないと判定する。

式(9)において、THD及びTHVはそれぞれ、移動量D_xと平均速度avg_v_xとに対する所定の閾値である。式(9)はすなわち、x方向の移動量D_xと平均速度avg_v_xとが共に大きい場合に、状態Wであると判定するものである。

また、図５で画像の座標(x,y)を説明し、図２で画像の実例を示した通り、画像上の縦方向であるy方向がカメラ視点に向かって真っすぐに近づく又は遠ざかる方向であるのに対し、画像上の横方向であるx方向はカメラ視点を横切って移動する方向（カメラに平行な方向）を意味している。従って、ステップS3において第二判定部42により判定される状態Wとはすなわち、移動対象がカメラ視点を横切って移動している状態である。

なお、式(9)の過去の時刻t0に関しては、現時刻tから所定フレーム数の過去時刻としてもよいし、現時刻tにおいて（状態判定の対象として）当該注目している移動対象が初めて検出された時刻としてもよい。

第二判定部42ではまた、式(9)に加えて次の条件も満たす場合に、状態Wであると判定するようにしてもよい。すなわち、現時刻tにおいて当該注目している移動対象が、検出追跡部1において連続して一定フレーム数以上、追跡されているという条件である。当該条件を課すことで、時間軸上の安定性を考慮することができる。

ステップS4では、ステップS3の判定結果が状態W（x方向の移動対象である）であったか否かが判断され、状態Wであった場合はステップS13へと進み、判定部4の判定結果として状態Wを出力して当該フローを終了する。一方、ステップS4で状態Wではなかった場合にはステップS5へと進む。

ステップS5では、第三判定部43が、式(9)と同様の過去時刻t0から現時刻tまでにおける一連の移動対象の領域R(i)(i=t0,t0+1, …, t-1,t)の変化量r(i)より現時刻tにおける移動対象の領域R(t)の特徴量Q(t)を求め、当該特徴量Q(t)に対して予め学習されているランダム木やSVM等の分類器を適用することにより、現時刻tの移動対象が状態Tに該当するか否かを判定し、ステップS6へ進む。ステップS5の詳細は以下の通りである。

すなわち、領域R(t)とは図６で説明したのと同様の、現時刻tにおける前景領域としての移動対象の領域F(t)を囲む矩形である。特徴量Q(t)には、図２で説明したような状態Tを判定可能な特徴量として、例えば以下のようなものを採用することができる。

第一実施形態として、以下の式(10)のように各時刻iにおける領域R(i)の面積S(i)の変化量r1(i)を求め、式(11)のように当該面積の変化量r1(i)の時刻t0〜t間での平均を特徴量Q(t)として求めることができる。

第二実施形態として、以下の式(12)のように各時刻iにおける領域R(i)の幅w(i)（図５，６等で定義した座標におけるy方向の幅、すなわち横幅）の変化量r2(i)を求め、式(13)のように当該横幅の変化量r2(i)の時刻t0〜t間での平均を特徴量Q(t)として求めることができる。

なお、上記の第一及び第二実施形態の式(10),(12)ではそれぞれ、変化量r1(i),r2(i)を面積S(i),横幅w(i)の変化比率として求めているが、差の絶対値などとして求めるようにしてもよい。その他、変化を表す任意の量として求めるようにしてもよい。また、第三実施形態として、第一実施形態で求めた特徴量をQ1(t)とし、第二実施形態で求めた特徴量をQ2(t)とし、これらを合わせた(Q1(t),Q2(t))を特徴量として採用するようにしてもよい。

また、特徴量Q(t)に関しては、以上の式(10)〜(14)のような面積変化や横幅変化に基づく量に限られず、図２で説明したような領域R(t)の変化、特に大きさの変化を反映するものとして算出される任意の量を用いることができる。

なお、ステップS5における第三判定部43による状態Tに該当するか否かの判定では、上記のように特徴量Q(t)に対して分類器を適用することに加えて、次の条件を課すようにしてもよい。すなわち、ステップS3における第二判定部42で課すことのできる追加条件と同様に、現時刻tにおいて当該注目している移動対象が、検出追跡部1において連続して一定フレーム数以上、追跡されているという条件である。当該条件を課すことで同様に、時間軸上の安定性を考慮することができる。

ステップS6では、ステップS5の判定結果が状態T（カメラ視点に対して真っすぐに移動する移動対象である）であったか否かが判断され、状態Tであった場合はステップS12へと進み、判定部4の判定結果として状態Tを出力して当該フローを終了する。一方、ステップS5で状態Tではなかった場合にはステップS11へと進み、判定部4の判定結果として状態N（移動対象ではない）を出力して当該フローを終了する。

以上、図７及び図８を参照して、判定部4の一実施形態を説明した。以下、これに関しての補足を何点か説明する。

（補足１）上記の一実施形態では、第一判定部41及び第二判定部42が第三判定部43の判定を行うための振り分け判定として機能しているが、第一判定部41及び／又は第二判定部42を省略して、第三判定部43を適用するようにしてもよい。例えば、第一判定部41で状態Nではなかった場合に、第二判定部42を省略して第三判定部43の判定を行うようにしてもよいし、最初から第三判定部43のみの判定を行うようにしてもよい。また、第一判定部41及び第二判定部42の振り分け判定を行う順番を逆転させるようにしてもよい。

なお、第一判定部41を省略する場合は、ステップS1,S2の処理を省略して分岐ステップS2では常にステップS3に進むようにすればよい。第二判定部42を省略する場合は、ステップS3,S4の処理を省略して分岐ステップS4は常にステップS5に進むようにすればよい。

（補足２）第三判定部43では各時刻iの領域R(i)の面積S(i)や横幅w(i)といった量を用いたが、これらはノイズの影響を受けている場合もありうるので、各時刻iの時系列としての面積S(i)や横幅w(i)に対してローパスフィルタを適用、あるいは関数フィッティングなどを適用することでノイズの影響を除外したうえで、式(10),(12)のような変化量r1(i),r2(i)を計算するようにしてもよい。

（補足３）第三判定部43で状態Tの判定が得られた場合、第三判定部43における追加処理として、当該カメラ視点に対して真っすぐの方向であるy方向の移動対象の速度を算出するようにしてもよい。すなわち、追跡部3におけるカルマンフィルタの出力として各時刻iの状態(x(i),y(i), v_x(i),v_y(i))が得られているものの、現時刻tが状態Tであると判定された場合、図２で説明したような状況であるため、カルマンフィルタ出力におけるy方向の速度v_y(t)は実際の速度を反映していない可能性が高い。そこで、第三判定部43において以下のようにして、実際の値を推定するものとして、y方向の移動対象の速度を算出するようにしてもよい。

具体的には、式(10)のr1(t)又は式(12)のr2(t)とy方向の速度V(t)とに相関があるものとし、以下の式(14)又は(15)のように算出することができる。
V(t)=k1*r1(t) …(14)
V(t)=k2*r2(t) …(15)

なお、上記において推定対象となっているy方向の速度V(t)とは、仮に図２のような状況が発生していなかったとした場合に画像上において検知されるであろうy方向に関する速度である。

ここで、k1,k2は共に、相関を考慮して予め与えておく定数であり、カメラのキャリブレーションや、実際に映像が撮影される空間における奥行き（y方向）の３D空間の距離を考慮した定数として与えることができる。

また、k1又はk2を上記のように定数として与えておく以外の実施形態として、実際に撮影している映像からkを算出する実施形態も以下のように可能である。

すなわち、状態Tが判定された現時刻tの直前時刻t-1（1フレーム手前の時刻）が状態W(x方向の移動)と判定されていたのであれば、カルマンフィルタ出力において得られている当該直前時刻t-1のx方向の速度v_x(t-1)から相関が取得可能であるものとして、以下の式(16)又は(17)のように算出すればよい。
k1= v_x(t-1)/r1(t-1) …(16)
k2= v_x(t-1)/r2(t-1) …(17)

また、直前時刻t-1が状態Wではない場合は、一定範囲内の直近時刻t-kにおいて状態Wがあれば、当該直近時刻t-kにおいて上記の式(16),(17)と同様に算出するようにしてもよいし、これまで計測されている全ての移動対象の速度の平均値をv_x(t-1)として使うようにしてもよい。当該平均値を使う場合、判定装置10において図３等に不図示の記憶部を備えるようにし、状態Wが判定される都度、その時点iのx方向の速度v_x(i)（カルマンフィルタが出力したもの）を記憶させるようにしておき、平均値を算出するようにすればよい。ここで、平均値の算出においては、所定期間の過去のみ（例えば過去１週間のみ）の平均として算出するようにしてもよい。

以下、以上説明した判定装置10の応用利用として、遠隔コミュニケーション支援装置に判定装置10の全部又は一部を組み込んで利用する、又は判定装置10と遠隔コミュニケーション支援装置とを組み合わせて利用することに関する一実施形態を説明する。

図９は、遠隔コミュニケーション支援装置の一部又は全部、あるいは遠隔コミュニケーション支援装置と組み合わせて利用可能な、いわゆる首型のテレプレゼンスロボットTR1が図１と同様のオフィス空間に配置されている模式的な例を示す図である。図９ではすなわち、図１と同様のオフィス空間O1においてドアD1の位置に、ドアD1の代わりにテレプレゼンスロボットTR1（以下、ロボットTR1と略称する）が配置されている点を除いて、図１と同様のオフィス空間O1が示されている。

ロボットTR1はカメラC1を備え、オフィスO1における勤務者H1等を撮影することができ、ディスプレイDP1を備えることで、オフィスO1とは別の自宅等において勤務している遠隔勤務者の顔画像等をオフィスO1側に表示することができる。その他、ロボットTR1はマイク及びスピーカを備えることで、遠隔勤務者とオフィス側とでテレビ電話機能によって遠隔コミュニケーションを実現することができる。なお、図９では示されていないが、ロボットTR1と同様のテレビ電話機能を備える機器を遠隔勤務者の側にも配置しておく必要がある。

ロボットTR1はまた、遠隔勤務者等の操作によって、配置されているオフィス空間O1においてカメラC1で撮影している範囲を変える（すなわちロボットTR1の視点を変える）機能や、オフィス空間O1内を車輪等のアクチュエータを駆動して移動する機能を備えていてもよい。

図１０は、一実施形態に係る遠隔コミュニケーション支援装置の機能ブロック図である。遠隔コミュニケーション支援装置20（以下、支援装置20と略称する）は、図３〜８等で説明したのと同様の判定装置10と、ロボットTR1の動作を制御する制御部11と、遠隔勤務者の側へ通知を行う通知部12と、を備える。

図１０の実施形態において、判定装置10は第一地点（オフィス空間等）の映像を入力として受け取り、第一地点において移動対象が存在して状態Tに該当するか否かを判定する。状態Tに該当すると判定された場合、制御部11及び通知部12が以下のように動作することが可能である。

制御部11は、状態Tとして移動対象（オフィスの歩行者等）が検出された場合に、ロボットTR1の視線（図１０のカメラC1）が当該移動対象の方を向く（つまり、ロボットTR1が移動対象の方に視線を向ける）ように、ロボットTR1を制御する。なお、当該制御を行う場合、ロボットTR1には少なくとも、カメラC1の視線を水平方向内において移動調整するアクチュエータ機構が備わっているものとする。

具体的には、まず、一定時間間隔（例えば、0.5秒間隔）で現時点の目標角度θを式（18）で算出する。ここで、図９の例のようにロボットTR1の顔に相当する正面方向とカメラC1の光軸方向が同じであることを前提とする。図９の例は、カメラC1がロボットTR1の頭部と一体になっている構成であり、この前提が満たされている。

図１１は上記の式(18)が想定している配置を、画像Pを水平に切った断面において示す図であり、xは歩行者の中心と画像の中心間のピクセル数であり、Lは映像における画像Pの横幅（図５のNx）の半分（すなわち、L=Nx/2）であり、ФはカメラC1の視野角度の半分である。図１１において、点P1はカメラ位置、点P2は画像Pの中心、点P3は画像Pにおいて検出された移動対象の中心位置である。

次に、現時点のロボットTR1の視線の角度と目標角度を比較し、ロボットTR1を制御する。目標角度との差が一定数値（TH1）以上、または一定数値（TH2）以下になると、ロボットTR1は動かさないように制御する。目標角度との差がこれに該当しない場合には、一定時間間隔以内に目標角度まで移動できる場合は目標角度まで移動し、間に合わない場合は最大スピードで一定時間間隔だけ移動させるようにする。

なお、ロボットの視線を移動対象等の目標に一致させるための制御に関しては、上記に限らず種々の既存技術を利用してもよい。

通知部12では、歩行者等の移動対象が判定装置10によって状態Tと判定され、且つ、ロボットTR1と一定距離以内に接近した場合に、第二地点への当該移動対象が存在して接近している旨の通知を行う。テレワーク支援の場合、第二地点には例えば在宅勤務者が存在しており、在宅勤務者へ通知が行われる。ここで、通知部12では、在宅勤務者の状態が忙しいか否かによって、通知の形を選択することができる。

通知部12において、一定距離内、例えば２メートル以内の距離にいるかどうかを判定するために、映像の中に検出した歩行者等の移動対象の領域R(t)の横縦比と大きさを利用することができ、以下の条件１、２の両者を満たす場合に当該判定を下すことができる。
（条件１）：移動対象の領域の横縦比（アスペクト比）が一定値以下となること、すなわち、移動対象の領域が閾値判定によって縦に長い状態ではないと判定されること
（条件２）：大きさ（領域R(t)の横幅及び／又は縦幅）が一定値以上になること

また、通知部12において、在宅勤務者が忙しいかどうかを判定する手法としては、例えば、前掲の非特許文献５に開示の手法を利用することができる。非特許文献５では、在宅勤務者等の対象者に精神生理学上のデータを取得する特定のセンサ（例えば、EEGセンサ（脳波センサ）を付けるNeurosky Mindband（商品名）、EDAセンサ（皮膚電位センサ）を付けるEmpatica E3（商品名））を装着し、当該センサの取得したデータを予め学習された単純ベイズ分類器に入力し、忙しいかどうかの判定結果を得ている。

通知部12では、在宅勤務者が忙しいと判定したら、文字等視覚通知のみを表示する。また、在宅勤務者が忙しくないと判定したら、前記文字等視覚通知を表示すると共に効果音を再生する。すなわち、通知の内容については、第一地点側において移動対象が存在して状態Tである旨の情報その他の、支援装置20の用途に応じた所定の内容とすればよい。なお、在宅勤務者が忙しい時には、制御部11の制御により、オフィス側（第一地点側）での勤務者がロボットTR1に見られている感（注目されている感覚）に用いるロボット動作を抑制するようにしてもよい。

以下、前述の（補足１）〜（補足３）の続きとして、本発明における補足事項を述べる。

（補足４）判定装置10及び支援装置20のそれぞれに関して、その各部（図３や図１０等で説明した各要素機能部）を実現するためのハードウェア構成に関しては、通常のコンピュータにおけるハードウェア構成を採用することができる。

すなわち、各部を実現する判定装置10及び支援装置20のハードウェア構成としては、スマートフォンやタブレット端末といったような携帯端末の他、デスクトップ型、ラップトップ型その他の一般的なコンピュータの構成を採用することができる。すなわち、CPU(中央演算装置)と、CPUにワークエリアを提供する一時記憶装置と、プログラム等のデータを格納する二次記憶装置と、各種の入出力装置と、これらの間でのデータ通信を担うバスと、を備える一般的なコンピュータのハードウェア構成を採用できる。CPUが二次記憶装置に格納されたプログラムを読み込んで実行することで、図３や図１０等に示した各部が実現される。本発明はこのようなプログラムとしても提供可能である。なお、各種の入出力装置としては、画像取得するカメラ、表示を行うディスプレイ、ユーザ入力を受け取るタッチパネルやキーボード、音声を入出力するマイク・スピーカ、外部と有線・無線にて通信を行う通信インタフェース、といったものの中から必要機能に応じたものを利用することができる。

（補足５）第三判定部43においては、各時刻iにおけるr1(i)やr2(i)といった領域R(i)の変化を反映したものとして現時刻tについて算出された特徴量Q(t)に分類器を適用して状態Tの判定を行うものとしたが、このための分類器については、第一判定部41において説明したのと同様に、事前にラベル付与された教師データを人手等で与えておいて学習により構築しておけばよい。

第三判定部43においてはまた、上記の特徴量Q(t)に加えて、カルマンフィルタの出力した現時刻tの状態(x(t),y(t), v_x(t),v_y(t))も、特徴量として採用し、上記と同様に事前学習された分類器で状態Tの判定を行うようにしてもよい。すなわち、(Q(t),x(t),y(t),v_x(t),v_y(t))の全体を特徴量として採用するようにしてもよい。

第三判定部43ではまた、カメラ視点に対して真っすぐ近づいてきている状態と、これとは逆方向に遠ざかっている状態と、を区別して判定するようにしてもよい。この場合、以上説明したのと同様にして、近づいてきている状態を判定する分類器と、遠ざかってきている状態を判定する分類器と、をそれぞれ個別に事前学習させて用意しておけばよい。特徴量Q(t)等に関しても、それぞれ個別の特徴量を求めるようにしてもよい。

（補足６）以上の説明より明らかなように、判定装置10は次のような映像にも適用可能である。すなわち、対象は静止しているがこれに対してカメラが移動することで、図２のような映像が得られる場合には、このような映像にも判定装置10は適用可能であり、カメラに対して対象が真っすぐに近づいている、あるいは遠ざかっている、という判定結果を得ることができる。ただし、この場合、背景差分法が適用可能なように、対象は大きさ等が変化するが背景は（非常に遠方にある等によって）ほぼ変化しない状態であることが好ましい。同様に、対象及びカメラの両者が移動して図２のような映像が得られるのであれば、このような映像に対しても判定装置10による判定が可能である。

さらに同様に、カメラで撮影された実写映像に限らず、コンピュータグラフィックで作成された映像や、アニメーション映像や、これらの組み合わせの映像に対しても判定装置10による判定が可能である。すなわち、映像が生成された過程によらず、図２のような移動対象の変化が起きている任意に映像に対して、判定装置10による判定が可能であり、当該映像の視点（実写映像の場合、カメラ視点）に対して移動対象が真っすぐに近づいているか遠ざかっているかの判定を行うことができる。

（補足７）検出追跡部1に関して、以上説明したような動き特徴量によって領域を検出及び追跡する手法は、映像がオフィス環境等において撮影されたものである場合に好適な一例の手法である。すなわち、オフィス環境では、照明なども相対的に安定であり、風などにより木やものの動きも少ないため、殆どの動きは人間に起因するものであることが想定される。例えば、人の移動、手や頭の動き、人の操作によるPCや椅子など物の移動である。よって、オフィス環境では、動きを安定的に検出できる、且つ、ほとんどの場合において動きの意味・種類は明確である。一方、オフィス環境では、家具や他人によりオクルージョンが多発するので、前掲の非特許文献２におけるHoGや色ヒストグラム、エッジなどテクスチャ関連の特徴量に対して時間的な連続性が足りないことが想定される。

しかしながら、テクスチャ関連の特徴量の方が領域の検出・追跡に好適な環境で映像が撮影されている場合は、検出追跡部1は当該テクスチャ関連の特徴量に基づいて領域の検出・追跡を行うようにすればよい。その他、映像の特性に応じた任意の既存手法を用いて、検出追跡部1による映像からの移動領域F(t)の検出・追跡を実現し、以上説明したのと同様に領域F(t)を囲む矩形として領域R(t)を検出してからカルマンフィルタを適用して状態(x(t),y(t), v_x(t),v_y(t))を出力するようにしてよい。

10…判定装置、1…検出追跡部、4…判定部
20…遠隔コミュニケーション支援装置、11…制御部、12…通知部

Claims

映像を解析して移動対象の検出及び追跡を行う検出追跡部と、
前記追跡された移動対象の領域の変化に基づいて、移動対象における移動の判定を、前記映像におけるカメラ視点に対して真っすぐに近づく又は遠ざかる移動の判定を含めて行う判定部と、を備え、
前記判定部は、前記追跡された移動対象における横方向の所定期間の移動量及び／又は横方向の移動速度に基づいて、当該追跡された移動対象が横方向に移動しているものであるか否かの判定を行い、当該横方向に移動しているとは判定されなかった場合に、前記映像におけるカメラ視点に対して真っすぐに近づく又は遠ざかる移動の判定を行うことを特徴とする判定装置。
前記判定部は、前記追跡された移動対象の領域の面積の変化に基づいて、前記映像におけるカメラ視点に対して真っすぐに近づく又は遠ざかる移動の判定を行うことを特徴とする請求項１に記載の判定装置。
前記判定部は、前記追跡された移動対象の領域の横幅の変化に基づいて、前記映像におけるカメラ視点に対して真っすぐに近づく又は遠ざかる移動の判定を行うことを特徴とする請求項１または２に記載の判定装置。
前記判定部は、前記映像におけるカメラ視点に対して真っすぐに近づく又は遠ざかる移動がある旨の判定が行われた場合にさらに、前記追跡された移動対象の領域の変化に基づいて、前記真っすぐに近づく又は遠ざかる移動の速度を推定することを特徴とする請求項１ないし３のいずれかに記載の判定装置。
前記判定部は、前記速度を推定するに際してさらに、前記映像におけるカメラ視点に対して真っすぐに近づく又は遠ざかる移動がある旨の判定が行われた時点の直近の過去時点において検出されている、前記追跡された領域の横方向の速度に基づいて推定することを特徴とする請求項４に記載の判定装置。
前記判定部は、前記追跡された移動対象における位置及び速度に基づいて、当該追跡された移動対象が実際の移動対象であるか否かの判定を行い、当該実際の移動対象であると判定された場合に、前記映像におけるカメラ視点に対して真っすぐに近づく又は遠ざかる移動の判定を行うことを特徴とする請求項１ないし５のいずれかに記載の判定装置。
前記検出追跡部は、背景差分法によって前記映像の各時刻の画像において前景領域を抽出し、当該抽出した前景領域に基づいて前記移動対象の追跡を行うことを特徴とする請求項１ないし６のいずれかに記載の判定装置。
コンピュータを請求項１ないし７のいずれかに記載の判定装置として機能させることを特徴とするプログラム。
請求項１ないし７のいずれかに記載の判定装置と、通知部と、を備える遠隔コミュニケーション支援装置であって、
前記判定装置が第一地点の映像を解析することで、当該映像におけるカメラ視点に対して真っすぐに近づく又は遠ざかる移動対象があることが判定された場合に、
前記通知部が、第二地点に対して通知を行うことを特徴とする遠隔コミュニケーション支援装置。