JP2017028375A

JP2017028375A - 映像処理装置、及びプログラム

Info

Publication number: JP2017028375A
Application number: JP2015142504A
Authority: JP
Inventors: 耕司桑田; Koji Kuwata; 智幸後藤; Tomoyuki Goto; 内山　裕章; Hiroaki Uchiyama; 裕章内山; 清人五十嵐; Kiyoto Igarashi; 和紀北澤; Kazuki Kitazawa; 高橋　仁人; Masahito Takahashi; 仁人高橋; 宣正銀川; Nobumasa Gingawa
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2015-07-16
Filing date: 2015-07-16
Publication date: 2017-02-02
Also published as: US20170019635A1; US9565395B1

Abstract

【課題】出力に用いる映像の範囲が変更される時の映像の符号化処理の効率化を図りつつ、出力の映像の伝送効率の低下を抑える。
【解決手段】カメラで撮影された映像の使用する範囲から、映像のフレームを生成する生成部であって、前記使用する範囲は前記映像の空間的範囲を定める前記生成部と、前記映像のフレームを、フレーム間予測を用いて符号化される第１の映像のフレーム、又はフレーム内予測を用いて符号化される第２の映像のフレームのいずれかの映像のフレームの種類に応じて符号化する符号化部と、前記使用する範囲の変更に用いるトリガを検知し、前記生成部に通知する検知部と、を有し、前記符号化部は、前記映像のフレームに設定される前記映像のフレームの種類を予め前記生成部に通知し、前記トリガの受信に応じて、前記生成部は、通知された前記映像のフレームの種類に基づいて、前記使用する範囲を変更する。
【選択図】図３

Description

本発明は、映像処理装置、及びプログラムに関する。

テレビ会議システム等で用いられるカメラに、広角レンズを用いて広い範囲の映像を撮影し、撮影された映像から出力に用いる映像を生成する方法が普及しつつある。

かかる方法によれば、出力の対象物が変更されたことを検知したことに応じて、出力の対象物が含まれるように出力に用いる映像の範囲を変更する。

出力の対象物は、テレビ会議の状況等により、現在の出力に用いる映像の範囲と関わりなく変更される。テレビ会議システム等では、フレーム間予測により符号化処理を行っているため、出力に用いる映像の範囲が変更される時には符号化処理が非効率なものとなる。

上述した問題を解決するために、出力の対象物が変更される時には、フレーム間予測による符号化処理を行うのをやめ、フレーム内予測により符号化処理を行う方式が提案されている（例えば、特許文献１）。しかしながら、フレーム内予測により符号化処理を行うと、出力の映像の伝送効率が悪化する。

本発明は上記の点を鑑みてなされたものであり、出力に用いる映像の範囲が変更される時の映像の符号化処理の効率化を図りつつ、出力の映像の伝送効率の低下を抑えることを目的とする。

本実施形態に係る映像処理装置は、カメラで撮影された映像の使用する範囲から、映像のフレームを生成する生成部であって、前記使用する範囲は前記映像の空間的範囲を定める前記生成部と、前記映像のフレームを、フレーム間予測を用いて符号化される第１の映像のフレーム、又はフレーム内予測を用いて符号化される第２の映像のフレームのいずれかの映像のフレームの種類に応じて符号化する符号化部と、前記使用する範囲の変更に用いるトリガを検知し、前記生成部に通知する検知部と、を有し、前記符号化部は、前記映像のフレームに設定される前記映像のフレームの種類を予め前記生成部に通知し、前記トリガの受信に応じて、前記生成部は、通知された前記映像のフレームの種類に基づいて、前記使用する範囲を変更する。

本実施形態によれば、出力に用いる映像の範囲が変更される時の映像の符号化処理の効率化を図りつつ、出力の映像の伝送効率の低下を抑える映像処理装置、及びプログラムを提供することが可能となる。

一実施形態に係る映像処理システムの一例を示す図である。一実施形態に係る映像の使用する範囲の設定に係る各機能の連携動作の一例を示す図である。一実施形態に係る映像の使用する範囲の変更タイミングの一例を示す図である。一実施形態に係る画像処理部の処理内容の一例を示す図である。一実施形態に係る映像処理装置のハードウェア構成の一例を示す図である。一実施形態に係る動作手順の一例を示す図である。一実施形態に係る動作手順の一例を示す図である。

［第１実施形態］
＜システム構成、及び機能構成＞
（１）システム全体構成
図１を用いて、本実施形態に係る映像処理システム１００について説明する。

図１では、２台の映像処理装置１が、ネットワーク４０とサーバ３０とを介して接続されている構成を示している。図１では、２つの映像処理装置１が接続されている様子を示しているが、３台以上の映像処理装置１が、ネットワーク４０とサーバ３０とを介して接続されてもよい。

映像処理装置１Ａを送信側、映像処理装置１Ｂを受信側とした場合、映像処理装置１Ａで撮影された映像、及び受信した音声が、ネットワーク４０とサーバ３０とを介して、映像処理装置１Ｂに送信される。

（２）映像処理装置の機能構成（全体）
図１を用いて、映像処理装置１の機能構成について説明する。

映像処理装置１は、カメラ１０、ディスプレイ１２、スピーカ１３、マイクアレイ２６、ＤＰＴＺ（ＤｉｇｉｔａｌＰａｎＴｉｌｔＺｏｏｍ）制御部５０、端末装置１４、及び全体制御部（システム制御）２８を有する。

端末装置１４は、画像処理部１５、エンコーダ１６、ネットワーク処理部１７、デコーダ１８、ネットワーク状態検知部２０、相手局機能判別部２２、音声判別部２４、及び検知部６０を有する。

カメラ１０は映像を撮影し、撮影した映像をＤＰＴＺ制御部５０に送信する。ＤＰＴＺ制御部５０は、カメラ１０で撮影された映像の使用する範囲から、映像のフレームを生成し、端末装置１４に送信する。

マイクアレイ２６は、音の入力を受け付け、入力された音のデータを端末装置１４に送信する。

端末装置１４は、受信した映像のフレームと、音のデータとを符号化し、通信相手の映像処理装置１に送信する。

端末装置１４は、通信相手の映像処理装置１から符号化された映像のフレームと、符号化された音のデータとを受信し、復号化の処理を行う。復号化処理された映像のフレームと、音のデータとは、それぞれディスプレイ１２と、スピーカ１３とに出力される。

ディスプレイ１２は、端末装置１４から受信した映像のフレームを出力する。スピーカ１３は、端末装置１４から受信した音のデータを出力する。

以下、ＤＰＴＺ制御部５０と、エンコーダ１６との関係を中心に映像処理装置１の機能構成について詳細に説明する。なお、ＤＰＴＺ制御部５０は生成部の一例である。

ＤＰＴＺ制御部５０は、カメラ１０で撮影された映像の使用する範囲から、映像のフレームを生成する。ここで、映像の使用する範囲は映像の空間的範囲を定めるものである。

エンコーダ１６は、ＤＰＴＺ制御部５０から、映像のフレームを、画像処理部１５を介して受信する。エンコーダ１６は、かかる映像のフレームを、フレーム間予測を用いて符号化される第１の映像のフレーム、又はフレーム内予測を用いて符号化される第２の映像のフレームのいずれかの映像のフレームの種類に符号化を行う。

ここで第１の映像のフレームは、前方向予測を用いて符号化されるフレームであるＰフレーム（ＰｒｅｄｉｃｔｅｄＦｒａｍｅ）でもよいし、前方向予測、及び後方向予測を用いて符号化されるフレームであるＢフレーム（Ｂｉ−ｄｉｒｅｃｔｉｏｎａｌＰｒｅｄｉｃｔｅｄＦｒａｍｅ）でもよい。なお、Ｂフレームは、符号化の遅延が大きいため、リアルタイム性の要求が高いテレビ会議等で利用されることは少ない。

第２の映像のフレームは、フレーム間予測を用いずに符号化されるフレームであるＩフレーム（Ｉｎｔｒａ−ｃｏｄｅｄＦｒａｍｅ）である。

検知部６０は、映像の使用する範囲の変更に用いるトリガを検知し、ＤＰＴＺ制御部５０に通知する。

トリガとは、音の発生、及び人間の出現等である。例えば、テレビ会議中に発言者が変わった場合、検知部６０は発言者の変更を検知する。発言者の変更を検知した場合、映像の使用する範囲は、発言者を含むように決定される。また、映像処理装置１が監視用に用いられている場合、検知部６０は監視範囲に人間の出現を検知する。人間の出現を検知した場合、映像の使用する範囲は、人間を含むように決定される。

エンコーダ１６は、映像のフレームに設定される映像のフレームの種類を予めＤＰＴＺ制御部５０に通知する。

トリガを受信することに応じて、ＤＰＴＺ制御部５０は、通知された映像のフレームの種類に基づいて、映像の使用する範囲を変更する。

ＤＰＴＺ制御部５０は、第２の映像のフレームで、映像の使用する範囲を変更することが望ましい。

つまり、ＤＰＴＺ制御部５０は、エンコーダ１６から予め通知される映像のフレームの種類を確認し、エンコーダ１６に入力される第２の映像のフレームに対して、映像の使用する範囲を変更することが望ましい。

第２の映像のフレームで、映像の使用する範囲が変更されるため、符号化の効率が悪化しない。また、第２の映像のフレームの数は増加しない。このため、第２の映像のフレームが増加することによる伝送効率の低下を回避することができる。

ＤＰＴＺ制御部５０は、トリガを受信することに応じて、映像の使用する範囲を変更してもよい。この場合、ＤＰＴＺ制御部５０は、エンコーダ１６に映像の使用する範囲が変更されたことを示す変更の通知を送信する。

エンコーダ１６は、かかる変更の通知の受信に応じて、映像の使用する範囲が変更された最初の映像のフレームに対して、第２の映像のフレームを用いることが望ましい。

また、ＤＰＴＺ制御部５０は、かかる最初の映像のフレームに後続するＮ個の映像のフレームを、同一の映像のフレームとしてもよい。なお、Ｎは１以上の任意の自然数である。

エンコーダ１６は、後続のＮ個の同一の映像のフレームに対する符号化をフレーム間予測により実行するため、Ｎ個の映像の符号化の効率は悪化しない。第２の映像のフレームが設定される映像のフレームの数が１つ増加するが、後続するＮ個の同一の映像のフレームが生成されるため伝送効率の低下を抑えることができる。

なお、映像処理装置１から、通信相手の映像処理装置１に、Ｎ個の同一の映像のフレームが連続する旨を通知すれば、Ｎ個の同一の映像のフレーム自体が、通信相手の映像処理装置１に送信される必要はない。

全体制御部２８は、映像処理装置１のユーザの指示に従って各機能部の設定、及びステータス管理等を行う。

マイクアレイ２６は、音を収集し、収集した音を検知部６０と、音声判別部２４に伝える。なお、マイクアレイ２６は、複数のマイク素子により実現されてもよい。

ディスプレイ１２は、通信相手の映像処理装置１から送信された映像のフレームの出力を行う。

スピーカ１３は、通信相手の映像処理装置１から送信された音のデータの出力を行う。

画像処理部１５は、ＤＰＴＺ制御部５０から受信した映像のフレームに対して、画像処理を行う。具体的な画像処理の内容については後述する。

音声判別部２４は、マイクアレイ２６から受信した音のデータをエンコーダ１６に転送する。音声判別部２４は、かかる音のデータのうち音声のデータを抽出し、エンコーダ１６に送信してもよい。エンコーダ１６は、受信した音のデータの符号化処理を行う。

ネットワーク状態検知部２０は、ネットワーク４０の状態を検知し、エンコーダ１６に通知する。ネットワーク４０の状態とは、例えば混雑状況等である。

相手局機能判別部２２は、通信相手の映像処理装置１の復号化の機能等に関する情報を取得し、エンコーダ１６に通知する。

エンコーダ１６は、ネットワーク状態検知部２０、相手局機能判別部２２、及び音声判別部２４から取得した情報を基に送信モードを決定し、符号化した映像のフレーム、及び音のデータをネットワーク処理部１７に送信する。

ネットワーク処理部１７は、エンコーダ１６から受信した符号化された映像のフレーム、及び音のデータを通信相手の映像処理装置１に送信する。

デコーダ１８は、通信相手の映像処理装置１から受信した、映像のフレームと、音のデータとを復号し、復号された映像のフレームをディスプレイ１２に送信し、復号された音のデータをスピーカ１３に送信する。

なお、カメラ１０とＤＰＴＺ制御部５０とが統合された機能は、カメラモジュールと呼ばれてもよい。エンコーダ１６は符号化部の一例である。

（３）映像処理装置の機能構成（映像の使用する範囲の設定）
図２を用いて、映像の使用する範囲の設定に係る各機能の連携動作について詳細に説明する。

カメラ１０は、広角レンズ１０Ａと、撮像部１０Ｂと、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）１０Ｃとを有する。

まず、カメラ１０の内部構成について説明する。撮像部１０Ｂは、広角レンズ１０Ａを用いて、通常のレンズよりも広い範囲の映像を撮像し、撮像したデータをＤＳＰ１０Ｃに送信する。ＤＳＰ１０Ｃは撮像したデータに対してディジタル信号処理を行い、ディジタル信号処理の結果、生成された映像をＤＰＴＺ制御部５０に送信する。

次に、ＤＰＴＺ制御部５０の構成について説明する。ＤＰＴＺ制御部５０は、シーンチェンジ検知部５１と、使用範囲設定部５２とを有する。

使用範囲設定部５２は、カメラ１０から受け取った映像の使用する範囲のみを選択し、画像処理部１５に送信する。映像の使用する範囲は、フレーム毎に、動的に設定可能である。映像の使用する範囲は、全体制御部２８からの指示に基づいて設定される。

映像の使用する範囲の変更は、ユーザからカメラ１０が動的に上下、左右に移動して撮影対象を変更しているように体感される。かかる映像の使用する範囲の変更は、「デジタル・パンチチルト」と呼ばれてもよい。

映像の使用する範囲の大きさについては、ズーム倍率の設定、及び通信相手の映像処理装置１に送信する映像の解像度等に基づいて決定される。

シーンチェンジ検知部５１は、カメラ１０から受信した映像を分析し、カメラ１０による撮影対象の変更を検知する。シーンチェンジ検知部５１は、例えば、カメラ１０から受信した各映像のフレームについてヒストグラムを作成し、かかるヒストグラムの変化の度合いからシーンチェンジのトリガを検知し、使用範囲設定部５２に通知してもよい。

なお、シーンチェンジ検知部５１と、検知部６０とを合せて検知部を構成してもよい。

全体制御部２８は、映像の使用する範囲の座標情報を、使用範囲設定部５２に通知する。なお、映像の使用する範囲の変更の操作は、映像処理装置１のユーザの操作に加えて、通信相手の映像処理装置１からの入力により実行されてもよい。

全体制御部２８は、検知部６０から、音声の検知に係る報告を受信した時に、現在の映像の使用する範囲に、音声の発生元の位置が含まれるか否かを確認する。

現在の映像の使用する範囲に、音声の発生元の位置が含まれない場合、ＤＰＴＺ制御部５０に、映像の使用する範囲の変更を指示する。

検知部６０は、マイクアレイ２６から入力される音声の情報から、音声の発生元の位置と方向とを検知する。検知部６０は、検知された位置と方向とを全体制御部２８に通知する。

なお、適用する音声の発生元の検知の方法に、特に限定はない。一般的に用いられている検知の方法を適用することが可能である。検知部６０は、適用された検知の方法の処理を行うＤＳＰ等により実現される。音声の発生元の検知については、例えば、マイクロフォンアレイ（マイクアレイ２６）装置の動作の概念を示す。まず、マイクロフォンを８個１列に並べたマイクロフォンアレイを例にして説明する。マイクロフォンアレイ装置では、各マイクロフォンから出力される音響信号に対して遅延器（遅延器は、各マイクロフォンに対して複数個設けられる）により遅延を付加した後に、この遅延を付加した音響信号を加算器で加算することにより、指向性を制御することが可能である。Ｓｐｏｔ１は、音源からの音響信号を集音するために設定される空間上の位置である主焦点、Ｓｐｏｔ２（主焦点の左側），Ｓｐｏｔ３（主焦点の右側）は音源の位置を探知するために設定される空間上の位置である探知用焦点である。

各マイクロフォンから出力される音響信号は、それぞれアンプで増幅され、Ａ番目の各遅延器により遅延が付加される。そして、それらの遅延器により遅延が付加された音響信号は、加算器で加算され、主信号となる。

Ａ番目の遅延器に設定される遅延量は、主焦点Ｓｐｏｔ１から各マイクロフォンに到達して集音される音響信号が加算器Ｘによる加算時点で同相となるように設定される。これにより、主焦点Ｓｐｏｔ１から各マイクロフォンに到達する音響信号が強調される。

一方、主焦点Ｓｐｏｔ１とは異なる方向から到来する音響信号は、主焦点Ｓｐｏｔ１から到来する音響信号とは異なる時間差で集音されるので、各マイクロフォンで集音された後に加算されても同相化されず、主焦点Ｓｐｏｔ１から到来する音響信号に比べて強調効果が小さい。以上の結果、主焦点Ｓｐｏｔ１の方向に対して感度が高い指向性が形成される。

次に、Ｂ番目の各遅延器により遅延が付加された音響信号は、加算器Ｙで加算され、探知信号Ｏｕｔ２となる。Ｂ番目の各遅延器に設定される遅延量は、探知用焦点Ｓｐｏｔ２から各マイクロフォンに到達して集音される音響信号が先の他の加算器による加算時点で同相となるように設定される。例えば、探知用焦点Ｓｐｏｔ２の位置は、マイクロフォンアレイから主焦点Ｓｐｏｔ１に向かって右側に設定される。

一方、Ｃ番目の遅延器により遅延が付加された音響信号は、加算器Ｚで加算され、探知信号Ｏｕｔ３となる。Ｃ番目の遅延器に設定される遅延量は、探知用焦点Ｓｐｏｔ３から各マイクロフォンに到達して集音される音響信号が加算器Ｚによる加算時点で同相となるように設定される。探知用焦点Ｓｐｏｔ３の位置は、マイクロフォンアレイから主焦点Ｓｐｏｔ１に向かって左側に設定される。また、探知用焦点Ｓｐｏｔ２とＳｐｏｔ３は、マイクロフォンアレイの中点Ｃと主焦点Ｓｐｏｔ１とを結ぶ線分Ｌ１に対して線対称となるように設定される。すなわち、中点Ｃと探知用焦点Ｓｐｏｔ２とを結ぶ線分Ｌ２が線分Ｌ１となす角、及び中点Ｃと探知用焦点Ｓｐｏｔ３とを結ぶ線分Ｌ３が線分Ｌ１となす角は、共にθである。

例えば、音源が主焦点Ｓｐｏｔ１の方向にあるときに主信号は最も大きくなり、音源が左右どちらかに移動すると、主信号Ｏｕｔ１のレベルは減少する。これに対して、探知信号Ｏｕｔ２，Ｏｕｔ３は、音源が主焦点Ｓｐｏｔ１の方向にあるときは同レベルとなり、音源が負の方向（Ｓｐｏｔ２の方向）に移動すると、探知信号Ｏｕｔ３が減少して探知信号Ｏｕｔ２が増大し、音源が正の方向（Ｓｐｏｔ３の方向）に移動すると、探知信号Ｏｕｔ２が減少して探知信号Ｏｕｔ３が増大する。したがって、探知信号Ｏｕｔ２とＯｕｔ３のレベル差を検出することにより、音源の方向、つまり音声の発生元を検出することができる。

このように、探知信号Ｏｕｔ２のレベルと探知信号Ｏｕｔ３のレベルとの差に基づいて音源の方向を検出して、この音源の方向に集音用の第１の指向性を持たせるようにしたので、音源が移動したとしても、音源から集音することができる。また、音源の方向に応じて第１の指向性（主焦点Ｓｐｏｔ１）の方向を変更すると同時に、音源探知用の第２の指向性（探知用焦点Ｓｐｏｔ２）及び第３の指向性（探知用焦点Ｓｐｏｔ３）の方向も変更するため、音源の方向、つまり音声の発生元に応じた音源位置検出感度の最適化が可能である。

エンコーダ１６は、各映像のフレームに対して、いずれの映像のフレームの種類を適用するかＤＰＴＺ制御部５０に、通知する。また、ＤＰＴＺ制御部５０から映像の使用する範囲の変更の通知を受けた場合、エンコーダ１６は、通知を受けた後の最初の映像のフレームを、第２の映像のフレームとしてもよい。

（３）映像の使用する範囲の変更のタイミング
図３を用いて映像の使用する範囲の変更のタイミングについて説明する。

図３の（１）は、エンコーダ１６がＤＰＴＺ制御部５０から受信する映像のフレームに対して第１の映像のフレーム、又は第２の映像のフレームのいずれかの符号化を適用して、通信相手の映像処理装置１に送信する様子を示している。Ｆ１は第１の映像のフレームの符号化が適用された映像のフレームを表し、Ｆ２は第２の映像のフレームの符号化が適用された映像のフレームを表す。また、「Ａ」は、カメラ１０から受信した映像のフレームの映像の使用する範囲を表している。

図３の（１）は、第１の映像のフレームと第２の映像のフレームが所定の順番で繰り返し設定される様子を表している。

図３の（２）は、映像の使用する範囲が「Ａ」から、「Ｂ」に変更された場合のフレームの種別の設定の様子を表している。

この場合、「＃ｎ」のタイミングで、検知部６０が、現在の映像の使用する範囲「Ａ」とは異なる、「Ｂ」からの音声を検知し、ＤＰＴＺ制御部５０に報告する。かかる報告は、全体制御部２８を介して送信される。或いは、シーンチェンジ検知部５１が、映像の使用する範囲「Ｂ」に人間が出現したことを検知し、ＤＰＴＺ制御部５０に報告する。ＤＰＴＺ制御部５０は、映像の使用する範囲を「Ａ」から「Ｂ」に変更することを決定する。

ＤＰＴＺ制御部５０は、第２の映像のフレームに設定される映像のフレームまで待ち、映像の使用する範囲を「Ａ」から「Ｂ」に変更する。

具体的には、ＤＰＴＺ制御部５０は、映像の使用する範囲を「Ａ」から「Ｂ」に変更した「第２の映像のフレーム」を生成する。そして、ＤＰＴＺ制御部５０は、生成された第２の映像のフレームを、画像処理部１５を介して、エンコーダ１６に送信する。

図３の（２）の例では、＃ｎ＋３のタイミングで通信相手の映像処理装置１に「第２の映像のフレーム（Ｆ２）」が送信されるため、ＤＰＴＺ制御部５０は、かかる映像のフレームの映像の使用する範囲を「Ｂ」とする。なお、監視の用途等で、映像の使用する範囲を変更する時に、ライトを点灯する場合には、映像の使用する範囲が変更されたタイミング、でライトを点灯してもよい。

上述した動作手順によれば、エンコーダ１６は映像のフレームをフレーム内予測により符号化するフレームで映像の使用する範囲を変更するため、符号化の効率が悪化しない。すなわち、予め第２の映像のフレームに設定することが通知されている映像のフレームで、映像の使用する範囲が変更されるため、第２の映像のフレームの数は増加しない。このため、第２の映像のフレームが増加することによる伝送効率の悪化を回避することができる。

図３の（３）も、図３の（２）と同様に、映像の使用する範囲が、「Ａ」から、「Ｂ」に変更された場合の映像のフレーム種別の設定の様子を示している。

図３の（３）では、「ＤＰＴＺ制御部５０で制御できない映像の使用する範囲の変更」が発生した場合のフレームの種別の設定の様子を示している。

「ＤＰＴＺ制御部５０で制御できない映像の使用する範囲の変更」とは、例えばカメラ１０が物理的に移動された場合、又は人間を検知したタイミングでライトが点灯される場合等である。

図３の（３）では、「＃３」の映像フレームで映像の使用する範囲が「Ａ」から「Ｂ」に変更されている。この場合、ＤＰＴＺ制御部５０は、「＃３」の映像のフレームと、同一の映像のフレームを所定の期間、生成する。図３の（３）の例では、「＃３」から「＃ｎ」までの映像のフレームは、同一の映像のフレームである。このように、ＤＰＴＺ制御部５０で同一の映像のフレームが生成されるため、通信相手の映像処理装置１に出力される映像は所定の期間、静止画像となる。

なお、ＤＰＴＺ制御部５０、又は全体制御部２８は、「＃３」の映像のフレームを第２の映像のフレームとして扱うことを、エンコーダ１６に指示することが望ましい。

上述した動作手順によれば、「ＤＰＴＺ制御部５０で制御できない映像の使用する範囲の変更」が発生した場合でも、ＤＰＴＺ制御部５０は、所定の期間同一の映像のフレームを送信する。エンコーダ１６は、同一の映像フレームに対する符号化を実行するため、符号化の効率の低下を抑制することができる。同一の映像フレームの先頭のフレーム（すなわち「＃３」のフレーム）には、第２の映像のフレームの符号化が実行されるが、ＤＰＴＺ制御部５０で「＃４」のフレーム以降の所定の期間、同一の映像のフレームが生成されるため、伝送効率の低下は抑えることができる。

（４）出力映像の生成
図４を用いてカメラ１０で撮影した映像から、エンコーダ１６に入力される映像のフレームを生成する手順について説明する。

本実施形態では、カメラ１０が映像を生成し、ＤＰＴＺ制御部５０は、映像の使用する範囲から、映像のフレームを生成する。かかる映像のフレームが符号化される。

カメラ１０は、広角レンズ１０Ａを用いて広い範囲の映像を撮影しているため、映像にひずみが生じる場合がある。かかるひずみを補正するために、画像処理部１５は、ＤＰＴＺ制御部５０で生成された映像のフレームに対して、ひずみの補正処理を行う。かかる補正処理はＡＦＦＩＮＥ変換と呼ばれる。

画像処理部１５は、ひずみの補正処理を行うために用いるＡＦＦＩＮＥ変換マップを保持している。かかるＡＦＦＩＮＥ変換マップは、ＡＦＦＩＮＥ変換を実行する時に広角レンズで撮影された映像の各画素に対して用いる処理内容を記憶している。かかる処理内容を各画素に対して用いることにより、ひずみは補正される。

映像のフレームのサイズ、及び映像中の話者の位置等から、映像の使用する範囲は決定される。

図４（ａ）に示すように、ＤＰＴＺ制御部５０は、撮影された映像と、全体制御部２８により指定された映像の使用する範囲とから映像のフレームを生成する。具体的には、ＤＰＴＺ制御部５０は、撮影された映像のうち、指定された映像の使用する範囲に含まれる映像を抜き取り映像のフレームを生成する。ＤＰＴＺ制御部５０は、生成した映像のフレームを画像処理部１５に送信する。なお、ＤＰＴＺ制御部５０は、画像処理部１５から映像の使用する範囲の座標情報を取得してもよい。かかる座標情報は、画像処理部１５により、映像の使用する範囲、及び映像フレームの出力サイズ等から決定される。

図４（ｂ）に示すように、ＤＰＴＺ制御部５０により生成された映像のフレームは、ひずんでいる。ひずみを補正するために、画像処理部１５は、ＡＦＦＩＮＥ変換マップを用いて、映像のフレームに対してＡＦＦＩＮＥ変換処理を実行する（図４の（ｂ）、（ｃ）、及び（ｄ））。

ＡＦＦＩＮＥ変換処理の結果、ひずみが補正された映像のフレームが生成される（図４（ｅ））。ひずみが補正された映像のフレームは、エンコーダ１６に送信され符号化の処理が実行される。

＜ハードウェア構成＞
映像処理装置１は、例えば図５に示すようなハードウェア構成により実現される。

映像処理装置１は入出力装置１０１、ＤＰＴＺ制御装置１０２、外部Ｉ／Ｆ１０３、ＲＡＭ１０４、ＲＯＭ１０５、ＣＰＵ１０６、通信Ｉ／Ｆ１０７、ＤＭＡＣ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓＣｏｎｔｒｏｌｅｒ）１０８、ＨＤＤ１０９、カメラモジュール１１０、送信データ処理装置１１１、音声処理装置１１２、マイク１１３、受信データ処理装置１１４、及び調停装置１１５を備え、それぞれがバスＢで相互に接続されている。

入出力装置１０１は、ＬＥＤ等を利用して、通信相手の映像処理装置１から送信された映像のフレームを表示する。入出力装置１０１は、スピーカを利用して、通信相手の映像処理装置１から送信された音声を出力する。入出力装置１０１は、外部のモニタ、及びスピーカと接続するためのインタフェースを有し、かかるインタフェースを用いて、外部のモニタ、及びスピーカに映像のデータと、音のデータを出力することができる。また、入出力装置１０１は、映像処理装置１の状態などを表示する。

入出力装置１０１は、映像処理装置１のユーザからの映像処理装置１に対する各種設定、及び操作等を受け付ける。

通信Ｉ／Ｆ１０７は、通信相手の映像処理装置１、及びサーバ３０等と、有線、又は無線のネットワーク４０を介して通信を行う。通信Ｉ／Ｆ１０７は、ネットワーク４０の状態を検知し、ネットワーク４０が使用可能な状態であるか確認する。また、通信Ｉ／Ｆ１０７は、通信相手の映像処理装置１の情報を取得する。

また、ＨＤＤ１０９はプログラムやデータを格納している不揮発性の記憶装置の一例である。格納されるプログラムやデータには映像処理装置１全体を制御する基本ソフトウェアであるＯＳ、ＯＳ上において各種機能を提供するアプリケーションソフトウェア（以下、アプリケーションと呼ぶ）などがある。なお、映像処理装置１はＨＤＤ１０９に替え、記憶媒体としてフラッシュメモリを用いるドライブ装置（例えばソリッドステートドライブ：ＳＳＤ）を利用するものであってもよい。

外部Ｉ／Ｆ１０３は、外部装置とのインタフェースである。外部装置には、記録媒体１０３ａなどがある。これにより、映像処理装置１は外部Ｉ／Ｆ１０３を介して記録媒体１０３ａの読み取り及び／又は書き込みを行うことができる。記録媒体１０３ａにはフレキシブルディスク、ＣＤ、ＤＶＤ、ＳＤメモリカード、ＵＳＢメモリなどがある。

ＲＯＭ１０５は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ（記憶装置）の一例である。ＲＯＭ１０５には映像処理装置１の起動時に実行されるＢＩＯＳ、ＯＳ設定、及びネットワーク設定などのプログラムやデータが格納されている。

カメラモジュール１１０は、広角レンズ１０Ａを有し、ＣＰＵ１０６からの指示に基づいて撮影を行う。ＤＰＴＺ制御装置１０２は、カメラモジュール１１０で撮影された映像の使用する範囲を抜き取る処理を行い、かかる処理が完了した後に、映像の使用する範囲をＲＡＭ１０４に送信する。ＤＰＴＺ制御装置１０２は、検知装置１１２ｂから音声を検知した旨の通知を受け、映像の使用する範囲を変更する処理を行う。また、ＤＰＴＺ制御装置１０２は、カメラモジュール１１０で撮影した映像の変化から、映像の使用する範囲を変更する処理を行う。

マイク１１３は、音のデータを収集し、収集した音のデータを音声処理装置１１２に送信する。

音声処理装置１１２は、音声判別装置１１２ａと、検知装置１１２ｂとを有する。音声判別装置１１２ａは、マイク１１３により収集された音のデータに含まれる人間の声のデータを判別し、検知装置１１２ｂに通知する。検知装置１１２ｂは、人間の声の発生元の場所が変更されているか判断し、変更されている場合は、ＤＰＴＺ制御装置１０２に通知する。

送信データ処理装置１１１は、エンコーダ１１１ａと、画像処理装置１１１ｂとを有する。画像処理装置１１１ｂは、ＤＰＴＺ制御装置１０２で生成された映像の使用する範囲に対してＡＦＦＩＮＥ変換等の画像処理を行い、エンコーダ１１１ａは画像処理された映像の使用する範囲と、音声のデータに対してエンコードの処理を行う。送信データ処理装置１１１は、エンコードされた映像のデータと音声のデータとを通信Ｉ／Ｆ１０７に送信する。

受信データ処理装置１１４は、デコーダ１１４ａを有する。デコーダ１１４ａは、通信Ｉ／Ｆ１０７が通信相手の映像処理装置１から受信したデータに対して、デコードの処理を行う。受信データ処理装置１１４は、デコードされた映像のデータと音声のデータとを入出力装置１０１に送信する。

ＤＭＡＣ１０８は、映像処理装置１を構成する各装置間で、ＣＰＵ１０６を介さずに直接データを送受信するための機能を提供する。例えば、ＤＰＴＺ制御装置１０２で処理された映像の使用する範囲は、ＲＡＭ１０４に格納され、その後、送信データ処理装置１１１によりＲＡＭ１０４から取得される。送信データ処理装置１１１は、エンコードの処理と、画像処理を、ＲＡＭ１０４を用いて行う。通信Ｉ／Ｆ１０７は、送信データ処理装置１１１で処理された音声のデータと映像のデータとを、エンコーダ１１１ａから取得し、通信相手の映像処理装置１に送信する。また、通信Ｉ／Ｆ１０７で受信した通信相手の映像処理装置１からの受信データは、受信データ処理装置１１４に取得される。受信データ処理装置１１４はデコードの処理を、ＲＡＭ１０４を用いて行う。デコード処理された映像のデータと音声のデータとは、デコーダ１１４ａから入出力装置１０１により取得される。入出力装置１０１は、映像のデータと音声のデータとを出力する。

なお、ＤＭＡＣ１０８は、映像処理装置１を構成する各装置に個別に設けられてもよい。

調停装置１１５は、ＣＰＵ１０６、及びＤＭＡＣ１０８等の映像処理装置１内でマスターの役割を有する装置間の動作を調整する。例えば、調停装置１１５は、ＲＡＭ１０４のアクセス権、バスＢの使用権を映像処理装置１全体のパフォーマンスを考慮して調整する。ＲＡＭ１０４は、プログラムやデータを一時保持する揮発性の半導体メモリ（記憶装置）の一例である。ＲＡＭ１０４は、カメラモジュール１１０で撮影された後、ＤＰＴＺ制御装置１０２で抜き取り処理された映像の使用する範囲を格納する。ＲＡＭ１０４は、ＣＰＵ１０６、送信データ処理装置１１１（エンコーダ１１１ａ、画像処理装置１１１ｂ）、及び受信データ処理装置１１４（デコーダ１１４ａ）にワークメモリを提供する。ＲＡＭ１０４は、音声処理装置１１２にワークメモリを提供してもよい。

ＣＰＵ１０６は、ＲＯＭ１０５やＨＤＤ１０９などの記憶装置からプログラムやデータをＲＡＭ１０４上に読み出し、処理を実行することで、映像処理装置１全体の制御や機能を実現する演算装置である。

図１に示す映像処理装置１の各機能は、図５に示す映像処理装置１のハードウェアが以下のように動作することにより実現される。

ＤＰＴＺ制御部５０は、ＲＯＭ１０５等に格納されたプログラムに従ってＣＰＵ１０６とＤＰＴＺ制御装置１０２が動作することにより実現される。

画像処理部１５は、ＲＯＭ１０５等に格納されたプログラムに従ってＣＰＵ１０６と画像処理装置１１１ｂが動作することにより実現される。

エンコーダ１６は、ＲＯＭ１０５等に格納されたプログラムに従ってＣＰＵ１０６とエンコーダ１１１ａが動作することにより実現される。

ネットワーク処理部１７、ネットワーク状態検知部２０、及び相手局機能判別部２２は、ＲＯＭ１０５等に格納されたプログラムに従って、ＣＰＵ１０６と通信Ｉ／Ｆ１０７が動作することにより実現される。

音声判別部２４は、ＲＯＭ１０５等に格納されたプログラムに従って、ＣＰＵ１０６と音声判別装置１１２ａが動作することにより実現される。

検知部６０は、ＲＯＭ１０５等に格納されたプログラムに従って、ＣＰＵ１０６と検知装置１１２ｂが動作することにより実現される。

デコーダ１８は、ＲＯＭ１０５等に格納されたプログラムに従ってＣＰＵ１０６とデコーダ１１４ａが動作することにより実現される。

全体制御部２８は、ＲＯＭ１０５等に格納されたプログラムに従ってＣＰＵ１０６が動作することにより実現される。

カメラ１０は、カメラモジュール１１０が動作することにより実現される。マイクアレイ２６は、マイク１１３が動作することにより実現される。ディスプレイ１２、及びスピーカ１３は、入出力装置１０１が動作することにより実現される。

上述した、映像処理装置１の各機能と実現するための対応関係は一例であり、一部の機能はＲＯＭ等に格納されたプログラムを実行することにより実現されてもよい。また、一部の機能はプログラムではなく、専用のハードウェアにより実現されてもよい。

＜動作手順＞
（１）動作手順（その１）
図６を用いて本実施形態に係る動作手順について説明する。図６は、第２の映像フレームにおいて映像の使用する範囲が変更される場合の実施形態の動作の一例を示す図である。

ステップＳ６０１で、映像処理装置１のユーザは、映像処理装置１に対して初期設定を行う。これにより、カメラ１０での撮影が可能な状態になる。

ステップＳ６０２で、映像処理装置１のユーザは、カメラ１０の撮影モードの設定を行う。例えば、ユーザは、テレビ会議の環境に合わせて、測光条件等のカメラ１０の撮影モードの設定を行う。

ステップＳ６０３で、映像処理装置１は、通信相手の映像処理装置１に対して接続要求を送信し、テレビ会議の開始に係る処理を行う。映像処理装置１は、通信相手の映像処理装置１から接続要求を受信したことに応じて、テレビ会議の開始に係る処理を始めてもよい。

ステップＳ６０４で、映像処理装置１は、方向固定タイマを起動する。かかるタイマは、カメラ１０で撮影された映像の使用する範囲が頻繁に変わるのを抑制するために設けられている。多人数でテレビ会議を行う時に、映像処理装置１で話者追従機能を起動している場合、映像の使用する範囲が頻繁に変わることが想定される。映像の使用する範囲が頻繁に変更され過ぎると、テレビ会議の参加者に不快な印象を与えるおそれがある。

このため、方向固定タイマを起動し、映像の使用する範囲の変更の頻度を抑制する。方向固定タイマの長さは、映像処理装置１のユーザ、又は通信相手の映像処理装置１から設定可能である。

ステップＳ６０５で、検知部６０が、人間の声を検知した場合、ステップＳ６０６に進み（ステップＳ６０５Ｙｅｓ）、人間の声を検知しない場合、ステップＳ６０５に戻る（ステップＳ６０５Ｎｏ）。

ステップＳ６０６で、検知部６０は、全体制御部２８に、人間の声を検知した旨を通知する。かかる通知には、声の発生元である人間の映像内での位置を特定する情報が含まれる。全体制御部２８は、声の発生元である人間が、現在の映像の使用する範囲に含まれるか確認する。現在の映像の使用する範囲に含まれる場合（ステップＳ６０６Ｙｅｓ）、ステップＳ６０５に戻る。一方、現在の映像の使用する範囲に含まれない場合（ステップＳ６０６Ｎｏ）、全体制御部２８は、ＤＰＴＺ制御部５０に、映像の使用する範囲の変更を指示し、ＤＰＴＺ制御部５０は、ステップＳ６０７の処理を実行する。

なお、検知部６０は、ＤＰＴＺ制御部５０に、人間の声を検知した旨を通知し、ＤＰＴＺ制御部５０が、映像の使用する範囲の変更の要否を判断してもよい。

ステップＳ６０７で、ＤＰＴＺ制御部５０は、生成する映像のフレームの種類が第２の映像のフレームであるか否かの判断を行う。

次に生成される映像のフレームが第２の映像のフレームである場合（ステップＳ６０７Ｙｅｓ）、ステップＳ６０８に進む。一方、次に生成される映像のフレームが第２の映像のフレームでない場合（ステップＳ６０７Ｎｏ）、ステップＳ６０５に戻る。

ステップＳ６０８で、ＤＰＴＺ制御部５０は、方向固定タイマがタイムアウトしているか確認する。タイムアウトしている場合（ステップＳ６０８Ｙｅｓ）、ステップＳ６０９に進む。一方、タイムアウトしていない場合、ステップＳ６０５に戻る。

ステップＳ６０９で、ＤＰＴＺ制御部５０は、検知部６０が検知した情報を基に、映像の使用する範囲を変更する。映像の使用する範囲を変更後、ステップＳ６０４に戻る。

（２）動作手順（その２）
図７を用いて、本実施形態に係る動作手順について説明する。図７は、カメラ１０の向きの変更、及び照明の点灯等により、カメラ１０で撮影される映像が変化する場合等の実施形態の動作の一例を示す図である。

ステップＳ７０１乃至ステップＳ７０３については、ステップＳ６０１乃至ステップＳ６０３と同じため説明を省略する。

ステップＳ７０４で、シーンチェンジ検知部５１は、カメラ１０で撮影した映像の変化を検知する。映像の変化を検知した場合（ステップＳ７０４Ｙｅｓ）、ステップＳ７０５に進む。一方、映像の変化を検知しない場合、ステップＳ７０４に戻り、再度、映像の変更を検知監視する。かかる確認の処理は繰り返し実行される。

ステップＳ７０５で、ＤＰＴＺ制御部５０は、エンコーダ１６に向けて送信する映像のフレームを第２の映像フレームであることを、エンコーダ１６に通知する。

ステップＳ７０６で、ＤＰＴＺ制御部５０は、映像の変化が検知されたフレームを含め、Ｎ個の同一の映像のフレームを生成する。同一の映像のフレームが生成されるため、出力の映像はＮフレームの間、静止画像となる。「Ｎ個」の設定については、通信相手の映像処理装置１との間のネットワークの帯域を考慮して決定されてもよい。

なお、ステップＳ７０６の処理と並行して、映像処理装置１は、映像の変更後の環境に合わせて、測光の条件等、カメラ１０の撮影モードを調整してもよい。

上記の動作手順では、第２の映像フレームが１つ増加する場合があり、予め定められているネットワークの帯域を、一時的に上回るおそれがある。しかし、ネットワークの帯域を考慮して「Ｎ個」の同一の映像のフレームが生成されるため、伝送効率の悪化は抑えられる。通信相手の映像処理装置１に送信される映像のフレームの占める帯域が、予め定められている帯域を上回る場合があっても、短期間であるため、帯域の容量オーバによるテレビ会議中の回線切断を回避することができる。

なお、上述した動作手順は、監視の用途にも適用できることは勿論である。監視の用途に適用する場合、人間の声に加えて、人間の出現を検知して、映像の使用する範囲の変更の処理が実行される。

［その他］
上述した実施形態では、映像処理装置１をテレビ会議、及び監視に用いる場合を例に、説明したが、他の用途に用いてもよいことは勿論である。映像が変化する時に、実施形態で説明した映像処理装置１を用いることにより、映像のフレームの符号化処理を効率化することで、伝送効率を維持することができる。

上述した実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、映像処理装置１に供給してもよい。そして、映像処理装置１が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、上述の実施形態が、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は、いずれかの実施の形態を構成することになる。ここで、記憶媒体は、記録媒体または非一時的な記憶媒体である。

また、コンピュータ装置が読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではない。そのプログラムコードの指示に従って、コンピュータ装置上で動作しているオペレーティングシステム（ＯＳ）等が実際の処理の一部または全部を行ってもよい。さらに、その処理によって前述した実施形態の機能が実現されてもよいことは言うまでもない。

以上、本発明の好ましい実施形態について説明したが、本発明はこうした実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１映像処理装置
１０カメラ
１５画像処理部
１６エンコーダ
５０ＤＰＴＺ制御部
６０検知部

特開２００２−３０５７３３号公報

Claims

カメラで撮影された映像の使用する範囲から、映像のフレームを生成する生成部であって、前記使用する範囲は前記映像の空間的範囲を定める前記生成部と、
前記映像のフレームを、フレーム間予測を用いて符号化される第１の映像のフレーム、又はフレーム内予測を用いて符号化される第２の映像のフレームのいずれかの映像のフレームの種類に応じて符号化する符号化部と、
前記使用する範囲の変更に用いるトリガを検知し、前記生成部に通知する検知部と、を有し、
前記符号化部は、前記映像のフレームに設定される前記映像のフレームの種類を予め前記生成部に通知し、
前記トリガの受信に応じて、前記生成部は、通知された前記映像のフレームの種類に基づいて、前記使用する範囲を変更する映像処理装置。
前記生成部は、前記第２の映像のフレームで、前記使用する範囲を変更する、請求項１に記載の映像処理装置。
前記生成部は、前記トリガの受信に応じて、前記使用する範囲を変更すると共に、前記符号化部に前記使用する範囲が変更されたことを示す変更の通知を、前記符号化部に送信し、
前記符号化部は、前記変更の通知の受信に応じて、前記使用する範囲が変更された最初の映像のフレームを、前記第２の映像のフレームとする、請求項１に記載の映像処理装置。
前記生成部は、前記最初の映像のフレームに後続する所定の数の映像のフレームを、前記最初の映像のフレームと同一の映像のフレームとする、請求項３に記載の映像処理装置。
前記トリガは、音の発生である請求項１乃至３のいずれか一項に記載の映像処理装置。
前記トリガは、人間の出現である請求項１乃至３のいずれか一項に記載の映像処理装置。
カメラで撮影された映像の使用する範囲から、映像のフレームを生成するステップであって、前記使用する範囲は前記映像の空間的範囲を定めるステップと、
前記映像のフレームを、フレーム間予測を用いて符号化される第１の映像のフレームと、フレーム内予測を用いて符号化される第２の映像のフレームとのいずれかの映像のフレームの種類に応じて符号化するステップであって、前記映像のフレームに設定される前記映像のフレームの種類を予め通知するステップと、
前記使用する範囲の変更に用いるトリガを検知し、通知するステップと、
前記トリガの通知に応じて、通知された前記映像のフレームの種類に基づいて、前記使用する範囲を変更するステップとを、映像処理装置に実行させるプログラム。