JP2010041485A

JP2010041485A - 映像音声出力装置

Info

Publication number: JP2010041485A
Application number: JP2008203138A
Authority: JP
Inventors: Hiroto Kawachi; 洋人河内; Kazusane Sugaya; 和実菅谷; Teiji Suzuki; 禎司鈴木
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2008-08-06
Filing date: 2008-08-06
Publication date: 2010-02-18

Abstract

【課題】同一人物の発話中にシーンチェンジが発生しても、違和感が生じない音声定位技術を提供する。
【解決手段】映像音声出力装置１は、映像を解析して、話者の位置を特定するとともに、シーンチェンジの有無を検出し、特定された話者がシーンチェンジの前後で同一人物であるか否かを判定する映像解析部１１と、特定した話者の位置に音声を定位させるように話者音声定位パラメータの値を設定する話者音声定位パラメータ設定部１２と、特定された話者がシーンチェンジの前後で同一人物であると判定された場合には、話者音声定位パラメータ設定部１２で設定された話者音声定位パラメータの値に対して、定位位置の変更を小さくするように話者音声定位パラメータの値を調整する話者音声定位パラメータ調整部１４と、調整された話者音声定位パラメータの値に従って音声の定位変更処理を行う定位処理部１５と、定位変更された音声を出力する音声出力部１７と、を備える。
【選択図】図１

Description

本発明は、映像及び音声を含むコンテンツデータを出力する映像音声出力装置に関し、特に、映像の話者位置に応じて音声の定位を決定し、音声出力制御を行う映像音声出力装置に関する。

テレビ放送などの番組コンテンツを受信して、ディスプレイに映像を表示するとともにスピーカから音声を出力する場合、モノラル音声においてはスピーカの位置から人の声が聞こえるようになっている。また、ステレオ／サラウンド音声においては、多くの場合、画面中央に人の声を定位させて、画面中央から人の声が聞こえるようになっている。

しかしながら、一般に、ディスプレイ上の話者位置に人の声が定位していると臨場感が増すことが知られているため、従来においては、映像解析により話者位置を特定し、話者位置に音声を定位させる音声定位技術が開示されている。

例えば、特許文献１では、話者の位置を検出し、検出した位置に応じて、複数のスピーカから出力する音声の音量を制御している。また、特許文献２では、発話者の位置を特定し、特定した位置に応じて、エフェクトや音量調整を行い、最適なスピーカから音声データを出力している。

特開平１１−３１３２７２号公報特開２００７−１１０５８２号公報

しかしながら、上述した従来技術においては、シーンの内容を考慮せずに、話者位置に音声を定位させているため、シーンによっては、臨場感を高めるどころか、却ってストレスを感じてしまう場合がある。例えば、台詞の最中にカメラアングルが変わって、同一話者の話者位置が急に変わるシーンにおいては、同一人物の台詞の最中に音声の定位位置が変更されるので、当該シーンを視聴している視聴者は、却ってストレスを感じてしまうという問題がある。

このように従来技術においては、シーンの内容を考慮せずに、一律に話者位置に音声を定位させているため、同一人物の台詞の最中にシーンチェンジが発生して話者位置が急に変わったシーンにおいては、臨場感を高めるどころか、却って違和感が生じるという問題がある。

本発明は上記の事情を鑑みてなされたものであり、その課題の一例としては、話者位置を特定して、特定した話者位置に音声を定位させる音声定位技術において、同一人物の発話中にシーンチェンジが発生して話者位置が急に変わっても、違和感を生じない映像音声出力装置を提供することにある。

上記の課題を達成するため、請求項１に係る映像音声出力装置は、音声定位パラメータに基づいて音声定位を制御する映像音声出力装置であって、映像を解析して、話者の位置を特定する話者位置特定手段と、前記話者位置特定手段により特定した話者の位置に音声を定位させるように前記音声定位パラメータの値を設定する音声定位パラメータ設定手段と、映像を解析して、シーンチェンジの有無を検出するシーンチェンジ検出手段と、映像または音声を解析して、前記話者位置特定手段で特定された話者がシーンチェンジの前後で同一人物であるか否かを判定する同一話者判定手段と、シーンチェンジ検出手段によりシーンチェンジがあると検出され、かつ、前記同一話者判定手段により、前記話者位置特定手段で特定された話者が当該シーンチェンジの前後で同一人物であると判定された場合には、前記音声定位パラメータ設定手段で設定された音声定位パラメータの値に対して、定位位置の変更を小さくするように前記音声定位パラメータの値を調整する音声定位パラメータ調整手段と、前記音声定位パラメータ調整手段により、調整された音声定位パラメータの値に従って音声の定位変更処理を行い、映像及び音声を出力する定位変更出力手段と、を備えることを特徴とする。

以下、本発明の実施の形態を図面を用いて説明する。

図１は、本発明の実施の形態に係る映像音声出力装置１の概略構成図である。映像音声出力装置１は、同一話者の発話中のシーンチェンジを考慮しつつ、話者位置に合わせた音声定位で音声を出力する装置であり、詳しくは、映像解析部１１、話者音声定位パラメータ設定部１２、話者音声定位パラメータ調整部１４、定位処理部１５、映像表示部１６、及び音声出力部１７を備えている。

ここで、映像音声出力装置１は、外部から入力された映像及び音声を含むコンテンツデータを再生して外部に出力する機能を有する装置であれば何であってもよく、例えば、具体的には、テレビジョン（ＴＶ）、ＤＶＤプレーヤ及びレコーダ、ＢＤプレーヤ及びレコーダ、パーソナルコンピュータ（ＰＣ）などが想定される。また、「話者」とは、映像データ（画面上）において発話している者をいい、「話者位置」とは、話者の画面上の位置をいうが、より正確には話者の顔（特に口）付近の位置をいう。また、「話者位置に合わせた音声定位で音声を出力する」とは、例えば、話者が画面上左側に存在する場合には、画面左側に設けたスピーカから出力される音声の音量を大きくするなどして、話者の位置から音声が聞こえてくるように音声を出力することをいう。

映像解析部１１は、入力した映像データを映像表示部１６に出力する（音声データと同期させるため、必要に応じて映像データを遅延させて映像表示部１６に出力する）とともに、入力した映像データから話者位置を特定するようになっている。話者位置の特定方法については、公知の技術を用いて行われる。例えば、映像データから人の顔面の領域を検出し、顔面の中の口の動きを検出することで、話者を特定するようにしてもよい。この際、口の動きの検出においては、前後数フレームの映像データを用いて、口領域の輝度などの差分を特徴量として算出し、算出した特徴量の値が最も大きい口領域を持った人を話者と判定とすれば、複数の顔面が検出された場合であっても、話者を特定することができる。

また、映像解析部１１は、入力した映像データからシーンチェンジの有無を検出をするようになっている。シーンチェンジの有無の検出方法については、公知の技術を用いて行われる。例えば、該当フレームと前フレームの輝度の差分Ｖｄを各画素に対して算出して、差分Ｖｄが閾値以上の画素数Ｖｄｃｎｔをカウントし、画素数Ｖｄｃｎｔが、全画素数に対して予め定めた割合を越えた場合には、シーンチェンジありと判定する方法を用いてもよい。

また、映像解析部１１は、シーンチェンジありと判定した場合には、特定した話者が同一人物であるか否かを判定するようになっている。詳しくは、映像解析部１１が現シーンで特定した話者の顔特徴量を算出し、前シーン（シーンチェンジ前）で特定した話者の顔特徴量と比較して、顔特徴量が等しい場合には、特定した話者は同一人物であると判定するようになっている。なお、前シーンにおける話者の顔特徴量は、後述するように一時記憶領域に保存されている。ここで、顔特徴量とは、例えば、顔器官の形や位置関係に基づいて算出される値であり、顔特徴量の算出方法に関しては公知の技術が用いられる。

また、映像解析部１１は、特定した話者の位置を話者音声定位パラメータ設定部１２に出力し、シーンチェンジの有無に関する判定情報、及び同一話者であるか否かの判定情報を話者音声定位パラメータ調整部１４に出力するようになっている。

話者音声定位パラメータ設定部１２は、映像解析部１１から入力された話者位置に音声データを定位させるためのパラメータ（以下、話者音声定位パラメータという）の値を設定するようになっている。ここで、「話者位置に音声データを定位させるためのパラメータの値」とは、話者位置から音が聞こえるように音声が出力されるためのパラメータの値をいい、例えば、複数備えたスピーカのうち、話者位置の近くに設置されたスピーカの音量を大きくし、他のスピーカの音量を小さくするような音量調整に関するパラメータ値（複数のスピーカのそれぞれに対する音量設定値）を意味する。

また、話者音声定位パラメータ設定部１２は、設定された話者音声定位パラメータ値を話者音声定位パラメータ調整部１４に出力するようになっている。

話者音声定位パラメータ調整部１４は、話者音声定位パラメータ設定部１２で設定された話者音声定位パラメータの値を入力するとともに、映像解析部１１が出力するシーンチェンジの有無に関する判定情報、及び同一話者であるか否かの判定情報を入力して、設定された話者音声定位パラメータの値を調整するようになっている。詳しくは、シーンチェンジがあって、かつ、特定した話者がシーンチェンジの前後で同一人物である場合には、現在の話者位置に音声を定位させる音声定位変更量を小さくするように話者音声定位パラメータの値を調整（修正）するようになっている。

ここで「現在の話者位置に音声を定位させる音声定位変更量を小さくするように話者音声定位パラメータの値を調整する」とは、例えば、シーンチェンジがあって同一話者が画面上左側から右側に移動した場合を例に挙げて説明すると、シーンチェンジを全く考慮しないときには、右側のスピーカの音量をＡ１の大きさで出力するように設定した話者音声定位パラメータの値Ｐ１を、右側のスピーカの音量をＡ２（＜Ａ１）の大きさで出力するように設定した話者音声定位パラメータの値Ｐ２に調整することをいう。すなわち、シーンチェンジがあって同一話者の位置が左側から右側に移り、同一話者がシーンの前後で継続して発話している場合には、話者音声定位パラメータの値を話者位置に追随させて極端には変化させず、例えば、画面中央位置等に音声を定位させるなど、緩やかに変化させるように話者音声定位パラメータの値を調整する。この結果、同一話者が発話中にシーンチェンジが発生して、話者位置が変更されたとしても、視聴者は、違和感を覚えることがない。なお、「音声定位変更量を小さくする」には、入力された音声データ（通常は画面中央位置に定位していることが多い音声データ）に対して音声定位変更量を小さくするようにしてもよいし、また、直前に設定した話者音声定位パラメータの値に対して音声定位変更量を小さくするようにしてもよい。

なお、上述した話者音声定位パラメータの調整の説明においては、シーンチェンジの前後で同一話者の位置が変更される場合を例に挙げてして説明したが、シーンチェンジの前後で同一話者の位置が変更されない場合であってもよい。この場合には、話者音声定位パラメータの値はシーンチェンジの前後で変わらないので、音声定位変更量は生じない。したがって、上述した話者音声定位パラメータの調整には、同一話者の話者位置が変更されない場合を含んでもよいが、この場合には、音声定位変更量は０であるので、実質的には話者音声定位パラメータの調整は行われない。

また、話者音声定位パラメータ調整部１４は、調整された話者音声定位パラメータの値を定位処理部１５に出力するようになっている。

定位処理部１５は、音声データを入力するとともに、話者音声定位パラメータ調整部１４から出力された話者音声定位パラメータの値を入力し、調整された話者音声定位パラメータの値に基づいて、音声データの定位変更処理を行うようになっている。また、定位処理部１５は、定位変更処理した音声データを音声出力部１７に出力するようになっている。

映像表示部１６は、映像解析部１１から出力された映像データをディスプレイ等に表示すべく出力するようになっている。

音声出力部１７は、定位変更処理された音声データをスピーカに出力するようになっている。

い。

次に、図２を参照して、話者音声定位パラメータ調整部１４の機能、すなわち、同一話者が発話中にシーンチェンジが発生して、同一話者が移動する場合の話者音声定位パラメータの調整について具体的に説明する。

なお、図２に示す具体例においては、図３に示すような座標系を用いて説明する。すなわち、１４４０×１０８０の画像サイズにおいて、画面左上を原点、横方向をＸ軸、縦方向をＹ軸としてピクセル単位に座標系を構成している。ここで、画面上で特定される話者ＳＰの位置は、顔面の位置であり、本実施形態では、矩形な顔領域Ｆの四隅の座標を話者ＳＰの位置としている。具体的には、顔領域Ｆの左上の頂点Ｓ０（Ｘ０，Ｙ０）、右上の頂点Ｓ１（Ｘ１，Ｙ１）、左下の頂点Ｓ２（Ｘ２，Ｙ２）、及び右下の頂点Ｓ３（Ｘ３，Ｙ３）により、話者ＳＰの位置を特定している。

また、図２に示す具体例においては、上述した話者音声定位パラメータを話者音声定位位置Ｐ（Ｐｘ，Ｐｙ）として説明し、話者音声定位位置Ｐから音声が聞こえるように音声は調整されて出力されるものとする。なお、図２に示す具体例は、通常時においては、話者音声定位位置Ｐは、特定された話者の顔領域Ｆの中心位置に設定され、同一話者の発話中にシーンチェンジが発生して、話者位置が移動したときは、話者音声定位位置Ｐは、画面の中心位置に設定される場合を示している。

図２（ａ）は、シーンチェンジ前のシーン１の話者位置、すなわち、話者Ａが画面上左側の位置に存在する場合の話者位置を示している。具体的には、図２（ａ）に示すように、話者Ａの顔領域Ｆは、Ｓ０（２００，２２０）、Ｓ１（５８０，２２０）、Ｓ２（２００，６００）、Ｓ３（５８０，６００）なので、話者音声定位位置Ｐは、顔領域Ｆの中心であるＰ１（３９０，４１０）となっている。

一方、図２（ｂ）は、シーンチェンジ後のシーンＢの話者位置、すなわち、話者Ａが画面上左側から右側に移動し、右側に存在する場合の話者位置を示している。具体的には、図２（ｂ）に示すように、話者Ａの顔領域Ｆは、Ｓ０（８６０，２２０）、Ｓ１（１２４０，２２０）、Ｓ２（８６０，６００）、Ｓ３（１２４０，６００）なので、顔領域Ｆの中心はＰ２（１０５０，４１０）であるが、話者音声定位位置Ｐは、画面の中心位置であるＰ３（７２０，５４０）となっている。

このように、話者Ａが発話中にシーンチェンジが発生して、シーンチェンジの前後で話者Ａが移動するような場合には、話者音声を画面中央位置に定位させ、視聴者に違和感を生じさせないようにしている。なお、シーンチェンジを考慮しなければ、話者音声は、話者位置に追随して話者位置に定位させるので、話者音声定位位置ＰはＰ２（１０５０，４１０）となる。

すなわち、シーンチェンジを考慮して話者音声定位位置Ｐを決める場合には、話者音声定位位置ＰはＰ１（３９０，４１０）からＰ３（７２０，５４０）に変更されるが、シーンチェンジを考慮せずに話者音声定位位置Ｐを決める場合には、話者音声定位位置ＰはＰ１（３９０，４１０）からＰ２（１０５０，４１０）に変更される。ここで、Ｐ１（３９０，４１０）→Ｐ３（７２０，５４０）の位置変更は、Ｐ１（３９０，４１０）→Ｐ２（１０５０，４１０）の位置変更に比べて変更量が小さくなっており、このことは、上述した「音声定位変更量を小さくするように話者音声定位パラメータの値を調整する」を具体的に示すものとなっている。

次に、図４を参照して、本実施の形態の映像音声出力装置１の映像音声出力処理について説明する。図４は、映像音声出力装置１の同一話者の発話中のシーンチェンジを考慮して、音声定位制御を行う映像音声出力処理の流れを示すフローチャートである。

まず、映像音声出力装置１の映像解析部１１が入力された映像データを解析して、映像データの話者位置を特定する（ステップＳ１０）。

次に、映像音声出力装置１の話者音声定位パラメータ設定部１２は、特定された話者位置に基づいて、話者音声定位パラメータの値を設定する（ステップＳ２０）。

次に、映像音声出力装置１の映像解析部１１は、シーンチェンジ検出処理を行う（ステップＳ３０）。シーンチェンジ検出処理では、入力した映像データを解析して、シーンチェンジの検出を行い、シーンチェンジの有無を判定する。

次に、映像音声出力装置１の映像解析部１１は、シーンチェンジがあると判定した場合には、シーンチェンジの前後で、特定された話者が同一人物であるか否かを判定する同一話者判定処理を行う（ステップＳ４０）。

ここで、図５を用いて、同一話者判定処理について説明する。図５は、図４のステップＳ４０の同一話者判定処理の流れを詳しく示すフローチャートである。

映像音声出力装置１の映像解析部１１は、現シーン（シーンチェンジ後のシーン）で特定された話者の顔特徴量を抽出し（ステップＳ４１）、前シーン（シーンチェンジ前のシーン）で特定された話者の顔特徴量と比較する（ステップＳ４２）。

次に、映像音声出力装置１の映像解析部１１は、現シーンで特定された話者の顔特徴量と前シーンで特定された話者の顔特徴量が等しいか否かを判定し（ステップＳ４３）、等しい場合には（ステップＳ４３：ＹＥＳ）、話者の交代なし、すなわち、同一話者であると判定し（ステップＳ４４）、等しくない場合には（ステップＳ４３：ＮＯ）、話者の交代あり、すなわち、同一話者でないと判定する（ステップＳ４５）。

最後に、映像音声出力装置１の映像解析部１１は、現シーンの話者の顔特徴量を一時記憶領域に保存する（ステップＳ４６）。

図４に戻って、映像音声出力装置１の話者音声定位パラメータ調整部１４は、映像解析部１１からのシーンチェンジの有無、及び同一話者か否かの判定情報を受けて、シーンチェンジがあって、かつ、シーンチェンジの前後で同一話者であるか否かを判定する（ステップＳ６０）。

シーンチェンジがあって、かつ、シーンチェンジの前後で同一話者である場合には（ステップＳ６０：ＹＥＳ）、映像音声出力装置１の話者音声定位パラメータ調整部１４は、話者位置への音声定位変更量が小さくなるように、話者音声定位パラメータの値を調整する（ステップＳ７０）。

次に、映像音声出力装置１の定位処理部１５は、設定された話者音声定位パラメータの値に従って、音声データの音声定位変更を行う（ステップＳ８０）。すなわち、シーンチェンジがあって、かつ、シーンチェンジの前後で同一話者である場合には（ステップＳ６０：ＹＥＳ）、話者位置への音声定位変更量が小さくなるように調整された話者音声定位パラメータの値で音声データの音声定位変更を行い、そうでない場合には（ステップＳ６０：ＮＯ）、ステップＳ２０で設定された話者音声定位パラメータの値で音声データの音声定位変更を行う。

次に、映像音声出力装置１の映像表示部１６は、映像データを出力し、また、音声出力部１７は、音声定位変更を行われた音声データを出力する。

なお、本実施の形態では、映像解析部１１が映像データを解析して同一話者判定処理を行ったが、同一話者判定処理の方法はこれに限定されない。例えば、映像解析部１１がシーンチェンジありと判定した場合に、音声データを解析して、特定した話者がシーンチェンジの前後で同一人物であるか否かを判定するようにしてもよい。

図６は、音声データに基づいて、同一話者判定処理を行う映像音声出力装置２の概略構成図である。映像音声出力装置２は、同一話者の発話中のシーンチェンジを考慮しつつ、話者位置に合わせた音声定位で音声を出力する装置であり、詳しくは、映像解析部１１、話者音声定位パラメータ設定部１２、音声解析部１３、話者音声定位パラメータ調整部１４、定位処理部１５、映像表示部１６、及び音声出力部１７を備えている。すなわち、映像音声出力装置２は、音声解析部１３を備えている点が映像音声出力装置１と異なっており、その他の点は映像音声出力装置１と略同一である。なお、以下においては、上記実施形態と異なる構成及び機能のみ説明し、その他の構成及び機能に関しては同一部分には同一符号を付して説明を省略する。

音声解析部１３は、入力した音声データを定位処理部１５に出力するとともに、映像解析部１１がシーンチェンジありと判定した場合には、入力した音声データを解析して、特定した話者が同一人物であるか否かを判定するようになっている。詳しくは、音声解析部１３は、現シーン（シーンチェンジ後）で特定した話者の音声特徴量を算出し、前シーン（シーンチェンジ前）で特定した話者の音声特徴量と比較して、音声特徴量が等しい場合には、特定した話者は同一人物であると判定するようになっている。なお、前シーンにおける話者の音声特徴量は、後述するように一時記憶領域に保存されている。ここで、音声特徴量とは、例えば、音声のスペクトログラム解析における周波数強度であり、音声特徴量の算出方法に関しては公知の技術が用いられる。

また、音声解析部１３は、同一話者か否かの判定情報を話者音声定位パラメータ調整部１４に出力するようになっている。

図７は、映像音声出力装置２の同一話者位置判定処理の流れを示すフローチャートである。図７は、図４のステップＳ４０に相当する処理である。

映像音声出力装置１の映像解析部１１は、現シーン（シーンチェンジ後のシーン）で特定された話者の音声特徴量を抽出し（ステップＳ５１）、前シーン（シーンチェンジ前のシーン）で特定された話者の音声特徴量と比較する（ステップＳ５２）。

次に、映像音声出力装置１の映像解析部１１は、現シーンで特定された話者の音声特徴量と前シーンで特定された話者の音声特徴量が等しいか否かを判定し（ステップＳ５３）、等しい場合には（ステップＳ５３：ＹＥＳ）、話者の交代なし、すなわち、同一話者であると判定し（ステップＳ５４）、等しくない場合には（ステップＳ５３：ＮＯ）、音声解析部１１は、話者の交代あり、すなわち、同一話者でないと判定する（ステップＳ５５）。

最後に、音声解析部１３は、現シーンの話者の音声特徴量を一時記憶領域に保存する（ステップ５６）。

以上説明したように、上記実施の形態に係る映像音声出力装置１及び２によれば、映像を解析して、話者の位置を特定する映像解析部１１と、映像解析部１１により特定した話者の位置に音声を定位させるように話者音声定位パラメータの値を設定する話者音声定位パラメータ設定部１２と、映像を解析して、シーンチェンジの有無を検出する映像解析部１１と、映像または音声を解析して、前記話者位置特定手段で特定された話者がシーンチェンジの前後で同一人物であるか否かを判定する映像解析部１１または音声解析部１３と、映像解析部１１によりシーンチェンジがあると検出され、かつ、映像解析部１１または音声解析部１３により、映像解析部１１で特定された話者が当該シーンチェンジの前後で同一人物であると判定された場合には、話者音声定位パラメータ設定部１２で設定された話者音声定位パラメータの値に対して、定位位置の変更を小さくするように話者音声定位パラメータの値を調整する話者音声定位パラメータ調整部１４と、話者音声定位パラメータ調整部１４により、調整された話者音声定位パラメータの値に従って音声の定位変更処理を行う定位処理部１５と、定位処理部１５により定位変更された音声を出力する音声出力部１７と、を備えるので、同一話者の発話中にシーンチェンジが発生して話者位置が急に変わっても、視聴者は違和感を覚えることがない。

また、映像解析部１１は、映像解析部１１で特定された話者の顔特徴量を映像データから算出し、算出した顔特徴量がシーンチェンジの前後で同一であるか否かを判定するようにしてもよい。この場合には、映像データから顔特徴量を抽出することで、シーンチェンジ前後の特定された話者が同一人物であるか否かを簡単に判定することができる。

また、映像解析部１１は、映像解析部１１で特定された話者の音声特徴量を音声データから算出し、算出した音声特徴量がシーンチェンジの前後で同一であるか否かを判定するようにしてもよい。この場合には、音声データから音声特徴量を抽出することで、シーンチェンジ前後の特定された話者が同一人物であるか否かを簡単に判定することができる。

また、話者音声定位パラメータ調整部１４は、表示画面の中心方向の位置に音声を定位させるように話者音声定位パラメータの値を調整するようにしてもよい。同一話者の発話中にシーンチェンジが発生して話者位置が急に変わったシーンであっても、音声を画面中心に定位させているので、視聴者は違和感を覚えることなく、快適にコンテンツを視聴することができる。

以上、本発明の実施の形態について説明してきたが、本発明は、上述した実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲において、本発明の実施の形態に対して種々の変形や変更を施すことができ、そのような変形や変更を伴うものもまた、本発明の技術的範囲に含まれるものである。

本発明の実施の形態に係る映像音声出力装置の概略構成図である。本発明の実施の形態に係る映像音声出力装置映像音声出力装置に入力される映像データにおいて話者位置が変わる様子を示す図である。本発明の実施の形態に係る映像音声出力装置に入力される映像データの例である。本発明の実施の形態に係る映像音声出力装置の同一話者発話中のシーンチェンジを考慮して、音声定位制御を行う映像音声出力処理の流れを示すフローチャートである。図４のステップＳ４０の同一話者判定処理の流れを詳しく示すフローチャートである。本発明の他の実施の形態に係る映像音声出力装置の概略構成図である。本発明の他の実施の形態に係る映像音声出力装置の同一話者判定処理の流れを詳しく示すフローチャートである。

符号の説明

１，２映像音声出力装置
１１映像解析部
１２話者音声定位パラメータ設定部
１３音声解析部
１４話者音声定位パラメータ調整部
１５定位処理部
１６映像表示部
１７音声出力部

Claims

音声定位パラメータに基づいて音声定位を制御する映像音声出力装置であって、
映像を解析して、話者の位置を特定する話者位置特定手段と、
前記話者位置特定手段により特定した話者の位置に音声を定位させるように前記音声定位パラメータの値を設定する音声定位パラメータ設定手段と、
映像を解析して、シーンチェンジの有無を検出するシーンチェンジ検出手段と、
映像または音声を解析して、前記話者位置特定手段で特定された話者がシーンチェンジの前後で同一人物であるか否かを判定する同一話者判定手段と、
シーンチェンジ検出手段によりシーンチェンジがあると検出され、かつ、前記同一話者判定手段により、前記話者位置特定手段で特定された話者が当該シーンチェンジの前後で同一人物であると判定された場合には、前記音声定位パラメータ設定手段で設定された音声定位パラメータの値に対して、定位位置の変更を小さくするように前記音声定位パラメータの値を調整する音声定位パラメータ調整手段と、
前記音声定位パラメータ調整手段により、調整された音声定位パラメータの値に従って音声の定位変更処理を行い、映像及び音声を出力する定位変更出力手段と、
を備えることを特徴とする映像音声出力装置。
前記同一話者判定手段は、前記話者位置特定手段で特定された話者の顔特徴量を映像から算出し、算出した顔特徴量がシーンチェンジの前後で同一であるか否かを判定することを特徴とする請求項１記載の映像音声出力装置。
前記同一話者判定手段は、前記話者位置特定手段で特定された話者の音声特徴量を音声から算出し、算出した音声特徴量がシーンチェンジの前後で同一であるか否かを判定することを特徴とする請求項１記載の映像音声出力装置。
前記音声定位パラメータ調整手段は、表示画面の中心方向の位置に音声を定位させるように前記音声定位パラメータの値を調整することを特徴とする請求項１乃至３のいずれか１項に記載の映像音声出力装置。
前記話者位置特定手段は、映像における人の顔の位置を検出して、検出した顔の口の動きから、話者を特定し、特定した話者の口近傍を話者の位置とすることを特徴とする請求項１乃至４のいずれか１項に記載の映像音声出力装置。