JPH11313272A - 映像音声出力装置 - Google Patents

映像音声出力装置

Info

Publication number
JPH11313272A
JPH11313272A JP10116330A JP11633098A JPH11313272A JP H11313272 A JPH11313272 A JP H11313272A JP 10116330 A JP10116330 A JP 10116330A JP 11633098 A JP11633098 A JP 11633098A JP H11313272 A JPH11313272 A JP H11313272A
Authority
JP
Japan
Prior art keywords
speaker
video
volume
voice
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10116330A
Other languages
English (en)
Inventor
Hiroyuki Hayashi
宏之 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP10116330A priority Critical patent/JPH11313272A/ja
Publication of JPH11313272A publication Critical patent/JPH11313272A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Television Receiver Circuits (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 上記のような音声出力制御技術の場合、複数
の話者が存在し、かつ分割画面表示のときにのみ音声出
力制御が行われ、話者が一人しか居ないときや画面分割
を行わず一人の話者のみが画面表示されているときは、
音声出力制御が行われず音声の定位が固定され違和感を
感じるという問題点があった。 【解決手段】 領域検出部を用いて映像中の話者の位置
を検出し、その位置情報をもとにボリューム制御部で複
数の音声出力の音量を制御し、入力されたモノラルの音
声を制御された音量で出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、モノラルの音声を
話者の映像に基づき処理する映像音声出力装置に関す
る。
【0002】
【従来の技術】映像の表示位置に応じて複数の音声出力
の音量を制御する方法として、特開平8−125760
に示されている技術がある。
【0003】この技術は1画面を複数の表示エリアに分
割し、入力された複数の画像データを同時に表示すると
ともに、複数のなかから選択された映像データに付随し
た音声データの音量や定位を制御、あるいは複数の入力
画像データの表示エリアの大きさに比例した音量に制御
するものである。
【0004】
【発明が解決しようとする課題】上記のような音声出力
制御技術の場合、複数の話者が存在し、かつ分割画面表
示のときにのみ音声出力制御が行われ、話者が一人しか
居ないときや画面分割を行わず一人の話者のみが画面表
示されているときは、音声出力制御が行われず音声の定
位が固定され違和感を感じるという問題点があった。
【0005】
【課題を解決するための手段】本発明は、映像データか
ら領域検出手段を用いて画面内の話者の位置を検出し、
検出された位置に基づいてボリューム制御部を制御し、
音量の制御された音声を複数のスピーカへ出力すること
で、音声の定位を移動するものである。
【0006】以上の構成により、モノラルで入力された
音声であっても映像中の話者の位置に応じた位置から音
声が聞こえて、臨場感のある音声を聴くことが可能とな
る。
【0007】また、話者の顔や唇の位置に応じた位置か
ら音声が聞こえるようにすることで、音声の定位の位置
が実際に音声を発している口に近くなり、より臨場感の
ある音声を聴くことが可能となる。
【0008】また、撮影されている複数の人物の口領域
を検出し、各々の領域内の動きが最も大きいものを選択
することで実際に喋っている話者を特定し、その話者の
口の位置から音声が聞こえるようにすることで、複数の
人物中の実際に喋っている人物の位置にから音声が聞こ
えて、臨場感のある音声を聴くことが可能となる。
【0009】
【発明の実施の形態】以下本発明の実施例について説明
する。
【0010】図1は、映像データの話者の位置を検出
し、その位置に応じて入力音声の大きさを制御して複数
のスピーカへ出力する装置の実施例である。
【0011】映像データ入力部101は話者が撮影され
ている映像データを入力し、映像出力部105および領
域検出部103へ映像データを供給する。
【0012】領域検出部103は供給された映像データ
より映像中の話者の位置を検出し、話者の位置情報をボ
リューム制御部104に供給する。
【0013】ボリューム制御部104は話者の位置情報
より、音声データ入力部102より供給された音声をそ
れぞれのスピーカに応じて音量を制御して出力する。
【0014】図2のようにディスプレイ203、スピー
カ201、202のような配置になっている場合、ボリ
ューム制御部104は領域検出部103からの位置情報
の水平方向の座標を用いて、図5の様に話者の位置の水
平方向の比a:bを求め、左スピーカ201の音量と右
スピーカ202の音量をb:aと制御することで、映像
中の話者の位置にあわせた音声定位で出力する。
【0015】図3のようにディスプレイ305、スピー
カ301、302、303、304のような配置になっ
ている場合、ボリューム制御部104は領域検出部10
3からの位置情報を用いて、図6の様に話者の位置の水
平方向の比a:b、垂直方向の比c:dを求め、左スピ
ーカ301の音量と右スピーカ303の音量をb:a、
上スピーカ302の音量としたスピーカ304の音量を
d:cと制御することで、映像中の話者の位置にあわせ
た音声定位で出力する。
【0016】また、図4のようにディスプレイ405、
スピーカ401、402、403、404のような配置
になっている場合、ボリューム制御部104は領域検出
部103からの位置情報を用いて、図6の様に話者の位
置の水平方向の比a:b、垂直方向の比c:dを求め、
左上スピーカ401の音量と左下スピーカ403の音量
の合計と右上スピーカ402の音量と右下スピーカ40
4の音量の合計がb:a、左上側スピーカ401の音量
と左下スピーカ403の音量の比および、左上側スピー
カ401の音量と左下スピーカ403の音量の比がd:
cとなるよう制御することで、映像中の話者の位置にあ
わせた音声定位で出力する。
【0017】また、話者の領域を検出する際に顔画像領
域抽出技術を用いることで、話者が実際に音声を発して
いる口に近い位置に音声の定位を設定することが可能と
なる。
【0018】この場合求められた顔領域内で口により近
い位置を定位として設定するのが望ましいので、図7の
ように求められた顔領域701の水平方向の中心702
および垂直方向の中心703の交点を音声定位算出の基
準にするようにする。
【0019】また、映像中の口領域抽出技術を用いて音
声の定位を決定すれば、より正確に音声の定位位置を決
定することができ望ましい。
【0020】上記の口領域抽出技術が映像中の複数の口
領域を検出可能な場合、図8のように複数の話者がいて
左の話者の口領域801、右の話者の口領域802のよ
うに複数の口領域を検出した後領域内の動き検出を行
い、動きの最も大きな口領域を実際に話をしている話者
の口領域とし、その領域に音声の定位が来るように音量
を制御する。
【0021】また、検出された顔や口領域の面積を算出
し、映像の全画面内に占める割合が大きなときは大きな
音で、割合が小さなときは小さな音で出力されるように
ボリュームを制御する。このとき、音声の定位が変化し
ないように各スピーカの音量の比は変化しないように制
御する。
【0022】上記の領域検出および音量制御はひとつの
機器で行う必要はなく、通信装置で送受合わせて2台以
上の機器を用いても可能である。
【0023】図9のように送信装置910で話者の領域
を特定し、映像,音声および話者領域データを送信し、
それを受信機911で受信し話者領域データを用いて複
数のスピーカ908に音量を制御して出力することも可
能である。この場合、話者領域を求めるという計算コス
トの高い部分を受信装置側で持つ必要がない。
【0024】また図10のように送信装置1009で話
者の位置を特定し、それを用いて複数の音量制御された
音声データを作成し、その複数の音声データと映像デー
タを送信し、受信装置1010で受信し出力することも
可能である。この場合、話者領域を求めるという計算コ
ストの高い部分およびボリューム制御装置をも受信装置
側で持つ必要がない。
【0025】図12は本発明の処理手順の概要を示すフ
ローチャートである。この図では順次処理の流れとなっ
ているが、並列で処理可能な部分は並列に処理してもよ
い。
【0026】
【発明の効果】本発明では、モノラルの音声入力にもか
かわらず、話者の位置から音声が聞こえるために臨場感
を向上することが出来る。
【0027】請求項1の本発明では、話者の位置を検出
し、複数のスピーカへ出力する音量をそれぞれ制御する
ことで、話者の位置に応じた音声定位で音声を出力でき
る。
【0028】請求項2の本発明では、話者の位置を検出
し、複数のスピーカへ出力する音量をそれぞれ制御する
ことで、モノラルの音声入力にもかかわらず話者の位置
から音声定位があり臨場感を向上することができる。
【0029】請求項3の本発明では、話者の顔領域を検
出し、複数のスピーカへ出力する音量をそれぞれ制御す
ることで、モノラルの音声入力にもかかわらず話者の顔
位置付近から音声定位があり臨場感を向上することがで
きる。
【0030】請求項4の本発明では、話者の口領域を検
出し、複数のスピーカへ出力する音量をそれぞれ制御す
ることで、モノラルの音声入力にもかかわらず話者の口
の位置から音声が聞こえるために、より臨場感を向上す
ることができる。
【0031】請求項5の本発明では、複数の口領域を検
出し、そのなかで話を実際にしている話者の口領域を選
択することで、複数の話者が映像中に映っていても実際
に声を発している話者の口の位置から音声が聞こえるた
めに、より臨場感を向上することができる。
【0032】請求項6の本発明では、検出した領域の大
きさに音声の大きさを制御することで、上下左右の定位
のみでなく、話者が近くに映っているときは大きな音
で、遠くに映っているときは小さな音で音声を出力する
ことができる。
【0033】請求項7の本発明では、映像音声を入力す
る装置と出力する装置が通信を行うとき、話者の位置情
報を送信側から送信することで受信側は話者領域に応じ
た音声定位を決めることができる。また、受信側は計算
コストの高い領域検出部を持つ必要がない。
【0034】請求項8の本発明では、映像音声を入力す
る装置と出力する装置が通信を行うとき、話者の位置に
応じた定位で複数の音声信号を送信することで、音量制
御部を持っていない受信装置であっても、臨場感のある
音声を出力することができる。
【図面の簡単な説明】
【図1】本発明の実施例を示す概略構成図である。
【図2】ディスプレイとスピーカの位置関係を示した図
である。
【図3】ディスプレイとスピーカの位置関係を示した図
である。
【図4】ディスプレイとスピーカの位置関係を示した図
である。
【図5】映像中の話者の位置を示した図である。
【図6】映像中の話者の位置を示した図である。
【図7】顔領域が決定された際の口の位置の決定方法を
示した図である。
【図8】複数の話者が存在し、複数の口領域が抽出され
ている様子を示した図である。
【図9】本発明を通信装置に適応した概略構成図であ
る。
【図10】本発明を通信装置に適応した概略構成図であ
る。
【図11】従来の技術の概略構成図である。
【図12】本発明のフローチャートである。
【符号の説明】
101 映像データ入力部 102 音声データ入力部 103 領域検出部 104 ボリューム制御部 105 映像出力部 106 スピーカ

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 映像中で話者の位置を検出する手段およ
    び、複数のスピーカへ提供する音声の大きさを制御する
    ボリューム制御手段を有し、映像中の話者の位置を検出
    し、ボリュームを制御することを特徴とする映像音声出
    力装置。
  2. 【請求項2】 上記請求項1で音声の大きさを制御する
    際に、検出された話者の位置を用いて映像中の話者の位
    置に対応して音声の定位を左右,上下或いは上下左右に
    制御することを特徴とする映像音声出力装置。
  3. 【請求項3】 上記請求項1の話者領域検出手段に顔領
    域検出を用いることを特徴とする映像音声出力装置。
  4. 【請求項4】 上記請求項1の話者領域検出手段に口領
    域検出を用いることを特徴とする映像音声出力装置。
  5. 【請求項5】 上記請求項4の口領域検出手段が映像中
    の複数の口領域を検出可能で、検出された各々の領域内
    の動きの一番大きな領域をもとにボリュームを制御する
    ことを特徴とする映像音声出力装置。
  6. 【請求項6】 上記請求項3,4または5で検出された
    領域の大きさに応じて全てのスピーカの音声の大きさを
    制御することで、映像中で話者が大きな面積を占めると
    きは大きな音声で、映像中で話者が小さな面積を占める
    ときは小さな音声で音声を出力することを特徴とする映
    像音声出力装置。
  7. 【請求項7】 上記請求項1が話者検出手段および、映
    像データ,音声データおよび話者位置データを送信可能
    な通信制御部を有す送信装置と、映像データ,音声デー
    タおよび話者位置データを受信可能な通信制御部およ
    び、ボリューム制御手段を有す受信装置からなり、送信
    装置で検出された話者位置データを受信装置が受信し、
    ボリューム制御部を制御することを特徴とする映像音声
    出力装置。
  8. 【請求項8】 上記請求項1が話者検出手段、ボリュー
    ム制御手段および、映像データおよび複数の音声データ
    を送信可能な通信制御部を有す送信装置と、映像データ
    および複数の音声データを受信可能な通信制御部を有す
    受信装置からなり、送信装置が話者位置を検出し、ボリ
    ューム手段によりボリュームを制御された複数の音声を
    送信し、受信装置が受信した複数の音声を複数のスピー
    カから出力することを特徴とする映像音声出力装置。
JP10116330A 1998-04-27 1998-04-27 映像音声出力装置 Pending JPH11313272A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10116330A JPH11313272A (ja) 1998-04-27 1998-04-27 映像音声出力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10116330A JPH11313272A (ja) 1998-04-27 1998-04-27 映像音声出力装置

Publications (1)

Publication Number Publication Date
JPH11313272A true JPH11313272A (ja) 1999-11-09

Family

ID=14684307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10116330A Pending JPH11313272A (ja) 1998-04-27 1998-04-27 映像音声出力装置

Country Status (1)

Country Link
JP (1) JPH11313272A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003094768A1 (fr) * 2002-05-07 2003-11-20 Kyoto University Systeme de visualisation medicale
JP2006074386A (ja) * 2004-09-01 2006-03-16 Fujitsu Ltd 立体音響再生方法、通信装置及びプログラム
JP2007306470A (ja) * 2006-05-15 2007-11-22 Sharp Corp 映像音声再生装置、及びその音像移動方法
JP2010041484A (ja) * 2008-08-06 2010-02-18 Pioneer Electronic Corp 映像音声出力装置
US20100118199A1 (en) * 2008-11-10 2010-05-13 Kabushiki Kaisha Toshiba Video/Audio Processor and Video/Audio Processing Method
WO2010140254A1 (ja) * 2009-06-05 2010-12-09 パイオニア株式会社 映像音声出力装置及び音声定位方法
US8483414B2 (en) * 2005-10-17 2013-07-09 Sony Corporation Image display device and method for determining an audio output position based on a displayed image
US11277702B2 (en) 2019-03-08 2022-03-15 Lg Electronics Inc. Method and apparatus for sound object following

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003094768A1 (fr) * 2002-05-07 2003-11-20 Kyoto University Systeme de visualisation medicale
CN100379391C (zh) * 2002-05-07 2008-04-09 国立大学法人京都大学 医疗舱***
JP2006074386A (ja) * 2004-09-01 2006-03-16 Fujitsu Ltd 立体音響再生方法、通信装置及びプログラム
US8483414B2 (en) * 2005-10-17 2013-07-09 Sony Corporation Image display device and method for determining an audio output position based on a displayed image
JP2007306470A (ja) * 2006-05-15 2007-11-22 Sharp Corp 映像音声再生装置、及びその音像移動方法
JP2010041484A (ja) * 2008-08-06 2010-02-18 Pioneer Electronic Corp 映像音声出力装置
US20100118199A1 (en) * 2008-11-10 2010-05-13 Kabushiki Kaisha Toshiba Video/Audio Processor and Video/Audio Processing Method
WO2010140254A1 (ja) * 2009-06-05 2010-12-09 パイオニア株式会社 映像音声出力装置及び音声定位方法
US11277702B2 (en) 2019-03-08 2022-03-15 Lg Electronics Inc. Method and apparatus for sound object following

Similar Documents

Publication Publication Date Title
JP3321178B2 (ja) 音声会議システム中に空間音声環境を作る装置と方法
EP1947471B1 (en) System and method for tracking surround headphones using audio signals below the masked threshold of hearing
US20080226087A1 (en) Position Sensing Using Loudspeakers as Microphones
US20090192707A1 (en) Audio Guide Device, Audio Guide Method, And Audio Guide Program
US6681019B1 (en) Polarity determining circuit for loudspeakers, an audio circuit having a function of determining polarities of loudspeakers, and an audio circuit having functions of determining polarities of loudspeakers and switching the polarities
US20170251324A1 (en) Reproducing audio signals in a motor vehicle
US7177413B2 (en) Head position based telephone conference system and associated method
JP4992591B2 (ja) 通信システム及び通信端末
JP2003032776A (ja) 再生システム
JP2007068060A (ja) 音響再生システム
JPH11313272A (ja) 映像音声出力装置
CN113079453B (zh) 一种听觉音效智能跟随方法及***
US6215879B1 (en) Method for introducing harmonics into an audio stream for improving three dimensional audio positioning
US20150086023A1 (en) Audio control apparatus and method
JPH11234640A (ja) 通信制御システム
WO2023061330A1 (zh) 音频合成方法、装置、设备及计算机可读存储介质
JP2523367B2 (ja) 音声再生方式
JPH09182198A (ja) 音場報知装置
JP3952870B2 (ja) 音声伝送装置、音声伝送方法及びプログラム
WO2022054900A1 (ja) 情報処理装置、情報処理端末、情報処理方法、およびプログラム
KR20100028326A (ko) 미디어 처리 방법 및 그를 위한 장치
WO2006107074A1 (ja) 携帯端末装置
US20060126877A1 (en) Method for simulating a movement by means of an acoustic reproduction device, and sound reproduction arrangement therefor
JP2023043698A (ja) オンライン通話管理装置及びオンライン通話管理プログラム
JPH06318087A (ja) 舞台用音響制御方法と装置