JP4872871B2 - 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ - Google Patents

音源方向検出装置、音源方向検出方法及び音源方向検出カメラ Download PDF

Info

Publication number
JP4872871B2
JP4872871B2 JP2007252734A JP2007252734A JP4872871B2 JP 4872871 B2 JP4872871 B2 JP 4872871B2 JP 2007252734 A JP2007252734 A JP 2007252734A JP 2007252734 A JP2007252734 A JP 2007252734A JP 4872871 B2 JP4872871 B2 JP 4872871B2
Authority
JP
Japan
Prior art keywords
frequency
sound source
unit
sound
source direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007252734A
Other languages
English (en)
Other versions
JP2009086055A (ja
Inventor
貴義 川口
康広 小玉
洋平 櫻庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007252734A priority Critical patent/JP4872871B2/ja
Priority to US12/284,455 priority patent/US8098843B2/en
Priority to CN2008101671474A priority patent/CN101398475B/zh
Publication of JP2009086055A publication Critical patent/JP2009086055A/ja
Application granted granted Critical
Publication of JP4872871B2 publication Critical patent/JP4872871B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/801Details
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/86Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves with means for eliminating undesired waves, e.g. disturbing noises

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Studio Devices (AREA)

Description

本発明は、例えば会議中に話者が発する音声を解析することによって、話者の方向を検出する場合に適用して好適な音源方向検出装置及び音源方向検出方法、音源方向検出カメラに関する。
従来、例えば遠隔地間での会議等において、話者の発言内容と、話者の様子をリアルタイムで送受信するビデオ会議システムが用いられている。このようなビデオ会議システムは、会議中の音声を集音するマイクロホン(以下、「マイク」とも略称する。)と、会議の参加者を撮影するカメラと、カメラに内蔵され、周囲の音声を集める音源検出マイクと、音源検出マイクが集音した周囲の音声から音源(話者)の方向を検出する音源方向検出部と、を備える。さらに、ビデオ会議システムは、音源方向検出部が検出した話者の方向にカメラを向けるよう制御する駆動部と、カメラが撮像した映像フレームと集音マイクが集音した音声フレームとを、所定の伝送フォーマットに変換し、遠隔地の会議システムに送信している。
そして、音源方向検出部は、話者が発した音声を解析することで、カメラに対する話者の方向を検出する。検出した話者の方向に基づいて、駆動部はカメラを話者に向け、撮影する。話者の方向(以下、「音源方向」ともいう。)を特定するためには、従来、様々な技術が用いられている。ここでは、2つのマイクを用いて音源方向を検出する技術について、図12を参照して説明する。
図12(a)は、2つのマイクと音源との位置関係を示す。音源方向を検出するためには、2つ以上のマイクを用いる。第1のマイク101aと第2のマイク102aの距離をDとしている。そして、第1のマイク101aと第2のマイク102aを結ぶ線分の中点に対して引かれた垂線と矢印101b,102bがなす角度をθとする。そして、角度θの方向に存在する話者を音源100とする。第1のマイク101aと第2のマイク102aから音源100までの距離は、第1のマイク101aと第2のマイク102aとの間の距離に対して十分長い。このため、音源100から第1のマイク101a、第2のマイク102aにそれぞれ入力される音声の方向を表す矢印101bと102bは、平行とみなせる。
この場合、第2のマイク102aから矢印(線分)101bに下ろした垂線と、矢印101b(線分)との交点から求まる第1のマイク101aまでの距離Lは、音源100が発する音波が到着するまでの時間差に対応する。つまり、距離L[m]を音速[m/s]で除することによって、音源100が発する音波と同位相の波面が、第2のマイク102aに達した後、第1のマイク101aに達するまでの時間差として求められる。そして、マイク間の距離Dと、時間差から算出される距離Lから、sinθの値が算出される。算出されたsinθの値より音源方向Aにカメラを向けることができる。
図12(b)は、第1のマイク101aと第2のマイク102aでそれぞれ検出された音声を複素平面上に示したものである。図12(b)において、第1のマイク101aが検出する音声に対応するベクトルBと、第2のマイク102aが検出する音声に対応するベクトルCの位相差がφであることが示される。この位相差φは、第1のマイク101aと音源101、第2のマイク102aと音源101との距離が異なるため、同一音源の音波であっても生じる。位相差φの影響を考慮することによって、第1のマイク101aと第2のマイク102aに到達する同一周波数成分の音波の時間差が求まる。そして、求められた時間差からsinθを算出することが可能となるため、音源の方向を検出できる。
音源の方向は、単位時間毎に集音した音声に対して、例えば高速フーリエ変換(FFT:Fast Fourier Transform)を施し、周波数成分に分解して得られるベクトルを用いて推定できる。この結果、第1のマイク101aと第2のマイク102aについて位相差φが得られる。複素平面上に表示されるベクトルの長さは、周波数成分毎の音声のパワーである。理想的には、第1のマイク101aと第2のマイク102aが検出する音源の方向は一致し、図12(b)に示すベクトルBの方向となることが望ましい。例えば、正面に音源(つまり、音源100に対する第1のマイク101aと第2のマイク102aの距離が同じ場合)があると、位相差はゼロとなる。しかし、前方の斜め方向(つまり、音源100に対する第1のマイク101aと第2のマイク102aの距離が異なる場合)に音源があると位相差が生じる。つまり、複素平面に表した複数のベクトルから、位相差が生じていることが判明する。
図12(c)は、第1のマイク101aと第2のマイク102aが向いている方向(すなわち、第1のマイク101aと第2のマイク102aを結ぶ線分の垂直方向)を正面として、正面から±90度方向を解析した結果得られるヒストグラムの例である。図12(c)で示すヒストグラムは、横軸をsinθ、縦軸を加算値として示される。人間の声は、様々な周波数を含んでいるため、周波数毎にパワーを算出する。そして、角度毎に、算出したパワーの値をヒストグラムに加算する。この結果、音源方向の角度が判明する。
ここで、sinθの値が、|sinθ|>1を含む理由について説明する。
本来であれば、|sinθ|≦1であることは自明である。しかし、従来は、sinθの値を求めるために、以下の数式を用いていた。ここで、周波数をf[Hz]、φを位相差としている。
Figure 0004872871
このように時間差、音速、マイク間の距離の値に基づいて、sinθを決定する場合、第1のマイク101aに対して、第2のマイク102aの方が音波の到達時刻が早い場合、時間差は正となる。一方、第1のマイク101aに対して、第2のマイク102aの方が音波の到達時刻が遅い場合、時間差は負となる。このため、sinθの値には、正負があり得る。また、式(1)の分母より分子が大きい場合、sinθは、−1より小さい又は1より大きい値になり得る。これらの|sinθ|>1の領域で得られる値は、誤差や回り込み等により生じる。このため、|sinθ|>1の領域に表示されるヒストグラムについても考慮する必要がある。
こうして、従来、複数のマイクで音声を集音する場合に、周波数毎の推定角度をヒストグラムに加え、一番度数の高い角度を音源方向として検出していた。
特許文献1には、集音した複数の音声信号のタイムラグと最大レベルにより、1つの音声信号を切り替えて集音するマイクロホンシステムについて記載されている。
特許文献2には、反射音や雑音と共に入力された音の音源位置の方向の推定精度の劣化を防止するための音源方向推定装置について記載されている。
特許文献3には、残響による音源方向の誤差を少なくする技術について記載されている。
特開平7−336790号公報 特開2004−12151号公報 特開2006−194700号公報
ところで、従来の音源検出する技術を用いると、話者の方向を誤って検出する場合があった。音源方向を誤検出してしまう理由としては、音源100の周囲に発生するノイズ成分の影響が考えられる。ここで、音源100の周囲に発生するノイズの影響について、図13を参照して説明する。
図13(a)は、音声に生じるノイズの影響について説明する図である。図13(a)に示すように、ノイズはある一定のパワー(N)を有しており、ノイズ成分は所定の周期で複素平面上を回転する。そして、ノイズより大きいパワー(P)の音声について周波数成分毎に分解し、音源方向を求めようとしても、本来の音源の方向に対して、パワーが最大Nだけずれた方向を見せかけの音源方向として検出してしまう。このような見せかけの音源方向を検出すると、所定の周波数範囲内で加算した度数で表されるヒストグラムがいびつな形状となってしまう。
図13(b)は、周波数成分毎に算出した度数を加算したヒストグラムの表示例を示す。この表示例に示すように、最もヒストグラムの値が大きい加算値111は、sinθの値が“−0.6”の方向であることが示される。しかしながら、本来の音源方向Aは、図12(c)に示す加算値110の方向(sinθ=0.3)である。このように、ある周波数帯域で度数が誤った方向に加算されることによって、方向検出を誤ってしまうため、カメラを話者に適切に向けられないという課題が生じていた。
本発明はこのような状況に鑑みて成されたものであり、音源(話者)の方向を確実に検出することを目的とする。
本発明の第1の側面は、複数のマイクロホンが音源から集音する音声から生成した音声フレーム周波数成分分解し、音源の周囲に生じるノイズの影響を誤差範囲として決定し、決定された誤差範囲に基づいて、分解された周波数成分から求まる度数を分散し、度数に周波数成分が高くなるにつれて値を大きくする重み付けを行って、分散された度数を加算する。そして、加算された加算値のうち、最も大きい加算値が位置する位相に基づいて、音源の方向を検出する。
また、本発明の第2の側面は、複数のマイクロホンが音源から集音する音声から生成した音声フレーム周波数成分分解し、分解された周波数成分毎に定まる度数を加算し、加算された加算値のうち、最も大きい加算値が位置する位相に基づいて、音源の方向を検出し、加算された度数を平滑化し、平滑化された度数を保存する。そして、第1の音声フレームが平滑化された度数と、第1の音声フレームに連続して集音される音声から複数のマイクロホンによって生成される第2の音声フレームの周波数成分毎に定まる度数を信頼度係数による重み付けを行って加算する。
このようにしたことで、音源(話者)の周囲にノイズ等が発生していても、話者の方向を確実に検出できる。
また、連続する音声フレームから話者の方向を確実に検出できる。
本発明によれば、音源(話者)の方向を確実に検出できるため、検出した方向にカメラを向けることが可能となる。このため、発言している話者と異なる方向にカメラを向けることがないという効果がある。
また、連続する音声フレームから話者の方向を確実に検出できるため、検出した方向にカメラを向けることが可能となる。このため、発言している話者と異なる方向にカメラを向けることがないという効果がある。
以下、本発明の第1の実施の形態について、図1〜図6を参照して説明する。本実施の形態では、遠隔地間での画像と音声をリアルタイムで送受信可能なビデオ会議システム10に適用した例として説明する。
図1は、本例のビデオ会議システム10の外観構成例を示す。話者を撮像するカメラ1は、音源を検出するために音声を集音する第1のマイク1aと第2のマイク1bを筐体下部に備える。第1のマイク1aと第2のマイク1bは、所定距離、例えば、約10cm離れて配置される。そして、第1のマイク1aと第2のマイク1bは、集音した音声を音声フレームに変換し、制御装置2に送出する。第1のマイク1aと第2のマイク1bが集音する音声は、話者の発言内容を記録するためには用いられず、音源を検出するために用いられるだけである。カメラ1の筐体は固定設置されており、第1のマイク1aと第2のマイク1bの向きは動かない。
また、カメラ1は、パン、チルトが可能な駆動部1dを備える。駆動部1dは、話者を撮像するレンズ部1cが設置される。レンズ部1cは、図示しないズーム制御機構部と、フォーカス制御機構部とを含む。駆動部1dは、ビデオ会議システム10が話者の方向を検出すると、話者の方向にレンズ部1cを向けて角度を調整する。そして、レンズ部1cが撮像した映像を解析することで顔を認識し、話者の顔が画面中央に来るようにズームを調整する。
カメラ1は、各装置を制御する制御装置2に接続される。カメラ1は、撮像した光学像を電気信号に変換して映像フレームを生成し、映像フレームを制御装置2に送る。また、全方向からの音声を集音可能な無指向性マイク13は、集音した音声フレームを制御装置2に送る。制御装置2には、スピーカを内蔵し音声を放音すると共に、液晶ディスプレイで画像を表示する表示装置4が接続される。表示装置4は、遠隔地にいる相手方の会議室や話者の様子を表示したり、各話者の発言を搭載されたスピーカから放音したりする。
制御装置2は、カメラ1から取得した映像フレームと、無指向性マイク3から取得した音声フレームをMPEG(Moving Picture Experts Group)−4規格に準拠した符号化方式で変換し、圧縮した後、UDP(User Datagram Protocol)パケットに分割する。送信するパケットには、暗号化を施してありセキュアな通信を実現している。暗号化方式には、例えば、共通鍵暗号方式であるAES(Advanced Encryption Standard)を用いている。伝送プロトコルには、例えば、SDP(Session Description Protocol)、RTP(Real-time Transport Protocol)が用いられ、リアルタイム通信を可能としている。そして、制御装置2は、ルータ5を介してパケットをマルチキャスト方式等で相手方に送る。各拠点間は、インターネット15等のネットワークを介してデータの送受信が行われる。
一方、制御装置2は、相手方から受け取るパケットを再構築して、表示装置4に相手方の映像を表示し、音声を放音させる。また、表示装置4は、画面分割することによって、話者11a〜11dの様子を表示することもできる。このようにして、遠隔地であっても、互いの距離を感じることなく会議を行うことができる。
次に、ビデオ会議システム10の設置例について、図2を参照して説明する。図2では、会議室13を俯瞰して示している。会議室13の中央には、机12が置かれる。机12の上には、無指向性マイク13が設置される。机12の両側には、4人の話者11a〜11dが2名ずつ座って会議を行っているとする。表示装置4は、話者11a〜11dが視認しやすく、カメラ1の視界を遮らない壁際に設置される。表示装置4は、接続した相手方の映像を表示し、音声を放音する。
話者11a〜11dの顔を撮影するカメラ1は、会議室13の隅に設置される。いずれかの話者が発言すると、カメラ1は、発言した話者の方向を検出し、パン、チルト、ズーム動作を行って、発言した話者を撮影する。カメラ1は、パン可能な約120度の範囲内であれば話者を適切に撮影できる。
次に、ビデオ会議システム10の内部構成例について、図3を参照して説明する。
カメラ1は、レンズ部1cを備えており、レンズ部1cを介して入射した像光をCCD(Charge Coupled Device)撮像素子4の撮像面に結像させる構成としている。レンズ部1cのズーム、フォーカス等を制御するカメラ駆動部1eは、制御装置2から供給される制御信号によってレンズ部1cを駆動する。カメラ1が撮像して得るアナログ映像信号は、制御装置2に内蔵されて各部を制御する制御部16に供給される。そして、制御部16は、アナログ信号の映像フレームをデジタル信号の映像フレームに変換し、所定のデジタル処理を施す。
第1のマイク1aと第2のマイク1bが集音したアナログ信号の音声フレームについても、制御部16に供給される。そして、制御部16は、アナログ信号の音声フレームを、デジタル信号の音声フレームに変換し、所定のデジタル処理を施す。
制御装置2は、音源の方向を検出する音源方向検出装置20を備える。音源方向検出装置20は、制御部16から供給されるデジタル音声信号を複数の周波数に分解する周波数分解部21と、ノイズ等による誤差範囲を決定する誤差範囲決定部22と、決定された誤差範囲に基づいて周波数毎の度数を分散する度数分散部23と、分散された度数分布(度数)を加算する度数加算部24と、所定の周波数範囲内で加算された度数分布より音源方向を検出する音源方向検出部25と、を備える。
周波数分解部21は、デジタル音声信号に含まれる複数の周波数成分を取り出す。取り出す周波数成分の周波数の値は、可聴域の範囲内、例えば、200Hz〜4kHzの範囲に含まれる。周波数成分の分解能は、FFTの設定によって異なる。誤差範囲決定部22は、音源の周囲に生じるノイズの影響する位相の誤差の範囲を決定する。ノイズは、例えば空調機の音である。決定された位相の誤差の範囲に基づいて、度数分散部23は、位相の誤差の範囲に度数を分散させる。そして、度数加算部24は、分散された度数を加算する。加算された度数は、後述する図5のヒストグラムに示される。
度数加算部24が加算した度数に基づいて、音源方向検出部25は、加算された度数の加算値のうち、最も大きい加算値が位置する位相を、求めることで音源方向を検出する。このとき、音源方向検出部25は、位相差φと位相θとを対応づけた位相テーブル26を参照し、位相差φから求まる時間差より、sinθの値を検出する。そして、音源方向検出部25は、検出したsinθの値を制御部16に供給する。制御部16は、音源方向検出部25から受けとったsinθの値に基づいて、駆動部1fを動かし、レンズ部1cを話者の方向に向ける。
次に、音源方向を推定するための処理の例について、図4を参照して説明する。
初めに、第1のマイク1aと第2のマイク1bは、音源からの音声を集音し(ステップS1)、音声フレームを制御装置2に送る。制御装置2に送られた音声フレームは、デジタル信号に変換された後、周波数分解部21に送られる。
次に、周波数分解部21は、音声フレームを複数の周波数成分に分解する(ステップS2)。このとき、周波数分解部21は、音声フレームに高速フーリエ変換を施して、音声に含まれる周波数成分を分解する。
次に、誤差範囲決定部22は、ノイズが影響する誤差の範囲を決定する(ステップS3)。決定した音源方向は、ノイズによってずれる可能性がある。このため、度数を誤差の範囲で正規分布に従って分散させることによって、音源方向のズレが度数の加算値に及ぼす影響を少なくできる。
次に、度数加算部24は、所定の周波数範囲内であるかどうかを判別する(ステップS4)。ここでは、周波数の範囲を、例えば200Hz〜4kHzの間に含まれる音声フレームの周波数成分について判断する。そして、初期値を200Hzとして、順に数10Hz刻みで周波数を増分させることによって、各周波数帯域で求められた度数を加算している。
所定の周波数範囲内である場合、度数分散部23は、決定された誤差の範囲内で度数分布を分散させる(ステップS5)。このとき、分散させる度数分布は、正規分布に従う。そして、度数加算部41は、度数分散部23によって分散された度数分布を加算する(ステップS6)。その後、処理をステップS4に移して、新たな周波数成分から求められる分散された度数分布を加算する。
音源方向検出部25は、所定の周波数範囲内で分散された度数分布を全て加算すると、最も加算値が大きい度数の加算値が位置するsinθの値より、位相を求め、音源方向として検出する(ステップS7)。
次に、図4に示した処理によって表示されるヒストグラムの例について、図5を参照して説明する。
図5(a)は、ある周波数における度数分布を加算して得られるヒストグラムの表示例である。集音された音声は、複数の周波数成分に分解される。そして、周波数毎に定まる度数は、誤差の範囲32内で正規分布に従って分散される。つまり、分散された度数は、推定したsinθ=0.3に最も多く加算される。本例では、sinθ=0.3を中心に5つのsinθに対して加算処理してある。
図5(b)は、所定の周波数範囲内で定まる分散された度数分布を加算したヒストグラムの表示例である。音源方向検出部25は、加算値が最も高いsinθを、音源がいると推定できる推定方向33とする。そして、図5に示すように、従来、誤って推定されていた音源の方向を正しく検出できる。
ここで、高い周波数の音声を加算する際のヒストグラムの表示例について、図6を参照して説明する。正しい音源方向の候補以外は周波数によってsinθの位置が異なるので、ヒストグラムを加算することで正しい音源方向を選ぶことができる。ところで、誤ってまったく異なる方向が音源方向であると推定することがある。本例の音源方向検出装置20では、高い周波数であっても適切に音源方向を検出することが可能である。以下には、正しい音源方向を検出する例について説明する。
図6(a)は、高い周波数の音声を加算した従来のヒストグラムの表示例を示す。
正しい音源方向は、sinθ=0.3とする。図6(a)より、3kHzの音波から求められる度数35と、4kHzの音波から求められる度数36は、sinθ=0.3の他にも様々な方向に分散して加算されることが示される。これは、周波数が高くなると、sinθ_0=f(φ,周波数)、sinθ_1=f(φ+2π,周波数)という、複数のθの候補が存在するためである。このため、他の方向の加算値の影響によって、音源方向を誤る可能性がある。
そこで、上述スのように度数を分散して加算することで、低い周波数でもおおよその向きは、正しい音源方向に近くなる。そこで、低い周波数からヒストグラムの加算を行う。そして、高い周波数で複数の候補が存在する場合、その時点での加算値によって加算する値を異ならせる。
図6(b)は、本例の音源方向検出装置20で高い周波数の音声を加算したヒストグラムの表示例を示す。図6(b)においても、従来と同様に3kHzの音波の度数35と、4kHzの音波の度数36は、様々な方向に分散して加算されることが示される。しかしながら、加算される度数に対して、周波数成分が高くなるにつれて値を大きくする重み付けがされている点が従来とは異なる。このとき、第1のマイク1aで加算される3kHzまでの度数をsinθ_1、第2のマイク1bで加算される3kHzまでの度数をsinθ_2とした場合、次式(2),(3)に示す演算によって加算する度数を求める。
Figure 0004872871
このようにして、sinθの値に応じて、重み付けをした度数を加算して、正しい音源方向を検出できる。
以上説明した第1の実施の形態に係る音源方向検出装置20によれば、目的とする音声と共にマイクに集音されるノイズの影響を除いた状態で音源の正しい方向を検出することが可能である。このため、音源に対してレンズ部1cを向けることができ、適切な話者を撮像できるという効果がある。
なお、音源方向検出装置20は、誤差範囲決定部22を備え、所定の単位時間に音声に含まれるノイズによる影響を誤差範囲として決定するようにしたが、一度決定した誤差範囲は、所定の時間(例えば、3秒間)だけメモリ等に格納するようにしてもよい。この場合、周波数分解部21から度数分散部23に処理が移る。このように処理を行ったとしても、ノイズの影響は長時間変わらないため、誤差範囲を適切に算出できるという効果がある。また、処理ステップが一段経るため、処理を高速化できる。
次に、本発明の第2の実施の形態に係る音源方向検出装置40の内部構成例について、図7を参照して説明する。なお、音源方向検出装置40を含むビデオ会議システム50の外観構成例、設置例については、既に説明した第1の実施の形態に係るビデオ会議システム10と同様であるため、詳細な説明は省略する。また、図7において、既に第1の実施の形態で説明した図3に対応する部分には同一符号を付す。
音源方向検出装置40は、デジタル音声信号を複数の周波数成分に分解する周波数分解部21と、分散された度数を加算する度数加算部41と、加算された度数分布の加算値より音源方向を検出する音源方向検出部25と、を備える。さらに、音源方向検出装置40は、度数加算部41が加算した音声フレーム(以下、単にフレームともいう。)毎の加算値に所定の数式による処理を施して平滑化する度数加算値平滑部42と、平滑化された度数を保存する平滑度数加算値保存部42と、を備える。そして、度数加算部41は、平滑度数加算値保存部42から読み出した平滑化された度数の加算値と、周波数分解された度数の加算値とを加える。なお、加算した度数は、後述する図10のヒストグラムに示される。
度数加算部41が加算した度数に基づいて、音源方向検出部25は、最も大きい加算された度数の加算値が位置する位相を、求める音源方向とする。このとき、音源方向検出部25は、位相差φとsinθとを対応づけた位相テーブル26を参照し、位相差φから求まる時間差より、sinθの値を検出する。そして、音源方向検出部25は、検出したsinθの値を制御部16に供給する。制御部16は、音源方向検出部25から受けとったsinθの値に基づいて、駆動部1fを動かし、レンズ部1cを話者の方向に向ける
ここで、従来行っていた、連続する時間毎に取得する同一周波数成分のフレーム(第1のフレームと第2のフレーム)に基づいて表示されるヒストグラムの例について、図8を参照して説明する。
図8(a)は、第1のフレームのヒストグラムの表示例を示す。
図8(b)は、第2のフレームのヒストグラムの表示例を示す。
従来では、所定の単位時間に取得したフレーム毎に周波数分解した後、フレーム毎に度数を加算していた。つまり、第1のフレームで加算した度数を一度リセットした上で、第2のフレームで度数を加算していた。この場合、時間的に連続するフレームであっても、フレーム毎にヒストグラムが異なり、推定する音源方向がバラつくことがあった。本例では、このような問題点を解決している。
次に、本例の音源方向検出装置40で行う音源方向を推定するための処理の例について、図9を参照して説明する。音源方向検出装置40は、時間的に連続する音声フレーム(以下の説明では、第1のフレームと第2のフレームとも言う)について、それぞれ求められる度数の加算値を求めた上で、さらに加算している。このように処理することによって、第1のフレームで検出した音源方向の影響を残した状態で、第2のフレームで音源方向を検出できる。
初めに、第1のマイク1aと第2のマイク1bは、音声を集音し(ステップS1)、音声フレームを制御装置2に送る。制御装置2に送られた音声フレーム(第1のフレーム)は、デジタル信号に変換された後、周波数分解部21に送られる。
次に、周波数分解部21は、音声フレームを複数の周波数に分解する(ステップS12)。このとき、周波数分解部21は、音声フレームに高速フーリエ変換を施して、音声に含まれる周波数成分を分解する。
次に、度数加算部24は、所定の周波数範囲内であるかどうかを判別する(ステップS13)。ここでは、周波数の範囲を、例えば200Hz〜4kHzの間に含まれる音声フレームの周波数成分について判断する。そして、初期値を200Hzとして、順に数10Hz刻みで周波数を増分させることによって、各周波数で求められた度数を加算している。
所定の周波数範囲内である場合、度数加算部41は、度数分布を加算する(ステップS14)。その後、処理をステップS13に移して、新たな周波数成分から求められる度数分布を加算する。
そして、度数加算部41は、平滑度数加算値保存部から読み出した平滑化された第1のフレームの度数と、以前の第1のフレームに連続して集音される音声から複数のマイクによって生成される現在の第2のフレームの周波数成分毎に定まる度数を加算する(ステップS15)。
音源方向検出部25は、所定の周波数範囲内で分散された度数分布を全て加算すると、最も加算値が大きい度数の加算値が位置するsinθの値より、位相を求め、音源方向として検出する(ステップS16)。その後、度数加算値平滑部42は、位相毎に、度数分布に対して、所定の数式処理を行い、平滑化する。この平滑化処理によって、ヒストグラムがいびつな形状であったとしても、なだらかな形状となる。
次に、平滑度数加算値保存部43は、平滑化したフレームによって定まる度数分布の値を保存する(ステップS18)。保存した平滑化したフレームによって定まる度数分布の値は、ステップ15の処理において加算される。
次に、本例の音源方向検出装置40で第1のフレームと第2のフレームによって定まる度数分布を加算したヒストグラムの表示例について、図10を参照して説明する。
図10(a)は、第1のフレームのヒストグラムの表示例を示す。
同一周波数成分であっても、時間の経過と共に、フレームによって異なるヒストグラムが表示される。ここで、第1のフレームにおけるsinθ=xでの加算値を、hist(1,x)という関数で表す。
図10(b)は、空間(sinθ)方向に平滑化した第1のフレームのヒストグラムの表示例を示す。
度数加算値平滑部42は、図10(a)で示したヒストグラムの度数の加算値を、以下の式(4)によって平滑化する。なお、hist_smooth(1,x)は、平滑化された度数分布を示す関数である。
Figure 0004872871
図10(c)は、第2のフレームのヒストグラムの表示例を示す。
第2のフレームは、sinθ=xでの加算値を、hist_add(2,x)という関数で表す。
第2のフレームは、第1のフレームの後に集音された音声から生成される音声フレームである。第1のフレームと第2のフレームは、時間に連続して生成される音声フレームである。ただし、第1のフレームと第2のフレームは、互いに時間の一部が重なっていてもよい。あるいは、第1のフレームと第2のフレームは、時間が重ならなくてもよい。
図10(d)は、第1のフレームと第2のフレームのヒストグラムを加算したヒストグラムの表示例を示す。
このとき、hist_smooth(1,x)とhist_add(2,x)を加算するが、式(5)に示す音源の方向の精度を高める信頼度係数c(0≦c≦1)を各関数に乗じて重み付けをする。
Figure 0004872871
この結果、平滑化された状態で第2のフレームを表すヒストグラムが得られる。信頼度係数cとは、以前のヒストグラムに比較してフレームがどれだけ信頼できるかを示す値である。つまり、信頼度係数cが高いほど、話者の方向を適切に検出できる音声成分であると言える。例えば、以前のヒストグラムには、表示装置4が内蔵するスピーカが放音する音声の影響が含まれる場合がある。
また、話者の語頭は、徐々に大きい音になるため、信頼度が高い。一方、話者の語尾は、徐々に小さい音になるため、信頼度が低い。このように、信頼度が高い場合に、信頼度係数cの値を大きくし、信頼度が低い場合に信頼度係数cの値を小さくする。こうして、適切に話者の方向を検出できる。
また、本実施の形態に係るビデオ会議システム50は、壁等からの反射音の影響を除いて話者の方向を検出することが可能である。
ここで、壁等からの反射音について、図11を参照して説明する。
図11(a)は、直接音を集音する場合の例である。
直接音のみを集音する場合、マイク間のパワーは、音源からの距離の比の2乗に反比例することが知られている。例えば、第1のマイク1aと第2のマイク1bとの距離を10cmとし、第2のマイク1bと音源(話者)との距離L1を1mとする。この場合、第1のマイク1aと音源(話者)との距離L2は、1.1mと近似すると、L1:L2=1:1.1となる。そして、第1のマイクのパワーをP1,第2のマイクのパワーをP2とすると、パワーの比は、P1:P2=1:(1/1.21)である。つまり、第1のマイク1aと第2のマイク1bのパワー比は、1:1に近いと言える。
図11(b)は、直接音と壁からの反射音が混ざった状態で集音する場合の例である。
反射音の影響を受けると、第1のマイク1aと第2のマイク1bのパワー比は、1:1ではなくなってしまう。そこで、このようにパワー比が著しく異なる周波数では、ヒストグラムに加算する度数の割合を小さくする。この結果、反射音がヒストグラムに与える影響を小さくすることができ、誤った方向を音源方向として検出することを防ぐことができる。
以上説明した第2の実施の形態に係る音源検出装置40では、連続する音声フレームについて、音源方向を検出することが可能である。このとき、以前に音源検出装置40が取得し、ヒストグラム算出した音声フレームの度数を保存した上で、新しく取得した音声フレームの度数に加えている。このため、以前に検出した音源方向の情報を引き続き使用するため、音源方向を検出する精度が高まるという効果がある。ま
また、ある周波数帯域において、第1のマイク1aと第2のマイク1bのパワー比が著しく異なる場合、ヒストグラムに加算する度数の割合を小さくできる。このとき、直接音だけの場合には、距離の2乗に反比例したパワーであるが、反射音があると位相を打ち消し合ったり、強め合ったりして、複数のマイクで集音する音声のパワー差が大きくなることを利用している。このため、従来、反射音と直接音が混ざることによって音源方向を誤って検出していた場合であっても、本実施の形態に係る音源検出装置40は、反射音の影響を抑えて確実に音源方向を検出できるという効果がある。
なお、上述した第1及び第2の実施の形態において、制御装置が音源方向検出装置を備えるように構成した。しかしながら、音源方向検出装置をカメラの内部に直接取り付けるようにしてもよい。こうすることで、カメラ単体で、音源方向を検出し、話者に対してカメラを向けることが可能である。また、音源方向検出装置を制御装置の外部に備えるようにしてもよい。さらに、音源方向検出装置を構成する各部をソフトウェアプログラムで置き換えて構成してもよい。そして、所定のサイトからアップデートプログラムをインストールするようにすれば手軽に機能を向上させることができる。
本発明の第1の実施の形態におけるビデオ会議システムの外観例を示す構成図である。 本発明の第1の実施の形態におけるビデオ会議システムの設置例を示す構成図である。 本発明の第1の実施の形態におけるビデオ会議システムの内部構成例を示すブロック図である。 本発明の第1の実施の形態における音源方向検出処理の例を示すフローチャートである。 本発明の第1の実施の形態におけるヒストグラムの表示例を示す説明図である。 本発明の第1の実施の形態における高い周波数帯域の位相の影響を少なくするヒストグラムの表示例を示す説明図である。 本発明の第2の実施の形態におけるビデオ会議システムの内部構成例を示すブロック図である。 従来のフレーム毎に算出されるヒストグラムの表示例を示す説明図である。 本発明の第2の実施の形態における音源方向検出処理の例を示すフローチャートである。 本発明の第2の実施の形態におけるヒストグラムの表示例を示す説明図である。 本発明の第2の実施の形態における反射音の影響の例を示す説明図である。 従来の音源方向を検出する処理の例を示す説明図である。 従来のヒストグラムによる音源方向の検出処理の例を示す説明図である。
符号の説明
1…カメラ、1a…第1のマイク、1b…第2のマイク、1c…レンズ部、1d…駆動部、2…制御装置、3…無指向性マイク、4…ディスプレイ、10…ビデオ会議システム、12…机、13…会議室内、15…インターネット、16…制御部、20…音源方向検出装置、21…周波数分解部、22…誤差範囲決定部、23…度数分散部、24…度数加算部、25…音源方向検出部、26…位相テーブル、40…音源方向検出装置、41…度数加算部、42…度数加算値平滑部、43…平滑度数加算値保存部

Claims (8)

  1. 音源からの音声を集音し、音声フレームを生成する複数のマイクロホンと、
    前記音声フレーム周波数成分分解する周波数分解部と、
    前記音声と共に集音されたノイズの影響を位相に対する誤差範囲として決定する誤差範囲決定部と、
    前記誤差範囲決定部によって決定された前記誤差範囲に基づいて、前記周波数分解部によって分解された周波数成分毎の前記音声のパワーに対応する度数を分散する度数分散部と、
    前記度数に前記周波数成分が高くなるにつれて値を大きくする重み付けを行って、前記度数分散部によって分散された前記度数を加算する度数加算部と、
    前記度数加算部によって加算された加算値のうち、最も大きい加算値が位置する位相に基づいて、前記音源の方向を検出する音源方向検出部と、を備え
    音源方向検出装置。
  2. 複数のマイクロホンが音源から集音する音声から生成した音声フレームを周波数成分分解するステップと、
    前記音源の周囲に生じるノイズの影響を誤差範囲として決定するステップと、
    決定された前記誤差範囲に基づいて、解された周波数成分から求まる度数を分散するステップと、
    前記度数に前記周波数成分が高くなるにつれて値を大きくする重み付けを行って、分散された前記度数を加算するステップと、
    加算された加算値のうち、最も大きい加算値が位置する位相を、前記音源の方向として検出するステップと、を含
    音源方向検出方法。
  3. 話者を撮像する撮像部と、
    音源からの音声を集音し、音声フレームを生成する複数のマイクロホンと、
    記音声フレーム周波数成分分解する周波数分解部と、
    前記音源の周囲に生じるノイズの影響を誤差範囲として決定する誤差範囲決定部と、
    前記誤差範囲決定部によって決定された前記誤差範囲に基づいて、前記周波数分解部によって分解された周波数成分から求まる度数を分散する度数分散部と、
    前記度数に前記周波数成分が高くなるにつれて値を大きくする重み付けを行って、前記度数分散部によって分散された前記度数を加算する度数加算部と、
    前記度数加算部によって加算された加算値のうち、最も大きい加算値が位置する位相を、前記音源の方向として検出する音源方向検出部と、を備え
    音源方向検出カメラ。
  4. 音源からの音声を集音し、第1の音声フレームを生成する複数のマイクロホンと、
    前記音声フレーム周波数成分分解する周波数分解部と、
    前記周波数分解部によって分解された周波数成分毎に定まる度数を加算する度数加算部と、
    前記度数加算部によって加算された加算値のうち、最も大きい加算値が位置する位相に基づいて、前記音源の方向を検出する音源方向検出部と、
    前記度数加算部によって加算された度数を平滑化する度数加算値平滑部と、
    前記平滑化された度数を保存する平滑度数加算値保存部と、を備え、
    前記度数加算部は、前記平滑度数加算値保存部から読み出した前記第1の音声フレームが平滑化された度数と、前記第1の音声フレームに連続して集音される音声から前記複数のマイクロホンによって生成される第2の音声フレームの周波数成分毎に定まる度数の加算値に対して、前記音源の方向の精度を高める信頼度係数を乗ずる重み付けを行う
    音源方向検出装置。
  5. 請求項4記載の音源方向検出装置において、
    前記信頼度係数は、前記第1の音声フレームによって生成されるヒストグラムに比較して、前記第1の音声フレームに連続して集音される音声から前記複数のマイクロホンによって生成される第2の音声フレームがどれだけ信頼できるかを示す係数である
    音源方向検出装置。
  6. 請求項4又は5記載の音源方向検出装置において、
    前記度数加算部は、前記複数のマイクロホンが集音したそれぞれの前記音声のパワー比が大きい周波数成分の音声は、加算する度数を少なくす
    音源方向検出装置。
  7. 複数のマイクロホンが音源から集音する音声から生成した第1の音声フレームを周波数成分分解するステップと、
    分解された周波数成分毎に定まる度数を加算するステップと、
    加算された加算値のうち、最も大きい加算値が位置する位相に基づいて、前記音源の方向を検出するステップと、
    加算された度数を平滑化するステップと、
    前記平滑化された度数を保存するステップと、
    前記第1の音声フレームが平滑化された度数と、前記第1の音声フレームに連続して集音される音声から前記複数のマイクロホンによって生成される第2の音声フレームの周波数成分毎に定まる度数の加算値に対して、前記音源の方向の精度を高める信頼度係数を乗ずる重み付けを行うステップと、を含
    音源方向検出方法。
  8. 話者を撮像する撮像部と、
    音源からの音声を集音し、第1の音声フレームを生成する複数のマイクロホンと、
    第1の音声フレーム周波数成分分解する周波数分解部と、
    前記周波数分解部によって分解された周波数成分毎に定まる度数を加算する度数加算部と、
    前記度数加算部によって加算された加算値のうち、最も大きい加算値が位置する位相に基づいて、前記音源の方向を検出する音源方向検出部と、
    前記度数加算部によって加算された度数を平滑化する度数加算値平滑部と、
    前記平滑化された度数を保存する平滑度数加算値保存部と、を備え、
    前記度数加算部は、前記平滑度数加算値保存部から読み出した前記第1の音声フレームが平滑化された度数と、前記第1の音声フレームに連続して集音される音声から前記複数のマイクロホンによって生成される第2の音声フレームの周波数成分毎に定まる度数の加算値に対して、前記音源の方向の精度を高める信頼度係数を乗ずる重み付けを行う
    音源方向検出カメラ。
JP2007252734A 2007-09-27 2007-09-27 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ Expired - Fee Related JP4872871B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007252734A JP4872871B2 (ja) 2007-09-27 2007-09-27 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
US12/284,455 US8098843B2 (en) 2007-09-27 2008-09-22 Sound source direction detecting apparatus, sound source direction detecting method, and sound source direction detecting camera
CN2008101671474A CN101398475B (zh) 2007-09-27 2008-09-26 声源方向检测装置和方法以及声源方向检测相机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007252734A JP4872871B2 (ja) 2007-09-27 2007-09-27 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ

Publications (2)

Publication Number Publication Date
JP2009086055A JP2009086055A (ja) 2009-04-23
JP4872871B2 true JP4872871B2 (ja) 2012-02-08

Family

ID=40508399

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007252734A Expired - Fee Related JP4872871B2 (ja) 2007-09-27 2007-09-27 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ

Country Status (3)

Country Link
US (1) US8098843B2 (ja)
JP (1) JP4872871B2 (ja)
CN (1) CN101398475B (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102057433A (zh) * 2008-06-09 2011-05-11 皇家飞利浦电子股份有限公司 用于生成音频/可视数据流的概要的方法和设备
JP5772591B2 (ja) * 2009-03-18 2015-09-02 日本電気株式会社 音声信号処理装置
JP5201093B2 (ja) * 2009-06-26 2013-06-05 株式会社ニコン 撮像装置
JP5452158B2 (ja) * 2009-10-07 2014-03-26 株式会社日立製作所 音響監視システム、及び音声集音システム
KR101081752B1 (ko) * 2009-11-30 2011-11-09 한국과학기술연구원 인공귀 및 이를 이용한 음원 방향 검지 방법
KR101670313B1 (ko) 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
TW201208335A (en) * 2010-08-10 2012-02-16 Hon Hai Prec Ind Co Ltd Electronic device
US8675038B2 (en) 2010-09-28 2014-03-18 Microsoft Corporation Two-way video conferencing system
US8805697B2 (en) 2010-10-25 2014-08-12 Qualcomm Incorporated Decomposition of music signals using basis functions with time-evolution information
JP5772151B2 (ja) * 2011-03-31 2015-09-02 沖電気工業株式会社 音源分離装置、プログラム及び方法
US9973848B2 (en) * 2011-06-21 2018-05-15 Amazon Technologies, Inc. Signal-enhancing beamforming in an augmented reality environment
WO2013175484A2 (en) 2012-03-26 2013-11-28 Tata Consultancy Services Limited A multimodal system and method facilitating gesture creation through scalar and vector data
US9064184B2 (en) 2012-06-18 2015-06-23 Ebay Inc. Normalized images for item listings
JP6003510B2 (ja) * 2012-10-11 2016-10-05 富士ゼロックス株式会社 音声解析装置、音声解析システムおよびプログラム
CN102968991B (zh) * 2012-11-29 2015-01-21 华为技术有限公司 一种语音会议纪要的分类方法、设备和***
US9554049B2 (en) 2012-12-04 2017-01-24 Ebay Inc. Guided video capture for item listings
US9288683B2 (en) 2013-03-15 2016-03-15 DGS Global Systems, Inc. Systems, methods, and devices for electronic spectrum management
US10257729B2 (en) 2013-03-15 2019-04-09 DGS Global Systems, Inc. Systems, methods, and devices having databases for electronic spectrum management
US10271233B2 (en) 2013-03-15 2019-04-23 DGS Global Systems, Inc. Systems, methods, and devices for automatic signal detection with temporal feature extraction within a spectrum
US10257728B2 (en) * 2013-03-15 2019-04-09 DGS Global Systems, Inc. Systems, methods, and devices for electronic spectrum management
US10231206B2 (en) 2013-03-15 2019-03-12 DGS Global Systems, Inc. Systems, methods, and devices for electronic spectrum management for identifying signal-emitting devices
US10299149B2 (en) 2013-03-15 2019-05-21 DGS Global Systems, Inc. Systems, methods, and devices for electronic spectrum management
US8750156B1 (en) 2013-03-15 2014-06-10 DGS Global Systems, Inc. Systems, methods, and devices for electronic spectrum management for identifying open space
US10219163B2 (en) 2013-03-15 2019-02-26 DGS Global Systems, Inc. Systems, methods, and devices for electronic spectrum management
US10257727B2 (en) 2013-03-15 2019-04-09 DGS Global Systems, Inc. Systems methods, and devices having databases and automated reports for electronic spectrum management
US11646918B2 (en) 2013-03-15 2023-05-09 Digital Global Systems, Inc. Systems, methods, and devices for electronic spectrum management for identifying open space
US10244504B2 (en) 2013-03-15 2019-03-26 DGS Global Systems, Inc. Systems, methods, and devices for geolocation with deployable large scale arrays
US10237770B2 (en) 2013-03-15 2019-03-19 DGS Global Systems, Inc. Systems, methods, and devices having databases and automated reports for electronic spectrum management
JP6221158B2 (ja) * 2014-08-27 2017-11-01 本田技研工業株式会社 自律行動ロボット、及び自律行動ロボットの制御方法
ITUB20153347A1 (it) 2015-09-02 2017-03-02 Stefano Spattini Apparato per la videocomunicazione
CN106067301B (zh) * 2016-05-26 2019-06-25 浪潮金融信息技术有限公司 一种使用多维化技术进行回声降噪的方法
CN106353716B (zh) * 2016-08-31 2019-05-14 电子科技大学 一种基于全频带声波定向***降低功耗的方法
CN106409286A (zh) * 2016-09-23 2017-02-15 努比亚技术有限公司 一种实现音频处理的方法及装置
US10498951B2 (en) 2017-01-23 2019-12-03 Digital Global Systems, Inc. Systems, methods, and devices for unmanned vehicle detection
US10459020B2 (en) 2017-01-23 2019-10-29 DGS Global Systems, Inc. Systems, methods, and devices for automatic signal detection based on power distribution by frequency over time within a spectrum
US10529241B2 (en) 2017-01-23 2020-01-07 Digital Global Systems, Inc. Unmanned vehicle recognition and threat management
US10700794B2 (en) 2017-01-23 2020-06-30 Digital Global Systems, Inc. Systems, methods, and devices for automatic signal detection based on power distribution by frequency over time within an electromagnetic spectrum
JP6835205B2 (ja) 2017-03-22 2021-02-24 ヤマハ株式会社 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
US11310593B2 (en) 2017-10-11 2022-04-19 Sony Corporation Voice input device and method for estimation of utterance direction
FR3074584A1 (fr) * 2017-12-05 2019-06-07 Orange Traitement de donnees d'une sequence video pour un zoom sur un locuteur detecte dans la sequence
KR102452952B1 (ko) * 2017-12-06 2022-10-12 삼성전자주식회사 방향성 음향 센서 및 이를 포함하는 전자 장치
CN108682161B (zh) * 2018-08-10 2023-09-15 东方智测(北京)科技有限公司 确认车辆鸣笛的方法和***
US10943461B2 (en) 2018-08-24 2021-03-09 Digital Global Systems, Inc. Systems, methods, and devices for automatic signal detection based on power distribution by frequency over time
US10800409B2 (en) * 2018-09-04 2020-10-13 Caterpillar Paving Products Inc. Systems and methods for operating a mobile machine using detected sounds
EP3962101A4 (en) * 2019-04-24 2022-07-06 Panasonic Intellectual Property Corporation of America DIRECTION OF ARRIVAL ESTIMATING DEVICE, SYSTEM, AND METHOD FOR DIRECTION OF ARRIVAL
JP7111202B2 (ja) * 2021-02-04 2022-08-02 ヤマハ株式会社 収音制御システム及び収音制御システムの制御方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07336790A (ja) * 1994-06-13 1995-12-22 Nec Corp マイクロホンシステム
DE69629667T2 (de) * 1996-06-07 2004-06-24 Hewlett-Packard Co. (N.D.Ges.D.Staates Delaware), Palo Alto Sprachsegmentierung
JP4344418B2 (ja) * 1999-03-31 2009-10-14 シャープ株式会社 音声要約装置及び音声要約プログラムを記録した記録媒体
JP2001296343A (ja) * 2000-04-11 2001-10-26 Nec Corp 音源方位設定装置及びそれを備えた撮像装置、送信システム
CN1138253C (zh) * 2000-06-29 2004-02-11 上海交通大学 辨识声源特性的方法
US6724188B2 (en) * 2002-03-29 2004-04-20 Wavbank, Inc. Apparatus and method for measuring molecular electromagnetic signals with a squid device and stochastic resonance to measure low-threshold signals
JP2004012151A (ja) * 2002-06-03 2004-01-15 Matsushita Electric Ind Co Ltd 音源方向推定装置
JP2004325127A (ja) * 2003-04-22 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 音源検出方法、音源分離方法、およびこれらを実施する装置
JP4812302B2 (ja) * 2005-01-12 2011-11-09 学校法人鶴学園 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム

Also Published As

Publication number Publication date
JP2009086055A (ja) 2009-04-23
CN101398475B (zh) 2011-12-07
CN101398475A (zh) 2009-04-01
US8098843B2 (en) 2012-01-17
US20090086993A1 (en) 2009-04-02

Similar Documents

Publication Publication Date Title
JP4872871B2 (ja) 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
US8115799B2 (en) Method and apparatus for obtaining acoustic source location information and a multimedia communication system
JP5857674B2 (ja) 画像処理装置、及び画像処理システム
JP3672320B2 (ja) 音源位置づけ方法と装置
US7460150B1 (en) Using gaze detection to determine an area of interest within a scene
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
CN105611167B (zh) 一种对焦平面调整方法及电子设备
WO2022022139A1 (zh) 一种基于多音区的语音检测方法、相关装置及存储介质
Schmalenstroeer et al. Online diarization of streaming audio-visual data for smart environments
KR20080021715A (ko) 카메라를 위한 표준화된 이미지를 위한 컴퓨터 시스템의방법, 컴퓨터 판독가능 매체 및 디지털 신호
EP2352290A1 (en) Method and apparatus for matching audio and video signals during a videoconference
US9042675B2 (en) Image processing apparatus, image processing method, and computer-readable recording medium which corrects an image such that some of warping of the image is left
EP4064692A1 (en) Smart audio muting in a videoconferencing system
CN117480554A (zh) 语音增强方法及相关设备
JP6149433B2 (ja) テレビ会議装置、テレビ会議装置の制御方法、及びプログラム
JP2012213013A (ja) Tv会議システム
JP2011135272A (ja) 端末装置、処理方法および処理プログラム
JP4244416B2 (ja) 情報処理装置および方法、並びに記録媒体
JP2009038466A (ja) 方向検出装置、方向検出方法および方向検出プログラム、ならびに、方向制御装置、方向制御方法および方向制御プログラム
WO2018173139A1 (ja) 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
EP4135314A1 (en) Camera-view acoustic fence
JP2006339869A (ja) 映像信号と音響信号の統合装置
JP6860178B1 (ja) 映像処理装置及び映像処理方法
WO2023228713A1 (ja) 音声処理装置および方法、情報処理装置、並びにプログラム
EP4231622A1 (en) Video processing method and electronic device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111107

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees