JP2020500480A - デバイス内の非対称配列の複数のマイクからの空間メタデータの分析 - Google Patents

デバイス内の非対称配列の複数のマイクからの空間メタデータの分析 Download PDF

Info

Publication number
JP2020500480A
JP2020500480A JP2019526614A JP2019526614A JP2020500480A JP 2020500480 A JP2020500480 A JP 2020500480A JP 2019526614 A JP2019526614 A JP 2019526614A JP 2019526614 A JP2019526614 A JP 2019526614A JP 2020500480 A JP2020500480 A JP 2020500480A
Authority
JP
Japan
Prior art keywords
microphone
microphones
directivity
uncertain
audio signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019526614A
Other languages
English (en)
Other versions
JP2020500480A5 (ja
JP7082126B2 (ja
Inventor
ユハ ヴィルカモ
ユハ ヴィルカモ
ミッカ ヴィレルモ
ミッカ ヴィレルモ
ミッコ タンミ
ミッコ タンミ
Original Assignee
ノキア テクノロジーズ オーユー
ノキア テクノロジーズ オーユー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オーユー, ノキア テクノロジーズ オーユー filed Critical ノキア テクノロジーズ オーユー
Publication of JP2020500480A publication Critical patent/JP2020500480A/ja
Publication of JP2020500480A5 publication Critical patent/JP2020500480A5/ja
Application granted granted Critical
Publication of JP7082126B2 publication Critical patent/JP7082126B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

所定の形状を有する装置であって、少なくとも3つのマイクとプロセッサとを備え、前記少なくとも3つのマイクの内の少なくとも一対は、前記所定の形状の少なくとも1つの別のマイク対よりも、より短い距離だけ離間した2つのマイクを備え、前記プロセッサは、前記より短い距離だけ離間した2つのマイクからのマイクオーディオ信号を分析して不確定指向性を判定し、別のマイク対からのマイクオーディオ信号を分析して、前記不確定指向性以外の音特性を判定するように構成され、前記第1のマイク対と、前記少なくとも1つの別のマイク対とが空間オーディオ信号を取得するように構成されるように、前記少なくとも1つの別のマイク対は、前記所定の形状に沿って、より長い距離だけ離間した2つのマイクを備える。【選択図】図4

Description

本願は、非対称デバイスからのオーディオ信号のための空間メタデータを生成する装置および方法に関し、具体的にはユーザ機器における複数のマイクの非対称配置に関するが、これに限定するものではない。
背景
マイクアレイ信号からの知覚的に関連した空間情報(例えば、周波数帯における到来音の方向)の動的分析を利用した適応型空間オーディオキャプチャ(Spatial Audio Capture:SPAC)法が知られている。
空間オーディオキャプチャ(SPAC)は、取得されたオーディオ信号に由来する指向性メタデータ(または指向性情報)の動的分析を伴う。
この情報は、いわゆる空間メタデータと呼ばれるもので、元の録音音場と知覚的に類似した空間再生を動的に合成するために適用されてもよい。
従来のオーディオ信号キャプチャは、線形キャプチャ(従来型、静的)方法を用いて実施されてきた。このような線形キャプチャ方法は、非適応型ビームフォーミング技術からなり、球面高調波における中間信号表現を特徴とする線形ビームフォーミング技術であるアンビソニックスが含まれる。線形技術では、正確な空間音キャプチャのために拡張されたハードウェアが必要となる。例えば、線形再生にはアイゲンマイク(Eigenmike)(32個の高SNRマイクが配された球面)が適している。
パラメトリックなオーディオ信号キャプチャ(知覚的、適応型)や空間メタデータ分析には、SPACや、指向性オーディオ符号化(Directional Audio Coding:DirAC)や高調平面波拡張(Harmonic plane wave expansion:Harpex)等の同様の方法を含むその他の適応型方法が挙げられる。これらの手法では、マイクオーディオ信号を分析して、到来音の方向等の空間的特性を、典型的には周波数帯に適応的に決定する。このように決定されたパラメータ情報によって、空間音の知覚的に正確な合成が可能になる。これらのパラメトリックキャプチャ技術は、線形技術と比較してSNRやハードウェアに対する要件が非常に低い。
上述の空間キャプチャ方法は、対称形の、または対称に近い形のデバイスに実施するように設計されている。しかし、現実的には多くのデバイスにおいて、その寸法の内の少なくとも2つ(長さ、幅、高さ)は互いに大きく異なっている。例えば、スマートフォンやタブレットのようなデバイスは、水平面に近いある軸に向かって平坦でありうる。
このようにデバイスが非対称形であると、空間キャプチャにおいて問題が生じる。主な課題は、デバイスにおいてマイクの配置がたとえ最適化されていたとしても、当該デバイスに「短」空間軸があると、この軸におけるマイク間の差分情報を大きくとることが妨げられる点である。この信号の差分情報が小さいと、任意の干渉物(マイク自身のノイズ、デバイスのノイズ、風によるノイズ、振動によるノイズ等)による相対的影響が顕著になる。
摘要
第1の態様によると、所定の形状を有する装置が提供される。当該装置は、前記装置上または装置内に位置する少なくとも3つのマイクと、プロセッサと、を備え、前記少なくとも3つのマイクの内の少なくとも一対は、前記所定の形状の少なくとも1つの別のマイク対よりも、前記所定の形状において、より短い距離だけ離間した2つのマイクを備え、前記プロセッサは、前記少なくとも3つのマイクから、少なくとも3つのマイクオーディオ信号を受信し、少なくとも前記より短い距離だけ離間した2つのマイクからのマイクオーディオ信号を分析し、不確定指向性を判定し、少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定するように構成され、前記第1のマイク対と、前記少なくとも1つの別のマイク対とが空間オーディオ信号を取得するように構成されるように、前記少なくとも1つの別のマイク対は、前記所定の形状に沿って、より長い距離だけ離間した2つのマイクを備える。
前記所定の形状は、前記装置の物理的形状であってもよい。
前記装置の物理的形状の少なくとも1つの寸法は、前記装置の物理的形状のその他の寸法より短くてもよい。
前記より短い距離だけ離間した2つのマイクは、前記装置の物理的形状の前記少なくとも1つの寸法が前記装置の物理的形状のその他の寸法よりも短いことにより、前記より短い距離だけ離間してもよい。
前記所定の形状は、前記少なくとも3つのマイクの物理的配列であってもよい。
前記より短い距離だけ離間した2つのマイクは、前記装置の物理的形状のその他の寸法よりも短い前記装置の物理的形状の少なくとも1つの寸法とは異なる寸法に沿って配置されてもよい。
少なくとも前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成された前記プロセッサは、少なくとも1つの前記別のマイク対からのマイクオーディオ信号を分析して、前記不確定指向性を判定するようにさらに構成されてもよい。
前記プロセッサは、前記不確定指向性判定である、第1の空間メタデータ部分を判定し、前記不確定指向性以外の、前記少なくとも1つの音特性である第2の空間メタデータ部分を判定し、前記第1の空間メタデータ部分と、前記第2のメタデータ部分とを合成して、少なくとも3つのマイクオーディオ信号に関連付けられた空間メタデータを生成するように構成されてもよく、前記第2のメタデータ部分は、前記第1のメタデータ部分よりも広範囲の値を含んでもよい。
少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定するように構成された前記プロセッサは、少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号間の遅延値を判定するように構成されてもよい。
前記不確定指向性以外の前記少なくとも1つの音特性は、前記到来音の方向角であり、前記方向角は不確定値を有し、前記不確定指向性判定により、前記不確定値が確定されてもよい。
少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記方向角を判定するように構成された前記プロセッサは、少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号間の遅延値を判定し、前記少なくとも1つの別のマイク対間の距離を移動する音波の遅延値に対して、前記遅延値を正規化し、前記正規化された遅延値に三角関数を適用するか、前記正規化された遅延値をルックアップテーブル内で使用して、少なくとも2つの不確定方向角値を生成するように構成されてもよい。
前記正規化された遅延値に前記三角関数を適用して、前記少なくとも2つの不確定方向角値を生成するように構成された前記プロセッサは、前記正規化された遅延値に逆余弦関数を適用して、前記少なくとも2つの不確定方向角値を生成するように構成されてもよい。
少なくとも前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性判定するように構成された前記プロセッサは、前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号間の最大相関値に関連した遅延値の正負符号を判定するように構成され、前記プロセッサは、前記遅延値の正負符号に基づいて、前記少なくとも2つ不確定方向角値を確定するように構成されてもよい。
前記マイクオーディオ信号間の遅延値を判定するように構成された前記プロセッサは、前記マイクオーディオ信号間の遅延値の範囲に対して、複数の相関値を判定し、前記複数の相関値から、最大相関値を探索し、前記遅延値の範囲から、前記最大相関値に関連する前記遅延値を選択するように構成されてもよい。
前記マイクオーディオ信号間の遅延値を判定するように構成された前記プロセッサは、前記マイクオーディオ信号間の位相差の周波数の導関数を判定し、前記位相差の周波数の前記導関数に基づいて、前記遅延値を判定するように構成されてもよい。
前記不確定方向以外の、前記少なくとも1つの音特性がさらに、前記到来音の前記方向角に関連するエネルギー比を含んでもよい。
前記不確定方向以外の前記少なくとも1つの音特性がさらに、前記到来音の前記方向角に関連した一貫性を含む。
少なくとも前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成された前記プロセッサは、周波数帯単位で、少なくとも前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成されてもよい。
少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定するように構成された前記プロセッサは、周波数帯単位で、少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定するように構成されてもよい。
前記少なくとも3つのマイクが4つのマイクを含んでもよく、前記少なくとも3つのマイクから少なくとも3つのマイクオーディオ信号を受信するように構成された前記プロセッサは、前記4つのマイクから4つのマイクオーディオ信号を受信するように構成されてもよく、少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定するように構成された前記プロセッサは、少なくとも2つの前記別のマイク対からの前記マイクオーディオ信号を分析して、少なくとも2つの遅延を判定し、前記少なくとも2つの遅延から、到来音の方位角および仰角方向を判定するように構成されてもよく、少なくとも前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成された前記プロセッサは、前記判定された方位角および仰角方向に対して不確定指向性を判定するように構成されてもよい。方向値は方位角および仰角方向であってもよいが、方向値は、方位角および傾き、単位ベクトル等、任意の適切な方向または座標系であってもよい。
第2の態様によると、所定の形状を有する装置のための方法が提供される。当該装置は、前記装置上または装置内に位置する少なくとも3つのマイクを備え、前記少なくとも3つのマイクの内の少なくとも一対が、前記所定の形状の少なくとも1つの別のマイク対よりも、前記所定の形状において、より短い距離だけ離間した2つのマイクを備える。前記方法は、前記少なくとも3つのマイクから少なくとも3つのマイクオーディオ信号を受信することと、少なくとも前記より短い距離だけ離間した2つのマイクからのマイクオーディオ信号を分析して、不確定指向性を判定することと、少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定することと、を含み、前記第1のマイク対と、前記少なくとも1つの別のマイク対とが空間オーディオ信号を取得するように構成されるように、前記少なくとも1つの別のマイク対は、前記所定の形状に沿って、より長い距離だけ離間した2つのマイクを備える。
前記所定の形状は、前記装置の物理的形状であってもよい。
前記装置の物理的形状の少なくとも1つの寸法は、前記装置の物理的形状のその他の寸法よりも短くてもよい。
前記より短い距離だけ離間した2つのマイクは、前記装置の物理的形状の前記少なくとも1つの寸法が前記装置の物理的形状のその他の寸法よりも短いことにより、前記より短い距離だけ離間してもよい。
前記所定の形状は、前記少なくとも3つのマイクの物理的配列であってもよい。
前記より短い距離だけ離間した2つのマイクは、前記装置の物理的形状のその他の寸法よりも短い前記装置の物理的形状の少なくとも1つの寸法とは異なる寸法に沿って配置されてもよい。
少なくとも前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定することは、少なくとも1つの前記別のマイク対からのマイクオーディオ信号を分析して、前記不確定指向性を判定することをさらに含んでもよい。
前記方法は、前記不確定指向性判定である、第1の空間メタデータ部分を判定することと、前記不確定指向性以外の、前記少なくとも1つの音特性である第2の空間メタデータ部分を判定することと、前記第1の空間メタデータ部分と、前記第2のメタデータ部分とを合成して、少なくとも3つのマイクオーディオ信号に関連付けられた空間メタデータを生成することとをさらに含んでもよく、前記第2のメタデータ部分は、前記第1のメタデータ部分よりも広範囲の値を含んでもよい。
少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定することは、前記少なくとも1つの別のマイク対からの前記マイクオーディオ信号間の遅延値を判定することを含んでもよい。
前記不確定指向性以外の前記少なくとも1つの音特性は、前記到来音の方向角であってもよく、前記方向角は不確定値を有してもよく、前記不確定指向性判定により、前記不確定値が確定されてもよい。
少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記方向角を判定することは、少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号間の遅延値を判定することと、前記少なくとも1つの別のマイク対間の距離を移動する音波の遅延値に対して、前記遅延値を正規化することと、前記正規化された遅延値に三角関数を適用するか、前記正規化された遅延値をルックアップテーブル内で使用して、少なくとも2つの不確定方向角値を生成することと、をさらに含んでもよい。
前記正規化された遅延値に前記三角関数を適用して、前記少なくとも2つの不確定方向角値を生成することは、前記正規化された遅延値に逆余弦関数を適用して、前記少なくとも2つの不確定方向角値を生成することを含んでもよい。
少なくとも前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性判定することは、前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号間の最大相関値に関連した遅延値の正負符号を判定することを含んでもよく、ここで前記方法は、前記遅延値の正負符号に基づいて、前記少なくとも2つの不確定方向角値を確定することを含む。
前記マイクオーディオ信号間の遅延値を判定することは、前記マイクオーディオ信号間の遅延値の範囲に対して、複数の相関値を判定することと、前記複数の相関値から、最大相関値を探索することと、前記遅延値の範囲から、前記最大相関値に関連する前記遅延値を選択することと、を含んでもよい。
前記マイクオーディオ信号間の遅延値を判定することは、前記マイクオーディオ信号間の位相差の周波数の導関数を判定することと、前記位相差の周波数の前記導関数に基づいて、前記遅延値を判定することとを含んでもよい。
前記不確定指向性以外の前記少なくとも1つの音特性はさらに、前記到来音の前記方向角に関連するエネルギー比を含んでもよい。
前記不確定指向性以外の前記少なくとも1つの音特性はさらに、前記到来音の前記方向角に関連した一貫性を含んでもよい。
少なくとも前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定することは、周波数帯単位で、少なくとも前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定することを含んでもよい。
少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定することは、周波数帯単位で、少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定することを含んでもよい。
前記少なくとも3つのマイクは4つのマイクを含んでもよく、前記少なくとも3つのマイクから少なくとも3つのマイクオーディオ信号を受信することは、前記4つのマイクから4つのマイクオーディオ信号を受信することを含んでもよく、少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定することは、少なくとも2つの前記別のマイク対からの前記マイクオーディオ信号を分析して、少なくとも2つの遅延を判定することと、前記少なくとも2つの遅延から、到来音の方位角および仰角方向を判定することと、をさらに含んでもよく、少なくとも前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定することは、前記判定された方位角および仰角方向に対して不確定指向性を判定することを含んでもよい。
媒体に格納されるコンピュータプログラムが、本明細書に記載の方法を装置に遂行させてもよい。
電子機器が本明細書に記載の装置を備えていてもよい。
チップセットが本明細書に記載の装置を備えていてもよい。
本願の実施形態は、当該技術分野における現状の問題に対処することを目的とする。
本願をよりよく理解すべく、例として以下の添付図面を参照されたい。
図1は、公知の空間オーディオキャプチャシステムに影響を及ぼすノイズによる生じた空間メタデータ誤差を示す。 図2aは、ある実施形態の実現に適した、非対称マイク配置オーディオキャプチャおよび処理装置を概略的に示す。 図2bは、ある実施形態の実現に適した、非対称マイク配置オーディオキャプチャおよび処理装置を概略的に示す。 図3は、ある実施形態の実現に適した、3つのマイクによる非対称配置オーディオキャプチャおよび処理装置を概略的に示す。 図4は、ある実施形態の実現に適した、4つのマイクによる非対称配置オーディオキャプチャおよび処理装置を概略的に示す。 図5は、ある実施形態の実現に適した、例示的オーディオキャプチャおよび処理装置の機能的処理要素を概略的に示す。 図6は、ある実施形態に係る、図5に示す分析部の機能要素を概略的に示す。 図7は、ある実施形態に係る、図6に示す装置内で実施される、軸に基づく分析動作のフローチャートである。 図8は、ある実施形態に係る、図6に示す装置内で実施される、例示的遅延情報判定動作のフローチャートである。
デバイス上のマイクの非対称配置において、効果的な空間キャプチャ分析を実現するのに適した装置、および利用可能な機構を以下にさらに詳細に説明する。以下の例では、オーディオ信号およびオーディオキャプチャ信号が説明される。ただし、ある実施形態においては、当該デバイスまたは装置が、オーディオ信号を取得、あるいはオーディオ信号やその他の情報信号を受信するように構成された任意の適切な電子デバイスまたは装置の一部でありうる。
以下の開示では、適応型SPAC技術を具体的に説明する。これは、マイクアレイから典型的にはラウドスピーカやヘッドホンへの空間オーディオキャプチャの方法を表す。ここで、空間オーディオキャプチャ(SPAC)は、適応型時間周波数分析および処理により、マイクアレイ付きの任意のデバイス(例えば、ノキアOZOまたは携帯電話)から高感知品質空間オーディオ再生を実現する技術を指す。水平面におけるSPACキャプチャには、少なくとも3つのマイクが必要で、3Dキャプチャには、少なくとも4つのマイクが必要である。SPAC方法は適応型である。言い換えると、従来の最先端線形キャプチャ技術から空間的精度を向上する非線形手法が用いられる。
デバイスが非対称形であると(例えば、その寸法(長さ、幅、高さ等)の内の少なくとも2つが互いに大きく異なる場合)、線形キャプチャや従来のパラメトリック空間キャプチャにおいて問題が生じる。主要な課題は、デバイスが非対称構成であることにより、「短」空間軸が生じる点である。この「短」空間軸により、マイクの配置がたとえ最適化されていたとしても、マイク間の差分情報が非常に小さくなる。
例えば、典型的な形態の指向性オーディオ符号化(DirAC)技術により、推定音場強度ベクトルに基づいて、指向性推定を生成する。この強度ベクトルは、中間球面高調波信号表現から推定される。中間球面高調波信号表現における信号は、マイク信号間の差に基づいて生成される。差分情報の振幅は「短」軸において小さいため、当該軸における、球面高調波信号を得るための処理係数(または乗数)は、小さい振幅を補う必要がある。言い換えると、「短」軸の増幅のため、大きな乗数となる。小振幅を増幅するための大きな乗数または係数は、ノイズをも増幅してしまう。したがって、従来手法では、「短」軸での高ノイズ指向性推定による「誤差」が生じてしまう。
例えば、音源が単一の未処理の音場では、指向性推定におけるノイズは、該メタデータを使用して再生される音が、その位置で正確に特定不能でありうることを意味する。そのような例では、音が「埋もれており」、せいぜいおおよそ正しい方向から到達しているとしか知覚されない。言い換えると、再生された音声により、単一の音源が点音源として示されない可能性がある。
指向性推定変動による効果は、例えば、図1に示すものとなりうる。図1は、例えば、「短」寸法が表裏方向である例示的非対称装置91と、「短」寸法と同方向の「高ノイズ」軸93からノイズが受信されることを示している。例えばラウドスピーカマーク95で示す音声のような、「短」寸法に対して主に直交する任意の到来音は、あらゆるノイズ源から影響を特に受けやすい。その結果、取得音声に関連する空間メタデータを判定する際に、パラメータ推定誤差が強調される。これを、例えば推定指向性パラメータに対する、「高ノイズ」軸93上のノイズの大きな影響を示す、破線97、99で図1に表されている。
したがって、あらゆる非対称または不規則形状の装置に対応可能な空間メタデータ分析方法が必要なのである。
以下の説明では、装置は所定の形状を有する。所定の形状とは、装置の物理的形状または寸法、あるいは装置上または装置内に配置されたマイクの物理的配列を示しうる。ある実施形態において、前記装置の物理的形状が非対称ではないが、装置におけるマイクの配置は非対称である。
キャプチャデバイスの形状に適用したパラメトリック空間オーディオキャプチャの実施の概念を以下に説明する。該当するキャプチャデバイスは、小さなマイク間隔寸法を特徴とする。典型例としては、デバイスの少なくとも1つの寸法が該当する全ての軸について、マイクの妥当な空間的分離の選択肢を限定するような、スマートフォン、タブレット、携帯VRカメラが挙げられる。上述のように、このような条件では空間オーディオキャプチャの典型的なパラメトリック技術は上手く機能しない。例えば、DirAC(およびその変形、例えば高次例えば、DirAC)と、Harpexは、中間B−フォーマット(より一般的な名称として、球面高調波)信号表現を利用する。ほぼ平坦のデバイスでも球面高調波信号表現を実現することは理論上可能である。ただし、マイク距離により、1つの軸の球面高調波信号でSNRが極めて低くなってしまう。このノイズにより、当該軸での空間分析が不安定となる。
パラメトリックキャプチャの追加的な特性として、中間球面高調波(あるいは同様の)表現を使用したあらゆる技術では、空間エイリアシング周波数未満の空間再生のみが可能であることが挙げられる。マイク間隔に対して、オーディオ波長が小さすぎるため、この周波数を越えると、球面高調波信号が生成できないのである。OZO等の球形デバイスを使用すれば、空間エイリアシング周波数超では、音響陰影情報を利用して指向性情報を判断できる。しかし、音響陰影が全軸で強調されておらず、ユーザがどのように装置を持っているかによっても変動しうる、携帯電話のような装置では、音響陰影情報は信頼性が低くなる場合がある。本明細書に記載の例のさらなる利点として、空間エイリアシング周波数よりも高くても低くても機能することが挙げられる。
上述の概念は、ある実施形態において、3つ以上のマイクを備えるデバイス内に実施されてもよい。少なくとも3つのマイクがあれば、水平サラウンドメタデータが分析できる。少なくとも4つのマイクがあれば、高さメタデータもさらに分析できる。空間メタデータは、デバイスまたは装置が直接利用できる情報であってもよいし、レシーバデバイスに送信されてもよい。装置(例えば、空間メタデータを受信する装置)は、マイク位置および/またはキャプチャ装置の寸法を把握せずに、空間メタデータおよびオーディオ信号(元のマイク信号と異なりうる)を使用して、所望の出力を合成して、例えばヘッドホンまたはラウドスピーカから出力する空間音を合成する。例えば、キャプチャデバイスはいくつかのマイクを有しながら、チャネルの内の2つのみを記憶/送信するか、送信用にいくつかのチャネルを線形または適応的に合成するか、あるいは空間メタデータとともにオーディオ信号を送る前にチャネルを処理(イコライザー処理、ノイズ除去、ダイナミックプロセッシング等)してもよい。これらは、空間メタデータ(および、ある実施形態においては、頭部向き等のさらなる入力)を使用してオーディオ信号を処理し、合成された音響出力信号(複数可)を決定するさらなる装置により受信されてもよい。
本明細書に記載の実施形態の共通要素として、空間メタデータと、同一または同様の音場から何らかの方法で発生したいくつかのオーディオ信号が、合成段階で利用される(直接利用されてもよいし、送信/記憶/符号化等の後に利用されてもよい)ことが挙げられる。
本明細書に記載の実施形態に関連する中心的概念として、キャプチャデバイスは、典型的には周波数帯において、不確定(前後としても知られる)指向性オーディオ分析のみを実行するために選択されたキャプチャ軸を少なくとも1つ有するように構成される。このキャプチャ軸は、当該軸に沿った到来平面波からの、マイクにより生成されたオーディオ信号間の遅延が、別のキャプチャ軸を画定するマイクにより生成されたオーディオ信号間の最大遅延よりも小さい値となるものである。当該軸の例を、図2aに示す。
図2aは、「短」寸法軸203を有する例示的デバイス201を示す。デバイス201の「短」軸203(例えば、タブレットデバイスの厚さ方向)において、マイク間隔は、別の軸よりもかなり小さい。本明細書に記載の実施形態においては、この「短」寸法軸203は、不確定方向分析のみに使用される。したがって、任意選択された「短」寸法軸によって、正確な空間情報を生成する際に、低品質な空間メタデータが生成されてしまうことが防止される一方で、ロバストな不確定方向選択空間情報(例えば当該軸に関して、音が前方から到来するか、後方から到来するか)が生成可能となる。例えば音がデバイスの一方または他方から到来する場合、不確定方向選択は二者択一であってもよい。不確定方向選択において、3つ以上の選択肢があってもよい。ただし、不確定方向選択は、「肉厚方向」軸での、遅延またはその他の信号分析に基づくその他の分析から得られた精密な角度判定パラメータと比較して、より「選択」という意味合いが強いパラメータである。
図2bに示すように、例示的装置またはデバイス201は、4つのマイクを備えてもよい。図2bに示すマイクの配置は、本発明の概念を示すためのマイクの配置の単に一例であり、これらのマイクが任意の適切な分配で配置されてもよいことが理解されよう。図2bに示す例では、3つのマイクがデバイスの「前方」に設けられ、1つのマイクがデバイス201の「後方」に設けられている。さらに、第1の「前方」マイク211はデバイス201の1つの角部に設けられてもよく、第2の「前方」マイク213はデバイス201の隣接する角部に設けられてもよく、第3の「前方」マイク215はデバイス201の第1のマイク211と第2のマイク213との間の辺の反対側の辺の中間に設けられてもよい。図2bに示す「後方」マイク217は、第1の「前方」マイクと同じ角部であるが、第1の「前方」マイク211とは反対の面に設けられる。「前方」および「後方」という語は、装置のユーザに対して相対的な用語であり、これらは単なる例として選択されるものであることが理解されよう。
例示的デバイス201上のマイクの配置は、デバイスの前方への到来音202が、「前方」マイク、すなわち第1から第3のマイクによりそれぞれ、第1から第3のオーディオ信号として取得されるものである。その後、第1から第3のオーディオ信号を分析することで、空間メタデータが生成されてもよい。ある実施形態において、マイクの配置寸法またはマイク位置により、オーディオ信号に実行される分析の種類が選択可能となる。例えば、マイク211および215(あるいはマイク211および213、あるいはマイク213および215)の距離がロバストに分析可能となる(例えば指向性分析、したがってデバイス201に対する到来音202の方向が、オーディオ信号遅延分析により判定可能となる)ようなものである。一方で、マイク211および217の距離は、不確定指向性(例えば前後)判定分析が実行可能となるようなものである。
ある実施形態において、空間メタデータは、少なくとも1つのマイク対オーディオ信号の分析から判定可能な、少なくとも1つの音声特徴(方向以外)を含む。例えば、ある実施形態において、互いの距離が最大のマイク対の、相互相関分析を実行して、エネルギー比パラメータを判定できる。当該パラメータは、当該周波数帯において、デバイスが取得した全ての音エネルギーに対して判定された「音源」方向から到来する音エネルギーの推定部分を示す。ある実施形態においては、音エネルギーのその他の部分は無指向性(例えば反響音エネルギー)と判定されてもよい。
音方向等の空間メタデータと、周波数帯におけるエネルギー比は、取得音の知覚的に関連する空間情報を表すパラメータである。これは、知覚的に、高品質空間オーディオ合成を実行するために利用可能である。デバイスの肉薄方向軸において不確定指向性選択のみを行い、デバイスのその他の軸(複数可)において大部分の空間情報を判定する手法によると、極めて対称性が低いデバイスを利用しても、この一般化された空間情報を取得できる。空間オーディオプレーヤ(例えば、欧州特許出願第EP2617031A1号に記載のプレーヤ)が、再生中に空間情報を使用して、キャプチャデバイスサイズまたはマイク位置に対する詳細の知識なしに、適切な空間オーディオ信号(両耳用、マルチチャネル)を合成できる。
図3に示す例示的デバイス300では、3つのマイクが、上述のように少なくとも1つの軸でマイク配置が制限されるようなデバイスに配置されている。例えば、例示的デバイス300は、2つの「前方」側マイクである第1マイク301および第3マイク305と、1つの「後方」側マイクである第2マイク303を有する携帯デバイスを表す。デバイスの形状としては、その「短」軸に沿った距離「c」313により、第1マイク301と第2マイク303との距離が定義され、その「長」軸に沿った距離「a」311により、第1マイク301と第3マイク305との距離が定義されるものである。第2マイク303と第3マイク305との間の距離は、デバイスの「短」軸および「長」軸に対して対角線方向の距離「b」315で定義される。すなわち、距離「a」311と、距離「c」313との差が大きい。
ある実施形態において、空間メタデータを判定するために、マイクからのオーディオ信号に分析を実行する際、「短」軸で離間したマイクである第1マイク301および第2マイク303(したがって、マイクにより生成されたオーディオ信号)が選択されて、これらオーディオ信号に不確定指向性または「前後」分析のみが実行されるようにする。例えば、第1マイク301および第2マイク303からのオーディオ信号間の遅延分析の場合、音に関連した指向性情報を判定する際に、高ノイズ出力値が得られる。一方で、同じ遅延分析でも、「前後」不確定指向性情報を提供し、第1マイク301または第2マイク303のどちらに先に音が到来するかを、ある程度ロバストに推定できる。
「長」軸で離間したマイクである第1マイク301および第3マイク305(したがって、マイクにより生成されたオーディオ信号)は、マイク間距離が比較的大きい対(距離aで離間)を形成しうる。したがって、第1マイク301および第3マイク305の対は、よりロバストに、空間方向情報を検出するのに使用できる。例えば、第1マイク301および第3マイク305との間の遅延分析により、水平面における到来音の方向を推定可能となる。
方向検出分析の対として、2つのマイク(第1マイク301および第3マイク305)のみが使用されるため、方向分析の結果は不確定となる。同じ遅延情報を、略(または正確な)鏡面対称角(マイク配置やデバイスの音響特性に依存する)において、デバイスの「表」側あるいは、「後ろ」または「裏」側から音源の音が到来する状況のために取得してもよい。この不確定性は、第1マイク301および第2マイク303の「短」距離対からの前後情報を使用して解消できる。
図4はさらに、4つのマイクを有する例示的デバイスを示す。図4には、このさらなる例示的デバイスの「後方」または「裏」面の全体を示す。「後方」面において、1つの角部に第3マイク405が配置され、その中央にディスプレイ411が配置される。「後方」面には、デバイスの長さおよび幅に対応する2つの「長」軸が示されている。反対側の、デバイス400の「前方」面では、カメラ413が破線で示される。デバイス400の「前方」面にはさらに、第3マイク405の反対側に、第1マイク401が配置される。この構成では、第1マイク401と第3マイク405との間の距離がデバイスの厚さ(デバイス400の「短」軸とされる)である。「前方」面において、上記角部からデバイス幅方向に隣接する角部に、第2マイク403が配置される。さらに「前方」面において、上記角部sからデバイス高さ方向に隣接する角部に、第4マイク407が配置される。この例示的デバイスにおいて、4つのマイクを使用し、さらに指向性空間メタデータ判定を行うことで、高さ指向性情報についても判定可能となる。
この例示的デバイスにおいて、高さおよび幅軸よりも、厚さ軸421においてマイク間隔が狭い。この構成では、第1マイク401および第3マイク405のマイク対からのオーディオ信号が、上述のように不確定指向性前後分析のみを目的とした遅延分析に使用される。
図5は、ある実施形態に実施するに適した、図4に示す例示的オーディオキャプチャ装置またはデバイスの内部構成要素の例を示す。オーディオキャプチャ装置400は、複数のマイク(マイクアレイ内のマイクとして定義されてもよい)を備える。図5に示す例のマイクアレイには、図4に示すのと同様に配列されたマイク401〜407が示されている。
マイク401、403、405、407は、音波を適切な電気オーディオ信号に変換するように構成されたものとして示される。ある実施形態において、マイクはオーディオ信号を取得して、適切なデジタル信号を出力可能である。別の実施形態では、マイクまたはマイクアレイは、任意の適切なマイクまたはオーディオキャプチャ手段を含みうる。その例としては、コンデンサマイク、キャパシタマイク、静電マイク、エレクトレットコンデンサマイク、ダイナミックマイク、リボンマイク、カーボンマイク、圧電マイク、または微小電気機械システム(Microelectrical-Mechanical System:MEMS)マイクが挙げられる。これらのマイクは、ある実施形態において、オーディオキャプチャされた信号をA/Dコンバータ(ADC)103に出力可能である。
オーディオキャプチャ装置400は、A/Dコンバータ103をさらに備えてもよい。A/Dコンバータ103は、各マイクからのオーディオ信号を受信し、それを処理に適した形式に変換するように構成されてもよい。ある実施形態において、マイクはASICを備えてもよく、この場合、各マイクにおいてA/D変換が行われてもよい。A/Dコンバータ103は、任意の適切なA/D変換または処理手段でありうる。A/Dコンバータ103は、オーディオ信号のデジタル表現を、プロセッサ107またはメモリ111に出力するように構成されてもよい。
オーディオキャプチャ装置400の電子機器として、少なくとも1つのプロセッサまたはCPU107をさらに備えうる。プロセッサ107は、各種プログラムコードを実行するように構成できる。実行されるプログラムコードとしては、例えば、信号遅延分析、空間メタデータ処理、信号ミキシング、位相処理、振幅処理、非相関、中間信号生成、サイド信号生成、時間対周波数領域オーディオ信号変換、周波数対時間領域オーディオ信号変換、およびその他のアルゴリズムによるルーチンが挙げられる。
オーディオキャプチャ装置は、メモリ111をさらに備えうる。少なくとも1つのプロセッサ107がメモリ111に接続されうる。メモリ111は、任意の適切な記憶手段でありうる。メモリ111は、プロセッサ107で実行可能なプログラムコードを記憶するためのプログラムコード部を備えうる。さらに、メモリ111は、データ(例えば、処理済みデータまたは処理対象データ)を記憶するための記憶データ部をさらに備えうる。プログラムコード部内に記憶された、実行されたプログラムコードと、記憶データ部内に記憶されたデータとは、必要に応じてプロセッサ107によってメモリ−プロセッサ接続を介して取得されうる。
オーディオキャプチャ装置は、ユーザインタフェース105をさらに備えうる。ユーザインタフェース105は、ある実施形態において、プロセッサ(CPU)107に接続可能である。ある実施形態において、プロセッサ107は、ユーザインタフェース105の動作を制御して、ユーザインタフェース105からの入力を受信可能である。ある実施形態において、ユーザインタフェース105はユーザに、例えばキーパッドを介してオーディオキャプチャ装置400に対してコマンドを入力可能とする。ある実施形態において、ユーザインタフェース105はユーザに、装置400からの情報を取得可能とする。例えば、ユーザインタフェース105は、装置400からの情報をユーザに表示するように構成されたディスプレイを備えてもよい。ユーザインタフェース105は、ある実施形態において、タッチスクリーンまたはタッチインタフェースを備えてもよく、これらは装置400への情報の入力と、装置400のユーザへの情報の表示の両方を実現可能である。
実施形態によっては、オーディオキャプチャ装置400は送受信部109を備える。当該実施形態において、送受信部109はプロセッサ107に接続されて、別の装置または電子デバイスと、例えば無線または固定回線通信ネットワークを介して通信可能とするように構成されうる。送受信部109または任意の適切な送受信部または送信および/または受信手段は、ある実施形態において、無線または有線接続を介して別の電子デバイスまたは装置と通信するように構成可能である。
送受信部109は別の装置と、任意の適切な公知の通信プロトコルによって通信可能である。例えばある実施形態において、送受信部109または送受信手段は、好適なユニバーサル移動体通信システム(Universal Mobile Telecommunications System:UMTS)プロトコル、例えばIEEE802.X等の無線ローカルエリアネットワーク(Wireless Local Area Network:WLAN)プロトコル、Bluetooth(登録商標)等の好適な短距離無線周波数通信プロトコル、または赤外線データ通信経路(Infrared Data communication pathway:IRDA)を用いうる。
オーディオキャプチャ装置400は、D/Aコンバータ113をさらに備えてもよい。D/Aコンバータ113は、プロセッサ107および/またはメモリ111に接続されて、(例えばプロセッサ107からの)オーディオ信号のデジタル表現を、オーディオサブシステム出力を介して提供するのに適した適切なアナログ形式に変換するように構成されてもよい。D/Aコンバータ(DAC)113または信号処理手段は、ある実施形態において、任意の適切なDAC技術でありうる。
さらにオーディオサブシステムは、ある実施形態において、オーディオサブシステム出力115をさらに備えうる。図5に示すような一例として、スピーカ131および131の対であってもよい。スピーカ131は、ある実施形態において、D/Aコンバータ113からの出力を受信し、アナログオーディオ信号をユーザに届けるように構成可能である。ある実施形態において、スピーカ131は、例えばイヤフォンまたはコードレスイヤフォンのセットといったヘッドセットとして実施しうる。
さらにオーディオキャプチャ装置400は、複数の到来音が存在するような環境または音響シーンで動作するように示される。図5に示す例では、環境は、第1の位置で話す人のような発声音源の第1の音151を含む。図5に示す環境はさらに、第2の位置でのトランペット演奏のような、楽器音源の第2の音153を含む。第1および第2の音151および153に対応する第1および第2の位置は、それぞれ異なっていてもよい。さらに、ある実施形態において、第1および第2の音は、異なるスペクトル特性のオーディオ信号を生成するものであってもよい。
オーディオキャプチャ装置400は、オーディオキャプチャ構成要素、オーディオ提供構成要素の両方を有するように示されているが、装置400はマイク(オーディオキャプチャ用)のみが存在するように、オーディオキャプチャ要素のみを有するものであってもよい。同様に、以下の例では、オーディオキャプチャ装置400は後述する空間オーディオ信号処理の実行に適するように説明される。オーディオキャプチャ構成要素と、空間信号処理構成要素とは、互いに個別の要素であってもよい。言い換えると、オーディオ信号は、マイクアレイと適切な送信機を備える第1の装置により取得されてもよい。その後オーディオ信号は、受信機、プロセッサ、メモリを備える第2の装置にて受信され、本明細書に記載のとおりに処理されてもよい。
図6は、複数のマイクからの信号を処理して、2つのチャネルで信号を出力する処理を示す概略的ブロック図である。その他の複数マイクチャネル再生も可能である。マイクからの入力に加え、は頭部向きについての入力も使用可能である。
音声取得、処理、および再生のために、構成要素は様々な異なる配置を取りうる。
可能な一態様として、破線の左側は全てキャプチャデバイスにて実施され、破線の右側は全て視覚/聴覚デバイス(例えば、ヘッドホン付きHMD、タブレット、携帯電話、ノートパソコン等)で実施される。オーディオ信号および指向性メタデータは、符号化/記憶/ストリーミング/視覚デバイスへの送信が可能である。ある実施形態において、装置は空間メタデータとともに送信される、ステレオトラックまたはその他1つまたは複数のチャネルオーディオトラックを生成するように構成される。ある実施形態において、ステレオトラック(またはその他)は、マイク信号の組合せまたはサブセットであってもよい。図6には示さないが、ある実施形態において、オーディオトラックは、送信または記憶用に、例えばAACにより符号化されてもよく、方向分析部603からの空間メタデータは、AACメタデータに埋め込まれてもよい。AAC(またはその他)オーディオと、空間メタデータも、mp4コンテナのようなメディアコンテナに組み合わされてもよい。当該メディアコンテナは、ビデオトラックおよびその他の情報を含みうるものである。図6では不図示だが、AACやmp4ストリーム等である、送信された符号化オーディオおよびメタデータは、復号機側で復号されて、空間シンセサイザー607により処理されてもよい。上述の処理では、正逆フィルタバンクおよび正逆修正離散コサイン変換(Modified Discrete Cosine Transform:MDCT)のような、異なる様々なフィルタバンクや、オーディオ/ビデオ符号化、多重化、送信、分離、復号に一般的に利用される必要な処理が使用されうる。
装置、あるいはより具体的には空間シンセサイザー607のいくつかの最適な実施形態として、オーディオの直接音部分と、周囲音部分やその他任意の信号構成要素を空間合成用に分離して、個別に処理されるように構成されてもよい。別の実施形態では、直接音部分と、周囲音部分やその他任意の信号構成要素は、例えば適応型信号ミキシングや相関除去を利用した単一の包括的工程により、オーディオ信号から合成されてもよい。言い換えると、空間メタデータに応じた音声を処理して、所望の空間オーディオ出力を取得する様々な手段が存在する。
図3から5に示すようなデバイスであるキャプチャデバイスにおいて、全ての処理が実行されうる。キャプチャデバイスは、取得されたメディアを視聴するための、ディスプレイおよびヘッドホンコネクタ/スピーカを備えうる。オーディオ信号および指向性情報、あるいはオーディオ信号および指向性情報に応じた処理済みオーディオ出力は、符号化/キャプチャデバイスでの記憶が可能である。
キャプチャデバイスは例えば、複数のマイク信号を受信し、変換領域信号を空間シンセサイザー607および方向分析部603に出力するように構成されたフィルタバンク601を備える。フィルタバンクは、短時間フーリエ変換(Short Time Fourier Transform:STFT)または複合QMFバンクのような、任意の適切な形態のフィルタバンクであってもよい。方向分析部603は、フィルタバンクからオーディオ信号を受信し、本明細書に記載のように遅延分析を実行して、音響シーンに関連した空間メタデータを判定するように構成されてもよい。この情報は、空間シンセサイザー607および方向回転部605に送られてもよい。ある実施形態において、キャプチャデバイスは、方向回転部605のような空間的プロセッサを備える。この方向回転部は、方向分析部603内で判定された指向性情報を受信し、頭部向き入力に基づいて、方向を「動かす」ように構成されてもよい。頭部向き入力は、ユーザが見ている方向を示しうるもので、HMD内のヘッドトラッカー、または携帯電話、タブレット、ノートパソコン等における加速度計/マウス/タッチスクリーンを使用して検出されうる。
出力された「動かされた」空間メタデータは、空間シンセサイザー607に送られてもよい。空間シンセサイザー607は、フィルタバンク601からオーディオ信号を、方向分析部603および方向回転部605から空間メタデータを受信して、適切なオーディオ信号を生成または合成するように構成されてもよい。
出力信号は、何らかの形態(例えば符号化/記憶/ストリーミング/送信)により、視覚デバイスに送ることができる。
全ての処理は、視覚デバイスで実施されうる。上述のマイク信号は、図6に示す処理を実行する視覚デバイスに符号化/記憶/ストリーミング/送信される。逆フィルタバンク609の出力は、スピーカ/ヘッドホン/イヤフォン等の任意の適切な出力手段により出力されるように構成されてもよい。
図7のフローチャートにより、図6に示す方向分析部603、より大きな概念としては例示的なキャプチャまたは処理デバイス内に設けられる空間メタデータ分析部の動作をより詳細に説明する。
デバイス(ある実施形態においては空間メタデータ分析部/方向分析部)は、「肉薄方向」軸に関して、第1のマイク配置を選択したものとして示されている。第1のマイク配置は、実質的にある寸法または軸を画定する一対または3つ以上のマイクでありうる。ある実施形態において、デバイスは寸法または軸を選択し、この選択された寸法または軸から、後の分析に使用するマイクオーディオ信号を決定する。例えば、寸法または軸としては、2つのマイクが整列していないものが選択されうる。よって、オーディオ信号を合成することで、「合成」マイクが得られうる。
ある実施形態において、選択マイク間の遅延群の推定が行われてもよい。不確定指向性、すなわち「前後」の判定に、複数の対からの遅延情報が用いられてもよい。不確定指向性判定のために、複数の遅延推定を組み合わせる際のルールとしては、ヒューリスティック(人が調整した数式を使用)であってもよいし、デバイスからの測定データに基づく最適化(例えば最小二乗法最適化アルゴリズム)により行われてもよい。
選択マイク配置からのオーディオ信号間の遅延情報は、第1の空間メタデータ部分を判定するために使用されるように構成されてもよい。例えば、ある実施形態において第1の空間メタデータ部分は不確定指向性分析(前後判定等)であってもよい。
肉薄方向軸と、関連するマイク配置を選択し、選択したマイク配置によるオーディオ信号からの遅延情報を、不確定指向性情報の判定のみに使用する動作を、図7のステップ701に示す。
デバイス(ある実施形態においては空間メタデータ分析部/方向分析部)は、さらなるマイク配置を選択するように示されている。さらなるマイク配置は、「肉薄方向」軸以外の寸法または軸(すなわち「肉厚方向軸」または「肉厚方向寸法」)を実質的に画定するさらなるマイク対または3つ以上のマイクによるものであってもよい。
ある実施形態において、このさらに選択されるものは、「肉薄方向」軸以外の全てのマイク軸または寸法でありうる。
さらなる選択によるオーディオ信号間の遅延情報は、第2の空間メタデータ部分を判定するために使用されるように構成されてもよい。例えばある実施形態において、第2の空間メタデータ部分はロバストな指向性推定であってもよい。さらにある実施形態において、第1の空間メタデータ部分は、不確定指向性の用指向性推定(前後判定等)をさらに含んでもよい。
さらなるマイクを選択し、選択されたマイクオーディオ信号からの遅延情報を使用する動作を、図7のステップ703に示す。
その後システムは、第1および第2の空間メタデータ部分を合成して、ロバストなメタデータ出力を生成するようにしてもよい。例えば、さらなる配置によるマイクオーディオ信号からの指向性情報と、第1の配置によるマイクオーディオ信号からの不確定指向性検出とにより、ロバスト、すなわち確定的な指向性結果が生成されてもよい。
図7の例では、第1および第2の選択が実現されるマイクシステムが示されるが、これを、例えば例示的垂直および水平面を画定するさらなる選択に拡張してもよい。
第1および第2の空間メタデータ部分から出力された合成空間メタデータを判定する動作を、図7のステップ705に示す。
図8に、実施形態において使用される、遅延分析の第1の例を示す。以下の例では、遅延分析が、オーディオ信号の単一周波数帯に実行される。帯域単位で分析実行されるある実施形態においては、これらの動作は帯域単位で実行されてもよい。
ある実施形態において、デバイス(ある実施形態においては空間メタデータ分析部/方向分析部)は、マイク対により生成されたオーディオ信号間の遅延を判定する「探索」方法を適用するように構成されてもよい。この「探索」方法では、一組の異なる遅延となるマイク対により取得されたオーディオ信号の相互相関積が判定される。最大相互相関となる遅延が、推定遅延として選択される。
これは、例えば以下のとおりに実施される。ただし、ある実施形態においては、最大相互相関となる遅延を判断するのに任意の適切な探索方法を利用してもよい。
まず、遅延範囲が判定される。この遅延範囲は、正および負の遅延を含んでもよい。
遅延範囲を判定する動作を、図8のステップ801に示す。
その後、この遅延範囲から遅延が選択される。
遅延範囲から遅延を選択する動作を、図8のステップ803に示す。
その遅延をマイクオーディオ信号の1つに適用する。遅延の適用は、周波数領域の位相の調整として実施されてもよい。これは遅延調整に近いものである。
遅延をマイクオーディオ信号の1つに適用する動作を、図8のステップ805として示す。
非遅延マイクオーディオ信号と、遅延マイクオーディオ信号とに対して、相互相関積が判定される。
一対のオーディオ信号に対して相互相関積を判定する動作を、図8のステップ807として示す。
この方法ではその後、全ての遅延が選択されたか確認、判定される。遅延範囲内に遅延が残っている場合、方法はステップ803に戻り、さらなる遅延値が遅延範囲から選択される。
全ての遅延が選択されたかを確認する動作を、図8のステップ809として示す。
範囲内の全ての遅延が選択された場合、最大相互相関積値を実現する遅延が、遅延情報値として選択される。
最大相互相関積値を選択する動作を、図8のステップ811に示す。
遅延情報判定のさらなる例として、遅延情報値を判定するための位相導関数方法が挙げられる。この位相導関数方法では、マイク間の遅延が判定され、これはマイク間の位相差の周波数の導関数に対応する。したがって、この位相導関数を推定することで、推定遅延が得られる。
別の実施形態では、選択されたマイクオーディオ信号の対間の遅延情報を判定する任意の適切な方法を実施して、遅延情報を取得してもよい。
ある実施形態において、遅延情報を判定して、この遅延情報を利用して、空間メタデータを判定してもよい。
例えば、図3に示す3つのマイクによるデバイスの例では、選択された一対の第1マイク301および第3マイク305が十分に空間的に離間していることで、遅延情報を以下のようにして指向性または角度情報を判定するように使用されうる。具体的には、まず遅延パラメータを最大−遅延パラメータ(マイク対間のマイク距離と、音速に基づいて数式化)で正規化して、−1と1の間に限定された正規化遅延dnormを得る。最大正規化遅延は、一対のマイクにより画定された軸から音声が到来することで得られる。さらに、角度情報が例えばacos(dnorm)によって得られてもよい。
同じく図3に示すデバイスについて、選択された一対の第1マイク301および第2マイク303は、指向性分析が実行できるほど十分に空間的に離間してない可能性がある。それでも、この一対のマイクのオーディオ信号からの遅延情報により、不確定指向性判定(「前後」判定)が可能となりうる。すなわち、正規化された遅延パラメータの正負符号により判定可能となるのである。このように、前後情報と角度情報とを組み合わせることで、水平面における到来音の方向が得られる。
ある実施形態において、方向以外の空間メタデータ特性を判定してもよい。例えば、分析された方向から到来した音エネルギーの割合を示す比率パラメータを、マイクオーディオ信号間で計算された一貫性パラメータから判定してもよい。指向性音のみが、マイク間で一貫性を有する(遅延は異なりうる)。無指向性音は、いくつかの周波数では一貫性がなく、より低い周波数では部分的に一貫性を実現しうる。したがって、相関分析により、分析音の比率パラメータが得られる。
本明細書に記載の実施形態では、肉薄方向軸および非肉薄方向軸で選択されたマイク配置によるオーディオ信号に対して相関判定が実施されてもよい。比率パラメータ判定は、非肉薄方向軸で選択されたマイク配置によるオーディオ信号に対する相関判定を使用して、特に好ましく実施される。これは、より大きい距離を隔てた一対のマイクは、指向性音および非指向性音との相関間の差が大きくなるためである。ある実施形態において、チャネル1およびチャネル3間の正規化複素数相互相関をC13で表す。
Figure 2020500480
式中、E[ ]は、典型的には平均または和をとることで実現される期待値演算子を示し、アステリスクは複素共益を示す。オーディオ信号xは、複素数周波数帯信号であって、添え字は、オーディオ信号のマイク音源を示す。
例えば指向性推定の安定性を利用するような、その他方法により、直接エネルギーの全体に対する比率(等)を推定してもよい。
4つのマイクを有する図4のデバイスの場合、さらに高さ指向性情報を判定可能である。上述のように、デバイスの厚み方向が、高さまたは幅軸とは異なる、「肉薄方向」軸マイク間隔を画定する。したがって、厚さ方向軸にのみ離間した任意のマイク配置が、不確定指向性空間メタデータ(例えば「前後」分析)の判定のみに適するように選択される。
したがって、例えば図4では、「肉薄方向」軸で離間した第1マイク401および第3マイク405のマイク対は、「不確定指向性」マイク配置として選択される。これら選択されたマイクからのオーディオ信号に対するあらゆる分析は、「不確定指向性」分析となる。「肉薄方向」軸の場合よりも互いに大きな距離を空けて離間した第1マイク401および第2マイク403(または第1マイク401および第4マイク407)のようなその他マイクを選択して、指向性(またはその他ロバストな)パラメータ判定のための遅延分析を実行してもよい。
したがって、第1マイク401、第2マイク403、第4マイク407を利用して、到来音の方向を検出できる。ただし、前後軸により定まるデバイスの両側のいずれから音が到来するかに関して、指向性の不確定性が伴う。この例では、マイク1および2の対と、マイク1および4の対とは、水平および垂直軸に完全に沿って配置されている。これは、簡潔に表現できる方向を推定する例示的方法を可能にする構成の例である。
この実施形態では、指向性情報は以下の数式を利用して、マイクオーディオ信号から判定できる。まず、全てのマイクオーディオチャネル間の遅延が判定されたと仮定して、dがマイク1および2の対間の推定遅延として定義され、dがマイク1および4の対間の推定遅延として定義され、dがマイク1および3の対間の推定遅延として定義される。この例では、dの正負符号から前後情報が推定可能である。
遅延から方向を判定する一つの方法として、ベクトル代数を利用することが挙げられる。例えば、単位ベクトルvを、到来方向を示すように定義可能である。ロバストに推定された遅延dおよびdから、以下のように単位ベクトル軸1および2を判定してもよい。
Figure 2020500480
式中、最大値は、該当する軸で生じうる最大遅延を示す。言い換えると、当該軸の方向で音が到来すると判定される遅延である。vの長さが1と定義されたことで、残る寸法が以下のとおりに得られる。
Figure 2020500480
式中、最大演算子は、生じうる小推定誤差に対応するものであって、平方根内の数式により、負の値となりうるものである。dの正負符号から不確定指向性判定、または当該軸における同様の不確定指向性判定が実現される。したがって、到来方向は、ベクトルvの方向となる。ここで、推定方向がデバイスの反対側に鏡面対称となりうることを考慮し、vの正負符号を選択するために前後パラメータが適用されている。
第1マイクおよび第2マイクは、大きく離れている(例えば、携帯デバイスでは4cm超離間する)ため、一貫性の検出に適する。この例では、第1マイクおよび第3マイクの対を除く任意の別の対が、一貫性分析に利用できる。さらに、数対間の複数のコヒーレンス分析も可能であり、比率パラメータ推定により当該コヒーレンス情報を統合できる。これにより、よりロバストな比率パラメータ推定を実現できる。
各周波数帯に対して個別に、方向、コヒーレンス、その他の音声特性を検出できる。本明細書に記載の空間メタデータは、指向性メタデータ、空間メタデータ、空間パラメータ情報等の名称で知られている。
不確定指向性(「前後」)分析のみのために、(デバイス形状およびマイク位置に基づいて)1つの軸を選択することの利点として、様々な本件技術を適用可能なデバイスが、正確な空間メタデータを判定可能となる。従来の方法の多くはこの判定に適さない。具体的には、本明細書に記載の方法により、少なくとも3つのマイクを有するスマートフォン、タブレット、またはその他同様のデバイスであって、当該デバイスの少なくとも1つの軸がその他の軸よりもかなり短いことが知られたデバイスによって、正確な空間メタデータが生成可能である。
例えば、デバイスの非対称性を考慮しない従来技術と比較して、本発明によると、デバイスの一方の側(例えば図2bに示す側)に、何も挟まずに存在する未処理の音源が、正確に取得されうる。従来技術の方法によると、「肉薄方向」軸で大きくなる「ノイズ」やその他誤差によって、指向性メタデータは大幅に変動しうる。このメタデータ変動により、空間再生が大きく影響される。
本明細書に記載の例では、マイク間の距離がわかっているが、ある実施形態においては、マイク間の距離はトレーニング手順を実現することで判定されてもよい。すなわち、デバイスが到来音をある方向範囲から「試験的に」取得し、遅延判定を利用して、マイク対間の最大遅延を発見し、マイク間の距離を定義するように構成される。
同様に、ある実施形態において、マイク間の実際の距離が判定されず、またはわかってもいない場合がある。その場合、現在マイクに生じている「最大」遅延に基づいて、マイク対を「不確定指向性」判定(「前後」判定等)のみに利用されうるのか、またはパラメータ値範囲(位置/向き、一貫性、または比率パラメータ)が判定されうる。当該実施形態では、遅延信号分析に基づいて「不確定指向性」を実行可能にするためのみに、マイク信号対を第1に選択してもよい。言い換えると、遅延の正負符号を利用して、不確定指向性判定を行うのである。しかし、最大遅延値が所定値(マイク対間に大きな空間的分離があることを示す)よりも大きい場合、選択されたマイク対を利用して、不確定指向性判定以上のものを判定してもよい。例えば、遅延値を利用して、空間メタデータ方向を判定してもよい。この最大値は、判定された最大遅延値でありうる。よって、マイク対が、現在のところ指向性メタデータの判定に、別のマイク対選択肢よりも適しているかを選択するものとなる。
空間音のパラメータ分析では、音モデルが、例えばある周波数帯における指向性音と周辺音と仮定されることが理解されたい。モデルパラメータ、すなわち空間メタデータを推定するようにアルゴリズムを組んだ。本明細書に記載の実施形態では、音モデルは、1つの空間軸での不確定指向性分析を利用して得られた、周波数帯の指向性パラメータと、その他の軸(複数可)でのその他の分析を含むものである。ある実施形態において、指向性パラメータ、またはその他メタデータは記憶、送信されることなく、分析され、空間合成に利用されて、その後破棄される。例えば、ある実施形態において、デバイスはマイクオーディオ信号を取得して、5.1チャネル出力を直接処理するように構成される。例えば、30度左側のみに音源が存在する場合、システムはそれに応じて空間音モデルパラメータを推定し、音を当該方向のラウドスピーカ(複数可)に向ける。したがって、これにより、システムのある部分で空間メタデータ分析が実行され、空間的に正確な再生が可能となるが、この場合、空間メタデータは記憶も送信もされない。
ある実施形態において、メタデータは単にシステム内の一時的変数であって、合成のために直接適用される(例えばHRTF選択、ラウドスピーカゲイン等)。これにより、空間音が生成される。これは、デバイスがキャプチャ/再生の両方を実行するように構成された場合の構成となる。したがって、この場合でもメタデータは推定されるが、どこにも記憶はされない。
ある実施形態において、キャプチャデバイスは、1つまたは複数のオーディオチャネル(マイクチャネルに基づく)と、分析されたメタデータを送信するように構成される。オーディオチャネルは、例えばAACにより符号化可能である。AACによる符号化はSNR低下につながる(ただし知覚的マスキングにより、量子化ノイズは通常聴こえなくなる)。当該低下により、メタデータ分析精度も下がりうる。これがキャプチャデバイスで分析を実行するのが最適である理由の1つである。受信機は、オーディオとメタデータを取得し、例えば頭部追跡ヘッドホンまたはラウドスピーカに対して、空間的柔軟性を実現するように構成される。
ある実施形態において、デバイスはさらに、生のオーディオ波形をそのまま記憶してもよい。その場合、コンピュータソフトウェアのような別体によってメタデータ分析が行われる。例えば、携帯デバイスカメラ(1つまたは複数)と、マイクデータを、少なくとも1つのプロセッサのコードを実行するコンピュータにインポートし、そこでメタデータ分析、画像スティッチング等が全て実行される。このコードまたはソフトウェアは、どのデバイスが利用されているか知らされ、それに応じて自己設定を行う。
さらにある実施形態において、高ビットレートで符号化されたマイクチャネルを受信機に送り、そこでメタデータ分析および合成を実行してもよい。
パラメータ分析(すなわち、線形分析方法に対する改良)において、システムは空間パラメータ、すなわち空間メタデータを推定するように構成されるが、分析はシステム内の任意の適切な部分で実行されてもよい。例えば、ノキアOZOデバイスのような仮想現実(Virtual Reality:VR)キャプチャデバイスの場合、分析および推定はコンピュータで実施されることが多く、携帯デバイスの場合は、当該デバイス自身で推定が実施されることが多い。
一般に、本発明の様々な実施形態が、ハードウェアまたは特定用途向け回路、ソフトウェア、ロジック、またはそれらの組合せで実装されてもよい。例えば、ある態様では、ハードウェアで実装されてもよく、一方別の態様では、コントローラやマイクロプロセッサ等のコンピュータデバイスによって実行されるファームウェアやソフトウェアで実装されてもよい。本発明の種々の態様は、ブロック図、フローチャート、または他の図的表現によって記述ないし図示されてもよい。本明細書に説明されるこれらのブロック、装置、システム、技術、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特定用途向け回路やロジック、汎用ハードウェア、コントローラや他のコンピュータデバイス、またはそれらの組合せで実装されてもよいと理解されるべきである。
本発明の実施形態は、プロセッサエンティティ内にあるような電子デバイスのデータプロセッサによって実行可能なコンピュータソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組合せによって実装されてもよい。またこの点に関して、添付する図面に示される論理フローの任意のブロックが、プログラムのステップや相互接続された論理回路・ブロック・機能、またはプログラムのステップ、論理回路・ブロック・機能の組合せを表現してもよいことに留意されたい。ソフトウェアは、メモリチップ等の物理メディアやプロセッサ内に実装されるメモリブロック、ハードディスクやフレキシブルディスク等の磁気メディア、DVDやそのデータ異形態であるCD等の光学式メディアに格納されてもよい。
メモリは、ローカルな技術環境に適したあらゆるタイプのものであってよい。例えば、半導体ベースのメモリデバイス、磁気メモリデバイス・システム、光学式メモリデバイス・システム、固定式・移動式メモリ等の様々な適合するデータ格納技術を用いて実装されてもよい。データプロセッサは、ローカルな技術環境に適したあらゆるタイプのものであってよく、非限定的な例として、一つ以上の汎用コンピュータ、特定用途向けコンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(デジタル信号プロセッサ:DSP)、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、ゲートレベル回路、マルチコアプロセッサ・アーキテクチャに基づくプロセッサを含んでもよい。
本発明の実施形態は、集積回路モジュールのような、様々な要素で実施されることもできる。集積回路の設計は多くは自動化されたプロセスである。論理レベルの設計を、半導体基板上にエッチング・形成するための半導体回路設計に変換する複雑で強力なソフトウェアツールが利用可能である。
カリフォルニア州マウンテンビューのSynopsys, Incや、カリフォルニア州サンノゼのCadence Designのような業者が提供するプログラムは、定評のある設計ルールと実績のある設計モジュールのライブラリに基づいて、半導体チップ上に導電経路や要素を配する。半導体回路の設計が完了すると、それは、OpusやGDSII等の標準的な電子フォーマットの形で半導体製造設備または、いわゆるfabに送られる。
前述の説明は、本発明の非限定的な実施例を十分かつ詳細に記述している。しかし、こうした前述の説明を、添付する図面および特許請求の範囲と併せて考慮すれば、種々の修正および変更が可能であることは、本願に関連する技術分野の当業者には明らかであろう。さらに、本発明が教示するこうした事項の全ておよび類似する変形は、添付の特許請求の範囲で定義されるように、その全てが本発明の範囲内にある。

Claims (25)

  1. 所定の形状を有する装置であって、
    前記装置上または装置内に位置する少なくとも3つのマイクと、
    プロセッサと、を備え、
    前記少なくとも3つのマイクの内の少なくとも一対は、前記所定の形状の少なくとも1つの別のマイク対よりも、前記所定の形状において、より短い距離だけ離間した2つのマイクを備え、
    前記プロセッサは、
    前記少なくとも3つのマイクから、少なくとも3つのマイクオーディオ信号を受信し、
    前記より短い距離だけ離間した2つのマイクからのマイクオーディオ信号を分析し、不確定指向性を判定し、
    前記少なくとも1つの別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定するように構成され、
    前記第1のマイク対と、前記少なくとも1つの別のマイク対とが空間オーディオ信号を取得するように構成されるように、前記少なくとも1つの別のマイク対は、前記所定の形状に沿って、より長い距離だけ離間した2つのマイクを備える、装置。
  2. 前記所定の形状は、前記装置の物理的形状である、請求項1に記載の装置。
  3. 前記装置の物理的形状の少なくとも1つの寸法が、前記装置の物理的形状のその他の寸法よりも短い、請求項2に記載の装置。
  4. 前記より短い距離だけ離間した2つのマイクは、前記装置の物理的形状の前記少なくとも1つの寸法が前記装置の物理的形状のその他の寸法よりも短いことにより、前記より短い距離だけ離間する、請求項3に記載の装置。
  5. 前記所定の形状は、前記少なくとも3つのマイクの物理的配列である、請求項1に記載の装置。
  6. 前記より短い距離だけ離間した2つのマイクは、前記装置の物理的形状のその他の寸法よりも短い前記装置の物理的形状の少なくとも1つの寸法とは異なる寸法に沿って配置される、請求項5に記載の装置。
  7. 前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成された前記プロセッサは、前記少なくとも1つの別のマイク対からのマイクオーディオ信号を分析して、前記不確定指向性を判定するようにさらに構成される、請求項1から6のいずれかに記載の装置。
  8. 前記プロセッサは、
    前記不確定指向性判定である、第1の空間メタデータ部分を判定し、
    前記不確定指向性以外の、前記少なくとも1つの音特性である第2の空間メタデータ部分を判定し、
    前記第1の空間メタデータ部分と、前記第2のメタデータ部分とを合成して、前記少なくとも3つのマイクオーディオ信号に関連付けられた空間メタデータを生成するように構成され、
    前記第2のメタデータ部分は、前記第1のメタデータ部分よりも広範囲の値を含む、請求項1から7のいずれかに記載の装置。
  9. 前記少なくとも1つの別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定するように構成された前記プロセッサは、前記少なくとも1つの別のマイク対からの前記マイクオーディオ信号間の遅延値を判定するように構成される、請求項1から8のいずれかに記載の装置。
  10. 前記不確定指向性以外の前記少なくとも1つの音特性は、前記到来音の方向角であり、前記到来音の前記方向角は不確定値を有し、前記不確定指向性判定により、前記不確定値が確定される、請求項1から9のいずれかに記載の装置。
  11. 少なくとも1つの別のマイク対からの前記マイクオーディオ信号を分析して、前記到来音の前記方向角を判定するように構成された前記プロセッサは、
    少なくとも1つの別のマイク対からの前記マイクオーディオ信号間の遅延値を判定し、
    前記少なくとも1つの別のマイク対間の距離を移動する音波の遅延値に対して、前記遅延値を正規化し、
    前記正規化された遅延値に三角関数を適用するか、前記正規化された遅延値をルックアップテーブル内で使用して、少なくとも2つの不確定方向角値を生成するように構成される、請求項10に記載の装置。
  12. 前記正規化された遅延値に前記三角関数を適用して、前記少なくとも2つの不確定方向角値を生成するように構成された前記プロセッサは、前記正規化された遅延値に逆余弦関数を適用して、前記少なくとも2つの不確定方向角値を生成するように構成される、請求項11に記載の装置。
  13. 前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性判定するように構成された前記プロセッサは、
    前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号間の最大相関値に関連した遅延値の正負符号を判定するように構成され、
    前記プロセッサは、前記遅延値の正負符号に基づいて、前記少なくとも2つの不確定方向角値を確定するようにさらに構成される、請求項11または12に記載の装置。
  14. 前記マイクオーディオ信号間の遅延値を判定するように構成された前記プロセッサは、
    前記マイクオーディオ信号間の遅延値の範囲に対して、複数の相関値を判定し、
    前記複数の相関値から、最大相関値を探索し、
    前記遅延値の範囲から、前記最大相関値に関連する前記遅延値を選択するように構成される、請求項9、11から13のいずれかに記載の装置。
  15. 前記マイクオーディオ信号間の遅延値を判定するように構成された前記プロセッサは、
    前記マイクオーディオ信号間の位相差の周波数の導関数を判定し、
    前記位相差の周波数の前記導関数に基づいて、前記遅延値を判定するように構成される、請求項9、11から13のいずれかに記載の装置。
  16. 前記不確定指向性以外の前記少なくとも1つの音特性はさらに、前記到来音の前記方向角に関連するエネルギー比を含む、請求項10から15のいずれかに記載の装置。
  17. 前記不確定指向性以外の前記少なくとも1つの音特性はさらに、前記到来音の前記方向角に関連した一貫性を含む、請求項10から15のいずれかに記載の装置。
  18. 前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成された前記プロセッサは、周波数帯単位で、前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、前記不確定指向性を判定するように構成される、請求項1から17のいずれかに記載の装置。
  19. 少なくとも1つの別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定するように構成された前記プロセッサは、周波数帯単位で、少なくとも1つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定するように構成される、請求項1から18のいずれかに記載の装置。
  20. 前記少なくとも3つのマイクが4つのマイクを含み、
    前記少なくとも3つのマイクから少なくとも3つのマイクオーディオ信号を受信するように構成された前記プロセッサは、前記4つのマイクから4つのマイクオーディオ信号を受信するように構成され、
    少なくとも1つの別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定するように構成された前記プロセッサは、
    少なくとも2つの別のマイク対からの前記マイクオーディオ信号を分析して、少なくとも2つの遅延を判定し、
    前記少なくとも2つの遅延から、到来音の方位角および仰角方向を判定するように構成され、
    少なくとも前記より短い距離だけ離間した2つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成された前記プロセッサは、前記判定された方位角および仰角方向に対して不確定指向性を判定するように構成される、請求項1から19のいずれかに記載の装置。
  21. 所定の形状を有する装置であって、前記装置上または装置内に位置する少なくとも3つのマイクを備え、前記少なくとも3つのマイクの内の少なくとも一対が、前記所定の形状の少なくとも1つの別のマイク対よりも、前記所定の形状において、より短い距離だけ離間した2つのマイクを備える装置のための方法であって、
    前記少なくとも3つのマイクから少なくとも3つのマイクオーディオ信号を受信することと、
    前記より短い距離だけ離間した2つのマイクからのマイクオーディオ信号を分析して、不確定指向性を判定することと、
    前記少なくとも1つの別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも1つの音特性を判定することと、を含み、
    前記第1のマイク対と、前記少なくとも1つの別のマイク対とが空間オーディオ信号を取得するように構成されるように、前記少なくとも1つの別のマイク対は、前記所定の形状に沿って、より長い距離だけ離間した2つのマイクを備える、方法。
  22. 前記所定の形状は、前記装置の物理的形状である、請求項21に記載の方法。
  23. 前記装置の物理的形状の少なくとも1つの寸法が、前記装置の物理的形状のその他の寸法よりも短い、請求項22に記載の方法。
  24. 前記より短い距離だけ離間した2つのマイクは、前記装置の物理的形状の前記少なくとも1つの寸法が前記装置の物理的形状のその他の寸法よりも短いことにより、前記より短い距離だけ離間する、請求項23に記載の方法。
  25. 前記所定の形状は、前記少なくとも3つのマイクの物理的配列である、請求項21に記載の方法。
JP2019526614A 2016-11-18 2017-11-10 デバイス内の非対称配列の複数のマイクからの空間メタデータの分析 Active JP7082126B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1619573.7 2016-11-18
GB1619573.7A GB2556093A (en) 2016-11-18 2016-11-18 Analysis of spatial metadata from multi-microphones having asymmetric geometry in devices
PCT/FI2017/050778 WO2018091776A1 (en) 2016-11-18 2017-11-10 Analysis of spatial metadata from multi-microphones having asymmetric geometry in devices

Publications (3)

Publication Number Publication Date
JP2020500480A true JP2020500480A (ja) 2020-01-09
JP2020500480A5 JP2020500480A5 (ja) 2021-08-12
JP7082126B2 JP7082126B2 (ja) 2022-06-07

Family

ID=57993851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019526614A Active JP7082126B2 (ja) 2016-11-18 2017-11-10 デバイス内の非対称配列の複数のマイクからの空間メタデータの分析

Country Status (6)

Country Link
US (1) US10873814B2 (ja)
EP (1) EP3542546A4 (ja)
JP (1) JP7082126B2 (ja)
CN (1) CN110337819B (ja)
GB (1) GB2556093A (ja)
WO (1) WO2018091776A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2563635A (en) 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
GB2572368A (en) * 2018-03-27 2019-10-02 Nokia Technologies Oy Spatial audio capture
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB201902812D0 (en) * 2019-03-01 2019-04-17 Nokia Technologies Oy Wind noise reduction in parametric audio
GB201909133D0 (en) 2019-06-25 2019-08-07 Nokia Technologies Oy Spatial audio representation and rendering
GB2587335A (en) 2019-09-17 2021-03-31 Nokia Technologies Oy Direction estimation enhancement for parametric spatial audio capture using broadband estimates
GB2592388A (en) * 2020-02-26 2021-09-01 Nokia Technologies Oy Audio rendering with spatial metadata interpolation
GB2608406A (en) 2021-06-30 2023-01-04 Nokia Technologies Oy Creating spatial audio stream from audio objects with spatial extent
US12010483B2 (en) 2021-08-06 2024-06-11 Qsc, Llc Acoustic microphone arrays
EP4164255A1 (en) 2021-10-08 2023-04-12 Nokia Technologies Oy 6dof rendering of microphone-array captured audio for locations outside the microphone-arrays
CN115665606B (zh) * 2022-11-14 2023-04-07 深圳黄鹂智能科技有限公司 基于四麦克风的收音方法和收音装置
WO2024110006A1 (en) 2022-11-21 2024-05-30 Nokia Technologies Oy Determining frequency sub bands for spatial audio parameters
GB202218136D0 (en) * 2022-12-02 2023-01-18 Nokia Technologies Oy Apparatus, methods and computer programs for spatial audio processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110317041A1 (en) * 2010-06-23 2011-12-29 Motorola, Inc. Electronic apparatus having microphones with controllable front-side gain and rear-side gain
WO2014167165A1 (en) * 2013-04-08 2014-10-16 Nokia Corporation Audio apparatus
US20150110275A1 (en) * 2013-10-23 2015-04-23 Nokia Corporation Multi-Channel Audio Capture in an Apparatus with Changeable Microphone Configurations
WO2016096021A1 (en) * 2014-12-18 2016-06-23 Huawei Technologies Co., Ltd. Surround sound recording for mobile devices

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7039198B2 (en) * 2000-11-10 2006-05-02 Quindi Acoustic source localization system and method
DE60308342T2 (de) * 2003-06-17 2007-09-06 Sony Ericsson Mobile Communications Ab Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
US8897455B2 (en) 2010-02-18 2014-11-25 Qualcomm Incorporated Microphone array subset selection for robust noise reduction
US8855341B2 (en) * 2010-10-25 2014-10-07 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
US9055371B2 (en) * 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
JP5909678B2 (ja) * 2011-03-02 2016-04-27 パナソニックIpマネジメント株式会社 収音装置
US10154361B2 (en) * 2011-12-22 2018-12-11 Nokia Technologies Oy Spatial audio processing apparatus
US10107887B2 (en) 2012-04-13 2018-10-23 Qualcomm Incorporated Systems and methods for displaying a user interface
WO2013186593A1 (en) * 2012-06-14 2013-12-19 Nokia Corporation Audio capture apparatus
US9258644B2 (en) * 2012-07-27 2016-02-09 Nokia Technologies Oy Method and apparatus for microphone beamforming
CN103837858B (zh) * 2012-11-23 2016-12-21 中国科学院声学研究所 一种用于平面阵列的远场波达角估计方法及***
CN104019885A (zh) * 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析***
CN105230044A (zh) * 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
US9282399B2 (en) * 2014-02-26 2016-03-08 Qualcomm Incorporated Listen to people you recognize
WO2016179211A1 (en) * 2015-05-04 2016-11-10 Rensselaer Polytechnic Institute Coprime microphone array system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110317041A1 (en) * 2010-06-23 2011-12-29 Motorola, Inc. Electronic apparatus having microphones with controllable front-side gain and rear-side gain
WO2014167165A1 (en) * 2013-04-08 2014-10-16 Nokia Corporation Audio apparatus
US20150110275A1 (en) * 2013-10-23 2015-04-23 Nokia Corporation Multi-Channel Audio Capture in an Apparatus with Changeable Microphone Configurations
WO2016096021A1 (en) * 2014-12-18 2016-06-23 Huawei Technologies Co., Ltd. Surround sound recording for mobile devices

Also Published As

Publication number Publication date
GB2556093A (en) 2018-05-23
US10873814B2 (en) 2020-12-22
GB201619573D0 (en) 2017-01-04
JP7082126B2 (ja) 2022-06-07
WO2018091776A1 (en) 2018-05-24
CN110337819A (zh) 2019-10-15
CN110337819B (zh) 2021-12-10
US20200068309A1 (en) 2020-02-27
EP3542546A1 (en) 2019-09-25
EP3542546A4 (en) 2020-05-13

Similar Documents

Publication Publication Date Title
JP7082126B2 (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
US11671781B2 (en) Spatial audio signal format generation from a microphone array using adaptive capture
US10382849B2 (en) Spatial audio processing apparatus
US10785589B2 (en) Two stage audio focus for spatial audio processing
JP2020500480A5 (ja)
US11659349B2 (en) Audio distance estimation for spatial audio processing
US11284211B2 (en) Determination of targeted spatial audio parameters and associated spatial audio playback
CN109804559A (zh) 空间音频***中的增益控制
EP4032324A1 (en) Direction estimation enhancement for parametric spatial audio capture using broadband estimates
US20230362537A1 (en) Parametric Spatial Audio Rendering with Near-Field Effect

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190626

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201102

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20201102

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210616

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20210616

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210616

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210629

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210630

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20210903

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20210907

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220124

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20220315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220329

C302 Record of communication

Free format text: JAPANESE INTERMEDIATE CODE: C302

Effective date: 20220329

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20220413

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20220511

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20220511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220526

R150 Certificate of patent or registration of utility model

Ref document number: 7082126

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150