JP6687032B2 - 耳形状解析方法、頭部伝達関数生成方法、耳形状解析装置および頭部伝達関数生成装置 - Google Patents

耳形状解析方法、頭部伝達関数生成方法、耳形状解析装置および頭部伝達関数生成装置 Download PDF

Info

Publication number
JP6687032B2
JP6687032B2 JP2017539786A JP2017539786A JP6687032B2 JP 6687032 B2 JP6687032 B2 JP 6687032B2 JP 2017539786 A JP2017539786 A JP 2017539786A JP 2017539786 A JP2017539786 A JP 2017539786A JP 6687032 B2 JP6687032 B2 JP 6687032B2
Authority
JP
Japan
Prior art keywords
ear
shape
target
candidate
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017539786A
Other languages
English (en)
Other versions
JPWO2017047309A1 (ja
Inventor
昌賢 金子
昌賢 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of JPWO2017047309A1 publication Critical patent/JPWO2017047309A1/ja
Application granted granted Critical
Publication of JP6687032B2 publication Critical patent/JP6687032B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0077Devices for viewing the surface of the body, e.g. camera, magnifying lens
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/107Measuring physical dimensions, e.g. size of the entire body or parts thereof
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/107Measuring physical dimensions, e.g. size of the entire body or parts thereof
    • A61B5/1077Measuring of profiles
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/107Measuring physical dimensions, e.g. size of the entire body or parts thereof
    • A61B5/1079Measuring physical dimensions, e.g. size of the entire body or parts thereof using optical or photographic means
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/24Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/149Segmentation; Edge detection involving deformable models, e.g. active contour models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2503/00Evaluating a particular growth phase or type of persons or animals
    • A61B2503/12Healthy persons not otherwise provided for, e.g. subjects of a marketing survey
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2576/00Medical imaging apparatus involving image processing or analysis
    • A61B2576/02Medical imaging apparatus involving image processing or analysis specially adapted for a particular organ or body part
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Veterinary Medicine (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Dentistry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Architecture (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Generation (AREA)

Description

本発明は、頭部伝達関数の解析に利用される耳形状を解析する技術に関する。
音響を表す音響信号に頭部伝達関数を畳込んで再生(バイノーラル再生)することで、音像の位置を明瞭に認識可能な臨場感のある音場を受聴者に知覚させることが可能である。頭部伝達関数は、例えば、特定形状のダミーヘッドまたは受聴者本人の頭部における耳孔の位置で収録された音響から解析され得る。しかし、ダミーヘッドを利用した方法では、受聴者の頭部とダミーヘッドとで形状が相違する場合に受聴者が音像の位置を適切に知覚できないという問題があり、受聴者本人の頭部から頭部伝達関数を実測する方法では、測定時の受聴者の肉体的および精神的な負担が大きいという問題がある。
以上の事情を背景として、例えば非特許文献1には、複数の方向から撮影された受聴者の頭部の画像を利用して当該受聴者の頭部伝達関数を解析する技術が提案されている。具体的には、事前に用意された標準的な頭部形状を撮影画像の受聴者の頭部形状に近付けるモーフィングにより受聴者の頭部形状を推定し、推定結果から受聴者の頭部伝達関数が解析される。
Dellepiane Matteo, et al. "Reconstructing head models from photographs for individualized 3D audio processing," Computer Graphics Forum. Vol.27 NO.7, Blackwell Publishing Ltd., 2008.
しかし、非特許文献1の技術では、受聴者の頭部の画像から抽出される特徴点の移動(モーフィング)により受聴者の頭部形状を推定するから、特徴点の抽出等の画像処理が適切に実現されないと、現実にはあり得ない破綻した頭部形状が推定される(すなわち、画像処理が適切でない場合に耳形状を高精度に推定できない)という問題がある。以上の事情を考慮して、本発明は、頭部伝達関数の解析に利用される耳形状の誤推定の可能性を低減することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る耳形状解析方法は、コンピュータが、耳の立体形状を表す点群と基準耳の立体形状を表す点群との差分を示す耳形状データと、耳形状データの各主成分の重みを示す主成分重みベクトルとの関係を示す耳形状モデルに、主成分重みベクトルを付与することで耳形状データを生成し、画像データが表す目標耳画像に対応する目標耳の推定立体形状を、耳形状データ生成部が生成した耳形状データから特定する。以上の態様では、耳形状データと主成分重みベクトルとの関係を示す耳形状モデルに対する主成分重みベクトルの付与で生成される耳形状データから、目標耳の推定立体形状が特定される。したがって、特定の形状を変形(モーフィング)することで目標耳の立体形状を推定する構成と比較して、耳形状の誤推定の可能性を低減することが可能である。
本発明の好適な態様に係る耳形状解析装置は、耳の立体形状を表す点群と基準耳の立体形状を表す点群との差分を示す耳形状データと、耳形状データの各主成分の重みを示す主成分重みベクトルとの関係を示す耳形状モデルに、主成分重みベクトルを付与することで耳形状データを生成する耳形状データ生成部と、画像データが表す目標耳画像に対応する目標耳の推定立体形状を、耳形状データ生成部が生成した耳形状データから特定する耳形状特定部とを具備する。以上の態様では、耳形状データと主成分重みベクトルとの関係を示す耳形状モデルに対する主成分重みベクトルの付与で生成される耳形状データから目標耳の推定立体形状が特定される。したがって、特定の形状を変形することで目標耳の立体形状を推定する構成と比較して、耳形状の誤推定の可能性を低減することが可能である。
本発明の好適な態様に係る耳形状モデル生成方法は、画像データが表す目標耳画像と比較される候補耳画像の生成に利用される耳形状モデルを生成する方法であって、コンピュータが、標本耳の立体形状を表現する点群と基準耳の立体形状を表現する点群との差分を表す耳形状データを複数の標本耳の各々について生成し、各主成分の重みを表す主成分重みベクトルに耳形状データを変換するための変換行列を、生成した複数の耳形状データに対する主成分分析で算定し、変換行列またはその逆行列を含む耳形状モデルを生成する。以上の態様では、目標耳の立体形状の推定に利用される耳形状モデルに複数の標本耳の立体形状の統計的な傾向が反映される。したがって、目標耳の立体形状を高精度に推定できるという利点がある。
本発明の第1実施形態に係る音響処理装置の構成図である。 耳形状モデル生成部の構成図である。 標本耳解析処理のフローチャートである。 標本耳解析処理の説明図である。 統計処理のフローチャートである。 耳形状モデル生成処理のフローチャートである。 耳形状解析部の構成図である。 耳形状データ生成部の動作の説明図である。 画像生成処理のフローチャートである。 関数算定処理のフローチャートである。 頭部伝達関数の算定に利用される目標形状の説明図である。 耳形状解析処理のフローチャートである。 音響処理部の構成図である。 第2実施形態の耳形状データ生成部の動作のフローチャートである。 第2実施形態の耳形状データ生成部の動作の説明図である。 第4実施形態における音響処理システムの構成図である。 第5実施形態における耳形状解析部の構成図である。 第5実施形態で使用されるニューラルネットワークの説明図である。 第5実施形態における耳形状解析処理のフローチャートである。 第5実施形態における耳形状モデル生成部の構成図である。 変形例における音響処理部の構成図である。 変形例における音響処理部の構成図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100の構成を例示する構成図である。図1に例示される通り、第1実施形態の音響処理装置100には信号供給装置12と放音装置14とが接続される。信号供給装置12は、音声および楽音等の音響を表す音響信号XAを音響処理装置100に供給する。具体的には、周囲の音響を収音して音響信号XAを生成する収音装置、または、可搬型もしくは内蔵型の記録媒体から音響信号XAを取得して音響処理装置100に供給する再生装置が信号供給装置12として採用され得る。
音響処理装置100は、信号供給装置12から供給される音響信号XAに対する音響処理で音響信号XBを生成する信号処理装置である。音響信号XBは、左右2チャネルのステレオ信号である。具体的には、音響処理装置100は、特定の利用者(以下「対象者」という)の頭部伝達関数(HRTF:Head Related Transfer Function)Fを音響信号XAに畳込むことで音響信号XBを生成する。放音装置14(例えばヘッドホンまたはイヤホン)は、受聴者の両耳に装着される音響機器であり、音響処理装置100が生成した音響信号XBに応じた音響を放音する。放音装置14からの再生音を受聴した利用者は、音響成分の音源の位置を明確に知覚することが可能である。なお、音響処理装置100が生成した音響信号XBをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。また、信号供給装置12および放音装置14の一方または双方を音響処理装置100に搭載することも可能である。
図1に例示される通り、音響処理装置100は、制御装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、制御装置22が実行するプログラムと制御装置22が使用する各種のデータとを記憶する。半導体記録媒体および磁気記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せが記憶装置24として任意に採用され得る。音響信号XAを記憶装置24に記憶した構成(したがって信号供給装置12は省略され得る)も好適である。
制御装置22は、CPU(Central Processing Unit)等の演算装置であり、記憶装置24に記憶されたプログラムを実行することで複数の機能(耳形状モデル生成部30,耳形状解析部40および音響処理部50)を実現する。なお、制御装置22の機能を複数の装置に分散した構成、または、専用の電子回路が制御装置22の一部の機能を分担する構成も採用され得る。
耳形状モデル生成部30は、標本(サンプル)として事前に用意された多数の耳(以下「標本耳」という)の形状の統計的な傾向が反映された統計モデル(以下「耳形状モデル」という)Eを生成する。第1実施形態では、右耳を標本耳として耳形状モデルEを生成する場合を想定する。耳形状解析部40は、耳形状モデル生成部30が生成した耳形状モデルEを利用して対象者自身の耳(以下「目標耳」という)の形状を推定することで、特定の方向から対象者の各耳孔までの頭部伝達関数Fを生成する。音響処理部50は、耳形状解析部40が生成した頭部伝達関数Fを音響信号XAに畳込むことで音響信号XBを生成する。制御装置22が実現する各要素の詳細を以下に説明する。
<耳形状モデル生成部30>
図2は、耳形状モデル生成部30の構成を例示する構成図である。図2に例示される通り、第1実施形態の記憶装置24は、N個(Nは2以上の自然数)の標本耳の各々と事前に用意された1個の耳(以下「基準耳」という)とについて立体形状データD0を記憶する。例えば事前に不特定多数の人間について立体形状が測定された多数の耳(例えば右耳)のうち特定の1個を基準耳として選択するとともに残余を標本耳として選択したうえで各々について立体形状データD0が生成される。各立体形状データD0は、標本耳および基準耳の各々の立体形状を表現するデータである。具体的には、例えば耳形状を多角形の集合体で表現したポリゴンメッシュデータが立体形状データD0として好適に利用される。図2に例示される通り、第1実施形態の耳形状モデル生成部30は、点群特定部32と標本耳解析部34と統計処理部36とを具備する。
点群特定部32は、各標本耳および基準耳の立体形状を表現する複数点の集合(以下「点群」という)を特定する。第1実施形態の点群特定部32は、N個の標本耳の各々の立体形状データD0から当該標本耳の点群PS(n)(n=1〜N)を特定するとともに、基準耳の立体形状データD0から基準耳の点群PRを特定する。具体的には、点群特定部32は、N個のうち第n番目の標本耳の立体形状データD0で指定されるポリゴンの各頂点の集合を点群PS(n)として特定するとともに、基準耳の立体形状データD0で指定されるポリゴンの各頂点の集合を点群PRとして特定する。
標本耳解析部34は、点群特定部32が特定した標本耳の点群PS(n)と基準耳の点群PRとの差分を表す耳形状データv(n)(v(1)〜v(N))をN個の標本耳の各々について生成する。図3は、標本耳解析部34が任意の1個の標本耳の耳形状データv(n)を生成する処理(以下「標本耳解析処理」という)SA2のフローチャートである。図3の標本耳解析処理SA2がN個の標本耳の各々について実行されることでN個の耳形状データv(1)〜v(N)が生成される。
標本耳解析処理SA2を開始すると、標本耳解析部34は、処理対象の1個の標本耳の点群PS(n)と基準耳の点群PRとの間で立体空間内における位置合わせ(対応付け)を実行する(SA21)。具体的には、標本耳解析部34は、図4に例示される通り、基準耳の点群PRに含まれる複数の点pR(pR1,pR2,……)の各々について、当該点pRに対応する点群PS(n)内の1個の点pS(pS1,pS2,……)を特定する。点群PS(n)と点群PRとの位置合わせには公知の方法が任意に採用され得るが、例えばChui,Halil, and Anand Rangarajan, "A new point matching algorithm for non-rigid registration," Computer Vision and Image Understanding 89.2 (2003); 114-141、または、Jian, Bing, and Baba C. Vemuri, "Robust point set registration using Gaussian mixture models," Pattern Analysis and Machine Intelligence, IEEE Transaction on 33.8(2011);1633-1645に開示された方法が好適である。
標本耳解析部34は、図4に例示される通り、基準耳の点群PRを構成するmA個(mAは2以上の自然数)の点pRの各々について、標本耳の点群PS(n)のうち当該点pRに対応する点pSとの差分を表現するベクトル(以下「変換ベクトル」という)φを生成する(SA22)。任意の1個の変換ベクトルφは、立体空間内に設定された各軸の座標値を要素とする3次元ベクトルである。具体的には、点群PR内の1個の点pRの変換ベクトルφは、当該点pRを起点として点群PS(n)内の1個の点pSの立体空間内での位置を表現する。すなわち、点群PR内の1個の点pRに当該点pRの変換ベクトルφを付加することで、当該点pRに対応する点群PS(n)内の1個の点pSが再現される。したがって、基準耳の点群PR内の1個の点pRに対応する変換ベクトルφは、当該点pRに対応する他点(点群PS(n)の1個の点pS)に当該点pRを移動ないし変換するためのベクトル(ワーピングベクトル)と表現され得る。
標本耳解析部34は、以上の手順で生成したmA個の変換ベクトルφを含む標本耳の耳形状データv(n)を生成する(SA23)。具体的には、耳形状データv(n)は、変換ベクトルφの3個の要素をmA個の変換ベクトルφについて配列したM次元(M=mA×3)のベクトルである。以上の説明から理解される通り、任意の1個の標本耳の立体形状を表す点群PS(n)と基準耳の立体形状を表す点群PRとの差分を表す耳形状データv(n)がN個の標本耳の各々について生成される。
図2の統計処理部36は、以上に例示した標本耳解析処理SA2で標本耳解析部34が生成したN個の耳形状データv(1)〜v(N)に対する主成分分析で変換行列Wを算定する。変換行列Wは、以下の数式(1)で表現される通り、耳形状データv(n)を主成分重みベクトルw(n)に変換するためのM行M列の正方行列である。主成分重みベクトルw(n)は、M個の主成分の各々の重みを要素とするM次元ベクトルである。また、数式(1)の記号μは、N個の耳形状データv(1)〜v(N)の平均ベクトルを意味する。第1実施形態の統計処理部36は、変換行列Wと平均ベクトルμとを含む耳形状モデルEを生成する。
Figure 0006687032
図5は、第1実施形態の統計処理部36がN個の耳形状データv(1)〜v(N)に対する主成分分析で変換行列Wを算定する処理(以下「統計処理」という)SA3のフローチャートである。標本耳解析部34によるN個の耳形状データv(1)〜v(N)の生成を契機として図5の統計処理SA3が開始される。
統計処理部36は、標本耳解析部34が生成したN個の耳形状データv(1)〜v(N)を横方向に配列したM行N列の行列(以下「耳形状行列」という)Vの共分散行列Cを以下の数式(2)の演算で算定する(SA31)。なお、数式(2)の記号Tは行列の転置を意味する。
Figure 0006687032
統計処理部36は、以下の数式(3)で表現される固有値分解を耳形状行列Vの共分散行列Cに対して実行することで行列Lおよび行列Uを算定する(SA32)。
Figure 0006687032
統計処理部36は、数式(3)の演算で算定した行列Lおよび行列Uを利用した以下の数式(4)の演算により変換行列Wを算定する(SA33)。
Figure 0006687032
また、統計処理部36は、N個の耳形状データv(1)〜v(N)の平均ベクトルμを算定する(SA34)。統計処理部36がN個の耳形状データv(1)〜v(N)(耳形状行列V)に対する主成分分析で変換行列Wを算定する統計処理SA3の具体例は以上の通りである。
図6は、以上に説明した第1実施形態の耳形状モデル生成部30が耳形状モデルEを生成する処理(以下「耳形状モデル生成処理」という)SAのフローチャートである。例えば耳形状モデルEの生成が利用者から指示された場合に図6の耳形状モデル生成処理SAが実行される。
耳形状モデル生成処理SAを開始すると、点群特定部32は、N個の標本耳の各々の点群PS(n)(PS(1)〜PS(N))と基準耳の点群PRとを立体形状データD0から特定する(SA1)。標本耳解析部34は、図3の標本耳解析処理SA2(SA21〜SA23)により、点群特定部32が特定した標本耳の点群PS(n)と基準耳の点群PRとから、相異なる標本耳に対応するN個の耳形状データv(1)〜v(N)を生成する。そして、統計処理部36は、標本耳解析部34が生成したN個の耳形状データv(1)〜v(N)の主成分分析(SA31〜SA33)を含む図5の統計処理SA3により、変換行列Wと平均ベクトルμとを含む耳形状モデルEを生成する。統計処理SA3で生成された耳形状モデルEは記憶装置24に格納される(SA4)。以上に例示した耳形状モデル生成処理SAの結果、N個の標本耳の形状の統計的な傾向を反映した耳形状モデルEが生成される。数式(1)から理解される通り、耳形状モデルEは、耳形状データv(n)と主成分重みベクトルw(n)との関係を示す統計モデルである。
<耳形状解析部40>
図1の耳形状解析部40は、耳形状モデル生成部30が生成した耳形状モデルEを利用して対象者の目標耳の立体形状を推定し、特定の方向から対象者の各耳孔までの頭部伝達関数Fを立体形状の推定結果から生成する。図7は、耳形状解析部40の構成を例示する構成図である。図7に例示される通り、第1実施形態の記憶装置24は、対象者の目標耳の外観を表す画像データDGを記憶する。具体的には、対象者(または対象者の近傍の補助者)は、携帯電話機およびスマートフォン等の情報端末に搭載された撮影装置、または、デジタルスチルカメラ等の専用の撮影装置を利用して所定の撮影条件(例えば撮影の方向または画角)のもとで目標耳を撮影する。また、撮影倍率の指標(例えば所定の寸法のシール)が付加された状態で目標耳は撮影される。以上の方法で撮影された対象者の目標耳の画像(以下「目標耳画像」という)GUを表す画像データDGが記憶装置24に記憶される。図7に例示される通り、第1実施形態の耳形状解析部40は、耳形状データ生成部42と耳形状特定部44と関数算定部48とを具備する。
耳形状データ生成部42は、目標耳の候補となる耳(以下「候補耳」という)の耳形状データv(k)(v(1)〜v(K))を相異なるK個の候補耳の各々について生成する(Kは2以上の自然数)。図8に例示される通り、任意の1個の候補耳の耳形状データv(k)は、前述の標本耳の耳形状データv(n)と同様に、当該候補耳の立体形状を表す点群PC(k)と基準耳の点群PRとの差分を表現する。具体的には、候補耳の耳形状データv(k)は、基準耳の点群PR内の点pR(pR1,pR2,……)と候補耳の点群PC(k)の点pC(pC1,pC2,……)との差分に相当する変換ベクトルφを、基準耳の点群PRを構成するmA個の点pRについて配列したM次元のベクトルである。
第1実施形態の耳形状データ生成部42は、耳形状モデル生成部30が生成した耳形状モデルE(変換行列W,平均ベクトルμ)と、相異なるK個の主成分重みベクトルw(1)〜w(K)とを用いて、K個の候補耳の耳形状データv(1)〜v(K)を生成する。主成分重みベクトルw(k)は、前掲の数式(1)の主成分重みベクトルw(n)と同様に、M個の主成分の各々の重みを要素とするM次元ベクトルである。候補耳の主成分重みベクトルw(k)の各要素は、例えば所定の範囲内の乱数に設定される。なお、主成分重みベクトルw(k)の設定の方法は以上の例示(乱数)に限定されない。例えば、所定の範囲内に等間隔に分布する数値を主成分重みベクトルw(k)として採用することも可能である。
具体的には、耳形状データ生成部42は、前掲の数式(1)を変形した以下の数式(5)の演算(数式(1)の逆操作)で候補耳の耳形状データv(k)を算定する。すなわち、耳形状データ生成部42は、任意の1個の主成分重みベクトルw(k)に変換行列Wの逆行列W-1を乗算して平均ベクトルμを加算することで候補耳の耳形状データv(k)を算定する。以上の説明から理解される通り、数式(5)は、数式(1)と同様に、耳形状データv(n)と主成分重みベクトルw(n)との関係を示す耳形状モデルEである。すなわち、数式(1)は、耳形状データv(n)から主成分重みベクトルw(n)を生成するための耳形状モデルEであり、数式(5)は、主成分重みベクトルw(n)から耳形状データv(n)を生成するための耳形状モデルEである。
Figure 0006687032
図7の耳形状特定部44は、画像データDGが表す目標耳画像GUに対応する目標耳の立体形状(以下「推定立体形状」という)ZAを、耳形状データ生成部42が生成した耳形状データv(k)から特定する。図7に例示される通り、第1実施形態の耳形状特定部44は、画像生成部441と画像探索部442とを具備する。
図7の画像生成部441は、耳形状データ生成部42が生成した候補耳の耳形状データv(k)と基準耳の点群PRとに基づいて、候補耳を表す候補耳画像GC(k)(GC(1)〜GC(K))をK個の候補耳の各々について生成する。図9は、画像生成部441が任意の1個の候補耳について候補耳画像GC(k)を生成する処理(以下「画像生成処理」という)SB2のフローチャートである。図9の画像生成処理SB2がK個の候補耳の各々について実行されることでK個の候補耳画像GC(1)〜GC(K)が生成される。
図8を参照して説明した通り、任意の1個の候補耳の耳形状データv(k)は、基準耳の点群PRの各点pRに対応するmA個の変換ベクトルφを包含する。画像生成処理SB2を開始すると、画像生成部441は、基準耳の立体形状データD0で規定されるmA個の点pRの各々の座標に、耳形状データv(k)のうち当該点pRに対応する変換ベクトルφを加算することで、候補耳の立体形状を表す立体形状データDC(k)を生成する(SB21)。
画像生成部441は、候補耳の立体形状データDC(k)のレンダリングで当該候補耳の候補耳画像GC(k)を生成する(SB22)。具体的には、候補耳画像GC(k)は、立体形状データDC(k)で立体空間内に規定される候補耳を、画像データDGが表す目標耳画像GUにおける目標耳の撮影条件に近似する条件(方向および画角)の視点で観察したときの画像である。以上に例示した画像生成処理SB2がK個の候補耳の各々について実行されることで、相異なる主成分重みベクトルw(k)に対応する(すなわち相異なる形状の候補耳に対応する)K個の候補耳画像GC(1)〜GC(K)が生成される。
図7の画像探索部442は、画像データDGが表す目標耳の目標耳画像GUを、画像生成部441が生成したK個の候補耳画像GC(1)〜GC(K)の各々と比較する。そして、画像探索部442は、K個の候補耳画像GC(1)〜GC(K)のうち、目標耳画像GUとの差異ε(k)が最小となる候補耳画像GC(k)の候補耳に対応する耳形状を目標耳の推定立体形状ZAとして特定する。具体的には、第1実施形態の画像探索部442は、目標耳画像GUとの差異ε(k)が最小となる候補耳を例えばベイズ的最適化(Bayesian Optimization)等の公知の最適化技術により探索し、画像生成部441が当該候補耳について画像生成処理SB2(ステップSB21)で生成した立体形状データDC(k)を、目標耳の推定立体形状ZAを表す立体形状データDZとして特定する。
なお、目標耳画像GUと候補耳画像GC(k)との比較では、目標耳画像GUに含まれる撮影倍率の指標が所定のサイズとなるように目標耳画像GUを拡大または縮小することで、目標耳画像GUの目標耳と候補耳画像GC(k)の候補耳とが同等のサイズに調整される。目標耳画像GUと候補耳画像GC(k)との比較には公知の画像比較技術が任意に利用され得る。なお、目標耳画像GUのうち目標耳が存在する領域を抽出するとともに候補耳画像GC(k)のうち候補耳が存在する領域を抽出して両者を比較する処理が好適である。
図7の関数算定部48は、画像探索部442が特定した目標耳の推定立体形状ZAに対応する対象者の頭部伝達関数Fを算定する。なお、頭部伝達関数Fを時間領域の頭部インパルス応答(HRIR:Head-Related Impulse Response)として表現することも可能である。図10は、関数算定部48が頭部伝達関数Fを算定する処理(以下「関数算定処理」という)SB4のフローチャートである。画像探索部442による目標耳の推定立体形状ZAの特定を契機として関数算定処理SB4が実行される。
関数算定処理SB4を開始すると、関数算定部48は、図11に例示される通り、画像探索部442が特定した目標耳(右耳)の推定立体形状ZAから対象者の左耳の推定立体形状ZBを特定する(SB41)。具体的には、関数算定部48は、目標耳の立体形状データDZで表現される推定立体形状ZAに対して対称関係にある耳形状を左耳の推定立体形状ZBとして特定する。そして、関数算定部48は、図11に例示される通り、頭部形状ZHに推定立体形状ZAと推定立体形状ZBとを連結することで、頭部と両耳とを含む頭部全体の形状(以下「目標形状」という)Zを特定する(SB42)。頭部形状ZHは、例えば、特定のダミーヘッドの形状または不特定多数の人間の頭部の平均的な形状である。
関数算定部48は、目標形状Zに対する音響解析で頭部伝達関数Fを算定する(SB43)。具体的には、第1実施形態の関数算定部48は、目標形状Zに対する音響の到来方向(方位角,仰角)を相違させた複数の頭部伝達関数を右耳および左耳の各々について算定する。頭部伝達関数Fの算定には境界要素法および有限要素法等の公知の解析技術が利用され得る。例えば、Katz, Brian FG. "Boundary element method calculation of individual head-related transfer function. I. Rigid model calculation." The Journal of the Acoustical Society of America 110.5 (2001): 2440-2448.等に開示された技術を利用して、目標形状Zに対応する頭部伝達関数Fを算定することが可能である。
図12は、第1実施形態の耳形状解析部40が頭部伝達関数Fを生成する処理(以下「耳形状解析処理」という)SBのフローチャートである。例えば耳形状モデル生成部30による耳形状モデルEの生成後に頭部伝達関数Fの生成が利用者から指示された場合に図12の耳形状解析処理SBが実行される。
耳形状解析処理SBを開始すると、耳形状データ生成部42は、相異なるK個の主成分重みベクトルw(1)〜w(K)と耳形状モデルEとを用いてK個の候補耳の耳形状データv(1)〜v(K)を生成する(SB1)。画像生成部441は、耳形状データ生成部42が生成した候補耳の耳形状データv(k)と基準耳の点群PRとを用いて、候補耳を表す候補耳画像GC(k)(GC(1)〜GC(K))の立体形状データDC(k)をK個の候補耳の各々について生成する(SB2)。そして、画像探索部442は、画像データDGが表す目標耳画像GUとの差異ε(k)が最小となる候補耳画像GC(k)の耳形状を目標耳の推定立体形状ZAとして特定する(SB3)。また、関数算定部48は、図10に例示した関数算定処理SB4(SB41〜SB43)により、画像探索部442が特定した推定立体形状ZAを含む頭部全体の目標形状Zの頭部伝達関数Fを算定する。以上に例示した耳形状解析処理SBの結果、対象者に固有の耳形状を反映した頭部伝達関数Fが生成されて記憶装置24に格納される。
<音響処理部50>
図1の音響処理部50は、耳形状解析部40が生成した頭部伝達関数Fを音響信号XAに畳込むことで音響信号XBを生成する。図13は、音響処理部50の構成を例示する構成図である。図13に例示される通り、第1実施形態の音響処理部50は、音場制御部52と畳込演算部54Rと畳込演算部54Lとを具備する。
利用者は、仮想的な音響空間内の音源位置および受聴位置を含む音場条件を音響処理装置100に対して指示することが可能である。音場制御部52は、音響空間内における受聴位置に対する音響の到来方向を音源位置と受聴位置との関係から算定し、耳形状解析部40が算定した複数の頭部伝達関数Fのうち当該到来方向に対応する右耳および左耳の頭部伝達関数Fを記憶装置24から選択する。畳込演算部54Rは、音場制御部52が選択した右耳の頭部伝達関数Fを音響信号XAに畳込むことで右チャネルの音響信号XB_Rを生成する。畳込演算部54Lは、音場制御部52が選択した左耳の頭部伝達関数Fを音響信号XAに畳込むことで左チャネルの音響信号XB_Lを生成する。なお、時間領域での頭部伝達関数F(頭部インパルス応答)の畳込みは周波数領域での乗算に置換され得る。
以上に説明した通り、第1実施形態では、K個の主成分重みベクトルw(1)〜w(K)の各々を耳形状モデルEに付与することでK個の候補耳の耳形状データv(1)〜v(K)が生成され、基準耳の点群PRと各候補耳の耳形状データv(k)とに応じてK個の候補耳画像GC(1)〜GC(K)が生成される。そして、K個の候補耳画像GC(1)〜GC(K)のうち、画像データDGが表す目標耳画像GUに類似する候補耳画像GC(k)が探索される。ここで探索された候補耳画像GC(k)が表す候補耳の形状が、目標耳の推定立体形状ZAとして特定される。したがって、特定の形状を変形(モーフィング)することで目標耳の形状を推定する構成と比較して、耳形状の誤推定の可能性を低減することが可能である。また、第1実施形態では、画像探索部442が特定した推定立体形状ZAに対応する頭部伝達関数Fが算定されるから、対象者が音像の適切な位置を知覚可能な頭部伝達関数Fを特定できるという利点がある。
第1実施形態では、目標耳画像GUの撮影条件に近似する条件の視点で観察された候補耳の候補耳画像GC(k)が生成される。したがって、目標耳画像GUの撮影条件と候補耳画像GC(k)の観察条件とが乖離する場合と比較して、目標耳に形状が近似する候補耳を適切に選択できるという利点がある。
第1実施形態では、目標耳の形状推定に利用される耳形状モデルEに複数の標本耳の立体形状の統計的な傾向が反映されるから、目標耳の立体形状(推定立体形状ZA)を高精度に推定できるという利点がある。しかも、第1実施形態では、変換行列Wに加えて平均ベクトルμを含む耳形状モデルEが生成されるから、耳形状モデルEを利用して候補耳画像GC(k)を適切に生成することが可能である。また、標本耳および基準耳の立体形状を表す立体形状データD0から各々の点群(PR,PS(n))が特定されるから、例えばポリゴンメッシュデータ等の既存の立体形状データD0を利用して耳形状モデルEを生成できるという利点もある。
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態の標本耳解析処理SA2(SA22)では、基準耳の点群PRを構成する全部の点pRの各々について標本耳の各点pSとの間で変換ベクトルφを算定した。第2実施形態では、基準耳の点群PRの一部(以下「第1群」という)を構成するmA個の点pRの各々について標本耳の各点pSとの間で変換ベクトルφが算定される。すなわち、第1実施形態では基準耳の点群PRを構成する点pRの総数をmA個と表記したが、第2実施形態の個数mAは、基準耳の点群PRのうち第1群の点pRの個数を意味する。以上の説明から理解される通り、第2実施形態の標本耳の耳形状データv(n)は、基準耳の点群PRのうち第1群の各点pRに対応するmA個の変換ベクトルφを包含する。
図14は、第2実施形態の耳形状データ生成部42の動作のフローチャートであり、図15は、耳形状データ生成部42の動作の説明図である。図12に例示した耳形状解析処理SBのステップSB1で図14の処理が実行される。
耳形状データ生成部42は、第1実施形態と同様に、候補耳の主成分重みベクトルw(k)を耳形状モデルEに付与することで当該候補耳の耳形状データv(k)を生成する(SB11)。第2実施形態では、前述の通り、基準耳の点群PRのうち第1群の各点pRに対応するmA個の変換ベクトルφを含む標本耳の耳形状データv(n)を利用した耳形状モデル生成処理SAで耳形状モデルE(変換行列W,平均ベクトルμ)が生成される。したがって、主成分重みベクトルw(k)を耳形状モデルEに付与することで生成される候補耳の耳形状データv(k)は、図15に例示される通り、基準耳の点群PRのうち第1群の各点pRに対応するmA個の変換ベクトルφで構成される。すなわち、基準耳の点群PRのうち第1群以外の部分集合(以下「第2群」という)の各点pRの変換ベクトルφは、耳形状モデルEに対する主成分重みベクトルw(k)の付与では生成されず、候補耳の耳形状データv(k)には包含されない。
そこで、第2実施形態の耳形状データ生成部42は、基準耳の点群PRのうち第2群の各点pRに対応するmB個の変換ベクトルφを、候補耳の耳形状データv(k)に含まれるmA個の変換ベクトルφを利用した補間(具体的には内挿)により生成する(SB12)。具体的には、基準耳の点群PRのうち第2群の任意の1個の点(以下「特定点」という)pRの変換ベクトルφは、以下の数式(6)で表現される通り、第1群のmA個の点pRのうち当該特定点pRの近傍に位置するQ個(Qは2以上の自然数)の点pR(1)〜pR(Q)の各々の変換ベクトルφ(q)(q=1〜Q)の加重和により算定される。
Figure 0006687032
数式(6)の記号eは自然対数の底であり、記号αは所定の定数(正数)である。また、記号d(q)は、第1群の1個の点pR(q)と特定点pRとの距離(例えばユークリッド距離)を意味する。数式(6)から理解される通り、特定点pRと点pR(q)との距離d(q)に応じた加重値を使用したQ個の変換ベクトルφ(1)〜φ(Q)の加重和が、特定点pRの変換ベクトルφとして算定される。耳形状データ生成部42による以上の処理により、基準耳の全部((mA+mB)個)の点pRについて変換ベクトルφが算定される。なお、第1群のうち特定点pRの変換ベクトルφの算定に加味される点pR(q)の個数Qは、典型的には第1群の点pRの個数mAを下回る数値に設定される。ただし、点pR(q)の個数Qを個数mAと同等の数値に設定する(すなわち、第1群に属する全部の点pRの変換ベクトルφの補間で特定点pRの変換ベクトルφを算定する)ことも可能である。
耳形状データ生成部42が生成した変換ベクトルφを利用して画像生成部441が候補耳画像GC(k)を生成する処理は第1実施形態と同様である。図9の画像生成処理SB2のステップSB21では、耳形状データ生成部42は、基準耳の点群PRのうち第1群のmA個の各点pRの座標を候補耳の耳形状データv(k)のmA個の変換ベクトルφの各々により変換する。また、耳形状データ生成部42は、基準耳の点群PRのうち第2群のmB個の各点pRの座標を、数式(6)による補間後のmB個の変換ベクトルφの各々により変換する(具体的には補間後の変換ベクトルφを各点pRの座標に加算する)ことで、候補耳の立体形状データDC(k)を生成する。以降の動作は第1実施形態と同様である。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、基準耳の点群PRのうち第2群の各点pRに対応する変換ベクトルφが、候補耳の耳形状データv(k)に含まれるQ個の変換ベクトルφ(1)〜φ(Q)の補間(内挿)により生成される。したがって、基準耳の点群PRの全部の点pRにわたり耳形状モデルEを利用して変換ベクトルφを生成する必要はない。以上の構成によれば、主成分重みベクトルw(k)を耳形状モデルEに付与することで耳形状データ生成部42が候補耳の耳形状データv(k)を生成する処理、または、耳形状モデル生成部30が耳形状モデルEを生成する処理の負荷が軽減されるという利点がある。
<第3実施形態>
第1実施形態では、統計処理部36がM行M列の変換行列Wを生成した。第3実施形態の統計処理部36は、N個の耳形状データv(1)〜v(N)に対する主成分分析で生成されるM行M列の変換行列Wのうち後段側の所定行(すなわち小さい固有値に対応する所定行)を除去し、除去後のM'行M列(M'<M)の変換行列W'を含む耳形状モデルEを生成する。具体的には、統計処理部36は、主成分分析で生成したM行M列の行列のうち第(M'+1)行から第M行までの(M−M')行を削除することでM'行M列の変換行列W'を生成する。第1行から第M'行までの各要素は変換行列Wと変換行列W'とで共通する。
他方、第3実施形態の耳形状データ生成部42は、耳形状モデルEの変換行列W'を利用してK個の候補耳の耳形状データv(1)〜v(K)を生成する。具体的には、耳形状データ生成部42は、所定値(例えばゼロ)を要素とする(M−M')行を変換行列W'に付加することでM行M列の変換行列Wを生成し、付加後の変換行列Wを利用した数式(5)の演算で候補耳の耳形状データv(k)を生成する。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、標本耳のN個の耳形状データv(1)〜v(N)に対する主成分分析で生成されるM行M列の変換行列Wから後段側の所定行を除去した変換行列W'が耳形状モデルEとして生成される。したがって、耳形状モデルEのデータ量を削減することが可能である。なお、第3実施形態において第2実施形態の構成を採用することも可能である。
<第4実施形態>
図16は、第4実施形態における音響処理システム200の構成を例示する構成図である。図16に例示される通り、第4実施形態の音響処理システム200は、端末装置62と解析処理装置64とを具備するコンピュータシステムである。端末装置62は、携帯電話機,スマートフォン,タブレット端末およびパーソナルコンピュータ等の情報処理装置であり、解析処理装置64は、例えばウェブサーバ等のサーバ装置である。なお、実際には複数の端末装置62が音響処理システム200に包含されるが、以下の説明では任意の1個の端末装置62に便宜的に着目する。
端末装置62は、音響処理部50と放音装置14と通信装置72(通信部)とを具備する。第1実施形態と同様に、音響処理部50は、音響信号XAに対する頭部伝達関数Fの畳込みで音響信号XBを生成し、放音装置14は、音響処理部50が生成した音響信号XBに応じた音響を放音する。通信装置72は、移動体通信網およびインターネット等を含む通信網16を介して解析処理装置64と通信する。例えば、通信装置72は、頭部伝達関数Fの配信要求Yを解析処理装置64に送信する。配信要求Yは、端末装置62の利用者(対象者)の目標耳を撮影した目標耳画像GUの画像データDGを包含する。例えば、端末装置62の撮影機能で撮影された目標耳画像GUまたは撮影装置(例えばデジタルカメラ)から端末装置62に転送された目標耳画像GUの画像データDGが端末装置62から解析処理装置64に送信される。また、配信要求Yは、音響空間内における音源位置および受聴位置を指定する音場条件を包含する。
解析処理装置64は、図16に例示される通り、耳形状モデル生成部30と耳形状解析部40と記憶装置24と通信装置74とを具備する。通信装置74は、通信網16を介して端末装置62と通信する。例えば通信装置74は、端末装置62から送信された配信要求Yを受信する。記憶装置24は、第1実施形態と同様の複数の立体形状データD0を記憶する。
耳形状モデル生成部30は、第1実施形態と同様に、複数の立体形状データD0を利用した耳形状モデル生成処理SA(図6)により耳形状モデルEを生成する。耳形状解析部40は、耳形状モデル生成部30が生成した耳形状モデルEと通信装置74が端末装置62から受信した画像データDGとを利用した耳形状解析処理SB(図12)により、配信要求Yで指定された音場条件に対応する頭部伝達関数Fを生成する。通信装置74は、耳形状解析部40が生成した頭部伝達関数Fを要求元の端末装置62に送信する。具体的には、配信要求Yで指定される音場条件に対応する右耳および左耳の頭部伝達関数Fが解析処理装置64から端末装置62に送信される。
端末装置62の通信装置72は、解析処理装置64から送信された頭部伝達関数Fを受信する。音響処理装置100は、通信装置72が受信した頭部伝達関数Fを音響信号XAに畳込むことで音響信号XBを生成する。したがって、端末装置62の利用者(対象者)は、放音装置14から再生される音響の音像の適切な位置を知覚可能である。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、端末装置62から受信した画像データDGから目標耳の推定立体形状ZAが特定され、当該推定立体形状ZAを含む目標形状Zに対応する頭部伝達関数Fが算定されて端末装置62に配信される。したがって、耳形状モデル生成処理SAまたは耳形状解析処理SB(目標耳の推定立体形状ZAの特定または当該推定立体形状ZAに対する頭部伝達関数Fの算定)を個々の端末装置62で実行する必要がないという利点がある。なお、第4実施形態において第2実施形態または第3実施形態の構成を採用することも可能である。
<第5実施形態>
図17は、第5実施形態における耳形状解析部40の構成を例示する構成図である。第5実施形態の耳形状解析部40は、推定処理部46と耳形状データ生成部42と耳形状特定部44と関数算定部48とを具備する。第1実施形態と同様に、目標耳画像GUを表す画像データDGと、耳形状モデルE(変換行列Wおよび平均ベクトルμ)と、基準耳の立体形状データD0とが記憶装置24に記憶される。第1実施形態の画像データDGは、相異なる角度から共通の目標耳を撮影した複数の目標耳画像GUを表す。
推定処理部46は、画像データDGが表す目標耳画像GUをニューラルネットワークνに付与することで目標耳の主成分重みベクトルwを生成する。ニューラルネットワークνは、耳画像と主成分重みベクトルwとの関係を示す数理モデルであり、標本耳の耳画像と当該標本耳の主成分重みベクトルとを含む多数の学習データを利用した機械学習で生成される。
図18は、推定処理部46が使用するニューラルネットワークνの説明図である。相異なる角度から耳を撮影した複数の耳画像Gに対する演算処理C1で複数の特徴マップλ1が生成される。演算処理C1は以下の数式(7a)で表現される。数式(7a)の記号Conv(G,K1)は、畳込カーネルK1を耳画像Gに畳込んだ結果を複数の耳画像Gにわたり加算する演算を意味する。記号b1は補正項(バイアス)を意味するベクトルであり、記号tanhは双曲線正接関数である。数式(7a)の記号Poolは、演算対象を区分した各矩形領域内の複数の画素値の最大値を選択することで演算対象を縮小する最大値プーリング関数である。相異なる畳込カーネルK1を利用した数式(7a)の演算処理C1により複数(図18の例示では3個)の特徴マップλ1が生成される。なお、以上の説明では、相異なる角度から撮影された複数の耳画像Gについて演算処理C1を実行したが、特定の角度から耳を撮影した1個の耳画像について演算処理C1を実行することも可能である。
Figure 0006687032
演算処理C1で生成された複数の特徴マップλ1に対する演算処理C2で複数の特徴マップλ2が生成される。演算処理C2は以下の数式(7b)で表現される。数式(7b)の記号Conv(λ1,K2)は、畳込カーネルK2を特徴マップλ1に畳込んだ結果を複数の特徴マップλ1にわたり加算する演算を意味する。記号b2は補正項を意味するベクトルである。相異なる畳込カーネルK2を利用した数式(7b)の演算処理C2により複数(図18の例示では6個)の特徴マップλ2が生成される。
Figure 0006687032
演算処理C2で生成された複数の特徴マップλ2に対する演算処理C3で結合ベクトルλ3が生成される。演算処理C3は、以下の数式(7c)で表現される全結合処理である。数式(7c)の記号Ω3は結合係数行列(具体的には複数の結合ベクトルλ3の加重値を要素とする行列)であり、記号b3は補正項を意味するベクトルである。
Figure 0006687032
演算処理C3で生成された結合ベクトルλ3に対する演算処理C4で主成分重みベクトルvが生成される。演算処理C4は、以下の数式(7d)で表現される。記号Ω4は結合係数行列である。
Figure 0006687032
以上の処理に利用される複数の変数(b1,b2,b3,K1,K2,Ω3,Ω4)でニューラルネットワークνは規定される。ニューラルネットワークνを規定する複数の変数の数値が機械学習により事前に設定されて記憶装置24に格納される。第5実施形態の推定処理部46は、記憶装置24に記憶された各数値を利用した演算処理C1から演算処理C4を目標耳画像GUについて実行することで、目標耳の主成分重みベクトルvを生成する。なお、機械学習によるニューラルネットワークνの生成については後述する。
図17の耳形状データ生成部42は、推定処理部46が生成した目標耳の主成分重みベクトルwを耳形状モデルEに付与することで目標耳の耳形状データvを生成する。具体的には、耳形状データ生成部42は、前掲の数式(5)と同様に、推定処理部46が推定した主成分重みベクトルwに変換行列Wの逆行列W-1を乗算して平均ベクトルμを加算することで目標耳の耳形状データvを算定する。目標耳の耳形状データvは、目標耳の立体形状を表す点群と基準耳の点群PRとの差分を表すM次元のベクトルである。以上の説明から理解される通り、第1実施形態では、相異なる候補耳に対応するK個の耳形状データv(1)〜v(K)が算定されるのに対し、第5実施形態では、目標耳画像GUから生成された主成分重みベクトルwに対応する1個の耳形状データvが算定される。
耳形状特定部44は、耳形状データ生成部42が生成した耳形状データvから目標耳の推定立体形状ZAを特定する。具体的には、耳形状特定部44は、基準耳の立体形状データD0で規定される点群PRの各点pRを目標耳の耳形状データvに応じて移動することで、目標耳の立体形状を表す立体形状データDZを特定する。すなわち、基準耳の点群PRのmA個の点pRの各々の座標に、目標耳の耳形状データvのうち当該点pRに対応する変換ベクトルφを加算することで、目標耳の立体形状データDZが生成される。
図17の関数算定部48は、耳形状特定部44が特定した目標耳の推定立体形状ZAに対応する対象者の頭部伝達関数Fを算定する。推定立体形状ZAから頭部伝達関数Fを算定する方法、および、頭部伝達関数Fを利用して音響信号XAから音響信号XBを生成する方法は、第1実施形態と同様である。
図19は、第5実施形態の耳形状解析部40が頭部伝達関数Fを生成する耳形状解析処理SCのフローチャートである。例えば頭部伝達関数Fの生成が利用者から指示された場合に図19の耳形状解析処理SCが実行される。
耳形状解析処理SCを開始すると、推定処理部46は、画像データDGが表す目標耳画像GUをニューラルネットワークνに付与することで目標耳の主成分重みベクトルwを生成する(SC1)。耳形状データ生成部42は、推定処理部46が生成した目標耳の主成分重みベクトルwを耳形状モデルEに付与することで目標耳の耳形状データvを生成する(SC2)。耳形状特定部44は、耳形状データ生成部42が生成した耳形状データvから目標耳の推定立体形状ZAを特定する(SC3)。関数算定部48は、図10に例示した関数算定処理SB4(SB41〜SB43)により、耳形状特定部44が特定した目標耳の推定立体形状ZAを含む頭部全体の目標形状Zの頭部伝達関数Fを算定する(SB4)。
以上に説明した通り、第5実施形態では、耳形状モデルEに主成分重みベクトルwを付与することで目標耳の耳形状データvが生成され、当該耳形状データvから目標耳の推定立体形状ZAが特定される。したがって、第1実施形態と同様に、特定の形状を変形(モーフィング)することで目標耳の形状を推定する構成と比較して、耳形状の誤推定の可能性を低減することが可能である。
なお、第1実施形態では、K個の候補耳のうち候補耳画像GC(k)と目標耳画像GUとの差異ε(k)が最小となる候補耳の耳形状が目標耳の推定立体形状ZAとして探索される。したがって、第1実施形態では、候補耳画像GC(k)の生成(画像生成処理Sb2)と目標耳画像GUとの比較(差異ε(k)の算定)とを、K個の候補耳について反復する必要がある。他方、第5実施形態では、目標耳画像GUから特定された目標耳の主成分重みベクトルwを耳形状モデルEに付与することで目標耳の耳形状データvが生成される。したがって、候補耳画像GC(k)の生成と目標耳画像GUとの比較を反復する必要がない。以上の説明から理解される通り、第5実施形態によれば、耳形状解析部40が目標耳の推定立体形状ZAを特定するために必要な演算量が第1実施形態と比較して削減されるという利点がある。
なお、前述のステップSC1の処理で生成された目標耳の主成分重みベクトルwを正規化する処理(以下「正規化処理」という)をニューラルネットワークνに含ませることも可能である。すなわち、ニューラルネットワークνの最上層に正規化層が追加され得る。正規化処理は、主成分重みベクトルwを構成するM個の要素の標準偏差によりM個の要素の各々を除算する処理である。正規化処理後の主成分重みベクトルw(すなわち、ニューラルネットワークνにより生成された主成分重みベクトルw)が、前述の例示と同様に耳形状モデルEに付与される(SC2)。以上に例示した正規化処理を実行することで、極端に突飛な主成分重みベクトルw(ひいては目標耳の推定立体形状ZA)が推定される可能性を低減できるという利点がある。
図20は、第5実施形態における耳形状モデル生成部30の構成を例示する構成図である。図20に例示される通り、第5実施形態の耳形状モデル生成部30は、耳形状モデルEを生成するための第1実施形態と同様の要素(点群特定部32,標本耳解析部34および統計処理部36)に加えて学習処理部38を具備する。学習処理部38は、推定処理部46が主成分重みベクトルwの生成に使用するニューラルネットワークνの各変数の数値を機械学習により決定する。
学習処理部38による機械学習には、記憶装置24に記憶された複数の学習データDTが利用される。各学習データDTは、標本耳の耳画像Gと当該耳画像Gの既知の主成分重みベクトルwとを含む。学習処理部38は、標本耳の耳画像Gをニューラルネットワークνに付与することで算定されるベクトルが当該耳画像Gの既知の主成分重みベクトルwに近付くように、ニューラルネットワークνを規定する各変数(b1,b2,b3,K1,K2,Ω3およびΩ4)の数値を決定する。学習処理部38が決定した各変数の数値は、記憶装置24に記憶され、前述の通り、推定処理部46による主成分重みベクトルwの生成(演算処理C1〜C4)に使用される。
具体的には、学習処理部38は、以下の数式(8)で定義される誤差関数δが最小化されるように、ニューラルネットワークνの各変数の数値を決定する。
Figure 0006687032
数式(8)の記号| |2は、2-ノルム(ユークリッドノルム)を意味する。記号w_estは、標本耳の耳画像Gをニューラルネットワークνに付与することで算定される主成分重みベクトルwであり、記号w_truthは、学習データDTに含まれる主成分重みベクトルw(正解)である。数式(8)から理解される通り、学習データDTの耳画像Gからニューラルネットワークνにより算定される主成分重みベクトルw_estと、当該学習データDTに含まれる主成分重みベクトルw_truthとの相違が最小化されるように、ニューラルネットワークνの各変数の数値が決定される。
数式(8)の記号δ_regは、機械学習の精度を向上させるための正則化項であり、例えば以下の数式(9)で定義される。
Figure 0006687032
数式(9)のmean(x)は、ベクトルxの複数の要素の平均を意味し、記号x**2は、ベクトルxの各要素を2乗したベクトルを意味する。記号β1〜β4は、所定の実数である。
なお、第2実施形態と同様の構成を第5実施形態に採用することも可能である。具体的には、第5実施形態において、基準耳の点群PRのうち第2群の各点pRに対応する変換ベクトルφを、耳形状データ生成部42が生成した目標耳の耳形状データv(k)に含まれるQ個の変換ベクトルφ(1)〜φ(Q)の補間(内挿)により生成することも可能である。また、M行M列の変換行列Wから後段側の所定行を除去した変換行列W'を耳形状モデルEとして生成する第3実施形態の構成も第5実施形態に採用され得る。第5実施形態に第4実施形態を採用することも可能である。具体的には、端末装置62から受信した画像データDGから第5実施形態の構成および処理により目標耳の推定立体形状ZAが特定され、当該推定立体形状ZAを含む目標形状Zに対応する頭部伝達関数Fが端末装置62に配信される。
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前掲の数式(5)から理解される通り、耳形状データ生成部42は、主成分重みベクトルw(k)に変換行列Wの逆行列W-1を乗算することで候補耳の耳形状データv(k)を算定する。したがって、変換行列Wに代えて逆行列W-1を耳形状モデルEに含ませることも可能である。
また、第1実施形態から第4実施形態では、変換行列Wと平均ベクトルμとを利用した数式(5)の演算で耳形状データ生成部42が候補耳の耳形状データv(k)を算定したが、平均ベクトルμの利用は省略され得る。例えば、N個の耳形状データv(1)〜v(N)のうち代表的な1個の耳形状データv(n)を数式(5)の平均ベクトルμの代わりに利用することも可能である。第5実施形態における目標耳の耳形状データvの算定でも同様に平均ベクトルμの利用は省略され得る。すなわち、平均ベクトルμは耳形状モデルEに必須の要素ではない。以上の説明から理解される通り、統計処理部36は、標本耳のN個の耳形状データv(1)〜v(N)に対する主成分分析で算定された変換行列Wまたはその逆行列W-1を含む耳形状モデルEを生成する要素として包括的に表現される。
(2)前述の各形態では、対象者の右耳である目標耳の推定立体形状ZAから左耳の推定立体形状ZBを特定し、推定立体形状ZAと推定立体形状ZBとを頭部形状ZHに連結することで目標形状Zを生成したが、目標形状Zの生成方法は以上の例示に限定されない。例えば、第1実施形態と同様の耳形状モデル生成処理SAで耳形状モデル生成部30が右耳および左耳の各々の耳形状モデルEを生成することも可能である。右耳の耳形状モデルEを利用して特定される右耳の推定立体形状ZAと左耳の耳形状モデルを利用して特定される左耳の推定立体形状ZBとを頭部形状ZHに連結することで目標形状Zが生成される。すなわち、耳形状モデル生成処理SAまたは耳形状解析処理SBは右耳および左耳の各々について個別に実行され得る。また、前述の各形態では、特定のダミーヘッドの形状または不特定多数の人間の頭部の平均的な形状を頭部形状ZHとして目標形状Zを生成したが、個々の対象者の頭部の形状を反映した頭部形状ZHを利用することも可能である。対象者の頭部形状ZHの特定には、前述の各形態で例示した耳形状モデル生成処理SAと同様の方法が利用され得る。
(3)音響処理部50の構成は前述の各形態の例示に限定されず、例えば図21または図22に例示された構成も採用され得る。図21に例示された音響処理部50は、音場制御部52と畳込演算部54Rと畳込演算部54Lと残響生成部56と信号加算部58とを具備する。畳込演算部54Rおよび畳込演算部54Lの動作は第1実施形態と同様である。残響生成部56は、仮想的な音響空間内で発生する後部(後期)残響音を音響信号XAから生成する。残響生成部56が生成する後部残響音の音響特性は音場制御部52により制御される。信号加算部58は、残響生成部56が生成した後部残響音を畳込演算部54Rによる処理後の信号に付加することで右チャネルの音響信号XB_Rを生成する。また、信号加算部58は、残響生成部56が生成した後部残響音を畳込演算部54Lによる処理後の信号に付加することで左チャネルの音響信号XB_Lを生成する。
図22に例示された音響処理部50は、音場制御部52と複数の調整処理部51と信号加算部58とを具備する。複数の調整処理部51の各々は、仮想的な音響空間内で音源位置から発音された音響が受聴位置に到達するまでの相異なる伝播経路を模擬する。具体的には、任意の1個の調整処理部51は、音響特性付与部53と畳込演算部54Rと畳込演算部54Lとを包含する。音響特性付与部53は、音響信号XAの振幅または位相の調整により、音響空間内の1個の伝播経路における距離差による遅延および距離減衰と壁面反射とを模擬する。各音響特性付与部53が音響信号XAに付与する特性は、音響空間の変数(例えば音響空間のサイズ,形状,壁面の反射率,音源位置,または受聴位置)に応じて音場制御部52が可変に制御する。
畳込演算部54Rは、音場制御部52が選択した右耳の頭部伝達関数Fを音響信号XAに畳込み、畳込演算部54Lは、音場制御部52が選択した左耳の頭部伝達関数Fを音響信号XAに畳込む。音場制御部52は、音響空間内の伝播経路上の鏡像音源の位置から右耳までの頭部伝達関数Fを畳込演算部54Rに指示し、当該鏡像音源の位置から左耳までの頭部伝達関数Fを畳込演算部54Lに指示する。信号加算部58は、複数の調整処理部51(畳込演算部54R)がそれぞれ生成した信号を加算することで右チャネルの音響信号XB_Rを生成する。また、信号加算部58は、複数の調整処理部51(畳込演算部54L)がそれぞれ生成した信号を加算することで左チャネルの音響信号XB_Lを生成する。
図21の構成と図22の構成とを併合することも可能である。例えば、図22の複数の調整処理部51が生成した初期反射音と図21の残響生成部56が生成した後部残響音とを含む音響信号XBを生成することも可能である。
(4)第1実施形態から第4実施形態では、画像生成部441が生成したK個の立体形状データDC(1)〜DC(K)のうち、目標耳画像GUとの差異ε(k)が最小となる候補耳画像GC(k)の候補耳の立体形状データDC(k)を、目標耳の立体形状データDZとして画像探索部442が選択した。他の態様における画像探索部442は、K個の主成分重みベクトルw(1)〜w(K)のうち目標耳画像GUとの差異ε(k)が最小となる候補耳に対応する主成分重みベクトルw(k)を探索する。以上の構成では、画像探索部442が探索した主成分重みベクトルw(k)を耳形状モデルEに付与することで、目標耳の推定立体形状ZAが特定される。
(5)画像データDGの形式は任意である。具体的には、前述の各形態の例示のように目標耳を撮影した平面画像を目標耳画像GUとして表すデータのほか、例えば、目標耳の立体形状を2次元平面に変換したデータを画像データDGとして利用することが可能である。また、目標耳の形状に関するパラメータを表すデータ(例えば目標耳の画像から抽出された特徴点のデータ)を画像データDGとして利用してもよい。以上の例示から理解される通り、候補耳画像GC(k)と比較され得る目標耳画像GUを特定可能な任意の形式のデータが画像データDGの概念に包含される。
(6)第1実施形態から第3実施形態では、耳形状モデル生成部30と耳形状解析部40と音響処理部50とを具備する音響処理装置100を例示したが、耳形状モデル生成部30を具備する耳形状モデル生成装置、または、耳形状解析部40を具備する耳形状解析装置としても本発明は表現され得る。第5実施形態についても同様である。耳形状モデル生成装置における耳形状解析部40または音響処理部50の有無は不問であり、耳形状解析装置における耳形状モデル生成部30または音響処理部50の有無は不問である。
(7)耳形状モデル生成装置または耳形状解析装置は、前述の各形態で例示した通り、CPU等の制御装置22とプログラムとの協働で実現される。例えば、第1実施形態における耳形状モデル生成用のプログラムは、画像データDGが表す目標耳画像GUと比較される候補耳画像GC(k)の生成に利用される耳形状モデルEを生成するために、標本耳の立体形状を表現する点群PS(n)と基準耳の立体形状を表現する点群PRとの差分を表す耳形状データv(n)をN個の標本耳の各々について生成する標本耳解析部34、および、各主成分の重みを表す主成分重みベクトルw(n)に耳形状データv(n)を変換するための変換行列W(第3実施形態の変換行列W'を含む)を、標本耳解析部34が生成したN個の耳形状データv(1)〜v(N)に対する主成分分析で算定し、変換行列Wまたはその逆行列W-1を含む耳形状モデルEを生成する統計処理部36とをコンピュータに実現させる。
また、例えば第1実施形態における耳形状解析用のプログラムは、N個の標本耳の各々の立体形状を表現する点群PS(n)と基準耳の立体形状を表現する点群PRとの差分を表す標本耳毎の耳形状データv(n)に対する主成分分析で生成され、各主成分の重みを表す主成分重みベクトルw(n)を耳形状データv(n)に変換するための耳形状モデルEに、K個の主成分重みベクトルw(1)〜w(K)の各々を付与することで、候補耳の立体形状を表現する点群PC(k)と基準耳の立体形状を表現する点群PRとの差分を表す耳形状データv(k)をK個の候補耳について生成する耳形状データ生成部42と、基準耳の立体形状を表現する点群PRと耳形状データv(k)とに基づいて、候補耳を表す候補耳画像GC(k)をK個の候補耳の各々について生成する画像生成部441と、画像データDGが表す目標耳の目標耳画像GUをK個の候補耳画像GC(1)〜GC(K)の各々と比較して、目標耳画像GUとの差異ε(k)が最小となる候補耳画像GC(k)の候補耳に対応する耳形状を目標耳の推定立体形状ZAとして特定する画像探索部442とをコンピュータに実現させる。
以上に例示した各態様のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体および磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、「非一過性の記録媒体」とは、一過性の伝搬信号(transitory, propagating signal)を除く全てのコンピュータ読み取り可能な記録媒体を含み、揮発性の記録媒体を除外するものではない。また、以上に例示したプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。耳形状モデル生成装置の動作方法(耳形状モデル生成方法)または耳形状解析装置の動作方法(耳形状解析方法)として本発明を表現することも可能である。
(8)以上に例示した具体的な形態から把握される本発明の好適な態様を以下に例示する。
<態様1>
本発明の好適な態様(態様1)に係る耳形状解析方法は、コンピュータが、耳の立体形状を表す点群と基準耳の立体形状を表す点群との差分を示す耳形状データと、耳形状データの各主成分の重みを示す主成分重みベクトルとの関係を示す耳形状モデルに、主成分重みベクトルを付与することで耳形状データを生成し、画像データが表す目標耳画像に対応する目標耳の推定立体形状を、耳形状データ生成部が生成した耳形状データから特定する。態様1では、耳形状データと主成分重みベクトルとの関係を示す耳形状モデルに対する主成分重みベクトルの付与で生成される耳形状データから、目標耳の推定立体形状が特定される。したがって、特定の形状を変形(モーフィング)することで目標耳の立体形状を推定する構成と比較して、耳形状の誤推定の可能性を低減することが可能である。
<態様2>
態様1の好適例(態様2)では、前記耳形状データは、複数の候補耳にそれぞれ対応する複数の耳形状データのひとつであり、耳形状データの生成において、前記主成分重みベクトルを含む複数の主成分重みベクトルの各々を耳形状モデルに付与することで、複数の候補耳の各々について耳形状データを生成し、推定立体形状の特定において、複数の候補耳の各々について、基準耳の立体形状を表現する点群と当該候補耳の耳形状データとに応じて、当該候補耳を表す候補耳画像を生成し、画像データが表す目標耳画像を、複数の候補耳についてそれぞれ生成された複数の候補耳画像の各々と比較して、複数の候補耳画像のうち、目標耳画像との差異が最小となる候補耳画像の候補耳に対応する耳形状を目標耳の推定立体形状として特定する。態様2では、耳形状モデルを利用して生成された複数の候補耳画像の各々と目標耳画像とを比較して、目標耳画像との差異が最小となる候補耳画像の候補耳に対応する耳形状が目標耳の推定立体形状として特定される。したがって、画像の比較という簡便な処理で目標耳の推定立体形状を特定できるという利点がある。
<態様3>
態様2の好適例(態様3)では、候補耳画像の生成において、画像データにおける目標耳の撮影条件に近似する条件の視点で観察された候補耳の候補耳画像を生成する。態様3では、目標耳画像における目標耳の撮影方向に近似する方向からみた候補耳を表す候補耳画像が生成される。したがって、目標耳画像の撮影条件と候補耳画像における候補耳の観察条件とが乖離する場合と比較して、目標耳に立体形状が近似する適切な候補耳を選択できるという利点がある。
<態様4>
態様2または態様3の好適例(態様4)では、耳形状データの生成において、基準耳の点群の一部である第1群の各点に対応する複数の変換ベクトルを含む候補耳の耳形状データを、耳形状モデルに主成分重みベクトルを付与することで生成する一方、基準耳の点群のうち第1群以外の第2群の各点に対応する変換ベクトルを、候補耳の耳形状データに含まれる複数の変換ベクトルの補間により生成し、候補耳画像の生成において、基準耳の点群のうち第1群の各点を候補耳の耳形状データの各変換ベクトルに応じて移動するとともに、基準耳の点群のうち第2群の各点を補間後の各変換ベクトルに応じて移動することで、候補耳画像を生成する。態様4では、基準耳の点群のうち第2群の各点に対応する変換ベクトルが、候補耳の耳形状データに含まれる複数の変換ベクトルの補間により生成されるから、基準耳の点群の全部にわたり耳形状モデルを利用して変換ベクトルを生成する必要はない。したがって、耳形状モデルに対する主成分重みベクトルの付与で候補耳の耳形状データを生成する処理または耳形状モデルを生成する処理の負荷が軽減されるという利点がある。
<態様5>
態様1の好適例(態様5)では、耳画像と主成分重みベクトルとの関係を示すニューラルネットワークに、画像データが表す目標耳画像を付与することで主成分重みベクトルを生成し、耳形状データの生成において、ニューラルネットワークにより生成した主成分重みベクトルを耳形状モデルに付与することで目標耳の耳形状データを生成し、推定立体形状の特定において、基準耳の立体形状を表す点群と当該目標耳の耳形状データとに応じて目標耳の推定立体形状を特定する。態様5では、目標耳画像をニューラルネットワークに付与することで生成された主成分重みベクトルが耳形状モデルに付与されるから、候補耳画像の生成と目標耳画像との比較を反復する必要がない。したがって、候補耳画像の生成と目標耳画像との比較とが複数回にわたり反復される前述の態様2と比較して、目標耳の推定立体形状を特定するために必要な演算量が削減されるという利点がある。
<態様6>
態様1から態様5の何れかの好適例(態様6)では、推定立体形状に対応する頭部伝達関数を算定する。態様1から態様5によれば、前述の通り、耳形状の誤推定の可能性が低減されるから、目標耳を持つ受聴者が音像の適切な位置を知覚可能な頭部伝達関数を特定できるという利点がある。
<態様7>
態様6の好適例(態様7)では、画像データを端末装置から受信し、当該画像データから算定された頭部伝達関数を端末装置に送信する。態様7では、端末装置から受信した画像データから目標耳の推定立体形状が特定され、当該推定立体形状に対応する頭部伝達関数が端末装置に送信される。したがって、目標耳の推定立体形状の特定または当該推定立体形状に対する頭部伝達関数の算定を個々の端末装置で実行する必要がないという利点がある。
<態様8>
本発明の好適な態様(態様8)に係る耳形状解析装置は、耳の立体形状を表す点群と基準耳の立体形状を表す点群との差分を示す耳形状データと、耳形状データの各主成分の重みを示す主成分重みベクトルとの関係を示す耳形状モデルに、主成分重みベクトルを付与することで耳形状データを生成する耳形状データ生成部と、画像データが表す目標耳画像に対応する目標耳の推定立体形状を、耳形状データ生成部が生成した耳形状データから特定する耳形状特定部とを具備する。態様8では、耳形状データと主成分重みベクトルとの関係を示す耳形状モデルに対する主成分重みベクトルの付与で生成される耳形状データから目標耳の推定立体形状が特定される。したがって、特定の形状を変形することで目標耳の立体形状を推定する構成と比較して、耳形状の誤推定の可能性を低減することが可能である。
<態様9>
態様8の好適例(態様9)において、前記耳形状データは、複数の候補耳にそれぞれ対応する複数の耳形状データのひとつであり、耳形状データ生成部は、前記主成分重みベクトルを含む複数の主成分重みベクトルの各々を耳形状モデルに付与することで、複数の候補耳の各々について耳形状データを生成し、耳形状特定部は、複数の候補耳の各々について、基準耳の立体形状を表現する点群と当該候補耳の耳形状データとに応じて、当該候補耳を表す候補耳画像を生成する画像生成部と、画像データが表す目標耳画像を、複数の候補耳についてそれぞれ生成された複数の候補耳画像の各々と比較して、前記複数の候補耳画像のうち、目標耳画像との差異が最小となる候補耳画像の候補耳に対応する耳形状を目標耳の推定立体形状として特定する画像探索部とを含む。態様9では、耳形状モデルを利用して生成された複数の候補耳画像の各々と目標耳画像とを比較して、目標耳画像との差異が最小となる候補耳画像の候補耳に対応する耳形状が目標耳の推定立体形状として特定される。したがって、画像の比較という簡便な処理で目標耳の推定立体形状を特定できるという利点がある。
<態様10>
態様8の好適例(態様10)に係る耳形状解析装置は、耳画像と主成分重みベクトルとの関係を示すニューラルネットワークに、画像データが表す目標耳画像を付与することで主成分重みベクトルを生成する推定処理部を具備し、耳形状データ生成部は、ニューラルネットワークにより生成した主成分重みベクトルを耳形状モデルに付与することで目標耳の耳形状データを生成し、耳形状特定部は、基準耳の立体形状を表す点群と当該目標耳の耳形状データとに応じて目標耳の推定立体形状を特定する。態様10では、目標耳画像をニューラルネットワークに付与することで生成された主成分重みベクトルが耳形状モデルに付与されるから、候補耳画像の生成と目標耳画像との比較を反復する必要がない。したがって、候補耳画像の生成と目標耳画像との比較とが複数回にわたり反復される前述の態様9と比較して、目標耳の推定立体形状を特定するために必要な演算量が削減されるという利点がある。
<態様11>
本発明の好適な態様(態様11)は、画像データが表す目標耳画像と比較される候補耳画像の生成に利用される耳形状モデルを生成する方法であって、コンピュータが、標本耳の立体形状を表現する点群と基準耳の立体形状を表現する点群との差分を表す耳形状データを複数の標本耳の各々について生成し、各主成分の重みを表す主成分重みベクトルに耳形状データを変換するための変換行列を、生成した複数の耳形状データに対する主成分分析で算定し、変換行列またはその逆行列を含む耳形状モデルを生成する。態様11では、目標耳の立体形状の推定に利用される耳形状モデルに複数の標本耳の立体形状の統計的な傾向が反映される。したがって、目標耳の立体形状を高精度に推定できるという利点がある。
<態様12>
態様11の好適例(態様12)では、耳形状モデルの生成において、複数の標本耳について耳形状データの平均ベクトルを算定し、当該平均ベクトルを含む耳形状モデルを生成する。態様12では、耳形状データを主成分重みベクトルに変換するための変換行列またはその逆行列に加えて複数の耳形状データの平均ベクトルを含む耳形状モデルが生成される。したがって、耳形状モデルを利用して適切な候補耳画像を生成できるという利点がある。
<態様13>
態様11または態様12の好適例(態様13)では、耳形状モデルの生成において、主成分分析で算定された変換行列のうち後段の所定行を除去し、当該除去後の変換行列を表す耳形状モデルを生成する。態様13では、主成分分析で算定された変換行列のうち後段の所定行が除去されるから、耳形状モデルのデータ量を削減することが可能である。
100……音響処理装置、200……音響処理システム、12……信号供給装置、14……放音装置、16……通信網、22……制御装置、24……記憶装置、30……耳形状モデル生成部、32……点群特定部、34……標本耳解析部、36……統計処理部、40……耳形状解析部、42……耳形状データ生成部、441……画像生成部、442……画像探索部、48……関数算定部、50……音響処理部、51……調整処理部、52……音場制御部、53……音響特性付与部、54R,54L……畳込演算部、56……残響生成部、58……信号加算部、72,74……通信装置。

Claims (13)

  1. コンピュータが、
    耳の立体形状の統計的な傾向が反映された耳形状モデルを利用して、目標耳の候補となる候補耳の立体形状と基準耳の立体形状との差分を示す耳形状データを生成し、
    目標耳画像に対応する前記目標耳の推定立体形状を、前記候補耳の耳形状データと前記基準耳の立体形状とから特定する
    耳形状解析方法。
  2. コンピュータが、
    標本として用意された標本耳の立体形状を表す点群と基準耳の立体形状を表す点群との差分を示す耳形状データと、前記耳形状データの各主成分の重みを示す主成分重みベクトルとの関係を示す形状モデルに、主成分重みベクトルを付与することで、目標耳の候補となる候補耳の耳形状データを生成し、
    目標耳画像に対応する前記目標耳の推定立体形状を、前記候補耳の耳形状データから特定する
    形状解析方法。
  3. 前記耳形状データの生成において、複数の主成分重みベクトルの各々を前記耳形状モデルに付与することで、前記目標耳の候補となる複数の候補耳にそれぞれ対応する複数の耳形状データを生成し、
    前記推定立体形状の特定において、
    前記複数の候補耳の各々について、前記基準耳の立体形状を表現する点群と当該候補耳の耳形状データとに応じて、当該候補耳を表す候補耳画像を生成し、
    前記目標耳画像を、前記複数の候補耳についてそれぞれ生成された複数の候補耳画像の各々と比較して、前記複数の候補耳画像のうち、前記目標耳画像との差異が最小となる候補耳画像の候補耳に対応する耳形状を前記目標耳の推定立体形状として特定する
    請求項2の耳形状解析方法。
  4. コンピュータが、
    標本として用意された標本耳の立体形状を表す点群と基準耳の立体形状を表す点群との差分を示す耳形状データと、前記耳形状データの各主成分の重みを示す主成分重みベクトルとの関係を示す形状モデルに、目標耳画像に対応する目標耳の主成分重みベクトルを付与することで、当該目標耳の耳形状データを生成し、
    前記目標耳の推定立体形状を、前記目標耳の耳形状データと前記基準耳の立体形状とから特定する
    形状解析方法。
  5. 耳を表す画像と主成分重みベクトルとの関係を示すニューラルネットワークに、前記目標耳画像を付与することで、前記目標耳の主成分重みベクトルを生成し、
    前記耳形状データの生成において、前記ニューラルネットワークにより生成した前記目標耳の主成分重みベクトルを前記耳形状モデルに付与することで前記目標耳の耳形状データを生成し、
    前記推定立体形状の特定において、前記基準耳の立体形状を表す点群と当該目標耳の耳形状データとに応じて前記目標耳の推定立体形状を特定する
    請求項の耳形状解析方法。
  6. 前記推定立体形状に対応する頭部伝達関数を算定する
    請求項1から請求項5の何れかの耳形状解析方法。
  7. コンピュータが、
    耳の立体形状の統計的な傾向が反映された耳形状モデルを利用して、目標耳の候補となる複数の候補耳の各々について、当該候補耳の立体形状を表す立体形状データを生成し、
    前記複数の候補耳の各々について生成された立体形状データから、当該候補耳を表す候補耳画像を生成し、
    前記複数の候補耳についてそれぞれ生成された複数の候補耳画像のうち、前記目標耳を表す目標耳画像に類似する候補耳画像に対応する立体形状を特定し、
    前記特定した立体形状から頭部伝達関数を生成する
    頭部伝達関数生成方法。
  8. 前記頭部伝達関数の生成においては、前記特定した立体形状に対する音響解析により、前記頭部伝達関数を生成する
    請求項7の頭部伝達関数生成方法。
  9. 前記目標耳画像を表す画像データを端末装置から受信し、当該画像データから生成された前記頭部伝達関数を前記端末装置に送信する
    請求項7または請求項8の頭部伝達関数生成方法。
  10. 耳の立体形状の統計的な傾向が反映された耳形状モデルを利用して、目標耳の候補となる候補耳の立体形状と基準耳の立体形状との差分を示す耳形状データを生成する耳形状データ生成部と、
    目標耳画像に対応する前記目標耳の推定立体形状を、前記候補耳の耳形状データと前記基準耳の立体形状とから特定する耳形状特定部と
    を具備する耳形状解析装置。
  11. 標本として用意された標本耳の立体形状を表す点群と基準耳の立体形状を表す点群との差分を示す耳形状データと、前記耳形状データの各主成分の重みを示す主成分重みベクトルとの関係を示す耳形状モデルに、主成分重みベクトルを付与することで、目標耳の候補となる候補耳の耳形状データを生成する耳形状データ生成部と、
    目標耳画像に対応する前記目標耳の推定立体形状を、前記耳形状データ生成部が生成した前記候補耳の耳形状データから特定する耳形状特定部と
    を具備する耳形状解析装置。
  12. 標本として用意された標本耳の立体形状を表す点群と基準耳の立体形状を表す点群との差分を示す耳形状データと、前記耳形状データの各主成分の重みを示す主成分重みベクトルとの関係を示す耳形状モデルに、目標耳画像に対応する目標耳の主成分重みベクトルを付与することで、当該目標耳の耳形状データを生成する耳形状データ生成部と、
    前記目標耳の推定立体形状を、前記耳形状データ生成部が生成した前記目標耳の耳形状データと前記基準耳の立体形状とから特定する耳形状特定部と
    を具備する耳形状解析装置。
  13. 耳の立体形状の統計的な傾向が反映された耳形状モデルを利用して、目標耳の候補となる複数の候補耳の各々について、当該候補耳の立体形状を表す立体形状データを生成する機能と、
    前記複数の候補耳の各々について生成された立体形状データから、当該候補耳を表す候補耳画像を生成する機能と、
    前記複数の候補耳についてそれぞれ生成された複数の候補耳画像のうち、前記目標耳を表す目標耳画像に類似する候補耳画像に対応する立体形状を特定する機能と、
    前記特定した立体形状から頭部伝達関数を生成する機能と
    を具備する頭部伝達関数生成装置。
JP2017539786A 2015-09-14 2016-08-15 耳形状解析方法、頭部伝達関数生成方法、耳形状解析装置および頭部伝達関数生成装置 Active JP6687032B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015180993 2015-09-14
JP2015180993 2015-09-14
PCT/JP2016/073829 WO2017047309A1 (ja) 2015-09-14 2016-08-15 耳形状解析方法、耳形状解析装置および耳形状モデル生成方法

Publications (2)

Publication Number Publication Date
JPWO2017047309A1 JPWO2017047309A1 (ja) 2018-06-28
JP6687032B2 true JP6687032B2 (ja) 2020-04-22

Family

ID=58288958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017539786A Active JP6687032B2 (ja) 2015-09-14 2016-08-15 耳形状解析方法、頭部伝達関数生成方法、耳形状解析装置および頭部伝達関数生成装置

Country Status (5)

Country Link
US (1) US10607358B2 (ja)
EP (1) EP3351172B1 (ja)
JP (1) JP6687032B2 (ja)
CN (1) CN108024762B (ja)
WO (1) WO2017047309A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI20165211A (fi) 2016-03-15 2017-09-16 Ownsurround Ltd Järjestely HRTF-suodattimien valmistamiseksi
FR3057981B1 (fr) * 2016-10-24 2019-07-26 Mimi Hearing Technologies GmbH Procede d'elaboration d'un nuage de points 3d representatif d'une oreille 3d d'un individu, et systeme associe
US10701506B2 (en) 2016-11-13 2020-06-30 EmbodyVR, Inc. Personalized head related transfer function (HRTF) based on video capture
US10104491B2 (en) 2016-11-13 2018-10-16 EmbodyVR, Inc. Audio based characterization of a human auditory system for personalized audio reproduction
WO2019094114A1 (en) * 2017-11-13 2019-05-16 EmbodyVR, Inc. Personalized head related transfer function (hrtf) based on video capture
CN107944117B (zh) * 2017-11-17 2019-03-05 华中科技大学 一种基于流动特征获取注塑制品类型的方法
US11049331B2 (en) * 2017-12-01 2021-06-29 Hearables 3D Pty Ltd Customization method and apparatus
FI20185300A1 (fi) 2018-03-29 2019-09-30 Ownsurround Ltd Järjestely päähän liittyvien siirtofunktiosuodattimien muodostamiseksi
US10917735B2 (en) * 2018-05-11 2021-02-09 Facebook Technologies, Llc Head-related transfer function personalization using simulation
CN108966083A (zh) * 2018-08-09 2018-12-07 联想(北京)有限公司 一种控制方法及电子设备
US11026039B2 (en) 2018-08-13 2021-06-01 Ownsurround Oy Arrangement for distributing head related transfer function filters
KR20210068409A (ko) 2018-10-10 2021-06-09 소니그룹주식회사 정보 처리 장치, 정보 처리 방법 및 정보 처리 프로그램
KR102274581B1 (ko) * 2018-10-16 2021-07-07 광주과학기술원 개인화된 hrtf 생성 방법
DE202019000718U1 (de) 2019-02-14 2019-02-26 WERRTA GmbH Düsen- und Zerstäubungstechnik Inhalator
JP7055762B2 (ja) * 2019-03-05 2022-04-18 アルパイン株式会社 顔特徴部検出装置、顔特徴部検出方法
KR102249389B1 (ko) * 2019-04-30 2021-05-07 전수진 아기 두상 성장 관리 시스템
JP7358010B2 (ja) * 2019-07-29 2023-10-10 アルパイン株式会社 頭部伝達関数の推定モデル生成装置、頭部伝達関数の推定装置および頭部伝達関数の推定用プログラム
DE112020003687T5 (de) 2019-08-02 2022-06-09 Sony Group Corporation Audioausgabevorrichtung und diese verwendendes audioausgabesystem
JP7344149B2 (ja) 2020-02-07 2023-09-13 キオクシア株式会社 最適化装置及び最適化方法
WO2022036238A1 (en) * 2020-08-14 2022-02-17 VisiSonics Corporation Systems and methods for head related transfer function personalization
US11778408B2 (en) 2021-01-26 2023-10-03 EmbodyVR, Inc. System and method to virtually mix and audition audio content for vehicles
CN114495171B (zh) * 2022-01-28 2024-05-14 杭州师范大学 一种基于aam的耳像识别方法
CN117291979B (zh) * 2023-09-26 2024-04-26 北京鹰之眼智能健康科技有限公司 一种耳洞定位方法、电子设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3521900B2 (ja) * 2002-02-04 2004-04-26 ヤマハ株式会社 バーチャルスピーカアンプ
WO2005025270A1 (ja) * 2003-09-08 2005-03-17 Matsushita Electric Industrial Co., Ltd. 音像制御装置の設計ツールおよび音像制御装置
JP2008512760A (ja) * 2004-09-08 2008-04-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 自動的な耳の再構成のための特徴抽出アルゴリズム
JP2007299070A (ja) 2006-04-27 2007-11-15 Toshiba Corp 顔形状モデル生成装置及びその方法
CN101369309B (zh) * 2008-09-26 2011-08-24 北京科技大学 基于主动表观模型和外耳长轴的人耳图像归一化方法
US20120183161A1 (en) * 2010-09-03 2012-07-19 Sony Ericsson Mobile Communications Ab Determining individualized head-related transfer functions
JP5754595B2 (ja) * 2011-11-22 2015-07-29 日本電信電話株式会社 トランスオーラルシステム
US9030545B2 (en) * 2011-12-30 2015-05-12 GNR Resound A/S Systems and methods for determining head related transfer functions
WO2013149645A1 (en) * 2012-04-02 2013-10-10 Phonak Ag Method for estimating the shape of an individual ear
CN102831390A (zh) * 2012-07-02 2012-12-19 北京科技大学 一种人耳认证***及方法
FR3040807B1 (fr) * 2015-09-07 2022-10-14 3D Sound Labs Procede et systeme d'elaboration d'une fonction de transfert relative a la tete adaptee a un individu

Also Published As

Publication number Publication date
EP3351172A1 (en) 2018-07-25
US10607358B2 (en) 2020-03-31
EP3351172A4 (en) 2019-04-17
CN108024762B (zh) 2020-09-22
US20180204341A1 (en) 2018-07-19
JPWO2017047309A1 (ja) 2018-06-28
EP3351172B1 (en) 2021-05-19
CN108024762A (zh) 2018-05-11
WO2017047309A1 (ja) 2017-03-23

Similar Documents

Publication Publication Date Title
JP6687032B2 (ja) 耳形状解析方法、頭部伝達関数生成方法、耳形状解析装置および頭部伝達関数生成装置
EP3509327B1 (en) Method for generating customized spatial audio with head tracking
US11778400B2 (en) Methods and systems for audio signal filtering
US9681250B2 (en) Statistical modelling, interpolation, measurement and anthropometry based prediction of head-related transfer functions
Meshram et al. P-HRTF: Efficient personalized HRTF computation for high-fidelity spatial sound
US10917735B2 (en) Head-related transfer function personalization using simulation
JPWO2020075622A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US10818100B2 (en) Method for producing a 3D scatter plot representing a 3D ear of an individual, and associated system
US10390167B2 (en) Ear shape analysis device and ear shape analysis method
US20240089689A1 (en) Method for determining a personalized head-related transfer function
Zhao et al. Efficient prediction of individual head-related transfer functions based on 3D meshes
Duraiswami et al. Capturing and recreating auditory virtual reality
JP7493411B2 (ja) バイノーラル再生装置およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170823

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190625

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191017

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200316

R151 Written notification of patent or utility model registration

Ref document number: 6687032

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151