WO2016039465A1

WO2016039465A1 - 音響解析装置

Info

Publication number: WO2016039465A1
Application number: PCT/JP2015/075925
Authority: WO
Inventors: 隆一成山; 英樹阪梨; 舞小池
Original assignee: ヤマハ株式会社
Priority date: 2014-09-12
Filing date: 2015-09-11
Publication date: 2016-03-17
Also published as: JP2016057572A

Abstract

　特徴抽出部（２２）は、歌唱音声（Ｖ）の特徴指標（Ｘn）を抽出する。印象特定部（２４）は、参照音の聴覚印象を示す印象指標（ｙm）と当該参照音の音響特徴を示す特徴指標（ｘn）とを相互に対応させた複数の参照データ（ｒ）、および、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データ（ＤC）を利用して設定され、関係性記述データ（ＤC）で規定される対応関係における聴覚印象の印象指標（Ｙm）と複数種の音響特徴の特徴指標（Ｘn）との関係を表現する関連式（Ｆm）に、特徴抽出部（２２）が抽出した特徴指標（Ｘn）を適用することで、歌唱音声（Ｖ）の印象指標（Ｙm）を算定する。目標設定部（４２）は、印象指標（Ｙm）の目標値（Ａm）を設定する。解析処理部（４４）は、印象特定部（２４）が算定した歌唱音声（Ｖ）の印象指標（Ｙm）を目標値（Ａm）に近付けるために変化させるべき音響特徴を特定する。

Description

音響解析装置

　本発明は、音響を解析する技術に関する。

　歌唱音声等の音響を目標の音響特性に近付けるための各種の技術が従来から提案されている。例えば特許文献１には、模範的な歌唱を示す基準値（目標）と評価対象の歌唱音声の特徴（音響特徴）との差異を順次に評価し、「発音は明瞭に」「はっきりと」等の音響特徴の改善点のコメントを評価結果に応じて利用者に提示する技術が開示されている。また、特許文献２には、合成音声の音響特徴を調整するための複数種の制御変数を利用者からの指示に応じて設定する構成が開示されている。

日本国特開２００８－０２０７９８号公報日本国特開２０１１－０９５３９７号公報

　しかし、特許文献１の技術では、模範的な歌唱を実現するための音響特徴の改善点が利用者に提示されるに過ぎず、受聴者に特定の聴覚印象（例えば「大人っぽい歌唱」等）を感取させ得る歌唱を実現することは困難である。また、特許文献２の技術では、複数種の制御変数のうちの何れを如何に調整すれば所望の聴覚印象の音声が実現されるのかを利用者が明確に把握することは困難である。以上の通り、特許文献１および特許文献２の何れの技術のもとでも、所望の聴覚印象が感取され得る音響を実現するためには、音響特徴と聴覚印象との相関（所望の聴覚印象を実現するために変化させるべき音響特徴）に関する専門的な知識が必要である。以上の事情を考慮して、本発明は、音響特徴と聴覚印象との相関に関する専門的な知識を必要とせずに音響の聴覚印象を目標に近付けることを目的とする。

　以上の課題を解決するために、本発明の音響解析装置は、解析対象音の特徴指標を抽出する特徴抽出手段と、音響の聴覚印象を示す印象指標と当該音響の音響特徴を示す複数の特徴指標との関係を表現する関連式に、特徴抽出手段が抽出した特徴指標を適用することで、解析対象音の印象指標を算定する印象特定手段と、印象指標の目標値を設定する目標設定手段と、印象特定手段が算定した解析対象音の印象指標を目標値に近付けるために変化させるべき音響特徴を特定する解析処理手段とを具備する。以上の構成では、解析対象音の特徴指標を関連式に適用することで解析対象音の聴覚印象の印象指標が算定され、印象指標を目標値に近付けるために変化させるべき音響特徴が特定される。したがって、音響特徴と聴覚指標との相関に関する専門的な知識を必要とせずに、解析対象音の聴覚印象を目標に近付けるための音響特徴を特定することが可能である。

　本発明の好適な態様において、印象特定手段は、参照音の聴覚印象を示す印象指標と当該参照音の音響特徴を示す特徴指標とを相互に対応させた複数の参照データ、および、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して設定され、関係性記述データで規定される対応関係における聴覚印象の印象指標と複数種の音響特徴の特徴指標との関係を表現する関連式に、特徴抽出手段が抽出した特徴指標を適用することで、解析対象音の印象指標を算定する。参照データの統計的な解析のみで関連式を設定する構成では、疑似相関（特定の特徴指標が実際には特定の聴覚印象に相関しないのに潜在的な要因によって恰も相関するかのように推測される見掛け上の関係）の影響で、実際には聴覚印象に相関しない特徴指標が当該聴覚印象に優勢に影響するような関連式が導出される可能性がある。以上の態様では、印象指標と特徴指標とを相互に対応させた複数の参照データに加え、聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して関連式が設定される。したがって、参照データのみを利用して関連式を設定する構成と比較して、印象指標と複数の特徴指標との実際の相関が適切に反映された関連式を利用して解析対象音の聴覚印象を適切に評価することが可能である。

　本発明の好適な態様に係る音響解析装置は、解析処理手段が特定した音響特徴を利用者に提示する提示処理手段を具備する。以上の態様では、解析処理手段が特定した音響特徴が利用者に提示されるから、解析対象音の印象指標を目標値に近付けるために変化させるべき音響特徴を利用者が把握できる（ひいては当該音響特徴を改善できる）という利点がある。

　本発明の好適な態様に係る音響解析装置は、解析処理手段が特定した音響特徴を変化させる音響処理を解析対象音に対して実行する音響処理手段を具備する。以上の態様では、解析処理手段が特定した音響特徴を変化させる音響処理が解析対象音に対して実行されるから、目標の聴覚印象の音響を生成することが可能である。

　本発明の好適な態様において、目標設定手段は、利用者からの指示に応じて目標値を設定する。以上の態様では、印象指標の目標値が利用者からの指示に応じて設定されるから、解析対象音の聴覚印象を利用者の所望の印象に近付けるための音響特徴を特定できるという利点がある。

本発明の第１実施形態に係る音響解析装置の構成図である。関係性記述データで規定される聴覚印象と音響特徴との対応関係の説明図である。操作画面の説明図である。歌唱音声を解析する動作のフローチャートである。第２実施形態に係る音響解析装置の構成図である。解析結果の表示例である。変形例に係る音響解析装置の構成図である。

＜第１実施形態＞
　図１は、本発明の第１実施形態に係る音響解析装置１００Aの構成図である。第１実施形態の音響解析装置１００Aは、演算処理装置１０と記憶装置１２と入力装置１４と収音装置１６と表示装置１８とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響解析装置１００Aとして利用され得る。

　収音装置１６は、周囲の音響を収音する機器（マイクロホン）である。第１実施形態の収音装置１６は、利用者が楽曲を歌唱した歌唱音声Ｖを収音する。音響解析装置１００Aは、楽曲の伴奏音と歌唱音声Ｖとを混合して再生するカラオケ装置としても利用され得る。なお、収音装置１６が収音した歌唱音声Ｖの信号をアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。

　表示装置１８（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。入力装置１４は、音響解析装置１００Aに対する各種の指示のために利用者が操作する操作機器であり、例えば利用者が操作する複数の操作子を含んで構成される。表示装置１８と一体に構成されたタッチパネルを入力装置１４として利用することも可能である。記憶装置１２は、演算処理装置１０が実行するプログラムや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。

　第１実施形態の音響解析装置１００Aは、収音装置１６が収音した歌唱音声Ｖを解析する信号処理装置である。演算処理装置１０は、記憶装置１２に記憶されたプログラムを実行することで、歌唱音声Ｖを解析するための複数の機能（特徴抽出部２２，印象特定部２４，提示処理部２６，関連式設定部４０，目標設定部４２，解析処理部４４）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、演算処理装置１０の機能の一部を専用の電子回路が実現する構成も採用され得る。

　特徴抽出部２２は、収音装置１６が収音した歌唱音声Ｖを解析することで、相異なる種類の音響特徴を示す複数（Ｎ個）の特徴指標Ｘ1～ＸNを抽出する（Ｎは自然数）。音響特徴は、歌唱音声Ｖの受聴者が感取する聴感的な印象（以下「聴覚印象」という）に影響する歌唱音声Ｖの音響的な特徴を意味する。具体的には、音高（ピッチ）の安定度，ビブラートの深度（音高の振幅），周波数特性等の多様な音響特徴の各々を数値化した特徴指標Ｘn（ｎ＝１～Ｎ）が歌唱音声Ｖから抽出される。第１実施形態の特徴抽出部２２が抽出するＮ個の特徴指標Ｘ1～ＸNの数値範囲は共通する。以上の説明から理解される通り、聴覚印象は、歌唱音声Ｖの受聴者が感取する主観的ないし感覚的な特徴（印象）を意味し、音響特徴は、歌唱音声Ｖの解析で抽出される客観的ないし物理的な特徴（特性）を意味する。

　印象特定部２４は、特徴抽出部２２が抽出したＮ個の特徴指標Ｘ1～ＸNを利用して歌唱音声Ｖの聴覚印象を特定する。第１実施形態の印象特定部２４は、歌唱音声Ｖの相異なる聴覚印象を示す複数（Ｍ個）の印象指標Ｙ1～ＹMを算定する（Ｍは自然数）。Ｍ個の印象指標Ｙ1～ＹMは、歌唱音声Ｖの受聴者が感取する主観的な歌唱スタイルの情報とも換言され得る。第１実施形態における任意の１個の印象指標Ｙm（ｍ＝１～Ｍ）は、相互に対立する２種類の印象の程度を数値化した指標である。具体的には、長幼（大人っぽい／子供っぽい），明暗（明るい／暗い），清濁（清らかで透明感がある／嗄れて濁っている）等の多様な聴覚印象の各々を数値化した印象指標Ｙmが特定される。例えば長幼に関する１個の印象指標Ｙmが正数の範囲で大きいほど大人っぽい音声を意味し、当該印象指標Ｙmが負数の範囲で小さいほど子供っぽい音声を意味する。

　Ｎ個の特徴指標Ｘ1～ＸNに応じた印象指標Ｙm（Ｙ1～ＹM）の算定には、印象指標Ｙm毎に事前に設定された演算式（以下「関連式」という）Ｆmが利用される。任意の１個の関連式Ｆmは、印象指標ＹmとＮ個の特徴指標Ｘ1～ＸNとの関係を表現する演算式である。第１実施形態の関連式Ｆmは、以下に例示される通り、Ｎ個の特徴指標Ｘ1～ＸNの一次式で各印象指標Ｙmを表現する。

　以上に例示した関連式Ｆmの係数ａnm（ａ11～ａNM）は、特徴指標Ｘnと印象指標Ｙmとの相関の度合に応じた定数（特徴指標Ｘnに対する印象指標Ｙmの勾配）であり、係数ｂm（ｂ1～ｂM）は所定の定数（切片）である。係数ａnmは、印象指標Ｙmに対する特徴指標Ｘnの寄与度（加重値）とも換言され得る。印象特定部２４は、特徴抽出部２２が抽出したＮ個の特徴指標Ｘ1～ＸNを関連式Ｆ1～ＦMの各々に適用することで、相異なる聴覚印象に対応するＭ個の印象指標Ｙ1～ＹMを算定する。なお、第１実施形態では前述の通り線形システムを例示するが、隠れマルコフモデルやニューラルネットワーク（多層パーセプトロン）等の非線形システムを印象指標Ｙm（Ｙ1～ＹM）の算定に利用することも可能である。

　図１の関連式設定部４０は、各聴覚印象の印象指標Ｙmの算定に利用される関連式Ｆm（Ｆ1～ＦM）を設定する。図１に例示される通り、第１実施形態の記憶装置１２には、参照データ群ＤRと関係性記述データＤCとが格納される。関連式設定部４０は、参照データ群ＤRと関係性記述データＤCとを利用してＭ個の関連式Ｆ1～ＦMを設定する。

　参照データ群ＤRは、複数の参照データｒの集合（データベース）である。参照データ群ＤRに包含される複数の参照データｒは、不特定多数の発声者が発音した音声（以下「参照音」という）を利用して事前に生成される。例えば任意の発声者が任意の楽曲を歌唱した音声が参照音として収録されて参照データｒの生成に利用される。図１に例示される通り、任意の１個の参照データｒは、参照音の各印象指標ｙm（ｙ1～ｙM）と当該参照音の特徴指標ｘn（ｘ1～ｘN）とを相互に対応させたデータである。印象指標ｙmは、参照音の受聴者が実際に感取した聴覚印象に応じた数値に設定され、特徴指標ｘnは、特徴抽出部２２と同様の処理で参照音から抽出された音響特徴の数値に設定される。すなわち、各参照データｒは、印象指標ｙmと特徴指標ｘnとの関係を実際に観測した資料（学習データ）に相当する。

　関係性記述データＤCは、聴覚印象と複数の音響特徴との間の対応関係（相関関係）を規定する。図２は、第１実施形態の関係性記述データＤCで規定される対応関係を例示する説明図である。図２に例示される通り、第１実施形態の関係性記述データＤCは、相異なる印象指標Ｙmに対応するＭ種類の聴覚印象ＥY（ＥY1～ＥYM）の各々について、当該聴覚印象ＥYmに影響する複数種の音響特徴ＥXとの対応関係λm（λ1～λM）を規定する。図２には、長幼と清濁と明暗との３種類の聴覚印象ＥY1～ＥY3の各々について複数種の音響特徴ＥXとの対応関係λ1～λ3が例示されている。

　各聴覚印象ＥYmに相関する音響特徴ＥXの具体的な内容は以下の通りである。以下に例示する各音響特徴ＥXの数値が前述の特徴指標Ｘnに相当する。
・音高の安定度：時間的な音高の微小変化（揺らぎ）の度合
・立上がりの速度：発音直後の音量の増加の度合
・フォール：音高を基準値（音符の音高）から低下させる歌唱表現の度合（例えば回数）
・しゃくり：音高を基準値から経時的に上昇させる歌唱表現の度合（例えば回数）
・ビブラートの深度：ビブラートにおける音高の変化の度合（例えば振幅や回数）
・輪郭：音響の明瞭性の度合。例えば、低域成分に対する高域成分の音量比が好適。
・滑舌：音響特性の時間的な変化の度合。例えば、周波数特性（例えばホルマント周波数や基本周波数）の時間的な変化の度合（典型的には時間変化率）が好適。
・アタック：発音直後の音量
・クレッシェンド：音量の経時的な増加の度合
・周波数特性：周波数スペクトルの形状
・高次倍音：高次側（高域側）の倍音成分の強度

　図２に例示される通り、第１実施形態の関係性記述データＤCが任意の１種類の聴覚印象ＥYmについて規定する対応関係λmは、当該聴覚印象ＥYmに関連する複数種の中間要素ＥZを聴覚印象ＥYmと各音響特徴ＥXとの間に介在させた階層関係（階層構造）である。１種類の聴覚印象ＥYmに関連する複数種の中間要素ＥZは、当該聴覚印象ＥYmを受聴者に知覚させる要因となる印象や当該聴覚印象ＥYmを複数に細分化した印象に相当する。任意の１個の中間要素ＥZには、当該中間要素ＥZに影響する複数種の音響特徴ＥXが対応付けられる。

　関係性記述データＤCで規定される各対応関係λmは、例えば、音楽や音声（歌唱）に関する専門的な知識が豊富な識者（例えば音楽の制作者または指導者や歌手等）に対する調査（インタビューやアンケート）により、各聴覚印象ＥYmと各音響特徴ＥXとの間の相関（どのような音響特徴ＥXの音声から受聴者が如何なる聴覚印象ＥYmを感取する傾向があるのか）を解析することで構築される。対応関係λmの構築には、評価グリッド法等に代表される公知の調査手法が任意に採用され得る。

　以上に説明した関係性記述データＤCは、対応関係λmに包含される各要素（音響特徴ＥX，中間要素ＥZ，聴覚印象ＥYm）の相互的な関係（連結）のみを規定し、各要素間の相関の度合については規定されない。以上の観点からすると、関係性記述データＤCで規定される各対応関係λmは、現実に不特定多数の発声者から収集した参照音から観測される音響特徴ＥXと聴覚印象ＥYmとの実際の相関（すなわち、現実の参照音の傾向が反映された参照データ群ＤRから統計的に観測される各印象指標ｙmと各特徴指標ｘnとの実際の関係）までは反映されていない仮説的な関係であると言える。

　以上に説明した参照データ群ＤRと関係性記述データＤCとが事前に作成されて記憶装置１２に格納される。図１の関連式設定部４０は、記憶装置１２に格納された参照データ群ＤRと関係性記述データＤCとを利用してＭ個の関連式Ｆ1～ＦMを設定する。すなわち、関連式設定部４０は、関係性記述データＤCが規定する各対応関係λmのもとで聴覚印象ＥYmの印象指標Ｙmと音響特徴ＥXの各特徴指標Ｘnとの関係を表現する関連式Ｆmを、Ｍ個の印象指標Ｙ1～ＹMの各々について設定する。具体的には、参照データ群ＤRの複数の参照データｒにおける印象指標ｙmと特徴指標ｘnとの相関の度合を関係性記述データＤCの対応関係λmに反映した関係が関連式Ｆmで表現されるように、関連式設定部４０は、各関連式ＦmのＮ個の係数ａ1m～ａNmと１個の係数ｂmとを設定する。関連式設定部４０による各関連式Ｆmの設定には、例えば、構造方程式モデリング（SEM：Structural Equation Modeling）や多変量解析（例えば重回帰分析）等の公知の統計処理が任意に採用され得る。なお、図２の例示から理解される通り、関係性記述データＤCで表現される対応関係λmのもとで聴覚印象ＥYmとの相関が規定される音響特徴ＥXの種類や総数は、実際には聴覚印象ＥYm毎に相違するが、前掲の各関連式Ｆmに包含される特徴指標Ｘnの種類や総数はＭ個の関連式Ｆ1～ＦMにわたり共通する。対応関係λmのもとで聴覚印象ＥYmとの相関が規定されていない音響特徴ＥXの特徴指標Ｘnに対応する係数ａnmは、関連式Ｆmにてゼロに設定される（すなわち、当該特徴指標Ｘnは印象指標Ｙmに影響しない）。

　以上の手順で関連式設定部４０が設定したＭ個の関連式（例えば構造方程式や重回帰式）Ｆ1～ＦMは記憶装置１２に格納される。具体的には、Ｎ個の係数ａ1m～ａNmと１個の係数ｂmとがＭ個の関連式Ｆ1～ＦMの各々について記憶装置１２に格納される。前述の通り、印象特定部２４は、関連式設定部４０が設定したＭ個の関連式Ｆ1～ＦMの各々にＮ個の特徴指標Ｘ1～ＸNを適用することでＭ種類の印象指標Ｙ1～ＹMを算定する。

　以上に説明した通り、第１実施形態では、歌唱音声Ｖから抽出される各特徴指標Ｘnと歌唱音声Ｖの聴覚印象を示す印象指標Ｙmとの関係を規定する関連式Ｆmを利用して、歌唱音声Ｖの聴覚印象（印象指標Ｙ1～ＹM）が特定される。したがって、例えば模範的な歌唱を示す基準値と歌唱音声Ｖの特徴指標Ｘnとの差異のみに着目して歌唱の巧拙を評価する技術と比較して、歌唱音声Ｖの受聴者が実際に感取する主観的な印象を適切に評価することが可能である。

　ところで、参照データ群ＤRの複数の参照データｒのみを解析することで印象指標ｙmと特徴指標ｘnとの相関の傾向を統計的に解析して関連式Ｆmを設定する構成（以下「対比例」という）も想定され得る。すなわち、対比例では関連式Ｆmの設定に関係性記述データＤCが利用されない。しかし、対比例では、実際には聴覚印象ＥYmに相関しない特定の音響特徴ＥXが潜在的な要因に起因して恰も聴覚印象ＥYmに相関するかのように認識される見掛け上の関係（疑似相関）の影響で、実際には印象指標Ｙmに相関しない特徴指標Ｘnが当該印象指標Ｙmに優勢に影響するような関連式Ｆmが導出される可能性がある。他方、第１実施形態では、各聴覚印象ＥYmと各音響特徴ＥXとの仮説的な対応関係λmを規定する関係性記述データＤCが参照データ群ＤRとともに関連式Ｆmの設定に利用されるから、聴覚印象ＥYmと音響特徴ＥXとの疑似相関の影響が低減（理想的には排除）される。したがって、聴覚印象ＥYmと各音響特徴ＥXとの実際の相関を適切に表現した関連式Ｆmを設定できるという利点がある。第１実施形態では、聴覚印象ＥYmに関連する複数の中間要素ＥZを介した聴覚印象ＥYmと各音響特徴ＥXとの対応関係λmが関係性記述データＤCで規定されるから、聴覚印象ＥYmと各音響特徴ＥXとを直接的に相関させた構成（対応関係λmが聴覚印象ＥYmおよび音響特徴ＥXのみを包含する構成）と比較して、聴覚印象ＥYmと各音響特徴ＥXとの実際の相関を関連式Ｆmで適切に表現できるという前述の効果は格別に顕著である。

　図１の提示処理部２６は、利用者に情報を提示する。第１実施形態の提示処理部２６は、表示装置１８に各種の画像を表示させることで利用者に情報を提示する。具体的には、提示処理部２６は、歌唱音声Ｖを解析した結果を表現する画像や、利用者からの指示を受付るための画像を表示装置１８に表示させる。

　図１の目標設定部４２は、Ｍ個の印象指標Ｙ1～ＹMの各々について目標値Ａm（Ａ1～ＡM）を設定する。具体的には、目標設定部４２は、入力装置１４に対する利用者からの指示に応じて各目標値Ａmを可変に設定する。

　例えば提示処理部２６は、各印象指標Ｙmの目標値Ａmの指示を受付ける図３の操作画面８０を表示装置１８に表示させる。操作画面８０は、Ｍ個の印象指標Ｙ1～ＹM（図３の例示ではＭ＝３）の各々に対応する操作子画像８２を包含する。各操作子画像８２は、入力装置１４に対する利用者からの指示に応じて移動するスライダ型の操作子の画像であり、利用者による目標値Ａmの指示を受付ける。目標設定部４２は、各操作子画像８２の位置に応じて各印象指標Ｙmの目標値Ａmを設定する。なお、操作画面８０の複数の操作子画像８２は各々が個別に移動され得るが、各操作子画像８２を相互に連動して移動させることも可能である。

　図１の解析処理部４４は、印象特定部２４が歌唱音声Ｖについて特定した各印象指標Ｙmを目標値Ａmに近付けるために変化させるべき音響特徴（特徴指標Ｘn）を特定する。第１実施形態の解析処理部４４は、各印象指標Ｙmを目標値Ａmに近付けるために変化させるべき音響特徴と当該変化の方向（増加／減少）とを指定する解析データＱを生成する。提示処理部２６は、解析処理部４４が生成した解析データＱの内容（変化対象の音響特徴と変化方向）を表示装置１８に表示させる。したがって、利用者は、自身の歌唱を目標の聴覚印象に近付けるための改善点を把握することが可能である。以上の説明から理解される通り、解析データＱの提示は、目標の聴覚印象を実現するための歌唱指導に相当する。

　第１実施形態の解析処理部４４は、印象指標Ｙmと目標値Ａmとの差分の絶対値|Ｙm－Ａm|をＭ個の聴覚印象について合計した数値（以下「合計差分」という）δを最小化するために変化させるべき音響特徴をＮ種類の音響特徴から特定する。具体的には、解析処理部４４は、Ｎ種類のうち任意の１種類の音響特徴の特徴指標Ｘnを所定の変化量ｐだけ変化させたと仮定した場合の合計差分δを、変化対象の音響特徴を相違させた複数の場合について算定したうえで相互に比較し、合計差分δが最小となる場合の変化対象の音響特徴と当該変化の方向（増加／現象）とを指定する解析データＱを生成する。

　任意の１個の特徴指標Ｘnを変化量ｐだけ変化させた場合の合計差分δは、以下の数式(A)で表現される。
　数式(A)のうち変化量ｐと係数ａnmとの乗算値の減算は、特徴指標Ｘnを変化量ｐだけ変化させる処理に相当する。解析処理部４４は、変化量ｐの正負を反転させた２通りの場合（ｐ＝±１）について、特徴指標Ｘnを変化量ｐだけ変化させた数式(A)の合計差分δを算定し、合計差分δが最小化された場合の変化対象の音響特徴と変化の方向（変化量ｐの正負）とを特定する。

　例えば、長幼の印象指標Ｙ1および清濁の印象指標Ｙ2と、ビブラートの深度を示す特徴指標Ｘ1および音高の正確性を示す特徴指標Ｘ2とに着目し（Ｍ＝Ｎ＝２）、関連式Ｆ1および関連式Ｆ2を以下のように仮定する（ａ11＝０.７，ａ21＝０.３，ａ12＝－０.４，ａ22＝０.７）。

　いま、印象指標Ｙ1が５であるのに対して目標値Ａ1が４であり、印象指標Ｙ2が４であるのに対して目標値Ａ2が６である場合を想定する（（Ｙ1,Ｙ2）＝（５,４），（Ａ1,Ａ2）＝（４,６））。すなわち、評価済の歌唱音声Ｖと比較して「子供っぽく清らかな音声」（Ｙ1：５→４，Ｙ2：４→６）を実現するために変化させるべき特徴指標Ｘnを探索する。

［１］ｐ＝１（特徴指標Ｘnの増加を仮定）
・条件１ａ：特徴指標Ｘ1の変化を仮定（ビブラートの深度を増加させる場合）
　δ＝｜Ａ1－Ｙ1－ｐ・ａ11｜＋｜Ａ2－Ｙ2－ｐ・ａ12｜
　　＝｜４－５－１・０.７｜＋｜６－４－１・（－０.４）｜
　　＝１.７＋２.４＝４.１
・条件１ｂ：特徴指標Ｘ2の変化を仮定（音高の正確性を増加させる場合）
　δ＝｜Ａ1－Ｙ1－ｐ・ａ21｜＋｜Ａ2－Ｙ2－ｐ・ａ22｜
　　＝｜４－５－１・０.３｜＋｜６－４－１・０.７｜
　　＝１.３＋１.３＝２.６
［２］ｐ＝－１（特徴指標Ｘnの減少を仮定）
・条件２ａ：特徴指標Ｘ1の変化を仮定（ビブラートの深度を減少させる場合）
　δ＝｜Ａ1－Ｙ1－ｐ・ａ11｜＋｜Ａ2－Ｙ2－ｐ・ａ12｜
　　＝｜４－５－（－１）・０.７｜＋｜６－４－（－１）・（－０.４）｜
　　＝０.３＋１.６＝１.９
・条件２ｂ：特徴指標Ｘ2の変化を仮定（音高の正確性を減少させる場合）
　δ＝｜Ａ1－Ｙ1－ｐ・ａ21｜＋｜Ａ2－Ｙ2－ｐ・ａ22｜
　　＝｜４－５－（－１）・０.３｜＋｜６－４－（－１）・０.７｜
　　＝０.７＋２.７＝３.４

　以上の通り、特徴指標Ｘ1を減少させる条件２ａのもとで合計差分δは最小値（δ＝１.９）となる。したがって、解析処理部４４は、歌唱音声Ｖを目標（Ａ1，Ａ2）に近付けるための条件として「ビブラートの深度の減少」（音響特徴＝ビブラートの深度，変化方向＝減少）を指定する解析データＱを生成する。以上の説明から理解される通り、目標値Ａmと相違する印象指標Ｙmの関連式Ｆmにおいて係数ａnmが大きい特徴指標Ｘn（すなわち印象指標Ｙmに対する影響が相対的に大きい特徴指標Ｘn）が、当該印象指標Ｙmを目標値Ａmに近付けるために変化させるべき特徴指標Ｘnとして優先的に選択される。解析処理部４４による解析の結果（解析データＱ）を表示装置１８で確認した利用者は、自身が目指す「子供っぽく清らかな音声」を実現するには「ビブラートの深度を減少させる」という方策が最善であると把握できる。

　図４は、解析データＱを生成する動作のフローチャートである。例えば入力装置１４に対する利用者からの操作（解析開始の指示）を契機として図４の処理が開始される。図４の処理を開始すると、特徴抽出部２２は、収音装置１６が収音した歌唱音声Ｖを取得し（Ｓ1）、歌唱音声Ｖのうち解析区間の音響特徴を示すＮ個の特徴指標Ｘ1～ＸNを抽出する（Ｓ2）。解析区間は、歌唱音声Ｖのうち聴覚印象の解析対象となる区間であり、例えば歌唱音声Ｖの全区間または一部の区間（例えばサビ区間）である。印象特定部２４は、特徴抽出部２２が抽出したＮ個の特徴指標Ｘ1～ＸNを各関連式Ｆmに適用することでＭ個の印象指標Ｙ1～ＹMを算定する（Ｓ3）。解析処理部４４は、印象特定部２４が算定した各印象指標Ｙmを目標設定部４２が設定した目標値Ａmに近付けるために変化させるべき音響特徴（特徴指標Ｘn）を特定して解析データＱを生成する（Ｓ4）。提示処理部２６は、解析処理部４４が生成した解析データＱの内容（変化対象の音響特徴と変化方向）を表示装置１８に表示させる（Ｓ5）。

　以上に説明した通り、第１実施形態では、歌唱音声Ｖの特徴指標Ｘnを各関連式Ｆmに適用することで歌唱音声Ｖの印象指標Ｙmが算定され、各印象指標Ｙmを目標値Ａmに近付けるために変化させるべき音響特徴が特定および提示される。したがって、音響特徴と聴覚印象との相関に関する専門的な知識を必要とせずに、歌唱音声Ｖの聴覚印象を目標に近付けるための最適な改善点（音響特徴）を利用者が把握し、歌唱音声Ｖの聴覚印象を効果的に目標に近付けることが可能である。なお、目標に近付くように利用者が自身の歌唱を改善することで、自己実現や健康維持（心理療法やフィットネス）の手法としての応用も期待できる。

＜第２実施形態＞
　本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

　図５は、第２実施形態の音響解析装置１００Bの構成図である。図５に例示される通り、第２実施形態の音響解析装置１００Bは、第１実施形態と同様の要素（特徴抽出部２２，印象特定部２４，関連式設定部４０，目標設定部４２，解析処理部４４）に音響処理部４６を追加した構成である。

　第２実施形態の目標設定部４２は、第１実施形態と同様に、例えば利用者からの指示に応じて各印象指標Ｙmの目標値Ａmを設定する。解析処理部４４は、印象特定部２４が歌唱音声Ｖについて特定した各印象指標Ｙmを目標値Ａmに近付けるために変化させるべき音響特徴（特徴指標Ｘn）を指定する解析データＱを第１実施形態と同様の方法で生成する。

　図５の音響処理部４６は、解析処理部４４が特定した音響特徴を変化させる音響処理を歌唱音声Ｖに対して実行する。具体的には、音響処理部４６は、解析処理部４４が生成した解析データＱで指定される音響特徴が、当該解析データＱで指定される方向に変化（増加／減少）するように、収音装置１６が収音した歌唱音声Ｖに対して音響処理を実行する。すなわち、歌唱音声ＶのＮ個の特徴指標Ｘ1～ＸNのうち、目標値Ａmと相違する印象指標Ｙmの関連式Ｆmにおいて係数（印象指標Ｙmに対する寄与度）ａnmが大きい特徴指標Ｘn（すなわち印象指標Ｙmを効率的に目標値Ａmに近付けることが可能な特徴指標Ｘn）が、音響処理部４６による音響処理で優先的に変更される。

　歌唱音声Ｖに対して実行される具体的な音響処理には、変更対象の音響特徴の種類に応じた公知の音響処理技術が任意に採用される。例えば、清濁に関する印象指標Ｙmを目標値Ａmに近付けるための特徴指標Ｘnが「ノイズ感」である場合、音響処理部４６は、歌唱音声Ｖに雑音成分を付与する音響処理（雑音付与処理）を実行する。また、例えば、前述の第１実施形態の例示のように「ビブラートの深度の減少」を解析データＱが指定する場合、音響処理部４６は、歌唱音声Ｖにおける音高の微小な変動を抑制する音響処理を歌唱音声Ｖに対して実行する。音響処理部４６による処理後の歌唱音声Ｖは例えば放音装置１７（スピーカやヘッドホン）から再生される。なお、歌唱音声Ｖの再生に代えて（または再生とともに）、音響処理部４６による処理後の歌唱音声Ｖのファイルを生成することも可能である。

　なお、解析データＱが指定する特徴指標Ｘn（以下では便宜的に「優先指標」という）を歌唱音声Ｖにて充分に（すなわち印象指標Ｙmが目標値Ａmに充分に近似する程度に）変動させることができない場合がある。例えば、解析データＱが「ビブラートの深度の増加」を指定しても、ビブラートが付加され得る程度の時間長にわたり音高が維持される区間を歌唱音声Ｖが包含しない場合には、優先指標である「ビブラートの深度」の増加により印象指標Ｙmを目標値Ａmに充分に近付けることはできない。以上の場合、音響処理部４６は、歌唱音声ＶのＮ個の特徴指標Ｘ1～ＸNのうち各印象指標ＹMを目標値Ａmに近付けるために有効な順番（合計差分δの昇順）で優先指標の次位に位置する特徴指標Ｘnが変化するように歌唱音声Ｖに対する音響処理を実行する。以上の構成によれば、歌唱音声Ｖの特性に関わらず各印象指標Ｙmを有効に目標値Ａmに近付けることが可能である。

　第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、歌唱音声Ｖの特徴指標Ｘnを各関連式Ｆmに適用することで歌唱音声Ｖの印象指標Ｙmが算定され、各印象指標Ｙmを目標値Ａmに近付けるために変化させるべき音響特徴が特定されたうえで、当該音響特徴を変化させる音響処理が歌唱音声Ｖに対して実行される。したがって、音響特徴と聴覚印象との相関に関する専門的な知識を必要とせずに、目標の聴覚印象の歌唱音声Ｖを生成することが可能である。第２実施形態では、各聴覚印象の目標値Ａmが利用者からの指示に応じて設定されるから、利用者の所望の聴覚印象の歌唱音声Ｖを有効に生成できるという利点がある。

＜変形例＞
　以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は適宜に併合され得る。

（１）印象特定部２４が特定した歌唱音声ＶのＭ個の印象指標Ｙ1～ＹMを表現する解析結果画像７０を提示処理部２６が表示装置１８に表示させる構成も好適である。図６は、Ｍ種類の印象指標Ｙ1～ＹMのうち長幼（大人っぽい／子供っぽい）に関する１個の印象指標Ｙ1と清濁（清らかで透明感がある／嗄れて濁っている）に関する１個の印象指標Ｙ2とを表象する解析結果画像７０の表示例である。図６から理解される通り、解析結果画像７０は、印象指標Ｙ1の数値を示す第１軸７１と印象指標Ｙ2の数値を示す第２軸７２とが設定された座標平面を包含する。第１軸７１のうち印象特定部２４が算定した印象指標Ｙ1の数値と、第２軸７２のうち印象特定部２４が算定した印象指標Ｙ2の数値とに対応した座標位置に、歌唱音声Ｖの聴覚印象を意味する画像（アイコン）７４が配置される。以上の説明から理解される通り、解析結果画像７０は、歌唱音声Ｖの聴覚印象を表象する画像（長幼や清濁を含む歌唱スタイルを表象する画像）である。利用者は、表示装置１８に表示された解析結果画像７０を視認することで、歌唱音声Ｖの聴覚印象を視覚的および直観的に把握することが可能である。

（２）前述の各形態では、複数の参照データｒが記憶装置１２に事前に記憶された場合を例示したが、以下に例示される通り、収音装置１６が収音した歌唱音声Ｖを参照音とした新規な参照データｒを利用して各関連式Ｆmを更新することも可能である。

　利用者（歌唱音声Ｖの発声者や受聴者）は、楽曲の終了後に、入力装置１４を適宜に操作することで歌唱音声Ｖの聴覚印象を指定する。例えば、Ｍ種類の聴覚印象の各々について印象指標Ｙmの複数の選択肢（複数段階の評価）が表示装置１８に表示され、利用者は、聴覚印象毎に所望の１個の選択肢を指定する。

　図１に破線の矢印で図示される通り、関連式設定部４０は、利用者が指定した各聴覚印象の印象指標ｙm（ｙ1～ｙm）と歌唱音声Ｖについて特徴抽出部２２が抽出した各特徴指標ｘn（ｘ1～ｘN）とを含む参照データｒを取得して記憶装置１２に格納する。そして、関連式設定部４０は、歌唱音声Ｖに応じた新規な参照データｒを包含する参照データ群ＤRを利用して、第１実施形態と同様の方法で関連式Ｆm（Ｆ1～ＦM）を設定および記憶する。すなわち、収音装置１６が収音した歌唱音声Ｖの聴覚印象（印象指標ｙm）と音響特徴（特徴指標ｘn）との関係を反映した内容に既定の関連式Ｆm（Ｆ1～ＦM）が更新される。以上の構成によれば、関連式Ｆ1～ＦMを、実際の歌唱音声Ｖの聴覚印象と音響特徴との関係を反映した内容に更新できるという利点がある。なお、参照データ群ＤRを利用した関連式Ｆmの設定（更新）の時期は任意である。例えば、歌唱音声Ｖに応じた参照データｒの取得毎に関連式Ｆmを更新する構成や、新規な参照データｒが所定数だけ蓄積された場合に関連式Ｆmを更新する構成が採用され得る。

（３）前述の各形態では、楽曲の全区間にわたる歌唱音声Ｖを対象として聴覚印象を特定したが、歌唱音声Ｖを時間軸上で区分した複数の区間の各々について聴覚印象（Ｍ個の印象指標Ｙ1～ＹM）を順次に特定することも可能である。歌唱音声Ｖの区間毎に聴覚印象を順次に特定する場合、前述の各形態で例示した解析データＱを、歌唱音声Ｖの各区間の聴覚印象に応じて区間毎に順次に（実時間的に）更新する構成も採用され得る。

（４）前述の各形態では、収音装置１６が収音した歌唱音声Ｖを解析する要素（特徴抽出部２２，印象特定部２４，提示処理部２６，目標設定部４２，解析処理部４４，音響処理部４６）と、各関連式Ｆmを設定する関連式設定部４０との双方を具備する音響解析装置１００（１００A，１００B）を例示したが、関連式設定部４０を他の要素とは別体の装置に搭載することも可能である。

　例えば図７に例示される通り、通信網２００（例えばインターネット）を介して相互に通信する音響解析装置１１０と音響解析装置１２０とに、前述の各形態で例示した機能を分担させることも可能である。音響解析装置（関連式設定装置）１１０は、参照データ群ＤRと関係性記述データＤCとを利用して第１実施形態と同様の方法でＭ個の関連式Ｆ1～ＦMを設定する関連式設定部４０を具備する。例えば通信網２００に接続されたサーバ装置で音響解析装置１１０は実現される。図７に例示される通り、音響解析装置１１０（関連式設定部４０）が設定したＭ個の関連式Ｆ1～ＦMは、通信網２００を介して音響解析装置１２０に転送される。音響解析装置１１０から複数の音響解析装置１２０にＭ個の関連式Ｆ1～ＦMを共通に転送することも可能である。音響解析装置１２０は、特徴抽出部２２と印象特定部２４とを含んで構成され、音響解析装置１１０から転送されたＭ個の関連式Ｆ1～ＦMを利用して第１実施形態と同様に歌唱音声Ｖを解析することで歌唱音声Ｖの聴覚印象（Ｍ個の印象指標Ｙ1～ＹM）を特定する。音響解析装置１２０には、第１実施形態および第２実施形態と同様の目標設定部４２および解析処理部４４が設置され得る。図７の構成では、参照データ群ＤRおよび関係性記述データＤCの保持や各関連式Ｆmの設定を音響解析装置１２０に実行させる必要がないから、音響解析装置１２０の構成および処理が簡素化されるという利点がある。

（５）前述の各形態では、利用者からの指示に応じて各目標値Ａmを設定したが、目標値Ａmの設定の方法は以上の例示に限定されない。例えば、楽曲毎に目標値Ａm（Ａ1～ＡM）を事前に選定し、利用者が実際に歌唱する楽曲の目標値Ａmを目標設定部４２が選択する構成も採用され得る。また、利用者が歌唱する楽曲の属性（主旋律，ジャンル，歌手等）に応じて目標設定部４２が各目標値Ａmを可変に設定することも可能である。

（６）前述の各形態では、参照データ群ＤRと関係性記述データＤCとを利用して設定された関連式Ｆmを例示したが、関連式Ｆmの設定方法は本発明において任意である。例えば、前述の疑似相関が特段の問題とならない場合、対比例と同様に、関係性記述データＤCを利用せずに、参照データ群ＤRの複数の参照データｒのみを利用して印象指標ｙmと特徴指標ｘnとの相関の傾向を統計的に解析することで各印象指標Ｙmの関連式Ｆmを設定することも可能である。

（７）前述の各形態では、利用者が楽曲を歌唱した歌唱音声Ｖを例示したが、解析対象は歌唱音声Ｖに限定されない。例えば、会話音等の音声や楽器の演奏音（楽音）、音声合成技術で生成された合成音声（歌唱音声や会話音）について各関連式Ｆmを利用した解析で聴覚印象（Ｍ個の印象指標Ｙ1～ＹM）を特定することも可能である。例えば、楽器の演奏音の解析では、前述の各形態と同様に、明暗や清濁等の印象指標Ｙmが特定され得る。楽器の演奏音については、「こもった／抜けのよい」や「遠鳴りがする／そば鳴りがする」等の聴覚印象を用いてもよい。また、遠隔地間で音声を授受する遠隔会議システムのもとで各地点にて再生される音声（例えば会議での会話音）や、スピーカ等の放音装置を含む任意の音響システムから放射される音響についても聴覚印象を特定し得る。以上の説明から理解される通り、本発明において解析対象となる音響（解析対象音）の具体的な内容（種類）や発音の原理等は任意である。

　以上の各形態に係る音響解析装置は、専用の電子回路で実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、以上の各形態に係る音響解析装置の動作方法（音響解析方法）としても本発明は特定される。

　本出願は、２０１４年９月１２日出願の日本特許出願（特願２０１４－１８６１９３）に基づくものであり、その内容はここに参照として取り込まれる。

本発明によれば、音響特徴と聴覚印象との相関に関する専門的な知識を必要とせずに音響の聴覚印象を目標に近付けることが可能である。

１００（１００A，１００B），１１０，１２０……音響解析装置、１０……演算処理装置、１２……記憶装置、１４……入力装置、１６……収音装置、１８……表示装置、２２……特徴抽出部、２４……印象特定部、２６……提示処理部、４０……関連式設定部、４２……目標設定部、４４……解析処理部、４６……音響処理部。

Claims

　解析対象音の特徴指標を抽出する特徴抽出手段と、
　参照音の聴覚印象を示す印象指標と当該参照音の音響特徴を示す特徴指標とを相互に対応させた複数の参照データ、および、前記聴覚印象と複数種の音響特徴との対応関係を規定する関係性記述データを利用して設定され、前記関係性記述データで規定される対応関係における前記聴覚印象の印象指標と前記複数種の音響特徴の特徴指標との関係を表現する関連式に、前記特徴抽出手段が抽出した特徴指標を適用することで、前記解析対象音の印象指標を算定する印象特定手段と
　印象指標の目標値を設定する目標設定手段と、
　前記印象特定手段が算定した前記解析対象音の印象指標を前記目標値に近付けるために変化させるべき音響特徴を特定する解析処理手段と
　を具備する音響解析装置。
　前記解析処理手段が特定した音響特徴を利用者に提示する提示処理手段
　を具備する請求項１の音響解析装置。
　前記解析処理手段が特定した音響特徴を変化させる音響処理を前記解析対象音に対して実行する音響処理手段
　を具備する請求項１の音響解析装置。
　前記目標設定手段は、利用者からの指示に応じて前記目標値を設定する
　請求項１から請求項３の何れかの音響解析装置。