JP6197569B2 - Acoustic analyzer - Google Patents
Acoustic analyzer Download PDFInfo
- Publication number
- JP6197569B2 JP6197569B2 JP2013216008A JP2013216008A JP6197569B2 JP 6197569 B2 JP6197569 B2 JP 6197569B2 JP 2013216008 A JP2013216008 A JP 2013216008A JP 2013216008 A JP2013216008 A JP 2013216008A JP 6197569 B2 JP6197569 B2 JP 6197569B2
- Authority
- JP
- Japan
- Prior art keywords
- matrix
- analysis
- coefficient
- genre
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
Description
本発明は、音響信号を解析する技術に関する。 The present invention relates to a technique for analyzing an acoustic signal.
楽曲の演奏音を表す音響信号の特徴を解析する各種の技術が従来から提案されている。例えば非特許文献1には、多数の楽曲の音響信号に対して非負値行列因子分解(NMF:Nonnegative Matrix Factorization)を実行した結果を利用して楽曲のジャンルを推定する技術が開示されている。
Various techniques for analyzing the characteristics of acoustic signals representing the performance sound of music have been proposed. For example, Non-Patent
しかし、非特許文献1のように既存の非負値行列因子分解を音響信号の解析に単純に適用した構成では、実際には音響信号の高精度な解析は困難である。以上の事情を考慮して、本発明は、楽曲のジャンルやスタイル等の区分を高精度に解析することを目的とする。
However, in the configuration in which the existing non-negative matrix factorization is simply applied to the analysis of the acoustic signal as in
以上の課題を解決するために、本発明の音響解析装置は、複数の参照音を分類した複数の区分について、区分内の参照音の周波数特性を表す複数の基底ベクトルを含む区分毎の参照基底行列(例えば参照基底行列B[g])と、参照基底行列の各基底ベクトルの加重値の時間変動を表す複数の係数ベクトルを含む解析係数行列(例えば解析係数行列Y[g])との行列積を、区分毎の第1区分加重値(例えば区分加重値wA[g])のもとで加重加算した結果が、解析対象音の周波数特性の時系列を表す解析特性行列(例えば解析特性行列X)に近似するように、第1区分加重値と解析係数行列とを区分毎に算定する行列解析手段を具備する。以上の構成では、参照基底行列と解析係数行列との行列積を区分毎の第1区分加重値のもとで加重加算した結果が解析対象音の解析特性行列に近似するように、第1区分加重値と解析係数行列とが参照音の区分毎に個別に算定されるから、相異なる複数の区分の参照音に音響特性が類似する音響成分を解析対象音が包含する場合でも、当該音響成分は1個の区分の解析係数行列に優勢に反映される。すなわち、解析対象音の解析係数行列が高精度に推定される。したがって、解析対象音のジャンルやスタイル等の区分を高精度に解析することが可能である。なお、各区分は典型的には複数の参照音を包含するが、1個の参照音のみを各区分に包含させることも可能である。 In order to solve the above problems, the acoustic analysis device of the present invention provides a reference basis for each section including a plurality of basis vectors representing frequency characteristics of reference sounds in the section for a plurality of sections into which a plurality of reference sounds are classified. A matrix (e.g., reference coefficient matrix B [g]) and an analysis coefficient matrix (e.g., analysis coefficient matrix Y [g]) including a plurality of coefficient vectors representing temporal variation of the weights of the respective base vectors of the reference basis matrix An analysis characteristic matrix (for example, an analysis characteristic matrix) in which a product is weighted and added under a first classification weight value (for example, a classification weight value wA [g]) for each classification, and represents a time series of frequency characteristics of the analysis target sound. A matrix analyzing means for calculating the first section weight value and the analysis coefficient matrix for each section so as to approximate to X). In the above configuration, the first division is made so that the result of weighted addition of the matrix product of the reference basis matrix and the analysis coefficient matrix under the first division weight value for each division approximates the analysis characteristic matrix of the analysis target sound. Since the weight value and the analysis coefficient matrix are individually calculated for each reference sound category, even if the analysis target sound includes an acoustic component having an acoustic characteristic similar to the reference sound of different categories, the sound component Is predominantly reflected in the analysis coefficient matrix of one section. That is, the analysis coefficient matrix of the analysis target sound is estimated with high accuracy. Therefore, it is possible to analyze the category of the analysis target sound such as the genre and style with high accuracy. Each section typically includes a plurality of reference sounds, but only one reference sound can be included in each section.
本発明の好適な態様に係る音響解析装置は、参照音の周波数特性の時系列を表す複数の参照特性行列(例えば参照特性行列R[g,s])を、参照基底行列と、当該参照基底行列の各基底ベクトルの加重値の時間変動を表す複数の係数ベクトルを含む参照係数行列(例えば参照係数行列Z[g,s])とに分解したときの当該参照係数行列と、行列解析手段が算定した解析係数行列とを比較する特性比較手段を具備する。以上の構成によれば、参照特性行列を参照基底行列と参照係数行列とに分解(非負値行列因子分解)したときの当該参照係数行列と解析対象音の解析係数行列とが比較されるから、解析対象音と参照音との間で各音響成分の時間的なパターンの類否の度合を評価することが可能である。 The acoustic analysis device according to a preferred aspect of the present invention includes a plurality of reference characteristic matrices (for example, a reference characteristic matrix R [g, s]) representing a time series of frequency characteristics of a reference sound, a reference basis matrix, and the reference basis. A reference coefficient matrix when decomposed into a reference coefficient matrix (for example, a reference coefficient matrix Z [g, s]) including a plurality of coefficient vectors representing a time variation of a weight value of each basis vector of the matrix, and matrix analysis means A characteristic comparison means for comparing the calculated analysis coefficient matrix is provided. According to the above configuration, the reference coefficient matrix when the reference characteristic matrix is decomposed into a reference basis matrix and a reference coefficient matrix (non-negative matrix factorization) is compared with the analysis coefficient matrix of the analysis target sound. It is possible to evaluate the degree of similarity of temporal patterns of each acoustic component between the analysis target sound and the reference sound.
本発明の好適な態様において、特性比較手段は、参照基底行列と参照係数行列との行列積を区分毎の第2区分加重値(例えば区分加重値wB[g,s])のもとで加重加算した結果が参照特性行列に近似するように、第2区分加重値と参照係数行列とを区分毎に算定したときの当該各参照係数行列を、行列解析手段が算定した解析係数行列と比較する。以上の態様では、参照基底行列と参照係数行列との行列積を区分毎の第2区分加重値のもとで加重加算した結果が参照音の参照特性行列に近似するように、第2区分加重値と参照係数行列とが区分毎に個別に算定されるから、参照音の参照係数行列を高精度が高精度に推定される。したがって、解析対象音のジャンルやスタイル等の区分を高精度に解析できるという前述の効果は格別に顕著である。 In a preferred aspect of the present invention, the characteristic comparison means weights the matrix product of the reference basis matrix and the reference coefficient matrix under a second segment weight value (for example, a segment weight value wB [g, s]) for each segment. Each reference coefficient matrix when the second section weight value and the reference coefficient matrix are calculated for each section is compared with the analysis coefficient matrix calculated by the matrix analyzing means so that the addition result approximates the reference characteristic matrix. . In the above aspect, the second section weighting is performed so that the result of weighted addition of the matrix product of the reference basis matrix and the reference coefficient matrix under the second section weight value for each section approximates the reference characteristic matrix of the reference sound. Since the value and the reference coefficient matrix are individually calculated for each section, the reference coefficient matrix of the reference sound is estimated with high accuracy. Therefore, the above-described effect of being able to analyze the genre, style, etc. of the analysis target sound with high accuracy is particularly remarkable.
本発明の好適な態様において、特性比較手段は、複数の区分のうち行列解析手段が区分毎に算定した第1区分加重値に応じて選択された特定区分内の複数の参照音の各々について、当該参照音の参照係数行列と、行列解析手段が特定区分について算定した解析係数行列とを比較する。以上の態様では、複数の区分のうち第1区分加重値に応じて選択された特定区分(例えば第1区分加重値が最大となる区分)内の複数の参照音の各々について参照係数行列と解析対象音の解析係数行列とが比較されるから、複数の区分の全部について参照係数行列の算定や解析係数行列との比較を実行する構成と比較して処理量が削減されるという利点がある。 In a preferred aspect of the present invention, the characteristic comparison means for each of the plurality of reference sounds in the specific section selected according to the first section weight value calculated for each section by the matrix analysis means among the plurality of sections. The reference coefficient matrix of the reference sound is compared with the analysis coefficient matrix calculated by the matrix analysis unit for the specific section. In the above aspect, the reference coefficient matrix and the analysis are performed for each of a plurality of reference sounds in a specific section selected according to the first section weight value among the plurality of sections (for example, the section having the maximum first section weight value). Since the analysis coefficient matrix of the target sound is compared, there is an advantage that the processing amount is reduced as compared with the configuration in which the calculation of the reference coefficient matrix and the comparison with the analysis coefficient matrix are performed for all of the plurality of sections.
本発明の好適な態様において、複数の参照音は、音楽的なスタイルが相違する各楽曲の伴奏音であり、楽曲のジャンル毎に複数の区分に分類され、特定区分のジャンルの名称と特性比較手段による比較結果に応じて選択された参照音のスタイルの名称とを表示装置に表示させる表示制御手段を具備する。以上の態様では、特定区分のジャンルの名称と特性比較手段による比較結果に応じて選択された参照音のスタイルの名称とが表示装置に表示されるから、解析対象音のジャンルおよびスタイルの判別を所望する利用者に有用な情報を提供できるという利点がある。 In a preferred embodiment of the present invention, the plurality of reference sounds are accompaniment sounds of music pieces having different musical styles, and are classified into a plurality of categories for each music genre, and the characteristics of the specific categories are compared with the names of the genres. Display control means for displaying on the display device the name of the style of the reference sound selected according to the comparison result by the means; In the above aspect, since the name of the genre of the specific category and the name of the reference sound style selected according to the comparison result by the characteristic comparison unit are displayed on the display device, the genre and style of the analysis target sound can be discriminated. There is an advantage that useful information can be provided to a desired user.
以上の各態様に係る音響解析装置は、解析対象音の解析に専用されるDSP(Digital Signal Processor)等のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音響解析装置の動作方法(音響解析方法)としても特定される。 The acoustic analysis device according to each of the above aspects is realized by hardware (electronic circuit) such as DSP (Digital Signal Processor) dedicated to analysis of the analysis target sound, and a general-purpose such as CPU (Central Processing Unit). This is also realized by cooperation between the arithmetic processing unit and the program. The program of the present invention can be provided in a form stored in a computer-readable recording medium and installed in the computer. The recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium can be included. For example, the program of the present invention can be provided in the form of distribution via a communication network and installed in a computer. The present invention is also specified as an operation method (acoustic analysis method) of the acoustic analysis device according to each aspect described above.
<第1実施形態>
図1は、本発明の第1実施形態に係る音響解析装置100の構成図である。図1に例示される通り、音響解析装置100には信号供給装置12と表示装置14とが接続される。信号供給装置12は、音響信号AXを音響解析装置100に供給する。音響信号AXは、音響解析装置100による解析の対象となる音響(以下「解析対象音」という)の波形を表す信号である。第1実施形態では、楽曲を構成する複数の演奏パートの演奏音(歌唱者の音声や楽器の楽音)の混合音を解析対象音として想定する。可搬型または内蔵型の記録媒体から音響信号AXを取得して音響解析装置100に供給する再生装置や、配信サーバ装置から配信(例えばストリーミング配信)された楽曲の音響信号AXを通信網から受信して音響解析装置100に供給する通信装置が、信号供給装置12として好適に採用される。なお、信号供給装置12を音響解析装置100と一体に構成することも可能である。
<First Embodiment>
FIG. 1 is a configuration diagram of an
音響解析装置100は、信号供給装置12から供給される音響信号AXを解析する信号処理装置である。具体的には、第1実施形態の音響解析装置100は、音響信号AXで表現される楽曲のジャンルとスタイルとを推定する。ジャンルは、楽曲を音楽的な観点で分類した区分(種類)を意味し、スタイルは、楽曲をジャンルよりも詳細に分類した区分(様式)を意味する。例えばロックやポップスやクラシック等の区分がジャンルに相当し、60年代や80年代等の区分がスタイルに相当する。第1実施形態では、音響信号AXのジャンルをG個(Gは2以上の自然数)の候補から推定するとともに1個のジャンルにおける音響信号AXのスタイルをS個(Sは2以上の自然数)の候補から推定する場合を想定する。以下の説明では便宜的に、G個のジャンルの各々が同数(S個)のスタイルを包含する場合を想定するが、実際にはスタイルの種類や総数Sはジャンル毎に相違する。図1の表示装置14(例えば液晶表示パネル)は、音響解析装置100からの指示に応じた画像を表示する。具体的には、音響解析装置100による音響信号AXの解析結果(楽曲のジャンルおよびスタイル)が表示装置14に表示される。
The
図1に例示される通り、音響解析装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムや演算処理装置22が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置24として利用される。音響信号AXを記憶装置24に記憶した構成(したがって、信号供給装置12は省略され得る)も好適である。
As illustrated in FIG. 1, the
第1実施形態の記憶装置24は、音響信号AXの解析に利用される複数の参照データDR[g,s](g=1〜G,s=1〜S)を記憶する。図1に例示される通り、各参照データDR[g,s]は、属性情報dと参照信号ARとを含んで構成される。参照信号ARは、音響信号AXの解析に利用される音響(以下「参照音」という)の波形を表す信号である。参照データDR[g,s]の参照信号ARで表現される参照音は、第g番目のジャンルと第s番目のスタイルとの組合せに対応する楽曲の伴奏パートに好適な演奏音(例えば当該組合せに該当する既存の楽曲で多用される傾向がある打楽器等のリズム楽器の伴奏パターン)である。楽曲の所定長(例えば4小節分)の区間にわたる参照音が各参照信号ARで表現される。
The
属性情報dは、参照音に対応する楽曲(例えば参照音が伴奏パートの演奏音として好適な楽曲)の属性を指定する。具体的には、参照データDR[g,s]の属性情報dは、第g番目のジャンルの名称(ロックやポップス等の名称)と第s番目のスタイルの名称(60年代や80年代等の名称)とを指定する。楽曲のジャンルまたはスタイルが相違する多数の参照音の各々について参照データDR[g,s]が事前に用意されて記憶装置24に格納される。以上の説明から理解される通り、複数の参照音は、G個のジャンルとS個のスタイルとに分類される。なお、楽曲の参照音の発音/消音を時系列に指定するMIDI(Musical Instrument Digital Interface)形式の演奏データを参照データDR[g,s]として記憶装置24に記憶し、演奏データから参照信号ARを生成する構成も採用され得る。
The attribute information d designates an attribute of a song corresponding to the reference sound (for example, a song whose reference sound is suitable as a performance sound of the accompaniment part). Specifically, the attribute information d of the reference data DR [g, s] includes the name of the gth genre (name of rock, pop, etc.) and the name of the sth style (e.g. 60's or 80's). Name). Reference data DR [g, s] is prepared in advance and stored in the
演算処理装置22は、記憶装置24に記憶されたプログラムを実行することで、音響信号AXを解析するための複数の機能(基底学習部32,行列解析部34,係数算定部36,特性比較部38,表示制御部40)を実現する。なお、演算処理装置22の各機能を複数の集積回路に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置22の一部の機能を実現する構成も採用され得る。
The
基底学習部32は、記憶装置24に記憶された各参照データDR[g,s]から相異なるジャンルに対応するG個の参照基底行列B[1]〜B[G]を生成する。図2に例示される通り、任意の1個の参照基底行列B[g]は、第g番目のジャンルに分類される楽曲の伴奏パートに典型的に出現する各音響成分に対応するK個の基底ベクトルb[1]〜b[K]を横方向に配列したM行K列の非負値行列(基底行列)である。参照基底行列B[g]のうち第k列(k=1〜K)の基底ベクトルb[k]は、第g番目のジャンルの楽曲の伴奏パートの参照音に典型的に出現するK種類の音響成分のうち第k番目の音響成分の周波数特性(振幅スペクトルまたはパワースペクトル)を表現する。参照基底行列B[g]の行数(基底ベクトルb[k]の要素数)Mは、周波数軸上に離散的に設定された周波数の個数に相当する。なお、以下の説明では便宜的に、参照基底行列B[g]の列数KをG個の参照基底行列B[1]〜B[G]にわたり共通させた場合を例示するが、参照基底行列B[g]毎(ジャンル毎)に列数Kを相違させることも可能である。
The
図3は、基底学習部32が参照データDR[g,s]から各参照基底行列B[g]を算定する処理(以下「基底学習処理」という)のフローチャートである。基底学習処理を開始すると、基底学習部32は、記憶装置24に記憶された複数の参照データDR[g,s]の各々について参照特性行列R[g,s]を生成する(SA1)。参照特性行列R[g,s]は、図2に例示される通り、参照データDR[g,s]の参照信号ARの周波数特性の時系列(スペクトログラム)を表すM行N列(Nは2以上の自然数)の非負値行列である。すなわち、参照特性行列R[g,s]の第n列(n=1〜N)は、参照データDR[g,s]の参照信号ARを時間軸上で区分したN個のフレームのうち第n番目のフレームでの参照信号ARの周波数特性(振幅スペクトルまたはパワースペクトル)に相当する。参照基底行列B[g]の生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用される。なお、以下の各図面において記号tは時間を意味し、記号fは周波数を意味する。
FIG. 3 is a flowchart of a process in which the
基底学習部32は、各参照データDR[g,s]から算定した複数((G×S)個)の参照特性行列R[g,s](R[1,1]〜R[G,S])をジャンル毎に区分し、各ジャンルのS個の参照特性行列R[g,1]〜R[g,S]に応じた結合特性行列R[g]をジャンル毎に生成する(SA2)。具体的には、結合特性行列R[g]は、図2に例示される通り、第g番目のジャンルに対応するS個の参照特性行列R[g,1]〜R[g,S]を横方向(時間軸方向)に配列したM行(N×S)列の非負値行列である。
The
基底学習部32は、結合特性行列R[g]に対する非負値行列因子分解で第g番目のジャンルの参照基底行列B[g]を算定する(SA3)。具体的には、基底学習部32は、結合特性行列R[g]を参照基底行列B[g]と図2の係数行列H[g]とに分解する。係数行列H[g]は、参照基底行列B[g]の各基底ベクトルb[k]に対応するK個の係数ベクトルh[1]〜h[K]を縦方向に配列したK行(N×S)列の非負値行列(アクティベーション)である。係数行列H[g]の第k行の係数ベクトルh[k]は、参照基底行列B[g]の基底ベクトルb[k]に対する加重値(活性度)の時間変動に相当する。基底学習部32は、参照基底行列B[g]と係数行列H[g]との行列積B[g]H[g]が結合特性行列R[g]に近付くように参照基底行列B[g]と係数行列H[g]とを反復的に更新する学習処理で参照基底行列B[g]と係数行列H[g]とを算定する。結合特性行列R[g]の非負値行列因子分解(参照基底行列B[g]の算定)には公知の技術が任意に採用される。
The
結合特性行列R[g]の非負値行列因子分解(SA3)がジャンル毎に実行されることで、相異なるジャンルに対応するG個の参照基底行列B[1]〜B[G]が生成される。以上の説明から理解される通り、参照基底行列B[g]は、第g番目のジャンルの相異なるスタイルに対応するS個の参照音(参照データDR[g,1]〜DR[g,S]の各々の参照信号ARで表現される参照音)に優勢に出現する音響成分の周波数特性を表現する。なお、参照基底行列B[g]とともに算定される係数行列H[g]は破棄されて音響信号AXの解析には利用されない。 By executing non-negative matrix factorization (SA3) of the coupling characteristic matrix R [g] for each genre, G reference basis matrices B [1] to B [G] corresponding to different genres are generated. The As understood from the above description, the reference basis matrix B [g] is represented by S reference sounds corresponding to different styles of the g-th genre (reference data DR [g, 1] to DR [g, S ] Represents the frequency characteristics of acoustic components that appear predominantly in each reference signal AR). Note that the coefficient matrix H [g] calculated together with the reference basis matrix B [g] is discarded and is not used for the analysis of the acoustic signal AX.
図1の行列解析部34は、基底学習部32が算定したG個の参照基底行列B[1]〜B[G]を利用して解析対象音の音響信号AXを解析する。第1実施形態の行列解析部34は、以下に詳述する通り、音響信号AXの周波数特性の時系列を表す解析特性行列Xについて、基底学習部32が算定した各参照基底行列B[g]を教師情報(事前情報)として利用した教師あり非負値行列因子分解を実行する。
The
図4は、行列解析部34が音響信号AXの解析特性行列Xを解析する処理(以下「行列解析処理」という)のフローチャートであり、図5は、行列解析処理の説明図である。行列解析処理を開始すると、行列解析部34は、図5に例示される通り、信号供給装置12が供給する音響信号AXから解析対象の区間(以下「解析区間」という)を抽出する(SB1,SB2)。具体的には、行列解析部34は、音響信号AXの時間軸上の各拍点を特定し(SB1)、各拍点を境界として音響信号AXから解析区間を抽出する(SB2)。解析区間は、音響信号AXのうち各参照信号ARと同等の時間長(例えば4小節分)の区間である。なお、音響信号AXの拍点の特定には公知の技術(ビート検出)が任意に採用される。例えば、行列解析部34は、時間軸上で音響信号AXの音量が極大となる略等間隔の時点を拍点として特定する。
FIG. 4 is a flowchart of a process in which the
行列解析部34は、音響信号AXの解析区間について解析特性行列Xを生成する(SB3)。解析特性行列Xは、図5に例示される通り、解析区間内の音響信号AXの周波数特性の時系列(スペクトログラム)を表すM行N列の非負値行列である。すなわち、解析特性行列Xの第n列は、解析区間を時間軸上で区分したN個のフレームのうち第n番目のフレームでの音響信号AXの周波数特性(振幅スペクトルまたはパワースペクトル)に相当する。解析特性行列Xの生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用される。
The
行列解析部34は、解析特性行列Xに対して非負値行列因子分解を実行する(SB4)。第1実施形態の行列解析部34が実行する非負値行列因子分解は、図5からも理解される通り、相異なるジャンルに対応するG個の係数(以下「区分加重値」という)wA[1]〜wA[G]を適用した以下の数式(1)で表現される。
数式(1)および図5から理解される通り、第1実施形態の行列解析部34は、参照基底行列B[g]と解析係数行列Y[g]との行列積B[g]Y[g]をジャンル毎の区分加重値wA[g]のもとで加重加算した結果(数式(1)の右辺)が音響信号AXの解析特性行列Xに近似するように、区分加重値wA[g](wA[1]〜wA[G])と解析係数行列Y[g](Y[1]〜Y[G])とをジャンル毎に算定する。具体的には、行列解析部34は、区分加重値wA[1]〜wA[G]を適用したG個の行列積B[1]Y[1]〜B[G]Y[G]の加重和が解析特性行列Xに近付くように各区分加重値wA[g]と各解析係数行列Y[g]とを反復的に更新する学習処理で、各ジャンルの区分加重値wA[g]と解析係数行列Y[g]とを一括的に算定する。区分加重値wA[g]および解析係数行列Y[g]の更新式は、非負値行列因子分解に適用される既存の更新式の導出と同様に、例えば区分加重値wA[1]〜wA[G]を適用したG個の行列積B[1]Y[1]〜B[G]Y[G]の加重和と音響信号AXの解析特性行列Xとの差分に相当する評価関数が最小化される(評価関数の微分値がゼロになる)という条件から導出される。
The
As understood from Equation (1) and FIG. 5, the
解析係数行列Y[g]は、図5に例示される通り、参照基底行列B[g]の各基底ベクトルb[k]に対応するK個の係数ベクトルy[1]〜y[K]を縦方向に配列したK行N列の非負値行列である。解析係数行列Y[g]の第k行の係数ベクトルy[k]は、参照基底行列B[g]の基底ベクトルb[k]に対する加重値(活性度)の時間変動(すなわち、基底ベクトルb[k]の音響成分が解析対象音の音響信号AXに出現する時間的なパターン)に相当する。したがって、参照基底行列B[g]と解析係数行列Y[g]との行列積B[g]Y[g]は、音響信号AXのうち第g番目のジャンルの各参照音に優勢に出現する音響成分の周波数特性の時系列(スペクトログラム)に相当する。以上の説明から理解される通り、各区分加重値wA[g]は、第g番目のジャンルの楽曲の伴奏パートに多用される音響成分を解析対象音の音響信号AXが含有する度合(優勢度)の指標に相当する。すなわち、行列解析部34が算定する区分加重値wA[g]が大きいほど、第g番目のジャンルに多用される音響成分が音響信号AXにて優勢である(解析対象音が第g番目のジャンルに該当する確度が高い)と評価できる。
As illustrated in FIG. 5, the analysis coefficient matrix Y [g] includes K coefficient vectors y [1] to y [K] corresponding to each base vector b [k] of the reference base matrix B [g]. It is a non-negative matrix of K rows and N columns arranged in the vertical direction. The coefficient vector y [k] in the k-th row of the analysis coefficient matrix Y [g] is the time variation of the weight (activity) with respect to the basis vector b [k] of the reference basis matrix B [g] (that is, the basis vector b [k] corresponds to a temporal pattern in which the acoustic component appears in the acoustic signal AX of the analysis target sound). Therefore, the matrix product B [g] Y [g] of the reference basis matrix B [g] and the analysis coefficient matrix Y [g] appears predominantly in each reference sound of the g-th genre in the acoustic signal AX. This corresponds to a time series (spectrogram) of frequency characteristics of acoustic components. As understood from the above description, each category weight value wA [g] indicates the degree (dominance degree) that the acoustic signal AX of the analysis target sound contains the acoustic component frequently used in the accompaniment part of the g-th genre of music. ). That is, the larger the classification weight value wA [g] calculated by the
以上の傾向を考慮して、第1実施形態の行列解析部34は、解析特性行列Xの非負値行列因子分解で算定したG個の区分加重値wA[1]〜wA[G]に応じて解析対象音のジャンル(以下「特定ジャンル」という)を推定する(SB5)。具体的には、行列解析部34は、G個の区分加重値wA[1]〜wA[G]のうち最大の区分加重値wA[γ](γ=argmaxg(wA[g]))に対応するジャンル(第γ番目のジャンル)を特定ジャンルとして特定する。そして、行列解析部34は、解析特性行列Xに対する非負値行列因子分解で相異なるジャンルについて算定したG個の解析係数行列Y[1]〜Y[G]のうち特定ジャンルに対応する解析係数行列Y[γ]を選択する(SB6)。以上の説明から理解される通り、解析係数行列Y[γ]の各係数ベクトルy[k]は、特定ジャンルの楽曲の伴奏パートに多用される各音響成分が解析対象音の音響信号AXに出現する時間的なパターン(当該音響成分のリズムパターン)に相当する。なお、参照基底行列B[g]の基底ベクトルb[k]の加重値が、当該基底ベクトルb[k]に対応する係数ベクトルy[k]と各ジャンルの区分加重値wA[g]とに階層化されるという観点から、数式(1)で例示されるように基底行列と係数行列との加重和で分解対象の行列(数式(1)の例示では解析特性行列X)を近似する非負値行列因子分解を、以下の説明では便宜的に「階層化NMF」と表記する。
Considering the above tendency, the
図1の係数算定部36は、特定ジャンルのS個の参照データDR[γ,1]〜DR[γ,S]の各々の参照信号ARの参照特性行列R[γ,s]について参照基底行列B[1]〜B[G]を教師情報とする教師あり非負値行列因子分解を実行することで図6の基礎データQ[γ]を生成する。図6に例示される通り、基礎データQ[γ]は、特定ジャンルの相異なるスタイルに対応するS個の単位データq[γ,1]〜q[γ,S]を含んで構成される。
The
第1実施形態の係数算定部36が参照特性行列R[γ,s]に対して実行する非負値行列因子分解は、前述の解析特性行列Xの非負値行列因子分解(数式(1))と同様に、相異なるジャンルに対応するG個の区分加重値wB[1,s]〜wB[G,s]を適用した以下の数式(2)で表現される階層化NMFである。
数式(2)および図7から理解される通り、第1実施形態の係数算定部36は、参照基底行列B[g]と参照係数行列Z[g,s]との行列積B[g]Z[g,s]をジャンル毎の区分加重値wB[g,s]のもとで加重加算した結果(数式(2)の右辺)が特定ジャンルの参照信号ARの参照特性行列R[γ,s]に近似するように、G個の区分加重値wB[1,s]〜wB[G,s]とG個の参照係数行列Z[1,s]〜Z[G,s]とを算定する。図6に例示される通り、基礎データQ[γ]のうち1個の参照特性行列R[γ,s]に対応する単位データq[γ,s]は、参照特性行列R[γ,s]から算定されたG個の区分加重値wB[1,s]〜wB[G,s]とG個の参照係数行列Z[1,s]〜Z[G,s]とを包含する。
The non-negative matrix factorization performed by the
As understood from Equation (2) and FIG. 7, the
参照係数行列Z[g,s]は、図7に例示される通り、参照基底行列B[g]の各基底ベクトルb[k]に対応するK個の係数ベクトルz[1]〜z[K]を縦方向に配列したK行N列の非負値行列である。参照係数行列Z[g,s]の第k行の係数ベクトルz[k]は、参照基底行列B[g]の基底ベクトルb[k]に対する加重値の時間変動(すなわち、基底ベクトルb[k]の音響成分が参照音の参照信号ARに出現する時間的なパターン)に相当する。以上の説明から理解される通り、参照基底行列B[g]と参照係数行列Z[g,s]との行列積B[g]Z[g,s]は、第g番目のジャンルの参照音に優勢に出現する音響成分の周波数特性の時系列(スペクトログラム)に相当する。したがって、係数算定部36がスタイル毎に算定するG個の区分加重値wB[1,s]〜wB[G,s]のうち特定ジャンルに対応する1個の区分加重値wB[γ,s]は他の(G−1)個と比較して大きい数値(1に近い数値)となる。
As illustrated in FIG. 7, the reference coefficient matrix Z [g, s] is K coefficient vectors z [1] to z [K corresponding to each base vector b [k] of the reference base matrix B [g]. ] Is a non-negative matrix of K rows and N columns arranged in the vertical direction. The coefficient vector z [k] in the k-th row of the reference coefficient matrix Z [g, s] is a time variation of the weighted value with respect to the base vector b [k] of the reference base matrix B [g] (ie, the base vector b [k] ] Corresponds to a temporal pattern in which the sound component appears in the reference signal AR of the reference sound. As understood from the above description, the matrix product B [g] Z [g, s] of the reference basis matrix B [g] and the reference coefficient matrix Z [g, s] is the reference sound of the g-th genre. This corresponds to a time series (spectrogram) of frequency characteristics of the acoustic component that appears predominantly. Accordingly, one of the G classification weights wB [1, s] to wB [G, s] calculated by the
係数算定部36は、図6から理解される通り、単位データq[γ,s]に包含されるG個の参照係数行列Z[1,s]〜Z[G,s]のうち特定ジャンルに対応する参照係数行列Z[γ,s]を、相異なるスタイルに対応するS個の単位データq[γ,1]〜q[γ,S]の各々について選択する。すなわち、特定ジャンルの相異なるスタイルに対応するS個の参照係数行列Z[γ,1]〜Z[γ,s]が選択される。以上の説明から理解される通り、任意の1個の参照係数行列Z[γ,s]は、特定ジャンルの楽曲の伴奏パートに多用される各音響成分が参照データDR[γ,s]の参照信号ARに出現する時間的なパターン(当該音響成分のリズムパターン)に相当する。
As understood from FIG. 6, the
図1の特性比較部38は、行列解析部34が特定ジャンルについて算定した解析係数行列Y[γ]と、係数算定部36が特定ジャンルのスタイル毎に算定した参照係数行列Z[γ,1]〜Z[γ,S]の各々とを比較する。具体的には、特性比較部38は、解析係数行列Y[γ]と参照係数行列Z[γ,s]との類似度σ[s]をスタイル毎に算定する。すなわち、特定ジャンルの相異なるスタイル(相異なるS個の参照係数行列Z[γ,1]〜Z[γ,S]の各々)に対応するS個の類似度σ[1]〜σ[S]が算定される。類似度σ[s]は、解析係数行列Y[γ]と参照係数行列Z[γ,s]との類否の度合の指標であり、例えば距離(ユークリッド距離)や相関が好適例である。第1実施形態では、解析係数行列Y[γ]と参照係数行列Z[γ,s]との相関を類似度σ[s]として算定する。したがって、解析係数行列Y[γ]と参照係数行列Z[γ,s]とが類似するほど類似度σ[s]は増加する。以上の説明から理解される通り、特性比較部38が算定する類似度σ[s]が大きいほど、特定ジャンルの第s番目のスタイルの楽曲の伴奏パートに多用される音響成分の時間的なパターンに音響信号AXが類似する(解析対象音が特定ジャンルの第s番目のスタイルに該当する確度が高い)と評価できる。
The
表示制御部40は、特性比較部38が算定した類似度σ[1]〜σ[S]に応じた解析結果を表示装置14に表示させる。第1実施形態の表示制御部40は、図8に例示される解析結果画面50を表示装置14に表示させる。解析結果画面50は、特定ジャンルの名称(ロックやポップス等のジャンル名)と、類似度σ[s]に応じて選択されたスタイルの名称とを含むリストである。具体的には、特定ジャンルのS個のスタイルのうち類似度σ[s]の降順で上位に位置する所定個のスタイル(すなわち音響信号AXが該当する確度が高いスタイル)の名称が類似度σ[s]の降順で配列される。ジャンルおよびスタイルの名称は、各参照データDR[g,s]の属性情報dから特定される。利用者は、表示装置14に表示された解析結果を確認することで、音響信号AXのジャンルおよびスタイルを認識することが可能である。なお、以上の例示では、類似度σ[s]の降順で上位に位置する所定個のスタイルの名称を表示したが、例えば類似度σ[s]が所定の閾値を上回る1個以上(類似度σ[s]と閾値とに応じた可変の個数)のスタイルの名称を表示させることも可能である。
The
以上に説明した第1実施形態では、参照基底行列B[g]と各解析係数行列Y[g]との行列積B[g]Y[g]をジャンル毎の区分加重値wA[g]のもとでG個のジャンルについて加重加算した結果が音響信号AXの解析特性行列Xに近似するように、区分加重値wA[g]と解析係数行列Y[g]とがジャンル毎に個別に算定される。したがって、以下に詳述する通り、音響信号AXのジャンルやスタイルを高精度に解析できるという利点がある。 In the first embodiment described above, the matrix product B [g] Y [g] of the reference basis matrix B [g] and each analysis coefficient matrix Y [g] is used as the division weight value wA [g] for each genre. The classification weight value wA [g] and the analysis coefficient matrix Y [g] are calculated individually for each genre so that the result of weighted addition for G genres approximates the analysis characteristic matrix X of the acoustic signal AX. Is done. Accordingly, as described in detail below, there is an advantage that the genre and style of the acoustic signal AX can be analyzed with high accuracy.
各ジャンルの参照音に優勢に出現する音響成分(基底ベクトルb[k])の時間的なパターン(各音響成分の加重値の時間変動)を算定する方法としては、例えば図9に例示される通り、相異なるジャンルに対応するG個の参照基底行列B[1]〜B[G]を連結したM行(K×G)列の大行列(以下「統合基底行列」という)B0を音響信号AXの解析特性行列Xの非負値行列因子分解に適用する方法(以下「対比例」という)が想定される。対比例では、解析特性行列Xが、統合基底行列B0と統合係数行列Yとに分解される。統合基底行列B0は、G個の参照基底行列B[1]〜B[G]の各々に包含される複数((K×M)個)の基底ベクトルb[k]を包含し、統合係数行列Yは、各基底ベクトルb[k]に対応する複数((K×M)個)の係数ベクトルy[k]を包含する。対比例では、相異なるジャンルに属する各基底ベクトルb[k]がジャンル毎に区別されることなく相互に対等に取扱われるから、相異なる2個以上のジャンルの参照音に音響特性が類似する解析対象音の音響成分が、各ジャンルに対応する複数の係数ベクトルy[k]に分配される(複数の係数ベクトルy[k]にて同時に励起される)可能性がある。すなわち、例えば「ダンス」のジャンルの演奏音(例えばキックドラムの演奏音)と「アコースティック」のジャンルの演奏音(例えばスネアドラムの演奏音)とに類似する解析対象音の音響成分は、本来的には1個のジャンルの係数ベクトルy[k]のみに反映されるべきであるが、「ダンス」のジャンルの基底ベクトルb[k1]に対応する係数ベクトルy[k1]と「アコースティック」のジャンルの基底ベクトルb[k2](k2≠k1)に対応する係数ベクトルy[k2]との双方に分配され得る。 For example, FIG. 9 illustrates a method for calculating the temporal pattern (temporal fluctuation of the weight value of each acoustic component) of the acoustic component (base vector b [k]) that appears predominantly in the reference sound of each genre. As described above, a large matrix (hereinafter referred to as “integrated basis matrix”) B0 having M rows (K × G) columns obtained by connecting G reference basis matrices B [1] to B [G] corresponding to different genres is used as an acoustic signal. A method (hereinafter referred to as “proportional”) applied to non-negative matrix factorization of the analytical characteristic matrix X of AX is assumed. In contrast, the analysis characteristic matrix X is decomposed into an integrated basis matrix B0 and an integrated coefficient matrix Y. The integrated base matrix B0 includes a plurality ((K × M)) of base vectors b [k] included in each of the G reference base matrices B [1] to B [G], and an integrated coefficient matrix Y includes a plurality ((K × M)) of coefficient vectors y [k] corresponding to each base vector b [k]. In contrast, since each base vector b [k] belonging to different genres is handled equally without being distinguished for each genre, an analysis in which acoustic characteristics are similar to reference sounds of two or more different genres. There is a possibility that the acoustic component of the target sound is distributed to a plurality of coefficient vectors y [k] corresponding to each genre (excited simultaneously by the plurality of coefficient vectors y [k]). That is, for example, the sound component of the analysis target sound similar to the performance sound of the “dance” genre (for example, the performance sound of a kick drum) and the performance sound of the “acoustic” genre (for example, the performance sound of a snare drum) Should be reflected only in the coefficient vector y [k] of one genre, but the coefficient vector y [k1] corresponding to the basis vector b [k1] of the “dance” genre and the genre of “acoustic” And the coefficient vector y [k2] corresponding to the basis vector b [k2] (k2 ≠ k1).
以上に例示した対比例とは対照的に、第1実施形態にて解析特性行列Xに実行される階層化NMFでは、参照基底行列B[g]と解析係数行列Y[g]とが区分加重値wA[g]によりジャンル毎に区分されるから、解析対象音の音響成分の音響特性が2個以上のジャンルの参照音に類似する場合でも、当該音響成分は1個のジャンルの係数ベクトルy[g]に適切に分配される。すなわち、解析対象音の解析係数行列Y[g]が高精度に推定される。したがって、前述の通り、音響信号AXのジャンルやスタイルを高精度に推定することが可能である。 In contrast to the comparative example illustrated above, in the hierarchical NMF executed on the analysis characteristic matrix X in the first embodiment, the reference basis matrix B [g] and the analysis coefficient matrix Y [g] are piecewise weighted. Since it is classified for each genre by the value wA [g], even if the acoustic characteristics of the acoustic component of the analysis target sound are similar to the reference sound of two or more genres, the acoustic component is a coefficient vector y of one genre. Appropriately distributed to [g]. That is, the analysis coefficient matrix Y [g] of the analysis target sound is estimated with high accuracy. Therefore, as described above, the genre and style of the acoustic signal AX can be estimated with high accuracy.
以上の説明では解析特性行列Xの階層化NMFに着目したが、第1実施形態では、参照信号ARの参照特性行列R[g,s]についても同様に、参照基底行列B[g]と各参照係数行列Z[g,s]との行列積B[g]Z[g,s]をジャンル毎の区分加重値wB[g,s]のもとでG個のジャンルについて加重加算した結果を参照信号ARの参照特性行列R[g,s]に近似させる階層化NMFが実行される。以上の構成によれば、G個の参照基底行列B[1]〜B[G]を包含する統合基底行列B0を利用して参照特性行列R[g,s]を分解する構成と比較して、参照音の参照係数行列Z[g,s]が高精度に推定される。したがって、音響信号AXのジャンルやスタイルを高精度に推定できるという効果は格別に顕著である。 In the above description, attention is paid to the hierarchized NMF of the analysis characteristic matrix X. However, in the first embodiment, the reference characteristic matrix R [g, s] of the reference signal AR is also referred to as the reference basis matrix B [g]. The result of the weighted addition of G products with the matrix product B [g] Z [g, s] with the reference coefficient matrix Z [g, s] for each genre based on the category weight wB [g, s] Hierarchical NMF that approximates the reference characteristic matrix R [g, s] of the reference signal AR is executed. According to the above configuration, the reference characteristic matrix R [g, s] is decomposed using the integrated base matrix B0 including the G reference base matrices B [1] to B [G]. The reference coefficient matrix Z [g, s] of the reference sound is estimated with high accuracy. Therefore, the effect that the genre and style of the acoustic signal AX can be estimated with high accuracy is particularly remarkable.
また、第1実施形態では、G個のジャンルのうち区分加重値wA[g]に応じて選択された特定ジャンルのS個の参照音の参照特性行列R[γ,1]〜R[γ,S]について基礎データQ[γ]の算定や解析係数行列Y[γ]との比較が実行される。したがって、G個のジャンルの全部について基礎データQ[γ]の算定や解析係数行列Y[γ]との比較を実行する構成と比較して、演算処理装置22の処理量が削減されるという利点がある。
In the first embodiment, the reference characteristic matrices R [γ, 1] to R [γ, of S reference sounds of a specific genre selected according to the division weight value wA [g] among the G genres. Calculation of basic data Q [γ] and comparison with analysis coefficient matrix Y [γ] are performed for S]. Therefore, the processing amount of the
<第2実施形態>
本発明の第2実施形態について説明する。第2実施形態は、第1実施形態の音響解析装置100を利用した電子楽器である。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
Second Embodiment
A second embodiment of the present invention will be described. The second embodiment is an electronic musical instrument that uses the
図10は、第2実施形態の電子楽器200の構成図である。電子楽器200は、鍵盤楽器型の演奏機器(例えばMIDI楽器)であり、演算処理装置22と記憶装置24と表示装置14とに加えて操作機器16と放音装置18とを具備する。操作機器16は、利用者が操作する入力機器である。具体的には、操作機器16は、鍵盤楽器と同様に複数の鍵(白鍵および黒鍵)が配列された鍵盤と、利用者が操作する操作子とを含んで構成される。利用者は、操作機器16(典型的には鍵盤以外の操作子)を適宜に操作することで、音響信号AXの解析結果として表示装置14に表示された図8の解析結果画面50から、所望のジャンルおよびスタイルの組合せを選択することが可能である。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置22から供給される音響信号Vに応じた音響を放射する。
FIG. 10 is a configuration diagram of the electronic
図10に例示される通り、第2実施形態の電子楽器200の演算処理装置22は、電子楽器200に接続された信号供給装置12から供給される解析対象音の音響信号AXを第1実施形態と同様に解析して解析結果を利用者に提示する要素(基底学習部32,行列解析部34,係数算定部36,特性比較部38,表示制御部40)として機能する。したがって、第2実施形態においても第1実施形態と同様の効果が実現される。第1実施形態と同様の要素に加えて、第2実施形態の演算処理装置22は、指示受付部62および再生処理部64としても機能する。指示受付部62は、操作機器16に対する利用者からの操作を受付ける。具体的には、指示受付部62は、操作機器16の鍵盤に対する演奏操作と、操作機器16に対するジャンルおよびスタイルの選択操作とを受付ける。
As illustrated in FIG. 10, the
再生処理部64は、記憶装置24に記憶された複数の参照データDR[g,s]のうち指示受付部62が受付けた選択操作で指定されたジャンルおよびスタイルの参照データDR[g,s]の参照信号ARと、指示受付部62が受付けた演奏操作で順次に指定される音高の時系列を表す演奏信号とを混合することで音響信号Vを生成して放音装置18に供給する。なお、参照信号ARがMIDI形式等の演奏データで記憶装置24に記憶された構成では、再生処理部64が演奏データから参照信号ARを生成する。以上の説明から理解される通り、第2実施形態では、音響信号AXの楽曲のジャンルおよびスタイルに好適な伴奏パートの演奏音(参照信号AR)のもとで、例えば当該楽曲の旋律パートを、利用者が操作機器16に対する演奏操作で演奏することが可能である。
The
<第3実施形態>
第1実施形態では、区分加重値wA[1]〜wA[G]を適用したG個の行列積B[1]Y[1]〜B[G]Y[G]の加重和と音響信号AXの解析特性行列Xとの差分に相当する評価関数が最小化されるという条件から導出された更新式の演算で区分加重値wA[g]と解析係数行列Y[g]とをジャンル毎に算定したが、階層化NMFの解法は以上の例示に限定されない。第3実施形態は、階層化NMFの処理に変分ベイズ法を適用した形態である。
<Third Embodiment>
In the first embodiment, the weighted sum of G matrix products B [1] Y [1] to B [G] Y [G] to which the section weights wA [1] to wA [G] are applied and the acoustic signal AX. The segment weights wA [g] and the analysis coefficient matrix Y [g] are calculated for each genre using the update formula derived from the condition that the evaluation function corresponding to the difference from the analysis characteristic matrix X is minimized However, the solution of the hierarchical NMF is not limited to the above examples. In the third embodiment, the variational Bayes method is applied to the hierarchical NMF processing.
観測対象音の音響信号AXの解析特性行列Xの観測尤度は、ポアソン分布(Pois())を適用した以下の数式(3)の確率モデルで近似的に表現される。数式(3)の添字tは時間を意味し、添字fは周波数を意味する。また、数式(3)の記号bf[k,g]は、第g番目のジャンルの参照基底行列B[g]における第k列の基底ベクトルb[k]に相当する。
数式(3)の係数ベクトルyt[k]および基底ベクトルbf[g,k]の各々の事前分布は、ガンマ分布(Gam())を適用した以下の数式(4A)および数式(4B)で表現される。
ジャンルの総数Gを不定値として好適な数値に設定する観点から、以下の数式(5A)のようにガンマ過程を仮定する。また、基底ベクトルbf[k,g]の総数Kを不定値として好適な数値に設定する観点から、前述の数式(3)では、ガンマ過程を適用した数式(5B)で表現される変数θg[k]を導入した。
From the viewpoint of setting the total number G of genres to an appropriate value as an indefinite value, a gamma process is assumed as in the following formula (5A). Further, from the viewpoint of setting the total number K of the basis vectors b f [k, g] to a suitable numerical value as an indefinite value, the above-described mathematical expression (3) uses the variable θ expressed by the mathematical expression (5B) to which the gamma process is applied. g [k] was introduced.
以上のように定義された確率モデルの各変数を推定する。対数同時分布logp(wA,b,y,θ)は、定数項を無視すると以下の数式(6)で表現される。
数式(6)の変数Λf,t[g,k]は、以下の数式(7)の条件を充足する変数である。
数式(6)の確率モデルの各変数の推定に公知の変分ベイズ法を適用する。まず、変数Λf,t[g,k]を以下の数式(8)の演算で更新する。
確率モデルの他の変数の事後分布も以下の数式(9)から数式(12)のように設定できる。
行列解析部34は、数式(9)から数式(12)の演算で数式(3)の確率モデルの各変数(bf[k,g],yt[k],wA[g],θg[k])を算定する。第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、ガンマ過程の導入により基底ベクトルbf[k,g]の総数(スタイルの総数)Kを不定値として取扱う確率モデルで音響信号AXの解析特性行列Xを表現するから、基底ベクトルbf[k,g]の総数Kを適切に設定しながら階層化NMFを実現できるという利点がある。
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
<Modification>
Each of the above forms can be variously modified. Specific modifications are exemplified below. Two or more aspects arbitrarily selected from the following examples can be appropriately combined.
(1)前述の各形態では、図11の部分(A)に例示される通り、特定ジャンルの各スタイルに対応するS個の参照係数行列Z[γ,1]〜Z[γ,S]の各々と音響信号AXから生成された特定ジャンルの解析係数行列Y[γ]とを特性比較部38が比較したが、特性比較部38による比較の対象は以上の例示に限定されない。例えば、図11の部分(B)に例示される通り、数式(1)の階層化NMFで算定された特定ジャンルの区分加重値wA[γ]と解析係数行列Y[γ]との乗算結果wA[γ]Y[γ]と、数式(2)の階層化NMFで算定された特定ジャンルの区分加重値wB[γ,s]と参照係数行列Z[γ,s]との乗算結果wB[γ,s]Z[γ,s]とを、特定ジャンルのスタイル毎に特性比較部38が比較する(すなわち類似度σ[1]〜σ[S]を算定する)ことも可能である。以上の例示から理解される通り、特性比較部38は、解析係数行列Y[γ]と参照係数行列Z[γ,s]とを比較する要素として包括的に表現され、解析係数行列Y[γ]に対する区分加重値wA[γ]の乗算の有無や参照係数行列Z[γ,s]に対する区分加重値wB[γ]の乗算の有無は不問である。
(1) In each of the above-described embodiments, as illustrated in part (A) of FIG. 11, S reference coefficient matrices Z [γ, 1] to Z [γ, S] corresponding to each style of a specific genre are used. The
(2)前述の各形態では、相異なるジャンルに対応するG個の参照基底行列B[1]〜B[G]を基底学習部32が参照データDR[g,s]から算定する構成を例示したが、G個の参照基底行列B[1]〜B[G]を事前に算定して記憶装置24に格納した構成も採用され得る。例えば音響解析装置100の基底学習部32が事前に生成した参照基底行列B[1]〜B[G]や、音響解析装置100とは別個の装置にて第1実施形態と同様の方法で事前に生成された参照基底行列B[1]〜B[G]が記憶装置24に格納される。以上の説明から理解される通り、基底学習部32は音響解析装置100から省略され得る。
(2) In each of the above-described embodiments, a configuration in which the
(3)前述の各形態では、特定ジャンルの基礎データQ[γ]を係数算定部36が算定する構成を例示したが、相異なるジャンルに対応するG個の基礎データQ[1]〜Q[G]を事前に算定して記憶装置24に格納した構成も採用され得る。図8を参照して前述した通り、基礎データQ[g]は、第g番目のジャンルの相異なるスタイルに対応するS個の単位データq[g,1]〜q[g,S]を含んで構成される。各単位データq[g,s]は、参照特性行列R[g,s]に対する数式(2)の階層化NMFで算定されたG個の区分加重値wB[1,s]〜qB[G,s]とG個の参照係数行列Z[1,s]〜Z[G,s]とを包含する。特性比較部38は、記憶装置24に記憶されたG個の基礎データQ[1]〜Q[G]のうち特定ジャンルの基礎データQ[γ]を選択し、基礎データQ[γ]の各単位データq[γ,s]からS個の参照係数行列Z[γ,1]〜Z[γ,S]を抽出してスタイル毎の類似度σ[s]を算定する。例えば音響解析装置100の係数算定部36が事前に生成した基礎データQ[1]〜Q[G]や、音響解析装置100とは別個の装置にて第1実施形態と同様の方法で事前に生成された基礎データQ[1]〜Q[G]が記憶装置24に格納される。以上の説明から理解される通り、係数算定部36は音響解析装置100から省略され得る。
(3) In each of the above embodiments, the configuration in which the
(4)前述の各形態では、複数の参照音のジャンルおよびスタイルの名称を類似度σ[s]の降順で配列したリストを表示装置14に表示させたが、解析結果を利用者に提示する方法は以上の例示に限定されない。例えば、特定ジャンルのS個のスタイルのうち類似度σ[s]が最大となる1個のスタイルの名称を表示装置14に表示させることも可能である。また、解析結果の利用方法は利用者に対する提示(典型的には画像表示)に限定されない。例えば、特定ジャンルのS個のスタイルのうち類似度σ[s]が最大となるスタイルの参照信号ARを放音装置18に供給して再生する構成や、類似度が最大となるスタイルの参照信号ARを解析対象音の音響信号AXに対応付けて記憶する構成も採用され得る。以上の説明から理解される通り、解析結果を表示装置14に表示させる表示制御部40は省略され得る。
(4) In each of the above-described forms, a list in which the genres and style names of the plurality of reference sounds are arranged in descending order of the similarity σ [s] is displayed on the
(5)前述の各形態では、行列解析部34が算定したG個の解析係数行列Y[1]〜Y[G]のうち区分加重値wA[1]〜wA[G]に応じて推定された特定ジャンルの解析係数行列Y[γ]について各参照音の参照係数行列Z[γ,s]との類似度σ[s]を算定したが、行列解析部34による解析結果を利用する方法は以上の例示に限定されない。例えば、行列解析部34が算定したG個の区分加重値wA[1]〜wA[G]のうち最大の区分加重値wA[γ]に対応するジャンルの名称を解析結果として利用者に提示する構成も採用され得る。すなわち、音響解析装置100は、音響信号AXで表現される楽曲のジャンルを推定する装置として利用される。以上の説明から理解される通り、行列解析部34による解析結果を利用して類似度σ[s]を算定する特性比較部38は省略され得る。
(5) In each of the above-described embodiments, it is estimated according to the division weights wA [1] to wA [G] among the G analysis coefficient matrices Y [1] to Y [G] calculated by the
(6)前述の各形態では、音響信号AXで表現される楽曲の音楽的なジャンルやスタイルの推定を例示したが、音響解析装置100による解析の目的は、解析対象音のジャンルやスタイルの推定に限定されない。例えば、複数の楽曲から抽出されて楽曲構成用の素材(ループ素材)として利用される多数の参照音から音響信号AXに類似する参照音を推定する処理にも本発明を適用することが可能である。
(6) In each of the above-described embodiments, the estimation of the musical genre and style of the music expressed by the acoustic signal AX is exemplified. However, the purpose of the analysis by the
(7)携帯電話機等の端末装置と通信するサーバ装置により音響解析装置100を実現することも可能である。具体的には、音響解析装置100は、端末装置から通信網を介して受信した音響信号AXを前述の各形態と同様に解析するとともに解析結果(例えば類似度σ[1]〜σ[S]や解析結果画面50の画像データ)を端末装置に送信する。
(7) The
100……音響解析装置、200……電子楽器、12……信号供給装置、14……表示装置、16……操作機器、18……放音装置、22……演算処理装置、24……記憶装置、32……基底学習部、34……行列解析部、36……係数算定部、38……特性比較部、40……表示制御部、50……解析結果画面、62……指示受付部、64……再生処理部。
DESCRIPTION OF
Claims (5)
を具備する音響解析装置。 For a plurality of sections into which a plurality of reference sounds are classified, a reference basis matrix for each section including a plurality of basis vectors representing frequency characteristics of reference sounds in the section, and a weight value of each basis vector of the reference basis matrix Analysis that represents the time series of the frequency characteristics of the sound to be analyzed, as a result of weighted addition of a matrix product with an analysis coefficient matrix including a plurality of coefficient vectors representing time variation under the first section weight value for each section An acoustic analysis apparatus comprising: a matrix analysis unit that calculates the first section weight value and the analysis coefficient matrix for each section so as to approximate a characteristic matrix.
を具備する請求項1の音響解析装置。 A plurality of reference characteristic matrices representing a time series of frequency characteristics of the reference sound, a reference coefficient matrix including the reference basis matrix and a plurality of coefficient vectors representing temporal variation of weight values of the respective basis vectors of the reference basis matrix; The acoustic analysis apparatus according to claim 1, further comprising: a characteristic comparison unit that compares the reference coefficient matrix when the matrix is decomposed into the analysis coefficient matrix calculated by the matrix analysis unit.
請求項2の音響解析装置。 The characteristic comparison unit is configured so that a result of weighted addition of a matrix product of the reference basis matrix and the reference coefficient matrix under a second division weight value for each division approximates the reference characteristic matrix. The acoustic analysis device according to claim 2, wherein each reference coefficient matrix when the two-section weight value and the reference coefficient matrix are calculated for each section is compared with the analysis coefficient matrix calculated by the matrix analysis means.
請求項2または請求項3の音響解析装置。 The characteristic comparison unit is configured to determine, for each of a plurality of reference sounds in a specific category selected according to a first category weight value calculated for each category by the matrix analysis unit among the plurality of categories. The acoustic analysis device according to claim 2 or 3, wherein the reference coefficient matrix is compared with an analysis coefficient matrix calculated by the matrix analysis unit for the specific section.
前記特定区分のジャンルの名称と前記特性比較手段による比較結果に応じて選択された参照音のスタイルの名称とを表示装置に表示させる表示制御手段を具備する
請求項4の音響解析装置。
The plurality of reference sounds are accompaniment sounds of music pieces having different musical styles, and are classified into the plurality of sections for each genre of the music pieces,
The acoustic analysis apparatus according to claim 4, further comprising display control means for displaying on the display device the name of the genre of the specific category and the name of the reference sound style selected according to the comparison result by the characteristic comparison means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013216008A JP6197569B2 (en) | 2013-10-17 | 2013-10-17 | Acoustic analyzer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013216008A JP6197569B2 (en) | 2013-10-17 | 2013-10-17 | Acoustic analyzer |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015079110A JP2015079110A (en) | 2015-04-23 |
JP6197569B2 true JP6197569B2 (en) | 2017-09-20 |
Family
ID=53010571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013216008A Expired - Fee Related JP6197569B2 (en) | 2013-10-17 | 2013-10-17 | Acoustic analyzer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6197569B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6743425B2 (en) | 2016-03-07 | 2020-08-19 | ヤマハ株式会社 | Sound signal processing method and sound signal processing device |
JP6854350B2 (en) * | 2017-08-03 | 2021-04-07 | AlphaTheta株式会社 | Music analysis device and music analysis program |
JP2022505682A (en) * | 2018-10-26 | 2022-01-14 | 日本電気株式会社 | Source separator, source separator method, and program |
CN110188235A (en) * | 2019-05-05 | 2019-08-30 | 平安科技(深圳)有限公司 | Music style classification method, device, computer equipment and storage medium |
JP7120468B2 (en) * | 2019-09-27 | 2022-08-17 | ヤマハ株式会社 | SOUND ANALYSIS METHOD, SOUND ANALYZER AND PROGRAM |
CN116762124A (en) * | 2021-02-05 | 2023-09-15 | 雅马哈株式会社 | Sound analysis system, electronic musical instrument, and sound analysis method |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010197596A (en) * | 2009-02-24 | 2010-09-09 | Nippon Telegr & Teleph Corp <Ntt> | Signal analysis device, signal analysis method, program, and recording medium |
JP2012163918A (en) * | 2011-02-09 | 2012-08-30 | Sony Corp | Voice signal processing apparatus, voice signal processing method, and program |
JP5942420B2 (en) * | 2011-07-07 | 2016-06-29 | ヤマハ株式会社 | Sound processing apparatus and sound processing method |
-
2013
- 2013-10-17 JP JP2013216008A patent/JP6197569B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015079110A (en) | 2015-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6197569B2 (en) | Acoustic analyzer | |
CN108320730B (en) | Music classification method, beat point detection method, storage device and computer device | |
US9620130B2 (en) | System and method for processing sound signals implementing a spectral motion transform | |
JP5454317B2 (en) | Acoustic analyzer | |
EP3047484B1 (en) | Recommending audio sample combinations | |
JP5088030B2 (en) | Method, apparatus and program for evaluating similarity of performance sound | |
JP5799977B2 (en) | Note string analyzer | |
US9257111B2 (en) | Music analysis apparatus | |
JP2013033196A (en) | Sound processor | |
Miron et al. | Monaural score-informed source separation for classical music using convolutional neural networks | |
WO2017154928A1 (en) | Audio signal processing method and audio signal processing device | |
JP6690181B2 (en) | Musical sound evaluation device and evaluation reference generation device | |
US20120300950A1 (en) | Management of a sound material to be stored into a database | |
JP7069819B2 (en) | Code identification method, code identification device and program | |
JP6044119B2 (en) | Acoustic analysis apparatus and program | |
JP2013164584A (en) | Acoustic processor | |
US20220215051A1 (en) | Audio analysis method, audio analysis device and non-transitory computer-readable medium | |
CN110959172B (en) | Performance analysis method, performance analysis device, and storage medium | |
JP6733487B2 (en) | Acoustic analysis method and acoustic analysis device | |
WO2022070639A1 (en) | Information processing device, information processing method, and program | |
JP2015200685A (en) | Attack position detection program and attack position detection device | |
JP2014134688A (en) | Acoustic analyzer | |
JP6690446B2 (en) | Acoustic analysis device and acoustic analysis method | |
JP2014215544A (en) | Sound processing device | |
CN108780634B (en) | Sound signal processing method and sound signal processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160823 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170725 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170807 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6197569 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |