JP2008070650A - 楽曲分類方法、楽曲分類装置及びコンピュータプログラム - Google Patents

楽曲分類方法、楽曲分類装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2008070650A
JP2008070650A JP2006249886A JP2006249886A JP2008070650A JP 2008070650 A JP2008070650 A JP 2008070650A JP 2006249886 A JP2006249886 A JP 2006249886A JP 2006249886 A JP2006249886 A JP 2006249886A JP 2008070650 A JP2008070650 A JP 2008070650A
Authority
JP
Japan
Prior art keywords
music
impression
audio signal
tempo
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006249886A
Other languages
English (en)
Other versions
JP4799333B2 (ja
Inventor
Narifumi Nochida
成文 後田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2006249886A priority Critical patent/JP4799333B2/ja
Publication of JP2008070650A publication Critical patent/JP2008070650A/ja
Application granted granted Critical
Publication of JP4799333B2 publication Critical patent/JP4799333B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】人が楽曲を聴いた際の実際の印象により合致した印象値で楽曲を分類することができる楽曲分類方法、楽曲分類装置及びコンピュータプログラムを提供する。
【解決手段】本発明の楽曲分類装置は、楽曲データから音声信号をサンプリングし(S1)、音量の揺らぎを特徴付ける揺らぎデータを音声信号から取得し(S2)、楽曲のテンポを検出し(S3)、音声信号からメルケプストラム係数を算出し(S4)、揺らぎデータ及びメルケプストラム係数を、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換し(S5)、印象値を用いてテンポを補正し(S6)、印象値及びテンポを楽曲データに関連付けて記憶する(S7)。楽曲を特徴付ける音質を表すメルケプストラム係数から印象値を求めることにより、実際に楽曲を聴いた使用者が楽曲から感じる印象により近い印象値が得られる。
【選択図】図2

Description

本発明は、記憶手段で記憶している多数の楽曲データを分類する方法に関し、より詳しくは、楽曲を人が聴くときに感じる印象及び楽曲のテンポを楽曲データから求め、求めた印象及びテンポを用いて楽曲データを分類する楽曲分類方法、楽曲分類装置及びコンピュータプログラムに関する。
従来、ハードディスク又は半導体メモリ等の記憶手段を内部に備え、MP3(MPEG-1 Audio Layer-3)等のデータ形式の楽曲データを記憶手段で記憶し、記憶している楽曲データに基づいて楽曲を再生する楽曲再生装置が普及している。このような楽曲再生装置の例として、携帯型の楽曲再生装置がある。また音楽を含む映像を再生することができるコンテンツ再生装置も普及している。このような携帯型の楽曲再生装置を利用する場合は、通常、パーソナルコンピュータ(PC)等の情報処理装置で作成した楽曲データ又は通信ネットワークを用いて情報処理装置へ配信された楽曲データを情報処理装置から楽曲再生装置へ送信し、楽曲再生装置は、送信された楽曲データを記憶手段で記憶する。
楽曲再生装置が記憶する大量の楽曲データから所望の楽曲データを検索する方法として、通常、楽曲の内容に係る属性情報を楽曲データに関連付けておき、属性情報を利用して楽曲データを検索する方法を用いている。例えば、楽曲再生装置は、楽曲に関するアルバム、アーティスト又はジャンル等を示す複数種類の属性情報を楽曲データに関連付けて記憶している。使用者は、例えば一のアルバム名を指定すると、指定したアルバム名に関連付けられた一又は複数の楽曲が検索され、検索された楽曲を聞くことができるようになる。
また、楽曲の特徴を表す特徴データを楽曲データに関連付けておき、特徴データを用いて楽曲データを検索する技術が開発されている。特徴データの例としては、楽曲のテンポがあり、楽曲からサンプリングした音声強度変化からテンポを自動で検出する技術が開発されている。また他の特徴データとして、透明度、明るさ、又は激しさ等といった使用者が楽曲から受ける印象の度合いを表す印象値を用いる技術が開発されている。特許文献1には、楽曲中での音量の揺らぎを特徴付けるデータを楽曲から抽出し、抽出したデータを階層型ニューラルネットワークによって楽曲の印象値に変換する技術が開示されている。テンポ又は印象値といった楽曲の特徴を表す特徴データに基づいて楽曲を分類することにより、高揚感のある曲、落ち着いた曲又はゆったりした曲等、楽曲自体の特徴に応じて楽曲を選択することができるようになる。
特開2005−141430号公報
しかしながら、楽曲のテンポを検出する従来の技術では、楽曲の演奏に用いられている楽器の種類が多い場合、又は楽曲中のリズムが複雑に変化する場合等では、本来の倍や半分の長さのテンポを抽出してしまう等、誤ったテンポを検出してしまうことがあるという問題がある。また特許文献1に開示された技術では、求めた印象値が表す楽曲の印象と、実際に楽曲を聴いた使用者が楽曲から感じる印象との間にずれが発生することがあるという問題がある。
本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、人間の聴覚特性に合わせた尺度で楽曲の特徴を表したデータから印象値を求めることにより、人が楽曲を聴いた際の実際の印象により合致した印象値で楽曲を分類することができる楽曲分類方法、楽曲分類装置及びコンピュータプログラムを提供することにある。
また本発明の他の目的とするところは、求めた印象値に応じてテンポを補正することにより、楽曲のテンポを精度良く判別することができる楽曲分類方法、楽曲分類装置及びコンピュータプログラムを提供することにある。
本発明に係る楽曲分類方法は、楽曲の特徴を示すデータを生成する生成ステップと、該生成ステップで生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する変換ステップと、楽曲データに印象値を関連付けることによって楽曲データを分類するステップとを含む楽曲分類方法において、前記生成ステップは、楽曲の音声を表した音声信号の高速フーリエ変換(FFT)を行うFFT処理ステップと、該FFT処理ステップによるFFTの結果から、前記音声信号のメルケプストラム係数を求めるステップとを含み、前記変換ステップは、メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成ステップで求めたメルケプストラム係数を印象値へ変換するステップを含むことを特徴とする。
本発明に係る楽曲分類方法は、前記FFT処理ステップは、前記音声信号を分割した部分音声信号に対してFFTを行うことによって、前記部分音声信号のパワースペクトルを求めるステップを含み、前記生成ステップは、前記音声信号に含まれる複数の部分音声信号の夫々について、前記FFT処理ステップで求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出するステップと、算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求めるステップと、求めた平均パワー時系列のFFTを行うことによって、平均パワー時系列のパワースペクトルを求めるステップと、求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求めるステップと、求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求めるステップとを更に含み、前記変換ステップは、揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成ステップで求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を印象値へ変換するステップを更に含むことを特徴とする。
本発明に係る楽曲分類方法は、前記生成ステップで前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求めるステップと、前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求めるステップと、前記変換ステップで得られた特定の印象の度合いを示す印象値の値に応じて、求めたテンポを補正するステップと、補正したテンポを楽曲データに関連付けるステップとを更に含むことを特徴とする。
本発明に係る楽曲分類装置は、楽曲の特徴を示すデータを生成する生成手段と、該生成手段が生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する変換手段と、楽曲データに印象値を関連付けることによって楽曲データを分類して記憶する記憶手段とを備える楽曲分類装置において、前記生成手段は、楽曲の音声を表した音声信号の高速フーリエ変換(FFT)を行うFFT処理手段と、該FFT処理手段によるFFTの結果から、特徴データとして前記音声信号のメルケプストラム係数を求める手段とを有し、前記変換手段は、メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成手段で求めたメルケプストラム係数を印象値へ変換する手段を有することを特徴とする。
本発明に係る楽曲分類装置は、前記FFT処理手段は、前記音声信号を分割した部分音声信号に対してFFTを行うことによって、前記部分音声信号のパワースペクトルを求める手段を有し、前記生成手段は、前記音声信号に含まれる複数の部分音声信号の夫々について、前記FFT処理手段が求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出する手段と、該手段が算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求める手段と、該手段が求めた平均パワー時系列のFFTを行うことによって、平均パワー時系列のパワースペクトルを求める手段と、該手段が求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求める手段と、該手段が求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求める手段とを更に有し、前記変換手段は、揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成手段で求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を印象値へ変換する手段を更に有することを特徴とする。
本発明に係る楽曲分類装置は、前記生成手段が前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求める手段と、前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求める手段と、前記変換手段により得られた特定の印象の度合いを示す印象値の値に応じて、求めたテンポを補正するテンポ補正手段とを更に備え、前記記憶手段は、前記テンポ補正手段が補正したテンポを関連付けて楽曲データを記憶する手段を有することを特徴とする。
本発明に係るコンピュータプログラムは、コンピュータに、楽曲の特徴を示すデータを生成させ、生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換させるコンピュータプログラムにおいて、コンピュータに、楽曲の音声を表した音声信号の高速フーリエ変換(FFT)を行わせる手順と、コンピュータに、前記FFTの結果から、前記音声信号のメルケプストラム係数を求めさせる手順と、コンピュータに、メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークに対して、求めたメルケプストラム係数を入力して、出力される印象値を取得させる手順を含むことを特徴とする。
本発明に係るコンピュータプログラムは、コンピュータに、前記音声信号を分割した部分音声信号に対してFFTを行うことによって、前記部分音声信号のパワースペクトルを求めさせる手順と、コンピュータに、前記音声信号に含まれる複数の部分音声信号の夫々について、求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出させる手順と、コンピュータに、算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求めさせる手順と、コンピュータに、求めた平均パワー時系列のFFTを行うことによって、平均パワー時系列のパワースペクトルを求めさせる手順と、コンピュータに、求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求めさせる手順と、コンピュータに、求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求めさせる手順と、コンピュータに、揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークに対して、求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を入力して、出力される印象値を取得させる手順とを更に含むことを特徴とする。
本発明に係るコンピュータプログラムは、コンピュータに、前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求めさせる手順と、コンピュータに、前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求めさせる手順と、コンピュータに、特定の印象の度合いを示す印象値の値に応じて、求めたテンポを補正させる手順とを更に含むことを特徴とする。
本発明においては、楽曲の音声を表した音声信号からメルケプストラム係数を求め、メルケプストラム係数を入力されて特定の印象値を出力するように学習された階層型ニューラルネットワークを用いて、メルケプストラム係数を、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する。楽曲を特徴付ける音質を表すメルケプストラム係数から印象値を求めることにより、実際に楽曲を聴いた使用者が楽曲から感じる印象により近い印象値が得られる。
また本発明においては、音声信号を分割した部分音声信号のFFTにより得られるパワースペクトルの所定周波数帯域内でパワーを平均した平均パワーを時間軸上に並べた平均パワー時系列を求め、更に平均パワー時系列のパワースペクトルを求め、求めたパワースペクトルの近似曲線のパラメータを各周波数帯域で音量が変動する周波数の分布を示す揺らぎデータとして取得する。例えば、両対数表示のパワースペクトルを直線で近似した近似曲線の傾き及びY切片を揺らぎデータとして取得する。揺らぎデータ及びメルケプストラム係数を入力されて特定の印象値を出力するように学習された階層型ニューラルネットワークを用いて、揺らぎデータ及びメルケプストラム係数を、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する。
更に本発明においては、平均パワー時系列のパワースペクトルと近似曲線との差分値が所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求め、テンポに関連する特定の印象の度合いを示す印象値の値に応じてテンポを補正する。例えば、「激しさ」の印象の度合いを示す印象値が大きい場合にはテンポも早くなり、印象値が小さい場合にはテンポも遅くなるように、テンポを補正する。
本発明にあっては、楽曲を特徴付ける音質を表すメルケプストラム係数から印象値を求めることにより、従来技術に比べて、実際に楽曲を聴いた使用者が楽曲から感じる印象と求めた印象値が示す楽曲の印象とのずれが小さくなる。従って、使用者が楽曲から感じる印象で楽曲データが分類され、使用者は、好みに応じた所望の印象を感じられる楽曲をより正確に検索して聴くことが可能となる。
本発明にあっては、音量の周期的な揺らぎを特徴付ける揺らぎデータ及びメルケプストラム係数から印象値を求めることにより、揺らぎデータから印象値を求める従来技術に比べて、実際に楽曲を聴いた使用者が楽曲から感じる印象と求めた印象値が示す楽曲の印象とのずれが小さくなる。
また本発明にあっては、楽曲のテンポを一旦判別し、テンポに関連する特定の印象の度合いを示す印象値の値に応じてテンポを補正することにより、実際の印象とのずれが小さい印象値に基づいてテンポを補正するので、より精度よく楽曲のテンポを判別することが可能となる等、本発明は優れた効果を奏する。
以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
図1は、本発明の楽曲分類装置1及び楽曲再生装置2の構成を示すブロック図である。本発明の楽曲分類装置1は、PC等の汎用コンピュータを用いて構成されており、演算を行うCPU11と、演算に伴って発生する一時的な情報を記憶するRAM12と、データを記録したCD又はDVD等の記録媒体を受け付けるドライブ部13と、ハードディスク等の記憶部(記憶手段)14とを備えている。記憶部14は、CD−ROM等の記録媒体からドライブ部13が読み取った本発明のコンピュータプログラム141を記憶している。コンピュータプログラム141は、必要に応じて記憶部14からRAM12にロードされ、ロードされたコンピュータプログラム141に基づいてCPU11は楽曲分類装置1に必要な処理を実行する。
また楽曲分類装置1は、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部15と、各種の情報を表示する液晶ディスプレイ等の表示部16とを備えている。更に楽曲分類装置1は、楽曲分類装置1外の機器との間でデータを送受信するインタフェース部17と、インターネット等の外部の通信ネットワークNに接続された通信部18とを備えている。
楽曲分類装置1は、データを記録したCD等の記録媒体をドライブ部13で受け付け、記録媒体が記録するデータを読み出し、読み出したデータをMP3等のデータ形式の楽曲データへCPU11で変換する処理を行うことができる。また楽曲分類装置1は、通信ネットワークNに接続された図示しないサーバ装置から送信された楽曲データを通信ネットワークNを介して通信部18で受信することができる。CPU11で変換した楽曲データ又は通信部18で受信した楽曲データは、記憶部14が記憶する。また楽曲分類装置1は、楽曲データに基づいて楽曲を再生する楽曲再生装置2へ楽曲データを送信することができる構成となっている。
楽曲再生装置2は、演算を行うプロセッサ、制御プログラムを記憶するROM、及びRAM等からなる制御部21を備え、制御部21は楽曲再生装置2全体の動作を制御する構成となっている。制御部21には、ハードディスク又は半導体メモリ等でなる記憶部22が接続されており、記憶部22は、MP3等のデータ形式の楽曲データを記憶する構成となっている。また制御部21には、楽曲データをデコードする処理を行うデータ処理部24と、データ処理部24がデコードしたデータをDA変換して外部へ出力する出力部25とが接続されている。出力部25にはヘッドフォン26が接続可能であり、ヘッドフォン26を用いて楽曲が再生される。また制御部21には、使用者の操作によって処理の開始指示等の各種の指示が入力される操作部23、及び楽曲再生装置2の処理のために必要な情報を表示する表示部28が接続されている。更に制御部21には、楽曲再生装置2外の機器との間でデータを送受信するインタフェース部27が接続されている。
楽曲分類装置1のインタフェース部17と楽曲再生装置2のインタフェース部27とは互いにケーブルで接続可能な構成となっており、ケーブル及び互いのインタフェース部を介して、楽曲分類装置1と楽曲再生装置2との間で楽曲データ等のデータを送受信可能な構成となっている。なお、楽曲分類装置1と楽曲再生装置2との間では、有線ではなく無線通信でデータを送受信可能な構成であってもよい。楽曲再生装置2は、小型軽量で携帯可能な構成であり、インタフェース部27に接続されたケーブルを取り外して使用者が携帯して使用される。
次に、以上の構成でなる本発明の楽曲分類装置1が実行する本発明の楽曲分類方法を説明する。楽曲分類装置1は、記憶部14で記憶している複数の楽曲データを、使用者が楽曲から受ける特定の印象の度合いを表す印象値及び楽曲のテンポを用いて分類する処理を行う。楽曲分類装置1のCPU11は、コンピュータプログラム141をRAM12へロードし、ロードしたコンピュータプログラム141に従って、楽曲データから印象値及び楽曲のテンポを求める処理を実行する。
図2は、CPU11が本発明において実行する処理の手順を示すフローチャートである。CPU11は、RAM12へロードしたコンピュータプログラム141に従って、以下の処理を実行する。CPU11は、まず、記憶部14が記憶している一の楽曲データをRAM12へ読み出し、MP3等のデータ形式の楽曲データをデコードし、デコードして得られたリニアPCM信号等の音声信号を所定の周波数でサンプリングする(S1)。この処理により、CPU11は楽曲の音声を表す音声信号を取得する。このとき、ダウンサンプリング等により、以降の処理に適切な基本周波数の音声信号を取得する。
CPU11は、次に、サンプリングにより取得した音声信号から、音量の周期的な揺らぎを特徴付ける揺らぎデータを取得する揺らぎデータ取得処理を実行する(S2)。図3は、揺らぎデータ取得処理のサブルーチンでの処理の手順を示すフローチャートである。CPU11は、取得した音声信号中でFFT(高速フーリエ変換)を開始する開始位置を決定する(S201)。このとき、CPU11は音声信号の冒頭を開始位置としてもよく、音声信号の冒頭から所定時間経過した位置を開始位置としてもよい。CPU11は、次に、音声信号の決定した開始位置から一定の時間長さに亘る部分音声信号に対してFFTを行う(S202)。
CPU11は、次に、FFTを行うことによって生成される部分音声信号のパワースペクトルを、Low(低周波数帯域)、Middle(中間周波数帯域)、High(高周波数帯域)の三つの周波数帯域に分割する(S203)。CPU11は、次に、Low,Middle,Highの各パワースペクトルで分布しているパワーを平均して、各周波数帯域でパワーを平均した平均パワーを算出する(S204)。CPU11は、次に、音声信号の最後まで平均パワーを算出する処理を実行したか否かを判定する(S205)。まだ音声信号の最後まで処理を行っていない場合は(S205:NO)、CPU11は、平均パワーを算出する処理を行った部分音声信号の数が、予め定めてある設定値になったか否かを判定する(S206)。処理を行った部分音声信号の数がまだ設定値になっていない場合は(S206:NO)、CPU11は、音声信号中でのFFTの開始位置を、時間が経過する方向に所定の時間長さだけシフトさせる(S207)。FFTの開始位置をシフトさせる時間長さは、部分音声信号の時間長さに等しくしてもよい。CPU11は、次に、処理をステップS202へ戻して、新たな開始位置から部分音声信号に対してFFTを行い、ステップS202〜S207で開始位置をシフトしながら部分音声信号のFFT及び平均パワーの算出を繰り返す。
図4は、部分音声信号のFFTを繰り返した結果の例を示す説明図である。図4(a)は音声信号の例を示し、縦軸は音声強度を示し、横軸は時間を示す。図4(a)中に示す縦線は次々にシフトするFFTの開始位置を示し、FFTの開始位置をシフトさせる時間長さが部分音声信号の時間長さに等しい場合は、FFTの開始位置で音声信号を分割した各部分が部分音声信号となる。図4(b)は、図4(a)に示す音声信号に含まれる最初の部分音声信号のパワースペクトルを示し、図4(c)は2番目の部分音声信号のパワースペクトルを示す。図4(b)及び(c)の縦軸はパワーを示し、横軸は周波数を示す。各部分音声信号のパワースペクトルは、Low,Middle,Highの3つの周波数帯域に分割され、夫々の周波数帯域内で平均パワーが算出される。音声信号が含む複数の部分音声信号の夫々について、順に、パワースペクトルが得られ、各周波数帯域での平均パワーが算出される。
ステップS205で音声信号の最後まで処理を行っている場合(S205:YES)、又はステップS206で処理を行った部分音声信号の数が設定値になっている場合(S206:YES)は、CPU11は、Low,Middle,Highの各周波数帯域で、音声信号に含まれる複数の部分音声信号について算出した平均パワーを時間軸上に並べた平均パワー時系列を生成する(S208)。このとき、CPU11は、各部分音声信号の音声信号中での時間的位置に対応させて平均パワーを時間軸上に並べる。例えば、CPU11は、時間軸上において、音声信号中での各部分音声信号の開始位置に平均パワーを位置させる。
図5は、平均パワー時系列の例を示す特性図である。図5(a),(b),(c)は夫々Low,Middle,Highの各周波数帯域での平均パワー時系列を示す。図中の縦軸は平均パワーを示し、横軸は時間を示す。このようにして、音声信号中で各周波数帯域の平均パワーが時間的に変動する様子が得られる。これは、低音域、中音域及び高音域の音量が楽曲中で時間的に変動する様子に対応している。
CPU11は、次に、Low,Middle,Highの各周波数帯域の平均パワー時系列に対してFFTを行う(S209)。CPU11は、次に、Low,Middle,Highの各周波数帯域でFFTによって得られたパワースペクトルについて、両対数表示のパワースペクトルの近似直線を算出する(S210)。ここで得られた近似直線は、本発明における近似曲線に相当する。CPU11は、次に、Low,Middle,Highの各周波数帯域で算出した近似直線の傾き及びY切片を、音量の周期的な揺らぎを特徴付ける揺らぎデータとして取得する(S211)。CPU11は、取得した揺らぎデータをRAM12に記憶し、揺らぎデータ取得処理を終了して処理をメインへ戻す。
図6は、両対数表示のパワースペクトル及び近似直線の例を示す特性図である。図の縦軸は対数パワーを示し、平均パワー時系列のFFTによって得られたパワーを対数スケールで示す。図の横軸は周波数を対数スケールで示す。CPU11は、図6に示す如きパワースペクトルをLow,Middle,Highの各周波数帯域について求めている。求めた各周波数帯域でのパワースペクトルは、楽曲中で低音域、中音域及び高音域の音量が変動する周波数の分布を示し、各音域での音量の周期的な揺らぎを表す。図6に示す近似直線の傾き及びY切片は、本発明における近似曲線のパラメータに相当し、音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとなる。
CPU11は、次に、取得した揺らぎデータを用いて、音声信号が表す楽曲のテンポを検出するテンポ検出処理を実行する(S3)。テンポとは楽曲を演奏する速さのことであり、楽曲中に含まれる一拍の周期又は楽曲中で所定時間中に拍が含まれる数がテンポを表す。通常の楽曲では、低音域の音量がテンポと同じ周期で増減することで拍を刻んでいるので、Lowの周波数帯域で求めた図6に示す如きパワースペクトルにおいて、テンポの周期は他よりもパワーの値が大きい成分の周期として現れるはずである。また通常の楽曲では、テンポの周期は0.3〜1sの間に含まれることが多い。また楽曲には、一拍を倍にしたリズム又は一拍を2分割若しくは4分割したリズムで音量が変動する音が含まれていることも多い。
図7〜図10は、テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。CPU11は、Lowの周波数帯域で平均パワー時系列のFFTによって得られたパワースペクトルを用い、両対数表示のパワースペクトル中の各成分の値と近似直線との差分値を計算し、両対数表示のパワースペクトル中に、周期0.3〜2sの範囲において差分値が1.25以上となる成分があるか否かを判定する(S301)。なお、周期は周波数の逆数である。差分値が1.25以上である成分がある場合は(S301:YES)、CPU11は、差分値が1.25以上である成分の内で最も周期が長い成分の周期Aを取得する(S302)。CPU11は、次に、取得した周期Aが1.0sより大きいか否かを判定する(S303)。Aが1.0sより大きい場合には(S303:YES)、テンポの周期は1s以下であることが多いはずであるので、Aはテンポの倍の周期であるとして、CPU11は、A/2をテンポの周期とする(S304)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。
ステップS303でAが1.0s以下である場合には(S303:NO)、CPU11は、Aが0.5sより小さいか否かを判定する(S305)。Aが0.5s以上である場合は(S305:NO)、0.5s≦A≦1sであってAが0.3〜1sの間に含まれるので、CPU11は、Aをテンポの周期とする(S306)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。
ステップS305でAが0.5sより小さい場合は(S305:YES)、CPU11は、両対数表示のパワースペクトル中で周期が(A×4)である成分の差分値が1.0より大きいか否かを判定する(S307)。周期が(A×4)である成分の差分値が1.0より大きい場合は(S307:YES)、(A×2)が0.3〜1sの範囲にあって(A×2)の2倍の周期で差分値が大きいので、CPU11は、(A×2)をテンポの周期とする(S308)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。ステップS307で周期が(A×4)である成分の差分値が1.0以下である場合は(S307:NO)、CPU11は、処理をステップS306へ進めてAをテンポの周期とする。
ステップS301で周期0.3〜2sの範囲において差分値が1.25以上となる成分がない場合は(S301:NO)、CPU11は、両対数表示のパワースペクトル中に、周期0.3〜2sの範囲において差分値が0.74以上となる成分があるか否かを判定する(S309)。差分値が0.74以上となる成分がない場合は(S309:NO)、CPU11は、両対数表示のパワースペクトル中に、周期0.3〜2sの範囲において差分値が0.6以上となる成分があるか否かを判定する(S310)。なお、基準となる差分値が小さくなる程、テンポを検出する精度は低下する。
ステップS309で差分値が0.74以上となる成分がある場合(S309:YES)、又はステップS310で差分値が0.6以上となる成分がある場合は(S310:YES)、CPU11は、ステップS309で差分値が0.74以上となる成分又はS310で差分値が0.6以上となる成分を抽出し、抽出した成分の周期の内で最長の周期Aを取得する(S311)。CPU11は、次に、取得した周期Aが1.2sより大きいか否かを判定する(S312)。Aが1.2sより大きい場合は(S312:YES)、CPU11は、周期が(A/8)である成分の差分値が1.1以上であるか否かを判定する(S313)。周期が(A/8)である成分の差分値が1.1以上である場合は(S313:YES)、(A/4)を2分割した周期で差分値が大きいので、CPU11は、A/4をテンポの周期とする(S315)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。
ステップS313で周期が(A/8)である成分の差分値が1.1より小さい場合は(S313:NO)、CPU11は、周期0.3s以下の範囲で値が1.2より大きい成分があり、周期(A/4)での成分の値>周期Aでの成分の値であり、しかも周期(A/4)での差分値が1.0より大きいという条件が満たされるか否かを判定する(S314)。ステップS314の条件が満たされる場合は(S314:YES)、A/4はテンポの周期としては小さいものの、周期が小さい範囲で成分の値が大きく、テンポの周期が小さいことが確からしいので、CPU11は、処理をステップS315へ進めてA/4をテンポの周期とする。ステップS314の条件が満たされない場合は(S314:NO)、CPU11は、処理をステップS304へ進めてA/2をテンポの周期とする。
ステップS312でAが1.2s以下である場合は(S312:NO)、CPU11は、Aが1.0sより大きいか否かを判定する(S316)。Aが1.0sより大きい場合には(S316:YES)、CPU11は、ステップS303と同様に、処理をステップS304へ進めてA/2をテンポの周期とする。Aが1.0s以下である場合は(S316:NO)、CPU11は、Aが0.6sより大きく、かつ抽出した成分の数が2より多いか否かを判定する(S317)。ステップS317の条件が満たされた場合は(S317:YES)、CPU11は、周期0.3s〜Aの範囲において抽出できる成分が二つ以上あり、しかも周期2〜3sの範囲において差分値が0.7以上の成分があるという条件が満たされるか否かを判定する(S318)。ステップS318の条件が満たされない場合は(S318:NO)、CPU11は、処理をステップS304へ進めてA/2をテンポの周期とする。ステップS318の条件が満たされる場合は(S318:YES)、CPU11は、差分値が0.7以上である成分の周期の1/4をテンポの周期とする(S319)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。
ステップS317の条件が満たされない場合は(S317:NO)、CPU11は、Aが0.6s以上1.0s以下であるか否かを判定する(S320)。Aが0.6s以上1.0s以下である場合は(S320:YES)、周期(A/4)での差分値が1.1以上であるか否かを判定する(S321)。周期(A/4)での差分値が1.1以上である場合は(S321:YES)、CPU11は、処理をステップS304へ進めてA/2をテンポの周期とする。周期(A/4)での差分値が1.1より小さい場合は(S321:NO)、CPU11は、処理をステップS306へ進めてAをテンポの周期とする。
ステップS320でAが0.6sより小さい場合は(S320:NO)、CPU11は、Aが0.5sより小さいか否かを判定する(S322)。Aが0.5s以上である場合は(S322:NO)、CPU11は、処理をステップS306へ進めてAをテンポの周期とする。Aが0.5sより小さい場合は(S322:YES)、CPU11は、周期0.3〜1sの範囲において周期Aの成分の他に抽出した成分がなく、周期Aでの差分値が0.9より小さく、周期(A/2)での差分値が1.1より小さいという条件が満たされるか否かを判定する(S323)。ステップS323の条件が満たされない場合は(S323:NO)、CPU11は、処理をステップS306へ進めてAをテンポの周期とする。ステップS323の条件が満たされる場合は(S323:YES)、CPU11は、処理をステップS308へ進めて(A×2)をテンポの周期とする。
ステップS310で、周期0.3〜2sの範囲において差分値が0.6以上となる成分がない場合は(S310:NO)、CPU11は、両対数表示のパワースペクトル中に、周期3〜4sの範囲において差分値が0.6以上となる成分があるか否かを判定する(S324)。差分値が0.6以上となる成分がある場合は(S324:YES)、CPU11は、差分値が0.6以上である成分の内で最も周期が長い成分の周期Bを取得し(S325)、B/4をテンポの周期とする(S326)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。
ステップS324で周期3〜4sの範囲において差分値が0.6以上となる成分がない場合は(S324:NO)、CPU11は、両対数表示のパワースペクトル中に、周期0.1〜0.3sの範囲において差分値が0.9以上となる成分があるか否かを判定する(S327)。周期0.1〜0.3sの範囲において差分値が0.9以上となる成分がある場合は(S327:YES)、CPU11は、0.3sをテンポの周期とする(S328)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。
ステップS327で周期0.1〜0.3sの範囲において差分値が0.9以上となる成分がない場合は(S327:NO)、CPU11は、両対数表示のパワースペクトル中に、周期0.1〜0.3sの範囲において差分値が0.7以上となる成分があるか否かを判定する(S329)。差分値が0.7以上となる成分がある場合は(S329:YES)、CPU11は、差分値が0.7以上である成分の周期を4倍した周期をテンポの周期とする(S330)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。ステップS329で周期0.1〜0.3sの範囲において差分値が0.7以上となる成分がない場合は(S329:NO)、CPU11は、1.0sをテンポの周期とする(S331)。CPU11は、検出したテンポの周期をRAM12に記憶し、テンポ検出処理を終了して処理をメインへ戻す。
CPU11は、次に、音声信号から、人の聴覚に合わせて音声を特徴付けた特性を示すメルケプストラム係数を算出するメルケプストラム係数算出処理を実行する(S4)。人の聴覚は、低周波数では細かく、高周波数では粗い周波数分解能を持つことが知られている。この周波数分解能は、メル尺度と呼ばれる対数に近い非線形の特性を示す。通常の周波数をfとして、メル周波数Mel(f)は、下記の式(1)で表される。
Figure 2008070650
メルケプストラム係数は、メル周波数軸上を等間隔に分割した三角窓のフィルタバンクを用い、フィルタバンクの出力を離散コサイン変換することで算出される。低周波数の絶対値が大きくなり、高周波数の絶対値が小さくなる離散コサイン変換を施しているので、メルケプストラム係数は、音声信号の低次成分、即ちスペクトル包絡を示している。音声信号のスペクトル包絡は、音声を特徴付ける音質を表しており、従来、種々の音声認識処理に利用されている。
図11は、メルケプストラム係数算出処理のサブルーチンでの処理の手順を示すフローチャートである。CPU11は、取得した音声信号中でFFTを開始する開始位置を決定し(S41)、決定した開始位置から一定の時間長さに亘る部分音声信号に対してFFTを行う(S42)。CPU11は、次に、FFTによって生成される部分音声信号のパワースペクトルに対して、メル周波数軸上に等間隔に配置された三角窓のフィルタバンク出力を計算する(S43)。ここで、ωを通常の周波数、kを1,…,Kの自然数、k番目の三角窓のフィルタの下限,中心,上限の周波数を夫々ωlo(k),ωc (k),ωhi(k)とし、パワースペクトルでのパワーの値をY(ω)とすると、各三角窓のフィルタ出力m(k)は、下記の式(2)で表される。
Figure 2008070650
図12は、フィルタバンク出力を求める処理の内容を説明する説明図である。図12(a)は部分音声信号のパワースペクトルを示し、図12(b)はメル周波数軸上に等間隔に配置された三角窓のフィルタバンクを示し、横軸は共に通常の周波数を示している。図12の縦軸はパワーを示し、図12(a)では式(2)中のY(ω)に対応し、図12(b)では式(2)中のW(ω;k)に対応する。フィルタバンク中の隣接するフィルタ間では、ωc (k)はメル周波数軸上に等間隔に配置され、また、図12(b)に示す如く、ωc(k)=ωhi(k−1)=ωlo(k+1)の関係が成り立っている。フィルタバンク中のフィルタの数K、最初のフィルタの下限の周波数ωlo(1)、及び最後のフィルタの上限の周波数ωhi(K)は予め設定してある。例えば、K=40、ωlo(1)=166(Hz)、ωhi(K)=7000(Hz)とすると、隣接するフィルタ間の間隔はメル周波数軸上で約61.56となる。CPU11は、式(2)で表されるように、図12(a)に示す如きパワースペクトルの値と図12(b)に示す如き三角窓のフィルタとから、式(2)に基づいて、フィルタバンク出力m(1),…,m(K)を計算する。
CPU11は、次に、計算したフィルタバンク出力m(1),…,m(K)の離散コサイン変換を行うことにより、所定の次数までのメルケプストラム係数を計算する(S44)。CPU11は、次に、音声信号の最後までメルケプストラム係数を計算する処理を実行したか否かを判定する(S45)。まだ音声信号の最後まで処理を行っていない場合は(S45:NO)、CPU11は、メルケプストラム係数を計算する処理を行った部分音声信号の数が、予め定めてある設定値になったか否かを判定する(S46)。処理を行った部分音声信号の数がまだ設定値になっていない場合は(S46:NO)、CPU11は、音声信号中でのFFTの開始位置を、時間が経過する方向に所定の時間長さシフトさせる(S47)。CPU11は、次に、処理をステップS42へ戻して、新たな開始位置から部分音声信号に対してFFTを行い、ステップS42〜S47で開始位置をシフトしながら部分音声信号のFFT及びメルケプストラム係数の計算を繰り返す。
ステップS45で音声信号の最後まで処理を行っている場合(S45:YES)、又はステップS46で処理を行った部分音声信号の数が設定値になっている場合(S46:YES)は、CPU11は、各部分音声信号から計算した所定の次数までのメルケプストラム係数を、部分音声信号間で平均することにより、音声信号のメルケプストラム係数を算出する(S48)。本実施の形態では、1次及び2次のメルケプストラム係数を算出する。CPU11は、算出したメルケプストラム係数をRAM12に記憶し、メルケプストラム係数算出処理を終了して処理をメインへ戻す。
CPU11は、次に、揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、音声信号について求めた揺らぎデータ及びメルケプストラム係数を、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する印象値変換処理を実行する(S5)。
図13は、階層型ニューラルネットワークを示す模式図である。階層型ニューラルネットワークはN層からなり、各層にはLn 個(n=1,…,N)のニューロンが含まれている。第1層は入力層であり、各ニューロンにデータが入力され、各ニューロンは入力されたデータに重みを付けて第2層の各ニューロンへ入力する。第n層(n=2,…,N−1)は中間層であり、各ニューロンは、第n−1層から入力されたデータの和に閾値処理を行い、重みを付けて第n+1層のニューロンへ入力する。第N層は出力層であり、各ニューロンは、第N−1層から入力されたデータの和に閾値処理を行い、出力を行う。
本発明で利用する階層型ニューラルネットワークは、誤差逆伝播学習法を用いて学習されている。以下に、階層型ニューラルネットワークを学習させる方法を説明する。テスト用の音声信号から得られた揺らぎデータ及び/又はメルケプストラム係数を入力信号とし、テスト用の音声信号が表す楽曲から人間が受ける特定の印象の度合いを多段階で示す印象値を教師信号とする。各ニューロンの重みの初期値を乱数によって−0.1〜0.1程度の範囲の小さな値に設定する。更に学習率η(0<η≦1)を設定する。
入力信号Xi (i=1,…,L1 )を階層型ニューラルネットワークの入力層へ入力し、各層でニューロンでの計算を行い、出力層からの出力を得る。出力層の出力outj N (j=1,…,LN )と教師信号yj との誤差から、出力層での学習則δj N を計算する。具体的には、下記の(3)式を用いてδj N を計算する。
Figure 2008070650
第n−1層i番目のニューロンと第n層j番目のニューロンとの間の重みをwj,i n,n-1 とし、第n層j番目のニューロンにおける値をoutj n として、第n層j番目のニューロンにおける誤差δj n を、計算したδj N を用いてn=N−1からn=1まで順に計算する。具体的には、下記の(4)式を用いてδj nを計算する。
Figure 2008070650
計算した誤差δj n を用いて、各ニューロンの重みwj,i n,n-1 の変化量Δwj,i n,n-1 を計算する。具体的には、下記の(5)式を用いてΔwj,i n,n-1 を計算する。
Figure 2008070650
計算したΔwj,i n,n-1 をwj,i n,n-1 に加算することにより、新たな重みwj,i n,n-1 を計算する。テスト用の音声信号から得られる出力と教師信号との2乗誤差が十分小さくなるまで重みwj,i n,n-1の計算を繰り返し、階層型ニューラルネットワークの学習を行う。
コンピュータプログラム141は、入力された揺らぎデータ及びメルケプストラム係数を変換して印象値を出力するように予め学習された階層型ニューラルネットワークを実行するためのプログラムを含んでいる。本実施の形態においては、楽曲から人間が受ける「透明度」の印象の度合いを示す印象値と、楽曲から人間が受ける「明るさ」の印象の度合いを示す印象値と、楽曲から人間が受ける「激しさ」の印象の度合いを示す印象値との夫々を出力する3種類の階層型ニューラルネットワークを用いる。「透明度」の印象値を出力する階層型ニューラルネットワークは、ステップS4で算出した1次及び2次のメルケプストラム係数を入力されて透明度の印象の度合いを多段階の数値で示す1個の印象値を出力する2入力1出力の階層型ニューラルネットワークである。また「明るさ」の印象値を出力する階層型ニューラルネットワークと「激しさ」の印象値を出力する階層型ニューラルネットワークとは、ステップS2で取得したLow,Middle,Highの各周波数帯域で算出した近似直線の傾き及びY切片である6個の揺らぎデータ並びにステップS4で算出した1次及び2次の2個のメルケプストラム係数を入力されて「明るさ」と「激しさ」との印象の度合いを多段階の数値で示す1個の印象値を出力する8入力1出力の階層型ニューラルネットワークである。各階層型ニューラルネットワークは、各印象値を0〜1の範囲の数値で出力するように学習されている。
図14は、印象値変換処理のサブルーチンでの処理の手順を示すフローチャートである。CPU11は、ステップS2で取得した6個の揺らぎデータ及びステップS4で算出した2個のメルケプストラム係数を、例えば0〜1の範囲に正規化する(S51)。CPU11は、次に、「透明度」の印象の度合いを示す印象値を出力する階層型ニューラルネットワークへ正規化したメルケプストラム係数を入力し、階層型ニューラルネットワークの処理を行い、「透明度」の印象の度合いを示す印象値を求める(S52)。CPU11は、次に、「明るさ」の印象の度合いを示す印象値を出力する階層型ニューラルネットワークへ正規化した揺らぎデータ及びメルケプストラム係数を入力し、階層型ニューラルネットワークの処理を行い、「明るさ」の印象の度合いを示す印象値を求める(S53)。CPU11は、次に、「激しさ」の印象の度合いを示す印象値を出力する階層型ニューラルネットワークへ正規化した揺らぎデータ及びメルケプストラム係数を入力し、階層型ニューラルネットワークの処理を行い、「激しさ」の印象の度合いを示す印象値を求める(S54)。CPU11は、求めた「透明度」、「明るさ」及び「激しさ」の印象の度合いを示す印象値をRAM12に記憶し、印象値変換処理を終了して処理をメインへ戻す。
CPU11は、次に、ステップS5で求めた「激しさ」の印象の度合いを示す印象値を用いて、ステップS3で検出した楽曲のテンポを補正するテンポ補正処理を実行する(S6)。図15は、テンポ補正処理のサブルーチンでの処理の手順を示すフローチャートである。ここで、楽曲中で1分間に拍が含まれる数bpm(beat per minute )でテンポを表す。テンポの周期0.3sは200bpmに対応し、周期1sは60bpmに対応する。また印象値は、0〜1の範囲の数値となっている。
CPU11は、激しさの印象値が0.55より大きいか否かを判定する(S601)。激しさの印象値が0.55より大きい場合は(S601:YES)、CPU11は、テンポが75bpm以下であるか否かを判定する(S602)。テンポが75bpm以下である場合は(S602:YES)、激しさが大きいのにテンポが小さいのは不自然であるので、テンポはより大きいはずであるとして、CPU11は、RAM12に記憶しているテンポを2倍にする補正を行う(S603)。CPU11は、次に、テンポ補正処理を終了して処理をメインへ戻す。
ステップS601で激しさの印象値が0.55以下である場合(S601:NO)、又はステップS602でテンポが75bpmより大きい場合は(S602:NO)、CPU11は、激しさの印象値が0.47以下であるか否かを判定する(S604)。激しさの印象値が0.47以下である場合は(S604:YES)、CPU11は、テンポが130bpm以上であるか否かを判定する(S605)。テンポが130bpm以上である場合は(S605:YES)、激しさが小さいのにテンポが大きいのは不自然であるので、テンポはより小さいはずであるとして、CPU11は、テンポを1/2にする補正を行う(S606)。CPU11は、次に、テンポ補正処理を終了して処理をメインへ戻す。
ステップS604で激しさの印象値が0.47より大きい場合(S604:NO)、又はステップS605でテンポが130bpmより小さい場合は(S605:NO)、CPU11は、激しさの印象値が0.51以下であるか否かを判定する(S607)。激しさの印象値が0.51以下である場合は(S607:YES)、CPU11は、テンポが150bpm以上であるか否かを判定する(S608)。テンポが150bpm以上である場合は(S608:YES)、CPU11は、処理をステップS606へ進める。
ステップS607で激しさの印象値が0.51より大きい場合(S607:NO)、又はステップS608でテンポが150bpmより小さい場合は(S608:NO)、CPU11は、激しさの印象値が0.59以下であるか否かを判定する(S609)。激しさの印象値が0.59より大きい場合は(S609:NO)、CPU11は、テンポを変更せずにテンポ補正処理を終了して処理をメインへ戻す。激しさの印象値が0.59以下である場合は(S609:YES)、CPU11は、テンポが180bpm以上であるか否かを判定する(S610)。テンポが180bpm以上である場合は(S610:YES)、CPU11は、処理をステップS606へ進める。テンポが150bpmより小さい場合は(S610:NO)、CPU11は、テンポを変更せずにテンポ補正処理を終了して処理をメインへ戻す。
CPU11は、次に、音声信号から得られた3種類の印象値及びテンポを、音声信号の基になった楽曲データに関連付け、印象値及びテンポを楽曲データに関連づけることによって楽曲データを分類した分類情報を記憶部14に記憶させる(S7)。CPU11は、以上で楽曲分類方法の処理を終了する。楽曲分類装置1は、以上の楽曲分類方法の処理を、記憶部14で記憶している夫々の楽曲データについて実行する。
図16は、記憶部14が記憶する分類情報の内容例を示す概念図である。分類情報には、楽曲データ名が記録されており、テンポと、透明度、明るさ及び激しさの夫々の印象値とが楽曲データ名に関連付けて数値で記録されている。楽曲データは、楽曲の特徴を示すテンポ及び印象値が関連付けられることによって、特徴で分類される。
更に記憶部14は、楽曲データをいくつかの項目に分類するために、各項目に楽曲データの特徴を対応付けた対応情報を記憶している。図17は、対応情報の内容例を示す概念図である。ノリノリ系、癒し系及びゆったり系等の項目に対して、テンポ及び印象値の具体的な数値の範囲が設定されている。例えば、ノリノリ系の項目については、テンポが大きく、明るさ及び激しさの印象値の値が大きく設定されている。またゆったり系の項目については、テンポが小さく、透明度及び明るさの印象値の値が中程度で、激しさの印象値の値が小さく設定されている。図16に示した曲A.mp3の楽曲データは、ゆったり系に分類され、曲B.mp3の楽曲データはノリノリ系に分類されることとなる。
楽曲分類装置1は、記憶部14で記憶している以上の楽曲データ、分類情報及び対応情報を楽曲再生装置2へ送信する処理を行う。CPU11は、RAM12にロードされたコンピュータプログラム141に従って、インタフェース部17に楽曲データ、分類情報及び対応情報を楽曲再生装置2へ送信させる処理を実行する。楽曲再生装置2は、楽曲分類装置1から送信された楽曲データ、分類情報及び対応情報をインタフェース部27で受信し、制御部21は、受信した楽曲データ、分類情報及び対応情報を記憶部22に記憶させる。使用者は、インタフェース部27に接続されたケーブルを取り外し、楽曲再生装置2を携帯して使用する。
楽曲再生装置2は、記憶部22で記憶する複数の楽曲データから所望の楽曲データを検索する際に、楽曲の特徴に基づいて楽曲データを検索することができる。使用者が操作部23を操作して検索の指示が楽曲再生装置2に入力された場合は、制御部21は、対応情報に記録されている項目名の一覧を表示部28に表示させる。使用者は、操作部23を操作して、ノリノリ系、癒し系及びゆったり系等の項目の中からいずれかの項目を選択する。制御部21は、記憶部22で記憶している楽曲データの内、分類情報に記憶されているテンポ及び印象値の値が、選択された項目について対応情報に設定されているテンポ及び印象値の数値の範囲に該当する楽曲データを抽出する。制御部21は、抽出した楽曲データの名称を表示部28に表示させ、使用者は、名称が表示された楽曲データの中から所望の楽曲データを選択することができる。使用者が操作部23を操作して楽曲データが指定された場合は、制御部21は、指定された楽曲データを記憶部22から読み出し、データ処理部24に楽曲データをデコードさせ、出力部25に音声を出力させる。このようにして、使用者は、楽曲から受ける印象に基づいて楽曲データを検索し、楽曲を聴くことができる。
次に、本発明を用いて楽曲データを分類するシミュレーションの結果を説明する。図18は、学習された階層型ニューラルネットワークによるテスト曲に対する印象値の出力と、テスト曲に対する印象値の人による評価との分布を示す分布図である。図18(a)は明るさの印象値の分布を示し、図18(b)は透明度の印象値の分布を示し、図18(c)は激しさの印象値の分布を示す。各図の縦軸は印象値を示し、横軸はテスト曲の夫々に対応する曲番号を示す。また図中には、階層型ニューラルネットワークによる出力を白抜き菱形印で示し、人による印象値の評価値を矩形状の塗り潰し領域で示している。図中に示すように、人による印象値の評価値は、複数の段階に量子化されている。
図18に示すシミュレーションの結果から、学習された階層型ニューラルネットワークによる出力と、印象値の人による評価値との平均二乗誤差を計算した。平均二乗誤差は、下記の(6)式を用いて計算した。
Figure 2008070650
また、平均二乗誤差をより分かり易い値に変換した写像精度を計算した。写像精度は下記の(7)式を用いて計算した。
Figure 2008070650
写像精度は、平均二乗誤差が(0.067)2 以下であれば100%となり、平均二乗誤差が(0.3)2以下であれば0%となる。0.067は、人による印象値の評価値を量子化する際の量子化誤差に基づいており、0.3は、実用上問題ないと判断した分布の射影精度が90%となるように調整して定めた値である。
図19は、学習された階層型ニューラルネットワークによる出力と印象値の人による評価値との誤差を本発明と従来技術とで比較した図表である。図19(a)は、本発明のシミュレーションによって、メルケプストラム係数を用いて階層型ニューラルネットワークから得た出力と人による印象値の評価値との誤差を示す。図19(b)は、特許文献1に開示された如き従来技術のシミュレーションによって、階層型ニューラルネットワークから得た出力と人による印象値の評価値との誤差を示す。本発明によるシミュレーション結果では、従来技術によるシミュレーション結果に比べて、いずれの印象値においても平均二乗誤差が小さくなっている。また本発明によるシミュレーション結果では、実用上問題がない程度まで写像精度が向上している。従って、本発明では、楽曲分類装置1が求めた印象値が示す楽曲の印象と実際に楽曲を聴いた使用者が楽曲から感じる印象との間のずれが従来技術に比べて小さくなり、実際の印象により合致した印象値で楽曲データを分類できることが明らかである。
以上詳述した如く、本発明においては、楽曲の音声を表した音声信号からメルケプストラム係数を求め、メルケプストラム係数を入力されて「透明度」の印象値を出力するように学習された階層型ニューラルネットワークを用いて、メルケプストラム係数を、楽曲から人間が受ける「透明度」の印象の度合いを示す印象値へ変換する。楽曲を特徴付ける音質を表すメルケプストラム係数から印象値を求めることにより、従来技術に比べて、実際に楽曲を聴いた使用者が楽曲から感じる印象と求めた印象値が示す楽曲の印象とのずれが小さくなる。従って、使用者が楽曲から感じる印象で楽曲データが分類され、使用者は、好みに応じた所望の印象を感じられる楽曲をより正確に検索して聴くことが可能となる。
また本発明においては、Low,Middle,Highの各周波数帯域において平均パワー時系列のパワースペクトルを求め、両対数表示のパワースペクトルの近似直線の傾き及びY切片を、各周波数帯域で音量が変動する周波数の分布を示す揺らぎデータとして取得する。揺らぎデータ及びメルケプストラム係数を入力されて「明るさ」及び「激しさ」の印象値を出力するように学習された階層型ニューラルネットワークを用いて、揺らぎデータ及びメルケプストラム係数を、「明るさ」及び「激しさ」の印象の度合いを示す印象値へ変換する。音量の周期的な揺らぎを特徴付ける揺らぎデータ及びメルケプストラム係数から印象値を求めることにより、揺らぎデータから印象値を求める従来技術に比べて、実際に楽曲を聴いた使用者が楽曲から感じる印象と求めた印象値が示す楽曲の印象とのずれが小さくなる。
また本発明においては、平均パワー時系列のパワースペクトルと近似直線との差分値に基づいて、楽曲のテンポを求める。周期0.3〜2sの範囲において所定値以上の差分値を有する成分の周期Aに基づき、テンポの周期が0.3〜1sの範囲に入るように、またテンポの周期の倍又は半分の周期におけるパワースペクトルの成分が十分な値であるように、テンポの周期を、A/4、A/2、A又はA×2等とする。また本発明においては、「激しさ」の印象の度合いを示す印象値の大きさに応じて、印象値が大きい場合にはテンポも早くなり、印象値が小さい場合にはテンポも遅くなるように、テンポを補正する。実際の印象とのずれが小さい印象値に基づいてテンポを補正するので、より精度よく楽曲のテンポを判別することが可能となる。
なお、本実施の形態に示した楽曲分類方法では、楽曲データをサンプリングした音声信号のFFTを行う処理を、ステップS2の揺らぎデータ取得処理とステップS4のメルケプストラム係数算出処理とで個別に行うアルゴリズムを示したが、本発明の楽曲分類方法では、FFTの処理をまとめて行うアルゴリズムで処理を行ってもよい。また本実施の形態においては、印象値を求めるために1次及び2次のメルケプストラム係数を用いる形態を示したが、本発明の楽曲分類方法では、3次以上の次数のメルケプストラム係数を用いる形態であってもよい。
また本実施の形態においては、楽曲分類装置1は汎用コンピュータを用いてなり、CPU11がコンピュータプログラム141に従って動作することによって本発明の楽曲分類方法の処理をソフトウェアで実現する形態を示したが、これに限るものではなく、本発明の楽曲分類装置1は、本発明の楽曲分類方法の処理の一部又は全部をハードウェアで実現する形態であってもよい。例えば、楽曲分類装置1は、サンプリングにより音声信号を取得する処理、音声信号に対してFFTを行う処理、又は階層型ニューラルネットワークの処理等の処理を専門に実行するハードウェアを備え、CPU11がコンピュータプログラム141に従って実行する処理とハードウェアが実行する処理とを組み合わせて本発明の楽曲分類方法の処理を実現する形態であってもよい。
また本実施の形態においては、楽曲再生装置2は、楽曲のテンポ及び印象値を対応付けた項目を利用して楽曲データを検索する形態を示したが、これに限るものではなく、楽曲再生装置2は、楽曲のテンポ又は印象値の値を指定して楽曲データを検索する形態であってもよい。更に本実施の形態においては、楽曲分類装置1は、記憶部14で予め記憶している楽曲データに対して本発明の楽曲分類方法の処理を実行する形態を示したが、本発明の楽曲分類装置1は、これに限るものではなく、CD等の記録媒体からデータを読み込んで楽曲データを生成する処理を行う際に、本発明の楽曲分類方法の処理を実行する形態であってもよい。
本発明の楽曲分類装置及び楽曲再生装置の構成を示すブロック図である。 CPUが本発明において実行する処理の手順を示すフローチャートである。 揺らぎデータ取得処理のサブルーチンでの処理の手順を示すフローチャートである。 部分音声信号のFFTを繰り返した結果の例を示す説明図である。 平均パワー時系列の例を示す特性図である。 両対数表示のパワースペクトル及び近似直線の例を示す特性図である。 テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。 テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。 テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。 テンポ検出処理のサブルーチンでの処理の手順を示すフローチャートである。 メルケプストラム係数算出処理のサブルーチンでの処理の手順を示すフローチャートである。 フィルタバンク出力を求める処理の内容を説明する説明図である。 階層型ニューラルネットワークを示す模式図である。 印象値変換処理のサブルーチンでの処理の手順を示すフローチャートである。 テンポ補正処理のサブルーチンでの処理の手順を示すフローチャートである。 記憶部が記憶する分類情報の内容例を示す概念図である。 対応情報の内容例を示す概念図である。 学習された階層型ニューラルネットワークによるテスト曲に対する印象値の出力と、テスト曲に対する印象値の人による評価との分布を示す分布図である。 学習された階層型ニューラルネットワークによる出力と印象値の人による評価値との誤差を本発明と従来技術とで比較した図表である。
符号の説明
1 楽曲分類装置
11 CPU
12 RAM
13 ドライブ部
14 記憶部
141 コンピュータプログラム
15 入力部
16 表示部
17 インタフェース部
18 通信部
2 楽曲再生装置
21 制御部
22 記憶部
23 操作部
24 データ処理部
25 出力部
26 ヘッドフォン
27 インタフェース部
28 表示部

Claims (9)

  1. 楽曲の特徴を示すデータを生成する生成ステップと、該生成ステップで生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する変換ステップと、楽曲データに印象値を関連付けることによって楽曲データを分類するステップとを含む楽曲分類方法において、
    前記生成ステップは、
    楽曲の音声を表した音声信号の高速フーリエ変換(FFT)を行うFFT処理ステップと、
    該FFT処理ステップによるFFTの結果から、前記音声信号のメルケプストラム係数を求めるステップとを含み、
    前記変換ステップは、
    メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成ステップで求めたメルケプストラム係数を印象値へ変換するステップを含むこと
    を特徴とする楽曲分類方法。
  2. 前記FFT処理ステップは、
    前記音声信号を分割した部分音声信号に対してFFTを行うことによって、前記部分音声信号のパワースペクトルを求めるステップを含み、
    前記生成ステップは、
    前記音声信号に含まれる複数の部分音声信号の夫々について、前記FFT処理ステップで求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出するステップと、
    算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求めるステップと、
    求めた平均パワー時系列のFFTを行うことによって、平均パワー時系列のパワースペクトルを求めるステップと、
    求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求めるステップと、
    求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求めるステップと
    を更に含み、
    前記変換ステップは、
    揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成ステップで求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を印象値へ変換するステップを更に含むこと
    を特徴とする請求項1に記載の楽曲分類方法。
  3. 前記生成ステップで前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求めるステップと、
    前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求めるステップと、
    前記変換ステップで得られた特定の印象の度合いを示す印象値の値に応じて、求めたテンポを補正するステップと、
    補正したテンポを楽曲データに関連付けるステップと
    を更に含むことを特徴とする請求項2に記載の楽曲分類方法。
  4. 楽曲の特徴を示すデータを生成する生成手段と、該生成手段が生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換する変換手段と、楽曲データに印象値を関連付けることによって楽曲データを分類して記憶する記憶手段とを備える楽曲分類装置において、
    前記生成手段は、
    楽曲の音声を表した音声信号の高速フーリエ変換(FFT)を行うFFT処理手段と、
    該FFT処理手段によるFFTの結果から、特徴データとして前記音声信号のメルケプストラム係数を求める手段とを有し、
    前記変換手段は、
    メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成手段で求めたメルケプストラム係数を印象値へ変換する手段を有すること
    を特徴とする楽曲分類装置。
  5. 前記FFT処理手段は、
    前記音声信号を分割した部分音声信号に対してFFTを行うことによって、前記部分音声信号のパワースペクトルを求める手段を有し、
    前記生成手段は、
    前記音声信号に含まれる複数の部分音声信号の夫々について、前記FFT処理手段が求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出する手段と、
    該手段が算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求める手段と、
    該手段が求めた平均パワー時系列のFFTを行うことによって、平均パワー時系列のパワースペクトルを求める手段と、
    該手段が求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求める手段と、
    該手段が求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求める手段と
    を更に有し、
    前記変換手段は、
    揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークを用いて、前記生成手段で求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を印象値へ変換する手段を更に有すること
    を特徴とする請求項4に記載の楽曲分類装置。
  6. 前記生成手段が前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求める手段と、
    前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求める手段と、
    前記変換手段により得られた特定の印象の度合いを示す印象値の値に応じて、求めたテンポを補正するテンポ補正手段と
    を更に備え、
    前記記憶手段は、
    前記テンポ補正手段が補正したテンポを関連付けて楽曲データを記憶する手段を有すること
    を特徴とする請求項5に記載の楽曲分類装置。
  7. コンピュータに、楽曲の特徴を示すデータを生成させ、生成したデータを、楽曲から人間が受ける特定の印象の度合いを示す印象値へ変換させるコンピュータプログラムにおいて、
    コンピュータに、楽曲の音声を表した音声信号の高速フーリエ変換(FFT)を行わせる手順と、
    コンピュータに、前記FFTの結果から、前記音声信号のメルケプストラム係数を求めさせる手順と、
    コンピュータに、メルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークに対して、求めたメルケプストラム係数を入力して、出力される印象値を取得させる手順を含むこと
    を特徴とするコンピュータプログラム。
  8. コンピュータに、前記音声信号を分割した部分音声信号に対してFFTを行うことによって、前記部分音声信号のパワースペクトルを求めさせる手順と、
    コンピュータに、前記音声信号に含まれる複数の部分音声信号の夫々について、求めたパワースペクトルにおける所定周波数帯域のパワーを平均した平均パワーを算出させる手順と、
    コンピュータに、算出した平均パワーを各部分音声信号の前記音声信号中での時間的位置に対応させて時間軸上に並べた平均パワー時系列を求めさせる手順と、
    コンピュータに、求めた平均パワー時系列のFFTを行うことによって、平均パワー時系列のパワースペクトルを求めさせる手順と、
    コンピュータに、求めた平均パワー時系列のパワースペクトルを所定の曲線で近似した近似曲線を求めさせる手順と、
    コンピュータに、求めた近似曲線のパラメータを、前記音声信号における音量の周期的な揺らぎを特徴付ける揺らぎデータとして求めさせる手順と、
    コンピュータに、揺らぎデータ及びメルケプストラム係数を入力されて特定の印象の度合いを示す印象値を出力するように学習された階層型ニューラルネットワークに対して、求めた前記音声信号の揺らぎデータ及びメルケプストラム係数を入力して、出力される印象値を取得させる手順と
    を更に含むことを特徴とする請求項7に記載のコンピュータプログラム。
  9. コンピュータに、前記音声信号から求めた前記平均パワー時系列のパワースペクトル及び前記近似曲線の差分を求めさせる手順と、
    コンピュータに、前記差分の大きさが所定値以上である成分の周期の内で所定の周期範囲内で最も長い周期に基づいて、楽曲のテンポを求めさせる手順と、
    コンピュータに、特定の印象の度合いを示す印象値の値に応じて、求めたテンポを補正させる手順と
    を更に含むことを特徴とする請求項8に記載のコンピュータプログラム。
JP2006249886A 2006-09-14 2006-09-14 楽曲分類方法、楽曲分類装置及びコンピュータプログラム Expired - Fee Related JP4799333B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006249886A JP4799333B2 (ja) 2006-09-14 2006-09-14 楽曲分類方法、楽曲分類装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006249886A JP4799333B2 (ja) 2006-09-14 2006-09-14 楽曲分類方法、楽曲分類装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2008070650A true JP2008070650A (ja) 2008-03-27
JP4799333B2 JP4799333B2 (ja) 2011-10-26

Family

ID=39292279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006249886A Expired - Fee Related JP4799333B2 (ja) 2006-09-14 2006-09-14 楽曲分類方法、楽曲分類装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4799333B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011164497A (ja) * 2010-02-13 2011-08-25 Ryukoku Univ テンポ値検出装置およびテンポ値検出方法
JP2013225142A (ja) * 2009-10-30 2013-10-31 Dolby International Ab 複雑さがスケーラブルな知覚的テンポ推定
CN108053837A (zh) * 2017-12-28 2018-05-18 深圳市保千里电子有限公司 一种汽车转向灯声音信号识别的方法和***
JP2022501651A (ja) * 2018-09-28 2022-01-06 株式会社ソニー・インタラクティブエンタテインメント サウンド分類システム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538301B (zh) * 2018-02-13 2021-05-07 吟飞科技(江苏)有限公司 一种基于神经网络音频技术的智能数码乐器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005010771A (ja) * 2003-05-26 2005-01-13 Matsushita Electric Ind Co Ltd 音楽検索装置
JP2005141430A (ja) * 2003-11-05 2005-06-02 Sharp Corp 楽曲検索システムおよび楽曲検索方法
JP2005274993A (ja) * 2004-03-25 2005-10-06 Sony Corp 楽曲送信装置、楽曲格納再生装置および楽曲一覧メニュー提供方法、楽曲認識用情報表示方法
JP2005346347A (ja) * 2004-06-02 2005-12-15 Kddi Corp 情報検索装置、情報検索方法、情報検索プログラムおよび記録媒体
JP2006146729A (ja) * 2004-11-22 2006-06-08 National Institute Of Advanced Industrial & Technology コンテンツ検索表示装置及び方法並びにプログラム
JP2006194953A (ja) * 2005-01-11 2006-07-27 Sharp Corp テンポ抽出装置およびテンポ抽出方法
JP2007317168A (ja) * 2006-03-30 2007-12-06 Sony France Sa ハイブリッドオーディオビジュアル分類システム及び方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005010771A (ja) * 2003-05-26 2005-01-13 Matsushita Electric Ind Co Ltd 音楽検索装置
JP2005141430A (ja) * 2003-11-05 2005-06-02 Sharp Corp 楽曲検索システムおよび楽曲検索方法
JP2005274993A (ja) * 2004-03-25 2005-10-06 Sony Corp 楽曲送信装置、楽曲格納再生装置および楽曲一覧メニュー提供方法、楽曲認識用情報表示方法
JP2005346347A (ja) * 2004-06-02 2005-12-15 Kddi Corp 情報検索装置、情報検索方法、情報検索プログラムおよび記録媒体
JP2006146729A (ja) * 2004-11-22 2006-06-08 National Institute Of Advanced Industrial & Technology コンテンツ検索表示装置及び方法並びにプログラム
JP2006194953A (ja) * 2005-01-11 2006-07-27 Sharp Corp テンポ抽出装置およびテンポ抽出方法
JP2007317168A (ja) * 2006-03-30 2007-12-06 Sony France Sa ハイブリッドオーディオビジュアル分類システム及び方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013225142A (ja) * 2009-10-30 2013-10-31 Dolby International Ab 複雑さがスケーラブルな知覚的テンポ推定
KR101612768B1 (ko) 2009-10-30 2016-04-18 돌비 인터네셔널 에이비 인지적인 템포를 추정하기 위한 시스템 및 그 방법
US9466275B2 (en) 2009-10-30 2016-10-11 Dolby International Ab Complexity scalable perceptual tempo estimation
JP2011164497A (ja) * 2010-02-13 2011-08-25 Ryukoku Univ テンポ値検出装置およびテンポ値検出方法
CN108053837A (zh) * 2017-12-28 2018-05-18 深圳市保千里电子有限公司 一种汽车转向灯声音信号识别的方法和***
JP2022501651A (ja) * 2018-09-28 2022-01-06 株式会社ソニー・インタラクティブエンタテインメント サウンド分類システム

Also Published As

Publication number Publication date
JP4799333B2 (ja) 2011-10-26

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
CN112382257B (zh) 一种音频处理方法、装置、设备及介质
CN112992109B (zh) 辅助歌唱***、辅助歌唱方法及其非瞬时计算机可读取记录媒体
JP4799333B2 (ja) 楽曲分類方法、楽曲分類装置及びコンピュータプログラム
WO2022089097A1 (zh) 音频处理方法、装置及电子设备和计算机可读存储介质
JP5345783B2 (ja) 音声信号用フットプリントを生成する方法
JP2002215195A (ja) 音楽信号処理装置
US20230186782A1 (en) Electronic device, method and computer program
US11842720B2 (en) Audio processing method and audio processing system
JPH07295560A (ja) Midiデータ編集装置
RU2510954C2 (ru) Способ переозвучивания аудиоматериалов и устройство для его осуществления
JP3716725B2 (ja) 音声処理装置、音声処理方法および情報記録媒体
JP2006178334A (ja) 語学学習システム
CN116156214A (zh) 一种视频调音方法、装置、电子设备及存储介质
JP4607660B2 (ja) 楽曲検索装置および楽曲検索方法
JP4698606B2 (ja) 楽曲処理装置
JP4202964B2 (ja) 映像データへの楽曲データ付加装置
CN114299918A (zh) 声学模型训练与语音合成方法、装置和***及存储介质
JP4483561B2 (ja) 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム
JP2007304489A (ja) 楽曲練習支援装置、制御方法及びプログラム
CN113781989A (zh) 一种音频的动画播放、节奏卡点识别方法及相关装置
JP5879813B2 (ja) 複数音源の識別装置および複数音源に連動する情報処理装置
Yu et al. Research on piano performance strength evaluation system based on gesture recognition
JP4992295B2 (ja) 情報処理装置
WO2017164216A1 (ja) 音響処理方法および音響処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110802

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees