JP2010078984A - 楽曲抽出装置および楽曲記録装置 - Google Patents
楽曲抽出装置および楽曲記録装置 Download PDFInfo
- Publication number
- JP2010078984A JP2010078984A JP2008247943A JP2008247943A JP2010078984A JP 2010078984 A JP2010078984 A JP 2010078984A JP 2008247943 A JP2008247943 A JP 2008247943A JP 2008247943 A JP2008247943 A JP 2008247943A JP 2010078984 A JP2010078984 A JP 2010078984A
- Authority
- JP
- Japan
- Prior art keywords
- music
- audio signal
- section
- model
- frequency feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
【課題】楽曲区間の終点を精度良く検出することが可能となる楽曲抽出装置を提供する。
【解決手段】音声信号から楽曲区間を抽出する楽曲抽出装置であって、音声信号の周波数領域における特徴量を算出する周波数特徴量算出部と、算出された周波数特徴量に基づいて、音声信号が楽曲部分のものか、非楽曲部分のものかを判定する第1判定部と、算出された周波数特徴量に基づいて、音声信号のジャンルを判定するジャンル判定部と、算出された周波数特徴量に基づいて、音声信号が前記ジャンルに係る楽曲部分のものか、それ以外の部分であるかを判定する第2判定部と、第2判定部において、音声信号が前記楽曲部分から、前記それ以外の部分に変化した個所を楽曲区間の終点として検出する、終点検出部と、を備える楽曲抽出装置とする。
【選択図】図2
【解決手段】音声信号から楽曲区間を抽出する楽曲抽出装置であって、音声信号の周波数領域における特徴量を算出する周波数特徴量算出部と、算出された周波数特徴量に基づいて、音声信号が楽曲部分のものか、非楽曲部分のものかを判定する第1判定部と、算出された周波数特徴量に基づいて、音声信号のジャンルを判定するジャンル判定部と、算出された周波数特徴量に基づいて、音声信号が前記ジャンルに係る楽曲部分のものか、それ以外の部分であるかを判定する第2判定部と、第2判定部において、音声信号が前記楽曲部分から、前記それ以外の部分に変化した個所を楽曲区間の終点として検出する、終点検出部と、を備える楽曲抽出装置とする。
【選択図】図2
Description
本発明は、音声信号から楽曲区間を抽出する楽曲抽出装置、および、抽出された楽曲区間の音声信号を記録する楽曲記録装置に関する。
テレビ放送やラジオ放送の音楽番組等における音声信号には、一般的に、楽曲(音楽)の区間と、非楽曲の区間(楽曲ではない区間)が混在している。なお非楽曲の区間としては、例えば、MC[master of ceremony]やDJ[disk jockey]等による、話し声が占める区間が挙げられる。
このような状況において、視聴者等によっては、音声信号の中から楽曲の区間だけを記録したいと要望することがある。この場合、放送を録音しておき、好みの音楽だけを後で編集作業によって切出すことも可能と考えられる。
しかし、このような編集作業は通常煩わしいため、楽曲の区間が自動的に抽出されて記録される装置があれば便利である。また、大まかにでも楽曲の区間が自動的に抽出されて記録されていれば、当該編集作業の負担は軽減されると考えられる。なお、特許文献1によれば、MFCCなどの周波数特徴量を用いて、音楽と話し声の識別を行うものが開示されている。
特開2004−258659号公報
上述した楽曲の区間が自動的に抽出されて記録される装置としては、例えば、楽曲区間の始点以降において、音声信号の周波数特徴量についての楽曲の周波数特徴量との尤度よりも、非楽曲の周波数特徴量との尤度の方が高くなった箇所を、楽曲区間の終点とするものが考えられる。
このような装置においては、楽曲区間の音声信号が入力されている間、その楽曲のジャンルが何れであっても音声信号が楽曲と判断されること、つまり、音声信号の周波数特徴量についての楽曲の周波数特徴量との尤度が、比較的高くなることが必要である。そのため、楽曲の周波数特徴量としては、例えば複数ジャンル(ポップス、クラシック、演歌など)の楽曲が平均化されたもの(楽曲の教師データ)の周波数特徴量を用いることが考えられる。
しかしこのような楽曲の教師データであっても、音声信号における楽曲に十分近似していない場合がある。そのため、楽曲の教師データの周波数特徴量と、音声信号における楽曲の周波数特徴量との尤度が高くならないおそれがある。その結果、実際には楽曲区間であっても、楽曲区間ではないと判断されてしまい、ひいては、楽曲区間の終点が精度良く検出されず、楽曲が途切れた状態で記録されるおそれがある。
本発明は、上述した問題点に鑑みて、楽曲区間の終点を精度良く検出することが可能となる楽曲抽出装置および楽曲記録装置の提供を目的とする。
上記目的を達成するため、本発明に係る楽曲抽出装置は、音声信号から楽曲区間を抽出する楽曲抽出装置であって、音声信号の周波数領域における特徴量を算出する周波数特徴量算出部と、算出された周波数特徴量に基づいて、音声信号が楽曲部分のものか、非楽曲部分のものかを判定する第1判定部と、算出された周波数特徴量に基づいて、音声信号のジャンルを判定するジャンル判定部と、算出された周波数特徴量に基づいて、音声信号が前記ジャンルに係る楽曲部分のものか、それ以外の部分であるかを判定する第2判定部と、第2判定部において、音声信号が前記楽曲部分から、前記それ以外の部分に変化した個所を楽曲区間の終点として検出する、終点検出部と、を備える構成とする。
本構成によれば、音声信号のジャンルが判定されるとともに、音声信号がそのジャンルに係る楽曲部分のものか、それ以外の部分であるかが判定される。そして音声信号がこの楽曲部分から、それ以外の部分に変化した個所が、楽曲区間の終点として検出される。そのため、当該終点を精度良く検出することが可能となる。
なおここでの「楽曲区間」とは、音声信号における楽曲の区間に厳密に一致しているものには限られず、音声信号における楽曲の区間に、概ね対応しているものも含む概念である。
また上記構成としてより具体的には、第1判定部において、音声信号が非楽曲部分から、楽曲部分に変化した個所を楽曲区間の始点として検出する、始点検出部、を更に備える構成としてもよい。
また本発明に係る楽曲記録装置は、無線により送信される音声信号を受信する受信部と、上記構成の楽曲抽出装置と、前記楽曲抽出装置により抽出された楽曲区間を記録する記録部と、を備える構成とする。本構成によれば、上記構成の利点を享受しつつ、抽出された楽曲区間を記録することが可能となる。
本発明に係る楽曲抽出装置によれば、音声信号のジャンルが判定されるとともに、音声信号がそのジャンルに係る楽曲部分のものか、それ以外の部分であるかが判定される。そして音声信号がこの楽曲部分から、それ以外の部分に変化した個所が、楽曲区間の終点として検出される。そのため、当該終点を精度良く検出することが可能となる。
本発明の実施形態について、実施例1および実施例2を挙げて、以下に説明する。
[実施例1]
本発明の一実施形態(実施例1)について、FMラジオ放送を受信する放送受信装置を例に挙げて、以下に説明する。当該放送受信装置の構成図(ブロック図)を、図1に示す。本図に示すように、放送受信装置1は、FMチューナ部11、A/D変換部12、MP3Codec部13、D/A変換部14、スピーカ15、DSP16、CPU17、メモリ18、バス19、HDD20、およびHDD−IF21などを備えている。
本発明の一実施形態(実施例1)について、FMラジオ放送を受信する放送受信装置を例に挙げて、以下に説明する。当該放送受信装置の構成図(ブロック図)を、図1に示す。本図に示すように、放送受信装置1は、FMチューナ部11、A/D変換部12、MP3Codec部13、D/A変換部14、スピーカ15、DSP16、CPU17、メモリ18、バス19、HDD20、およびHDD−IF21などを備えている。
FMチューナ部11は、前段側から入力されるFMラジオ放送の信号(音声の信号)に対し、選局処理を施して後段側に伝送する。A/Dコンバータ12は、FMチューナ部11から伝送されてきたアナログの信号をPCM[Pulse Code Modulation]によって、デジタルの信号(PCMデータ)に変換する。
MP3Codec部13は、入力された音声信号をMP3形式の符号化によって圧縮する機能と、圧縮された音声信号を伸張する(復号化する)機能を備えている。例えば、A/Dコンバータ12から出力されるPCMデータを符号化したり、後述するDSP16により抽出された楽曲区間の信号(PCMデータ)を符号化したりする。或いは、後述するHDD20に圧縮符号化して記録された音声信号を復号化してPCMデータに変換したりする。D/A変換部14は、MP3Codec部13によって復号化されたデジタルの音声信号を、アナログの音声信号に変換する。スピーカ15は、D/A変換部14から伝送されてきた音声信号に基づいて、音声を発生させる。
DSP[Digital Signal Processor]16は、A/D変換部12から継続的に伝送される音声信号に基づき、当該音声信号から楽曲に対応する区間(楽曲区間)を抽出して、HDD20に記録させる処理(楽曲区間記録処理)などを実行する。なお楽曲区間記録処理のより詳細な内容については、改めて説明する。
CPU[Central Processing Unit]17は、放送受信装置1において実行される各種処理を制御する。またメモリ18は、音声信号などを一時的に記憶する他、放送受信装置1での処理に用いられる各種情報を記憶する。なおメモリ18が記憶する情報には、楽曲区間記録処理において用いられる、「ポップスモデル」、「クラシックモデル」、「演歌モデル」、「DJモデル」、および「楽曲モデル」の各々が含まれる。ここで「ポップスモデル」は、ジャンルがポップスである代表的な楽曲の周波数領域の特徴量(本願では、「周波数領域の特徴量」を「周波数特徴量」と略記することがある)のことである。この周波数特徴量は、例えば、MFCC[Mel Frequency Cepstral Coefficients]が該当する。
同様に、「クラシックモデル」は、ジャンルがクラシックである代表的な楽曲の周波数特徴量であり、「演歌モデル」は、ジャンルが演歌である代表的な楽曲の周波数特徴量であり、「DJモデル」は、非楽曲の一種であるDJの周波数特徴量である。また「楽曲モデル」は、楽曲の教師データについての周波数特徴量である。この楽曲の教師データは、例えば複数ジャンルの代表的な楽曲が合成されて作成されたものであるが、他の方法により作成されたものであっても構わない。
なお、MP3Codec部13、D/A変換部14、DSP16、CPU17、およびメモリ18は、バス19を通じて互いにアクセス可能となっている。
HDD[Hard Disk Drive]20は、大容量記憶装置であり、各種の情報を記憶する。例えば、MP3形式で符号化された様々な楽曲データを記憶したりする。またHDD20は、HDD−IF21(例えばATAインターフェース)を介して、MP3Codec部13に接続されている。
上述した構成により、放送受信装置1は、一般的なFMラジオ放送の音声信号の受信などに加え、先述した楽曲区間記録処理を実行することが可能となっている。次に、楽曲区間記録処理の全体的な内容について、図2に示すフローチャートを参照しながら、以下に説明する。
楽曲区間記録処理は、例えばユーザによる楽曲区間記録処理の実行指示が有った場合に、開始される。楽曲区間記録処理が開始されると、DSP16は、継続的に伝送される音声信号(A/D変換部12から出力されるPCMデータ)のメモリ18への一時記憶を開始する(ステップS0)。
そしてDSP16は、メモリ18に一時記憶された音声信号における楽曲区間の始点を検出するとともに、当該楽曲に対応したモデル(以下、「対応モデル」とする)を決定する(ステップS1)。その後、この対応モデルを用いて、楽曲区間の終点を検出する(ステップS2)。
ステップS1で始点、ステップS2で終点が検出されたことにより楽曲区間が特定されたら、DSP16は、楽曲区間の長さが最小楽曲長さ以上であるか否かを判別する(ステップS3)。この「最小楽曲長さ」は、楽曲として認められる長さの最小値として経験的に見出されたものであり、例えば再生に100秒を要する長さのことである。そのため、楽曲区間の長さが最小楽曲長さ以上であると判別された場合には(ステップS3のY)、当該楽曲区間が確かに楽曲に対応している可能性が高いといえる。
そこでこの場合には、DSP16は、メモリ18に一時記憶されている音声信号から、当該楽曲区間のみを抽出し、MP3Codec部13で符号化圧縮処理を行った後、HDD20に記録する(ステップS4)。これにより、音声信号の楽曲区間のみの記録が実現される。
その後、放送受信装置1は、楽曲区間記録処理の停止の指示が有ったか否かを判別する(ステップS5)。その結果、当該指示が有った場合には(ステップS5のY)、楽曲区間記録処理が停止される。ただし、当該指示が無かった場合には(ステップS5のN)、さらに別の楽曲区間を抽出して記録するべく、ステップS1の処理が再度実行される。
なお、ステップS3の処理において、楽曲区間の長さが最小楽曲長さに満たないと判別された場合(ステップS3のN)、この楽曲区間は、実際には楽曲に対応していない可能性が高いといえる。即ち、誤検出である可能性が考えられる。そこでこの場合には、ステップS4の処理が実行されることなく、ステップS5の処理が実行される。
次に、先述したステップS1の処理の内容について、図3に示すフローチャートを参照しながら、より詳細に説明する。
先ずDSP16は、メモリ18から抽出されたPCMデータ(音声信号)のうち、現時点から一定期間分(例えば、数十ms分)のPCMデータ(音声データ)を取得する。そしてこの音声データにおけるパワーの変化量を算出し(ステップS11)、この変化量が、所定値Δp以上であるか否かを判断する(ステップS12)。この処理は、例えば、音声データにおけるPCMデータの数サンプルについて二乗平均をとることでパワーを算出し、この算出されたパワーと、前回の同処理において算出されたパワーとの差を、パワーの変化量とすることにより実現される。なおここでの変化量は、前後のパワーの時間微分や相関としても構わない。
その結果、変化量がΔpに満たない場合には(ステップS12のN)、ステップS11の処理に戻る。しかし変化量がΔp以上である場合には(ステップS12のY)、この音声データの周波数特徴量を算出し、この周波数特徴量について、DJモデルおよび楽曲モデルとの尤度を算出する(ステップS13)。具体的には、本実施例では、曲と話し声とは周波数特徴量が異なることに着目して、典型的な楽曲の周波数特徴量と話し声の周波数特徴量が、基準データとしてメモリ18に予め記憶されている。そして、上記音声データの周波数特徴量と基準データとの尤度を計算することにより、音声信号がDJ部分に係るものか、楽曲部分に係るものかを判定する。
なお尤度の算出には、例えばGMM[Gaussian Mixture Model]を用いた公知の手法が用いられる。そして両者間の尤度が高いほど、両者が一致している可能性が高い、或いは、両者がより近似していると言うことができる。なお、尤度算出に際しては、基準データとの比較により尤度を求める前述の方式に代えて、メモリ18に登録されたジャンルごとの評価関数に、上記音声データの周波数特徴量を代入して尤度を求める方式を採ることもできる。
そして音声データの周波数特徴量について、DJモデルとの尤度よりも、楽曲モデルとの尤度が高い場合には(ステップS14のN)、ステップS11の処理に戻る。しかし、DJモデルとの尤度の方が高い場合には(ステップS14のY)、後続のPCMデータをメモリ18から取得する。ここでは、前記の一定期間よりも長い所定期間Tsの間のPCMデータを取得する。そして取得されたPCMデータの周波数特徴量を算出し、各ジャンル(ポップス、クラシック、演歌)のモデルおよびDJモデルとの尤度を算出する(ステップS15)。
例えば、上記のTs時間分のPCMデータの周波数特徴量とポップスモデル、クラシックモデル、演歌モデル、DJモデルにおける周波数特徴量の尤度を算出する。或いは、上記Ts時間を複数の区間(例えば、前記の一定期間)に区切り、そして、最初の区間のPCMデータについてはポップスモデルとの尤度を、次の区間のPCMデータについてはクラシックモデルとの尤度を、その次の区間のPCMデータについては演歌モデルとの尤度を、更にその次の区間のPCMデータについては再びポップスモデルとの尤度を算出する、といった処理を交互に行うものでも良い。
そしてDSP16は、ステップS15の処理で算出された尤度の各々を用いて、期間Tsにおける音声信号の周波数特徴量との尤度が、最も高くなるモデルを選出する(ステップS16)。
或いはモデルごとの尤度の算出を交互に行う場合は、期間Ts内における、ポップスモデルとの尤度の平均値、クラシックモデルとの尤度の平均値、演歌モデルとの尤度の平均値、およびDJモデルとの尤度の平均値が、それぞれ求められる。そしてこれらのモデルのうち、最も平均値の大きいものが、選出されることになる。
ステップS16の処理の結果、DJモデルが選出された場合は(ステップS17のY)、ステップS11の処理に戻る。一方、DJモデル以外のものが選出された場合は(ステップS17のN)、期間Tsの間に、音声信号が非楽曲から楽曲へ移ったと考えられる。
そこでこの場合、DSP16は、当該音声データに対応する箇所(ステップS12の処理で、Yの条件を満たした音声データに対応する箇所)を、楽曲区間の始点として検出する(ステップS18)。また、ステップS16の処理によって選出されたモデルを、対応モデルとして決定する(ステップS19)。ここまでの処理により、ステップS1の処理が実現されることになる。
次に、先述したステップS2の処理の内容について、図4に示すフローチャートを参照しながら、より詳細に説明する。
先ずDSP16は、メモリ18から抽出されたPCMデータ(音声信号)のうち、現時点から一定期間分(例えば、数十ms分)のPCMデータ(音声データ)を取得する。そして音声データが得られたら、DSP16は、先述したステップS11の処理と同様に、この音声データにおけるパワーの変化量を算出する(ステップS21)。その後、この算出結果が所定値Δp以上であるか否かを判断する(ステップS22)。
その結果、変化量がΔpに満たない場合には(ステップS22のN)、ステップS21の処理に戻るが、Δp以上である場合には(ステップS22のY)、この音声データの周波数特徴量を算出し、当該周波数特徴量について、DJモデルおよび対応モデルとの尤度を算出する(ステップS23)。
そして当該算出の結果、対応モデルとの尤度よりも、DJモデルとの尤度が高い場合には(ステップS24のN)、ステップS21の処理に戻る。しかし、対応モデルとの尤度の方が高い場合には(ステップS24のY)、音声信号における、当該音声データに対応する箇所を、楽曲区間の終点として検出する(ステップS25)。ここまでの処理により、ステップS2の処理が実現されることになる。
ここで、上述した楽曲区間記録処理の内容をより理解容易とするため、当該処理に関する簡略的な事例について、図5を参照しながら以下に説明する。
なお本事例では、図5に示すように、楽曲区間記録処理の開始時(時刻T0)以降、非楽曲A(DJ)、楽曲A(ポップス)、非楽曲B(DJ)、・・・を順に含んだ音声信号が、放送受信装置1に入力されるものとする。また図中の「期間A」および「期間B」は、ステップS15の処理における期間Tsを示している。また図5においてP1〜P17で示す丸の部分は、一定期間分のPCMデータを示しており、特にP2、P7、P13、およびP17で示す部分は、パワーの変化量がΔp以上となるものを示している。
本事例では、先ず、P1に係る音声データが取得される(ステップS11)。しかし、当該サンプリングデータにおけるパワーの変化量はΔpに満たないため(ステップS12のN)、ステップS11の処理に戻る。
次に、P2に係る音声データが取得される(ステップS11)。そして当該音声データにおけるパワーの変化量はΔp以上であるため(ステップS12のY)、ステップS13の処理が実行される。このとき、当該音声データは、非楽曲A(DJ)の区間におけるものであるから、当該音声データの周波数特徴量は、楽曲モデルとの尤度よりも、DJモデルとの尤度の方が高くなる(ステップS14のY)。そのため、ステップS15の処理が実行されることになる。
なお当該ステップS15の処理では、「期間A」の間のPCMデータが取得され、このPCMデータについての周波数特徴量が算出される。そしてこの周波数特徴量について、ポップスモデル、クラシックモデル、演歌モデル、およびDJモデルとの尤度が算出されることになる。
ここで期間Aにおける音声信号は終始非楽曲A(DJ)の区間であるから、ステップS16の処理によれば、音声信号の周波数特徴量との尤度が最も高くなるモデルとして、DJモデルが選出されることになる。そのため、ステップS17の処理によって、ステップS11の処理に戻ることになる。
その後、P7に係る音声データが取得される。そして当該音声データにおけるパワーの変化量はΔp以上であるため(ステップS12のY)、ステップS13の処理が実行される。その結果、当該サンプリングデータは、非楽曲A(DJ)の区間におけるものであるから、当該サンプリングデータの周波数特徴量は、楽曲モデルとの尤度よりも、DJモデルとの尤度の方が高くなる(ステップS14のY)。そのため、ステップS15の処理が実行されることになる。
なお当該ステップS15の処理では、「期間B」の間のPCMデータが取得され、このPCMデータについての周波数特徴量が算出される。そしてこの周波数特徴量について、ポップスモデル、クラシックモデル、演歌モデル、およびDJモデルとの尤度が算出されることになる。
ここで期間Bにおける音声信号は、P8の段階では、非楽曲A(DJ)の区間であるが、P9〜P11の段階、つまり大半の部分は、楽曲A(ポップス)の区間である。そのため、ステップS16の処理によれば、音声信号の周波数特徴量との尤度が最も高くなるモデルとして、ポップスモデルが選出されることになる。そのため、ステップS17の処理によって、ステップS18の処理に進むことになる。
そしてステップS18の処理によって、音声信号におけるP7に対応する箇所が、楽曲区間の始点として検出されることになる。またステップS19の処理によって、ポップスモデルが、対応モデルとして決定される。
その後、ステップS2(ステップS21〜S25)の処理に進み、先ず、P12に係る音声データが取得される(ステップS21)。しかし、当該音声データにおけるパワーの変化量がΔp未満であるため(ステップS22のN)、ステップS21の処理に戻る。
次に、P13に係る音声データが取得される。そして当該サンプリングデータにおけるパワーの変化量はΔp以上であるため(ステップS22のY)、ステップS23の処理が実行される。その結果、当該音声データは、楽曲A(ポップス)の区間におけるものであるから、当該音声データの周波数特徴量は、DJモデルとの尤度よりも、対応モデル(ポップスモデル)との尤度の方が高くなる(ステップS24のN)。そのため、ステップS21の処理に戻る。
その後、P14〜P16の各箇所においても音声データが取得されるが、何れについてもパワーの変化量がΔp未満であるため(ステップS22のN)、ステップS21の処理に戻る。
そしてP17に係る音声データは、パワーの変化量がΔp以上であるから(ステップS22のY)、ステップS23の処理が実行される。その結果、当該音声データは、非楽曲B(DJ)の区間におけるものであるから、当該音声データの周波数特徴量については、対応モデル(ポップスモデル)との尤度よりも、DJモデルとの尤度の方が高くなる(ステップS24のY)。
そこでステップS25の処理に進み、音声信号におけるP17に対応する箇所が、楽曲区間の終点として検出されることになる。ここまでの処理によって、楽曲区間の始点と終点がともに検出され、図5に示すように、音声信号のうちのP7からP17に相当する区間が楽曲区間とみなされることになる。その後、当該楽曲区間の長さが最小楽曲長さ以上であれば(ステップS3のY)、音声信号から当該楽曲区間のみが抽出され、HDD20に記録されることになる(ステップS4)。
なお上述した、ステップS12〜S14の処理およびステップS22〜s24の処理は、音声信号におけるパワーの変化量がΔp(所定の閾値)以上である箇所(変化点)を検出し、この変化点が楽曲区間において検出されたものか、或いは非楽曲区間において検出されたものか、を判定する処理となっている。
ここで音声信号におけるパワーの変化量が比較的大きくなる箇所(変化点)は、楽曲の区間よりも、非楽曲の区間においてより多く発生することが知られている。そのため、ステップS12〜S14の処理およびステップS22〜S24の処理によれば、楽曲区間においてステップS13やS23の処理が実行される回数を極力減らし、放送受信装置1における処理負担を軽減することが可能となっている。
またステップS15の処理は、記憶されている周波数特徴量の各々のうち、音声信号の周波数特徴量との尤度が最も高くなるものを選出する処理と言える。またステップS21〜S25の処理は、音声信号の周波数特徴量と対応モデル(選出された周波数特徴量)との尤度を逐次算出し、該算出の結果に基づいて、終点を検出する処理と言える。
また本実施例における楽曲区間記録処理では、始点および終点に若干の余裕を持たせて(非楽曲の部分を残して)、楽曲区間を抽出することとしている(例えば図5における、P7〜P8の部分や、P16〜P17の部分を参照)。これにより、最初または最後の部分が切れた状態で楽曲が記録されることが、回避されるようになっている。
また、上述した楽曲区間記録処理においては、ステップS2の処理によって検出された楽曲区間の終点を、次の楽曲区間の始点とみなして、処理を進めるようにしても良い。この場合、ステップS2の処理の完了後は、ステップS3以降の処理を実行するとともに、ステップS15以降の処理(ステップS18の処理を除く)を実行することになる。
以上に説明した本実施例の放送受信装置1は、音声信号から楽曲区間を抽出する装置であって、特にDSP16は、音声信号の周波数特徴量を算出する機能を有している。またDSP16は、この算出された周波数特徴量に基づいて、音声信号が楽曲部分のものか非楽曲部分のものかを判定する機能と、音声信号のジャンルを判定する機能を有している(ステップS1の処理内容を参照)。またDSP16は、算出された音声信号の周波数特徴量に基づいて、音声信号がこの判定されたジャンルに係る楽曲部分かそれ以外の部分であるかを判定する機能と、音声信号が、この楽曲部分から、それ以外の部分に変化した個所を楽曲区間の終点として検出する機能を有している(ステップS2の処理内容を参照)。また本実施例の放送受信装置1は、無線により送信される音声信号を受信し、音声信号から抽出された楽曲区間を記録する機能を有している。
[実施例2]
次に、本発明の別の実施形態(実施例2)について説明する。なお本実施例は、楽曲区間記録処理の具体的な内容を除いては、基本的に実施例1の場合と同一であるため、重複した説明は省略する。
[実施例2]
次に、本発明の別の実施形態(実施例2)について説明する。なお本実施例は、楽曲区間記録処理の具体的な内容を除いては、基本的に実施例1の場合と同一であるため、重複した説明は省略する。
本実施例において実行される楽曲区間記録処理について、図6のフローチャートを参照しながら、以下に説明する。
楽曲区間記録処理は、例えばユーザによる楽曲区間記録処理の実行指示が有った場合に、開始される。楽曲区間記録処理が開始されると、DSP16は、音声信号(A/D変換部12から出力されるPCMデータ)のメモリ18への記録を開始する(ステップS50)。
その後DSP16は、A/Dコンバータ12から継続的に出力されるPCMデータ(音声信号)のうち、現時点から一定期間分(例えば、数十ms分)のPCMデータ(以下、「第1音声データ」とする)を取得する。そして取得された第1音声データの周波数特徴量を算出し、楽曲モデルとの尤度を算出する(ステップS51)。そしてこの尤度が所定値を超えていれば(つまり、当該尤度が比較的大きい場合は)、当該第1音声データは楽曲区間に属している可能性が高いと考えられる。
そこでこの場合は(ステップS52のY)、音声信号における、当該第1音声データに対応する箇所を、楽曲区間の始点として検出する(ステップS53)。ただし当該尤度が所定値以下であれば(ステップS52のN)、当該サンプリングデータは非楽曲に属している可能性が高いと考えられるため、ステップS51の処理に戻る。
ステップS53の処理がなされた後、DSP16は、所定期間にわたって、一定期間分(例えば、数十ms分)のPCMデータ(以下、「第2音声データ」とする)を、次々と取得する。そしてこれらの第2音声データについて、周波数特徴量を算出する。その後、この算出結果を用いて、当該期間内において音声信号の周波数特徴量との尤度が最も高くなるモデルを、ポップスモデル、クラシックモデル、および演歌モデルの中から、対応モデルとして選出する(ステップS54)。
より具体的には、例えば、各第2音声データの周波数特徴量とポップスモデルとの尤度の平均値、各第2音声データの周波数特徴量とクラシックモデルとの尤度の平均値、および、各第2音声データの周波数特徴量と演歌モデルとの尤度の平均値をそれぞれ求め、最も平均値の高かったモデルを、対応モデルとして選出する。
そしてステップS54の処理がなされた後、DSPは、現時点から一定期間分(例えば、数十ms分)のPCMデータ(以下、「第3音声データ」とする)を取得するとともに、この第3音声データの周波数特徴量を算出し、対応モデルとの尤度を算出する(ステップS55)。そしてこの尤度が所定値を超えていれば(ステップS56のY)、当該第3音声データは楽曲区間に属していると考えられる。つまり現時点では、楽曲区間は継続されていると考えられる。そこでステップS55の処理に戻る。
ただし当該尤度が所定値以下であれば(ステップS56のN)、当該第3音声データは非楽曲区間に属していると考えられる。つまり現時点では、楽曲区間は終了していると考えられる。そこで音声信号における当該第3音声データに対応する箇所を、楽曲区間の終点として検出する(ステップS57)。ここまでの処理により、楽曲区間の始点と終点が検出され、楽曲区間が特定されたことになる。
そこでDSP16は、メモリ18に記録されている音声信号から楽曲区間のみを抽出し、メモリ18の別領域に記録する(ステップS58)。その後、楽曲録音処理の停止の指示があった場合には(ステップS59のY)、当該処理は停止される。一方、当該停止の指示がない場合には(ステップS59のN)、さらに別の楽曲区間を抽出して記録するべく、ステップS51の処理に戻る。
以上のように本実施例では、DSP16は、音声信号の周波数特徴量と楽曲モデルとの尤度を逐次算出し、この尤度が所定の閾値を超えたことを検出することにより、楽曲区間の始点を検出するようになっている(ステップS51〜S53を参照)。また、音声信号の周波数特徴量と対応モデル(選出された周波数特徴量)との尤度を逐次算出し、この尤度が所定の閾値以下となったことを検出することにより、楽曲区間の終点を検出するようになっている(ステップS55〜S57を参照)。そのため、楽曲区間の始点および終点の検出を、簡潔な処理によって実現することが可能となっている。
また本実施例の放送受信装置は、音声信号が非楽曲部分から楽曲部分に変化した個所を、楽曲区間の始点として検出するものとなっている。
[まとめ]
以上までに説明した通り、本発明の実施形態に係る放送受信装置1は、音声信号から楽曲区間を抽出する楽曲抽出装置である。そしてDSP16は、楽曲区間の始点を検出する機能、および、楽曲区間の終点を検出する機能を有するとともに、複数ジャンルの楽曲の各々についての周波数特徴量(ポップスモデル、クラシックモデル、演歌モデル)を記憶している。
以上までに説明した通り、本発明の実施形態に係る放送受信装置1は、音声信号から楽曲区間を抽出する楽曲抽出装置である。そしてDSP16は、楽曲区間の始点を検出する機能、および、楽曲区間の終点を検出する機能を有するとともに、複数ジャンルの楽曲の各々についての周波数特徴量(ポップスモデル、クラシックモデル、演歌モデル)を記憶している。
そしてDSP16は、楽曲区間の終点の検出にあたって、記憶されている各モデルのうち、音声信号の周波数特徴量との尤度が最も高くなるものを、対応モデルとして選出する処理(ステップS16、S54)を実行する。そして当該処理の実行後、音声信号の周波数特徴量と対応モデル(選出された周波数特徴量)との尤度を逐次算出し、この算出の結果に基づいて、楽曲区間の終点を検出する。
このように、音声信号における楽曲のジャンルに一致する(或いは最も近い)ジャンルの周波数特徴量が、対応モデルとして選出された後、音声信号の周波数特徴量と当該対応モデルの尤度の算出結果が、楽曲区間の終点の検出に用いられる。そのため、一律に、音声信号の周波数特徴量と楽曲の教師データに係る周波数特徴量との尤度の算出結果が、当該検出に用いられるものに比べ、終点を精度良く検出することが可能となっている。
つまり、例えば音声信号における楽曲のジャンルが「ポップス」である場合、楽曲の教師データよりも、ポップスのジャンルに係る何らかの楽曲の方が、音声信号における楽曲により近似しているといえる。そのため本実施形態によれば、現在の音声信号が楽曲区間に属しているか否かを、より精度良く検出することが可能であり、ひいては、楽曲区間の終点をより精度良く検出することが可能である。
なお上述した各実施例においては、放送される音声信号の入力にほぼ並行して、楽曲区間記録処理が実行されるようになっている。しかしこのようなものの他、例えば予めHDD20などに記録済みである音声信号(楽曲区間と非楽曲区間が混在したもの)を読み出し、この音声信号に対して楽曲区間記録処理が実行されるようになっていても構わない。
以上、本発明の実施形態について説明したが、本発明はこの構成等に限定されるものではない。また本発明は、その主旨を逸脱しない範囲において、種々の改変を加えて実施されうる。
本発明は、音声信号を受信する受信装置などの分野において利用可能である。
1 放送受信装置(楽曲抽出装置、楽曲記録装置)
11 FMチューナ部
12 A/D変換部
13 MP3Codec部
14 D/A変換部
15 スピーカ
16 DSP
17 CPU
18 メモリ
19 バス
20 HDD
21 HDD−IF
11 FMチューナ部
12 A/D変換部
13 MP3Codec部
14 D/A変換部
15 スピーカ
16 DSP
17 CPU
18 メモリ
19 バス
20 HDD
21 HDD−IF
Claims (3)
- 音声信号から楽曲区間を抽出する楽曲抽出装置であって、
音声信号の周波数領域における特徴量を算出する周波数特徴量算出部と、
算出された周波数特徴量に基づいて、音声信号が楽曲部分のものか、非楽曲部分のものかを判定する第1判定部と、
算出された周波数特徴量に基づいて、音声信号のジャンルを判定するジャンル判定部と、
算出された周波数特徴量に基づいて、音声信号が前記ジャンルに係る楽曲部分のものか、それ以外の部分であるかを判定する第2判定部と、
第2判定部において、音声信号が前記楽曲部分から、前記それ以外の部分に変化した個所を楽曲区間の終点として検出する、終点検出部と、
を備えることを特徴とする、楽曲抽出装置。 - 第1判定部において、音声信号が非楽曲部分から、楽曲部分に変化した個所を楽曲区間の始点として検出する、始点検出部、
を更に備えることを特徴とする、請求項1に記載の楽曲抽出装置。 - 無線により送信される音声信号を受信する受信部と、
請求項1又は2に記載の楽曲抽出装置と、
前記楽曲抽出装置により抽出された楽曲区間を記録する記録部と、
を備えることを特徴とする楽曲記録装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008247943A JP2010078984A (ja) | 2008-09-26 | 2008-09-26 | 楽曲抽出装置および楽曲記録装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008247943A JP2010078984A (ja) | 2008-09-26 | 2008-09-26 | 楽曲抽出装置および楽曲記録装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010078984A true JP2010078984A (ja) | 2010-04-08 |
Family
ID=42209498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008247943A Pending JP2010078984A (ja) | 2008-09-26 | 2008-09-26 | 楽曲抽出装置および楽曲記録装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010078984A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011013383A (ja) * | 2009-06-30 | 2011-01-20 | Toshiba Corp | オーディオ信号補正装置及びオーディオ信号補正方法 |
CN102547521A (zh) * | 2010-12-21 | 2012-07-04 | 索尼公司 | 内容再现设备和方法以及程序 |
JP2017509009A (ja) * | 2014-01-07 | 2017-03-30 | クアルコム,インコーポレイテッド | オーディオストリームの中の音楽の追跡 |
WO2023169258A1 (zh) * | 2022-03-08 | 2023-09-14 | 北京字跳网络技术有限公司 | 音频检测方法、装置、存储介质及电子设备 |
-
2008
- 2008-09-26 JP JP2008247943A patent/JP2010078984A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011013383A (ja) * | 2009-06-30 | 2011-01-20 | Toshiba Corp | オーディオ信号補正装置及びオーディオ信号補正方法 |
CN102547521A (zh) * | 2010-12-21 | 2012-07-04 | 索尼公司 | 内容再现设备和方法以及程序 |
JP2012134715A (ja) * | 2010-12-21 | 2012-07-12 | Sony Corp | コンテンツ再生装置および方法、並びにプログラム |
JP2017509009A (ja) * | 2014-01-07 | 2017-03-30 | クアルコム,インコーポレイテッド | オーディオストリームの中の音楽の追跡 |
WO2023169258A1 (zh) * | 2022-03-08 | 2023-09-14 | 北京字跳网络技术有限公司 | 音频检测方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006195385A (ja) | 音楽再生装置および音楽再生プログラム | |
JP2009015119A (ja) | サビ位置検出装置 | |
JP2006202127A (ja) | 推奨情報提示装置及び推奨情報提示方法等 | |
JP2003177784A (ja) | 音響変節点抽出装置及びその方法、音響再生装置及びその方法、音響再生システム、音響配信システム、情報提供装置、音響信号編集装置、音響変節点抽出方法プログラム記録媒体、音響再生方法プログラム記録媒体、音響信号編集方法プログラム記録媒体、音響変節点抽出方法プログラム、音響再生方法プログラム、音響信号編集方法プログラム | |
JP2010078984A (ja) | 楽曲抽出装置および楽曲記録装置 | |
JP4877811B2 (ja) | 特定区間抽出装置、音楽記録再生装置、音楽配信システム | |
JP2008241850A (ja) | 録音または再生装置 | |
JP2011090290A (ja) | 楽曲抽出装置および楽曲録音装置 | |
JP4990375B2 (ja) | 記録再生装置 | |
US20050016364A1 (en) | Information playback apparatus, information playback method, and computer readable medium therefor | |
JP4475597B2 (ja) | 提示データ選択装置及び提示データ選択方法等 | |
JP2004334160A (ja) | 特徴量抽出装置 | |
US8370356B2 (en) | Music search system, music search method, music search program and recording medium recording music search program | |
JP2006276560A (ja) | 音楽再生装置および音楽再生方法 | |
JP4934990B2 (ja) | 音声信号記録再生装置 | |
JP4278667B2 (ja) | 楽曲結合装置、楽曲結合方法、及び楽曲結合プログラム | |
WO2009101808A1 (ja) | 楽曲記録装置 | |
JP2008079047A (ja) | データ再生装置、データ再生方法及びデータ再生プログラム | |
JP2003228963A (ja) | 記録媒体、データ記録装置及び方法並びにデータ編集装置及び方法 | |
JP4862772B2 (ja) | 採点機能を有するカラオケ装置 | |
JP2010175909A (ja) | 楽曲抽出装置 | |
JP2010175908A (ja) | 楽曲抽出装置 | |
JP4362775B2 (ja) | 放送録音装置 | |
KR101744912B1 (ko) | 라디오 녹음 모듈 및 방법 | |
JP2007171772A (ja) | 音楽情報処理装置、音楽情報処理方法および制御プログラム |