JP2010078984A

JP2010078984A - 楽曲抽出装置および楽曲記録装置

Info

Publication number: JP2010078984A
Application number: JP2008247943A
Authority: JP
Inventors: Satoru Matsumoto; 悟松本; Tomoji Yamamoto; 友二山本; Tatsuo Koga; 達雄古賀; Hisatoshi Omae; 寿敏大前
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2008-09-26
Filing date: 2008-09-26
Publication date: 2010-04-08

Abstract

【課題】楽曲区間の終点を精度良く検出することが可能となる楽曲抽出装置を提供する。
【解決手段】音声信号から楽曲区間を抽出する楽曲抽出装置であって、音声信号の周波数領域における特徴量を算出する周波数特徴量算出部と、算出された周波数特徴量に基づいて、音声信号が楽曲部分のものか、非楽曲部分のものかを判定する第１判定部と、算出された周波数特徴量に基づいて、音声信号のジャンルを判定するジャンル判定部と、算出された周波数特徴量に基づいて、音声信号が前記ジャンルに係る楽曲部分のものか、それ以外の部分であるかを判定する第２判定部と、第２判定部において、音声信号が前記楽曲部分から、前記それ以外の部分に変化した個所を楽曲区間の終点として検出する、終点検出部と、を備える楽曲抽出装置とする。
【選択図】図２

Description

本発明は、音声信号から楽曲区間を抽出する楽曲抽出装置、および、抽出された楽曲区間の音声信号を記録する楽曲記録装置に関する。

テレビ放送やラジオ放送の音楽番組等における音声信号には、一般的に、楽曲（音楽）の区間と、非楽曲の区間（楽曲ではない区間）が混在している。なお非楽曲の区間としては、例えば、ＭＣ［master of ceremony］やＤＪ［disk jockey］等による、話し声が占める区間が挙げられる。

このような状況において、視聴者等によっては、音声信号の中から楽曲の区間だけを記録したいと要望することがある。この場合、放送を録音しておき、好みの音楽だけを後で編集作業によって切出すことも可能と考えられる。

しかし、このような編集作業は通常煩わしいため、楽曲の区間が自動的に抽出されて記録される装置があれば便利である。また、大まかにでも楽曲の区間が自動的に抽出されて記録されていれば、当該編集作業の負担は軽減されると考えられる。なお、特許文献１によれば、ＭＦＣＣなどの周波数特徴量を用いて、音楽と話し声の識別を行うものが開示されている。
特開２００４−２５８６５９号公報

上述した楽曲の区間が自動的に抽出されて記録される装置としては、例えば、楽曲区間の始点以降において、音声信号の周波数特徴量についての楽曲の周波数特徴量との尤度よりも、非楽曲の周波数特徴量との尤度の方が高くなった箇所を、楽曲区間の終点とするものが考えられる。

このような装置においては、楽曲区間の音声信号が入力されている間、その楽曲のジャンルが何れであっても音声信号が楽曲と判断されること、つまり、音声信号の周波数特徴量についての楽曲の周波数特徴量との尤度が、比較的高くなることが必要である。そのため、楽曲の周波数特徴量としては、例えば複数ジャンル（ポップス、クラシック、演歌など）の楽曲が平均化されたもの（楽曲の教師データ）の周波数特徴量を用いることが考えられる。

しかしこのような楽曲の教師データであっても、音声信号における楽曲に十分近似していない場合がある。そのため、楽曲の教師データの周波数特徴量と、音声信号における楽曲の周波数特徴量との尤度が高くならないおそれがある。その結果、実際には楽曲区間であっても、楽曲区間ではないと判断されてしまい、ひいては、楽曲区間の終点が精度良く検出されず、楽曲が途切れた状態で記録されるおそれがある。

本発明は、上述した問題点に鑑みて、楽曲区間の終点を精度良く検出することが可能となる楽曲抽出装置および楽曲記録装置の提供を目的とする。

上記目的を達成するため、本発明に係る楽曲抽出装置は、音声信号から楽曲区間を抽出する楽曲抽出装置であって、音声信号の周波数領域における特徴量を算出する周波数特徴量算出部と、算出された周波数特徴量に基づいて、音声信号が楽曲部分のものか、非楽曲部分のものかを判定する第１判定部と、算出された周波数特徴量に基づいて、音声信号のジャンルを判定するジャンル判定部と、算出された周波数特徴量に基づいて、音声信号が前記ジャンルに係る楽曲部分のものか、それ以外の部分であるかを判定する第２判定部と、第２判定部において、音声信号が前記楽曲部分から、前記それ以外の部分に変化した個所を楽曲区間の終点として検出する、終点検出部と、を備える構成とする。

本構成によれば、音声信号のジャンルが判定されるとともに、音声信号がそのジャンルに係る楽曲部分のものか、それ以外の部分であるかが判定される。そして音声信号がこの楽曲部分から、それ以外の部分に変化した個所が、楽曲区間の終点として検出される。そのため、当該終点を精度良く検出することが可能となる。

なおここでの「楽曲区間」とは、音声信号における楽曲の区間に厳密に一致しているものには限られず、音声信号における楽曲の区間に、概ね対応しているものも含む概念である。

また上記構成としてより具体的には、第１判定部において、音声信号が非楽曲部分から、楽曲部分に変化した個所を楽曲区間の始点として検出する、始点検出部、を更に備える構成としてもよい。

また本発明に係る楽曲記録装置は、無線により送信される音声信号を受信する受信部と、上記構成の楽曲抽出装置と、前記楽曲抽出装置により抽出された楽曲区間を記録する記録部と、を備える構成とする。本構成によれば、上記構成の利点を享受しつつ、抽出された楽曲区間を記録することが可能となる。

本発明に係る楽曲抽出装置によれば、音声信号のジャンルが判定されるとともに、音声信号がそのジャンルに係る楽曲部分のものか、それ以外の部分であるかが判定される。そして音声信号がこの楽曲部分から、それ以外の部分に変化した個所が、楽曲区間の終点として検出される。そのため、当該終点を精度良く検出することが可能となる。

本発明の実施形態について、実施例１および実施例２を挙げて、以下に説明する。

［実施例１］
本発明の一実施形態（実施例１）について、ＦＭラジオ放送を受信する放送受信装置を例に挙げて、以下に説明する。当該放送受信装置の構成図（ブロック図）を、図１に示す。本図に示すように、放送受信装置１は、ＦＭチューナ部１１、Ａ／Ｄ変換部１２、ＭＰ３Ｃｏｄｅｃ部１３、Ｄ／Ａ変換部１４、スピーカ１５、ＤＳＰ１６、ＣＰＵ１７、メモリ１８、バス１９、ＨＤＤ２０、およびＨＤＤ−ＩＦ２１などを備えている。

ＦＭチューナ部１１は、前段側から入力されるＦＭラジオ放送の信号（音声の信号）に対し、選局処理を施して後段側に伝送する。Ａ／Ｄコンバータ１２は、ＦＭチューナ部１１から伝送されてきたアナログの信号をＰＣＭ［Pulse Code Modulation］によって、デジタルの信号（ＰＣＭデータ）に変換する。

ＭＰ３Ｃｏｄｅｃ部１３は、入力された音声信号をＭＰ３形式の符号化によって圧縮する機能と、圧縮された音声信号を伸張する（復号化する）機能を備えている。例えば、Ａ／Ｄコンバータ１２から出力されるＰＣＭデータを符号化したり、後述するＤＳＰ１６により抽出された楽曲区間の信号（ＰＣＭデータ）を符号化したりする。或いは、後述するＨＤＤ２０に圧縮符号化して記録された音声信号を復号化してＰＣＭデータに変換したりする。Ｄ／Ａ変換部１４は、ＭＰ３Ｃｏｄｅｃ部１３によって復号化されたデジタルの音声信号を、アナログの音声信号に変換する。スピーカ１５は、Ｄ／Ａ変換部１４から伝送されてきた音声信号に基づいて、音声を発生させる。

ＤＳＰ［Digital Signal Processor］１６は、Ａ／Ｄ変換部１２から継続的に伝送される音声信号に基づき、当該音声信号から楽曲に対応する区間（楽曲区間）を抽出して、ＨＤＤ２０に記録させる処理（楽曲区間記録処理）などを実行する。なお楽曲区間記録処理のより詳細な内容については、改めて説明する。

ＣＰＵ［Central Processing Unit］１７は、放送受信装置１において実行される各種処理を制御する。またメモリ１８は、音声信号などを一時的に記憶する他、放送受信装置１での処理に用いられる各種情報を記憶する。なおメモリ１８が記憶する情報には、楽曲区間記録処理において用いられる、「ポップスモデル」、「クラシックモデル」、「演歌モデル」、「ＤＪモデル」、および「楽曲モデル」の各々が含まれる。ここで「ポップスモデル」は、ジャンルがポップスである代表的な楽曲の周波数領域の特徴量（本願では、「周波数領域の特徴量」を「周波数特徴量」と略記することがある）のことである。この周波数特徴量は、例えば、ＭＦＣＣ［Mel Frequency Cepstral Coefficients］が該当する。

同様に、「クラシックモデル」は、ジャンルがクラシックである代表的な楽曲の周波数特徴量であり、「演歌モデル」は、ジャンルが演歌である代表的な楽曲の周波数特徴量であり、「ＤＪモデル」は、非楽曲の一種であるＤＪの周波数特徴量である。また「楽曲モデル」は、楽曲の教師データについての周波数特徴量である。この楽曲の教師データは、例えば複数ジャンルの代表的な楽曲が合成されて作成されたものであるが、他の方法により作成されたものであっても構わない。

なお、ＭＰ３Ｃｏｄｅｃ部１３、Ｄ／Ａ変換部１４、ＤＳＰ１６、ＣＰＵ１７、およびメモリ１８は、バス１９を通じて互いにアクセス可能となっている。

ＨＤＤ［Hard Disk Drive］２０は、大容量記憶装置であり、各種の情報を記憶する。例えば、ＭＰ３形式で符号化された様々な楽曲データを記憶したりする。またＨＤＤ２０は、ＨＤＤ−ＩＦ２１（例えばＡＴＡインターフェース）を介して、ＭＰ３Ｃｏｄｅｃ部１３に接続されている。

上述した構成により、放送受信装置１は、一般的なＦＭラジオ放送の音声信号の受信などに加え、先述した楽曲区間記録処理を実行することが可能となっている。次に、楽曲区間記録処理の全体的な内容について、図２に示すフローチャートを参照しながら、以下に説明する。

楽曲区間記録処理は、例えばユーザによる楽曲区間記録処理の実行指示が有った場合に、開始される。楽曲区間記録処理が開始されると、ＤＳＰ１６は、継続的に伝送される音声信号（Ａ／Ｄ変換部１２から出力されるＰＣＭデータ）のメモリ１８への一時記憶を開始する（ステップＳ０）。

そしてＤＳＰ１６は、メモリ１８に一時記憶された音声信号における楽曲区間の始点を検出するとともに、当該楽曲に対応したモデル（以下、「対応モデル」とする）を決定する（ステップＳ１）。その後、この対応モデルを用いて、楽曲区間の終点を検出する（ステップＳ２）。

ステップＳ１で始点、ステップＳ２で終点が検出されたことにより楽曲区間が特定されたら、ＤＳＰ１６は、楽曲区間の長さが最小楽曲長さ以上であるか否かを判別する（ステップＳ３）。この「最小楽曲長さ」は、楽曲として認められる長さの最小値として経験的に見出されたものであり、例えば再生に１００秒を要する長さのことである。そのため、楽曲区間の長さが最小楽曲長さ以上であると判別された場合には（ステップＳ３のＹ）、当該楽曲区間が確かに楽曲に対応している可能性が高いといえる。

そこでこの場合には、ＤＳＰ１６は、メモリ１８に一時記憶されている音声信号から、当該楽曲区間のみを抽出し、ＭＰ３Ｃｏｄｅｃ部１３で符号化圧縮処理を行った後、ＨＤＤ２０に記録する（ステップＳ４）。これにより、音声信号の楽曲区間のみの記録が実現される。

その後、放送受信装置１は、楽曲区間記録処理の停止の指示が有ったか否かを判別する（ステップＳ５）。その結果、当該指示が有った場合には（ステップＳ５のＹ）、楽曲区間記録処理が停止される。ただし、当該指示が無かった場合には（ステップＳ５のＮ）、さらに別の楽曲区間を抽出して記録するべく、ステップＳ１の処理が再度実行される。

なお、ステップＳ３の処理において、楽曲区間の長さが最小楽曲長さに満たないと判別された場合（ステップＳ３のＮ）、この楽曲区間は、実際には楽曲に対応していない可能性が高いといえる。即ち、誤検出である可能性が考えられる。そこでこの場合には、ステップＳ４の処理が実行されることなく、ステップＳ５の処理が実行される。

次に、先述したステップＳ１の処理の内容について、図３に示すフローチャートを参照しながら、より詳細に説明する。

先ずＤＳＰ１６は、メモリ１８から抽出されたＰＣＭデータ（音声信号）のうち、現時点から一定期間分（例えば、数十ｍｓ分）のＰＣＭデータ（音声データ）を取得する。そしてこの音声データにおけるパワーの変化量を算出し（ステップＳ１１）、この変化量が、所定値Δｐ以上であるか否かを判断する（ステップＳ１２）。この処理は、例えば、音声データにおけるＰＣＭデータの数サンプルについて二乗平均をとることでパワーを算出し、この算出されたパワーと、前回の同処理において算出されたパワーとの差を、パワーの変化量とすることにより実現される。なおここでの変化量は、前後のパワーの時間微分や相関としても構わない。

その結果、変化量がΔｐに満たない場合には（ステップＳ１２のＮ）、ステップＳ１１の処理に戻る。しかし変化量がΔｐ以上である場合には（ステップＳ１２のＹ）、この音声データの周波数特徴量を算出し、この周波数特徴量について、ＤＪモデルおよび楽曲モデルとの尤度を算出する（ステップＳ１３）。具体的には、本実施例では、曲と話し声とは周波数特徴量が異なることに着目して、典型的な楽曲の周波数特徴量と話し声の周波数特徴量が、基準データとしてメモリ１８に予め記憶されている。そして、上記音声データの周波数特徴量と基準データとの尤度を計算することにより、音声信号がＤＪ部分に係るものか、楽曲部分に係るものかを判定する。

なお尤度の算出には、例えばＧＭＭ［Gaussian Mixture Model］を用いた公知の手法が用いられる。そして両者間の尤度が高いほど、両者が一致している可能性が高い、或いは、両者がより近似していると言うことができる。なお、尤度算出に際しては、基準データとの比較により尤度を求める前述の方式に代えて、メモリ１８に登録されたジャンルごとの評価関数に、上記音声データの周波数特徴量を代入して尤度を求める方式を採ることもできる。

そして音声データの周波数特徴量について、ＤＪモデルとの尤度よりも、楽曲モデルとの尤度が高い場合には（ステップＳ１４のＮ）、ステップＳ１１の処理に戻る。しかし、ＤＪモデルとの尤度の方が高い場合には（ステップＳ１４のＹ）、後続のＰＣＭデータをメモリ１８から取得する。ここでは、前記の一定期間よりも長い所定期間Ｔｓの間のＰＣＭデータを取得する。そして取得されたＰＣＭデータの周波数特徴量を算出し、各ジャンル（ポップス、クラシック、演歌）のモデルおよびＤＪモデルとの尤度を算出する（ステップＳ１５）。

例えば、上記のＴｓ時間分のＰＣＭデータの周波数特徴量とポップスモデル、クラシックモデル、演歌モデル、ＤＪモデルにおける周波数特徴量の尤度を算出する。或いは、上記Ｔｓ時間を複数の区間（例えば、前記の一定期間）に区切り、そして、最初の区間のＰＣＭデータについてはポップスモデルとの尤度を、次の区間のＰＣＭデータについてはクラシックモデルとの尤度を、その次の区間のＰＣＭデータについては演歌モデルとの尤度を、更にその次の区間のＰＣＭデータについては再びポップスモデルとの尤度を算出する、といった処理を交互に行うものでも良い。

そしてＤＳＰ１６は、ステップＳ１５の処理で算出された尤度の各々を用いて、期間Ｔｓにおける音声信号の周波数特徴量との尤度が、最も高くなるモデルを選出する（ステップＳ１６）。

或いはモデルごとの尤度の算出を交互に行う場合は、期間Ｔｓ内における、ポップスモデルとの尤度の平均値、クラシックモデルとの尤度の平均値、演歌モデルとの尤度の平均値、およびＤＪモデルとの尤度の平均値が、それぞれ求められる。そしてこれらのモデルのうち、最も平均値の大きいものが、選出されることになる。

ステップＳ１６の処理の結果、ＤＪモデルが選出された場合は（ステップＳ１７のＹ）、ステップＳ１１の処理に戻る。一方、ＤＪモデル以外のものが選出された場合は（ステップＳ１７のＮ）、期間Ｔｓの間に、音声信号が非楽曲から楽曲へ移ったと考えられる。

そこでこの場合、ＤＳＰ１６は、当該音声データに対応する箇所（ステップＳ１２の処理で、Ｙの条件を満たした音声データに対応する箇所）を、楽曲区間の始点として検出する（ステップＳ１８）。また、ステップＳ１６の処理によって選出されたモデルを、対応モデルとして決定する（ステップＳ１９）。ここまでの処理により、ステップＳ１の処理が実現されることになる。

次に、先述したステップＳ２の処理の内容について、図４に示すフローチャートを参照しながら、より詳細に説明する。

先ずＤＳＰ１６は、メモリ１８から抽出されたＰＣＭデータ（音声信号）のうち、現時点から一定期間分（例えば、数十ｍｓ分）のＰＣＭデータ（音声データ）を取得する。そして音声データが得られたら、ＤＳＰ１６は、先述したステップＳ１１の処理と同様に、この音声データにおけるパワーの変化量を算出する（ステップＳ２１）。その後、この算出結果が所定値Δｐ以上であるか否かを判断する（ステップＳ２２）。

その結果、変化量がΔｐに満たない場合には（ステップＳ２２のＮ）、ステップＳ２１の処理に戻るが、Δｐ以上である場合には（ステップＳ２２のＹ）、この音声データの周波数特徴量を算出し、当該周波数特徴量について、ＤＪモデルおよび対応モデルとの尤度を算出する（ステップＳ２３）。

そして当該算出の結果、対応モデルとの尤度よりも、ＤＪモデルとの尤度が高い場合には（ステップＳ２４のＮ）、ステップＳ２１の処理に戻る。しかし、対応モデルとの尤度の方が高い場合には（ステップＳ２４のＹ）、音声信号における、当該音声データに対応する箇所を、楽曲区間の終点として検出する（ステップＳ２５）。ここまでの処理により、ステップＳ２の処理が実現されることになる。

ここで、上述した楽曲区間記録処理の内容をより理解容易とするため、当該処理に関する簡略的な事例について、図５を参照しながら以下に説明する。

なお本事例では、図５に示すように、楽曲区間記録処理の開始時（時刻Ｔ０）以降、非楽曲Ａ（ＤＪ）、楽曲Ａ（ポップス）、非楽曲Ｂ（ＤＪ）、・・・を順に含んだ音声信号が、放送受信装置１に入力されるものとする。また図中の「期間Ａ」および「期間Ｂ」は、ステップＳ１５の処理における期間Ｔｓを示している。また図５においてＰ１〜Ｐ１７で示す丸の部分は、一定期間分のＰＣＭデータを示しており、特にＰ２、Ｐ７、Ｐ１３、およびＰ１７で示す部分は、パワーの変化量がΔｐ以上となるものを示している。

本事例では、先ず、Ｐ１に係る音声データが取得される（ステップＳ１１）。しかし、当該サンプリングデータにおけるパワーの変化量はΔｐに満たないため（ステップＳ１２のＮ）、ステップＳ１１の処理に戻る。

次に、Ｐ２に係る音声データが取得される（ステップＳ１１）。そして当該音声データにおけるパワーの変化量はΔｐ以上であるため（ステップＳ１２のＹ）、ステップＳ１３の処理が実行される。このとき、当該音声データは、非楽曲Ａ（ＤＪ）の区間におけるものであるから、当該音声データの周波数特徴量は、楽曲モデルとの尤度よりも、ＤＪモデルとの尤度の方が高くなる（ステップＳ１４のＹ）。そのため、ステップＳ１５の処理が実行されることになる。

なお当該ステップＳ１５の処理では、「期間Ａ」の間のＰＣＭデータが取得され、このＰＣＭデータについての周波数特徴量が算出される。そしてこの周波数特徴量について、ポップスモデル、クラシックモデル、演歌モデル、およびＤＪモデルとの尤度が算出されることになる。

ここで期間Ａにおける音声信号は終始非楽曲Ａ（ＤＪ）の区間であるから、ステップＳ１６の処理によれば、音声信号の周波数特徴量との尤度が最も高くなるモデルとして、ＤＪモデルが選出されることになる。そのため、ステップＳ１７の処理によって、ステップＳ１１の処理に戻ることになる。

その後、Ｐ７に係る音声データが取得される。そして当該音声データにおけるパワーの変化量はΔｐ以上であるため（ステップＳ１２のＹ）、ステップＳ１３の処理が実行される。その結果、当該サンプリングデータは、非楽曲Ａ（ＤＪ）の区間におけるものであるから、当該サンプリングデータの周波数特徴量は、楽曲モデルとの尤度よりも、ＤＪモデルとの尤度の方が高くなる（ステップＳ１４のＹ）。そのため、ステップＳ１５の処理が実行されることになる。

なお当該ステップＳ１５の処理では、「期間Ｂ」の間のＰＣＭデータが取得され、このＰＣＭデータについての周波数特徴量が算出される。そしてこの周波数特徴量について、ポップスモデル、クラシックモデル、演歌モデル、およびＤＪモデルとの尤度が算出されることになる。

ここで期間Ｂにおける音声信号は、Ｐ８の段階では、非楽曲Ａ（ＤＪ）の区間であるが、Ｐ９〜Ｐ１１の段階、つまり大半の部分は、楽曲Ａ（ポップス）の区間である。そのため、ステップＳ１６の処理によれば、音声信号の周波数特徴量との尤度が最も高くなるモデルとして、ポップスモデルが選出されることになる。そのため、ステップＳ１７の処理によって、ステップＳ１８の処理に進むことになる。

そしてステップＳ１８の処理によって、音声信号におけるＰ７に対応する箇所が、楽曲区間の始点として検出されることになる。またステップＳ１９の処理によって、ポップスモデルが、対応モデルとして決定される。

その後、ステップＳ２（ステップＳ２１〜Ｓ２５）の処理に進み、先ず、Ｐ１２に係る音声データが取得される（ステップＳ２１）。しかし、当該音声データにおけるパワーの変化量がΔｐ未満であるため（ステップＳ２２のＮ）、ステップＳ２１の処理に戻る。

次に、Ｐ１３に係る音声データが取得される。そして当該サンプリングデータにおけるパワーの変化量はΔｐ以上であるため（ステップＳ２２のＹ）、ステップＳ２３の処理が実行される。その結果、当該音声データは、楽曲Ａ（ポップス）の区間におけるものであるから、当該音声データの周波数特徴量は、ＤＪモデルとの尤度よりも、対応モデル（ポップスモデル）との尤度の方が高くなる（ステップＳ２４のＮ）。そのため、ステップＳ２１の処理に戻る。

その後、Ｐ１４〜Ｐ１６の各箇所においても音声データが取得されるが、何れについてもパワーの変化量がΔｐ未満であるため（ステップＳ２２のＮ）、ステップＳ２１の処理に戻る。

そしてＰ１７に係る音声データは、パワーの変化量がΔｐ以上であるから（ステップＳ２２のＹ）、ステップＳ２３の処理が実行される。その結果、当該音声データは、非楽曲Ｂ（ＤＪ）の区間におけるものであるから、当該音声データの周波数特徴量については、対応モデル（ポップスモデル）との尤度よりも、ＤＪモデルとの尤度の方が高くなる（ステップＳ２４のＹ）。

そこでステップＳ２５の処理に進み、音声信号におけるＰ１７に対応する箇所が、楽曲区間の終点として検出されることになる。ここまでの処理によって、楽曲区間の始点と終点がともに検出され、図５に示すように、音声信号のうちのＰ７からＰ１７に相当する区間が楽曲区間とみなされることになる。その後、当該楽曲区間の長さが最小楽曲長さ以上であれば（ステップＳ３のＹ）、音声信号から当該楽曲区間のみが抽出され、ＨＤＤ２０に記録されることになる（ステップＳ４）。

なお上述した、ステップＳ１２〜Ｓ１４の処理およびステップＳ２２〜ｓ２４の処理は、音声信号におけるパワーの変化量がΔｐ（所定の閾値）以上である箇所（変化点）を検出し、この変化点が楽曲区間において検出されたものか、或いは非楽曲区間において検出されたものか、を判定する処理となっている。

ここで音声信号におけるパワーの変化量が比較的大きくなる箇所（変化点）は、楽曲の区間よりも、非楽曲の区間においてより多く発生することが知られている。そのため、ステップＳ１２〜Ｓ１４の処理およびステップＳ２２〜Ｓ２４の処理によれば、楽曲区間においてステップＳ１３やＳ２３の処理が実行される回数を極力減らし、放送受信装置１における処理負担を軽減することが可能となっている。

またステップＳ１５の処理は、記憶されている周波数特徴量の各々のうち、音声信号の周波数特徴量との尤度が最も高くなるものを選出する処理と言える。またステップＳ２１〜Ｓ２５の処理は、音声信号の周波数特徴量と対応モデル（選出された周波数特徴量）との尤度を逐次算出し、該算出の結果に基づいて、終点を検出する処理と言える。

また本実施例における楽曲区間記録処理では、始点および終点に若干の余裕を持たせて（非楽曲の部分を残して）、楽曲区間を抽出することとしている（例えば図５における、Ｐ７〜Ｐ８の部分や、Ｐ１６〜Ｐ１７の部分を参照）。これにより、最初または最後の部分が切れた状態で楽曲が記録されることが、回避されるようになっている。

また、上述した楽曲区間記録処理においては、ステップＳ２の処理によって検出された楽曲区間の終点を、次の楽曲区間の始点とみなして、処理を進めるようにしても良い。この場合、ステップＳ２の処理の完了後は、ステップＳ３以降の処理を実行するとともに、ステップＳ１５以降の処理（ステップＳ１８の処理を除く）を実行することになる。

以上に説明した本実施例の放送受信装置１は、音声信号から楽曲区間を抽出する装置であって、特にＤＳＰ１６は、音声信号の周波数特徴量を算出する機能を有している。またＤＳＰ１６は、この算出された周波数特徴量に基づいて、音声信号が楽曲部分のものか非楽曲部分のものかを判定する機能と、音声信号のジャンルを判定する機能を有している（ステップＳ１の処理内容を参照）。またＤＳＰ１６は、算出された音声信号の周波数特徴量に基づいて、音声信号がこの判定されたジャンルに係る楽曲部分かそれ以外の部分であるかを判定する機能と、音声信号が、この楽曲部分から、それ以外の部分に変化した個所を楽曲区間の終点として検出する機能を有している（ステップＳ２の処理内容を参照）。また本実施例の放送受信装置１は、無線により送信される音声信号を受信し、音声信号から抽出された楽曲区間を記録する機能を有している。
［実施例２］
次に、本発明の別の実施形態（実施例２）について説明する。なお本実施例は、楽曲区間記録処理の具体的な内容を除いては、基本的に実施例１の場合と同一であるため、重複した説明は省略する。

本実施例において実行される楽曲区間記録処理について、図６のフローチャートを参照しながら、以下に説明する。

楽曲区間記録処理は、例えばユーザによる楽曲区間記録処理の実行指示が有った場合に、開始される。楽曲区間記録処理が開始されると、ＤＳＰ１６は、音声信号（Ａ／Ｄ変換部１２から出力されるＰＣＭデータ）のメモリ１８への記録を開始する（ステップＳ５０）。

その後ＤＳＰ１６は、Ａ／Ｄコンバータ１２から継続的に出力されるＰＣＭデータ（音声信号）のうち、現時点から一定期間分（例えば、数十ｍｓ分）のＰＣＭデータ（以下、「第１音声データ」とする）を取得する。そして取得された第１音声データの周波数特徴量を算出し、楽曲モデルとの尤度を算出する（ステップＳ５１）。そしてこの尤度が所定値を超えていれば（つまり、当該尤度が比較的大きい場合は）、当該第１音声データは楽曲区間に属している可能性が高いと考えられる。

そこでこの場合は（ステップＳ５２のＹ）、音声信号における、当該第１音声データに対応する箇所を、楽曲区間の始点として検出する（ステップＳ５３）。ただし当該尤度が所定値以下であれば（ステップＳ５２のＮ）、当該サンプリングデータは非楽曲に属している可能性が高いと考えられるため、ステップＳ５１の処理に戻る。

ステップＳ５３の処理がなされた後、ＤＳＰ１６は、所定期間にわたって、一定期間分（例えば、数十ｍｓ分）のＰＣＭデータ（以下、「第２音声データ」とする）を、次々と取得する。そしてこれらの第２音声データについて、周波数特徴量を算出する。その後、この算出結果を用いて、当該期間内において音声信号の周波数特徴量との尤度が最も高くなるモデルを、ポップスモデル、クラシックモデル、および演歌モデルの中から、対応モデルとして選出する（ステップＳ５４）。

より具体的には、例えば、各第２音声データの周波数特徴量とポップスモデルとの尤度の平均値、各第２音声データの周波数特徴量とクラシックモデルとの尤度の平均値、および、各第２音声データの周波数特徴量と演歌モデルとの尤度の平均値をそれぞれ求め、最も平均値の高かったモデルを、対応モデルとして選出する。

そしてステップＳ５４の処理がなされた後、ＤＳＰは、現時点から一定期間分（例えば、数十ｍｓ分）のＰＣＭデータ（以下、「第３音声データ」とする）を取得するとともに、この第３音声データの周波数特徴量を算出し、対応モデルとの尤度を算出する（ステップＳ５５）。そしてこの尤度が所定値を超えていれば（ステップＳ５６のＹ）、当該第３音声データは楽曲区間に属していると考えられる。つまり現時点では、楽曲区間は継続されていると考えられる。そこでステップＳ５５の処理に戻る。

ただし当該尤度が所定値以下であれば（ステップＳ５６のＮ）、当該第３音声データは非楽曲区間に属していると考えられる。つまり現時点では、楽曲区間は終了していると考えられる。そこで音声信号における当該第３音声データに対応する箇所を、楽曲区間の終点として検出する（ステップＳ５７）。ここまでの処理により、楽曲区間の始点と終点が検出され、楽曲区間が特定されたことになる。

そこでＤＳＰ１６は、メモリ１８に記録されている音声信号から楽曲区間のみを抽出し、メモリ１８の別領域に記録する（ステップＳ５８）。その後、楽曲録音処理の停止の指示があった場合には（ステップＳ５９のＹ）、当該処理は停止される。一方、当該停止の指示がない場合には（ステップＳ５９のＮ）、さらに別の楽曲区間を抽出して記録するべく、ステップＳ５１の処理に戻る。

以上のように本実施例では、ＤＳＰ１６は、音声信号の周波数特徴量と楽曲モデルとの尤度を逐次算出し、この尤度が所定の閾値を超えたことを検出することにより、楽曲区間の始点を検出するようになっている（ステップＳ５１〜Ｓ５３を参照）。また、音声信号の周波数特徴量と対応モデル（選出された周波数特徴量）との尤度を逐次算出し、この尤度が所定の閾値以下となったことを検出することにより、楽曲区間の終点を検出するようになっている（ステップＳ５５〜Ｓ５７を参照）。そのため、楽曲区間の始点および終点の検出を、簡潔な処理によって実現することが可能となっている。

また本実施例の放送受信装置は、音声信号が非楽曲部分から楽曲部分に変化した個所を、楽曲区間の始点として検出するものとなっている。

［まとめ］
以上までに説明した通り、本発明の実施形態に係る放送受信装置１は、音声信号から楽曲区間を抽出する楽曲抽出装置である。そしてＤＳＰ１６は、楽曲区間の始点を検出する機能、および、楽曲区間の終点を検出する機能を有するとともに、複数ジャンルの楽曲の各々についての周波数特徴量（ポップスモデル、クラシックモデル、演歌モデル）を記憶している。

そしてＤＳＰ１６は、楽曲区間の終点の検出にあたって、記憶されている各モデルのうち、音声信号の周波数特徴量との尤度が最も高くなるものを、対応モデルとして選出する処理（ステップＳ１６、Ｓ５４）を実行する。そして当該処理の実行後、音声信号の周波数特徴量と対応モデル（選出された周波数特徴量）との尤度を逐次算出し、この算出の結果に基づいて、楽曲区間の終点を検出する。

このように、音声信号における楽曲のジャンルに一致する（或いは最も近い）ジャンルの周波数特徴量が、対応モデルとして選出された後、音声信号の周波数特徴量と当該対応モデルの尤度の算出結果が、楽曲区間の終点の検出に用いられる。そのため、一律に、音声信号の周波数特徴量と楽曲の教師データに係る周波数特徴量との尤度の算出結果が、当該検出に用いられるものに比べ、終点を精度良く検出することが可能となっている。

つまり、例えば音声信号における楽曲のジャンルが「ポップス」である場合、楽曲の教師データよりも、ポップスのジャンルに係る何らかの楽曲の方が、音声信号における楽曲により近似しているといえる。そのため本実施形態によれば、現在の音声信号が楽曲区間に属しているか否かを、より精度良く検出することが可能であり、ひいては、楽曲区間の終点をより精度良く検出することが可能である。

なお上述した各実施例においては、放送される音声信号の入力にほぼ並行して、楽曲区間記録処理が実行されるようになっている。しかしこのようなものの他、例えば予めＨＤＤ２０などに記録済みである音声信号（楽曲区間と非楽曲区間が混在したもの）を読み出し、この音声信号に対して楽曲区間記録処理が実行されるようになっていても構わない。

以上、本発明の実施形態について説明したが、本発明はこの構成等に限定されるものではない。また本発明は、その主旨を逸脱しない範囲において、種々の改変を加えて実施されうる。

本発明は、音声信号を受信する受信装置などの分野において利用可能である。

本発明の実施形態に係る放送受信装置の構成図である。実施例１における楽曲区間記録処理のフローチャートである。ステップＳ１の処理についてのフローチャートである。ステップＳ２の処理についてのフローチャートである。楽曲区間記録処理を説明するための説明図である。実施例２における楽曲区間記録処理のフローチャートである。

符号の説明

１放送受信装置（楽曲抽出装置、楽曲記録装置）
１１ＦＭチューナ部
１２Ａ／Ｄ変換部
１３ＭＰ３Ｃｏｄｅｃ部
１４Ｄ／Ａ変換部
１５スピーカ
１６ＤＳＰ
１７ＣＰＵ
１８メモリ
１９バス
２０ＨＤＤ
２１ＨＤＤ−ＩＦ

Claims

音声信号から楽曲区間を抽出する楽曲抽出装置であって、
音声信号の周波数領域における特徴量を算出する周波数特徴量算出部と、
算出された周波数特徴量に基づいて、音声信号が楽曲部分のものか、非楽曲部分のものかを判定する第１判定部と、
算出された周波数特徴量に基づいて、音声信号のジャンルを判定するジャンル判定部と、
算出された周波数特徴量に基づいて、音声信号が前記ジャンルに係る楽曲部分のものか、それ以外の部分であるかを判定する第２判定部と、
第２判定部において、音声信号が前記楽曲部分から、前記それ以外の部分に変化した個所を楽曲区間の終点として検出する、終点検出部と、
を備えることを特徴とする、楽曲抽出装置。
第１判定部において、音声信号が非楽曲部分から、楽曲部分に変化した個所を楽曲区間の始点として検出する、始点検出部、
を更に備えることを特徴とする、請求項１に記載の楽曲抽出装置。
無線により送信される音声信号を受信する受信部と、
請求項１又は２に記載の楽曲抽出装置と、
前記楽曲抽出装置により抽出された楽曲区間を記録する記録部と、
を備えることを特徴とする楽曲記録装置。