JP2011090290A

JP2011090290A - 楽曲抽出装置および楽曲録音装置

Info

Publication number: JP2011090290A
Application number: JP2010195431A
Authority: JP
Inventors: Tatsuo Koga; 達雄古賀; Hisatoshi Omae; 寿敏大前; Hidehito Shimaoka; 秀人嶌岡; Tomoji Yamamoto; 友二山本; Satoru Matsumoto; 悟松本
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2009-09-28
Filing date: 2010-09-01
Publication date: 2011-05-06
Also published as: US20110235811A1

Abstract

【課題】ラジオ放送の電界強度が低い場合や、受信する放送がモノラルデータのみを伝送するものである場合における楽曲抽出の精度を向上する。
【解決手段】
音声信号から音声パワーを算出する音声パワー算出部と、音声パワーの状態に基づいて、楽曲部分又は非楽曲部分の判定を行う判定部と、を備える。
【選択図】図２

Description

本発明は、ラジオ放送の楽曲部分だけを抽出する楽曲抽出装置及び楽曲を録音する楽曲録音装置に関する。

受信したラジオ放送から音楽部分を自動的に抽出して格納するデジタル再生装置がある（特許文献１）。この文献では、放送データの左チャンネルデータと右チャンネルデータからステレオデータかモノラルデータかを判定し、ステレオ部分は楽曲、モノラル部分は非楽曲とすることにより楽曲部分を抽出する技術が開示されている。

特表２００５−５１８５６０号公報

しかしながら、ラジオ放送の受信電界強度が低い場合、左右チャンネルデータの分離度が小さくなるので、本来ステレオ部分である音声信号もモノラル信号と判定してしまい、楽曲部分を正確に抽出できないという問題があった。さらに、上記のデジタル再生装置では、少なくとも左右チャンネルデータを伝送する放送（例えば、ＦＭ（Frequency Modulation）放送）でなければ、楽曲部分を抽出することができないという問題があった。具体的に例えば、モノラルデータのみを伝送するＡＭ（Amplitude Modulation）放送では、楽曲部分を抽出することができない。

本発明は係る問題を解決する。

本発明の楽曲抽出装置は、音声信号から音声パワーを算出する音声パワー算出部と、
音声パワーの状態に基づいて、楽曲部分又は非楽曲部分の判定を行う判定部と、を備えることを特徴とする。

受信電界強度が低い場合や、受信する放送がモノラルデータのみを伝送するものであったとしても、精度良く音声信号の楽曲部分又は非楽曲部分を判定することが可能になる。

第１実施例の録音再生装置１００のハードウエア構成図である。第１実施例の録音再生装置１００による録音処理のフローチャートである。音声信号の波形、音声パワー、音声パワーの変化量のイメージである。ＬＲ差分のイメージである。電界強度が高い場合や低い場合のＬＲ差分信号や音声パワーを示す図である。第１実施例の録音再生装置１００によるプレイリスト（楽曲位置情報）生成フローチャートである。第１実施例の録音再生装置１００による再生フローチャートである。第２実施例の録音再生装置１００ａのハードウエア構成図である。第２実施例の録音再生装置１００ａの要部の機能ブロック図である。音声信号の波形、第２変化点の頻度のイメージである。第２実施例の録音再生装置１００ａによる録音処理のフローチャートである。第１時間、第２時間のイメージである。第２実施例（別例）の録音再生装置１００ａの要部の機能ブロック図である。

＜第１実施例＞
最初に、本発明の実施の一形態である、第１実施例の録音再生装置１００について、図に基づいて詳説する。

図１に、本発明の一実施形態である、第１実施例の録音再生装置１００のハードウエア構成図を示す。本実施例の録音再生装置１００は、ＦＭチューナ１、Ａ／Ｄ部２、ＤＳＰ３、Ｄ／Ａ部４、ＣＰＵ５、メモリ６、記録媒体７を備える。

ＦＭチューナ１は、ＦＭ放送波を復調してアナログ音声信号を出力する。Ａ／Ｄ部２は、アナログ音声信号をデジタル音声信号に変換する。ＤＳＰ３は、楽曲抽出部（音声信号から楽曲部分だけを抽出し出力する部分）と、音声Ｃｏｄｅｃ部（非圧縮デジタル音声信号を圧縮音声データに符号化するエンコーダと、圧縮音声データを非圧縮デジタル音声信号に複合するデコーダ）を含む。Ｄ／Ａ部４は、デジタル音声信号をアナログ音声信号に変換して出力する。音声信号がステレオ信号である場合は、左右２チャンネルの信号のそれぞれを出力する。ＣＰＵ５は、演算処理装置である。メモリ６は、いわゆるＣＰＵ５のワークメモリである。記録媒体７は、圧縮音声データ（録音された楽曲データ）とそれに付随する設定情報を記録する。

図２に、第１実施例の録音再生装置１００による録音処理のフローチャートを示す。

まずＦＭチューナ１とＤＳＰ３内のエンコーダを起動して、記録媒体７（例えばＨＤＤ）中の録音ファイルに音声信号をエンコードしながら記録する（Ｓ１、Ｓ２）。エンコードした音声波形から、音声パワー値の算出、音声パワー値の変化量の算出、左右２チャンネル間の差分信号（ＬＲ差分）の算出を開始する（Ｓ３、Ｓ４、Ｓ５）。

ここで、図３を用いて、音声信号の波形、音声パワー、音声パワーの変化量のイメージを示す。（ａ）は音声信号の片方（例えばＬｃｈ）である。（ｂ）は音声信号から算出した音声パワーである。（ｃ）は音声パワーの変化量である。

また、図４を用いて、ＬＲ差分のイメージを示す。（ａ）はステレオ音声の左チャンネル音声信号の波形である。（ｂ）は右チャンネル音声信号の波形である。（ｃ）は左右２チャンネルの音声信号の差分（ＬＲ差分）信号の波形である。（ｄ）はＬＲ差分値の一定時間の平均値である。

音声パワーの変化量が所定値（例えば、図３（ｃ）において破線で示したもの）以上となる変化点を検出すると（Ｓ６でｙｅｓ）、その変化点前後一定時間における音声パワーの平均値（例えば、図３（ｄ））とＬＲ差分の平均値（図４（ｄ））を算出する（Ｓ７、Ｓ８）。音声パワーの平均値が閾値（例えば、図３（ｄ）において破線で示したもの）を超えていた場合、もしくはＬＲ差分の平均値が閾値（図４（ｄ）において破線で示したもの）を超えていた場合（Ｓ９でｙｅｓ）、その変化点は楽曲部分であると判定して、再びＳ６へ戻る。そして、次の変化点に関して同様にＳ７〜Ｓ９の判定を行う。

一方、パワーの平均値とＬＲ差分の平均値の両方が閾値を越えない場合、その変化点の位置（録音開始からの相対時刻）を非楽曲点（ＴＡ（ｉ））として記録する（Ｓ１０）。これを、録音停止指示があるまで繰り返す（Ｓ１１、Ｓ１２）。

録音停止指示があった場合（Ｓ１２でｙｅｓ）、エンコードを停止し、非楽曲点（ＴＡ（ｉ））を保存して、録音ファイルを閉じる（Ｓ１３）。非楽曲点（ＴＡ（ｉ））は録音ファイル内に圧縮音声データと区別して保存してもよいし、録音ファイルとは別ファイルとして保存してもよい。

なお、上記において、非楽曲点だけを記録し、楽曲点を記録しないのは、本実施例の録音再生装置１００では、（１）非楽曲点と次の非楽曲点の間の区間であって、（２）かつその区間の長さが所定時間以上（例えば９０秒以上）である区間を楽曲区間と判定する（これについては、後述の図６のフローチャートを参照して説明する）からである。出願人は、実験の結果、トークなどの非楽曲部では、楽曲部と比較して変化点がかなり多く発生することを見出した。ゆえに、上記のように非楽曲点と次の非楽曲点の間の区間を楽曲区間とみなしても、実用上は問題ない。

また、上記において、パワーの平均値とＬＲ差分の平均値の両方が閾値を越えない場合を非楽曲点とし、音声パワーの平均値もしくはＬＲ差分の平均値が閾値を越えた場合に楽曲点としているのは、（１）音声パワーの平均値は、非楽曲部分よりも楽曲部分の方が高くなる傾向にあること、（２）音声パワーの平均値は、電界強度が低下しても音声パワーの平均値はさほど低下しない、ことによるものである。図５を参照してこれについて説明する。

図５（ａ）は電界強度が高い場合のＬＲ差分信号の模式図である。電界強度が高い場合、楽曲部分のＬＲ差分値は大きくなっており（同図の破線で示す閾値を超えている）、トーク部分（非楽曲部分）のＬＲ差分値は小さくなっている（閾値を超えていない）ので、楽曲部分を正しく抽出することができる。

図５（ｂ）は電界強度が低い場合のＬＲ差分信号の模式図である。電界強度が低い場合、楽曲部と非楽曲部のＬＲ差分値の差が小さくなっている。この例では、１曲目と３曲目の楽曲部分のＬＲ差分値が閾値を超えていないため、この部分は非楽曲部分であると誤って判断してしまう。

図５（ｃ）は電界強度が低い場合のＬＲ差分信号とパワー値を重ねて示した模式図である。１曲目と３曲目の楽曲部分のＬＲ差分値が低くなっているのに対し、１曲目と３曲目の楽曲部分のパワー値に関してはさほど低下していない。このように、電界強度が低下してもパワー値に関しては影響を受けにくいことがわかる。また、トーク部分に関してはパワー値は低いことがわかる。ただし、２曲目の楽曲部分に関してはパワー値はあまり大きくないため、仮にパワー値のみで判定すると誤判定してしまう場合もある。以上から、電界強度が低い場合は、ＬＲ差分信号とパワー値の両方を利用することにより、楽曲部分の抽出精度を向上させることができる。

図６に、第１実施例の録音再生装置１００によるプレイリスト（楽曲位置情報）生成フローチャートを示す。プレイリストとは、録音ファイルの何処に楽曲が記録されているかを示すリストである。

まず録音ファイル等から非楽曲点ＴＡ（ｉ）を読み出す（Ｓ２１）。そして、隣り合うＴＡ（ｉ）の間隔（例えば、ＴＡ（１）−ＴＡ（０））を計算する（Ｓ２２）。もしＴＭ秒以上（例えば９０秒以上）であれば、ＴＡ（０）は楽曲の始点、ＴＡ（１）は楽曲の終点として記録する（Ｓ２３）。ＴＭ秒未満であれば、（ｉに１を加算して）再びＳ２２に戻り、ＴＡ（２）−ＴＡ（１）を計算し、ＴＭ秒と比較する。これを楽曲の候補点データがなくなるまで（Ｓ２６でｙｅｓと判定されるまで）繰返す。

図７に、第１実施例の録音再生装置１００による再生フローチャートを示す。プレイリストから録音ファイルに記録された１曲目の楽曲の起点の時刻を読み出し（Ｓ３１）、そこから再生を開始する（Ｓ３２）。１曲目の楽曲の終点まで再生すると（Ｓ３３でｙｅｓ）、再生を停止する。２曲目の楽曲の起点の時刻を読み出し、再生を開始。これをプレイリストに楽曲の起点／終点データがなくなる（Ｓ３４でｙｅｓになる）まで繰り返す。

＜第２実施例＞
最初に、本発明の実施の一形態である、第２実施例の録音再生装置１００ａについて、図に基づいて詳説する。なお、第２実施例は、出願人が見出した上述の特徴（トークなどの非楽曲部では、楽曲部と比較して変化点が多く発生する）を利用して、楽曲部分又は非楽曲部分の判定を行う具体例である。

図８に、本発明の一実施形態である、第２実施例の録音再生装置１００ａのハードウエア構成図を示す。なお、図８は、第１実施例の録音再生装置１００を示した図１に相当するものであり、本図において図１と同様の構成については同じ符号を付し、その詳細な説明を省略する。

本実施例の録音再生装置１００ａは、ＦＭチューナ１、ＡＭチューナ１ａ、Ａ／Ｄ部２、ＤＳＰ３ａ、Ｄ／Ａ部４、ＣＰＵ５、メモリ６、記録媒体７を備える。

ＡＭチューナ１ａは、ＡＭ放送波を復調してアナログ音声信号を出力する。Ａ／Ｄ部２ａは、ＦＭチューナ１及びＡＭチューナ１ａから出力されるアナログ音声信号を、デジタル音声信号に変換する。ＤＳＰ３ａは、楽曲抽出部と音声Ｃｏｄｅｃ部とを含むが、楽曲抽出部の構成及び動作が、第１実施例の録音再生装置１００のＤＳＰ３と異なる（詳細は後述）。Ｄ／Ａ部４は、デジタル音声信号をアナログ音声信号に変換して出力する。ＣＰＵ５、メモリ６及び記録媒体７は、第１実施例の録音再生装置１００と同様である。

なお、図８では、ＡＭチューナ１ａが、復調により得たモノラル信号を、Ｍ１及びＭ２の２チャンネルの信号として出力する構成を例示しているが、１チャンネルのモノラル信号を出力する構成でもよい。同様に、Ａ／Ｄ部２ａやＤ／Ａ部４が、１チャンネルのモノラル信号を出力する構成であってもよい。また、処理対象の放送波に応じた別々のチューナ（ＦＭチューナ１及びＡＭチューナ１ａ）を備え、他の部分（特に、Ａ／Ｄ部２ａ及びＤ／Ａ部４）を共通とする構成について例示したが、どの構成を共通にしてどの構成を別々にするかは任意に変更可能である。また、ＦＭチューナ１及びＡＭチューナ１ａは、同時に起動可能な構成であってもよいし、いずれか一方が起動可能な構成であってもよい。

次に、第２実施例の録音再生装置１００ａのＤＳＰ３ａに含まれる楽曲抽出部について、図に基づいて詳説する。

図９に、第２実施例の録音再生装置１００ａの要部の機能ブロック図を示す。図９は、ＤＳＰ３ａの楽曲抽出部の動作に関連する部分を示すものである。

本実施例の録音再生装置１００ａのＤＳＰ３ａに含まれる楽曲抽出部は、音声パワー算出部３０１、第２変化量算出部３０２、第２変化点検出部３０３、第２変化点頻度算出部３０４、音声パワー平均算出部３０５、差分信号算出部３０６、差分信号平均算出部３０７、楽曲区間判定部３０８を備える。

音声パワー算出部３０１は、第１実施例の録音再生装置１００と同様に、音声信号から音声パワーを算出する（図３参照）。例えば、音声信号の１つのチャンネルの信号値を二乗することで、音声パワーを算出することができる。なお、音声パワー算出部３０１は、音声信号の複数のチャンネルの信号値を用いて音声パワーを算出してもよい。例えば、音声信号の複数のチャンネルを、平均化や公知のモノラル化処理などによって１つのチャンネルにまとめた上で、音声パワーを算出してもよい。また、第１実施例の録音再生装置１００が、同様の方法で音声パワーを算出してもよい。

第２変化量算出部３０２は、第１実施例の録音再生装置１００と同様に、音声パワー算出部３０１で算出される音声パワーの第２変化量（本実施例では、第１実施例の変化量と区別するべく、第２変化量と表現する。以下同じ。）を算出する（図３参照）。例えば、後述する第１時間中の音声パワーの変化の大きさ（例えば、正の値）として、第２変化量を算出することができる。なお、第１実施例の録音再生装置１００が、同様の方法で変化量を算出してもよいが、算出を行う時間は第１時間に限られない。

第２変化点検出部３０３は、第１実施例の録音再生装置１００と同様に、第２変化量算出部３０２で算出される第２変化量が、第２所定値（本実施例では、第１実施例の所定値と区別するべく、第２所定値と表現する。以下同じ。）以上となる第２変化点（本実施例では、第１実施例の変化点と区別するべく、第２変化点と表現する。以下同じ。）を検出する（図３参照）。

第２変化点頻度算出部３０４は、第２変化点検出部３０３で検出される第２変化点の頻度を算出する。例えば、後述する第２時間中に含まれる第２変化点の数を計数し、当該数を第２変化点の頻度として算出することができる。

音声パワー平均算出部３０５は、第１実施例の録音再生装置１００と同様に、音声パワー算出部３０１で算出される音声パワーを、所定の時間で平均化することで、音声パワーの平均値を算出する（図３参照）。例えば、後述する第１時間中の音声パワーを平均化することで、音声パワーの平均値を算出する。なお、第１実施例の録音再生装置１００が、同様の方法で音声パワーの平均値を算出してもよいが、算出を行う時間は第１時間に限られない。

差分信号算出部３０６は、第１実施例の録音再生装置１００と同様に、音声信号の複数のチャンネルの信号値の差分（例えば、正の値）を求めることで、差分信号を算出する（図４参照）。

差分信号平均算出部３０７は、第１実施例の録音再生装置１００と同様に、差分信号算出部３０６で算出される差分信号を、所定の時間で平均化することで、差分信号の平均値を算出する（図３参照）。例えば、後述する第１時間中の差分信号を平均化することで、差分信号の平均値を算出する。なお、第１実施例の録音再生装置１００が、同様の方法で差分信号の平均値を算出してもよいが、算出を行う時間は第１時間に限られない。

楽曲区間判定部３０８は、第１実施例の録音再生装置１００と同様に、音声パワーの大きさ（上述のパワー値）と差分信号の大きさ（上述の差分値）とに基づいて、楽曲部分又は非楽曲部分の判定を行う。具体的に、楽曲区間判定部３０８は、音声パワー平均算出部３０５で算出される音声パワーの平均値が閾値以上になること（図３及び図５参照）と、差分信号平均算出部３０７で算出される差分信号の平均値が閾値以上になること（図４及び図５参照）と、の少なくとも一方を確認する場合、確認した時間の少なくとも一部を楽曲部分として判定する。反対に、楽曲区間判定部３０８は、音声パワー平均算出部３０５で算出される音声パワーの平均値が閾値未満になること（図３及び図５参照）と、差分信号平均算出部３０７で算出される差分信号の平均値が閾値未満になること（図４及び図５参照）と、の両方を確認する場合、確認した時間の少なくとも一部を非楽曲部分として判定する。

さらに、本実施例の録音再生装置１００ａでは、楽曲区間判定部３０８が、音声パワーの変化量が所定の大きさ以上になる頻度に基づいて、楽曲部分又は非楽曲部分の判定を行う。この判定方法の概略について、図に基づいて詳説する。

図１０に、音声信号の波形、第２変化点の頻度のイメージを示す。上述のように、また、図１０に示すように、音声パワーの変化量が所定の大きさ以上になる（第２変化点検出部３０３で第２変化点として検出される）頻度は、非楽曲部分（例えば、トーク部分）で大きくなり（密になり）、楽曲部分で小さくなる（疎になる）。

そのため、楽曲区間判定部３０８は、第２変化点頻度算出部３０４で算出される第２変化点の頻度が閾値以下になることを確認する場合に、確認した時間の少なくとも一部を楽曲部分として判定する。また、楽曲区間判定部３０８は、第２変化点頻度算出部３０４で算出される第２変化点の頻度が閾値よりも大きくなることを確認する場合に、確認した時間の少なくとも一部を非楽曲部分として判定する。

即ち、楽曲区間判定部３０８は、音声パワーの平均値が閾値以上になることと、差分信号の平均値が閾値以上になることと、第２変化点の頻度が閾値以下になることと、の少なくとも一つを確認する場合に、確認した時間の少なくとも一部を楽曲部分として判定する。反対に、楽曲区間判定部３０８は、音声パワーの平均値が閾値未満になることと、差分信号の平均値が閾値未満になることと、第２変化点の頻度が閾値より大きくなること、の全てを確認する場合に、確認した時間の少なくとも一部を非楽曲部分として判定する。

以上のように構成すると、音声パワーの状態に基づいて、音声信号の楽曲部分又は非楽曲部分が判定される。そのため、受信電界強度が低い場合や、受信する放送がモノラルデータのみを伝送するものであったとしても、精度良く音声信号の楽曲部分又は非楽曲部分を判定することが可能になる。これは、本実施例の録音再生装置１００ａのみに限られず、第１実施例の録音再生装置１００でも同様である。

なお、本実施例の録音再生装置１００ａでは、楽曲区間判定部３０８が、音声パワーの大きさ、差分信号の大きさ、音声パワーの変化量が大きくなる頻度、の３つに基づいて、音声信号の楽曲部分又は非楽曲部分を判定することとしたが、音声パワーの大きさ及び差分信号の大きさの少なくとも一方に基づいた判定を行わなくてもよい。即ち、音声パワー平均算出部３０５や、差分信号算出部３０６及び差分信号平均算出部３０７の、少なくとも一方を、備えない構成としてもよい。また、第１実施例の録音再生装置１００でも同様であり、差分信号の大きさに基づいた判定を行わなくてもよい。

ただし、種々の判定方法を用いて、音声信号の楽曲部分又は非楽曲部分の判定を行うと、第１実施例でも述べたように、精度良く判定を行うことが可能となるため、好ましい。また、上述のように、複数の判定方法のいずれか１つでも楽曲部分と判定する部分を、楽曲部分として判定すると、音声信号の楽曲部分をもれ無く判定することが可能になる。

次に、図８及び図９に示した第２実施例の録音再生装置１００ａの具体的な動作例について、図に基づいて詳説する。図１１に、第２実施例の録音再生装置１００ａによる録音処理のフローチャートを示す。また、図１１は、第１実施例の録音再生装置１００による録音処理のフローチャートを示した図２に相当するものである。

図１１に示すように、本実施例の録音再生装置１００ａは、最初にＦＭチューナ１及びＡＭチューナ１ａの少なくとも一方を起動し、音声信号の取得を開始する（Ｓ４１）。また、ＤＳＰ３ａ内のエンコーダを起動して、記録媒体７中の録音ファイルに記録する音声信号のエンコードを開始する（Ｓ４２）。また、判定を行うタイミング（後述の第１時間及び第２時間）を識別するための変数ｎを、初期化（例えば、１に設定）する。当該変数ｎは、例えばＣＰＵ５やＤＳＰ３ａなどによって管理される。

次に、Ａ／Ｄ部２ａから出力される音声信号を、オーディオＦＩＦＯ（First In First Out）６１に順次読み込む（Ｓ４３）。そして、オーディオＦＩＦＯ６１から順次読み出される音声信号に対して、ＤＳＰ３ａの楽曲抽出部が、上述の判定を行う。なお、オーディオＦＩＦＯ６１は、メモリ６の一部として解釈され得る。

まず、音声パワー算出部３０１が、上述のように音声パワーを算出する（Ｓ４４）。また、差分信号算出部３０６が、上述のように差分信号を算出する（Ｓ４５）。音声パワーの算出及び差分信号の算出は、第１時間Ｔ１（ｎ）の音声信号の処理が終了するまで（Ｓ４６でｙｅｓになるまで）行われる。

第１時間Ｔ１（ｎ）は、音声信号を所定の時間で分割して処理（判定）するための単位時間である。１つの第１時間は、例えば、数十ｍｓ（ミリ秒）の時間である。

第１時間Ｔ１（ｎ）の音声信号の音声パワー及び差分信号が算出されると、音声パワー平均算出部３０５が、上述のように第１時間Ｔ１（ｎ）の音声パワーの平均値を算出する（Ｓ４７）。また、差分信号平均算出部３０７が、上述のように第１時間Ｔ１（ｎ）の差分信号の平均値を算出する（Ｓ４８）。さらに、第２変化量算出部３０２が、上述のように第１時間Ｔ１（ｎ）の音声パワーの第２変化量ｃ（ｎ）を算出する（Ｓ４９）。

第２変化量ｃ（ｎ）が閾値以上であれば（Ｓ５０のｙｅｓ）、第２変化点が存在することを示すデータ「１」を、変化点ＦＩＦＯ６２に記録する（Ｓ５１）。一方、第２変化量ｃ（ｎ）が閾値未満であれば（Ｓ５０のｎｏ）、第２変化点が存在しないことを示すデータ「０」を、変化点ＦＩＦＯ６２に記録する（Ｓ５２）。なお、変化点ＦＩＦＯ６２は、メモリ６の一部として解釈され得る。

また、第２変化点頻度算出部３０４は、変化点ＦＩＦＯ６２に記録されているデータを参照することで、第２変化点の頻度を算出する（Ｓ５３）。このとき、変化点ＦＩＦＯ６２には、少なくとも第２時間Ｔ２（ｎ）の音楽信号から検出された第２変化点のデータが記録されている。第２変化点頻度算出部３０４は、変化点ＦＩＦＯ６２から読み出した第２時間Ｔ２（ｎ）のデータ中の、第２変化点が存在することを示すデータ「１」の数を計数することで、第２変化点の頻度を算出する（Ｓ５３）。

第２時間Ｔ２（ｎ）も、第１時間Ｔ１（ｎ）と同様に、音声信号を所定の時間で分割して処理（判定）するための単位時間である。１つの第２時間Ｔ２（ｎ）は、例えば、数ｓ（秒）の時間である。なお、第２時間Ｔ２（ｎ）は、第２変化点の頻度を算出する時間であるため、少なくとも第１時間Ｔ１（ｎ）よりは長い時間であると、好ましい。

第１時間Ｔ１（ｎ）及び第２時間Ｔ２（ｎ）について、図に基づいて詳説する。図１２に、第１時間、第２時間のイメージを示す。図１２に示すように、第２時間Ｔ２（ｎ）は、ｋ＋１個の第１時間Ｔ１（ｎ−ｋ）〜Ｔ１（ｎ）を含む（ｋは自然数）。また、Ｓ５０〜Ｓ５２において、変化点ＦＩＦＯ６２にデータを順次記録（更新）するため、第２時間Ｔ２（ｎ）の次の第２時間Ｔ２（ｎ＋１）は、第１時間が１つ分だけずれたものとなる。即ち、第２時間Ｔ２（ｎ＋１）は、ｋ＋１個の第１時間Ｔ１（ｎ−ｋ＋１）〜Ｔ１（ｎ＋１）を含むものとなる。

また、上述のように、楽曲区間判定部３０８は、音声パワーの大きさ、差分信号の大きさ、音声パワーの変化量が大きくなる頻度、の３つに基づいて、音声信号の楽曲部分又は非楽曲部分を判定する（Ｓ５４）。なお、楽曲区間判定部３０８が、第１実施例の録音再生装置１００と同様に、判定結果として非楽曲点ＴＡ（ｉ）を出力してもよい。

楽曲区間判定部３０８が、音声パワーの大きさ及び差分信号の大きさに基づいて判定する音声信号の時間は、第１時間Ｔ１（ｎ）の少なくとも一部（例えば、第１時間Ｔ１（ｎ）の略中央の時刻）となる。一方、音声パワーの変化量が大きくなる頻度に基づいて判定される時間は、第２時間Ｔ２（ｎ）の少なくとも一部（例えば、第２時間Ｔ２（ｎ）の略中央の時刻）となる。

このように、本実施例の録音再生装置１００ａでは、楽曲区間判定部３０８が判定を行う音声信号の時間が、判定方法毎にずれる場合がある。そのため、例えば、順次得られる判定結果（例えば、音声パワーの大きさ及び差分信号の大きさに基づいたそれぞれの判定結果）を判定結果保持部６３に保持し、上記の３つの方法で求めた判定結果が揃ってから、最終的な判定結果を出力してもよい。なお、判定結果保持部６３は、メモリ６の一部として解釈され得る。

Ｓ５４で音声信号の判定が行われると、例えばＣＰＵ５やＤＳＰ３ａなどにより、変数ｎに１が加算される（Ｓ５５）。そして、録音停止指示があるまで（Ｓ５６でｙｅｓとなるまで）、上述の判定（Ｓ４３〜Ｓ５５）を繰り返す。

録音停止指示があった場合（Ｓ５６でｙｅｓ）、エンコードを停止し、判定結果（例えば、非楽曲点ＴＡ（ｉ））を保存して、録音ファイルを閉じる（Ｓ５７）。判定結果は、録音ファイル内に圧縮音声データと区別して保存してもよいし、録音ファイルとは別ファイルとして保存してもよい。

このように構成すると、音声パワーの大きさ、差分信号の大きさ、音声パワーの変化量が大きくなる頻度のそれぞれに基づく判定方法を、円滑に組み合わせて行うことが可能になる。

なお、判定の開始時や終了時において、変化点ＦＩＦＯ６２に十分なデータ（判定に必要な第２時間Ｔ２（ｎ）のデータ）が記録されていない場合が生じうる。このような場合、例えば、他の判定方法（音声パワーの大きさや、差分信号の大きさに基づく判定）による判定結果を採用してもよいし、変化点ＦＩＦＯ６２に記録されている第２時間Ｔ２（ｎ）よりも短い時間のデータを参照して判定を行ってもよいし、足りないデータをダミーのデータで補って判定してもよい。

また、判定精度の高い判定方法による判定結果を、他の判定方法による判定結果よりも優先してもよい。この場合、例えば、それぞれの判定方法による判定結果に優先度を付与し（重み付けし）、それぞれの判定方法による判定結果を合わせることで、最終的な判定を行ってもよい。

また、楽曲区間判定部３０８が、判定結果として非楽曲点ＴＡ（ｉ）を出力する場合、第１実施例の録音再生装置１００によるプレイリストの生成方法（図６参照）や再生方法（図７参照）を、本実施例の録音再生装置１００ａにも適用することができる。

＜第２実施例の別例＞
第２実施例の録音再生装置１００ａの、楽曲区間判定部３０８による音声パワーの大きさ及び差分信号の大きさに基づいたそれぞれの判定において、第１実施例の録音再生装置１００と同様の判定方法を採用してもよい。この場合の構成について、図に基づいて詳説する。

図１３に、第２実施例（別例）の録音再生装置１００ａの要部の機能ブロック図を示す。なお、図１３は、通常の第２実施例の録音再生装置１００ａを示した図９に相当するものであり、本図において図９と同様の構成については同じ符号を付し、その詳細な説明を省略する。

本例の録音再生装置１００ａのＤＳＰ３ａに含まれる楽曲抽出部は、音声パワー算出部３０１、第２変化量算出部３０２、第２変化点検出部３０３、第２変化点頻度算出部３０４、音声パワー平均算出部３０５ｂ、差分信号算出部３０６、差分信号平均算出部３０７ｂ、楽曲区間判定部３０８ｂ、第１変化量算出部３０９ｂ、第１変化点検出部３１０ｂを備える。

第１変化量算出部３０９ｂは、第１実施例の録音再生装置１００と同様の変化量（以下、第１変化量とする）を算出する（図３参照）。また、第１変化点検出部３１０ｂは、第１実施例の録音再生装置１００と同様の変化点（以下、第１変化点とする）を算出する（図３参照）。

そして、音声パワー平均算出部３０５ｂは、第１実施例の録音再生装置１００と同様に、第１変化点検出部３１０ｂで検出された第１変化点の前後一定時間における音声パワーの平均値を算出する（図３参照）。

また、差分信号平均算出部３０７ｂは、第１実施例の録音再生装置１００と同様に、第１変化点検出部３１０ｂで検出された第１変化点の前後一定時間における差分信号の平均値を算出する（図４参照）。

楽曲区間判定部３０８ｂは、第１実施例の録音再生装置１００と同様に、音声パワーの大きさ及び差分信号の大きさに基づいて、音声信号の第１変化点の時刻の判定を行う。また、楽曲区間判定部３０８ｂは、通常の第２実施例の録音再生装置１００ａと同様に、音声パワーの第２変化量が大きくなる頻度（第２時間Ｔ２（ｎ）中の第２変化点の数）に基づいて、第２時間Ｔ２（ｎ）の少なくとも一部の時間（例えば、第２時間Ｔ２（ｎ）の略中央の時刻）の判定を行う。

このように構成しても、音声パワーの大きさ、差分信号の大きさ、音声パワーの変化量が大きくなる頻度のそれぞれに基づく判定方法を、組み合わせて行うことが可能になる。

なお、第２変化点検出部３０３が第２変化点を検出するために用いる第２所定値を、第１変化点検出部３１０ｂが第１変化点を検出するために用いる所定値（図３参照。以下、第１所定値とする。）よりも、小さく設定してもよい。

このように構成すると、それぞれの判定方法に適した第１変化点及び第２変化点を検出することが可能となるため、それぞれの判定方法による判定精度を向上させることが可能となる。具体的に例えば、音声パワーの大きさや、差分信号の大きさに基づく判定方法では、楽曲部分と非楽曲部分との境界であると確実性高く判定できる程度まで、第１所定値を大きくすると、判定精度を向上させることが可能となる。また例えば、音声パワーの変化量が大きくなる頻度に基づく判定方法では、疎及び密の状態が明確に区別され得る（それぞれの状態における第２変化点の数の差が大きくなる）程度まで、第２所定値を小さくすると、判定精度を向上させることが可能となる。

また、本例において、第２変化量算出部３０２及び第１変化量算出部３０９ｂを共通化してもよい。さらに、第２変化点検出部３０３及び第１変化点検出部３１０ｂを共通化してもよい。このように構成すると、ＤＳＰ３ａの処理量を低減することが可能になる。

＜変形例＞
本発明の実施の一形態である録音再生装置１００，１００ａについて、ＤＳＰ３，３ａなどの一部または全部の動作を、マイコンなどの制御装置が行うこととしても構わない。さらに、このような制御装置によって実現される機能の全部または一部をプログラムとして記述し、該プログラムをプログラム実行装置（例えばコンピュータ）上で実行することによって、その機能の全部または一部を実現するようにしても構わない。

また、上述した場合に限らず、図１、図８、図９及び図１３に示す録音再生装置１００，１００ａは、ハードウエア、或いは、ハードウエアとソフトウエアの組み合わせによって実現可能である。また、ソフトウエアを用いて録音再生装置１００，１００ａの一部を構成する場合、ソフトウエアによって実現される部位についてのブロックは、その部位の機能ブロックを表すこととする。

上記各実施例の説明は、本発明を説明するためのものであって、特許請求の範囲に記載の発明を限定し、或は範囲を減縮する様に解すべきではない。又、本発明の各部構成は上記実施例に限らず、特許請求の範囲に記載の技術的範囲内で種々の変形が可能であることは勿論である。

１ＦＭチューナ
１ａＡＭチューナ
２，２ａＡ／Ｄ部
３，３ａＤＳＰ
３０１音声パワー算出部
３０２第２変化量算出部
３０３第２変化点検出部
３０４第２変化点頻度算出部
３０５音声パワー平均算出部
３０６差分信号算出部
３０７，３０７ｂ差分信号平均算出部
３０８，３０８ｂ楽曲区間判定部
３０９ｂ第１変化量算出部
３１０ｂ第１変化点検出部
４Ｄ／Ａ部
５ＣＰＵ
６メモリ
６１オーディオＦＩＦＯ
６２変化点ＦＩＦＯ
６３判定結果保持部
７記録媒体
１００，１００ａ，１００ｂ録音再生装置

Claims

音声信号から音声パワーを算出する音声パワー算出部と、
音声パワーの状態に基づいて、楽曲部分又は非楽曲部分の判定を行う判定部と、を備えることを特徴とする楽曲抽出装置。
音声信号の複数のチャンネル間の差分信号を算出する差分信号算出部をさらに備え、
前記判定部が、音声パワーと差分信号に基づいて、楽曲部分又は非楽曲部分の判定を行うことを特徴とする請求項１に記載の楽曲抽出装置。
前記判定部は、
差分信号及び音声パワーのいずれかの大きさが、それぞれの閾値以上である場合は楽曲と判定し、
差分信号及び音声パワーの両方の大きさが、それぞれの閾値未満である場合は、非楽曲と判定することを特徴とする請求項２に記載の楽曲抽出装置。
音声パワーの変化量を算出する第１変化量算出部をさらに備え、
前記判定部は、前記第１変化量算出部が算出する変化量が第１所定値以上となる第１変化点の前後の音声パワーと差分信号に基づいて、判定を行うことを特徴とする請求項２又は３に記載の楽曲抽出装置。
前記判定部は、非楽曲と判定した第１変化点間が所定の時間以上となる音声信号の区間を、楽曲区間と判定する請求項４に記載の楽曲抽出装置。
音声パワーの変化量を算出する第２変化量算出部をさらに備え、
前記判定部は、前記第２変化量算出部が算出する変化量が第２所定値以上になる頻度に基づいて、判定を行うことを特徴とする請求項１〜５のいずれかに記載の楽曲抽出装置。
音声パワーの変化量を算出する第２変化量算出部と、
音声信号の複数のチャンネル間の差分信号を算出する差分信号算出部をさらに備え、
前記判定部は、
第１時間中の音声パワーの大きさと、
第１時間中の差分信号の大きさと、
第２時間中で、前記第２変化量算出部が算出する変化量が第２所定値以上になる頻度と、に基づいて、判定を行うことを特徴とする請求項１〜３のいずれかに記載の楽曲抽出装置。
前記判定部は、
第１時間の差分信号及び音声パワーのいずれかの大きさが、それぞれの閾値以上である場合は、当該第１時間の少なくとも一部を楽曲と判定し、
第１時間の差分信号及び音声パワーの両方の大きさが、それぞれの閾値未満である場合は、当該第１時間の少なくとも一部を非楽曲と判定することを特徴とする請求項７に記載の楽曲抽出装置。
前記判定部は、
前記第２変化量算出部が算出する変化量が、第２所定値以上となる第２変化点を計数し、
第２時間中の第２変化点の数が閾値以下であるとき、当該第２時間の少なくとも一部を楽曲と判定し、
第２時間中の第２変化点の数が閾値よりも大きいとき、当該第２時間の少なくとも一部を非楽曲と判定することを特徴とする請求項６〜８のいずれかに記載の楽曲抽出装置。
前記判定部は、第２時間中の第２変化点を計数することで、当該第２時間の略中央の時刻の判定を行うことを特徴とする請求項９に記載の楽曲抽出装置。
請求項１〜１０のいずれかに記載の楽曲抽出装置と、
前記楽曲抽出装置が楽曲であると判定した区間の音声信号を録音する録音部を備えた、楽曲録音装置。