JP2011090290A - 楽曲抽出装置および楽曲録音装置 - Google Patents
楽曲抽出装置および楽曲録音装置 Download PDFInfo
- Publication number
- JP2011090290A JP2011090290A JP2010195431A JP2010195431A JP2011090290A JP 2011090290 A JP2011090290 A JP 2011090290A JP 2010195431 A JP2010195431 A JP 2010195431A JP 2010195431 A JP2010195431 A JP 2010195431A JP 2011090290 A JP2011090290 A JP 2011090290A
- Authority
- JP
- Japan
- Prior art keywords
- music
- time
- audio
- change amount
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 22
- 230000005236 sound signal Effects 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims description 31
- 238000001514 detection method Methods 0.000 description 15
- 235000019800 disodium phosphate Nutrition 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000005684 electric field Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/034—Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/046—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
【課題】ラジオ放送の電界強度が低い場合や、受信する放送がモノラルデータのみを伝送するものである場合における楽曲抽出の精度を向上する。
【解決手段】
音声信号から音声パワーを算出する音声パワー算出部と、音声パワーの状態に基づいて、楽曲部分又は非楽曲部分の判定を行う判定部と、を備える。
【選択図】図2
【解決手段】
音声信号から音声パワーを算出する音声パワー算出部と、音声パワーの状態に基づいて、楽曲部分又は非楽曲部分の判定を行う判定部と、を備える。
【選択図】図2
Description
本発明は、ラジオ放送の楽曲部分だけを抽出する楽曲抽出装置及び楽曲を録音する楽曲録音装置に関する。
受信したラジオ放送から音楽部分を自動的に抽出して格納するデジタル再生装置がある(特許文献1)。この文献では、放送データの左チャンネルデータと右チャンネルデータからステレオデータかモノラルデータかを判定し、ステレオ部分は楽曲、モノラル部分は非楽曲とすることにより楽曲部分を抽出する技術が開示されている。
しかしながら、ラジオ放送の受信電界強度が低い場合、左右チャンネルデータの分離度が小さくなるので、本来ステレオ部分である音声信号もモノラル信号と判定してしまい、楽曲部分を正確に抽出できないという問題があった。さらに、上記のデジタル再生装置では、少なくとも左右チャンネルデータを伝送する放送(例えば、FM(Frequency Modulation)放送)でなければ、楽曲部分を抽出することができないという問題があった。具体的に例えば、モノラルデータのみを伝送するAM(Amplitude Modulation)放送では、楽曲部分を抽出することができない。
本発明は係る問題を解決する。
本発明の楽曲抽出装置は、音声信号から音声パワーを算出する音声パワー算出部と、
音声パワーの状態に基づいて、楽曲部分又は非楽曲部分の判定を行う判定部と、を備えることを特徴とする。
音声パワーの状態に基づいて、楽曲部分又は非楽曲部分の判定を行う判定部と、を備えることを特徴とする。
受信電界強度が低い場合や、受信する放送がモノラルデータのみを伝送するものであったとしても、精度良く音声信号の楽曲部分又は非楽曲部分を判定することが可能になる。
<第1実施例>
最初に、本発明の実施の一形態である、第1実施例の録音再生装置100について、図に基づいて詳説する。
最初に、本発明の実施の一形態である、第1実施例の録音再生装置100について、図に基づいて詳説する。
図1に、本発明の一実施形態である、第1実施例の録音再生装置100のハードウエア構成図を示す。本実施例の録音再生装置100は、FMチューナ1、A/D部2、DSP3、D/A部4、CPU5、メモリ6、記録媒体7を備える。
FMチューナ1は、FM放送波を復調してアナログ音声信号を出力する。A/D部2は、アナログ音声信号をデジタル音声信号に変換する。DSP3は、楽曲抽出部(音声信号から楽曲部分だけを抽出し出力する部分)と、音声Codec部(非圧縮デジタル音声信号を圧縮音声データに符号化するエンコーダと、圧縮音声データを非圧縮デジタル音声信号に複合するデコーダ)を含む。D/A部4は、デジタル音声信号をアナログ音声信号に変換して出力する。音声信号がステレオ信号である場合は、左右2チャンネルの信号のそれぞれを出力する。CPU5は、演算処理装置である。メモリ6は、いわゆるCPU5のワークメモリである。記録媒体7は、圧縮音声データ(録音された楽曲データ)とそれに付随する設定情報を記録する。
図2に、第1実施例の録音再生装置100による録音処理のフローチャートを示す。
まずFMチューナ1とDSP3内のエンコーダを起動して、記録媒体7(例えばHDD)中の録音ファイルに音声信号をエンコードしながら記録する(S1、S2)。エンコードした音声波形から、音声パワー値の算出、音声パワー値の変化量の算出、左右2チャンネル間の差分信号(LR差分)の算出を開始する(S3、S4、S5)。
ここで、図3を用いて、音声信号の波形、音声パワー、音声パワーの変化量のイメージを示す。(a)は音声信号の片方(例えばLch)である。(b)は音声信号から算出した音声パワーである。(c)は音声パワーの変化量である。
また、図4を用いて、LR差分のイメージを示す。(a)はステレオ音声の左チャンネル音声信号の波形である。(b)は右チャンネル音声信号の波形である。(c)は左右2チャンネルの音声信号の差分(LR差分)信号の波形である。(d)はLR差分値の一定時間の平均値である。
音声パワーの変化量が所定値(例えば、図3(c)において破線で示したもの)以上となる変化点を検出すると(S6でyes)、その変化点前後一定時間における音声パワーの平均値(例えば、図3(d))とLR差分の平均値(図4(d))を算出する(S7、S8)。音声パワーの平均値が閾値(例えば、図3(d)において破線で示したもの)を超えていた場合、もしくはLR差分の平均値が閾値(図4(d)において破線で示したもの)を超えていた場合(S9でyes)、その変化点は楽曲部分であると判定して、再びS6へ戻る。そして、次の変化点に関して同様にS7〜S9の判定を行う。
一方、パワーの平均値とLR差分の平均値の両方が閾値を越えない場合、その変化点の位置(録音開始からの相対時刻)を非楽曲点(TA(i))として記録する(S10)。これを、録音停止指示があるまで繰り返す(S11、S12)。
録音停止指示があった場合(S12でyes)、エンコードを停止し、非楽曲点(TA(i))を保存して、録音ファイルを閉じる(S13)。非楽曲点(TA(i))は録音ファイル内に圧縮音声データと区別して保存してもよいし、録音ファイルとは別ファイルとして保存してもよい。
なお、上記において、非楽曲点だけを記録し、楽曲点を記録しないのは、本実施例の録音再生装置100では、(1)非楽曲点と次の非楽曲点の間の区間であって、(2)かつその区間の長さが所定時間以上(例えば90秒以上)である区間を楽曲区間と判定する(これについては、後述の図6のフローチャートを参照して説明する)からである。出願人は、実験の結果、トークなどの非楽曲部では、楽曲部と比較して変化点がかなり多く発生することを見出した。ゆえに、上記のように非楽曲点と次の非楽曲点の間の区間を楽曲区間とみなしても、実用上は問題ない。
また、上記において、パワーの平均値とLR差分の平均値の両方が閾値を越えない場合を非楽曲点とし、音声パワーの平均値もしくはLR差分の平均値が閾値を越えた場合に楽曲点としているのは、(1)音声パワーの平均値は、非楽曲部分よりも楽曲部分の方が高くなる傾向にあること、(2)音声パワーの平均値は、電界強度が低下しても音声パワーの平均値はさほど低下しない、ことによるものである。図5を参照してこれについて説明する。
図5(a)は電界強度が高い場合のLR差分信号の模式図である。電界強度が高い場合、楽曲部分のLR差分値は大きくなっており(同図の破線で示す閾値を超えている)、トーク部分(非楽曲部分)のLR差分値は小さくなっている(閾値を超えていない)ので、楽曲部分を正しく抽出することができる。
図5(b)は電界強度が低い場合のLR差分信号の模式図である。電界強度が低い場合、楽曲部と非楽曲部のLR差分値の差が小さくなっている。この例では、1曲目と3曲目の楽曲部分のLR差分値が閾値を超えていないため、この部分は非楽曲部分であると誤って判断してしまう。
図5(c)は電界強度が低い場合のLR差分信号とパワー値を重ねて示した模式図である。1曲目と3曲目の楽曲部分のLR差分値が低くなっているのに対し、1曲目と3曲目の楽曲部分のパワー値に関してはさほど低下していない。このように、電界強度が低下してもパワー値に関しては影響を受けにくいことがわかる。また、トーク部分に関してはパワー値は低いことがわかる。ただし、2曲目の楽曲部分に関してはパワー値はあまり大きくないため、仮にパワー値のみで判定すると誤判定してしまう場合もある。以上から、電界強度が低い場合は、LR差分信号とパワー値の両方を利用することにより、楽曲部分の抽出精度を向上させることができる。
図6に、第1実施例の録音再生装置100によるプレイリスト(楽曲位置情報)生成フローチャートを示す。プレイリストとは、録音ファイルの何処に楽曲が記録されているかを示すリストである。
まず録音ファイル等から非楽曲点TA(i)を読み出す(S21)。そして、隣り合うTA(i)の間隔(例えば、TA(1)−TA(0))を計算する(S22)。もしTM秒以上(例えば90秒以上)であれば、TA(0)は楽曲の始点、TA(1)は楽曲の終点として記録する(S23)。TM秒未満であれば、(iに1を加算して)再びS22に戻り、TA(2)−TA(1)を計算し、TM秒と比較する。これを楽曲の候補点データがなくなるまで(S26でyesと判定されるまで)繰返す。
図7に、第1実施例の録音再生装置100による再生フローチャートを示す。プレイリストから録音ファイルに記録された1曲目の楽曲の起点の時刻を読み出し(S31)、そこから再生を開始する(S32)。1曲目の楽曲の終点まで再生すると(S33でyes)、再生を停止する。2曲目の楽曲の起点の時刻を読み出し、再生を開始。これをプレイリストに楽曲の起点/終点データがなくなる(S34でyesになる)まで繰り返す。
<第2実施例>
最初に、本発明の実施の一形態である、第2実施例の録音再生装置100aについて、図に基づいて詳説する。なお、第2実施例は、出願人が見出した上述の特徴(トークなどの非楽曲部では、楽曲部と比較して変化点が多く発生する)を利用して、楽曲部分又は非楽曲部分の判定を行う具体例である。
最初に、本発明の実施の一形態である、第2実施例の録音再生装置100aについて、図に基づいて詳説する。なお、第2実施例は、出願人が見出した上述の特徴(トークなどの非楽曲部では、楽曲部と比較して変化点が多く発生する)を利用して、楽曲部分又は非楽曲部分の判定を行う具体例である。
図8に、本発明の一実施形態である、第2実施例の録音再生装置100aのハードウエア構成図を示す。なお、図8は、第1実施例の録音再生装置100を示した図1に相当するものであり、本図において図1と同様の構成については同じ符号を付し、その詳細な説明を省略する。
本実施例の録音再生装置100aは、FMチューナ1、AMチューナ1a、A/D部2、DSP3a、D/A部4、CPU5、メモリ6、記録媒体7を備える。
AMチューナ1aは、AM放送波を復調してアナログ音声信号を出力する。A/D部2aは、FMチューナ1及びAMチューナ1aから出力されるアナログ音声信号を、デジタル音声信号に変換する。DSP3aは、楽曲抽出部と音声Codec部とを含むが、楽曲抽出部の構成及び動作が、第1実施例の録音再生装置100のDSP3と異なる(詳細は後述)。D/A部4は、デジタル音声信号をアナログ音声信号に変換して出力する。CPU5、メモリ6及び記録媒体7は、第1実施例の録音再生装置100と同様である。
なお、図8では、AMチューナ1aが、復調により得たモノラル信号を、M1及びM2の2チャンネルの信号として出力する構成を例示しているが、1チャンネルのモノラル信号を出力する構成でもよい。同様に、A/D部2aやD/A部4が、1チャンネルのモノラル信号を出力する構成であってもよい。また、処理対象の放送波に応じた別々のチューナ(FMチューナ1及びAMチューナ1a)を備え、他の部分(特に、A/D部2a及びD/A部4)を共通とする構成について例示したが、どの構成を共通にしてどの構成を別々にするかは任意に変更可能である。また、FMチューナ1及びAMチューナ1aは、同時に起動可能な構成であってもよいし、いずれか一方が起動可能な構成であってもよい。
次に、第2実施例の録音再生装置100aのDSP3aに含まれる楽曲抽出部について、図に基づいて詳説する。
図9に、第2実施例の録音再生装置100aの要部の機能ブロック図を示す。図9は、DSP3aの楽曲抽出部の動作に関連する部分を示すものである。
本実施例の録音再生装置100aのDSP3aに含まれる楽曲抽出部は、音声パワー算出部301、第2変化量算出部302、第2変化点検出部303、第2変化点頻度算出部304、音声パワー平均算出部305、差分信号算出部306、差分信号平均算出部307、楽曲区間判定部308を備える。
音声パワー算出部301は、第1実施例の録音再生装置100と同様に、音声信号から音声パワーを算出する(図3参照)。例えば、音声信号の1つのチャンネルの信号値を二乗することで、音声パワーを算出することができる。なお、音声パワー算出部301は、音声信号の複数のチャンネルの信号値を用いて音声パワーを算出してもよい。例えば、音声信号の複数のチャンネルを、平均化や公知のモノラル化処理などによって1つのチャンネルにまとめた上で、音声パワーを算出してもよい。また、第1実施例の録音再生装置100が、同様の方法で音声パワーを算出してもよい。
第2変化量算出部302は、第1実施例の録音再生装置100と同様に、音声パワー算出部301で算出される音声パワーの第2変化量(本実施例では、第1実施例の変化量と区別するべく、第2変化量と表現する。以下同じ。)を算出する(図3参照)。例えば、後述する第1時間中の音声パワーの変化の大きさ(例えば、正の値)として、第2変化量を算出することができる。なお、第1実施例の録音再生装置100が、同様の方法で変化量を算出してもよいが、算出を行う時間は第1時間に限られない。
第2変化点検出部303は、第1実施例の録音再生装置100と同様に、第2変化量算出部302で算出される第2変化量が、第2所定値(本実施例では、第1実施例の所定値と区別するべく、第2所定値と表現する。以下同じ。)以上となる第2変化点(本実施例では、第1実施例の変化点と区別するべく、第2変化点と表現する。以下同じ。)を検出する(図3参照)。
第2変化点頻度算出部304は、第2変化点検出部303で検出される第2変化点の頻度を算出する。例えば、後述する第2時間中に含まれる第2変化点の数を計数し、当該数を第2変化点の頻度として算出することができる。
音声パワー平均算出部305は、第1実施例の録音再生装置100と同様に、音声パワー算出部301で算出される音声パワーを、所定の時間で平均化することで、音声パワーの平均値を算出する(図3参照)。例えば、後述する第1時間中の音声パワーを平均化することで、音声パワーの平均値を算出する。なお、第1実施例の録音再生装置100が、同様の方法で音声パワーの平均値を算出してもよいが、算出を行う時間は第1時間に限られない。
差分信号算出部306は、第1実施例の録音再生装置100と同様に、音声信号の複数のチャンネルの信号値の差分(例えば、正の値)を求めることで、差分信号を算出する(図4参照)。
差分信号平均算出部307は、第1実施例の録音再生装置100と同様に、差分信号算出部306で算出される差分信号を、所定の時間で平均化することで、差分信号の平均値を算出する(図3参照)。例えば、後述する第1時間中の差分信号を平均化することで、差分信号の平均値を算出する。なお、第1実施例の録音再生装置100が、同様の方法で差分信号の平均値を算出してもよいが、算出を行う時間は第1時間に限られない。
楽曲区間判定部308は、第1実施例の録音再生装置100と同様に、音声パワーの大きさ(上述のパワー値)と差分信号の大きさ(上述の差分値)とに基づいて、楽曲部分又は非楽曲部分の判定を行う。具体的に、楽曲区間判定部308は、音声パワー平均算出部305で算出される音声パワーの平均値が閾値以上になること(図3及び図5参照)と、差分信号平均算出部307で算出される差分信号の平均値が閾値以上になること(図4及び図5参照)と、の少なくとも一方を確認する場合、確認した時間の少なくとも一部を楽曲部分として判定する。反対に、楽曲区間判定部308は、音声パワー平均算出部305で算出される音声パワーの平均値が閾値未満になること(図3及び図5参照)と、差分信号平均算出部307で算出される差分信号の平均値が閾値未満になること(図4及び図5参照)と、の両方を確認する場合、確認した時間の少なくとも一部を非楽曲部分として判定する。
さらに、本実施例の録音再生装置100aでは、楽曲区間判定部308が、音声パワーの変化量が所定の大きさ以上になる頻度に基づいて、楽曲部分又は非楽曲部分の判定を行う。この判定方法の概略について、図に基づいて詳説する。
図10に、音声信号の波形、第2変化点の頻度のイメージを示す。上述のように、また、図10に示すように、音声パワーの変化量が所定の大きさ以上になる(第2変化点検出部303で第2変化点として検出される)頻度は、非楽曲部分(例えば、トーク部分)で大きくなり(密になり)、楽曲部分で小さくなる(疎になる)。
そのため、楽曲区間判定部308は、第2変化点頻度算出部304で算出される第2変化点の頻度が閾値以下になることを確認する場合に、確認した時間の少なくとも一部を楽曲部分として判定する。また、楽曲区間判定部308は、第2変化点頻度算出部304で算出される第2変化点の頻度が閾値よりも大きくなることを確認する場合に、確認した時間の少なくとも一部を非楽曲部分として判定する。
即ち、楽曲区間判定部308は、音声パワーの平均値が閾値以上になることと、差分信号の平均値が閾値以上になることと、第2変化点の頻度が閾値以下になることと、の少なくとも一つを確認する場合に、確認した時間の少なくとも一部を楽曲部分として判定する。反対に、楽曲区間判定部308は、音声パワーの平均値が閾値未満になることと、差分信号の平均値が閾値未満になることと、第2変化点の頻度が閾値より大きくなること、の全てを確認する場合に、確認した時間の少なくとも一部を非楽曲部分として判定する。
以上のように構成すると、音声パワーの状態に基づいて、音声信号の楽曲部分又は非楽曲部分が判定される。そのため、受信電界強度が低い場合や、受信する放送がモノラルデータのみを伝送するものであったとしても、精度良く音声信号の楽曲部分又は非楽曲部分を判定することが可能になる。これは、本実施例の録音再生装置100aのみに限られず、第1実施例の録音再生装置100でも同様である。
なお、本実施例の録音再生装置100aでは、楽曲区間判定部308が、音声パワーの大きさ、差分信号の大きさ、音声パワーの変化量が大きくなる頻度、の3つに基づいて、音声信号の楽曲部分又は非楽曲部分を判定することとしたが、音声パワーの大きさ及び差分信号の大きさの少なくとも一方に基づいた判定を行わなくてもよい。即ち、音声パワー平均算出部305や、差分信号算出部306及び差分信号平均算出部307の、少なくとも一方を、備えない構成としてもよい。また、第1実施例の録音再生装置100でも同様であり、差分信号の大きさに基づいた判定を行わなくてもよい。
ただし、種々の判定方法を用いて、音声信号の楽曲部分又は非楽曲部分の判定を行うと、第1実施例でも述べたように、精度良く判定を行うことが可能となるため、好ましい。また、上述のように、複数の判定方法のいずれか1つでも楽曲部分と判定する部分を、楽曲部分として判定すると、音声信号の楽曲部分をもれ無く判定することが可能になる。
次に、図8及び図9に示した第2実施例の録音再生装置100aの具体的な動作例について、図に基づいて詳説する。図11に、第2実施例の録音再生装置100aによる録音処理のフローチャートを示す。また、図11は、第1実施例の録音再生装置100による録音処理のフローチャートを示した図2に相当するものである。
図11に示すように、本実施例の録音再生装置100aは、最初にFMチューナ1及びAMチューナ1aの少なくとも一方を起動し、音声信号の取得を開始する(S41)。また、DSP3a内のエンコーダを起動して、記録媒体7中の録音ファイルに記録する音声信号のエンコードを開始する(S42)。また、判定を行うタイミング(後述の第1時間及び第2時間)を識別するための変数nを、初期化(例えば、1に設定)する。当該変数nは、例えばCPU5やDSP3aなどによって管理される。
次に、A/D部2aから出力される音声信号を、オーディオFIFO(First In First Out)61に順次読み込む(S43)。そして、オーディオFIFO61から順次読み出される音声信号に対して、DSP3aの楽曲抽出部が、上述の判定を行う。なお、オーディオFIFO61は、メモリ6の一部として解釈され得る。
まず、音声パワー算出部301が、上述のように音声パワーを算出する(S44)。また、差分信号算出部306が、上述のように差分信号を算出する(S45)。音声パワーの算出及び差分信号の算出は、第1時間T1(n)の音声信号の処理が終了するまで(S46でyesになるまで)行われる。
第1時間T1(n)は、音声信号を所定の時間で分割して処理(判定)するための単位時間である。1つの第1時間は、例えば、数十ms(ミリ秒)の時間である。
第1時間T1(n)の音声信号の音声パワー及び差分信号が算出されると、音声パワー平均算出部305が、上述のように第1時間T1(n)の音声パワーの平均値を算出する(S47)。また、差分信号平均算出部307が、上述のように第1時間T1(n)の差分信号の平均値を算出する(S48)。さらに、第2変化量算出部302が、上述のように第1時間T1(n)の音声パワーの第2変化量c(n)を算出する(S49)。
第2変化量c(n)が閾値以上であれば(S50のyes)、第2変化点が存在することを示すデータ「1」を、変化点FIFO62に記録する(S51)。一方、第2変化量c(n)が閾値未満であれば(S50のno)、第2変化点が存在しないことを示すデータ「0」を、変化点FIFO62に記録する(S52)。なお、変化点FIFO62は、メモリ6の一部として解釈され得る。
また、第2変化点頻度算出部304は、変化点FIFO62に記録されているデータを参照することで、第2変化点の頻度を算出する(S53)。このとき、変化点FIFO62には、少なくとも第2時間T2(n)の音楽信号から検出された第2変化点のデータが記録されている。第2変化点頻度算出部304は、変化点FIFO62から読み出した第2時間T2(n)のデータ中の、第2変化点が存在することを示すデータ「1」の数を計数することで、第2変化点の頻度を算出する(S53)。
第2時間T2(n)も、第1時間T1(n)と同様に、音声信号を所定の時間で分割して処理(判定)するための単位時間である。1つの第2時間T2(n)は、例えば、数s(秒)の時間である。なお、第2時間T2(n)は、第2変化点の頻度を算出する時間であるため、少なくとも第1時間T1(n)よりは長い時間であると、好ましい。
第1時間T1(n)及び第2時間T2(n)について、図に基づいて詳説する。図12に、第1時間、第2時間のイメージを示す。図12に示すように、第2時間T2(n)は、k+1個の第1時間T1(n−k)〜T1(n)を含む(kは自然数)。また、S50〜S52において、変化点FIFO62にデータを順次記録(更新)するため、第2時間T2(n)の次の第2時間T2(n+1)は、第1時間が1つ分だけずれたものとなる。即ち、第2時間T2(n+1)は、k+1個の第1時間T1(n−k+1)〜T1(n+1)を含むものとなる。
また、上述のように、楽曲区間判定部308は、音声パワーの大きさ、差分信号の大きさ、音声パワーの変化量が大きくなる頻度、の3つに基づいて、音声信号の楽曲部分又は非楽曲部分を判定する(S54)。なお、楽曲区間判定部308が、第1実施例の録音再生装置100と同様に、判定結果として非楽曲点TA(i)を出力してもよい。
楽曲区間判定部308が、音声パワーの大きさ及び差分信号の大きさに基づいて判定する音声信号の時間は、第1時間T1(n)の少なくとも一部(例えば、第1時間T1(n)の略中央の時刻)となる。一方、音声パワーの変化量が大きくなる頻度に基づいて判定される時間は、第2時間T2(n)の少なくとも一部(例えば、第2時間T2(n)の略中央の時刻)となる。
このように、本実施例の録音再生装置100aでは、楽曲区間判定部308が判定を行う音声信号の時間が、判定方法毎にずれる場合がある。そのため、例えば、順次得られる判定結果(例えば、音声パワーの大きさ及び差分信号の大きさに基づいたそれぞれの判定結果)を判定結果保持部63に保持し、上記の3つの方法で求めた判定結果が揃ってから、最終的な判定結果を出力してもよい。なお、判定結果保持部63は、メモリ6の一部として解釈され得る。
S54で音声信号の判定が行われると、例えばCPU5やDSP3aなどにより、変数nに1が加算される(S55)。そして、録音停止指示があるまで(S56でyesとなるまで)、上述の判定(S43〜S55)を繰り返す。
録音停止指示があった場合(S56でyes)、エンコードを停止し、判定結果(例えば、非楽曲点TA(i))を保存して、録音ファイルを閉じる(S57)。判定結果は、録音ファイル内に圧縮音声データと区別して保存してもよいし、録音ファイルとは別ファイルとして保存してもよい。
このように構成すると、音声パワーの大きさ、差分信号の大きさ、音声パワーの変化量が大きくなる頻度のそれぞれに基づく判定方法を、円滑に組み合わせて行うことが可能になる。
なお、判定の開始時や終了時において、変化点FIFO62に十分なデータ(判定に必要な第2時間T2(n)のデータ)が記録されていない場合が生じうる。このような場合、例えば、他の判定方法(音声パワーの大きさや、差分信号の大きさに基づく判定)による判定結果を採用してもよいし、変化点FIFO62に記録されている第2時間T2(n)よりも短い時間のデータを参照して判定を行ってもよいし、足りないデータをダミーのデータで補って判定してもよい。
また、判定精度の高い判定方法による判定結果を、他の判定方法による判定結果よりも優先してもよい。この場合、例えば、それぞれの判定方法による判定結果に優先度を付与し(重み付けし)、それぞれの判定方法による判定結果を合わせることで、最終的な判定を行ってもよい。
また、楽曲区間判定部308が、判定結果として非楽曲点TA(i)を出力する場合、第1実施例の録音再生装置100によるプレイリストの生成方法(図6参照)や再生方法(図7参照)を、本実施例の録音再生装置100aにも適用することができる。
<第2実施例の別例>
第2実施例の録音再生装置100aの、楽曲区間判定部308による音声パワーの大きさ及び差分信号の大きさに基づいたそれぞれの判定において、第1実施例の録音再生装置100と同様の判定方法を採用してもよい。この場合の構成について、図に基づいて詳説する。
第2実施例の録音再生装置100aの、楽曲区間判定部308による音声パワーの大きさ及び差分信号の大きさに基づいたそれぞれの判定において、第1実施例の録音再生装置100と同様の判定方法を採用してもよい。この場合の構成について、図に基づいて詳説する。
図13に、第2実施例(別例)の録音再生装置100aの要部の機能ブロック図を示す。なお、図13は、通常の第2実施例の録音再生装置100aを示した図9に相当するものであり、本図において図9と同様の構成については同じ符号を付し、その詳細な説明を省略する。
本例の録音再生装置100aのDSP3aに含まれる楽曲抽出部は、音声パワー算出部301、第2変化量算出部302、第2変化点検出部303、第2変化点頻度算出部304、音声パワー平均算出部305b、差分信号算出部306、差分信号平均算出部307b、楽曲区間判定部308b、第1変化量算出部309b、第1変化点検出部310bを備える。
第1変化量算出部309bは、第1実施例の録音再生装置100と同様の変化量(以下、第1変化量とする)を算出する(図3参照)。また、第1変化点検出部310bは、第1実施例の録音再生装置100と同様の変化点(以下、第1変化点とする)を算出する(図3参照)。
そして、音声パワー平均算出部305bは、第1実施例の録音再生装置100と同様に、第1変化点検出部310bで検出された第1変化点の前後一定時間における音声パワーの平均値を算出する(図3参照)。
また、差分信号平均算出部307bは、第1実施例の録音再生装置100と同様に、第1変化点検出部310bで検出された第1変化点の前後一定時間における差分信号の平均値を算出する(図4参照)。
楽曲区間判定部308bは、第1実施例の録音再生装置100と同様に、音声パワーの大きさ及び差分信号の大きさに基づいて、音声信号の第1変化点の時刻の判定を行う。また、楽曲区間判定部308bは、通常の第2実施例の録音再生装置100aと同様に、音声パワーの第2変化量が大きくなる頻度(第2時間T2(n)中の第2変化点の数)に基づいて、第2時間T2(n)の少なくとも一部の時間(例えば、第2時間T2(n)の略中央の時刻)の判定を行う。
このように構成しても、音声パワーの大きさ、差分信号の大きさ、音声パワーの変化量が大きくなる頻度のそれぞれに基づく判定方法を、組み合わせて行うことが可能になる。
なお、第2変化点検出部303が第2変化点を検出するために用いる第2所定値を、第1変化点検出部310bが第1変化点を検出するために用いる所定値(図3参照。以下、第1所定値とする。)よりも、小さく設定してもよい。
このように構成すると、それぞれの判定方法に適した第1変化点及び第2変化点を検出することが可能となるため、それぞれの判定方法による判定精度を向上させることが可能となる。具体的に例えば、音声パワーの大きさや、差分信号の大きさに基づく判定方法では、楽曲部分と非楽曲部分との境界であると確実性高く判定できる程度まで、第1所定値を大きくすると、判定精度を向上させることが可能となる。また例えば、音声パワーの変化量が大きくなる頻度に基づく判定方法では、疎及び密の状態が明確に区別され得る(それぞれの状態における第2変化点の数の差が大きくなる)程度まで、第2所定値を小さくすると、判定精度を向上させることが可能となる。
また、本例において、第2変化量算出部302及び第1変化量算出部309bを共通化してもよい。さらに、第2変化点検出部303及び第1変化点検出部310bを共通化してもよい。このように構成すると、DSP3aの処理量を低減することが可能になる。
<変形例>
本発明の実施の一形態である録音再生装置100,100aについて、DSP3,3aなどの一部または全部の動作を、マイコンなどの制御装置が行うこととしても構わない。さらに、このような制御装置によって実現される機能の全部または一部をプログラムとして記述し、該プログラムをプログラム実行装置(例えばコンピュータ)上で実行することによって、その機能の全部または一部を実現するようにしても構わない。
本発明の実施の一形態である録音再生装置100,100aについて、DSP3,3aなどの一部または全部の動作を、マイコンなどの制御装置が行うこととしても構わない。さらに、このような制御装置によって実現される機能の全部または一部をプログラムとして記述し、該プログラムをプログラム実行装置(例えばコンピュータ)上で実行することによって、その機能の全部または一部を実現するようにしても構わない。
また、上述した場合に限らず、図1、図8、図9及び図13に示す録音再生装置100,100aは、ハードウエア、或いは、ハードウエアとソフトウエアの組み合わせによって実現可能である。また、ソフトウエアを用いて録音再生装置100,100aの一部を構成する場合、ソフトウエアによって実現される部位についてのブロックは、その部位の機能ブロックを表すこととする。
上記各実施例の説明は、本発明を説明するためのものであって、特許請求の範囲に記載の発明を限定し、或は範囲を減縮する様に解すべきではない。又、本発明の各部構成は上記実施例に限らず、特許請求の範囲に記載の技術的範囲内で種々の変形が可能であることは勿論である。
1 FMチューナ
1a AMチューナ
2,2a A/D部
3,3a DSP
301 音声パワー算出部
302 第2変化量算出部
303 第2変化点検出部
304 第2変化点頻度算出部
305 音声パワー平均算出部
306 差分信号算出部
307,307b 差分信号平均算出部
308,308b 楽曲区間判定部
309b 第1変化量算出部
310b 第1変化点検出部
4 D/A部
5 CPU
6 メモリ
61 オーディオFIFO
62 変化点FIFO
63 判定結果保持部
7 記録媒体
100,100a,100b 録音再生装置
1a AMチューナ
2,2a A/D部
3,3a DSP
301 音声パワー算出部
302 第2変化量算出部
303 第2変化点検出部
304 第2変化点頻度算出部
305 音声パワー平均算出部
306 差分信号算出部
307,307b 差分信号平均算出部
308,308b 楽曲区間判定部
309b 第1変化量算出部
310b 第1変化点検出部
4 D/A部
5 CPU
6 メモリ
61 オーディオFIFO
62 変化点FIFO
63 判定結果保持部
7 記録媒体
100,100a,100b 録音再生装置
Claims (11)
- 音声信号から音声パワーを算出する音声パワー算出部と、
音声パワーの状態に基づいて、楽曲部分又は非楽曲部分の判定を行う判定部と、を備えることを特徴とする楽曲抽出装置。 - 音声信号の複数のチャンネル間の差分信号を算出する差分信号算出部をさらに備え、
前記判定部が、音声パワーと差分信号に基づいて、楽曲部分又は非楽曲部分の判定を行うことを特徴とする請求項1に記載の楽曲抽出装置。 - 前記判定部は、
差分信号及び音声パワーのいずれかの大きさが、それぞれの閾値以上である場合は楽曲と判定し、
差分信号及び音声パワーの両方の大きさが、それぞれの閾値未満である場合は、非楽曲と判定することを特徴とする請求項2に記載の楽曲抽出装置。 - 音声パワーの変化量を算出する第1変化量算出部をさらに備え、
前記判定部は、前記第1変化量算出部が算出する変化量が第1所定値以上となる第1変化点の前後の音声パワーと差分信号に基づいて、判定を行うことを特徴とする請求項2又は3に記載の楽曲抽出装置。 - 前記判定部は、非楽曲と判定した第1変化点間が所定の時間以上となる音声信号の区間を、楽曲区間と判定する請求項4に記載の楽曲抽出装置。
- 音声パワーの変化量を算出する第2変化量算出部をさらに備え、
前記判定部は、前記第2変化量算出部が算出する変化量が第2所定値以上になる頻度に基づいて、判定を行うことを特徴とする請求項1〜5のいずれかに記載の楽曲抽出装置。 - 音声パワーの変化量を算出する第2変化量算出部と、
音声信号の複数のチャンネル間の差分信号を算出する差分信号算出部をさらに備え、
前記判定部は、
第1時間中の音声パワーの大きさと、
第1時間中の差分信号の大きさと、
第2時間中で、前記第2変化量算出部が算出する変化量が第2所定値以上になる頻度と、に基づいて、判定を行うことを特徴とする請求項1〜3のいずれかに記載の楽曲抽出装置。 - 前記判定部は、
第1時間の差分信号及び音声パワーのいずれかの大きさが、それぞれの閾値以上である場合は、当該第1時間の少なくとも一部を楽曲と判定し、
第1時間の差分信号及び音声パワーの両方の大きさが、それぞれの閾値未満である場合は、当該第1時間の少なくとも一部を非楽曲と判定することを特徴とする請求項7に記載の楽曲抽出装置。 - 前記判定部は、
前記第2変化量算出部が算出する変化量が、第2所定値以上となる第2変化点を計数し、
第2時間中の第2変化点の数が閾値以下であるとき、当該第2時間の少なくとも一部を楽曲と判定し、
第2時間中の第2変化点の数が閾値よりも大きいとき、当該第2時間の少なくとも一部を非楽曲と判定することを特徴とする請求項6〜8のいずれかに記載の楽曲抽出装置。 - 前記判定部は、第2時間中の第2変化点を計数することで、当該第2時間の略中央の時刻の判定を行うことを特徴とする請求項9に記載の楽曲抽出装置。
- 請求項1〜10のいずれかに記載の楽曲抽出装置と、
前記楽曲抽出装置が楽曲であると判定した区間の音声信号を録音する録音部を備えた、楽曲録音装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010195431A JP2011090290A (ja) | 2009-09-28 | 2010-09-01 | 楽曲抽出装置および楽曲録音装置 |
CN2010102943740A CN102034471A (zh) | 2009-09-28 | 2010-09-21 | 乐曲提取装置及乐曲录音装置 |
US12/892,311 US20110235811A1 (en) | 2009-09-28 | 2010-09-28 | Music track extraction device and music track recording device |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009223066 | 2009-09-28 | ||
JP2010195431A JP2011090290A (ja) | 2009-09-28 | 2010-09-01 | 楽曲抽出装置および楽曲録音装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011090290A true JP2011090290A (ja) | 2011-05-06 |
Family
ID=44108556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010195431A Pending JP2011090290A (ja) | 2009-09-28 | 2010-09-01 | 楽曲抽出装置および楽曲録音装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20110235811A1 (ja) |
JP (1) | JP2011090290A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020516004A (ja) * | 2017-04-07 | 2020-05-28 | ネイバー コーポレーションNAVER Corporation | 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778950A (zh) * | 2012-10-22 | 2014-05-07 | 爱国者电子科技有限公司 | 录音电路关闭状态下的录音方法 |
US9824719B2 (en) * | 2015-09-30 | 2017-11-21 | Apple Inc. | Automatic music recording and authoring tool |
US9852721B2 (en) | 2015-09-30 | 2017-12-26 | Apple Inc. | Musical analysis platform |
US9804818B2 (en) | 2015-09-30 | 2017-10-31 | Apple Inc. | Musical analysis platform |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007183410A (ja) * | 2006-01-06 | 2007-07-19 | Nec Electronics Corp | 情報再生装置および方法 |
JP2008241850A (ja) * | 2007-03-26 | 2008-10-09 | Sanyo Electric Co Ltd | 録音または再生装置 |
US7985915B2 (en) * | 2007-08-13 | 2011-07-26 | Sanyo Electric Co., Ltd. | Musical piece matching judging device, musical piece recording device, musical piece matching judging method, musical piece recording method, musical piece matching judging program, and musical piece recording program |
-
2010
- 2010-09-01 JP JP2010195431A patent/JP2011090290A/ja active Pending
- 2010-09-28 US US12/892,311 patent/US20110235811A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020516004A (ja) * | 2017-04-07 | 2020-05-28 | ネイバー コーポレーションNAVER Corporation | 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム |
JP6998449B2 (ja) | 2017-04-07 | 2022-01-18 | ネイバー コーポレーション | 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20110235811A1 (en) | 2011-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8378198B2 (en) | Method and apparatus for detecting pitch period of input signal | |
JP2011090290A (ja) | 楽曲抽出装置および楽曲録音装置 | |
JP2009015119A (ja) | サビ位置検出装置 | |
JP2011237753A (ja) | 信号処理装置および方法、並びにプログラム | |
CN104937955A (zh) | 自动的扬声器极性检测 | |
JP6847237B2 (ja) | 楽曲解析装置および楽曲解析プログラム | |
JP4973492B2 (ja) | 再生装置、再生方法及び再生プログラム | |
JP2012002858A (ja) | タイムスケーリング方法、ピッチシフト方法、オーディオデータ処理装置およびプログラム | |
JP2008241850A (ja) | 録音または再生装置 | |
CN103531220B (zh) | 歌词校正方法及装置 | |
JP2010078984A (ja) | 楽曲抽出装置および楽曲記録装置 | |
US20070192089A1 (en) | Apparatus and method for reproducing audio data | |
JP2008047203A (ja) | 楽曲結合装置、楽曲結合方法、及び楽曲結合プログラム | |
JP5958378B2 (ja) | 音声信号処理装置、音声信号処理装置の制御方法およびプログラム | |
JP2005274991A (ja) | 楽曲データ格納装置および重複楽曲削除方法 | |
WO2009101808A1 (ja) | 楽曲記録装置 | |
JP2008298942A (ja) | デジタル音声処理装置及びデジタル音声処理プログラム | |
JP6168649B2 (ja) | コード検出装置及びプログラム | |
JP5751421B2 (ja) | 音声再生装置、音声再生方法、プログラム | |
CN112309419B (zh) | 多路音频的降噪、输出方法及其*** | |
JP4843120B1 (ja) | 楽曲再生方法、楽曲再生装置、再生処理システムおよびプログラム | |
Mulder | Average is the new loudest | |
KR101600355B1 (ko) | 오디오 동기화 방법 및 그 장치 | |
JP2008060725A (ja) | 音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体 | |
JP5494289B2 (ja) | 電子透かし情報の埋め込み装置および抽出装置 |