JP4099576B2 - 情報識別装置及び方法、並びにプログラム及び記録媒体 - Google Patents
情報識別装置及び方法、並びにプログラム及び記録媒体 Download PDFInfo
- Publication number
- JP4099576B2 JP4099576B2 JP2002286836A JP2002286836A JP4099576B2 JP 4099576 B2 JP4099576 B2 JP 4099576B2 JP 2002286836 A JP2002286836 A JP 2002286836A JP 2002286836 A JP2002286836 A JP 2002286836A JP 4099576 B2 JP4099576 B2 JP 4099576B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrogram
- power ratio
- component
- horizontal
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声、音楽、音響を含む音声信号、又はその音声信号を含む情報源から特徴量を抽出することにより、音声や音楽を識別して検出又は検索する情報識別装置及びその方法、並びにプログラム及び記録媒体に関する。
【0002】
【従来の技術】
放送システムやマルチメディアシステム等において、映像や音声の大量のコンテンツを効率よく管理、分類し、容易に検索可能とすることは重要であるが、これにはコンテンツ中のどの部分がどのような情報をもっているかを知ることが不可欠である。
【0003】
ここで、多くのマルチメディアコンテンツ、放送コンテンツは、映像信号と共に音声信号を含んでおり、これはコンテンツの分類やシーンの検出において、非常に有用な情報である。特に、情報に含まれる音声信号の音声部分と音楽部分とを識別して検出することで、効率的な情報検索や情報管理が行える。
【0004】
ところで、音声と音楽とを識別するための技術は、従来から数多く研究されており、零交差数、パワーの変動、スペクトルの変動などを特徴量として用いて識別する手法が提案されている。
【0005】
例えば、下記の非特許文献1では、零交差数を用いて音声・音楽の識別を行っている。
【0006】
また、下記の非特許文献2では、4Hz変調エネルギー、低エネルギーフレーム率、スペクトルロールオフ点、スペクトルセントロイド、スペクトル変動(Flux)、零交差率などを含めた13個の特徴量を用いて音声・音楽を識別し、それぞれの性能を比較評価している。
【0007】
さらに、下記の非特許文献3では、ケプストラム係数、デルタケプストラム係数、振幅、デルタ振幅、ピッチ、デルタピッチ、零交差数、デルタゼロ交差数を特徴量とし、それぞれの特徴量に混合正規分布モデルを用いることで、音声・音楽を識別している。
【0008】
この他、音楽のスペクトルピークが特定周波数に安定したまま時間方向に持続するという特徴に基づいた検出手法も研究されている。ここで、スペクトルピークの安定性は、スペクトログラムにおける時間方向の直線成分の有無としても表現される。スペクトログラムとは、縦軸を周波数、横軸を時間とし、スペクトルを時間方向に並べて画像情報として表現したものである。この特徴を用いた発明としては、例えば下記の非特許文献4及び特許文献1が挙げられる。
【0009】
ここで、特許文献1では、全帯域のエッジ強度を求め、これを閾値と比較することで音楽成分が存在するか否かを判定している。さらに、音楽成分を除去したスペクトルにくし型フィルタを適用し、音声の調波構造(ハーモニック構造)を検出することで音声成分も検出している。
【0010】
すなわち、先ず周波数帯域jにおける時間方向のエッジ強度ed(j)を以下の式(1)に従って求める。ここで、式(1)においてf(i,j)は、スペクトログラム上の画素(i,j)における輝度を示す。
【0011】
【数1】
【0012】
次に、全帯域のエッジ強度EDを以下の式(2)に従って求める。
【0013】
【数2】
【0014】
そして、このエッジ強度EDの値が閾値TH以上である場合には、検出範囲に音楽が存在すると判定している。
【0015】
【非特許文献1】
J.サウンダース(J.Saunders),「放送された音声/音楽のリアルタイム識別(Real-time discrimination of broadcast speech/music)」,(米国),電気電子技術者学会報、音響・音声・信号処理に関する国際会議(Proc.IEEE Int.Conf. on Acoustics, Speech, Signal Processing),1996年,p.993−996
【非特許文献2】
E.シェイアー(E.Scheire)及びM.スラニー(M.Slaney),「ロバストな多特性音声/音楽識別器の作製及び評価(Construction and evaluation of a robust multifeature speech/music discriminator)」,(米国),電気電子技術者学会報、音響・音声・信号処理に関する国際会議(Proc.IEEE Int.Conf. on Acoustics, Speech, Signal Processing),1997年,p.1331−1334
【非特許文献3】
M.J.ケア(M.J.Care)、E.S.パリス(E.S.Parris)及びH.ロイド・トーマス(H.Lloyd-Thomas),「音声,音楽を識別するための特徴比較(A comparison of features for speech,music discrimination)」,(米国),電気電子技術者学会報、音響・音声・信号処理に関する国際会議(Proc.IEEE Int.Conf. on Acoustics, Speech, Signal Processing),1999年3月,p.149−152
【非特許文献4】
南、阿久津、浜田及び外村,「音情報を用いた映像インデクシングとその応用」,電子情報通信学会論文誌D−II,1998年,第J81−D−II巻,第3号,p.529−537
【特許文献1】
特開平10−187182号公報
【0016】
【発明が解決しようとする課題】
しかしながら、上述した従来の技術において、零交差数、パワー変動、スペクトルセントロイドなどを特徴量として用いた識別手法は、どれも単独では識別に十分な特徴量ではなかった。
【0017】
また、スペクトルのピークの安定性に着目した識別手法は、打撃音などを除き効果的な特徴量であるものの、エッジ強度の時間方向及び周波数方向における単純な総和を識別に用いていたため、特定周波数における時間方向のピーク安定性を十分に表現できない場合があった。つまり、単に全時刻・全帯域での総和をとると、スペクトルピークが周波数方向に揺らいでいる場合やピークが断続している場合であっても、スペクトルが特定周波数に安定して持続している場合、すなわちスペクトログラムにおける時間方向の直線成分が存在する場合との区別がつかないことがあり、これにより識別誤りを起こす可能性があった。
【0018】
本発明は、このような従来の実情に鑑みて提案されたものであり、上述した従来技術の問題点を解決し、より高精度に音声・音楽を識別して検出する情報識別装置及びその方法、並びに情報識別処理をコンピュータに実行させるプログラム及びそのプログラムが記録されたコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0019】
【課題を解決するための手段】
上述した目的を達成するために、本発明に係る情報識別装置は、音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別装置において、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算手段と、上記スペクトログラムを画像と見なしたときのスペクトログラム画像を2次元スペクトルに変換して得られる2次元周波数領域における水平周波数が0近傍の成分としての水平直流成分を抽出する成分抽出手段と、上記成分抽出手段により抽出された上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算手段と、上記パワー比計算手段によって求められたパワー比に基づいて、音声か音楽かを識別する識別手段とを備える。
【0020】
ここで、本情報識別装置は、上記スペクトログラムの一部を複数の小ブロックに分割するスペクトログラム分割手段を備えていてもよく、この場合、上記水平直流成分抽出手段は、上記小ブロック毎に上記水平直流成分を抽出し、上記パワー比計算手段は、上記小ブロック毎に上記パワー比を求める。また、上記小ブロック毎に求められた上記パワー比に基づいて、全小ブロックにおける総合的なパワー比を求める総合パワー比計算手段を備えることもでき、この場合、上記識別手段は、上記総合パワー比計算手段によって求められた総合パワー比に基づいて、音声か音楽かを識別する。
【0021】
このような情報識別装置は、音楽のスペクトルピークが時間方向に安定して持続するという特徴に基づいて音声と音楽とを識別する際に、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求め、このスペクトログラムを画像と見なしたときの水平直流成分のパワーが当該スペクトログラムの全領域のパワーに占める割合を特徴量として用いる。
【0022】
また、上述した目的を達成するために、本発明に係る情報識別方法は、音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別方法において、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算工程と、上記スペクトログラムを画像と見なしたときのスペクトログラム画像を2次元スペクトルに変換して得られる2次元周波数領域における水平周波数が0近傍の成分としての水平直流成分を抽出する成分抽出工程と、上記成分抽出工程にて抽出された上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算工程と、上記パワー比計算工程にて求められたパワー比に基づいて、音声か音楽かを識別する識別工程とを有する。
【0023】
ここで、本情報識別方法は、上記スペクトログラムの一部を複数の小ブロックに分割するスペクトログラム分割工程を有していてもよく、この場合、上記成分抽出工程では、上記小ブロック毎に上記水平直流成分が抽出され、上記パワー比計算工程では、上記小ブロック毎に上記パワー比が求められる。また、上記小ブロック毎に求められた上記パワー比に基づいて、全小ブロックにおける総合的なパワー比を求める総合パワー比計算工程を有してもよく、この場合、上記識別工程では、上記総合パワー比計算工程にて求められた総合パワー比に基づいて、音声か音楽かが識別される。
【0024】
このような情報識別方法は、音楽のスペクトルピークが時間方向に安定して持続するという特徴に基づいて音声と音楽とを識別する際に、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求め、このスペクトログラムを画像と見なしたときの水平直流成分のパワーが当該スペクトログラムの全領域のパワーに占める割合を特徴量として用いる。
【0025】
また、本発明に係るプログラムは、上述した情報識別処理をコンピュータに実行させるものであり、本発明に係る記録媒体は、そのようなプログラムが記録されたコンピュータ読み取り可能なものである。
【0026】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、音楽のスペクトルピークが時間方向に安定して持続するという特徴に基づいて、音声信号の所定時間区間毎に音声と音楽とを識別して検出する情報識別装置に適用したものである。
【0027】
以下では、本実施の形態における情報識別装置の構成及び動作を説明する前に、この情報識別装置における音声・音楽の識別手法の原理について説明する。
【0028】
先ず音楽の典型的なスペクトログラムの様子を図1(A)に示す。この図は抽象化して示しているが、実際のスペクトログラムは、スペクトルの大きさによって画素の輝度が異なる濃淡画像として得られる。打楽器のみの場合などに例外はあるが、多くの一般的な音楽では、図1(A)に示すように、スペクトログラムに水平方向、すなわち時間方向の直線成分が観察される。これは、音楽ではある周波数帯域のスペクトルピークが時間方向に安定して持続するためである。
【0029】
一方、音声の典型的なスペクトログラムの様子を図1(B)に示す。音楽の場合と異なり、音声ではスペクトログラムに水平直線成分が見られず、周波数方向に揺らいで波打っているのが観察される。これは、音声には調波構造(ハーモニクス構造)が見られるものの、周波数ピークが時間とともに揺らいで変動することを示している。また、音声では有声音と無声音とが交互に繰り返されるために、曲線の明確に現れる部分とそうでない部分とが存在する。
【0030】
したがって、スペクトログラムを画像と見なし、そのスペクトログラム画像における水平直線成分の有無、或いはその程度によって音声と音楽とを識別することができる。
【0031】
ここで、スペクトログラムを画像と見なした場合の2次元周波数領域を図2に示す。スペクトログラム画像を2次元スペクトルに変換した2次元周波数領域において、スペクトログラム画像における水平直線成分は、図2に斜線で示す領域LU付近、すなわち水平周波数uが0近傍である水平直流成分に集中する。
【0032】
なお、垂直直流成分(v=0)付近にも水平直線のスペクトル成分は存在するが、垂直方向に殆ど変化がない成分、すなわち直線とはいえない成分も含まれるため、v=0付近は領域LUから除いている。
【0033】
この領域LU内のスペクトルパワーがスペクトログラムにおける水平直線成分であることから、全領域のスペクトルパワーに対する領域LU内のスペクトルパワーの比が、スペクトログラムの水平直線成分の程度、すなわちスペクトルの時間方向のピーク持続性を表すことになり、これを特徴量として音声と音楽とを識別することができる。
【0034】
実際には、図3に示すように、スペクトログラム全体のうち、音声・音楽の識別に大きく寄与する領域ARを複数の小ブロック(小領域)SBに分割し、小ブロックSB毎に上述したパワー比を求めてから、全ての小ブロックSBにおける総合的なパワー比を求めるのが好ましい。このように小ブロックSBに分割して処理を行うことで、水平直線成分の検出精度が向上する。また、スペクトログラム全体のうち、音声・音楽の識別に大きく寄与する領域ARのみを処理の対象とすることで、識別の精度も向上する。
【0035】
以上説明した識別手法により音声・音楽を識別する本実施の形態における情報識別装置の概略構成を図4に示す。図4に示すように、情報識別装置1は、音声信号入力部10と、入力された音声信号のスペクトログラムを求めるスペクトログラム計算部11と、スペクトログラムを複数の小ブロックSBに分割するスペクトログラム分割部12と、分割されたスペクトログラムの小ブロックSBにおける水平直線周波数成分を抽出する水平直線周波数成分抽出部13と、小ブロックSBの水平直線成分の全成分に対するパワー比を求める水平直線パワー比計算部14と、全小ブロックSBの水平直線パワー比から総合水平直線成分パワー比を求める総合パワー比計算部15と、求めた総合水平直線成分パワー比を特徴量とし、入力音声信号の所定時間区間毎に音声か音楽かを識別する音声・音楽識別部16と、その識別結果を出力する識別結果出力部17とを備える。
【0036】
この情報識別装置1において、音声信号入力部10は、音声信号を入力し、これをスペクトログラム計算部11に供給する。スペクトログラム計算部11は、入力音声信号を所定のブロック毎に周波数分析して周波数スペクトルを計算し、さらに所定の識別時間毎に入力音声信号のスペクトログラムを求めて、スペクトログラムをスペクトログラム分割部12に供給する。そして、スペクトログラム分割部12は、スペクトログラム計算部11から供給されたスペクトログラムを後述するように複数の小ブロックSBに分割し、小ブロックSB毎のスペクトログラムを水平直線周波数成分抽出部13に供給する。
【0037】
水平直線周波数成分抽出部13は、スペクトログラムの小ブロックSB毎に、その小ブロックSBの水平直線成分に相当する周波数成分を取り出して、水平直線パワー比計算部14に供給する。そして、水平直線パワー比計算部14は、全周波数帯域成分に対する水平直線成分のパワー比を計算し、総合パワー比計算部15は、全ての小ブロックSBでの水平直線成分パワー比を評価して、総合水平直線成分パワー比を計算する。
【0038】
音声・音楽識別部16は、求められた総合水平直線成分パワー比を特徴量として用いて、閾値判定法やその他の統計的判別手法により入力音声信号の識別区間が音声であるか音楽であるかを識別し、識別結果を識別結果出力部17に供給する。そして、識別結果出力部17は、音声・音楽識別部16から供給された識別結果を出力する。
【0039】
この情報識別装置1の処理を図5のフローチャートを用いてさらに詳細に説明する。先ずステップS1において、入力音声信号の所定の識別時間内におけるスペクトログラムを求める。ここで、識別時間とは、入力音声信号において音声と音楽とを識別するための識別ブロック長であり、数秒程度以上が望ましい。具体的には、音声信号x(t)を入力し、所定の時間毎(例えば64ミリ秒)にブロック化して周波数分析を行い、スペクトルを求める。
【0040】
なお、周波数分析ブロックは、隣接ブロックと重複していてもよい。例えば、20ミリ秒ずつ重複させることができる。また、周波数スケールは、対数スケールやメルスケールなどであってもよい。
【0041】
そして、i番目の周波数分析ブロックにおける周波数帯域kのスペクトルをf(i,k)とする。横軸にi(時間方向)、縦軸にk(周波数方向)をとり、求めたスペクトルf(i,k)を2次元画像の輝度として表現したものがスペクトログラムである。
【0042】
次にステップS2において、スペクトログラムを図3に示したようにM個の小ブロックSBに分割する。この際、識別に寄与すると思われる部分のみを小ブロック化すればよい。本実施の形態では、時間方向にはスペクトログラム全体の時間幅(すなわち識別時間長)に亘って小ブロック化されているが、周波数方向には識別に重要な帯域(例えば、50Hz〜4kHz)のみが小ブロック化されており、それ以外の帯域を用いない。このように、識別に寄与すると思われる部分のみを小ブロック化することで、識別精度が向上する。ここで、小ブロックSBの大きさは、周波数方向にも時間方向にも適当な分解能となるように、例えば32×32とする。
【0043】
なお、小ブロックSBは、隣接ブロックと重複していてもよい。本実施の形態では、小ブロックSBは半分ずつ重複しているとする。
【0044】
このように分割した小ブロックSB毎に、後段で水平直線成分のパワー比が求められる。
【0045】
続いてステップS3において、ある小ブロックSBmについて、2次元画像スペクトル上の領域LUの水平直線成分パワー比R(m)を求める。すなわち、上述のよう分割された小ブロックSB毎に、その小ブロックSB内のスペクトログラムを画像と見なし、2次元フーリエ変換や2次元フィルタなどによりスペクトログラム画像の2次元周波数における領域LUの成分を取り出し、全領域に対するパワー比を求める。
【0046】
ここで、領域LUの水平直線成分パワー比R(m)を求める方法には、2次元フーリエ変換によって該当領域のスペクトルから求める方法と、2次元デジタルフィルタを用いて領域LUの帯域成分のみを取り出す方法がある。フーリエ変換による方法では、先ず小ブロックSBmにおけるスペクトログラム画像を2次元フーリエ変換し、得られた2次元パワースペクトルをFm(u,v)とする。そして、領域LU内のスペクトルパワーの全帯域に対するパワー比を求める。すなわち、小ブロックSBmにおける水平直線成分パワー比R(m)は、以下の式(3)により求められる。
【0047】
【数3】
【0048】
一方、2次元フィルタを用いた場合は、小ブロックSBmにおけるスペクトログラム画像に、領域LUのみ通過させるような2次元帯域通過フィルタを適用する。そして、フィルタ処理された信号のパワーと、フィルタ処理しない原信号のパワーとの比を求めれば水平直線成分パワー比R(m)が得られる。
【0049】
ステップS4では、全ての小ブロックSBの処理が終了したか否かが判別される。全ての小ブロックSBについて水平直線成分パワー比R(m)を求めた場合(Yes)にはステップS5に進み、そうでない場合(No)には、次の小ブロックSBについて同様にして水平直線成分パワー比R(m)を求める。
【0050】
ステップS5では、全ての小ブロックSBについての総合水平直線パワー比Rを求める。例えば、以下の式(4)に示すように、各小ブロックSBの水平直線成分パワー比R(m)の平均を総合水平直線パワー比Rとすることができる。ここで、式(4)において、mは小ブロックの番号を示し、Mは小ブロック数を示す。
【0051】
【数4】
【0052】
なお、各小ブロックSBの水平直線成分パワー比R(m)の平均に限定されるものではなく、以下の式(5)に示すように、単純に各小ブロックSBの水平直線成分パワー比R(m)の総和を総合水平直線パワー比Rとしてもよい。
【0053】
【数5】
【0054】
そしてステップS6では、総合水平直線成分パワー比Rを特徴量として用いて、音声・音楽の識別を行う。一般に、典型的な音楽ではスペクトルピークが持続するため、この総合水平直線成分パワー比Rは大きな値となり、音声では小さい値になる。識別の手法は本発明では限定しないが、最も単純な方法としては、総合水平直線成分パワー比Rを閾値Thと比較し、総合水平直線成分パワー比Rが閾値Th以上であれば音楽と判別し、閾値Th未満であれば音声と判別することが挙げられる。
【0055】
また、音声、音楽それぞれに対して総合水平直線成分パワー比Rの分布を正規分布モデルによって表現し、事後確率の大きい方に判別するといったベイズ決定則などの統計的判別法を用いてもよい。また、この総合水平直線成分パワー比Rを他の特徴量と組み合わせて総合的に判別してもよい。
【0056】
以上説明したように、本実施の形態における情報識別装置1によれば、入力音声信号のスペクトログラムにおける水平直線成分に相当する周波数成分を取り出し、その全体に対するパワー比を特徴量として用いているため、スペクトルにおける特定帯域のピーク持続性を効果的に表現することができ、音声・音楽を高精度に識別することができる。
【0057】
また、スペクトログラムを予め小ブロックSBに分割し、小ブロックSB毎に上述の水平直線成分パワー比R(m)を求めてから、全小ブロックSBにおける総合水平直線成分パワー比Rを求めているため、ピーク持続性の分析性能が向上する。
【0058】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【0059】
例えば、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。
【0060】
【発明の効果】
以上詳細に説明したように本発明に係る情報識別装置は、音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別装置において、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算手段と、上記スペクトログラムを画像と見なしたときの水平直流成分を抽出する水平直流成分抽出手段と、上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算手段と、上記パワー比計算手段によって求められたパワー比に基づいて、音声か音楽かを識別する識別手段とを備える。
【0061】
ここで、本情報識別装置は、上記スペクトログラムの一部を複数の小ブロックに分割するスペクトログラム分割手段を備えていてもよく、この場合、上記水平直流成分抽出手段は、上記小ブロック毎に上記水平直流成分を抽出し、上記パワー比計算手段は、上記小ブロック毎に上記パワー比を求める。また、上記小ブロック毎に求められた上記パワー比に基づいて、全小ブロックにおける総合的なパワー比を求める総合パワー比計算手段を備えることもでき、この場合、上記識別手段は、上記総合パワー比計算手段によって求められた総合パワー比に基づいて、音声か音楽かを識別する。
【0062】
このような情報識別装置によれば、音楽のスペクトルピークが時間方向に安定して持続するという特徴に基づいて音声と音楽とを識別する際に、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求め、このスペクトログラムを画像と見なしたときの水平直流成分のパワーが当該スペクトログラムの全領域のパワーに占める割合を特徴量として用いることで、スペクトルにおける特定帯域のピーク持続性を効果的に表現することができ、音声・音楽を高精度に識別することができる。
【0063】
また、本発明に係る情報識別方法は、音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別方法において、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算工程と、上記スペクトログラムを画像と見なしたときの水平直流成分を抽出する水平直流成分抽出工程と、上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算工程と、上記パワー比計算工程にて求められたパワー比に基づいて、音声か音楽かを識別する識別工程とを有する。
【0064】
ここで、本情報識別方法は、上記スペクトログラムの一部を複数の小ブロックに分割するスペクトログラム分割工程を有していてもよく、この場合、上記成分抽出工程では、上記小ブロック毎に上記水平直流成分が抽出され、上記パワー比計算工程では、上記小ブロック毎に上記パワー比が求められる。また、上記小ブロック毎に求められた上記パワー比に基づいて、全小ブロックにおける総合的なパワー比を求める総合パワー比計算工程を有してもよく、この場合、上記識別工程では、上記総合パワー比計算工程にて求められた総合パワー比に基づいて、音声か音楽かが識別される。
【0065】
このような情報識別方法によれば、音楽のスペクトルピークが時間方向に安定して持続するという特徴に基づいて音声と音楽とを識別する際に、入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求め、このスペクトログラムを画像と見なしたときの水平直流成分のパワーが当該スペクトログラムの全領域のパワーに占める割合を特徴量として用いることで、スペクトルにおける特定帯域のピーク持続性を効果的に表現することができ、音声・音楽を高精度に識別することができる。
【0066】
また、本発明に係るプログラムは、上述した情報識別処理をコンピュータに実行させるものであり、本発明に係る記録媒体は、そのようなプログラムが記録されたコンピュータ読み取り可能なものである。
【0067】
このようなプログラム及び記録媒体によれば、上述した情報識別処理をソフトウェアにより実現することができる。
【図面の簡単な説明】
【図1】スペクトログラムの典型例を概念的に説明する図であり、同図(A)は、音楽のスペクトログラムを示し、同図(B)は、音声のスペクトログラムを示す。
【図2】スペクトログラム画像を2次元スペクトルに変換した2次元周波数領域を示す図である。
【図3】スペクトログラム画像を複数の小ブロックに分割した様子を示す図である。
【図4】本実施の形態における情報識別装置の概略構成を説明する図である。
【図5】同情報識別装置の動作を説明するフローチャートである。
【符号の説明】
1 情報識別装置、10 音声信号入力部、11 スペクトログラム計算部、12 スペクトログラム分割部、13 水平直線周波数成分抽出部、14 水平直線パワー比計算部、15 総合パワー比計算部、16 音声・音楽識別部、17 識別結果出力部
Claims (10)
- 音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別装置において、
入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算手段と、
上記スペクトログラムを画像と見なしたときのスペクトログラム画像を2次元スペクトルに変換して得られる2次元周波数領域における水平周波数が0近傍の成分としての水平直流成分を抽出する成分抽出手段と、
上記成分抽出手段により抽出された上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算手段と、
上記パワー比計算手段によって求められたパワー比に基づいて、音声か音楽かを識別する識別手段と
を備えることを特徴とする情報識別装置。 - 上記スペクトログラムを画像と見なしたときのスペクトログラム画像の一部を複数の小ブロックに分割するスペクトログラム分割手段を備え、
上記成分抽出手段は、上記小ブロック毎に上記水平直流成分を抽出し、
上記パワー比計算手段は、上記小ブロック毎に上記パワー比を求めること
を特徴とする請求項1記載の情報識別装置。 - 上記小ブロック毎に求められた上記パワー比に基づいて、全小ブロックにおける総合的なパワー比を求める総合パワー比計算手段を備え、
上記識別手段は、上記総合パワー比計算手段によって求められた総合パワー比に基づいて、音声か音楽かを識別すること
を特徴とする請求項2記載の情報識別装置。 - 上記成分抽出手段は、上記スペクトログラムを画像と見なしたときのスペクトログラム画像を2次元フーリエ変換して2次元スペクトルを求め、そのスペクトル領域において上記水平直流成分を抽出し、
上記パワー比計算手段は、上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めることで、上記パワー比を計算すること
を特徴とする請求項1記載の情報識別装置。 - 上記成分抽出手段は、上記スペクトログラムに対して、該スペクトログラムを画像と見なしたときのスペクトログラム画像を2次元スペクトルに変換して得られる2次元周波数領域における水平周波数が0近傍の成分を取り出す2次元フィルタを適用して上記水平直流成分を抽出し、
上記パワー比計算手段は、上記水平直流成分のパワーがフィルタ処理を施さない原信号の時間領域におけるパワーに占める割合を求めることで、上記パワー比を計算すること
を特徴とする請求項1記載の情報識別装置。 - 音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別方法において、
入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算工程と、
上記スペクトログラムを画像と見なしたときのスペクトログラム画像を2次元スペクトルに変換して得られる2次元周波数領域における水平周波数が0近傍の成分としての水平直流成分を抽出する成分抽出工程と、
上記成分抽出工程にて抽出された上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算工程と、
上記パワー比計算工程にて求められたパワー比に基づいて、音声か音楽かを識別する識別工程と
を有することを特徴とする情報識別方法。 - 上記スペクトログラムを画像と見なしたときのスペクトログラム画像の一部を複数の小ブロックに分割するスペクトログラム分割工程を有し、
上記成分抽出工程では、上記小ブロック毎に上記水平直流成分が抽出され、
上記パワー比計算工程では、上記小ブロック毎に上記パワー比が求められること
を特徴とする請求項6記載の情報識別方法。 - 上記小ブロック毎に求められた上記パワー比に基づいて、全小ブロックにおける総合的なパワー比を求める総合パワー比計算工程を有し、
上記識別工程では、上記総合パワー比計算工程にて求められた総合パワー比に基づいて、音声か音楽かが識別されること
を特徴とする請求項7記載の情報識別方法。 - 音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別処理をコンピュータに実行させるプログラムにおいて、
入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算工程と、
上記スペクトログラムを画像と見なしたときのスペクトログラム画像を2次元スペクトルに変換して得られる2次元周波数領域における水平周波数が0近傍の成分としての水平直流成分を抽出する成分抽出工程と、
上記成分抽出工程にて抽出された上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算工程と、
上記パワー比計算工程にて求められたパワー比に基づいて、音声か音楽かを識別する識別工程と
を有することを特徴とするプログラム。 - 音声信号を含む情報源から所定の時間区間毎に音声か音楽かを識別する情報識別処理をコンピュータに実行させるプログラムが記録されたコンピュータ読み取り可能な記録媒体において、
入力音声信号を所定のブロック単位で周波数分析し、所定の識別区間毎に、縦軸及び横軸がそれぞれ周波数及び時間であるスペクトログラムを求めるスペクトログラム計算工程と、
上記スペクトログラムを画像と見なしたときのスペクトログラム画像を2次元スペクトルに変換して得られる2次元周波数領域における水平周波数が0近傍の成分としての水平直流成分を抽出する成分抽出工程と、
上記成分抽出工程にて抽出された上記水平直流成分のパワーが上記スペクトログラムの全領域のパワーに占める割合を求めるパワー比計算工程と、
上記パワー比計算工程にて求められたパワー比に基づいて、音声か音楽かを識別する識別工程と
を有することを特徴とするプログラムが記録された記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002286836A JP4099576B2 (ja) | 2002-09-30 | 2002-09-30 | 情報識別装置及び方法、並びにプログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002286836A JP4099576B2 (ja) | 2002-09-30 | 2002-09-30 | 情報識別装置及び方法、並びにプログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004125944A JP2004125944A (ja) | 2004-04-22 |
JP4099576B2 true JP4099576B2 (ja) | 2008-06-11 |
Family
ID=32279805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002286836A Expired - Fee Related JP4099576B2 (ja) | 2002-09-30 | 2002-09-30 | 情報識別装置及び方法、並びにプログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4099576B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4552533B2 (ja) * | 2004-06-30 | 2010-09-29 | ソニー株式会社 | 音響信号処理装置及び音声度合算出方法 |
JP4690973B2 (ja) * | 2006-09-05 | 2011-06-01 | 日本電信電話株式会社 | 信号区間推定装置、方法、プログラム及びその記録媒体 |
CN101165779B (zh) * | 2006-10-20 | 2010-06-02 | 索尼株式会社 | 信息处理装置和方法、程序及记录介质 |
JP4239109B2 (ja) | 2006-10-20 | 2009-03-18 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP4985134B2 (ja) * | 2007-06-15 | 2012-07-25 | 富士通東芝モバイルコミュニケーションズ株式会社 | シーン分類装置 |
JP4327888B1 (ja) | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム |
JP4327886B1 (ja) | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
JP4364288B1 (ja) | 2008-07-03 | 2009-11-11 | 株式会社東芝 | 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム |
JP4439579B1 (ja) * | 2008-12-24 | 2010-03-24 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
JP2012083746A (ja) * | 2010-09-17 | 2012-04-26 | Kinki Univ | 音処理装置 |
JP6009447B2 (ja) * | 2011-08-26 | 2016-10-19 | Pioneer DJ株式会社 | 表示装置、表示方法、およびプログラム |
JP5573975B2 (ja) * | 2013-01-21 | 2014-08-20 | ヤマハ株式会社 | 楽曲処理装置、およびプログラム |
US9898086B2 (en) * | 2013-09-06 | 2018-02-20 | Immersion Corporation | Systems and methods for visual processing of spectrograms to generate haptic effects |
-
2002
- 2002-09-30 JP JP2002286836A patent/JP4099576B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004125944A (ja) | 2004-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101269296B1 (ko) | 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기 | |
JP4099576B2 (ja) | 情報識別装置及び方法、並びにプログラム及び記録媒体 | |
US9830896B2 (en) | Audio processing method and audio processing apparatus, and training method | |
US6784354B1 (en) | Generating a music snippet | |
EP2560167B1 (en) | Method and apparatus for performing song detection in audio signal | |
JP4348970B2 (ja) | 情報検出装置及び方法、並びにプログラム | |
JP4572218B2 (ja) | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 | |
EP1569200A1 (en) | Identification of the presence of speech in digital audio data | |
JPH0990974A (ja) | 信号処理方法 | |
EP2962299B1 (en) | Audio signal analysis | |
Tsipas et al. | Efficient audio-driven multimedia indexing through similarity-based speech/music discrimination | |
US20120232900A1 (en) | Speaker recognition from telephone calls | |
US7966179B2 (en) | Method and apparatus for detecting voice region | |
JP4201204B2 (ja) | オーディオ情報分類装置 | |
JP3607450B2 (ja) | オーディオ情報分類装置 | |
JPH10187182A (ja) | 映像分類方法および装置 | |
JP4392805B2 (ja) | オーディオ情報分類装置 | |
Uzkent et al. | Pitch-range based feature extraction for audio surveillance systems | |
Kumar et al. | Hilbert Spectrum based features for speech/music classification | |
Khonglah et al. | Low frequency region of vocal tract information for speech/music classification | |
Xie et al. | Feature extraction based on bandpass filtering for frog call classification | |
Scheme et al. | Practical considerations for real-time implementation of speech-based gender detection | |
Lin et al. | A new approach for classification of generic audio data | |
Sundaram et al. | Instantaneous nonlinear teager energy operator for robust voiced–unvoiced speech classification | |
Pikrakis et al. | An overview of speech/music discrimination techniques in the context of audio recordings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050831 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080303 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110328 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130328 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |