JP3999674B2 - Similar voice music search device, similar voice music search program, and recording medium for the program - Google Patents

Similar voice music search device, similar voice music search program, and recording medium for the program Download PDF

Info

Publication number
JP3999674B2
JP3999674B2 JP2003008083A JP2003008083A JP3999674B2 JP 3999674 B2 JP3999674 B2 JP 3999674B2 JP 2003008083 A JP2003008083 A JP 2003008083A JP 2003008083 A JP2003008083 A JP 2003008083A JP 3999674 B2 JP3999674 B2 JP 3999674B2
Authority
JP
Japan
Prior art keywords
music
short
time window
search
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003008083A
Other languages
Japanese (ja)
Other versions
JP2004219804A (en
Inventor
啓敏 須賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003008083A priority Critical patent/JP3999674B2/en
Publication of JP2004219804A publication Critical patent/JP2004219804A/en
Application granted granted Critical
Publication of JP3999674B2 publication Critical patent/JP3999674B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は,音声音楽信号を検索する技術に関し,特に非定常雑音を含む音声音楽信号でも精度よく,高速に検索可能な類似音声音楽検索装置,類似音声音楽検索プログラムおよびそのプログラムの記録媒体に関するものである。
【0002】
【従来の技術】
音声音楽信号を高速に検索する従来技術(従来手法1)としては,例えば,特許文献1「高速信号探索方法,装置及びその記録媒体」および非特許文献1に示されているような,検索対象中から検索キーと一致する音声音楽信号を検索する技術がある。
【0003】
また,雑音を含む音声音楽信号を検索する従来技術(従来手法2)として,検索対象の音声音楽信号を時間周波数領域で多数の小領域に分割し,各領域間で検索キーの音声音楽信号との類似度を計算する手法がある(例えば,特許文献2「情報送受信システム及び方法,情報処理装置及び方法」,非特許文献2参照)。この手法では,各領域の類似度を投票法により積算することで,検索対象と検索キーの音声音楽信号中のナレーションなどの突発的で非定常な雑音部分以外の背景音楽などの部分で一致検索を行う。
【0004】
この他に,類似する音声音楽信号を検索する従来技術(従来手法3)として,一致する音声音楽信号だけでなく類似する音声音楽信号も検索でき,多次元インデックスを用いることで高速な検索ができる手法がある(例えば,非特許文献3参照)。
【0005】
ここで,後述する本発明の実施の形態で利用している技術が記載された文献として,例えば非特許文献4,非特許文献5,非特許文献6,非特許文献7がある。
【0006】
【特許文献1】
特許第3065314号公報
【特許文献2】
特開2002−10237号公報
【非特許文献1】
柏野邦夫,ガビンスミス,村瀬洋:“ヒストグラム特徴を用いた音響信号の高速探索法−時系列アクティブ探索法−”:電子情報通信学会論文誌,D-1 ,Vol.J82-D-II NO.9 ,pp.1365-1373,1999
【非特許文献2】
阿部素嗣,西口正之:“背景音楽同定のための自己最適化スペクトル相関法”:電子情報通信学会技術報告,PRMU2001-209,pp.25-30,2002
【非特許文献3】
須賀啓敏,寺本純司,片岡良治,芳西崇:“類似音声検索による映像検索”:電子情報通信学会,第13回データ工学ワークショップ(DEWS2002 ISSN1347-4413)B1-1,2002
【非特許文献4】
鹿野清宏他,:“IT text 音声認識システム”,オーム社,2001
【非特許文献5】
Lawrence Rabiner,Biing-Hwang Juang 共著,古井貞煕監訳:“音声認識の基礎(上)”,NTTアドバンステクノロジ株式会社,1995
【非特許文献6】
Norio Katayama and Shin'ichi Satoh:“The SR-tree :An Index Structure for High-Dimensional Nearest Neighbor Queries”,in Proc.ACM SIGMOD International Conference On Management of Data ,pp.368-380,May 1997
【非特許文献7】
Yasushi Sakurai ,Masatoshi Yoshikawa ,Shunsuke Uemura ,and Haruhiko Kojima :“A-tree:An Index Structure for High-Dimensional Space Using Relative Approximations ”,In Proc.of the 26th International Conference on Very Large Data Bases (VLDB),pp.516-526,Cairo ,September 2000
【0007】
【発明が解決しようとする課題】
〔課題1〕前述した従来手法1では,一致する音声音楽信号を検索するため,信号に雑音が入ると検索できなくなってしまうという問題がある。
〔課題2〕従来手法2では,非定常な雑音が入った音声音楽信号でも検索が可能であるが,類似度計算の計算量が大きく,計算に時間がかかってしまうという問題がある。
〔課題3〕従来手法3では,音声音楽信号に雑音が入っても信号が類似していれば従来手法2よりも高速な検索が可能であるが,雑音がない場合に比べて検索精度は下がってしまうという問題がある。
【0008】
本発明は,上記問題点の解決を図り,非定常な雑音を含む音声音楽信号を精度良く,高速に検索できる手段を確立することを目的とする。
【0009】
【課題を解決するための手段】
本発明の類似音声音楽検索装置は,上記課題を解決するため,検索キー音声音楽信号入力手段と,短時間窓音声音楽特徴量抽出手段と,短時間窓音声音楽特徴量類似検索手段と,音声音楽情報比較統合手段と,音声音楽表示出力手段と,検索対象音声音楽信号入力手段と,特徴量の蓄積手段とを備える。
【0010】
検索キー音声音楽信号入力手段は,検索キーとして数秒間の音声音楽信号を入力する。
【0011】
短時間窓音声音楽特徴量抽出手段は,短時間窓を少しずつずらしながら,短時間窓長の音声音楽信号を切り出し,そこから短時間窓音声音楽特徴量を抽出する。短時間窓音声音楽特徴量は多次元ベクトルの形で表現される。
【0012】
短時間窓音声音楽特徴量類似検索手段は,蓄積された短時間窓音声音楽特徴量の中から,検索キーから抽出されたそれぞれの短時間窓音声音楽特徴量に類似するものを検索する。類似度は,多次元ベクトル間の距離が近いものほど類似度が高いとする。なお,この類似度のことを部分類似度と呼ぶことにする。
【0013】
音声音楽情報比較統合手段は,前記短時間窓音声音楽特徴量類似検索手段による短時間窓音声音楽特徴量ごとの類似検索結果から正解候補音声音楽区間を作成し,その正解候補音声音楽区間全体と検索キー音声音楽信号全体との間の類似度を計算し,その類似度の高い正解候補音声音楽区間のリストを作成する。
【0014】
この類似度は,例えば,検索キー音声音楽信号中の短時間窓音声音楽特徴量を表す多次元ベクトルと,それに対応する正解候補音声音楽区間中の短時間窓音声音楽特徴量を表す多次元ベクトルとの間の距離を,対応する短時間窓音声音楽特徴量ごとに計算し,それらの距離のうち距離の近いものだけの和をとり,その和が小さいものほど類似度が高いものとする。なお,この類似度を全体類似度と呼ぶこととする。そして,正解候補音声音楽区間リストを全体類似度の高い順に並び替える。
【0015】
音声音楽表示出力手段は,ディスプレイ等の表示装置に全体類似度の高い順に正解候補音声音楽区間のリストを表示し,マウス等のポインティングデバイスで選択したリスト中の正解候補音声音楽区間の音声音楽信号をスピーカー等で出力する。
【0016】
検索対象音声音楽信号入力手段は,検索対象となる長時間の音声音楽信号を入力する。
【0017】
蓄積手段は,検索対象音声音楽信号から抽出された個々の短時間窓音声音楽特徴量または平均短時間窓音声音楽特徴量を蓄積する。また抽出した短時間窓音声音楽特徴量または平均短時間窓音声音楽特徴量から多次元空間インデックスを構成する。
【0018】
以上の各手段による処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録することも,ネットワークを通して提供することも可能である。
【0019】
【発明の実施の形態】
本発明の実施の形態を説明するに先立ち,実施の形態の説明中で用いている言葉の意味について簡単に説明する。
【0020】
「非定常雑音」:ある区間に対して,その全体に渡って入っていない雑音(例えば,雑音としての人の話し声は,息継ぎなどのために音が途切れるので,非定常雑音である)。
【0021】
「短時間窓」:約20ミリ秒から40ミリ秒程度の時間窓。
【0022】
「短時間窓音声音楽特徴量」:短時間窓長の音声音楽信号から抽出される特徴量。多次元ベクトルで表される。
【0023】
「検索キー音声音楽信号」:検索キーとして入力される数秒(例えば4秒など)の音声音楽信号。
【0024】
「検索対象音声音楽信号」:検索対象となる長時間の音声音楽信号(例えば,テレビ番組1週間分,CD音源1000曲分等)。
【0025】
「部分類似度」:多次元ベクトルで表される短時間窓音声音楽特徴量間(または平均短時間窓音声音楽特徴量間)の類似度である。多次元ベクトル間の距離が近いものほど,この類似度は高い。
【0026】
「全体類似度」:検索キーと検索対象中の検索キーと同じ長さの音声音楽信号との間の類似度である。例えば,検索キー音声音楽信号中の短時間窓音声音楽特徴量を表す多次元ベクトルと,それに対応する検索対象中の検索キーの長さの音声音楽信号から抽出された短時間窓音声音楽特徴量を表す多次元ベクトルとの間の距離を,対応する短時間窓音声音楽特徴量ごとに計算し,それらの距離のうち距離の近いものだけの和をとり,その和の小さいものほどこの類似度が高い。
【0027】
「正解候補音声音楽区間」:検索キーの短時間窓音声音楽特徴量の検索キー音声音楽信号中での位置と,部分類似度の高い検索対象中の短時間窓音声音楽信号の位置が同じになるように切り出した,検索対象中の音声音楽信号区間。これが全体類似度も高い正解の候補とする。
【0028】
「平均短時間窓音声音楽特徴量」:短時間窓音声音楽特徴量を時間順に並ぶ複数ごとに平均をとったもの。これを短時間窓音声音楽特徴量の代わりとして扱うことにより,類似検索処理の際に検索回数を少なくでき,高速化が図れる。
【0029】
以下,図面を用いて本発明の実施の形態を説明する。
【0030】
〔実施の形態1〕
本実施の形態1では,CDなどから切り出された雑音の入っていない音声音楽信号を検索キーとし,検索対象として用意される長時間のテレビ映像音声などからその音声音楽信号がオリジナルのまま使われている部分や背景音楽として使われている部分を検索する。背景音楽として使われる部分には非定常な雑音が入っているが,本発明では,そのような雑音が入っている音声音楽信号でも高速に検索が行える。
【0031】
図1は,本発明の実施の形態における類似音声音楽検索装置の構成例を示す図である。類似音声音楽検索装置10は,短時間窓音声音楽特徴量抽出部(検索フェーズ)11,短時間窓音声音楽特徴量類似検索部12,音声音楽情報比較統合部13,短時間窓音声音楽特徴量抽出部(蓄積フェーズ)14,蓄積部15,記憶部16とから構成されており,検索キー音声音楽信号入力装置20,音声音楽表示出力装置21,検索対象音声音楽信号入力装置22と接続されている。
【0032】
類似音声音楽検索装置10の動作は,検索キーの短時間窓音声音楽特徴量で検索対象の短時間窓音声音楽特徴量を検索することにより類似音声音楽を検索する検索フェーズP1と,検索対象の音声音楽信号と短時間窓音声音楽特徴量とを蓄積する蓄積フェーズP2からなる。
【0033】
図2は,本実施の形態における類似音声音楽検索処理フローチャートである。この例では,検索キー入力処理ステップS10において,CDなどの雑音の入っていない音源を入力する。そこから数秒程度の音声音楽信号を検索キーとして切り出す処理を行い,検索キー音声音楽信号を得る。
【0034】
次に,特徴量抽出処理ステップS20において,短時間窓音声音楽特徴量抽出部(検索フェーズ)11は,約20ミリ秒から40ミリ秒程度の短時間窓を少しずつずらしながら,検索キー入力処理ステップS10で得られた検索キー音声音楽信号から音声音楽信号を切り出し,その切り出した音声音楽信号から短時間窓音声音楽特徴量を抽出する。
【0035】
ここで,短時間窓音声音楽特徴量としては,例えば,非特許文献4に述べられているメル周波数ケプストラム係数や,フィルタバンク分析による各帯域の音声パワーや,非特許文献5に述べられている重み付きケプストラム係数等を用いることができる。なお,短時間窓音声音楽特徴量は,多次元ベクトルとして表される。
【0036】
類似検索処理ステップS30による検索のために,あらかじめ短時間窓音声音楽特徴量抽出部(蓄積フェーズ)14が,長時間の検索対象音声音楽信号から上記特徴量抽出処理ステップS20の特徴量抽出処理と同様にして短時間窓音声音楽特徴量を抽出し,蓄積部15が,抽出された短時間窓音声音楽特徴量を記憶部16に蓄積しておく。また,それらの短時間窓音声音楽特徴量から,非特許文献6に述べられているSR−treeや,非特許文献7に述べられているA−treeなどの多次元空間インデックスを構成しておく。
【0037】
類似検索処理ステップS30において,短時間窓音声音楽特徴量類似検索部12は,検索キーから抽出された個々の短時間窓音声音楽特徴量を入力し,それぞれに類似する検索対象中の短時間窓音声音楽特徴量を,多次元空間インデックスを使って高速に検索する。検索キーの短時間窓音声音楽特徴量ごとに,部分類似度の高い検索対象中の短時間窓音声音楽特徴量のリストを作成する。
【0038】
部分類似度は,短時間窓音声音楽特徴量を表す多次元ベクトル間の距離が近いほど高いものとする。なお,多次元空間インデックスを使うことで,使わない場合と比較した時に約10倍高速に検索できていることが確認されている。
【0039】
続いて,比較統合処理ステップS40に進む。図3は,本実施の形態における比較統合処理フローチャートである。本実施の形態1における音声音楽情報比較統合部13による比較統合処理ステップS40は,図3のフローチャートを用いて詳細に説明する。
【0040】
ステップS410において,類似検索処理ステップS30で得られた類似検索の結果の部分類似度の高い短時間窓音声音楽特徴量のリストを入力し,検索キーの短時間窓音声音楽特徴量の位置と,対応する部分類似度の高い検索対象中の短時間窓音声音楽特徴量の位置とが同じ位置になるように合わせ,検索対象音声音楽信号から検索キーと同一の長さの音声音楽信号を切り出して正解候補音声音楽区間を作成する。これを入力されたすべての部分類似度の高い短時間窓音声音楽特徴量について行い,正解候補音声音楽区間のリストを作成する。
【0041】
図4は,上記ステップS410の処理における検索対象からの正解候補音声音楽区間の切り出しを説明する図である。検索キー音声音楽信号における0,1,…,9および検索対象音声音楽信号におけるa,b,…は,それぞれ短時間窓音声音楽特徴量を表している。まず,図4(A)のように,検索キー音声音楽信号中の短時間窓音声音楽特徴量の位置と,類似度が高い検索対象音声音楽信号中の短時間窓音声音楽特徴量の位置とを合わせる。図4(A)の例では,検索キー短時間窓音声音楽特徴量「4」と検索対象の短時間窓音声音楽特徴量「h」との類似度が高いので,その位置を合わせる。
【0042】
次に,図4(B)のように,検索対象音声音楽信号から,検索キー音声音楽信号と同じ長さの区間を正解候補音声音楽区間として切り出す。図4(B)の例では,検索対象音声音楽信号(「a」〜…)から,検索キー音声音楽信号(「0」〜「9」)と同じ長さの区間(「d」〜「m」)が正解候補音声音楽区間として切り出される。
【0043】
次に,図3のステップS420において,正解候補音声音楽区間のリストを入力し,そのリスト中の最上位にある正解候補音声音楽区間中の短時間窓音声音楽特徴量を読み込む。また,ステップS430において,ステップS420で読み込まれた正解候補音声音楽区間のリストの最上位の正解候補音声音楽区間をリストから削除する。
【0044】
続いて,ステップS440において,ステップS420で読み込まれた正解候補音声音楽区間の全体の短時間窓音声音楽特徴量を入力し,それと検索キー全体の短時間窓音声音楽特徴量との全体類似度を計算をする。音声音楽情報比較統合部13は,この正解候補音声音楽区間と全体類似度の組を蓄積部15に出力し,蓄積部15はそれらを記憶部16に保持する。
【0045】
全体類似度の計算方法としては,例えば次のような方法を用いることができる。検索キー音声音楽信号中の短時間窓音声音楽特徴量を表す多次元ベクトルと,それに対応する正解候補音声音楽区間中の短時間窓音声音楽特徴量を表す多次元ベクトルとの間の距離を,対応する短時間窓音声音楽特徴量ごとに計算し,それらの距離のうち距離の近いものの上位何個かの和をとり,その和が小さいものほど全体類似度が高いものとする。
【0046】
すなわち,例えば検索キー音声音楽信号から短時間窓で切り出した音声音楽信号が300個である場合に,検索キーと正解候補音声音楽区間との間において,短時間窓音声音楽特徴量を表す多次元ベクトル間の距離を,対応する短時間窓音声音楽特徴量ごとに計算し,それらの距離のうち距離が近い値の上位100個だけの和を検索キーと正解候補音声音楽区間との距離とし,その距離が近いものほど全体類似度が高いものであると定義する。
【0047】
これにより,雑音が入っていない部分や雑音の影響が少ない部分だけを扱って全体類似度の計算ができるため,非定常な雑音の影響を低減した検索をすることができる。なお,距離の近い上位のもののうち,いくつの距離の和とするかは,あらかじめ設定しておくものとする。上位何個の和を全体類似度して用いるかを,ユーザが設定できるようにするためのGUI(Graphical User Interface)を設ける実施も好適である。短時間窓音声音楽特徴量を表す多次元ベクトル間の距離が近いもののうちの和をとる個数を,雑音が多いときは少なく,雑音が少ないときは多くすることで,検索精度をさらに向上させることが可能である。
【0048】
図5に従って全体類似度の計算方法の具体例を説明する。図5の例では,まず,検索キーと正解候補音声音楽区間との部分類似度を計算し,部分類似度の距離が小さい上位6件(「3」,「4」,「5」,「7」,「9」,「10」)の和を,検索キーと正解候補音声音楽区間との全体類似度の距離としている。これによって,雑音の影響により部分類似度の距離が大きい部分(「1」,「2」,「6」,「8」)を除くことができ,非定常な雑音があっても類似する音声音楽信号を検索することができる。
【0049】
図3のステップS450において,正解候補音声音楽区間リストを入力し,このリストがすでに空であれば,ステップS460に進む。空でなければステップS420に戻り,同様に処理を繰り返す。
【0050】
すべての正解候補音声音楽区間について,ステップS420〜S440の処理が終了し,正解候補音声音楽区間リストが空になったならば,ステップS460では,ステップS440において記憶部16に保持されたすべての正解候補音声音楽区間とその全体類似度の組を蓄積部15から入力し,それらを全体類似度の高い順に並び替えてリストを作成する。
【0051】
これらのステップS410からステップS460までの処理を行うことで,図2のフローチャートの比較統合処理ステップS40は,類似検索処理ステップS30の類似検索の結果の部分類似度の高い短時間窓音声音楽特徴量のリストを入力し,全体類似度の高い順に並び替えられた正解候補音声音楽区間のリストを出力することができる。
【0052】
その後,図2の表示出力処理ステップS50において,全体類似度の高い順の正解候補音声音楽区間のリストを,ディスプレイ等の音声音楽表示出力装置21に出力し,マウス等のポインティングデバイスで選択されたリスト中の正解候補音声音楽区間の音声音楽信号を,スピーカー等の音声音楽表示出力装置21で出力する。
【0053】
〔実施の形態2〕
本実施の形態2では,放送されているテレビ映像音声などから非定常な雑音が含まれるような数秒の楽曲の音声音楽信号を逐次的に切り出して検索キーとし,検索対象として用意されているCD等の雑音が含まれない音声音楽信号を格納した音楽データベースから,その雑音が入った楽曲の音声音楽信号と同じ楽曲の同じ部分を検索する。これにより,放送されている映像音声中の雑音が入っているような楽曲部分の楽曲名とそれが楽曲中のどの部分であるかを検索することができる。
【0054】
本実施の形態2における類似音声音楽検索装置の構成例は,前述した実施の形態1と同様に,図1に示される構成例となる。また,本実施の形態2における類似音声音楽検索処理フローチャートは,前述の実施の形態1と同様に,図2に示されるフローチャートとなる。以下,本実施の形態2について,図2のフローチャートを用いて説明するが,前述した実施の形態1とは,検索キー入力処理ステップS10と表示出力処理ステップS50とが異なる。
【0055】
特徴量抽出処理ステップS20,類似検索処理ステップS30,比較統合処理ステップS40については,前述した実施の形態1における処理と同様の処理であるので,説明を省略する。
【0056】
検索キー入力処理ステップS10において,放送中のTV番組の音声などのリアルタイムに流れている音声音楽を入力し,そこから逐次的に数秒程度の音声音楽信号を検索キーとして切り出す処理を行い,検索キー音声音楽信号を得る。
【0057】
表示出力処理ステップS50では,全体類似度の高い順の正解候補音声音楽区間のリストを,音声音楽表示出力装置21(ディスプレイ等)に出力し,マウス等のポインティングデバイスで選択されたリスト中の正解候補音声音楽区間の音声音楽信号を,音声音楽表示出力装置21(スピーカー等)で出力する。本実施の形態2では,この処理を逐次的に繰り返す。これによって,リアルタイムに流れている音声音楽信号に対して,その背景で使われている楽曲を検索することができる。
【0058】
〔実施の形態3〕
本実施の形態3では,前述した実施の形態1,実施の形態2の検索時間をより高速化するため,類似検索する際に,短時間窓音声音楽特徴量をそのまま使わずに,時間順に並んだ複数個の短時間窓音声音楽特徴量の平均となる平均短時間窓音声音楽特徴量を使って類似検索を行う。平均短時間窓音声音楽特徴量は,それぞれの短時間窓音声音楽特徴量を表す多次元ベクトルの平均ベクトルにより表される。これにより類似検索の回数の削減と検索対象のデータ数が削減されるため,処理の高速化が図れる。
【0059】
本実施の形態3における類似音声音楽検索装置の構成例は,前述した実施の形態1,実施の形態2と同様に,図1に示される構成例となる。また,本実施の形態3における類似音声音楽検索処理フローチャートは,前述した実施の形態1,実施の形態2と同様に,図2に示されるフローチャートとなる。以下,本実施の形態3について,図2のフローチャートを用いて説明するが,前述した実施の形態1,実施の形態2とは,類似検索処理ステップS30と比較統合処理ステップS40とが異なる。
【0060】
検索キー入力処理ステップS10,特徴量抽出処理ステップS20,表示出力処理ステップS50については,前述した実施の形態1,実施の形態2における処理と同様の処理であるので,説明を省略する。
【0061】
図6は,本実施の形態3における類似検索処理フローチャートである。本実施の形態3における類似検索処理ステップS30の処理を,図6のフローチャートを用いて詳細に説明する。
【0062】
類似検索処理のために,あらかじめ以下のステップS310〜S330による蓄積フェーズP2を実行する。ステップS310において,短時間窓音声音楽特徴量抽出部(蓄積フェーズ)14が,検索対象となる長時間の音声音楽信号を入力し,特徴量抽出処理ステップS20と同様にして短時間窓音声音楽特徴量を抽出し,蓄積部15が,抽出された短時間窓音声音楽特徴量を記憶部16に蓄積しておく。
【0063】
ステップS320において,検索対象音声音楽信号から抽出したすべての短時間窓音声音楽特徴量を入力し,それらの短時間窓音声音楽特徴量の時間順に並んだK個分ずつの平均をとって平均短時間窓音声音楽特徴量を作成する。例えば,K=6とした場合,時間順に並ぶ6個ずつの短時間窓音声音楽特徴量の平均をとったものを平均短時間窓音声音楽特徴量とする。
【0064】
ステップS330において,ステップS320で作成した平均短時間窓音声音楽特徴量を入力し,それらの短時間窓音声音楽特徴量から,前述した実施の形態1,実施の形態2と同様に,多次元空間インデックスを構築しておく。
【0065】
検索フェーズP1では,ステップS340において,検索キーの短時間窓音声音楽特徴量の時間順に並んだK個分ずつの平均をとり,平均短時間窓音声音楽特徴量を作成する。例えば,K=6とした場合,時間順に並ぶ6個ずつの短時間窓音声音楽特徴量の平均をとったものを平均短時間窓音声音楽特徴量とする。
【0066】
ステップS350において,短時間窓音声音楽特徴量類似検索部12は,検索キーの平均短時間窓音声音楽特徴量を入力し,それらの検索キーの平均短時間窓音声音楽特徴量と類似するものを,蓄積されている検索対象の平均短時間窓音声音楽特徴量の中から検索し,検索キーの平均短時間窓音声音楽特徴量ごとに,部分類似度の高い平均短時間窓音声音楽特徴量のリストを作成する。
【0067】
ここでの部分類似度は,平均短時間窓音声音楽特徴量を表す多次元ベクトル間の距離が近いほど高いものとする。この際に,ステップS330で構築した多次元空間インデックスを使用することで高速に検索することができる。
【0068】
また,例えば,K=6として短時間窓音声音楽特徴量の6個分の平均を平均短時間窓音声音楽特徴量とすると,前述した実施の形態1,実施の形態2と比較して多次元インデックスを構成するデータ数は6分の1となり,さらに多次元インデックスを用いて行う検索回数も6分の1となることにより,検索の高速化が図られる。
【0069】
本実施の形態3における比較統合処理ステップS40については,図3に示すフローチャートのステップS410の処理(正解候補音声音楽区間のリストを作成する処理)だけが前述した実施の形態1,実施の形態2と異なる。ステップS420からステップS460までについては,前述した実施の形態1,実施の形態2と同様であるので説明を省略する。
【0070】
以下,本実施の形態3における平均短時間窓音声音楽特徴量のリストから正解候補音声音楽区間のリストを作成する方法の例を説明するが,平均短時間窓音声音楽特徴量のリストから正解候補音声音楽区間のリストを作成する方法は,以下の例に限られるものではない。
【0071】
図7は,本実施の形態3における正解候補音声音楽区間リスト作成処理フローチャートである。本実施の形態3における正解候補音声音楽区間のリストを作成する処理(前述した実施の形態1,実施の形態2において,図3のステップS410に該当する処理)は,図7のフローチャートを用いて詳細に説明する。
【0072】
ステップS411において,本実施の形態3における類似検索処理ステップS30の結果である平均短時間窓音声音楽特徴量のリストを入力し,このリストの最上位の平均短時間窓音声音楽特徴量を読み込む。また,ステップS412において,ステップS411で読み込んだ平均短時間窓音声音楽特徴量のリストの最上位の平均短時間窓音声音楽特徴量をリストから削除する。
【0073】
ステップS413において,ステップS411で読み込んだ平均短時間窓音声音楽特徴量を入力し,この平均短時間窓音声音楽特徴量の平均をとった元であるK個の短時間窓音声音楽特徴量を,記憶部16から蓄積部15を介して読み込む。
【0074】
ステップS414において,平均をとった元のK個の短時間窓音声音楽特徴量ごとに,その平均をとった元の短時間窓音声音楽特徴量の位置が,検索キー中の対応する短時間窓音声音楽特徴量(例えば,平均をとった区間の中央の短時間窓音声音楽特徴量)と同じ位置になるように検索対象音声音楽信号の位置を合わせ,正解候補音声音楽区間を切り出す。切り出された正解候補音声音楽区間は合計でK個となる。
【0075】
ステップS415において,K個の正解候補音声音楽区間を入力し,それらK個の正解候補音声音楽区間を正解候補音声音楽区間のリストに記載する。
【0076】
ステップS416において,平均短時間窓音声音楽特徴量のリストを入力し,そのリストが空でなければS411に戻り,空になったならば正解候補音声音楽区間のリストを出力する。以上のステップS411〜S416の処理を,すべての平均短時間窓音声音楽特徴量のリストについて実行する。
【0077】
図8は,本実施の形態における類似度が高い平均短時間窓音声音楽特徴量から正解候補音声音楽区間を作成する例を説明する図である。図8の例では,短時間窓音声音楽特徴量の3個(K=3)の平均を平均短時間窓音声音楽特徴量としている。また,検索キーの対応する短時間窓音声音楽特徴量を,平均をとった区間の中央の短時間窓音声音楽特徴量としている。
【0078】
図中,「sX」(X=0,1,2,…)は検索キーにおける短時間窓音声音楽特徴量を表し,「Mean−sX」(X=0,1,2,…)は検索キーにおける平均短時間窓音声音楽特徴量を表す。また,「tX」(X=0,1,2,…)は検索対象における短時間窓音声音楽特徴量を表し,「Mean−tX」(X=0,1,2,…)は検索対象における平均短時間窓音声音楽特徴量を表す。
【0079】
図8(A)において,検索キー音声音楽信号の「Mean−s1」と検索対象音声音楽信号の「Mean−t3」との間の類似度が高いものとする。「Mean−s1」の元になっている短時間窓音声音楽特徴量は「s3」,「s4」,「s5」であり,「Mean−t3」の元になっている短時間窓音声音楽特徴量は「t9」,「t10」,「t11」である。検索キーの対応する短時間窓音声音楽特徴量を,平均をとった区間の中央の短時間窓音声音楽特徴量とすると,ここでは「s4」である。
【0080】
これをもとに正解候補音声音楽区間を切り出す場合,図8(B)に示すように,検索対象音声音楽信号の「t9」,「t10」,「t11」位置を,それぞれ検索キー音声音楽信号の「s4」の位置に合わせて,「t9」,「t10」,「t11」ごとに検索キーの長さと同じ長さで音声音楽信号を切り出し,正解候補音声音楽区間を作成する。K=3であるので,「s4」の位置に「t9」を合わせたもの,「t10」を合わせたもの,「t11」を合わせたものの3つの正解候補音声音楽区間が作成される。
【0081】
以上の図7,図8によって,平均短時間窓音声音楽特徴量のリストから正解候補音声音楽区間を作成する方法の一例を示したが,これに限られるものではなく,例えば,検索キーの対応する短時間窓音声音楽特徴量を,平均をとった区間の中央の短時間窓音声音楽特徴量ではなく,他のものにすることも可能である。また,例えば図8の例において,作成する正解候補音声音楽区間の数は,K=3個に限らず,K+2=5個,K−1=1個のように任意の数を設定することも可能である。
【0082】
【発明の効果】
本発明は,検索キーとそれと同じ長さに切り出された検索対象の音声音楽信号との全体類似度を表す距離を,短時間窓音声音楽特徴量間の部分類似度を表す距離のうち距離の近い上位のものだけの和とすることによって,非定常な雑音の影響を低減した音声音楽信号の類似検索が可能になるという効果を有する(課題1,課題3の解決)。
【0083】
また,短時間窓音声音楽特徴量間の部分類似度の高いものを検索する際に多次元空間インデックスを用いることにより,高速な検索ができるという効果を有する(課題2の解決)。
【図面の簡単な説明】
【図1】本発明の実施の形態における類似音声音楽検索装置の構成例を示す図である。
【図2】本実施の形態における類似音声音楽検索処理フローチャートである。
【図3】本実施の形態における比較統合処理フローチャートである。
【図4】本実施の形態における検索対象からの正解候補音声音楽区間の切り出しを説明する図である。
【図5】本実施の形態における全体類似度の計算方法を説明する図である。
【図6】本実施の形態における類似検索処理フローチャートである。
【図7】本実施の形態における正解候補音声音楽区間リスト作成処理フローチャートである。
【図8】本実施の形態における類似度が高い平均短時間窓音声音楽特徴量から正解候補音声音楽区間を作成する例を説明する図である。
【符号の説明】
P1 検索フェーズ
P2 蓄積フェーズ
10 類似音声音楽検索装置
11 短時間窓音声音楽特徴量抽出部(検索フェーズ)
12 短時間窓音声音楽特徴量類似検索部
13 音声音楽情報比較統合部
14 短時間窓音声音楽特徴量抽出部(蓄積フェーズ)
15 蓄積部
16 記憶部
20 検索キー音声音楽信号入力装置
21 音声音楽表示出力装置
22 検索対象音声音楽信号入力装置
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a technology for searching for audio music signals, and more particularly, a similar audio music search device capable of high-speed search even with audio music signals including non-stationary noise. , Kind The present invention relates to a similar audio music search program and a recording medium for the program.
[0002]
[Prior art]
As the conventional technique (conventional technique 1) for searching a speech and music signal at high speed, for example, as shown in Patent Document 1, “High-speed signal search method, apparatus and recording medium thereof” and Non-Patent Document 1, for example, There is a technique for searching for a voice music signal that matches a search key.
[0003]
In addition, as a conventional technique (conventional method 2) for searching for a voice music signal including noise, the voice music signal to be searched is divided into a number of small areas in the time frequency domain, and the voice music signal of the search key is divided between each area. (See, for example, Patent Document 2 “Information Transmission / Reception System and Method, Information Processing Device and Method”, Non-Patent Document 2). In this method, the similarity of each region is accumulated by the voting method, and a matching search is performed in parts such as background music other than sudden and non-stationary noise parts such as narration in the audio music signal of the search target and search key. I do.
[0004]
In addition, as a conventional technique for searching for similar audio music signals (conventional method 3), not only matching audio music signals but also similar audio music signals can be searched, and high-speed search can be performed using a multidimensional index. There is a method (for example, see Non-Patent Document 3).
[0005]
Here, there are, for example, non-patent document 4, non-patent document 5, non-patent document 6, and non-patent document 7 as a document describing a technique used in an embodiment of the present invention described later.
[0006]
[Patent Document 1]
Japanese Patent No. 30653314
[Patent Document 2]
JP 2002-10237 A
[Non-Patent Document 1]
Kunio Kanno, Gavin Smith, Hiroshi Murase: "High-speed search method of acoustic signals using histogram features-Time series active search method": IEICE Transactions, D-1, Vol.J82-D-II NO.9 , Pp.1365-1373, 1999
[Non-Patent Document 2]
Motoaki Abe, Masayuki Nishiguchi: “Self-optimized spectral correlation method for background music identification”: IEICE Technical Report, PRMU2001-209, pp.25-30, 2002
[Non-Patent Document 3]
Suga Keitoshi, Teramoto Junji, Kataoka Ryoji, Yoshinishi Takashi: "Video Search by Similar Voice Search": IEICE, 13th Data Engineering Workshop (DEWS2002 ISSN1347-4413) B1-1, 2002
[Non-Patent Document 4]
Kiyohiro Shikano et al .: “IT text speech recognition system”, Ohmsha, 2001
[Non-Patent Document 5]
Co-authored by Lawrence Rabiner and Biing-Hwang Juang, supervised by Sadahiro Furui: “Basics of Speech Recognition (Part 1)”, NTT Advanced Technology Corporation, 1995
[Non-Patent Document 6]
Norio Katayama and Shin'ichi Satoh: “The SR-tree: An Index Structure for High-Dimensional Nearest Neighbor Queries”, in Proc. ACM SIGMOD International Conference On Management of Data, pp. 368-380, May 1997
[Non-Patent Document 7]
Yasushi Sakurai, Masatoshi Yoshikawa, Shunsuke Uemura, and Haruhiko Kojima: “A-tree: An Index Structure for High-Dimensional Space Using Relative Approximations”, In Proc. Of the 26th International Conference on Very Large Data Bases (VLDB), pp. 516-526, Cairo, September 2000
[0007]
[Problems to be solved by the invention]
[Problem 1] The above-described conventional method 1 has a problem in that, since a matching speech music signal is searched, it cannot be searched if noise enters the signal.
[Problem 2] Conventional method 2 can search even a speech music signal containing unsteady noise, but has a problem that the calculation amount of similarity is large and the calculation takes time.
[Problem 3] Conventional method 3 can perform a higher-speed search than conventional method 2 if the signal is similar even if noise is included in the audio-music signal, but the search accuracy is lower than that in the case of no noise. There is a problem that it ends up.
[0008]
An object of the present invention is to solve the above-described problems and to establish means capable of searching a speech music signal including unsteady noise with high accuracy and at high speed.
[0009]
[Means for Solving the Problems]
In order to solve the above problems, a similar speech / music search device of the present invention includes a search key speech / music signal input means, a short-time window speech / music feature quantity extraction means, a short-time window speech / music feature quantity similarity search means, A music information comparison and integration unit, a voice and music display output unit, a search target voice and music signal input unit, and a feature amount storage unit are provided.
[0010]
The search key voice music signal input means inputs a voice music signal for several seconds as a search key.
[0011]
The short-time window audio music feature quantity extraction unit extracts a short-window audio music signal having a short window length while gradually shifting the short-time window, and extracts the short-time window audio music feature quantity therefrom. Short-time window audio music features are expressed in the form of multidimensional vectors.
[0012]
The short-time window audio music feature value similarity search means searches the accumulated short-time window audio music feature values that are similar to the respective short-time window audio music feature values extracted from the search key. It is assumed that the similarity is higher as the distance between multidimensional vectors is shorter. This similarity is referred to as partial similarity.
[0013]
The speech and music information comparison and integration means creates a correct candidate speech music section from the similar search results for each short time window speech and music feature amount by the short time window speech and music feature quantity similarity search means, The similarity between the entire search key speech music signal is calculated, and a list of correct candidate speech music sections with high similarity is created.
[0014]
This similarity is, for example, a multidimensional vector representing a short-time window speech music feature in the search key speech music signal and a multi-dimensional vector representing a short-time window speech music feature in the corresponding correct candidate speech music section. Is calculated for each corresponding short-time window audio music feature, and only the closest one of the distances is calculated, and the smaller the sum is, the higher the similarity is. This similarity is referred to as the overall similarity. Then, the correct answer candidate voice music section list is rearranged in descending order of overall similarity.
[0015]
The voice and music display output means displays a list of correct candidate voice music sections on a display device such as a display in descending order of overall similarity, and a voice music signal of the correct candidate voice music sections in the list selected by a pointing device such as a mouse. Is output with a speaker.
[0016]
The search target audio music signal input means inputs a long time audio music signal to be searched.
[0017]
The storage means stores the individual short-time window audio music feature values or the average short-time window audio music feature values extracted from the search target audio music signal. In addition, a multidimensional spatial index is constructed from the extracted short-time window audio music feature quantity or average short-time window audio music feature quantity.
[0018]
The processing by each means described above can be realized by a computer and a software program, and the program can be recorded on a computer-readable recording medium or provided through a network.
[0019]
DETAILED DESCRIPTION OF THE INVENTION
Prior to describing the embodiment of the present invention, the meaning of the words used in the description of the embodiment will be briefly described.
[0020]
"Non-stationary noise": Noise that does not enter the entire section of a certain section (for example, a person's voice as noise is non-stationary noise because the sound is interrupted due to breathing, etc.).
[0021]
“Short time window”: A time window of about 20 milliseconds to 40 milliseconds.
[0022]
“Short-time window audio music feature”: A feature extracted from a short-window audio signal. Represented as a multidimensional vector.
[0023]
“Search key voice music signal”: a voice music signal of several seconds (for example, 4 seconds) input as a search key.
[0024]
“Search target audio music signal”: A long time audio music signal to be searched (for example, one week of TV program, 1000 CD sound source).
[0025]
“Partial similarity”: similarity between short-time window speech and music feature quantities (or average short-time window speech and music feature quantities) represented by a multidimensional vector. The closer the distance between multidimensional vectors, the higher the similarity.
[0026]
“Overall similarity”: similarity between a search key and a voice music signal having the same length as the search key being searched. For example, a short-time window audio music feature amount extracted from a multi-dimensional vector representing a short-time window audio music feature amount in the search key audio music signal and a corresponding search key length audio music signal in the search target Is calculated for each corresponding short-time window audio music feature, and the sum of those distances is calculated, and the smaller the sum, the higher the similarity. Is expensive.
[0027]
“Correct answer voice music section”: The position of the search key in the search key voice music signal of the short-time window voice music feature of the search key is the same as the position of the short-time window voice music signal in the search target having a high partial similarity. The audio / music signal section being searched for. This is a correct candidate with a high overall similarity.
[0028]
“Average short-time window audio music feature value”: An average of multiple short-time window audio music feature values arranged in time order. By treating this as a substitute for short-time window audio music features, the number of searches can be reduced during the similarity search process, and the speed can be increased.
[0029]
Embodiments of the present invention will be described below with reference to the drawings.
[0030]
[Embodiment 1]
In the first embodiment, a sound / music signal without noise extracted from a CD or the like is used as a search key, and the sound / music signal is used as it is from a long-time TV video / audio prepared as a search target. Search for parts that are currently used or used as background music. The part used as background music contains non-stationary noise, but in the present invention, even a speech music signal containing such noise can be searched at high speed.
[0031]
FIG. 1 is a diagram illustrating a configuration example of a similar speech music search device according to an embodiment of the present invention. The similar speech / music search apparatus 10 includes a short-time window speech / music feature extraction unit (search phase) 11, a short-time window speech / music feature similarity search unit 12, a speech / music information comparison / integration unit 13, and a short-time window speech / music feature. The extraction unit (storage phase) 14, the storage unit 15, and the storage unit 16 are connected to the search key voice music signal input device 20, the voice music display output device 21, and the search target voice music signal input device 22. Yes.
[0032]
The operation of the similar voice music search device 10 includes a search phase P1 for searching for similar voice music by searching for a short time window voice music feature quantity to be searched with a short window voice music feature quantity of a search key, and a search target P1. It comprises an accumulation phase P2 for accumulating the audio music signal and the short time window audio music feature.
[0033]
FIG. 2 is a flowchart of the similar voice music search process in the present embodiment. In this example, in search key input processing step S10, a sound source that does not contain noise such as a CD is input. From there, a process of cutting out a voice music signal of about several seconds as a search key is performed to obtain a search key voice music signal.
[0034]
Next, in the feature amount extraction processing step S20, the short time window audio music feature amount extraction unit (search phase) 11 performs the search key input processing while gradually shifting the short time window of about 20 milliseconds to 40 milliseconds. A speech music signal is extracted from the search key speech music signal obtained in step S10, and a short-time window speech music feature is extracted from the extracted speech music signal.
[0035]
Here, as short-time window audio music features, for example, Mel frequency cepstrum coefficients described in Non-Patent Document 4, audio power of each band by filter bank analysis, and Non-Patent Document 5 are described. A weighted cepstrum coefficient or the like can be used. Note that the short-time window audio music feature is expressed as a multidimensional vector.
[0036]
For the search by the similar search processing step S30, the short time window audio music feature amount extraction unit (accumulation phase) 14 performs the feature amount extraction processing of the feature amount extraction processing step S20 from the long time search target audio music signal. Similarly, the short-time window audio music feature value is extracted, and the storage unit 15 stores the extracted short-time window audio music feature value in the storage unit 16. Also, a multi-dimensional spatial index such as SR-tree described in Non-Patent Document 6 or A-tree described in Non-Patent Document 7 is configured from these short-time window audio music feature quantities. .
[0037]
In the similar search processing step S30, the short-time window speech and music feature quantity similarity search unit 12 inputs each short-time window speech and music feature quantity extracted from the search key, and the short-time window in the search target similar to each of the short-time window speech and music feature quantities. Search for speech and music features using a multidimensional spatial index. For each short-time window audio music feature quantity of the search key, a list of short-time window audio music feature quantities in the search target having a high partial similarity is created.
[0038]
It is assumed that the partial similarity is higher as the distance between multidimensional vectors representing the short-time window audio music feature amount is shorter. It has been confirmed that by using a multidimensional spatial index, the search can be performed about 10 times faster than when not using it.
[0039]
Subsequently, the process proceeds to comparison and integration processing step S40. FIG. 3 is a comparison and integration process flowchart according to the present embodiment. The comparison and integration processing step S40 by the audio and music information comparison and integration unit 13 in the first embodiment will be described in detail with reference to the flowchart of FIG.
[0040]
In step S410, a short window audio music feature quantity list having a high degree of partial similarity as a result of the similarity search obtained in the similarity search process step S30 is input, and the position of the short window audio music feature quantity of the search key; Match the position of the corresponding short-time window audio music feature in the search target with high partial similarity to the same position, and cut out the audio music signal of the same length as the search key from the search target audio music signal Create correct answer voice music section. This is performed for all input short-time window music features with high partial similarity, and a list of correct candidate voice music sections is created.
[0041]
FIG. 4 is a diagram for explaining extraction of a correct candidate speech music section from a search target in the process of step S410. .., 9 in the search key audio music signal and a, b,... In the search target audio music signal respectively represent short-time window audio music features. First, as shown in FIG. 4A, the position of the short-time window audio music feature in the search key audio music signal and the position of the short-time window audio music feature in the search target audio music signal having a high similarity. Adjust. In the example of FIG. 4A, since the similarity between the search key short time window audio music feature “4” and the short window audio music feature “h” to be searched is high, the positions thereof are matched.
[0042]
Next, as shown in FIG. 4B, a section having the same length as the search key voice music signal is cut out from the search target voice music signal as a correct answer candidate voice music section. In the example of FIG. 4B, a section ("d" to "m" having the same length as the search key voice music signal ("0" to "9") from the search target voice music signal ("a" to ...). ") Is cut out as a correct candidate speech music section.
[0043]
Next, in step S420 in FIG. 3, a list of correct candidate speech music sections is input, and the short-time window speech music feature amount in the correct candidate speech music section at the top of the list is read. In step S430, the highest-ranked candidate speech music segment in the list of correct candidate speech music segments read in step S420 is deleted from the list.
[0044]
Subsequently, in step S440, the short time window sound music feature amount of the entire correct answer candidate sound music section read in step S420 is input, and the overall similarity between this and the short time window sound music feature amount of the entire search key is calculated. Calculate. The speech and music information comparison and integration unit 13 outputs a set of the correct answer candidate speech and music sections and the overall similarity to the storage unit 15, and the storage unit 15 stores them in the storage unit 16.
[0045]
As a method for calculating the overall similarity, for example, the following method can be used. The distance between the multi-dimensional vector representing the short-time window speech music feature in the search key speech music signal and the corresponding multi-dimensional vector representing the short-time window speech music feature in the correct candidate speech music section, Calculation is made for each corresponding short-time window audio music feature, and the sum of the top of the closest distances among those distances is taken. The smaller the sum, the higher the overall similarity.
[0046]
That is, for example, when there are 300 speech music signals cut out from the search key speech music signal in the short time window, the multi-dimensional representing the short time window speech music feature amount between the search key and the correct candidate speech music section. The distance between the vectors is calculated for each corresponding short-time window audio music feature, and the sum of only the top 100 closest values among the distances is defined as the distance between the search key and the correct candidate audio music section. The closer the distance is, the higher the overall similarity is defined.
[0047]
As a result, it is possible to calculate the overall similarity by treating only the part that does not contain noise or the part that is less affected by noise, so that it is possible to perform a search with reduced influence of non-stationary noise. In addition, it is assumed that the number of distances to be summed among the higher-ranked ones in advance is set in advance. It is also preferable to provide a GUI (Graphical User Interface) for allowing the user to set how many upper sums are used as the overall similarity. Retrieval accuracy can be further improved by increasing the number of sums of short distances between multi-dimensional vectors representing short-time window speech music features when there is a lot of noise and when there is little noise. Is possible.
[0048]
A specific example of the method for calculating the overall similarity will be described with reference to FIG. In the example of FIG. 5, first, the partial similarity between the search key and the correct candidate speech music section is calculated, and the top six cases (“3”, “4”, “5”, “7”) with the smallest partial similarity distance are calculated. ”,“ 9 ”,“ 10 ”) is the distance of the overall similarity between the search key and the correct candidate speech music section. As a result, portions (“1”, “2”, “6”, “8”) having a large distance of partial similarity due to the influence of noise can be removed, and similar speech music can be obtained even if there is non-stationary noise. The signal can be searched.
[0049]
In step S450 of FIG. 3, the correct candidate speech music section list is input, and if this list is already empty, the process proceeds to step S460. If it is not empty, the process returns to step S420 and the process is repeated in the same manner.
[0050]
If the processing of steps S420 to S440 is completed for all correct candidate speech music sections and the correct candidate speech music section list is empty, in step S460, all correct answers held in the storage unit 16 in step S440. A set of candidate speech music sections and their overall similarity is input from the storage unit 15 and rearranged in descending order of overall similarity to create a list.
[0051]
By performing the processing from step S410 to step S460, the comparison and integration processing step S40 of the flowchart of FIG. 2 is a short-time window audio music feature having a high partial similarity as a result of the similarity search in the similarity search processing step S30. And a list of correct candidate speech music sections rearranged in descending order of overall similarity.
[0052]
Thereafter, in the display output processing step S50 of FIG. 2, a list of correct candidate speech music sections in order of high overall similarity is output to the speech music display output device 21 such as a display and selected by a pointing device such as a mouse. The voice music signal of the correct candidate voice music section in the list is output by the voice music display output device 21 such as a speaker.
[0053]
[Embodiment 2]
In the second embodiment, the audio / sound signal of a music piece of several seconds that contains non-stationary noise from a broadcast TV video / audio is sequentially cut out as a search key and a CD prepared as a search target. The same part of the same music as the audio music signal of the music containing the noise is searched from the music database storing the audio music signal not including noise. As a result, it is possible to search for the music name of the music part that contains noise in the video and audio being broadcast and to which part of the music it is.
[0054]
The configuration example of the similar speech and music search device according to the second embodiment is the configuration example shown in FIG. 1 as in the first embodiment. Further, the similar voice music search processing flowchart in the second embodiment is the flowchart shown in FIG. 2, as in the first embodiment. Hereinafter, the second embodiment will be described with reference to the flowchart of FIG. 2, but the search key input processing step S10 and the display output processing step S50 are different from the first embodiment described above.
[0055]
Since the feature amount extraction processing step S20, the similarity search processing step S30, and the comparison integration processing step S40 are the same as the processing in the first embodiment described above, description thereof is omitted.
[0056]
In search key input processing step S10, voice music flowing in real time such as the sound of a TV program being broadcast is input, and a voice music signal of about several seconds is sequentially extracted therefrom as a search key. Get a voice music signal.
[0057]
In the display output processing step S50, the list of correct candidate speech music sections in descending order of overall similarity is output to the speech music display output device 21 (display, etc.), and the correct answers in the list selected by the pointing device such as a mouse are displayed. The voice music signal of the candidate voice music section is output by the voice music display output device 21 (speaker or the like). In the second embodiment, this process is sequentially repeated. As a result, the music used in the background can be searched for the audio music signal flowing in real time.
[0058]
[Embodiment 3]
In the third embodiment, in order to speed up the search time of the first and second embodiments described above, when performing a similar search, the short window audio music feature values are not used as they are, but are arranged in time order. Similarity search is performed using an average short-time window audio music feature value that is an average of a plurality of short-time window audio music feature values. The average short window audio music feature is represented by an average vector of multidimensional vectors representing the respective short window audio music features. As a result, the number of similar searches is reduced and the number of data to be searched is reduced, so that the processing speed can be increased.
[0059]
The configuration example of the similar speech and music search device in the third embodiment is the configuration example shown in FIG. 1 as in the first and second embodiments. Further, the similar voice music search processing flowchart according to the third embodiment is the flowchart shown in FIG. 2 as in the first and second embodiments. Hereinafter, the third embodiment will be described with reference to the flowchart of FIG. 2, but the similar search processing step S30 and the comparison integration processing step S40 are different from the above-described first and second embodiments.
[0060]
The search key input processing step S10, the feature amount extraction processing step S20, and the display output processing step S50 are the same as the processing in the first and second embodiments described above, and thus the description thereof is omitted.
[0061]
FIG. 6 is a flowchart of similarity search processing according to the third embodiment. The process of the similarity search process step S30 in the third embodiment will be described in detail with reference to the flowchart of FIG.
[0062]
For the similar search process, an accumulation phase P2 is executed in advance in steps S310 to S330 below. In step S310, the short time window sound and music feature extraction unit (storage phase) 14 inputs a long time sound and music signal to be searched, and performs the short time window sound and music feature in the same manner as the feature amount extraction processing step S20. The amount is extracted, and the storage unit 15 stores the extracted short-time window audio music feature amount in the storage unit 16.
[0063]
In step S320, all short-time window audio music feature values extracted from the search target audio-music signal are input, and an average of K short-time window audio music feature values arranged in time order is averaged. Create time window audio music features. For example, when K = 6, the average of the six short time window sound and music feature values arranged in time order is set as the average short time window sound and music feature value.
[0064]
In step S330, the average short-time window audio music feature value created in step S320 is input, and the multi-dimensional space is obtained from these short-time window audio music feature values in the same manner as in the first and second embodiments. Build an index.
[0065]
In the search phase P1, in step S340, an average of K times of the short-time window audio music feature quantities of the search key arranged in time order is taken to create an average short-window audio music feature quantity. For example, when K = 6, the average of the six short time window sound and music feature values arranged in time order is set as the average short time window sound and music feature value.
[0066]
In step S350, the short-time window audio music feature quantity similarity search unit 12 inputs the average short-time window audio music feature quantity of the search key, and searches for those similar to the average short-time window audio music feature quantity of these search keys. , Search from the stored average short-time window audio music features of the search object, and for each average short-time window audio music feature of the search key, Create a list.
[0067]
Here, the partial similarity is higher as the distance between the multidimensional vectors representing the average short-time window audio music feature amount is closer. At this time, it is possible to search at high speed by using the multidimensional spatial index constructed in step S330.
[0068]
Further, for example, assuming that K = 6 and an average of six short-time window audio music feature quantities is an average short-window audio music feature quantity, it is multidimensional compared to the first and second embodiments. The number of data constituting the index is 1/6, and the number of searches performed using the multidimensional index is also 1/6, thereby speeding up the search.
[0069]
As for the comparison and integration processing step S40 in the third embodiment, only the processing in step S410 (processing for creating a list of correct candidate speech music sections) in the flowchart shown in FIG. 3 is described in the first and second embodiments. And different. Steps S420 to S460 are the same as those in the first and second embodiments described above, and a description thereof will be omitted.
[0070]
In the following, an example of a method for creating a list of correct candidate speech music sections from the list of average short-time window speech music feature values according to the third embodiment will be described. The method of creating a list of speech music segments is not limited to the following example.
[0071]
FIG. 7 is a flowchart of processing for creating a correct candidate speech music section list according to the third embodiment. The process of creating a list of correct candidate speech music sections in the third embodiment (the process corresponding to step S410 in FIG. 3 in the first and second embodiments described above) is performed using the flowchart in FIG. This will be described in detail.
[0072]
In step S411, a list of average short-time window sound and music feature values as a result of the similarity search step S30 in the third embodiment is input, and the highest average short-time window sound and music feature value of this list is read. In step S412, the highest average short-time window audio music feature amount in the list of average short-time window audio music feature values read in step S411 is deleted from the list.
[0073]
In step S413, the average short-time window audio music feature value read in step S411 is input, and the K short-time window audio music feature values, which are the average of the average short-time window audio music feature values, are obtained. Reading from the storage unit 16 via the storage unit 15.
[0074]
In step S414, for each of the K original short-time window audio music feature values that have been averaged, the position of the original short-time window audio music feature value that has been averaged corresponds to the corresponding short-time window in the search key. The position of the search target audio music signal is aligned so as to be the same position as the audio music feature (for example, the short-time window audio music feature in the center of the averaged interval), and the correct candidate audio music segment is cut out. The total number of the correct answer candidate speech music segments thus cut out is K.
[0075]
In step S415, K correct candidate speech music sections are input, and the K correct candidate speech music sections are described in the list of correct candidate speech music sections.
[0076]
In step S416, a list of average short-time window audio music features is input. If the list is not empty, the process returns to S411, and if empty, a list of correct candidate audio music intervals is output. The processes in steps S411 to S416 described above are executed for all the average short time window audio music feature quantity lists.
[0077]
FIG. 8 is a diagram for explaining an example of creating a correct candidate speech music section from an average short-time window speech music feature amount having a high similarity according to the present embodiment. In the example of FIG. 8, the average of the three short-time window audio music feature quantities (K = 3) is used as the average short-time window audio music feature quantity. In addition, the short-time window audio music feature corresponding to the search key is used as the short-time window audio music feature in the center of the averaged interval.
[0078]
In the figure, “sX” (X = 0, 1, 2,...) Represents the short-time window audio music feature quantity in the search key, and “Mean-sX” (X = 0, 1, 2,...) Represents the search key. Represents the average short-time window audio music feature quantity. Further, “tX” (X = 0, 1, 2,...) Represents the short-time window audio music feature quantity in the search target, and “Mean-tX” (X = 0, 1, 2,...) In the search target. Represents the average short window audio music feature.
[0079]
In FIG. 8A, it is assumed that the degree of similarity between “Mean-s1” of the search key voice music signal and “Mean-t3” of the search target voice music signal is high. The short-time window audio music features that are the basis of “Mean-s1” are “s3”, “s4”, and “s5”, and the short-time window audio music features that are the basis of “Mean-t3”. The amounts are “t9”, “t10”, and “t11”. If the short-time window audio music feature corresponding to the search key is defined as the short-time window audio music feature in the center of the averaged section, it is “s4” here.
[0080]
When the correct candidate speech music section is cut out based on this, as shown in FIG. 8B, the search key speech music signal is set to the positions “t9”, “t10”, and “t11” of the search target speech music signal, respectively. In accordance with the position of “s4”, a voice music signal is cut out with the same length as the length of the search key for each of “t9”, “t10”, and “t11” to create a correct candidate voice music section. Since K = 3, three correct candidate speech music segments are created: “t4” combined with “s4”, “t10” combined, and “t11” combined.
[0081]
FIG. 7 and FIG. 8 show an example of a method for creating a correct candidate speech music section from the list of average short-time window speech music feature quantities. However, the present invention is not limited to this. The short-time window sound and music feature value to be used may be other than the short-time window sound and music feature value at the center of the averaged interval. Further, for example, in the example of FIG. 8, the number of correct answer candidate speech music sections to be created is not limited to K = 3, and an arbitrary number such as K + 2 = 5 and K−1 = 1 may be set. Is possible.
[0082]
【The invention's effect】
According to the present invention, the distance representing the overall similarity between the search key and the search-target speech / music signal cut out to the same length as the search key is the distance of the distances representing the partial similarity between the short-time window speech / music features. By making the sum of only the closest higher ranks, there is an effect that it is possible to perform a similar search of a speech music signal with reduced influence of non-stationary noise (Solution of Problem 1 and Problem 3).
[0083]
In addition, it has the effect of being able to perform a high-speed search by using a multidimensional spatial index when searching for a part with a high degree of partial similarity between short-time window audio music feature quantities (solution of Problem 2).
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a configuration example of a similar speech music search device according to an embodiment of the present invention.
FIG. 2 is a flowchart of similar voice music search processing in the present embodiment.
FIG. 3 is a flowchart of comparison and integration processing in the present embodiment.
FIG. 4 is a diagram for describing extraction of correct candidate speech music sections from search targets according to the present embodiment.
FIG. 5 is a diagram for explaining a method of calculating the overall similarity according to the present embodiment.
FIG. 6 is a flowchart of similarity search processing in the present embodiment.
FIG. 7 is a flowchart of processing for creating a correct candidate speech music section list according to the present embodiment.
FIG. 8 is a diagram for explaining an example of creating a correct candidate speech music section from an average short-time window speech music feature amount having a high similarity according to the present embodiment.
[Explanation of symbols]
P1 search phase
P2 accumulation phase
10 Similar voice music search device
11 Short window audio music feature extraction unit (search phase)
12 Short window audio music feature similarity search unit
13 Audio Music Information Comparison and Integration Department
14 Short-time window audio music feature extraction unit (accumulation phase)
15 Accumulator
16 Memory unit
20 Search key voice music signal input device
21 Voice music display output device
22 Search target audio music signal input device

Claims (4)

検索対象となる音声音楽信号から,検索キーとなる音声音楽信号と類似する音声音楽信号を検索する類似音声音楽検索装置であって,
検索キーとなる音声音楽信号を入力する検索キー入力手段と,
前記検索キーとなる音声音楽信号から短時間窓を用いて短時間窓音声音楽特徴量を抽出する特徴量抽出手段と,
前記抽出された短時間窓音声音楽特徴量を用いて,蓄積された検索対象の音声音楽信号の短時間窓音声音楽特徴量の中から,部分類似度の高い短時間窓音声音楽特徴量を検索する類似検索手段と,
前記類似検索の結果により,前記検索キーの音声音楽信号中での前記検索キーの短時間窓音声音楽特徴量の位置と,前記検索対象の音声音楽信号中での前記部分類似度の高い短時間窓音声音楽特徴量の位置とを合わせ,検索対象の音声音楽信号における前記合わせた位置から検索キーに対応する音声音楽信号を切り出して正解候補音声音楽区間を作成し,その正解候補音声音楽区間と前記検索キーとの対応する短時間窓音声音楽特徴量ごとに,それぞれの短時間窓音声音楽特徴量を表す多次元ベクトル間の距離を計算し,それらの距離のうち距離の近いものの上位何個かの和をとり,その和が小さいものほど高く評価される値となる全体類似度を計算する比較統合手段と,
前記全体類似度の高い順に,前記正解候補音声音楽区間を出力する表示出力手段とを備える
ことを特徴とする類似音声音楽検索装置。
A similar audio music search device for searching an audio music signal similar to an audio music signal as a search key from an audio music signal as a search target,
Search key input means for inputting a voice music signal as a search key;
Feature quantity extraction means for extracting a short time window audio music feature quantity from the audio music signal as the search key using a short time window;
Using the extracted short-time window audio music feature value, the short-time window audio music feature value having a high partial similarity is searched from the short-time window audio music feature value of the stored audio music signal to be searched. Similar search means to
As a result of the similarity search, the position of the short-time window audio music feature of the search key in the audio music signal of the search key and the short time with a high partial similarity in the audio music signal to be searched. The position of the window sound music feature is matched, the sound music signal corresponding to the search key is cut out from the position of the sound music signal to be searched, and a correct candidate sound music section is created. For each short-time window audio music feature corresponding to the search key, the distance between multi-dimensional vectors representing each short-time window audio music feature is calculated, and the top number of those distances closest to each other is calculated. A comparison and integration means for calculating the overall similarity that takes a sum of the values, and the smaller the sum is, the higher the value is.
A similar speech music search apparatus, comprising: a display output means for outputting the correct candidate speech music sections in descending order of the overall similarity.
検索対象となる音声音楽信号から,検索キーとなる音声音楽信号と類似する音声音楽信号を検索する類似音声音楽検索装置であって,
検索キーとなる音声音楽信号を入力する検索キー入力手段と,
前記検索キーとなる音声音楽信号から短時間窓を用いて短時間窓音声音楽特徴量を抽出する特徴量抽出手段と,
前記抽出された短時間窓音声音楽特徴量について,時間順に並ぶK個(Kは2以上の任意の整数)ごとの短時間窓音声音楽特徴量の平均の値である平均短時間窓音声音楽特徴量を算出し,その検索キーにおける平均短時間窓音声音楽特徴量を用いて,予め蓄積された検索対象の音楽信号の時間順に並ぶK個(Kは2以上の任意の整数)ごとの短時間窓音声音楽特徴量の平均の値である平均短時間窓音声音楽特徴量の中から,部分類似度の高い平均短時間窓音声音楽特徴量を検索する類似検索手段と,
前記類似検索の結果により,前記検索キーにおける平均短時間窓音声音楽特徴量の算出区間に含まれる一つの短時間窓音声音楽特徴量の位置と,前記検索対象の音声音楽信号中での前記部分類似度の高い平均短時間窓音声音楽特徴量の算出区間に含まれる短時間窓音声音楽特徴量のいずれかの位置とを合わせ,検索対象の音声音楽信号における前記合わせた位置から検索キーに対応する音声音楽信号を切り出して正解候補音声音楽区間を作成し,その正解候補音声音楽区間と前記検索キーとの対応する短時間窓音声音楽特徴量ごとに,それぞれの短時間窓音声音楽特徴量を表す多次元ベクトル間の距離を計算し,それらの距離のうち距離の近いものの上位何個かの和をとり,その和が小さいものほど高く評価される値となる全体類似度を計算する比較統合手段と,
前記全体類似度の高い順に,前記正解候補音声音楽区間を出力する表示出力手段とを備える
ことを特徴とする類似音声音楽検索装置。
A similar audio music search device for searching an audio music signal similar to an audio music signal as a search key from an audio music signal as a search target,
Search key input means for inputting a voice music signal as a search key;
Feature quantity extraction means for extracting a short time window audio music feature quantity from the audio music signal as the search key using a short time window;
With respect to the extracted short-time window sound and music feature quantity, the average short-time window sound and music characteristic that is the average value of the short-time window sound and music feature quantities for every K pieces (K is an arbitrary integer of 2 or more) arranged in time order. A short time for each of K pieces (K is an arbitrary integer equal to or greater than 2) arranged in the time order of the music signals to be searched that are stored in advance using the average short-time window audio music feature amount in the search key. Similarity search means for searching for an average short-time window audio music feature having a high partial similarity from an average short-time window audio music feature that is an average value of window audio music features;
As a result of the similarity search, the position of one short window audio music feature amount included in the calculation section of the average short window audio music feature amount in the search key and the portion in the audio music signal to be searched Match the position of one of the short-time window audio music features included in the average short-time window audio music feature calculation section with a high degree of similarity, and support the search key from the combined position in the audio music signal to be searched A voice answer signal is cut out to create a correct candidate voice music section, and for each short time window voice music feature corresponding to the correct candidate voice music section and the search key, Calculate the distance between the multi-dimensional vectors to be represented, take the sum of the top of the closest ones of those distances, and calculate the overall similarity that gives a higher value as the sum is smaller And comparing integration means that,
A similar speech music search apparatus, comprising: a display output means for outputting the correct candidate speech music sections in descending order of the overall similarity.
請求項1または請求項2に記載の類似音声音楽検索装置を構成する各手段としてコンピュータを機能させる類似音声音楽検索プログラム。 A similar speech music search program for causing a computer to function as each means constituting the similar speech music search device according to claim 1 . 請求項3に記載の類似音声音楽検索プログラムを記録したコンピュータ読み取り可能な記録媒体。 A computer-readable recording medium on which the similar speech / music search program according to claim 3 is recorded.
JP2003008083A 2003-01-16 2003-01-16 Similar voice music search device, similar voice music search program, and recording medium for the program Expired - Fee Related JP3999674B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003008083A JP3999674B2 (en) 2003-01-16 2003-01-16 Similar voice music search device, similar voice music search program, and recording medium for the program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003008083A JP3999674B2 (en) 2003-01-16 2003-01-16 Similar voice music search device, similar voice music search program, and recording medium for the program

Publications (2)

Publication Number Publication Date
JP2004219804A JP2004219804A (en) 2004-08-05
JP3999674B2 true JP3999674B2 (en) 2007-10-31

Family

ID=32897990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003008083A Expired - Fee Related JP3999674B2 (en) 2003-01-16 2003-01-16 Similar voice music search device, similar voice music search program, and recording medium for the program

Country Status (1)

Country Link
JP (1) JP3999674B2 (en)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100749045B1 (en) * 2006-01-26 2007-08-13 삼성전자주식회사 Method and apparatus for searching similar music using summary of music content
JP2008107641A (en) * 2006-10-26 2008-05-08 Yamaha Corp Voice data retrieving apparatus
CN101226526A (en) * 2007-01-17 2008-07-23 上海怡得网络有限公司 Method for searching music based on musical segment information inquest
KR100852196B1 (en) * 2007-02-12 2008-08-13 삼성전자주식회사 System for playing music and method thereof
JP4613924B2 (en) * 2007-03-30 2011-01-19 ヤマハ株式会社 Song editing apparatus and program
JP4364288B1 (en) 2008-07-03 2009-11-11 株式会社東芝 Speech music determination apparatus, speech music determination method, and speech music determination program
JP5213797B2 (en) * 2009-06-03 2013-06-19 日本電信電話株式会社 Metadata search device, metadata search method, metadata search program, and metadata search system
JP5230567B2 (en) * 2009-08-31 2013-07-10 日本電信電話株式会社 Signal detection apparatus, signal detection method, signal detection program, and recording medium
JP2011128981A (en) * 2009-12-18 2011-06-30 Toshiba Corp Retrieval device and retrieval method
JP5510208B2 (en) * 2010-09-03 2014-06-04 ヤマハ株式会社 Music playback device
JP7035509B2 (en) * 2017-12-22 2022-03-15 ヤマハ株式会社 Display control method, program and information processing device
CN111477198B (en) * 2020-03-05 2023-07-14 支付宝(杭州)信息技术有限公司 Method and device for representing music bar and electronic equipment

Also Published As

Publication number Publication date
JP2004219804A (en) 2004-08-05

Similar Documents

Publication Publication Date Title
EP1244093B1 (en) Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus and methods and programs for implementing the same
US9053183B2 (en) System and method for storing and retrieving non-text-based information
CN105723449B (en) speech content analysis system and speech content analysis method
JP3488174B2 (en) Method and apparatus for retrieving speech information using content information and speaker information
KR100446627B1 (en) Apparatus for providing information using voice dialogue interface and method thereof
JP3999674B2 (en) Similar voice music search device, similar voice music search program, and recording medium for the program
Park et al. Towards unsupervised pattern discovery in speech
US20090234854A1 (en) Search system and search method for speech database
US8108452B2 (en) Keyword based audio comparison
JP5296598B2 (en) Voice information extraction device
JP2000172693A (en) Device and method for retrieving music and recording medium with music retrieval program recorded therein
JP3434223B2 (en) Music information search device, music information storage device, music information search method, music information storage method, and recording medium recording these programs
Ram et al. Multilingual bottleneck features for query by example spoken term detection
Spevak et al. Soundspotter-a prototype system for content-based audio retrieval
JP4125990B2 (en) Search result use type similar music search device, search result use type similar music search processing method, search result use type similar music search program, and recording medium for the program
Wang Essumm: Extractive speech summarization from untranscribed meeting
KR20060100646A (en) Method and system for searching the position of an image thing
Dumpala et al. Analysis of constraints on segmental DTW for the task of query-by-example spoken term detection
JP4125989B2 (en) Similar voice music search device, similar voice music search processing method, similar voice music search program, and recording medium for the program
KR20090083972A (en) Method for building music database for music search, method and apparatus for searching music based on humming query
Mihajlovic et al. Automatic annotation of formula 1 races for content-based video retrieval
JP3798991B2 (en) Audio signal search method, audio signal search apparatus, program thereof, and recording medium for the program
Ohtsuki et al. Automatic multimedia indexing: combining audio, speech, and visual information to index broadcast news
Borjian Query-by-example music information retrieval by score-based genre prediction and similarity measure
JP2004145161A (en) Speech database registration processing method, speech generation source recognizing method, speech generation section retrieving method, speech database registration processing device, speech generation source recognizing device, speech generation section retrieving device, program therefor, and recording medium for same program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070517

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070809

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120817

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130817

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees