JP2007519092A - メロディデータベースの検索 - Google Patents

メロディデータベースの検索 Download PDF

Info

Publication number
JP2007519092A
JP2007519092A JP2006543667A JP2006543667A JP2007519092A JP 2007519092 A JP2007519092 A JP 2007519092A JP 2006543667 A JP2006543667 A JP 2006543667A JP 2006543667 A JP2006543667 A JP 2006543667A JP 2007519092 A JP2007519092 A JP 2007519092A
Authority
JP
Japan
Prior art keywords
query string
substring
query
database
substrings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2006543667A
Other languages
English (en)
Inventor
セー パウス,ステーフェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007519092A publication Critical patent/JP2007519092A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

メロディデータベース(114)中のオーディオフラグメントを表すクエリストリングを検索するシステムであって、ユーザからクエリストリングを受信する入力(122、132)を含む。メロディデータベース(114)は、複数のオーディオフラグメントの表示を格納している。プロセッサ(116)を用いて、前記クエリストリングを複数のクエリサブストリングのシーケンスに分解する(117)。各サブストリングは、データベースを独立に検索して(118)、少なくとも1つのそれぞれ前記サブストリングと最も一致するものを見つける。それぞれのサブストリングの検索結果に応じて、前記クエリストリングと最も近い少なくとも1つの一致を決定する(119)。

Description

本発明は、メロディデータベースにおいてオーディオの一部を表すクエリストリングの検索方法に関する。本発明は、さらに、メロディデータベースにおいてオーディオの一部を表すクエリストリングを検索するシステムと、そのようなシステムで使用するサーバに関する。
インターネットを介したオーディオ配信が増加するにつれ、オーディオトラック/タイトルの検索もより重要になりつつある。従来、ユーザは、アーティスト名、作曲家、レコード会社等のメタデータでオーディオタイトル/トラックを検索することはできた。データベースを検索してマッチするオーディオトラックを探した。ユーザは検索結果(hit)の1つ(または幾つか)を選択して、再生/ダウンロードすることができる。ユーザは好適なメタデータを常に特定できるわけではないので、他の形式で特定するクエリストリングも利用することができる。米国特許公報第5,963,957号には、いわゆる「ハミングによるクエリ」が開示されている。ユーザは単にオーディオトラックの一部をハミングする。ユーザがハミングしたオーディオ部分は、(例えば、ハミングした部分を音程または音程差のシーケンスに変換することにより)クエリストリングに変換される。そして、データベースを検索してマッチするトラック(または、より一般的には、ハミングされた部分を含むより長いオーディオ部分)を探す。マッチングは距離測定による。統計的基準を使用することもある。歌、口笛、タッピング等の他のオーディオ入力のやり方も知られている。
本発明の目的の1つは、データベース中のオーディオフラグメントを探す正確性を高める、上述の方法、システム、及びサーバを提供することである。
本発明の目的を満たすため、メロディデータベースにおいてオーディオフラグメントを表すクエリストリングとの一致を検索する方法は、次の段階を含む:前記クエリストリングを複数のクエリサブストリングのシーケンスに分解する段階と、各サブストリングについて、独立に前記データベースを検索して、少なくともそれぞれ前記サブストリングと最もよい一致を見つける段階と、それぞれのサブストリングの検索結果に応じて、前記クエリストリングと最も近い少なくとも1つの一致を決定する段階。
本願発明者は、ユーザによるオーディオ入力を表すクエリストリングは、現実的には、データベース中の表されたより大きなオーディオフラグメントのコヒーレントなシーケンシャルな部分ではないことに気がついた。例えば、ユーザは、2つのフレーズを有するオーディオフラグメントを表すクエリストリングを提供し:そのユーザは、最初にメインの歌詞のフレーズを歌い、次にコーラスのフレーズを歌い、最初のフレーズとコーラスのフレーズの間にあるフレーズはスキップした。ユーザはフレーズの1つを入力しただけなので、データベース中に「完全な」一致が見つかるかも知れない。従来の検索方法は、データベースに対して、両方のフレーズのシーケンス全体とマッチするように試みる。多くの場合、これにより非常に近い一致が与えられ(信頼できるものが検出できた場合)、システムの正確性を少なくとも低下させる。
本発明によると、前記クエリストリングを複数のクエリサブストリングのシーケンスに分解する。サブストリングは、データベース中に格納されたオーディオ表示に対して独立にマッチングされる。個別のマッチング動作の結果を用いて、クエリストリング全体の一致を決定する。ユーザが2つのシーケンシャルでないフレーズをクエリストリングとして提供した例の場合、両方のフレーズをより信頼性高く見つけることができる。同じオーディオトラックについて両方がよい一致を示した場合、そのトラックをクエリ全体と一致するものとして非常に高い信頼性で特定することができる。
最近、大容量オーディオを格納できるローカルシステムが人気を集めている。このようなシステムは、オーディオジュークボックスを有するPC、チューナとハードディスクを組み込んだセットトップボックス、ハードディスクレコーダ等のいかなる形体を取ることもできる。また、携帯の大容量オーディオ記憶システムが、アップル者のiPodやフィリップス者のHDD100として入手可能である。これらのローカル記憶システムは、容易に何千というオーディオトラックを格納することができる。従来、このようなシステムは、ユーザに、アーティスト、タイトル、アルバム等の1つ以上のメタデータアイテムを指定することにより、トラックを検索可能としている。本発明による方法は、特にユーザが関連するメタデータを忘れた場合に、このようなシステムにおいてオーディオトラックを素早く選択するために使用することもできる。
従属請求項2に記載の手段によると、分解により、クエリはそれぞれフレーズに対応するサブストリングに分割される。フレーズ境界は、好適な方法で検出できる。例えば、フレーズは中心の音程の周囲にある通常8から20の音符を持つ。フレーズ間に息継ぎのポーズがあり、中心音程が変化する。フレーズは、ハミングを遅くすることにより終了することも多い。または、フレーズは、音程の大きな違いや長い音程により区別してもよい。クエリストリング中に現れるシーケンシャルなフレーズを分けて認識することにより、正確性が高まる。
従属請求項3の手段によると、ユーザは、異なる入力モダリティを用いて入力された複数のオーディオ部分のミックスであるオーディオフラグメントを表すクエリストリングを提供するかも知れない。従来のメロディデータベースは、1タイプの入力モダリティしかサポートしていない。そこで、ユーザはそのデータベースの入力タイプを使用しなければならない。本発明によると、データベースは、複数のモダリティを用いて入力されたオーディオフラグメントを検索することができる。
従属請求項4の手段による、少なくとも1つの前記クエリ入力モダリティは、ハミング、歌、口笛、タッピング、手拍子、パーカッシブボーカルサウンドの1つである。原理的には、データベースがサポートしている限り、いかなる好適な入力モダリティを用いてもよい。
従属項5の手段によると、入力モダリティの変化を検出するといつも新しいサブストリングが始まる。上記の通り、従来のメロディデータベースは、クエリストリング全体の検索しかできない。本願発明者は、ユーザが、クエリストリングにより表されるオーディオフラグメントの入力中に、入力モダリティを変更するかも知れないことに気がついた。例えば、ユーザはコーラスのフレーズを使うかも知れないし、主旋律のフレーズをハミングするかも知れない。クエリストリングを分割することにより、異なる入力モダリティに対応する部分を分けて検索することができる。例えば、それぞれの入力モダリティに最適化されたデータベースを用い、または各モダリティについてデータベース中の同じフレーズを表すことによる。
従属項6の手段によると、サブストリングの位置と大きさを最適化する繰り返しの自動プロセスを用いる。この方法により、自動的に分解を見つけることができる。サブストリング数を初期評価する。各サブストリングは、(サブストリングのオーディオ的特徴を有する)それぞれの重心で表される。このように、初期評価により重心の初期数を決定する。重心の初期位置をオーディオフラグメントに沿って等距離に分布しているように選択してもよい。サブストリングは最初同じ大きさであってもよい。本方法により、サブストリングとその重心の間の距離を最小化する。1つの入力モダリティから他の入力モダリティへのジャンプは、通常、距離を減らす方向に影響する。そこで、サブストリングがオーディオフラグメントの2つの連続する入力モダリティが最初にオーバーラップする場合、最小化をすると、サブストリングの境界をその重心と同じ入力モダリティ内に入るまで、シフトする傾向がある。同様に、次のサブストリングの境界はシフトする。
従属項7の手段によると、サブストリングの数の初期評価(及び重心数)は、フレーズの平均長さと比較したオーディオフラグメントの長さに基づく。例えば、40音程のオーディオフラグメントは、(最小フレーズ長さを8音程として)最大で5つのフレーズを含むと仮定する。そこで、繰り返しをオーディオフラグメントに沿って等距離に分布した、5つの重心から始める。好ましくは、この重心数を重心の最大数として用いる。重心がより少ない場合にも同じ最適化を実行して、フラグメントが非常にコヒーレントな状況をカバーする(例えば、ユーザが正しいフレーズのシーケンスを歌った場合)。
従属項8の手段により、クエリストリングを(距離尺度が暗黙の分類基準として機能する)より多くの一貫性のあるサブストリングに暗に分割する自動最小化手続を用いる替わりに、またはそれに加えて、明示的分類基準をセグメンテーションに用いることもできる。同じサブストリングに割り当てられたクエリストリングの各部分が同じ所定の分類基準を満足し、各2つのシーケンシャルなサブストリングが異なる所定分類基準を満足する。異なる分類基準は、それぞれの入力モダリティのオーディオ的特徴を表す。例えば、一部の入力モダリティは、歌及びハミングと同様に、明確なピッチを有し、一方、その他の入力モダリティは、パーカッションのように、明確なピッチは持たない(すなわち、ノイズ的である)。言うまでもなく、一部の特徴はすべてのユーザに適用できるという意味で絶対的であり、一方、一部の特徴は相対的であり(例えば、口笛のピッチレベルは歌/ハミングのピッチと相対的である)、オーディオフラグメント全体を分析した後、またはユーザによる初期トレーニングの後にのみ設定される。
従属項9の手段によると、分類により、入力モダリティの変化を示す入力クエリストリング内の境界を検出する。検出された境界は、サブストリングが2つの連続する境界の間に入らなければならないという自動セグメンテーションの制約として使用される(すなわち、サブストリングは境界と重なってはならない)。言うまでもなく、1つ以上のサブストリング(例えば、2つの歌われたフレーズ)は2つの境界間にあってもよい。この場合、オーディオフラグメントの初めと終わりは境界として数えられる。
従属項10の手段によると、各サブストリングについて一致をデータベースで検索することにより、各サブストリングについて、データベース中で対応する類似度尺度を有するN個の最も近い対応する部分のベストNリスト(N≧2)が与えられる。求めたベストNリストに基づいて、クエリストリング全体の最適な一致を決定する(または、ベストNリストはクエリストリング全体について作成される)。
本発明の目的を満たすため、メロディデータベースにおいてオーディオフラグメントを表すクエリストリングとの一致を検索するシステムは、次のものを含む:ユーザから前記クエリストリングを受け取る入力と、複数のオーディオフラグメントのそれぞれの表示を格納するメロディデータベースと、少なくとも1つのプロセッサであって、プログラムの制御下において、前記クエリストリングを複数のクエリサブストリングのシーケンスに分解する段階と、各サブストリングについて、独立に前記データベースを検索して、少なくともそれぞれ前記サブストリングと最もよい一致を見つける段階と、それぞれのサブストリングの検索結果に応じて、前記クエリストリングと最も近い少なくとも1つの一致を決定する段階。
本発明の上記その他の態様は、以下に説明する実施形態を参照して説明し、明らかとなるであろう。
本発明によると、クエリストリングはサブストリングに分割され、個別にデータベース中を検索され、その結果に基づきマッチングしているか判断される。再分割(sub-division)は入力モダリティの変化を反映することが好ましい。このような再分割は幾つかの方法で達成できる。以下に、ダイナミックプログラミングを用いた最小化アルゴリズムを説明し、分類アプローチを説明する。また、アプローチを組み合わせて使用することもある。例えば、分類を最小化の事前分析として使用する。入力モダリティを変化させて再分割を実行する替わりに、フレーズの変化に基づいて再分割してもよい。好適なフレーズ検出アルゴリズムであればどんなものを用いてもよい。好ましくは、入力モダリティの変化による再分割とフレーズの変化による再分割を組み合わせる。例えば、まず、入力モダリティが変化するたびにサブストリングを生成するために再分割を行う。フレーズの変化を検出した時はいつも、これらのサブストリングをさらに再分割する。
図1は、本発明による方法を使用することができる、システム例100のブロック図を示す。このシステム100において、機能はサーバ110とクライアント(2つのクライアント120と130を示す)に分散されている。サーバ110とクライアント120と130はネットワーク140を介して通信可能である。このネットワークは、イーサネット(登録商標)等のローカルエリアネットワーク、WiFi、ブルーツゥース、IEEE1394等である。好ましくは、ネットワーク140はインターネットのようなワイドエリアネットワークである。装置にはネットワーク140を介して通信するための好適なハードウェア/ソフトウェア(サーバ110のアイテム112及びクライアントの対応する対テム126と136)が含まれている。このような通信ハードウェア/ソフトウェアは知られているので、これ以上は説明しない。
本発明によるシステムにおいて、ユーザはオーディオフラグメントを表すクエリストリングを直接的または間接的に特定する。図1の機能の再分割を用いて、ユーザは、ユーザインターフェイス122、132を介してそれぞれクライアント120または130の一方を用いてクエリストリングを指定する。クライアントは、PC等の従来のコンピュータや、PDA等のコンピュータのような装置に実装されてもよい。具体的には、クライアントは音楽ライブラリ(リアルワン、ウィンドウズ(登録商標)メディアプレーヤ、アップルiチューンズ等)を含む装置に実装され、ライブラリから再生すべきオーディオトラックまたはライブラリにダウンロードすべきオーディオトラックをユーザが指定可能とする。マウス、キーボード、マイクロホン等、いかなる好適なユーザインターフェイスを用いてもよい。特に、ボーカル入力等のオーディオまたはオーディオのような入力を用いて、オーディオフラグメントを指定することもできる。例えば、ユーザは、オーディオフラグメントを歌ったり、ハミングしたり、口笛を吹いたり、タッピングしたりする。クライアントは、マイクロホンを通してオーディオフラグメントを受け取ってもよい。そのマイクロホンは、従来のアナログマイクロホンでもよく、その場合、クライアントはPCのオーディオカードに通常あるようなA/Dコンバータを含む。マイクロホンは、すでにA/Dコンバータを含んでいるデジタルマイクロホンであってもよい。このようなデジタルマイクロホンは、例えば、USB、ブルーツゥース等を用いて、好適な形式でクライアント120と130に接続される。オーディオフラグメントは他の形式で入力されてもよい。例えば、従来の入力装置(例えば、マウスや標準PCテキストキーボード、またはPCに接続された音楽キーボード)を用いて音符を指定してもよい。
好ましくは、クライアントは、オーディオフラグメントをクエリストリングに変換する何らかの処理を実行する。このような処理は、プロセッサ124と134により好適なプログラムの制御下で実行される。プログラムは、ハードディスク、ROM、またはフラッシュメモリ等の不揮発メモリからプロセッサ124と134に読み込まれる。前処理は、例えばMP3圧縮を用いたオーディオフラグメントの圧縮に限定されていてもよい。オーディオフラグメントがMidiフォーマット等の好適な圧縮形式にすでにあれば、クライアント120と130ではそれ以上の前処理は必要ないかも知れない。前処理には、メロディデータベース114にわたる検索に好適なフォーマットへの変換が含まれてもよい。原理的には、データベースにおいてオーディオフラグメントの実際のオーディオコンテントを表すために、いかなる好適な方法を用いてもよい。そうするいろいろな方法が知られている。例えば、そのフラグメントを音程のシーケンスとして記述する(音符の長さは任意的)方法などである。絶対的な音程のシーケンスではなく、音程の変化(音程の上昇、一致、下降)だけを与える形式も知られている。そう望むならば、メロディデータベースはオーディオフラグメントのスペクトル情報を含んでもよい。方法は、オーディオ処理の技術分野において周知であり、特に、オーディオ及び/またはボーカル入力を分析に好適かつデータベースにわたる一致検索に好適な形式で表すスピーチ処理の技術分野で周知である。例えば、ピッチ検出方法は周知であり、音程値と音程長さの確定に使用することができる。このような方法は、本発明の一部ではない。
本発明によるシステムについて、データベース114へのアクセスのためにクエリストリングを指定するいかなる好適な形式も、データベース114がそのクエリストリングフォーマットをサポートしている限り使用することができる。データベースは、データベースのレコードを検索してクエリとの一致を探すように動作する。このようなクエリをサポートするメロディデータベースは知られている。好ましくは、一致(match)は「完全」一致である必要はなく、「統計的」一致でよい。すなわち、クエリに似たフィールドを有するデータベース中の1つ以上のレコードが特定される。類似度は統計的な尤度である。例えば、クエリアイテムとデータベースの対応するフィールドとの間の距離尺度に基づく。好ましくは、データベースはより速く一致を検索できるようにインデックスがつけられている。未公開の特許出願(代理人ドケット番号PHNL030182)には、厳密でない一致をサポートするデータベースのインデックス付け方法が記載されている。いうまでもなく、特定されたレコードのデータベースは、システムの使用に有用な情報を格納している。そのような情報は、作曲家、演奏アーティスト、レコード会社、録音年、スタジオ等の、特定されたフラグメントに関する書誌的情報を含む。データベースを検索すると、1つ以上の「一致する」レコードが(好ましくは、データベース中の例えば10個の最も確からしいヒットを伴う、ベストN曲リストの形式で)特定され、格納された書誌的データの一部または全部とともにそのレコードが提示される。図1の構成において、情報は、サーバからネットワークを介してクエリを指定したクライアントに送られる。クライアントのユーザインターフェイスを用いて、ユーザに対してその情報を提示し(例えば、ディスプレイまたは音声合成を用いる)、またはインターネットサーバから特定されたオーディオトラックまたは全アルバムのダウンロード等の自動動作を実行する。データベースでは、フレーズまたはそれよりも小さいフラグメント(半フレーズ等)を検索でき、検索のロバスト性を向上することが好ましい。
本発明によると、前記クエリストリングを複数のクエリサブストリングのシーケンスに分解する。各サブストリングについて、データベースを独立に検索して、少なくとも1つのそれぞれ前記サブストリングと最も一致するものを見つける。上述のように、これにより、データベース中のN個の最も近い対応する部分のベストNリスト(N≧2)が対応する類似度の尺度と共に得られる。類似度の尺度は距離または尤度である。好適な距離尺度/尤度は、当業者に知られており、これ以上説明はしない。それぞれのサブストリングの検索結果に応じて、システムは、クエリストリング全体と最も近い少なくとも1つの一致を決定する。好ましくは、システムは、ストリング全体についてベストNリスト(N≧2)を作成し、ユーザが有望な候補の限定されたリストから最終的に選択できるようにする。データベースがサブストリングについてベストNリストを提供できるシステムの場合、クエリストリング全体の一致は、そのサブストリングのベストNリストの類似度尺度に基づくことが好ましい。下位の一致(sub-matches)の結果から、サブストリングのベストNリストを1つのベストNリストにマージして、全体一致の結果を決める方法は周知である。これは、サブストリングとの規格化された距離に関するリストで全アイテムを順序付けることにより行われる。あるいは、ベストNリストの等価なアイテムの平均規格化距離を計算することができる。サブストリングの長さは異なるので、規格化が必要である。後の方はすべてのメロディの順序付けを表すので、各ベストNリストにアイテムがある。この手段はアイテムを順序付けるのに使用することができる。両方の場合において、一番上のアイテムは、与えられた分解について最もよい候補を表す。
図1は、サーバ110のプロセッサ116を用いて、本発明による方法を実行することを示している。すなわち、クエリストリングを分解し(ステップ117)、データベースを検索して各サブストリングとの一致を探し(ステップ118)、サブストリングとの一致に基づいて結果を決定する(ステップ119)。サーバは、インターネットサーバとして知られたような好適なサーバプラットフォーム上で実施されてもよい。プロセッサは、例えばインテル社のサーバプロセッサなどの、いかなる好適なプロセッサであってもよい。プログラムは、ハードディスク(図示せず)等のバックグラウンド記憶装置からロードされる。データベースは、オラクル、SQLサーバ等のいかなる好適なデータベース管理システムを用いて実施してもよい。
図2は、本発明がスタンドアロン装置200で利用される、別の構成を示している。このような装置は、例えば、PCやアップルのiPodのような携帯オーディオプレーヤである。図2において、図1ですでに説明した機能は、同じ参照番号をつけた。有利にも、データベースは、格納されたオーディオフラグメント表示について、そのフラグメントが組み込まれているオーディオタイトルへのリンクも含んでいる。実際のオーディオタイトルは、データベースに格納されていてもよいが、必ずしもその必要はない。好ましくは、タイトルは装置自体に格納される。あるいは、タイトルは、ネットワークを介してアクセス可能である。そのような場合、リンクはURLであってもよい。オーディオトラックまたはオーディオアルバム等の実際のタイトルに一致(match)をリンクすることにより、タイトルの素早い選択が可能となる。オーディオトラックの一部をハミングすることにより、その部分を有するトラックが特定され、完全に自動的に再生が開始する。
図3は、クエリストリングを分解する好ましい方法を示す。分解は、ステップ310において、クエリストリング中にいくつ(N個)のサブストリングがあるか評価することで始まる。好ましい実施形態において、これは、システムに1フレーズあたり1サブストリングとバイアスをかけることにより行う。これは、クエリストリングに表された、音符の数Nを計算することにより達成できる。1フレーズは一般的に8から20の音符からなるので、フレーズ数はNnotes/8とNnotes/20の間にある。最初の分解は、NsとしてNnotes/8を(好適な丸めの後に)使用することに基づく。ステップ320において、クエリストリングをN個のシーケンシャルなサブストリングに分割する。好適な最初の分割は、等距離分布を用いて求められる。これは図4Aに示されている。図4Aにおいて、クエリストリング410は、3つのサブストリング(420、430、440で示す)に最初分割される。最初、これらのサブストリングは同サイズである。すなわち、クエリストリング410が表すオーディオフラグメントと同じ長さを表す。サブストリングはシーケンシャルであり、一緒になってクエリストリング410全体をカバーする。各サブストリング420、430、440は、それぞれの重心425、435、445により表される。重心はXで示され、対応するサブストリングの中心にあるものとして図4Aと図4Bに示した。このようなサブストリングを表す重心をどう計算するかは周知である。例えば、ユーザによるオーディオフラグメント入力は、短い(例えば、20ms)同サイズフレームを用いて分析する。従来の信号処理は、特に、異なる入力モダリティ(すなわち、歌唱スタイル)間を区別するのに好適な、低レベルスペクトル特徴ベクトルをこれらのフレームから抽出するために使用される。このような特徴ベクトルは周知である。セプストラル(cepstral)係数を用いて、重心はオーディオサブストリング内のベクトルの算術平均である。このように、重心の初期値を求める。実際には、すべてのサブストリングが同じサイズではない(1つのモダリティで入力されたフレーズとセグメントは、一般には同じ長さではない)。これは、サブストリングの最適な位置とサイズを見つけることが望ましいことを示唆している。好ましくは、ダイナミックプログラミング(他の文献ではレベル構築としても知られている)を用いて、最適点を見つける。ダイナミックプログラミングはオーディオ処理の分野では周知であり、特に、スピーチ処理の分野では周知である。重心が与えられると、ダイナミックプログラミングは、ステップ330において、重心の値を固定しておいて、サブストリングの長さと位置を変化させる。このように、サブストリングの境界を最初に評価する。これは、各重心とそれに対応するサブストリング間のトータルの距離尺度を最小化することにより行う。当業者は、好適な距離尺度を選択することができるであろう。例えば、セプストラル係数を用いた、(重みづけ)ユークリッド距離は適当な距離尺度である。重みづけを用いて一定の係数を強調したり弱くしたり(de-emphasize)してもよい。図4Aの例において、2つの後続部分間の主な破れ(break)が位置450に示されている(例えば、入力モダリティの変化)。図4Bは、サブストリングの境界が第1の最小化ラウンドのどのくらい後ろにあるかを示す。この例において、サブストリング420は縮まっている。サブストリング420の左境界は、クエリストリング410の始めで固定されている。サブストリング430は少し大きくなり、左境界が左にシフトしている。言うまでもなく、重心値はもはや対応するサブストリングを適格に表していない。ステップ340において、重心の新しい値は、現在のサブストリング境界に基づき計算される。所定の収束基準を満たすまで、上記プロセスを繰り返す。収束基準は、重心間の距離とそれぞれのサブストリングの合計がもはや減少しないということである。この基準をステップ350でテストする。任意的に、頭の音符(note onsets)はクエリストリングにおいて検出される(例えば、エネルギーレベルに基づく)。頭の音符は、フレーズ境界の識別子として使用することができる(音符の途中で切らないことが好ましい)。このように、実際のサブストリング境界は、音符の間にあるように調節される。
一実施形態において、ユーザは、ハミング、歌、口笛、タップ、手拍子、またはパーカッシブボーカルサウンド等の複数のクエリ入力モダリティをミックすることによりクエリストリングを入力する。図3の方法は、通常、入力モダリティ間の変化を正確に決定することができる。その理由は、異なる入力モダリティに対するオーディオの違いを示す好適な重心パラメータを選択した場合、そのような変化は、距離尺度に影響するからである。異なる入力モダリティのオーディオ的特徴は次のようにまとめることができる:
歌が明確なピッチを有する。つまり、歌の波形のスペクトル表示中でハーモニー成分が容易に検出できることである。言い換えると、スペクトルのピークは、単一のスペクトルピーク、すなわち第一高調波または基本周波数(歌のピッチと呼ばれることが多い)の倍数である。異なる声域(「チェスト」、「中音」、「ヘッド」、「ファルセット」歌唱)は、異なる周波数範囲を有する。
パーカッシブサウンド(手拍子、表面のタッピング)は、よくても不明確なピッチを有する。すなわち、第1高調波として解釈できる複数のピークがある。さらに、パーカッシブサウンドは過渡的すなわちクリック(click)である。パワーと振幅が急速に変化し、すべての周波数にわたってしまう。これは容易に識別できる。
ハミングは顕著なスペクトルのピークが無い、中程度の周波数の低周波帯域を含む。
口笛は700Hzから2800Hzまでのピッチ(第一高調波)範囲を有する。弱い高調波を有するほぼ純粋な音程である。人の最も低い口笛の音程は、その人が歌える最も高い音符とほぼ近い(それで、口笛は歌よりも1.5から2オクターブ高いことがある)。
雑音は本来的に確率的である。このため、1つの周波数帯域(ピンクノイズ)または完全な周波数範囲(ホワイトノイズ)にわたってフラットなスペクトルを有する。
当業者は望めばより多くの入力モダリティの相違点を挙げることができる。
上記の自動的最小化方法を用いる再分割に替えて、クエリストリングをサブストリングのシーケンスに分解して、シーケンスの各サブストリングが所定の分類基準を満たし、2つのシーケンシャルなサブストリングの各々が異なる所定分類基準を満たすようにすることにより、クエリストリングをサブストリングに再分割してもよい。そこで、オーディオフラグメントの一部が画成された一貫性(例えば、歌に使用される画成波に内の明確に区別可能な音符(ピッチ))を示し、次の部分が他の一貫性(例えば、音符は明確に区別可能であるが、平均的に1.5オクターブ高い、一般的には口笛で使用するピッチ)を示す場合、これにより、その部分を異なる分類とし、分類の変化を新しいサブストリングの始まりであると解釈する。言うまでもなく、ある分類基準は、フラグメント全体の事前分析やユーザによるトレーニングの後でなければ完全に決めることはできない。このような事前分析は、例えば、ユーザが男性か女性かを明らかにし、歌、口笛等で使用される平均ピッチについての情報を提供する。他の基準は各人について同じであり、例えば、ボーカルパーカッションは主に音程がない(例えば、雑音的であり、明確に識別可能なピッチがない)。確立されたデフォルト及び/または人による基準を設けて、クエリストリング(クエリストリングにより表されるオーディオフラグメント)をさらに分析する。分類に使用するオーディオ的特徴は、ストリング/フラグメントの一部について決定され、異なる分類基準に対して比較される。このように、システムは、分類基準の異なる組を含み、各組が入力モダリティの1つを表すことが好ましい。分析されるフラグメントのオーディオ的特徴は、基準の各組と比較される。特徴がその組の1つと(完全に、またはほぼ)一致する場合、オーディオ部分がその組と対応する入力モダリティを介して指定される。分類方法は周知である。いかなる好適な方法を用いてもよい。分類方法の一例は以下の通りである。フラグメントの比較的小さな部分をそれぞれ時間分析する(例えば、フレーズの1/3または1/2)。分析中、その幅を有する分析ウィンドウをオーディオフラグメント全体にわたってスライドする。ウィンドウがオーディオフラグメント全体の部分(consistent part)内にある限り、対応する分類規準の組と比較的よい一致が得られる。入力モダリティ間の変化がある境界を越えてウィンドウがシフトするとき、一致は弱く、ウィンドウがさらにシフトすればさらに弱くなる。ウィンドウが次の部分(consistent part)に十分シフトされると、その入力モダリティについて分類規準の組とのより強い一致が見られる。一致はウィンドウがその部分にさらにシフトされるにつれ、よくなる。このように、比較的正確に境界を検出することができる。分析ウィンドウは、例えば、10から30msecのフレームごとにシフトされる。オーディオフラグメント全体の分析が完了し、(オーディオフラグメント全体の初めと終わりの境界に加えて)少なくとも1つの境界が検出されると、サブストリングが協会内に形成される。
上述の分類方法は、上述のようにサブストリングへの再分割を実行するために使用することができる。好ましい実施形態において、サブストリングの位置を、分類を用いて検出された連続する境界内に制約することにより、分類を図3の自動的な手続に対する事前処理として使用する。制約されたダイナミックプログラミング法は周知であり、ここではこれ以上詳しく説明しない。
言うまでもなく、上記の分類情報はサブストリングの位置とサイズの最適点を見つけるために使用されるのみでなく、データベースを介した検出を向上するためにも用いられる。オーディオフラグメントの一部について最もよいマッチング一貫性基準を確立したので、ほとんどの場合にも、対応する入力モダリティが知られている。この情報を用いて、それが位置する部分に対応するサブストリングの検索を改善する。例えば、最適化されたデータベースは、各入力モダリティについて使用される。あるいは、データベースは、異なる入力モダリティを用いた同じフラグメントの検索をサポートする。入力モダリティは、1つの追加的クエリアイテムであり、データベースは、各オーディオフラグメント(例えば、フレーズ)について、そのフラグメントを指定するのに使用した入力モダリティを格納している。
図2に示した方法において、サブストリングの数の初期評価は、これ以上変更されない。初期評価は、好ましくは、フラグメント全体にあると予想されるサブストリングの最大数を求める。フラグメントは、この「ワーストケース」の仮定よりも一貫性があるので、好ましくは、同じプロセスをより少ないサブストリングに対して繰り返す。図2の例において、2つのサブストリングへの分解がなされ、データベースが検索される。データベースは、ストリング全体について検索されてもよい。このように、3つのサブストリング、2つのサブストリング、及び1つのサブストリング(すなわち、ストリング全体)について、ストリング全体の一致を求める。3通りの結果を比較し、最もよいものをクライアントに提示する。このように、原理的には、クエリストリングは多数の方法で分解することができ、各分解によりデータベース中で独立に検索できる幾つかのサブストリングが生じる。そこで、クエリストリングを全体として検索でき、その検索は、そのクエリストリングを2つに分解したサブストリングとは独立であり、かつ、そのクエリストリングを3つに分解したサブストリングとは独立であり、以下同様である。サブストリングの各検索により、確からしい候補のベストNリストが得られる。このベストNリストは、サブストリングとの距離に基づき順序付けられたデータベース中のすべてのメロディのリストである。トータルの結果は、例えば、すべての可能な分解のリストをユーザに提示する1つのリストに結合することにより、作ることができる。その結合は、すべてのリストをマージし、サブストリングからの規格化された距離に基づきソーティングすることによりなされる。
上述のように、クエリストリングを分解する段階は、そのクエリストリングをそれぞれが実質的にフレーズに対応するサブストリングに分解することを含む。これが唯一の分解ステップであってもよいし、例えば、入力モダリティの変化させるための再分割を目的とした分解をした後にさらに分解する、他の分解ステップ/基準と組み合わせて使用してもよい。フレーズはいかなる好適な方法を用いて検出してもよい。フレーズは、ハミングを遅くすることにより終了することも多い。または、フレーズは、音程の大きな違いや長い音程により区別してもよい。フレーズ検出アルゴリズムは、例えば、「Cambouropoulos, E. (2001)、ローカル境界検出モデル(ibdm)と表現タイミングの研究におけるその応用、In Proc. ICMC 2001」及び、「Ferrand, M., Nelson, P, and Wiggins, G. (2003)、メモリとメロディ密度:メロディセグメンテーションのモデル、In: Proc. of the XIV Colloguiu on Musical Informatics (XIV CIM 2003), Firenze, Italy, May 8-9-10,2003」により知ることができる。
言うまでもなく、本発明はコンピュータプログラム、特に情報担体上またはその中のコンピュータプログラムにも適用できる。そのプログラムは、ソースコード、オブジェクトコード、ソースコードとオブジェクトコードの中間コード(部分的にコンパイルされた形体)、その他本発明による不法の実施に使用するのに好適な形体でもよい。記憶担体は、プログラムを実行することができる構成要素または装置である。例えば、記憶担体は、ROM(例えば、CD−ROMまたは半導体ROM)等、または磁気記録媒体(例えばフレキシブルディスクまたはハードディスク)等の記憶媒体を含む。さらに、記憶担体は、電気または光ケーブル、または無線その他の手段により搬送できる電気的または光学的信号等の伝送可能キャリアであってもよい。プログラムがそのような信号に化体しているとき、そのキャリアはそのようなケーブルまたはその他の装置または手段により構成される。あるいは、記憶担体は、関係する方法を実行またはその実行に使用するように適応している、プログラムが化体した集積回路であってもよい。
もちろん、上記の実施形態は、本発明を例示するものであり、限定するものではなく、当業者は、添付したクレームの範囲を逸脱することなく、別の実施形態を多数設計することができる。クレームにおいて、括弧の間に入れた参照符号はクレームを限定するものと解釈してはならない。「有する」という動詞及びその変化形を用いたが、請求項に記載された要素または段階以外の要素の存在を排除するものではない。構成要素に付された「1つの」、「一」という前置詞は、その構成要素が複数あることを排除するものではない。本発明は、複数の異なる構成要素を有するハードウェア手段によって、または好適にプログラムされたコンピュータによって実施してもよい。複数の手段を挙げる装置クレームにおいて、これらの手段は、1つの同じハードウェアにより実施してもよい。相異なる従属クレームに手段が記載されているからといって、その手段を組み合わせて有利に使用することができないということではない。
本発明による方法を実行する分散システムを示すブロック図である。 本発明による方法を実行するスタンドアロン装置を示す図である。 前記方法の一実施形態を示すフローチャートである。 図4Aと4Bは、再分割例を示す図である。

Claims (12)

  1. メロディデータベースにおいてオーディオフラグメントを表すクエリストリングとの一致を検索する方法であって、
    前記クエリストリングを複数のクエリサブストリングのシーケンスに分解する段階と、
    各サブストリングについて、独立に前記データベースを検索して、少なくともそれぞれ前記サブストリングと最もよい一致を見つける段階と、
    それぞれのサブストリングの検索結果に応じて、前記クエリストリングと最も近い少なくとも1つの一致を決定する段階と、を有することを特徴とする方法。
  2. 請求項1に記載のクエリストリング検索方法であって、
    前記クエリストリングを分解する段階は、前記クエリストリングをそれぞれが実質的にフレーズに対応するサブストリングに分解する段階を含むことを特徴とする方法。
  3. 請求項1に記載のクエリストリング検索方法であって、
    ユーザに複数のクエリ入力モダリティを合わせて前記クエリストリングを入力できるようにする段階を含むことを特徴とする方法。
  4. 請求項3に記載のクエリストリング検索方法であって、
    少なくとも1つの前記クエリ入力モダリティは、ハミング、歌、口笛、タッピング、手拍子、パーカッシブボーカルサウンドの1つであることを特徴とする方法。
  5. 請求項3に記載のクエリストリング検索方法であって、
    クエリ入力モダリティの変化は実質的にサブストリング境界と同時であることを特徴とする方法。
  6. 請求項1に記載のクエリストリング検索方法であって、
    前記クエリストリングを分解する段階は、
    前記クエリストリング中にいくつのサブストリングがあるか推定する段階と、
    前記クエリストリングをN個のシーケンシャルなサブストリングであって、各サブストリングが前記サブストリングを表す重心に関連づけられたサブストリングに分割する段階と、
    所定の収束基準が満たされるまで反復的に:
    各重心について、前記対応するサブストリングに応じてそれぞれの重心値を決定する段階と、
    前記サブストリングの各々について、前記重心の各々とその対応するサブストリング間のトータル距離尺度を最小化することにより、対応するサブストリング境界を決定する段階と、を有することを特徴とする方法。
  7. 請求項2または6に記載のクエリストリング検索方法であって、
    前記クエリストリング中にいくつの(Ns)サブストリングがあるか評価する段階は、フレーズの平均長さにより前記オーディオフラグメントの長さを割ることを含むことを特徴とする方法。
  8. 請求項5に記載のクエリストリング検索方法であって、
    前記クエリストリングを分解する段階は、前記入力モダリティの各々についてそれぞれの分類基準を検索する段階と、前記分類基準に基づいてクエリ入力モダリティの変化を検出するために分類アルゴリズムを使用する段階とを含むことを特徴とする方法。
  9. 請求項3または8に記載のクエリストリング検索方法であって、
    サブストリングをクエリ入力モダリティの2つの連続した変化内に入るように制限する段階を含むことを特徴とする方法。
  10. 請求項1に記載のクエリストリング検索方法であって、
    前記データベース中を各サブストリングを検索する段階は、
    前記サブストリングについて、前記データベース中のN個の最も近い対応する部分のベストNリスト(N≧2)を対応する類似度の尺度と共に生成する段階と、
    前記サブストリングの前記ベストNリストの前記類似度の尺度に基づいて、前記クエリストリングの少なくとも最も近い一致の決定を実行する段階と、を有することを特徴とする方法。
  11. コンピュータプログラムであって、プロセッサに請求項1に記載の方法の段階を実行させるコンピュータプログラム。
  12. メロディデータベースにおいてオーディオフラグメントを表すクエリストリングを検索するシステムであって、
    ユーザから前記クエリストリングを受け取る入力と、
    複数のオーディオフラグメントのそれぞれの表示を格納するメロディデータベースと、
    少なくとも1つのプロセッサであって、プログラムの制御下において、
    前記クエリストリングを複数のクエリサブストリングのシーケンスに分解し、
    各サブストリングについて、独立に前記データベースを検索して、少なくともそれぞれ前記サブストリングと最もよい一致を見つけ、
    それぞれのサブストリングの検索結果に応じて、前記クエリストリングと最も近い少なくとも1つの一致を決定するするプロセッサと、を有することを特徴とするシステム。
JP2006543667A 2003-12-08 2004-11-22 メロディデータベースの検索 Ceased JP2007519092A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03104572 2003-12-08
PCT/IB2004/052499 WO2005057429A1 (en) 2003-12-08 2004-11-22 Searching in a melody database

Publications (1)

Publication Number Publication Date
JP2007519092A true JP2007519092A (ja) 2007-07-12

Family

ID=34673592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006543667A Ceased JP2007519092A (ja) 2003-12-08 2004-11-22 メロディデータベースの検索

Country Status (6)

Country Link
US (1) US20070162497A1 (ja)
EP (1) EP1695239A1 (ja)
JP (1) JP2007519092A (ja)
KR (1) KR20060132607A (ja)
CN (1) CN100454298C (ja)
WO (1) WO2005057429A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026061A (ja) * 2008-07-16 2010-02-04 Univ Of Fukui 口笛の吹音・吸音判定装置及び口笛音楽検定装置
JP2020525949A (ja) * 2018-03-29 2020-08-27 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. メディア検索方法及び装置

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004034375A1 (en) * 2002-10-11 2004-04-22 Matsushita Electric Industrial Co. Ltd. Method and apparatus for determining musical notes from sounds
DE102005005536A1 (de) * 2005-02-07 2006-08-10 Sick Ag Codeleser
US9230029B2 (en) * 2005-07-26 2016-01-05 Creative Technology Ltd System and method for modifying media content playback based on an intelligent random selection
JP2007072023A (ja) * 2005-09-06 2007-03-22 Hitachi Ltd 情報処理装置及び情報処理方法
CN100367279C (zh) * 2005-09-08 2008-02-06 上海交通大学 数字音乐旋律的跨越式高速匹配装置
CN100373383C (zh) * 2005-09-08 2008-03-05 上海交通大学 基于特征音符的音乐旋律分段自动标注方法
CN100373382C (zh) * 2005-09-08 2008-03-05 上海交通大学 基于内容的数字音乐检索旋律特征数据库及生成***
EP1785891A1 (en) * 2005-11-09 2007-05-16 Sony Deutschland GmbH Music information retrieval using a 3D search algorithm
KR101082121B1 (ko) * 2005-11-10 2011-11-10 멜로디스 코포레이션 비문자기반 정보를 저장하고 검색하는 시스템과 방법
US7518052B2 (en) * 2006-03-17 2009-04-14 Microsoft Corporation Musical theme searching
US7459624B2 (en) 2006-03-29 2008-12-02 Harmonix Music Systems, Inc. Game controller simulating a musical instrument
US8116746B2 (en) * 2007-03-01 2012-02-14 Microsoft Corporation Technologies for finding ringtones that match a user's hummed rendition
US7962530B1 (en) * 2007-04-27 2011-06-14 Michael Joseph Kolta Method for locating information in a musical database using a fragment of a melody
US20080300702A1 (en) * 2007-05-29 2008-12-04 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
US8678896B2 (en) 2007-06-14 2014-03-25 Harmonix Music Systems, Inc. Systems and methods for asynchronous band interaction in a rhythm action game
EP2206539A1 (en) 2007-06-14 2010-07-14 Harmonix Music Systems, Inc. Systems and methods for simulating a rock band experience
CN101567203B (zh) * 2008-04-24 2013-06-05 深圳富泰宏精密工业有限公司 自动搜寻及播放音乐的***及方法
US8126913B2 (en) * 2008-05-08 2012-02-28 International Business Machines Corporation Method to identify exact, non-exact and further non-exact matches to part numbers in an enterprise database
US20100304811A1 (en) * 2009-05-29 2010-12-02 Harmonix Music Systems, Inc. Scoring a Musical Performance Involving Multiple Parts
US7923620B2 (en) * 2009-05-29 2011-04-12 Harmonix Music Systems, Inc. Practice mode for multiple musical parts
US7982114B2 (en) * 2009-05-29 2011-07-19 Harmonix Music Systems, Inc. Displaying an input at multiple octaves
US8026435B2 (en) * 2009-05-29 2011-09-27 Harmonix Music Systems, Inc. Selectively displaying song lyrics
US8076564B2 (en) * 2009-05-29 2011-12-13 Harmonix Music Systems, Inc. Scoring a musical performance after a period of ambiguity
US8449360B2 (en) 2009-05-29 2013-05-28 Harmonix Music Systems, Inc. Displaying song lyrics and vocal cues
US8465366B2 (en) 2009-05-29 2013-06-18 Harmonix Music Systems, Inc. Biasing a musical performance input to a part
US8080722B2 (en) * 2009-05-29 2011-12-20 Harmonix Music Systems, Inc. Preventing an unintentional deploy of a bonus in a video game
US20100304810A1 (en) * 2009-05-29 2010-12-02 Harmonix Music Systems, Inc. Displaying A Harmonically Relevant Pitch Guide
US8017854B2 (en) * 2009-05-29 2011-09-13 Harmonix Music Systems, Inc. Dynamic musical part determination
US7935880B2 (en) 2009-05-29 2011-05-03 Harmonix Music Systems, Inc. Dynamically displaying a pitch range
US8702485B2 (en) 2010-06-11 2014-04-22 Harmonix Music Systems, Inc. Dance game and tutorial
US9981193B2 (en) 2009-10-27 2018-05-29 Harmonix Music Systems, Inc. Movement based recognition and evaluation
EP2494432B1 (en) 2009-10-27 2019-05-29 Harmonix Music Systems, Inc. Gesture-based user interface
US8550908B2 (en) 2010-03-16 2013-10-08 Harmonix Music Systems, Inc. Simulating musical instruments
US9358456B1 (en) 2010-06-11 2016-06-07 Harmonix Music Systems, Inc. Dance competition game
US8562403B2 (en) 2010-06-11 2013-10-22 Harmonix Music Systems, Inc. Prompting a player of a dance game
US9024166B2 (en) 2010-09-09 2015-05-05 Harmonix Music Systems, Inc. Preventing subtractive track separation
CN102063904B (zh) * 2010-11-30 2012-06-27 广州酷狗计算机科技有限公司 一种音频文件的旋律提取方法及旋律识别***
US9122753B2 (en) * 2011-04-11 2015-09-01 Samsung Electronics Co., Ltd. Method and apparatus for retrieving a song by hummed query
US9563701B2 (en) * 2011-12-09 2017-02-07 Yamaha Corporation Sound data processing device and method
US9263013B2 (en) * 2014-04-30 2016-02-16 Skiptune, LLC Systems and methods for analyzing melodies
CN107229629B (zh) * 2016-03-24 2021-03-19 腾讯科技(深圳)有限公司 音频识别方法及装置
US11138230B2 (en) * 2018-03-26 2021-10-05 Mcafee, Llc Methods, apparatus, and systems to aggregate partitioned computer database data
US11410678B2 (en) * 2021-01-14 2022-08-09 Cirrus Logic, Inc. Methods and apparatus for detecting singing

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09293083A (ja) * 1996-04-26 1997-11-11 Toshiba Corp 楽曲検索装置および検索方法
JP2000172693A (ja) * 1998-12-01 2000-06-23 Nippon Telegr & Teleph Corp <Ntt> 音楽検索装置,音楽検索方法および音楽検索プログラムを記録した記録媒体
JP2000347659A (ja) * 1999-03-26 2000-12-15 Nippon Telegr & Teleph Corp <Ntt> 音楽検索装置,音楽検索方法および音楽検索プログラムを記録した記録媒体
JP2000356996A (ja) * 1999-04-12 2000-12-26 Alpine Electronics Inc 音楽検索システム
JP2001109471A (ja) * 1999-10-12 2001-04-20 Nippon Telegr & Teleph Corp <Ntt> 音楽検索装置,音楽検索方法および音楽検索プログラムを記録した記録媒体
JP2002014974A (ja) * 2000-06-30 2002-01-18 Fuji Photo Film Co Ltd 検索装置及び検索システム
JP2002123287A (ja) * 2000-10-13 2002-04-26 Nippon Telegr & Teleph Corp <Ntt> 音楽特徴量生成方法及び装置と音楽情報検索装置と音楽特徴量生成用プログラムの記録媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963957A (en) 1997-04-28 1999-10-05 Philips Electronics North America Corporation Bibliographic music data base with normalized musical themes
JP3696745B2 (ja) * 1999-02-09 2005-09-21 株式会社日立製作所 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
GB9918611D0 (en) * 1999-08-07 1999-10-13 Sibelius Software Ltd Music database searching
US6633817B1 (en) * 1999-12-29 2003-10-14 Incyte Genomics, Inc. Sequence database search with sequence search trees
US7281034B1 (en) * 2000-01-24 2007-10-09 Friskit, Inc. System and method for media playback over a network using links that contain control signals and commands
WO2001069575A1 (en) * 2000-03-13 2001-09-20 Perception Digital Technology (Bvi) Limited Melody retrieval system
US6528715B1 (en) * 2001-10-31 2003-03-04 Hewlett-Packard Company Music search by interactive graphical specification with audio feedback
US7110540B2 (en) * 2002-04-25 2006-09-19 Intel Corporation Multi-pass hierarchical pattern matching
US7010522B1 (en) * 2002-06-17 2006-03-07 At&T Corp. Method of performing approximate substring indexing
US7584173B2 (en) * 2003-02-24 2009-09-01 Avaya Inc. Edit distance string search
US7522967B2 (en) * 2003-07-01 2009-04-21 Hewlett-Packard Development Company, L.P. Audio summary based audio processing
EP1687803A4 (en) * 2003-11-21 2007-12-05 Agency Science Tech & Res METHOD AND APPARATUS FOR MATCHING AND REPRESENTING MELODIES FOR EXTRACTING MUSIC
US20070282816A1 (en) * 2006-06-05 2007-12-06 Shing-Jung Tsai Method and structure for string partial search

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09293083A (ja) * 1996-04-26 1997-11-11 Toshiba Corp 楽曲検索装置および検索方法
JP2000172693A (ja) * 1998-12-01 2000-06-23 Nippon Telegr & Teleph Corp <Ntt> 音楽検索装置,音楽検索方法および音楽検索プログラムを記録した記録媒体
JP2000347659A (ja) * 1999-03-26 2000-12-15 Nippon Telegr & Teleph Corp <Ntt> 音楽検索装置,音楽検索方法および音楽検索プログラムを記録した記録媒体
JP2000356996A (ja) * 1999-04-12 2000-12-26 Alpine Electronics Inc 音楽検索システム
JP2001109471A (ja) * 1999-10-12 2001-04-20 Nippon Telegr & Teleph Corp <Ntt> 音楽検索装置,音楽検索方法および音楽検索プログラムを記録した記録媒体
JP2002014974A (ja) * 2000-06-30 2002-01-18 Fuji Photo Film Co Ltd 検索装置及び検索システム
JP2002123287A (ja) * 2000-10-13 2002-04-26 Nippon Telegr & Teleph Corp <Ntt> 音楽特徴量生成方法及び装置と音楽情報検索装置と音楽特徴量生成用プログラムの記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026061A (ja) * 2008-07-16 2010-02-04 Univ Of Fukui 口笛の吹音・吸音判定装置及び口笛音楽検定装置
JP2020525949A (ja) * 2018-03-29 2020-08-27 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. メディア検索方法及び装置
JP6991255B2 (ja) 2018-03-29 2022-01-12 北京字節跳動網絡技術有限公司 メディア検索方法及び装置
US11874869B2 (en) 2018-03-29 2024-01-16 Beijing Bytedance Network Technology Co., Ltd. Media retrieval method and apparatus

Also Published As

Publication number Publication date
WO2005057429A1 (en) 2005-06-23
US20070162497A1 (en) 2007-07-12
EP1695239A1 (en) 2006-08-30
CN100454298C (zh) 2009-01-21
KR20060132607A (ko) 2006-12-21
CN1890665A (zh) 2007-01-03

Similar Documents

Publication Publication Date Title
JP2007519092A (ja) メロディデータベースの検索
Serra et al. Audio cover song identification and similarity: background, approaches, evaluation, and beyond
US7342167B2 (en) Apparatus and method for generating an encoded rhythmic pattern
Typke et al. A survey of music information retrieval systems
Serra et al. Chroma binary similarity and local alignment applied to cover song identification
Casey et al. Content-based music information retrieval: Current directions and future challenges
Foote et al. Audio Retrieval by Rhythmic Similarity.
Yang Music database retrieval based on spectral similarity
Marolt A mid-level representation for melody-based retrieval in audio collections
US20090306797A1 (en) Music analysis
Casey et al. The importance of sequences in musical similarity
Welsh et al. Querying large collections of music for similarity
Tsai et al. Query-By-Example Technique for Retrieving Cover Versions of Popular Songs with Similar Melodies.
US11271993B2 (en) Streaming music categorization using rhythm, texture and pitch
US9053695B2 (en) Identifying musical elements with similar rhythms
Rizo et al. A Pattern Recognition Approach for Melody Track Selection in MIDI Files.
Goto et al. Recent studies on music information processing
Gurjar et al. Comparative Analysis of Music Similarity Measures in Music Information Retrieval Systems.
Karydis et al. Audio indexing for efficient music information retrieval
Ganguli et al. Efficient Melodic Query Based Audio Search for Hindustani Vocal Compositions.
JP3934556B2 (ja) 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置
JP2004531758A5 (ja)
KR101051803B1 (ko) 허밍 또는 노래 기반 음원 검색 방법 및 시스템
KR102538680B1 (ko) 인공신경망을 이용하여 음악의 속성에 기반한 유사 음악 검색 방법 및 장치
EP1797507B1 (en) Apparatus and method for generating an encoded rhythmic pattern

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100927

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110322

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110620

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110922

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120621

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120628

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120724

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20121127