JP5641326B2 - コンテンツ再生装置および方法、並びにプログラム - Google Patents

コンテンツ再生装置および方法、並びにプログラム Download PDF

Info

Publication number
JP5641326B2
JP5641326B2 JP2010284367A JP2010284367A JP5641326B2 JP 5641326 B2 JP5641326 B2 JP 5641326B2 JP 2010284367 A JP2010284367 A JP 2010284367A JP 2010284367 A JP2010284367 A JP 2010284367A JP 5641326 B2 JP5641326 B2 JP 5641326B2
Authority
JP
Japan
Prior art keywords
microphone
music
sound
collected
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010284367A
Other languages
English (en)
Other versions
JP2012134715A (ja
Inventor
衣未留 角尾
衣未留 角尾
恭輔 松本
恭輔 松本
井上 晃
晃 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010284367A priority Critical patent/JP5641326B2/ja
Priority to US13/325,868 priority patent/US8804976B2/en
Priority to CN201110418202.4A priority patent/CN102547521B/zh
Publication of JP2012134715A publication Critical patent/JP2012134715A/ja
Application granted granted Critical
Publication of JP5641326B2 publication Critical patent/JP5641326B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/46Volume control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、コンテンツ再生装置および方法、並びにプログラムに関し、特に、常に快適に音楽を聴きながら、周囲の音にも配慮することができるようにするコンテンツ再生装置および方法、並びにプログラムに関する。
従来より、音響信号が音楽であるのか、音声であるのかを分類する技術の研究が行われている。
例えば、音楽に比べて重畳した音声や背景音などの音量が大きい場合などは、音響信号が音楽であるのか、音声であるのかを分類することが難しい。このため、音楽区間検出のための技術として、入力音響信号から短時間フレーム毎に音響特徴ベクトル列を算出して各フレームについて音楽を含むか否かを表す音楽情報評価値を算出し、音楽開始・終了時刻を判定する技術などが提案されている(例えば、特許文献1参照)。
また、目的とするオーディオ信号源を聴取しつつも、周囲音についても的確に聴取可能としたヘッドフォンを提供するために、聴取音レベル検知器にて検知された聴取音レベルと外部音検知器にて検知された外部音レベルとに基づいて可変利得増幅器の利得を制御する技術も提案されている(例えば、引用文献2参照)。
特開2009−8836号公報 特開2005−295175号公報
しかしながら、例えば、ユーザがヘッドフォンで音楽を聴いている場合、周囲音として音楽が流れているときに、周囲音をヘッドフォンの内部で聴こえるようにすると、極めて煩わしく感じられる。
本発明はこのような状況に鑑みてなされたものであり、常に快適に音楽を聴きながら、周囲の音にも配慮することができるようにするものである。
本発明の一側面は、筐体の周囲の騒音を集音するマイクと、前記マイクにより集音された音の信号の波形から得られる複数の特徴量を特徴量ベクトルとして抽出する特徴量抽出手段と、前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離を算出する距離算出手段と、前記マイクにより集音された音のリズムを検出するリズム検出手段と、前記リズム検出手段の検出結果に基づいて、前記算出されたベクトル間距離の重み付けをして、前記重み付けされた距離を閾値判定することにより、前記マイクにより集音された音に音楽が含まれているか否かを判定する判定手段と、前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定された場合、前記マイクにより集音された音の音量または周波数特性を変更するように前記マイクにより集音された音の信号を加工する加工手段と、前記マイクにより集音された音の信号と、再生されたコンテンツの音の信号とを加算して出力する加算手段とを備え、前記リズム検出手段は、前記マイクにより集音された音の信号の波形のピークを検出し、前記検出されたピークの時間的位置と、予め設定されたビート間隔におけるビートの時間的位置との適合度を算出して、前記ビートと前記ピークが合致したか否かを判定し、単位時間内に前記ピークと合致した前記ビートの数を保持するコンテンツ再生装置である。
前記特徴量抽出手段は、前記マイクにより集音された音の信号の波形を所定の時間的長さを有するフレームに分割し、前記判定手段はさらに、予め設定された複数の前記フレームにおいて前記マイクにより集音された音に音楽が含まれていたか否かを判定し、前記加工手段は、前記判定手段により予め設定された複数の前記フレームにおいて前記マイクにより集音された音に音楽が含まれていたと判定された場合、前記マイクにより集音された音の信号を加工するようにすることができる。
前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定された場合、再生されたコンテンツの音の音量または周波数特性を変更するように再生された前記コンテンツの音の信号を加工する他の加工手段をさらに備えるようにすることができる。
前記リズム検出手段はさらに、前記単位時間より短い所定の時間内に前記ビートと前記ピークが合致したか否かを判定し、前記判定結果に基づいて前記ビート間隔を更新するようにすることができる。
前記単位時間毎に前記ピークと合致した前記ビートの数に応じた重み係数を設定し、前記距離算出手段が算出した前記ベクトル間距離に乗じる重み制御手段をさらに備えるようにすることができる。
前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定されてから音楽が含まれていないと判定されるまでの間、前記重み制御手段は、前記ビートの数に応じた重み係数の値を変更するようにすることができる。
本発明の一側面は、マイクが、筐体の周囲の騒音を集音し、特徴量抽出手段が、前記マイクにより集音された音の信号の波形から得られる複数の特徴量を特徴量ベクトルとして抽出し、距離算出手段が、前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離を算出し、リズム検出手段が、前記マイクにより集音された音のリズムを検出し、判定手段が、前記リズム検出手段の検出結果に基づいて、前記算出されたベクトル間距離の重み付けをして、前記重み付けされた距離を閾値判定することにより、前記マイクにより集音された音に音楽が含まれているか否かを判定し、加工手段が、前記マイクにより集音された音に音楽が含まれていると判定された場合、前記マイクにより集音された音の音量または周波数特性を変更するように前記マイクにより集音された音の信号を加工し、加算手段が、前記マイクにより集音された音の信号と、再生されたコンテンツの音の信号とを加算して出力し、前記リズム検出手段が、前記マイクにより集音された音の信号の波形のピークを検出し、前記検出されたピークの時間的位置と、予め設定されたビート間隔におけるビートの時間的位置との適合度を算出して、前記ビートと前記ピークが合致したか否かを判定し、単位時間内に前記ピークと合致した前記ビートの数を保持するステップを含むコンテンツ再生方法である。
本発明の一側面は、コンピュータを、筐体の周囲の騒音を集音するマイクと、前記マイクにより集音された音の信号の波形から得られる複数の特徴量を特徴量ベクトルとして抽出する特徴量抽出手段と、前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離を算出する距離算出手段と、前記マイクにより集音された音のリズムを検出するリズム検出手段と、前記リズム検出手段の検出結果に基づいて、前記算出されたベクトル間距離の重み付けをして、前記重み付けされた距離を閾値判定することにより、前記マイクにより集音された音に音楽が含まれているか否かを判定する判定手段と、前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定された場合、前記マイクにより集音された音の音量または周波数特性を変更するように前記マイクにより集音された音の信号を加工する加工手段と、前記マイクにより集音された音の信号と、再生されたコンテンツの音の信号とを加算して出力する加算手段とを備え、前記リズム検出手段が、前記マイクにより集音された音の信号の波形のピークを検出し、前記検出されたピークの時間的位置と、予め設定されたビート間隔におけるビートの時間的位置との適合度を算出して、前記ビートと前記ピークが合致したか否かを判定し、単位時間内に前記ピークと合致した前記ビートの数を保持するコンテンツ再生装置として機能させるプログラムである。
本発明の一側面においては、筐体の周囲の騒音が集音され、前記マイクにより集音された音の信号の波形から得られる複数の特徴量が特徴量ベクトルとして抽出され、前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離が算出され、前記マイクにより集音された音のリズムが検出され、前記音のリズムの検出結果に基づいて、前記算出されたベクトル間距離の重み付けをして、前記重み付けされた距離を閾値判定することにより、前記集音された音に音楽が含まれているか否かが判定され、前記判定手段により前記集音された音に音楽が含まれていると判定された場合、前記集音された音の音量または周波数特性を変更するように前記集音された音の信号が加工され、前記集音された音の信号と、再生されたコンテンツの音の信号とが加算されて出力される。また、前記音のリズムを検出する際には、前記マイクにより集音された音の信号の波形のピークが検出され、前記検出されたピークの時間的位置と、予め設定されたビート間隔におけるビートの時間的位置との適合度を算出して、前記ビートと前記ピークが合致したか否かが判定され、単位時間内に前記ピークと合致した前記ビートの数が保持される。
本発明によれば、常に快適に音楽を聴きながら、周囲の音にも配慮することができる。
本発明を適用した音楽再生装置の一実施の形態に係る構成例を示すブロック図である。 本発明を適用した音楽再生装置の一実施の形態に係る構成例を示すブロック図である。 本発明を適用した音楽再生装置の一実施の形態に係る構成例を示すブロック図である。 音楽検出部の詳細な構成例を示すブロック図である。 図4のフレーム分割部と音響特徴量抽出部の処理を説明する図である。 音楽再生処理の例を説明するフローチャートである。 音楽検出処理の例を説明するフローチャートである。 音楽検出部の別の詳細な構成例を示すブロック図である。 リズム検出部の処理を説明する図である。 リズム検出部の詳細な構成例を示すブロック図である。 トラッカーの詳細な構成例を示すブロック図である。 ビート数と重み係数を説明する図である。 ビート数と重み係数を説明する図である。 音楽検出部による音楽の検出結果を、F値(F-measure)により評価した評価結果を説明する図である。 音楽検出処理の別の例を説明するフローチャートである。 リズム検出処理の例を説明するフローチャートである。 パーソナルコンピュータの構成例を示すブロック図である。
以下、図面を参照して、本発明の実施の形態について説明する。
図1は、本発明を適用した音楽再生装置20の一実施の形態に係る構成例を示すブロック図である。音楽再生装置20は、例えば、いわゆるヘッドフォンステレオとして構成されるようにしてもよいし、あるいは、単にヘッドフォンとして構成されるようにしてもよい。すなわち、ここで説明する音楽再生装置20は、必ずしも音楽のコンテンツを再生する機能などを一体的に有している必要はなく、例えば、デジタルオーディオプレーヤと接続されるヘッドフォンなどのように構成されるようにしてもよい。
同図に示されるように音楽再生装置20は、マイク21、音楽検出部22、加工部23、加算器24、加工部25、およびスピーカ26により構成されている。
マイク21は、周囲の音を集音し、集音した音に対応する信号を出力する。ここで、集音される音には、例えば、ユーザが歩いている道を通る自動車の音、ユーザの周囲にいる人たちの話し声、ユーザが訪れた店舗などにおいてBGMとして流れている音楽などが含まれる。
音楽検出部22は、マイク21から出力される信号に音楽が含まれているか否かを判定することで、周囲の音の中の音楽を検出するようになされている。なお、音楽検出部22の詳細な構成については後述する。
加工部23は、音楽検出部22の検出結果に基づいて、マイク21から出力される信号を加工するようになされている。加工部23は、例えば、マイク21から出力される信号の音量を調節するような加工をするものであってもよいし、マイク21から出力される信号の周波数特性を変更するような加工をするものであってもよい。
加工部25は、音楽検出部22の検出結果に基づいて、図示せぬ再生部により再生された音楽のコンテンツの信号(音楽信号)を加工するようになされている。加工部25は、例えば、音楽信号の音量を調節するような加工をするものであってもよいし、音楽信号の周波数特性を変更するような加工をするものであってもよい。
なお、加工部25は設けられないようにしてもよい。
加算器24は、加工部23から出力された信号と、加工部25から出力された信号を加算してスピーカ26から出力するようになされている。
スピーカ26は、入力された信号に対応する音を出力し、その音がユーザの耳に聞こえる音となる。
すなわち、音楽再生装置20は、再生された音楽とともに、必要に応じて周囲の音を聴くことができるようになされている。
つまり、例えば、ヘッドフォンで音楽を聴いている場合、周囲の音が聞こえにくいため、音楽に重畳して周囲の音を聴かせるようになされているのである。これにより、人の呼びかけに気付くことができたり、車の走行音が聞こえてくることによって安全性が向上したりすることが期待される。
しかしながら、周囲で音楽が流れている場合にはこれを重畳してしまうと、再生中のコンテンツの音楽と競合してしまう。このため、音楽検出部22で音楽が検出され、音量が変更されたり、周波数特性を変えるフィルタ処理が行われるなどといった加工が加工部23、または、加工部25によりなされるのである。
音楽検出部22乃至加工部25は、図2に示されるように、図中の点線で示されるヘッドフォンなどの筐体の内部に設けられるようにしてもよい。あるいはまた、音楽検出部22乃至加工部25は、図3に示されるように、図中の点線で示されるデジタルオーディオプレーヤなどの筐体の外部に設けられるようにしてもよい。
図4は、音楽検出部22の詳細な構成例を示すブロック図である。同図に示されるように、音楽検出部22は、フレーム分割部41、音響特徴量抽出部42、および識別部43により構成されている。
フレーム分割部41は、入力された信号に短時間の窓関数を乗じるなどして、入力された信号を所定の時間的長さを有する複数のフレームに分割する。そして、フレームに分割された信号のそれぞれについてフーリエ変換を行うことにより周波数解析を行うようになされている。
ここで、短時間の窓関数は時間の一部が重なり合うように(オーバーラップさせて)設定することができ、例えば、ハミング窓、ハニング窓やブラックマン窓などの窓関数が用いられる。
音響特徴量抽出部42は、例えば、フレーム分割部41によりフーリエ変換が行われる前後で、特徴量を数種類抽出する。
図5を参照してさらに説明する。図5は、フレーム分割部41と音響特徴量抽出部42の処理の例を説明する図である。同図の上側に記載された波形61は、図1乃至図3のマイク21により集音された音の信号の波形を表している。
フレーム分割部41は、波形61を、所定の時間的長さのフレームである、フレーム62−1、フレーム62−2、フレーム62−3、・・・に分割するようになされている。
音響特徴量抽出部42は、上述したように、例えば、フレーム分割部41によりフーリエ変換が行われる前後で、次元の小さい特徴量を数種類抽出する。
例えば、フーリエ変換前に零交差率(Zero Cross)、フーリエ変換後にメル周波数ケプストラム係数(MFCC)、スペクトル重心(Centroid)、スペクトルフラックス(Flux)、ロールオフ(Roll off)などの特徴量が抽出される。
図5の例では、フレーム62−1に含まれる波形から、特徴量群63−1が抽出されている。同様に、フレーム62−2に含まれる波形から、特徴量群63−2が抽出され、フレーム62−3に含まれる波形から、特徴量群63−3が抽出され、・・・のように特徴量群が抽出されることになる。
特徴量群63−1、特徴量群63−2、特徴量群63−3、・・・は、それぞれ各フレームの特徴量ベクトルとして識別部43に供給される。
識別部43は、例えば、予め音楽の信号から抽出された複数の特徴量ベクトルを用いて、正解のラベル付きでの一般的な教師学習により、音楽の信号の特徴量を学習しておくようになされている。例えば、ガウシアンミクスチャーモデル、kNN分類器、サポートベクトルマシンなどを用いた学習が行われる。
この学習により、例えば、特徴量群63−1、特徴量群63−2、特徴量群63−3、・・・と同次元の特徴量ベクトルであって、音楽の信号に対応する代表的な特徴量ベクトルが得られることになる。代表的な特徴量ベクトルは、例えば、バラードの音楽の信号に対応する特徴量ベクトル、ロックの音楽の信号に対応する特徴量ベクトル、・・・などのように複数の特徴量ベクトルが得られるようにしてもよい。
識別部43は、各フレームの特徴量ベクトルと、上述した代表的な特徴量ベクトルとの距離を算出し、算出されたベクトル間の距離を閾値と比較し、ベクトル間の距離が閾値以下である場合、そのフレームに対応付けられた識別フラグをオンにする。なお、代表的な特徴量ベクトルが複数ある場合、各フレームの特徴量ベクトルと、複数の代表的な特徴量ベクトルとの距離がそれぞれ算出され、いずれかの距離が閾値以下である場合、そのフレームに対応付けられた識別フラグがオンとされる。
そして、識別部43は、例えば、過去10フレーム分の識別フラグがオンである場合、現在のフレームは、音楽の信号のフレームであると判定するようになされている。
なお、上記の判定の方式は例であり、他の方式により、音楽の信号のフレームであるか否かが判定されるようにしてもよい。
このようにして、マイク21により集音された音の中の音楽が検出されることになる。
そして、音楽検出部22により音楽が検出された場合、加工部23が、マイク21から出力される信号の音量を小さくしたり、マイク21から出力される信号における所定の周波数帯域の信号を除去して周波数特性を変えるなどの加工を行うようになされている。
このようにすることで、例えば、人の呼びかけに気付くことができたり、車の走行音が聞こえてくることによって安全性を向上させることができるとともに、ユーザの周囲で音楽が流れているときでも煩わしさを感じさせないようにすることができる。
次に、図6のフローチャートを参照して、図1の音楽再生装置20による音楽再生処理の例について説明する。
ステップS21において、マイク21は、周囲の音を集音する。ここで、集音された音の信号は、音楽検出部22と加工部23に出力される。
ステップS22において、音楽検出部22は、図7を参照して後述する音楽検出処理を実行する。
ステップS23において、加工部23または加工部25は、音楽が検出されたか否かを判定する。
ステップS23において、音楽が検出されたと判定された場合、処理は、ステップS24に進み、加工部23または加工部25は、入力された信号を加工する。このとき、例えば、音量を小さく(または大きく)したり、周波数特性を特殊なものとするフィルタ処理などがなされることになる。すなわち、加工部23または加工部25から出力される信号に対応する音の音量、周波数特性などが、通常の値とは異なる特殊な値に設定される。
要は、マイク21により集音された音に音楽が含まれている場合、加工部23または加工部25によりコンテンツの音楽を聴き易くするような加工がなされるのである。
一方、ステップS23において、音楽が検出されなかったと判定された場合、ステップS24の処理はスキップされる。すなわち、加工部23または加工部25は、入力された信号の加工を行わず、そのまま出力する。
なお、加工部23から出力された信号は、加算器24により音楽信号と加算されて出力されることになる。
このようにして音楽再生処理が実行される。
次に、図7のフローチャートを参照して、図6のステップS22の音楽検出処理の詳細な例について説明する。
ステップS41において、フレーム分割部41は、入力された信号に短時間の窓関数を乗じるなどして、入力された信号を所定の時間的長さを有する複数のフレームに分割する。そして、フレームに分割された信号のそれぞれについてフーリエ変換を行うことにより周波数解析を行う。
ステップS42において、ステップS41の処理に伴って、フレーム分割部41によりフーリエ変換が行われる前後で、特徴量を数種類抽出する。このとき、上述したように、例えば、零交差率(Zero Cross)、フーリエ変換後にメル周波数ケプストラム係数(MFCC)、スペクトル重心(Centroid)、スペクトルフラックス(Flux)、ロールオフ(Roll off)などの特徴量が抽出される。
ステップS43において、音響特徴量抽出部42は、ステップS42で抽出された特徴量からなる特徴量ベクトルと、予め学習されている音楽の信号に対応する代表的な特徴量ベクトルとの距離を算出する。
ステップS44において、識別部43は、ステップS43で算出されたベクトル間の距離が閾値以下であるか否かを判定する。ステップS44において、算出されたベクトル間の距離が閾値以下であると判定された場合、処理は、ステップS45に進む。
ステップS45において、識別部43は、当該フレームに対応付けられた識別フラグをオンにする。
ステップS46において、識別部43は、例えば、過去の所定数のフレーム(例えば、10フレーム)分の識別フラグがオンであるか否かを判定する。
ステップS46において、過去の所定数のフレーム分の識別フラグがオンであると判定された場合、処理は、ステップS47に進み、識別部43は、識別結果として音楽検出信号を出力する。これにより、加工部23、または加工部25に、音楽が検出されたことが通知されることになる。
一方、ステップS46において、過去の所定数のフレーム分の識別フラグがオフであると判定された場合、ステップS47の処理は、スキップされる。
また、ステップS44において、算出されたベクトル間の距離が閾値以下ではないと判定された場合、ステップS45乃至ステップS47の処理は、スキップされる。
このようにして、音楽検出処理が実行される。
ところで、図4を参照して上述した例においては、特徴量ベクトルのベクトル間距離の比較の結果に基づいて音楽が検出されるものとした。しかしながら、この方式では、安定的に音楽を検出できない場合がある。
例えば、短時間で音楽検出部22の検出結果が変動して安定しなかったり、あるいはまた、周囲の音に雑音が多く含まれている場合などは、検出結果の精度を欠いたりする可能性がある。
そこで、本発明においては、より安定的かつ正確に音楽を検出できるようにする方式も提案する。
図8は、図1の音楽検出部22の別の構成例を示すブロック図である。図8において、音楽検出部22は、フレーム分割部81、音響特徴量抽出部82、識別部83、およびリズム検出部84により構成されている。
図8のフレーム分割部81、音響特徴量抽出部82、および識別部83は、それぞれ図4のフレーム分割部41、音響特徴量抽出部42、および識別部43と同様の機能ブロックであるので、詳細な説明は省略する。図8の例では、図4の場合と異なり、リズム検出部84が設けられている。
リズム検出部84は、マイク21により集音された音の中のリズムを検出する。そして、リズム検出部84によるリズムの検出の結果に基づいて、例えば、識別部83による閾値判定の重みを調節することにより、より安定的かつ正確に音楽を検出できるようになされている。
図9は、リズム検出部の処理を説明する図である。同図は、横軸が時間とされ、領域91には、マイク21により集音された音の信号の波形であって、フレーム分割部81により分割された複数フレーム分の波形が示されている。
領域92には、領域91に示された波形の包絡線(エンベロープ)が示されている。エンベロープは、例えば、領域91に示された波形の信号を、ローパスフィルタを通過させることにより得られる。エンベロープを得ることにより波形のピークを検出することが容易になる。
領域93には、エンベロープに基づいて得られた波形のピークが図中垂直方向に伸びたバーによって示されている。すなわち、領域93に示された複数のバーのそれぞれの図中水平方向の位置が波形のピークの時間的な位置に対応することになる。
図9の領域93の下側には、トラッカー1、トラッカー2、トラッカー3、トラッカー4、・・・による検出結果が示されている。
トラッカー1、トラッカー2、トラッカー3、トラッカー4、・・・は、それぞれリズム検出部84に設けられた機能ブロックであり、例えば、テンポに応じたビート間隔を設定するようになされている。なお、トラッカー1、トラッカー2、トラッカー3、トラッカー4、・・・を個々に区別する必要がない場合、単にトラッカーと称する。
例えば、トラッカー1はbpm(beats per minute)=100、トラッカー2はbpm(beats per minute)=50、・・・などのようにそれぞれ異なるテンポのビート間隔が予め設定されている。
個々のトラッカーのそれぞれは、設定されたビート間隔と領域93に示されたピークの位置の適合度を算出するようになされている。図9において、トラッカー1、トラッカー2、トラッカー3、トラッカー4と記載された部分の右側に示される図中水平方向の線上に図中垂直方向に伸びたバーによって示された図中水平方向の位置が、個々のトラッカーに設定されたビートの位置とされる。
例えば、トラッカー1は、バー101−1乃至バー101−7で示された位置に対応するビート間隔を設定している。トラッカー1は、バー101−1と領域93に示されるピークの位置との時間的差異に基づいて、ビートの位置(ビート位置)とピークの位置(ピーク位置)の適合度(ピーク適合度)を算出する。例えば、ピーク適合度が閾値を超えた場合、トラッカー1が設定したビートとピークが合致したものと判定されるようになされている。図9の例では、ピークと合致したビートに円が付されており、例えば、トラッカー1のバー101−1、バー101−2、バー101−4、バー101−6においてビートとピークが合致している。
そして、トラッカー1は、例えば、単位時間においてピークと合致したビートの数をカウントして保持するようになされている。図9に示される時間を単位時間とすると、トラッカー1の場合、4つのビートがピークと合致したことになる。
なお、例えば、単位時間より短い所定の時間内にピークと合致したビートが検出されない場合、トラッカー1のテンポが変更されてビート間隔の更新が行われる。例えば、bpm=100であったテンポが、bpm=105に変更されて新たにビート間隔が設定される。あるいはまた、トラッカー1の曲調が変更されることによりビート間隔の更新が行われるようにしてもよい。例えば、初期値としてトラッカー1に設定されていたビート間隔がロックの曲調の短いビート間隔であった場合、曲調がボサノバに変更されて、新たに長いビート間隔が設定されるようにしてもよい。
トラッカー2、トラッカー3、トラッカー4、・・・においても同様の処理が行われることになる。このようにして、個々のトラッカーは、それぞれ自分が設定したビート間隔においてピークと合致したビートの数(ビート数)を保持するようになされている。
リズム検出部84は、例えば、個々のトラッカーのビート数のうち、最大のものを選択し、そのビート数を識別部83に供給するようになされている。この場合、識別部83は、例えば、ビート数に対応する重み係数を、上述した特徴量ベクトルのベクトル間距離に乗じて閾値判定するようになされている。
図10は、リズム検出部84の詳細な構成例を示すブロック図である。同図に示されるように、リズム検出部84は、エンベロープ算出部121、ピーク検出部122、選択部123、トラッカー131−1、トラッカー131−2、・・・により構成されている。なお、図10のトラッカー131−1、トラッカー131−2、・・・が、図9のトラッカー1、トラッカー2、・・・に対応する。
エンベロープ算出部121は、フレーム分割部81から出力されるフレーム分割された信号の波形に基づいてエンベロープを算出する。これにより、例えば、図9の領域92に示されるようなエンベロープが得られることになる。
ピーク検出部122は、エンベロープ算出部121により算出されたエンベロープに基づいて、波形のピークを検出する。これにより、例えば、図9の領域93に示されるようなピーク位置が得られることになる。ピーク検出部122の検出結果は、トラッカー131−1、トラッカー131−2、・・・に供給されるようになされている。
選択部123は、トラッカー131−1、トラッカー131−2、・・・が保持するビート数のうち、最大のものを選択するようになされている。
図11は、図10のトラッカー131の詳細な構成例を示すブロック図である。なお、図10のトラッカー131−1、トラッカー131−2、・・・は、それぞれ同様に構成されるものなので、ここではまとめてトラッカー131と称している。
図11に示されるように、トラッカー131は、ビート間隔設定部151、ピーク適合度算出部152、ビート間隔更新部153、およびビート数保持部154により構成されている。
ビート間隔設定部151は、例えば、図9を参照して上述したバー101−1、バー101−2、・・・のようにビート間隔を設定する。
ピーク適合度算出部152は、例えば、図9を参照して上述したように、ビート位置とピーク位置との時間的差異に基づいて、ピーク適合度を算出する。
ビート間隔更新部153は、例えば、所定の時間内にピークと合致したビートが検出されない場合、テンポ、曲調などを変更してビート間隔を新たに設定する(更新する)ようになされている。
ビート数保持部154は、単位時間内にピークと合致したビートの数であるビート数を保持するようになされている。
このようにして、ビート数が保持され、そのビート数に応じた重み係数が設定されて重みづけがなされることになる。
図12と図13は、ビート数と重み係数を説明する図である。
図12は、音楽検出部22から音楽検出信号が出力されていない場合(すなわち、音楽が検出されていない場合)のビート数と重み係数の関係を説明する図である。
同図に示されるように、ビート数が多くなるに従って、重み係数の値が減少するようになされている。特にビート数がNを超えてから、急峻に重みが減少するようになされている。例えば、識別部83が、図7のステップS44の処理において閾値判定する際に、ステップS43で算出されたベクトル間距離に図12に示されるような重み係数を乗じるようにすれば、ビート数の値が大きくなるほど、音楽検出信号が出力される可能性が高くなる。ただし、ビート数がN以下である場合は、ビート数の値が大きくなっても音楽検出信号が出力される可能性はあまり高くならない。
図13は、音楽検出部22から音楽検出信号が出力されている場合(すなわち、音楽が検出された場合)のビート数と重み係数の関係を説明する図である。
同図に示されるように、ビート数が多くなるに従って、重み係数の値が減少するようになされている。特にビート数が0からMの間において、急峻に重みが減少するようになされている。例えば、識別部83が、図6のステップS44の処理において閾値判定する際に、ステップS43で算出されたベクトル間距離に図13に示されるような重み係数を乗じるようにすれば、ビート数の値が大きくなるほど、音楽検出信号が出力される可能性が高くなる。ただし、ビート数がMを超える場合は、ビート数の値が小さくても音楽検出信号が出力される可能性は高い。
すなわち、音楽が検出されるまでは、ある程度のビート数が検出されない限り、音楽検出信号が出力されないように重み係数が設定され、音楽が検出された後は、検出されたビート数がよほど少なくない限り、音楽検出信号が出力されるように重み係数が設定される。このようにすることで、より正確かつ安定的に音楽を検出することが可能となる。
このように、リズム検出部84による検出結果に基づいて識別部83の処理が行われるようにすることで、より正確、かつ安定的に音楽を検出することができるようになる。例えば、周囲の音に大きな雑音が含まれている場合であっても、音楽のビート位置を検出することは比較的容易だからである。
図14は、音楽検出部22による音楽の検出結果を、F値(F-measure)により評価した評価結果を説明する図である。同図の横軸は、周囲の音におけるノイズの大きさの度合(SNR)を表しており、同図の縦軸はF値を表している。また、図中四角形の記号でプロットされた点からなる線181は、図8に示される構成の音楽検出部22による検出結果を表しており、図中菱形の記号でプロットされた点からなる線182は、図4に示される構成の音楽検出部22による検出結果を表している。
図14に示されるように、線182は、図中右方向に向かって大きく下降しており、周囲の音におけるノイズの度合が大きくなるほど、F値が低くなり総合性能が低下している。一方、線181は、図中右方向に向かって緩やかに下降しており、周囲の音におけるノイズの度合が大きくなっても、F値はあまり低くならず総合性能が低下していない。
すなわち、図8に示される構成の音楽検出部22を用いれば、周囲の音に大きな雑音が含まれている場合であっても、より正確、かつ安定的に音楽を検出できることが分かる。
次に、図15のフローチャートを参照して、図8の構成を採用した場合における図6のステップS22の音楽検出処理の例について説明する。
図15のステップS81乃至ステップS83は、それぞれ図7のステップS41乃至ステップS43と同様の処理なので詳細な説明は省略する。
ステップS84において、リズム検出部84は、図16を参照して後述するリズム検出処理を実行する。これにより周囲の音の中のリズムの検出が行われることになる。
ステップS85において、識別部83は、ステップS84の処理に伴って出力されたビート数に対応する重み係数を設定し、ステップS83の処理で算出されたベクトル間距離にその重み係数を乗じる。このとき、例えば、図12と図13を参照して上述したように、重み係数が設定されてベクトル間距離に乗じられる。
図15のステップS86乃至ステップS89の処理は、図7のステップS44乃至ステップS47の処理と同様なので詳細な説明は省略する。
次に、図16のフローチャートを参照して、図15のステップS84のリズム検出処理の詳細な例について説明する。
ステップS101において、エンベロープ算出部121は、フレーム分割部81から出力されるフレーム分割された信号の波形に基づいてエンベロープを算出する。これにより、例えば、図9の領域92に示されるようなエンベロープが得られることになる。
ステップS102において、ピーク検出部122は、ステップS101の処理により算出されたエンベロープに基づいて、波形のピークを検出する。これにより、例えば、図9の領域93に示されるようなピーク位置が得られることになる。ピーク検出部122の検出結果は、トラッカー131−1、トラッカー131−2、・・・に供給されるようになされている。従って、ステップS103乃至ステップS109の処理は、それぞれのトラッカーで並行して実行される処理となる。
ステップS103において、ビート間隔設定部151は、例えば、図9を参照して上述したバー101−1、バー101−2、・・・のようにビート間隔を設定する。
ステップS104において、ピーク適合度算出部152は、例えば、ビート位置とピーク位置との時間的差異に基づいて、ピーク適合度を算出する。
ステップS105において、ピーク適合度算出部152は、例えば、ステップS104の処理で算出されたピーク適合度を閾値判定することで、ピーク位置がビート位置と合致したか否かを判定する。
ステップS105において、合致したと判定された場合、処理は、ステップS106に進む。
ステップS106において、ビート数保持部154は、ビート数をカウントアップして保持する。
一方、ステップS105において、合致しなかったと判定された場合、処理は、ステップS107に進む。
ステップS107において、ビート間隔更新部153は、例えば、所定の時間内にピークと合致したビートが検出されたか否かを判定する。
ステップS107において、所定の時間内にピークと合致したビートが検出されなかったと判定された場合、処理は、ステップS108に進む。
ステップS108において、ビート間隔更新部153は、ビート間隔を新たに設定する(更新する)。例えば、テンポ、曲調などを変更してビート間隔が更新される。なお、このとき、ビート数保持部154に保持されているビート数がクリアされるようになされている。
一方、ステップS107において、所定の時間内にピークと合致したビートが検出されたと判定された場合、ステップS108の処理はスキップされる。
ステップS107において、所定の時間内にピークと合致したビートが検出されたと判定された場合若しくはステップS108の処理の後、または、ステップS106の処理の後、処理は、ステップS109に進む。
ステップS109において、単位時間分のフレームの処理がなされたか否かが判定され、まだ、単位時間分のフレームの処理がなされていないと判定された場合、処理は、ステップS103に戻り、それ以降の処理が繰り返し実行される。
一方、ステップS109において、単位時間分のフレームの処理がなされたと判定された場合、処理は、ステップS110に進む。ステップS110において、選択部123は、トラッカー131−1、トラッカー131−2、・・・のそれぞれが、ステップS106の処理により保持してビート数のうち、最大のものを選択して出力する。
このようにして、リズム検出処理が実行される。
なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータにネットワークや記録媒体からインストールされる。また、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図17に示されるような汎用のパーソナルコンピュータ700などに、ネットワークや記録媒体からインストールされる。
図17において、CPU(Central Processing Unit)701は、ROM(Read Only Memory)702に記憶されているプログラム、または記憶部708からRAM(Random Access Memory)703にロードされたプログラムに従って各種の処理を実行する。RAM703にはまた、CPU701が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU701、ROM702、およびRAM703は、バス704を介して相互に接続されている。このバス704にはまた、入出力インタフェース705も接続されている。
入出力インタフェース705には、キーボード、マウスなどよりなる入力部706、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部707が接続されている。また、入出力インタフェース705には、ハードディスクなどより構成される記憶部708、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部709が接続されている。通信部709は、インターネットを含むネットワークを介しての通信処理を行う。
入出力インタフェース705にはまた、必要に応じてドライブ710が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711が適宜装着されている。そして、それらのリムーバブルメディアから読み出されたコンピュータプログラムが、必要に応じて記憶部708にインストールされる。
上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア711などからなる記録媒体からインストールされる。
なお、この記録媒体は、図17に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク(フロッピディスク(登録商標)を含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア711により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM702や、記憶部708に含まれるハードディスクなどで構成されるものも含む。
なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
20 音楽再生装置, 21 マイク, 22 音楽検出部, 23 加工部, 24 加算器, 25 加工部, 26 スピーカ, 41 フレーム分割部, 42 音響特徴量抽出部, 43 識別部, 81 フレーム分割部, 82 音響特徴量抽出部, 83 識別部, 84 リズム検出部, 121 エンベロープ算出部, 122 ピーク検出部, 123 選択部, 131 トラッカー, 151 ビート間隔設定部, 152 ピーク適合度算出部, 153 ビート間隔更新部, 154 ビート数保持部

Claims (8)

  1. 筐体の周囲の騒音を集音するマイクと、
    前記マイクにより集音された音の信号の波形から得られる複数の特徴量を特徴量ベクトルとして抽出する特徴量抽出手段と、
    前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離を算出する距離算出手段と、
    前記マイクにより集音された音のリズムを検出するリズム検出手段と、
    前記リズム検出手段の検出結果に基づいて、前記算出されたベクトル間距離の重み付けをして、前記重み付けされた距離を閾値判定することにより、前記マイクにより集音された音に音楽が含まれているか否かを判定する判定手段と、
    前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定された場合、前記マイクにより集音された音の音量または周波数特性を変更するように前記マイクにより集音された音の信号を加工する加工手段と、
    前記マイクにより集音された音の信号と、再生されたコンテンツの音の信号とを加算して出力する加算手段と
    を備え
    前記リズム検出手段は、
    前記マイクにより集音された音の信号の波形のピークを検出し、
    前記検出されたピークの時間的位置と、予め設定されたビート間隔におけるビートの時間的位置との適合度を算出して、前記ビートと前記ピークが合致したか否かを判定し、
    単位時間内に前記ピークと合致した前記ビートの数を保持する
    コンテンツ再生装置。
  2. 前記特徴量抽出手段は、
    前記マイクにより集音された音の信号の波形を所定の時間的長さを有するフレームに分割し、
    前記判定手段はさらに、予め設定された複数の前記フレームにおいて前記マイクにより集音された音に音楽が含まれていたか否かを判定し、
    前記加工手段は、前記判定手段により予め設定された複数の前記フレームにおいて前記マイクにより集音された音に音楽が含まれていたと判定された場合、前記マイクにより集音された音の信号を加工する
    請求項1に記載のコンテンツ再生装置。
  3. 前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定された場合、再生されたコンテンツの音の音量または周波数特性を変更するように再生された前記コンテンツの音の信号を加工する他の加工手段をさらに備える
    請求項1に記載のコンテンツ再生装置。
  4. 前記リズム検出手段はさらに、
    前記単位時間より短い所定の時間内に前記ビートと前記ピークが合致したか否かを判定し、
    前記判定結果に基づいて前記ビート間隔を更新する
    請求項に記載のコンテンツ再生装置。
  5. 前記単位時間毎に前記ピークと合致した前記ビートの数に応じた重み係数を設定し、前記距離算出手段が算出した前記ベクトル間距離に乗じる重み制御手段をさらに備える
    請求項に記載のコンテンツ再生装置。
  6. 前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定されてから音楽が含まれていないと判定されるまでの間、
    前記重み制御手段は、前記ビートの数に応じた重み係数の値を変更する
    請求項に記載のコンテンツ再生装置。
  7. マイクが、筐体の周囲の騒音を集音し、
    特徴量抽出手段が、前記マイクにより集音された音の信号の波形から得られる複数の特徴量を特徴量ベクトルとして抽出し、
    距離算出手段が、前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離を算出し、
    リズム検出手段が、前記マイクにより集音された音のリズムを検出し、
    判定手段が、前記リズム検出手段の検出結果に基づいて、前記算出されたベクトル間距離の重み付けをして、前記重み付けされた距離を閾値判定することにより、前記マイクにより集音された音に音楽が含まれているか否かを判定し、
    加工手段が、前記マイクにより集音された音に音楽が含まれていると判定された場合、前記マイクにより集音された音の音量または周波数特性を変更するように前記マイクにより集音された音の信号を加工し、
    加算手段が、前記マイクにより集音された音の信号と、再生されたコンテンツの音の信号とを加算して出力し、
    前記リズム検出手段が、
    前記マイクにより集音された音の信号の波形のピークを検出し、
    前記検出されたピークの時間的位置と、予め設定されたビート間隔におけるビートの時間的位置との適合度を算出して、前記ビートと前記ピークが合致したか否かを判定し、
    単位時間内に前記ピークと合致した前記ビートの数を保持するステップ
    を含むコンテンツ再生方法。
  8. コンピュータを、
    筐体の周囲の騒音を集音するマイクと、
    前記マイクにより集音された音の信号の波形から得られる複数の特徴量を特徴量ベクトルとして抽出する特徴量抽出手段と、
    前記抽出された特徴量ベクトルと、音楽の信号の波形の特徴量として予め設定された同次元の特徴量ベクトルとのベクトル間距離を算出する距離算出手段と、
    前記マイクにより集音された音のリズムを検出するリズム検出手段と、
    前記リズム検出手段の検出結果に基づいて、前記算出されたベクトル間距離の重み付けをして、前記重み付けされた距離を閾値判定することにより、前記マイクにより集音された音に音楽が含まれているか否かを判定する判定手段と、
    前記判定手段により前記マイクにより集音された音に音楽が含まれていると判定された場合、前記マイクにより集音された音の音量または周波数特性を変更するように前記マイクにより集音された音の信号を加工する加工手段と、
    前記マイクにより集音された音の信号と、再生されたコンテンツの音の信号とを加算して出力する加算手段とを備え
    前記リズム検出手段が、
    前記マイクにより集音された音の信号の波形のピークを検出し、
    前記検出されたピークの時間的位置と、予め設定されたビート間隔におけるビートの時間的位置との適合度を算出して、前記ビートと前記ピークが合致したか否かを判定し、
    単位時間内に前記ピークと合致した前記ビートの数を保持するコンテンツ再生装置として機能させる
    プログラム。
JP2010284367A 2010-12-21 2010-12-21 コンテンツ再生装置および方法、並びにプログラム Expired - Fee Related JP5641326B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010284367A JP5641326B2 (ja) 2010-12-21 2010-12-21 コンテンツ再生装置および方法、並びにプログラム
US13/325,868 US8804976B2 (en) 2010-12-21 2011-12-14 Content reproduction device and method, and program
CN201110418202.4A CN102547521B (zh) 2010-12-21 2011-12-14 内容再现设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010284367A JP5641326B2 (ja) 2010-12-21 2010-12-21 コンテンツ再生装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2012134715A JP2012134715A (ja) 2012-07-12
JP5641326B2 true JP5641326B2 (ja) 2014-12-17

Family

ID=46234455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010284367A Expired - Fee Related JP5641326B2 (ja) 2010-12-21 2010-12-21 コンテンツ再生装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US8804976B2 (ja)
JP (1) JP5641326B2 (ja)
CN (1) CN102547521B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5569228B2 (ja) * 2010-08-02 2014-08-13 ソニー株式会社 テンポ検出装置、テンポ検出方法およびプログラム
US9704111B1 (en) 2011-09-27 2017-07-11 3Play Media, Inc. Electronic transcription job market
US9633696B1 (en) * 2014-05-30 2017-04-25 3Play Media, Inc. Systems and methods for automatically synchronizing media to derived content
US9615170B2 (en) * 2014-06-09 2017-04-04 Harman International Industries, Inc. Approach for partially preserving music in the presence of intelligible speech
KR102299819B1 (ko) * 2014-12-30 2021-09-08 삼성전자주식회사 생체 신호를 이용한 사용자 인증 방법 및 장치
CN106162429A (zh) * 2015-03-25 2016-11-23 美律电子(深圳)有限公司 移动装置与其操作方法
EP3246824A1 (en) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for determining a similarity information, method for determining a similarity information, apparatus for determining an autocorrelation information, apparatus for determining a cross-correlation information and computer program
CN110111813B (zh) * 2019-04-29 2020-12-22 北京小唱科技有限公司 节奏检测的方法及装置
US11461649B2 (en) * 2020-03-19 2022-10-04 Adobe Inc. Searching for music
US11735186B2 (en) 2021-09-07 2023-08-22 3Play Media, Inc. Hybrid live captioning systems and methods

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1117472A (ja) * 1997-06-20 1999-01-22 Fujitsu General Ltd 音声装置
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US20020141599A1 (en) * 2001-04-03 2002-10-03 Philips Electronics North America Corp. Active noise canceling headset and devices with selective noise suppression
JP4795934B2 (ja) * 2003-04-24 2011-10-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメータで表示された時間特性の分析
JP4317947B2 (ja) 2004-03-31 2009-08-19 隆太郎 森 ヘッドホン装置
GB2436657B (en) * 2006-04-01 2011-10-26 Sonaptic Ltd Ambient noise-reduction control system
JP2008059383A (ja) * 2006-08-31 2008-03-13 Toshiba Corp コンテンツ提示装置及びコンピュータプログラム
JP5066692B2 (ja) * 2006-10-25 2012-11-07 株式会社コルグ テンポ検出装置
JP4572218B2 (ja) 2007-06-27 2010-11-04 日本電信電話株式会社 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP2009020143A (ja) * 2007-07-10 2009-01-29 Audio Technica Corp ノイズキャンセルヘッドホン
JP2009094796A (ja) * 2007-10-09 2009-04-30 Canon Inc テレビジョン受信機
JP2009147410A (ja) * 2007-12-11 2009-07-02 Sony Corp 再生装置、再生方法及び再生システム
JP2009229921A (ja) * 2008-03-24 2009-10-08 Victor Co Of Japan Ltd 音響信号分析装置
JP2010078984A (ja) * 2008-09-26 2010-04-08 Sanyo Electric Co Ltd 楽曲抽出装置および楽曲記録装置
JP2010187363A (ja) * 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
JP5127754B2 (ja) * 2009-03-24 2013-01-23 株式会社東芝 信号処理装置

Also Published As

Publication number Publication date
US20120155658A1 (en) 2012-06-21
US8804976B2 (en) 2014-08-12
CN102547521B (zh) 2016-05-18
CN102547521A (zh) 2012-07-04
JP2012134715A (ja) 2012-07-12

Similar Documents

Publication Publication Date Title
JP5641326B2 (ja) コンテンツ再生装置および方法、並びにプログラム
JP4640463B2 (ja) 再生装置、表示方法および表示プログラム
JP6017687B2 (ja) オーディオ信号分析
US9239700B2 (en) System and method for automatically producing haptic events from a digital audio signal
JP5515709B2 (ja) 制御装置および方法、並びにプログラム
US8688251B2 (en) System and method for automatically producing haptic events from a digital audio signal
US8000825B2 (en) System and method for automatically producing haptic events from a digital audio file
US7601907B2 (en) Signal processing apparatus and method, program, and recording medium
US20050086052A1 (en) Humming transcription system and methodology
US20080092722A1 (en) Signal Processing Apparatus and Method, Program, and Recording Medium
WO2007010637A1 (ja) テンポ検出装置、コード名検出装置及びプログラム
JP6060867B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP4623124B2 (ja) 楽曲再生装置、楽曲再生方法および楽曲再生プログラム
KR101406398B1 (ko) 사용자 음원 평가 장치, 방법 및 기록 매체
JP2003099462A (ja) 楽曲検索装置
JP2007256619A (ja) 評価装置、制御方法及びプログラム
Zhang et al. Advancements in whisper-island detection using the linear predictive residual
US20080097711A1 (en) Information processing apparatus and method, program, and record medium
JP2023539121A (ja) オーディオコンテンツの識別
JP4495704B2 (ja) 音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体
JP5126281B2 (ja) 楽曲再生装置
JP6089651B2 (ja) 音処理装置、音処理装置の制御方法、プログラム
JP2019045755A (ja) 歌唱評価装置、歌唱評価プログラム、歌唱評価方法及びカラオケ装置
JP2001060099A (ja) 情報処理装置および方法、並びに媒体
Maddage et al. Semantic region detection in acoustic music signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141015

R151 Written notification of patent or utility model registration

Ref document number: 5641326

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees