JP2023539121A - オーディオコンテンツの識別 - Google Patents

オーディオコンテンツの識別 Download PDF

Info

Publication number
JP2023539121A
JP2023539121A JP2023512124A JP2023512124A JP2023539121A JP 2023539121 A JP2023539121 A JP 2023539121A JP 2023512124 A JP2023512124 A JP 2023512124A JP 2023512124 A JP2023512124 A JP 2023512124A JP 2023539121 A JP2023539121 A JP 2023539121A
Authority
JP
Japan
Prior art keywords
confidence score
audio
confidence
classifier
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023512124A
Other languages
English (en)
Inventor
ワーン,グイピーン
ルゥ,リエ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2023539121A publication Critical patent/JP2023539121A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

オーディオコンテンツ識別の方法は、二段階分類器を使用することを含む。第1段階は、以前から存在する分類器を含み、第2段階は、新しい分類器を含む。異なる期間にわたって計算された第1段階及び第2段階の出力を組み合わせて、ステアリング信号を生成する。最終分類の結果は、ステアリング信号と、第1段階及び第2段階の出力との組合せから得られる。このようにして、既存の分類器を中断することなく、新しい分類器を追加することができる。

Description

関連出願の相互参照
本出願は、2020年8月18日に出願されたPCT/CN国際出願PCT/CN2020/109744号、2020年9月4日に出願された米国仮出願63/074,621及び2020年10月6日に出願された欧州出願20200318.2の優先権を主張する。
分野
本開示は、オーディオ処理、特にオーディオコンテンツ識別に関する。
本明細書において別段の記載がない限り、このセクションに記載されるアプローチは、本出願の特許請求の範囲に対する先行技術ではなく、このセクションに含めることによって先行技術と認められるものではない。
オーディオ再生は、例えばスマートフォン、タブレット、PC等の消費者向けエンターテイメントデバイスの台頭に伴って、一般的になってきた。また、高忠実度再生、ストリーミング、ゲーム、ポッドキャスト、ショートビデオ、ユーザのライブ配信等のような、数万ものオーディオアプリケーションのシナリオも存在する。したがって、オーディオの全体的な品質を改善し、異なるユーザ体験を提供するために、様々な目的のためにオーディオ信号を強化する様々なオーディオ処理アルゴリズムが存在する。オーディオ処理アルゴリズムのいくつかの典型的な例は、対話強化(dialogue enhancement)及びインテリジェントイコライゼーションを含む。
対話強化は、一般に、スピーチ信号を強化する。対話は、映画では、ストーリーを理解するための重要な構成要素である。対話強化は、特に聴覚能力の低下した高齢者のために、明確性と理解度を高めるために対話を強化する方法を実装する。
インテリジェントイコライゼーションは、一般にオーディオトーンの動的調整を行う。インテリジェントイコライゼーションは、「トーン」又は「音色」として知られるスペクトルバランスの一貫性を提供するために、音楽コンテンツにおいて適用されることが多い。この一貫性は、オーディオのスペクトルバランスを継続的に監視し、それを所望のトーンと比較し、そしてイコライゼーションフィルタを動的に調整して、オーディオの元のトーンを目的のトーンに変換することによって達成される。
一般に、オーディオ処理アルゴリズムは、独自のアプリケーションシナリオ/コンテキストを有する。すなわち、異なるコンテンツは異なる方法で処理される必要がある場合があるので、オーディオ処理アルゴリズムは、特定のコンテンツのセットにのみ適しているが、すべての可能なオーディオ信号には適していないことがある。例えば対話強化方法は、通常、映画コンテンツに適用される。対話のない音楽に適用される場合、一部の周波数サブバンドを誤ってブーストし、激しい音色変化と知覚の不一致を導入する可能性がある。同様に、インテリジェントイコライゼーション方法が映画コンテンツに適用される場合、音色のアーティファクトが聞こえることになる。しかしながら、オーディオ処理システムでは、その入力は、可能なタイプのオーディオ信号のいずれかであり得る。したがって、対応するコンテンツに対して最も適切なアルゴリズム(又は各アルゴリズムの最も適切なパラメータ)を適用するために、処理されているコンテンツを識別又は区別することが重要になる。
一般的なコンテンツ適応オーディオ処理システムは、オーディオコンテンツ識別、ステアリング及びオーディオ処理という3つの機能を含む。
オーディオコンテンツ識別は、再生時にコンテンツのオーディオタイプを自動的に識別する。信号処理、機械学習及びパターン認識によるオーディオ分類技術を適用して、オーディオコンテンツを識別することができる。事前に定義されたターゲットオーディオタイプのセットに関するオーディオコンテンツの確率を表す、信頼スコアが推定される。
ステアリングは一般に、オーディオ処理アルゴリズムの挙動を操作する。これは、オーディオコンテンツ識別から取得された結果に基づいて、対応するオーディオ処理アルゴリズムの最も適切なパラメータを推定する。
オーディオ処理は、一般に、推定されたパラメータを使用して、オーディオ処理を入力オーディオ信号に適用して、出力オーディオ信号を生成する。
米国特許第10,129,314号 米国特許出願公開第2018/0181880号 米国特許第10,411,669号 米国特許出願公開第2020/0134083号 米国特許出願公開第2011/0029108号 米国特許第10,522,186号 米国特許第8,400,566号 米国特許第7,263,485号 米国特許第7,953,693号 米国特許第10,424,321号 米国特許第10,556,087号 米国特許出願公開第2020/0075019号 米国特許第9,020,816号 中国特許出願公開第103186527号 中国特許出願公開第111177454号 米国特許第9,842,605号
Ja-Hwung Su, Hsin-Ho Yeh, Philip S. Yu and Vincent S. Tseng, "Music Recommendation Using Content and Context Information Mining", in IEEE Intelligent Systems, vol. 25, no. 1, pp. 16-26, Jan.-Feb. 2010, doi: 10.1109/MIS.2010.23.
絶えず変化するオーディオコンテンツと新しいアプリケーションが増加するにつれて、特にユーザ生成されたコンテンツと、対応するアプリケーション(例えばチャット、ストリーミング、ライブブロードキャスト、ショートビデオ等)では、新しいコンテンツ又は新しいユースケースの性能要件を満たすために、既存のシステムにおけるオーディオ識別器(identifier)(分類器)とステアリングアルゴリズムを改善することは回避できない結果である。音楽を例にとると、以前は、ジャズ、カントリー、ロック及びラテン音楽を含むポップミュージックが、異なるアプリケーションにわたって主流であった。したがって、多くの既存のシステムの一般的な音楽分類器は、主に、上記の音楽ジャンルを識別することを目標としており、後続のステアリングアルゴリズム及びオーディオ処理アルゴリズムのために正確に信頼スコアを生成する。ファッションのトレンドの変化に伴って、多くの人々は、ラップ/ヒップホップ、エレクトリックミュージック又は異なる音楽スタイルの組合せのような、異なる音楽ジャンルを好んで聴いている。特にラップ音楽は、主に(リズミカルな)発話(talking)で構成され、これは、一般的な対話で話すことと区別することが難しい。多くの既存のケースでは、元の音楽分類器は通常、ラップ音楽やアカペラ音楽の分類に対して十分な精度を提供することができない。その結果、ラップ音楽の一部のセグメント/フレームがスピーチとして誤って識別され、次いで、対話エンハンサによってブーストされ、可聴アーティファクトをトリガすることがある。
さらに、顧客からのニーズの増加に伴い、オーディオ処理システムは、新しい機能を提供する必要がある場合があり、これは、オーディオ分類器が特定のオーディオコンテンツタイプを識別することを更に必要とする。上記のシナリオの両方とも新しい分類器を必要とする。新しいオーディオ分類器は、より多くの分類結果を提供するが、新しい分類器を使用した後に対話強化及びインテリジェントイコライゼーションのような他のオーディオ処理アルゴリズムを大幅に調整する必要がないように、もともとサポートされていたコンテンツタイプ(対話又は音楽等)の分類結果は依然として、古い分類器からの分類結果と同様であることも望まれる。
上記を考えると、元のオーディオ処理の挙動を依然として元のものに近い状態に保持しながら、既存の分類システムに新しい分類器を追加する必要がある。特定の新しいコンテンツに対して元の分類器を改善したり、新しい機能性を追加したりしても、通常、古い分類器を透過的に更新すること又は新しい分類器に置き換えることは簡単ではない。識別器の置き換え後に、システム全体が単純には最適に機能しない可能性がある。多くの場合、識別器が更新された後、後続のステアリングアルゴリズム及びオーディオ処理アルゴリズムも、対応する改良又はチューニングを必要とする可能性があり、さらに、ユーザが以前のコンテンツに対する挙動テストのために元の音楽識別器に保持することを期待することは、もはや適切ではない可能性がある。これは、新しい構成要素を完全に統合するために、再調整に多くの余分な労力を導入する可能性があり、望ましくない。
本開示では、開発や検証にかかる余分な労力を最小限に抑えつつ、新しいコンテンツに対する元のコンテンツ識別を改善する方法を提案する。本明細書では、二段階オーディオ分類器を使用することに関連する技術を説明する。
一実施形態によると、オーディオ処理の方法は、オーディオ信号を受信するステップと、オーディオ信号に対して特徴抽出を実行して複数の特徴を抽出するステップとを含む。本方法は、第1オーディオ分類モデルに従って複数の特徴を分類して第1信頼スコアセットを生成するステップと、第2オーディオ分類モデルに従って複数の特徴を分類して第2信頼スコアを生成するステップとを更に含む。本方法は、第1信頼スコアセットの第1信頼スコアと、第1信頼スコアセットの更なる信頼スコアを組み合わせることによって、ステアリング信号を計算するステップを更に含む。本方法は、ステアリング信号、第1信頼スコアセット及び第2信頼スコアに従って最終信頼スコアを計算するステップを更に含む。本方法は、最終信頼スコアに従ってオーディオ信号の分類を出力するステップを更に含む。
別の実施形態によると、装置は、プロセッサとメモリを含む。プロセッサは、本明細書で説明される方法の1つ以上を実行するように装置を制御するよう構成される。装置は、本明細書で説明される方法の1つ以上の詳細と同様の詳細を更に含んでよい。
別の実施形態によると、非一時的コンピュータ読取可能媒体は、プロセッサによって実行されると、本明細書で説明される方法の1つ以上を含む処理を実行するように装置を制御するコンピュータプログラムを記憶する。
以下の詳細な説明及び付属の図面は、様々な実装の性質と利点の更なる理解を提供する。
オーディオ分類器100のブロック図である。
二段階分類器200への分類器の配置を示すブロック図である。
オーディオ処理システム300のブロック図である。
オーディオ分類器100(図1参照)等を実装するために使用され得るデバイス400のブロック図である。
オーディオ処理の方法500のフロー図である。
本明細書で説明されるのは、オーディオコンテンツ識別に関連する技術である。以下の説明では、説明の目的のために、本開示の完全な理解を提供するために、多数の実施例と具体的な詳細を記載する。しかしながら、当業者には、特許請求の範囲によって定義される本開示は、これらの実施例における特徴の一部又はすべてを単独で又は以下に記載される他の特徴と組み合わせて含んでよく、本明細書に記載される特徴及び概念の修正及び均等物を更に含んでよいことが明らかであろう。
以下の説明では、様々な方法、プロセス及び手順が詳述される。特定のステップが一定の順番で記載されることがあるが、このような順番は主に利便性と明確さのためである。特定のステップが2回以上繰り返されることがあり、他のステップの前又は後に起こることがあり(それらのステップが別の順番で記述されている場合であっても)、他のステップと並行して起こることがある。第2のステップは、第2のステップが開始される前に第1のステップが完了しなければならないときにのみ、第1のステップの後に続く必要がある。このような状況は、文脈から明確でないときに具体的に指摘される。
この文書では、「及び」、「又は」、「及び/又は」という用語が使用される。そのような用語は包括的な意味を有するものとして読まれるべきである。例えば「A及びB」は、少なくとも以下を意味する、すなわち「AとBの両方」、「少なくともAとBの両方」を意味することがある。別の例として、「A又はB」は、少なくとも以下を意味する、すなわち、「少なくともA」、「少なくともB」、「AとBの両方」、「少なくともAとBの両方」を意味することがある。別の例として、「A及び/又はB」は、少なくとも以下を意味する、すなわち、「AとB」、「A又はB」を意味することがある。排他的論理和が意図されるとき、そのようなことが具体的に記載されるであろう(例えば「A又はBのいずれか」、「最大でAとBのうちの一方」)。
本文書では、ブロック、要素、構成要素、回路等のような構造に関連付けられる様々な処理機能を説明する。一般に、これらの構造は、1つ以上のコンピュータプログラムによって制御されるプロセッサによって実装され得る。
図1は、オーディオ分類器100のブロック図である。オーディオ分類器100は、一般に、入力オーディオ信号102を受け取り、様々なモデルを使用して入力オーディオ信号102の分類を実行し、信頼スコア128を出力する。オーディオ分類器100は、特徴抽出器110、分類器112(元の分類器とも呼ばれる)の第1のセット、分類器114(新しい分類器とも呼ばれる)の第2のセット、コンテキスト検出器116及び信頼度決定器118を含む。オーディオ分類器100は、一般に、二段階オーディオ分類器又は二段階音楽分類器と呼ばれることもある。あるいは、分類器112及び114と、コンテキスト検出器116と、信頼度決定器118(例えば特徴抽出器110を除く)をまとめて、二段階オーディオ分類器又は二段階音楽分類器と呼ぶこともある。
特徴抽出器110は、オーディオ信号102を受け取り、オーディオ信号102に対して特徴抽出を実行し、抽出された特徴120を生成する。一般的に抽出される特定の特徴は、分類器112及び114によって実装されるモデルに関連する、特定の特徴に従って選択される。一例として、抽出された特徴120は、オーディオ信号102の様々な周波数帯域のスペクトルエネルギーに対応することがある。
分類器112は、一般に、オーディオ分類器100の一段階を構成する。分類器112は、抽出された特徴120を受け取り、1つ以上のモデルを使用して、抽出された特徴120の分類を実行し、信頼スコア122のセット(元の信頼スコアとも呼ばれる)を生成する。信頼スコア122のセットは、例えば1つ以上のモデルに対応する、1つ以上の信頼スコアを含むことができる。
分類器112は、一般に、既存の分類器のセットに対応する。一般に、既存の分類器のセットは、オーディオの既存のジャンルを分類するために開発されているが、オーディオの新しいジャンルを正確に分類することができない可能性がある。分類器112は、スピーチ分類器、音楽分類器、音響効果分類器、ノイズ分類器等を含む、1つ以上の分類器を含み得る。分類器112は、各分類器の1つ以上の異なるタイプ、例えば音楽の特定のジャンルを分類するために各々開発された、2つ以上のタイプの音楽分類器(例えばジャズ分類器、ロック分類器等)を含み得る。スピーチ分類器は、一般に、オーディオ信号102が、音楽、音響効果等とは対照的に、スピーチ(例えば対話)に対応するかどうかを評価する。音響効果分類器は、一般に、オーディオ信号102が、スピーチ(例えば対話)又は音楽(例えばバックグラウンド音楽、ムード音楽等)とは対照的に、音響効果(例えば自動車の衝突や爆発等のような映画の音響効果)に対応するかどうかを評価する。ノイズ分類器は、一般に、オーディオ信号102が、ノイズ(例えば鼻歌(hum)、ブンブンいう音(buzz)、泣き声(whine)、ジャックハンマーの音、サイレン、滝の音(waterfall)、降雨等のような一定又は反復的な音)を含むかどうかを評価する。
分類器112は、様々なタイプのオーディオの様々なモデルを使用して様々な分類を実行する機械学習システムによって実装され得る。分類器112は、適応ブースティング(adaptive boosting)(AdaBoost)又はディープニューラルネットワーク機械学習プロセスを実装し得る。AdaBoostプロセスは、小さなモデルサイズを使用するか又は複雑な計算を実行する能力が限られているデバイスで実装されることがある。ディープニューラルネットワークプロセスは、より大きなモデルサイズを可能にし、複雑な計算を実行する能力がより高いデバイスで実装されることがある。一般に、分類器112のモデルは、トレーニングデータのセットに対して機械学習を実行することによって、オフラインで開発される。
分類器114は、一般に、オーディオ分類器100の第2段階を構成する。分類器114は、抽出された特徴120を受け取り、1つ以上のモデルを使用して、抽出された特徴120の分類を実行し、信頼スコア124のセット(新しい信頼スコアとも呼ばれる)を生成する。信頼スコア124は、例えば1つ以上のモデルに対応する、1つ以上の信頼スコアを含むことができる。
分類器114は、一般に、新しい分類器のセットに対応する。一般に、新しい分類器は、オーディオの新しいジャンルを分類するために開発されている。例えば元の分類器112のモデルを開発するために使用されるトレーニングデータは、音楽の新しいジャンルのオーディオデータを含んでいない可能性があるので、元の分類器112は、新しいジャンルを識別する際にうまく機能しない。以下でより詳細に説明されるように、新しい分類器114はラップ分類器(rap classifier)を含む。
分類器114は、様々なタイプのオーディオの様々なモデルを使用して様々な分類を実行する機械学習システムによって実装され得る。分類器114は、適応ブースティング(AdaBoost)又はディープニューラルネットワーク機械学習プロセスを実装し得る。一般に、分類器114のモデルは、トレーニングデータのセットに対して機械学習を実行することによってオフラインで開発される。
分類器114はまた、分類器112から、信頼スコア122のセットのような情報も受け取ることがある。例えば分類器114は、オーディオ信号102が(音響効果又はノイズとは対照的に)スピーチ又は音楽に対応するという指示を分類器112から受け取ることがある。
コンテキスト検出器116は、信頼スコア122のセットを受け取り、ステアリング信号126を生成する。コンテキスト検出器116は、分類器112から、オーディオ信号102がスピーチも音楽も含まないことを示す情報を受け取ることがある。一般に、コンテキスト検出器116は、様々な時間フレームにわたって信頼スコア122のセットの構成要素を評価し、平滑化された信頼スコアを使用して短期的に誤分類の影響を軽減する。コンテキスト検出器116は、後続の構成要素による信頼スコア122及び124のセットの影響を重み付けするステアリング信号126を生成する。コンテキスト検出器116及びステアリング信号126の更なる詳細は以下に提供される。
信頼度決定器118は、信頼スコア122及び124のセットと、ステアリング信号126を受け取り、最終信頼スコア128を生成する。一般に、信頼度検出器118は、信頼スコア124に応じて適切であるとき、分類器112のみを使用することから分類器114も使用することに、オーディオ分類器100をスムーズに移行させる。信頼度決定器118の更なる詳細は以下に提供される。
ラップ音楽分類
以下のセクションでは、分類器114のラップ音楽分類の特定のユースケースについて議論する。既存の音楽ジャンルと比較して、ラップ音楽は、対話と音楽の両方に類似性がある。したがって、既存の分類器を使用することは、ラップ音楽を、対話として分類してオーディオ処理アルゴリズムの1つのセットを適用するか、音楽として分類してオーディオ処理アルゴリズムの別のセットを適用するというリスクがあり、いずれもラップ音楽には適していない可能性がある。加えて、既存の分類器は、対話と音楽の分類の間を急速に切り替えて、その結果、2つの処理アルゴリズムの間を急速に切り替えることになり、一貫性のないリスニング体験をもたらす可能性がある。ラップ分類器を追加し、ラップ分類器を既存の分類器と統合して二段階分類器を形成することは、既存の分類器を中断することなく、改善されたリスニング体験をもたらす。
サブバンドベースのスペクトルエネルギー
ラップ音楽では、特徴抽出器110によって抽出される新しい特徴は、スペクトルエネルギーに基づいて開発されるが、スペクトルエネルギーは、周波数領域で異なるコンテンツのエネルギー変動特性を示す。最初に、入力オーディオ信号は、時間周波数変換ツール(例えば直交ミラーフィルタ(QMF)、高速フーリエ変換(FFT)等)によってスペクトル係数に変換され、次に、上記のスペクトル係数によってエネルギースペクトルが計算されるが、ここで、全体のエネルギースペクトルは、本開示では4つのサブバンドに更に分けられる。
300Hz未満の低周波のエネルギー分布を表す第1サブバンドエネルギーは、ベース又はドラムの開始を検出するために使用される。300Hzと1kHzの間のエネルギー分布を表す第2サブバンドエネルギーは、ボーカルピッチの変動を測定するために使用される。1kHzと3kHzの間のエネルギー分布を表す第3サブバンドエネルギーは、ボーカル調和(vocal harmonic)の変動を測定するために使用される。3kHzと6kHzの間のエネルギー分布を表す第4サブバンドエネルギーは、無声信号又はスネアドラムの変動を検出するために使用される。
すべてのサブバンドスペクトルエネルギーは、短期フレーム(short-term frames)(例えば20ms)で計算され、その後、予測されるウィンドウ長(例えば5s)を満たすまでメモリバッファに記憶される。最後に、上記のウィンドウ長のスペクトルエネルギーに基づいて、高レベルの特徴を導出することができる。
サブバンドの数、各サブバンドの周波数範囲、フレーム長及びウィンドウ長は、必要に応じて調整されてよい。例えば異なる新しいジャンルを分類するために、その新しいジャンルに適したサブバンドを使用して、別の新しい分類器114のためのモデルを生成してもよい。
ラップ音楽の特性
一般的な音楽と比較して、典型的なラップ音楽は、ボーカルテンポ、リズミカルな歌詞(rhythmic lyrics)、音楽小節(musical bars)の規則性等を含む、いくつかの顕著な違いがある。上記のサブバンドスペクトルエネルギーに基づいて、ピーク/谷(peak/valley)トラッキング方法を導入して、ボーカルテンポの特性、リズミカルな拍子及び音楽小節の規則性を反映する手がかりを見つける。
典型的なラップ音楽では、一般的なテンポは約100~150ビート・パー・ミニット(BPM)であり、典型的には4/4拍子記号を有し、歌詞は、各文の音節の数がほぼ同じになるように、一定期間にわたって規則的に歌われることが多い。したがって、それに応じていくつかの新しい特徴が推測される。
1つめの特徴は、サブバンドスペクトルエネルギー分布の統計的特性である。一定期間にわたって、スペクトルエネルギーパラメータは、いくつかの音楽小節に分けられ、各小節で、ピーク/谷スペクトルエネルギーが計算されてよく、ピーク/谷の数もカウントされる。上記のスペクトルエネルギーの統計的特性を示す特徴(例えば平均、標準偏差等)は、ラップ音楽を一般的なスピーチコンテンツから区別するために使用されることがある。
2つめの特徴は、サブバンドスペクトルエネルギーのピーク/谷位置間隔である。ボーカル又は音節は、有声音と無声音で構成され、スペクトルエネルギーのピークと谷にある程度関連しているため、一般的なラップ音楽ではピーク/谷の位置は一定の間隔である。しかしながら、自然な対話で話す場合、有声音と無声音との間に明確な一定の間隔はない。したがって、ここでは、ウィンドウ長スペクトルエネルギーのインデックスによって表されるピーク/谷の位置を連続的に記録し、次いで、隣接するピーク位置の各間隔を計算する。最後に、これらの間隔の均等な分布が、ラップ音楽の重要な特徴として使用される。
3つめの特徴は、ピークと谷のスペクトルエネルギーのコントラストである。映画やショーの一般的なスピーチやセリフと比較して、ラップ音楽のピークのボーカルエネルギーと谷のボーカルエネルギーのコントラストはあまり変わらず、これは、オーディオコンテンツがセリフコンテンツであるかどうかを示す重要な手がかりとしても使用されることもある。
4つめの特徴は韻律の特徴である。ラップ音楽の歌詞のほとんどは、特定の拍子と押韻構成で書かれている。残念ながら、意味認識なしに音節単位に基づいて歌詞を正しく区切ることは、計算上不可能である可能性がある。加えて、ラップ音楽では、特に最後の韻脚(metrical foot)に1つ以上の音節がないとき、韻律が不完全であることがある。
5つめの特徴は、リズムの特徴である。音楽的な開始の周波数と強さ及びリズムの規則性とコントラストを表すリズミカルな特徴は、上述の様々なスペクトル範囲のサブバンドエネルギーで計算される。1つの測定値は、第1/第4サブバンドに基づいていることがあり、他の測定値は、それぞれ第2/第3サブバンドのスペクトルエネルギーに基づいていることがある。
二段階音楽分類器をトレーニングするためのデータ及び特徴の選択
ラップ分類器をトレーニングする前に、トレーニングデータのセットを準備し、特徴と分類器アルゴリズムを完成させる必要がある。トレーニングデータベースは、スピーチ、ラップ音楽、非ラップ音楽、音響効果、ノイズ等のような様々なコンテンツタイプで構成されるが、これらは、様々なアプリケーションから収集され、時間の経過とともに、それらの対応するオーディオタイプを表すために手動でラベル付けされる。これらのラベルは、オーディオコンテンツのグラウンドトゥルースを表す。異なる適用シナリオの要件を満たすために、特徴セットは、古い特徴と新しい特徴の間で共同で又は別個に選択され得る。同様に、新しいモデルは、異なる学習アルゴリズムを使用することによって、独立に又は複数のモデルと共同でトレーニングされ得る。
新しい分類器の要件とシステム許容度に応じて、古い特徴/トレーニングデータと新しい特徴/トレーニングデータの異なる組合せが存在する。残念ながら、すべての選択の可能性を列挙することはできないため、上記の組合せの最適解を見つけることは難しい。実際には、トレーニングデータセットを2つのデータチャックに手動で分割し、1つのデータチャックはラップ音楽コンテンツのジャンルを表し、他のデータチャックは非ラップを表す。特徴セットでは、ラップ音楽分類器をトレーニングするために元の特徴と新しい特徴の両方を選択し、一方で古い音楽分類器については古い特徴を保持する。したがって、2つの独立した音楽分類器が存在する:1つは、一般的な音楽コンテンツ識別のための第1段階の音楽分類器としての元の音楽分類器(例えば分類器112のセット)であり、もう1つは、第2段階の音楽分類器としての新しいトレーニングされたラップ音楽分類器(例えば分類器114のセット)であり、これは特に、ラップ曲と対話コンテンツとの間のオーディオコンテンツを識別するためのものである。
分類器の二段階への配置
図2は、分類器112及び114(図1を参照されたい)の二段階分類器200への配置を示すブロック図である。分類器112は第1段階を形成し、スピーチ分類器202、音楽分類器204、音響効果分類器206、ノイズ分類器208を含む。分類器112は、抽出された特徴120を受け取り、それぞれ、スピーチ信頼スコア212、音楽信頼スコア214、音響効果信頼スコア216、ノイズ信頼スコア218を生成し、これらはまとめて信頼スコア122のセットを構成する。
分類器114は、第2段階を形成し、ラップ分類器230を含む。第2段階は決定段階232も含む。決定段階232は信頼スコア122のセットを受け取る。信頼スコア122のセットが、オーディオ信号102がスピーチ又は音楽に対応していないこと(例えばスピーチ信頼スコア212及び音楽信頼スコア214について低い値、あるいは音響効果信頼スコア216又はノイズ信頼スコア218について高い値)を示すとき、二段階分類器200は信頼スコア122のセットを出力する。信頼スコア122のセットが、オーディオ信号102がスピーチ又は音楽に対応していること(例えばスピーチ信頼スコア212又は音楽信頼スコア214について高い値)を示すとき、決定段階はこの情報をラップ分類器230に示す。
ラップ分類器230は、抽出された特徴120と、決定段階232からのスピーチ又は音楽の指示を受け取る。計算の複雑性を効果的に削減するために、ラップ分類器230をすべてのコンテンツに対して常に実行する必要はない。代わりに、分類器112と分類器114は、二段階カスケード分類器として配置される。最初に、各オーディオタイプの信頼スコアが第1段階で計算され、最大の信頼スコアを有する対応するオーディオタイプを決定する。オーディオタイプがスピーチ又は音楽タイプである場合、条件が満たされ、その指示がラップ分類器230に提供され、更なる識別を実行する。次いで、二段階分類器200は、ラップ分類器230の動作から得られた信頼スコア124を出力する。第1段階分類器の出力タイプが音響効果又はノイズである場合、ラップ分類器230はバイパスされてよい。
コンテキスト検出器116
コンテキスト検出器116(図1参照)は、一般に、経時的な信頼値の変化を監視する。元の分類器(例えば分類器112)と新しい分類器(例えば分類器114)の両方が、短期間では間違える可能性がある。したがって、コンテキスト検出器116は、より長期的に連続的なコンテキスト情報を評価する。例えば数分間にわたって音楽を聴くことにより、この期間の終わりに音楽のタイプの高い信頼スコアを有する傾向があるコンテキスト情報が得られ、これは、短期間の誤分類による突然の誤警報を修正するのに役立つ可能性がある。コンテキスト検出器116は、長期的コンテキストと短期的コンテキストの両方を考慮する。長期的コンテキスト情報は、ゆっくり平滑化される音楽信頼スコア(例えば音楽信頼スコア214)である。例えば低速な平滑化は8秒から12秒、例えば10秒かけて決定され得る。次いで、長期的コンテキスト情報
Figure 2023539121000002

(以下、p(t)と表記することがある。)が、以下の式(1)に従って計算され得る:
Figure 2023539121000003
ここで、p(t)は、オーディオ信号102の現在のフレームtにおける音楽分類器の信頼スコア(例えば音楽信頼スコア214)であり、αcontextは長期平滑化係数である
同様に、短期的コンテキスト情報は、迅速に平滑化される非音楽信頼スコア(例えば音響効果信頼スコア216とノイズ信頼スコア218の大きい方)である。例えば迅速な平滑化は、4秒から6秒、例えば5秒かけて決定され得る。次いで、短期的コンテキスト情報
Figure 2023539121000004
(以下、q(t)と表記することがある。)が、以下の式(2)に従って計算され得る:
Figure 2023539121000005
ここで、q(t)は、オーディオ信号102の現在のフレームtにおける音響効果信頼スコア216とノイズ信頼スコア218の最大値であり、βcontextは短期平滑化係数である。
上記のコンテキスト信号p(t)及びq(t)が与えられると、ステアリング信号s(t)を、非線形関数h()によって決定することができる。例えば以下の式(3)に従って、シグモイド関数を使用して、取得されたコンテキスト信号を、予測されるステアリング信号(0から1)にマッピングすることができる:
Figure 2023539121000006
ここで、h及びhは、式(4)によるシグモイド関数である:
Figure 2023539121000007
ここで、xは、出力される取得されたコンテキスト信頼度(例えばp(t)又はq(t))であり、A及びBは、2つのパラメータである。
コンテキスト検出器116の出力はステアリング信号126であり、これは、信頼度決定器118による後続処理のための重み係数として使用される。ステアリング信号126の範囲は、0.0から1.0までのソフト値であり、ここで、値0は非音楽コンテキストを示し、値1.0は音楽コンテキストを示す。0と1の間では、値が大きいほど、オーディオ信号102が音楽コンテキストにある可能性が高い。
信頼度決定器118
信頼度決定器118(図1参照)は、ステアリング信号126、信頼スコア122のセット及び信頼スコア124を一緒に考慮することによって、最終的な音楽信頼スコア128を生成する。ラップ音楽分類のオン/オフのスムーズな移行を達成するために、w(t)∈(0,1)の場合、混合手順がとられる。すなわち、最終出力は、古い音楽分類器(例えば信頼スコア122のみ)と新しい音楽分類器(例えば信頼スコア122と124の両方の組合せ)の混合信頼スコアである。新しい音楽分類器の信頼スコアxnew(t)、古い音楽分類器の信頼スコアxold(t)[例えば信頼スコア122]及び上述のステアリング信号s(t)[例えばステアリング信号126]が与えられると、xnew(t)を、以下の式(5)に従って計算することができる:
new(t)=xold(t)+(1-xold(t))*new_conf(t)
ここで、new_conf(t)は、第2段階(ラップ)音楽信頼度の出力(例えば信頼スコア124)である。
次いで、最終出力信頼スコアy(t)[例えば最終信頼スコア128]を、以下の式(6)及び式(7)に従って表すことができる:
Figure 2023539121000008
閾値は、トレーニングデータの統計の要約を介して決定されてよく、一実施形態によると0.9の閾値がうまく機能する。
追加の新しい分類器の拡張
本開示では、ラップ分類器は、二段階音楽分類器を構築する例示的なユースケースとして詳述されるが、これは、スピーチ、非ラップ音楽、音響効果及びノイズのような既存のオーディオコンテンツに対する元の挙動を維持するだけでなく、ラップ曲に対する分類精度を大幅に向上させることによって、ラップ音楽の全体的なリスニング体験を向上させる。なお、提案される方法を、アカペラ音楽、ゲーム内の特定のバックグラウンド音楽、ポッドキャスト内の残響音声(reverbed speech)のための新しい分類器を構築することのような、音楽コンテンツ分類の様々なユースケースのために、オーディオシステムに簡単に拡張し又は直接適用することができることに留意されたい。より広範には、提案された方法を、一般的なコンテンツ分類のための一般的なオーディオシステムにも拡張することができる。以下の段落では、古いコンテンツ識別器を新しいもので拡張する必要がある、いくつかの特定のユースケース、シナリオ及び用途について説明する。
一例示的なユースケースは残響検出である。例えば残響音声を特別に処理し、次いで、ポッドキャスト又はユーザ生成されたオーディオコンテンツのようなビットストリームに符号化する必要がある。新しいタイプのデータをサポートする一方で、新しい検出器は、下位互換性を維持するために、古いタイプのデータに対して同様の結果を生成する必要がある場合がある。この場合、残響音声分類器が分類器114(図1参照)に追加され得る。
別の例示的なユースケースは銃声検出である。ゲームアプリケーションでは、音響効果検出器は、追加のタイプの音響効果、例えば銃声音で更新されることがある。この場合、銃声分類器が分類器114に追加され得る。
別の例示的なユースケースはノイズ検出である。顧客からのニーズの増加に伴い、オーディオ処理システムは、より多くの機能性(例えばモバイルデイバスのノイズ補償)を提供する必要がある場合があり、これは、ノイズ分類器がより多くのオーディオコンテンツタイプ(例えばモバイルの定常ノイズ)を識別することを更に必要とする。新しいノイズ分類器は、より多くの分類結果を提供するが、新しい分類器を使用した後にノイズ抑制や音量調整のような他のオーディオ処理アルゴリズムを大幅に調整する必要がないように、もともとサポートされていたコンテンツタイプ(ノイズ又は音響効果のような)の分類結果が、古い分類器の分類結果と依然として同様であることが望まれる。この場合、新しいノイズ分類器が分類器114に追加され得る。
要約すると、新しい分類器を構築又は改善する必要があるとき、提案される方法を、次の4つの考慮事項から一般化することができる。
1つめの考慮事項は、古いユースケースと新しいユースケースの関係である。この考慮事項は、古い分類器と新しい分類器の関係を明確にし、これは、モデル組合せの構造を決定する。新しいユースケースが、古いユースケースのタイプサブセットであるとき、新しい分類器を、カスケード化された多段階構造として古い分類器と組み合わせることができる。新しいユースケースが独立の要件である場合、新しい分類器は古い分類器と並行している可能性がある。さらに、この考慮事項は、新しい分類器がいつトリガ又はアクティブ化されるか、そして新しい分類器の結果が元のシステムの古い分類器の信頼スコアとどのように組み合わされるかを決定するのに役立つ。
2つめの考慮事項は、新しいユースケースの新しい特性である。この考慮事項は、新しいパターンの本質的な特性を表す典型的な特徴を見つけることを目的としており、これは、ターゲットとされるタイプを他のコンテンツタイプから区別するために使用される。
3つめの考慮事項は、新しいユースケースのトレーニングモデルである。この考慮事項は、新しい要件に従って、トレーニングデータ及びラベル付けデータをターゲットオーディオタイプとして準備し、特徴を抽出し、対応する機械学習技術によってオフラインで新しい分類器のモデルをトレーニングする。
4つめの考慮事項は、新しい分類器の統合である。この考慮事項は、新しい特徴及び分類器を元のシステムに統合し、古いユースケースの挙動の違いを最小限にするように適切なパラメータを調整することを目的とする。
オーディオコンテンツを区別し、それに応じて最適なパラメータ又は最適なオーディオ処理アルゴリズムを適用するために、異なるユースケースプロファイルが必要とされ、事前に設計されることがあり、システム開発者は、展開されているアプリケーションコンテキストのためのプロファイルを選択し得る。プロファイルは通常、「ファイルベース」プロファイル及び高性能アプリケーション又はリソース制限されるユースケース、例えばモバイルのために特別に設計される「ポータブル」プロファイルのような、適用されるオーディオ処理アルゴリズム及び/又はそれらの最適なパラメータのセットを符号化する。ファイルベースのプロファイルとポータブルプロファイルの主な違いは、特徴選択とモデル選択による計算の複雑性であり、拡張機能は、ファイルベースのプロファイルでは有効にされ、ポータブルプロファイルでは無効にされる。
確立されたユースケースに対する影響の回避
新しい要求で元のシステムを拡張するとき、新しいシステムは、既存のアプリケーションのユースケースに大きな影響を有するべきではない。これは、以下の3つの推奨事項を示唆する。
1つめの推奨事項は、古いユースケースの特徴/モデルの選択に関する。一般的な目標は、可能な場合、元の特徴及び分類器を変更せずに維持し、新しい要求のために分離された分類器を追加又はトレーニングすることであり、これは既存のユースケースに対する大きな影響を回避するために不可欠な保証である。
2つめの推奨事項は、新しい分類器を使用する決定に関する。不必要な誤警報を減らすために、新しい分類器を使用する決定条件を微調整すべきであり、これは、古いユースケースでは、元の分類器を使用して信頼スコアを計算して結果を出力し、新しい用途にのみ新しい分類器を使用してオーディオコンテンツタイプを識別することを示す。
3つめの推奨事項は、古い分類器と新しい分類器の間の信頼度決定器に関する。異なる平滑化スキームが、古い信頼スコアと新しい結果の間の最終出力の決定に使用され得る。例えば急激な変化を回避し、オーディオ処理アルゴリズムのパラメータのよりスムーズな推定を行うために、信頼スコアを更に平滑化することができる。一般的な平滑化方法は、例えば以下の式(8)及び式(9)に従って、加重平均に基づく:
Conf(t)=α・old_Conf(t)+(1-α)・new_conf(t)
smoothConf(t)=β・smoothConf(t)+(1-β)・conf(t)
ここで、tはタイムスタンプであり、α、βは重みであり、conf及びsmoothConfは、それぞれ平滑化の前及び後の信頼度である。
平滑化アルゴリズムは、異なるケースでは異なる平滑化重みを使用することによって「非対称」とすることもできる。例えば古い信頼スコアが増加するときに元の出力をより重視すると仮定すると、以下の式(10)に従って平滑化アルゴリズムを設計することができる:
Figure 2023539121000009
上記の数式は、平滑化された信頼スコアが、古い信頼スコアが増加するときに現在の状態にすばやく応答し、古い信頼スコアが減少するときにゆっくりと平滑化することを可能にする。平滑化関数の変形を同様の方法で作成することができる。
図3は、オーディオ処理システム300のブロック図である。オーディオ処理システム300は、オーディオ分類器100(図1参照)と、対話エンハンサ312、インテリジェントイコライザ314及びラップ音楽エンハンサ316を含む処理構成要素310とを含む。
オーディオ分類器100は、オーディオ信号102を受け取り、上述のように動作して最終信頼スコア128を生成する。処理構成要素310は、最終信頼スコアを受け取り、最終信頼スコア128に基づいて適切な構成要素を使用してオーディオ信号102を処理する。例えば最終信頼スコア128が、オーディオ信号102が対話であることを示すとき、対話エンハンサ312を使用してオーディオ信号102を処理してよい。最終信頼スコア128が、オーディオ信号102がアンバランスなスペクトルバランスを有することを示すとき、インテリジェントイコライザ314を使用してオーディオ信号102を処理してよい。最終信頼スコア128が、オーディオ信号102がラップ音楽であることを示すとき、ラップ音楽エンハンサ316を使用してオーディオ信号102を処理してよい。処理構成要素310は、選択された構成要素によって処理されているオーディオ信号102に対応する、処理されたオーディオ信号320を生成する。
図4は、オーディオ分類器100(図1参照)、二段階分類器200(図2参照)、オーディオ処理システム300(図3参照)等を実装するために使用され得る、デバイス400のブロック図である。デバイス400は、コンピュータ(デスクトップコンピュータ、ラップトップコンピュータ等)、ゲームコンソール、ポータブルデバイス(例えば携帯電話、メディアプレーヤ等)等であってよい。デバイス400は、バス412によって接続される、プロセッサ402、メモリ404、1つ以上の入力構成要素406、1つ以上の出力構成要素408及び1つ以上の通信構成要素410を含む。
プロセッサ402は、一般に、例えば1つ以上のコンピュータプログラムの実行に従って、デバイス400の動作を制御する。プロセッサ402は、特徴抽出器110(図1参照)、分類器112及び114、コンテキスト検出器116、信頼度決定器118、オーディオ処理構成要素310(図3参照)、式(1)から式(10)、方法500(図5参照)等の特徴のような、本明細書で説明される特徴のうちの1つ以上を実装し得る。プロセッサ402は、データ、コンピュータプログラム等を記憶するためにメモリ404とやり取りすることがある。
メモリ404は、一般に、デバイス400によって操作されるデータを記憶する。例えばメモリ404は、入力信号102(図1参照、例えばストリーミング信号のデータフレームとして、記憶されたデータファイル等として)、抽出された特徴120、分類器112及び114によって使用されるモデル、信頼スコア122及び124、ステアリング信号126、最終信頼スコア128、式(1)から式(10)の結果等を記憶してよい。メモリ404は、プロセッサ402によって実行されるコンピュータプログラムも記憶してよい。
入力構成要素406は、一般に、デバイス400への入力を可能にする。入力構成要素406の仕様は、デバイス400の特定のフォームファクタによって異なることがある。例えば携帯電話の入力構成要素406は、タッチスクリーン、マイク、モーションセンサ、カメラ、コントロールボタン等を含み得る。ゲームコンソールの入力構成要素406は、コントロールボタン、キネティックモーションセンサ、マイク、ゲームコントローラ等を含み得る。
出力構成要素408は、一般に、デバイス400からの出力を可能にする。出力構成要素408の仕様は、デバイス400の特定のフォームファクタによって異なることがある。例えば携帯電話の出力構成要素408は、スクリーン、スピーカ、触覚機構、発光ダイオード等を含み得る。ゲームコンソールの出力構成要素408は、スクリーン、スピーカ等を含み得る。
通信構成要素410は、一般に、デバイス400と他のデバイスとの間の有線又は無線通信を可能にする。そのため、通信構成要素410は、入力構成要素406及び出力構成要素408と同様に、追加の入力構成要素及び出力構成要素を含む。無線構成要素は、セルラ式無線(cellular radios)、IEEE 802.15.1無線(例えばBluetooth(登録商標)無線)、IEEE 802.11無線(例えばWi-Fi(登録商標)無線)等のような無線を含む。有線構成要素は、キーボード、マウス、ゲームコントローラ、センサ等を含む。入力構成要素406及び出力構成要素408の仕様は、デバイス400の特定のフォームファクタによって異なることがある。例えば携帯電話は、入力信号102をストリーミング信号として受信するセルラ式無線と、処理されたオーディオ信号320を、サウンドとして出力するために一対のワイヤレスイヤホンに送信するIEEE 802.15.1無線を含み得る。
図5は、オーディオ処理の方法500のフロー図である。方法500は、1つ以上のコンピュータプログラムの実行によって制御されるように、デバイス(例えば図4のデバイス400)によって実装されてよい。
502において、オーディオ信号が受信される。例えばオーディオ信号102(図1参照)は、デバイス400の通信構成要素410(図4参照)によって受信されてよい。別の例として、オーディオ信号102は、以前にそこに記憶されていたメモリ404から受信されてもよい。
504において、オーディオ信号に対して特徴抽出を実行して複数の特徴を抽出する。例えば特徴抽出器110(図1参照)は、オーディオ信号102に対して特徴抽出を実行して、抽出された特徴120を生成し得る。実行される特徴抽出の詳細と、結果として抽出される特徴は、分類に使用されるモデルに対する、これらの特定の特徴の関連性によって異なり得る。例えば入力信号102のサブバンドエネルギーは、ラップ分類モデルに関連することがある。
506において、複数の特徴は、第1オーディオ分類モデルに従って分類されて、第1信頼スコアセットを生成する。例えば分類器112(図1参照)は、音楽分類モデル、スピーチ分類モデル、ノイズ分類モデル、音響効果分類モデル等に従って、抽出された特徴120を分類し、それぞれの信頼スコア122を生成することができる。
508において、複数の特徴は、第2オーディオ分類モデルに従って分類されて、第2信頼スコアを生成する。例えば分類器114(図1参照)は、ラップ分類モデルに従って、抽出された特徴120を分類し、ラップ信頼スコア124を生成することができる。
510において、ステアリング信号は、第1期間にわたって平滑化された第1信頼スコアセットの第1構成要素と、第2期間にわたって平滑化された第1信頼スコアセットの第2構成要素を組み合わせることによって計算され、ここで、第2期間は第1期間よりも短い。例えばコンテキスト検出器116(図1参照)は、式(1)による長期的コンテキスト情報と式(2)による短期的コンテキスト情報を使用して、式(3)に従ってステアリング信号126を生成することができる。
512において、最終信頼スコアが、ステアリング信号、第1信頼スコアセット及び第2信頼スコアに従って計算される。例えば信頼度決定器118(図1参照)は、ステアリング信号126、信頼スコア122及び信頼スコア124に従って、最終信頼スコア128を生成することができる。最終信頼スコアは、例えば式(6)に従って計算される、信頼スコア122と124の重み付けされた組合せに対応し得る。
514において、最終信頼スコアに従って、オーディオ信号の分類が出力される。例えば信頼度決定器118(図1参照)は、デバイス400の他の構成要素による使用のために、最終信頼スコア128を出力することができる。
516において、分類に基づいて、第1プロセスと第2プロセスのうちの一方が、オーディオ信号を選択的に実行され、処理されたオーディオ信号を生成し、ここで、分類が第1分類であるときに、第1プロセスが実行され、分類が第2分類であるときに、第2プロセスが実行される。例えばオーディオ信号102(図1参照)がスピーチに対応するとき、対話エンハンサ312(図3参照)を使用して、処理されたオーディオ信号320を生成することができる。オーディオ信号102がラップに対応するとき、ラップ音楽エンハンサ316を使用して、処理されたオーディオ信号320を生成することができる。
518において、処理されたオーディオ信号が音として出力される。例えばデバイス400のスピーカは、処理されたオーディオ信号320を可聴音として出力することができる。
実装の詳細
実施形態は、ハードウェア、コンピュータ読取可能媒体に記憶された実行可能モジュール又はその両方の組合せ(例えばプログラマブル論理アレイ)で実装されてよい。別段の記載がない限り、実施形態によって実行されるステップは、特定の実施形態におけるものであり得るが、本質的にいずれかの特定のコンピュータ又は他の装置に関連する必要はない。特に、様々な汎用マシンが、本明細書における教示に従って書かれたプログラムとともに使用されてよく、必要な方法のステップを実行するために、より専門的な装置(例えば集積回路)を構築する方が便利なことがある。したがって、実施形態は、各々が少なくとも1つのプロセッサと、少なくとも1つのデータストレージシステム(揮発性及び不揮発性メモリ及び/又は記憶素子を含む)と、少なくとも1つの入力デバイス又はポートと、少なくとも1つの出力デバイス又はポートとを含む、1つ以上のプログラム可能なコンピュータシステムで実行される1つ以上のコンピュータプログラムで実装されてよい。プログラムコードは、本明細書で説明される機能を実行して出力情報を生成するために入力データに適用される。出力情報は、既知の方法で1つ以上の出力デバイスに適用される。
このような各コンピュータプログラムは好ましくは、本明細書に記載されている手順を実行するために、記憶媒体又はデバイスがコンピュータシステムによって読み取られるときに、コンピュータを構成して動作させるために、汎用又は特殊目的のプログラム可能なコンピュータ読取可能記憶媒体又はデバイス(例えばソリッドステートメモリ又は媒体、あるいは磁気又は光媒体)に記憶又はダウンロードされる。また、本発明のシステムは、コンピュータプログラムで構成されるコンピュータ読取可能記憶媒体として実装されると考えられてもよく、ここで、そのように構成される記憶媒体は、コンピュータシステムに、本明細書に記載されている機能を実行するために、特有の事前に定義された方法で動作させる。(ソフトウェア自体及び無形又は一時的な信号は、特許を受けることができない主題である限り除外される。)
上記の説明は、本開示の様々な実施形態を、本開示の態様が実装され得る方法の例とともに説明している。上記の例及び実施形態は、唯一の実施形態とみなされるべきではなく、以下の特許請求の範囲によって定義される本開示の柔軟性及び利点を説明するために提示される。上記の開示及び以下の特許請求の範囲に基づいて、他の構成、実施形態、実装及び均等物は、当業者にとって明らかであり、特許請求の範囲によって定義される本開示の精神及び範囲から逸脱することなく採用することができる。
本発明の様々な態様は、以下の列挙される例示的な実施形態(enumerated example embodiments)(EEE)から理解され得る:
EEE1. オーディオ処理の方法であって、当該方法は、
オーディオ信号を受信するステップと、
オーディオ信号に対して特徴抽出を実行して複数の特徴を抽出するステップと、
第1オーディオ分類モデルに従って複数の特徴を分類して第1信頼スコアを生成するステップと、
第2オーディオ分類モデルに従って複数の特徴を分類して第2信頼スコアを生成するステップと、
第1信頼スコアの第1構成要素と、第1信頼スコアの第2構成要素を組み合わせることによって、ステアリング信号を計算するステップと、
ステアリング信号、第1信頼スコア及び第2信頼スコアに従って最終信頼スコアを計算するステップと、
最終信頼スコアに従ってオーディオ信号の分類を出力するステップと、を含む。
EEE2. 複数のモデルは、第1モデルセットと第2オーディオ分類モデルを含み、第1モデルセットは、第1オーディオ分類モデルを含み、第1オーディオ分類モデルに従って複数の特徴を分類して第1信頼スコアを生成するステップは、
第1モデルセットに従って複数の特徴を分類して第1信頼スコアを生成するステップを含む、EEE1に記載の方法。
EEE3. 第1モデルセットは、スピーチ分類モデルと音楽分類モデルを含む、EEE2に記載の方法。
EEE4. 第2オーディオ分類モデルは、ラップ分類モデルである、EEE1乃至3のいずれかに記載の方法。
EEE5. 特徴抽出を実行することは、オーディオ信号の複数のサブバンドについての複数のサブバンドエネルギーを決定することを含む、EEE1乃至4のいずれかに記載の方法。
EEE6. 複数のサブバンドは、300Hz未満の第1サブバンドと、300Hzから1000Hzの間の第2サブバンドと、1kHzから3kHzの間の第3サブバンドと、3kHzから6kHzの間の第4サブバンドとを含む、EEE5に記載の方法。
EEE7. 第1オーディオ分類モデルに従って複数の特徴を分類することは、
適応ブースティング機械学習プロセス及びディープニューラルネットワーク機械学習プロセスのうちの少なくとも一方を使用して、第1オーディオ分類モデルに従って複数の特徴を分類することを含む、EEE1乃至6のいずれかに記載の方法。
EEE8. ステアリング信号を計算するステップは、
第1期間にわたって平滑化された第1信頼スコアの第1構成要素と、第2期間にわたって平滑化された第1信頼スコアの第2構成要素を組み合わせることによって、ステアリング信号を計算するステップを含み、第2期間は第1期間より短い、EEE1乃至7のいずれかに記載の方法。
EEE9. 第1期間は、第2期間の少なくとも2倍である、EEE8に記載の方法。
EEE10. 第1期間は8秒から12秒の間であり、第2期間は4秒から6秒の間である、EEE8に記載の方法。
EEE11. 第1期間にわたって平滑化された第1信頼スコアの第1構成要素は、第1平滑化係数と、オーディオ信号の現在のフレームの現在の音楽信頼スコアと、オーディオ信号の以前のフレームの以前の平滑化された音楽信頼スコアとに基づいて計算され、
第2期間にわたって平滑化された第1信頼スコアの第2構成要素は、第2平滑化係数と、オーディオ信号の現在のフレームの現在の音響効果及びノイズ信頼スコアと、オーディオ信号の以前のフレームの以前の平滑化された音響効果及びノイズ信頼スコアとに基づいて計算される、EEE8乃至10のいずれかに記載の方法。
EEE12. ステアリング信号を計算するステップは、
第1期間にわたって平滑化された第1信頼スコアの第1構成要素に、第1シグモイド関数を適用するステップと、
第2期間にわたって平滑化された第1信頼スコアの第2構成要素に、第2シグモイド関数を適用するステップと、
を含む、EEE1乃至11のいずれかに記載の方法。
EEE13. 最終信頼スコアは、新しい信頼度構成要素と古い信頼度構成要素の組合せに基づいて計算され、
新しい信頼度構成要素は、第1信頼スコアと第2信頼スコアの組合せに適用される第1重みの組合せに基づいて計算される、EEE1乃至12のいずれかに記載の方法。
EEE14. 古い信頼度構成要素は、第1信頼スコアに適用される第2重みに基づいて計算される、EEE13に記載の方法。
EEE15. 第1重みと第2重みの和は1である、EEE14に記載の方法。
EEE16. 第1重みは、ステアリング信号と、ステアリング信号及び第2信頼スコアの組合せとのうちの一方に選択的に対応し、
第2信頼スコアが閾値未満であるとき、第1重みはステアリング信号に対応する、EEE13に記載の方法。
EEE17. 分類に基づいて、オーディオ信号に対して第1プロセス及び第2プロセスのうちの一方を選択的に実行して、処理されたオーディオ信号を生成するステップを更に含み、分類が第1分類であるときに第1プロセスが実行され、分類が第2分類であるときに第2プロセスが実行される、EEE1乃至16のいずれかに記載の方法。
EEE18. プロセッサによって実行されると、EEE1乃至17のいずれか1つに記載の方法を含む処理を実行するように装置を制御するコンピュータプログラムを記憶している、非一時的コンピュータ読取可能媒体。
EEE19. オーディオ処理のための装置であって、当該装置は、
プロセッサと、
メモリと、を備え、
プロセッサは、オーディオ信号を受信するように、当該装置を制御するよう構成され、
プロセッサは、オーディオ信号に対して特徴抽出を実行して複数の特徴を抽出するように、当該装置を制御するよう構成され、
プロセッサは、第1オーディオ分類モデルに従って複数の特徴を分類して第1信頼スコアを生成するように、当該装置を制御するよう構成され、
プロセッサは、第2オーディオ分類モデルに従って複数の特徴を分類して第2信頼スコアを生成するように、当該装置を制御するよう構成され、
プロセッサは、第1信頼スコアの第1構成要素と、第1信頼スコアの第2構成要素を組み合わせることによって、ステアリング信号を計算するように、当該装置を制御するよう構成され、
プロセッサは、ステアリング信号、第1信頼スコア及び第2信頼スコアに従って最終信頼スコアを計算するように、当該装置を制御するよう構成され、
プロセッサは、最終信頼スコアに従ってオーディオ信号の分類を出力するように、当該装置を制御するよう構成される。
EEE20. 第2オーディオ分類モデルは、ラップ分類モデルであり、
特徴抽出を実行することは、オーディオ信号の複数のサブバンドについての複数のサブバンドエネルギーを決定することを含み、
複数のサブバンドは、300Hz未満の第1サブバンドと、300Hzから1000Hzの間の第2サブバンドと、1kHzから3kHzの間の第3サブバンドと、3kHzから6kHzの間の第4サブバンドとを含む、EEE19に記載の装置。

Claims (16)

  1. オーディオ処理の方法であって、当該方法は、
    オーディオ信号を受信するステップと、
    前記オーディオ信号に対して特徴抽出を実行して複数の特徴を抽出するステップと、
    第1オーディオ分類モデルに従って前記複数の特徴を分類して第1信頼スコアセットを生成するステップと、
    第2オーディオ分類モデルに従って前記複数の特徴を分類して第2信頼スコアを生成するステップと、
    前記第1信頼スコアセットの第1信頼スコアと、前記第1信頼スコアセットの更なる信頼スコアを組み合わせることによって、ステアリング信号を計算するステップと、
    前記ステアリング信号、前記第1信頼スコアセット及び前記第2信頼スコアに従って最終信頼スコアを計算するステップと、
    前記最終信頼スコアに従って前記オーディオ信号の分類を出力するステップと、
    を含む、方法。
  2. 複数のモデルは、第1モデルセットと前記第2オーディオ分類モデルを含み、前記第1モデルセットは、前記第1オーディオ分類モデルを含み、前記第1オーディオ分類モデルに従って前記複数の特徴を分類して前記第1信頼スコアセットを生成するステップは、
    前記第1モデルセットに従って前記複数の特徴を分類して前記第1信頼スコアセットを生成するステップを含む、
    請求項1に記載の方法。
  3. 前記第1モデルセットは、スピーチ分類モデルと音楽分類モデルを含む、
    請求項2に記載の方法。
  4. 前記第2オーディオ分類モデルは、ラップ分類モデルである、
    請求項1乃至3のいずれかに記載の方法。
  5. 前記特徴抽出を実行することは、前記オーディオ信号の複数のサブバンドについての複数のサブバンドエネルギーを決定することを含む、
    請求項1乃至4のいずれかに記載の方法。
  6. 前記複数のサブバンドは、300Hz未満の第1サブバンドと、300Hzから1000Hzの間の第2サブバンドと、1kHzから3kHzの間の第3サブバンドと、3kHzから6kHzの間の第4サブバンドとを含む、
    請求項5に記載の方法。
  7. 前記第1オーディオ分類モデルに従って前記複数の特徴を分類することは、
    適応ブースティング機械学習プロセス及びディープニューラルネットワーク機械学習プロセスのうちの少なくとも一方を使用して、前記第1オーディオ分類モデルに従って前記複数の特徴を分類することを含む、
    請求項1乃至6のいずれかに記載の方法。
  8. 前記ステアリング信号を計算するステップは、
    第1期間にわたって平滑化された前記第1信頼スコアセットの前記第1信頼スコアと、第2期間にわたって平滑化された前記第1信頼スコアセットの前記更なる信頼スコアを組み合わせることによって、前記ステアリング信号を計算するステップを含み、前記第2期間は前記第1期間より短い、
    請求項1乃至7のいずれかに記載の方法。
  9. 前記第1期間は、前記第2期間の少なくとも2倍である、
    請求項8に記載の方法。
  10. 前記第1期間にわたって平滑化された前記第1信頼スコアセットの前記第1信頼スコアは、第1平滑化係数と、前記オーディオ信号の現在のフレームの現在の音楽信頼スコアと、前記オーディオ信号の以前のフレームの以前の平滑化された音楽信頼スコアとに基づいて計算され、
    前記第2期間にわたって平滑化された前記第1信頼スコアセットの前記更なる信頼スコアは、第2平滑化係数と、前記オーディオ信号の前記現在のフレームの現在の音響効果及びノイズ信頼スコアと、前記オーディオ信号の前記以前のフレームの以前の平滑化された音響効果及びノイズ信頼スコアとに基づいて計算される、
    請求項8又は9に記載の方法。
  11. 前記ステアリング信号を計算するステップは、
    第1期間にわたって平滑化された前記第1信頼スコアセットの前記第1信頼スコアに、第1シグモイド関数を適用するステップと、
    第2期間にわたって平滑化された前記第1信頼スコアセットの前記更なる信頼スコアに、第2シグモイド関数を適用するステップと、
    を含む、請求項1乃至10のいずれかに記載の方法。
  12. 前記分類に基づいて、前記オーディオ信号に対して第1プロセス及び第2プロセスのうちの一方を選択的に実行して、処理されたオーディオ信号を生成するステップを更に含み、前記分類が第1分類であるときに前記第1プロセスが実行され、前記分類が第2分類であるときに前記第2プロセスが実行される、
    請求項1乃至11のいずれかに記載の方法。
  13. プロセッサによって実行されると、請求項1乃至12のいずれか一項に記載の方法を含む処理を実行するように装置を制御するコンピュータプログラムを記憶している、非一時的コンピュータ読取可能媒体。
  14. オーディオ処理のための装置であって、当該装置は、
    プロセッサと、
    メモリと、を備え、
    前記プロセッサは、オーディオ信号を受信するように、当該装置を制御するよう構成され、
    前記プロセッサは、前記オーディオ信号に対して特徴抽出を実行して複数の特徴を抽出するように、当該装置を制御するよう構成され、
    前記プロセッサは、第1オーディオ分類モデルに従って前記複数の特徴を分類して第1信頼スコアセットを生成するように、当該装置を制御するよう構成され、
    前記プロセッサは、第2オーディオ分類モデルに従って前記複数の特徴を分類して第2信頼スコアを生成するように、当該装置を制御するよう構成され、
    前記プロセッサは、前記第1信頼スコアセットの第1信頼スコアと、前記第1信頼スコアセットの更なる信頼スコアを組み合わせることによって、ステアリング信号を計算するように、当該装置を制御するよう構成され、
    前記プロセッサは、前記ステアリング信号、前記第1信頼スコアセット及び前記第2信頼スコアに従って最終信頼スコアを計算するように、当該装置を制御するよう構成され、
    前記プロセッサは、前記最終信頼スコアに従って前記オーディオ信号の分類を出力するように、当該装置を制御するよう構成される、
    装置。
  15. 前記第2オーディオ分類モデルは、ラップ分類モデルであり、
    前記特徴抽出を実行することは、前記オーディオ信号の複数のサブバンドについての複数のサブバンドエネルギーを決定することを含み、
    前記複数のサブバンドは、300Hz未満の第1サブバンドと、300Hzから1000Hzの間の第2サブバンドと、1kHzから3kHzの間の第3サブバンドと、3kHzから6kHzの間の第4サブバンドとを含む、
    請求項14に記載の装置。
  16. 前記ステアリング信号を計算することは、
    第1期間にわたって平滑化された前記第1信頼スコアセットの前記第1信頼スコアと、第2期間にわたって平滑化された前記第1信頼スコアセットの前記更なる信頼スコアを組み合わせることによって、前記ステアリング信号を計算することを含み、前記第2期間は前記第1期間より短い、
    請求項14又は15に記載の装置。
JP2023512124A 2020-08-18 2021-08-18 オーディオコンテンツの識別 Pending JP2023539121A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN2020109744 2020-08-18
CNPCT/CN2020/109744 2020-08-18
US202063074621P 2020-09-04 2020-09-04
US63/074,621 2020-09-04
EP20200318 2020-10-06
EP20200318.2 2020-10-06
PCT/US2021/046454 WO2022040282A1 (en) 2020-08-18 2021-08-18 Audio content identification

Publications (1)

Publication Number Publication Date
JP2023539121A true JP2023539121A (ja) 2023-09-13

Family

ID=77627557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023512124A Pending JP2023539121A (ja) 2020-08-18 2021-08-18 オーディオコンテンツの識別

Country Status (4)

Country Link
US (1) US20240038258A1 (ja)
EP (1) EP4200845A1 (ja)
JP (1) JP2023539121A (ja)
WO (1) WO2022040282A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230290366A1 (en) * 2022-03-10 2023-09-14 Roku, Inc. Automatic Classification of Audio Content as Either Primarily Speech or Primarily Non-speech, to Facilitate Dynamic Application of Dialogue Enhancement

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPS270902A0 (en) 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
US7383260B2 (en) 2004-08-03 2008-06-03 International Business Machines Corporation Method and apparatus for ontology-based classification of media content
WO2010019831A1 (en) 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US8400566B2 (en) 2008-08-21 2013-03-19 Dolby Laboratories Licensing Corporation Feature optimization and reliability for audio and video signature generation and detection
US20110029108A1 (en) 2009-08-03 2011-02-03 Jeehyong Lee Music genre classification method and apparatus
CN103186527B (zh) 2011-12-27 2017-04-26 北京百度网讯科技有限公司 建立音乐分类模型的***、推荐音乐的***及相应方法
US20160322066A1 (en) 2013-02-12 2016-11-03 Google Inc. Audio Data Classification
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN104079247B (zh) * 2013-03-26 2018-02-09 杜比实验室特许公司 均衡器控制器和控制方法以及音频再现设备
CN107093991B (zh) 2013-03-26 2020-10-09 杜比实验室特许公司 基于目标响度的响度归一化方法和设备
WO2015126228A1 (ko) * 2014-02-24 2015-08-27 삼성전자 주식회사 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치
CN106203460A (zh) 2015-05-05 2016-12-07 杜比实验室特许公司 训练信号处理模型以用于信号处理***中的部件替换
US10129314B2 (en) 2015-08-18 2018-11-13 Pandora Media, Inc. Media feature determination for internet-based media streaming
JP2020529235A (ja) 2017-07-24 2020-10-08 メドリズムス,インコーポレイテッド 反復動作運動用の音楽の改良
US10522186B2 (en) 2017-07-28 2019-12-31 Adobe Inc. Apparatus, systems, and methods for integrating digital media content
US20200075019A1 (en) 2017-08-02 2020-03-05 Veritone, Inc. System and method for neural network orchestration
US11416518B2 (en) 2018-10-30 2022-08-16 Optum, Inc. Machine learning for machine-assisted data classification
WO2020123424A1 (en) * 2018-12-13 2020-06-18 Dolby Laboratories Licensing Corporation Dual-ended media intelligence
CN111177454B (zh) 2019-12-11 2023-05-30 广州荔支网络技术有限公司 一种音频节目分类的修正方法

Also Published As

Publication number Publication date
EP4200845A1 (en) 2023-06-28
WO2022040282A1 (en) 2022-02-24
US20240038258A1 (en) 2024-02-01

Similar Documents

Publication Publication Date Title
JP6896135B2 (ja) ボリューム平準化器コントローラおよび制御方法
JP6921907B2 (ja) オーディオ分類および処理のための装置および方法
EP2979359B1 (en) Equalizer controller and controlling method
JP2023539121A (ja) オーディオコンテンツの識別
CN116803105A (zh) 音频内容识别
JP2011013383A (ja) オーディオ信号補正装置及びオーディオ信号補正方法