JP7474548B2 - オーディオデータの再生の制御 - Google Patents

オーディオデータの再生の制御 Download PDF

Info

Publication number
JP7474548B2
JP7474548B2 JP2022150997A JP2022150997A JP7474548B2 JP 7474548 B2 JP7474548 B2 JP 7474548B2 JP 2022150997 A JP2022150997 A JP 2022150997A JP 2022150997 A JP2022150997 A JP 2022150997A JP 7474548 B2 JP7474548 B2 JP 7474548B2
Authority
JP
Japan
Prior art keywords
audio data
audio
adjusted
reproduction
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022150997A
Other languages
English (en)
Other versions
JP2023047338A (ja
Inventor
ルエス クリストフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Elektrobit Automotive GmbH
Original Assignee
Elektrobit Automotive GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Elektrobit Automotive GmbH filed Critical Elektrobit Automotive GmbH
Publication of JP2023047338A publication Critical patent/JP2023047338A/ja
Application granted granted Critical
Publication of JP7474548B2 publication Critical patent/JP7474548B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

本発明は、オーディオデータの再生を制御するための方法、コンピュータプログラムコード及び装置に関する。本発明は、そのような方法又は装置を利用する自動車及び電子機器並びにそのような方法又は装置と共に使用するのに適しているメディアフォーマットに更に関する。
今日の車両は、通常、オーディオデータ、例えば音楽又はオーディオブックなどを再生するためのシステムを備える。そのようなシステムは、車両に関する情報を提供するために使用されることが多く、インフォテインメントシステムとも呼ばれる。
オーディオデータの再生中、音声によるアナウンス、例えばナビゲーション指令などを行う必要が生じた場合だけでなく、電話呼び出し又はメッセンジャー若しくはソーシャルメディアからの通知が届いた場合、車両の運転者がそのアナウンス又は電話呼び出しを理解できるようにオーディオ再生を制御する必要がある。現在利用可能な車載インフォテインメントシステムでは、音声によるアナウンスは、通常、少なくとも幾つかのスピーカーについて、現在再生されているメディアの音量を下げるのみである。
この点に関して、(特許文献1)は、車両における音声プロンプトを強化するための装置を開示している。この装置は、車両内の複数のスピーカーに電気的に結合されたオーディオプロセッサを含む。オーディオプロセッサは、娯楽データを、車両で再生するために複数のスピーカーに提供し、且つ車両内の運転者に向けて出力される音声オーディオのみを表す音声プロンプトを受信するようにプログラムされる。オーディオプロセッサは、音声プロンプトに応答して、複数のスピーカーの第1のスピーカーで再生されている娯楽データを無音にし、且つ音声プロンプトに応答して、音声プロンプトを、運転者に向けて再生するために第1のスピーカーに提供するように更にプログラムされる。
残念ながら、現在再生されているメディアの音量を単に下げるのみでは、ナレーターの声が聞き取りにくい場合がある。更に、これにより、音楽又はメディアのリスニング体験が損なわれる。
電子システムの処理能力が一層向上するにつれて、インフォテインメントシステムは、現在、より高度なオーディオ処理が可能である。
例えば、(特許文献2)は、車両内のスピーカーシステムを介してオーディオを生成するための方法を開示している。車両のマイクのアレイから到来するオーディオ信号が受信され、この到来するオーディオ信号にビーム形成が適用される。次いで、オーディオ信号内において、人間が生成した音が検出されるかどうかが判断される。人間が生成した音が検出されることに応答して、人間によらない音を発するように構成されたスピーカーは、人間によらない音を調整するように指示される。
(特許文献3)は、オーディオファイルの再生を音量及び/又は圧縮の観点で調整するための方法を開示している。オーディオファイルは、それぞれ異なる楽器に帰することができる複数のトラックに分割される。オーディオ信号において主要な又は最も音量の大きい楽器が決定され、それぞれの異なる楽器に帰するオーディオ信号の音量の好みに関する設定がアクセスされる。主要な又は最も音量の大きい楽器に帰するオーディオ信号の音量の好みに関する設定は、ユーザ入力に基づいて修正され、これにより、別の楽器に帰するオーディオ信号の音量の好みに関する設定を修正することなく、オーディオファイルが出力される音量が変更される。更に、オーディオ信号は、修正された設定に基づいて増幅されるか又は弱められる。
米国特許出願公開第2017/0193991A1号明細書 米国特許出願公開第2021/0204059A1号明細書 米国特許出願公開第2018/0083587A1号明細書
本発明の目的は、オーディオデータの再生と同時に、ユーザに音声信号が伝えられるべきである場合にオーディオデータの再生を制御するための改善された解決策を提供することである。
この目的は、請求項1に記載の方法、この方法を実装する、請求項11に記載のコンピュータプログラムコード及び請求項12に記載の装置によって達成される。この目的は、請求項13に記載の自動車、請求項14に記載の電子機器及び請求項15で規定されるようなオーディオデータによって更に達成される。従属請求項は、以下で説明するような本原理の更なる有利な発展形態及び改良形態を含む。
第1の態様によれば、オーディオデータの再生を制御するための方法は、
- オーディオデータの再生と同時にユーザに伝えられる音声信号を受信するステップと、
- 調整されたオーディオデータを取得するために、オーディオデータの選択された要素の音量及び/又はスペクトル外観を修正するステップと、
- 調整されたオーディオデータを再生するステップと
を含む。
従って、コンピュータプログラムコードは、命令を含み、この命令は、少なくとも1つのプロセッサによって実行されると、その少なくとも1つのプロセッサに、オーディオデータの再生を制御するために、以下のステップ:
- オーディオデータの再生と同時にユーザに伝えられる音声信号を受信するステップと、
- 調整されたオーディオデータを取得するために、オーディオデータの選択された要素の音量及び/又はスペクトル外観を修正するステップと、
- 調整されたオーディオデータを再生するステップと
を実施させる。
コンピュータという用語は、広く理解されなければならない。特に、コンピュータには、モバイル機器、組み込み機器及び他のプロセッサベースのデータ処理機器も含まれる。
コンピュータプログラムコードは、例えば、電子的な検索ができるようにされるか、又はコンピュータ可読記憶媒体に保存され得る。
別の態様によれば、オーディオデータの再生を制御するための装置は、
- オーディオデータの再生と同時にユーザに伝えられる音声信号を受信するように構成された受信ユニットと、
- 調整されたオーディオデータを取得するために、オーディオデータの選択された要素の音量及び/又はスペクトル外観を修正するように構成された修正ユニットと、
- 調整されたオーディオデータを再生するように構成された再生ユニットと
を含む。
従って、本発明による解決策と共に使用するのに特に適しているオーディオデータは、オーディオデータのコンテンツ構造に関するメタ情報を含む。
上記で概説した問題を解決するために、本発明によれば、現在再生されているオーディオデータの音量が単に下げられるのではない。代わりに、追加の音声信号の聞き取りやすさが改善されるように、オーディオデータの選択された要素の音量又はスペクトル外観が調整される。高度なオーディオ処理機能、例えば従来のフィルタ及びコンテンツ認識セパレータ又はフィルタ並びに新しいステムベース又はオブジェクトベースのオーディオフォーマットなどを用いると、オーディオコンテンツを、異なるリスニングシナリオにより良好に適合するように容易に修正又は適合させることができる。必要な要素及び不要な要素を分離することにより、それらの音量及びスペクトル外観を個別に調整することができる。複数のスピーカーを用いるシナリオでは、少なくとも一人の対象人物に向けられたスピーカーに選択的に処理を施すことができる。
ステムベース及びオブジェクトベースのオーディオフォーマットは、一層利用可能になっている。これが利用可能ではない場合、コンテンツ認識フィルタ又は機械学習ベースの方式、例えばSpleeter(https://github.com/deezer/spleeter)などは、ミックスダウンからのステム抽出についてもっともな結果をもたらすことができる。高い処理能力が利用可能ではない場合又は低遅延の処理が必要である場合、従来のアルゴリズムで十分な品質を提供することができる。
オーディオデータの発生源に応じて、必要な要素及び不要な要素を分離するために、異なるタイプの前処理が施され得る。ラジオなどの生放送のオーディオの場合、従来のフィルタ及び特定の範囲でコンテンツ認識セパレータ又はフィルタを使用する方式が使用され得る。オフラインのメディア又はオフラインのストリーミングメディアの場合、従来のフィルタ及びコンテンツ認識フィルタが使用され得る。ステムベースのメディア及びオブジェクトベースのメディアの場合、前処理は、必要ではなく、なぜなら、要素は、ステム又はオブジェクトによって定義されるからである。
有利な実施形態では、受信された音声信号は、調整されたオーディオデータと同時に再生される。受信された音声信号が、オーディオデータも再生するために使用されるオーディオシステムによってユーザに伝えられる場合、音声信号は、調整されたオーディオデータと一緒にこのシステムによって再生される。このようにして、調整されたオーディオデータ及び音声信号は、最適に同期される。
有利な実施形態では、受信された音声信号を再生することは、オーディオデータに関連付けられたメタ情報に基づいて且つ/又は外部データに基づいて遅延される。外部ソース又はコンテンツの分析及び検出を通してオーディオデータと一緒に提供され得る追加のメタ情報を用いて、音声信号の再生は、オーディオデータの流れとよりよく統合させるために故意に遅延され得る。例えば、再生は、間奏中又はコーラス前に開始し得る。これにより、リスニング体験の向上がもたらされる。再生の遅延は、優先度などの異なる指標に依存し得る。音声信号の配置は、外部データによっても影響を受け得、例えば運転者の集中力を維持するために情報の流入が低減される。このための指標は、運転状況であり得、運転状況は、地図データ、交通データ若しくはセンサデータ又はユーザのストレス若しくは注意力に関する情報を評価することによって導き出され得る。
有利な実施形態では、伝えられる音声信号は、アナウンス、通知、音声通話の音声情報又は別のユーザによって発せられた音声情報である。説明する解決策の主な応用分野は、ナビゲーションコマンドなどのアナウンス又はメッセンジャー若しくはソーシャルメディアからの通知の再生である。この用途では、音声信号の持続時間は、既知であり、再生の開始を容易に制御することができる。しかしながら、説明する解決策は、オーディオデータの再生中に起きる音声通話に対しても同様に有用である。別の用途は、可聴領域内での人間同士の会話を容易にすることである。この目的のために、音声対話のための既存のマイクが使用され得る。
有利な実施形態では、オーディオデータの選択された要素は、オーディオデータの音声コンテンツを弱めるか又は除去することによって調整される。音声コンテンツは、通常、最も顕著な要素である。従って、音声を弱めるか又は完全に除去することにより、重なった音声メッセージの聞き取りやすさを大幅に向上させることができる。同時に、バックグラウンドの音楽は、元通りの音量のままであり得る。
有利な実施形態では、オーディオデータの選択された要素は、バックグラウンドの音楽をフィルタリングすることによって更に調整される。バックグラウンドの音楽を元通りの音量に保つ代わりに、ナレーションの聴覚的な理解のしやすさを更に向上させるために、バックグラウンドの音楽も同様にフィルタリングされ得る。特に、フィルタは、聞き取りやすさを潜在的に邪魔するスペクトル成分を低減するように適用され得る。
有利な実施形態では、オーディオデータの選択された要素は、オーディオデータのセグメントをループさせることによって更に調整される。ループで繰り返され得るセグメントを含む構成では、再生は、追加の音声信号が再生されている間、適切な位置におけるそのようなループ内でトラップされ得る。これは、オーディオデータの仮想的な一時停止に対応する。ループに適したセグメントを決定するために、オーディオデータのコンテンツ構造に関するメタ情報が使用され得る。
有利な実施形態では、音声信号の再生速度は、ループされたセグメントの持続時間に適合される。ループで繰り返されるセグメントの長さに関する情報に基づいて、音声信号の再生速度をよりよく時間的に整合するように調整することができる。このようにして、元のオーディオデータの再生を音声信号の終了の直後に再開することができる。
有利な実施形態では、調整されたオーディオデータの持続時間は、受信された音声信号の持続時間に依存する。音響的な外観の修正に加えて、重ね合わされたコンテンツに応じて、干渉の持続時間も影響を受け得る。例えば、調整されたオーディオデータの持続時間は、受信された音声信号の持続時間と同一であり得る。代わりに、調整されたオーディオデータの持続時間は、受信された音声信号の持続時間よりもわずかに長い場合がある。これにより、オーディオデータから、重ね合わされた音声信号への突然の変更及びその逆を回避することが可能になる。
有利な実施形態では、調整されたオーディオデータの持続時間は、音声信号に続くユーザによるフィードバックを可能にする。ユーザによる応答を必要とするアナウンスの場合、調整されたオーディオデータの持続時間を延長して、返答の予想を知らせ、例えば音声認識を改善することにより対話を向上させ得る。これにより、「音声命令の終了」のための合図音の必要性がなくなり、また音声命令の処理だけでなく、ユーザの注意力にもプラスの影響を与え得る。
有利には、オーディオデータを再生することができる自動車又は電子機器は、本発明による装置を含むか、又はオーディオデータの再生を制御するために、本発明による方法を実施するように構成される。本発明の使用は、アナウンス、音声通話又はユーザの会話に特に有用である。例えば、自動車は、乗用車であり得る。電子機器は、例えば、スマートフォン、タブレット、スマートスピーカー又はテレビセットであり得る。
本発明の更なる特徴は、図面と共に以下の説明及び添付の特許請求の範囲から明らかになるであろう。
オーディオデータの再生を制御するための方法を概略的に示す。 オーディオデータの再生を制御するための装置の第1の実施形態を概略的に示す。 オーディオデータの再生を制御するための装置の第2の実施形態を概略的に示す。 本発明による解決策が実装される自動車を概略的に示す。 本発明による解決策が実装される電子機器を概略的に示す。 本発明による解決策のシステム図を示す。
本明細書は、本開示の原理を説明する。従って、当業者であれば、本明細書に明示的に説明又は図示されなくとも、本開示の原理を具現化する様々な構成を考案できることを理解されたい。
本明細書に列挙する全ての例及び条件的言語は、技術を促進するために本発明者によって提供される本開示の原理及び概念を読者が理解することを補助するという教育的な目的のためのものであることが意図され、そのように具体的に列挙された例及び条件に限定されないと解釈されるべきである。
更に、本開示の原理、態様及び実施形態並びにそれらの具体的な例を列挙した本明細書の記載の全ては、それらの構造的な均等物及び機能的な均等物の両方を包含することが意図される。更に、そのような均等物は、現在既知の均等物及び将来開発される均等物、即ち構造に関わらず、同じ機能を実施する任意の開発された要素の両方を含むことが意図される。
従って、例えば、本明細書で提示される図は、本開示の原理を具現化する例示的な回路の概念図を表すことが当業者によって理解されるであろう。
図に示される様々な要素の機能は、専用のハードウェア及び適切なソフトウェアと関連してソフトウェアを実行することができるハードウェアの使用を通して提供され得る。機能は、プロセッサによって提供される場合、単一の専用のプロセッサ、単一の共有プロセッサ又は一部が共有され得る複数の個々のプロセッサによって提供され得る。更に、「プロセッサ」又は「コントローラ」という用語の明示的な使用は、ソフトウェアを実行することができるハードウェアを専ら指すものと解釈されるべきではなく、デジタル信号プロセッサ(DSP)ハードウェア、システムオンチップ、マイクロコントローラ、ソフトウェアを格納するための読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)及び不揮発性ストレージを暗示的に含み得るが、これらに限定するものではない。
他の従来の及び/又はカスタムのハードウェアも含まれ得る。同様に、図に示されているスイッチは、何れも単に概念的なものである。それらの機能は、プログラムロジックの動作を通して、専用のロジックを通して、プログラム制御と専用ロジックとの相互作用を通して又は更に手動で実行され得、文脈からより具体的に理解されるように、特定の技法が実装者によって選択可能である。
本明細書の特許請求の範囲では、特定の機能を実行するための手段として表された任意の要素は、例えば、任意の形態の、その機能を実施する回路要素又はソフトウェアの組み合わせを含めて、その機能を実施する任意の方法を包含することが意図され、従って、回路要素又はソフトウェアには、そのソフトウェアを実行してその機能を実施するための適切な回路と組み合わされたファームウェア、マイクロコード等が含まれる。そのような特許請求の範囲によって規定される本開示は、列挙される様々な手段によって提供される機能が、特許請求の範囲が要求する態様で組み合わされ且つ結び合わされるという事実にある。従って、それらの機能を提供することができる任意の手段は、本明細書に示されたものと均等であるとみなされる。
図1は、オーディオデータの再生を制御するための、本発明による方法を概略的に示す。第1のステップでは、オーディオデータの再生と同時にユーザに伝えられる音声信号、例えばアナウンス、通知、音声通話の音声情報又は別のユーザによって発せられた音声情報などが受信される(S1)。次いで、調整されたオーディオデータを取得するために、オーディオデータの選択された要素の音量及び/又はスペクトル外観が修正される(S2)。例えば、オーディオデータの音声コンテンツが弱められるか又は除去され得る。更に、バックグラウンドの音楽がフィルタリングされ得、且つ/又はオーディオデータのセグメントがループで繰り返され得る。有利には、調整されたオーディオデータの持続時間は、受信された音声信号の持続時間に依存する。この持続時間は、音声信号に続くユーザによるフィードバックを可能にし得る。次いで、調整されたオーディオデータが再生される(S3)。次いで、受信された音声信号は、調整されたオーディオデータと同時に再生され得る(S4)。しかしながら、受信された音声信号を再生すること(S4)は、オーディオデータと関連付けられたメタ情報に基づいて且つ/又は外部データに基づいて遅延され得る。更に、オーディオデータのセグメントがループで繰り返される場合、音声信号の再生速度は、ループされたセグメントの持続時間に適合され得る。
図2は、オーディオデータADの再生を制御するための、本発明による装置20の第1の実施形態のブロック図を概略的に示す。装置20は、入力部21を有し、この入力部を介して、受信ユニット22は、オーディオデータADの再生と同時にユーザに伝えられる音声信号SP、例えばアナウンス、通知、音声通話の音声情報又は別のユーザによって発せられた音声情報などを受信する。オーディオデータADは、同様に、入力部21を介して受信されるか、又はローカルストレージユニット26から取り出され得る。修正ユニット23は、調整されたオーディオデータAADを取得するために、オーディオデータADの選択された要素Eの音量及び/又はスペクトル外観を修正するように構成される。例えば、オーディオデータADの音声コンテンツが弱められるか又は除去され得る。更に、バックグラウンドの音楽がフィルタリングされ得、且つ/又はオーディオデータADのセグメントがループで繰り返され得る。有利には、調整されたオーディオデータAADの持続時間は、受信された音声信号SPの持続時間に依存する。この持続時間は、音声信号SPに続くユーザによるフィードバックを可能にし得る。再生ユニット24は、調整されたオーディオデータAADを再生するように構成される。この目的のために、調整されたオーディオデータAADは、出力部27を介して利用可能にされ得る。しかしながら、受信された音声信号SPを再生することは、オーディオデータADと関連付けられたメタ情報に基づいて且つ/又は外部データに基づいて遅延され得る。更に、オーディオデータADのセグメントがループで繰り返される場合、音声信号SPの再生速度は、ループされたセグメントの持続時間に適合され得る。出力部27を入力部21と組み合わせて、単一のインターフェースにし得る。ローカルストレージユニット26は、処理中にデータを記憶するために更に使用され得る。
受信ユニット22、修正ユニット23及び再生ユニット24は、制御モジュール25によって制御され得る。ユーザが受信ユニット22、修正ユニット23、再生ユニット24及び制御モジュール25の設定を修正できるようにするために、ユーザインターフェース28が提供され得る。受信ユニット22、修正ユニット23、再生ユニット24及び制御モジュール25は、専用のハードウェアユニットとして具現化することができる。当然のことながら、それらは、同様に、完全に若しくは部分的に組み合わせて単一のユニットにされ得るか、又はプロセッサ、例えばCPU若しくはGPUなどで実行されるソフトウェアとして実装され得る。
オーディオデータの再生を制御するための、本発明による装置30の第2の実施形態のブロック図が図3に示されている。装置30は、処理デバイス32及びメモリデバイス31を含む。例えば、装置30は、コンピュータ、電子制御ユニット又は組み込みシステムであり得る。メモリデバイス31は、命令を記憶し、この命令は、処理デバイス32によって実行されると、装置30に、説明した方法の1つに従ってステップを実施させる。従って、メモリデバイス31に記憶された命令は、処理デバイス32によって実行可能な命令のプログラムを具体的に具現化して、本原理に従った本明細書で説明されるようなプログラムステップを実施する。装置30は、データを受信するための入力部33を有する。処理デバイス32によって生成されたデータは、出力部34を介して利用可能にされる。更に、そのようなデータは、メモリデバイス31に記憶され得る。入力部33及び出力部34を組み合わせて、単一の双方向のインターフェースにし得る。
本明細書で使用される処理デバイス32は、1つ又は複数の処理ユニット、例えばマイクロプロセッサ、デジタル信号プロセッサ又はそれらの組み合わせなどを含み得る。
ローカルストレージユニット26及びメモリデバイス31は、揮発性及び/又は不揮発性のメモリ領域並びにハードディスクドライブ、光学ドライブ及び/又はソリッドステートメモリなどのストレージデバイスを含み得る。
図4は、本発明による解決策が実装される自動車40を概略的に示す。この例では、自動車40は、乗用車である。この乗用車は、自動車40の乗員にオーディオ再生を提供するための複数のスピーカー41を有する。オーディオ信号は、インフォテインメントシステム42によってスピーカー41に提供され得る。この例における自動車40の更なる構成要素は、ナビゲーションシステム43と、超音波センサ、レーザースキャナ、ライダーセンサ、レーダーセンサ又はカメラなどの環境センサ44とである。ナビゲーションシステム43は、オーディオ再生と並行して再生する必要がある場合があるアナウンスを生成し得る。同様に、環境センサ44によって導き出されたデータにより、オーディオ再生と並行して再生する必要がある場合がある警告アナウンスが生成され得る。従って、自動車40は、オーディオデータの再生を制御するための本発明による装置20を含む。この例では、装置20は、自己完結型ユニットである。当然のことながら、装置20は、同様に、例えばインフォテインメントシステム42に組み込まれ得る。データ伝送ユニット45により、例えば再生のためのオーディオデータ又は更新されたプログラムコードを受信するために、後部への接続を確立することができる。再生のためのオーディオデータは、Bluetooth、メモリインターフェース、補助入力などのローカルオーディオインターフェースを介しても受信され得る。データを記憶するためにメモリ46が利用可能である。自動車40の異なる構成要素間でのデータ交換は、ネットワーク47を介して行われる。
図5は、本発明による解決策が実装される電子機器50を概略的に示す。この例では、電子機器50は、スマートフォンである。スマートフォンは、スピーカー51を有し、このスピーカー51を介してオーディオ再生が可能である。同様に、オーディオ再生は、スマートフォンのソケット52に接続されたヘッドセット(図示せず)を介して行われ得る。スマートフォン上で動作するナビゲーションアプリケーションは、画面53を介してスマートフォンのユーザに視覚的なナビゲーション指示を提供し得る。ナビゲーションアプリケーションは、オーディオ再生と並行して再生する必要がある場合があるアナウンスを更に生成し得る。同様に、メッセンジャー又はソーシャルメディアアプリケーションなどの他のアプリケーションは、再生される必要がある通知を生成し得る。従って、このスマートフォンは、オーディオデータの再生を制御するための本発明による装置20を含む。
図6は、本発明による解決策のシステム図を示す。この例では、ユーザに伝えられる音声信号は、アナウンスである。この図では、太線は、オーディオデータの流れを示し、細い実線は、メタ情報の流れを示し、破線は、制御情報の流れを示す。このシステム図は、3つの異なるドメイン、即ちメディアオーディオドメイン、アナウンスドメイン及び音声認識ドメインに分かれている。オーディオデータは、異なるメディアソースから発せられ得る。アナウンスがない場合、オーディオデータは、単にセレクタSELに提供され、スピーカーの記号によって表される1つ又は複数のオーディオ出力OUTに出力される。セレクタSELは、任意選択的であり、音声信号が統合される必要がある場合にのみ、高度なオーディオ処理が必要であることを表す。
しかしながら、アナウンスの場合、異なるメディアソースからのオーディオデータは、メディアオーディオドメインで処理される。例えば、ステムベース又はオブジェクトベースのオーディオファイルがミキサに提供され得、ミキサは、バックグラウンドトラック及びフォアグラウンドトラック、例えば音声コンテンツをメディア再生制御ブロックに出力する。代わりに、従来のオーディオファイル又はライブオーディオは、処理のためにコンテンツ認識オーディオセパレータ又は従来のフィルタに提供され得る。次いで、このオーディオセパレータ又はフィルタは、バックグラウンドトラック及びフォアグラウンドトラックをメディア再生制御ブロックに出力する。メディア再生制御ブロックは、例えば、潜在的に聞き取りやすさを妨げるスペクトル成分を低減するために、バックグラウンドトラックをフィルタFILに提供する。フォアグラウンドトラックは、減衰させるか又は除去するために利得制御部GCに提供される。
補助メタデータソースから取得されるか、又はコンテンツ分析及び検出ブロックによって導出される、オーディオデータに関連付けられ得るメタ情報は、任意選択的な配置及びループ情報ブロックに提供され、この配置及びループ情報ブロックは、アナウンス並びにループ内で繰り返され得るオーディオデータのセグメント(そのようなセグメントが利用可能である場合)の適切な配置を決定する。配置及びループ情報ブロックは、それぞれの情報をアナウンス再生制御ブロックに提供する。アナウンス再生制御ブロックは、メディア再生制御ブロック、フィルタFIL及び利得制御部GCの動作を適切なタイミングで開始し、アナウンスのオーディオ信号を合成器に提供する。アナウンスの配置は、外部データによっても影響を受け得る。このための指標は、運転状況であり得、運転状況は、地図データ、交通データ若しくはセンサデータ又はユーザのストレス若しくは注意力に関する情報を評価することによって導き出され得る。合成器は、このオーディオ信号を、調整されたフォアグラウンドトラック及び調整されたバックグラウンドトラックと合成し、合成されたオーディオ信号をセレクタSELに提供する。セレクタSELは、合成されたオーディオ信号がスピーカーSPKに出力されるように、アナウンス再生制御ブロックによって制御される。
音声認識ドメインでは、1つ又は複数のマイクMICによって取得された音声データが音声認識ブロックによって評価される。音声認識は、アナウンスによってトリガーされ得る。音声認識は、音声認識が完了したという信号をアナウンス再生制御ブロックに提供することが好ましい。このようにして、アナウンス再生制御ブロックは、フォアグラウンドトラック及びバックグラウンドトラックの調整を終了し、セレクタSELに適切な信号を提供することにより、変更されていないオーディオ再生に戻ることができる。
20 装置
21 入力部
22 受信ユニット
23 修正ユニット
24 再生ユニット
25 制御モジュール
26 ローカルストレージユニット
27 出力部
28 ユーザインターフェース
30 装置
31 メモリデバイス
32 処理デバイス
33 入力部
34 出力部
40 自動車
41 スピーカー
42 インフォテインメントシステム
43 ナビゲーションシステム
44 環境センサ
45 データ伝送ユニット
46 メモリ
47 ネットワーク
50 電子機器
51 スピーカー
52 ソケット
53 画面
AAD 調整されたオーディオデータ
AD オーディオデータ
E 要素
FIL フィルタ
GC 利得制御部
MIC マイク
OUT オーディオ出力
SEL セレクタ
SP 音声信号
S1 音声信号を受信する
S2 オーディオデータの選択された要素の音量及び/又はスペクトル外観を修正する
S3 調整されたオーディオデータを再生する
S4 受信された音声信号を再生する

Claims (13)

  1. オーディオデータ(AD)の再生を制御するための、装置(20)が行う方法であって、
    - 前記オーディオデータ(AD)の再生と同時にユーザに伝えられる音声信号(SP)を受信すること(S1)と、
    - 調整されたオーディオデータ(AAD)を取得するために、前記オーディオデータ(AD)の選択された要素(E)の音量及び/又はスペクトル外観を修正すること(S2)と、
    - 前記調整されたオーディオデータ(AAD)を再生すること(S3)と
    を含む、方法において、
    前記オーディオデータ(AD)の前記選択された要素(E)を、前記オーディオデータ(AD)のバックグラウンドトラックの処理とは別個に、前記オーディオデータ(AD)のフォアグラウンドトラック内の音声コンテンツを弱めるか又は除去することによって修正する(S2)ことを特徴とする、
    方法。
  2. 前記調整されたオーディオデータ(AAD)と同時に、前記受信された音声信号(SP)を再生すること(S4)を更に含む、請求項1に記載の方法。
  3. 前記受信された音声信号(SP)を再生すること(S4)は、前記オーディオデータ(AD)と関連付けられたメタ情報に基づいて且つ/又は外部データに基づいて遅延される、請求項2に記載の方法。
  4. 伝えられる前記音声信号(SP)は、アナウンス、通知、音声通話の音声情報又は別のユーザによって発せられた音声情報である、請求項1又は2に記載の方法。
  5. 前記オーディオデータ(AD)の前記選択された要素(E)は、バックグラウンドの音楽をフィルタリングすることによって更に調整される(S2)、請求項1又は2に記載の方法。
  6. 前記オーディオデータ(AD)の前記選択された要素(E)は、前記オーディオデータ(AD)のセグメントをループさせることによって更に調整される(S2)、請求項1又は2に記載の方法。
  7. 前記音声信号(SP)の再生速度は、前記ループされたセグメントの持続時間に適合される、請求項に記載の方法。
  8. 前記調整されたオーディオデータ(AAD)の持続時間は、前記受信された音声信号(SP)の持続時間に依存する、請求項1は2に記載の方法。
  9. 前記調整されたオーディオデータ(AAD)の前記持続時間は、前記音声信号(SP)に続く前記ユーザによるフィードバックを可能にする、請求項に記載の方法。
  10. コンピュータプログラムコードであって、命令を含み、前記命令は、少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、オーディオデータ(AD)の再生を制御するために、請求項1は2に記載の方法を実施させる、コンピュータプログラムコード。
  11. オーディオデータ(AD)の再生を制御するための装置(20)であって、
    - 前記オーディオデータ(AD)の再生と同時にユーザに伝えられる音声信号(SP)を受信する(S1)ように構成された受信ユニット(22)と、
    - 調整されたオーディオデータ(AAD)を取得するために、前記オーディオデータ(AD)の選択された要素(E)の音量及び/又はスペクトル外観を修正する(S2)ように構成された修正ユニット(23)と、
    - 前記調整されたオーディオデータ(AAD)を再生する(S3)ように構成された再生ユニット(24)と
    を含む、装置において、
    前記修正ユニット(23)は、前記オーディオデータ(AD)の前記選択された要素(E)を、前記オーディオデータ(AD)のバックグラウンドトラックの処理とは別個に、前記オーディオデータ(AD)のフォアグラウンドトラック内の音声コンテンツを弱めるか又は除去することによって修正する(S2)ように構成されていることを特徴とする、
    装置(20)。
  12. 自動車(40)において、請求項11に記載の装置(20)を含むか、又はオーディオデータ(AD)の再生を制御するために、請求項1は2に記載の方法を実施するように構成されることを特徴とする自動車(40)。
  13. オーディオデータ(AD)を再生することができる電子機器(50)において、請求項11に記載の装置(20)を含むか、又はオーディオデータ(AD)の再生を制御するために、請求項1は2に記載の方法を実施するように構成されることを特徴とする電子機器(50)。
JP2022150997A 2021-09-24 2022-09-22 オーディオデータの再生の制御 Active JP7474548B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP21198891.0A EP4156181A1 (en) 2021-09-24 2021-09-24 Controlling playback of audio data
EP21198891 2021-09-24

Publications (2)

Publication Number Publication Date
JP2023047338A JP2023047338A (ja) 2023-04-05
JP7474548B2 true JP7474548B2 (ja) 2024-04-25

Family

ID=77951556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022150997A Active JP7474548B2 (ja) 2021-09-24 2022-09-22 オーディオデータの再生の制御

Country Status (3)

Country Link
US (1) US20230096846A1 (ja)
EP (1) EP4156181A1 (ja)
JP (1) JP7474548B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012025270A (ja) 2010-07-23 2012-02-09 Denso Corp 車両用の音量制御装置および音量制御装置用のプログラム
JP2013205680A (ja) 2012-03-29 2013-10-07 Panasonic Corp 音声出力装置および音声出力方法
JP2020197651A (ja) 2019-06-04 2020-12-10 クラリオン株式会社 ミキシング処理装置及びミキシング処理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9230556B2 (en) * 2012-06-05 2016-01-05 Apple Inc. Voice instructions during navigation
US9972316B2 (en) 2015-12-30 2018-05-15 Harman International Industries, Incorporated Isolation and enhancement of short duration speech prompts in an automotive system
US20180081618A1 (en) * 2016-09-16 2018-03-22 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Audio segment playback coordination
US10014841B2 (en) 2016-09-19 2018-07-03 Nokia Technologies Oy Method and apparatus for controlling audio playback based upon the instrument
US9942678B1 (en) * 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10531196B2 (en) * 2017-06-02 2020-01-07 Apple Inc. Spatially ducking audio produced through a beamforming loudspeaker array
US11729549B2 (en) 2019-12-30 2023-08-15 Harman International Industries, Incorporated Voice ducking with spatial speech separation for vehicle audio system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012025270A (ja) 2010-07-23 2012-02-09 Denso Corp 車両用の音量制御装置および音量制御装置用のプログラム
JP2013205680A (ja) 2012-03-29 2013-10-07 Panasonic Corp 音声出力装置および音声出力方法
JP2020197651A (ja) 2019-06-04 2020-12-10 クラリオン株式会社 ミキシング処理装置及びミキシング処理方法

Also Published As

Publication number Publication date
JP2023047338A (ja) 2023-04-05
US20230096846A1 (en) 2023-03-30
EP4156181A1 (en) 2023-03-29

Similar Documents

Publication Publication Date Title
CN108989953B (zh) 空间上回避通过波束形成扬声器阵列产生的音频
US10848889B2 (en) Intelligent audio rendering for video recording
CN107210032A (zh) 在掩蔽语音区域中掩蔽再现语音的语音再现设备
JP6931819B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
JP2008042390A (ja) 車内会話支援システム
CN108737930B (zh) 车辆导航***中的可听提示
CN110696756A (zh) 一种车辆的音量控制方法及装置、汽车、存储介质
JP2013531273A (ja) スピーカ及びマイクロホンを備える音声認識システムを調整する方法、及び音声認識システム
KR20210047674A (ko) 스피커를 이용한 차량용 진동 시트 및 그 제어 방법
JP2007104046A (ja) 音響調整装置
JP7474548B2 (ja) オーディオデータの再生の制御
WO2020027061A1 (ja) 会話サポートシステム、その方法、およびプログラム
JP4829184B2 (ja) 車載装置および音声認識方法
US20220167087A1 (en) Audio output using multiple different transducers
JP6995254B2 (ja) 音場制御装置及び音場制御方法
CN110942770B (zh) 音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质
JP7493875B2 (ja) 音声処理装置および音声処理方法
JP2006317556A (ja) 音声対話装置
KR20230156967A (ko) 오디오 줌
CN117922456A (zh) 车辆控制方法、装置、车辆及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220922

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240229

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240411

R150 Certificate of patent or registration of utility model

Ref document number: 7474548

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150