JP7210602B2 - オーディオ信号の処理用の方法及び装置 - Google Patents

オーディオ信号の処理用の方法及び装置 Download PDF

Info

Publication number
JP7210602B2
JP7210602B2 JP2020545268A JP2020545268A JP7210602B2 JP 7210602 B2 JP7210602 B2 JP 7210602B2 JP 2020545268 A JP2020545268 A JP 2020545268A JP 2020545268 A JP2020545268 A JP 2020545268A JP 7210602 B2 JP7210602 B2 JP 7210602B2
Authority
JP
Japan
Prior art keywords
audio signal
head
channel audio
processed
target user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020545268A
Other languages
English (en)
Other versions
JP2021535632A (ja
Inventor
▲傳▼▲増▼ 黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2021535632A publication Critical patent/JP2021535632A/ja
Application granted granted Critical
Publication of JP7210602B2 publication Critical patent/JP7210602B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Description

本出願は、出願人である北京微播視界科技有限公司が2018年10月12日付で出願した(出願番号が201811190415.4、発明の名称が「オーディオ信号の処理用の方法及び装置」である中国特許出願に基づくものであり、その内容の全てをここに参照として取り込まれる。
本開示の実施例はコンピュータ技術分野に関し、具体的にオーディオ信号の処理用の方法及び装置に関する。
インターネット技術と電子技術との結合程度がますます高くなっていくにつれて、電子機器のインテリジェント化、人間化に対する要求もますます高くなっていく。携帯電話及び携帯電子端末の使用普及度がますます高まり、マルチメディア機能がユーザに最も広く使われているアップリケ―ションの一つである。
現在、オーディオ処理分野において、リアルに近い音場を模擬するために、通常、左右のチャンネルのラウドネス差を調整する方法と、左右のチャンネルの両耳間時差を調整する方法が適用される。
本開示の実施例はオーディオ信号の処理用の方法及び装置を提案する。
第一の様態では、本開示の実施例はオーディオ信号の処理用の方法を提供している。この方法は、目標ユーザの頭部画像と処理対象オーディオ信号とを取得することと、頭部画像に基づいて、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定することと、所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得ることと、を含め、頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものである。
ある実施例では、頭部画像に基づいて、目標ユーザの頭部姿勢角を特定することには、頭部画像と頭部画像に示されるユーザの頭部姿勢角との対応関係を表すための、予めトレーニングされた頭部姿勢識別モデルに、頭部画像を入力して、目標ユーザの頭部姿勢角を得ること、を含む。
ある実施例では、頭部姿勢識別モデルは、複数のサンプル頭部画像と、複数のサンプル頭部画像におけるサンプル頭部画像に対応するサンプル頭部姿勢角とを取得するステップと、機械学習方法を利用して、複数のサンプル頭部画像におけるサンプル頭部画像を入力として、入力されたサンプル頭部画像に対応するサンプル頭部姿勢角を所望の出力とするステップと、に従って予めトレーニングすることで得られる。
ある実施例では、目標音源と目標ユーザの頭部との距離を特定することには、頭部画像の大きさを特定することと、所定の頭部画像の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定することと、を含む。
ある実施例では、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得ることの後には、該方法は、さらに、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を初期ラウドネス差として取得することと、ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、初期ラウドネス差との差分値が第一所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号の強度をそれぞれ調整することと、を含む。
ある実施例では、当該方法は、さらに、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を初期両耳間時差として取得することと、
両耳間時差調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差と、初期両耳間時差との差分値が第二所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差を調整することと、を含む。
第二の様態では、本開示の実施例はオーディオ信号の処理用の装置を提供している。この装置は、目標ユーザの頭部画像と処理対象オーディオ信号とを取得するように配置された第一取得手段と、頭部画像に基づいて、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定するように配置された特定手段と、所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得るように配置された処理手段と、を備え、頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものである。
ある実施例では、特定手段は、頭部画像と頭部画像に示されるユーザの頭部姿勢角との対応関係を表すための、予めトレーニングされた頭部姿勢識別モデルに、頭部画像を入力して、目標ユーザの頭部姿勢角を得るように配置された識別モジュールを備える。
ある実施例では、頭部姿勢識別モデルは、複数のサンプル頭部画像と、複数のサンプル頭部画像におけるサンプル頭部画像に対応するサンプル頭部姿勢角とを取得するステップと、機械学習方法を利用して、複数のサンプル頭部画像におけるサンプル頭部画像を入力として、入力されたサンプル頭部画像に対応するサンプル頭部姿勢角を所望の出力とするステップと、に従って予めトレーニングすることで得られる。
ある実施例では、特定手段は、頭部画像の大きさを特定するように配置された第一特定モジュールと、所定の頭部画像の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定するように配置された第二特定モジュールと、を備える。
ある実施例では、この装置は、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を初期ラウドネス差として取得するように配置された第二取得手段と、ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、初期ラウドネス差との差分値が第一所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号の強度をそれぞれ調整するように配置された第一調整手段と、をさらに備える。
ある実施例では、この装置は、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を初期両耳間時差として取得するように配置された第三取得手段と、両耳間時差調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差と、初期両耳間時差との差分値が第二所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差を調整するように配置された第二調整手段と、をさらに備える。
第三の様態では、本開示の実施例は端末設備を提供している。この端末設備は、一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶された記憶装置とを備え、一つ又は複数のプログラムが一つ又は複数のプロセッサによって実行される場合、一つ又は複数のプロセッサに第一の様態のいずれかの実現方法に記載の方法を実現させる。
第四の様態では、本開示の実施例はコンピュータ読み取り可能な記憶媒体を提供してする。プロセッサによって実行されるときに、第一の様態のいずれかの実現方法に記載の方法を実現するコンピュータプログラムが記憶された。
本開示の実施例が提供するオーディオ信号の処理用の方法及び装置は、目標ユーザの頭部画像と処理対象オーディオ信号とを取得し、次に頭部画像によって目標ユーザの頭部姿勢角及び目標音源と目標ユーザの頭部との距離を特定し、最後に所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得て、頭部画像と頭部関連伝達関数を利用してオーディオ信号を調整する。これによって、オーディオ信号の処理の柔軟性を向上させ、リアルに近いオーディオ再生効果を模擬することに寄与する。
本開示におけるその他の特徴、目的、利点は、以下の図面を参照して実施例に対する非限定的な詳細な説明より、より明らかになる。
本開示のある実施例を適用できる例示的なシステム構成の図である。 本開示の実施例にかかるオーディオ信号の処理用の方法のある実施例のフローチャートである。 本開示の実施例にかかるオーディオ信号の処理用の方法の頭部姿勢角の例示的な模式図である。 本開示の実施例にかかるオーディオ信号の処理用の方法の頭部姿勢角の他の例示的な模式図である。 本開示の実施例にかかるオーディオ信号の処理用の方法のある使用シーンの模式図である。 本開示の実施例にかかるオーディオ信号の処理用の方法の他の実施例のフローチャートである。 本開示の実施例にかかるオーディオ信号の処理用の装置のある実施例の構成模式図である。 本開示の実施例の端末設備を実現することに適する構成模式図である。
次いで、図面と実施例を参照しながら本開示についてさらに詳細的に説明する。ここで記載された具体的な実施例は本開示を説明するためのものに過ぎず、本開示を限定するものではないことは当然理解される。また、説明の便宜上、図面には開示関連する部分のみが示されている。
なお、競合しない場合に、本開示における実施例及び実施例における特徴は互いに組み合わせることができる。次に、図面と実施例を参照しながら本開示について詳細的に説明する。
図1は、本開示の実施例のオーディオ信号の処理用の方法又はオーディオ信号の処理用の装置を適用できる例示的なシステム構成100を示している。
図1に示すように、システム構成100は、端末設備101、102、103と、ネットワーク104と、サーバ105とを備え得る。ネットワーク104は、端末設備101、102、103とサーバ105との間で通信リンクの媒体を提供するために用いられる。ネットワーク104には、例えば、有線、無線通信リンク、又は光ファイバケーブル等の様々な接続タイプを含み得る。
ユーザは、端末設備101、102、103を用いて、ネットワーク104を介してサーバ105とインタラクトして、メッセージ等を受信又は発信することができる。端末設備101、102、103には各種通信クライアントアップリケ―ションがインストールされることができ、例えば、オーディオ再生系のアップリケ―ション、ビデオ再生系のアップリケ―ション、ソーシャルプラットフォームソフトウェア等である。
端末設備101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末設備101、102、103がハードウェアである場合、オーディオ再生をサポートする、カメラを含む各種の電子機器であってもよい。端末設備101、102、103がソフトウェアである場合、上記電子機器にインストールされることができる。複数のソフトウェア又はソフトウェアモジュール(例えば、分散型サービスを提供するためのソフトウェア又はソフトウェアモジュール)として実現してもよいし、個別のソフトウェア又はソフトウェアモジュールとして実現してもよい。ここで、具体的に限定されない。
サーバ105は様々なサービスを提供するサーバであってもよい。例えば、端末設備101、102、103で再生されるオーディオに対してサポートを提供するバックオーディオサーバである。バックオーディオサーバは、端末設備で再生されるように、端末設備にオーディオを送信することができる。
なお、本開示の実施例が提供するオーディオ信号の処理用の方法は、一般的に端末設備101、102、103によって実行される。相応的に、オーディオ信号の処理用の装置は、端末設備101、102、103に設置することができる。
なお、サーバはハードウェアであってもよいし、ソフトウェアであってもよい。サーバはハードウェアである場合、複数のサーバからなる分散型サーバクラスタとして実現してもよいし、個別のサーバとして実現してもよい。サーバはソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(例えば、分散型サービスを提供するためのソフトウェア又はソフトウェアモジュール)として実現してもよいし、個別のソフトウェア又はソフトウェアモジュールとして実現してもよい。ここで、具体的に限定されない。
図1に示す端末設備、ネットワーク、サーバの数は例示的なものだけであることは理解すべきである。実現の需要に応じて、任意の数の端末設備、ネットワーク、サーバを備えてもよい。処理が必要とする頭部画像とオーディオ信号とを遠隔から取得する必要がない場合、上記システム構成はネットワーク及びサーバを備えなくてもよい。
次いで、図2を参照して、本開示のオーディオ信号の処理用の方法のある実施例のフローチャート200が示されている。このオーディオ信号の処理用の方法は、以下のステップを含む。
ステップ201:目標ユーザの頭部画像と処理対象オーディオ信号とを取得する。
本実施例において、オーディオ信号の処理用の方法の実行主体(例えば、図1のような端末設備)は、有線接続方式又は無線接続方式によって遠隔又はローカルから目標ユーザの頭部画像、左チャンネル処理対象オーディオ信号および右チャンネル処理対象オーディオ信号を取得することができる。目標ユーザは、図1のような端末設備におけるカメラの撮影範囲内のユーザ(例えば、図1のような端末設備を使用するユーザ)であってもよい。上記処理対象オーディオ信号は、上記実行主体に予め記憶された、処理待ちのオーディオ信号であってもよい。例として、上記処理対象オーディオ信号は、現在、上記実行主体において再生されているオーディオに含まれる、まだ再生されていないオーディオセグメントであってもよい。このオーディオセグメントの時間長は所定の時間長であってもよい、例えば、5秒、10秒等である。
ステップ202:頭部画像に基づいて、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定する。
本実施例において、ステップ201で取得された頭部画像に基づいて、上記実行主体は、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定することができる。頭部姿勢角は、目標ユーザの顔の正面向きが、目標ユーザの頭部画像を撮影して取得するためのカメラに対する振れ度合いを表すためのものであってもよい。
実践において、頭部姿勢角はピッチ角(pitch)、ヨー角(yaw)、ロール角(roll)の三種類が含め、それぞれ上下反転、左右反転、水平面内で回転する角度を示す。図3のように、x軸、y軸、z軸は直交座標系の三つの軸である。z軸は、端末設備301におけるカメラの光軸である。y軸は、人間の頭部が側方回転しない状態で、人間の頭頂輪郭の中心点を通って水平面に垂直の直線であってもよい。ピッチ角は、人間の顔がx軸回りに回転する角度であり、ヨー角は、人間の顔がy軸回りに回転する角度であり、ロール角は、人間の顔がz軸回りに回転する角度である。図3における直交座標系では、人間の頭部が回転するとき、その直交座標系の原点を端点とし人間の2つの目玉の中心点を結ぶ線の中点を通る射線を特定する。この射線がx軸、y軸、z軸のそれぞれとなす角度を、頭部姿勢角として特定することができる。
なお、本実施例において、特定された頭部姿勢角は上記ロール角を含めなくてもよい。図4に示すように、図における点Aを目標音源とし、目標音源とカメラの位置が同一であるため、特定された頭部姿勢角は、θ(ヨー角)とφ(ピッチ角)を含めている。
なお、上記実行主体は、各種既存の頭部姿勢の推定方法によって2次元の頭部画像に対して頭部姿勢の推定を行うことができる。頭部姿勢の推定方法は、機械学習モデルによる方法、人間の顔のキーポイントによる座標変換方法等を含むが、これらに限られない。
本実施例のある選択的な実現方式において、上記実行主体は、頭部画像に基づいて、以下のようなステップに従って目標ユーザの頭部姿勢角を特定することができる。
頭部画像を、予めトレーニングされた頭部姿勢識別モデルに入力して、目標ユーザの頭部姿勢角を得る。頭部姿勢識別モデルは、頭部画像と頭部画像に示されるユーザの頭部姿勢角との対応関係を表すためのものである。
例として、上記頭部姿勢識別モデルは、特徴抽出部分と対応関係テーブルとを含んでもよい。特徴抽出部分は、頭部画像から特徴を抽出して特徴ベクトルを生成することができる。例えば、特徴抽出部分は、畳み込みニューラルネットワーク、ディープニューラルネットワーク等である。対応関係テーブルは、技術者が大量の特徴ベクトルと頭部姿勢角に対する統計に基づいて予め作成された、複数の特徴ベクトルと頭部姿勢角との対応関係が記憶されている対応関係テーブルであってもよい。このように、上記頭部姿勢識別モデルは、まず特徴抽出部分を使用して頭部画像の特徴を抽出して、対象特徴ベクトルを生成する。次に、その対象特徴ベクトルを対応関係テーブルにおける複数の特徴ベクトルとを順次に比較して、対応関係テーブルにおけるある特徴ベクトルが対象特徴ベクトルと同様又は類似であれば、対応関係テーブルにおける当該特徴ベクトルに対応する頭部姿勢角を目標ユーザの頭部姿勢角とする。
本実施例のある選択的な実現方式において、上記頭部姿勢識別モデルは、上記実行主体又は他の電子設備で以下のようなステップに従って予めトレーニングすることで得られる。まず、複数のサンプル頭部画像と、複数のサンプル頭部画像におけるサンプル頭部画像に対応するサンプル頭部姿勢角とを取得する。サンプル頭部姿勢角は、予めサンプル頭部画像にラベル付けられた、サンプル頭部画像の示す人物の頭部の頭部姿勢角である。次いで、機械学習方法を利用して、複数のサンプル頭部画像におけるサンプル頭部画像を入力とし、入力されたサンプル頭部画像に対応するサンプル頭部姿勢角を所望の出力として、トレーニングすることで、頭部姿勢識別モデルを得る。
上記頭部姿勢識別モデルは、初期化の人工ニューラルネットワークをトレーニングして得たモデルであってもよい。初期化の人工ニューラルネットワークは、トレーニングされていない人工ニューラルネットワーク又はトレーニングが完成されていない人工ニューラルネットワークである。初期化の人工ニューラルネットワークの各層に初期パラメータが設置されており、パラメータは人工ニューラルネットワークのトレーニング中においてどんどん調整されることができる(例えば、逆伝搬アルゴリズムによってパラメータが調整される)。初期化の人工ニューラルネットワークは、各種類のトレーニングされていない又はトレーニングが完成されていない人工ニューラルネットワークであってもよい。例えば、初期化の人工ニューラルネットワークは畳み込みニューラルネットワーク(例えば、畳み込み層、プーリング層、全接合層等を含む)であってもよい。
目標ユーザの頭部画像によって頭部姿勢角を特定することで、リアルタイムで目標ユーザの頭部姿勢を監視することを実現でき、頭部装着設備のようなハードウェアを使用することを回避することができるため、ハードウェアの構成を簡素化し、ハードウェアのコストを低減する目的を達成することができる。
本実施例において、上記実行主体は、頭部画像に基づいて目標音源と目標ユーザの頭部との距離を特定することができる。
一つの例として、上記実行主体は、以下のようなステップで目標音源と目標ユーザの頭部との距離を特定することができる。
まず、頭部画像の大きさを特定する。例として、頭部画像の大きさは、上記実行主体が既存の目標検出モデル(例えば、SSD(Single Shot MultiBox Detector)、DPM(Deformable Part Model)等)を利用して、頭部画像から識別された頭部画像領域の大きさである。大きさは様々な方式で表すことができる。例えば、頭部画像領域を含む最小矩形状の長さ又は幅であってもよいし、頭部画像領域を含む最小円形状の半径等であってもよい。
次いで、所定の頭部画像の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定する。具体的に、例として、上記対応関係は、所定の対応関係テーブルによって表すことができる。この対応関係テーブルには、頭部画像の大きさ、対応する距離が記憶されていてもよい。上記実行主体は、特定された頭部画像の大きさに応じて、当該対応関係テーブルから特定された頭部画像の大きさに対応する距離を調べることができる。別の例として、上記対応関係は、所定の転換式によって表すことができる。上記実行主体は、上記転換式を利用して、特定された頭部画像の大きさから計算して目標音源と目標ユーザの頭部との距離を得ることができる。例えば、上記転換式はy=kxである。ここで、kは所定の比例値であり、xは頭部画像の大きさであり、yは目標音源と頭部画像が示す目標ユーザの頭部との距離である。
さらに別の例として、上記実行主体は、既存の人間の顔のキーポイントを特定する方法を利用して、頭部画像における人間の顔のキーポイントを特定し、特定された人間の顔のキーポイントを含む画像領域の大きさを特定することができる。画像領域の大きさを表す方式は上記実施例と同様であってもよい。次いで、上記実行主体は、所定の画像領域の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定することができる。ここで、本例における対応関係を表す方式は、上記例と同様であるため、説明は繰り返さない。
なお、目標音源は実際にオーディオ信号を出力する電子設備であってよい。通常、オーディオ信号を出力する電子設備は、上記カメラを含む端末設備であってもよく、上記実行主体によって特定された、目標位置にある仮想音源であってもよい。相応的に、目標音源と目標ユーザの頭部との距離は、上記例に従って特定された、オーディオ信号を出力する電子設備と目標ユーザの頭部との間の距離である。或いは、目標音源と目標ユーザの頭部との距離は、特定された距離を計算して(例えば、所定の係数と相乗する、又は所定の距離を加算する等)、目標音源(即ち仮想音源)と目標ユーザの頭部との間の距離を得る。
ステップ203:所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得る。
本実施例において、上記実行主体は、頭部姿勢角、距離および処理対象オーディオ信号を、所定の頭部関連伝達関数(Head Related Transfer Function,HRTF)に入力し、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得ることができる。ここで、頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものである。
具体的に、頭部関連伝達関数(両耳間伝達関数ともいう)は、音波が音源から両耳への伝達過程を記述する。それは、人の生理構造(例えば、頭、耳介及び胴部等)が音波に対して総合的にフィルタリングした結果である。頭部関連伝達関数に、音源の位置決めに関する情報が含まれるため、両耳聴覚及び心理聴覚分析の研究に対して非常に重要な意味を有する。実際の適用において、頭部関連伝達関数によって処理された信号をイヤホン又はスピーカーで出力すると、様々な異なる空間聴覚効果を模擬することができる。
通常、HRTFは二つの部分を含め、それぞれ左HRTFと右HRTFである。上記実行主体は、頭部姿勢角、特定された距離および処理対象オーディオ信号をそれぞれ左HRTFと右HRTFに入力して、左HRTFは、処理後左チャンネルオーディオ信号を出力し、右HRTFは、処理後右チャンネルオーディオ信号を出力する。実践において、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とは、ラウドネス差(Interaural Level Differences、ILD)と両耳間時差(ITD、Interaural Time Difference)とを有してもよい。ここで、ラウドネスは音量とも呼ばれ、音声の大きさであり、人間の耳が音声に対する主観的な感覚を表し、その計測単位が、ソン(sone)であり、1kHzで音圧レベルが40dBの純音のラウドネスを1soneとして定義される。両耳間時差は、音源が聴く者の両耳に到達する時間の差である。上記各ステップの処理によって、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差及び両耳間時差をリアルの場面に近いようにすることができ、リアルに近いオーディオ再生効果を模擬することに寄与する。
好ましくは、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号が得られた後、上記実行主体は、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を各方式で出力することができる。例えば、イヤホン、スピーカー等の設備によって処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を再生することができる。又は、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を所定の記憶領域に出力して記憶させることができる。
引き続き、図5を参照する。図5は本実施例に係るオーディオ信号の処理用の方法の応用シーンのある模式図である。図5の応用シーンにおいて、端末設備501では音楽が再生されている。端末設備501は、まず目標ユーザ502の頭部画像503を撮影して、さらに、処理対象オーディオ信号504を取得した。ここで、処理対象オーディオ信号504は、現在再生されているオーディオにおける、まだ再生されていないオーディオセグメントである。次いで、端末設備501は、頭部画像503に基づいて、目標ユーザの頭部姿勢角505を特定し(例えば、予めトレーニングされた頭部姿勢識別モデルを使用して頭部姿勢角を識別する)、目標音源と目標ユーザ502の頭部との距離506を特定する(例えば、頭部画像の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定する)。ここで、目標音源は端末設備501である。最後に、端末設備501は、頭部姿勢角505、距離506および処理対象オーディオ信号504を所定の頭部関連伝達関数507に入力し、処理後左チャンネルオーディオ信号508と処理後右チャンネルオーディオ信号509とを得た。
本開示の上記実施例が提供する方法は、目標ユーザの頭部画像と処理対象オーディオ信号とを取得し、次に頭部画像によって目標ユーザの頭部姿勢角及び目標音源と目標ユーザの頭部との距離を特定し、最後に所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得て、頭部画像と頭部関連伝達関数を利用してオーディオ信号を調整する。これによって、オーディオ信号の処理の柔軟性を向上させ、リアルに近いオーディオ再生効果を模擬することに寄与する。
さらに、図6を参照する。図6には、オーディオ信号の処理用の方法の他の実施例のフロー600が示されている。このオーディオ信号の処理用の方法のフロー600は、以下のようなステップを含む。
ステップ601:目標ユーザの頭部画像と処理対象オーディオ信号とを取得する。
本実施例において、ステップ601は、図2に対応する実施例におけるステップ201とはほぼ一致するので、説明は繰り返さない。
ステップ602:頭部画像に基づいて、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定する。
本実施例において、ステップ602は、図2に対応する実施例におけるステップ202とはほぼ一致するので、説明は繰り返さない。
ステップ603:所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得る。
本実施例において、ステップ603は、図2に対応する実施例におけるステップ203とはほぼ一致するので、説明は繰り返さない。
ステップ604:予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を初期ラウドネス差として取得する。
本実施例において、オーディオ信号の処理用の方法の実行主体は(例えば、図1に示す端末設備)、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を取得することができる。ここで、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号は、予め上記実行主体に記憶された、処理されていないオーディオ信号であってもよい。処理されていないオーディオ信号と、上記処理対象オーディオ信号とは、同一のオーディオファイルに基づいて生成されたものであってもよい。例えば、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号は、あるオーディオファイルから抽出されたオーディオ信号であり、処理対象オーディオ信号は、再生されている当該オーディオファイルから抽出された、再生されていないオーディオセグメントである。
本実施例において、上記実行主体は、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号のラウドネスを予めそれぞれ特定しておき、特定された二つのラウドネスの差分値を、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差として特定してもよい。なお、オーディオ信号の強度を特定する方法は、現在広く研究、応用されている公知技術であるため、説明を省略する。
ステップ605:ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、初期ラウドネス差との差分値が第一所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号のラウドネスをそれぞれ調整する。
本実施例において、上記実行主体は、ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、初期ラウドネス差との差分値が第一所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号の強度をそれぞれ調整する。第一所定範囲は、所定のラウドネス差の範囲であって、例えば、0ソン、±1ソン等であってもよい。
例として、初期左チャンネルオーディオ信号のラウドネスをAと仮設し、初期右チャンネルオーディオ信号のラウドネスをBと仮設すると、ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、初期ラウドネス差との差分値が第一所定範囲にあるように、処理後左チャンネルオーディオ信号のラウドネスをAに近いと調整し、処理後右チャンネルオーディオ信号のラウドネスをBに近いと調整する。
処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号のラウドネスを調整することで、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号のラウドネス差を初期のラウドネス差に還元させることができる。これにより、オーディオ再生時において、オーディオ信号のラウドネスの急変を回避することに寄与する。
本実施例のある選択的な実現方式において、上記ステップ603の後に、上記実行主体は、さらに以下のようなステップを実行することができる。
まず、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を初期両耳間時差として取得する。具体的に、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号は、ステップ604において説明した初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号と同じであるため、ここで説明は繰り返さない。上記実行主体は、予め既存の左右チャンネルの両耳間時差を特定する方法に従って、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を特定することができる。なお、左右チャンネルの両耳間時差を特定する方法は、現在広く研究、応用されている公知技術であるため、ここで説明を省略する。
次いで、両耳間時差調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差と、初期両耳間時差との差分値が第二所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差を調整する。ここで、第二所定範囲は、所定の両耳間時差の範囲であって、例えば、0秒、±1秒等であってもよい。
例として、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号の再生開始時間を調整することによって、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号の両耳間時差を調整する目的を達成できる。両耳間時差を調整することで、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号の両耳間時差を初期の両耳間時差に還元させることができる。よって、オーディオ再生時において、オーディオ信号の両耳間時差の急変を回避することに寄与し、リアルの音場をさらによく模擬することに寄与する。図6から分かるように、図2に対応する実施例と比べて、本実施例に係るオーディオ信号の処理用の方法のフロー600は、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号のラウドネスを調整するステップを強調している。これによって、本実施例に係る技術案は、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号のラウドネスを初期のラウドネスに還元することができ、オーディオ再生時において、オーディオ信号のラウドネスの急変を回避することに寄与する。
さらに、図7を参照する。上記各図に示す方法を実現するものとして、本開示は、オーディオ信号の処理用の装置のある実施例を提供する。この装置の実施例は、図2に示す方法の実施例に対応しており、この装置は具体的に各種電子設備に適用することができる。
図7のように、本実施例に係るオーディオ信号の処理用の装置700は、目標ユーザの頭部画像と処理対象オーディオ信号とを取得するように配置された第一取得手段701と、頭部画像に基づいて、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定するように配置された特定手段702と、所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得るように配置された処理手段703とを備え、頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものである。
本実施例において、第一取得手段701は、有線接続方式又は無線接続方式によって遠隔又はローカルから目標ユーザの頭部画像および左チャンネル処理対象オーディオ信号と右チャンネル処理対象オーディオ信号を取得することができる。目標ユーザは、図1に示すような端末設備におけるカメラの撮影範囲内のユーザ(例えば、図1に示すような端末設備を使用するユーザ)であってもよい。上記処理対象オーディオ信号は、上記装置700に予め記憶された、処理待ちのオーディオ信号であってもよい。例として、上記処理対象オーディオ信号は、現在、上記装置700において再生されているオーディオに含まれる、まだ再生されていないオーディオセグメントであってもよい。このオーディオセグメントの時間長は所定の時間長であって、例えば、5秒、10秒等であってもよい。
本実施例において、特定手段702は、目標ユーザの頭部姿勢角を特定し、目標音源と目標ユーザの頭部との距離を特定することができる。ここで、頭部姿勢角は、目標ユーザの顔の正面向きが、目標ユーザの頭部画像を撮影して取得するためのカメラに対する振れ度合いを表すためのものであってもよい。
なお、上記特定手段702は、各種既存の頭部姿勢の推定方法によって2次元の頭部画像に対して頭部姿勢の推定を行うことができる。頭部姿勢の推定方法は、機械学習モデルによる方法、人間の顔のキーポイントによる座標変換方法等を含むが、これらに限られない。
本実施例において、上記特定手段702は、頭部画像に基づいて、目標音源と目標ユーザの頭部との距離を特定することができる。例として、上記特定手段702は、既存のユーザの顔のキーポイントを特定する方法を利用して、頭部画像における人間の顔のキーポイントを特定し、特定された人間の顔のキーポイントを含む画像領域の大きさを特定することができる。次いで、上記特定手段702は、所定の画像領域の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定することができる。
なお、目標音源は実際にオーディオ信号を出力する電子設備であってよい。通常、オーディオ信号を出力する電子設備は、上記カメラを含む端末設備であってもよく、上記実行主体によって特定された、目標位置にある仮想音源であってもよい。相応的に、目標音源と目標ユーザの頭部との距離は、上記例に従って特定された、オーディオ信号を出力する電子設備と目標ユーザの頭部との間の距離である。或いは、目標音源と目標ユーザの頭部との距離は、特定された距離を計算して(例えば、所定の係数と相乗する、又は所定の距離を加算する等)、目標音源(即ち仮想音源)と目標ユーザの頭部との間の距離を得る。
本実施例において、処理手段703は、頭部姿勢角、距離および処理対象オーディオ信号を、所定の頭部関連伝達関数(Head Related Transfer Function,HRTF)に入力し、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得ることができる。ここで、頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものである。
具体的に、頭部関連伝達関数(両耳間伝達関数ともいう)は、音波が音源から両耳への伝達過程を記述する。それは、人の生理構造(例えば、頭、耳介及び胴部等)が音波に対して総合的にフィルタリングした結果である。頭部関連伝達関数に、音源の位置決めに関する情報が含まれるため、両耳聴覚及び心理聴覚分析の研究に対して非常に重要な意味を有する。実際の適用において、頭部関連伝達関数によって処理された信号をイヤホン又はスピーカーで出力すると、様々な異なる空間聴覚効果を模擬することができる。
通常、HRTFは二つの部分を含め、それぞれ左HRTFと右HRTFである。上記処理手段703は、頭部姿勢角、特定された距離および処理対象オーディオ信号をそれぞれ左HRTFと右HRTFに入力して、左HRTFは、処理後左チャンネルオーディオ信号を出力し、右HRTFは、処理後右チャンネルオーディオ信号を出力する。実践において、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とは、ラウドネス差(Interaural Level Differences、ILD)と両耳間時差(ITD、Interaural Time Difference)とを有してもよい。ここで、ラウドネスは音量とも呼ばれ、音声の大きさであり、人間の耳が音声に対する主観的な感覚を表し、その計測単位が、ソン(sone)であり、1kHzで音圧レベルが40dBの純音のラウドネスを1soneとして定義される。両耳間時差は、音源が聴く者の両耳に到達する時間の差である。上記各ステップの処理によって、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差及び両耳間時差をリアルの場面に近いようにすることができ、リアルに近いオーディオ再生効果を模擬することに寄与する。
本実施例のある選択的な実現方式において、特定手段702は、頭部画像を、予めトレーニングされた、頭部画像と頭部画像に示されるユーザの頭部姿勢角との対応関係を表すための頭部姿勢識別モデルに入力して、目標ユーザの頭部姿勢角を得るように配置された識別モジュール(図示しない)を備えてもよい。
本実施例のある選択的な実現方式において、頭部姿勢識別モデルは、複数のサンプル頭部画像と、複数のサンプル頭部画像におけるサンプル頭部画像に対応するサンプル頭部姿勢角とを取得するステップと、機械学習方法を利用して、複数のサンプル頭部画像におけるサンプル頭部画像を入力として、入力されたサンプル頭部画像に対応するサンプル頭部姿勢角を所望の出力とするステップと、に従って予めトレーニングすることで得られる。
本実施例のある選択的な実現方式において、特定手段702は、頭部画像の大きさを特定するように配置された第一特定モジュール(図示しない)と、所定の頭部画像の大きさと距離との対応関係に基づいて、目標音源と目標ユーザの頭部との距離を特定するように配置された第二特定モジュール(図示しない)とを備えてもよい。
本実施例のある選択的な実現方式において、当該装置700は、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を初期ラウドネス差として取得するように配置された第二取得手段(図示しない)と、ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、初期ラウドネス差との差分値が第一所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号のラウドネスをそれぞれ調整するように配置された第一調整手段(図示しない)とをさらに備えてもよい。
本実施例のある選択的な実現方式において、当該装置700は、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を初期両耳間時差として取得するように配置された第三取得手段(図示しない)と、両耳間時差調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差と、初期両耳間時差との差分値が第二所定範囲にあるように、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差を調整するように配置された第二調整手段(図示しない)とをさらに備えてもよい。
本開示の上記実施例が提供する装置は、目標ユーザの頭部画像と処理対象オーディオ信号とを取得し、次に頭部画像によって目標ユーザの頭部姿勢角及び目標音源と目標ユーザの頭部との距離を特定し、最後に所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得て、頭部画像と頭部関連伝達関数を利用してオーディオ信号を調整する。これによって、オーディオ信号の処理の柔軟性を向上させ、リアルに近いオーディオ再生効果を模擬することに寄与する。
次いで、図8を参照する。図8は、本開示の実施例を実現するための端末設備800の構成模式図を示す。本開示の実施例に係る端末設備は、携帯電話、ノートパソコン、デジタル放送受信機、PDA(携帯情報端末)、PAD(タブレット)、PMP(携帯型マルチメディアプレイヤ)、車載端末(例えば、車載ナビゲーション端末)等の形態端末、又はデジタルTV、デスクトップ型コンピュータ等の固定端末を含むが、これらに限られない。図8に示す端末設備は一例に過ぎず、本開示の実施例の機能と使用範囲に制限を与えるものではない。
図8に示すように、端末設備800は、リードオンリーメモリ(ROM)802に記憶されたプログラム、或いは記憶装置808からランダムアクセスメモリ(RAM)803にロードされたプログラムによって様々な適宜な動作と処理を行う処理装置(例えば、中央処理装置(CPU)、グラフィックプロセッサ等)801を備えてもよい。RAM803には、端末設備800の操作に必要な様々なプログラムとデータがさらに記憶されている。処理装置801と、ROM802と、RAM803とは、バス804により相互に接続されている。入/出力(I/O)インタフェース805もバス804に接続されている。
一般的に、以下のような装置は、入/出力(I/O)インタフェース805に接続可能である。例えば、タッチスクリーン、タッチパネル、キーボード、マウス、カメラ、マイク、加速度計、ジャイロ等を含む入力装置806と、例えば、液晶ディスプレイ(LCD)、スピーカー、振動子等を含む出力装置807と、例えば、磁気テープ、ハードディスク等を含む記憶装置808と、通信装置809である。通信装置809は、端末設備800と他の設備と、無線又は有線通信でデータ交換を行うことを許可することができる。図8は各種の装置を備える端末設備800を示しているが、全ての装置を実施する又は備えることが要求されていないことは理解すべきである。代替的に実施してもよいし、より多い又はより少ない装置を備えてもよい。
特に、本開示の実施例によれば、フローチャートを参照しながら説明した上記過程は、コンピュータソフトウェアプログラムとして実現されることが可能である。例えば、本開示の実施例は、あるコンピュータプログラム製品に関し、コンピュータ読み取り可能な媒体に搭載されたコンピュータプログラムに関する。このコンピュータプログラムは、フローチャートに示す方法を実行するプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信装置809によってネットからダウンロード及びインストールされることができる。或いは、記憶装置808からインストールされる、又は、ROM802からインストールされる。このコンピュータプログラムは、処理装置801によって実行されるとき、本開示の実施例に係る方法に制限された上記機能が実行される。
なお、本開示に記載のコンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、又はコンピュータ読み取り可能な記憶媒体、又は上記双方の任意の組み合わせであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は上記の任意の組み合わせであってもよいが、これらに限られない。コンピュータ読み取り可能な記憶媒体のさらに具体的な例は、一つ又は複数のリード線を有する電気的接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスク・リードオンリーメモリ(CD-ROM)、光メモリデバイス、磁気メモリデバイス、又は上記の任意の組み合わせを含むが、これらに限られない。本開示において、コンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶するいかなる有形媒体であってもよい。このプログラムは、指令実行システム、装置又はデバイスに使用されるか、或いはこれらと組み合わせて使用されることができる。本開示において、コンピュータ読み取り可能な信号媒体は、さらにコンピュータ読み取り可能な記憶媒体以外のいかなるコンピュータ読み取り可能な媒体であってもよい。このコンピュータ読み取り可能な信号媒体は、指令実行システム、装置又はデバイスに使用されるか、或いはこれらと組み合わせて使用されるプログラムを送信、伝搬又は伝送することができる。コンピュータ読み取り可能な媒体に含まれるプログラムコードは、いかなる好適な媒介によって伝送でき、例えば、電線、光テーブル、RF(radio frequency)、又は上記の任意の組み合わせを含むが、これらに限られない。
上記コンピュータ読み取り可能な媒体は、上記端末設備に含まれてもよいし、上記端末設備に装着されずに独立に存在してもよい。上記コンピュータ読み取り可能な媒体は、一つ又は複数のプログラムを搭載されており、上記一つ又は複数のプログラムが上記端末設備に実行されるとき、当該端末設備に以下のような処理を行わせる。目標ユーザの頭部画像と処理対象オーディオ信号とを取得して、頭部画像に基づき目標ユーザの頭部姿勢角及び目標音源と目標ユーザの頭部との距離を特定して、所定の頭部関連伝達関数に、頭部姿勢角、距離および処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得る。ここで、頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものである。
本開示の操作を実行するためのコンピュータプログラムコードは、一つ又は複数のプログラミング言語又はその組み合わせでコーディングされる。前記プログラミング言語は、Java、Smalltalk、C++等のオブジェクト向けのプログラミング言語を含め、さらに「C」などの従来のプロセス式プログラミング言語又は類似的なプログラミング言語を含める。プログラムコードは、ユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、ユーザのコンピュータ上でスタンドアローン・ソフトウェア・パッケージとして実行されてもよい。ユーザのコンピュータ上で部分的におよび遠隔コンピュータ上で部分的に、又は遠隔コンピュータやサーバで全体的に、実行されてもよい。遠隔コンピュータに関する場合、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)又はワイド・エリア・ネットワーク(WAN)を含む任意の種類のネットワークを通じて、ユーザのコンピュータに接続することができ、或いは接続は外部コンピュータ(例えば、インターネット・サービス・プロバイダを利用してインターネットを通じて)に対して行うこともできる。
図面におけるフローチャート及びブロック図は、本開示の様々な実施例に係るシステム、方法及びコンピュータプログラム製品によって実現可能なシステム構成、機能及び操作を示す。フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表し、このモジュール、プログラムセグメント、又はコードの一部は、一つ又は複数の所定の論理機能を実現するための実行可能な指令を含む。なお、いくつかの代替の実現において、ブロックに記載された機能は、図に記載された順序を外れて発生することがある。例えば、連続して示された2つのブロックが、実際には、ほぼ同時に実行されてもよいし、時には、その機能に応じて、逆の順番で実行されてもよい。なお、ブロック図及び/又はフローチャートにおける各ブロック、ブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能または操作を実行する、専用のハードウェアベースのシステムによって実現されてもよいし、或いは、専用のハードウェア及びコンピュータ指令の組み合わせによって実現されてもよい。
本開示の実施例に係る手段は、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。手段の名称は、ある場合において、その手段自身を限定するものではない。例えば、第一取得手段は、「目標ユーザの頭部画像と処理対象オーディオ信号とを取得する手段」と記述されてもよい。
以上の説明は、本開示の好ましい実施例及び運用技術の原理に対する説明である。本開示に係る開示の範囲は、上記技術的特徴の特定の組み合わせによる技術案に限られるものではないことを、当業者は理解すべきである。また、上記開示の要旨を逸脱しない場合に、上記技術的特徴又はその均等の特徴によって任意に組み合わせて形成される他の技術案も含むべきである。例えば、上記特徴と本開示に開示された(但しこれに限られない)、類似の機能を有する技術的特徴とを、入れ替えて形成する技術案も含むべきである。
701 第一取得手段
702 特定手段
703 処理手段
801 処理装置
805 I/Oインタフェース
806 入力装置
807 出力装置
808 記憶装置
809 通信装置

Claims (15)

  1. 目標ユーザの頭部画像と処理対象オーディオ信号とを取得することと、
    前記頭部画像に基づいて、前記目標ユーザの頭部姿勢角を特定し、目標音源と前記目標ユーザの頭部との距離を特定することと、
    所定の頭部関連伝達関数に、前記頭部姿勢角、前記距離および前記処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得ることと、を含め、
    頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものであり、
    前記頭部姿勢角は、前記目標ユーザの顔の正面向きが、前記目標ユーザの頭部画像を撮影して取得するためのカメラに対する振れ度合いを表すためのものである
    オーディオ信号の処理用の方法。
  2. 記頭部画像に基づいて、前記目標ユーザの頭部姿勢角を特定することには、
    頭部画像と頭部画像に示されるユーザの頭部姿勢角との対応関係を表すための、予めトレーニングされた頭部姿勢識別モデルに、前記頭部画像を入力して、前記目標ユーザの頭部姿勢角を得ること、を含む
    請求項1に記載の方法。
  3. 前記頭部姿勢識別モデルは、
    複数のサンプル頭部画像と、前記複数のサンプル頭部画像におけるサンプル頭部画像に対応するサンプル頭部姿勢角とを取得するステップと、
    機械学習方法を利用して、前記複数のサンプル頭部画像におけるサンプル頭部画像を入力として、入力されたサンプル頭部画像に対応するサンプル頭部姿勢角を所望の出力とするステップと、
    に従って予めトレーニングすることで得られる
    請求項2に記載の方法。
  4. 記目標音源と前記目標ユーザの頭部との距離を特定することには、
    前記頭部画像の大きさを特定することと、
    所定の頭部画像の大きさと距離との対応関係に基づいて、前記目標音源と前記目標ユーザの頭部との距離を特定することと、を含む
    請求項1に記載の方法。
  5. 記処理後左チャンネルオーディオ信号と前記処理後右チャンネルオーディオ信号を得ることの後には、前記方法は、さらに、
    予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を初期ラウドネス差として取得することと、
    ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、前記初期ラウドネス差との差分値が第一所定範囲にあるように、前記処理後左チャンネルオーディオ信号と前記処理後右チャンネルオーディオ信号の強度をそれぞれ調整することと、を含む
    請求項1から4のいずれか1項に記載の方法。
  6. 前記方法は、さらに、予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を初期両耳間時差として取得することと、
    両耳間時差調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差と、前記初期両耳間時差との差分値が第二所定範囲にあるように、前記処理後左チャンネルオーディオ信号と前記処理後右チャンネルオーディオ信号との両耳間時差を調整することと、を含む
    請求項5に記載の方法。
  7. 目標ユーザの頭部画像と処理対象オーディオ信号とを取得するように配置された第一取得手段と、
    前記頭部画像に基づいて、前記目標ユーザの頭部姿勢角を特定し、目標音源と前記目標ユーザの頭部との距離を特定するように配置された特定手段と、
    所定の頭部関連伝達関数に、前記頭部姿勢角、前記距離および前記処理対象オーディオ信号を入力して、処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号を得るように配置された処理手段と、を備え、
    前記頭部関連伝達関数は、頭部姿勢角、距離、処理対象オーディオ信号と、処理後左チャンネルオーディオ信号および処理後右チャンネルオーディオ信号との対応関係を表すためのものであり、
    前記頭部姿勢角は、前記目標ユーザの顔の正面向きが、前記目標ユーザの頭部画像を撮影して取得するためのカメラに対する振れ度合いを表すためのものである
    オーディオ信号の処理用の装置。
  8. 前記特定手段は、頭部画像と頭部画像に示されるユーザの頭部姿勢角との対応関係を表すための、予めトレーニングされた頭部姿勢識別モデルに、前記頭部画像を入力して、前記目標ユーザの頭部姿勢角を得るように配置された識別モジュールを備える
    請求項7に記載の装置。
  9. 前記頭部姿勢識別モデルは、
    複数のサンプル頭部画像と、前記複数のサンプル頭部画像におけるサンプル頭部画像に対応するサンプル頭部姿勢角とを取得するステップと、
    機械学習方法を利用して、前記複数のサンプル頭部画像におけるサンプル頭部画像を入力として、入力されたサンプル頭部画像に対応するサンプル頭部姿勢角を所望の出力とするステップと、
    に従って予めトレーニングすることで得られる
    請求項8に記載の装置。
  10. 前記特定手段は、
    前記頭部画像の大きさを特定するように配置された第一特定モジュールと、
    所定の頭部画像の大きさと距離との対応関係に基づいて、前記目標音源と前記目標ユーザの頭部との距離を特定するように配置された第二特定モジュールと、
    を備える請求項7に記載の装置。
  11. 予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号とのラウドネス差を初期ラウドネス差として取得するように配置された第二取得手段と、
    ラウドネス調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号とのラウドネス差と、前記初期ラウドネス差との差分値が第一所定範囲にあるように、前記処理後左チャンネルオーディオ信号と前記処理後右チャンネルオーディオ信号の強度をそれぞれ調整するように配置された第一調整手段と、
    をさらに備える
    請求項7から10のいずれか1項に記載の装置。
  12. 予め特定された、初期左チャンネルオーディオ信号と初期右チャンネルオーディオ信号との両耳間時差を初期両耳間時差として取得するように配置された第三取得手段と、
    両耳間時差調整後の処理後左チャンネルオーディオ信号と処理後右チャンネルオーディオ信号との両耳間時差と、前記初期両耳間時差との差分値が第二所定範囲にあるように、前記処理後左チャンネルオーディオ信号と前記処理後右チャンネルオーディオ信号との両耳間時差を調整するように配置された第二調整手段と、
    をさらに備える請求項11に記載の装置。
  13. 一つ又は複数のプロセッサと、
    一つ又は複数のプログラムが記憶された記憶装置と、を備え、
    前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合、前記一つ又は複数のプロセッサに請求項1から6のいずれか1項に記載の方法を実現させる端末設備。
  14. プロセッサによって実行されるときに、請求項1から6のいずれか1項に記載の方法を実現するコンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体。
  15. オーディオ信号の処理用のコンピュータプログラムであって、
    プロセッサによって実行されるときに、請求項1から6のいずれか1項に記載の方法を実現する
    コンピュータプログラム。
JP2020545268A 2018-10-12 2019-01-24 オーディオ信号の処理用の方法及び装置 Active JP7210602B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811190415.4A CN111050271B (zh) 2018-10-12 2018-10-12 用于处理音频信号的方法和装置
CN201811190415.4 2018-10-12
PCT/CN2019/072948 WO2020073563A1 (zh) 2018-10-12 2019-01-24 用于处理音频信号的方法和装置

Publications (2)

Publication Number Publication Date
JP2021535632A JP2021535632A (ja) 2021-12-16
JP7210602B2 true JP7210602B2 (ja) 2023-01-23

Family

ID=70164992

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020545268A Active JP7210602B2 (ja) 2018-10-12 2019-01-24 オーディオ信号の処理用の方法及び装置

Country Status (5)

Country Link
US (1) US11425524B2 (ja)
JP (1) JP7210602B2 (ja)
CN (1) CN111050271B (ja)
GB (1) GB2590256B (ja)
WO (1) WO2020073563A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200049020A (ko) * 2018-10-31 2020-05-08 삼성전자주식회사 음성 명령에 응답하여 컨텐츠를 표시하기 위한 방법 및 그 전자 장치
US20220191638A1 (en) * 2020-12-16 2022-06-16 Nvidia Corporation Visually tracked spatial audio
CN112637755A (zh) * 2020-12-22 2021-04-09 广州番禺巨大汽车音响设备有限公司 一种基于无线连接的音频播放控制方法、装置及播放***
CN113099373B (zh) * 2021-03-29 2022-09-23 腾讯音乐娱乐科技(深圳)有限公司 声场宽度扩展的方法、装置、终端及存储介质
CN118044231A (zh) * 2021-10-06 2024-05-14 索尼集团公司 信息处理装置和数据结构
CN114501297B (zh) * 2022-04-02 2022-09-02 北京荣耀终端有限公司 一种音频处理方法以及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004504684A (ja) 2000-07-24 2004-02-12 シーイング・マシーンズ・プロプライエタリー・リミテッド 顔画像処理システム
JP2014131140A (ja) 2012-12-28 2014-07-10 Yamaha Corp 通信システム、avレシーバ、および通信アダプタ装置
JP2015032844A (ja) 2013-07-31 2015-02-16 Kddi株式会社 音声伝達装置、音声伝達方法
WO2017119321A1 (ja) 2016-01-08 2017-07-13 ソニー株式会社 音声処理装置および方法、並びにプログラム
CN107168518A (zh) 2017-04-05 2017-09-15 北京小鸟看看科技有限公司 一种用于头戴显示器的同步方法、装置及头戴显示器

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030007648A1 (en) * 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
EP1424685A1 (en) * 2002-11-28 2004-06-02 Sony International (Europe) GmbH Method for generating speech data corpus
KR20130122516A (ko) * 2010-04-26 2013-11-07 캠브리지 메카트로닉스 리미티드 청취자의 위치를 추적하는 확성기
CN101938686B (zh) * 2010-06-24 2013-08-21 中国科学院声学研究所 一种普通环境中头相关传递函数的测量***及测量方法
KR101227932B1 (ko) 2011-01-14 2013-01-30 전자부품연구원 다채널 멀티트랙 오디오 시스템 및 오디오 처리 방법
CN104010265A (zh) * 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
EP3136713A4 (en) * 2014-04-22 2017-12-06 Sony Corporation Information reproduction device, information reproduction method, information recording device, and information recording method
CN104392241B (zh) * 2014-11-05 2017-10-17 电子科技大学 一种基于混合回归的头部姿态估计方法
JP2016199124A (ja) * 2015-04-09 2016-12-01 之彦 須崎 音場制御装置及び適用方法
WO2017120767A1 (zh) * 2016-01-12 2017-07-20 深圳多哚新技术有限责任公司 一种头部姿态预测方法和装置
CN105760824B (zh) * 2016-02-02 2019-02-01 北京进化者机器人科技有限公司 一种运动人体跟踪方法和***
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
CN107182011B (zh) * 2017-07-21 2024-04-05 深圳市泰衡诺科技有限公司上海分公司 音频播放方法及***、移动终端、WiFi耳机
CN108038474B (zh) * 2017-12-28 2020-04-14 深圳励飞科技有限公司 人脸检测方法、卷积神经网络参数的训练方法、装置及介质
WO2019246044A1 (en) * 2018-06-18 2019-12-26 Magic Leap, Inc. Head-mounted display systems with power saving functionality

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004504684A (ja) 2000-07-24 2004-02-12 シーイング・マシーンズ・プロプライエタリー・リミテッド 顔画像処理システム
JP2014131140A (ja) 2012-12-28 2014-07-10 Yamaha Corp 通信システム、avレシーバ、および通信アダプタ装置
JP2015032844A (ja) 2013-07-31 2015-02-16 Kddi株式会社 音声伝達装置、音声伝達方法
WO2017119321A1 (ja) 2016-01-08 2017-07-13 ソニー株式会社 音声処理装置および方法、並びにプログラム
CN107168518A (zh) 2017-04-05 2017-09-15 北京小鸟看看科技有限公司 一种用于头戴显示器的同步方法、装置及头戴显示器

Also Published As

Publication number Publication date
GB2590256A (en) 2021-06-23
JP2021535632A (ja) 2021-12-16
CN111050271A (zh) 2020-04-21
GB202100831D0 (en) 2021-03-10
WO2020073563A1 (zh) 2020-04-16
US20210029486A1 (en) 2021-01-28
CN111050271B (zh) 2021-01-29
US11425524B2 (en) 2022-08-23
GB2590256B (en) 2023-04-26

Similar Documents

Publication Publication Date Title
JP7210602B2 (ja) オーディオ信号の処理用の方法及び装置
US10820097B2 (en) Method, systems and apparatus for determining audio representation(s) of one or more audio sources
Schissler et al. Efficient HRTF-based spatial audio for area and volumetric sources
US10952009B2 (en) Audio parallax for virtual reality, augmented reality, and mixed reality
US11082791B2 (en) Head-related impulse responses for area sound sources located in the near field
US9131305B2 (en) Configurable three-dimensional sound system
WO2018196469A1 (zh) 声场的音频数据的处理方法及装置
WO2022105519A1 (zh) 音效调整方法、装置、设备、存储介质及计算机程序产品
US11109177B2 (en) Methods and systems for simulating acoustics of an extended reality world
CN111385728B (zh) 一种音频信号处理方法及装置
CN111696513A (zh) 音频信号处理方法及装置、电子设备、存储介质
CN114038486A (zh) 音频数据处理方法、装置、电子设备及计算机存储介质
Villegas Locating virtual sound sources at arbitrary distances in real-time binaural reproduction
WO2020155908A1 (zh) 用于生成信息的方法和装置
CN114339582B (zh) 双通道音频处理、方向感滤波器生成方法、装置以及介质
CN112927718B (zh) 感知周围环境的方法、装置、终端和存储介质
JP2018152834A (ja) 仮想聴覚環境において音声信号出力を制御する方法及び装置
WO2019174442A1 (zh) 拾音设备、声音输出方法、装置、存储介质及电子装置
Tashev Audio challenges in virtual and augmented reality devices
Mohan et al. Using computer vision to generate customized spatial audio
Duraiswami et al. Capturing and recreating auditory virtual reality
Reddy et al. On the development of a dynamic virtual reality system using audio and visual scenes
CN116825128A (zh) 音频处理方法及装置、计算机可读存储介质及电子设备
CN116421971A (zh) 空间音频信号的生成方法及装置、存储介质、电子设备
CN118317243A (zh) 一种通过头部追踪实现3d环绕音的实现方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220314

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230111

R150 Certificate of patent or registration of utility model

Ref document number: 7210602

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150