JP7473676B2 - オーディオ処理方法、装置、可読媒体及び電子機器 - Google Patents

オーディオ処理方法、装置、可読媒体及び電子機器 Download PDF

Info

Publication number
JP7473676B2
JP7473676B2 JP2022559616A JP2022559616A JP7473676B2 JP 7473676 B2 JP7473676 B2 JP 7473676B2 JP 2022559616 A JP2022559616 A JP 2022559616A JP 2022559616 A JP2022559616 A JP 2022559616A JP 7473676 B2 JP7473676 B2 JP 7473676B2
Authority
JP
Japan
Prior art keywords
relative position
sound
target object
dimensional
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022559616A
Other languages
English (en)
Other versions
JP2023519422A (ja
Inventor
シ,ジュンジエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2023519422A publication Critical patent/JP2023519422A/ja
Application granted granted Critical
Publication of JP7473676B2 publication Critical patent/JP7473676B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Stereophonic System (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、コンピュータ技術の分野に関し、具体的には、オーディオ処理方法、装置、可読媒体及び電子機器に関する。
AR(Augmented Reality、拡張現実)は、仮想と現実との結合を強調し、これは、ショートビデオアプリケーションの遊び方の新しい傾向として、ユーザに真実の世界とインタラクションさせることができ、例えば、特定の物体を撮影したときに、その物体に対応する特殊効果を表示することができる。現在のAR製品は、ユーザのために、仮想と現実との結合を視覚的に実現することができるが、音声付きの特殊効果である場合、ユーザは、環境及び音声を感知する際に、「ずれ感」を感じやすい。例えば、ある物体を識別するときに特定のオーディオを再生するように予め設定すると、ユーザが携帯電話でこの物体を撮影したときに、携帯電話は特定のオーディオを再生するが、ユーザが物体から徐々に離れるか又は近づいても、ユーザが聴く音声は変化しない。例えば、ユーザが物体から離れると、ユーザの常識的認知では聞ける音声が小さくなるべきであるが、実際には、ユーザは常に同じ大きさの音声を聴くことができ、これは、ユーザの認知と一致せず、ユーザに「ズレ感」を感じさせ、ユーザの体験に影響を与え、ユーザのARシーンにおける没入感を低下させる。
簡潔な形式で構想を紹介するためにこの発明内容の部分を提供し、これらの構想を後の具体的な実施形態の部分で詳細に説明する。当該発明内容の部分は、保護を主張する技術案の重要な特徴或いは必要な特徴を特定することを意図しておらず、保護を主張する技術案の範囲を限定するために使用されることも意図していない。
第1の態様によれば、本開示は、オーディオ処理方法を提供し、前記方法は、
端末によってキャプチャされた生画像を取得するステップと、
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定するステップと、
前記第1の3次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるステップとを含む。
第2の態様によれば、本開示は、オーディオ処理装置を提供し、前記装置は、
端末によってキャプチャされた生画像を取得するための第1の取得モジュールと、
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定するための第1の決定モジュールと、
前記第1の3次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるためのオーディオ処理モジュールとを含む。
第3の態様によれば、本開示は、コンピュータプログラムが記憶されているコンピュータ可読媒体を提供し、当該プログラムが処理装置によって実行されると、本開示の第1の態様に記載の方法のステップが実施される。
第4の態様によれば、本開示は、電子機器を提供し、前記電子機器は、
コンピュータプログラムが記憶されている記憶装置と、
本開示の第1の態様に記載の方法のステップが実施されるように、前記記憶装置における前記コンピュータプログラムを実行するための処理装置と、を含む。
第5の態様によれば、本開示は、コンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムが処理装置によって実行されると、本開示の第1の態様に記載の方法のステップが実施される。
第6の態様によれば、本開示は、コンピュータプログラムを提供し、前記コンピュータプログラムが処理装置によって実行されると、本開示の第1の態様に記載の方法のステップが実施される。
上記の技術案により、端末によってキャプチャされた生画像を取得し、当該生画像に基づいて、ターゲットオブジェクトの端末に対する3次元相対位置を第1の3次元相対位置として決定し、第1の3次元相対位置に応じて、ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第1の3次元相対位置を、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させる。ここで、ターゲット音声は、効果音オブジェクトに対応する効果音音声である。これにより、ターゲットオブジェクトの端末に対する3次元相対位置に基づいてターゲット音声に対して3次元効果処理を行い、ユーザが聞いて、得られたオーディオが、端末が位置するリアルタイム位置により合致する。そして、この方式を基に、端末が画像をキャプチャし続ける過程で、端末のリアルタイム位置に合致する3次元効果付きのオーディオを生成し続け、且つ、端末位置の変化に応じて適応的に変化させることができ、端末を持ったユーザは、現在の移動傾向に合致する、空間感を有するオーディオを聴くことができ、ユーザの仮想シーンにおける没入感の体験を向上さる。
本開示の他の特徴と利点は、後の具体的な実施形態の部分で詳細に説明される。
本開示の各実施例の上記及び他の特徴、利点及び態様は、図面と併せ、以下の具体的な実施形態を参照することにより、より明らかになる。図面全体を通して、同じ又は類似の参照番号は同じ又は類似の要素を表す。図面は概略的なものであり、素子及び要素は必ずしも縮尺通りに描かれていないことを理解されたい。
本開示の一実施形態によるオーディオ処理方法のフローチャートである。 本開示によるオーディオ処理方法において、生画像に基づいてターゲットオブジェクトの端末に対する3次元相対位置を決定するステップの例示的なフローチャートである。 本開示の一実施形態によるオーディオ処理装置のブロック図である。 本開示の実施例の実現に適する電子機器の構造を示した概略図である。
以下、図面を参照しながら本開示の実施例をより詳細に説明する。本開示の一部の実施例を図面に示したが、本開示は、様々な形態で実現されることができ、本明細書に記載の実施例に限定されると解釈されるべきではなく、むしろ、これらの実施例は、本開示をより徹底的で完全に理解するために提供されることを理解されたい。本開示の図面及び実施例は、例示的な作用のために用いられるだけで、本開示の保護範囲を限定することを意図するものではないことを理解されたい。
本開示の方法の実施形態に記載の各ステップは、異なる順序にしたがって実行される、及び/又は並行で実行されることを理解されたい。また、方法の実施形態は、付加的なステップを含む、及び/又示されたステップの実行を省略することができる。本開示の範囲は、この点に関しては限定されない。
本明細書に使用される用語「含む」及びその変形は、広義であり、即ち「含むが、これに限定されない」ということである。用語「に基づいて」は、「少なくとも部分的に…に基づいて」ということである。用語「一実施例」は、「少なくとも1つの実施例」を示し、用語「別の実施例」は、「少なくとも1つの別の実施例」を示し、用語「一部の実施例」は、「少なくとも一部の実施例」を示す。他の用語に関連する定義は、以下の記述で説明される。
なお、本開示に言及された「第1」、「第2」などの概念は、異なる装置、モジュール又はユニットを区別するためにしか使用されず、これらの装置、モジュール又はユニットによって実行される機能の順序又は相互依存関係を限定するために使用されるものではない。
なお、本開示に言及された「1つ」、「複数」という修飾は、限定ではなく例示であり、当業者は、コンテキストに特に明記しない限り、「1つ又は複数」と理解すべできあることを理解すべきである。
本開示の実施形態における複数の装置の間でインタラクションされるメッセージ又は情報の名称は、説明の目的のみに使用され、これらのメッセージ又は情報の範囲を限定するために使用されるものではない。
図1は、本開示の一実施形態によるオーディオ処理方法のフローチャートである。図1に示すように、当該方法は、ステップ11~ステップ13を含み得る。
ステップ11において、端末によってキャプチャされた生画像を取得する。
端末は、撮影機能を有する装置(例えば、端末に設置されたカメラ)で画像のキャプチャを実現することができる。例示的に、ユーザが端末の撮影系プログラムを開くと、画面に表示されるファインダフレーム(例えば、ARファインダフレーム)は、ファインダフレーム内の内容をキャプチャし続け、つまり、画像キャプチャを行い続ける。具体的なキャプチャ方法は、例えば、ファインダフレームが開かれた後に、周期的にキャプチャし(周期は経験値に応じて予め設定できる)、キャプチャ時刻になるたびに、現在のファインダフレーム内の内容を自動的にキャプチャすることができる。実際の応用シーンにおいて、端末のファインダフレームを開くと、ファインダフレームが開かれてから、当該ファインダフレームが今回閉じられるまでの過程で、キャプチャを何回も行う可能性があり、毎回、該当する画像をキャプチャすることができ、キャプチャされた各画像は、いずれも生画像とされることができる。
ステップ12において、生画像に基づいて、ターゲットオブジェクトの端末に対する3次元相対位置を第1の3次元相対位置として決定する。
生画像により、ターゲットオブジェクトの端末に対する3次元相対位置を決定することができる。ここで、ターゲットオブジェクトは、生画像に存在するオブジェクトであっても、又は、ターゲットオブジェクトは、生画像に存在しないオブジェクトであってもよい(端末が同じ撮影過程において、生画像を撮影する前の履歴撮影でターゲットオブジェクトが撮影されたことがあるが、端末の撮影移動中に、ターゲットオブジェクトが生画像で一時的に「画像を出る」だけであることを前提とする)。
本開示による適用シーンでは、ターゲットオブジェクトに対応する効果音オブジェクトがあり、効果音オブジェクトに対応する効果音音声があり(ターゲットオブジェクト、効果音オブジェクト、効果音が互いにどのように対応するかは、予め設定することができる)、効果的には、ターゲットオブジェクトが存在することを決定すると、ターゲットオブジェクトに対応する効果音オブジェクトの効果音音声を放送し、且つ、ユーザが聞いて、発声する音源位置(即ち、効果音音声の位置)がユーザの認知を満たすべきである。
ここで、効果音オブジェクトは、ターゲットオブジェクトと同じ位置にあってもよく、異なる位置(例えば、ターゲットオブジェクトの周辺)にあってもよい。例えば、建物Aが識別されたときに、飛行機の飛行音を再生し、飛行機が建物Aの左側から建物Aの右側に飛行するように設定すると、ターゲットオブジェクトは、建物Aであり、効果音オブジェクトは、飛行機であり、効果音音声は、飛行機の飛行音であり、これから分かるように、この例で、効果音オブジェクトはターゲットオブジェクトと同じ位置にあるのではなく、効果音オブジェクトがターゲットオブジェクトの左側からターゲットオブジェクトの右側に移動する。また、例えば、建物Bが識別されたときに、建物Bの紹介音声を再生するように設定すると、ターゲットオブジェクトは、建物Bであり、効果音オブジェクトは、建物Bであり、効果音音声は、建物Bの紹介音声であり、これから分かるように、この例で、効果音オブジェクトはターゲットオブジェクトと同じ位置にある。
実際のシーンにおいて、ターゲットオブジェクトが存在する(例えば、ターゲットオブジェクトが画面にあるか、又は、ターゲットオブジェクトが一時的に「画像を出る」)と決定すると、音声を再生する必要があり、本案の目的は、再生効果が変わらないオーディオをより空間感を有するオーディオに処理することであり、空間感を生み出すのに欠かせないのが空間位置であるが、空間感を生み出すために必要な空間位置とは、当然、ターゲットオブジェクトの端末に対する3次元相対位置であり、すなわち、第1の3次元相対位置である。
1つの可能な実施形態では、ステップ12は、ステップ21~ステップ23を含み得、図2に示す通りである。
ステップ21において、生画像から特徴を抽出して、生画像における第1のアンカー情報を取得する。
第1のアンカー情報は、生画像から特徴を抽出した後、識別された生画像における少なくとも1つのアンカー(即ち、特徴点)を含んでもよい。ここで、特徴を抽出する方法は、本分野の一般的な手段であり、ここでは詳細な説明を省略する。
ステップ22において、予め記憶された、ターゲットオブジェクトに対応する参照アンカー情報に基づいて、第1のアンカー情報が参照アンカー情報に一致できるか否かを判断する。
実際の適用シーンにおいて、画像にターゲットオブジェクトが存在する場合、ターゲットオブジェクトに対応する特殊効果、音声などを呈することができる。例えば、ターゲットオブジェクトが鐘楼であり、且つ画像に鐘楼が存在する場合、時計アニメーションを表示するとともに、鐘の音を再生するように設定すると、生画像に鐘楼が含まれている場合、時計を鐘楼に付着するとともに、鐘の音を再生すべきである。
ターゲットオブジェクトは、モデル化されたオブジェクトであり、データ処理の前期には、まず、ターゲットオブジェクトを含む一連の画像から特徴を抽出し、ターゲットオブジェクトの参照アンカー情報を決定して記憶し、ここで、ターゲットオブジェクトの参照アンカー情報には、ターゲットオブジェクトの識別を補助できる少なくとも1つのアンカーが含まれる。例えば、ターゲットオブジェクトがデスクである場合、まず、デスクを含む画像を大量収集し、それから、収集された画像に基づいて、各画像から特徴を抽出して、デスクを特徴づけることができる特徴点を得ることにより、デスクに対応する参照アンカー情報を決定し、デスクというオブジェクトに関連付けて記憶する。実際のアプリケーションにおいて、アンカー情報ベースを構築することができ、ここで、モデル化されたすべてのオブジェクトに対応する参照アンカー情報を記憶することにより、生画像にターゲットオブジェクトが存在するか否か、及びどのターゲットオブジェクトが存在するかをより迅速に決定することができる。
上述したように、ターゲットオブジェクトの参照アンカー情報は、ターゲットオブジェクトの識別をより良く補助することができる。したがって、第1のアンカー情報と参照アンカー情報とを比較することにより、ターゲットオブジェクトに類似するオブジェクトが生画像に存在するか否かを判断することにより、生画像にターゲットオブジェクトが存在するか否かを決定することができる。具体的には、第1のアンカー情報が参照アンカー情報と一致するか否かを判断することができる。例示的に、第1のアンカー情報と参照アンカー情報との類似度を計算することができ、両者の類似度が類似度閾値よりも高い場合(経験値に応じて設定可能)、両者が一致すると判定し、それに対し、両者の類似度が類似度閾値に達していない場合、両者が一致していないと判定する。第1のアンカー情報と参照アンカー情報との類似度を計算するには、余弦類似度などの従来の計算方法を採用することができ、ここでは詳細な説明を省略する。
ステップ23において、第1のアンカー情報が参照アンカー情報に一致すると決定した場合、第1のアンカー情報に基づいて、ターゲットオブジェクトの端末に対する3次元相対位置を第1の3次元相対位置として決定する。
ステップ22において、第1のアンカー情報が参照アンカー情報と一致すると決定した場合、生画像に、予め記憶されているオブジェクトの1つであるターゲットオブジェクトが存在することを説明する。したがって、生画像の第1のアンカー情報に基づいて、ターゲットオブジェクトの端末に対する3次元相対位置、すなわち第1の3次元相対位置を直接決定することができる。ここで、画像及び画像のある点(又は、複数の点)に基づいて当該点の撮影画像端末に対する3次元相対位置を決定することは、当分野の一般的な手段であり、ここでは詳細な説明を省略する。例えば、iOSシステムに対して、ARツールボックス(ARKit)、ARコア(ARCore)のようなインターフェースを用いて上記のデータ処理を完了することができる。
別の可能な実施形態において、ステップ12は、
ユーザの生画像に対するアンカーマーク操作によって生成された第2のアンカー情報を取得した場合、第2のアンカー情報に基づいてターゲットオブジェクトの端末に対する3次元相対位置を第1の3次元相対位置として決定するステップを含み得る。
ここで、第2のアンカー情報には、ユーザの生画像に対するアンカーマーク操作によって生成された少なくとも1つのアンカーが含まれ得る。この実施形態において、ユーザは、ビューフレーム内でアンカーマーク操作を手動で行うことができ、つまり、生画像に対して複雑な画像分析を行う必要がないが、ユーザのアンカーマーク操作によって生成された第2のアンカー情報に基づいて、生画像における第2のアンカー情報に対応するターゲットオブジェクトを決定することができる。例示的に、第2のアンカー情報に基づいて生画像から範囲を絞り、その範囲に含まれる内容がターゲットオブジェクトであると考えられることができる。後続の画像キャプチャにおいて、ターゲットオブジェクトに対する位置決めは、いずれもこれを基にすることができ、例を挙げると、ユーザがアンカーを生画像の中央にマークした場合、現在決定されているターゲットオブジェクトは、生画像の中央に対応する内容であり、後続のキャプチャ時刻で、端末が移動する場合、例えば、端末が左上に移動する場合、ターゲットオブジェクトの位置は、そのまま中心にあるのではなく、右下に移動する。
第2のアンカー情報に基づいて第1の3次元相対位置を決定することは、ステップ23と同様である。すなわち、生画像の第2のアンカー情報に基づいてターゲットオブジェクトの端末に対する3次元相対位置を第1の3次元相対位置として直接決定する。ここで、上述したように、画像及び画像のある点(又は、複数の点)に基づいて当該点の撮影画像端末に対する3次元相対位置を決定することは、当分野の一般的な手段であり、例えば、iOSシステムに対して、ARKit、ARCoreのようなインターフェースを用いて上記のデータ処理を完了することができる。
上記の方式を採用して、ユーザは、ターゲットオブジェクトを直接位置決めすることができ、画像に対して複雑な分析計算を行う必要がなく、データ処理量を効果的に減らすことができ、且つ、ユーザに提供する柔軟性はより高く、ユーザ体験を向上させた。
別の可能な実施形態において、ステップ12は、
生画像にターゲットオブジェクトが存在しない場合、ターゲットオブジェクトに対応する履歴運動軌跡情報を取得するステップと、
履歴運動軌跡情報に基づいて、ターゲットオブジェクトの端末に対する3次元相対位置を第1の3次元相対位置として決定するステップと、を含む。
上述したように、端末移動撮影中に、端末の移動によってターゲットオブジェクトが一時的に「画像を出る」可能性があり、この場合、ターゲットオブジェクトが生画像に存在しないが、依然として、ターゲットオブジェクトの端末に対する3次元相対位置を得ることができる。
生画像にターゲットオブジェクトが存在しない場合、ターゲットオブジェクトが一時的に端末撮影ファインダフレームの外に移動した可能性があることを説明するため、ターゲットオブジェクトに対応する履歴運動軌跡情報を取得することができる。ここで、履歴運動軌跡情報は、端末が生画像を取得する前にキャプチャした画像に対して運動追跡を行うことにより得られるものである。
履歴運動軌跡情報により、端末が生画像をキャプチャしたときに、ターゲットオブジェクトと端末との相対位置を推定することができる。例えば、ターゲットオブジェクトの履歴運動軌跡情報により、ターゲットオブジェクトの運動方向及び運動速度を決定することができ、それにより、生画像を取得する前のターゲットオブジェクトが存在する最後のフレームの画像におけるターゲットオブジェクトの位置を始点として、履歴運動軌跡におけるターゲットオブジェクトの運動方向、運動速度及びターゲットオブジェクトが存在する最後のフレームの画像と生画像との撮影時間差に基づいて、ターゲットオブジェクトの端末に対する3次元相対位置を第1の3次元相対位置として決定することができる。
上記方式を採用し、端末がターゲットオブジェクトを撮影しなかった場合、履歴によるターゲットオブジェクトの運動追跡により、ターゲットオブジェクトの端末に対する3次元相対位置を決定することもでき、端末の移動がターゲットオブジェクトの位置決定に影響を与えることを回避することができる。
図1に戻ると、ステップ13において、第1の3次元相対位置に応じて、ターゲット音声に対して3次元効果処理を行う。
第1の3次元相対位置に応じて、ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第1の3次元相対位置を、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させる。
ここで、ターゲット音声とは、効果音オブジェクトに対応する効果音音声である。
1つの可能な実施形態では、ステップ13は、
第1の3次元相対位置、及びターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に基づいて、ターゲット音声の音源位置の端末に対する3次元相対位置を第2の3次元相対位置として決定するステップと、
第2の3次元相対位置に基づいて、ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第1の3次元相対位置を、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップと、を含み得る。
ターゲットオブジェクトに対応する効果音オブジェクトは、1つであっても、複数であってもよく、ターゲットオブジェクトに対応する効果音オブジェクトが複数である場合、各効果音オブジェクトは、それぞれターゲットオブジェクトとの位置関係を有する。
第1の3次元相対位置、及びターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に基づいて、ターゲットオブジェクトの端末に対する3次元相対位置、ターゲットオブジェクトの効果音オブジェクトの音源(即ち、ターゲット音声の音源位置)に対する3次元相対位置は、いずれも既知であり、それにより、端末の効果音オブジェクトの音源(即ち、ターゲット音声の音源位置)に対する3次元相対位置、即ち、第2の3次元相対位置を決定しやすい。その後、第2の3次元相対位置に基づいて、ターゲット音声に対して3次元効果処理を行うと、3次元効果処理後のオーディオを取得することができ、且つ、3次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第1の3次元相対位置が、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致する。
ここで、ターゲット音声に対する3次元効果処理として、3D音声レンダリングを使用することができ、例示的に、3D音声レンダリングとして、サラウンド(ambisonic)技術を使用することができ、それは、当分野の一般的な手段であり、オーディオと位置情報に基づいて、空間におけるオーディオの音像位置をシミュレーションし、さらに両耳に対応する再生信号を生成することができる。
別の可能な実施形態において、本開示による方法は、さらに、
ターゲット音声の付加説明情報を取得するステップを含み得る。
ここで、付加説明情報は、ターゲット音声の音源発声面積と、ターゲット音声の音源残響効果と、ターゲット音声の音源環境とのうちの少なくとも1つを含むが、これらに限定されない。
ターゲット音声の音源発音面積、オーディオボリュームの大きさに影響を与えることができる。例えば、音源発音面積が小さいとボリュームが小さくなり、携帯電話などの小さな物体を参照してもよい。また、例えば、音源発生面積が大きいとボリュームが大きくなり、建物などの大きな物体を参照してもよい。ターゲット音声の音源残響効果、オーディオの残響効果、つまり残響効果の有無に影響を与えることができる。ターゲット音声の音源環境、オーディオの環境効果に影響を与えることができ、例えば、ターゲット音声の音源が室内にあるか、又は、屋外にある。
この実施形態では、第2の3次元相対位置に基づいて、ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第1の3次元相対位置を、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップは、
第2の3次元相対位置及び付加説明情報に基づいて、ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第1の3次元相対位置を、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップを含み得る。
この実施形態では、実際には、さまざまな音声処理方式、例えば、3D音声レンダリング、残響効果、ボリューム調節、室内外効果などを組み合わせて、処理されたオーディオを取得することができる。例示的に、ターゲット音声の付加説明情報が、ターゲット音声の音源発声面積が小さいということである場合、ターゲット音声に対して3次元処理を行う際に、ターゲット音源のオーディオに対して3D音声レンダリングを行うと同時に、ターゲット音源のオーディオのボリュームを小さくする。
上記技術案により、端末によってキャプチャされた生画像を取得し、当該生画像に基づいて、ターゲットオブジェクトの端末に対する3次元相対位置を第1の3次元相対位置として決定し、第1の3次元相対位置に応じて、ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第1の3次元相対位置を、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させる。ここで、ターゲット音声は、効果音オブジェクトに対応する効果音音声である。これにより、ターゲットオブジェクトの端末に対する3次元相対位置に基づいてターゲット音声に対して3次元効果処理を行うことができ、ユーザが聞いて、得られたオーディオが、端末が位置するリアルタイム位置により合致する。そして、この方式を基に、端末が画像をキャプチャし続ける過程で、端末のリアルタイム位置に合致する3次元効果付きのオーディオを生成し続け、且つ、端末位置の変化に応じて適応的に変化させることができ、端末を持ったユーザは、現在の移動傾向に合致する、空間感を有するオーディオを聴くことができ、ユーザの仮想シーンにおける没入感の体験を向上さる。
一実施例において、上記の各実施例に加え、本開示による方法は、
ターゲットオブジェクトに対応する画像素材を生画像の第1の3次元相対位置にオーバーレイして、生画像に対応するAR画像を生成するステップと、
AR画像を表示するステップと、を含む。
この実施例は、AR画像の特殊効果に関するシーンについて説明した。各ターゲットオブジェクトは、いずれも画像素材に対応することができ、例えば、建物は、建物の外側に付着することができる内容に対応し、当該内容は、建物に対応する画像素材である。したがって、オーディオを処理した上で、ユーザの視覚的な没入感体験を確保するために、ターゲットオブジェクトに対応する画像素材を生画像の第1の3次元相対位置にオーバーレイして、生画像に対応するAR画像を生成し、当該AR画像を表示して(生画像を表示しない)、ユーザの視覚的な体験を向上させることもできる。
さらに、生成されたAR画像を端末で表示し、ターゲット音声に3次元効果処理を行って得たオーディオを端末で再生することができる。例示的に、端末は、ユーザがビューを取る過程にキャプチャされた生画像に対応するAR画像をリアルタイムで表示し、3次元効果処理後に得られたオーディオをリアルタイムで再生することができる。また、例えば、端末は、キャプチャ済みの各画像に基づいて、本開示によるオーディオ処理方法をそれぞれ実行して、各画像に対応するAR画像及び各画像に対応する3次元効果処理で得られるオーディオを得て、ビデオに合成して記憶することにより、ユーザが後で見ることが容易になる(この機能は、ユーザによってトリガされるように設定することができる)。
一実施例において、本開示による方法は、音声処理により、仮想シーンにおけるユーザの没入感を向上させるが、ユーザが持っている端末が空間感を有するオーディオをユーザに提供できない場合、端末に必要のないデータのインタラクションを回避するために、オーディオを再生する必要がない。そのため、本開示による方法は、さらに、
端末がサラウンド再生条件に適合するか否かを決定するステップと、
端末がサラウンド再生条件に適合すると決定した場合、3次元効果処理後に得られたオーディオを再生するステップと、を含み得る。
例示的に、端末がサラウンド再生条件に適合するか否かを判断するには、端末にデュアルチャネルヘッドホンが挿入されているか否かを識別することで決定することができる。端末にデュアルチャネルイヤホンが挿入されていると、端末がサラウンド再生条件に適合していると決定することができる。
上記方式を採用することで、本開示による空間感を有するオーディオの再生は、端末がサラウンド再生条件を提供できる前提で行われていることを確保でき、端末に必要のないデータのインタラクションを回避する。
図3は、本開示の一実施形態によるオーディオ処理装置のブロック図である。図3に示すように、装置30は、
端末によってキャプチャされた生画像を取得するための第1の取得モジュール31と、
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定するための第1の決定モジュール32と、
前記第1の3次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるためのオーディオ処理モジュール33とを含む。
一実施例において、前記第1の決定モジュール32は、
前記生画像から特徴を抽出して、前記生画像における第1のアンカー情報を取得するための第1の取得サブモジュールと、
予め記憶されている、前記ターゲットオブジェクトに対応する参照アンカー情報に基づいて、前記第1のアンカー情報が前記参照アンカー情報に一致するか否かを判断するための判断サブモジュールと、
前記第1のアンカー情報が前記参照アンカー情報に一致すると決定した場合、前記第1のアンカー情報に基づいて、前記ターゲットオブジェクトの前記端末に対する3次元相対位置を前記第1の3次元相対位置として決定するための第1の決定サブモジュールとを含む。
一実施例において、前記第1の決定モジュール32は、
ユーザの前記生画像に対するアンカーマーク操作によって生成された第2のアンカー情報を取得した場合、前記第2のアンカー情報に基づいて前記ターゲットオブジェクトの前記端末に対する3次元相対位置を前記第1の3次元相対位置として決定するための第2の決定サブモジュールを含む。
一実施例において、前記第1の決定モジュール32は、
前記生画像に前記ターゲットオブジェクトが存在しない場合、前記ターゲットオブジェクトに対応する履歴運動軌跡情報を取得するために用いられ、前記履歴運動軌跡情報は、前記端末が前記生画像の前にキャプチャした画像に対して運動追跡を行うことにより得られるものである第2の取得サブモジュールと、
前記履歴運動軌跡情報に基づいて、前記ターゲットオブジェクトの前記端末に対する3次元相対位置を前記第1の3次元相対位置として決定するための第3の決定サブモジュールとを含む。
一実施例において、前記オーディオ処理モジュール33は、
前記第1の3次元相対位置、及び前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に基づいて、前記ターゲット音声の音源位置の前記端末に対する3次元相対位置を第2の3次元相対位置として決定するための第4の決定サブモジュールと、
前記第2の3次元相対位置に基づいて、前記ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるためのオーディオ処理サブモジュールと、を含む。
一実施例において、前記装置30は、さらに、
ターゲット音声の音源発声面積と、ターゲット音声の音源残響効果と、ターゲット音声の音源環境とのうちの少なくとも1つを含むターゲット音声の付加説明情報を取得するための第2の取得モジュールを含み、
前記オーディオ処理サブモジュールは、前記第2の3次元相対位置及び前記付加説明情報に基づいて、前記ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られた前記オーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるために用いられる。
一実施例において、前記装置30は、さらに、
前記ターゲットオブジェクトに対応する画像素材を前記生画像の前記第1の3次元相対位置にオーバーレイして、前記生画像に対応するAR画像を生成するための画像処理モジュールと、
前記AR画像を表示するための画像表示モジュールと、を含む。
一実施例において、前記装置30は、さらに、
前記端末がサラウンド再生条件に適合するか否かを決定するための第2の決定モジュールと、
前記端末が前記サラウンド再生条件に適合すると決定した場合、前記3次元効果処理後に得られた前記オーディオを再生するためのオーディオ再生モジュールとを含む。
上記の実施例における装置の各モジュールが動作を実行する具体的な方式は、関連する方法の実施例において詳細に説明されており、ここでは詳細な説明を省略する。
以下、図4を参照し、図4は、本開示の実施例を実現するのに適する電子機器600の概略構造図を示した。本開示の実施例における端末機器は、携帯電話、ノートパソコン、デジタル放送受信機、パーソナルデジタルアシスタント(Personal Digital Assistant、PDA)、タブレット(Portable Android Device、PAD)、ポータブルマルチメディアプレーヤー(Portable Multimedia Player、PMP)、車載端末(例えば車載ナビゲーション端末)などのモバイル端末、及び、デジタルテレビTV、デスクトップコンピュータなどの固定端末を含み得るが、これらに限定されない。図4に示す電子機器は、一例にすぎず、本開示の実施例の機能及び使用範囲にいかなる制限を与えるべきではない。
図4に示すように、電子機器600は、処理装置(例えば、中央プロセッサ、グラフィックスプロセッサなど)601を含み得、読み取り専用メモリ(Read-Only Memory、ROM)602に記憶されているプログラム又は装置608からランダムアクセスメモリ(Random Access Memory、RAM)603にロードされるプログラムに応じて、様々な適切な動作及び処理を実行することができる。RAM603には、さらに、電子機器600の操作に必要な様々なプログラム及びデータが記憶されている。処理装置601、ROM602及びRAM603はバス604を介して互いに接続されている。入力/出力(Input/Output、I/O)インターフェース605もバス604に接続されている。
通常、例えばタッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、ジャイロスコープなどを含む入力装置606と、例えば液晶ディスプレイ(Liquid Crystal Display、LCD)、スピーカー、バイブレータなどを含む出力装置607と、例えば、磁気テープ、ハードディスクなどを含む記憶装置608と、通信装置609とは、I/Oインターフェース605に接続されることができる。通信装置609は、電子機器600が他の機器と無線又は有線で通信してデータを交換することを可能にすることができる。図4に様々な装置を有する電子機器600を示したが、示された全ての装置を実施するか又は備える必要がないことを理解されたい。これに代えて、よりも多く又は少ない装置を実施するか又は備えてもよい。
特に、本開示の実施例によれば、以上でフローチャートを参照して説明したプロセスは、コンピュータソフトウェアプログラムとして実装され得る。例えば、本開示の実施例は、非一時的なコンピュータ可読媒体に担持されているコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信装置609によってネットワークからダウンロードされてインストールされてもよいし、記憶装置608からインストールされてもよいし、ROM602からインストールされてもよい。当該コンピュータプログラムが処理装置601によって実行されると、本開示の実施例の方法に限定される上記の機能が実行される。
なお、本開示の上記のコンピュータ可読媒体は、コンピュータ可読信号媒体であっても、コンピュータ可読記憶媒体であっても、上記の両者の任意の組合せであってもよい。コンピュータ可読記憶媒体例えば、電気、磁気、光、電磁気、赤外線、もしくは半導体のシステム、装置もしくはデバイス、又は以上の任意の組合せであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1つ又は複数のワイヤを有する電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(Erasable Programmable ROM、EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(Compact Disc ROM、CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組合せを含み得るが、これらに限定されない。本開示において、コンピュータ可読記憶媒体は、プログラムを含むか又は記憶する任意の有形媒体であり得、当該プログラムは、命令実行システム、装置又はデバイスによって、又はそれらと組み合わせて使用することができる。本開示において、コンピュータ可読信号媒体は、ベースバンドを伝播されるか、又は搬送波の一部として伝播されるデータ信号を含み、データ信号は、コンピュータ可読なプログラムコードを担持する。このような伝播されるデータ信号は、複数の形態を採用することができ、電磁気信号、光信号又は上記の任意の適切な組合せを含むが、これらに限定されない。コンピュータ可読信号媒体は、さらに、コンピュータ可読記憶媒体以外のいずれのコンピュータ可読媒体であってもよく、当該コンピュータ可読信号媒体は、命令実行システム、装置又はデバイスによって、又はそれらと組み合わせて使用するためのプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれているプログラムコードをいずれの適切な媒体で伝送することができ、前記媒体は、電線、光ケーブル、無線周波数(Radio Frequency、RF)など、又は上記の任意の適切な組合せを含むが、これらに限定されない。
一部の実施形態において、クライアントやサーバは、ハイパーテキスト転送プロトコル(HyperText Transfer Protocol、HTTP)などのいずれの現在知られているか又は将来研究開発されるネットワークプロトコルを利用して通信することができ、かつ、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)と相互することができる。通信ネットワークの例示には、ローカルエリアネットワーク(Local Area Network、「LAN」)、ワイドエリアネットワーク(Wide Area Network、「WAN」)、ネットワーク間のネットワーク(例えば、インターネット)、エンドツーエンドネットワーク(例えば、ad hoc(ADaptive Heuristic for Opponent Classification,ad hoc)エンドツーエンドネットワーク)、及び、いずれの現在知られているか又は将来研究開発されるネットワークを含む。
上記のコンピュータ可読媒体は、上記の電子機器に含まれるものであってもよいし、当該電子機器に組み込まれず、単独で存在するものであってもよい。
上記のコンピュータ可読媒体には、1つ又は複数のプログラムが担持されており、上記の1つ又は複数のプログラムがこの電子機器によって実行されると、当該電子機器に、端末によってキャプチャされた生画像を取得するステップと、前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定するステップと、前記第1の3次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるステップと、を実行させる。
1つ又は複数のプログラミング言語又はそれらの組合せで本開示の操作を実行するためのコンピュータプログラムコードを作成することができ、上記のプログラミング言語は、Java、Smalltalk、C++などのオブジェクト指向のプログラミング言語を含むが、これらに限定されず、さらに、「C」言語又は類似しているプログラミング言語などの一般的なプロシージャプログラミング言語を含む。プログラムコードは、完全にユーザコンピュータ上で実行されても、部分的にユーザコンピュータ上で実行されても、1つのソフトウェアパケットとして実行されても、一部がユーザコンピュータ上で一部がリモートコンピュータ上で実行されても、完全にリモートコンピュータ又はサーバで実行されてもよい。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザコンピュータに接続することができるか、又は、外部のコンピュータに接続することができる(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続することができる)。
図面におけるフローチャート及びブロック図は、本開示の様々な実施例のシステム、方法及びコンピュータプログラム製品に従って実現可能な体系アーキテクチャ、機能と操作を示した。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント、又はコードの一部を代表することができ、当該モジュール、プログラムセグメント、又はコードの一部はプリセットの論理機能を実現するための1つ又は複数の実行可能命令を含む。置き換えとする一部の実装において、ブロックに注記される機能が図面に注記された順序と異なる順序で発生されることができると留意すべきである。例えば、2つの連続して表示されたブロックは、実際には基本的に並列に実行されてもよく、それらは、関係のある機能に応じて逆の順序で実行される場合もある。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組合せは、プリセットの機能又は操作を実行するために専用の、ハードウェアに基づくシステムで実装できるか、又は、専用のハードウェアとコンピュータ命令との組合せで実装できることに留意されたい。
本開示の実施例の説明に係るモジュールは、ソフトウェアの方式で実装されても、ハードウェアの方式で実装されてもよい。ここで、モジュールの名称は、ある場合には、当該モジュール自体を限定するものではなく、例えば、第1の取得モジュールは、さらに「端末によってキャプチャされた生画像を受信するモジュール」と説明されてもよい。
本明細書において上述した機能は、少なくとも一部が、1つ又は複数のハードウェア論理部品によって実行されてもよい。例えば、限定ではなく、使用可能な例示的なハードウェア論理部品は、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、特定用途向け標準製品(Application Specific Standard Parts、ASSP)、システムオンチップ(System on Chip、SOC)、複雑プログラマブル論理デバイス(Complex Programmable Logic Device、CPLD)などを含む。
本開示のコンテキストでは、機器可読媒体は、有形の媒体であってもよく、それは、命令実行システム、装置又は機器の使用に提供するか、又は、命令実行システム、装置又は機器と結合して使用するためのプログラムを含むか又は記憶することができる。機器可読媒体は、機器可読信号媒体であっても、機器可読記憶媒体であってもよい。機器可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組合せを含んでもよいが、これらに限定されない。機器可読記憶媒体のより具体的な例は、1つ又は複数の線に基づく電気接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶機器、磁気記憶機器、又は上記内容の任意の適切な組合せを含む。
本開示の1つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記方法は、
端末によってキャプチャされた生画像を取得するステップと、
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定するステップと、
前記第1の3次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるステップと、を含む。
本開示の1つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定する前記ステップは、
前記生画像から特徴を抽出して、前記生画像における第1のアンカー情報を取得するステップと、
予め記憶されている、前記ターゲットオブジェクトに対応する参照アンカー情報に基づいて、前記第1のアンカー情報が前記参照アンカー情報に一致するか否かを判断するステップと、
前記第1のアンカー情報が前記参照アンカー情報に一致すると決定した場合、前記第1のアンカー情報に基づいて、前記ターゲットオブジェクトの前記端末に対する3次元相対位置を前記第1の3次元相対位置として決定するステップとを含む。
本開示の1つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定する前記ステップは、
ユーザの前記生画像に対するアンカーマーク操作によって生成された第2のアンカー情報を取得した場合、前記第2のアンカー情報に基づいて前記ターゲットオブジェクトの前記端末に対する3次元相対位置を前記第1の3次元相対位置として決定するステップを含む。
本開示の1つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定する前記ステップは、
前記生画像に前記ターゲットオブジェクトが存在しない場合、前記ターゲットオブジェクトに対応する履歴運動軌跡情報を取得し、前記履歴運動軌跡情報は、前記端末が前記生画像を取得する前にキャプチャした画像に対して運動追跡を行うことにより得られるものであるステップと、
前記履歴運動軌跡情報に基づいて、前記ターゲットオブジェクトの前記端末に対する3次元相対位置を前記第1の3次元相対位置として決定するステップと、を含む。
本開示の1つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記第1の3次元相対位置に応じて、ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させる前記ステップは、
前記第1の3次元相対位置、及び前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に基づいて、前記ターゲット音声の音源位置の前記端末に対する3次元相対位置を第2の3次元相対位置として決定するステップと、
前記第2の3次元相対位置に基づいて、前記ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップとを含む。
本開示の1つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記方法は、さらに、
ターゲット音声の音源発声面積と、ターゲット音声の音源残響効果と、ターゲット音声の音源環境とのうちの少なくとも1つを含むターゲット音声の付加説明情報を取得するステップを含み、
前記第2の3次元相対位置に基づいて、前記ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させる前記ステップは、
前記第2の3次元相対位置及び前記付加説明情報に基づいて、前記ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られた前記オーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップを含む。
本開示の1つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記方法は、さらに、
前記ターゲットオブジェクトに対応する画像素材を前記生画像の前記第1の3次元相対位置にオーバーレイして、前記生画像に対応するAR画像を生成するステップと、
前記AR画像を表示するステップと、を含む。
本開示の1つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記方法は、さらに、
前記端末がサラウンド再生条件に適合するか否かを決定するステップと、
前記端末が前記サラウンド再生条件に適合すると決定した場合、前記3次元効果処理後に得られた前記オーディオを再生するステップと、を含む。
本開示の1つ又は複数の実施例によれば、オーディオ処理装置を提供し、前記装置は、
端末によってキャプチャされた生画像を取得するための第1の取得モジュールと、
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定するための第1の決定モジュールと、
前記第1の3次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるためのオーディオ処理モジュールとを含む。
本開示の1つ又は複数の実施例によれば、コンピュータプログラムが記憶されているコンピュータ可読媒体を提供し、当該プログラムが処理装置によって実行されると、本開示の任意の実施例に記載の方法のステップが実施される。
本開示の1つ又は複数の実施例によれば、電子機器を提供し、前記電子機器は、
コンピュータプログラムが記憶されている記憶装置と、
前記記憶装置における前記コンピュータプログラムを実行して、本開示の任意の実施例に記載の方法のステップを実施するための処理装置と、を含む。
本開示の1つ又は複数の実施例によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供し、当該コンピュータプログラムが処理装置によって実行されると、本開示の任意の実施例に記載の方法のステップが実施される。
本開示の1つ又は複数の実施例によれば、コンピュータプログラムを提供し、このコンピュータプログラムが処理装置によって実行されると、本開示の任意の実施例に記載の方法のステップが実施される。
以上の記述は、本開示の好適な実施例及び使用された技術原理に対する説明にすぎない。当業者であれば、本開示に係る開示範囲は、上記の技術的特徴の特定の組合せによる技術案に限定されず、上記の開示の構想から逸脱しない範囲内に含まれている場合、上記の技術的特徴又はそれらの同等の特徴を任意に組み合せることにより形成された他の技術案を含むべきであると理解するであろう。例えば、上記の特徴と、本開示に開示されている(但し、これらに限定されない)類似する機能を有する技術的特徴とを互に置き換えて形成する技術案である。
また、特定の手順で各操作を説明したが、これは、示された特定の手順又は順序の手順でこれらの操作を実行すると理解してはいけない。一定の環境では、マルチタスクと並行処理が有利である可能性がある。同様に、上記の論述にはいくつかの具体的な実装の詳細が含まれるが、これらは、本開示の範囲に対する限定として解釈されるべきではない。個別の実施例のコンテキストに説明された一部の特徴は、さらに、単一の実施例に組み合せて実装されてもよい。むしろ、単一の実施例のコンテキストに説明された様々な特徴は、単独で、又は任意の適切なサブ組合せの方式で複数の実施例で実現されてもよい。
構造的特徴及び/又は方法論理動作に特有の言語を用いて本主題を説明したが、特許請求の範囲に限定される主題は、必ずしも上述した特定の特徴又は動作に限定されるものである必要はないことを理解されたい。むしろ、上述した特定の特徴と動作は、特許請求の範囲を実現する例示的な形態にすぎない。上記の実施例における装置の各モジュールが動作を実行する具体的な方式は、関連する方法の実施例において詳細に説明されており、ここでは詳細な説明を省略する。
本願は、2020年03月31日に中国特許局に提出された、出願番号が202010245598.6で、出願名称が「オーディオ処理方法、装置、可読媒体及び電子機器」での中国特許出願の優先権を主張し、その内容の全ては、参照により本願に組み込まれる。

Claims (11)

  1. 端末によってキャプチャされた生画像を取得するステップと、
    前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定するステップと、
    前記第1の3次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるステップとを含み、
    前記効果音オブジェクトが、前記ターゲットオブジェクトと異なる位置にあり、
    前記第1の3次元相対位置に応じて、ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップは、
    前記第1の3次元相対位置、及び前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に基づいて、前記ターゲット音声の音源位置の前記端末に対する3次元相対位置を第2の3次元相対位置として決定するステップと、
    前記第2の3次元相対位置に基づいて、前記ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップとを含む、
    ことを特徴とするオーディオ処理方法。
  2. 前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定する前記ステップは、
    前記生画像から特徴を抽出して、前記生画像における第1のアンカー情報を取得するステップと、
    予め記憶されている、前記ターゲットオブジェクトに対応する参照アンカー情報に基づいて、前記第1のアンカー情報が前記参照アンカー情報に一致するか否かを判断するステップと、
    前記第1のアンカー情報が前記参照アンカー情報に一致すると決定した場合、前記第1のアンカー情報に基づいて、前記ターゲットオブジェクトの前記端末に対する3次元相対位置を前記第1の3次元相対位置として決定するステップとを含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定する前記ステップは、
    ユーザの前記生画像に対するアンカーマーク操作によって生成された第2のアンカー情報を取得した場合、前記第2のアンカー情報に基づいて前記ターゲットオブジェクトの前記端末に対する3次元相対位置を前記第1の3次元相対位置として決定するステップを含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定する前記ステップは、
    前記生画像に前記ターゲットオブジェクトが存在しない場合、前記ターゲットオブジェクトに対応する履歴運動軌跡情報を取得するステップであって、前記履歴運動軌跡情報は、前記端末が前記生画像を取得する前にキャプチャした画像に対して運動追跡を行うことにより得られるものであるステップと、
    前記履歴運動軌跡情報に基づいて、前記ターゲットオブジェクトの前記端末に対する3次元相対位置を前記第1の3次元相対位置として決定するステップとを含む、
    ことを特徴とする請求項1に記載の方法。
  5. ターゲット音声の音源発声面積と、ターゲット音声の音源残響効果と、ターゲット音声の音源環境とのうちの少なくとも1つを含む前記ターゲット音声の付加説明情報を取得するステップをさらに含み、
    前記第2の3次元相対位置に基づいて、前記ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させる前記ステップは、
    前記第2の3次元相対位置及び前記付加説明情報に基づいて、前記ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られた前記オーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップを含む、
    ことを特徴とする請求項に記載の方法。
  6. 前記ターゲットオブジェクトに対応する画像素材を前記生画像の前記第1の3次元相対位置にオーバーレイして、前記生画像に対応する拡張現実(AR)画像を生成するステップと、
    前記AR画像を表示するステップと、をさらに含む、
    ことを特徴とする請求項1~請求項のいずれか1項に記載の方法。
  7. 前記端末がサラウンド再生条件に適合するか否かを決定するステップと、
    前記端末が前記サラウンド再生条件に適合すると決定した場合、前記3次元効果処理後に得られた前記オーディオを再生するステップと、をさらに含む、
    ことを特徴とする請求項1~請求項のいずれか1項に記載の方法。
  8. 端末によってキャプチャされた生画像を取得するための第1の取得モジュールと、
    前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する3次元相対位置を第1の3次元相対位置として決定するための第1の決定モジュールと、
    前記第1の3次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるためのオーディオ処理モジュールと、を含み、
    前記効果音オブジェクトが、前記ターゲットオブジェクトと異なる位置にあり、
    前記第1の決定モジュールは、さらに、
    前記第1の3次元相対位置、及び前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に基づいて、前記ターゲット音声の音源位置の前記端末に対する3次元相対位置を第2の3次元相対位置として決定することに用いられ、
    前記オーディオ処理モジュールは、さらに、
    前記第2の3次元相対位置に基づいて、前記ターゲット音声に対して3次元効果処理を行い、3次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第1の3次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させることに用いられる、
    ことを特徴とするオーディオ処理装置。
  9. コンピュータプログラムが記憶されているコンピュータ可読媒体であって、前記コンピュータプログラムが処理装置によって実行されると、請求項1~請求項のいずれか1項に記載の方法のステップが実施される、
    コンピュータ可読媒体。
  10. コンピュータプログラムが記憶されている記憶装置と、
    前記記憶装置における前記コンピュータプログラムを実行して、請求項1~請求項のいずれか1項に記載の方法のステップを実施するための処理装置と、を含む、
    ことを特徴とする電子機器。
  11. コンピュータプログラムが処理装置によって実行されると、請求項1からのいずれか1項に記載の方法のステップが実施される、
    コンピュータプログラム。
JP2022559616A 2020-03-31 2021-03-11 オーディオ処理方法、装置、可読媒体及び電子機器 Active JP7473676B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010245598.6A CN113467603B (zh) 2020-03-31 2020-03-31 音频处理方法、装置、可读介质及电子设备
CN202010245598.6 2020-03-31
PCT/CN2021/080298 WO2021197020A1 (zh) 2020-03-31 2021-03-11 音频处理方法、装置、可读介质及电子设备

Publications (2)

Publication Number Publication Date
JP2023519422A JP2023519422A (ja) 2023-05-10
JP7473676B2 true JP7473676B2 (ja) 2024-04-23

Family

ID=77865553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022559616A Active JP7473676B2 (ja) 2020-03-31 2021-03-11 オーディオ処理方法、装置、可読媒体及び電子機器

Country Status (7)

Country Link
US (1) US20220386061A1 (ja)
EP (1) EP4117313A4 (ja)
JP (1) JP7473676B2 (ja)
KR (1) KR20220148915A (ja)
CN (1) CN113467603B (ja)
BR (1) BR112022019908A2 (ja)
WO (1) WO2021197020A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230075908A (ko) * 2021-11-23 2023-05-31 삼성전자주식회사 전자 장치 및 제어 방법
US20230245146A1 (en) * 2022-01-28 2023-08-03 Walmart Apollo, Llc Methods and apparatus for automatic item demand and substitution prediction using machine learning processes
CN114630145A (zh) * 2022-03-17 2022-06-14 腾讯音乐娱乐科技(深圳)有限公司 一种多媒体数据合成方法、设备及存储介质
CN115022710B (zh) * 2022-05-30 2023-09-19 咪咕文化科技有限公司 一种视频处理方法、设备及可读存储介质
CN115050228B (zh) * 2022-06-15 2023-09-22 北京新唐思创教育科技有限公司 一种素材收集方法及装置、电子设备
CN117348721A (zh) * 2022-06-29 2024-01-05 中兴通讯股份有限公司 虚拟现实数据处理方法、控制器及虚拟现实设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013162285A (ja) 2012-02-03 2013-08-19 Sony Corp 情報処理装置、情報処理方法、及びプログラム
WO2015068587A1 (ja) 2013-11-05 2015-05-14 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2019097162A (ja) 2017-11-27 2019-06-20 ノキア テクノロジーズ オーユー レンダリングする音響オブジェクトをユーザが選択するためのユーザインタフェース、および/またはレンダリングする音響オブジェクトをユーザが選択するためのユーザインタフェースをレンダリングする方法
WO2019161314A1 (en) 2018-02-15 2019-08-22 Magic Leap, Inc. Dual listener positions for mixed reality
CN110164464A (zh) 2018-02-12 2019-08-23 北京三星通信技术研究有限公司 音频处理方法及终端设备
US20190266803A1 (en) 2016-11-08 2019-08-29 3Dqr Gmbh Method and apparatus for overlaying a reproduction of a real scene with virtual image and audio data, and a mobile device

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008158640A (ja) * 2006-12-21 2008-07-10 Fuji Heavy Ind Ltd 移動物体検出装置
US8170222B2 (en) * 2008-04-18 2012-05-01 Sony Mobile Communications Ab Augmented reality enhanced audio
US9037468B2 (en) * 2008-10-27 2015-05-19 Sony Computer Entertainment Inc. Sound localization for user in motion
CN101458434B (zh) * 2009-01-08 2010-09-08 浙江大学 精确测量和预测乒乓球轨迹***
CN102789642B (zh) * 2011-05-16 2017-08-25 索尼公司 消失方向确定方法和装置、摄像机自标定方法和装置
US8831255B2 (en) * 2012-03-08 2014-09-09 Disney Enterprises, Inc. Augmented reality (AR) audio with position and action triggered virtual sound effects
CN104869524B (zh) * 2014-02-26 2018-02-16 腾讯科技(深圳)有限公司 三维虚拟场景中的声音处理方法及装置
US9787846B2 (en) * 2015-01-21 2017-10-10 Microsoft Technology Licensing, Llc Spatial audio signal processing for objects with associated audio content
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
CN105879390A (zh) * 2016-04-26 2016-08-24 乐视控股(北京)有限公司 虚拟现实游戏处理方法及设备
GB2557241A (en) * 2016-12-01 2018-06-20 Nokia Technologies Oy Audio processing
US9891884B1 (en) * 2017-01-27 2018-02-13 International Business Machines Corporation Augmented reality enabled response modification
CN107168518B (zh) * 2017-04-05 2020-06-23 北京小鸟看看科技有限公司 一种用于头戴显示器的同步方法、装置及头戴显示器
US9754397B1 (en) * 2017-04-07 2017-09-05 Mirage Worlds, Inc. Systems and methods for contextual augmented reality sharing and performance
CN106993249B (zh) * 2017-04-26 2020-04-14 深圳创维-Rgb电子有限公司 一种声场的音频数据的处理方法及装置
EP3399398B1 (en) * 2017-05-02 2022-04-13 Nokia Technologies Oy An apparatus and associated methods for presentation of spatial audio
KR101988244B1 (ko) * 2017-07-04 2019-06-12 정용철 사용자의 시선 변화에 따른 가상현실 사운드 처리 장치 및 그 방법
CN109752951B (zh) * 2017-11-03 2022-02-08 腾讯科技(深圳)有限公司 控制***的处理方法、装置、存储介质和电子装置
CN109246580B (zh) * 2018-09-25 2022-02-11 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
CN109121069B (zh) * 2018-09-25 2021-02-02 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
CN109327794B (zh) * 2018-11-01 2020-09-29 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
CN109582273A (zh) * 2018-11-26 2019-04-05 联想(北京)有限公司 音频输出方法、电子设备以及音频输出装置
CN110639204A (zh) * 2019-10-18 2020-01-03 网易(杭州)网络有限公司 游戏数据处理方法、装置以及终端设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013162285A (ja) 2012-02-03 2013-08-19 Sony Corp 情報処理装置、情報処理方法、及びプログラム
WO2015068587A1 (ja) 2013-11-05 2015-05-14 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
US20190266803A1 (en) 2016-11-08 2019-08-29 3Dqr Gmbh Method and apparatus for overlaying a reproduction of a real scene with virtual image and audio data, and a mobile device
JP2019097162A (ja) 2017-11-27 2019-06-20 ノキア テクノロジーズ オーユー レンダリングする音響オブジェクトをユーザが選択するためのユーザインタフェース、および/またはレンダリングする音響オブジェクトをユーザが選択するためのユーザインタフェースをレンダリングする方法
CN110164464A (zh) 2018-02-12 2019-08-23 北京三星通信技术研究有限公司 音频处理方法及终端设备
WO2019161314A1 (en) 2018-02-15 2019-08-22 Magic Leap, Inc. Dual listener positions for mixed reality

Also Published As

Publication number Publication date
EP4117313A1 (en) 2023-01-11
CN113467603B (zh) 2024-03-08
BR112022019908A2 (pt) 2022-12-13
EP4117313A4 (en) 2023-11-22
US20220386061A1 (en) 2022-12-01
CN113467603A (zh) 2021-10-01
WO2021197020A1 (zh) 2021-10-07
KR20220148915A (ko) 2022-11-07
JP2023519422A (ja) 2023-05-10

Similar Documents

Publication Publication Date Title
JP7473676B2 (ja) オーディオ処理方法、装置、可読媒体及び電子機器
CN109462776B (zh) 一种视频特效添加方法、装置、终端设备及存储介质
US20210029305A1 (en) Method and apparatus for adding a video special effect, terminal device and storage medium
JP6936298B2 (ja) 三次元仮想ポートレートの口形の変化を制御する方法および装置
WO2021203902A1 (zh) 虚拟影像实现方法、装置、存储介质与终端设备
JP2023553101A (ja) ライブストリーミングインタラクション方法、装置、デバイス及び媒体
CN109600559B (zh) 一种视频特效添加方法、装置、终端设备及存储介质
WO2023051185A1 (zh) 图像处理方法、装置、电子设备及存储介质
JP7224554B1 (ja) インタラクション方法、装置、電子機器及びコンピュータ可読記録媒体
CN111050271B (zh) 用于处理音频信号的方法和装置
WO2021143574A1 (zh) 增强现实眼镜、基于增强现实眼镜的ktv实现方法与介质
WO2020077914A1 (zh) 图像处理方法、装置、硬件装置
CN113257218B (zh) 语音合成方法、装置、电子设备和存储介质
CN114630057B (zh) 确定特效视频的方法、装置、电子设备及存储介质
US11886484B2 (en) Music playing method and apparatus based on user interaction, and device and storage medium
JP2024513640A (ja) 仮想対象のアクション処理方法およびその装置、コンピュータプログラム
CN109636917B (zh) 三维模型的生成方法、装置、硬件装置
US20240144948A1 (en) Sound signal processing method and electronic device
CN114697568B (zh) 特效视频确定方法、装置、电子设备及存储介质
CN114339582B (zh) 双通道音频处理、方向感滤波器生成方法、装置以及介质
WO2023140787A2 (zh) 视频的处理方法、装置、电子设备、存储介质和程序产品
US20220394325A1 (en) Lyric video display method and device, electronic apparatus and computer-readable medium
CN116847147A (zh) 特效视频确定方法、装置、电子设备及存储介质
CN114449341B (zh) 音频处理方法、装置、可读介质及电子设备
CN113542785A (zh) 应用于直播的音频的输入输出的切换方法、直播设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221007

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240411

R150 Certificate of patent or registration of utility model

Ref document number: 7473676

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150