JP7473676B2

JP7473676B2 - オーディオ処理方法、装置、可読媒体及び電子機器

Info

Publication number: JP7473676B2
Application number: JP2022559616A
Authority: JP
Inventors: シ，ジュンジエ
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2021-03-11
Publication date: 2024-04-23
Anticipated expiration: 2041-03-11
Also published as: EP4117313A1; CN113467603B; BR112022019908A2; EP4117313A4; US20220386061A1; CN113467603A; WO2021197020A1; KR20220148915A; JP2023519422A

Description

本開示は、コンピュータ技術の分野に関し、具体的には、オーディオ処理方法、装置、可読媒体及び電子機器に関する。

ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ、拡張現実）は、仮想と現実との結合を強調し、これは、ショートビデオアプリケーションの遊び方の新しい傾向として、ユーザに真実の世界とインタラクションさせることができ、例えば、特定の物体を撮影したときに、その物体に対応する特殊効果を表示することができる。現在のＡＲ製品は、ユーザのために、仮想と現実との結合を視覚的に実現することができるが、音声付きの特殊効果である場合、ユーザは、環境及び音声を感知する際に、「ずれ感」を感じやすい。例えば、ある物体を識別するときに特定のオーディオを再生するように予め設定すると、ユーザが携帯電話でこの物体を撮影したときに、携帯電話は特定のオーディオを再生するが、ユーザが物体から徐々に離れるか又は近づいても、ユーザが聴く音声は変化しない。例えば、ユーザが物体から離れると、ユーザの常識的認知では聞ける音声が小さくなるべきであるが、実際には、ユーザは常に同じ大きさの音声を聴くことができ、これは、ユーザの認知と一致せず、ユーザに「ズレ感」を感じさせ、ユーザの体験に影響を与え、ユーザのＡＲシーンにおける没入感を低下させる。

簡潔な形式で構想を紹介するためにこの発明内容の部分を提供し、これらの構想を後の具体的な実施形態の部分で詳細に説明する。当該発明内容の部分は、保護を主張する技術案の重要な特徴或いは必要な特徴を特定することを意図しておらず、保護を主張する技術案の範囲を限定するために使用されることも意図していない。

第１の態様によれば、本開示は、オーディオ処理方法を提供し、前記方法は、
端末によってキャプチャされた生画像を取得するステップと、
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定するステップと、
前記第１の３次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるステップとを含む。

第２の態様によれば、本開示は、オーディオ処理装置を提供し、前記装置は、
端末によってキャプチャされた生画像を取得するための第１の取得モジュールと、
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定するための第１の決定モジュールと、
前記第１の３次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるためのオーディオ処理モジュールとを含む。

第３の態様によれば、本開示は、コンピュータプログラムが記憶されているコンピュータ可読媒体を提供し、当該プログラムが処理装置によって実行されると、本開示の第１の態様に記載の方法のステップが実施される。

第４の態様によれば、本開示は、電子機器を提供し、前記電子機器は、
コンピュータプログラムが記憶されている記憶装置と、
本開示の第１の態様に記載の方法のステップが実施されるように、前記記憶装置における前記コンピュータプログラムを実行するための処理装置と、を含む。

第５の態様によれば、本開示は、コンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムが処理装置によって実行されると、本開示の第１の態様に記載の方法のステップが実施される。

第６の態様によれば、本開示は、コンピュータプログラムを提供し、前記コンピュータプログラムが処理装置によって実行されると、本開示の第１の態様に記載の方法のステップが実施される。

上記の技術案により、端末によってキャプチャされた生画像を取得し、当該生画像に基づいて、ターゲットオブジェクトの端末に対する３次元相対位置を第１の３次元相対位置として決定し、第１の３次元相対位置に応じて、ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第１の３次元相対位置を、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させる。ここで、ターゲット音声は、効果音オブジェクトに対応する効果音音声である。これにより、ターゲットオブジェクトの端末に対する３次元相対位置に基づいてターゲット音声に対して３次元効果処理を行い、ユーザが聞いて、得られたオーディオが、端末が位置するリアルタイム位置により合致する。そして、この方式を基に、端末が画像をキャプチャし続ける過程で、端末のリアルタイム位置に合致する３次元効果付きのオーディオを生成し続け、且つ、端末位置の変化に応じて適応的に変化させることができ、端末を持ったユーザは、現在の移動傾向に合致する、空間感を有するオーディオを聴くことができ、ユーザの仮想シーンにおける没入感の体験を向上さる。

本開示の他の特徴と利点は、後の具体的な実施形態の部分で詳細に説明される。

本開示の各実施例の上記及び他の特徴、利点及び態様は、図面と併せ、以下の具体的な実施形態を参照することにより、より明らかになる。図面全体を通して、同じ又は類似の参照番号は同じ又は類似の要素を表す。図面は概略的なものであり、素子及び要素は必ずしも縮尺通りに描かれていないことを理解されたい。
本開示の一実施形態によるオーディオ処理方法のフローチャートである。本開示によるオーディオ処理方法において、生画像に基づいてターゲットオブジェクトの端末に対する３次元相対位置を決定するステップの例示的なフローチャートである。本開示の一実施形態によるオーディオ処理装置のブロック図である。本開示の実施例の実現に適する電子機器の構造を示した概略図である。

以下、図面を参照しながら本開示の実施例をより詳細に説明する。本開示の一部の実施例を図面に示したが、本開示は、様々な形態で実現されることができ、本明細書に記載の実施例に限定されると解釈されるべきではなく、むしろ、これらの実施例は、本開示をより徹底的で完全に理解するために提供されることを理解されたい。本開示の図面及び実施例は、例示的な作用のために用いられるだけで、本開示の保護範囲を限定することを意図するものではないことを理解されたい。

本開示の方法の実施形態に記載の各ステップは、異なる順序にしたがって実行される、及び／又は並行で実行されることを理解されたい。また、方法の実施形態は、付加的なステップを含む、及び／又示されたステップの実行を省略することができる。本開示の範囲は、この点に関しては限定されない。

本明細書に使用される用語「含む」及びその変形は、広義であり、即ち「含むが、これに限定されない」ということである。用語「に基づいて」は、「少なくとも部分的に…に基づいて」ということである。用語「一実施例」は、「少なくとも１つの実施例」を示し、用語「別の実施例」は、「少なくとも１つの別の実施例」を示し、用語「一部の実施例」は、「少なくとも一部の実施例」を示す。他の用語に関連する定義は、以下の記述で説明される。

なお、本開示に言及された「第１」、「第２」などの概念は、異なる装置、モジュール又はユニットを区別するためにしか使用されず、これらの装置、モジュール又はユニットによって実行される機能の順序又は相互依存関係を限定するために使用されるものではない。

なお、本開示に言及された「１つ」、「複数」という修飾は、限定ではなく例示であり、当業者は、コンテキストに特に明記しない限り、「１つ又は複数」と理解すべできあることを理解すべきである。

本開示の実施形態における複数の装置の間でインタラクションされるメッセージ又は情報の名称は、説明の目的のみに使用され、これらのメッセージ又は情報の範囲を限定するために使用されるものではない。

図１は、本開示の一実施形態によるオーディオ処理方法のフローチャートである。図１に示すように、当該方法は、ステップ１１～ステップ１３を含み得る。

ステップ１１において、端末によってキャプチャされた生画像を取得する。

端末は、撮影機能を有する装置（例えば、端末に設置されたカメラ）で画像のキャプチャを実現することができる。例示的に、ユーザが端末の撮影系プログラムを開くと、画面に表示されるファインダフレーム（例えば、ＡＲファインダフレーム）は、ファインダフレーム内の内容をキャプチャし続け、つまり、画像キャプチャを行い続ける。具体的なキャプチャ方法は、例えば、ファインダフレームが開かれた後に、周期的にキャプチャし（周期は経験値に応じて予め設定できる）、キャプチャ時刻になるたびに、現在のファインダフレーム内の内容を自動的にキャプチャすることができる。実際の応用シーンにおいて、端末のファインダフレームを開くと、ファインダフレームが開かれてから、当該ファインダフレームが今回閉じられるまでの過程で、キャプチャを何回も行う可能性があり、毎回、該当する画像をキャプチャすることができ、キャプチャされた各画像は、いずれも生画像とされることができる。

ステップ１２において、生画像に基づいて、ターゲットオブジェクトの端末に対する３次元相対位置を第１の３次元相対位置として決定する。

生画像により、ターゲットオブジェクトの端末に対する３次元相対位置を決定することができる。ここで、ターゲットオブジェクトは、生画像に存在するオブジェクトであっても、又は、ターゲットオブジェクトは、生画像に存在しないオブジェクトであってもよい（端末が同じ撮影過程において、生画像を撮影する前の履歴撮影でターゲットオブジェクトが撮影されたことがあるが、端末の撮影移動中に、ターゲットオブジェクトが生画像で一時的に「画像を出る」だけであることを前提とする）。

本開示による適用シーンでは、ターゲットオブジェクトに対応する効果音オブジェクトがあり、効果音オブジェクトに対応する効果音音声があり（ターゲットオブジェクト、効果音オブジェクト、効果音が互いにどのように対応するかは、予め設定することができる）、効果的には、ターゲットオブジェクトが存在することを決定すると、ターゲットオブジェクトに対応する効果音オブジェクトの効果音音声を放送し、且つ、ユーザが聞いて、発声する音源位置（即ち、効果音音声の位置）がユーザの認知を満たすべきである。

ここで、効果音オブジェクトは、ターゲットオブジェクトと同じ位置にあってもよく、異なる位置（例えば、ターゲットオブジェクトの周辺）にあってもよい。例えば、建物Ａが識別されたときに、飛行機の飛行音を再生し、飛行機が建物Ａの左側から建物Ａの右側に飛行するように設定すると、ターゲットオブジェクトは、建物Ａであり、効果音オブジェクトは、飛行機であり、効果音音声は、飛行機の飛行音であり、これから分かるように、この例で、効果音オブジェクトはターゲットオブジェクトと同じ位置にあるのではなく、効果音オブジェクトがターゲットオブジェクトの左側からターゲットオブジェクトの右側に移動する。また、例えば、建物Ｂが識別されたときに、建物Ｂの紹介音声を再生するように設定すると、ターゲットオブジェクトは、建物Ｂであり、効果音オブジェクトは、建物Ｂであり、効果音音声は、建物Ｂの紹介音声であり、これから分かるように、この例で、効果音オブジェクトはターゲットオブジェクトと同じ位置にある。

実際のシーンにおいて、ターゲットオブジェクトが存在する（例えば、ターゲットオブジェクトが画面にあるか、又は、ターゲットオブジェクトが一時的に「画像を出る」）と決定すると、音声を再生する必要があり、本案の目的は、再生効果が変わらないオーディオをより空間感を有するオーディオに処理することであり、空間感を生み出すのに欠かせないのが空間位置であるが、空間感を生み出すために必要な空間位置とは、当然、ターゲットオブジェクトの端末に対する３次元相対位置であり、すなわち、第１の３次元相対位置である。

１つの可能な実施形態では、ステップ１２は、ステップ２１～ステップ２３を含み得、図２に示す通りである。

ステップ２１において、生画像から特徴を抽出して、生画像における第１のアンカー情報を取得する。

第１のアンカー情報は、生画像から特徴を抽出した後、識別された生画像における少なくとも１つのアンカー（即ち、特徴点）を含んでもよい。ここで、特徴を抽出する方法は、本分野の一般的な手段であり、ここでは詳細な説明を省略する。

ステップ２２において、予め記憶された、ターゲットオブジェクトに対応する参照アンカー情報に基づいて、第１のアンカー情報が参照アンカー情報に一致できるか否かを判断する。

実際の適用シーンにおいて、画像にターゲットオブジェクトが存在する場合、ターゲットオブジェクトに対応する特殊効果、音声などを呈することができる。例えば、ターゲットオブジェクトが鐘楼であり、且つ画像に鐘楼が存在する場合、時計アニメーションを表示するとともに、鐘の音を再生するように設定すると、生画像に鐘楼が含まれている場合、時計を鐘楼に付着するとともに、鐘の音を再生すべきである。

ターゲットオブジェクトは、モデル化されたオブジェクトであり、データ処理の前期には、まず、ターゲットオブジェクトを含む一連の画像から特徴を抽出し、ターゲットオブジェクトの参照アンカー情報を決定して記憶し、ここで、ターゲットオブジェクトの参照アンカー情報には、ターゲットオブジェクトの識別を補助できる少なくとも１つのアンカーが含まれる。例えば、ターゲットオブジェクトがデスクである場合、まず、デスクを含む画像を大量収集し、それから、収集された画像に基づいて、各画像から特徴を抽出して、デスクを特徴づけることができる特徴点を得ることにより、デスクに対応する参照アンカー情報を決定し、デスクというオブジェクトに関連付けて記憶する。実際のアプリケーションにおいて、アンカー情報ベースを構築することができ、ここで、モデル化されたすべてのオブジェクトに対応する参照アンカー情報を記憶することにより、生画像にターゲットオブジェクトが存在するか否か、及びどのターゲットオブジェクトが存在するかをより迅速に決定することができる。

上述したように、ターゲットオブジェクトの参照アンカー情報は、ターゲットオブジェクトの識別をより良く補助することができる。したがって、第１のアンカー情報と参照アンカー情報とを比較することにより、ターゲットオブジェクトに類似するオブジェクトが生画像に存在するか否かを判断することにより、生画像にターゲットオブジェクトが存在するか否かを決定することができる。具体的には、第１のアンカー情報が参照アンカー情報と一致するか否かを判断することができる。例示的に、第１のアンカー情報と参照アンカー情報との類似度を計算することができ、両者の類似度が類似度閾値よりも高い場合（経験値に応じて設定可能）、両者が一致すると判定し、それに対し、両者の類似度が類似度閾値に達していない場合、両者が一致していないと判定する。第１のアンカー情報と参照アンカー情報との類似度を計算するには、余弦類似度などの従来の計算方法を採用することができ、ここでは詳細な説明を省略する。

ステップ２３において、第１のアンカー情報が参照アンカー情報に一致すると決定した場合、第１のアンカー情報に基づいて、ターゲットオブジェクトの端末に対する３次元相対位置を第１の３次元相対位置として決定する。

ステップ２２において、第１のアンカー情報が参照アンカー情報と一致すると決定した場合、生画像に、予め記憶されているオブジェクトの１つであるターゲットオブジェクトが存在することを説明する。したがって、生画像の第１のアンカー情報に基づいて、ターゲットオブジェクトの端末に対する３次元相対位置、すなわち第１の３次元相対位置を直接決定することができる。ここで、画像及び画像のある点（又は、複数の点）に基づいて当該点の撮影画像端末に対する３次元相対位置を決定することは、当分野の一般的な手段であり、ここでは詳細な説明を省略する。例えば、ｉＯＳシステムに対して、ＡＲツールボックス（ＡＲＫｉｔ）、ＡＲコア（ＡＲＣｏｒｅ）のようなインターフェースを用いて上記のデータ処理を完了することができる。

別の可能な実施形態において、ステップ１２は、
ユーザの生画像に対するアンカーマーク操作によって生成された第２のアンカー情報を取得した場合、第２のアンカー情報に基づいてターゲットオブジェクトの端末に対する３次元相対位置を第１の３次元相対位置として決定するステップを含み得る。

ここで、第２のアンカー情報には、ユーザの生画像に対するアンカーマーク操作によって生成された少なくとも１つのアンカーが含まれ得る。この実施形態において、ユーザは、ビューフレーム内でアンカーマーク操作を手動で行うことができ、つまり、生画像に対して複雑な画像分析を行う必要がないが、ユーザのアンカーマーク操作によって生成された第２のアンカー情報に基づいて、生画像における第２のアンカー情報に対応するターゲットオブジェクトを決定することができる。例示的に、第２のアンカー情報に基づいて生画像から範囲を絞り、その範囲に含まれる内容がターゲットオブジェクトであると考えられることができる。後続の画像キャプチャにおいて、ターゲットオブジェクトに対する位置決めは、いずれもこれを基にすることができ、例を挙げると、ユーザがアンカーを生画像の中央にマークした場合、現在決定されているターゲットオブジェクトは、生画像の中央に対応する内容であり、後続のキャプチャ時刻で、端末が移動する場合、例えば、端末が左上に移動する場合、ターゲットオブジェクトの位置は、そのまま中心にあるのではなく、右下に移動する。

第２のアンカー情報に基づいて第１の３次元相対位置を決定することは、ステップ２３と同様である。すなわち、生画像の第２のアンカー情報に基づいてターゲットオブジェクトの端末に対する３次元相対位置を第１の３次元相対位置として直接決定する。ここで、上述したように、画像及び画像のある点（又は、複数の点）に基づいて当該点の撮影画像端末に対する３次元相対位置を決定することは、当分野の一般的な手段であり、例えば、ｉＯＳシステムに対して、ＡＲＫｉｔ、ＡＲＣｏｒｅのようなインターフェースを用いて上記のデータ処理を完了することができる。

上記の方式を採用して、ユーザは、ターゲットオブジェクトを直接位置決めすることができ、画像に対して複雑な分析計算を行う必要がなく、データ処理量を効果的に減らすことができ、且つ、ユーザに提供する柔軟性はより高く、ユーザ体験を向上させた。

別の可能な実施形態において、ステップ１２は、
生画像にターゲットオブジェクトが存在しない場合、ターゲットオブジェクトに対応する履歴運動軌跡情報を取得するステップと、
履歴運動軌跡情報に基づいて、ターゲットオブジェクトの端末に対する３次元相対位置を第１の３次元相対位置として決定するステップと、を含む。

上述したように、端末移動撮影中に、端末の移動によってターゲットオブジェクトが一時的に「画像を出る」可能性があり、この場合、ターゲットオブジェクトが生画像に存在しないが、依然として、ターゲットオブジェクトの端末に対する３次元相対位置を得ることができる。

生画像にターゲットオブジェクトが存在しない場合、ターゲットオブジェクトが一時的に端末撮影ファインダフレームの外に移動した可能性があることを説明するため、ターゲットオブジェクトに対応する履歴運動軌跡情報を取得することができる。ここで、履歴運動軌跡情報は、端末が生画像を取得する前にキャプチャした画像に対して運動追跡を行うことにより得られるものである。

履歴運動軌跡情報により、端末が生画像をキャプチャしたときに、ターゲットオブジェクトと端末との相対位置を推定することができる。例えば、ターゲットオブジェクトの履歴運動軌跡情報により、ターゲットオブジェクトの運動方向及び運動速度を決定することができ、それにより、生画像を取得する前のターゲットオブジェクトが存在する最後のフレームの画像におけるターゲットオブジェクトの位置を始点として、履歴運動軌跡におけるターゲットオブジェクトの運動方向、運動速度及びターゲットオブジェクトが存在する最後のフレームの画像と生画像との撮影時間差に基づいて、ターゲットオブジェクトの端末に対する３次元相対位置を第１の３次元相対位置として決定することができる。

上記方式を採用し、端末がターゲットオブジェクトを撮影しなかった場合、履歴によるターゲットオブジェクトの運動追跡により、ターゲットオブジェクトの端末に対する３次元相対位置を決定することもでき、端末の移動がターゲットオブジェクトの位置決定に影響を与えることを回避することができる。

図１に戻ると、ステップ１３において、第１の３次元相対位置に応じて、ターゲット音声に対して３次元効果処理を行う。

第１の３次元相対位置に応じて、ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第１の３次元相対位置を、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させる。

ここで、ターゲット音声とは、効果音オブジェクトに対応する効果音音声である。

１つの可能な実施形態では、ステップ１３は、
第１の３次元相対位置、及びターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に基づいて、ターゲット音声の音源位置の端末に対する３次元相対位置を第２の３次元相対位置として決定するステップと、
第２の３次元相対位置に基づいて、ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第１の３次元相対位置を、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップと、を含み得る。

ターゲットオブジェクトに対応する効果音オブジェクトは、１つであっても、複数であってもよく、ターゲットオブジェクトに対応する効果音オブジェクトが複数である場合、各効果音オブジェクトは、それぞれターゲットオブジェクトとの位置関係を有する。

第１の３次元相対位置、及びターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に基づいて、ターゲットオブジェクトの端末に対する３次元相対位置、ターゲットオブジェクトの効果音オブジェクトの音源（即ち、ターゲット音声の音源位置）に対する３次元相対位置は、いずれも既知であり、それにより、端末の効果音オブジェクトの音源（即ち、ターゲット音声の音源位置）に対する３次元相対位置、即ち、第２の３次元相対位置を決定しやすい。その後、第２の３次元相対位置に基づいて、ターゲット音声に対して３次元効果処理を行うと、３次元効果処理後のオーディオを取得することができ、且つ、３次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第１の３次元相対位置が、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致する。

ここで、ターゲット音声に対する３次元効果処理として、３Ｄ音声レンダリングを使用することができ、例示的に、３Ｄ音声レンダリングとして、サラウンド（ａｍｂｉｓｏｎｉｃ）技術を使用することができ、それは、当分野の一般的な手段であり、オーディオと位置情報に基づいて、空間におけるオーディオの音像位置をシミュレーションし、さらに両耳に対応する再生信号を生成することができる。

別の可能な実施形態において、本開示による方法は、さらに、
ターゲット音声の付加説明情報を取得するステップを含み得る。

ここで、付加説明情報は、ターゲット音声の音源発声面積と、ターゲット音声の音源残響効果と、ターゲット音声の音源環境とのうちの少なくとも１つを含むが、これらに限定されない。

ターゲット音声の音源発音面積は、オーディオボリュームの大きさに影響を与えることができる。例えば、音源発音面積が小さいとボリュームが小さくなり、携帯電話などの小さな物体を参照してもよい。また、例えば、音源発生面積が大きいとボリュームが大きくなり、建物などの大きな物体を参照してもよい。ターゲット音声の音源残響効果は、オーディオの残響効果、つまり残響効果の有無に影響を与えることができる。ターゲット音声の音源環境は、オーディオの環境効果に影響を与えることができ、例えば、ターゲット音声の音源が室内にあるか、又は、屋外にある。

この実施形態では、第２の３次元相対位置に基づいて、ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第１の３次元相対位置を、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップは、
第２の３次元相対位置及び付加説明情報に基づいて、ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第１の３次元相対位置を、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップを含み得る。

この実施形態では、実際には、さまざまな音声処理方式、例えば、３Ｄ音声レンダリング、残響効果、ボリューム調節、室内外効果などを組み合わせて、処理されたオーディオを取得することができる。例示的に、ターゲット音声の付加説明情報が、ターゲット音声の音源発声面積が小さいということである場合、ターゲット音声に対して３次元処理を行う際に、ターゲット音源のオーディオに対して３Ｄ音声レンダリングを行うと同時に、ターゲット音源のオーディオのボリュームを小さくする。

上記技術案により、端末によってキャプチャされた生画像を取得し、当該生画像に基づいて、ターゲットオブジェクトの端末に対する３次元相対位置を第１の３次元相対位置として決定し、第１の３次元相対位置に応じて、ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおけるターゲット音声の音源位置及び第１の３次元相対位置を、ターゲットオブジェクトとターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させる。ここで、ターゲット音声は、効果音オブジェクトに対応する効果音音声である。これにより、ターゲットオブジェクトの端末に対する３次元相対位置に基づいてターゲット音声に対して３次元効果処理を行うことができ、ユーザが聞いて、得られたオーディオが、端末が位置するリアルタイム位置により合致する。そして、この方式を基に、端末が画像をキャプチャし続ける過程で、端末のリアルタイム位置に合致する３次元効果付きのオーディオを生成し続け、且つ、端末位置の変化に応じて適応的に変化させることができ、端末を持ったユーザは、現在の移動傾向に合致する、空間感を有するオーディオを聴くことができ、ユーザの仮想シーンにおける没入感の体験を向上さる。

一実施例において、上記の各実施例に加え、本開示による方法は、
ターゲットオブジェクトに対応する画像素材を生画像の第１の３次元相対位置にオーバーレイして、生画像に対応するＡＲ画像を生成するステップと、
ＡＲ画像を表示するステップと、を含む。

この実施例は、ＡＲ画像の特殊効果に関するシーンについて説明した。各ターゲットオブジェクトは、いずれも画像素材に対応することができ、例えば、建物は、建物の外側に付着することができる内容に対応し、当該内容は、建物に対応する画像素材である。したがって、オーディオを処理した上で、ユーザの視覚的な没入感体験を確保するために、ターゲットオブジェクトに対応する画像素材を生画像の第１の３次元相対位置にオーバーレイして、生画像に対応するＡＲ画像を生成し、当該ＡＲ画像を表示して（生画像を表示しない）、ユーザの視覚的な体験を向上させることもできる。

さらに、生成されたＡＲ画像を端末で表示し、ターゲット音声に３次元効果処理を行って得たオーディオを端末で再生することができる。例示的に、端末は、ユーザがビューを取る過程にキャプチャされた生画像に対応するＡＲ画像をリアルタイムで表示し、３次元効果処理後に得られたオーディオをリアルタイムで再生することができる。また、例えば、端末は、キャプチャ済みの各画像に基づいて、本開示によるオーディオ処理方法をそれぞれ実行して、各画像に対応するＡＲ画像及び各画像に対応する３次元効果処理で得られるオーディオを得て、ビデオに合成して記憶することにより、ユーザが後で見ることが容易になる（この機能は、ユーザによってトリガされるように設定することができる）。

一実施例において、本開示による方法は、音声処理により、仮想シーンにおけるユーザの没入感を向上させるが、ユーザが持っている端末が空間感を有するオーディオをユーザに提供できない場合、端末に必要のないデータのインタラクションを回避するために、オーディオを再生する必要がない。そのため、本開示による方法は、さらに、
端末がサラウンド再生条件に適合するか否かを決定するステップと、
端末がサラウンド再生条件に適合すると決定した場合、３次元効果処理後に得られたオーディオを再生するステップと、を含み得る。

例示的に、端末がサラウンド再生条件に適合するか否かを判断するには、端末にデュアルチャネルヘッドホンが挿入されているか否かを識別することで決定することができる。端末にデュアルチャネルイヤホンが挿入されていると、端末がサラウンド再生条件に適合していると決定することができる。

上記方式を採用することで、本開示による空間感を有するオーディオの再生は、端末がサラウンド再生条件を提供できる前提で行われていることを確保でき、端末に必要のないデータのインタラクションを回避する。

図３は、本開示の一実施形態によるオーディオ処理装置のブロック図である。図３に示すように、装置３０は、
端末によってキャプチャされた生画像を取得するための第１の取得モジュール３１と、
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定するための第１の決定モジュール３２と、
前記第１の３次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるためのオーディオ処理モジュール３３とを含む。

一実施例において、前記第１の決定モジュール３２は、
前記生画像から特徴を抽出して、前記生画像における第１のアンカー情報を取得するための第１の取得サブモジュールと、
予め記憶されている、前記ターゲットオブジェクトに対応する参照アンカー情報に基づいて、前記第１のアンカー情報が前記参照アンカー情報に一致するか否かを判断するための判断サブモジュールと、
前記第１のアンカー情報が前記参照アンカー情報に一致すると決定した場合、前記第１のアンカー情報に基づいて、前記ターゲットオブジェクトの前記端末に対する３次元相対位置を前記第１の３次元相対位置として決定するための第１の決定サブモジュールとを含む。

一実施例において、前記第１の決定モジュール３２は、
ユーザの前記生画像に対するアンカーマーク操作によって生成された第２のアンカー情報を取得した場合、前記第２のアンカー情報に基づいて前記ターゲットオブジェクトの前記端末に対する３次元相対位置を前記第１の３次元相対位置として決定するための第２の決定サブモジュールを含む。

一実施例において、前記第１の決定モジュール３２は、
前記生画像に前記ターゲットオブジェクトが存在しない場合、前記ターゲットオブジェクトに対応する履歴運動軌跡情報を取得するために用いられ、前記履歴運動軌跡情報は、前記端末が前記生画像の前にキャプチャした画像に対して運動追跡を行うことにより得られるものである第２の取得サブモジュールと、
前記履歴運動軌跡情報に基づいて、前記ターゲットオブジェクトの前記端末に対する３次元相対位置を前記第１の３次元相対位置として決定するための第３の決定サブモジュールとを含む。

一実施例において、前記オーディオ処理モジュール３３は、
前記第１の３次元相対位置、及び前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に基づいて、前記ターゲット音声の音源位置の前記端末に対する３次元相対位置を第２の３次元相対位置として決定するための第４の決定サブモジュールと、
前記第２の３次元相対位置に基づいて、前記ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるためのオーディオ処理サブモジュールと、を含む。

一実施例において、前記装置３０は、さらに、
ターゲット音声の音源発声面積と、ターゲット音声の音源残響効果と、ターゲット音声の音源環境とのうちの少なくとも１つを含むターゲット音声の付加説明情報を取得するための第２の取得モジュールを含み、
前記オーディオ処理サブモジュールは、前記第２の３次元相対位置及び前記付加説明情報に基づいて、前記ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られた前記オーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるために用いられる。

一実施例において、前記装置３０は、さらに、
前記ターゲットオブジェクトに対応する画像素材を前記生画像の前記第１の３次元相対位置にオーバーレイして、前記生画像に対応するＡＲ画像を生成するための画像処理モジュールと、
前記ＡＲ画像を表示するための画像表示モジュールと、を含む。

一実施例において、前記装置３０は、さらに、
前記端末がサラウンド再生条件に適合するか否かを決定するための第２の決定モジュールと、
前記端末が前記サラウンド再生条件に適合すると決定した場合、前記３次元効果処理後に得られた前記オーディオを再生するためのオーディオ再生モジュールとを含む。

上記の実施例における装置の各モジュールが動作を実行する具体的な方式は、関連する方法の実施例において詳細に説明されており、ここでは詳細な説明を省略する。

以下、図４を参照し、図４は、本開示の実施例を実現するのに適する電子機器６００の概略構造図を示した。本開示の実施例における端末機器は、携帯電話、ノートパソコン、デジタル放送受信機、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、タブレット（ＰｏｒｔａｂｌｅＡｎｄｒｏｉｄＤｅｖｉｃｅ、ＰＡＤ）、ポータブルマルチメディアプレーヤー（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ、ＰＭＰ）、車載端末（例えば車載ナビゲーション端末）などのモバイル端末、及び、デジタルテレビＴＶ、デスクトップコンピュータなどの固定端末を含み得るが、これらに限定されない。図４に示す電子機器は、一例にすぎず、本開示の実施例の機能及び使用範囲にいかなる制限を与えるべきではない。

図４に示すように、電子機器６００は、処理装置（例えば、中央プロセッサ、グラフィックスプロセッサなど）６０１を含み得、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）６０２に記憶されているプログラム又は装置６０８からランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）６０３にロードされるプログラムに応じて、様々な適切な動作及び処理を実行することができる。ＲＡＭ６０３には、さらに、電子機器６００の操作に必要な様々なプログラム及びデータが記憶されている。処理装置６０１、ＲＯＭ６０２及びＲＡＭ６０３はバス６０４を介して互いに接続されている。入力／出力（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

通常、例えばタッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、ジャイロスコープなどを含む入力装置６０６と、例えば液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、スピーカー、バイブレータなどを含む出力装置６０７と、例えば、磁気テープ、ハードディスクなどを含む記憶装置６０８と、通信装置６０９とは、Ｉ／Ｏインターフェース６０５に接続されることができる。通信装置６０９は、電子機器６００が他の機器と無線又は有線で通信してデータを交換することを可能にすることができる。図４に様々な装置を有する電子機器６００を示したが、示された全ての装置を実施するか又は備える必要がないことを理解されたい。これに代えて、よりも多く又は少ない装置を実施するか又は備えてもよい。

特に、本開示の実施例によれば、以上でフローチャートを参照して説明したプロセスは、コンピュータソフトウェアプログラムとして実装され得る。例えば、本開示の実施例は、非一時的なコンピュータ可読媒体に担持されているコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信装置６０９によってネットワークからダウンロードされてインストールされてもよいし、記憶装置６０８からインストールされてもよいし、ＲＯＭ６０２からインストールされてもよい。当該コンピュータプログラムが処理装置６０１によって実行されると、本開示の実施例の方法に限定される上記の機能が実行される。

なお、本開示の上記のコンピュータ可読媒体は、コンピュータ可読信号媒体であっても、コンピュータ可読記憶媒体であっても、上記の両者の任意の組合せであってもよい。コンピュータ可読記憶媒体例えば、電気、磁気、光、電磁気、赤外線、もしくは半導体のシステム、装置もしくはデバイス、又は以上の任意の組合せであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１つ又は複数のワイヤを有する電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ、ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲＯＭ、ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組合せを含み得るが、これらに限定されない。本開示において、コンピュータ可読記憶媒体は、プログラムを含むか又は記憶する任意の有形媒体であり得、当該プログラムは、命令実行システム、装置又はデバイスによって、又はそれらと組み合わせて使用することができる。本開示において、コンピュータ可読信号媒体は、ベースバンドを伝播されるか、又は搬送波の一部として伝播されるデータ信号を含み、データ信号は、コンピュータ可読なプログラムコードを担持する。このような伝播されるデータ信号は、複数の形態を採用することができ、電磁気信号、光信号又は上記の任意の適切な組合せを含むが、これらに限定されない。コンピュータ可読信号媒体は、さらに、コンピュータ可読記憶媒体以外のいずれのコンピュータ可読媒体であってもよく、当該コンピュータ可読信号媒体は、命令実行システム、装置又はデバイスによって、又はそれらと組み合わせて使用するためのプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれているプログラムコードをいずれの適切な媒体で伝送することができ、前記媒体は、電線、光ケーブル、無線周波数（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、ＲＦ）など、又は上記の任意の適切な組合せを含むが、これらに限定されない。

一部の実施形態において、クライアントやサーバは、ハイパーテキスト転送プロトコル（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ、ＨＴＴＰ）などのいずれの現在知られているか又は将来研究開発されるネットワークプロトコルを利用して通信することができ、かつ、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）と相互することができる。通信ネットワークの例示には、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、「ＬＡＮ」）、ワイドエリアネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、「ＷＡＮ」）、ネットワーク間のネットワーク（例えば、インターネット）、エンドツーエンドネットワーク（例えば、ａｄｈｏｃ（ＡＤａｐｔｉｖｅＨｅｕｒｉｓｔｉｃｆｏｒＯｐｐｏｎｅｎｔＣｌａｓｓｉｆｉｃａｔｉｏｎ，ａｄｈｏｃ）エンドツーエンドネットワーク）、及び、いずれの現在知られているか又は将来研究開発されるネットワークを含む。

上記のコンピュータ可読媒体は、上記の電子機器に含まれるものであってもよいし、当該電子機器に組み込まれず、単独で存在するものであってもよい。

上記のコンピュータ可読媒体には、１つ又は複数のプログラムが担持されており、上記の１つ又は複数のプログラムがこの電子機器によって実行されると、当該電子機器に、端末によってキャプチャされた生画像を取得するステップと、前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定するステップと、前記第１の３次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるステップと、を実行させる。

１つ又は複数のプログラミング言語又はそれらの組合せで本開示の操作を実行するためのコンピュータプログラムコードを作成することができ、上記のプログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向のプログラミング言語を含むが、これらに限定されず、さらに、「Ｃ」言語又は類似しているプログラミング言語などの一般的なプロシージャプログラミング言語を含む。プログラムコードは、完全にユーザコンピュータ上で実行されても、部分的にユーザコンピュータ上で実行されても、１つのソフトウェアパケットとして実行されても、一部がユーザコンピュータ上で一部がリモートコンピュータ上で実行されても、完全にリモートコンピュータ又はサーバで実行されてもよい。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザコンピュータに接続することができるか、又は、外部のコンピュータに接続することができる（例えば、インターネットサービスプロバイダを利用してインターネットを介して接続することができる）。

図面におけるフローチャート及びブロック図は、本開示の様々な実施例のシステム、方法及びコンピュータプログラム製品に従って実現可能な体系アーキテクチャ、機能と操作を示した。この点で、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント、又はコードの一部を代表することができ、当該モジュール、プログラムセグメント、又はコードの一部はプリセットの論理機能を実現するための１つ又は複数の実行可能命令を含む。置き換えとする一部の実装において、ブロックに注記される機能が図面に注記された順序と異なる順序で発生されることができると留意すべきである。例えば、２つの連続して表示されたブロックは、実際には基本的に並列に実行されてもよく、それらは、関係のある機能に応じて逆の順序で実行される場合もある。ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組合せは、プリセットの機能又は操作を実行するために専用の、ハードウェアに基づくシステムで実装できるか、又は、専用のハードウェアとコンピュータ命令との組合せで実装できることに留意されたい。

本開示の実施例の説明に係るモジュールは、ソフトウェアの方式で実装されても、ハードウェアの方式で実装されてもよい。ここで、モジュールの名称は、ある場合には、当該モジュール自体を限定するものではなく、例えば、第１の取得モジュールは、さらに「端末によってキャプチャされた生画像を受信するモジュール」と説明されてもよい。

本明細書において上述した機能は、少なくとも一部が、１つ又は複数のハードウェア論理部品によって実行されてもよい。例えば、限定ではなく、使用可能な例示的なハードウェア論理部品は、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、特定用途向け標準製品（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＳｔａｎｄａｒｄＰａｒｔｓ、ＡＳＳＰ）、システムオンチップ（ＳｙｓｔｅｍｏｎＣｈｉｐ、ＳＯＣ）、複雑プログラマブル論理デバイス（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ、ＣＰＬＤ）などを含む。

本開示のコンテキストでは、機器可読媒体は、有形の媒体であってもよく、それは、命令実行システム、装置又は機器の使用に提供するか、又は、命令実行システム、装置又は機器と結合して使用するためのプログラムを含むか又は記憶することができる。機器可読媒体は、機器可読信号媒体であっても、機器可読記憶媒体であってもよい。機器可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組合せを含んでもよいが、これらに限定されない。機器可読記憶媒体のより具体的な例は、１つ又は複数の線に基づく電気接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶機器、磁気記憶機器、又は上記内容の任意の適切な組合せを含む。

本開示の１つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記方法は、
端末によってキャプチャされた生画像を取得するステップと、
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定するステップと、
前記第１の３次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるステップと、を含む。

本開示の１つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定する前記ステップは、
前記生画像から特徴を抽出して、前記生画像における第１のアンカー情報を取得するステップと、
予め記憶されている、前記ターゲットオブジェクトに対応する参照アンカー情報に基づいて、前記第１のアンカー情報が前記参照アンカー情報に一致するか否かを判断するステップと、
前記第１のアンカー情報が前記参照アンカー情報に一致すると決定した場合、前記第１のアンカー情報に基づいて、前記ターゲットオブジェクトの前記端末に対する３次元相対位置を前記第１の３次元相対位置として決定するステップとを含む。

本開示の１つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定する前記ステップは、
ユーザの前記生画像に対するアンカーマーク操作によって生成された第２のアンカー情報を取得した場合、前記第２のアンカー情報に基づいて前記ターゲットオブジェクトの前記端末に対する３次元相対位置を前記第１の３次元相対位置として決定するステップを含む。

本開示の１つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定する前記ステップは、
前記生画像に前記ターゲットオブジェクトが存在しない場合、前記ターゲットオブジェクトに対応する履歴運動軌跡情報を取得し、前記履歴運動軌跡情報は、前記端末が前記生画像を取得する前にキャプチャした画像に対して運動追跡を行うことにより得られるものであるステップと、
前記履歴運動軌跡情報に基づいて、前記ターゲットオブジェクトの前記端末に対する３次元相対位置を前記第１の３次元相対位置として決定するステップと、を含む。

本開示の１つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記第１の３次元相対位置に応じて、ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させる前記ステップは、
前記第１の３次元相対位置、及び前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に基づいて、前記ターゲット音声の音源位置の前記端末に対する３次元相対位置を第２の３次元相対位置として決定するステップと、
前記第２の３次元相対位置に基づいて、前記ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップとを含む。

本開示の１つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記方法は、さらに、
ターゲット音声の音源発声面積と、ターゲット音声の音源残響効果と、ターゲット音声の音源環境とのうちの少なくとも１つを含むターゲット音声の付加説明情報を取得するステップを含み、
前記第２の３次元相対位置に基づいて、前記ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させる前記ステップは、
前記第２の３次元相対位置及び前記付加説明情報に基づいて、前記ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られた前記オーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップを含む。

本開示の１つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記方法は、さらに、
前記ターゲットオブジェクトに対応する画像素材を前記生画像の前記第１の３次元相対位置にオーバーレイして、前記生画像に対応するＡＲ画像を生成するステップと、
前記ＡＲ画像を表示するステップと、を含む。

本開示の１つ又は複数の実施例によれば、オーディオ処理方法を提供し、前記方法は、さらに、
前記端末がサラウンド再生条件に適合するか否かを決定するステップと、
前記端末が前記サラウンド再生条件に適合すると決定した場合、前記３次元効果処理後に得られた前記オーディオを再生するステップと、を含む。

本開示の１つ又は複数の実施例によれば、オーディオ処理装置を提供し、前記装置は、
端末によってキャプチャされた生画像を取得するための第１の取得モジュールと、
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定するための第１の決定モジュールと、
前記第１の３次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるためのオーディオ処理モジュールとを含む。

本開示の１つ又は複数の実施例によれば、コンピュータプログラムが記憶されているコンピュータ可読媒体を提供し、当該プログラムが処理装置によって実行されると、本開示の任意の実施例に記載の方法のステップが実施される。

本開示の１つ又は複数の実施例によれば、電子機器を提供し、前記電子機器は、
コンピュータプログラムが記憶されている記憶装置と、
前記記憶装置における前記コンピュータプログラムを実行して、本開示の任意の実施例に記載の方法のステップを実施するための処理装置と、を含む。

本開示の１つ又は複数の実施例によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供し、当該コンピュータプログラムが処理装置によって実行されると、本開示の任意の実施例に記載の方法のステップが実施される。

本開示の１つ又は複数の実施例によれば、コンピュータプログラムを提供し、このコンピュータプログラムが処理装置によって実行されると、本開示の任意の実施例に記載の方法のステップが実施される。

以上の記述は、本開示の好適な実施例及び使用された技術原理に対する説明にすぎない。当業者であれば、本開示に係る開示範囲は、上記の技術的特徴の特定の組合せによる技術案に限定されず、上記の開示の構想から逸脱しない範囲内に含まれている場合、上記の技術的特徴又はそれらの同等の特徴を任意に組み合せることにより形成された他の技術案を含むべきであると理解するであろう。例えば、上記の特徴と、本開示に開示されている（但し、これらに限定されない）類似する機能を有する技術的特徴とを互に置き換えて形成する技術案である。

また、特定の手順で各操作を説明したが、これは、示された特定の手順又は順序の手順でこれらの操作を実行すると理解してはいけない。一定の環境では、マルチタスクと並行処理が有利である可能性がある。同様に、上記の論述にはいくつかの具体的な実装の詳細が含まれるが、これらは、本開示の範囲に対する限定として解釈されるべきではない。個別の実施例のコンテキストに説明された一部の特徴は、さらに、単一の実施例に組み合せて実装されてもよい。むしろ、単一の実施例のコンテキストに説明された様々な特徴は、単独で、又は任意の適切なサブ組合せの方式で複数の実施例で実現されてもよい。

構造的特徴及び／又は方法論理動作に特有の言語を用いて本主題を説明したが、特許請求の範囲に限定される主題は、必ずしも上述した特定の特徴又は動作に限定されるものである必要はないことを理解されたい。むしろ、上述した特定の特徴と動作は、特許請求の範囲を実現する例示的な形態にすぎない。上記の実施例における装置の各モジュールが動作を実行する具体的な方式は、関連する方法の実施例において詳細に説明されており、ここでは詳細な説明を省略する。

本願は、２０２０年０３月３１日に中国特許局に提出された、出願番号が２０２０１０２４５５９８．６で、出願名称が「オーディオ処理方法、装置、可読媒体及び電子機器」での中国特許出願の優先権を主張し、その内容の全ては、参照により本願に組み込まれる。

Claims

端末によってキャプチャされた生画像を取得するステップと、
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定するステップと、
前記第１の３次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるステップとを含み、
前記効果音オブジェクトが、前記ターゲットオブジェクトと異なる位置にあり、
前記第１の３次元相対位置に応じて、ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップは、
前記第１の３次元相対位置、及び前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に基づいて、前記ターゲット音声の音源位置の前記端末に対する３次元相対位置を第２の３次元相対位置として決定するステップと、
前記第２の３次元相対位置に基づいて、前記ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップとを含む、
ことを特徴とするオーディオ処理方法。
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定する前記ステップは、
前記生画像から特徴を抽出して、前記生画像における第１のアンカー情報を取得するステップと、
予め記憶されている、前記ターゲットオブジェクトに対応する参照アンカー情報に基づいて、前記第１のアンカー情報が前記参照アンカー情報に一致するか否かを判断するステップと、
前記第１のアンカー情報が前記参照アンカー情報に一致すると決定した場合、前記第１のアンカー情報に基づいて、前記ターゲットオブジェクトの前記端末に対する３次元相対位置を前記第１の３次元相対位置として決定するステップとを含む、
ことを特徴とする請求項１に記載の方法。
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定する前記ステップは、
ユーザの前記生画像に対するアンカーマーク操作によって生成された第２のアンカー情報を取得した場合、前記第２のアンカー情報に基づいて前記ターゲットオブジェクトの前記端末に対する３次元相対位置を前記第１の３次元相対位置として決定するステップを含む、
ことを特徴とする請求項１に記載の方法。
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定する前記ステップは、
前記生画像に前記ターゲットオブジェクトが存在しない場合、前記ターゲットオブジェクトに対応する履歴運動軌跡情報を取得するステップであって、前記履歴運動軌跡情報は、前記端末が前記生画像を取得する前にキャプチャした画像に対して運動追跡を行うことにより得られるものであるステップと、
前記履歴運動軌跡情報に基づいて、前記ターゲットオブジェクトの前記端末に対する３次元相対位置を前記第１の３次元相対位置として決定するステップとを含む、
ことを特徴とする請求項１に記載の方法。
ターゲット音声の音源発声面積と、ターゲット音声の音源残響効果と、ターゲット音声の音源環境とのうちの少なくとも１つを含む前記ターゲット音声の付加説明情報を取得するステップをさらに含み、
前記第２の３次元相対位置に基づいて、前記ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させる前記ステップは、
前記第２の３次元相対位置及び前記付加説明情報に基づいて、前記ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られた前記オーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させるステップを含む、
ことを特徴とする請求項１に記載の方法。
前記ターゲットオブジェクトに対応する画像素材を前記生画像の前記第１の３次元相対位置にオーバーレイして、前記生画像に対応する拡張現実（ＡＲ）画像を生成するステップと、
前記ＡＲ画像を表示するステップと、をさらに含む、
ことを特徴とする請求項１～請求項５のいずれか１項に記載の方法。
前記端末がサラウンド再生条件に適合するか否かを決定するステップと、
前記端末が前記サラウンド再生条件に適合すると決定した場合、前記３次元効果処理後に得られた前記オーディオを再生するステップと、をさらに含む、
ことを特徴とする請求項１～請求項６のいずれか１項に記載の方法。
端末によってキャプチャされた生画像を取得するための第１の取得モジュールと、
前記生画像に基づいて、ターゲットオブジェクトの前記端末に対する３次元相対位置を第１の３次元相対位置として決定するための第１の決定モジュールと、
前記第１の３次元相対位置に応じて、効果音オブジェクトに対応する効果音音声であるターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する前記効果音オブジェクトとの位置関係に合致させるためのオーディオ処理モジュールと、を含み、
前記効果音オブジェクトが、前記ターゲットオブジェクトと異なる位置にあり、
前記第１の決定モジュールは、さらに、
前記第１の３次元相対位置、及び前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に基づいて、前記ターゲット音声の音源位置の前記端末に対する３次元相対位置を第２の３次元相対位置として決定することに用いられ、
前記オーディオ処理モジュールは、さらに、
前記第２の３次元相対位置に基づいて、前記ターゲット音声に対して３次元効果処理を行い、３次元効果処理後に得られたオーディオにおける前記ターゲット音声の音源位置及び前記第１の３次元相対位置を、前記ターゲットオブジェクトと前記ターゲットオブジェクトに対応する効果音オブジェクトとの位置関係に合致させることに用いられる、
ことを特徴とするオーディオ処理装置。
コンピュータプログラムが記憶されているコンピュータ可読媒体であって、前記コンピュータプログラムが処理装置によって実行されると、請求項１～請求項７のいずれか１項に記載の方法のステップが実施される、
コンピュータ可読媒体。
コンピュータプログラムが記憶されている記憶装置と、
前記記憶装置における前記コンピュータプログラムを実行して、請求項１～請求項７のいずれか１項に記載の方法のステップを実施するための処理装置と、を含む、
ことを特徴とする電子機器。
コンピュータプログラムが処理装置によって実行されると、請求項１から７のいずれか１項に記載の方法のステップが実施される、
コンピュータプログラム。