JP2024517503A - 三次元オーディオ信号コーディング方法および装置、ならびにエンコーダ - Google Patents

三次元オーディオ信号コーディング方法および装置、ならびにエンコーダ Download PDF

Info

Publication number
JP2024517503A
JP2024517503A JP2023571255A JP2023571255A JP2024517503A JP 2024517503 A JP2024517503 A JP 2024517503A JP 2023571255 A JP2023571255 A JP 2023571255A JP 2023571255 A JP2023571255 A JP 2023571255A JP 2024517503 A JP2024517503 A JP 2024517503A
Authority
JP
Japan
Prior art keywords
virtual
voting
virtual speakers
current frame
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023571255A
Other languages
English (en)
Inventor
原 高
▲帥▼ ▲劉▼
▲賓▼ 王
▲ジョー▼ 王
天▲書▼ 曲
佳浩 徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2024517503A publication Critical patent/JP2024517503A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本出願は、三次元オーディオ信号コーディング方法および装置、ならびにエンコーダ(113)を開示し、マルチメディア分野に関する。本方法は、以下を含む。三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定した(610)後に、エンコーダ(113)は、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択し(620)、現在のフレームに対する第2の数量の代表的な仮想スピーカに基づいて、現在のフレームをさらに符号化して、ビットストリームを取得する(630)。これは、効率的なデータ圧縮を達成する。

Description

本出願は、マルチメディア分野に関し、特に、三次元オーディオ信号コーディング方法および装置、ならびにエンコーダに関する。
本出願は、2021年5月17日に中国国家知的財産権局に出願され、「THREE-DIMENSIONAL AUDIO SIGNAL CODING METHOD AND APPARATUS、AND ENCODER」と題された中国特許出願第202110536631.5号の優先権を主張し、この中国特許出願は、その全体が参照により本明細書に組み込まれている。
高性能コンピュータおよび信号処理技術の急速な発展に伴って、聴取者は、音声およびオーディオ体験に対して益々高い要件を課している。イマーシブオーディオは、この態様における人々の要件を満足させることができる。例えば、三次元オーディオ技術は、無線通信(例えば、4G/5G)音声、仮想現実/拡張現実、メディアオーディオ、および他の態様において広く使用されている。三次元オーディオ技術は、実世界における音および三次元音場情報を取得し、処理し、送信し、レンダリングし、再生して、強い空間感、包容感および没入感を音に提供するためのオーディオ技術である。これは、聴取者に対して、並外れた「没入型」聴覚の体験を提供する。
一般に、収集デバイス(例えば、マイクロフォン)は、大量のデータを収集して、三次元音場情報を記録し、三次元オーディオ信号を再生デバイス(例えば、スピーカまたはイヤホン)に送信し、その結果、再生デバイスは、三次元オーディオを再生する。三次元音場情報のデータ量は大きいので、データを記憶するために大量の記憶空間が必要とされ、三次元オーディオ信号を送信するために高帯域幅が必要とされる。前述の課題を解決するために、三次元オーディオ信号は、圧縮され得、圧縮されたデータは、記憶または送信され得る。現在、エンコーダは、複数の予め設定された仮想スピーカを使用することによって、三次元オーディオ信号を圧縮し得る。しかしながら、エンコーダによって、三次元オーディオ信号に対して圧縮コーディングを行う計算複雑度は高い。そのため、三次元オーディオ信号に対して圧縮コーディングを行う計算複雑度をどのように低減するかは、解決されるべき緊急の課題である。
本出願は、三次元オーディオ信号に圧縮コーディングを行う計算複雑度を低減するための三次元オーディオ信号コーディング方法および装置、ならびにエンコーダを提供する。
第1の態様によれば、本出願は、三次元オーディオ信号符号化方法を提供する。本方法は、エンコーダによって行われ得、具体的には、以下のステップを含む。三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定した後に、エンコーダは、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択し、現在のフレームに対する第2の数量の代表的な仮想スピーカに基づいて、現在のフレームをさらに符号化して、ビットストリームを取得する。第2の数量は、第1の数量未満であり、これは、現在のフレームに対する第2の数量の代表的な仮想スピーカが、候補仮想スピーカセットにおけるいくつかの仮想スピーカであることを示す。仮想スピーカは、投票値と1対1で対応することが理解され得る。例えば、第1の数量の仮想スピーカは、第1の仮想スピーカを含み、第1の数量の投票値は、第1の仮想スピーカの投票値を含み、第1の仮想スピーカは、第1の仮想スピーカの投票値に対応する。第1の仮想スピーカの投票値は、現在のフレームが符号化される場合に、第1の仮想スピーカを使用する優先度を表す。候補仮想スピーカセットは、第5の数量の仮想スピーカを含み、第5の数量の仮想スピーカは、第1の数量の仮想スピーカを含み、第1の数量は、第5の数量以下であり、投票ラウンド数量は、1以上の整数であり、投票ラウンド数量は、第5の数量以下である。
現在、仮想スピーカを検索するプロセスにおいて、エンコーダは、符号化対象の三次元オーディオ信号と仮想スピーカとの間の関連する計算の結果を、仮想スピーカの選択測定インジケータとして使用する。また、エンコーダが、各係数についての仮想スピーカを送信する場合、効率的なデータ圧縮は達成されることができず、重い計算負荷がエンコーダに対して引き起こされる。本出願のこの実施形態において提供される、仮想スピーカを選択するための方法によれば、エンコーダは、小さい数量の代表的な係数を使用して、現在のフレームの全ての係数を置換して、候補仮想スピーカセットにおける各仮想スピーカに投票し、投票値に基づいて、現在のフレームに対する代表的な仮想スピーカを選択する。さらに、エンコーダは、現在のフレームに対する代表的な仮想スピーカを使用して、符号化対象の三次元オーディオ信号に対して圧縮符号化を行い、これは、三次元オーディオ信号を圧縮またはコーディングする圧縮レートを効果的に改善するだけでなく、エンコーダによって仮想スピーカを検索する計算複雑度も低減し、それによって、三次元オーディオ信号に圧縮コーディングを行う計算複雑度を低減し、エンコーダの計算負荷を低減する。
第2の数量は、エンコーダによって選択される現在のフレームに対する代表的な仮想スピーカの数量を表す。より大きい第2の数量は、現在のフレームに対する、より大きい数量の代表的な仮想スピーカ、および三次元オーディオ信号のより多くの音場情報を示し、より小さい第2の数量は、現在のフレームに対する、より小さい数量の代表的な仮想スピーカ、および三次元オーディオ信号のより少ない音場情報を示す。そのため、第2の数量は、エンコーダによって選択される、現在のフレームに対する代表的な仮想スピーカの数量を制御するために設定され得る。例えば、第2の数量は、予め設定されてよい。別の例として、第2の数量は、現在のフレームに基づいて決定されてよい。例えば、第2の数量の値は、1、2、4、または8であってよい。
具体的には、エンコーダは、以下の2つの手法のどちらかにおいて、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択し得る。
手法1:エンコーダが、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択することは、第1の数量の投票値および予め設定された閾値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択することを特に含む。
手法2:エンコーダが、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択することは、第1の数量の投票値に基づいて、第1の数量の投票値から第2の数量の投票値を決定することと、第1の数量の仮想スピーカ内の第2の数量の仮想スピーカであって、第2の数量の投票値に対応する、第2の数量の仮想スピーカを、現在のフレームに対する第2の数量の代表的な仮想スピーカとして使用することとを特に含む。
さらに、投票ラウンド数量は、以下、すなわち、三次元オーディオ信号の現在のフレームにおける指向性音源の数量、現在のフレームが符号化されるコーディングレート、および現在のフレームを符号化するコーディング複雑度のうちの少なくとも1つに基づいて、決定され得る。投票ラウンド数量のより大きな値は、エンコーダが、より小さい数量の代表的な係数を使用して、候補仮想スピーカセットにおける仮想スピーカに対して複数回の反復的な投票を行い、複数の投票ラウンドにおける投票値に基づいて、現在のフレームに対する代表的な仮想スピーカを選択することができることを示し、それによって、現在のフレームに対する代表的な仮想スピーカを選択する精度を改善する。
可能な実装において、エンコーダは、候補仮想スピーカセットにおける全ての仮想スピーカの投票値に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定し得る。
具体的には、第1の数量が第5の数量と等しい場合、エンコーダが、三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定することは、以下を特に含む。エンコーダが、現在のフレームの第3の数量の代表的な係数を取得し、第3の数量の代表的な係数は、第1の代表的な係数および第2の代表的な係数を含むと仮定すると、エンコーダは、第5の数量の仮想スピーカの第5の数量の第1の投票値であって、第1の代表的な係数を使用することによって投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第1の投票値と、第5の数量の仮想スピーカの第5の数量の第2の投票値であって、第2の代表的な係数を使用することによって投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第2の投票値とを取得する。第5の数量の第1の投票値は、第1の仮想スピーカの第1の投票値を含み、第5の数量の第2の投票値は、第1の仮想スピーカの第2の投票値を含む。さらに、エンコーダは、第5の数量の第1の投票値および第5の数量の第2の投票値に基づいて、第5の数量の仮想スピーカのそれぞれの投票値を取得する。第1の仮想スピーカの投票値は、第1の仮想スピーカの第1の投票値と第1の仮想スピーカの第2の投票値との和に基づいて取得され、第5の数量は、第1の数量と等しいことが理解され得る。そのため、エンコーダは、現在のフレームの各係数について、候補仮想スピーカセットに含まれる第5の数量の仮想スピーカに投票し、候補仮想スピーカセットに含まれる第5の数量の仮想スピーカの投票値を選択基準として使用して、第5の数量の仮想スピーカを万遍なく網羅し、それによって、現在のフレームに対する代表的な仮想スピーカであって、エンコーダによって選択される代表的な仮想スピーカの精度を確保する。
例えば、エンコーダが、第5の数量の仮想スピーカの第5の数量の第1の投票値であって、第1の代表的な係数を使用することによって投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第1の投票値を取得することは、第5の数量の仮想スピーカの係数および第1の代表的な係数に基づいて、第5の数量の第1の投票値を決定することを含む。
別の可能な実装において、エンコーダは、候補仮想スピーカセットにおけるいくつかの仮想スピーカの投票値に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定し得る。
具体的には、第1の数量が第5の数量以下である場合に、三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値が決定されるとき、前述の可能な実装との差異は、以下にある。エンコーダが、第5の数量の第1の投票値および第5の数量の第2の投票値を取得した後に、エンコーダは、第5の数量の第1の投票値に基づいて、第5の数量の仮想スピーカから、第8の数量の仮想スピーカを選択し、第8の数量は、第5の数量未満であり、これは、第8の数量の仮想スピーカが、第5の数量の仮想スピーカのうちの一部であることを示し、エンコーダは、第5の数量の第2の投票値に基づいて、第5の数量の仮想スピーカから、第9の数量の仮想スピーカを選択し、第9の数量は、第5の数量未満であり、これは、第9の数量の仮想スピーカが、第5の数量の仮想スピーカの一部であることを示す。さらに、エンコーダは、第8の数量の仮想スピーカの第1の投票値および第9の数量の仮想スピーカの第2の投票値に基づいて、第10の数量の仮想スピーカの第10の数量の第3の投票値を取得し、すなわち、エンコーダは、第8の数量の仮想スピーカおよび第9の数量の仮想スピーカにおいて、同じ数字を有する仮想スピーカの投票値を、蓄積を通じて、取得する。そのため、エンコーダは、第8の数量の第1の投票値、第9の数量の第2の投票値、および第10の数量の第3の投票値に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を取得する。第1の数量の仮想スピーカは、第8の数量の仮想スピーカおよび第9の数量の仮想スピーカを含むことが理解され得る。第8の数量の仮想スピーカは、第10の数量の仮想スピーカを含み、第9の数量の仮想スピーカは、第10の数量の仮想スピーカを含む。第10の数量の仮想スピーカは、第2の仮想スピーカを含み、第2の仮想スピーカの第3の投票値は、第2の仮想スピーカの第1の投票値と第2の仮想スピーカの第2の投票値との和に基づいて取得され、第10の数量は、第8の数量以下であり、第10の数量は、第9の数量以下である。さらに、第10の数量は、1以上の整数とし得る。
任意選択で、第8の数量の仮想スピーカおよび第9の数量の仮想スピーカにおいて、同じ数字を有する仮想スピーカはなく、すなわち、第10の数量は、0に等しくなり得る。エンコーダは、第8の数量の第1の投票値および第9の数量の第2の投票値に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を取得する。
このようにして、エンコーダは、現在のフレームの各係数について、候補仮想スピーカセットに含まれる第5の数量の仮想スピーカの投票値から、大きい値を有する投票値を選択し、大きい値を有する投票値を使用することによって、第1の数量の仮想スピーカおよび第1の数量の投票値を決定し、それによって、現在のフレームの代表的な仮想スピーカであって、エンコーダによって選択される代表的な仮想スピーカの精度を確保しながら、エンコーダによって仮想スピーカを検索する計算複雑度を低減する。
さらに、エンコーダが、現在のフレームの第3の数量の代表的な係数を取得することは、現在のフレームの第4の数量の係数、および第4の数量の係数の周波数ドメイン特徴値を取得することと、第4の数量の係数の周波数ドメイン特徴値に基づいて、第4の数量の係数から、第3の数量の代表的な係数を選択することであって、第3の数量は、第4の数量未満である、選択することとを含み、これは、第3の数量の代表的な係数が、第4の数量の係数の一部であることを示す。三次元オーディオ信号の現在のフレームは、高次アンビソニックス(higher order ambisonics, HOA)信号であってよく、現在のフレームの係数の周波数ドメイン特徴値は、HOA信号の係数に基づいて決定される。
このようにして、エンコーダは、現在のフレームの全ての係数から、いくつかの係数を代表的な係数として選択し、小さい数量の代表的な係数を使用して、現在のフレームの全ての係数を置換して、候補仮想スピーカセットから、代表的な仮想スピーカを選択する。そのため、エンコーダによって仮想スピーカを検索する計算複雑度が効果的に低減され、それによって、三次元オーディオ信号に圧縮コーディングを行う計算複雑度を低減し、エンコーダの計算負荷を低減する。
エンコーダが、現在のフレームに対する第2の数量の代表的な仮想スピーカに基づいて、現在のフレームを符号化して、ビットストリームを取得することは、以下を含む。エンコーダは、現在のフレームに対する第2の数量の代表的な仮想スピーカ、および現在のフレームに基づいて、仮想スピーカ信号を生成し、仮想スピーカ信号を符号化して、ビットストリームを取得する。
現在のフレームの係数の周波数ドメイン特徴値は、三次元オーディオ信号の音場特徴を表すので、エンコーダは、現在のフレームの係数の周波数ドメイン特徴値に基づいて、現在のフレームの代表的な係数であって、代表的な音場成分を有する代表的な係数を選択し、代表的な係数を使用することによって、候補仮想スピーカセットから選択される、現在のフレームに対する代表的な仮想スピーカは、三次元オーディオ信号の音場特徴を完全に表すことができ、それによって、エンコーダが、現在のフレームに対する代表的な仮想スピーカを使用することによって、符号化対象の三次元オーディオ信号を圧縮または符号化する場合に生成される仮想スピーカ信号の精度を、さらに改善する。このようにして、三次元オーディオ信号を圧縮またはコーディングする圧縮レートが改善され、それによって、ビットストリームを送信するためにエンコーダによって占有される帯域幅を低減する。
任意選択で、エンコーダが、第4の数量の係数の周波数ドメイン特徴値に基づいて、第4の数量の係数から、第3の数量の代表的な係数を選択する前に、本方法は、現在のフレームと、以前のフレームに対して設定された代表的な仮想スピーカとの間の第1の相関を取得するステップと、第1の相関が再使用条件を満足しない場合、三次元オーディオ信号の現在のフレームの第4の数量の係数、および第4の数量の係数の周波数ドメイン特徴値を取得するステップとをさらに含む。以前のフレームに対して設定された代表的な仮想スピーカは、第6の数量の仮想スピーカを含み、第6の数量の仮想スピーカに含まれる仮想スピーカは、三次元オーディオ信号の以前のフレームを符号化するために使用される、以前のフレームに対する代表的な仮想スピーカであり、第1の相関は、現在のフレームが符号化される場合に、以前のフレームに対して設定された代表的な仮想スピーカを再使用するかどうかを決定するために使用される。
このようにして、エンコーダは、まず、現在のフレームを符号化するために、以前のフレームに対して設定された代表的な仮想スピーカセットが再使用されることが可能かどうかを決定し得る。エンコーダが、以前のフレームに対して設定された代表的な仮想スピーカを再使用して、現在のフレームを符号化する場合、エンコーダは、仮想スピーカを検索するプロセスを行わず、これは、エンコーダによって仮想スピーカを検索する計算複雑度を効果的に低減し、それによって、三次元オーディオ信号に圧縮コーディングを行う計算複雑度を低減し、エンコーダの計算負荷を低減する。さらに、異なるフレームにおける仮想スピーカの頻繁な変化が低減され得、それによって、フレーム間の向き連続性を低減し、再構築された三次元オーディオ信号のオーディオ安定性を改善し、再構築された三次元オーディオ信号の音質を確保する。エンコーダが、以前のフレームに対して設定された代表的な仮想スピーカを再使用して、現在のフレームを符号化することができない場合、エンコーダは、代表的な係数を選択し、現在のフレームの代表的な係数を使用して、候補仮想スピーカセットにおける各仮想スピーカに投票し、投票値に基づいて、現在のフレームに対する代表的な仮想スピーカを選択し、それによって、三次元オーディオ信号に圧縮コーディングを行う計算複雑度を低減し、エンコーダの計算負荷を低減する。
任意選択で、エンコーダが、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択することは、第1の数量の投票値、および以前のフレームの第6の数量の最終的な投票値に基づいて、第7の数量の仮想スピーカに対応する、現在のフレームの第7の数量の最終的な投票値、および現在のフレームを取得することと、現在のフレームの第7の数量の最終的な投票値に基づいて、第7の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択することであって、第2の数量は、第7の数量未満である、選択することとを含み、これは、現在のフレームに対する第2の数量の代表的な仮想スピーカが、第7の数量の仮想スピーカの一部であることを示す。第7の数量の仮想スピーカは、第1の数量の仮想スピーカを含み、第7の数量の仮想スピーカは、第6の数量の仮想スピーカを含み、第6の数量の仮想スピーカに含まれる仮想スピーカは、三次元オーディオ信号の以前のフレームを符号化するために使用される、以前のフレームに対する代表的な仮想スピーカである。以前のフレームに対して設定された代表的な仮想スピーカに含まれる第6の数量の仮想スピーカは、以前のフレームの第6の数量の最終的な投票値と1対1で対応する。
仮想スピーカを検索するプロセスにおいて、実際の音源の位置は、仮想スピーカの位置と不必要に重複するので、仮想スピーカは、実際の音源との1対1での対応を形成することができないことがある。さらに、実際の複雑なシナリオにおいて、制限された数量の仮想スピーカを有するセットは、音場における全ての音源を表すことができないことがある。この場合において、異なるフレームにおいて見出される仮想スピーカは、頻繁に変化することがあり、この変化は、明らかに聴取者の聴覚的感覚に影響を与え、復号および再構築の後に取得される三次元オーディオ信号において、明らかな不連続性およびノイズをもたらす。本出願のこの実施形態において提供される、仮想スピーカを選択するための方法によれば、以前のフレームに対する代表的な仮想スピーカが継承され、具体的には、同じ数字を有する仮想スピーカについて、現在のフレームの初期投票値は、以前のフレームの最終的な投票値を使用することによって調整され、その結果、エンコーダは、以前のフレームに対する代表的な仮想スピーカを選択する傾向がより高くなり、それによって、異なるフレームにおける仮想スピーカの頻繁な変化を低減し、フレーム間の信号向き連続性を高め、再構築された三次元オーディオ信号のオーディオ安定性を改善し、再構築された三次元オーディオ信号の音質を確保する。
任意選択で、本方法は、以下をさらに含む。エンコーダは、三次元オーディオ信号の現在のフレームをさらに収集して、三次元オーディオ信号の現在のフレームに対して圧縮符号化を行って、ビットストリームを取得し、ビットストリームをデコーダ側へ送信し得る。
第2の態様によれば、本出願は、三次元オーディオ信号符号化装置を提供し、本装置は、第1の態様または第1の態様の可能な設計のいずれか1つによる三次元オーディオ信号符号化方法を行うように構成されたモジュールを含む。例えば、三次元オーディオ信号符号化装置は、仮想スピーカ選択モジュールと、符号化モジュールとを含む。仮想スピーカ選択モジュールは、三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定するように構成され、仮想スピーカは、投票値と1対1で対応し、第1の数量の仮想スピーカは、第1の仮想スピーカを含み、第1の数量の投票値は、第1の仮想スピーカの投票値を含み、第1の仮想スピーカは、第1の仮想スピーカの投票値に対応し、第1の仮想スピーカの投票値は、現在のフレームが符号化される場合に第1の仮想スピーカを使用する優先度を表し、候補仮想スピーカセットは、第5の数量の仮想スピーカを含み、第5の数量の仮想スピーカは、第1の数量の仮想スピーカを含み、投票ラウンド数量は、1以上の整数であり、投票ラウンド数量は、第5の数量以下である。仮想スピーカ選択モジュールは、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択するようにさらに構成され、第2の数量は、第1の数量未満である。符号化モジュールは、現在のフレームに対する第2の数量の代表的な仮想スピーカに基づいて、現在のフレームを符号化して、ビットストリームを取得するように構成される。これらのモジュールは、第1の態様における方法例において対応する機能を行い得る。詳細については、方法例における詳細な説明を参照されたい。詳細は、ここでは再度説明されない。
第3の態様によれば、本出願は、エンコーダを提供する。エンコーダは、少なくとも1つのプロセッサと、メモリとを含む。メモリは、コンピュータ命令のグループを記憶するように構成され、コンピュータ命令のグループを実行する場合に、プロセッサは、第1の態様または第1の態様の可能な実装のいずれか1つによる三次元オーディオ信号符号化方法の動作ステップを行う。
第4の態様によれば、本出願は、システムを提供する。システムは、第3の態様によるエンコーダと、デコーダとを含む。エンコーダは、第1の態様または第1の態様の可能な実装のいずれか1つによる三次元オーディオ信号符号化方法の動作ステップを行うように構成され、デコーダは、エンコーダによって生成されるビットストリームを復号するように構成される。
第5の態様によれば、本出願は、コンピュータソフトウェア命令を含む、コンピュータ可読記憶媒体を提供する。コンピュータソフトウェア命令が、エンコーダ上で実行される場合に、エンコーダは、第1の態様または第1の態様の可能な実装のいずれか1つによる方法の動作ステップを行うことを可能にされる。
第6の態様によれば、本出願は、コンピュータプログラム製品を提供する。コンピュータプログラム製品が、エンコーダ上で実行される場合に、エンコーダは、第1の態様または第1の態様の可能な実装のいずれか1つによる方法の動作ステップを行うことを可能にされる。
本出願において、前述の態様において提供される実装に基づいて、実装は、より多くの実装を提供するためにさらに組み合わされてよい。
本出願の一実施形態によるオーディオコーディングシステムの構造の概略図である。 本出願の一実施形態によるオーディオコーディングシステムのシナリオの概略図である。 本出願の一実施形態によるエンコーダの構造の概略図である。 本出願の一実施形態による三次元オーディオ信号符号化方法の概略フローチャートである。 本出願の一実施形態による、仮想スピーカを選択するための方法の概略フローチャートである。 本出願の一実施形態による三次元オーディオ信号符号化方法の概略フローチャートである。 本出願の一実施形態による、仮想スピーカを選択するための別の方法の概略フローチャートである。 本出願の一実施形態による、仮想スピーカを選択するための別の方法の概略フローチャートである。 本出願の一実施形態による、仮想スピーカを選択するための別の方法の概略フローチャートである。 本出願の一実施形態による、仮想スピーカを選択するための別の方法の概略フローチャートである。 本出願による符号化装置の構造の概略図である。 本出願によるエンコーダの構造の概略図である。
以下の実施形態の明確かつ簡単な説明のために、関連する技術が、まず、簡単に説明される。
音(sound)は、オブジェクトの振動を通じて生成される連続波である。振動を生成し、音波を放出するオブジェクトは、音源と称される。音波が媒体(例えば空気、固体または、液体など)を通じて伝播されるプロセスにおいて、人間または動物の聴覚器官は、音を感知することができる。
音波の特徴は、ピッチ、音の強さ、および音色を含む。ピッチは、音の高さ/低さを示す。音の強さは、音の音量を示し、音の強さは、ラウドネスまたは音量と称されてもよく、音の強さは、デシベル(decibel,dB)の単位である。音色は、音質とも称される。
音波の周波数は、ピッチの値を決定し、より高い周波数は、より高いピッチを示す。オブジェクトが1秒間に振動する回数は、周波数と称され、周波数は、ヘルツ(hertz,Hz)の単位である。人間の耳によって認識されることが可能な音周波数は、20Hzから20000Hzに及ぶ。
音波の振幅は、音の強さを決定し、より大きい振幅は、より大きい音の強さを示す。音源へのより短い距離は、より大きい音の強さを示す。
音波の波形は、音色を決定する。音波の波形は、方形波、のこぎり波形、正弦波、パルス波等を含む。
音は、音波の特徴に基づいて、規則音と不規則音とに分類されることが可能である。不規則音は、音源の不規則な振動を通じて放出された音である。不規則音は、例えば、人々の作業、研究、休息等に影響を与えるノイズである。規則音は、音源の規則的な振動を通じて放出された音である。規則音は、音声と音楽とを含む。音が電気によって表される場合、規則音は、時間周波数ドメインにおいて連続的に変化するアナログ信号である。アナログ信号は、オーディオ信号と称されてもよい。オーディオ信号は、音声、音楽、および音響効果を搬送する情報担体である。
人間の聴覚は、空間内の音源の位置分散を認識する能力を有するので、空間内で音を聞く場合、聴取者は、音のピッチ、音の強さ、および音色を感知することに加えて、音の方向を感知することができる。
人々が、音の奥行き感、存在感および、空間感を高めるために、聴覚システム体験に対して益々大きい注意を払い、益々高い品質要件を有するにつれて、三次元オーディオ技術が出現してきている。そのため、聴取者は、前方、後方、左側、および右側の音源から放出された音を感じるだけではなく、聴取者が位置する空間が、これらの音源によって生成された空間音場(略して「音場」(sound field))によって囲まれていること、および、音が周囲に広がることも感じ、それによって、聴取者が映画館、コンサートホール等に居るように感じる「没入型」音響効果を生み出す。
三次元オーディオ技術とは、人間の耳の外部の空間がシステムとして仮定され、鼓膜において受け取られる信号は、音源によって放出された音が耳の外部のシステムによってフィルタリングされた後に出力される三次元オーディオ信号であることを意味する。例えば、人間の耳の外部のシステムは、システムインパルス応答h(n)として定義されてよく、任意の音源は、x(n)として定義されてよく、鼓膜において受け取られる信号は、x(n)とh(n)との畳み込み結果である。本出願の実施形態における三次元オーディオ信号は、高次アンビソニックス(higher order ambisonics,HOA)信号であってよい。三次元オーディオは、三次元音響効果、空間オーディオ、三次元音場再構築、仮想3Dオーディオ、バイノーラルオーディオ等と称されてもよい。
音波が理想的な媒体において伝播される場合、波量は、k=w/cであり、角周波数は、w=2πfであり、ただし、fは、音波周波数であり、cは、音速であることは周知である。音圧pは、式(1)を満足し、∇2は、ラプラス演算子である。
2p+k2p=0 式(1)
人間の耳の外部の空間システムは球体であり、聴取者は球体の中心に位置しており、球体の外部から伝えられる音は、球体上に投射されて、球体の外部の音をフィルタリングすると仮定される。音源が球体上に分散されると仮定すると、球体上の音源によって生成される音場は、原音源によって生成される音場に適合するために使用される。言いかえれば、三次元オーディオ技術は、音場に適合するための方法である。具体的には、式(1)における方程式は、球面座標系において解かれる。受動球面領域において、式(1)における方程式は、以下の式(2)として解かれる。
ただし、rは、球体半径を表し、θは、水平角を表し、φは、ピッチ角を表し、kは、波量を表し、sは、理想平面波の振幅を表し、mは、三次元オーディオ信号の順序シーケンス番号(または、HOA信号の順序シーケンス番号と称される)を表し、
は、球ベッセル関数を表し、ただし、球ベッセル関数は、半径基底関数とも称され、最初のjは、虚数単位を表し、
は、角度と共に変化せず、
は、θおよびφの方向における球面調和関数を表し、
は、音源方向における球面調和関数を表し、三次元オーディオ信号係数は、式(3)を満足する。
式(3)は、式(2)へ代入され、式(2)は、式(4)へ変換され得る。
は、N次の三次元オーディオ信号係数を表し、音場を近似的に説明するために使用される。音場は、音波が媒体中に存在する領域である。Nは、1以上の整数であり、例えば、Nの値は、2から6に及ぶ整数である。本出願の実施形態における三次元オーディオ信号係数は、HOA係数またはアンビソニック(ambisonic)係数であってよい。
三次元オーディオ信号は、音場における音源の空間位置情報を搬送し、空間内の聴取者の音場を説明する情報担体である。式(4)は、音場が球面調和関数に従って球体上に拡大し得ること、すなわち、音場が複数の平面波の重ね合せへ分解され得ることを示す。そのため、三次元オーディオ信号によって説明される音場は、複数の平面波の重ね合せによって表現され得、音場は、三次元オーディオ信号係数を使用することによって再構築される。
5.1チャネルオーディオ信号または7.1チャネルオーディオ信号と比較して、N次のHOA信号は、(N+1)2個のチャネルを有するので、このHOA信号は、音場の空間的情報を説明するために使用される大量のデータを含む。収集デバイス(例えば、マイクロフォン)が、再生デバイス(例えば、スピーカ)へ三次元オーディオ信号を送信する場合、大きい帯域幅が消費される必要がある。現在、エンコーダは、空間的にスクイーズされたサラウンドオーディオコーディング(spatial squeezed surround audio coding,S3AC)または指向性オーディオコーディング(directional audio coding,DirAC)を使用することによって、三次元オーディオ信号に対して圧縮コーディングを行って、ビットストリームを取得し、ビットストリームを再生デバイスへ送信し得る。再生デバイスは、ビットストリームを復号し、三次元オーディオ信号を再構築し、再構築された三次元オーディオ信号を再生する。そのため、再生デバイスへ送信される三次元オーディオ信号のデータ量は減少され、占有帯域幅が低減される。しかしながら、エンコーダによって三次元オーディオ信号に圧縮コーディングを行う計算複雑度は高く、エンコーダの過度なコンピューティングリソースが占有される。そのため、三次元オーディオ信号に圧縮コーディングを行う計算複雑度をどのように低減するかは、解決されるべき緊急の課題である。
本出願の実施形態は、オーディオコーディング技術を提供し、特に、三次元オーディオ信号に適応させられた三次元オーディオコーディング技術を提供し、具体的には、従来のオーディオコーディングシステムを改善するように、より少ないチャネルが三次元オーディオ信号を表すコーディング技術を提供する。ビデオコーディング(または通常はコーディングと称される)は、2つの部分、すなわち、ビデオ符号化とビデオ復号とを含む。源側で行われる場合、オーディオコーディングは、通常は、元のオーディオを処理(例えば、圧縮)して、元のオーディオを表すために必要とされるデータの量を減少させ、それによって、元のオーディオをより効率的に記憶および/または送信する。宛先側で行われる場合、オーディオ復号は、通常は、元のオーディオを再構築するために、エンコーダに対する逆処理を含む。コーディング部分と復号部分とは、合わせてコーディングと称されてもよい。以下は、添付の図面を参照しつつ、本出願の実施形態の実装を詳細に説明する。
図1は、本出願の一実施形態によるオーディオコーディングシステムの構造の概略図である。オーディオコーディングシステム100は、ソースデバイス110と宛先デバイスと120を含む。ソースデバイス110は、三次元オーディオ信号に対して圧縮符号化を行って、ビットストリームを取得し、ビットストリームを宛先デバイス120へ送信するように構成される。宛先デバイス120は、ビットストリームを復号し、三次元オーディオ信号を再構築し、再構築された三次元オーディオ信号を再生する。
具体的には、ソースデバイス110は、オーディオ取得デバイス111、プリプロセッサ112、エンコーダ113、および通信インターフェイス114を含む。
オーディオ取得デバイス111は、元のオーディオを取得するように構成される。オーディオ取得デバイス111は、実世界における音を収集するように構成された任意のタイプのオーディオ収集デバイス、および/または任意のタイプのオーディオ生成デバイスであってよい。オーディオ取得デバイス111は、例えば、コンピュータオーディオを生成するように構成されたコンピュータオーディオプロセッサである。オーディオ取得デバイス111は、代替として、任意のタイプのメモリ、またはオーディオを記憶するメモリであってよい。オーディオは、実世界における音、仮想シーン(例えば、VRもしくは拡張現実(augmented reality,AR))における音、および/または、これらの任意の組み合わせを含む。
プリプロセッサ112は、オーディオ取得デバイス111によって収集された元のオーディオを受け取り、元のオーディオを前処理して、三次元オーディオ信号を取得するように構成される。例えば、プリプロセッサ112によって行われる前処理は、チャネル変換、オーディオフォーマット変換、ノイズ低減等を含む。
エンコーダ113は、プリプロセッサ112によって生成される三次元オーディオ信号を受け取り、三次元オーディオ信号に圧縮コーディングを行って、ビットストリームを取得するように構成される。例えば、エンコーダ113は、空間エンコーダ1131と、コアエンコーダ1132とを含み得る。空間エンコーダ1131は、三次元オーディオ信号に基づいて、候補仮想スピーカセットから仮想スピーカを選択し(または「検索し」と称される)、三次元オーディオ信号および仮想スピーカに基づいて、仮想スピーカ信号を生成するように構成される。仮想スピーカ信号は、再生信号と称されてもよい。コアエンコーダ1132は、仮想スピーカ信号を符号化して、ビットストリームを取得するように構成される。
通信インターフェイス114は、エンコーダ113によって生成されるビットストリームを受け取り、ビットストリームを通信チャネル130を通じて宛先デバイス120へ送るように構成され、その結果、宛先デバイス120は、ビットストリームに基づいて、三次元オーディオ信号を再構築する。
宛先デバイス120は、プレーヤ121、ポストプロセッサ122、デコーダ123、および通信インターフェイス124を含む。
通信インターフェイス124は、通信インターフェイス114によって送られるビットストリームを受け取り、ビットストリームをデコーダ123へ送信するように構成され、その結果、デコーダ123は、ビットストリームに基づいて、三次元オーディオ信号を再構築する。
通信インターフェイス114および通信インターフェイス124は、ソースデバイス110と宛先デバイス120との間の直接通信リンク、例えば、直接有線接続もしくは直接無線接続を使用することによって、または、任意のタイプのネットワーク、例えば、有線ネットワーク、無線ネットワーク、もしくは、これらの任意の組み合わせ、任意のタイプのプライベートネットワークおよび公衆ネットワーク、もしくは、これらの任意のタイプの組み合わせを使用することによって、元のオーディオの関連するデータを送るように、または受け取るように構成され得る。
通信インターフェイス114と通信インターフェイス124との両方は、ソースデバイス110から宛先デバイス120を指す、図1内の対応する通信チャネル130の矢印によって示される一方向の通信インターフェイス、または双方向通信インターフェイスとして構成され得、接続を確立し、通信リンクおよび/またはデータ送信、例えば、コーディングされたビットストリーム送信に関連する任意の他の情報を肯定応答および交換するために、メッセージ等を送るように、および受け取るように構成され得る。
デコーダ123は、ビットストリームを復号し、三次元オーディオ信号を再構築するように構成される。例えば、デコーダ123は、コアデコーダ1231と、空間デコーダ1232とを含む。コアデコーダ1231は、ビットストリームを復号して、仮想スピーカ信号を取得するように構成される。空間デコーダ1232は、候補仮想スピーカセットおよび仮想スピーカ信号に基づいて、三次元オーディオ信号を再構築して、再構築された三次元オーディオ信号を取得するように構成される。
ポストプロセッサ122は、デコーダ123によって生成される再構築された三次元オーディオ信号を受け取り、再構築された三次元オーディオ信号に対して後処理を行うように構成される。例えば、ポストプロセッサ122によって行われる後処理は、オーディオレンダリング、ラウドネス正規化、ユーザインタラクション、オーディオフォーマット変換、ノイズ低減等を含む。
プレーヤ121は、再構築された三次元オーディオ信号に基づいて、再構築された音を再生するように構成される。
オーディオ取得デバイス111およびエンコーダ113は、1つの物理デバイスへ一体化されてよく、または異なる物理デバイスに配設されてよいことが留意されるべきである。これは限定されない。例えば、図1に示されるソースデバイス110は、オーディオ取得デバイス111とエンコーダ113とを含んでおり、これは、オーディオ取得デバイス111およびエンコーダ113が、1つの物理デバイスへ一体化されていることを示す。この場合において、ソースデバイス110は、収集デバイスと称されてもよい。例えば、ソースデバイス110は、無線アクセスネットワークのメディアゲートウエイ、コアネットワークのメディアゲートウエイ、トランスコーディングデバイス、メディアリソースサーバ、ARデバイス、VRデバイス、マイクロフォンまたは別のオーディオ収集デバイスである。ソースデバイス110がオーディオ取得デバイス111を含まない場合、それは、オーディオ取得デバイス111およびエンコーダ113が、2つの異なる物理デバイスであり、ソースデバイス110は、別のデバイス(例えば、オーディオ収集デバイスまたはオーディオ記憶デバイス)から、元のオーディオを取得し得ることを示す。
さらに、プレーヤ121およびデコーダ123は、1つの物理デバイスへ一体化されてよく、または異なる物理デバイスに配設されてよい。これは限定されない。例えば、図1に示される宛先デバイス120は、プレーヤ121とデコーダ123とを含んでおり、これは、プレーヤ121およびデコーダ123が、1つの物理デバイス上に一体化されていることを示す。この場合において、宛先デバイス120は、再生デバイスと称されてもよく、宛先デバイス120は、再構築されたオーディオを復号および再生する機能を有する。例えば、宛先デバイス120は、スピーカ、イヤホン、またはオーディオを再生する別のデバイスである。宛先デバイス120がプレーヤ121を含まない場合、それは、プレーヤ121およびデコーダ123が、2つの異なる物理デバイスであることを示す。ビットストリームを復号し、三次元オーディオ信号を再構築した後に、宛先デバイス120は、再構築された三次元オーディオ信号を別の再生デバイス(例えば、スピーカまたはイヤホン)へ送信し、その別の再生デバイスは、再構築された三次元オーディオ信号を再生する。
さらに、図1は、ソースデバイス110および宛先デバイス120が、1つの物理デバイスへ一体化されてよいこと、ならびに、ソースデバイス110および宛先デバイス120が、代替として、異なる物理デバイス上に配設されてよいことを示す。これは限定されない。
例えば、図2の(a)において示されるように、ソースデバイス110は、レコーディングスタジオ内のマイクロフォンであってよく、宛先デバイス120は、スピーカであってよい。ソースデバイス110は、様々な楽器の元のオーディオを収集し、元のオーディオをコーディングデバイスへ送信し得る。コーディングデバイスは、元のオーディオを符号化および復号して、再構築された三次元オーディオ信号を取得し、宛先デバイス120は、再構築された三次元オーディオ信号を再生する。別の例として、ソースデバイス110は、端末デバイスにおけるマイクロフォンであってよく、宛先デバイス120は、イヤホンであってよい。ソースデバイス110は、外界音または端末デバイスによって合成されたオーディオを収集し得る。
別の例として、図2の(b)において示されるように、ソースデバイス110および宛先デバイス120は、仮想現実(virtual reality,VR)デバイス、拡張現実(Augmented Reality,AR)デバイス、混合現実(Mixed Reality,MR)デバイス、またはエクステンデッドリアリティ(Extended Reality,XR)デバイスへ一体化される。この場合において、VR/AR/MR/XRデバイスは、元のオーディオを収集し、オーディオを再生し、コーディングする機能を有する。ソースデバイス110は、ユーザによって放出される音と、ユーザが位置する仮想環境内の仮想物体によって放出される音とを収集し得る。
これらの実施形態において、ソースデバイス110またはソースデバイス110の対応する機能、および宛先デバイス120または宛先デバイス120の対応する機能は、同じハードウェアおよび/もしくはソフトウェアを使用することによって、別々のハードウェアおよび/もしくはソフトウェアを使用することによって、または、これらの任意の組み合わせを使用することによって、実装され得る。説明によれば、図1に示されるソースデバイス110および/または宛先デバイス120における異なるユニットまたは機能の存在および分割が、実際のデバイスおよび用途に依存して変わり得ることは、当業者にとって明らかである。
オーディオコーディングシステムの構造は、説明のための例に過ぎない。いくつかの可能な実装において、オーディオコーディングシステムは、別のデバイスをさらに含んでよい。例えば、オーディオコーディングシステムは、エンド側デバイスまたはクラウド側デバイスをさらに含んでよい。元のオーディオを収集した後に、ソースデバイス110は、元のオーディオを前処理して、三次元オーディオ信号を取得し、エンド側デバイスまたはクラウド側デバイスへ三次元オーディオを送信し、エンド側デバイスまたはクラウド側デバイスは、三次元オーディオ信号をコーディングおよび復号する機能を実装する。
本出願の実施形態において提供されるオーディオ信号コーディング方法は、主にエンコーダ側に適用される。エンコーダの構造は、図3を参照して、詳細に説明される。図3に示されるように、エンコーダ300は、仮想スピーカ設定ユニット310、仮想スピーカセット生成ユニット320、コーディング分析ユニット330、仮想スピーカ選択ユニット340、仮想スピーカ信号生成ユニット350、および符号化ユニット360を含む。
仮想スピーカ設定ユニット310は、エンコーダ設定情報に基づいて、仮想スピーカ設定パラメータを生成して、複数の仮想スピーカを取得するように構成される。エンコーダ設定情報は、三次元オーディオ信号の順序(または通常はHOA順序と称される)、コーディングビットレート、ユーザ定義された情報等を含むが、これらに限定されない。仮想スピーカ設定パラメータは、仮想スピーカの数量、仮想スピーカの順序、および仮想スピーカの位置座標を含むが、これらに限定されない。例えば、仮想スピーカの数量は、2048、1669、1343、1024、530、512、256、128、または64である。仮想スピーカの順序は、順序2から順序6のうちのいずれか1つであってよい。仮想スピーカの位置座標は、水平角とピッチ角とを含む。
仮想スピーカ設定ユニット310によって出力される仮想スピーカ設定パラメータは、仮想スピーカセット生成ユニット320の入力として使用される。
仮想スピーカセット生成ユニット320は、仮想スピーカ設定パラメータに基づいて、候補仮想スピーカセットを生成するように構成され、ただし、候補仮想スピーカセットは、複数の仮想スピーカを含む。具体的には、仮想スピーカセット生成ユニット320は、仮想スピーカの数量に基づいて、候補仮想スピーカセットに含まれる複数の仮想スピーカを決定し、仮想スピーカの位置情報(例えば、座標)および仮想スピーカの順序に基づいて、仮想スピーカの係数を決定する。例えば、仮想スピーカの座標を決定する方法は、以下を含むが、以下に限定されない。複数の仮想スピーカが、等距離ルールに従って生成され、または、均等に分散されない複数の仮想スピーカが、聴覚原理に基づいて生成され、次いで、仮想スピーカの座標が、仮想スピーカの数量に基づいて生成される。
仮想スピーカの係数は、三次元オーディオ信号を生成する前述の原理に基づいて生成されてもよい。式(3)におけるθsおよびφsは、それぞれ仮想スピーカの位置座標に設定され、
は、N次の仮想スピーカの係数を表す。仮想スピーカの係数は、アンビソニックス係数と称されてもよい。
コーディング分析ユニット330は、三次元オーディオ信号に対してコーディング分析を行うように、例えば、三次元オーディオ信号の音場分散特徴、すなわち、三次元オーディオ信号の音源の数量、音源の指向性、および音源の分散などの特徴を分析するように構成される。
仮想スピーカセット生成ユニット320によって出力される候補仮想スピーカセットに含まれる複数の仮想スピーカの係数は、仮想スピーカ選択ユニット340の入力として使用される。
三次元オーディオ信号の音場分散特徴であって、コーディング分析ユニット330によって出力される音場分散特徴は、仮想スピーカ選択ユニット340の入力として使用される。
仮想スピーカ選択ユニット340は、符号化対象の三次元オーディオ信号、三次元オーディオ信号の音場分散特徴、および複数の仮想スピーカの係数に基づいて、三次元オーディオ信号と一致する代表的な仮想スピーカを決定するように構成される。
限定なしに、本出願のこの実施形態におけるエンコーダ300は、代替として、コーディング分析ユニット330を含まなくてよく、具体的には、エンコーダ300は、入力信号を分析しなくてよく、仮想スピーカ選択ユニット340は、デフォルト設定を通じて、代表的な仮想スピーカを決定する。例えば、仮想スピーカ選択ユニット340は、三次元オーディオ信号および複数の仮想スピーカの係数のみに基づいて、三次元オーディオ信号と一致する代表的な仮想スピーカを決定する。
エンコーダ300は、エンコーダ300の入力として、収集デバイスから取得される三次元オーディオ信号、または人工オーディオオブジェクトを使用することによって合成される三次元オーディオ信号を使用し得る。さらに、エンコーダ300に対する三次元オーディオ信号入力は、時間ドメイン三次元オーディオ信号、または周波数ドメイン三次元オーディオ信号であってよい。これは限定されない。
仮想スピーカ選択ユニット340によって出力される、代表的な仮想スピーカの位置情報および代表的な仮想スピーカの係数は、仮想スピーカ信号生成ユニット350および符号化ユニット360の入力として使用される。
仮想スピーカ信号生成ユニット350は、三次元オーディオ信号および代表的な仮想スピーカの属性情報に基づいて、仮想スピーカ信号を生成するように構成される。代表的な仮想スピーカの属性情報は、以下、すなわち、代表的な仮想スピーカの位置情報、代表的な仮想スピーカの係数、および三次元オーディオ信号の係数のうちの少なくとも1つを含む。属性情報が、代表的な仮想スピーカの位置情報である場合、代表的な仮想スピーカの係数は、代表的な仮想スピーカの位置情報に基づいて決定され、属性情報が、三次元オーディオ信号の係数を含む場合、代表的な仮想スピーカの係数は、三次元オーディオ信号の係数に基づいて決定される。具体的には、仮想スピーカ信号生成ユニット350は、三次元オーディオ信号の係数および代表的な仮想スピーカの係数に基づいて、仮想スピーカ信号を計算する。
例えば、行列Aは、仮想スピーカの係数を表し、行列Xは、HOA信号の係数を表すと仮定される。行列Xは、行列Aの逆行列である。理論的な最適解wは、最小二乗法を使用することによって取得され、ただし、wは、仮想スピーカ信号を表す。仮想スピーカ信号は、式(5)を満足する。
w=A-1X 式(5)
-1は、行列Aの逆行列を表す。行列Aのサイズは、(M×C)である。Cは、仮想スピーカの数量を表し、Mは、N次のHOA信号の音チャネルの数量を表し、aは、仮想スピーカの係数を表し、行列Xのサイズは、(M×L)であり、Lは、HOA信号の係数の数量を表し、xは、HOA信号の係数を表す。代表的な仮想スピーカの係数は、代表的な仮想スピーカのHOA係数、または代表的な仮想スピーカのアンビソニックス係数であってよい。例えば、
であり、
である。
仮想スピーカ信号生成ユニット350によって出力される仮想スピーカ信号は、符号化ユニット360の入力として使用される。
符号化ユニット360は、仮想スピーカ信号に対してコア符号化処理を行って、ビットストリームを取得するように構成される。コアコーディング処理は、変換、量子化、音響心理モデル、ノイズシェーピング、帯域幅拡張、ダウンミキシング、算術コーディング、ビットストリーム生成等を含むが、これらに限定されない。
空間エンコーダ1131は、仮想スピーカ設定ユニット310、仮想スピーカセット生成ユニット320、コーディング分析ユニット330、仮想スピーカ選択ユニット340、および仮想スピーカ信号生成ユニット350を含み得ること、すなわち、仮想スピーカ設定ユニット310、仮想スピーカセット生成ユニット320、コーディング分析ユニット330、仮想スピーカ選択ユニット340、および仮想スピーカ信号生成ユニット350は、空間エンコーダ1131の機能を実装することが留意されるべきである。コアエンコーダ1132は、符号化ユニット360を含んでよく、すなわち、符号化ユニット360は、コアエンコーダ1132の機能を実装する。
図3に示されるエンコーダは、1つの仮想スピーカ信号を生成してよく、または複数の仮想スピーカ信号を生成してよい。複数の仮想スピーカ信号は、複数回の実行を通じて、図3に示されるエンコーダによって取得されてよく、または、1回の実行を通じて、図3に示されるエンコーダによって取得されてよい。
以下は、添付の図面を参照して、三次元オーディオ信号をコーディングするプロセスを説明する。図4は、本出願の一実施形態による三次元オーディオ信号符号化方法の概略フローチャートである。本明細書において、説明は、図1におけるソースデバイス110および宛先デバイス120が三次元オーディオ信号コーディングプロセスを行う例を使用することによって提供される。図4に示されるように、本方法は、以下のステップを含む。
S410:ソースデバイス110は、三次元オーディオ信号の現在のフレームを取得する。
前述の実施形態において説明されるように、ソースデバイス110がオーディオ取得デバイス111を搭載している場合、ソースデバイス110は、オーディオ取得デバイス111を使用することによって、元のオーディオを収集し得る。任意選択で、ソースデバイス110は、代替として、別のデバイスによって収集される元のオーディオを受け取ってよく、またはソースデバイス110におけるメモリもしくは別のメモリから、元のオーディオを取得してよい。元のオーディオは、以下、すなわち、リアルタイムで収集される実世界の音、デバイスに記憶されたオーディオ、および複数のオーディオによって合成されたオーディオのうちの少なくとも1つを含み得る。元のオーディオを取得する手法、および元のオーディオのタイプは、本実施形態において限定されない。
元のオーディオを取得した後に、ソースデバイス110は、三次元オーディオ技術および元のオーディオに基づいて、三次元オーディオ信号を生成して、元のオーディオの再生期間中に、「没入型」音響効果を聴取者に提供する。三次元オーディオ信号を生成するための具体的な方法については、前述の実施形態におけるプリプロセッサ112の説明および従来の技術の説明を参照されたい。
さらに、オーディオ信号は、連続的なアナログ信号である。オーディオ信号処理プロセスにおいて、フレームシーケンスのデジタル信号を生成するために、オーディオ信号が、まずサンプリングされ得る。フレームは、複数のサンプリングポイントを含んでよく、フレームは、代替として、サンプリングを通じて取得されるサンプリングポイントであってよく、フレームは、代替として、フレームを分割することによって取得されるサブフレームを含んでよく、フレームは、代替として、フレームを分割することによって取得されるサブフレームであってよい。例えば、フレームの長さが、L個のサンプリングポイントであり、フレームが、N個のサブフレームに分割される場合、各サブフレームは、L/Nサンプリングポイントに対応する。オーディオコーディングは、通常は、複数のサンプリングポイントを含むオーディオフレームシーケンスを処理することを意味する。
オーディオフレームは、現在のフレームまたは以前のフレームを含み得る。本出願の実施形態において説明される、現在のフレームまたは以前のフレームは、フレームまたはサブフレームであってよい。現在のフレームは、現時点においてコーディング処理が行われるフレームである。以前のフレームは、現時点の前の瞬間にコーディング処理が行われたフレームであり、以前のフレームは、現時点の前の1つの瞬間におけるフレームまたは、現時点の前の複数の瞬間におけるフレームであってよい。本出願のこの実施形態において、三次元オーディオ信号の現在のフレームは、現時点においてコーディング処理が行われる三次元オーディオ信号のフレームであり、以前のフレームは、現在の時刻の前の瞬間にコーディング処理が行われた三次元オーディオ信号のフレームである。三次元オーディオ信号の現在のフレームは、三次元オーディオ信号の符号化対象の現在のフレームであり得る。三次元オーディオ信号の現在のフレームは、略して、現在のフレームと称されることがあり、三次元オーディオ信号の以前のフレームは、略して、以前のフレームと称されることがある。
S420:ソースデバイス110は、候補仮想スピーカセットを決定する。
1つの場合において、候補仮想スピーカセットは、ソースデバイス110のメモリにおいて予め設定されている。ソースデバイス110は、メモリから、候補仮想スピーカセットを読み取り得る。候補仮想スピーカセットは、複数の仮想スピーカを含む。仮想スピーカは、スピーカを表し、スピーカは、空間音場において仮想的に存在する。仮想スピーカは、三次元オーディオ信号に基づいて、仮想スピーカ信号を計算するように構成され、その結果、宛先デバイス120は、再構築された三次元オーディオ信号を再生する。
別の場合において、仮想スピーカ設定パラメータは、ソースデバイス110のメモリにおいて予め設定されている。ソースデバイス110は、仮想スピーカ設定パラメータに基づいて、候補仮想スピーカセットを生成する。任意選択で、ソースデバイス110は、ソースデバイス110のコンピューティングリソース(例えば、プロセッサ)の能力、および現在のフレームの特徴(例えば、チャネルおよびデータ量)に基づいて、候補仮想スピーカセットをリアルタイムで生成する。
候補仮想スピーカセットを生成するための具体的な方法については、従来の技術、ならびに前述の実施形態における仮想スピーカ設定ユニット310および仮想スピーカセット生成ユニット320の説明を参照されたい。
S430:ソースデバイス110は、三次元オーディオ信号の現在のフレームに基づいて、候補仮想スピーカセットから、現在のフレームに対する代表的な仮想スピーカを選択する。
ソースデバイス110は、現在のフレームの係数および仮想スピーカの係数に基づいて、仮想スピーカに投票し、仮想スピーカの投票値に基づいて、候補仮想スピーカセットから、現在のフレームに対する代表的な仮想スピーカを選択する。候補仮想スピーカセットは、現在のフレームに対する、制限された数量の代表的な仮想スピーカを求めて検索され、制限された数量の代表的な仮想スピーカは、符号化対象の現在のフレームに最も良く一致する仮想スピーカとして使用され、それによって、符号化対象の三次元オーディオ信号に対してデータ圧縮を行う。
図5は、本出願の一実施形態による仮想スピーカを選択するための方法の概略フローチャートである。図5における方法手順は、図4におけるS430に含まれる具体的な演算プロセスを説明する。本明細書において、説明は、図1に示されるソースデバイス110内のエンコーダ113が、仮想スピーカ選択処理を行う例を使用することによって提供される。具体的には、仮想スピーカ選択ユニット340の機能が実装される。図5に示されるように、本方法は、以下のステップを含む。
S510:エンコーダ113は、現在のフレームの代表的な係数を取得する。
代表的な係数は、周波数ドメインの代表的な係数または時間ドメインの代表的な係数であってよい。周波数ドメインの代表的な係数は、周波数ドメインの代表的な周波数またはスペクトルの代表的な係数と称されることもある。時間ドメインの代表的な係数は、時間ドメインの代表的なサンプリングポイントと称されることもある。現在のフレームの代表的な係数を取得するための具体的な方法については、図7AにおけるS6101の説明を参照されたい。
S520:エンコーダ113は、候補仮想スピーカセットから、その候補仮想スピーカセットにおける仮想スピーカの、現在のフレームの代表的な係数についての投票値に基づいて、現在のフレームに対する代表的な仮想スピーカを選択し、すなわち、S440からS460を行う。
エンコーダ113は、現在のフレームの代表的な係数および仮想スピーカの係数に基づいて、候補仮想スピーカセットにおける仮想スピーカに投票し、現在のフレームに対する仮想スピーカの最終的な投票値に基づいて、候補仮想スピーカセットから、現在のフレームに対する代表的な仮想スピーカを選択する(検索する)。現在のフレームに対する代表的な仮想スピーカを選択するための具体的な方法については、図6ならびに図7Aおよび図7BにおけるS610およびS620の説明を参照されたい。
エンコーダは、まず、候補仮想スピーカセットに含まれる仮想スピーカを走査し、候補仮想スピーカセットから選択される、現在のフレームに対する代表的な仮想スピーカを使用することによって、現在のフレームを圧縮することが、留意されるべきである。しかしながら、連続するフレームに対して仮想スピーカを選択した結果が大幅に変わる場合、再構築された三次元オーディオ信号の音像は不安定であり、再構築された三次元オーディオ信号の音質が劣化する。本出願のこの実施形態において、エンコーダ113は、以前のフレームに対する最終的な投票値であって、以前のフレームに対する代表的な仮想スピーカの最終的な投票値に基づいて、現在のフレームに対する初期投票値であって、候補仮想スピーカセットに含まれる仮想スピーカの初期投票値を更新して、現在のフレームに対する仮想スピーカの最終的な投票値を取得し、次いで、現在のフレームに対する仮想スピーカの最終的な投票値に基づいて、候補仮想スピーカセットから、現在のフレームに対する代表的な仮想スピーカを選択し得る。このようにして、現在のフレームに対する代表的な仮想スピーカは、以前のフレームに対する代表的な仮想スピーカに基づいて選択される。そのため、現在のフレームに対して、現在のフレームに対する代表的な仮想スピーカを選択する場合、エンコーダは、以前のフレームに対する代表的な仮想スピーカと同じ仮想スピーカを選択する傾向がより高い。これは、連続するフレーム間の向き連続性を増加させ、連続するフレームに対して仮想スピーカを選択する結果が大幅に変わる問題を克服する。そのため、本出願のこの実施形態は、S530をさらに含み得る。
S530:エンコーダ113は、以前のフレームに対する代表的な仮想スピーカの、以前のフレームに対する、最終的な投票値に基づいて、現在のフレームに対する候補仮想スピーカセットにおける仮想スピーカの初期投票値を調整して、現在のフレームに対する仮想スピーカの最終的な投票値を取得する。
エンコーダ113が、現在のフレームの代表的な係数および仮想スピーカの係数に基づいて、候補仮想スピーカセットにおける仮想スピーカに投票して、現在のフレームに対する仮想スピーカの初期投票値を取得した後に、エンコーダ113は、以前のフレームに対する代表的な仮想スピーカの、以前のフレームに対する、最終的な投票値に基づいて、現在のフレームに対する候補仮想スピーカセットにおける仮想スピーカの初期投票値を調整して、現在のフレームに対する仮想スピーカの最終的な投票値を取得する。以前のフレームに対する代表的な仮想スピーカは、エンコーダ113が以前のフレームを符号化する場合に使用される仮想スピーカである。現在のフレームに対する候補仮想スピーカセットにおける仮想スピーカの初期投票値を調整するための具体的な方法については、図8におけるS6201およびS6202の説明を参照されたい。
いくつかの実施形態において、現在のフレームが、元のオーディオにおける第1のフレームである場合、エンコーダ113は、S510およびS520を行う。現在のフレームが、元のオーディオにおける第2のフレームの後の任意のフレームである場合、エンコーダ113は、まず、現在のフレームを符号化するために、以前のフレームに対する代表的な仮想スピーカを再使用すべきかどうかを決定し、または、仮想スピーカを検索するべきかどうかを決定して、連続するフレーム間の向き連続性を確保し、コーディング複雑度を低減し得る。本出願のこの実施形態は、S540をさらに含み得る。
S540:エンコーダ113は、現在のフレーム、および以前のフレームに対する代表的な仮想スピーカに基づいて、仮想スピーカを検索するべきかどうかを決定する。
仮想スピーカを検索すると決定した場合、エンコーダ113は、S510からS530を行う。任意選択で、エンコーダ113は、まず、S510を行ってよい。エンコーダ113は、現在のフレームの代表的な係数を取得する。エンコーダ113は、現在のフレームの代表的な係数、および以前のフレームに対する代表的な仮想スピーカの係数に基づいて、仮想スピーカを検索するべきかどうかを決定する。仮想スピーカを検索すると決定した場合、エンコーダ113は、S520からS530を行う。
仮想スピーカを検索しないと決定した場合、エンコーダ113は、S550を行う。
S550:エンコーダ113は、以前のフレームに対する代表的な仮想スピーカを再使用して、現在のフレームを符号化することを決定する。
エンコーダ113は、以前のフレームに対する代表的な仮想スピーカおよび現在のフレームを再使用して、仮想スピーカ信号を生成し、仮想スピーカ信号を符号化して、ビットストリームを取得し、ビットストリームを宛先デバイス120へ送り、すなわち、S450およびS460を行う。
仮想スピーカを検索するべきかどうかを決定するための具体的な方法については、図9におけるS640からS670の説明を参照されたい。
S440:ソースデバイス110は、三次元オーディオ信号の現在のフレーム、および現在のフレームに対する代表的な仮想スピーカに基づいて、仮想スピーカ信号を生成する。
ソースデバイス110は、現在のフレームの係数、および現在のフレームに対する代表的な仮想スピーカの係数に基づいて、仮想スピーカ信号を生成する。仮想スピーカ信号を生成するための具体的な方法については、従来の技術、および前述の実施形態における仮想スピーカ信号生成ユニット350の説明を参照されたい。
S450:ソースデバイス110は、仮想スピーカ信号を符号化して、ビットストリームを取得する。
ソースデバイス110は、仮想スピーカ信号に対して、変換または量子化などの符号化演算を行って、ビットストリームを生成して、符号化対象の三次元オーディオ信号に対してデータ圧縮を行い得る。ビットストリームを生成するための具体的な方法については、従来の技術、および前述の実施形態における符号化ユニット360の説明を参照されたい。
S460:ソースデバイス110は、宛先デバイス120へビットストリームを送る。
ソースデバイス110は、元のオーディオ全てを符号化した後に、元のオーディオのビットストリームを宛先デバイス120へ送り得る。代替として、ソースデバイス110は、三次元オーディオ信号をフレーム単位でリアルタイムで符号化し、フレームを符号化した後に、フレームのビットストリームを送ってよい。ビットストリームを送るための具体的な方法については、従来の技術、および前述の実施形態における通信インターフェイス114および通信インターフェイス124の説明を参照されたい。
S470:宛先デバイス120は、ソースデバイス110によって送られるビットストリームを復号し、三次元オーディオ信号を再構築して、再構築された三次元オーディオ信号を取得する。
ビットストリームを受信した後に、宛先デバイス120は、ビットストリームを復号して、仮想スピーカ信号を取得し、次いで、候補仮想スピーカセットおよび仮想スピーカ信号に基づいて、三次元オーディオ信号を再構築して、再構築された三次元オーディオ信号を取得する。宛先デバイス120は、再構築された三次元オーディオ信号を再生する。代替として、宛先デバイス120は、再構築された三次元オーディオ信号を別の再生デバイスへ送信し、その別の再生デバイスは、再構築された三次元オーディオ信号を再生して、聴取者が映画館、コンサートホール、仮想シーン等に居るように感じる、より鮮明な「没入型」音響効果を達成する。
現在、仮想スピーカを検索するプロセスにおいて、エンコーダは、符号化対象の三次元オーディオ信号と仮想スピーカとの間の関連する計算の結果を、仮想スピーカの選択測定インジケータとして使用する。エンコーダが各係数についての仮想スピーカを送信する場合、データ圧縮は達成されることができず、重い計算負荷がエンコーダに対して引き起こされる。本出願の一実施形態は、仮想スピーカを選択するための方法を提供する。エンコーダは、現在のフレームの代表的な係数を使用して、候補仮想スピーカセットにおける各仮想スピーカに投票し、投票値に基づいて、現在のフレームに対する代表的な仮想スピーカを選択し、それによって、仮想スピーカを検索する計算複雑度を低減し、エンコーダの計算負荷を低減する。
添付の図面を参照しつつ、以下は、仮想スピーカを選択するためのプロセスを詳細に説明する。図6は、本出願の一実施形態による三次元オーディオ信号符号化方法の概略フローチャートである。本明細書において、説明は、図1におけるソースデバイス110内のエンコーダ113が、仮想スピーカ選択プロセスを行う例を使用することによって提供される。図6における方法手順は、図5におけるS520に含まれる具体的な演算プロセスを説明する。図6に示されるように、本方法は、以下のステップを含む。
S610:エンコーダ113は、三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定する。
投票ラウンド数量は、仮想スピーカに対する投票の回数を制限するために使用される。投票ラウンド数量は、1以上の整数であり、投票ラウンド数量は、候補仮想スピーカセットに含まれる仮想スピーカの数量以下であり、かつ、投票ラウンド数量は、エンコーダによって送信される仮想スピーカ信号の数量以下である。例えば、候補仮想スピーカセットは、第5の数量の仮想スピーカを含み、仮想スピーカの第5の数量は、第1の数量の仮想スピーカを含み、第1の数量は、第5の数量以下であり、投票ラウンド数量は、1以上の整数であり、投票ラウンド数量は、第5の数量以下である。仮想スピーカ信号は、現在のフレームに対応する、現在のフレームに対する代表的な仮想スピーカの送信チャネルも指す。一般に、仮想スピーカ信号の数量は、仮想スピーカの数量以下である。
可能な実装において、投票ラウンド数量は、予め構成されていてよく、またはエンコーダのコンピューティング能力に基づいて決定されてよい。例えば、投票ラウンド数量は、エンコーダが現在のフレームを符号化するコーディングレートおよび/またはコーディングアプリケーションシナリオに基づいて決定される。
例えば、エンコーダのコーディングレートが低い(例えば、3次のHOA信号が符号化され、128kbps以下のレートで送信される)場合、投票ラウンド数量は1であり、エンコーダのコーディングレートが中間である(例えば、3次のHOA信号が符号化され、192kbpsから512 kbpsに及ぶレートで送信される)場合、投票ラウンド数量は4であり、または、エンコーダのコーディングレートが高い(例えば、3次のHOA信号が符号化され、768kbps以上のレートで送信される)場合、投票ラウンド数量は7である。
別の例として、エンコーダがリアルタイム通信のために使用される場合、コーディング複雑度は低くすることが必要とされ、投票ラウンド数量は1であり、エンコーダがストリーミングメディアをブロードキャストするために使用される場合、コーディング複雑度は中間にすることが必要とされ、投票ラウンド数量は2であり、または、エンコーダが高品質のデータストレージのために使用される場合、コーディング複雑度は高くすることが必要とされ、投票ラウンド数量は6である。
別の例として、エンコーダのコーディングレートが128kbpsであり、コーディング複雑度要件が低い場合、投票ラウンド数量は1である。
別の可能な実装において、投票ラウンド数量は、現在のフレームにおける指向性音源の数量に基づいて決定される。例えば、音場における指向性音源の数量が2である場合、投票ラウンド数量は2に設定される。
本出願のこの実施形態は、第1の数量の仮想スピーカおよび第1の数量の投票値を決定する、3つの可能な実装を提供する。以下は、3つの手法を別々に詳細に説明する。
第1の可能な実装において、投票ラウンド数量は1に等しく、複数の代表的な係数をサンプリングした後に、エンコーダ113は、現在のフレームの各代表的な係数についての候補仮想スピーカセットにおける全ての仮想スピーカの投票値を取得し、同じ数字を有する仮想スピーカの投票値を蓄積して、第1の数量の仮想スピーカおよび第1の数量の投票値を取得する。例えば、図7AにおけるS6101からS6105の下記の説明を参照されたい。
候補仮想スピーカセットは、第1の数量の仮想スピーカを含むことが理解され得る。第1の数量の仮想スピーカは、候補仮想スピーカセットに含まれる仮想スピーカの数量と等しい。候補仮想スピーカセットが第5の数量の仮想スピーカを含むと仮定すると、第1の数量は第5の数量と等しい。第1の数量の投票値は、候補仮想スピーカセットにおける全ての仮想スピーカの投票値を含む。エンコーダ113は、第1の数量の仮想スピーカの最終的な投票値であって、現在のフレームに対応する最終的な投票値として、第1の数量の投票値を使用して、S620を行ってよく、具体的には、エンコーダ113は、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択する。
仮想スピーカは、投票値と1対1で対応し、すなわち、1つの仮想スピーカは、1つの投票値に対応する。例えば、第1の数量の仮想スピーカは、第1の仮想スピーカを含み、第1の数量の投票値は、第1の仮想スピーカの投票値を含み、第1の仮想スピーカは、第1の仮想スピーカの投票値に対応する。第1の仮想スピーカの投票値は、現在のフレームが符号化される場合に第1の仮想スピーカを使用する優先度を表す。優先度は傾向と置換されてもよく、具体的には、第1の仮想スピーカの投票値は、現在のフレームが符号化される場合に第1の仮想スピーカを使用する傾向を表す。第1の仮想スピーカのより大きな投票値は、第1の仮想スピーカのより高い優先度またはより高い傾向を示し、候補仮想スピーカセット内の仮想スピーカであって、その投票値が第1の仮想スピーカの投票値未満である仮想スピーカと比較して、エンコーダ113は、第1の仮想スピーカを選択して、現在のフレームを符号化する傾向があることが理解され得る。
第2の可能な実装において、第1の可能な実装との差異は、以下にある。現在のフレームの各代表的な係数についての候補仮想スピーカセットにおける全ての仮想スピーカの投票値を取得した後に、エンコーダ113は、各代表的な係数に対する候補仮想スピーカセットにおける全ての仮想スピーカの投票値から、いくつかの投票値を選択し、そのいくつかの投票値に対応する仮想スピーカにおいて、同じ数字を有する仮想スピーカの投票値を蓄積して、第1の数量の仮想スピーカおよび第1の数量の投票値を取得する。第1の数量は、候補仮想スピーカセットに含まれる仮想スピーカの数量以下であることが理解され得る。第1の数量の投票値は、候補仮想スピーカセットに含まれるいくつかの仮想スピーカの投票値を含み、または、第1の数量の投票値は、候補仮想スピーカセットに含まれる全ての仮想スピーカの投票値を含む。例えば、図7Aおよび図7BにおけるS6101からS6104およびS6106からS6110の説明を参照されたい。
第3の可能な実装において、第2の可能な実装との差異は、以下にある。投票ラウンド数量は、2以上の整数であり、現在のフレームの各代表的な係数について、エンコーダ113は、候補仮想スピーカセットにおける全ての仮想スピーカに対して少なくとも2ラウンドの投票を行い、各ラウンドにおいて最大投票値を有する仮想スピーカを選択する。現在のフレームの各代表的な係数について、全ての仮想スピーカに対して少なくとも2ラウンドの投票が行われた後に、同じ数字を有する仮想スピーカの投票値が蓄積されて、第1の数量の仮想スピーカおよび第1の数量の投票値が取得される。
投票ラウンド数量は2であり、第5の数量の仮想スピーカは、第1の仮想スピーカ、第2の仮想スピーカ、および第3の仮想スピーカを含み、現在のフレームの代表的な係数は、第1の代表的な係数および第2の代表的な係数を含むと仮定される。
エンコーダ113は、まず、第1の代表的な係数に基づいて、3つの仮想スピーカに対して2ラウンドの投票を行う。第1の投票ラウンドにおいて、エンコーダ113は、第1の代表的な係数に基づいて、3つの仮想スピーカに対して投票する。最大投票値は第1の仮想スピーカの投票値であると仮定すると、第1の仮想スピーカが選択される。第2の投票ラウンドにおいて、エンコーダ113は、第1の代表的な係数に基づいて、第2の仮想スピーカおよび第3の仮想スピーカに対して別々に投票する。最大投票値は第2の仮想スピーカの投票値であると仮定すると、第2の仮想スピーカが選択される。
さらに、エンコーダ113は、第2の代表的な係数に基づいて、3つの仮想スピーカに対して2ラウンドの投票を行う。第1の投票ラウンドにおいて、エンコーダ113は、第2の代表的な係数に基づいて、3つの仮想スピーカに対して投票する。最大投票値は第2の仮想スピーカの投票値であると仮定すると、第2の仮想スピーカが選択される。第2の投票ラウンドにおいて、エンコーダ113は、第2の代表的な係数に基づいて、第1の仮想スピーカおよび第3の仮想スピーカに対して別々に投票する。最大投票値は第3の仮想スピーカの投票値であると仮定すると、第3の仮想スピーカが選択される。
最後に、第1の数量の仮想スピーカは、第1の仮想スピーカ、第2の仮想スピーカ、および第3の仮想スピーカを含む。第1の仮想スピーカの投票値は、第1の投票ラウンドにおける第1の代表的な係数に対する第1の仮想スピーカの投票値と等しい。第2の仮想スピーカの投票値は、第2の投票ラウンドにおける第1の代表的な係数に対する第2の仮想スピーカの投票値と、第1の投票ラウンドにおける第2の代表的な係数に対する第2の仮想スピーカの投票値との和と等しい。第3の仮想スピーカの投票値は、第2の投票ラウンドにおける第2の代表的な係数に対する第3の仮想スピーカの投票値と等しい。
S620:エンコーダ113は、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択する。
エンコーダ113は、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択する。さらに、現在のフレームに対する第2の数量の代表的な仮想スピーカの投票値は、予め設定された閾値より大きい。
エンコーダ113は、代替として、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択してよい。例えば、第2の数量の投票値は、第1の数量の投票値から、第1の数量の投票値の降順で決定され、第1の数量の仮想スピーカにおける仮想スピーカであって、第2の数量の投票値に対応する仮想スピーカは、現在のフレームに対する第2の数量の代表的な仮想スピーカとして使用される。
任意選択で、第1の数量の仮想スピーカにおいて、異なる数字を有する仮想スピーカの投票値が同じであり、異なる数字を有する仮想スピーカの投票値が、予め設定された閾値より大きい場合、エンコーダ113は、異なる数字を有する全ての仮想スピーカを、現在のフレームに対する代表的な仮想スピーカとして使用し得る。
第2の数量は第1の数量未満であることが留意されるべきである。第1の数量の仮想スピーカは、現在のフレームに対する第2の数量の代表的な仮想スピーカを含む。第2の数量は、予め設定されてよく、または、第2の数量は、現在のフレームの音場における音源の数量に基づいて決定されてよい。例えば、第2の数量は、現在のフレームの音場における音源の数量と直接等しくてよく、または、現在のフレームの音場における音源の数量は、予め設定されたアルゴリズムに基づいて処理され、処理を通じて取得される数量が、第2の数量として使用される。予め設定されたアルゴリズムは、要件に基づいて設計され得る。例えば、予め設定されたアルゴリズムは、第2の数量=現在のフレーム+1の音場における音源の数量、または第2の数量=現在のフレーム-1の音場における音源の数量であってよい。
S630:エンコーダ113は、現在のフレームに対する第2の数量の代表的な仮想スピーカに基づいて、現在のフレームを符号化して、ビットストリームを取得する。
エンコーダ113は、現在のフレームに対する第2の数量の代表的な仮想スピーカおよび現在のフレームに基づいて、仮想スピーカ信号を生成し、仮想スピーカ信号を符号化して、ビットストリームを取得する。
エンコーダは、現在のフレームの全ての係数から、いくつかの係数を代表的な係数として選択し、小さい数量の代表的な係数を使用して、現在のフレームの全ての係数を置換して、候補仮想スピーカセットから、代表的な仮想スピーカを選択する。そのため、エンコーダによって仮想スピーカを検索する計算複雑度が効果的に低減され、それによって、三次元オーディオ信号に圧縮コーディングを行う計算複雑度を低減し、エンコーダの計算負荷を低減する。例えば、N次のHOA信号のフレームは、960・(N+1)2個の係数を有する。本実施形態において、最初の10%の係数は、仮想スピーカの検索に参加するために選択され得る。この場合において、コーディング複雑度は、全ての係数が仮想スピーカの検索に参加する場合に生成されるコーディング複雑度と比較して、90%低減される。
図7Aおよび図7Bは、本出願の一実施形態による、仮想スピーカを選択するための別の方法の概略フローチャートである。図7Aおよび図7Bにおける方法手順は、図6におけるS610に含まれる具体的な演算プロセスを説明する。候補仮想スピーカセットは、第5の数量の仮想スピーカを含み、第5の数量の仮想スピーカは、第1の仮想スピーカを含むと仮定される。
S6101:エンコーダ113は、現在のフレームの第4の数量の係数、および第4の数量の係数の周波数ドメイン特徴値を取得する。
三次元オーディオ信号は、HOA信号であり、エンコーダ113は、HOA信号の現在のフレームをサンプリングして、L・(N+1)2個のサンプリングポイントを取得し、すなわち、第4の数量の係数を取得すると仮定される。Nは、HOA信号の次数である。例えば、HOA信号の現在のフレームの期間は、20ミリ秒であり、エンコーダ113は、現在のフレームを48kHzの周波数でサンプリングして、時間ドメインにおける960・(N+1)2個のサンプリングポイントを取得すると仮定される。サンプリングポイントは、時間ドメイン係数と称されてもよい。
三次元オーディオ信号の現在のフレームの周波数ドメイン係数は、三次元オーディオ信号の現在のフレームの時間ドメイン係数に基づいて、時間-周波数変換を行うことによって取得され得る。時間ドメインから周波数ドメインへの変換のための方法は限定されない。例えば、時間ドメインから周波数ドメインへの変換のための方法は、修正離散コサイン変換(Modified Discrete Cosine Transform, MDCT)であり、周波数ドメインにおける960・(N+1)2個の周波数ドメイン係数が取得され得る。周波数ドメイン係数は、スペクトル係数または周波数と称されてもよい。
サンプリングポイントの周波数ドメイン特徴値は、p(j)=norm(x(j))を満足し、ただし、j=1、2、...およびLであり、Lは、サンプリング瞬間の数量を表し、xは、三次元オーディオ信号の現在のフレームの周波数ドメイン係数、例えば、MDCT係数を表し、「norm」は、2ノルムを解く演算であり、x(j)は、j番目のサンプリング瞬間における(N+1)2個のサンプリングポイントの周波数ドメイン係数を表す。
S6102:エンコーダ113は、第4の数量の係数の周波数ドメイン特徴値に基づいて、第4の数量の係数から、第3の数量の代表的な係数を選択する。
エンコーダ113は、第4の数量の係数によって示されるスペクトル範囲を、少なくとも1つのサブバンドへ分割する。エンコーダ113は、第4の数量の係数によって示されるスペクトル範囲を、1つのサブバンドへ分割する。サブバンドのスペクトル範囲は、第4の数量の係数によって示されるスペクトル範囲と等しいこと、これは、エンコーダ113が、第4の数量の係数によって示されるスペクトル範囲を分割しないことと等価であることが理解され得る。
エンコーダ113が、第4の数量の係数によって示されるスペクトル範囲を、少なくとも2つのサブ周波数バンドへ分割する場合、1つの場合において、エンコーダ113は、第4の数量の係数によって示されるスペクトル範囲を、少なくとも2つのサブバンドへ均等に分割し、ただし、少なくとも2つのサブバンドにおける全てのサブバンドは、同じ数量の係数を含む。
別の場合において、エンコーダ113は、第4の数量の係数によって示されるスペクトル範囲を、不均等に分割し、分割を通じて取得される少なくとも2つのサブバンドは、異なる数量の係数を含み、または、分割を通じて取得される少なくとも2つのサブバンドにおける全てのサブバンドが、異なる数量の係数を含む。例えば、エンコーダ113は、第4の数量の係数によって示されるスペクトル範囲内の低周波数範囲、中間周波数範囲、および高周波数範囲に基づいて、第4の数量の係数によって示されるスペクトル範囲を不均等に分割してよく、低周波数範囲、中間周波数範囲、および高周波数範囲内の各スペクトル範囲が、少なくとも1つのサブバンドを含む。低周波数範囲内の少なくとも1つのサブバンドにおける全てのサブバンドは、同じ数量の係数を含み、中間周波数範囲内の少なくとも1つのサブバンドにおける全てのサブバンドは、同じ数量の係数を含み、高周波数範囲内の少なくとも1つのサブバンドにおける全てのサブバンドは、同じ数量の係数を含む。3つのスペクトル範囲、すなわち、低周波数範囲、中間周波数範囲、および高周波数範囲内のサブバンドは、異なる数量の係数を含んでよい。
さらに、エンコーダ113は、第4の数量の係数の周波数ドメイン特徴値に基づいて、第4の数量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンドから、代表的な係数を選択して、第3の数量の代表的な係数を取得する。第3の数量は、第4の数量未満であり、第4の数量の係数は、第3の数量の代表的な係数を含む。
例えば、エンコーダ113は、第4の数量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンド内のサブバンドにおける係数の周波数ドメイン特徴値の降順で、サブバンドから、Z個の代表的な係数をそれぞれ選択し、少なくとも1つのサブバンドにおけるZ個の代表的な係数を組み合わせて、第3の数量の代表的な係数を取得し、ただし、Zは、正の整数である。
別の例として、少なくとも1つのサブバンドが、少なくとも2つのサブバンドを含む場合、エンコーダ113は、少なくとも2つのサブバンドの各々の重みを、そのサブバンドにおける第1の候補係数の周波数ドメイン特徴値に基づいて決定し、各サブバンドにおける第2の候補係数の周波数ドメイン特徴値を、そのサブバンドの重みに基づいて調整して、各サブバンドにおける第2の候補係数の調整された周波数ドメイン特徴値を取得し、ただし、第1の候補係数および第2の候補係数は、サブバンドにおける部分的な係数である。エンコーダ113は、少なくとも2つのサブバンドにおける第2の候補係数の調整された周波数ドメイン特徴値、および少なくとも2つのサブバンドにおける第2の候補係数以外の係数の周波数ドメイン特徴値に基づいて、第3の数量の代表的な係数を決定する。
エンコーダは、現在のフレームの全ての係数から、いくつかの係数を代表的な係数として選択し、小さい数量の代表的な係数を使用して、現在のフレームの全ての係数を置換して、候補仮想スピーカセットから、代表的な仮想スピーカを選択する。そのため、エンコーダによって仮想スピーカを検索する計算複雑度が効果的に低減され、それによって、三次元オーディオ信号に圧縮コーディングを行う計算複雑度を低減し、エンコーダの計算負荷を低減する。
第3の数量の代表的な係数は、第1の代表的な係数および第2の代表的な係数を含むと仮定して、S6103からS6110が行われる。
S6103:エンコーダ113は、第5の数量の仮想スピーカの第5の数量の第1の投票値であって、第1の代表的な係数を使用することによって投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第1の投票値を取得する。
エンコーダ113は、第1の代表的な係数を使用して、現在のフレームを表して、現在のフレームが第5の数量の仮想スピーカを使用することによって符号化されることに投票し、第5の数量の仮想スピーカの係数および第1の代表的な係数に基づいて、第5の数量の第1の投票値を決定する。第5の数量の第1の投票値は、第1の仮想スピーカの第1の投票値を含む。
S6104:エンコーダ113は、第5の数量の仮想スピーカの第5の数量の第2の投票値であって、第2の代表的な係数を使用することによって投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第2の投票値を取得する。
エンコーダ113は、第2の代表的な係数を使用して、現在のフレームを表して、現在のフレームが第5の数量の仮想スピーカを使用することによって符号化されることに投票し、第5の数量の仮想スピーカの係数および第2の代表的な係数に基づいて、第5の数量の第2の投票値を決定する。第5の数量の第2の投票値は、第1の仮想スピーカの第2の投票値を含む。
S6105:エンコーダ113は、第5の数量の第1の投票値および第5の数量の第2の投票値に基づいて、第5の数量の仮想スピーカのそれぞれの投票値を取得して、第1の数量の仮想スピーカおよび第1の数量の投票値を取得する。
第5の数量の仮想スピーカにおいて、同じ数字を有する仮想スピーカについて、エンコーダ113は、仮想スピーカの第1の投票値および第2の投票値を蓄積する。第1の仮想スピーカの投票値は、第1の仮想スピーカの第1の投票値と、第1の仮想スピーカの第2の投票値との和と等しい。例えば、第1の仮想スピーカの第1の投票値は10であり、第1の仮想スピーカの第2の投票値は15であり、第1の仮想スピーカの投票値は25である。
第5の数量は、第1の数量と等しく、エンコーダ113が投票を行った後に取得される第1の数量の仮想スピーカは、第5の数量の仮想スピーカであることが理解され得る。第1の数量の投票値は、第5の数量の仮想スピーカの投票値である。
そのため、エンコーダは、現在のフレームの各係数について、候補仮想スピーカセットに含まれる第5の数量の仮想スピーカに投票し、候補仮想スピーカセットに含まれる第5の数量の仮想スピーカの投票値を選択基準として使用して、第5の数量の仮想スピーカを万遍なく網羅し、それによって、現在のフレームのための代表的な仮想スピーカであって、エンコーダによって選択される代表的な仮想スピーカの精度を確保する。
いくつかの他の実施形態において、エンコーダは、候補仮想スピーカセットにおけるいくつかの仮想スピーカの投票値に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定し得る。S6103およびS6104の後、本出願のこの実施形態は、S6106からS6110をさらに含み得る。
S6106:エンコーダ113は、第5の数量の第1の投票値に基づいて、第5の数量の仮想スピーカから、第8の数量の仮想スピーカを選択する。
エンコーダ113は、第5の数量の第1の投票値をソートし、最大の第1の投票値から始めて、第5の数量の第1の投票値の降順で、第5の数量の仮想スピーカから、第8の数量の仮想スピーカを選択する。第8の数量は、第5の数量未満である。第5の数量の第1の投票値は、第8の数量の第1の投票値を含む。第8の数量は、1以上の整数である。
S6107:エンコーダ113は、第5の数量の第2の投票値に基づいて、第5の数量の仮想スピーカから、第9の数量の仮想スピーカを選択する。
エンコーダ113は、第5の数量の第2の投票値をソートし、最大の第2の投票値から始めて、第5の数量の第2の投票値の降順で、第5の数量の仮想スピーカから、第9の数量の仮想スピーカを選択する。第9の数量は、第5の数量未満である。第5の数量の第2の投票値は、第9の数量の第2の投票値を含む。第9の数量は、1以上の整数である。
S6108:エンコーダ113は、第8の数量の仮想スピーカの第1の投票値、および第9の数量の仮想スピーカの第2の投票値に基づいて、第10の数量の仮想スピーカの第10の数量の第3の投票値を取得する。
同じ数字を有する仮想スピーカが、第8の数量の仮想スピーカおよび第9の数量の仮想スピーカにおいて存在する場合、エンコーダ113は、同じ仮想スピーカの第1の投票値と第2の投票値とを蓄積して、第10の数量の仮想スピーカの第10の数量の第3の投票値を取得する。例えば、第8の数量の仮想スピーカは、第2の仮想スピーカを含み、第9の数量の仮想スピーカは、その第2の仮想スピーカを含むと仮定される。第2の仮想スピーカの第3の投票値は、第1の仮想スピーカの第1の投票値と、第1の仮想スピーカの第2の投票値との和と等しい。
第10の数量は、第8の数量以下であり、これは、第8の数量の仮想スピーカが、第10の数量の仮想スピーカを含むことを示し、第10の数量は、第9の数量以下であり、これは、第9の数量の仮想スピーカが、第10の数量の仮想スピーカを含むことを示すことが理解され得る。さらに、第10の数量は、1以上の整数である。
S6109:エンコーダ113は、第8の数量の仮想スピーカの第1の投票値、第9の数量の仮想スピーカの第2の投票値、および第10の数量の第3の投票値に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を取得する。
第1の数量の仮想スピーカは、第8の数量の仮想スピーカおよび第9の数量の仮想スピーカを含む。第5の数量の仮想スピーカは、第1の数量の仮想スピーカを含む。第1の数量は、第5の数量以下である。
例えば、第5の数量の仮想スピーカは、第1の仮想スピーカ、第2の仮想スピーカ、第3の仮想スピーカ、第4の仮想スピーカ、および第5の仮想スピーカを含むと仮定すると、第8の数量の仮想スピーカは、第1の仮想スピーカおよび第2の仮想スピーカを含み、第9の数量の仮想スピーカは、第1の仮想スピーカおよび第3の仮想スピーカを含み、第1の数量の仮想スピーカは、第1の仮想スピーカ、第2の仮想スピーカ、および第3の仮想スピーカを含み、第1の数量は、第5の数量未満である。
別の例として、第5の数量の仮想スピーカが、第1の仮想スピーカ、第2の仮想スピーカ、第3の仮想スピーカ、第4の仮想スピーカ、および第5の仮想スピーカを含むと仮定すると、第8の数量の仮想スピーカは、第1の仮想スピーカ、第2の仮想スピーカ、および第3の仮想スピーカを含み、第9の数量の仮想スピーカは、第1の仮想スピーカ、第4の仮想スピーカ、および第5の仮想スピーカを含み、第1の数量の仮想スピーカは、第1の仮想スピーカ、第2の仮想スピーカ、第3の仮想スピーカ、第4の仮想スピーカ、および第5の仮想スピーカを含み、第1の数量は、第5の数量と等しい。
いくつかの実施形態において、同じ数字を有する仮想スピーカが、第8の数量の仮想スピーカおよび第9の数量の仮想スピーカにおいて存在する場合、第1の数量の仮想スピーカは、第10の数量の仮想スピーカを含む。
1つの場合において、第8の数量の仮想スピーカの数は、第9の数量の仮想スピーカの数と完全に同じである。第8の数量は、第9の数量と等しく、第10の数量は、第8の数量と等しく、第10の数量は、第9の数量と等しい。そのため、第1の数量の仮想スピーカの数は、第10の数量の仮想スピーカの数と等しく、第1の数量の投票値は、第10の数量の第3の投票値と等しい。
別の場合において、第8の数量の仮想スピーカは、第9の数量の仮想スピーカと完全に同じではない。例えば、第8の数量の仮想スピーカは、第9の数量の仮想スピーカを含み、第8の数量の仮想スピーカは、その数字が第9の数量の仮想スピーカの数字とは異なる仮想スピーカをさらに含む。第8の数量は、第9の数量より大きく、第10の数量は、第8の数量未満であり、第10の数量は、第9の数量と等しい。第1の数量の投票値は、第10の数量の第3の投票値と、その数字が第9の数量の仮想スピーカの数字とは異なる仮想スピーカの第1の投票値とを含む。
別の例として、第9の数量の仮想スピーカは、第8の数量の仮想スピーカを含み、第9の数量の仮想スピーカは、その数字が第8の数量の仮想スピーカの数字とは異なる仮想スピーカをさらに含む。第8の数量は、第9の数量未満であり、第10の数量は、第8の数量と等しく、第10の数量は、第9の数量未満である。第1の数量の投票値は、第10の数量の第3の投票値と、その数字が第8の数量の仮想スピーカの数字とは異なる仮想スピーカの第2の投票値とを含む。
別の例として、第8の数量の仮想スピーカは、第10の数量の仮想スピーカを含み、第8の数量の仮想スピーカは、その数字が第9の数量の仮想スピーカの数字とは異なる仮想スピーカをさらに含み、第9の数量の仮想スピーカは、第10の数量の仮想スピーカを含み、第9の数量の仮想スピーカは、その数字が第8の数量の仮想スピーカの数字とは異なる仮想スピーカをさらに含む。第10の数量は、第8の数量未満であり、第10の数量は、第9の数量未満である。第1の数量の投票値は、第10の数量の第3の投票値と、その数字が第9の数量の仮想スピーカの数字とは異なる仮想スピーカの第1の投票値と、その数字が第8の数量の仮想スピーカの数字とは異なる仮想スピーカの第2の投票値とを含む。
いくつかの他の実施形態において、同じ数字を有する仮想スピーカが、第8の数量の仮想スピーカおよび第9の数量の仮想スピーカにおいて存在しない場合、第10の数量は、0に等しく、第1の数量の仮想スピーカは、第10の数量の仮想スピーカを含まない。S6106およびS6107を行った後に、エンコーダ113は、S6110を直接行ってよい。
S6110:エンコーダ113は、第8の数量の仮想スピーカの第1の投票値、および第9の数量の仮想スピーカの第2の投票値に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を取得する。
第8の数量の仮想スピーカは、第9の数量の仮想スピーカとは完全に異なる。例えば、第8の数量の仮想スピーカは、第9の数量の仮想スピーカを含まず、第9の数量の仮想スピーカは、第8の数量の仮想スピーカを含まない。第1の数量の仮想スピーカは、第8の数量の仮想スピーカおよび第9の数量の仮想スピーカを含み、第1の数量の投票値は、第8の数量の仮想スピーカの第1の投票値、および第9の数量の仮想スピーカの第2の投票値を含む。
このようにして、エンコーダは、現在のフレームの各係数について、候補仮想スピーカセットに含まれる第5の数量の仮想スピーカの投票値から、大きい値を有する投票値を選択し、大きい値を有する投票値を使用することによって、第1の数量の仮想スピーカおよび第1の数量の投票値を決定し、それによって、現在のフレームの代表的な仮想スピーカであって、エンコーダによって選択される代表的な仮想スピーカの精度を確保しながら、エンコーダによって仮想スピーカを検索する計算複雑度を低減する。
以下は、式を参照しつつ、投票値を計算するための方法を説明する。まず、エンコーダ113は、HOA信号のj番目の代表的な係数とl番目の仮想スピーカの係数との間の相関値に基づいて、i番目のラウンドにおけるj番目の代表的な係数についてのl番目の仮想スピーカの投票値Pjilを決定するためのステップ1を行う。j番目の代表的な係数は、第3の数量の代表的な係数における任意の係数であってよく、ただし、l=1、2、...およびQであり、これは、lの値範囲が1からQであることを示し、Qは、候補仮想スピーカセットにおける仮想スピーカの数量を表し、j=1、2、...およびLであり、ただし、Lは、代表的な係数の数量を表し、i=1、2、...およびIであり、ただし、Iは、投票ラウンド数量を表す。l番目の仮想スピーカの投票値Pjilは、式(6)を満足する。
jil=log(Ejil)またはPjil=Ejil
jil=Bji(θ,φ)・Bl(θ,φ) 式(6)
ただし、θは、水平角を表し、φは、ピッチ角を表し、Bji(θ、φ)は、HOA信号のj番目の代表的な係数を表し、Bl(θ、φ)は、l番目の仮想スピーカの係数を表す。
次いで、エンコーダ113は、Q個の仮想スピーカの投票値Pjilに基づいて、i番目のラウンドにおけるj番目の代表的な係数に対応する仮想スピーカを取得するためのステップ2を行う。
例えば、i番目のラウンドにおけるj番目の代表的な係数に対応する仮想スピーカを選択するための基準は、i番目のラウンドにおけるj番目の代表的な係数についてのQ個の仮想スピーカの投票値から、投票値の最大絶対値を有する仮想スピーカを選択することであり、ただし、i番目のラウンドにおけるj番目の代表的な係数に対応する仮想スピーカの数は、gjiとして表記される。l=gjiの場合、
である。
iが投票ラウンド数量I未満である場合、すなわち、投票ラウンド数量Iが循環的に完了した場合、エンコーダ113は、j番目の代表的な係数の符号化対象のHOA信号から、i番目のラウンドにおけるj番目の代表的な係数に対して選択される仮想スピーカの係数を減算し、候補仮想スピーカセットにおける残りの仮想スピーカを、次のラウンドにおけるj番目の代表的な係数についての仮想スピーカの投票値を計算するために必要とされる符号化対象のHOA信号として使用するためのステップ3を行う。候補仮想スピーカセットにおける残りの仮想スピーカの係数は、式(7)を満足する。
j(θ,φ)=Bj(θ,φ)-w・Bgj,i(θ,φ)・Ejig 式(7)
ただし、Ejigは、i番目のラウンドにおけるj番目の代表的な係数に対応するl番目の仮想スピーカの投票値を表し、式の右側のBgj,i(θ,φ)は、i番目のラウンドにおけるj番目の代表的な係数の符号化対象のHOA信号の係数を表し、式の左側のBj(θ、φ)は、(i+1)番目のラウンドにおけるj番目の代表的な係数の符号化対象のHOA信号の係数を表し、wは、重みであり、予め設定された値は、0≦w≦1を満足し得、さらに、重みは、式(8)をさらに満足し得る。
w=norm(Bgj,i(θ、φ)) 式(8)
ただし、「norm」は、2ノルムを解く演算である。
エンコーダ113は、ステップ4を行い、すなわち、エンコーダ113は、各ラウンドにおけるj番目の代表的な係数に対応する仮想スピーカの投票値
が計算されるまで、ステップ1からステップ3を繰り返す。
エンコーダ113は、各ラウンドにおける全ての代表的な係数に対応する仮想スピーカの投票値
が計算されるまで、ステップ1からステップ4を繰り返す。
最後に、エンコーダ113は、各ラウンドにおける各代表的な周波数に対応する仮想スピーカの数字gj,iと、仮想スピーカに対応する投票値
とに基づいて、現在のフレームに対する各仮想スピーカの最終的な投票値を計算する。例えば、エンコーダ113は、同じ数字を有する仮想スピーカの投票値を蓄積して、現在のフレームに対する仮想スピーカの最終的な投票値を取得する。現在のフレームに対する仮想スピーカの最終的な投票値VOTEgは、式(9)を満足する。
VOTEg=ΣPjigまたはVOTEg=VOTEg+Pjig 式(9)
連続するフレーム間の向き連続性を増加させ、連続するフレームに対して仮想スピーカを選択する結果が大幅に変わる問題を克服するために、エンコーダ113は、現在のフレームに対する候補仮想スピーカセットにおける仮想スピーカの初期投票値を、以前のフレームに対する代表的な仮想スピーカの以前のフレームに対する最終的な投票値に基づいて調整して、現在のフレームに対する仮想スピーカの最終的な投票値を取得する。図8は、本出願の一実施形態による、仮想スピーカを選択するための別の方法の概略フローチャートである。図8における方法手順は、図6におけるS620に含まれる具体的な演算プロセスを説明する。
S6201:エンコーダ113は、現在のフレームの第1の数量の初期投票値、および以前のフレームの第6の数量の最終的な投票値に基づいて、第7の数量の仮想スピーカに対応する、現在のフレームの第7の数量の最終的な投票値、および現在のフレームを取得する。
エンコーダ113は、S610において説明された方法を使用することによって、三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定し、次いで、第1の数量の仮想スピーカに対応する、現在のフレームの初期投票値として、第1の数量の投票値を使用し得る。
仮想スピーカは、現在のフレームの初期投票値と1対1で対応し、すなわち、1つの仮想スピーカは、現在のフレームの1つの初期投票値に対応する。例えば、第1の数量の仮想スピーカは、第1の仮想スピーカを含み、現在のフレームの第1の数量の初期投票値は、現在のフレームに対する第1の仮想スピーカの初期投票値を含み、第1の仮想スピーカは、現在のフレームに対する第1の仮想スピーカの初期投票値に対応する。現在のフレームに対する第1の仮想スピーカの初期投票値は、現在のフレームが符号化される場合に第1の仮想スピーカを使用する優先度を表す。
以前のフレームに対して設定された代表的な仮想スピーカに含まれる第6の数量の仮想スピーカは、以前のフレームの第6の数量の最終的な投票値と1対1で対応する。第6の数量の仮想スピーカは、エンコーダ113によって三次元オーディオ信号の以前のフレームを符号化するために使用された、以前のフレームに対する代表的な仮想スピーカであり得る。
具体的には、エンコーダ113は、以前のフレームの第6の数量の最終的な投票値に基づいて、現在のフレームの第1の数量の初期投票値を更新する。具体的には、エンコーダ113は、以前のフレームの最終的な投票値と、第1の数量の仮想スピーカおよび第6の数量の仮想スピーカにおいて、同じ数字を有する仮想スピーカに対応する、現在のフレームの初期投票値との和を計算して、第7の数量の仮想スピーカの現在のフレームの第7の数量の最終的な投票値であって、現在のフレームに対応する、現在のフレームの第7の数量の最終的な投票値を取得する。
S6202:エンコーダ113は、現在のフレームの第7の数量の最終的な投票値に基づいて、第7の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択する。
エンコーダ113は、現在のフレームの第7の数量の最終的な投票値に基づいて、第7の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択し、現在のフレームに対する第2の数量の代表的な仮想スピーカに対応する、現在のフレームの最終的な投票値は、予め設定された閾値より大きい。
エンコーダ113は、代替として、現在のフレームの第7の数量の最終的な投票値に基づいて、第7の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択してよい。例えば、現在のフレームの第2の数量の最終的な投票値は、現在のフレームの第7の数量の最終的な投票値の降順で、現在のフレームの第7の数量の最終的な投票値から決定され、第7の数量の仮想スピーカ内の仮想スピーカであって、現在のフレームの第2の数量の最終的な投票値に関連付けられる仮想スピーカは、現在のフレームに対する第2の数量の代表的な仮想スピーカとして使用される。
任意選択で、第7の数量の仮想スピーカにおいて、異なる数字を有する仮想スピーカの投票値が同じであり、異なる数字を有する仮想スピーカの投票値が、予め設定された閾値より大きい場合、エンコーダ113は、異なる数字を有する仮想スピーカを、現在のフレームに対する代表的な仮想スピーカとして使用し得る。
第2の数量は第7の数量未満であることが留意されるべきである。第7の数量の仮想スピーカは、現在のフレームに対する第2の数量の代表的な仮想スピーカを含む。第2の数量は、予め設定されてよく、または、第2の数量は、現在のフレームの音場における音源の数量に基づいて決定されてよい。
さらに、エンコーダ113が、現在のフレームの次のフレームを符号化する前に、エンコーダ113が、以前のフレームに対する代表的な仮想スピーカを再使用して、次のフレームを符号化することを決定した場合、エンコーダ113は、現在のフレームに対する第2の数量の代表的な仮想スピーカを、以前のフレームに対する第2の数量の代表的な仮想スピーカとして使用し、以前のフレームに対する第2の数量の代表的な仮想スピーカを使用することによって、現在のフレームの次のフレームを符号化し得る。
仮想スピーカを検索するプロセスにおいて、実際の音源の位置は、仮想スピーカの位置と不必要に重複するので、仮想スピーカは、実際の音源との1対1での対応を形成することができないことがある。さらに、実際の複雑なシナリオにおいて、制限された数量の仮想スピーカを有するセットは、音場における全ての音源を表すことができないことがある。この場合において、異なるフレームにおいて見出される仮想スピーカは、頻繁に変化することがあり、この変化は、明らかに聴取者の聴覚的感覚に影響を与え、復号および再構築の後に取得される三次元オーディオ信号において、明らかな不連続性およびノイズをもたらす。本出願のこの実施形態において提供される、仮想スピーカを選択するための方法によれば、以前のフレームに対する代表的な仮想スピーカが継承され、具体的には、同じ数字を有する仮想スピーカについて、現在のフレームの初期投票値は、以前のフレームの最終的な投票値を使用することによって調整され、その結果、エンコーダは、以前のフレームに対する代表的な仮想スピーカを選択する傾向がより高くなり、それによって、異なるフレームにおける仮想スピーカの頻繁な変化を低減し、フレーム間の信号向き連続性を高め、再構築された三次元オーディオ信号のオーディオ安定性を改善し、再構築された三次元オーディオ信号の音質を確保する。さらに、パラメータは、以前のフレームの最終的な投票値が長時間にわたって継承されず、音場が変化するシナリオ、例えば音源移動シナリオなどに対してアルゴリズムが適応することができないことを防止することを確保するように調整される。
さらに、本出願のこの実施形態は、仮想スピーカを選択するための方法をさらに提供する。エンコーダは、まず、現在のフレームを符号化するために、以前のフレームに対して設定された代表的な仮想スピーカが再使用されることが可能かどうかを決定し得る。エンコーダが、以前のフレームに対して設定された代表的な仮想スピーカを再使用して、現在のフレームを符号化する場合、エンコーダは、仮想スピーカを検索するプロセスを行わず、これは、エンコーダによって仮想スピーカを検索する計算複雑度を効果的に低減し、それによって、三次元オーディオ信号に圧縮コーディングを行う計算複雑度を低減し、エンコーダの計算負荷を低減する。エンコーダが、現在のフレームを符号化するために、以前のフレームに対して設定された代表的な仮想スピーカを再使用することができない場合、エンコーダは、代表的な係数を選択し、現在のフレームの代表的な係数を使用して、候補仮想スピーカセットにおける各仮想スピーカに投票し、投票値に基づいて、現在のフレームに対する代表的な仮想スピーカを選択し、それによって、三次元オーディオ信号に圧縮コーディングを行う計算複雑度を低減し、エンコーダの計算負荷を低減する。図9は、本出願の一実施形態による、仮想スピーカを選択するための方法の概略フローチャートである。エンコーダ113が、三次元オーディオ信号の現在のフレームの第4の数量の係数、および第4の数量の係数の周波数ドメイン特徴値を取得する前に、すなわち、S610の前に、図9に示されるように、本方法は、以下のステップを含む。
S640:エンコーダ113は、三次元オーディオ信号の現在のフレームと、以前のフレームに対して設定された代表的な仮想スピーカとの間の第1の相関を取得する。
以前のフレームに対して設定された代表的な仮想スピーカは、第6の数量の仮想スピーカを含み、第6の数量の仮想スピーカに含まれる仮想スピーカは、三次元オーディオ信号の以前のフレームを符号化するために使用される、以前のフレームに対する代表的な仮想スピーカである。第1の相関は、現在のフレームが符号化される場合に、以前のフレームに対して設定された代表的な仮想スピーカを再使用する優先度を表す。優先度は、傾向と置換されてもよく、具体的には、第1の相関は、現在のフレームが符号化される場合に、以前のフレームに対して設定された代表的な仮想スピーカを再使用するべきかどうかを決定するために使用される。以前のフレームに対して設定された代表的な仮想スピーカのより大きい第1の相関は、以前のフレームに対して設定された代表的な仮想スピーカのより高い傾向を示し、エンコーダ113は、現在のフレームを符号化するために、以前のフレームに対する代表的な仮想スピーカを選択する傾向がより高いことが理解され得る。
S650:エンコーダ113は、第1の相関が再使用条件を満足するかどうかを決定する。
第1の相関が再使用条件を満足しない場合、それは、エンコーダ113が仮想スピーカを検索し、現在のフレームに対する代表的な仮想スピーカに基づいて、現在のフレームを符号化し、S610を行う傾向がより高いことを示し、具体的には、エンコーダ113は、三次元オーディオ信号の現在のフレームの第4の数量の係数、および第4の数量の係数の周波数ドメイン特徴値を取得する。
任意選択で、第4の数量の係数の周波数ドメイン特徴値に基づいて、第4の数量の係数から、第3の数量の代表的な係数を選択した後に、エンコーダ113は、現在のフレームの係数であって、第1の相関を取得するために使用される係数として、第3の数量の代表的な係数において最大の代表的な係数を使用し得る。この場合において、エンコーダ113は、現在のフレームの第3の数量の代表的な係数において最大の代表的な係数と、以前のフレームに対して設定された代表的な仮想スピーカとの間の第1の相関を取得する。第1の相関が再使用条件を満足しない場合、S620が行われ、具体的には、エンコーダ113は、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択する。
第1の相関が再使用条件を満足する場合、それは、エンコーダ113が現在のフレームを符号化するために、以前のフレームに対する代表的な仮想スピーカを選択する傾向がより高いことを示し、エンコーダ113は、S660およびS670を行う。
S660:エンコーダ113は、以前のフレームに対して設定された代表的な仮想スピーカおよび現在のフレームに基づいて、仮想スピーカ信号を生成する。
S670:エンコーダ113は、仮想スピーカ信号を符号化して、ビットストリームを取得する。
本出願のこの実施形態において提供される、仮想スピーカを選択するための方法によれば、仮想スピーカを検索するかどうかは、現在のフレームの代表的な係数と以前のフレームに対する代表的な仮想スピーカとの間の相関を使用することによって決定され、これは、現在のフレームに対する代表的な仮想スピーカの相関を選択する精度を確保しながら、エンコーダ側の複雑度を効果的に低減する。
前述の実施形態における機能を実装するために、エンコーダは、それらの機能を行うための対応するハードウェア構造および/またはソフトウェアモジュールを含むことが理解され得る。当業者は、本出願において開示される実施形態を参照して説明される例におけるユニットおよび方法ステップが、ハードウェア、またはハードウェアとコンピュータソフトウェアとの組み合わせの形態で、本出願において実装されることが可能であることを容易に認識するべきである。機能がハードウェアによって行われるか、またはコンピュータソフトウェアによって駆動されるハードウェアによって行われるかは、技術的解決策の特定の適用シナリオおよび設計制約条件に依存する。
図1から図9を参照して、前述の内容は、本実施形態において提供される三次元オーディオ信号コーディング方法を詳細に説明している。図10および図11を参照して、以下は、実施形態において提供される三次元オーディオ信号符号化装置およびエンコーダを説明する。
図10は、一実施形態による三次元オーディオ信号符号化装置の可能な構造の概略図である。三次元オーディオ信号符号化装置は、前述の方法実施形態における三次元オーディオ信号を符号化する機能を実装するように構成され得、そのため、前述の方法実施形態の有益な効果も実装することができる。本実施形態において、三次元オーディオ信号符号化装置は、図1に示されるエンコーダ113、もしくは図3に示されるエンコーダ300であってよく、または、端末デバイスもしくはサーバに対して適用されるモジュール(チップなど)であってよい。
図10に示されるように、三次元オーディオ信号符号化装置1000は、通信モジュール1010、係数選択モジュール1020、仮想スピーカ選択モジュール1030、符号化モジュール1040、および記憶モジュール1050を含む。三次元オーディオ信号符号化装置1000は、図6から図9に示される方法実施形態におけるエンコーダ113の機能を実装するように構成される。
通信モジュール1010は、三次元オーディオ信号の現在のフレームを取得するように構成される。任意選択で、通信モジュール1010は、代替として、別のデバイスによって取得された三次元オーディオ信号の現在のフレームを受信し、または記憶モジュール1050から三次元オーディオ信号の現在のフレームを取得してよい。三次元オーディオ信号の現在のフレームは、HOA信号であり、係数の周波数ドメイン特徴値は、二次元ベクトルに基づいて決定され、二次元ベクトルは、HOA信号のHOA係数を含む。
仮想スピーカ選択モジュール1030は、三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定するように構成され、ただし、仮想スピーカは、投票値と1対1で対応し、第1の数量の仮想スピーカは、第1の仮想スピーカを含み、第1の数量の投票値は、第1の仮想スピーカの投票値を含み、第1の仮想スピーカは、第1の仮想スピーカの投票値に対応し、第1の仮想スピーカの投票値は、現在のフレームが符号化される場合に第1の仮想スピーカを使用する優先度を表し、候補仮想スピーカセットは、第5の数量の仮想スピーカを含み、第5の数量の仮想スピーカは、第1の数量の仮想スピーカを含み、投票ラウンド数量は、1以上の整数であり、投票ラウンド数量は、第5の数量以下である。
仮想スピーカ選択モジュール1030は、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択するようにさらに構成され、ただし、第2の数量は、第1の数量未満である。
投票ラウンド数量は、以下、すなわち、三次元オーディオ信号の現在のフレームにおける指向性音源の数量、コーディングレート、およびコーディング複雑度のうちの少なくとも1つに基づいて決定される。第2の数量は、予め設定されており、または、第2の数量は、現在のフレームに基づいて決定される。
三次元オーディオ信号符号化装置1000が、図6から図9に示される方法実施形態におけるエンコーダ113の機能を実装するように構成される場合、仮想スピーカ選択モジュール1030は、S610およびS620における関連する機能を実装するように構成される。
例えば、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択する場合、仮想スピーカ選択モジュール1030は、第1の数量の投票値および予め設定された閾値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択するように特に構成される。
別の例として、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択する場合、仮想スピーカ選択モジュール1030は、第1の数量の投票値の降順で、第1の数量の投票値から、第2の数量の投票値を決定し、現在のフレームに対する第2の数量の代表的な仮想スピーカとして、第1の数量の仮想スピーカにおける第2の数量の仮想スピーカであって、第2の数量の投票値に関連付けられた第2の数量の仮想スピーカを使用するように特に構成される。
任意選択で、三次元オーディオ信号符号化装置1000が、図9に示される方法実施形態におけるエンコーダ113の機能を実装するように構成される場合、仮想スピーカ選択モジュール1030は、S640およびS670における関連する機能を実装するように構成される。具体的には、仮想スピーカ選択モジュール1030は、現在のフレームと以前のフレームに対して設定された代表的な仮想スピーカとの間の第1の相関を取得し、第1の相関が再使用条件を満足しない場合、三次元オーディオ信号の現在のフレームの第4の数量の係数、および第4の数量の係数の周波数ドメイン特徴値を取得するようにさらに構成される。以前のフレームに対して設定された代表的な仮想スピーカは、第6の数量の仮想スピーカを含み、第6の数量の仮想スピーカに含まれる仮想スピーカは、三次元オーディオ信号の以前のフレームを符号化するために使用される、以前のフレームに対する代表的な仮想スピーカであり、第1の相関は、現在のフレームが符号化される場合に第6の数量の仮想スピーカを再使用する優先度を表す。
三次元オーディオ信号符号化装置1000が、図8に示される方法実施形態におけるエンコーダ113の機能を実装するように構成される場合、仮想スピーカ選択モジュール1030は、S620における関連する機能を実装するように構成される。具体的には、第1の数量の投票値に基づいて、第1の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択する場合、仮想スピーカ選択モジュール1030は、第1の数量の投票値と、以前のフレームに対して設定された代表的な仮想スピーカに含まれる第6の数量の仮想スピーカの、以前のフレームの第6の数量の最終的な投票値であって、三次元オーディオ信号の以前のフレームに対応する、以前のフレームの第6の数量の最終的な投票値とに基づいて、第7の数量の仮想スピーカに対応する、現在のフレームの第7の数量の最終的な投票値、および現在のフレームを取得し、現在のフレームの第7の数量の最終的な投票値に基づいて、第7の数量の仮想スピーカから、現在のフレームに対する第2の数量の代表的な仮想スピーカを選択するように特に構成され、ただし、第2の数量は、第7の数量未満である。第7の数量の仮想スピーカは、第1の数量の仮想スピーカを含み、第7の数量の仮想スピーカは、第6の数量の仮想スピーカを含み、第6の数量の仮想スピーカに含まれる仮想スピーカは、三次元オーディオ信号の以前のフレームを符号化するために使用される、以前のフレームに対する代表的な仮想スピーカである。
三次元オーディオ信号符号化装置1000が、図7Aおよび図7Bに示される方法実施形態におけるエンコーダ113の機能を実装するように構成される場合、係数選択モジュール1020はS6101における関連する機能を実装するように構成される。具体的には、現在のフレームの第3の数量の代表的な係数を取得する場合、係数選択モジュール1020は、現在のフレームの第4の数量の係数、および第4の数量の係数の周波数ドメイン特徴値を取得し、第4の数量の係数の周波数ドメイン特徴値に基づいて、第4の数量の係数から、第3の数量の代表的な係数を選択するように特に構成され、ただし、第3の数量は、第4の数量未満である。
符号化モジュール1140は、現在のフレームに対する第2の数量の代表的な仮想スピーカに基づいて、現在のフレームを符号化して、ビットストリームを取得するように構成される。
三次元オーディオ信号符号化装置1000が、図6から図9に示される方法実施形態におけるエンコーダ113の機能を実装するように構成される場合、符号化モジュール1140は、S630における関連する機能を実装するように構成される。例えば、符号化モジュール1140は、現在のフレームに対する第2の数量の代表的な仮想スピーカ、および現在のフレームに基づいて、仮想スピーカ信号を生成し、仮想スピーカ信号を符号化して、ビットストリームを取得するように特に構成される。
記憶モジュール1050は、三次元オーディオ信号に関連する係数、候補仮想スピーカセット、以前のフレームに対して設定された代表的な仮想スピーカ、選択された係数および仮想スピーカ等を記憶するように構成され、その結果、符号化モジュール1040は、現在のフレームを符号化して、ビットストリームを取得し、ビットストリームをデコーダへ送信する。
本出願のこの実施形態における三次元オーディオ信号符号化装置1000は、特定用途向け集積回路(application-specific integrated circuit,ASIC)またはプログラマブルロジックデバイス(programmable logic device,PLD)を使用することによって実装され得ることが理解されるべきである。PLDは、複号プログラマブル論理デバイス(complex programmable logical device,CPLD)、フィールドプログラマブルゲートアレイ(field-programmable gate array, FPGA)、汎用アレイロジック(generic array logic,GAL)、または、これらの任意の組み合わせであってよい。図6から図9に示される三次元オーディオ信号符号化方法が、ソフトウェアを使用することによって実装される場合、三次元オーディオ信号符号化装置1000および三次元オーディオ信号符号化装置1000のモジュールは、代替として、ソフトウェアモジュールであってよい。
通信モジュール1010、係数選択モジュール1020、仮想スピーカ選択モジュール1030、符号化モジュール1040、および記憶モジュール1050のさらに詳細な説明については、図6から図9に示される方法実施形態における関連する説明を直接参照されたい。詳細は、ここでは再度説明されない。
図11は、一実施形態によるエンコーダ1100の構造の概略図である。図11に示されるように、エンコーダ1100は、プロセッサ1110、バス1120、メモリ1130、および通信インターフェイス1140を含む。
本実施形態において、プロセッサ1110は、中央処理ユニット(central processing unit,CPU)であってよく、または、プロセッサ1110は、別の汎用プロセッサ、デジタル信号プロセッサ(digital signal processing,DSP)、ASIC、FPGAもしくは別のプログラマブルロジックデバイス、ディスクリートゲートもしくはトランジスタロジックデバイス、ディスクリートハードウェア構成要素等であってよいことが理解されるべきである。汎用プロセッサは、マイクロプロセッサであってよく、または任意の従来のプロセッサ等であってよい。
プロセッサは、代替として、グラフィック処理ユニット(graphics processing unit,GPU)、ニューラルネットワーク処理ユニット(neural network processing unit,NPU)、マイクロプロセッサ、または本出願における解決策のプログラム実行を制御するように構成された1つもしくは複数の集積回路であってよい。
通信インターフェイス1140は、エンコーダ1100と外部のデバイスまたは構成要素との間の通信を実装するように構成される。本実施形態において、通信インターフェイス1140は、三次元オーディオ信号を受信するように構成される。
バス1120は、前述の構成要素(例えば、プロセッサ1110およびメモリ1130)間で情報を送信するように構成されたチャネルを含み得る。データバスに加えて、バス1120は、電力バス、制御バス、ステータス信号バス等をさらに含んでよい。しかしながら、明確な説明のために、様々なタイプのバスが、図においてバス1120として描かれている。
例えば、エンコーダ1100は、複数のプロセッサを含んでよい。プロセッサは、マルチコア(マルチCPU)プロセッサであってよい。本明細書におけるプロセッサは、データ(例えば、コンピュータプログラム命令)を処理するように構成された、1つまたは複数のデバイス、回路、および/または計算ユニットであり得る。プロセッサ1110は、メモリ1130に記憶された、三次元オーディオ信号に関連する係数、候補仮想スピーカセット、以前のフレームに対して設定された代表的な仮想スピーカ、および選択された係数および仮想スピーカを呼び出し得る。
図11においては、エンコーダ1100が、1つのプロセッサ1110と、1つのメモリ1130とを含む例のみが使用されることが留意されるべきである。本明細書において、プロセッサ1110およびメモリ1130は各々、構成要素またはデバイスのタイプを示す。特定の実施形態において、各タイプの構成要素またはデバイスの数量は、サービス要件に基づいて決定され得る。
メモリ1130は、前述の方法実施形態における、三次元オーディオ信号に関連する係数、候補仮想スピーカセット、以前のフレームに対して設定された代表的な仮想スピーカ、および選択された係数および仮想スピーカなどの情報を記憶するように構成された記憶媒体、例えば、機械的ハードディスクまたはソリッドステートディスクなどの磁気ディスクに対応し得る。
エンコーダ1100は、汎用デバイスまたは専用デバイスであってよい。例えば、エンコーダ1100は、X86ベースのサーバもしくはARMベースのサーバであってよく、または、ポリシー制御および課金(policy control and charging, PCC)サーバなどの別の専用サーバであってよい。エンコーダ1100のタイプは、本出願のこの実施形態において限定されない。
本実施形態によるエンコーダ1100は、実施形態における三次元オーディオ信号符号化装置1100に対応し得、図6から図9における方法のうちのいずれかを行うように構成された、対応する本体に対応し得ることが理解されるべきである。さらに、三次元オーディオ信号符号化装置1100内のモジュールの前述のおよび他の演算および/または機能は、図6から図9における方法の対応する手順を実装するようにそれぞれ使用される。簡潔にするために、詳細はここでは再び説明されない。
実施形態における方法ステップは、ハードウェアによって実装されてよく、またはソフトウェア命令を実行するプロセッサによって実装されてよい。ソフトウェア命令は、対応するソフトウェアモジュールを含み得る。ソフトウェアモジュールは、ランダムアクセスメモリ(random access memory,RAM)、フラッシュメモリ、読み出し専用メモリ(read-only memory,ROM)、プログラマブル読み出し専用メモリ(programmable ROM,PROM)、消去可能プログラマブル読み出し専用メモリ(erasable PROM,EPROM)、電気的消去可能プログラマブル読み出し専用メモリ(electrically EPROM,EEPROM)、レジスタ、ハードディスク、リムーバブルハードディスク、CD-ROM、または、本技術分野において周知の任意の他の形態の記憶媒体に記憶され得る。例示的な記憶媒体は、プロセッサに結合され、その結果、プロセッサは、記憶媒体から情報を読み出すことができ、記憶媒体に情報を書き込むことができる。勿論、記憶媒体は、プロセッサの構成要素であってよい。プロセッサおよび記憶媒体は、ASICに位置し得る。さらに、ASICは、ネットワークデバイスまたは端末デバイスに位置してよい。勿論、プロセッサおよび記憶媒体は、ディスクリート構成要素として、ネットワークデバイスまたは端末デバイスに存在してよい。
前述の実施形態の全部または一部は、ソフトウェア、ハードウェア、ファームウェア、または、これらの任意の組み合わせを使用して実装され得る。ソフトウェアが実装のために使用される場合、実施形態は、コンピュータプログラム製品の形態で、完全にまたは部分的に実装され得る。コンピュータプログラム製品は、1つまたは複数のコンピュータプログラムまたは命令を含む。コンピュータプログラムまたは命令が、コンピュータにロードされ、実行される場合、本出願の実施形態による手順または機能の全部または一部が行われる。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、ネットワークデバイス、ユーザ機器、または別のプログラム可能な装置であってよい。コンピュータプログラムまたは命令は、コンピュータ可読記憶媒体に記憶されてよく、または、あるコンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体へ送信されてよい。例えば、コンピュータプログラムまたは命令は、あるウェブサイト、コンピュータ、サーバ、またはデータセンタから、別のウェブサイト、コンピュータ、サーバ、またはデータセンタへ、有線手法または無線手法で送信され得る。コンピュータ可読記憶媒体は、1つまたは複数の利用可能な媒体を一体化した、サーバまたはデータセンタなどの、コンピュータまたはデータ記憶デバイスによってアクセス可能な、任意の利用可能な媒体であってよい。利用可能な媒体は、磁気媒体、例えば、フロッピーディスク、ハードディスク、もしくは磁気テープであってよく、光学媒体、例えば、デジタルビデオディスク(digital video disc,DVD)であってよく、または、半導体媒体、例えば、ソリッドステートドライブ(solid state drive,SSD)であってよい。
前述の説明は、本出願の特定の実装に過ぎず、本出願の保護範囲を限定するようには意図されていない。本出願において開示される技術的な範囲内で、当業者によって容易に考え出されるいかなる等価な変形または置換も、本出願の保護範囲内に収まるべきものである。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うべきものである。
符号化ユニット360は、仮想スピーカ信号に対してコア符号化処理を行って、ビットストリームを取得するように構成される。コア符号化処理は、変換、量子化、音響心理モデル、ノイズシェーピング、帯域幅拡張、ダウンミキシング、算術コーディング、ビットストリーム生成等を含むが、これらに限定されない。
1つの場合において、候補仮想スピーカセットは、ソースデバイス110のメモリにおいて予め設定されている。ソースデバイス110は、メモリから、候補仮想スピーカセットを読み取り得る。候補仮想スピーカセットは、複数の仮想スピーカを含む。仮想スピーカは、空間音場において仮想的に存在するスピーカを表す。仮想スピーカは、三次元オーディオ信号に基づいて、仮想スピーカ信号を計算するように構成され、その結果、宛先デバイス120は、再構築された三次元オーディオ信号を再生する。

Claims (31)

  1. 三次元オーディオ信号符号化方法であって、
    三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定するステップであって、前記仮想スピーカは、前記投票値と1対1で対応し、前記第1の数量の仮想スピーカは、第1の仮想スピーカを含み、前記第1の仮想スピーカの投票値は、前記第1の仮想スピーカの優先度を表し、前記候補仮想スピーカセットは、第5の数量の仮想スピーカを含み、前記第5の数量の仮想スピーカは、前記第1の数量の仮想スピーカを含み、前記第1の数量は、前記第5の数量以下であり、前記投票ラウンド数量は、1以上の整数であり、前記投票ラウンド数量は、前記第5の数量以下である、ステップと、
    前記第1の数量の投票値に基づいて、前記第1の数量の仮想スピーカから、前記現在のフレームに対する第2の数量の代表的な仮想スピーカを選択するステップであって、前記第2の数量は、前記第1の数量未満である、ステップと、
    前記現在のフレームに対する前記第2の数量の代表的な仮想スピーカに基づいて、前記現在のフレームを符号化して、ビットストリームを取得するステップと
    を含む、三次元オーディオ信号符号化方法。
  2. 前記投票ラウンド数量は、前記三次元オーディオ信号の前記現在のフレームにおける指向性音源の数量、前記現在のフレームが符号化されるコーディングレート、および前記現在のフレームを符号化するコーディング複雑度のうちの少なくとも1つに基づいて決定される請求項1に記載の方法。
  3. 前記第2の数量は、予め設定され、または前記第2の数量は、前記現在のフレームに基づいて決定される請求項1または2に記載の方法。
  4. 前記第1の数量の投票値に基づいて、前記第1の数量の仮想スピーカから、前記現在のフレームに対する第2の数量の代表的な仮想スピーカを選択する前記ステップは、
    前記第1の数量の投票値および予め設定された閾値に基づいて、前記第1の数量の仮想スピーカから、前記現在のフレームに対する前記第2の数量の代表的な仮想スピーカを選択するステップ
    を含む請求項1乃至3のいずれか一項に記載の方法。
  5. 前記第1の数量の投票値に基づいて、前記第1の数量の仮想スピーカから、前記現在のフレームに対する第2の数量の代表的な仮想スピーカを選択する前記ステップは、
    前記第1の数量の投票値に基づいて、前記第1の数量の投票値から、第2の数量の投票値を決定するステップであって、前記第1の数量の仮想スピーカ内の第2の数量の仮想スピーカであって、前記第2の数量の投票値に対応する、第2の数量の仮想スピーカは、前記現在のフレームに対する前記第2の数量の代表的な仮想スピーカである、ステップ
    を含む請求項1乃至3のいずれか一項に記載の方法。
  6. 前記第1の数量が前記第5の数量と等しい場合、三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を前記決定する前記ステップは、
    前記現在のフレームの第3の数量の代表的な係数を取得するステップであって、前記第3の数量の代表的な係数は、第1の代表的な係数および第2の代表的な係数を含む、ステップと、
    前記第5の数量の仮想スピーカの第5の数量の第1の投票値であって、前記第1の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第1の投票値を取得するステップであって、前記第5の数量の第1の投票値は、前記第1の仮想スピーカの第1の投票値を含む、ステップと、
    前記第5の数量の仮想スピーカの第5の数量の第2の投票値であって、前記第2の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第2の投票値を取得するステップであって、前記第5の数量の第2の投票値は、前記第1の仮想スピーカの第2の投票値を含む、ステップと、
    前記第5の数量の第1の投票値および前記第5の数量の第2の投票値に基づいて、前記第5の数量の仮想スピーカのそれぞれの投票値を取得するステップであって、前記第1の仮想スピーカの前記投票値は、前記第1の仮想スピーカの前記第1の投票値および前記第1の仮想スピーカの前記第2の投票値に基づいて取得される、ステップと
    を含む請求項1乃至5のいずれか一項に記載の方法。
  7. 前記第1の数量が前記第5の数量以下である場合、三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定する前記ステップは、
    前記現在のフレームの第3の数量の代表的な係数を取得するステップであって、前記第3の数量の代表的な係数は、第1の代表的な係数および第2の代表的な係数を含む、ステップと、
    前記第5の数量の仮想スピーカの第5の数量の第1の投票値であって、前記第1の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第1の投票値を取得するステップであって、前記第5の数量の第1の投票値は、前記第1の仮想スピーカの第1の投票値を含む、ステップと、
    前記第5の数量の仮想スピーカの第5の数量の第2の投票値であって、前記第2の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第2の投票値を取得するステップであって、前記第5の数量の第2の投票値は、前記第1の仮想スピーカの第2の投票値を含む、ステップと、
    前記第5の数量の第1の投票値に基づいて、前記第5の数量の仮想スピーカから、第8の数量の仮想スピーカを選択するステップであって、前記第8の数量は、前記第5の数量未満である、ステップと、
    前記第5の数量の第2の投票値に基づいて、前記第5の数量の仮想スピーカから、第9の数量の仮想スピーカを選択するステップであって、前記第9の数量は、前記第5の数量未満である、ステップと、
    前記第8の数量の仮想スピーカの第1の投票値および前記第9の数量の仮想スピーカの第2の投票値に基づいて、第10の数量の仮想スピーカの第10の数量の第3の投票値を取得するステップであって、前記第8の数量の仮想スピーカは、前記第10の数量の仮想スピーカを含み、前記第9の数量の仮想スピーカは、前記第10の数量の仮想スピーカを含み、前記第10の数量の仮想スピーカは、第2の仮想スピーカを含み、前記第2の仮想スピーカの第3の投票値は、前記第2の仮想スピーカの第1の投票値および前記第2の仮想スピーカの第2の投票値に基づいて取得され、前記第10の数量は、前記第8の数量以下であり、前記第10の数量は、前記第9の数量以下であり、前記第10の数量は、1以上の整数である、ステップと、
    前記第8の数量の仮想スピーカの前記第1の投票値、前記第9の数量の仮想スピーカの前記第2の投票値、および前記第10の数量の第3の投票値に基づいて、前記第1の数量の仮想スピーカおよび前記第1の数量の投票値を取得するステップであって、前記第1の数量の仮想スピーカは、前記第8の数量の仮想スピーカおよび前記第9の数量の仮想スピーカを含む、ステップと
    を含む請求項1乃至5のいずれか一項に記載の方法。
  8. 前記第1の数量が前記第5の数量以下である場合、三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定する前記ステップは、
    前記現在のフレームの第3の数量の代表的な係数を取得するステップであって、前記第3の数量の代表的な係数は、第1の代表的な係数および第2の代表的な係数を含む、ステップと、
    前記第5の数量の仮想スピーカの第5の数量の第1の投票値であって、前記第1の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第1の投票値を取得するステップであって、前記第5の数量の第1の投票値は、前記第1の仮想スピーカの第1の投票値を含む、ステップと、
    前記第5の数量の仮想スピーカの第5の数量の第2の投票値であって、前記第2の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第2の投票値を取得するステップであって、前記第5の数量の第2の投票値は、前記第1の仮想スピーカの第2の投票値を含む、ステップと、
    前記第5の数量の第1の投票値に基づいて、前記第5の数量の仮想スピーカから、第8の数量の仮想スピーカを選択するステップであって、前記第8の数量は、前記第5の数量未満である、ステップと、
    前記第5の数量の第2の投票値に基づいて、前記第5の数量の仮想スピーカから、第9の数量の仮想スピーカを選択するステップであって、前記第9の数量は、前記第5の数量未満であり、前記第8の数量の仮想スピーカと前記第9の数量の仮想スピーカとの間に共通部分はない、ステップと、
    前記第8の数量の仮想スピーカの第1の投票値および前記第9の数量の仮想スピーカの第2の投票値に基づいて、前記第1の数量の仮想スピーカおよび前記第1の数量の投票値を取得するステップであって、前記第1の数量の仮想スピーカは、前記第8の数量の仮想スピーカおよび前記第9の数量の仮想スピーカを含む、ステップと
    を含む請求項1乃至5のいずれか一項に記載の方法。
  9. 前記第5の数量の仮想スピーカの第5の数量の第1の投票値であって、前記第1の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第1の投票値を取得する前記ステップは、
    前記第5の数量の仮想スピーカの係数および前記第1の代表的な係数に基づいて、前記第5の数量の第1の投票値を決定するステップ
    を含む請求項6乃至8のいずれか一項に記載の方法。
  10. 前記現在のフレームの第3の数量の代表的な係数を取得する前記ステップは、
    前記現在のフレームの第4の数量の係数、および前記第4の数量の係数の周波数ドメイン特徴値を取得するステップと、
    前記第4の数量の係数の前記周波数ドメイン特徴値に基づいて、前記第4の数量の係数から、前記第3の数量の代表的な係数を選択するステップであって、前記第3の数量は、前記第4の数量未満である、ステップと
    を含む請求項6乃至9のいずれか一項に記載の方法。
  11. 前記第4の数量の係数の前記周波数ドメイン特徴値に基づいて、前記第4の数量の係数から、前記第3の数量の代表的な係数を選択する前記ステップの前に、前記方法は、
    前記現在のフレームと、以前のフレームに対して設定された代表的な仮想スピーカとの間の第1の相関を取得するステップであって、前記以前のフレームに対して設定された前記代表的な仮想スピーカは、第6の数量の仮想スピーカを含み、前記第6の数量の仮想スピーカに含まれる前記仮想スピーカは、前記三次元オーディオ信号の前記以前のフレームを符号化するために使用される、前記以前のフレームに対する代表的な仮想スピーカであり、前記第1の相関は、前記現在のフレームが符号化される場合に、前記以前のフレームに対して設定された前記代表的な仮想スピーカを再使用するかどうかを決定するために使用される、ステップと、
    前記第1の相関が再使用条件を満足しない場合、前記三次元オーディオ信号の前記現在のフレームの前記第4の数量の係数、および前記第4の数量の係数の前記周波数ドメイン特徴値を取得するステップと
    をさらに含む請求項10に記載の方法。
  12. 前記第1の数量の投票値に基づいて、前記第1の数量の仮想スピーカから、前記現在のフレームに対する第2の数量の代表的な仮想スピーカを選択する前記ステップは、
    前記第1の数量の投票値、および前記以前のフレームの第6の数量の最終的な投票値に基づいて、第7の数量の仮想スピーカに対応する、前記現在のフレームの前記第7の数量の最終的な投票値、および前記現在のフレームを取得するステップであって、前記第7の数量の仮想スピーカは、前記第1の数量の仮想スピーカを含み、前記第7の数量の仮想スピーカは、前記第6の数量の仮想スピーカを含み、前記以前のフレームに対して設定された前記代表的な仮想スピーカに含まれる前記第6の数量の仮想スピーカは、前記以前のフレームの前記第6の数量の最終的な投票値と1対1で対応し、前記第6の数量の仮想スピーカは、前記三次元オーディオ信号の前記以前のフレームが符号化される場合に使用される仮想スピーカである、ステップと、
    前記現在のフレームの前記第7の数量の最終的な投票値に基づいて、前記第7の数量の仮想スピーカから、前記現在のフレームに対する前記第2の数量の代表的な仮想スピーカを選択するステップであって、前記第2の数量は、前記第7の数量未満である、ステップと
    を含む請求項1乃至11のいずれか一項に記載の方法。
  13. 前記三次元オーディオ信号の前記現在のフレームは、高次アンビソニックスHOA信号であり、前記現在のフレームの係数の周波数ドメイン特徴値は、前記HOA信号の係数に基づいて決定される請求項1乃至12のいずれか一項に記載の方法。
  14. 三次元オーディオ信号符号化装置であって、
    三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を決定するように構成された仮想スピーカ選択モジュールであって、前記仮想スピーカは、前記投票値と1対1で対応し、前記第1の数量の仮想スピーカは、第1の仮想スピーカを含み、前記第1の仮想スピーカの投票値は、前記第1の仮想スピーカの優先度を表し、前記候補仮想スピーカセットは、第5の数量の仮想スピーカを含み、前記第5の数量の仮想スピーカは、前記第1の数量の仮想スピーカを含み、前記第1の数量は、前記第5の数量以下であり、前記投票ラウンド数量は、1以上の整数であり、前記投票ラウンド数量は、前記第5の数量以下であり、
    前記仮想スピーカ選択モジュールは、前記第1の数量の投票値に基づいて、前記第1の数量の仮想スピーカから、前記現在のフレームに対する第2の数量の代表的な仮想スピーカを選択するようにさらに構成され、前記第2の数量は、前記第1の数量未満である、仮想スピーカ選択モジュールと、
    前記現在のフレームに対する前記第2の数量の代表的な仮想スピーカに基づいて、前記現在のフレームを符号化して、ビットストリームを取得するように構成された符号化モジュールと
    を備える、三次元オーディオ信号符号化装置。
  15. 前記投票ラウンド数量は、前記三次元オーディオ信号の前記現在のフレームにおける指向性音源の数量、前記現在のフレームが符号化されるコーディングレート、および前記現在のフレームを符号化するコーディング複雑度のうちの少なくとも1つに基づいて決定される請求項14に記載の装置。
  16. 前記第2の数量は、予め設定され、または前記第2の数量は、前記現在のフレームに基づいて決定される請求項14または15に記載の装置。
  17. 前記第1の数量の投票値に基づいて、前記第1の数量の仮想スピーカから、前記現在のフレームに対して前記第2の数量の代表的な仮想スピーカを選択する場合に、前記仮想スピーカ選択モジュールは、
    前記第1の数量の投票値および予め設定された閾値に基づいて、前記第1の数量の仮想スピーカから、前記現在のフレームに対する前記第2の数量の代表的な仮想スピーカを選択する
    ように特に構成される請求項14乃至16のいずれか一項に記載の装置。
  18. 前記第1の数量の投票値に基づいて、前記第1の数量の仮想スピーカから、前記現在のフレームに対する前記第2の数量の代表的な仮想スピーカを選択する場合に、前記仮想スピーカ選択モジュールは、
    前記第1の数量の投票値に基づいて、前記第1の数量の投票値から、第2の数量の投票値を決定し、前記第1の数量の仮想スピーカ内の第2の数量の仮想スピーカであって、前記第2の数量の投票値に対応する、第2の数量の仮想スピーカを、前記現在のフレームに対する前記第2の数量の代表的な仮想スピーカとして使用する
    ように特に構成される請求項14乃至17のいずれか一項に記載の装置。
  19. 前記第1の数量が前記第5の数量と等しい場合に、前記三次元オーディオ信号の前記現在のフレーム、前記候補仮想スピーカセット、および前記投票ラウンド数量に基づいて、前記第1の数量の仮想スピーカおよび前記第1の数量の投票値を決定するとき、前記仮想スピーカ選択モジュールは、
    前記現在のフレームの第3の数量の代表的な係数を取得することであって、前記第3の数量の代表的な係数は、第1の代表的な係数および第2の代表的な係数を含む、ことと、
    前記第5の数量の仮想スピーカの第5の数量の第1の投票値であって、前記第1の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第1の投票値を取得することであって、前記第5の数量の第1の投票値は、前記第1の仮想スピーカの第1の投票値を含む、ことと、
    前記第5の数量の仮想スピーカの第5の数量の第2の投票値であって、前記第2の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第2の投票値を取得することであって、前記第5の数量の第2の投票値は、前記第1の仮想スピーカの第2の投票値を含む、ことと、
    前記第5の数量の第1の投票値および前記第5の数量の第2の投票値に基づいて、前記第5の数量の仮想スピーカのそれぞれの投票値を取得することであって、前記第1の仮想スピーカの前記投票値は、前記第1の仮想スピーカの前記第1の投票値および前記第1の仮想スピーカの前記第2の投票値に基づいて取得される、ことと
    を行うように特に構成される請求項14乃至18のいずれか一項に記載の装置。
  20. 前記第1の数量が前記第5の数量以下である場合に、前記三次元オーディオ信号の前記現在のフレーム、前記候補仮想スピーカセット、および前記投票ラウンド数量に基づいて、前記第1の数量の仮想スピーカおよび前記第1の数量の投票値を決定する場合、前記仮想スピーカ選択モジュールは、
    前記現在のフレームの第3の数量の代表的な係数を取得することであって、前記第3の数量の代表的な係数は、第1の代表的な係数および第2の代表的な係数を含む、ことと、
    前記第5の数量の仮想スピーカの第5の数量の第1の投票値であって、前記第1の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第1の投票値を取得することであって、前記第5の数量の第1の投票値は、前記第1の仮想スピーカの第1の投票値を含む、ことと、
    前記第5の数量の仮想スピーカの第5の数量の第2の投票値であって、前記第2の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第2の投票値を取得することであって、前記第5の数量の第2の投票値は、前記第1の仮想スピーカの第2の投票値を含む、ことと、
    前記第5の数量の第1の投票値に基づいて、前記第5の数量の仮想スピーカから、第8の数量の仮想スピーカを選択することであって、前記第8の数量は、前記第5の数量未満である、ことと、
    前記第5の数量の第2の投票値に基づいて、前記第5の数量の仮想スピーカから、第9の数量の仮想スピーカを選択することであって、前記第9の数量は、前記第5の数量未満である、ことと、
    前記第8の数量の仮想スピーカの第1の投票値および前記第9の数量の仮想スピーカの第2の投票値に基づいて、第10の数量の仮想スピーカの第10の数量の第3の投票値を取得することであって、前記第8の数量の仮想スピーカは、前記第10の数量の仮想スピーカを含み、前記第9の数量の仮想スピーカは、前記第10の数量の仮想スピーカを含み、前記第10の数量の仮想スピーカは、第2の仮想スピーカを含み、前記第2の仮想スピーカの第3の投票値は、前記第2の仮想スピーカの第1の投票値および前記第2の仮想スピーカの第2の投票値に基づいて取得され、前記第10の数量は、前記第8の数量以下であり、前記第10の数量は、前記第9の数量以下であり、前記第10の数量は、1以上の整数である、ことと、
    前記第8の数量の第1の投票値、前記第9の数量の第2の投票値、および前記第10の数量の第3の投票値に基づいて、前記第1の数量の仮想スピーカおよび前記第1の数量の投票値を取得することであって、前記第1の数量の仮想スピーカは、前記第8の数量の仮想スピーカおよび前記第9の数量の仮想スピーカを含む、ことと
    を行うように特に構成される請求項14乃至18のいずれか一項に記載の装置。
  21. 前記第1の数量が前記第5の数量以下である場合、三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、および投票ラウンド数量に基づいて、第1の数量の仮想スピーカおよび第1の数量の投票値を前記決定することは、
    前記現在のフレームの第3の数量の代表的な係数を取得することであって、前記第3の数量の代表的な係数は、第1の代表的な係数および第2の代表的な係数を含む、ことと、
    前記第5の数量の仮想スピーカの第5の数量の第1の投票値であって、前記第1の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第1の投票値を取得することであって、前記第5の数量の第1の投票値は、前記第1の仮想スピーカの第1の投票値を含む、ことと、
    前記第5の数量の仮想スピーカの第5の数量の第2の投票値であって、前記第2の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、第5の数量の第2の投票値を取得することであって、前記第5の数量の第2の投票値は、前記第1の仮想スピーカの第2の投票値を含む、ことと、
    前記第5の数量の第1の投票値に基づいて、前記第5の数量の仮想スピーカから、第8の数量の仮想スピーカを選択することであって、前記第8の数量は、前記第5の数量未満である、ことと、
    前記第5の数量の第2の投票値に基づいて、前記第5の数量の仮想スピーカから、第9の数量の仮想スピーカを選択することであって、前記第9の数量は、前記第5の数量未満であり、前記第8の数量の仮想スピーカと前記第9の数量の仮想スピーカとの間に共通部分はない、ことと、
    前記第8の数量の仮想スピーカの第1の投票値および前記第9の数量の仮想スピーカの第2の投票値に基づいて、前記第1の数量の仮想スピーカおよび前記第1の数量の投票値を取得することであって、前記第1の数量の仮想スピーカは、前記第8の数量の仮想スピーカおよび前記第9の数量の仮想スピーカを含む、ことと
    を含む請求項14乃至18のいずれか一項に記載の装置。
  22. 前記第5の数量の仮想スピーカの前記第5の数量の第1の投票値であって、前記第1の代表的な係数を使用することによって前記投票ラウンド数量の投票ラウンドを行うことによって取得される、前記第5の数量の第1の投票値を取得するとき、前記仮想スピーカ選択モジュールは、
    前記第5の数量の仮想スピーカの係数および前記第1の代表的な係数に基づいて、前記第5の数量の第1の投票値を決定する
    ように特に構成される請求項19乃至21のいずれか一項に記載の装置。
  23. 前記装置は、係数選択モジュールをさらに備え、前記現在のフレームの前記第3の数量の代表的な係数を取得するとき、前記係数選択モジュールは、
    前記現在のフレームの第4の数量の係数、および前記第4の数量の係数の周波数ドメイン特徴値を取得することと、
    前記第4の数量の係数の前記周波数ドメイン特徴値に基づいて、前記第4の数量の係数から、前記第3の数量の代表的な係数を選択することであって、前記第3の数量は、前記第4の数量未満である、ことと
    を行うように特に構成される請求項19乃至22のいずれか一項に記載の装置。
  24. 前記仮想スピーカ選択モジュールは、
    前記現在のフレームと、以前のフレームに対して設定された代表的な仮想スピーカとの間の第1の相関を取得することであって、前記以前のフレームに対して設定された前記代表的な仮想スピーカは、第6の数量の仮想スピーカを含み、前記第6の数量の仮想スピーカに含まれる前記仮想スピーカは、前記三次元オーディオ信号の前記以前のフレームを符号化するために使用される、前記以前のフレームに対する代表的な仮想スピーカであり、前記第1の相関は、前記現在のフレームが符号化される場合に、前記以前のフレームに対して設定された前記代表的な仮想スピーカを再使用するかどうかを決定するために使用される、ことと、
    前記第1の相関が再使用条件を満足しない場合、前記三次元オーディオ信号の前記現在のフレームの前記第4の数量の係数、および前記第4の数量の係数の前記周波数ドメイン特徴値を取得することと
    を行うようにさらに構成される請求項23に記載の装置。
  25. 前記第1の数量の投票値に基づいて、前記第1の数量の仮想スピーカから、前記現在のフレームに対する前記第2の数量の代表的な仮想スピーカを選択するとき、前記仮想スピーカ選択モジュールは、
    前記第1の数量の投票値、および前記以前のフレームの第6の数量の最終的な投票値に基づいて、第7の数量の仮想スピーカに対応する、前記現在のフレームの前記第7の数量の最終的な投票値、および前記現在のフレームを取得することであって、前記第7の数量の仮想スピーカは、前記第1の数量の仮想スピーカを含み、前記第7の数量の仮想スピーカは、前記第6の数量の仮想スピーカを含み、前記以前のフレームに対して設定された前記代表的な仮想スピーカに含まれる前記第6の数量の仮想スピーカは、前記以前のフレームの前記第6の数量の最終的な投票値と1対1で対応し、前記第6の数量の仮想スピーカは、前記三次元オーディオ信号の前記以前のフレームが符号化される場合に使用される仮想スピーカである、ことと、
    前記現在のフレームの前記第7の数量の最終的な投票値に基づいて、前記第7の数量の仮想スピーカから、前記現在のフレームに対する前記第2の数量の代表的な仮想スピーカを選択することであって、前記第2の数量は、前記第7の数量未満である、ことと
    を行うように特に構成される請求項14乃至24のいずれか一項に記載の装置。
  26. 前記三次元オーディオ信号の前記現在のフレームは、高次アンビソニックスHOA信号であり、前記現在のフレームの係数の周波数ドメイン特徴値は、前記HOA信号の係数に基づいて決定される請求項14乃至25のいずれか一項に記載の装置。
  27. エンコーダであって、前記エンコーダは、少なくとも1つのプロセッサと、メモリとを備え、前記メモリは、コンピュータプログラムを記憶するように構成され、その結果、前記コンピュータプログラムが前記少なくとも1つのプロセッサによって実行されるとき、請求項1乃至13のいずれか一項に記載の三次元オーディオ信号符号化方法が実装される、エンコーダ。
  28. システムであって、前記システムは、請求項27に記載のエンコーダと、デコーダとを備え、前記エンコーダは、請求項1乃至13のいずれか一項に記載の方法の前記動作ステップを行うように構成され、前記デコーダは、前記エンコーダによって生成されるビットストリームを復号するように構成される、システム。
  29. コンピュータプログラムであって、前記コンピュータプログラムが実行されるとき、請求項1乃至13のいずれか一項に記載の三次元オーディオ信号符号化方法が実装される、コンピュータプログラム。
  30. コンピュータ可読記憶媒体であって、コンピュータソフトウェア命令を備え、前記コンピュータソフトウェア命令がエンコーダ上で実行されるとき、前記エンコーダは、請求項1乃至13のいずれか一項に記載の三次元オーディオ信号符号化方法を行うことを可能にされる、コンピュータ可読記憶媒体。
  31. コンピュータ可読記憶媒体であって、請求項1乃至13のいずれか一項に記載の三次元オーディオ信号符号化方法において取得されるビットストリームを備える、コンピュータ可読記憶媒体。
JP2023571255A 2021-05-17 2022-05-07 三次元オーディオ信号コーディング方法および装置、ならびにエンコーダ Pending JP2024517503A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110536631.5 2021-05-17
CN202110536631.5A CN115376529A (zh) 2021-05-17 2021-05-17 三维音频信号编码方法、装置和编码器
PCT/CN2022/091571 WO2022242483A1 (zh) 2021-05-17 2022-05-07 三维音频信号编码方法、装置和编码器

Publications (1)

Publication Number Publication Date
JP2024517503A true JP2024517503A (ja) 2024-04-22

Family

ID=84059234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023571255A Pending JP2024517503A (ja) 2021-05-17 2022-05-07 三次元オーディオ信号コーディング方法および装置、ならびにエンコーダ

Country Status (8)

Country Link
US (1) US20240087579A1 (ja)
EP (1) EP4328906A1 (ja)
JP (1) JP2024517503A (ja)
KR (1) KR20240005905A (ja)
CN (1) CN115376529A (ja)
AU (1) AU2022278168A1 (ja)
BR (1) BR112023023916A2 (ja)
WO (1) WO2022242483A1 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100131467A (ko) * 2008-03-03 2010-12-15 노키아 코포레이션 복수의 오디오 채널들을 캡쳐하고 렌더링하는 장치
GB201211512D0 (en) * 2012-06-28 2012-08-08 Provost Fellows Foundation Scholars And The Other Members Of Board Of The Method and apparatus for generating an audio output comprising spartial information
EP3162086B1 (en) * 2014-06-27 2021-04-07 Dolby International AB Apparatus for determining for the compression of an hoa data frame representation a lowest integer number of bits required for representing non-differential gain values
EP3523799B1 (en) * 2016-10-25 2021-12-08 Huawei Technologies Co., Ltd. Method and apparatus for acoustic scene playback
US10667072B2 (en) * 2018-06-12 2020-05-26 Magic Leap, Inc. Efficient rendering of virtual soundfields
US11432097B2 (en) * 2019-07-03 2022-08-30 Qualcomm Incorporated User interface for controlling audio rendering for extended reality experiences

Also Published As

Publication number Publication date
KR20240005905A (ko) 2024-01-12
EP4328906A1 (en) 2024-02-28
AU2022278168A1 (en) 2023-11-23
CN115376529A (zh) 2022-11-22
BR112023023916A2 (pt) 2024-01-30
US20240087579A1 (en) 2024-03-14
WO2022242483A1 (zh) 2022-11-24

Similar Documents

Publication Publication Date Title
US20230298600A1 (en) Audio encoding and decoding method and apparatus
US20240087580A1 (en) Three-dimensional audio signal coding method and apparatus, and encoder
US20240119950A1 (en) Method and apparatus for encoding three-dimensional audio signal, encoder, and system
JP2024517503A (ja) 三次元オーディオ信号コーディング方法および装置、ならびにエンコーダ
WO2022242481A1 (zh) 三维音频信号编码方法、装置和编码器
JP2023551016A (ja) オーディオ符号化及び復号方法並びに装置
WO2022242479A1 (zh) 三维音频信号编码方法、装置和编码器
TWI844036B (zh) 三維音訊訊號編碼方法、裝置、編碼器、系統、電腦程式和電腦可讀儲存介質
WO2022253187A1 (zh) 一种三维音频信号的处理方法和装置
WO2022257824A1 (zh) 一种三维音频信号的处理方法和装置
WO2024146408A1 (zh) 场景音频解码方法及电子设备
CN115346537A (zh) 一种音频编码、解码方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231219