CN118140492A - 信息处理装置、方法和程序 - Google Patents

信息处理装置、方法和程序 Download PDF

Info

Publication number
CN118140492A
CN118140492A CN202280071069.6A CN202280071069A CN118140492A CN 118140492 A CN118140492 A CN 118140492A CN 202280071069 A CN202280071069 A CN 202280071069A CN 118140492 A CN118140492 A CN 118140492A
Authority
CN
China
Prior art keywords
data
directivity
model
information
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280071069.6A
Other languages
English (en)
Inventor
难波隆一
知念徹
辻实
畠中光行
本间弘幸
户栗康裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/JP2022/024014 external-priority patent/WO2023074039A1/ja
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN118140492A publication Critical patent/CN118140492A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本技术涉及能够降低方向性数据的传输吞吐量的信息处理装置、方法和程序。该信息处理装置具有:获取单元,获取对表示声源的方向性的方向性数据进行建模而获得的模型数据;以及计算单元,基于该模型数据来计算方向性数据。本技术可应用于信息处理装置。

Description

信息处理装置、方法和程序
技术领域
本技术涉及信息处理装置、信息处理方法和程序,并且具体地,涉及能够减少方向性数据的传输量的信息处理装置、信息处理方法和程序。
背景技术
在现有技术中,已知通过考虑声源的方向性,可以实现具有更高真实感的音频再现。
例如,当表示来自对象的声音的方向性的方向性数据与对象的音频数据一起被准备时,可使用音频数据和方向性数据来执行基于对象的方向特性的音频再现。
此外,作为关于方向性的技术,例如,已经提出了这样的技术,其中用户可以通过在记录时任意地选择方向性方向来执行记录,并且用户独立于在记录时的方向性方向来选择和再现期望的方向性方向(例如,参见专利文献1)。
引用列表
专利文献
专利文献1:日本专利申请公开第2021-100209号
发明内容
本发明要解决的问题
同时,由于针对每一个声源的方向特性(方向性)是不同的,因此在对象的音频数据和对象的方向性数据被提供作为内容的情况下,需要为每一个类型的声源(即,为每一个类型的对象)准备方向性数据。另外,当试图提供关于更多方向和频率的方向性的信息时,方向性数据的数据量增加。
然后,到内容的分发目的地的方向性数据的传输量增加,并且存在发生传输延迟或传输速率增加的可能性。
鉴于这种情况做出本技术,并且其目的是减少方向性数据的传输量。
问题的解决方案
根据本技术的第一方面的信息处理装置包括:获取单元,被配置为获取通过对指示声源的方向性的方向性数据进行建模而获得的模型数据;以及计算器,被配置为基于所述模型数据来计算所述方向性数据。
根据本技术的第一方面的信息处理方法或程序包括以下步骤:获取通过对指示声源的方向性的方向性数据进行建模而获得的模型数据;以及基于模型数据计算方向性数据。
在本技术的第一方面中,获取通过对指示声源的方向性的方向性数据进行建模而获得的模型数据,并基于模型数据计算方向性数据。
根据本技术的第二方面的信息处理装置包括:建模单元,被配置为使用包括多个分布的混合模型对表示声源的方向性的方向性数据进行建模;以及模型数据生成单元,被配置为生成包括构成混合模型的模型参数的模型数据,所述模型参数通过建模获得。
根据本技术的第二方面的信息处理方法或程序包括以下步骤:使用包括多个分布的混合模型对表示声源的方向性的方向性数据进行建模;以及生成包括构成混合模型的模型参数的模型数据,所述模型参数通过建模获得。
在本技术的第二方面中,使用包括多个分布的混合模型对表示声源的方向性的方向性数据进行建模,并且生成包括构成混合模型的模型参数的模型数据,所述模型参数是通过建模获得的。
附图说明
图1是示出用于描述混合高斯分布的简图。
图2是示出用于描述vMF分布和Kent分布的图。
图3是示出方向性的实施例的图。
图4是示出用于描述数据点的图。
图5是示出模型数据的实施例的示图。
图6是示出用于描述频带与二进制位之间的关系的示图。
图7是示出方向性数据的数据量的减少实施例的示图。
图8是示出用于描述方向性数据的残差的简图。
图9是示出描绘服务器的配置的实施例的图。
图10是示出描述编码处理的流程图。
图11是示出信息处理装置的配置实施例的示图。
图12是示出说明方向性数据生成处理的流程图。
图13是示出输出音频数据生成处理的流程图。
图14是示出差异信息的出现概率的简图。
图15是示出模型数据的例子的图。
图16是示出模型数据的例子的图。
图17是示出霍夫曼编码表的发送的简图。
图18是示出霍夫曼编码表的实施例的示意图。
图19是示出服务器的配置实施例的示图。
图20是示出方向性数据生成处理的流程图。
图21是示出方向性数据编码单元的配置实施例的简图。
图22是示出差异编码单元的配置实施例的简图。
图23是示出模型数据生成处理的流程图。
图24是示出分布模型解码单元的构成例的图。
图25是示出模型数据的例子的图。
图26是示出数据点的布置实施例的示图。
图27是示出数据点的描述实施例的示意图。
图28是示出每一区间的比例因子的实施例的图。
图29是示出每一个二进制位的最小值的一个实施例的示图;
图30是示出模型数据的实施例的图。
图31是示出SymmetricDir()的语法的实施例的示图。
图32是示出旋转操作的图。
图33是示出对称操作的简图。
图34是示出NonSymmetricDir()的语法的实施例的示图。
图35是示出模型数据的实施例的图。
图36是示出用于计算每一个二进制位的混合模型的输出值的权重的一个实施例的示图。
图37是示出模型数据的实施例的图。
图38是示出NonSymmetricDir()的语法的实施例的示图。
图39是示出LeftRightLineSymmetricDir()的语法的实施例的示图。
图40是示出描述根据权重的分布的简图。
图41是示出计算机的配置实施例的示图。
具体实施方式
在下文中,将参考附图描述应用本技术的实施方式。
<第一实施方式>
<关于本技术>
本技术是通过建模方向性数据来减少方向性数据的传输量。
在本技术中,例如,3D声源的音频数据和方向性数据被提供作为内容。
具体地,例如,一个或多个音频对象(在下文中,简称为对象)的声音被收集(记录)为3D声源,并且生成每一个对象的音频数据。另外,对于各种被摄体、即各种声源类型,准备表示被摄体(声源)的方向特性、即方向性的方向性数据。
此外,每一个对象的音频数据和每一个声源类型的方向性数据被提供作为内容数据。即,方向性数据与对象的音频数据一起被发送到再现侧的装置。然后,在再现侧,基于音频数据和构成内容的方向性数据来执行考虑方向性数据的音频再现。
方向性数据可以例如通过用多个麦克风记录对象的声音来获得。注意,方向性数据的记录可与对象的音频数据的记录同时执行,或者可在与对象的音频数据的记录不同的定时执行。
方向性数据是针对各个声源类型(诸如语音、乐器或扬声器)准备的。此外,方向性数据例如是具有关于来自声源的声音的振幅和相位的信息的数据,该来自声源的声音的振幅和相位在从作为DC的频率到在从声源观看的每一个方向上的位置的奈奎斯特频率的整个频带中对于每一个目标频率。
例如,从声源观看的方向由从声源位置观看的水平方向上的角度(即,方位角)和从声源位置观看的垂直方向上的角度(即,仰角)表示。此时,例如,方位角的范围被设定为0度至360度的范围,仰角的范围被设定为-90度至+90度的范围。
在本技术中,在离散和压缩这种方向性数据时,执行通过建模的参数压缩,而不是直接压缩数据。
应注意,在本技术中,通过适当地离散化并标准化通过记录等获得的方向性数据来获得将被建模的方向性数据。
在以下描述中,假设将被建模的方向性数据包括指示在多个数据点处的声源的多个离散频率中的每一个的方向特性的增益(在下文中,被称为方向性增益)。
例如,作为数据点的位置,可以用以声源位置为原点的极坐标系的坐标(极坐标)、即表示从声源位置观察到的水平方向的位置的方位角和表示从声源位置观察到的垂直方向的位置的仰角来表示。注意,距声源位置的距离(半径)可用于表示数据点的位置。此外,方向性增益可通过归一化来自数据点处的声源的声音的振幅(声压)来获得。
(记录声源的方向性数据的方法)
将描述记录每一个声源类型的方向性数据的方法。
在本技术中,球面上的vMF(von Mises Fisher)分布、Kent分布、或包括vMF分布或Kent分布中的至少任一者的混合模型(对应于在平面上定义的多变量/单变量高斯分布)被用于建模方向性数据。
要注意的是,vMF分布、Kent分布和混合模型详细描述在例如“John T.Kent(1982).The Fisher-Bingham Distribution on the Sphere”。
首先,将描述一般的混合高斯分布。
例如,在图1中由箭头Q11表示的部分中示出了二维高斯分布。在该实施例中,在直线上存在两个高斯分布。即,曲线L11表示一个高斯分布,并且曲线L12表示另一个高斯分布。
此外,曲线L13表示通过混合由曲线L11表示的高斯分布和由曲线L12表示的高斯分布而获得的混合高斯分布。
另一方面,在图1中由箭头Q12表示的部分中示出了平面上的三个分布。也可以在这样的平面上混合多个分布。
通常,混合高斯分布用于表示平面上的概率密度函数(pdf)。通过用少量的模型参数和尽可能少的混合数表达所希望的pdf,可以减少信息量。
在本技术中,球形表面上的方向性数据(即,方向性增益的形状(分布))使用对应于在球形表面上定义的高斯分布的vMF分布和Kent分布的混合模型来建模。
混合模型可包括一个或多个vMF分布、一个或多个Kent分布、或一个或多个vMF分布和一个或多个Kent分布。即,混合模型包括一个或多个分布,这些分布包括vMF分布或Kent分布中的至少任何一个。
当表示球面的位置(即,正交坐标系(笛卡尔坐标系)的坐标)的位置矢量是x时,与位置矢量x对应的Kent分布的值f(x)(即,在由位置矢量x表示的位置处的Kent分布的值f(x))可由下式(1)表示。
[数学式1]
注意,在式(1)中,κ表示参数浓度的程度,并且β表示椭圆率。此外,γ1表示限定平均方向分布的中心的向量,γ2表示长轴向量,并且γ3表示短轴向量。
此外,c(κ,β)是由以下表达式(2)表示的归一化常数。应注意,在表达式(2)中,Γ表示γ函数,并且I表示第一类型的改进贝塞尔函数。
[数学式2]
另外,位置向量X所示的位置处的vMF分布的值也可以通过与表达式(1)类似的表达式来表示。在该情况下,式(1)的椭圆率β的值为0。
图2示出了vMF分布和Kent分布的实施例。
在图2中,vMF分布的实施例在由箭头Q21表示的部分中示出。具体地,载体V11表示表达式(1)中所示的载体γ1
vMF分布不具有椭圆率β、长轴矢量γ2和短轴矢量γ3作为参数,并且是围绕由球面上的矢量V11(矢量γ1)指示的位置各向同性地扩展的圆形分布。即,可以使用vMF分布(vMF分布模型)再现圆形分布。
另一方面,在由箭头Q22表示的部分中示出Kent分布的实施例。具体而言,向量V21至V23表示式(1)所示的向量γ1、长轴向量γ2以及短轴向量γ3
Kent分布是以球面上的矢量V21(矢量γ1)所示的位置为中心,将球面上的长轴矢量γ2和短轴矢量γ3分别作为长轴和短轴的椭圆分布。即,通过使用Kent分布(Kent分布模型),能够再现由椭圆率β、长轴矢量γ2以及短轴矢量γ3定义的椭圆形状的分布。
Kent分布具有高自由度,因为椭圆的形状可通过诸如椭圆率β的参数来改变,但是参数的数量大于vMF分布的数量。
在本技术中,通过使用通过混合vMF分布和Kent分布而获得的混合模型来表示(建模)方向性数据。
例如,在如表达式(1)中由位置向量x表示的位置处,输出值F(x;Θ)使用N Kent分布f(x;θi)可以由以下表达式(3)表示。即,混合模型F(x;Θ)可以通过N Kent分布f(x;θi)。
[数学式3]
注意,在表达式(3)中,Kent分布f(x;θi)与上述表达式(1)中所示的相似,并且表示要混合的N个Kent分布中的第i个Kent分布。
此外,θi是构成Kent分布f(x;θi,更具体来说,是一组参数,参数θi包括表达式(1)中的参数浓度κ、椭圆率β、向量γ1、长轴向量γ2和短轴向量γ3。混合模型F(x;θ)的参数θ是NKent分布f(x;θi)的参数θi的集合。
此外,在表达式(3)中,φi表示当混合N个Kent分布时第i个Kent分布f(x;θi)的权重(权重系数),并且如在表达式(4)中所示,N个Kent分布f(x;θi)是1。
[数学式4]
在本技术中使用的方向性数据可以通过利用麦克风阵列执行记录(声音收集)来获得,麦克风阵列包括围绕对象布置的多个麦克风。
作为实施例,当记录喇叭的性能声音时,观察到图3中所说明的方向性。具体而言,在图中的左侧示出水平面(即,仰角为0度的平面)中的每一个频率的方向性,并且在图中的右侧示出正中面中的每一个频率的方向性。
在该实施例中,可以看出,方向性的轮廓根据水平面和中间面中的频率(节距)而改变,并且在低频侧的频率处方向性较小,但是随着频率增加,方向性较大(更尖锐)。例如,在水平面上,取决于方向,最大约25dB的声压差出现在8000Hz处。
同时,在要建模的方向性数据中,例如,如图4所示,在以声源位置为中心的球面上提供多个数据点。在图4的实施例中,一个点表示一个数据点,并且可以看出在整个球面上存在大量数据点。
这里,例如,当在方位角方向上以2度的间隔(以2度的增量)和在仰角方向上以2度的间隔提供数据点时,在整个球面上提供16022个数据点。此外,在此情况下,当尝试在针对每一数据点的19Hz到20kHz的512个区间(频率区间)中发送方向性增益(声压)时,一个声源的方向性数据约为31MB。
如上所述,由于每一个声源类型的方向性数据的数据大小很大,所以传输量增加。
此外,由于在声音中存在元音声音、辅音声音等,并且乐器的方向性根据播放方法而变化,并且声源类型的种类非常大,所以当试图为每一个声源类型准备方向性数据时,需要大量条方向性数据。
由于这些原因,方向性数据的传输量增加,并且方向性数据传输的量的增加引起传输延迟和传输速率的增加。因此,在一些情况下,可能不能根据声源类型、频率、对象和收听者的方向等来再现方向性。
因此,在本技术中,通过使用如上所述的混合模型建模方向性数据,可以减少方向性数据的传输量。
<模型数据的实施例>
这里,将描述通过对方向性数据进行建模而获得的模型数据的具体实施例。
在本技术中,在发送方向性数据时,对基于包括vMF分布和Kent分布的混合模型的方向性数据进行建模,并且生成包括构成由此获得的混合模型的模型参数等的模型数据。然后,将模型数据发送到内容的再现侧的设备。结果,具有大数据大小的原始方向性数据的传输是不必要的。换言之,可以减少方向性数据传输时的数据量(传输量)。
这里,图5中示出由num_sound_type_id指定的一个声源类型的模型数据的实施例。在该实施例中,将一个声源类型的模型数据描述为方向性配置
模型数据包括方位角“azimuth_table[i]”、仰角“elevation_table[i]”、以及在建模之前由数据点的数量“num_point_indices”表示的数量表示数据点在原始方向性数据中的位置的半径“distance[i]”。
数据点的位置由以声源位置为原点的极坐标系的坐标表示,极坐标系包括作为从声源位置观看的水平方向上的数据点的角度的方位角“azimuth_table[i]”、作为从声源位置观看的垂直方向上的数据点的角度的仰角“elevation_table[i]”、以及作为从声源位置到数据点的距离的半径“distance[i]”。
此外,模型数据包括频点的数量“bin_count”和频率“freq[i_bin]”。在建模之前的原始方向性数据中,整个感兴趣的频带被划分成频率窗口,即,作为由频点的数量“bin_count”指示的数量的频带(频率)的窗口,并且在这些窗口之中的第i个窗口的中心频率(Hz)是频率“freq[i_bin]”。
由此,建模之前的原始方向性数据包括多个数据点中的每一个处的一个或一个以上二进位(频率二进位)中的每一个的方向性增益。
此外,模型数据包括要被建模的频带的数量“band_count”、在每一个频带中混合的数量“mix_count[i_band]”、以及在包括在每一个频带中的建模之前的原始方向性数据的二进制位信息“bin_range_per_band[i_band]”作为与Kent分布和vMF分布有关的参数。
例如,在模拟中,整个感兴趣的目标频带被划分成频带,该频带是其数量由频带的数量“band_count”表示的频带,并且针对每一个频带通过混合模型来表示方向性增益的分布。换句话说,估计构成表示每一个频带中的方向性增益的分布的混合模型的模型参数。要注意的是,由一个或多个二进制位表示的频率,即,二进制位的中心频率“freq[i_bin]”始终包括在(属于)由每一个频带表示的频带内。
混合的数量“mix_count[i_band]”表示构成表示第i个频带的方向性增益的分布的混合模型的分布的数量,即,Kent分布和vMF分布的数量,并且混合的数量与表达式(3)中的N对应。
方向性数据的二进制位信息“bin_range_per_band[i_band]”是指示在建模之前的原始方向性数据的二进制位的信息,二进制位包括在第i个频带中。例如,二进制位信息是指示属于第i个频带的最高频率的二进制位的索引信息。通过参考二进制位信息“bin_range_per_band[i_band]”,可识别在对建模之前的原始方向性数据的二进制位(频率二进制位)建模之后的哪个频带中。
另外,作为Kent分布、vMF分布相关的参数,模型数据包括构成各频带的混合模型的各分布(Kent分布、vMF分布)的上述权重φi、参数浓度κ、向量γ1
在这个实施例中,“weight[i_band][i_mix]”和“kappa[i_band][i_mix]”表示由“i_band”表示的第i个带的由“i_mix”表示的分布的权重φi和参数浓度κ的程度。
此外,“γ1[i_band][i_mix][x]”和“γ1[i_band][i_mix][y]”表示构成第i个带“i_band”的由“i_mix”表示的分布的矢量γ1的X分量(X坐标)和Y分量(Y坐标)。
模型数据包括选择标记“dist_flag”,该选择标记指示组成混合模型的第i频带“i_band”的由“i_mix”指示的分布是Kent分布或vMF分布中的哪个分布。
选择标记“dist_flag”的值“1”指示分布是Kent分布,并且选择标记“dist_flag”的值“0”指示分布是vMF分布。
在选择标志“dist_flag”的值是“1”的情况下,模型数据包括上述椭圆率β、长轴矢量γ2和短轴矢量γ3
“β[i_band][i_mix]”表示针对由“i_band”表示的第i个频带的由“i_mix”表示的分布(Kent分布)的椭圆率β。此外,“γ2[i_band][i_mix][x]”和“γ2[i_band][i_mix][y]”表示构成第i个带“i_band”的由“i_mix”表示的分布(Kent分布)的长轴矢量γ2的X分量(X坐标)和Y分量(Y坐标)。
类似地,“γ3[i_band][i_mix][x]”和“γ3[i_band][i_mix][y]”表示构成第i个带“i_band”的由“i_mix”表示的分布(Kent分布)的短轴矢量γ3的X分量(X坐标)和Y分量(Y坐标)。
模型数据还包括每一个区间中的方向性数据,更具体地,指示方向性增益的动态范围的缩放因子“scale_factor[i_bin]”,以及每一个区间中的方向性数据的偏移值(方向性增益),即,最小值“offset[i_bin]”。
以下,将包括模型数据所包括的椭圆率β、参数浓度κ的程度、权重φi、矢量γ1、长轴矢量γ2、短轴矢量γ3、比例系数、最小值(偏移值)的参数组也称为模型参数。
模型数据还包括差异信息“diff_data[i_point]”,其指示建模之前的原始方向性数据的值(方向性增益)和通过在数据点处建模获得的混合模型所指示的方向性数据的值(方向性增益)之间的差异。换句话说,差异信息是指示数据点处的未建模方向性数据与建模方向性数据之间的差异的信息。
注意,可以选择是否存储差异信息。存储在模型数据中的“diff_data[i_point]”可以是霍夫曼编码的差异信息。
在再现侧(解码侧)的装置中,例如,输出值F(x;Θ)是在每一个数据点处的混合模型的θ),即,基于图5中示出的配置(格式)的模型数据来计算方向性增益。
建模之前的原始方向性数据的每一个区间属于由考虑到方向性数据的形状的相似性而确定的建模时的频带数“band_count”所描述的频带数的任何频带。
此外,通过bin信息“bin_range_per_band[i_band]”描述每一个bin与频带之间的相关关系,并且作为指示属于频带的最高频率的bin的索引信息的最大索引被写作为bin信息。
在这种情况下,例如,如图6中所示,属于每一个频带的二进制位的数量对于每一个频带可以是不同的。
在此实施例中,两个区间0(区间0)和区间1属于具有最低频率的第一频带0(频带0),一个区间2属于下一频带1,且两个区间3和区间4属于下一频带2。
因此,频带0的二进制位信息“bin_range_per_band[i_band]”的值是指示二进制位1的值“1”,即,“bin_range_per_band[0]=1”。类似地,关于频带1的二进制位信息的值是“2”,即,“bin_range_per_band[1]=2”,并且关于频带2的二进制位信息的值是“4”,即,“bin_range_per_band[2]=4”。
由于模型数据包括模型参数,混合模型F'(x;Θ)可以从模型参数获得用于每一个带的。这里,混合模型F’(x;Θ)对应于混合模型F(x;Θ)用于由表达式(3)表示的每一个区间。
建模之前的方向性数据具有每一数据点的每一区间的方向性增益值。因此,混合模型F'(x;Θ)对于从模型参数获得的每一个带,更具体地,输出值F'(x;Θ)混合模型,需要转换为原始混合模型F(x;Θ)用于每一个区间。
因此,在再现侧(解码侧)的装置中,输出值F(x;Θ)基于针对每一个频带的所述混合模型F’(x;θ)计算在数据点处的每一个区间的所述混合模型的输出值F(x;θ),缩放因子“scale_factor[i_bin”对于每一个bin,以及最小值“offset[i_bin”对于每一个bin。
即,F(x;Θ)=F’(x;Θ)×scale_factor[i_bin]+offset[i_bin]被计算。在该计算中,输出值F'(x;Θ)根据每一个区间的动态范围校正用于每一个带的混合模型。
此外,在一起使用差异压缩的情况下,即,在模型数据包括针对每一个数据点的差异信息“diff_data[i_point]”的情况下,输出值F(x;Θ)中,将差异信息添加到输出值F(x;Θ)通过计算获得以产生最终输出值F(x;Θ)。
通过上述计算,从模型数据恢复建模之前的原始方向性数据。应注意,在再现侧上,可从存储在模型数据中的方位角“azimuth_table[i]”、仰角“elevation_table[i]”、半径“distance[i]”、以及频率“freq[i_bin]”识别成为每一个数据点的位置和每一个bin的频率。
实际上,图7示出当方向性数据被建模使得模型数据具有图5中所示的配置时的模型数据的数据量。
在此实施例中,建模之前的原始方向性数据中的数据点的数目是2522,且二进位的数目是29。此外,在建模时,带的数量“band_count”被设置为“3”,并且使用包括vMF分布(没有椭圆率β、长轴矢量γ2、短轴矢量γ3)的混合模型进行建模。
在图7的建模中,可见,在建模之前具有306KB的数据量的原始方向性数据被转换为具有0.85KB的数据量的模型参数,并且数据量被压缩到大约1/360。
另外,在图5的实施例中,模型数据根据需要包括差异信息,并且方向性数据适当地使用差异信息来恢复。
即,例如,在从听觉心理学的角度可感知差异的情况下,差异编码与本技术的建模一起使用,并且方向性数据被恢复到不可感知的程度。
例如,假定为由图8中的箭头Q41表示的方向性数据执行建模。注意,在图8中,每一球面上的色彩阴影指示方向性增益的量值。
在该实施例中,假定作为对由箭头Q41表示的方向性数据进行建模的结果,获得由箭头Q42表示的混合模型,更具体地,由混合模型表示的方向性数据。
在由箭头Q42表示的部分中,在球面上绘制的多条直线中的每条表示上述矢量γ1。例如,向量V51表示一个向量γ1
在获得由箭头Q41表示的方向性数据和由箭头Q42表示的混合模型的情况下,当获得方向性数据和混合模型之间的差异时,获得由箭头Q43表示的残留数据作为差异信息。
在图5所示的实施例中,由箭头Q43表示的残差数据的每一个数据点处的值(残差)作为差异信息“diff_data[i_point]”存储在模型数据中。
注意,在方向性表达式***中存在称为高阶高保真立体声(HOA)的***。HOA具有不仅可以记录振幅信息而且可以记录相位信息的优点。然而,随着方向性的形状更复杂,需要更高阶项,并且数据量增加。此外,由于系数在HOA中偏离,存在不能使用的禁止频率。
关于方向性,通常,在高频范围中,形状更复杂并且突出程度更高。此外,在高频范围中,相位信息的使用值相对减小。因此,在减少方向性数据的数据量的情况下,采用如在本技术中通过混合分布模型建模的方法比使用HOA更有利。注意,在低频范围中,方向性的形状相对平缓,并且可以通过记录相位来再现诸如衍射和干涉的物理现象。因此,HOA可以在低频范围中使用,并且通过混合分布模型建模的方法可以在高频范围中使用。
在模型数据被发送到再现侧(解码侧)的情况下,在基于模型数据生成(恢复)的方向性数据(振幅数据)中,方向性增益仅存在于特定离散频点(即,特定bin)处。换句话说,由于存在方向性增益不存在的频率,因此如果从模型数据产生的方向性数据被原样使用,则可以不执行再现处理。
另外,由于数据点也是离散布置的,所以当用户或对象的视点位置(声音接收位置)移动并且用户与对象之间的位置关系改变时,用于渲染处理的方向性数据的数据点也改变。在这种情况下,当彼此相邻的数据点之间的间隔宽时,发生假信号(波形不连续性)。
因此,通过对方向性数据在频率方向和时间方向上执行内插处理,可针对更多频率(bin)和方向(数据点)获得方向性增益。
例如,作为频率方向上的内插处理,可想到使用指示在要获得的特定频率附近的多个频率的区间的方向性增益来执行一次内插处理、二次内插处理等。
此外,例如,作为时间方向上的内插处理,可想到使用针对将获得的方向(位置)附近的多个数据点处的每一个bin的方向性增益在方位角方向或仰角方向上执行双线性内插处理。
注意,在对方向性数据进行建模时对计算量和声音质量的影响根据各种参数(诸如音频数据的帧长度(采样/帧的数量)、混合数量和要在混合模型中选择的模型(分布)以及数据点的数量)而变化(折衷)。
即,例如,在用户(收听者)的位置和方向或者对象对于音频数据的每一个帧改变的情况下,通过在时间方向上执行内插处理可抑制波形不连续的发生,并且可实现具有较高质量的音频再现。
此外,例如,在再现侧,通过适当地确定是增加混合模型的混合的数量以获得更准确的方向性数据,还是使用具有比vMF分布更大数量的参数但具有更高表现能力的Kent分布,可以调整计算量与声音质量之间的平衡。
此外,内容创建者等还可根据声源(对象)的方向性的形状确定在再现时通过内插处理是增加方向性数据的数据点的数量还是处理小数量的数据点。
另外,指示将被建模(编码)的原始方向性数据和混合模型之间的误差(差)的差异信息(即,建模的方向性数据)可通过诸如霍夫曼编码的任何编码方法来编码并被发送。
此外,例如,诸如频率方向上的内插处理和时间方向上的内插处理等使用方向性数据的方法(渲染方法)以及是否使用诸如差异信息等各种类型的信息可以通过标记等来切换。
例如,标记可以实现在用于低资源再现设备等的低精度的参数与用于高资源再现设备等的高精度的参数之间的切换,即,参数精度的切换。在这种情况下,例如,根据再现装置的资源、在内容分配时的网络环境等,切换参数。
要注意的是,虽然上面描述了本技术应用于方向性数据的实施例,但是本技术也可应用于视频中的纹理数据的颜色、透明度信息等,例如,体点云数据。
此外,在本技术中,例如,在微结构的再现是重要的情况下,内容创建者等可手动(手动)添加混合模型的数量或者调整诸如模型参数的各种参数。
<服务器的配置实施例>
图9是示出应用本技术的服务器的配置实施例的示图。
图9所示的服务器11是包括例如计算机等的信息处理装置,并且分发内容。
例如,内容包括一个或多个对象中的每一个的音频数据(对象音频数据)和针对每一个声源类型准备的并且表示声源(对象)的方向性(即,方向特性)的方向性数据。
这样的内容可以例如通过利用麦克风阵列等记录方向性数据以及3D声源的声音来获得。此外,内容可以包括与音频数据对应的视频数据。
服务器11包括建模单元21、模型数据生成单元22、音频数据编码单元23和输出单元24。
建模单元21对每种声源类型的输入方向性数据进行建模,并将作为结果获得的模型参数和差异信息提供给模型数据生成单元22。
模型数据生成单元22基于从建模单元21提供的模型参数和差异信息生成模型数据,并且将模型数据提供至输出单元24。
音频数据编码单元23编码每一个对象的输入音频数据,并且将所获得的编码音频数据作为结果提供给输出单元24。
输出单元24通过多路复用从模型数据生成单元22提供的模型数据和从音频数据编码单元23提供的编码音频数据生成和输出编码比特流。
注意,为了简化描述,将描述同时输出模型数据和编码的音频数据的实施例,但是可单独地产生模型数据和编码的音频数据以在不同的定时输出。另外,模型数据和经编码音频数据可由不同装置产生。
<编码处理的描述>
接下来,将描述服务器11的操作。即,在下文中,将参考图10中的流程图描述由服务器11进行的编码处理。
在步骤S11中,建模单元21对每种声源类型的输入方向性数据进行建模,并将模型参数和作为结果获得的差异信息提供给模型数据生成单元22。
例如,建模单元21通过使用包括在上述表达式(3)中示出的多个分布的混合模型来表示(表达)方向性数据来建模方向性数据。
由此,作为模型参数,求出构成式(3)所示的混合模型的参数浓度κ、椭圆率β、权重φi、向量γ1、长轴向量γ2、短轴向量γ3、比例系数、最小值。
另外,建模单元21生成指示数据点的数量、数据点的位置、频点的数量、区间的中心频率等的信息作为关于建模之前的原始方向性数据的信息。
此外,例如,建模单元21生成建模的方向性数据(即,由混合模型表示的方向性数据)与建模之前的原始方向性数据之间的残差(差)作为差异信息。
要注意的是,例如,在满足特定条件的情况下,例如,在由混合模型表示的方向性数据与原始方向性数据之间的残差等于或大于预定值的情况下,或者在内容的创建者等指示生成差异信息的情况下,可生成差异信息。
建模单元21将以这种方式获得的模型参数、关于建模之前的原始方向性数据的信息以及差异信息提供给模型数据生成单元22。
在步骤S12中,模型数据生成单元22通过打包从建模单元21提供的模型参数、关于建模之前的原始方向性数据的信息以及差异信息来生成模型数据,并且将模型数据提供到输出单元24。
此时,模型数据生成单元22通过霍夫曼编码差异信息并且打包作为结果获得的编码的差异信息(在下文中,称为差异码数据)、模型参数等来生成图5中示出的格式的模型数据。注意,可以对模型参数和模型数据进行编码。
在步骤S13中,音频数据编码单元23编码每一个对象的输入音频数据,并且将所产生的编码音频数据提供给输出单元24。
要注意的是,当存在用于每一个对象的音频数据的元数据时,音频数据编码单元23还对每一个对象的元数据(音频数据)进行编码,并且将所获得的编码元数据作为结果提供给输出单元24。
例如,元数据包括指示对象在三维空间中的绝对位置的对象位置信息、指示对象在三维空间中的方向性的对象方向信息、指示对象的类型(声源)的声源类型信息等。
在步骤S14中,输出单元24多路复用从模型数据生成单元22提供的模型数据和从音频数据编码单元23提供的编码的音频数据,以生成并输出编码的比特流。当对象包括元数据时,输出单元24产生包括模型数据、编码的音频数据和编码的元数据的编码的比特流。
例如,输出单元24将编码的比特流传输至用作客户端(未示出)的信息处理装置。当编码比特流被发送时,编码处理结束。
如上所述,服务器11建模方向性数据以输出包括模型参数和作为结果获得的差异信息的编码比特流。以这种方式,可以减少要发送到客户端的方向性数据的数据量,即,方向性数据的传输量。结果,可以抑制传输延迟的发生和传输速率的增加。
<信息处理装置的配置实施例>
例如,被配置为获取从服务器11输出的编码比特流并且生成用于再现内容的声音的输出音频数据的信息处理装置被配置为如图11中所示。在图11中示出的信息处理装置51包括例如个人计算机、智能电话、平板电脑、游戏装置等。
信息处理装置51包括获取单元61、分布模型解码单元62、音频数据解码单元63、以及渲染处理单元64。
获取单元61获取从服务器11输出的编码比特流,并从编码比特流提取模型数据和编码音频数据。获取单元61将模型数据提供至分布模型解码单元62并且将编码的音频数据提供至音频数据解码单元63。
分布模型解码单元62根据模型数据计算方向性数据。分布模型解码单元62包括解包单元81、方向性数据计算器82、差异信息解码单元83、加法单元84以及频率内插处理单元85。
解包单元81对从获取单元61供应的模型数据执行解包,以从模型数据中提取模型参数、关于建模之前的原始方向性数据的信息以及差异码数据。此外,解包单元81将关于模型参数和建模之前的原始方向性数据的信息提供给方向性数据计算器82,并且将差异码数据提供给差异信息解码单元83。
方向性数据计算器82基于从解包单元81提供的关于模型参数的信息以及建模之前的原始方向性数据来计算(恢复)方向性数据,并且将方向性数据提供至加法单元84。注意,在下文中,由方向性数据计算器82基于模型参数计算(恢复)的方向性数据也被称为粗略方向性数据。
差异信息解码单元83通过与霍夫曼编码兼容的方法解码从解包单元81提供的差异代码数据,并且将因此获得的差异信息提供给加法单元84作为方向性数据残差。
加法单元84将从方向性数据计算器82供应的粗略方向性数据与从差异信息解码单元83供应的方向性数据残差(差异信息)相加以生成接近原始方向性数据的方向性数据,并且将所生成的方向性数据提供至频率内插处理单元85。
频率内插处理单元85对从加法单元84供应的方向性数据在频率方向上执行内插处理,并且将所获得的方向性数据作为结果供应给渲染处理单元64。
音频数据解码单元63对从获取单元61中提供的编码音频数据进行解码,并且将每一个对象的结果音频数据提供给渲染处理单元64。
此外,在编码元数据包括在编码比特流中的情况下,音频数据解码单元63解码从获取单元61中提供的编码元数据,并且将所获得的元数据作为结果提供给渲染处理单元64。
渲染处理单元64基于从频率内插处理单元85提供的方向性数据和从音频数据解码单元63提供的音频数据生成输出音频数据。
渲染处理单元64包括方向性数据保持单元86、头相关传递函数(HRTF)数据保持单元87、时间内插处理单元88、方向性卷积单元89和HRTF卷积单元90。
根据用户等的指定、传感器等的测量等,将视点位置信息、收听者方向信息、对象位置信息和对象方向信息提供给方向性数据保持单元86和HRTF数据保持单元87。
例如,视点位置信息是表示观看内容的用户(收听者)在三维空间中的视点位置(收听位置)的信息,并且收听者方向信息是表示在三维空间中观看内容的用户的面部的方向的信息。
此外,在编码元数据被包括在编码比特流中的情况下,从通过对编码元数据进行解码而获得的元数据中提取对象位置信息和对象方向信息,并将对象位置信息和对象方向信息提供给方向性数据保持单元86和HRTF数据保持单元87。
此外,通过从元数据等提取而获得的声源类型信息也被提供给方向性数据保持单元86,并且指示观看内容的用户的用户ID被适当地提供给HRTF数据保持单元87。
方向性数据保持单元86保持从频率内插处理单元85供应的方向性数据。此外,方向性数据保持单元86读取对应于从所保持的方向性数据提供的视点位置信息、收听者方向信息、对象位置信息、对象方向信息以及声源类型信息的方向性数据,并且将方向性数据提供给时间内插处理单元88。
HRTF数据保持单元87针对由用户ID指示的每一个用户保持从用户(收听者)观看的多个方向中的每一个方向的HRTF。
HRTF数据保持单元87读取与保持的HRTF提供的视点位置信息、收听者方向信息、对象位置信息、对象方向信息以及用户ID对应的HRTF,并将HRTF提供给HRTF卷积单元90。
时间内插处理单元88在时间方向上对从方向性数据保持单元86提供的方向性数据执行内插处理,并且将所获得的方向性数据作为结果提供给方向性卷积单元89。
方向性卷积单元89将从音频数据解码单元63提供的音频数据和从时间内插处理单元88提供的方向性数据进行卷积,并且将产生的音频数据提供给HRTF卷积单元90。通过方向性数据的卷积,对象(声源)的方向性特性被添加到音频数据。
HRTF卷积单元90对从方向性卷积单元89提供的音频数据(即,其中卷积方向性数据的音频数据)和从HRTF数据保持单元87提供的HRTF进行卷积,以输出作为结果获得的音频数据作为输出音频数据。通过HRTF的卷积,可以获得输出音频数据,其中,对象的声音局限于从用户(收听者)观看的对象的位置处。
<方向性数据生成处理的描述>
接下来,将描述信息处理装置51的操作。
首先,将描述当信息处理装置51生成每一个声源类型的方向性数据时执行的方向性数据生成处理。即,信息处理装置51的方向性数据生成处理将在下面参见图12的流程图描述。
当获取单元61接收从服务器11传输的编码比特流并且获取单元61将从编码比特流提取的模型数据提供至解包单元81时,开始方向性数据生成处理。
在步骤S51中,解包单元81对从获取单元61提供的模型数据进行解包,并且将从模型数据中提取的关于模型参数的信息以及建模之前的原始方向性数据提供给方向性数据计算器82。
在步骤S52中,方向性数据计算器82基于从解包单元81提供的关于模型参数的信息以及建模之前的原始方向性数据来计算(生成)粗略方向性数据,并且将粗略方向性数据提供给加法单元84。
例如,方向性数据计算器82计算输出值F(x;Θ)基于混合模型F’(x;Θ)通过模型参数获得的每一个频带、每一个二进制位的缩放因子“scale_factor[i_bin]”、和每一个二进制位的最小值“offset[i_bin]”。结果,获得包括每一数据点处的每一区间的方向性增益(振幅数据)的粗略方向性数据。
在步骤S53中,解包单元81确定差异码数据是否包括在从获取单元61提供的模型数据中,即,是否存在差异码数据。
在步骤S53中确定包括差异码数据的情况下,解包单元81从模型数据中提取差异码数据并且将差异码数据提供至差异信息解码单元83,并且此后,处理进行至步骤S54。
在步骤S54中,差异信息解码单元83对从解包单元81提供的差异代码数据进行解码,并且将所获得的方向性数据残差(差异信息)作为结果提供给加法单元84。
在步骤S55中,加法单元84将从差异信息解码单元83提供的方向性数据残差加到从方向性数据计算器82提供的粗略方向性数据。
加法单元84将通过相加获得的方向性数据提供至频率内插处理单元85,并且此后,处理进行至步骤S56。
另一方面,在步骤S53中确定不包括差异码数据的情况下,跳过步骤S54和步骤S55中的处理,然后,处理进行至步骤S56。在这种情况下,加法单元84将从方向性数据计算器82提供的粗略方向性数据原样作为恢复的方向性数据提供至频率内插处理单元85。
当在步骤S53中确定不包括差异码数据或者在步骤S55中执行处理时,在步骤S56中执行处理。
在步骤S56中,频率内插处理单元85在频率方向上对从加法单元84提供的方向性数据执行内插处理,并且将通过内插处理获得的方向性数据提供至方向性数据保持单元86以进行保持。
例如,假设对象的音频数据是频域中的数据,并且音频数据具有多个频率区间中的每的频率分量值。在此情况下,在频率方向上的内插处理中,例如,执行计算必要区间的方向性增益的内插处理,使得方向性数据具有其中音频数据具有频率分量值的所有频率区间的方向性增益。
具体地,例如,频率内插处理单元85基于在方向性数据中的预定数据点处的多个区间(频率)的方向性增益执行内插处理,由此计算在不存在于原始方向性数据中的相同数据点处的新频率(区间)的方向性增益。通过在频率方向上的这样的内插处理,可以获得包括在更多频率处的方向性增益的方向性数据。
当执行频率方向上的内插处理并且将内插处理之后的方向性数据保持在方向性数据保持单元86中时,方向性数据生成处理结束。
如上所述,信息处理装置51基于模型数据计算方向性数据。以这种方式,可以减少要发送的方向性数据的数据量,即,方向性数据的传输量。结果,可以抑制传输延迟的发生和传输速率的增加。
<输出音频数据生成处理的描述>
接下来,将参考图13中的流程图描述由信息处理装置51进行的输出音频数据生成处理。该输出音频数据生成处理在参考图12描述的方向性数据生成处理被执行之后的任何时刻被执行。
在步骤S81中,音频数据解码单元63解码从获取单元61中提供的编码音频数据,并且将所产生的音频数据提供给方向性卷积单元89。例如,解码出频域的音频数据。
应注意,在从获取单元61提供编码元数据的情况下,音频数据解码单元63对编码元数据进行解码,并且适当地将包括在作为结果获得的元数据中的对象位置信息、对象方向信息以及声源类型信息提供给方向性数据保持单元86和HRTF数据保持单元87。
此外,方向性数据保持单元86将对应于视点位置信息、收听者方向信息、对象位置信息、对象方向信息以及声源类型信息的方向性数据提供给时间内插处理单元88。
例如,方向性数据保持单元86从视点位置信息、收听者方向信息、对象位置信息和对象方向信息识别对象和用户在三维空间中的视点位置(收听位置)之间的关系,并且识别对应于识别结果的数据点。
作为一例,例如,在从对象到视点位置的方向是视点位置方向的情况下,将从混合模型的中心观看时的视点位置方向上的混合模型的球面上的位置确定为目标数据点位置。注意,在目标数据点位置可能不存在实际数据点。
方向性数据保持单元86从由声源类型信息指示的声源类型的方向性数据中提取在靠近识别的目标数据点位置的多个数据点处的每一个bin的方向性增益。
然后,方向性数据保持单元86将包括在多个提取的数据点处的各个区间的方向性增益的数据作为根据对象和用户(收听者)的位置和方向之间的关系的方向性数据提供给时间内插处理单元88。
此外,HRTF数据保持单元87将与视点位置信息、收听者方向信息、对象位置信息、对象方向信息以及用户ID对应的HRTF提供给HRTF卷积单元90。
具体地,例如,HRTF数据保持单元87基于视点位置信息、收听者方向信息、对象位置信息和对象方向信息将从收听者(用户)观看的对象的相对方向识别为对象方向。然后,HRTF数据保持单元87将与用户ID对应的各个方向上的HRTF之中的与对象方向对应的方向上的HRTF提供给HRTF卷积单元90。
在步骤S82中,时间内插处理单元88在时间方向上对从方向性数据保持单元86提供的方向性数据执行内插处理,并且将所获得的方向性数据作为结果提供给方向性卷积单元89。
例如,时间内插处理单元88基于方向性数据中包括的多个数据点处的每一区间的方向性增益,通过内插处理计算目标数据点位置处的每一区间的方向性增益。即,通过内插处理计算在不同于原始数据点的新数据点(目标数据点位置)处的方向性增益。
时间内插处理单元88将包括目标数据点位置处的每一个bin的方向性增益的数据作为通过时间方向上的内插处理获得的方向性数据提供给方向性卷积单元89。
在步骤S83中,方向性卷积单元89将从音频数据解码单元63提供的音频数据和从时间内插处理单元88提供的方向性数据进行卷积,并且将产生的音频数据提供给HRTF卷积单元90。
在步骤S84中,HRTF卷积单元90对从方向性卷积单元89提供的音频数据和从HRTF数据保持单元87提供的HRTF进行卷积,以输出作为结果获得的输出音频数据。
在步骤S85中,信息处理装置51确定是否结束处理。
例如,在新帧的编码音频数据从获取单元61供应至音频数据解码单元63的情况下,在步骤S85中确定处理未结束。另一方面,例如,在没有将新帧的编码音频数据从获取单元61供应至音频数据解码单元63并且生成内容的所有帧的输出音频数据的情况下,在步骤S85中确定处理结束。
在步骤S85中确定处理尚未结束的情况下,此后,处理返回至步骤S81,并且重复执行上述处理。
另一方面,在步骤S85中确定处理结束的情况下,信息处理装置51结束每一个单元的操作,并且输出音频数据生成处理结束。
如上所述,信息处理装置51选择适当的方向性数据和HRTF,并在音频数据中卷积方向性数据和HRTF以获得输出音频数据。通过这样做,考虑到对象(声源)的方向特性以及对象与收听者的位置与方位之间的关系,可以实现具有更逼真的感觉的高质量音频再现。
<第二实施方式>
<差异信息的编码>
同时,方向性数据对于每一个声源类型和每一个频带具有不同的方向性形状。
另外,在服务器11中,指示未建模的方向性数据和建模的方向性数据之间的差的差异信息被适当地生成。在以上实施例中,描述了通过诸如霍夫曼编码的编码方法对差异信息进行编码,并且获得差异码数据。
对差异信息进行编码的方法可以由服务器11(即,编码器)选择,使得可以根据声源类型和频带执行适当的编码,不仅用于基于Kent分布和vMF分布的建模,而且用于差异信息的编码。
这里,差异信息被Huffman编码的情况将被描述为实施例。
在Huffman编码中,例如,如图14中所示,出现概率的分布(概率密度函数)基于从待编码的一条方向性数据中获得的多个区间的每一个的差异信息而产生。
注意,在图14中,水平轴表示差异信息的值(dB值),垂直轴表示差异信息的每一个值的出现概率。
例如,方向性数据的所有数据点处的所有区间(频率)被瞄准,并且根据关于每一个区间的差异信息产生直方图,使得获得差异信息的每一个值的出现概率。注意,出现概率(概率密度函数)的分布可以针对每一个二进制位来获得,可以针对包括在特定频带中的二进制位来获得,可以针对所有二进制位来获得,或者它们中的任何可以是可选择的。
在服务器11中,从预先准备的多个霍夫曼编码表中选择一个适当的霍夫曼编码表,或者基于差异信息的出现概率生成一个新的霍夫曼编码表。
方向性数据的所有数据点处的所有二进制序列(频率)被定为目标,并且可针对所有这些二进制序列选择或生成一个霍夫曼编码表,或者可针对一个或多个二进制序列选择或生成一个霍夫曼编码表。
使用以此方式选择或产生的霍夫曼编码表来执行差异信息的霍夫曼编码。
霍夫曼编码表是用于将编码之前的数据转换成霍夫曼码的表,所述表指示编码之前的数据(即,差异信息)和通过编码获得的霍夫曼编码(码数据)之间的对应关系。
此外,当通过对差异信息进行霍夫曼编码而获得的差异码数据被解码时,对应于霍夫曼编码表的逆表被使用。
反向表是用于将霍夫曼码转换成解码数据的表,该表指示霍夫曼码(码数据)和解码数据之间的对应关系。该反向表可从霍夫曼编码表生成。
在对差异信息进行霍夫曼编码的情况下,服务器11(编码器)和信息处理装置51(解码单元)两者可预先保存霍夫曼编码表。在这种情况下,服务器11将指示用于对差异信息进行霍夫曼编码的霍夫曼编码表的ID信息通知给信息处理装置51。
此外,服务器11可在编码比特流中将霍夫曼编码表或反向表存储到信息处理装置51。
具体地,因为逆表的大小(数据量)大,所以霍夫曼编码表可以从服务器11发送到信息处理装置51,并且信息处理装置51可以在解码等时基于霍夫曼编码表生成逆表。
此外,在出现概率(概率密度函数)的分布中,存在具有低出现概率(出现频率)的差异信息的值和具有高出现概率的差异信息的值。因此,例如,与包括具有高出现概率的差异信息的值的窄动态范围的数据对应的范围(诸如作为差异信息的可能值的范围的±3dB的范围)可被设置为目标范围,并且仅用于目标范围的霍夫曼编码表可被使用。
在这种情况下,对于关于目标范围之外的值的差异信息,即,关于具有低出现概率的不规则值的差异信息,差异信息可以照原样存储在模型数据中。换言之,差异信息照原样被视为差代码数据。
如上所述,根据差异信息的概率密度函数选择或产生高效的霍夫曼编码表,并且在编码的比特流中描述关于使用哪个霍夫曼编码表的信息,使得可以有效地编码和发送差异信息。
此外,在编码差异信息时,通过结合使用一种或多种方法,可以进一步减小动态范围,并且可以提高编码效率。具体地,可以通过组合多种方法实现多级差异编码。
例如,在多级差异编码中,可以想到通过组合空间邻接差异法、频间差异法或复数差异法中的至少两个或更多个来执行编码。
此外,例如,在模型数据中将指示是否存在多级差异编码的模式和方法记录为enc_mode等。此时,例如,在下4位中记录多级差异编码方法并且在上4位中记录目标的实数或复数中的哪的情况下,在模型数据中存储以下信息。
(目标数据是实数)
0x00:无多级差异编码
0x01:空间邻接差异法
0x02:频率间差法
0x03:空间邻接差异法+频间差异法
(目标数据是复数)
0x1*:低位与在目标数据是实数的情况下的低位相同
在空间邻接差异法中,在对要处理的数据点的差异信息进行编码时,获得所述要处理的数据点的差异信息与所述要处理的数据点附近的其他数据点的差异信息之间的差异作为空间差异信息。例如,获得彼此相邻的数据点之间的差异信息的差异作为空间差异信息。然后,获得的空间差异信息被霍夫曼编码为差异码数据。
在空间邻接差异法中,使用在方向性数据中的空间上接近的位置(数据点)处的数据(即,方向性增益和差异信息)容易取接近的值的属性。
在频间差方法中,当对关于待处理的二进制位(频率)的差异信息进行编码时,获得待处理的二进制位中的差异信息和另一二进制位(诸如与待处理的二进制位相邻的二进制位)中的差异信息之间的差,另一二进制位指示接近的频率,作为频率间差异信息。然后,获得的频间差异信息被霍夫曼编码为差异码数据。
在频间差方法中,使用接近频率(bin)的数据(即,方向性增益或差异信息)可容易地取接近值的属性。
例如,在空间邻接差方法和频率间差方法组合使用的情况下,获得相邻二进制位之间的空间差异信息中的差作为频率间差异信息,并且对频率间差异信息进行霍夫曼编码,或者获得相邻数据点之间的频率间差异信息中的差作为空间差异信息,并且对空间差异信息进行霍夫曼编码。
复差异方法在方向性数据不仅具有关于上述振幅的信息而且具有关于相位的信息的情况下使用。
例如,在方向性数据具有关于振幅和相位的信息的情况下,关于振幅和相位的信息(即,方向性增益)由复数表示。即,方向性数据具有指示用于每一个数据点的每一个区间的振幅和相位的复数数据(在下文中,也称为复数方向性增益),并且差异信息也是复数数据。
在复差异法中,由复数表示的差异信息的实部和虚部被独立地(单独地)霍夫曼编码,或者对包括实部和虚部的二维数据(复数方向性增益)执行霍夫曼编码。注意,在复差异法中,可以选择是对实部和虚部中的每一个单独地执行霍夫曼编码还是对二维数据执行霍夫曼编码。
在下文中,通过组合空间邻接差异方法、频间差异方法或复合差异方法中的至少一种或多种方法、以及按原样对差异信息进行霍夫曼编码的方法中的至少一种或多种方法来执行编码的每种方法也被称为一种差异编码方法或差异编码模式。具体地,可以说,其中差异信息被直接霍夫曼编码的差异编码方法是其中使用差异编码(即,差异编码)不被执行的方法。
例如,服务器11基于差异信息等从多个差异编码方法(差异编码模式)选择最有效的方法,并且霍夫曼通过选择的差异编码方法对差异信息进行编码。
具体地,例如,通过基于差异信息的操作可以获得每一个差异编码方法中的差异码数据的码量(数据量),并且在差异编码方法中具有最小码量的方法可以被选择为最有效的方法。
另外,可基于例如方向性数据的声源类型、记录方向性数据时的环境(诸如消声室)等来选择适当的差异编码方法。
<方向性数据的表示方法>
上面主要描述了通过包括Kent分布和vMF分布的混合模型(混合分布模型)建模方向性数据的实施例。
此外,例如,描述了方向性数据可以通过HOA被建模,并且关于相位的信息也可以被记录在低频范围(即,低频频段)中,并且方向性数据可以通过包括在其中相位的重要程度相对低的高频范围(即,高频频段)中的Kent分布和vMF分布的混合模型来被建模。在这种情况下,例如,可以想象在通过混合模型建模和通过HOA在1.5kHz至2kHz附近的预定频率处建模之间切换。例如,在以上频带或更高频带中使用不使用音频编解码器等中的相位信息的强度立体声。如上所述的组合HOA和混合模型的方法被认为在具有锋利的前方向性(例如,口哨或喇叭)的情况下是有效的。
注意,本发明不限于此,并且模型数据可以通过组合HOA方法、混合方法、复合混合方法、或者用于每一个频带(即,用于每一个二进制位或者频带)的差别方法中的至少一个或者多个方法来产生,或者被共同地用于所有频带。在这样的情况下,例如,方向性数据通过诸如HOA方法和混合方法彼此不同的一个或更多个方法来建模,并且包括作为其结果获得的模型参数等的模型数据被生成。
HOA方法是使用HOA建模方向性数据的方法,该方向性数据包括针对每一个数据点处的每一个区间的复方向性增益。即,HOA方法是通过球面谐波函数扩展建模方向性数据的方法。
具体地,在HOA方法中,对方向性数据执行球面谐波函数扩展,并且结果,作为用于每一个维度的球面谐波函数的系数的球面谐波系数被获得作为模型参数。根据每一个维度的球面谐波系数,可以在通过HOA建模之后获得包括复合方向性增益的方向性数据。
如上所述,在通过HOA方法的建模中,包括相位的表达式是可能的,但是为了执行精细表达式,有必要增加球面谐波函数扩展的阶数,即,获得高达高阶项的球面谐波系数,并且在这样的情况下,模型数据的数据量增加。具体地,在通过HOA方法的建模中,不可能仅在特定方位(方向)上精细地表达振幅和相位的分布。
相反,在仅针对低次项获得球面谐波系数的情况下,可仅描述振幅或相位的相对平缓改变。
混合方法是通过包括上述Kent分布和vMF分布的混合模型来执行建模的方法。在混合方法中,可以描述在从声源观看的特定方位(方向)上急剧改变的方向性增益的形状,即,数据点的位置。
复数混合方法是使用对应于复数的混合分布(混合模型)对包括复数方向性增益的方向性数据(即,振幅和相位数据)建模的方法。
作为复杂混合方法的实施例,例如,考虑通过以下两种方法进行建模。
首先,作为第一方法,可想到通过使用针对实数的概率密度函数的混合模型独立地描述复方向性增益的实部和虚部中的每一个或从复方向性增益获得的振幅和相位角中的每一个来执行建模。
作为第二方法,考虑通过使用与复数对应的复数Bingham分布混合模型、复数watson分布混合模型等描述方向性数据(复数方向性增益的分布)来执行建模的方法。
在这种情况下,例如,方向性数据通过包括一个或多个复合Bingham分布的混合模型或包括一个或多个复合watson分布的混合模型来建模,结果,获得与混合方法的情况中的模型参数类似的模型参数。可以从以这种方式获得的模型参数获得包括通过复合混合方法建模之后的复合方向性增益的方向性数据。
作为实施例,在目标复数数据的分布被描述为原样的复杂Bingham分布的情况下,以在以下表达式(5)中示出的格式进行描述。即,复合Bingham分布的值f(z)由以下表达式(5)表示。
[数学式5]
f(z)=C(A)-1exp(z*Az)…(5)
表达式(5)中的复数向量z对应于球面在Kent分布或vMF分布中的位置向量x,并且z*是其复共轭。复矩阵A是表示位置、陡度、方向、以及形状的k×k维矩阵,并且归一化系数C(A)由以下表达式(6)表示。
[数学式6]
其中,aj的定义如在以下表达式(7)中。λj是复矩阵A的特征值,λ123<...λk
[数学式7]
包括一个或多个复杂Bingham分布的混合模型(即,复杂Bingham混合模型)中的混合数量和权重对于包括上述Kent分布和vMF分布的混合模型的制定是通用的。包括N个复合Bingham分布f(z;θi)的混合模型的值F(x;θ)可以通过根据下面表达式(8)的加权来描述。注意,如表达式(9)所示,权重之和是1,Θ表示所有参数的集合,θi表示每一个复合Bingham分布的参数的集合(构成复合Bingham分布的参数),并且φi表示每一个复合Bingham分布的权重。
[数学式8]
[数学式9]
差异方法是使用差异生成模型数据的方法。
例如,在通过组合诸如HOA方法和混合方法和差异方法之类的一个或多个其他方法来生成模型数据的情况下,在差异方法中,指示建模之前的方向性数据和通过一个或多个其他方法建模之后的方向性数据之间的差的差异信息通过任何差异编码方法被编码,并且作为结果获得的差异码数据被存储在模型数据中。注意,通过差方法获得的方向性数据的差可以通过HOA方法等来建模。
在差异方法中,例如,针对差异信息获得空间位置之间的差异(数据点之间)或频率之间的差异(区间或带之间)中的至少任何一个,并且作为结果获得的差异被霍夫曼编码为差异码数据。此时,在将被霍夫曼编码的差异信息的差是复数的情况下,差的实部和虚部中的每一个可被单独地霍夫曼编码,复数可被原样霍夫曼编码,或者从差获得的振幅分量和相位分量中的每一个可被单独地霍夫曼编码。
另一方面,在仅使用差异方法的情况下,即,在单独通过差异方法生成模型数据的情况下,如在上述任何差异编码方法中那样执行对方向性数据的编码(霍夫曼编码)。
此时,使用空间邻接差异法、频间差异法或包括空间邻接差异法和频间差异法中的至少一种的复差异法中的至少一种或多种。即,获得在空间中的位置之间(数据点之间)和频率之间(二进制序列之间或频带之间)的方向性增益的差,并且对该差进行霍夫曼编码。当差由复数表示时,差的实部和虚部可以被单独地霍夫曼编码,或者差(复数)可以被霍夫曼编码。此外,从差获得的振幅分量和相位分量中的每一个可被单独地霍夫曼编码。
此外,针对通过差方法获得的差,产生包括包括通过霍夫曼编码获得的霍夫曼码的数据(在下文中,也称为编码的方向性数据)的模型数据。在这种情况下,由于在方向性数据中不存在残差,所以模型数据不包括差异码数据。
注意,在差异方法中,无损压缩是可能的,但是压缩率根据数据而变化。此外,在通过组合诸如空间邻接差异法和频间差异法的多种方法获得多级差异(即,获得差异)的处理被执行多次的情况下,不同于一维数据的情况,当差异码数据和编码的方向性数据被存储在模型数据中时,有必要定义数据顺序,并且压缩率根据数据顺序而改变。
在根据方向性数据产生模型数据时,还可想到针对方向性数据的每一区间或每一频带建模方向性增益的平均值,即,平均方向性特性。在这样的情况下,在将偏移和比例因子应用于平均方向特性并且匹配动态范围之后计算差异信息。
在通过组合如上所述的HOA方法、混合方法、复杂混合方法和差异方法来生成模型数据的情况下,分成以下五种方法主要被视为生成模型数据的方法。
这里提到的五种方法是带混合方法、加法混合方法、乘法混合方法、球面谐波系数建模方法和组合混合方法。下面将描述每种方法。
(频带混合方法)
频带混合方法是切换是否使用HOA方法、混合方法、复数混合方法和差异方法中的哪来产生用于每一个频带(即,用于每一个二进制位或每一个频带)的模型数据的方法。在这种情况下,例如,可以在低频范围中执行利用复数方向性增益的记录,并且可以在高频范围中执行利用实数方向性增益的记录。
作为具体实施例,例如,可以通过对于每一个频带(频带)不同的方法来建模方向性数据,诸如在低频带中通过HOA方法来执行建模并且在高频带中通过混合方法来执行建模。
此外,例如,可以在低频带中执行通过使用复合Bingham分布等的复合混合方法的建模,并且可以在高频带中执行通过混合方法的建模。
(添加混合方法)
在额外混合方法中,指示与经建模方向性数据的差的差异信息进一步由差方法建模或编码。
添加混合方法的具体实施例包括以下方法(AH1)至(AH4)。具体地,在以下实施例中,从左侧描述的方法按顺序执行该处理。
方法(AH1):混合法+差法
方法(AH2):HOA方法(低阶)+混合方法
方式(AH3):HOA方式(低阶)+差异法
方法(AH4):HOA方法(低阶)+混合方法+差异方法
在方法(AH1)中,方向性数据首先在混合方法中被建模。接下来,指示建模之前的方向性数据和通过混合方法建模之后的方向性数据之间的差的差异信息由差方法编码,并且生成差异码数据。
然后,生成包括通过混合法进行建模而获得的模型参数和差异码数据的模型数据。
在方法(AH2)中,首先,在HOA方法中建模方向性数据。具体地,在通过HOA方法的建模中,执行高达低阶项的球面谐波函数扩展。接下来,指示建模之前的方向性数据和通过HOA方法建模之后的方向性数据之间的差的差异信息通过混合方法被进一步建模。
然后,生成包括通过HOA方法进行建模而获得的模型参数和通过混合方法对差异信息进行建模而获得的模型参数的模型数据。
在方法(AH3)中,如在方法(AH2)中,通过HOA方法执行直到较低阶项的建模,并且然后通过HOA方法建模获得的差异信息由差异方法编码,并且生成差异代码数据。
然后,生成包括通过HOA方法进行建模而获得的模型参数和差异码数据的模型数据。
在方法(AH4)中,如在方法(AH2)中,通过HOA方法执行直到低阶项的建模,然后通过混合方法进一步执行差异信息的建模。
接下来,指示通过HOA方法进行建模而获得的差异信息和在通过混合方法进行建模之后的差异信息之间的差异的差异信息通过差异方法来编码,并且生成差异代码数据。换句话说,指示通过HOA方法和混合方法的组合建模后的方向性数据和建模前的方向性数据之间的差的差异信息通过差方法来编码,并且生成差异码数据。
然后,生成包括通过HOA方法进行建模而获得的模型参数、通过混合方法对差异信息进行建模而获得的模型参数、以及差异码数据的模型数据。
在下文中,将被建模的差异信息也被特别地称为中间差异信息,以便在按照预定方法建模方向性数据之后,进一步按照差方法将将被建模的差异信息与将被编码的差异信息区分开。
例如,在方法(AH4)中,通过HOA方法进行建模而获得的差异信息是中间差异信息,并且通过混合方法对中间差异信息进行建模。然后,表示原始中间差异信息和通过混合方法进行建模之后的中间差异信息之间的差异的差异信息通过差异方法进行编码。
在上述方法(AH1)至(AH4)中,在方法(AH2)的解码侧不能获得与原始方向性数据完全匹配的数据,但是在方法(AH1)、方法(AH3)和方法(AH4)中获得与原始方向性数据完全匹配的数据。
另外,方向性数据可通过单一方法而不是加法混合方法来建模或编码。也就是说,例如,方向性数据可以仅通过HOA方法、混合方法和差异方法中的任何一个被建模或编码,并且包括模型参数的模型数据或者作为其结果获得的编码的方向性数据可以被生成。
(乘法混合法)
在乘法混合方法中,方向性数据通过预定方法来建模,并且建模的方向性数据和未建模的方向性数据的比率(商)进一步通过不同于预定方法的另一方法来建模。
乘法混合方法的具体实施例包括以下方法(MH1)和(MH2)。
方法(MH1):HOA方法(低阶)×振幅调制(混合方法)
方法(MH2):HOA方法(低阶)×振幅相位调制(混合方法)
在方法(MH1)中,首先,通过HOA方法对方向性数据进行建模。具体地,在通过HOA方法的建模中,执行高达低阶项的球面谐波函数扩展。
接下来,通过将建模之前的方向性数据除以通过HOA方法建模之后的方向性数据而获得的值(在下文中,也被称为振幅调制信息)进一步通过混合方法来建模。此时,例如,构成振幅调制信息的复数(复数方向性增益)的绝对值(振幅分量)可以是用于通过混合方法进行建模的值,或者建模之前和之后的方向性数据的振幅分量的比率可以是振幅调制信息。然后,生成包括通过HOA方法进行建模而获得的模型参数和通过混合方法对振幅调制信息进行建模而获得的模型参数的模型数据。
在解码时,从用于HOA方法的模型参数计算的方向性数据被乘以从用于混合方法的模型参数计算的振幅调制信息,并且最终方向性数据被计算。
在这种方法(MH1)中,指示根据高频方位角(来自声源的方向)的小振幅摆动的振幅调制信息通过在HOA方法中建模直到低阶项而不能被表达的信息通过混合方法被建模并且被记录(存储)在模型数据中。在解码时,通过用于HOA方法的模型参数计算的方向性数据被振幅调制信息调制,并且具有较少误差的方向性数据被获得。
在方法(MH2)中,如在方法(MH1)中,对方向性数据执行直到HOA方法中的低阶项的建模。
接下来,通过混合方法对通过将建模之前的方向性数据除以通过HOA方法进行建模之后的方向性数据而获得的值(在下文中,也称为振幅相位调制信息)进行进一步建模。此时,例如,构成振幅相位调制信息的复数(复数方向性增益)的实部和虚部、或者振幅分量和相位分量将通过混合方法进行建模。注意,振幅相位调制信息可以通过复杂的混合方法来建模。然后,生成包括通过HOA方法进行建模而获得的模型参数和通过混合方法对振幅相位调制信息进行建模而获得的模型参数的模型数据。
在解码时,从用于HOA方法的模型参数计算的方向性数据被乘以从用于混合方法的模型参数计算的振幅相位调制信息,并且最终方向性数据被计算。
在这种方法(MH2)中,根据方位角(来自声源的方向)指示高频相位中的旋转变化的振幅相位调制信息(该信息不能在HOA方法中通过建模直到低阶项来表达)通过混合方法被建模并且被记录(存储)在模型数据中。在解码时,通过用于HOA方法的模型参数计算的方向性数据被振幅相位调制信息调制,并且具有较少误差的方向性数据被获得。
在乘法混合方法或其他方法中,在对由复数表示的方向性增益(复数方向性增益)或中间差异信息进行建模的情况下,可通过复数的实部与虚部之间的不同或相同的方法独立地(单独地)执行建模。例如,实部可以通过混合方法建模,并且虚部也可以通过混合方法建模。
类似地,振幅分量和相位分量可通过任何方法独立地(单独地)建模,或复数的数据可通过复合混合方法来建模。
(球面谐波系数建模方法)
在球面谐波系数建模方法中,方向性数据通过HOA方法来建模,作为其结果获得的模型参数(即,球面谐波系数)还通过混合方法来建模,并且作为其结果获得的模型参数被存储在模型数据中。
因此,在球面谐波系数建模方法中,可以说方向性数据在HOA方法和混频方法的两个阶段中被建模。在解码时,首先,基于用于混合方法的模型参数计算球面谐波系数,并且此外,基于球面谐波系数计算方向性数据(粗略方向性数据)。
另外,例如,作为模型参数的球面谐波系数的实部和虚部中的每,或者从模型参数获得的振幅分量和相位分量中的每可通过诸如混合方法的任何方法被单独地(独立地)建模。此外,球面谐波系数可以通过复合混合方法建模,即,一个或多个复合Bingham分布等。
(组合混合方法)
在组合混合方法中,使用如上所述的频带混合方法、加法混合方法、乘法混合方法或球面谐波系数建模方法中的至少两个或更多个的组合来产生模型数据。
另外,例如,指示用于产生模型数据的一个或多个方法(诸如HOA方法和混合方法)的组合的信息可以被存储在模型数据中。在这种情况下,可以在服务器11侧适当地选择和切换用于生成模型数据的一个或多个方法的组合。
在如上所述对方向性数据进行建模的情况下,例如,模型数据具有图15和16中所说明的配置。注意,图16示出在图15中示出的部分之后的部分。此外,在图15和图16中,将适当地省略与在图5中示出的情况下的部分对应的部分的描述。
在图15和图16中示出的实施例是由num_sound_type_id指定的一种类型的声源的方向性信息(方向性数据)被描述为方向性配置(directivityConfigure)的实施例。具体地,在此,在存在差异数据(差异信息)的情况下的vMF分布、Kent分布以及语法被示出为实现混合方法的实施例,并且每条信息的位深度仅是实施例。
图15和16中所示的模型数据基本上包括与图5中所示的模型数据相同的数据,但是图15和16的实施例与图5的实施例的不同之处在于一些数据片段的位深度和数据配置。
具体地,在图15和图16中所示的实施例中,方位角“azimuth_table[i]”和仰角“elevation_table[i]”是16位无符号短路。
此外,频带的数量“band_count”和混合的数量“mix_count[i_band]”是8位无符号char,并且选择标记“dist_flag”被设置为1位bool。
此外,在该实施例中,模型数据包括用于对差异信息进行编码的混合模式(差异编码模式(差异编码方法))的ID,即,指示差异编码模式信息的“模式”。模型数据还包括指示用于对差异信息进行编码的霍夫曼编码表的索引“table_index”。
模型数据还包括“int db_resolution”,表示诸如每1.0dB的量化的量化步长。例如,对于“int db_resolution”,值“0”表示无量化,值“1”表示0.01dB,值“2”表示0.2dB,值“3”表示0.4dB,值“256”表示25.6dB。
此外,模型数据还存储通过霍夫曼编码针对每一个二进制位的每一个数据点的差异信息而获得的霍夫曼编码(霍夫曼编码),即,作为差异码数据的“diff_data[i_bin][i_point]”。
此外,存储在模型数据中或与模型数据分开示出的配置有关的信息从服务器11传输到信息处理装置51。图17中示出的信息包括霍夫曼编码表或反向表。
在图17所示的实施例中,“diff_mode_count”是指示差异编码方法的总数的信息,并且“int_nbits_res_data”由总数“diff_mode_count”存储。
该“int_nbits_res_data”是指示霍夫曼码的最大比特深度(即,霍夫曼码的最大字长)的信息,并且例如在1.0dB增量的情况下是7比特,并且可以表示从0dB到128dB的范围。
“element_count”是指示霍夫曼编码表或逆表的元素数量的信息,并且存储作为与元素数量对应的元素的“Huff_dec_table[i_element]”。具体地,在该实施例中,“Huff_dec_table[i_element]”是反向表的元素。
此外,例如,霍夫曼编码表如图18所示。也就是说,图18示出霍夫曼编码表的特定实施例。
例如,作为具体实施例,在图16中设置int db_resolution=1dB的情况下,如下执行编码。
0:0dB
10:+1dB
11:+2dB
element_count=4;
int_nbits_res_data=2;//huffman解码表(从索引中获取数据的反向表)的最大字长
Huff_dec_table[4]={0,0,1,2};
Huff_dec_table是最大字长为2比特的情况下的逆表。
0:0dB
1:0dB
2:1dB
3:2dB
此外,在解码时,按照以下处理进行处理。
(1)从字长最大的码流中获取比特串
(2)通过设置位串为i_element查阅“huff_dec_table”(相当于记录最大字长的huffman码)
(3)获取恢复了i_element的元素的数据
(4)基于db_resolution恢复上述数据以获得dB值
注意,恢复需要偏移值。
此外,原始数据的声压(dB值)可以通过Db=Huff_dec_table[code]*db_resolution来获得。
<服务器的配置实施例>
在服务器11通过组合一个或多个方法生成模型数据或者以差异编码模式对差异信息进行编码的情况下,例如,如图19所示配置服务器11。
注意,在图19中,对应于图9的情况下的那些的部分由相同的附图标记表示,并且将适当地省略其描述。
图19所示的服务器11是具备计算机等的信息处理装置,与图9的情况同样地作为编码装置发挥功能。
服务器11包括方向性数据编码单元201、音频数据编码单元23和输出单元24。
方向性数据编码单元201基于供应的方向性数据生成模型数据。方向性数据编码单元201包括模型参数估计单元211、残差计算器212、编码方法选择单元213、霍夫曼编码单元214和模型数据生成单元215。
具体地,在该实施例中,模型参数估计单元211和残差计算器212对应于图9中的建模单元21,并且编码方法选择单元213到模型数据生成单元215对应于图9中的模型数据生成单元22。
模型参数估计单元211对要通过诸如HOA方法或混合方法的至少一个或多个方法处理的提供的方向性数据进行建模,并且将作为结果获得的用于每一个方法的模型参数提供给残差计算器212和模型数据生成单元215。
残差计算器212基于要处理的提供的方向性数据和从模型参数估计单元211提供的模型参数计算差异信息,并将差异信息提供给编码方法选择单元213和霍夫曼编码单元214。
基于要处理的提供的方向性数据和从残差计算器212提供的差异信息,编码方法选择单元213在霍夫曼编码差异信息时选择差异编码模式和霍夫曼编码表,并将指示选择结果的编码模式信息提供给霍夫曼编码单元214和模型数据生成单元215。
编码模式信息包括指示选择的差异编码模式(差异编码方法)的差异编码模式信息以及指示选择的霍夫曼编码表的表索引信息。要注意的是,在编码方法选择单元213中,仅仅差异信息可用于生成编码模式信息。
霍夫曼编码单元214基于从编码方法选择单元213提供的编码模式信息对从残差计算器212提供的差异信息进行霍夫曼编码,并且将因此获得的差异码数据提供给模型数据生成单元215。
模型数据生成单元215生成包括从模型参数估计单元211提供的用于每一个方法的模型参数、从霍夫曼编码单元214提供的差异码数据以及从编码方法选择单元213提供的编码模式信息的模型数据,并且将模型数据提供到输出单元24。注意,在不对差异信息进行解码的情况下,差异码数据不包括在模型数据中。另外,更具体地,模型数据还存储关于上述方向性数据的信息。另外,指示用于建模方向性数据的方法的信息可存储在模型数据中。
即使在服务器11具有图19中示出的配置的情况下,服务器11也执行参考图10描述的编码处理。然而,在步骤S11和S12中,更具体地,执行以下描述的处理。
即,在步骤S11中,模型参数估计单元211对供应的将通过至少一种或多种方法处理的方向性数据进行建模,并且残差计算器212根据需要计算差异信息。
换句话说,例如,HOA方法、混合方法、复数混合方法、差异方法等根据需要被组合,由此模型参数和差异信息通过上述频带混合方法、加法混合方法、乘法混合方法、球面谐波系数建模方法、组合混合方法等被计算。
在步骤S12中,由编码方法选择单元213选择差编码模式和霍夫曼编码表,并且根据需要由霍夫曼编码单元214执行霍夫曼编码,并且由模型数据生成单元215生成模型数据。
具体地,例如,在通过加法混合方法(AH4)的方法计算模型参数的情况下,模型参数估计单元211首先通过HOA方法对方向性数据进行建模,结果,获得球面谐波系数作为模型参数。
另外,模型参数估计单元211获得通过HOA方法进行建模之后的方向性数据和建模之前的方向性数据之间的差作为中间差异信息,并且通过混合方法对中间差异信息进行建模。通过利用混合方法对中间差异信息进行建模,获得参数浓度κ的程度、椭圆率β、权重φi、向量γ1、长轴向量γ2、短轴向量γ3、比例因子以及最小值作为模型参数。
模型参数估计单元211将通过通过HOA方法对方向性数据进行建模而获得的模型参数和通过将通过混合方法对中间差异信息进行建模而获得的模型参数提供给残差计算器212和模型数据生成单元215。
然后,残差计算器212基于从模型参数估计单元211提供的模型参数和提供的方向性数据生成差异信息。该差异信息是在通过HOA方法和混合方法的组合建模后的方向性数据和建模前的方向性数据之间的残差。
此外,霍夫曼编码单元214根据从编码方法选择单元213提供的编码模式信息对从残差计算器212提供的差异信息进行霍夫曼编码。
此时,按照差异编码模式信息指示的方法进行处理。也就是说,差异信息是通过空间邻近差异方法、频率间差异方法和复杂差异方法中的一种或多种方法霍夫曼编码的,或者差异信息不是霍夫曼编码的。
例如,在通过空间邻接差方法执行霍夫曼编码的情况下,霍夫曼编码单元214获得彼此相邻的数据点之间的差异信息中的差作为空间差异信息,并且通过霍夫曼编码空间差异信息来生成差异码数据。
模型数据生成单元215生成包括从模型参数估计单元211提供的HOA方法模型参数和混合方法模型参数以及从编码方法选择单元213提供的编码模式信息的模型数据。具体地,在执行差异信息的霍夫曼编码的情况下,模型数据生成单元215也将从霍夫曼编码单元214提供的差异码数据存储在模型数据中。
应注意,在单独通过差异法生成模型数据的情况下,模型参数估计单元211基于所提供的方向性数据通过空间邻接差异法或频率间差异法中的至少一种或多种方法获得方向性数据的差(在下文中,也称为差异方向性数据)。差异方向性数据为数据点与区间之间的方向性数据,即,方向性增益的差异。
在这种情况下,编码方法选择单元213基于经由残差计算器212从模型参数估计单元211中提供的差异方向性数据生成编码模式信息。另外,基于从编码方法选择单元213提供的编码模式信息,霍夫曼编码单元214通过指定的差编码方法对经由残差计算器212从模型参数估计单元211提供的差异方向性数据进行霍夫曼编码,以产生编码的方向性数据。
然后,模型数据生成单元215生成包括从霍夫曼编码单元214提供的编码的方向性数据和从编码方法选择单元213提供的编码模式信息的模型数据,并将模型数据提供到输出单元24。
<方向性数据生成处理的描述>
已经从具有图19中示出的配置的服务器11接收编码比特流的提供的信息处理装置51执行例如图20中示出的方向性数据生成处理,并且然后在任何时刻执行参考图13描述的输出音频数据生成处理。
以下将参考图20的流程图描述由用作解码装置的信息处理装置51执行的方向性数据生成处理。
注意,在步骤S111中,执行与图12中的步骤S51中的处理类似的处理。即,在步骤S111中,解包单元81对模型数据进行解包,并且从模型数据中提取模型参数、关于建模之前的原始方向性数据的信息、差异码数据等。
在步骤S112中,解包单元81确定在通过解包提取的每一个方法的模型参数之中是否存在尚未提供给方向性数据计算器82的模型参数。
在步骤S112中确定存在模型参数的情况下,解包单元81将尚未被提供给方向性数据计算器82(即,尚未被处理)的模型参数提供给方向性数据计算器82,并且处理进行到步骤S113。
在步骤S113中,方向性数据计算器82基于从解包单元81提供的一种方法的模型参数,基于模型参数计算数据。
例如,在步骤S113中,基于用于诸如HOA方法、混合方法等的每种方式的模型参数,构成建模的方向性数据的方向性增益、中间差异信息、振幅调制信息、振幅相位调制信息等被计算为基于用于诸如HOA方法、混合方法等的每种方法的模型参数的数据。
当执行步骤S113中的处理时,此后,处理返回至步骤S112,并且重复以上处理。
此外,在步骤S112中确定不存在未提供给方向性数据计算器82的模型参数的情况下,此后,处理进行至步骤S114。
在步骤S114中,解包单元81确定差异代码数据是否包括在从获取单元61中提供的模型数据中,即,是否存在差异代码数据。
在步骤S114中确定包括差异码数据的情况下,解包单元81将编码模式信息和从模型数据中提取的差异码数据提供至差异信息解码单元83,然后,处理进行至步骤S115。
在步骤S115中,差异信息解码单元83获取从解包单元81输出的编码模式信息和差异码数据。
在步骤S116中,差异信息解码单元83基于所获取的编码模式信息对差异码数据进行解码,并且将所获得的差异信息(方向性数据残差)作为结果提供给加法单元84。
例如,假设通过编码模式信息中包括的差异编码模式信息,识别出进行空间邻接差异方法的编码。
在这种情况下,差异信息解码单元83使用由包括在编码模式信息中的表索引信息识别的逆表对从解包单元81提供的差异代码数据进行解码,以获得每一个数据点处的空间差异信息。
然后,差异信息解码单元83将在靠近数据点的另一个解码的数据点处的差异信息添加到待处理的数据点处的空间差异信息中,以获得关于待处理的数据点的差异信息。
在步骤S114中确定执行了步骤S116中的处理或者步骤S114中不存在差异码数据的情况下,然后执行步骤S117中的处理。
在步骤S117中,方向性数据计算器82和加法单元84计算方向性数据。
即,方向性数据计算器82基于通过步骤S113中执行一次或多次的处理获得的数据计算粗略方向性数据,并且将粗略方向性数据提供至加法单元84。
作为具体实施例,例如,假设在服务器11侧通过相加混合方法(AH4)计算模型参数。
在这样的情况下,在步骤S113的第一处理中,基于HOA方法的模型参数计算建模的方向性数据(粗略的方向性数据)。此外,在步骤S113的第二处理中,基于混合方法的模型参数计算建模之后的中间差异信息。
因此,方向性数据计算器82通过将中间差异信息添加到粗略方向性数据来获得最终粗略方向性数据,即,通过将每一数据点处的每一区间的中间差异信息添加到每一数据点处的每一区间的方向性增益。
加法单元84通过以这种方式将从差异信息解码单元83提供的差异信息(方向性数据残差)加到由方向性数据计算器82获得的最终粗略方向性数据来计算方向性数据,并且将方向性数据提供到频率内插处理单元85。注意,在不存在差异信息的情况下,将最终的粗略方向性数据直接用作方向性数据。
此外,例如,假设在服务器11侧通过乘法混合方法(MH1)计算模型参数。
在这样的情况下,在步骤S113的第一处理中,基于HOA方法的模型参数计算建模的方向性数据(粗略的方向性数据)。此外,在步骤S113的第二处理中,基于混合方法的模型参数计算建模之后的振幅调制信息。
因此,方向性数据计算器82通过将粗略方向性数据乘以振幅调制信息(即,通过将每一数据点处的每一区间的方向性增益乘以每一数据点处的每一区间的振幅调制信息)来获得最终方向性数据。在这种情况下,由于不进行步骤S115和S116的处理并且不存在差异信息,所以由方向性数据计算器82获得的方向性数据经由加法单元84直接提供给频率内插处理单元85。
此外,例如,也可以在服务器11侧仅通过差异法生成模型数据。在这种情况下,不执行步骤S113中的处理,并且差异信息解码单元83在步骤S115和S116中解码编码的方向性数据。
即,差异信息解码单元83使用由包括在编码模式信息中的表索引信息识别的逆表对从解包单元81提供的编码方向性数据进行解码,以获得差异方向性数据。
然后,在步骤S117中,差异信息解码单元83基于在构成差异方向性数据的每一个数据点处用于每一个区间的值(差异)计算方向性数据。
具体地,例如,在通过服务器11侧的空间邻接差异方法计算差异方向性数据的情况下,差异信息解码单元83将数据点附近的另一恢复的数据点处的同一bin的方向性增益加到待处理的数据点处的每一个bin的值(差),从而获得待处理的数据点处的每一个bin的方向性增益。
此外,例如,在差异方向性数据通过服务器11侧上的频率间差方法计算的情况下,差异信息解码单元83将在相同数据点处待处理的二进制位的附近的另一恢复的二进制位的方向性增益加到数据点的待处理的二进制位的值(差),从而获得待处理的二进制位的方向性增益。
如上所述,即使在编码的方向性数据被存储在模型数据中的情况下,方向性数据的传输量也可以被减少。
当执行步骤S117的处理并且计算方向性数据时,则执行步骤S118的处理并且方向性数据生成处理结束。步骤S118的处理与图12的步骤S56的处理相同,因此省略说明。
如上所述,信息处理装置51基于模型数据计算方向性数据。以此方式,可减少方向性数据的传输量。结果,可以抑制传输延迟的发生和传输速率的增加。
<添加混合方法的具体实施例>
<方向性数据编码单元的配置实施例>
在服务器11中通过添加混合方法固定生成模型数据的情况下,图19中所示的服务器11中的方向性数据编码单元201的配置可为例如图21中所示的配置。注意,在图21中,与图19的情况下的部分对应的部分由相同的附图标记表示,并且将适当地省略其描述。
在图21的实施例中,方向性数据编码单元201包括模型参数估计单元241、算术单元242、模型参数估计单元243、算术单元244、差编码单元245和模型数据生成单元215。
模型参数估计单元241至运算单元244对应于图19中的模型参数估计单元211。
模型参数估计单元241对供应的将通过混合方法处理的方向性数据进行建模,将作为结果获得的模型参数供应至模型数据生成单元215,并且将在通过混合方法建模之后的方向性数据供应至运算单元242。
运算单元242通过从提供的待处理的方向性数据中减去(获得差异)从模型参数估计单元241提供的建模的方向性数据来计算中间差异信息,并且将中间差异信息提供给模型参数估计单元243和运算单元244。
模型参数估计单元243通过HOA方法对从运算单元242提供的中间差异信息进行建模,将作为结果获得的模型参数提供给模型数据生成单元215,并且将通过HOA方法进行建模之后的中间差异信息提供给运算单元244。
运算单元244通过从运算单元242提供的中间差异信息中减去(获得差)从模型参数估计单元243提供的建模之后的中间差异信息来计算差异信息,并且将差异信息提供给差编码单元245。
差异编码单元245基于从运算单元244供应的差异信息和供应的要被适当处理的方向性数据生成编码模式信息和差异码数据,并且将编码模式信息和差异码数据提供至模型数据生成单元215。
注意,这里,描述了其中模型参数估计单元241通过混合方法执行建模,并且模型参数估计单元243通过HOA方法执行建模的实施例。
然而,本发明不限于此,并且可以通过在模型参数估计单元241和模型参数估计单元243中的任何方法来执行建模。例如,模型参数估计单元241可以通过HOA方法执行建模,并且模型参数估计单元243可以通过混合方法执行建模。
<差异编码单元的配置实施例>
此外,例如,差异编码单元245可具有图22中所示的配置。注意,在图22中,与图19的情况下的部分对应的部分由相同的附图标记表示,并且将适当地省略其描述。
在图22的实施例中,差编码单元245包括残差计算器212、编码方法选择单元213、多级差处理单元271和霍夫曼编码单元214。
残差计算器212基于所供应的待处理的方向性数据和建模的方向性数据以及从模型参数估计单元241和模型参数估计单元243供应的中间差异信息来计算差异信息,并且将差异信息提供给编码方法选择单元213和多级差异处理单元271。
多级差异处理单元271基于来自残差计算器212的差异信息或来自算术单元244的差异信息,生成由从编码方法选择单元213中提供的编码模式信息指示的差异编码模式中的多级差异信息。
例如,在通过空间邻接差方法执行霍夫曼编码作为差编码模式的情况下,获得空间差异信息作为多级差异信息,并且在通过频率间差方法执行霍夫曼编码作为差编码模式的情况下,获得频率间差异信息作为多级差异信息。类似地,在通过空间邻接差方法和频间差方法执行霍夫曼编码作为差编码模式的情况下,通过获得空间差异信息和频间差异信息而获得的将被霍夫曼编码的信息是多级差异信息。
多级差处理单元271将获得的多级差异信息提供给编码方法选择单元213和霍夫曼编码单元214。
编码方法选择单元213基于所供应的待处理的方向性数据、从残差计算器212或算术单元244供应的差异信息以及从多级差处理单元271供应的多级差异信息生成编码模式信息,并且将编码模式信息提供给多级差处理单元271、霍夫曼编码单元214和模型数据生成单元215。
霍夫曼编码单元214基于从编码方法选择单元213提供的编码模式信息对从多级差异处理单元271提供的多级差异信息进行霍夫曼编码,并且将因此获得的差异码数据提供至模型数据生成单元215。
<模型数据生成处理的描述>
在方向性数据编码单元201具有图21中所示的配置的情况下,方向性数据编码单元201执行图23中所示的模型数据生成处理,作为对应于图10中的步骤S11和S12的处理。
即,在步骤S151中,模型参数估计单元241对供应的待处理的方向性数据通过混合方法执行建模。
模型参数估计单元241将通过建模获得的模型参数提供给模型数据生成单元215,并且将在通过混合方法进行建模之后的方向性数据提供给运算单元242。
在步骤S152中,运算单元242基于所供应的待处理的方向性数据和从模型参数估计单元241供应的建模的方向性数据计算中间差异信息,并且将中间差异信息提供给模型参数估计单元243和运算单元244。
在步骤S153中,模型参数估计单元243通过HOA方法对从运算单元242提供的中间差异信息执行建模。
模型参数估计单元243将通过建模获得的模型参数提供给模型数据生成单元215,并且将在通过HOA方法建模之后的中间差异信息提供给运算单元244。
在步骤S154中,运算单元244基于从运算单元242提供的中间差异信息和从模型参数估计单元243提供的建模之后的中间差异信息计算差异信息,并且将差异信息提供至差异编码单元245。
在步骤S155中,差异编码单元245基于从运算单元244提供的差异信息执行差异编码。
即,例如,差异编码单元245的编码方法选择单元213基于要处理的提供的方向性数据、从运算单元244提供的差异信息以及在诸如先前帧的先前处理中从多级差异处理单元271提供的多级差异信息生成编码模式信息,并将编码模式信息提供给多级差异处理单元271、霍夫曼编码单元214和模型数据生成单元215。要注意的是,编码方法选择单元213可使用从残差计算器212中提供的差异信息,生成编码模式信息。
此外,多级差异处理单元271基于例如从运算单元244提供的差异信息和从编码方法选择单元213提供的编码模式信息生成多级差异信息,并且将多级差异信息提供给编码方法选择单元213和霍夫曼编码单元214。
霍夫曼编码单元214基于从编码方法选择单元213提供的编码模式信息对从多级差异处理单元271提供的多级差异信息进行霍夫曼编码,并且将因此获得的差异码数据提供至模型数据生成单元215。
在步骤S156中,模型数据生成单元215进行包装以生成模型数据,并且将模型数据提供至输出单元24。
具体地,模型数据生成单元215生成包括来自模型参数估计单元241的混合方法的模型参数、来自模型参数估计单元243的HOA方法的模型参数、来自编码方法选择单元213的编码模式信息以及来自霍夫曼编码单元214的差异码数据的模型数据。当以这种方式生成模型数据时,模型数据生成处理结束。
如上所述,方向性数据编码单元201通过加法混合方法生成模型数据。通过这样做,可以减少方向性数据的传输量,并且可以抑制传输延迟的出现和传输速率的增加。
<分布模型解码单元的配置实施例>
此外,在方向性数据编码单元201具有图21中示出的配置的情况下,例如,信息处理装置51的分布模型解码单元62具有图24中示出的配置。注意,在图24中,对应于图11的情况下的那些的部分由相同的附图标记表示,并且将适当地省略其描述。
图24所示的分布模型解码单元62包括解包单元81、计算单元301、计算单元302、差异信息解码单元83、运算单元303、运算单元304以及频率内插处理单元85。在此实施例中,计算单元301和计算单元302对应于图11中说明的方向性数据计算器82。
计算单元301基于从解包单元81提供的混合方法的模型参数,在通过混合方法进行建模之后,计算方向性数据(粗略方向性数据),并且将方向性数据提供给运算单元304。计算单元302在由HOA方法建模之后基于从解包单元81提供的HOA方法的模型参数计算中间差异信息,并且将中间差异信息提供给算术单元303。
差异信息解码单元83基于从解包单元81提供的编码模式信息和差异码数据来计算差异信息(方向性数据残差),并且将差异信息提供给运算单元303。运算单元303将从差异信息解码单元83供应的差异信息和从计算单元302供应的中间差异信息相加(组合),并且将相加结果(差异信息)供应至运算单元304。
运算单元304将从计算单元301提供的方向性数据(粗略方向性数据)与从运算单元303提供的相加结果(差异信息)相加,并且将因此获得的方向性数据提供至频率内插处理单元85。
在分布模型解码单元62具有图24中所示的配置的情况下,计算单元301在上述图20的方向性数据生成处理中的第一步骤S113中计算方向性数据(粗略方向性数据)。此外,在第二步骤S113中,计算单元302计算中间差异信息。
然后,差异信息解码单元83执行步骤S115和S116的处理以生成差异信息,并且算术单元303和算术单元304在步骤S117中执行相加处理以生成方向性数据。
<数据点的布置>
顺便提及,上述模型数据的配置不限于图5所示的配置和图15和16所示的配置,并且可以是图25所示的配置。
要注意的是,在图25中,适当地省略与在图5中所示的情况下的部分对应的部分的描述。在图25中,bslbf指示钻头串,左钻头第一,即左钻头是头部。此外,uimsbf首先指示无符号整数最高有效位,即,最高有效位是头的无符号整数。
图25中示出的模型数据包括指示频率点的数量的频率点的数量“bin_count”,并且通过频率点的数量“bin_count”存储在频率点的中心处的频率“bin_freq[i]”。
此外,通过频带数“band_count”存储表示在每一个频带中构成混合模型的分布数的混合数“mix_count[j]”以及表示包括在频带中的区间的区间信息“bin_range_per_band[j]”。
此外,对于每一个带,参数浓度κ的程度、权重φi、和向量γ1作为模型参数、以及选择标记“dist_flag”由混合数“mix_count[k]”存储。
在这个实施例中,“κ[j][k]”表示参数浓度κ的程度,并且“权重[j][k]”表示权重φi。此外,“γ_x[j][k]”、“γ_y[j][k]”、以及“γ_z[j][k]”表示构成矢量γ1的X分量(X坐标)、Y分量(Y坐标)、以及Z分量(Z坐标)。
在选择标志“dist_flag”是“1”的情况下,即,在该分布是Kent分布的情况下,进一步存储椭圆率β、长轴矢量γ2和短轴矢量γ3
此处,“β[j][k]”表示椭圆率β,并且“γ2_x[j][k]”、“γ2_y[j][k]”、以及“γ2_z[j][k]”表示构成长轴矢量γ2的X分量、Y分量、以及Z分量。“γ3_x[j][k]”、“γ3_y[j][k]”和“γ3_z[j][k]”表示构成短轴矢量γ3的X分量、Y分量和Z分量。
模型数据还包括指示方向性增益的动态范围的缩放因子“scale_factor[i]”以及每一个区间中的方向性数据的偏移值,即,通过频点的数量“bin_count”的最小值“offset[i]”。
此外,模型数据还包括用于识别每一个数据点的位置的信息。
在上述方向性记录方法中,假定尽可能精确地恢复在由原始数据(原始方向性数据)定义的数据点处的方向性数据的值,即,方向性增益。
在信息处理装置51中,当执行呈现处理时,使用解码的方向性数据。然而,在此情况下所需要的不限于在原始方向性数据中描述的数据点处的值(方向性增益),而是在再现处理时使用的位置(方位)处的方向性增益。
因此,例如,不仅需要将方向性数据记录在数据(方向性增益)即数据点配置在球面上等间隔划分纬度和经度而得到的网格点的数据排列(以下称为网格图案数据排列)中,还需要记录各种数据排列。换言之,用于尽可能有效地记录关于数据点的坐标信息的语法是必要的。
作为在方向性数据中布置数据点的方法,例如,可以考虑以下方法(布置)。
网格图案数据排列
统一数据排列
非均匀数据排列
这里,均匀数据布置是例如多个数据点被均匀地布置在以声源位置为中心的球面上的数据布置,如图26中所示。换言之,在均匀数据布置中,数据点以恒定密度布置在球面上的任何区域中。
在图26的实施例中,可以看出,球面上的每一个点代表数据点,并且数据点在从声源位置观看的任何方位中以恒定密度布置,即,以恒定密度记录方向性增益(方向性数据)。
在从声源观看的收听者(用户)的方向随时间均匀改变的情况下,通过这种均匀数据布置的方向性数据的记录特别有效。
此外,非均匀数据布置是其中多个数据点非均匀地布置在以声源位置为中心的球面上的数据布置。换言之,在非均匀数据布置中,数据点对于球面上的每一个区域以不同的密度布置。因此,可以说网格图案数据排列是非均匀数据排列的一个排列实施例,但是在以下描述中,非均匀数据排列不包括网格图案数据排列。
作为非均匀数据布置的具体实施例,例如,可想到在对应于对以声源位置为中心的球面上的可听性重要的声源的前方方向的区域中以及在对应于用户的视点和声源可能作为位置关系接近的方向的区域中布置高密度的数据点。在非均匀数据布置中,还可想到将具有高密度的数据点布置在方向性增益大的区域中。
作为非均匀数据布置的另一实施例,可想到在作为整体的方向性增益的变化量大的部位(区域)或者以声源位置为中心的球面上的重要区域中密集地布置数据点(即,方向性增益),并且在重要程度低的区域中粗略地布置数据点。
在上述网格图案数据布置、统一数据布置和非统一数据布置中的任一者中,可想到在确定方向性数据的优先级等时与对象的优先级协作。例如,可基于其中利用方向性数据的内容中的对象的声源类型的优先级来确定方向性数据的优先级。
作为与对象的优先级协作的实施例,例如,在内容中存在多个对象的情况下,在音乐的内容的情况下,可以想到将对应于声音的对象的优先级设置为高。
此外,例如,在存在高优先级的声源类型(即,高优先级的对象声源,诸如,音乐内容的声音或电影内容的声音)的情况下,可想到将更多比特分配给声源类型的方向性数据的描述。也就是说,在具有较高优先级的声源类型的方向性数据中,可想到提供更多数据点并且以高清晰度记录方向性数据。
如上所述,在数据点的布置位置等被记录在数据布置中的情况下,例如,图27中示出的信息可被进一步描述在包括图25中示出的信息的模型数据中。即,图27示出了用于识别每一个数据点的位置的信息等的描述格式(语法)的实施例。
注意,这里,假定从声源位置(声源中心)到各数据点的距离是恒定的。即,将描述每一个数据点布置在以声源位置为中心的球面的表面上的实施例。然而,本发明不限于此,并且从声源位置到数据点的距离对于每一个数据点可以是不同的。
在图27的实施例中,“position_type”是指示数据点的布置格式(布置方法)的信息,即,坐标记录方法。
例如,在数据点的排列是网格图案数据排列的情况下,坐标记录方法“position_type”的值是“0x000”。
此外,例如,在数据点的布置是统一数据布置的情况下,坐标记录方法“position_type”的值是“0x001”,并且在数据点的布置是非统一数据布置的情况下,坐标记录方法“position_type”的值是“0x010”。
“priority_index”是指示方向性数据的优先级(更具体地,方向性数据的优先级)的优先级信息。例如,由于对于每种类型的对象(即,对于每种声源类型)准备方向性数据,因此可以说优先级信息指示对于每种类型的声源(对象)的方向性数据的优先级。该优先级可以随时间而改变。
具体地,例如,在优先级“priority_index”的值是“0x000”的情况下,即,在指示优先级的值是最小的情况下,指示方向性数据的优先级是最大的。这里,方向性数据的优先级越高,表示优先级的值越小。
此外,在方向性数据的优先级是最大的情况下,例如,关于方向性数据,建模之前(编码之前)的所有数据点可被恢复(解码),而不降低解码侧上的信息处理装置51中的空间分辨率。
即,在信息处理装置51中,更具体而言,分布模型解码单元62可基于模型数据计算具有与模型化之前的那些相同的位置和相同数量的数据点的方向性数据。另外,例如,可根据方向性数据的优先级来确定构成方向性数据的数据点的密度(数量)。
此外,在这个实施例中,根据坐标记录方法“position_type”的值描述用于识别数据点的布置位置(坐标)的信息。
具体地,在坐标记录方法“position_type”的值是“0x000”的情况下,即,在网格图案数据布置的情况下,描述(存储)方位角方向间隔“azimuth_interval”和仰角方向间隔“elevation_interval”。
方位角方向间隔“azimuth_interval”表示表示在球面上的方位角方向上彼此相邻的数据点之间的方位角方向上的间隔的角(方位角的差异)。
仰角方向间隔“elevation_interval”表示表示在球面上的仰角方向上彼此相邻的数据点之间的仰角方向间隔的角度(仰角差)。
此外,在网格图案数据排布中,作为基准的至少一个位置(诸如,从声源位置观看的正面方向上的位置)被称为信息处理装置51侧上的数据点排布位置。因此,可以从方位角方向间隔和仰角方向间隔以及预定参考位置识别所有数据点的位置。
在坐标记录方法“position_type”的值是“0x001”的情况下,即,在均匀数据布置的情况下,描述(存储)表示均匀分布(布置)在球面上的数据点的数量的数据点的数量“uniform_dist_point_count”。
在统一数据布置中,例如,在信息处理装置51侧上,每一个数据点的布置位置对于每一个数据点的数量是已知的,并且可以根据数据点的数量识别所有数据点的位置。
在坐标记录方法“position_type”的值是“0x010”的情况下,即,在非均匀数据布置的情况下,与强制数据点的数量“num_argular_point”一起,通过强制数据点的数量描述(存储)指示强制数据点的位置的方位角数据“azimuth_table[i]”和仰角数据“elevation_table[i]”。
此外,在坐标记录方法“position_type”的值是“0x010”的情况下,还描述(存储)数据点布置分辨率,换言之,指示数据点的布置密度“gain_resolution”的数据点布置分辨率。例如,数据点布置分辨率“gain_resolution”是指示数据的波动量(方向性增益)的分贝值。
在非均匀布置中,针对由数据点布置分辨率“gain_resolution”表示的方向性增益的每一个波动量设置数据点。即,通过解码获得的方向性数据中的数据点的数目根据数据点布置分辨率而改变。
具体地,在非均匀布置中,始终存在(被布置)的数据点(即,在解码时始终恢复的数据点,而不管数据点布置分辨率如何)被设置为强制数据点。描述了指示强制数据点的数目的强制数据点的数目“num_mandatory_point”。
此外,方位角数据“azimuth_table[i]”和仰角数据“elevation_table[i]”分别是指示强制数据点的方位角方向和仰角方向上的位置(坐标)的方位角和仰角。
因此,在解码侧上,每一个强制性数据点的设置位置可以由方位角数据“azimuth_table[i]”和仰角数据“elevation_table[i]”标识。注意,方位角数据和仰角数据不限于坐标,即,方位角和仰角,只要它是用于识别强制数据点的布置位置的信息即可,并且可以是诸如可获得方位角和仰角的索引的任何其他信息。
在非均匀布置中,当识别强制数据点的布置位置时,基于强制数据点的布置位置和数据点布置分辨率“gain_resolution”识别方向性数据中除强制数据点之外的数据点的布置位置。
具体地,首先,基于模型数据,更具体地,基于模型参数,混合模型F(x;Θ)获得。该混合模型F(x;Θ)给出在围绕声源位置的球面表面上的任何位置处的方向性增益的值。
接下来,基于混合模型F(x;θ)、强制数据点的位置和数据点布置分辨率,在球面上布置不是强制数据点的数据点(在后文中也称为非强制数据点)。
非强制数据点的位置是这样的位置,其中,由混合模型F(x;θ)表示的方向性增益的值从球面上的强制数据点处的方向性增益的值改变由数据点布置分辨率表示的波动量,例如,3dB。
因此,例如,在由数据点布置分辨率指示的波动量是+3dB并且在任何一个强制数据点处的方向性增益的值是48dB的情况下,非强制数据点被布置在球面上的方向性增益是51dB的位置处。
此时,另一非强制数据点可进一步设置在球面上的方向性增益的值是从已设置的非强制数据点处的方向性增益的值改变由数据点布置分辨率指示的波动量的值的位置处。也就是说,非强制性数据点可以以与针对强制性数据点的数据点布置分辨率所指示的波动量相对应的间隔布置。
此外,例如,其数目对应于数据点布置分辨率的非强制数据点可以在方位角方向和仰角方向上彼此相邻的强制数据点之间以相等的间隔布置。
如上所述,识别构成非均匀布置中的方向性数据的所有数据点的布置位置,即,所有强制数据点和非强制数据点的布置位置。
如上所述,在非均匀布置中,在解码侧上获得的方向性数据的非强制数据点的布置位置和数量根据数据点布置分辨率“gain_resolution”而变化。
在以上实施例中,即使在数据点的布置格式(坐标记录方法)是网格图案数据布置、统一数据布置和非统一数据布置的任何格式的情况下,也可根据解码侧(信息处理装置51)上的优先级“priority_index”的值调整方向性数据的空间分辨率,即,数据点的数量。在这种情况下,在每一个布置格式中,数据点的数量根据优先级“priority_index”的值而改变。
具体地,例如,在网格图案数据布置中,通过增加方位角方向间隔“azimuth_interval”和仰角方向间隔“elevation_interval”,可降低方向性数据的空间分辨率。
此外,在统一数据布置中,可通过减少数据点的数量“uniform_dist_point_count”来降低方向性数据的空间分辨率。
类似地,在非均匀数据布置中,通过增加数据点布置分辨率“gain_resolution”可降低方向性数据的空间分辨率。
作为调整方向性数据的空间分辨率的方法,即,通过解码获得的方向性数据的数据量,例如,考虑将优先级“priority_index”的值乘以方位角方向间隔“azimuth_interval”或仰角方向间隔“elevation_interval”的方法。
此外,作为调整方向性数据的空间分辨率的方法,例如,可以考虑将数据点的数量“uniform_dist_point_count”乘以优先级“priority_index”的值的倒数的方法、将数据点布置分辨率“gain_resolution”乘以优先级“priority_index”的值的方法等。
以这种方式,信息处理装置51可以获得适当空间分辨率的方向性数据。即,可适当地调整方向性数据的空间分辨率(数据点的数目)。
注意,同样在图5、15和16中所示的模型数据中,作为用于识别每一个数据点的位置的信息,可以存储图27中所示的配置的信息(在下文中,也称为数据点位置信息)来代替每一个数据点的方位角、仰角等。
在模型数据包括具有图27所示配置的数据点位置信息的情况下,模型数据生成单元22通过参见图10描述的编码处理的步骤S12生成包括图25和27所示的信息的模型数据。即,产生包括数据点位置信息的模型数据。
注意,即使在服务器11具有图19中所示的配置的情况下,也可以通过模型数据生成单元215生成包括数据点位置信息的模型数据。
另外,在产生模型数据时获得每一数据点的信息(例如差异信息)的情况下,针对经解码方向性数据的每一数据点(即,由数据点位置信息识别的每一数据点)计算每一条信息(例如差异信息)。
此外,在数据点位置信息包括在模型数据中的情况下,方向性数据计算器82还在参考图12描述的方向性数据生成处理的步骤S52中使用数据点位置信息生成方向性数据。
即,方向性数据计算单元82根据模型数据所包括的数据点位置信息,确定数据点的配置格式(坐标记录方法),并确定方向性数据中的各数据点的配置位置。此时,方向性数据计算器82根据需要使用关于方向性数据的优先级信息来识别数据点的布置位置。
此外,方向性数据计算器82基于从模型参数等计算的每一个频带的混合模型F’(x;θ)、识别每一个数据点的布置位置的结果、每一个二进制位的缩放因子和每一个二进制位的最小值,计算数据点处的每一个二进制位的混合模型的输出值F(x;θ)。结果,获得包括每一数据点处的每一区间的方向性增益的粗略方向性数据。
类似地,在数据点位置信息包括在模型数据中的情况下,同样在参考图20描述的方向性数据生成处理中,在步骤S113、S116和S117中适当地使用识别数据点的布置位置的结果。
在上面的描述中,空间邻接差异方法和频率间差异方法已经被描述为差异编码方法。
例如,在频间差方法中,获得相邻bin之间(即,相邻频率之间)的差异信息和方向性增益的差。
在这种频率间差方法中,使用方向性增益的值在相邻频率(bin)之间接近的属性,即,方向性数据的形状在方向性数据中接近的属性。
类似地,在空间相邻差异方法中,获得相邻数据点之间(即相邻位置之间)的差异信息和方向性增益的差异。
在这种空间邻接差异方法中,使用方向性数据中的空间接近位置之间的方向性增益的差小的特性。即,球形表面上的方向性增益在方向性数据中在许多情况下连续改变的特性,并且当位置(方位)接近时方向性增益的值接近。
通常,例如,在用于声学的空间方向性格式(SOFA)的文件中记录方向性或头部相关传输函数(HRTF)的情况下,在球面上定义数据,并且通常以下列方式记录数据点。
用于高度升降舵
方位角方位
data_point(azi,升降副翼)
结束
结束
具体地,例如,在球面上的相同纬度上,即,在与该纬度对应的圆周上,数据点被布置在沿圆周彼此相邻的经度位置处。此时,数据点以相等的间隔布置,例如,以便围绕圆周。
然后,在为待处理的纬度提供数据点时,通过在与纬度对应的圆周上的各经度位置处布置数据点,同时依次改变纬度的值,在球面上提供数据点。
以这种方式,可以获得诸如网格图案数据布置的方法的方向性数据。在这种网格图案数据布置中,诸如南极和北极的极周围的数据密度(即,数据点的密度)增加。
然而,当如上所述实际记录方向性数据(方向性增益)时,期望将方向性数据记录在数据分布中,其中数据(数据点)在需要以高清晰度记录方向性增益的变化或作为整体是均匀的(均匀分布)的重要方位角中是密集的。这里提到的重要方位是例如正面方向等、在渲染时经常使用的方向、方向性增益的值大的位置的方向等。
此外,在实际考虑方向性数据的记录的情况下,由于记录的方便性,可想到在极周围密集地记录并且稀疏地记录水平面上的数据。
因此,可通过如下执行分类(重新排列)来执行差异编码。
(方法DE1):基于预定标准按照排序数据点的顺序的差异编码
(方法DE2):通过按升序或降序对方向性增益的分贝值进行排序的差异编码
(方法DE3):按照优先级从高到低的顺序进行排序的差异编码
在方法DE1中,数据点(即,数据点处的差异信息和方向性增益)相对于数据布置(诸如网格图案数据布置、统一数据布置和非统一数据布置)以预定的顺序被排序(重新分配)。然后,在排序之后在彼此相邻的数据点之间获得差异信息和方向性增益的差异。在这种情况下,在解码侧上(即,在信息处理装置51侧上)已知排序的顺序。
在方法DE2中,按照诸如数据点处的差异信息和方向性增益的差异的待计算的值(分贝值(dB值))的升序或降序对数据点进行排序。此时,排序是以升序还是降序执行仅需要预先确定。
另外,当按升序或降序执行排序时,在排序之后在彼此相邻的数据点之间获得差异信息和方向性增益的差异。以此方式,可进一步减小数据点之间的差异信息和方向性增益的差异。
要注意的是,在方法DE2中,在模型数据中存储表示所分类的数据点的排列顺序的信息,以便在解码侧(信息处理装置51侧)可以识别分类的顺序。例如,指示被排序的数据点的布置顺序的信息可以被存储在图27中示出的数据点位置信息中。
此外,指示被排序的数据点的排列顺序的信息可以是任何信息,例如,通过按照排序顺序布置指示数据点的索引而获得的信息。
在方法DE3中,在从声源位置观看的相应方位(方向)中,从具有高优先级的方位(诸如前方位和具有大方向性增益的方位)中的数据点按顺序对数据点进行排序,并且在排序之后在彼此相邻的数据点之间获得差异信息和方向性增益的差异。结果,差异信息等编码的差异信息的数据量可以保持在预定位深度内。
此外,在方法DE3中,如在方法DE2的情况下,在模型数据中存储指示分类的数据点的布置顺序的信息。
在方法DE1至DE3中,描述了获得数据点之间的差异的实施例,但是仅需要针对数据点之间或区间之间的至少任何一个计算差异。
因此,例如,在每一个方法DE1至DE3中,不仅考虑数据点的位置,而且考虑频率(即,二进制位),可以执行重新排列。
在这种情况下,例如,在方法DE1中,按照预定数据点和频率(区间)的顺序对差异信息和方向性增益进行排序,并且获得排序之后彼此相邻的差异信息和方向性增益的差异,即,数据点与区间之间的差异。注意,在以预定顺序执行排序之后,可在数据点和二进制位二者之间获得差,或者可仅在二进制位之间获得差。
此外,例如,在方法DE2中,关于针对相同区间、相同数据点等以升序或降序分类的差异信息和方向性增益,可以获得彼此相邻的差异信息和方向性增益的差异,即,数据点与区间之间的差异。
类似地,在方法DE3中,根据数据点的优先级和频率(bin)对数据点的bin中的差异信息和方向性数据进行排序,并且可以获得排序之后彼此相邻的差异信息和方向性增益的差异,即,数据点与bin之间的差异。换句话说,在此实施例中,按优先级次序对数据点和二进位排序。
注意,在通过以上方法中的任何一个来执行排序的情况下,可以对包括一个或多个二进制位或数据点的每一个组执行排序,例如,仅对相同频率的二进制位、仅属于预定频带的多个二进制位、或者仅对相同数据点或彼此相邻的多个数据点中的二进制位进行排序。
此外,编码比特流(诸如模型数据)中的每一个变量(信息)可被制表,并且仅指示制表变量的值的索引可被发送。
即,在上述实施例中,对于诸如模型数据等中的模型参数的各种可变值,以下列方式描述语法。
-以浮点格式记录语法的可变值
根据动态范围和必要分辨率以整数格式(诸如9比特(在512级中表示0至1之间的值))和11比特分配值
这里,在记录变量值的浮点格式中,任何值均可被视为浮点(32位)格式的变量值。
另一方面,为了实际进一步减小位深度,可按以下方式描述语法。
即,在所描述的变量值(参数)经常采用特定值或者可以由特定值表示的情况下,将实际使用的值(即,所描述的变量值)制成表格。然后,在诸如模型数据的编码比特流中,即,在Syntax中,仅描述通过列表获得的索引。
在这种情况下,该表本身与编码的比特流分开地被传输到解码侧。这样,可用小的比特深度来描述可变值,并且可减少编码比特流的数据量(发送量)。
作为特定实施例,例如,可想到仅表示变量值的可能值的部分范围,例如仅变量值的0.0至0.1的范围或仅变量值的0.9至1.0的范围。
在这种情况下,例如,对于列表化的范围(例如,0.0至0.1的范围)内的各离散值(可变值),确定表示该值的指数。然后,在实际的变量值是待制表的范围内的值的情况下,对应于实际变量值的索引被存储在模型数据等中并被发送。
另一方面,在实际变量值超出制表的范围的情况下,将实际变量值存储在模型数据中并发送。
此外,还可想到对比例因子“scale_factor[i]”和偏移值(即,上述最小值“offset[i]”)执行参数表达式(压缩表达式)。
在以上描述中,使用缩放因子“scale_factor[i]”和每一个二进制位的最小值“offset[i]”,混合模型F(x;Θ)按照以下方式确定。
对于箱中的i_箱
F(x;Θ)=F’(x;Θ)×scale_factor[i]+偏移[i]
结束
其中F’(x;Θ)是每一个频带的混合模型的输出值。
此外,比例因子“scale_factor[i]”是vMF分布和Kent分布的总和(模型数据和总和)之间的比率,即,在混合模型F’(x;Θ),以及在由索引i表示的区间(即,第i个区间)中建模之前的原始(原始)方向性数据的数据点处的值的总和。该比例因子是表示动态范围的浮点值。
注意,模型数据总和是在球面上定义的值(方向性增益)的总和,并且理想地是1,但是因为它实际上被离散化,所以它不变成1。另外,模型化之前的原始方向性数据为dB尺度数据,且在计算比例因子时在正方向上偏移。
最小值“offset[i]”是在第i个区间中建模之前的原始(原始)方向性数据,即,方向性增益的最小值(dB值),并且由浮点值表示。
通过使用这样的比例因子和最小值的计算,混合模型的输出值可根据每一个bin的动态范围被校正和恢复。
在这种情况下,需要与二进制位的数量对应的缩放因子和最小值,并且当使方向性数据的频率分辨率高清晰时,记录缩放因子和最小值所需的信息量(即,比特深度)与二进制位的数量成比例地增加。
因此,可通过参数地表达缩放因子和最小值来减小记录缩放因子和最小值所需的信息量(比特深度)。
例如,作为实施例,获得图28和29中所说明的值作为用于六种声源类型中的每一个的方向性数据的比例因子和最小值(偏移值)。
图28说明六种声源类型的比例因子。注意,在图28中,纵轴表示作为无量纲比率的比例因子的值,横轴表示bin的指数i。
在此实施例中,取决于声源类型,缩放因子在相邻二进位之间变化很大,或者缩放因子在相邻二进位之间变化较小。
图29示出了六种声源类型的每一个的最小值(偏移值)。要注意的是,在图29中,垂直轴表示最小值(偏移值),即,dB值,并且水平轴表示二进制位的索引i。
即使在最小值中,如在比例因子的情况下,可以看出最小值根据声源类型极大地波动或者相邻区间之间的波动小。
如上所述,缩放因子或最小值的变化的幅度根据声源类型在相邻频率之间(相邻区间之间)极大地不同。
因此,在对比例因子和最小值进行建模(即,参数化地表达)时,可能存在能够用少量参数进行建模的情况和参数数量增加的情况。
因此,例如,在二进制位之间的变化较大并且不能通过比例因子或最小值的参数表达式提高编码效率的情况下,模型数据生成单元22和模型数据生成单元215在模型数据中照原样存储(描述)每一个二进制位的比例因子或最小值。
另一方面,在二进制位之间的偏差小并且能够提高编码效率的情况下,模型数据生成单元22和模型数据生成单元215参数化比例因子或最小值并且将比例因子或最小值存储(描述)在模型数据中。
作为参数化(参数表示)的实施例,例如,例示通过函数近似等的曲线拟合。
在这种情况下,模型数据生成单元22和模型数据生成单元215生成用于通过曲线拟合等获得与表示每一个bin的缩放因子或最小值的图对应的近似函数的函数近似参数。然后,模型数据产生单元22和模型数据产生单元215将函数近似参数存储在模型数据中,而不是缩放因子或每一个bin的最小值。
在解码侧上,方向性数据计算器82和计算单元301基于函数近似参数和bin的索引i从近似函数获得每一个bin中的缩放因子或最小值,并且使用缩放因子或最小值作为模型参数。
这样,在模型数据中需要存储所有bin的缩放因子和最小值,但是仅需要描述函数近似参数,并且可以压缩数据量。注意,作为函数近似,可以执行任何近似,诸如通过线性函数、n阶函数(n≥2)或多项式近似的近似。
此外,在比例因子或最小值的动态范围大的情况下,可以通过执行作为函数近似的预处理、采用比例因子或最小值的对数的处理、通过非线性函数转换比例因子或最小值的处理等来压缩动态范围。
另外,上面已经描述了频带混合方法、加法混合方法、乘法混合方法、球面谐波系数建模方法和组合混合方法作为在通过组合HOA方法、混合方法、复数混合方法和差异方法生成模型数据的情况下的方法的实施例。
然而,本发明不限于此,当然可以通过其他组合来生成模型数据。
例如,对于从声源位置观看的每一个方位,即,对于每一个数据点或者对于包括多个数据点的每一个区域,通过切换诸如上述的HOA方法、混合方法、复数混合方法、差异方法、频带混合方法或者加法混合方法的任何方法可以生成模型数据。
在方向性数据中,水平面的数据(即,赤道上的数据)的使用频率(方向性增益)高,并且相反地,极点附近的数据的使用频率低的可能性高。因此,通过对每一个区域切换方法,能够适当地减小模型数据的比特深度。这里,水平面是包括从声源位置观察到的纬度、即仰角(仰角)为0度的多个位置的平面。
作为具体实施例,例如,可以想到将HOA方法与混合方法组合,更具体地,通过vMF分布建模的方法。此时,例如,在HOA方法中的球面谐波函数扩展的阶可以被设置为第一阶,并且对于每一个区域(方位)可以切换HOA方法和混合方法是组合使用还是仅使用混合方法。
另外,还可想到通过改变每一区域的HOA方法中的球面谐波函数扩展的阶数来产生模型数据。此外,还可以想到在HOA方法与混合方法与HOA方法的组合之间切换用于每一个区域,并且在HOA方法中改变球面谐波函数扩展的阶用于每一个区域。
此外,还可以想到,通过使用通过圆形谐波函数扩展而不是球面谐波函数扩展建模方向性数据的方法来高清晰地记录水平面附近的数据点,并且对于除了水平面附近的数据点之外的数据点,通过其他方法稀疏地记录方向性增益。
<第三实施方式>
<数据对称性的利用>
同时,方向性数据可以根据原始声源的形状具有对称性。
例如,作为声源的扬声器的形状是左右对称的,并且扬声器的方向性数据也是对称的。然而,在扬声器中存在高音扬声器和低音扬声器的情况下,高音扬声器和低音扬声器的再现频带不同,因此,方向性数据在上下方向上不对称。
此外,正十二面体扬声器等也被商业化,并且在正十二面体扬声器中在12个方向上建立对称性。此外,在具有立方体形状的全范围扬声器的情况下,不仅可以建立左右对称而且可以建立上下对称。另一方面,人还具有左右对称的外部形状,并且在一定程度上建立左右对称,但是具有与头部、躯干和腿在上下方向上不对称的形状,并且方向性在上下方向上不对称。
由此,在方向性数据中存在对称性的情况下,通过利用该对称性可以减少发送数据量。
在这种情况下,模型数据的语法例如如图30中所示。
在图30中示出的模型数据包括指示区间数目的频点数目“bin_count”,并且通过频点数目“bin_count”存储在区间中心处的频率“bin_freq[i]”。
此外,还存储频带的数量“band_count”,并且针对频带的数量“band_count”(即,针对每一个频带)存储与方向性数据的对称性的使用有关的对称信息“use_symmetry”。
例如,对称信息“use_symmetry”的值“4”、“3”、“2”、“1”和“0”分别指示执行上下和左右对称操作、执行左右对称操作、执行上下对称操作、利用任何对称和旋转、以及不执行任何对称和旋转操作。
具体地,在对称信息“use_symmetry”的值是“0”的情况下,方向性数据通过其中所有方向上的方向性增益由上述vMF分布、Kent分布等组成的模型(即,通过混合模型等)来描述。此外,保留对称信息“use_symmetry”的值“5”至“7”。
在模型数据中,根据对称信息“use_symmetry”的值存储用于旋转操作或对称操作的操作相关信息。
在对称信息“use_symmetry”的值是“4”的情况下,在模型数据中描述用于上下和左右对称操作的操作相关信息“LeftRightVerticalLineSymmetricDir()”。在对称信息“use_symmetry”的值是“3”的情况下,在模型数据中描述用于左右对称操作的操作相关信息“LeftRightLineSymmetricDir()”。
此外,在对称信息“use_symmetry”的值是“2”的情况下,在模型数据中描述用于上下对称操作的操作相关信息“VerticalLineSymmetricDir()”。
在对称信息“use_symmetry”的值是“1”的情况下,在模型数据中描述用于任何对称或旋转操作的操作相关信息“SymmetricDir()”。
在对称信息“use_symmetry”的值为“0”的情况下,不对模型数据执行操作,并且描述用于获得方向性数据的信息“NonSymmetricDir()”。
图31示出了“SymmetricDir()”的语法。
在这个实施例中,如在图25中的情况下,模型数据的“SymmetricDir()”存储混合物的数量“mix_count[j]”和区间信息“bin_range_per_band[j]”、“kappa[j][k]”、“weight[j][k]”、“γ_x[j][k]”、“γ_y[j][k]”和“γ_z[j][k]”作为模型参数以及选择标记“dist_flag[j][k]”。
此外,根据选择标记“dist_flag[j][k]”的值还存储作为模型参数的“β[j][k]”、“γ2_x[j][k]”、“γ2_y[j][k]”、“γ2_z[j][k]”、“γ3_x[j][k]”、“γ3_y[j][k]”和“γ3_z[j][k]”。
此外,“SymmetricDir()”存储操作计数信息“sym_operation_count”和操作标志“sym_operation_flag”。
操作计数信息“sym_operation_count”是指示对一个分布(分布模型)(诸如vMF分布或Kent分布)执行旋转操作(其是旋转和复制的操作)或者对称操作(其是复制到对称位置的操作)的次数的信息。
操作标志“sym_operation_flag”是指示执行旋转操作和对称操作中的哪一个的标志信息。例如,在操作标志“sym_operation_flag”的值是“1”的情况下,表示执行旋转操作,并且在值是“0”的情况下,表示执行对称操作。
具体地,此处,操作标志“sym_operation_flag”由操作计数信息“sym_operation_count”指示的次数包括,并且根据操作标志的值存储操作所需的信息。
即,在操作标志“sym_operation_flag”的值是“1”的情况下,存储旋转操作所需的旋转轴方位角“sym_azi”、旋转轴仰角“sym_elev”和旋转角“sym_rotation”。
这里,旋转轴方位角“sym_azi”和旋转轴仰角“sym_elev”是指示当执行旋转操作时从声源位置观察到的旋转轴的方向的方位角和仰角。即,旋转轴由旋转轴方位角和旋转轴仰角确定。此外,旋转角度“sym_rotation”是在旋转操作中以旋转轴为中心(轴)旋转时的角度。
此外,在操作标记“sym_operation_flag”的值不是“1”的情况下,即,在操作标记的值是“0”的情况下,存储偏航角“sym_yaw”、俯仰角“sym_pitch”以及滚转角“sym_roll”,表示从声源位置观看的对称操作所需的球形横截面(即,对称平面)的方向。即,对称面由偏航角、俯仰角和侧倾角确定。
因此,例如,在操作计数信息“sym_operation_count”的值是“2”的情况下,执行由两个操作标志“sym_operation_flag”中的每一个表示的操作。即,旋转操作和对称操作被执行两次。
此外,如在图25中的情况下,缩放因子“scale_factor[i]”和最小值“offset[i]”也通过频点的数量“bin_count”被存储在“SymmetricDir()”中。
这里,将参见图32和33描述旋转操作和对称操作。注意,图32和图33所示的实施例是对Kent分布执行旋转操作或对称操作的实施例。
图32示出对Kent分配执行旋转操作的实施例。
在该例子中,球SP11上的方向性增益由Kent分布表示,并且矢量V81至V83表示Kent分布的矢量γ1、长轴矢量γ2和短轴矢量γ3
这些向量V81至V83通过存储在模型数据中的模型参数获得,即,“γ_x[j][k]”至“γ_z[j][k]”和“γ2_x[j][k]”至“γ2_z[j][k]”。
在执行旋转操作的情况下,信息处理装置51的方向性数据计算器82基于从模型数据读取的旋转轴方位角“sym_azi”和旋转轴仰角“sym_elev”来获得旋转轴RS11。
方向性数据计算器82获得Kent分布f(x;θi)使用向量V81至向量V83。
此外,方向性数据计算器82获得Kent分布f(x;θi)使用向量V'81至向量V'83。
这里,向量V'81至向量V'83是通过将向量V81至V83围绕旋转轴线RS11旋转存储在模型数据中的旋转角“sym_rotation”而获得的旋转后的向量。
在这种情况下,向量V'81至向量V'83用作Kent分布的向量γ1、长轴向量γ2以及短轴向量γ3
因此,在该实施例中,方向性数据计算器82通过基于旋转轴方位角等对诸如Kent分布的矢量γ1的模型参数执行旋转操作来计算旋转的模型参数。然后,方向性数据计算器82基于旋转之前的模型参数和旋转(旋转后)的模型参数中的每一个获得Kent分布,并且使用获得的Kent分布计算混合模型,即,方向性数据(方向性增益)。换言之,通过从根据旋转操作之前的模型参数获得的Kent分布和根据旋转操作之后的模型参数获得的Kent分布进行合成来获得一个分布,并且使用该分布来获得混合模型。注意,两个Kent分布可以直接用于混合模型的计算,或者仅两个Kent分布中的每的部分区域(诸如右半部分和左半部分)可以用于混合模型的计算。这不仅适用于旋转操作的情况,还适用于对称操作的情况。
图33示出了在Kent分布上执行对称操作的实施例。注意,在图33中,对应于图32的情况下的那些的部分由相同的附图标记表示,并且将适当地省略其描述。
在该实施例中,方向性数据计算器82基于从模型数据读取的偏航角“sym_yaw”、俯仰角“sym_pitch”、以及横摇角“sym_roll”获得作为对称平面的球面SP11的截面SF11。截面SF11是包括球SP11的中心(声源位置)的平面。
方向性数据计算器82获得Kent分布f(x;θi)使用向量V81至向量V83。
此外,方向性数据计算器82获得Kent分布f(x;θi)使用向量V”81至向量V”83。
这里,向量V”81至向量V”83是通过将向量V81至V83以截面SF11作为对称平面折叠(对称移动)而获得的向量。即,向量V”81至V”83和向量V81至V83关于截面SF11对称(平面对称)。
在方向性数据计算器82中,向量V”81至向量V”83用作Kent分布的向量γ1、长轴向量γ2和短轴向量γ3
因此,在该实施例中,方向性数据计算器82基于偏航角等对诸如Kent分布的向量γ1的模型参数执行对称操作,从而计算对称移动的模型参数(对称操作)。然后,方向性数据计算器82基于对称移动之前的模型参数和对称移动(对称移动)的模型参数中的每一个来获得Kent分布,并且根据获得的Kent分布等计算方向性数据(方向性增益)。
图34示出了用于获得在图30中示出的模型数据中的方向性数据的信息“NonSymmetricDir()”的语法的实施例。
在图34中示出的实施例中,如在图25中的情况下,存储混合物的数量“mix_count[j]”和区间信息“bin_range_per_band[j]”、“kappa[j][k]”、“weight[j][k]”、“γ_x[j][k]”、“γ_y[j][k]”、以及“γ_z[j][k]”作为模型参数、以及选择标记“dist_flag[j][k]”。
此外,根据选择标记“dist_flag[j][k]”的值还存储作为模型参数的“β[j][k]”、“γ2_x[j][k]”、“γ2_y[j][k]”、“γ2_z[j][k]”、“γ3_x[j][k]”、“γ3_y[j][k]”和“γ3_z[j][k]”。
此外,缩放因子“scale_factor[i]”和最小值“offset[i]”也通过频点的数量“bin_count”来存储。
在该例子中,由于不进行旋转操作和对称操作,因此在模型数据中描述了构成所有分布的模型参数。
此外,操作相关信息“LeftRightVerticalLineSymmetricDir()”、“LeftRightLineSymmetricDir()”和“VerticalLineSymmetricDir()”的数据格式(语法)与图34中示出的“NonsymmetricDir()”相同。
然而,在存储这些“LeftRightVerticalLineSymmetricDir()”、“LeftRightLineSymmetricDir()”、或“VerticalLineSymmetricDir()”的情况下,即,在对称信息“use_symmetry”的值是“4”、“3”、或“2”的情况下,方向性数据计算器82在对方向性数据进行解码时执行对称操作。
具体地,在对称信息“use_symmetry”的值是“3”的情况下,方向性数据计算器82对与在模型数据中描述的模型参数对应的分布执行前正中面的左右对称操作,并获得新的vMF分布或Kent分布。
在这种情况下执行的左右对称操作是对称操作,其中,从声源观看的前方正中面(正中面)是图33中示出的截面SF11。换言之,通过以正中面作为截面SF11执行参考图33描述的对称操作来实现左右对称操作。在这种情况下,当组合从左右对称操作前的模型参数获得的分布和从左右对称操作后的模型参数获得的分布时,获得当从声源观看时左右对称的一个分布。
此外,在对称信息“use_symmetry”的值是“2”的情况下,方向性数据计算器82对与关于前水平面在模型数据中描述的模型参数对应的分布执行前水平面的上下对称操作,并获得新的vMF分布或Kent分布。
在这种情况下执行的上下对称操作是其中从声源观看的前水平面(水平面)是图33中示出的截面SF11的对称操作。换言之,通过执行参考图33描述的以水平面作为截面SF11的对称操作来实现上下对称操作。在这种情况下,当组合从上下对称操作前的模型参数获得的分布和从上下对称操作后的模型参数获得的分布时,获得当从声源观看时在上下方向上对称的一个分布。
此外,在对称信息“use_symmetry”的值是“4”的情况下,方向性数据计算器82对与在模型数据中描述的模型参数对应的分布执行正面的上下和左右对称操作,并获得新的分布。这里,上下左右对称操作是通过对要操作的分布执行上下对称操作和左右对称操作来获得上下方向和左右方向上的对称分布的操作。注意,在解码时(恢复时)定义方向性数据的整个球面上,执行包括左右对称操作和上下对称操作的对称操作的vMF分布和Kent分布是有效的。另外,可在待操作的分布或通过操作获得的分布中界定边界,且方向性增益可在边界处不连续。
<第四实施方式>
<频带之间的交叉衰落>
在上文中,描述了通过对用于每一个频带(即,用于每一个频带)的方向性数据建模来减少数据量的方法。
然而,存在方向性数据(即,方向性增益)根据频率而逐渐波动的情况,并且在这种情况下,建模数据的交叉衰落被认为是有效的。
图35示出了在执行交叉衰落的情况下的模型数据的语法的实施例。
在图35中所示的实施例中,除了在图25中所示的信息之外,进一步存储(包括)交叉衰减标记“fade_flag”和上限二进制位索引“bin_range_per_band_fadein[j]”。
具体地,在该实施例中,通过频带的数量“band_count”来存储每一个频带中的交叉衰减标记“fade_flag”。
交叉衰落标记“fade_flag”是指示在彼此相邻的频带之间是否执行交叉衰落(即,执行混合模型F’(x;Θ)对于每一个带,在计算混合模型F(x;Θ)用于每一个箱。
例如,在交叉衰落标记“fade_flag”的值是“1”的情况下,执行频带之间的交叉衰落,并且在值是“0”的情况下,不执行频带之间的交叉衰落。注意,频带之间的交叉衰落被用于第二或随后的频带中。
此外,在交叉衰落标记“fade_flag”的值是“1”的情况下,存储上限二进制位索引“bin_range_per_band_fadein[j]”。
上限二进制位索引“bin_range_per_band_fadein[j]”是指示执行频带间交叉衰落的上限二进制位(即,在执行频带间交叉衰落的频带中的二进制位之中具有最高频率的二进制位)的索引。
在带之间的交叉衰落中,方向性数据计算器82对为预定带获得的混合模型的输出值F’(x;θ)和输出值F’(x;θ)为与预定频带相邻的另一频带获得混合模型的θ)。
然后,方向性数据计算器82将通过加权加法获得的输出值乘以比例因子,并且将通过将最小值(偏移值)加到相乘结果获得的值设置为输出值F(x;Θ)在另一个频带的目标箱中的混合模型。
在这种情况下,交叉衰落的目标是从在另一频带中具有最低频率的二进制位到另一频带中的由上限二进制位索引“bin_range_per_band_fadein[j]”指示的上限二进制位的每一个二进制位,并且在另一二进制位中不执行交叉衰落。对于其中不执行交叉衰落的bin,输出值F(x;Θ)从输出值F’(x;Θ)区间所属的带中的混合模型、比例因子和最小值。
因此,在执行频带之间的交叉衰落的情况下,在方向性数据(方向性增益)的计算中,在应用缩放因子和最小值之前,添加为最终频带的混合模型的输出值设置恢复的相邻频带之间的混合模型的输出值的加权和(加权加法值)的处理。
图36图示频带之间的交叉衰落的概念图。
在图36中,纵轴表示在交叉衰落时使用的权重,横轴表示频率。此外,在此,示出了频带数目是三个的情况作为实施例。
在附图中,在左侧示出了在不执行频带之间的交叉衰落的情况下的加权加法时的权重。
直线L51至L53示出输出值F'(x的权重;Θ)从带“bin_range_per_band[0]”到带“bin_range_per_band[2]”的每一个带的混合模型的θ),权重用于计算输出值F(x;Θ)每一个区间的混合模型。
具体地,在该实施例中:直线L51至L53的频率方向上的范围彼此不重叠,并且输出值F'(x;Θ)用于每一个箱(频率)的每一个频带的混合模型是1。因此,可以看出频带之间的交叉衰落基本上不被执行。
另一方面,在图中的右侧示出了在执行频带之间的交叉衰落的情况下的加权加法时的权重。
虚线L61至L63示出了从带“bin_range_per_band[0]”至带“bin_range_per_band[2]”的用于每一个带的混合模型的输出值F’(x;θ)的权重,该权重用于计算每一个bin的混合模型的输出值F(x;θ)。
在该实例中,指示例如频带“bin_range_per_band[0]”的混合模型的输出值F’(x;θ)的权重的虚线L61的右端位于频带“bin_range_per_band[0]”的范围之外的频率位置处。
具体地,虚线L61的右侧上的端部的频率(bin)是在与频带“bin_range_per_band[0]”相邻的频带“bin_range_per_band[1]”中的bin,并且该bin是上限bin“bin_range_per_band_fadein[1]”。
因此,例如,对于频带“bin_range_per_band[1]”中的bin中的最低频率bin和上限bin“bin_range_per_band_fadein[1]”之间的每一个bin,可以看出输出值F(x;Θ)通过执行频带之间的交叉衰落获得用于每一个区间的混合模型。在这种情况下,在每一个二进制位内,计算权重,以便权重的总和用于计算输出值F(x;Θ)混合模型是1。
另一方面,对于频带“bin_range_per_band[1]”中的bin中的具有高于上限bin的频率的每一个bin,由虚线L62指示的权重的值是1,并且可以看出在bin中不执行频带之间的交叉衰落。
在执行频带之间的交叉衰落的情况下,可以通过下列表达式(10)获得用于预定二进制位“i_bin”的较低频带“i_band-1”的混合模型的输出值的权重weight model_weighti_band-1[i_bin]。
[数学式10]
此外,可通过下列表达式(11)获得用于预定区间“i_bin”的较高频带“i_band”的混合模型的输出值的权重model_weighti_band[i_bin]。
[数学式11]
model_weighti_band[i_bin]=1-model_weighti_band-1[i_bin]
…(11)
此外,区间“i_bin”的混合模型的输出值Fi_bin(x)可通过基于权重、区间“i_bin”的频带“i_band+j-1”的混合模型的输出值Fi_band+j-1(x)计算下式(12)来获得。
[数学式12]
应注意,表达式(12)中的scale_factor[i_bin]和offset[i_bin]指示bin“i_bin”的缩放因子和最小值(偏移值)。
方向性数据计算器82计算表达式(12)以计算每一个bin的混合模型的输出值,即,每一个数据点的每一个bin的方向性增益。由此,能够减少模型数据的数据量。
<第五实施方式>
<数据对称性的利用>
在第三实施方式中,描述了数据对称性的利用。
在通过利用这种对称性来减少发送数据量的情况下,除了上述的方向性数据的上下对称性和左右对称性之外,还可以利用前后方向的对称性,并且利用前后方向、上下方向和左右方向的对称性的组合。
在这种情况下,例如,如图37中所示,模型数据的语法。
图37中所示的模型数据包括指示区间数目的频点数目“bin_count”,并且区间中心处的频率“bin_freq[i]”由频点数目“bin_count”存储。
此外,模型数据还存储频带的数量“band_count”、以及对称信息“use_symmetry[j]”、混合的数量“mix_count[j]”、以及与方向性数据的对称性的使用有关的区间信息“bin_range_per_band[j]”通过频带的数量“band_count”(即,对于每一个频带)存储。
对称信息“use_symmetry[j]”类似于图30中示出的对称信息“use_symmetry”,但是在该实施例中,如稍后描述的,在不保留的情况下使用对称信息“use_symmetry[j]”的值“5”至“7”。
此外,混合的数量“mix_count[j]”和区间信息“bin_range_per_band[j]”类似于图31中示出的那些,并且是指示构成带的混合模型的分布的数量和建模之前的原始方向性数据的区间(bin)的信息。
在图30中所示的实施例中,对于每条操作相关信息等,存储混合的数量“mix_count[j]”和区间信息“bin_range_per_band[j]”。然而,由于混合的数量和二进制位信息相同,所以在图37的实施例中,混合的数量和二进制位信息存储在除了模型数据中的操作相关信息之外的部分中。
在图37的实施例中,每一个频带的对称信息“use_symmetry[j]”的值是“0”至“7”的任何值。
如在图30的实施例中,对称信息“use_symmetry[j]”的值“4”、“3”、“2”、“1”和“0”指示执行上下和左右对称操作、执行左右对称操作、执行上下对称操作、利用任何对称和旋转并且不执行任何对称和旋转操作。
对称信息“use_symmetry[j]”的值“7”、“6”和“5”指示执行上下和前后对称操作,执行前后和左右对称操作,并且执行前后对称操作。
在带的数量“band_count”大于0(j>0)的情况下,在模型数据中存储每一个带中的交叉衰减标记“fade_flag”。
交叉衰减标志“fade_flag”与参见图35所描述的相同。即,在交叉衰落标记“fade_flag”的值是“1”的情况下,执行频带之间的交叉衰落,并且在值是“0”的情况下,不执行频带之间的交叉衰落。
此外,在交叉衰减标记“fade_flag”的值是“1”的情况下,在模型数据中存储用于频带的上限二进制位索引“bin_range_per_band_fadein[j]”。
此外,在模型数据中存储开始二进制位“start_bin”。
建模之前的原始方向性数据可以基本上不包括在由频率“bin_freq[i]”指示的bin中具有较低频率的bin的数据。即,具有低频率的二进制位的方向性增益可以是0。
开始二进制位“start_bin”是表示在由频率“bin_freq[i]”表示的二进制位之中具有其中不是0的方向性增益被包括作为数据的最低频率的二进制位的信息。
此外,根据对称信息“use_symmetry[j]”的值,在模型数据中存储用于旋转操作或对称操作的操作相关信息。
在对称信息“use_symmetry[j]”的值是“7”的情况下,在模型数据中描述用于上下和前后对称操作的操作相关信息“FrontBackVerticalSymmetricDir()”。在对称信息“use_symmetry[j]”的值是“6”的情况下,在模型数据中描述用于前后和左右对称操作的操作相关信息“Front BackLeftRightSymmetricDir()”。
此外,在对称信息“use_symmetry[j]”的值是“5”的情况下,在模型数据中描述用于前后对称操作的操作相关信息“FrontBackSymmetricDir()”。
在对称信息“use_symmetry[j]”的值为“4”的情况下,在模型数据中描述操作相关信息“LeftRightVerticalLineSymmetricDir()”。在对称信息“use_symmetry[j]”的值是“3”的情况下,在模型数据中描述操作相关信息“LeftRightLineSymmetricDir()”。
此外,在对称信息“use_symmetry[j]”的值为“2”的情况下,在模型数据中描述操作相关信息“VerticalLineSymmetricDir()”。
在对称信息“use_symmetry[j]”的值是“1”的情况下,在模型数据中描述操作相关信息“SymmetricDir()”。在对称信息“use_symmetry[j]”的值是“0”的情况下,在模型数据中描述信息“NonSymmetricDir()”。
此外,在模型数据中描述了关于动态范围“DynamicRangeForDir()”的信息。
信息“DynamicRangeForDir()”存储其中中心频率等于或高于由起始区间“start_bin”指示的区间的中心频率的每一个区间的缩放因子“scale_factor[i]”和最小值“offset[i]”。
图38示出了用于获得图37中所示的模型数据中的方向性数据的信息“NonSymmetricDir()”的语法的实施例。
在图38中展示的实施例中,“κ[j][k]”、“重量[j][k]”、“γ_azi[j][k]”、以及“γ_elev[j][k]”作为模型参数,并且通过混合数“mix_count[k]”存储选择标记“dist_flag[j][k]”。
在此,“γ_azi[j][k]”和“γ_electro[j][k]”表示水平方向角度(方位角)和表示矢量γ1的方向的垂直方向角度(仰角)。
在图34的实施例中,向量γ1由“γ_x[j][k]”、“γ_y[j][k]”、以及“γ_z[j][k]”表示,但是在图38中,向量γ1由方位角和仰角表示。
此外,还根据选择标记“dist_flag[j][k]”的值存储作为模型参数的“β[j][k]”和“γ1_azi[j][k]”。
“γ1_azi[j][k]”是当从向量γ1观察时指示长轴向量γ2与短轴向量γ3的相对方向的水平方向上的角度(旋转角)。
即,在该实施例中,长轴矢量γ2和短轴矢量γ3可以从矢量γ1和角度“γ1_azi[j][k]”获得。
图39示出了操作相关信息“LeftRightLineSymmetricDir()”的语法的实施例。
在这个实施例中,如在图38中的“NonSymmetricDir()”的情况下,“kappa[j][k]”、“weight[j][k]”、“γ_azi[j][k]”、以及“γ_elev[j][k]”作为模型参数,并且通过混合数“mix_count[k]”存储选择标记“dist_flag[j][k]”,以及选择标记“dist_flag[j][k]”。
此外,还根据选择标记“dist_flag[j][k]”的值存储作为模型参数的“β[j][k]”和“γ1_azi[j][k]”。
此外,操作相关信息“LeftRightLineSymmetricDir()”存储诸如Kent分布或vMF分布的每一个分布(混合)的“sym_flag[k]”,构成混合模型,该混合模型通过混合的数量“mix_count[k]”表示在频带中的方向性增益的分布。
“sym_flag[k]”是指示是否对目标分布执行诸如对称或旋转的操作的标记信息。例如,标志信息“sym_flag[k]”的值“00”表示不执行诸如对称或旋转的操作,并且标志信息“sym_flag[k]”的值“01”表示执行对称操作。
因此,例如,在存储在操作相关信息“LeftRightLineSymmetricDir()”中的预定分布的标志信息“sym_flag[k]”的值是“01”的情况下,对该分布执行左右对称操作。
模型数据中的操作相关信息“FrontBackVerticalSymmetricDir()”、“FrontBackLeftRightSymmetricDir()”、“FrontBackSymmetricDir()”、“LeftRightVerticalLineSymmetricDir()”、“VerticalLineSymmetricDir()”和“SymmetricDir()”的数据格式(语法)类似于图39中的“LeftRightLineSymmetricDir()”。
在这种情况下,每条操作相关信息中的标记信息“sym_flag[k]”是指示是否执行与操作相关信息对应的操作的标记信息。
具体地,例如,在存储在操作相关信息“VerticalLineSymmetricDir()”中的预定分布(混合)的标志信息“sym_flag[k]”的值是“01”的情况下,对该分布执行上下对称操作。
此外,例如,除了在图39中示出的操作相关信息“LeftRightLineSymmetricDir()”中存储的信息之外,根据标志信息“sym_flag[k]”的值,旋转操作和对称操作所需的信息也被存储在操作相关信息“SymmetricDir()”中。
具体地,例如,在操作相关信息中适当地存储参考图31所描述的旋转轴方位角“sym_azi”、旋转轴仰角“sym_elev”、旋转角“sym_rotation”、偏航角“sym_yaw”、俯仰角“sym_pitch”、以及横摇角“sym_roll”。然后,根据标志信息“sym_flag[k]”的值,对构成混合模型的每一个分布执行旋转操作或对称操作。在这种情况下,可以通过标志信息“sym_flag[k]”的值指定要执行的操作的组合,例如,仅仅旋转操作、仅仅对称操作以及旋转操作和对称操作两者。
注意,操作相关信息“SymmetricDir()”的配置可以类似于图31中示出的实施例的配置,并且可以通过操作计数信息“sym_operation_count”和操作标志“sym_operation_flag”来定义旋转操作和对称操作的执行的存在或不存在。
此外,在操作相关信息“FrontBackVerticalSymmetricDir()”、“FrontBackLeftRightSymmetricDir()”或“FrontBackSymmetricDir()”存储在模型数据中的情况下,即,在对称信息“use_symmetric[j]”的值为“7”、“6”或“5”的情况下,方向性数据计算器82在对方向性数据进行解码时执行对称操作。
具体地,在对称信息“use_symmetry[j]”的值是“7”的情况下,方向性数据计算器82对其中标志信息“sym_flag[k]”的值是“01”的分布执行上下和前后对称操作,并获得新的分布。
然后,方向性数据计算器82根据新的分布等计算方向性数据(方向性增益)。此外,此后,还根据用于每一个频带的交叉衰落标记“fade_flag”的值适当地执行频带之间的交叉衰落。
这里,上下和前后对称操作是通过对将***作的分布执行上下对称操作和前后对称操作来获得上下和前后对称分布的操作。
在这种情况下执行的上下对称操作是其中从声源观看的前水平面(水平面)是图33中示出的截面SF11的对称操作。换言之,通过执行参考图33描述的以水平面作为截面SF11的对称操作来实现上下对称操作。
另外,前后对称操作是对称操作,其中通过在水平方向上将从声源观看到的前正中面(正中面)旋转90度获得的面是图33中所示的截面SF11。换言之,通过执行参考图33描述的对称操作来实现前后对称操作,其中通过在水平方向上将前正中面旋转90度获得的平面作为截面SF11。
在对称信息“use_symmetry[j]”的值是“6”的情况下,方向性数据计算器82对其中标志信息“sym_flag[k]”的值是“01”的分布执行前后和左右对称操作以获得新的分布,并且使用所获得的分布计算方向性数据。
前后左右对称操作是通过对要操作的分布执行前后对称操作和左右对称操作来获得在前后和左右方向上的对称分布的操作。在这种情况下执行的左右对称操作是对称操作,其中,从声源观看的前方正中面(正中面)是图33中示出的截面SF11。
此外,例如,在对称信息“use_symmetry[j]”的值是“5”的情况下,方向性数据计算器82对其中标志信息“sym_flag[k]”的值是“01”的分布执行前后对称操作以获得新分布,并且使用所获得的分布计算方向性数据。
注意,对其执行包括左右对称操作、上下对称操作和前后对称操作的对称操作的诸如vMF分布和Kent分布的分布在解码时(恢复时)定义方向性数据的整个球面上是有效的。另外,可在待操作的分布或通过操作获得的分布中界定边界,且方向性增益可在边界处不连续。
此外,在第五实施方式中,关于由对称信息“use_symmetry[j]”为每一个频带定义的对称或旋转的操作,由标志信息“sym_flag[k]”定义是否实际上为每一个分布(混合)执行对称或旋转的操作,例如,构成频带的混合模型的Kent分布。
然而,本发明不限于此,并且可以定义将对每一个分布(混合)执行的对称或旋转的操作,诸如构成频带混合模型的Kent分布。
在这种情况下,例如,对于每一个分布,可想到在模型数据的操作相关信息等中适当地存储1位对称信息“use_symmetry”和3位标记信息“sym_flag[k]”,并且定义对每一个分布执行的操作。
在该实施例中,例如,1位对称信息“use_symmetry”是指示是否执行诸如对称或旋转的操作的标记信息。
具体地,例如,在对称信息“use_symmetry”的值是“1”的情况下,执行诸如对称或旋转的操作,并且在对称信息“use_symmetry”的值是“0”的情况下,不执行诸如对称或旋转的操作。
此外,在对称信息“use_symmetry”的值是“0”的情况下,因为不对目标分布执行对称或旋转的操作,所以用于分布的标志信息“sym_flag[k]”不存储在操作相关信息等中。
另一方面,在对称信息“use_symmetry”的值是“1”的情况下,因为对目标分布执行对称或旋转的操作,所以用于分布的标志信息“sym_flag[k]”被存储在操作相关信息等中。
然后,方向性数据计算器82根据标志信息“sym_flag[k]”的值执行操作,并且获得新的分布。
此时,对于标记信息“sym_flag[k]”的值“0”、“1”、“2”、“3”、“4”、“5”、“6”和“7”,例如,可分配无操作、任何对称、旋转操作、上下对称操作、左右对称操作、上下左右对称操作、前后对称操作、前后左右对称操作以及上下前后对称操作。
<其他>
当计算诸如图12中的步骤S52和图20中的步骤S117的粗略方向性数据(方向性数据)时,方向性数据计算器82计算混合模型F'(x;θ)基于模型参数针对每一个带。
此时,方向性数据计算器82通过使用分布的权重φi(即,上述权重[j][k]和权重[i_band][i_mix]),对构成混合模型的多个分布(诸如,从模型参数获得的Kent分布、vMF分布和复合Bingham分布)执行加权加法,以获得混合模型F’(x;Θ)(方向性数据)。
每一个分布的权重φi的值被确定为使得构成混合模型的多个分布的权重φi的总和是1,但是每一个权重φi的值可以是正值或负值。
例如,通过将一些分布的权重φi设置为负值,可以不仅提供混合模型中的陡峭峰值而且提供倾斜,如在滤波器中的带通和带喷射滤波器之间的关系。
例如,在构成混合模型的诸如Kent分布或者vMF分布的一个分布的权重φi是正值的情况下,例如,当分布与权重φi相乘时,权重φi相乘之后的分布如图40中的箭头Q101所示。
注意,在图40中,横向方向表示诸如球面上限定的Kent分布等分布中的球面上的预定方向,并且垂直方向表示分布的每一个位置处的值,即,方向性增益。
在由箭头Q101表示的实施例中,可以看出,在乘以权重φi之后的分布中,在图中具有向上凸起的峰值。
另一方面,在构成混合模型的诸如Kent分布或者vMF分布的一个分布的权重φi是负值的情况下,例如,当分布与权重φi相乘时,与权重φi相乘之后的分布由箭头Q102表示。在这个实施例中,可以看出在乘以图中的权重φi之后在分布中存在向下的凸形倾斜。
因此,当在构成用于频带的混合模型的所有分布的权重φi的总和为1的条件下适当地确定包括负值的每一个分布的权重φi时,进一步增大自由度,并且可以表示具有更多各种形状的混合模型。
如上所述,即使在任何分布的权重φi设为负值的情况下,当所有分布的权重φi的总和设为1(1.0)时,不丧失一般性。
此外,在负值也可以被视为权重φi的值的情况下,例如,10位的权重的高位1位、权重[j][k],如在图25、图31、图34等中的权重φi被用作符号位。这同样适用于例如图5中的权重weight[i_band][i_mix]。
<计算机的配置实施例>
注意,上述一系列处理可以由硬件或软件执行。在由软件执行一系列处理的情况下,在计算机上安装构成软件的程序。这里,计算机的实施例包括结合在专用硬件中的计算机,并且例如,能够通过安装各种程序执行各种功能的通用个人计算机。
图41是示出了通处理序执行上述一系列处理的计算机的硬件的配置实施例的框图。
在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。
此外,输入/输出接口505连接至总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接至输入/输出接口505。
输入单元506包括键盘、鼠标、麦克风、成像元件等。输出单元507包括显示器、扬声器等。记录单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移除记录介质511。
在如上所述配置的计算机中,CPU 501经由输入/输出接口505和总线504将记录在记录单元508中的程序加载到RAM 503中,并且执行该程序,以便执行上述一系列处理。
例如,由计算机(CPU 501)执行的程序可以通过记录在作为封装介质的可移动记录介质511上来提供。此外,可经由有线或无线传输介质(诸如局域网、互联网或数字卫星广播)提供程序。
在计算机中,通过将可移除记录介质511安装到驱动器510,经由输入/输出接口505将程序安装在记录单元508中。此外,程序可经由通信单元509经由有线或无线传输介质接收以安装在记录单元508上。此外,程序可以提前安装在ROM 502或记录单元508中。
应注意,由计算机执行的程序可以是按照本说明书中描述的顺序按时间序列处理的程序,或者并行或在诸如当进行呼叫时的必要定时处理的程序。
此外,本技术的实施方式不限于上述实施方式,并且在不背离本技术的范围的情况下,各种修改是可能的。
例如,本技术可以被配置为云计算,其中,经由网络由多个设备共享一个功能以一起处理。
此外,上述流程图中描述的每一个步骤可以由一个设备执行或者由多个设备共享和执行。
此外,在一个步骤中包括多个处理步骤的情况下,包括在一个步骤中的多个处理可以由一个设备执行或者由多个设备共享和执行。
此外,本技术还可具有以下配置。
(1)
一种信息处理装置,包括:
获取单元,被配置为获取通过对表示声源的方向性的方向性数据进行建模而获得的模型数据,以及
计算器,被配置为基于模型数据来计算方向性数据。
(2)
根据项(1)的信息处理装置,其中
模型数据包括构成混合模型的模型参数,模型参数是通过利用包括一个或多个分布的混合模型来建模方向性数据而获得的。
(3)
根据项(2)的信息处理装置,其中
一个或多个分布包括vMF分布或Kent分布中的至少任一者。
(4)
根据项(2)或(3)的信息处理装置,其中
方向性数据包括针对多个频率区间中的每一个频率区间的方向性增益,并且
模型数据包括构成混合模型的模型参数,模型参数表示作为包括一个或多个频率区间的频带的每一个频带的方向性增益的分布。
(5)
根据项(4)的信息处理装置,其中
模型数据包括指示频率区间中的方向性增益的动态范围及频率区间中的方向性增益的最小值的缩放因子。
(6)
根据项(1)至(5)中任一项的信息处理装置,其中
模型数据包括差异信息,差异信息指示建模之前的方向性数据与建模之后的方向性数据之间的差异,以及
信息处理装置还包括加法单元,加法单元被配置为将差异信息加到由计算器计算的方向性数据。
(7)
根据项(6)的信息处理装置,其中
差异信息被霍夫曼编码。
(8)
根据项(1)至(7)中任一项的信息处理装置,其中
方向性数据包括针对多个频率区间中的每一个频率区间的方向性增益,并且
信息处理装置进一步包括内插处理单元,其经配置以通过基于由计算器计算的方向性数据执行内插处理来计算新频率区间的方向性增益。
(9)
根据项(1)至(8)中任一项的信息处理装置,其中
方向性数据包括多个数据点中的每一个数据点处的方向性增益,并且
信息处理装置还包括内插处理单元,内插处理单元被配置为通过基于由计算器计算的方向性数据执行内插处理来计算新数据点处的方向性增益。
(10)
根据项(1)至(9)中任一项的信息处理装置,还包括:
方向性卷积单元,被配置为将方向性数据和音频数据进行卷积。
(11)
根据第(10)项的信息处理装置,还包括:
HRTF卷积单元,被配置为将卷积方向性数据的音频数据与HRTF进行卷积。
(12)
根据项(2)的信息处理装置,其中
一个或多个分布包括复杂的Bingham分布或复杂的watson分布。
(13)
根据项(1)的信息处理装置,其中
模型数据包括通过球面谐波函数扩展对方向性数据进行建模而获得的球面谐波系数作为模型参数。
(14)
根据项(1)的信息处理装置,其中
模型数据包括通过彼此不同的一种或多种方法对方向性数据进行建模而获得的模型参数。
(15)
根据项(14)的信息处理装置,其中
方法包括使用包括一个或多个分布的混合模型建模的方法或通过球面谐波函数扩展建模的方法中的至少任一者。
(16)
根据项(14)或(15)的信息处理装置,其中
模型数据还包括差异信息,差异信息指示在由一个或多个方法建模之后的方向性数据与建模之前的方向性数据之间的差异。
(17)
根据项(16)的信息处理装置,其中
差异信息被霍夫曼编码。
(18)
根据项(17)的信息处理装置,其中
差异信息的实部和虚部中的每一个被单独地霍夫曼编码。
(19)
根据项(14)或(15)的信息处理装置,其中
模型数据包括差异码数据,差异码数据通过对差异信息的空间中的位置之间的差异或频率之间的差异中的至少一个进行霍夫曼编码来获得,差异信息指示通过一个或多个方法进行建模之后的方向性数据与建模之前的方向性数据之间的差异。
(20)
根据项(19)的信息处理装置,其中
模型数据包括通过对差异信息的差的实部和虚部中的每一个单独地进行霍夫曼编码而获得的差异码数据。
(21)
根据项(14)或(15)的信息处理装置,其中
模型数据包括:模型参数,其通过利用预定方法对方向性数据进行建模而获得;以及另一模型参数,其通过对在利用预定方法进行建模之后的方向性数据与在利用不同于预定方法的方法进行建模之前的方向性数据之间的差进行建模而获得。
(22)
根据项(14)或(15)的信息处理装置,其中
模型数据包括:模型参数,其通过利用预定方法对方向性数据进行建模而获得;以及另一模型参数,其通过对在利用预定方法进行建模之后的方向性数据与在利用不同于预定方法的方法进行建模之前的方向性数据之间的比率进行建模而获得。
(23)
根据项(14)或(15)的信息处理装置,其中
模型数据包括通过对方向性数据进行建模而获得的模型参数进行进一步建模而获得的模型参数。
(24)
根据项(14)至(23)中任一项的信息处理装置,其中
模型数据包括通过对于每一个频带不同的方法建模方向性数据而获得的模型参数。
(25)
根据项(1)至(24)中任一项的信息处理装置,其中
方向性数据包括多个数据点中的每一个数据点处的方向性增益,并且
模型数据包括指示布置数据点的方法的信息以及用于识别数据点的布置位置的信息。
(26)
根据项(25)的信息处理装置,其中
模型数据包括指示针对声源的每种类型的方向性数据的优先级的优先级信息。
(27)
根据项(26)的信息处理装置,其中
数据点的数量根据优先级而改变,并且
计算器使用优先级信息识别数据点的布置位置。
(28)
根据项(19)的信息处理装置,其中
方向性数据包括多个数据点中的每一个处的每一频率区间的方向性增益,以及
模型数据包括差异信息的数据点之间的差异或频率区间之间的差异中的至少一者的差异码数据,差异信息指示在由一个或多个方法建模之后的方向性数据的方向性增益与在差异信息的重新布置之后的建模之前的方向性数据的方向性增益之间的差异。
(29)
根据项(28)的信息处理装置,其中
重新布置是按照预定顺序、数据点或频率区间的优先级的顺序、差异信息的升序或差异信息的降序的重新布置。
(30)
根据项(4)的信息处理装置,其中
模型数据包括通过参数化指示每一频率区间中的方向性增益的动态范围的缩放因子或每一频率区间中的方向性增益的最小值中的至少任一者而获得的参数。
(31)
根据项(2)至(5)中任一项的信息处理装置,其中
模型数据包括针对旋转操作或对称操作的操作相关信息,并且
计算器通过基于操作相关信息对模型参数执行旋转操作或目标操作来计算旋转或对称移动的模型参数,并且使用由旋转或对称移动的模型参数获得的分布来计算方向性数据。
(32)
根据项(4)或(5)的信息处理装置,其中
计算器通过对预定频带的混合模型的输出值和与预定频带相邻的另一频带的混合模型的输出值执行加权加法来计算预定频率区间的方向性增益。
(33)
根据项(2)至(5)中任一项的信息处理装置,其中
计算器通过使用包括负值的权重对从模型参数获得的多个分布执行加权加法来计算方向性数据。
(34)
一种信息处理方法,包括:
通过信息处理装置
获取通过对表示声源的方向性的方向性数据进行建模而获得的模型数据,以及
基于模型数据计算方向性数据。
(35)
一种用于使计算机执行以下步骤的程序:
获取通过对表示声源的方向性的方向性数据进行建模而获得的模型数据,以及
基于模型数据计算方向性数据。
(36)
一种信息处理装置,包括:
建模单元,被配置为使用包括一个或多个分布的混合模型对表示声源的方向性的方向性数据进行建模;以及
模型数据生成单元,被配置为生成包括构成混合模型的模型参数的模型数据,模型参数是通过建模获得的。
(37)
一种信息处理方法,包括:
通过信息处理装置
使用包括一个或多个分布的混合模型对表示声源的方向性的方向性数据进行建模;以及
生成包括构成混合模型的模型参数的模型数据,模型参数是通过建模获得的。
(38)
一种用于使计算机执行以下步骤的程序:
使用包括一个或多个分布的混合模型对表示声源的方向性的方向性数据进行建模;以及
生成包括构成混合模型的模型参数的模型数据,模型参数是通过建模获得的。
(39)
一种信息处理装置,包括:
获取单元,获取单元被配置为获取差异方向性数据,差异方向性数据通过获得用于表示声源的方向性的方向性数据的方向性增益的频率区间之间的差异或数据点之间的差异中的至少任一者来获得,方向性数据包括多个频率区间中的每一个在多个数据点处的方向性增益,以及
计算器,被配置为基于差异方向性数据来计算方向性数据。
(40)
根据项(39)的信息处理装置,其中
差异方向性数据被霍夫曼编码,以及
计算器对经霍夫曼编码的差异方向性数据进行解码。
(41)
根据项(40)的信息处理装置,其中
差异方向性数据的实部和虚部中的每一个被单独地霍夫曼编码。
(42)
根据项(39)至(41)中任一项的信息处理装置,其中
差异方向性数据是通过在方向性增益被重新布置之后获得数据点之间的差或频率区间之间的差中的至少任一者获得的。
(43)
根据项(42)的信息处理装置,其中
重新布置是按照预定顺序、数据点或频率区间的优先级的顺序、方向性增益的升序或方向性增益的降序进行的重新布置。
(44)
一种信息处理方法,包括:
通过信息处理装置
获取差异方向性数据,差异方向性数据通过获得用于表示声源的方向性的方向性数据的方向性增益的数据点之间的差异或频率区间之间的差异中的至少任何一个来获得,方向性数据包括多个频率区间中的每一个在多个数据点处的方向性增益,以及
基于差异方向性数据来计算方向性数据。
(45)
一种用于使计算机执行以下步骤的程序:
获取差异方向性数据,差异方向性数据通过获得用于表示声源的方向性的方向性数据的方向性增益的数据点之间的差异或频率区间之间的差异中的至少任何一个来获得,方向性数据包括多个频率区间中的每一个在多个数据点处的方向性增益,以及
基于差异方向性数据来计算方向性数据。
参考符号列表
11 服务器
21 建模单元
22 模型数据生成单元
23 音频数据编码单元
51 信息处理装置
61 获取单元
62 分布模型解码单元
63 音频数据解码单元
64 渲染处理单元
82 方向性数据计算器
83 差异信息解码单元
84 加法单元
85 频率内插处理单元
88 时间内插处理单元
89 方向性卷积单元
90 HRTF卷积单元

Claims (45)

1.一种信息处理装置,包括:
获取单元,被配置为获取通过对表示声源的方向性的方向性数据进行建模而获得的模型数据;以及
计算器,被配置为基于所述模型数据来计算所述方向性数据。
2.根据权利要求1所述的信息处理装置,其中,
所述模型数据包括构成混合模型的模型参数,所述模型参数是通过利用包括一个或多个分布的所述混合模型来对所述方向性数据进行建模而获得的。
3.根据权利要求2所述的信息处理装置,其中,
一个或多个所述分布包括vMF分布或Kent分布中的至少任一者。
4.根据权利要求2所述的信息处理装置,其中,
所述方向性数据包括针对多个频率区间中的每一个的方向性增益,并且
所述模型数据包括构成所述混合模型的所述模型参数,所述模型参数表示作为包括一个或多个所述频率区间的频带的每一个频带的所述方向性增益的分布。
5.根据权利要求4所述的信息处理装置,其中,
所述模型数据包括指示所述频率区间中的所述方向性增益的动态范围及所述频率区间中的所述方向性增益的最小值的缩放因子。
6.根据权利要求1所述的信息处理装置,其中,
所述模型数据包括差异信息,所述差异信息指示在建模之前的方向性数据与在建模之后的方向性数据之间的差异,以及
所述信息处理装置还包括加法单元,所述加法单元被配置为将所述差异信息添加到由所述计算器计算的所述方向性数据。
7.根据权利要求6所述的信息处理装置,其中,
所述差异信息被霍夫曼编码。
8.根据权利要求1所述的信息处理装置,其中,
所述方向性数据包括针对多个频率区间中的每一个的方向性增益,并且
所述信息处理装置还包括内插处理单元,所述内插处理单元被配置为通过基于由所述计算器计算的所述方向性数据执行内插处理来计算新频率区间的方向性增益。
9.根据权利要求1所述的信息处理装置,其中,
所述方向性数据包括多个数据点中的每一个处的方向性增益,并且
所述信息处理装置还包括内插处理单元,所述内插处理单元被配置为通过基于由所述计算器计算的所述方向性数据执行内插处理来计算新数据点处的所述方向性增益。
10.根据权利要求1所述的信息处理装置,还包括:
方向性卷积单元,被配置为将所述方向性数据和音频数据进行卷积。
11.根据权利要求10所述的信息处理装置,还包括:
HRTF卷积单元,被配置为将卷积所述方向性数据的所述音频数据与HRTF进行卷积。
12.根据权利要求2所述的信息处理装置,其中,
一个或多个所述分布包括复杂的Bingham分布或复杂的watson分布。
13.根据权利要求1所述的信息处理装置,其中,
所述模型数据包括通过球面谐波函数扩展对所述方向性数据进行建模而获得的球面谐波系数作为模型参数。
14.根据权利要求1所述的信息处理装置,其中,
所述模型数据包括通过彼此不同的一种或多种方法对所述方向性数据进行建模而获得的模型参数。
15.根据权利要求14所述的信息处理装置,其中,
所述方法包括利用包括一个或多个分布的混合模型进行建模的方法或通过球面谐波函数扩展进行建模的方法中的至少任一者。
16.根据权利要求14所述的信息处理装置,其中,
所述模型数据还包括差异信息,所述差异信息指示在由一个或多个方法建模之后的方向性数据与在建模之前的方向性数据之间的差异。
17.根据权利要求16所述的信息处理装置,其中,
所述差异信息被霍夫曼编码。
18.根据权利要求17所述的信息处理装置,其中,
所述差异信息的实部和虚部中的每一个被单独地霍夫曼编码。
19.根据权利要求14所述的信息处理装置,其中,
所述模型数据包括差异码数据,所述差异码数据通过对差异信息的空间中的位置之间的差异或频率之间的差异中的至少任一者进行霍夫曼编码来获得,所述差异信息指示在通过一个或多个方法进行建模之后的方向性数据与在建模之前的方向性数据之间的差异。
20.根据权利要求19所述的信息处理装置,其中,
所述模型数据包括通过对所述差异信息的差异的实部和虚部中的每一个单独地进行霍夫曼编码而获得的所述差异码数据。
21.根据权利要求14所述的信息处理装置,其中,
所述模型数据包括:模型参数,通过利用预定方法对所述方向性数据进行建模而获得;以及另一模型参数,通过对在利用所述预定方法进行建模之后的方向性数据与在利用不同于所述预定方法的方法进行建模之前的方向性数据之间的差异进行建模而获得。
22.根据权利要求14所述的信息处理装置,其中,
所述模型数据包括:模型参数,通过利用预定方法对所述方向性数据进行建模而获得;以及另一模型参数,通过对在利用所述预定方法进行建模之后的方向性数据与在利用不同于所述预定方法的方法进行建模之前的方向性数据之间的比率进行建模而获得。
23.根据权利要求14所述的信息处理装置,其中,
所述模型数据包括通过对所述方向性数据进行建模而获得的所述模型参数进行进一步建模而获得的模型参数。
24.根据权利要求14所述的信息处理装置,其中,
所述模型数据包括通过由针对每一个频带不同的方法对所述方向性数据进行建模而获得的所述模型参数。
25.根据权利要求1所述的信息处理装置,其中,
所述方向性数据包括多个数据点中的每一个处的方向性增益,并且
所述模型数据包括指示设置所述数据点的方法的信息以及用于识别所述数据点的布置位置的信息。
26.根据权利要求25所述的信息处理装置,其中,
所述模型数据包括指示针对所述声源的每种类型的所述方向性数据的优先级的优先级信息。
27.根据权利要求26所述的信息处理装置,其中,
所述数据点的数量根据优先级而改变,并且
所述计算器使用所述优先级信息识别所述数据点的布置位置。
28.根据权利要求19所述的信息处理装置,其中,
所述方向性数据包括多个数据点中的每一个处的每一个频率区间的方向性增益,以及
所述模型数据包括所述差异信息的所述数据点之间的差异或所述频率区间之间的差异中的至少任一者的所述差异码数据,所述差异信息指示在由一个或多个方法建模之后的所述方向性数据的方向性增益与在所述差异信息的重新布置之后的建模之前的所述方向性数据的方向性增益之间的差异。
29.根据权利要求28所述的信息处理装置,其中,
所述重新布置是以预定顺序、所述数据点或所述频率区间的优先级的顺序、所述差异信息的升序或所述差异信息的降序的重新布置。
30.根据权利要求4所述的信息处理装置,其中,
所述模型数据包括通过参数化指示每一所述频率区间中的所述方向性增益的动态范围的缩放因子或每一所述频率区间中的所述方向性增益的最小值中的至少任一者而获得的参数。
31.根据权利要求2所述的信息处理装置,其中,
所述模型数据包括针对旋转操作或对称操作的操作相关信息,并且
所述计算器通过基于所述操作相关信息对所述模型参数执行所述旋转操作或目标操作来计算旋转或对称移动的所述模型参数,并且使用由旋转或对称移动的模型参数获得的分布来计算所述方向性数据。
32.根据权利要求4所述的信息处理装置,其中,
所述计算器通过对预定频带的混合模型的输出值和与所述预定频带相邻的另一频带的混合模型的输出值执行加权加法来计算预定频率区间的所述方向性增益。
33.根据权利要求2所述的信息处理装置,其中,
所述计算器通过使用包括负值的权重对从所述模型参数获得的多个所述分布执行加权加法来计算所述方向性数据。
34.一种信息处理方法,包括:
通过信息处理装置
获取通过对表示声源的方向性的方向性数据进行建模而获得的模型数据;以及
基于所述模型数据计算所述方向性数据。
35.一种程序,用于使计算机执行以下步骤:
获取通过对表示声源的方向性的方向性数据进行建模而获得的模型数据;以及
基于所述模型数据计算所述方向性数据。
36.一种信息处理装置,包括:
建模单元,被配置为利用包括一个或多个分布的混合模型对表示声源的方向性的方向性数据进行建模;以及
模型数据生成单元,被配置为生成包括构成所述混合模型的模型参数的模型数据,所述模型参数是通过建模获得的。
37.一种信息处理方法,包括:
通过信息处理装置
利用包括一个或多个分布的混合模型对表示声源的方向性的方向性数据进行建模;以及
生成包括构成混合模型的模型参数的模型数据,所述模型参数是通过建模获得的。
38.一种程序,用于使计算机执行以下步骤:
利用包括一个或多个分布的混合模型对表示声源的方向性的方向性数据进行建模;以及
生成包括构成混合模型的模型参数的模型数据,所述模型参数是通过建模获得的。
39.一种信息处理装置,包括:
获取单元,被配置为获取差异方向性数据,所述差异方向性数据通过获得用于表示声源的方向性的方向性数据的方向性增益的数据点之间的差异或频率区间之间的差异中的至少任一者来获得,所述方向性数据包括多个所述频率区间中的每一个在多个所述数据点处的所述方向性增益;以及
计算器,被配置为基于所述差异方向性数据来计算所述方向性数据。
40.根据权利要求39所述的信息处理装置,其中,
所述差异方向性数据被霍夫曼编码,以及
所述计算器对被霍夫曼编码的所述差异方向性数据进行解码。
41.根据权利要求40所述的信息处理装置,其中,
所述差异方向性数据的实部和虚部中的每一个被单独地霍夫曼编码。
42.根据权利要求39所述的信息处理装置,其中,
所述差异方向性数据是通过在所述方向性增益被重新布置之后获得所述数据点之间的差异或所述频率区间之间的差异中的至少任一者获得的。
43.根据权利要求42所述的信息处理装置,其中,
所述重新布置是以预定顺序、所述数据点或所述频率区间的优先级的顺序、所述方向性增益的升序或所述方向性增益的降序的重新布置。
44.一种信息处理方法,包括:
通过信息处理装置
获取差异方向性数据,所述差异方向性数据通过获得用于表示声源的方向性的方向性数据的方向性增益的数据点之间的差异或频率区间之间的差异中的至少任一者来获得,所述方向性数据包括多个所述频率区间中的每一个在多个所述数据点处的所述方向性增益;以及
基于所述差异方向性数据来计算所述方向性数据。
45.一种程序,用于使计算机执行以下步骤:
获取差异方向性数据,所述差异方向性数据通过获得用于表示声源的方向性的方向性数据的方向性增益的数据点之间的差异或频率区间之间的差异中的至少任一者来获得,所述方向性数据包括多个所述频率区间中的每一个在多个所述数据点处的所述方向性增益;以及
基于所述差异方向性数据来计算所述方向性数据。
CN202280071069.6A 2021-10-29 2022-10-27 信息处理装置、方法和程序 Pending CN118140492A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2021-177285 2021-10-29
JP2021177285 2021-10-29
JPPCT/JP2022/000355 2022-01-07
PCT/JP2022/024014 WO2023074039A1 (ja) 2021-10-29 2022-06-15 情報処理装置および方法、並びにプログラム
JPPCT/JP2022/024014 2022-06-15
PCT/JP2022/040170 WO2023074800A1 (ja) 2021-10-29 2022-10-27 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
CN118140492A true CN118140492A (zh) 2024-06-04

Family

ID=86159690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280071069.6A Pending CN118140492A (zh) 2021-10-29 2022-10-27 信息处理装置、方法和程序

Country Status (2)

Country Link
CN (1) CN118140492A (zh)
WO (1) WO2023074009A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4572755B2 (ja) * 2005-06-27 2010-11-04 ソニー株式会社 復号化装置,復号化方法及びデジタル音声通信システム
JP4888048B2 (ja) * 2006-10-26 2012-02-29 日本電気株式会社 オーディオ信号の符号化復号化方法、この方法を実施するための装置及びプログラム
KR20220023348A (ko) * 2019-06-21 2022-03-02 소니그룹주식회사 신호 처리 장치 및 방법, 그리고 프로그램

Also Published As

Publication number Publication date
WO2023074009A1 (ja) 2023-05-04

Similar Documents

Publication Publication Date Title
JP7400910B2 (ja) 音声処理装置および方法、並びにプログラム
US20220240038A1 (en) Spatial Sound Rendering
CN105340009A (zh) 声场的经分解表示的压缩
WO2014192602A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
US20200273467A1 (en) Determination of spatial audio parameter encoding and associated decoding
CN118140492A (zh) 信息处理装置、方法和程序
WO2019185979A1 (en) Spatial sound rendering
WO2023074800A1 (ja) 情報処理装置および方法、並びにプログラム
KR20240104089A (ko) 정보 처리 장치 및 방법, 그리고 프로그램
US20230410823A1 (en) Spatial audio parameter encoding and associated decoding
CA3237983A1 (en) Spatial audio parameter decoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication