CN107637097A - 编码装置和方法、解码装置和方法以及程序 - Google Patents

编码装置和方法、解码装置和方法以及程序 Download PDF

Info

Publication number
CN107637097A
CN107637097A CN201680034330.XA CN201680034330A CN107637097A CN 107637097 A CN107637097 A CN 107637097A CN 201680034330 A CN201680034330 A CN 201680034330A CN 107637097 A CN107637097 A CN 107637097A
Authority
CN
China
Prior art keywords
metadata
frame
sample
audio signal
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680034330.XA
Other languages
English (en)
Other versions
CN107637097B (zh
Inventor
山本优树
知念彻
辻实
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to CN202110632109.7A priority Critical patent/CN113470665A/zh
Publication of CN107637097A publication Critical patent/CN107637097A/zh
Application granted granted Critical
Publication of CN107637097B publication Critical patent/CN107637097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本技术涉及使得能够获得较高质量的声音的编码装置和方法、解码装置和方法以及程序。音频信号解码单元对编码音频数据进行解码以获得每个对象的音频信号。元数据解码单元对编码元数据进行解码以获得每个对象的音频信号的每一帧的多个元数据。增益计算单元基于元数据逐个扬声器地计算每个对象的音频信号的VBAP增益。音频信号生成单元逐个扬声器地将每个对象的音频信号乘以VBAP增益,并且将乘法结果相加从而生成要提供给每个扬声器的音频信号。该技术适用于解码装置。

Description

编码装置和方法、解码装置和方法以及程序
技术领域
本技术涉及编码装置、编码方法、解码装置、解码方法和程序。更具体地,本技术涉及用于获取较高质量的声音的编码装置、编码方法、解码装置、解码方法和程序。
背景技术
在过去,已知用于对音频对象的音频信号以及与该音频对象有关的诸如位置信息的元数据进行压缩(编码)的运动图像专家组高质量(MPEG-H)、三维(3D)音频标准(例如参见NPL 1)。
根据上述技术,音频对象的音频信号及其元数据被每帧地编码并且发送。在这种情况下,对音频对象的音频信号的每个帧最多编码并且发送一个元数据。亦即,一些帧可能不具有元数据。
此外,经编码的音频信号和元数据被解码装置解码。然后,基于通过解码而获得的音频信号和元数据来进行渲染。
亦即,解码装置首先对音频信号和元数据进行解码。当被解码时,音频信号变成每个帧中的每样本的脉冲编码调制(PCM)采样数据。亦即,获得PCM数据作为音频信号。
另一方面,被解码时的元数据变成与帧中的代表性样本有关的元数据。具体地,此处获得的是与帧中的最后一个样本有关的元数据。
利用如此获得的音频信号和元数据,解码装置中的渲染器基于由与每个帧中的代表性样本有关的元数据构成的位置信息,通过VBAP来计算基于矢量的幅度平移(VBAP)增益,使得音频对象的声像定位在由位置信息指定的位置处。针对在再现侧所配置的每个扬声器来计算VBAP增益。
然而,应当注意,与音频对象有关的元数据是与每个帧中的代表性样本有关的元数据,即如上所述的与帧中的最后一个样本有关的元数据。这意味着由渲染器计算的VBAP增益是帧中的最后一个样本的增益。未获得帧中的任何其他样本的VBAP增益。因此,为了再现音频对象的声音,还需要计算除了音频信号的代表性样本之外的样本的VBAP增益。
因此,渲染器通过插值处理来计算每个样本的VBAP增益。具体地,对于每个扬声器,进行线性插值,以使用当前帧中的最后一个样本和紧前一帧中的最后一个样本来计算这两个“最后一个样本”之间的、当前帧中的样本的VBAP增益。
以这种方式,针对每个扬声器获得要与音频对象的音频信号相乘的每个样本的VBAP增益。这允许再现音频对象的声音。
亦即,解码装置在将音频对象的音频信号提供给扬声器用于声音再现之前,将音频信号乘以针对每个扬声器计算的VBAP增益。
引用列表
非专利文献
[NPL 1]
ISO/IEC JTC1/SC29/WG11N14747,2014年8月,日本,札幌,“Text of ISO/IEC23008-3/DIS,3D Audio”
发明内容
技术问题
然而,上述技术难以获取足够高质量的声音。
例如,VBAP涉及归一化,使得针对每个所配置的扬声器计算的VBAP增益的平方和变为1。这样的归一化允许声像定位在以再现空间中的预定参考点为中心、半径为1的球体的表面上,其中,预定参考点例如为观看或收听诸如具有声音的视频或音乐的内容的虚拟用户的头部位置。
然而,因为通过插值处理来计算帧中的代表性样本的VBAP增益以外的样本的VBAP增益,所以针对每个扬声器的这些样本的VBAP增益的平方和不会变成1。考虑到其VBAP增益通过插值处理来计算的样本,当声音再现时在虚拟用户看来,声像的位置可以在上述球体表面上沿法线方向、垂直方向或水平方向偏移。因此,在声音再现期间,音频对象的声像位置可能在单个帧周期中不稳定。这可能会使定位感变差并且导致声音的质量下降。
特别地,构成每个帧的样本数目越多,当前帧中的最后一个样本位置与紧前一帧中的最后一个样本位置之间的时间区间就可能变得越长。这可能导致通过插值处理计算的针对所配置的扬声器的VBAP增益的平方和与值1之间的较大差,从而引起声音的质量劣化。
此外,当通过插值处理计算除了代表性样本的VBAP增益以外的样本的VBAP增益时,随着音频对象的速度越高,当前帧中的最后一个样本的VBAP增益与紧前一帧中的最后一个样本的VBAP增益之间的差可能变得越大。如果发生这种情况,则更难以准确地渲染音频对象的移动,从而引起声音的质量下降。
此外,在诸如体育或电影的实际内容中,场景可能会不连续地切换。在以这种方式切换场景的部分中,音频对象不连续地移动。然而,如果通过如上所述的插值处理来计算VBAP增益,则音频对象看似在下述时间区间中相对于声音连续地移动:该时间区间处于通过插值处理计算其VBAP增益的样本之间,即,当前帧中的最后一个样本与紧前一帧中的最后一个样本之间。这使得不可能通过渲染表示音频对象的不连续移动,这可能会使声音的质量变差。
鉴于上述情况而设计了本技术。因此,本技术的目的是获取更高质量的声音。
问题的解决方案
根据本技术的第一方面,提供了一种解码装置,该解码装置包括:获取部,其被配置成获取通过对音频对象的预定时间间隔的帧中的音频信号进行编码而获得的编码音频数据以及该帧的多个元数据;解码部,其被配置成对编码音频数据进行解码;以及渲染部,其被配置成基于多个元数据和通过解码而获得的音频信号来进行渲染。
元数据可以包括指示音频对象的位置的位置信息。
多个元数据中的每个元数据可以是音频信号的该帧中的多个样本的各自的元数据。
多个元数据中的每个元数据可以是以将构成该帧的样本的数目除以多个元数据的数目而得到的样本数目的间隔排列的多个样本的各自的元数据。
多个元数据中的每个元数据可以是由多个样本索引中的每个样本索引所指示的多个样本的各自的元数据。
多个元数据中的每个元数据可以是该帧中以预定样本数目的间隔排列的多个样本的各自的元数据。
多个元数据可以包括用于对音频信号中的样本的增益进行插值处理的元数据,所述增益是基于元数据而计算的。
此外,根据本技术的第一方面,提供了一种解码方法或程序,其包括以下步骤:获取通过对音频对象的预定时间间隔的帧中的音频信号进行编码而获得的编码音频数据以及该帧的多个元数据;对编码音频数据进行解码;以及基于多个元数据和通过解码而获得的音频信号来进行渲染。
因此,根据本技术的第一方面,获取通过对预定时间间隔的帧中的、音频对象的音频信号进行编码而获得的编码音频数据以及该帧的多个元数据,对编码音频数据进行解码,并且基于通过解码而获得的音频信号和多个元数据来进行渲染。
根据本技术的第二方面,提供了一种编码装置,该编码装置包括:编码部,其被配置成对音频对象的预定时间间隔的帧中的音频信号进行编码;以及生成部,其被配置成生成包括通过编码而获得的编码音频数据以及该帧的多个元数据的比特流。
元数据可以包括指示音频对象的位置的位置信息。
多个元数据中的每个元数据可以是音频信号的该帧中的多个样本的各自的元数据。
多个元数据中的每个元数据可以是以将构成该帧的样本的数目除以多个元数据的数目而得到的样本数目的间隔排列的多个样本的各自的元数据。
多个元数据中的每个元数据可以是由多个样本索引中的每个样本索引所指示的多个样本的各自的元数据。
多个元数据中的每个元数据可以是该帧中以预定样本数目的间隔排列的多个样本的各自的元数据。
多个元数据可以包括用于对音频信号中的样本的增益进行插值处理的元数据,所述增益是基于元数据计算的。
编码装置还可以包括插值处理部,该插值处理部被配置成对元数据进行插值处理。
此外,根据本技术的第二方面,提供了一种编码方法或程序,其包括以下步骤:对音频对象的预定时间间隔的帧中的音频信号进行编码;以及生成包括通过编码而获得的编码音频数据以及该帧的多个元数据的比特流。
因此,根据本技术的第二方面,对预定时间间隔的帧中的、音频对象的音频信号进行编码,并且生成包括通过编码而获得的编码音频数据以及该帧的多个元数据的比特流。
本发明的有益效果
根据本技术的第一方面和第二方面,获得了更高质量的声音。
上面概述的有益效果不是对本公开内容的限制。从下面的描述中,本公开内容的其他优点将会是明显的。
附图说明
图1是说明比特流的示意图。
图2是描绘编码装置的典型配置的示意图。
图3是说明编码处理的流程图。
图4是描绘解码装置的典型配置的示意图。
图5是说明解码处理的流程图。
图6是描绘计算机的典型配置的框图。
具体实施方式
下面参照附图来描述本技术的一些优选实施方式。
<第一实施方式>
<本技术的概述>
本技术的目的是在音频对象的音频信号以及与音频对象有关的元数据例如位置信息在被发送之前被编码的情况下,获取更高质量的声音,其中,在解码侧,经编码的音频信号和元数据被解码并且被可听地再现。在下面的描述中,音频对象可以被简单地称为对象。
本技术涉及在发送编码元数据之前,对每帧的音频信号的多个元数据进行编码,即,针对每个帧中的音频信号编码至少两个元数据。
此外,该上下文中的元数据指的是音频信号的每个帧中的样本的元数据,即被给予至样本的元数据。例如,由作为元数据的位置信息指定的音频对象在空间中的位置表明从被给予了元数据的那些样本再现声音的定时位置。
元数据可以通过以下三种方法中的一种进行发送:数目指定方法、样本指定方法和自动切换方法。在元数据发送时,可以使用针对每个对象或针对预定时间间隔的每个帧而相继切换的这三种方法来发送元数据。
(数目指定方法)
首先,下面说明数目指定方法。
数目指定方法包括在发送指定数目的元数据之前,将指示每帧发送的元数据的数目的元数据数目信息包括到比特流语法中。指示构成一个帧的样本的数目的信息被保存在比特流的报头中。
此外,可以例如根据每个帧的等分部分的位置来针对每个帧预先确定与要发送的每个元数据相关的特定样本。
例如,假设2048个样本构成一个帧,并且每帧发送四个元数据。在这种情况下,假设构成一个帧的区间按照要被发送的元数据的数目被等分,使得关于位于该区间的这些分割之间的每个边界上的样本来发送元数据。亦即,针对位于通过将一个帧中的样本的数目除以所涉及的元数据的数目而获得的样本数目的间隔的那些样本发送元数据。
在上述情况下,针对从帧的开始起的第512个样本、第1024个样本、第1536个样本和第2048个样本来发送元数据。
替代地,在附图标记S表示构成一个帧的样本的数目并且A表示每帧要发送的元数据的数目的情况下,可以针对处于由S/2(A-1)所限定的位置处的样本发送元数据。亦即,可以针对帧中位于S/2(A-1)的间隔的那些样本中的全部样本或一部分样本来发送元数据。在这种情况下,例如,如果元数据数目A是1,则针对帧中的最后一个样本发送元数据。
作为另一种替代,可以针对位于预定间隔(即位于预定样本数目的间隔)的那些样本来发送元数据。
(样本指定方法)
接下来,下面描述样本指定方法。
样本指定方法包括:除了通过上述数目指定方法发送的元数据数目信息之外,在发送比特流之前还将指示每个元数据的样本位置的样本索引包括在比特流中。
例如,假设2048个样本构成一个帧,并且每帧发送四个元数据。还假设针对从帧的开始起的第128个样本、第512个样本、第1536个样本和第2048个样本发送元数据。
在这种情况下,比特流保存指示“4”作为每帧发送的元数据的数目的元数据数目信息以及指示从帧的开始起的第128个样本、第512个样本、第1536个样本和第2048个样本的位置的样本索引。例如,样本索引值128指示从帧的开始起的第128个样本的位置。
样本指定方法允许发送与每个不同的帧中的随机选择的样本有关的元数据。这使得例如可以发送在场景切换位置前后的那些样本的元数据。在这种情况下,可以通过渲染来表示对象的不连续移动,这提供了高质量的声音。
(自动切换方法)
接下来说明自动切换方法。
自动切换方法包括:取决于构成一个帧的样本的数目、即取决于每帧的样本数目而自动地切换每帧要发送的元数据的数目。
例如,如果1024个样本构成一个帧,则针对该帧内位于256个样本的间隔的各个样本发送元数据。在该示例中,针对从该帧的开始起的第256个样本、第512个样本、第768个样本和第1024个样本发送总共四个元数据。
作为另一示例,如果2048个样本构成一个帧,则针对该帧中位于256个样本的间隔的各个样本来发送元数据。在该示例中,发送总共八个元数据。
如上所述,如果使用数目指定方法、样本指定方法或自动切换方法每帧发送至少两个元数据,则可以发送更多的元数据,特别是当大量样本构成一个帧时更是如此。
上面的方法缩短了将通过线性插值计算其VBAP增益的样本连续排列的区间。这提供了更高质量的声音。
例如,将通过线性插值计算其VBAP增益的样本连续排列的区间越短,则对于所配置的每个扬声器,VBAP增益的平方和与值1之间的差将越小。这改善了对象的声像的定位感。
在被提供有元数据的样本之间的距离因此缩短的情况下,这些样本的VBAP增益之间的差也减小。这允许更准确地渲染对象移动。此外,在被提供有元数据的样本之间的距离缩短的情况下,当对象实际上不连续地移动时,可以缩短对象看似关于声音连续移动的时段。特别地,样本指定方法允许通过发送与位于适当位置的样本有关的元数据来表示对象的不连续移动。
可以使用上述数目指定方法、样本指定方法和自动切换方法中的一种方法来发送元数据。替代地,可以每帧或每个对象来相继切换这三种方法中的至少两种。
例如,假设针对每个帧或每个对象而相继切换数目指定方法、样本指定方法和自动切换方法这三种方法。在这种情况下,比特流可以被布置成保存指示发送元数据的方法的切换索引。
在这种情况下,例如,如果切换索引的值为0,则这意味着选择了数目指定方法,即,通过数目指定方法来发送元数据。如果切换索引的值为1,则这意味着选择了样本指定方法。如果切换索引的值为2,则这意味着选择了自动切换方法。在随后的段落中,假设针对每个帧或每个对象而相继切换数目指定方法、样本指定方法和自动切换方法。
根据由上述MPEG-H 3D音频标准限定的发送音频信号和元数据的方法,仅发送与每个帧中的最后一个样本有关的元数据。因此,如果要通过插值处理来计算样本的VBAP增益,则需要当前帧的紧前一帧中的最后一个样本的VBAP增益。
因此,如果再现侧(解码侧)试图随机访问期望帧的音频信号以从该期望帧开始再现,则因为没有计算随机访问的帧之前的帧的VBAP增益,所以不能进行对VBAP增益的插值处理。为此,在MPEG-H 3D音频标准下无法实现随机访问。
相较之下,本技术允许将插值处理所需的元数据和与每个帧有关的或与随机间隔的各帧有关的元数据一起发送。这使得可以计算当前帧之前的帧中的样本的VBAP增益或当前帧中的第一个样本的VBAP增益,这使得能够进行随机访问。在随后的描述中,可以将与普通元数据一起发送并且在插值处理中使用的元数据特别地称为附加元数据。
例如,和与当前帧有关的元数据一起发送的附加元数据可以是与当前帧的紧前一帧中的最后一个样本有关的元数据,或与当前帧中的第一个样本有关的元数据。
此外,为了容易地确定对于每个帧是否存在附加元数据,比特流被布置成包括每帧的指示与每个对象有关的附加元数据存在或不存在的附加元数据标志。例如,如果给定帧的附加元数据标志的值为1,则这意味着存在与该帧有关的附加元数据。如果附加元数据标志的值为0,则这意味着不存在与该帧有关的附加元数据。
基本上,附加元数据标志针对同一帧中的所有对象具有相同的值。
如上所述,与按需要发送的附加元数据一起,以每帧来发送附加元数据标志。这允许随机访问具有附加元数据的帧。
如果对于被指定为随机访问的目的地的帧不存在附加元数据,则可以选择在时间上最接近所指定的帧的那个帧作为随机访问的目的地。因此,如果以适当的帧的间隔发送附加元数据,则可以在不会让用户体验到不自然的感觉的情况下实现随机访问。
尽管上面说明了附加元数据,但是可以在不使用附加元数据的情况下对被指定为随机访问的目的地的帧的VBAP增益进行插值处理。在这种情况下,可以在使由使用附加元数据所引起的比特流中的数据量(比特率)的增加最小化的情况下完成随机访问。
具体地,在被指定为随机访问的目的地的帧中,在一方面针对当前帧之前的帧假定为0的VBAP增益的值与另一方面针对当前帧计算的VBAP增益的值之间进行插值处理。替代地,插值处理不限于上面描述的内容,并且可以以下述方式进行:使得当前帧中的每个样本的VBAP增益的值变得与针对当前帧计算的VBAP增益的值相同。同时,未被指定为随机访问目的地的帧经历使用当前帧之前的帧的VBAP增益进行的普通插值处理。
如上所述,可以取决于关注的帧是否被指定为随机访问的目的地来切换对VBAP增益进行的插值处理。这使得可以在不使用附加元数据的情况下进行随机访问。
根据上述MPEG-H 3D音频标准,比特流被布置成包括独立性标志(也称为indepFlag),该独立性标志指示当前帧是否适合于仅使用比特流中的当前帧的数据进行解码和渲染(被称为独立帧)。如果独立性标志的值为1,则这意味着当前帧可以在不使用与当前帧之前的帧有关的数据或通过对这些数据进行解码而获得的任何信息的情况下进行解码和渲染。
因此,如果独立性标志的值为1,则需要在不使用当前帧之前的帧的VBAP增益的情况下对当前帧进行解码和渲染。
考虑到独立性标志的值为1的帧,上述附加元数据可以被包括在比特流中。替代地,可以如上所述的那样切换插值处理。
以这种方式,取决于独立性标志的值,可以确定是否要将附加元数据包括到比特流中,或者可以切换对VBAP增益的插值处理。因此,当独立性标志的值为1时,当前帧可以在不使用当前帧之前的帧的VBAP增益的情况下进行解码和渲染。
此外,上面说明了根据上述MPEG-H 3D音频标准,通过解码而获得的元数据仅与代表性样本有关,即与帧中的最后一个样本有关。然而,在音频信号和元数据被编码的一侧,在对这些元数据进行压缩(编码)以输入至编码装置之前,帧中的所有样本限定的元数据很少。亦即,音频信号的帧中很多待编码的样本不具有元数据。
目前,最常见的情况是,在帧中仅位于规则间隔的样本例如第0个样本、第1024个样本和第2048个样本,或者位于不规则间隔的样本例如第0个样本、第138个样本和第2044个样本被给予元数据。
在这种情况下,取决于帧,可能存在未被提供有元数据的样本。对于没有具有元数据的样本的那些帧,不发送元数据。考虑到缺少具有元数据的样本的帧,解码侧需要对具有元数据并且在当前帧之后的帧的VBAP增益进行计算,以计算每个样本的VBAP增益。因此,在解码和渲染元数据时出现延迟,使得难以实时地进行解码和渲染。
因此,本技术涉及允许编码侧根据需要通过插值处理(样本插值)而获得与处于具有元数据的样本之间的那些样本有关的元数据,并且允许解码侧实时地对元数据进行解码和渲染。特别需要使视频游戏的音频再现中的延迟最小化。因此,对于本技术而言,重要的是减少解码和渲染中的延迟,即例如改善玩游戏的交互性。
对元数据的插值处理可以以任何合适的形式来进行,例如使用高维函数的非线性插值或线性插值。
<比特流>
下面描述的是上面概述的本技术的更具体的实施方式。
例如,图1中描绘的比特流是由对每个对象的音频信号及其元数据进行编码的编码装置输出的。
报头被放置在图1所描绘的比特流的开始处。报头包括与每个对象的音频信号的构成一个帧的样本的数目、即每帧的样本数目有关的信息(该信息在下文中可以被称为样本数目信息)。
在比特流中,报头之后是每个帧中的数据。具体地,区域R10包括指示当前帧是否是独立帧的独立性标志。区域R11包括通过对同一帧中的每个对象的音频信号进行编码而获得的编码音频数据。
此外,区域R11之后的区域R12包括通过对与同一帧中的每个对象有关的元数据进行编码而获得的编码元数据。
例如,区域R12中的区域R21包括与一个帧中的一个对象有关的编码元数据。
在该示例中,编码元数据由附加元数据标志开头。附加元数据标志之后是切换索引。
此外,切换索引之后是元数据数目信息和样本索引。该示例仅描述了一个样本索引。然而,更具体地,编码元数据可以包括与编码元数据中包括的元数据的数目一样多的样本索引。
在编码元数据中,如果切换索引指示了数目指定方法,则切换索引之后是元数据数目信息,而不是样本索引。
此外,如果切换索引指示了样本指定方法,则切换索引之后是元数据数目信息以及样本索引。此外,如果切换索引指示了自动切换方法,则切换索引之后既没有元数据数目信息也没有样本索引。
根据需要而被包括的元数据数目信息和样本索引之后是附加元数据。附加元数据之后是限定数目的与每个样本有关的元数据。
仅当附加元数据标志的值为1时才包括附加元数据。如果附加元数据标志的值为0,则不包括附加元数据。
在区域R12中,针对每个对象排列与区域R21中的编码元数据类似的编码元数据。
在比特流中,单个帧的数据由区域R10中包括的独立性标志、区域R11中的与每个对象有关的编码音频数据、以及区域R12中的与每个对象有关的编码元数据所构成。
<编码装置的典型配置>
下面描述的是如何配置用于输出图1中所描绘的比特流的编码装置。图2是描绘应用本技术的编码装置的典型配置的示意图。
编码装置11包括音频信号获取部21、音频信号编码部22、元数据获取部23、插值处理部24、相关信息获取部25、元数据编码部26、多路复用部27和输出部28。
音频信号获取部21获取每个对象的音频信号并且将获取的音频信号馈送至音频信号编码部22。音频信号编码部22以帧为单位对从音频信号获取部21馈送的音频信号进行编码,并且向多路复用部27提供每帧的所得到的与每个对象有关的编码音频数据。
元数据获取部23获取每帧的与每个对象有关的元数据、更具体地是与帧中的每个样本有关的元数据,并且将所获取的元数据馈送至插值处理部24。元数据包括例如指示对象在空间中的位置的位置信息、指示对象的重要程度的重要程度信息以及指示对象的声像的扩展程度的信息。元数据获取部23获取与每个对象的音频信号中的特定样本(PCM样本)有关的元数据。
插值处理部24对从元数据获取部23馈送的元数据进行插值处理,从而生成与音频信号中的不具有元数据的样本中的全部或其特定部分有关的元数据。插值处理部24通过插值处理来生成与帧中的样本有关的元数据,使得一个对象的一个帧中的音频信号将具有多个元数据,即一个帧中的多个样本将具有元数据。
插值处理部24向元数据编码部26提供通过插值处理获得的与每个帧中的每个对象有关的元数据。
相关信息获取部25获取与元数据相关的信息诸如指示当前帧是否是独立帧的信息(被称为独立帧信息)、以及样本数目信息、指示发送元数据的方法的信息、指示附加元数据是否被发送的信息以及指示音频信号的每个帧中关于每个对象被发送了元数据的样本的信息。基于这样获取的相关信息,相关信息获取部25生成从附加元数据标志、切换索引、元数据数目信息以及样本索引当中选择的每帧的与每个对象有关的必要信息。相关信息获取部25将所生成的信息馈送至元数据编码部26。
基于从相关信息获取部25馈送的信息,元数据编码部26对来自插值处理部24的元数据进行编码。元数据编码部26向多路复用部27提供所得到的每帧的与每个对象有关的编码元数据以及从相关信息获取部25馈送的信息中所包括的独立帧信息。
多路复用部27通过对从音频信号编码部22馈送的编码音频数据、从元数据编码部26馈送的编码元数据以及根据从元数据编码部26馈送的独立帧信息获得的独立性标志进行多路复用来生成比特流。多路复用部27将所生成的比特流馈送至输出部28。输出部28输出从多路复用部27馈送的比特流。亦即,比特流被发送。
<编码处理的说明>
当从外部被提供了对象的音频信号时,编码装置11对音频信号进行编码处理以输出比特流。下面参照图3的流程图来描述由编码装置11进行的典型编码处理。对音频信号的每个帧进行编码处理。
在步骤S11中,音频信号获取部21获取针对一个帧的、每个对象的音频信号,并且将获取的音频信号馈送至音频信号编码部22。
在步骤S12中,音频信号编码部22对从音频信号获取部21馈送的音频信号进行编码。音频信号编码部22向多路复用部27提供所得到的针对一个帧的与每个对象有关的编码音频数据。
例如,音频信号编码部22可以对音频信号进行修正离散余弦变换(MDCT),由此将音频信号从时间信号转换成频率信号。音频信号编码部22还对通过MDCT获得的MDCT系数进行编码,并且将所得到的比例因子、边信息和量化谱放到通过对音频信号进行编码而获取的编码音频数据中。
此处获取的是例如被放到图1所描绘的比特流的区域R11中的与每个对象有关的编码音频数据。
在步骤S13中,元数据获取部23获取与音频信号的每个帧中的每个对象有关的元数据,并且将所获取的元数据馈送至插值处理部24。
在步骤S14中,插值处理部24对从元数据获取部23馈送的元数据进行插值处理。插值处理部24将所得到的元数据馈送至元数据编码部26。
例如,在被提供了一个音频信号的情况下,插值处理部24根据作为与给定样本有关的元数据的位置信息以及作为与在时间上在给定样本之前的另一样本有关的元数据的位置信息,通过线性插值来计算与位于上述给定样本与上述另一样本之间的那些样本中的每个样本有关的位置信息。类似地,插值处理部24对作为元数据的声像的重要程度信息和扩展程度信息进行诸如线性插值的插值处理,从而生成与每个样本有关的元数据。
在对元数据的插值处理中,可以计算元数据,使得一个帧中的对象的音频信号的所有样本均被提供有元数据。替代地,可以计算元数据,使得所有样本当中仅必要的样本被提供有元数据。此外,插值处理不限于线性插值。替代地,非线性插值可以用于插值处理。
在步骤S15中,相关信息获取部25获取与每个对象的音频信号的帧有关的元数据相关信息。
基于如此获取的相关信息,相关信息获取部25生成从针对每个对象的附加元数据标志、切换索引、元数据数目信息以及样本索引当中选择的必要信息。相关信息获取部25将所生成的信息馈送至元数据编码部26。
可以不要求相关信息获取部25生成附加元数据标志、切换索引和其他信息。替代地,相关信息获取部25可以从外部获取附加元数据标志、切换索引以及其他信息,而非生成这样的信息。
在步骤S16中,元数据编码部26根据从相关信息获取部25馈送的诸如附加元数据标志、切换索引、元数据数目信息和样本索引的信息,对从插值处理部24馈送的元数据进行编码。
生成编码元数据,使得在关于每个对象的与音频信号的帧中的每个样本有关的元数据中,仅发送样本数目信息、由切换索引指示的方法、元数据数目信息以及由样本索引限定的样本位置。必要时,与帧中的第一个样本有关的元数据或与紧前一帧中的最后一个样本有关的保留的元数据被包括作为附加元数据。
除了元数据之外,编码元数据还包括附加元数据标志和切换索引。元数据数目信息、样本索引和附加元数据也可以根据需要被包括在编码元数据中。
此处获取的是例如保存在图1所描绘的比特流的区域R12中的与每个对象有关的编码元数据。例如,保存在区域R21中的编码元数据与一个帧的一个对象有关。
在这种情况下,如果在该帧中选择了数目指定方法以针对该对象进行处理并且如果发送了附加元数据,则此处生成的是由附加元数据标志、切换索引、元数据数目信息、附加元数据和元数据组成的编码元数据。
此外,如果在该帧中选择了样本指定方法以针对该对象进行处理并且如果未发送附加元数据,则在这种情况下生成的是由附加元数据标志、切换索引、元数据数目信息、样本索引和元数据组成的编码元数据。
此外,如果在该帧中选择了自动切换方法以针对该对象进行处理并且如果发送了附加元数据,则此处生成的是由附加元数据标志、切换索引、附加元数据和元数据组成的编码元数据。
元数据编码部26向多路复用部27提供通过对元数据进行编码获得的与每个对象有关的编码元数据以及从相关信息获取部25馈送的信息中包括的独立帧信息。
在步骤S17中,多路复用部27通过对从音频信号编码部22馈送的编码音频数据、从元数据编码部26馈送的编码元数据以及基于从元数据编码部26馈送的独立帧信息而获得的独立性标志进行多路复用来生成比特流。多路复用部27将所生成的比特流馈送至输出部28。
此处生成的是例如由图1所描绘的比特流的区域R10至R12组成的单个帧的比特流。
在步骤S18中,输出部28输出从多路复用部27馈送的比特流。这终止了编码处理。如果输出比特流的前导部分,则也输出如图1中所描绘的主要包含样本数目信息的报头。
以上述方式,编码装置11对音频信号和元数据进行编码,并且输出由所得到的编码音频数据和编码元数据组成的比特流。
此时,如果多个元数据被布置成针对每个帧被发送,则解码侧可以进一步缩短对通过插值处理计算出其VBAP增益的样本进行排列的区间。这提供了更高质量的声音。
此外,在对元数据进行插值处理的情况下,总是针对每个帧发送至少一个元数据。这允许解码侧实时地进行解码和渲染。可以根据需要发送的附加元数据允许实现随机访问。
<解码装置的典型配置>
下面描述的是解码装置,其对从编码装置11输出的所接收到(获取的)比特流进行解码。例如,应用本技术的解码装置如图4所描绘的那样被配置。
该配置的解码装置51与布置在声音再现空间中的多个扬声器所组成的扬声器***52连接。解码装置51将通过针对每个通道进行解码和渲染而获得的音频信号馈送至构成扬声器***52的各通道上的扬声器用于声音再现。
解码装置51包括获取部61、解多路复用部62、音频信号解码部63、元数据解码部64、增益计算部65和音频信号生成部66。
获取部61获取从编码装置11输出的比特流,并且将获取的比特流馈送至解多路复用部62。解多路复用部62将从获取部61馈送的比特流解多路复用成独立性标志、编码音频数据以及编码元数据。解多路复用部62将编码音频数据馈送至音频信号解码部63,并且将独立性标志和编码元数据馈送至元数据解码部64。
根据需要,解多路复用部62可以从比特流的报头读取诸如样本数目信息的各项信息。解多路复用部62将所取回的信息馈送至音频信号解码部63和元数据解码部64。
音频信号解码部63对从解多路复用部62馈送的编码音频数据进行解码,并且将所得到的每个对象的音频信号馈送至音频信号生成部66。
元数据解码部64对从解多路复用部62馈送的编码元数据进行解码,并且向增益计算部65提供所得到的与音频信号的每个帧中的每个对象有关的元数据以及从解多路复用部62馈送的独立性标志。
元数据解码部64包括:附加元数据标志读取部分71,其从编码元数据读取附加元数据标志;以及切换索引读取部分72,其从编码元数据读取切换索引。
增益计算部65基于以下各项来计算与每个对象有关的音频信号的每个帧中的样本的VBAP增益:预先保存的指示布置在扬声器***52组成的空间中的每个扬声器的位置的布置位置信息、从元数据解码部64馈送的每帧的与每个对象有关的元数据、以及独立性标志。
此外,增益计算部65包括插值处理部分73,该插值处理部分73基于预定样本的VBAP增益通过插值处理来计算其他样本的VBAP增益。
增益计算部65向音频信号生成部66提供关于每个对象而计算的、音频信号的帧中的每个样本的VBAP增益。
音频信号生成部66根据从音频信号解码部63馈送的每个对象的音频信号以及从增益计算部65馈送的每个对象的每个样本的VBAP增益来生成每个通道上的音频信号,即,要馈送到每个通道的扬声器的音频信号。
音频信号生成部66将所生成的音频信号馈送至构成扬声器***52的每个扬声器,使得扬声器将基于音频信号来输出声音。
在解码装置51中,由增益计算部65和音频信号生成部66组成的块用作基于通过解码而获得的音频信号和元数据来进行渲染的渲染器(渲染部)。
<解码处理的说明>
当从编码装置11发送比特流时,解码装置51进行解码处理以接收(获取)并且解码比特流。下面参照图5的流程图来描述由解码装置51进行的典型解码处理。该解码处理是对音频信号的每个帧进行的。
在步骤S41中,获取部61获取从编码装置11输出的针对一个帧的比特流,并且将获取的比特流馈送至解多路复用部62。
在步骤S42中,解多路复用部62将从获取部61馈送的比特流解多路复用成独立性标志、编码音频数据和编码元数据。解多路复用部62将编码音频数据提供给音频信号解码部63,并且将独立性标志和编码元数据提供给元数据解码部64。
此时,解多路复用部62向元数据解码部64提供从比特流的报头读取的样本数目信息。样本数目信息可以被布置成在获取比特流的报头时被馈送。
在步骤S43中,音频信号解码部63对从解多路复用部62馈送的编码音频数据进行解码,并且向音频信号生成部66提供所得到的针对一个帧的每个对象的音频信号。
例如,音频信号解码部63通过对编码音频数据进行解码来获得MDCT系数。具体地,音频信号解码部63基于作为编码音频数据而提供的比例因子、边信息和量化谱来计算MDCT系数。
此外,基于MDCT系数,音频信号解码部63进行逆修正离散余弦变换(IMDCT)以获得PCM数据。音频信号解码部63将所得到的PCM数据作为音频信号馈送至音频信号生成部66。
在对编码音频数据进行解码之后,对编码元数据进行解码。亦即,在步骤S44中,元数据解码部64中的附加元数据标志读取部分71从馈送自解多路复用部62的编码元数据中读取附加元数据标志。
例如,元数据解码部64连续地以与从解多路复用部62连续馈送的编码元数据相对应的对象为目标进行处理。附加元数据标志读取部分71从与每个目标对象有关的编码元数据中读取附加元数据标志。
在步骤S45中,元数据解码部64中的切换索引读取部分72从馈送自解多路复用部62的与目标对象有关的编码元数据中读取切换索引。
在步骤S46中,切换索引读取部分72确定由步骤S45中读取的切换索引所指示的方法是否是数目指定方法。
如果在步骤S46中确定指示了数目指定方法,则控制转到步骤S47。在步骤S47中,元数据解码部64从馈送自解多路复用部62的与目标对象有关的编码元数据中读取元数据数目信息。
与目标对象有关的编码元数据包括与以上述方式读取的元数据数目信息所指示的元数据数目一样多的元数据。
在步骤S48中,元数据解码部64识别与目标对象有关的所发送的元数据中的、音频信号的帧中的样本位置,该识别是基于在步骤S47中读取的元数据数目信息以及从解多路复用部62馈送的样本数目信息。
例如,由与样本数目信息所指示的样本数目一样多的样本构成的单个帧区间被等成与元数据数目信息所指示的元数据数目一样多的均等区间。将每个所划分的区间中的最后一个样本的位置视为元数据样本位置,即,具有元数据的样本的位置。如此获得的样本位置是编码元数据中所包括的每个元数据中的样本的位置;这些样本是具有元数据的样本。
上面说明的是,发送与从单个帧区间划分的每个分割中的最后一个样本有关的元数据。根据要被发送元数据的每个特定样本,使用样本数目信息和元数据数目信息来计算每个元数据的样本位置。
在识别与目标对象有关的编码元数据中包括的元数据的数目之后,并且在识别每个元数据的样本位置之后,控制转到步骤S53。
另一方面,如果在步骤S46中确定没有指示数目指定方法,则控制转到步骤S49。在步骤S49中,切换索引读取部分72确定在步骤S45中读取的切换索引是否指示了样本指定方法。
如果在步骤S49中确定指示了样本指定方法,则控制转到步骤S50。在步骤S50中,元数据解码部64从馈送自解多路复用部62的与目标对象有关的编码元数据中读取元数据数目信息。
在步骤S51中,元数据解码部64从馈送自解多路复用部62的与目标对象有关的编码元数据中读取样本索引。此时读取的是与由元数据数目信息所指示的元数据数目一样多的样本索引。
考虑到以这种方式读出的元数据数目信息和样本索引,可以识别与目标对象有关的编码元数据中包括的元数据的数目以及这些元数据的样本位置。
在识别与目标对象有关的编码元数据中包括的元数据的数目之后并且在识别每个元数据的样本位置之后,控制转到步骤S53。
如果在步骤S49中确定没有指示样本指定方法,即,通过切换索引指示了自动切换方法,则控制转到步骤S52。
在步骤S52中,基于从解多路复用部62馈送的样本数目信息,元数据解码部64识别与目标对象有关的编码元数据中包括的元数据的数目以及每个元数据的样本位置。然后控制转到步骤S53。
例如,自动切换方法涉及预先确定与组成一个帧的样本的数目有关的要被发送的元数据的数目以及每个元数据的样本位置,即要被发送元数据的特定样本。
为此,考虑到样本数目信息,元数据解码部64可以识别与目标对象有关的编码元数据中包括的元数据的数目并且还识别这些元数据的样本位置。
在步骤S48、步骤S51或步骤S52之后,控制转到步骤S53。在步骤S53中,元数据解码部64基于在步骤S44中读出的附加元数据标志的值来确定是否存在附加元数据。
如果在步骤S53中确定存在附加元数据,则控制转到步骤S54。在步骤S54中,元数据解码部64从与目标对象有关的编码元数据中读取附加元数据。在附加元数据被读出的情况下,控制转到步骤S55。
相较之下,如果在步骤S53中确定不存在附加元数据,则跳过步骤S54并且控制转到步骤S55。
在步骤S54中读出附加元数据之后,或如果在步骤S53中确定不存在附加元数据,则控制转到步骤S55。在步骤S55中,元数据解码部64从与目标对象有关的编码元数据中读取元数据。
此时,从编码元数据读取的是与在上述步骤中识别的数目一样多的元数据。
在上述处理中,从一个帧的音频信号读取与目标对象有关的元数据和附加元数据。
元数据解码部64将所取回的元数据馈送至增益计算部65。此时,元数据以下述方式被馈送:使得增益计算部65可以识别哪个元数据与哪个对象的哪个样本相关。此外,如果附加元数据被读出,则元数据解码部64将所取回的附加元数据馈送至增益计算部65。
在步骤S56中,元数据解码部64确定是否已经关于所有对象读取了元数据。
如果在步骤S56中确定尚未关于所有对象读取元数据,则控制返回到步骤S44并且重复随后的步骤。在这种情况下,选择待处理的另一对象作为新的目标对象,并且从与新对象有关的编码元数据中读取元数据和其他信息。
相较之下,如果在步骤S56中确定已经关于所有对象读取了元数据,则元数据解码部64向增益计算部65提供从解多路复用部62馈送的独立性标志。然后控制转到步骤S57,并且开始渲染。
亦即,在步骤S57中,增益计算部65基于从元数据解码部64馈送的元数据、附加元数据和独立性标志来计算VBAP增益。
例如,增益计算部65相继选择每个目标对象进行处理,并且还在每个目标对象的音频信号的帧中相继选择具有元数据的一个目标样本。
考虑到目标样本,增益计算部65基于由作为与样本有关的元数据的位置信息所指示的对象在空间中的位置以及由布置位置信息所指示的构成扬声器***52的每个扬声器在空间中的位置,通过VBAP来计算针对每个通道的目标样本的VBAP增益,即,针对每个通道的扬声器的VBAP增益。
VBAP允许两个或三个扬声器放置在给定对象周围,以输出具有预定增益的声音,使得声像可以定位在对象的位置处。VBAP的详细描述例如由以下文献给出:Ville Pulkki的“Virtual Sound Source Positioning Using Vector Base Amplitude Panning,”Journal of AES(AES杂志),第45卷,第6期,第456至466页,1997年。
在步骤S58中,插值处理部分73进行插值处理以计算与不具有元数据的样本有关的、每个扬声器的VBAP增益。
例如,插值处理涉及使用在前面的步骤S57中计算的目标样本的VBAP增益以及与目标对象在同一帧中或在紧前一帧中的具有元数据的样本的VBAP增益(在下文中后者样本可以被称为参考样本),后者样本在时间上在目标样本之前。亦即,通常进行线性插值以针对构成扬声器***52的每个扬声器(通道)使用目标样本的VBAP增益和参考样本的VBAP增益来计算目标样本与参考样本之间的那些样本的VBAP增益。
例如,如果指定了随机访问,或者如果从元数据解码部64馈送的独立性标志的值是1并且存在附加元数据,则增益计算部65使用附加元数据来计算VBAP增益。
具体地,假设以目标对象的音频信号的帧中的具有元数据的第一个样本为目标进行处理并且计算目标样本的VBAP增益。在这种情况下,不计算当前帧之前的帧的VBAP增益。因此,增益计算部65将当前帧中的第一个样本或紧前一帧中的最后一个样本视为参考样本,并且使用附加元数据来计算参考样本的VBAP增益。
然后,插值处理部分73使用目标样本的VBAP增益和参考样本的VBAP增益,通过插值处理来计算目标样本与参考样本之间的那些样本的VBAP增益。
另一方面,如果指定了随机访问,或者如果从元数据解码部64馈送的独立性标志的值是1并且不存在附加元数据,则不使用附加元数据来计算VBAP增益。相反,插值处理被切换。
具体地,假设将目标对象的音频信号的帧中的具有元数据的第一个样本视为目标样本并且计算目标样本的VBAP增益。在这种情况下,不计算关于当前帧之前的帧的VBAP增益。因此,增益计算部65将当前帧中的第一个样本或紧前一帧中的最后一个样本视为参考样本,并且将0设置为用于增益计算的参考样本的VBAP增益。
然后,插值处理部分73进行插值处理,以使用目标样本的VBAP增益和参考样本的VBAP增益来计算目标样本与参考样本之间的那些样本的VBAP增益。
插值处理不限于上面所描述的内容。替代地,例如,插值处理可以以下述方式进行,使得要***值的每个样本的VBAP增益变得与目标样本的VBAP值相同。
当如上所述那样切换对VBAP增益的插值处理时,可以对不具有附加元数据的帧进行随机访问,并且进行独立帧的解码和渲染。
在上面的示例中说明了使用插值处理来获得不具有元数据的样本的VBAP增益。替代地,元数据解码部64可以进行插值处理以获得与不具有元数据的样本有关的元数据。在这种情况下,获得与音频信号的所有样本有关的元数据,使得插值处理部分73不对VBAP增益进行插值处理。
在步骤S59中,增益计算部65确定是否已经计算目标对象的音频信号的帧中的所有样本的VBAP增益。
如果在步骤S59中确定尚未计算所有样本的VBAP增益,则控制返回到步骤S57并且重复随后的步骤。亦即,选择具有元数据的下一个样本作为目标样本,并且计算该目标样本的VBAP增益。
另一方面,如果在步骤S59中确定已经计算所有样本的VBAP增益,则控制转到步骤S60。在步骤S60中,增益计算部65确定是否已经计算所有对象的VBAP增益。
例如,如果以所有对象为目标进行了处理并且如果计算了针对每个扬声器的每个对象的样本的VBAP增益,则确定已经计算所有对象的VBAP增益。
如果在步骤S60中确定尚未计算所有对象的VBAP增益,则控制返回到步骤S57并且重复随后的步骤。
另一方面,如果在步骤S60中确定已经计算所有对象的VBAP增益,则增益计算部65将所计算的VBAP增益馈送至音频信号生成部66。然后,控制转到步骤S61。在这种情况下,音频信号生成部66被提供有针对每个扬声器计算的每个对象的音频信号的帧中的每个样本的VBAP增益。
在步骤S61中,音频信号生成部66基于从音频信号解码部63馈送的每个对象的音频信号以及从增益计算部65馈送的每个对象的每个样本的VBAP增益,针对每个扬声器生成音频信号。
例如,音频信号生成部66通过把下述信号相加来针对给定扬声器生成音频信号:这些信号中的每个信号是通过将每个样本的每个对象的音频信号乘以针对同一扬声器所获得的该对象的VBAP增益而得到的。
具体地,假设存在三个对象OB1至OB3作为对象、并且已经针对构成扬声器***52的一部分的给定扬声器SP1获得了这些对象的VBAP增益G1至G3。在这种情况下,将乘以了VBAP增益G1的对象OB1的音频信号、乘以了VBAP增益G2的对象OB2的音频信号、以及乘以了VBAP增益G3的对象OB3的音频信号相加。由上述相加得到的音频信号是要馈送至扬声器SP1的音频信号。
在步骤S62中,音频信号生成部66向扬声器***52的每个扬声器提供在步骤S61中针对该扬声器获得的音频信号,使扬声器基于这些音频信号再现声音。这终止了解码处理。以这种方式,扬声器***52再现每个对象的声音。
以上述方式,解码装置51对编码音频数据和编码元数据进行解码,并且对通过解码而获得的音频信号和元数据进行渲染以生成针对每个扬声器的音频信号。
在进行渲染时,解码装置51获得每个对象的音频信号的每个帧的多个元数据。因此可以缩短将使用插值处理来计算其VBAP增益的样本进行排列的区间。这不仅提供了更高质量的声音,而且还允许实时地进行解码和渲染。因为一些帧具有包括在编码元数据中的附加元数据,所以可以实现对独立帧的解码和渲染以及随机访问。此外,在不包括附加元数据的帧的情况下,可以切换对VBAP增益的插值处理以便也允许对独立帧的解码和渲染以及随机访问。
上述的一系列处理可以通过硬件或软件来执行。在要通过软件执行这些处理的情况下,构成软件的程序被安装到适当的计算机中。计算机的变型包括预先在其专用硬件中安装软件的计算机以及能够基于其中安装的程序执行不同功能的通用个人计算机或类似设备。
图6是描绘能够使用程序进行上述一系列处理的计算机的硬件的典型配置的框图。
在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。
总线504还与输入/输出接口505连接。输入/输出接口505与输入部506、输出部507、记录部508、通信部509和驱动器510连接。
输入部506例如由键盘、鼠标、麦克风和成像元件组成。输出部507例如由显示器和扬声器形成。记录部508通常由硬盘和非易失性存储器构成。通信部509例如由网络接口构成。驱动器510驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移除记录介质511。
在如上所述配置的计算机中,CPU 501通过执行例如经由输入/输出接口505和总线504从记录部508加载到RAM 503中的程序来进行上面说明的一系列处理。
由计算机(即CPU 501)执行的程序在被提供时可以记录在可移动记录介质511上,可移动记录介质511通常构成软件包。此外,程序可以通过诸如局域网、因特网或数字卫星服务的有线或无线传输介质来提供。
在计算机中,程序可以在经由输入/输出接口505从置于驱动器510中的可移除记录介质511被读取之后被安装到记录部508中。替代地,程序可以经由有线或无线传输介质被通信部509接收,并且被安装到记录部508中。作为另一替代方案,程序可以预先安装在ROM 502中或记录部508中。
计算机要执行的程序可以按时间顺序进行处理,即按照本描述中所描绘的顺序进行处理;并行地或以其他适当的时间方式(例如当那些程序根据需要被调用时)进行处理。
本技术的实施方式不限于上面讨论的那些实施方式。在本技术的范围和精神内,可以以各种方式修改、改变或改进实施方式。
例如,本技术可以以云计算配置来进行,在云计算配置中每个功能由多个装置通过网络共享和共同管理。
此外,上面结合流程图说明的每个步骤可以由单个装置进行或由多个装置以共享方式进行。
此外,如果单个步骤包括多个处理,则包括在单个步骤中的这些处理可以由单个装置进行或由多个装置以共享方式进行。
本技术还可以优选地按如下配置:
(1)一种解码装置,包括:
获取部,其被配置成获取通过对音频对象的预定时间间隔的帧中的音频信号进行编码而获得的编码音频数据以及所述帧的多个元数据;
解码部,其被配置成对所述编码音频数据进行解码;以及
渲染部,其被配置成基于所述多个元数据和通过所述解码而获得的音频信号来进行渲染。
(2)根据上述段(1)所述的解码装置,其中,所述元数据包括指示所述音频对象的位置的位置信息。
(3)根据上述段(1)或(2)所述的解码装置,其中,所述多个元数据中的每个元数据是所述音频信号的所述帧中的多个样本的各自的元数据。
(4)根据上述段(3)所述的解码装置,其中,所述多个元数据中的每个元数据是以将构成所述帧的样本的数目除以所述多个元数据的数目而得到的样本数目的间隔排列的多个样本的各自的元数据。
(5)根据上述段(3)所述的解码装置,其中,所述多个元数据中的每个元数据是由多个样本索引中的每个样本索引所指示的多个样本的各自的元数据。
(6)根据上述段(3)所述的解码装置,其中,所述多个元数据中的每个元数据是所述帧中以预定样本数目的间隔排列的多个样本的各自的元数据。
(7)根据上述段(1)至(6)中任一项所述的解码装置,其中,所述多个元数据包括用于对所述音频信号中的样本的增益进行插值处理的元数据,所述增益是基于元数据而计算的。
(8)一种解码方法,包括以下步骤:
获取通过对音频对象的预定时间间隔的帧中的音频信号进行编码而获得的编码音频数据以及所述帧的多个元数据;
对所述编码音频数据进行解码;以及
基于所述多个元数据和通过所述解码而获得的音频信号来进行渲染。
(9)一种程序,其用于使计算机进行包括以下步骤的处理:
获取通过对音频对象的预定时间间隔的帧中的音频信号进行编码而获得的编码音频数据以及所述帧的多个元数据;
对所述编码音频数据进行解码;以及
基于所述多个元数据和通过所述解码而获得的音频信号来进行渲染。
(10)一种编码装置,包括:
编码部,其被配置成对音频对象的预定时间间隔的帧中的音频信号进行编码;以及
生成部,其被配置成生成包括通过所述编码而获得的编码音频数据以及所述帧的多个元数据的比特流。
(11)根据上述段(10)所述的编码装置,其中,所述元数据包括指示所述音频对象的位置的位置信息。
(12)根据上述段(10)或(11)所述的编码装置,其中,所述多个元数据中的每个元数据是所述音频信号的所述帧中的多个样本的各自的元数据。
(13)根据上述段(12)所述的编码装置,其中,所述多个元数据中的每个元数据是以将构成所述帧的样本的数目除以所述多个元数据的数目而得到的样本数目的间隔排列的多个样本的各自的元数据。
(14)根据上述段(12)所述的编码装置,其中,所述多个元数据中的每个元数据是由多个样本索引中的每个样本索引所指示的多个样本的各自的元数据。
(15)根据上述段(12)所述的编码装置,其中,所述多个元数据中的每个元数据是所述帧中以预定样本数目的间隔排列的多个样本的各自的元数据。
(16)根据上述段(10)至(15)中任一项所述的编码装置,其中,所述多个元数据包括用于对所述音频信号中的样本的增益进行插值处理的元数据,所述增益是基于元数据而计算的。
(17)根据上述段(10)至(16)中任一项所述的编码装置,还包括:
插值处理部,其被配置成对元数据进行插值处理。
(18)一种编码方法,包括以下步骤:
对音频对象的预定时间间隔的帧中的音频信号进行编码;以及
生成包括通过所述编码而获得的编码音频数据以及所述帧的多个元数据的比特流。
(19)一种程序,其用于使计算机进行包括以下步骤的处理:
对音频对象的预定时间间隔的帧中的音频信号进行编码;以及
生成包括通过所述编码而获得的编码音频数据以及所述帧的多个元数据的比特流。
[附图标记列表]
11编码装置、22音频信号编码部、24插值处理部、25相关信息获取部、26元数据编码部、27多路复用部、28输出部、51解码装置、62解多路复用部、63音频信号解码部、64元数据解码部、65增益计算部、66音频信号生成部、71附加元数据标志读取部分、72切换索引读取部分、73插值处理部分。

Claims (19)

1.一种解码装置,包括:
获取部,其被配置成获取通过对音频对象的预定时间间隔的帧中的音频信号进行编码而获得的编码音频数据以及所述帧的多个元数据;
解码部,其被配置成对所述编码音频数据进行解码;以及
渲染部,其被配置成基于所述多个元数据和通过所述解码而获得的音频信号来进行渲染。
2.根据权利要求1所述的解码装置,其中,所述元数据包括指示所述音频对象的位置的位置信息。
3.根据权利要求1所述的解码装置,其中,所述多个元数据中的每个元数据是所述音频信号的所述帧中的多个样本的各自的元数据。
4.根据权利要求3所述的解码装置,其中,所述多个元数据中的每个元数据是以将构成所述帧的样本的数目除以所述多个元数据的数目而得到的样本数目的间隔排列的多个样本的各自的元数据。
5.根据权利要求3所述的解码装置,其中,所述多个元数据中的每个元数据是由多个样本索引中的每个样本索引所指示的多个样本的各自的元数据。
6.根据权利要求3所述的解码装置,其中,所述多个元数据中的每个元数据是所述帧中以预定样本数目的间隔排列的多个样本的各自的元数据。
7.根据权利要求1所述的解码装置,其中,所述多个元数据包括用于对所述音频信号中的样本的增益进行插值处理的元数据,所述增益是基于元数据而计算的。
8.一种解码方法,包括以下步骤:
获取通过对音频对象的预定时间间隔的帧中的音频信号进行编码而获得的编码音频数据以及所述帧的多个元数据;
对所述编码音频数据进行解码;以及
基于所述多个元数据和通过所述解码而获得的音频信号来进行渲染。
9.一种程序,其用于使计算机进行包括以下步骤的处理:
获取通过对音频对象的预定时间间隔的帧中的音频信号进行编码而获得的编码音频数据以及所述帧的多个元数据;
对所述编码音频数据进行解码;以及
基于所述多个元数据和通过所述解码而获得的音频信号来进行渲染。
10.一种编码装置,包括:
编码部,其被配置成对音频对象的预定时间间隔的帧中的音频信号进行编码;以及
生成部,其被配置成生成包括通过所述编码而获得的编码音频数据以及所述帧的多个元数据的比特流。
11.根据权利要求10所述的编码装置,其中,所述元数据包括指示所述音频对象的位置的位置信息。
12.根据权利要求10所述的编码装置,其中,所述多个元数据中的每个元数据是所述音频信号的所述帧中的多个样本的各自的元数据。
13.根据权利要求12所述的编码装置,其中,所述多个元数据中的每个元数据是以将构成所述帧的样本的数目除以所述多个元数据的数目而得到的样本数目的间隔排列的多个样本的各自的元数据。
14.根据权利要求12所述的编码装置,其中,所述多个元数据中的每个元数据是由多个样本索引中的每个样本索引所指示的多个样本的各自的元数据。
15.根据权利要求12所述的编码装置,其中,所述多个元数据中的每个元数据是所述帧中以预定样本数目的间隔排列的多个样本的各自的元数据。
16.根据权利要求10所述的编码装置,其中,所述多个元数据包括用于对所述音频信号中的样本的增益进行插值处理的元数据,所述增益是基于元数据而计算的。
17.根据权利要求10所述的编码装置,还包括:
插值处理部,其被配置成对元数据进行插值处理。
18.一种编码方法,包括以下步骤:
对音频对象的预定时间间隔的帧中的音频信号进行编码;以及
生成包括通过所述编码而获得的编码音频数据以及所述帧的多个元数据的比特流。
19.一种程序,其用于使计算机进行包括以下步骤的处理:
对音频对象的预定时间间隔的帧中的音频信号进行编码;以及
生成包括通过所述编码而获得的编码音频数据以及所述帧的多个元数据的比特流。
CN201680034330.XA 2015-06-19 2016-06-03 编码装置和方法、解码装置和方法以及程序 Active CN107637097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110632109.7A CN113470665A (zh) 2015-06-19 2016-06-03 编码装置和方法、解码装置和方法及计算机可读记录介质

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2015-123589 2015-06-19
JP2015123589 2015-06-19
JP2015196494 2015-10-02
JP2015-196494 2015-10-02
PCT/JP2016/066574 WO2016203994A1 (ja) 2015-06-19 2016-06-03 符号化装置および方法、復号装置および方法、並びにプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110632109.7A Division CN113470665A (zh) 2015-06-19 2016-06-03 编码装置和方法、解码装置和方法及计算机可读记录介质

Publications (2)

Publication Number Publication Date
CN107637097A true CN107637097A (zh) 2018-01-26
CN107637097B CN107637097B (zh) 2021-06-29

Family

ID=57545216

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201680034330.XA Active CN107637097B (zh) 2015-06-19 2016-06-03 编码装置和方法、解码装置和方法以及程序
CN202110632109.7A Pending CN113470665A (zh) 2015-06-19 2016-06-03 编码装置和方法、解码装置和方法及计算机可读记录介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110632109.7A Pending CN113470665A (zh) 2015-06-19 2016-06-03 编码装置和方法、解码装置和方法及计算机可读记录介质

Country Status (12)

Country Link
US (2) US20180315436A1 (zh)
EP (1) EP3316599B1 (zh)
JP (3) JP6915536B2 (zh)
KR (2) KR102140388B1 (zh)
CN (2) CN107637097B (zh)
BR (1) BR112017026743B1 (zh)
CA (2) CA2989099C (zh)
HK (1) HK1244384A1 (zh)
MX (1) MX2017016228A (zh)
RU (1) RU2720439C2 (zh)
TW (1) TWI607655B (zh)
WO (1) WO2016203994A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470665A (zh) * 2015-06-19 2021-10-01 索尼公司 编码装置和方法、解码装置和方法及计算机可读记录介质
CN114128309A (zh) * 2019-07-19 2022-03-01 索尼集团公司 信号处理装置和方法、以及程序

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2632473C1 (ru) * 2016-09-30 2017-10-05 ООО "Ай Ти Ви групп" Способ обмена данными между ip видеокамерой и сервером (варианты)
CN114898761A (zh) 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
CN111164679B (zh) * 2017-10-05 2024-04-09 索尼公司 编码装置和方法、解码装置和方法以及程序
US10650834B2 (en) * 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
IL276619B2 (en) 2018-07-02 2024-03-01 Dolby Laboratories Licensing Corp Methods and devices for encoding and/or decoding embedded audio signals
JP7441057B2 (ja) * 2019-01-25 2024-02-29 日本放送協会 オーディオオーサリング装置、オーディオレンダリング装置、送信装置、受信装置、及び方法
CN115668364A (zh) 2020-05-26 2023-01-31 杜比国际公司 利用高效的闪避增益应用改善主-相关联音频体验
US20230253000A1 (en) * 2020-07-09 2023-08-10 Sony Group Corporation Signal processing device, signal processing method, and program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101010749A (zh) * 2004-07-02 2007-08-01 苹果电脑公司 音频数据的通用容器
US20140133683A1 (en) * 2011-07-01 2014-05-15 Doly Laboratories Licensing Corporation System and Method for Adaptive Audio Signal Generation, Coding and Rendering
WO2014113478A1 (en) * 2013-01-21 2014-07-24 Dolby Laboratories Licensing Corporation Metadata transcoding
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
US20140297291A1 (en) * 2013-03-29 2014-10-02 Apple Inc. Metadata driven dynamic range control
WO2014187991A1 (en) * 2013-05-24 2014-11-27 Dolby International Ab Efficient coding of audio scenes comprising audio objects

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3352406B2 (ja) * 1998-09-17 2002-12-03 松下電器産業株式会社 オーディオ信号の符号化及び復号方法及び装置
CN101410891A (zh) 2006-02-03 2009-04-15 韩国电子通信研究院 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
CN101290774B (zh) * 2007-01-31 2011-09-07 广州广晟数码技术有限公司 音频编码和解码***
US8682679B2 (en) * 2007-06-26 2014-03-25 Koninklijke Philips N.V. Binaural object-oriented audio decoder
BR122021008665B1 (pt) * 2009-10-16 2022-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
US9185450B2 (en) * 2011-06-29 2015-11-10 Thomson Licensing Managing common content on a distributed storage system
US9473870B2 (en) * 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
JP6085029B2 (ja) 2012-08-31 2017-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム
WO2014087277A1 (en) * 2012-12-06 2014-06-12 Koninklijke Philips N.V. Generating drive signals for audio transducers
WO2014091375A1 (en) * 2012-12-14 2014-06-19 Koninklijke Philips N.V. Reverberation processing in an audio signal
US9860663B2 (en) * 2013-01-15 2018-01-02 Koninklijke Philips N.V. Binaural audio processing
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
TWI607655B (zh) 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101010749A (zh) * 2004-07-02 2007-08-01 苹果电脑公司 音频数据的通用容器
US20140133683A1 (en) * 2011-07-01 2014-05-15 Doly Laboratories Licensing Corporation System and Method for Adaptive Audio Signal Generation, Coding and Rendering
WO2014113478A1 (en) * 2013-01-21 2014-07-24 Dolby Laboratories Licensing Corporation Metadata transcoding
US20140297291A1 (en) * 2013-03-29 2014-10-02 Apple Inc. Metadata driven dynamic range control
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
WO2014187991A1 (en) * 2013-05-24 2014-11-27 Dolby International Ab Efficient coding of audio scenes comprising audio objects

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470665A (zh) * 2015-06-19 2021-10-01 索尼公司 编码装置和方法、解码装置和方法及计算机可读记录介质
CN114128309A (zh) * 2019-07-19 2022-03-01 索尼集团公司 信号处理装置和方法、以及程序
CN114128309B (zh) * 2019-07-19 2024-05-07 索尼集团公司 信号处理装置和方法、以及程序

Also Published As

Publication number Publication date
JP6915536B2 (ja) 2021-08-04
JP2021114001A (ja) 2021-08-05
EP3316599B1 (en) 2020-10-28
US20180315436A1 (en) 2018-11-01
JPWO2016203994A1 (ja) 2018-04-05
CA3232321A1 (en) 2016-12-22
HK1244384A1 (zh) 2018-08-03
JP2023025251A (ja) 2023-02-21
CN113470665A (zh) 2021-10-01
TWI607655B (zh) 2017-12-01
US11170796B2 (en) 2021-11-09
TW201717663A (zh) 2017-05-16
BR112017026743A2 (pt) 2018-08-28
RU2017143404A (ru) 2019-06-13
JP7509190B2 (ja) 2024-07-02
KR102140388B1 (ko) 2020-07-31
CN107637097B (zh) 2021-06-29
RU2720439C2 (ru) 2020-04-29
MX2017016228A (es) 2018-04-20
KR20170141276A (ko) 2017-12-22
RU2017143404A3 (zh) 2019-11-13
BR112017026743B1 (pt) 2022-12-27
US20190304479A1 (en) 2019-10-03
JP7205566B2 (ja) 2023-01-17
EP3316599A4 (en) 2019-02-20
CA2989099A1 (en) 2016-12-22
KR20180107307A (ko) 2018-10-01
WO2016203994A1 (ja) 2016-12-22
EP3316599A1 (en) 2018-05-02
CA2989099C (en) 2024-04-16

Similar Documents

Publication Publication Date Title
CN107637097A (zh) 编码装置和方法、解码装置和方法以及程序
US11705139B2 (en) Efficient coding of audio scenes comprising audio objects
JP6510541B2 (ja) 環境高次アンビソニックス係数の遷移
US9756448B2 (en) Efficient coding of audio scenes comprising audio objects
US9892737B2 (en) Efficient coding of audio scenes comprising audio objects
JP2017513053A (ja) 音場の記述へのオーディオチャンネルの挿入
CN107112020A (zh) 音频信号的参数化混合
JP7504091B2 (ja) オーディオ・エンコーダおよびオーディオ・デコーダ
JP4743228B2 (ja) デジタル音声信号解析方法、その装置、及び映像音声記録装置
CN112313744A (zh) 使用不同的渲染器渲染音频数据的不同部分
JP2001100792A (ja) 符号化方法、符号化装置およびそれを備える通信システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1244384

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant