CN102034519A - 对象关系音频文件提供装置和方法以及其播放装置和方法 - Google Patents

对象关系音频文件提供装置和方法以及其播放装置和方法 Download PDF

Info

Publication number
CN102034519A
CN102034519A CN2010102903673A CN201010290367A CN102034519A CN 102034519 A CN102034519 A CN 102034519A CN 2010102903673 A CN2010102903673 A CN 2010102903673A CN 201010290367 A CN201010290367 A CN 201010290367A CN 102034519 A CN102034519 A CN 102034519A
Authority
CN
China
Prior art keywords
audio
file
audio file
tracks
object relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102903673A
Other languages
English (en)
Inventor
李泰辰
张仁瑄
徐廷一
李用主
白承权
刘载铉
金珉第
张大永
姜京玉
洪镇佑
金镇雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020100082997A external-priority patent/KR101125364B1/ko
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of CN102034519A publication Critical patent/CN102034519A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/926Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback by pulse code modulation
    • H04N5/9265Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback by pulse code modulation with processing of the sound signal
    • H04N5/9267Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback by pulse code modulation with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals
    • H04N9/8066Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals with insertion of the PCM audio signals in the vertical blanking interval of the PCM video signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

本发明提出了一种对象关系音频文件提供装置和播放装置,以及对象关系音频文件提供方法及对象关系音频播放方法。对象关系音频文件提供装置包括:比特流(Bit stream)生成单元,其生成包括按照多个音频对象的帧和用于对象关系音频服务的文件标题的对象关系音频文件的相关比特流;和比特流传输单元,其将所述比特流传输至对象关系音频文件播放装置,其中,所述按照音频对象的帧,可由存储混合了多个整个音频对象的音源的帧和分别存储所述多个音频对象的帧构成。

Description

对象关系音频文件提供装置和方法以及其播放装置和方法
技术领域
本发明涉及一种对象关系音频文件提供装置及播放装置,和一种对象关系音频文件提供方法及对象关系音频播放方法,涉及后退兼容性(BackwardCompatibility)与在低配置用户终端中提供对象关系音频服务的装置及方法。
背景技术
通过电视、广播、DMB等播放服务提供的音频文件,作为将几个音源合成的一个音频文件而被存储和发送。此时,音源是对应音频对象的意思。在此类播放环境中,观众虽然可以调整整个音频文件的音量,但是无法进行依照音频文件内部包含的音源来调节音频文件音量之类的依照照音源的音频文件特性控制。
但是,在创建音频文件时,不依照音频对象整体合成音频文件,而是将其独立存储的话,用户就可以通过播放音频文件的音频文件播放装置容易地依照音源控制音频文件的音量。如上所述,在存储与提供单元中,将几个音频文件独立地存储和发送,用户可在播放装置中依照音源适当控制音频文件的服务,叫做对象关系音频服务。
依照对象关系音频服务,可将对应收集的音源的各对象的位置、声音的音量等对象特征定义为预置(preset)而应用到音频播放中。即,将与音频对象相关的预置创建为多个,并将其存储在音频文件内部的话,用户就可以有高效率地应用对象关系音频服务。此外,将对象关系音频服务应用于唱片的话,编辑人员可以将声乐部分、鼓、钢琴等各种音频对象以不整体混合的状态存储,而将混合音频对象的各种方法的相关预置与音频对象一并存储提供给用户。这样,用户可以将编辑人员编辑的预置中的一个根据自己取向选择,或者自己直接控制各音频对象生成预置,由此可以创作出用户所要风格的音乐。
最终,为进行对象关系音频服务,音频文件可包括多个音频音轨和与音频音轨的控制信息相关的预置。此时,音频音轨是对应音频对象的概念。用户可合成音频文件中包括的音频音轨进行播放。
但是,将对象关系音频服务应用到用户终端时存在问题。特别是,当用户终端为移动终端时,由于比一般的音频文件播放装置处理能力低,所以存在难以有效率地提供对象关系音频服务的问题。例如,当音频文件的处理容量低下的用户终端最多只能播放两个音频对象时,在目前的比特流(Bitstream)结构中无法进行对象关系音频服务。此外,不能执行对象关系音频服务的用户终端,也无法执行将音频对象整体混合的对象关系音频服务。
此外,当用户终端无法执行对象关系音频服务时,用户终端可以解析(parsing)对象关系音频文件,但是无法同时解码音频对象。即,当用户终端执行以往的音频服务时,对音频文件中包含的音频音轨的解码按顺序执行,无法同时解码多个音频音轨。
因此,要求一种在低配置的用户终端中也可以有效率地执行对象关系音频服务、在无法执行对象关系音频服务时也支持后退兼容的方法。此外,要求一种在音频对象被整体混合的情况下也可以执行对象关系音频服务的方法。
发明内容
解决课题
本发明提供一种装置和方法,其使可播放的音频对象在有限制的低配置用户终端中也可有效率地执行对象关系音频服务。
本发明提供一种装置和方法,其在无法执行对象关系音频服务的用户终端中也可提取音频对象进行播放,由此支持后退兼容。
课题解决手段
根据本发明的一个实施例的对象关系音频文件播放方法,可包括以下步骤:接收对象关系音频文件,所述文件包括用于对象关系音频服务的文件标题(file header)、记录有各个音频对象的帧及记录有整体混合了音频对象的音源的帧;和根据所述对象关系音频文件播放装置的配置,控制混合了所述音频文件整体的音源,播放所述对象关系音频文件。技术方案
根据本发明的一个实施例的对象关系音频文件播放装置,可包括:音频文件接收单元,其接收对象关系的音频文件,所述文件包括用于对象关系音频服务的文件标题、记录有各个音频对象的帧及记录有混合了音频对象整体的音源的帧;和音频文件播放单元,其根据所述对象关系音频文件播放装置的配置,控制混合了所述音频文件整体的音源,播放所述对象关系音频文件。
根据本发明的一个实施例的不可进行多个音频对象的解码的对象关系音频文件播放装置执行的对象关系音频文件播放方法,可包括以下步骤:解码对象关系音频文件中包含的至少一个依照音频对象的音频音轨;播放所述至少一个依照音频对象的音频音轨中由用户选择的音频音轨。
根据本发明的另一个实施例的可解码多个音频对象的对象关系音频文件播放装置执行的对象关系音频文件播放方法,可包括以下步骤:解码对象关系音频文件中至少一个降混频(down mix)音频音轨;和选择所述至少一个降混频音频音轨播放。
根据本发明的另一个实施例的可解码多个音频对象的对象关系受限的对象关系音频文件播放装置执行的对象关系音频文件播放方法,可包括以下步骤:解码对象关系音频文件中包含的依照多个音频对象的音频音轨、降混频所述多个音频对象的至少一个降混频音频音轨、音质提高音频音轨;推定所述降混频音频音轨中包含的音频对象中,所述对象关系音频文件中未包含的音频对象;播放对应推定的所述音频对象的音频音轨和依照多个音频对象的音频音轨的音频音轨。
根据本发明的一个实施例的不可以进行多个音频对象的解码的对象关系音频文件播放装置,可包括:音频文件解码单元,其解码对象关系音频文件中至少一个降混频音频音轨;和音频文件播放单元,其选择所述至少一个降混频音频音轨播放。
根据本发明的另一个实施例的可解码多个音频对象的对象关系音频文件播放装置,可包括:音频文件解码单元,其解码对象关系音频文件中包含的至少一个依照音频对象的音频音轨;和音频文件播放单元,其播放所述至少一个依照音频对象的音频音轨中由用户选择的音频音轨。
根据本发明的另一个实施例的可解码多个音频对象的音频对象受限的对象关系音频文件播放装置,可包括:音频文件解码单元,其解码对象关系音频文件中包含的依照多个音频对象的音频音轨、降混频所述多个音频对象的至少一个降混频音频音轨、音质提高音频音轨;音频文件播放单元,其推定所述降混频音频音轨中包含的音频对象中,所述对象关系音频文件中未包含的音频对象,播放对应推定的所述音频对象的音频音轨和依照多个音频对象的音频音轨的音频音轨。
在根据本发明的一个实施例的记录介质中,区分包含在对象关系音频文件中的音频音轨的音频服务区分信息,可被记录在存在于音频文件、电影盒(Movie Box)或音频音轨内部的一元盒(Meta Box)中的任何一个中。
在根据本发明的另一个实施例的记录介质中,区分包含在基于对象关系音频文件中的音频音轨的音频服务区分信息,可被记录在存在于音频文件、电影盒(Movie Box)内部的新盒中的任何一个中。
技术效果
根据本发明的一个实施例,在低配置的用户终端中也可执行对象关系音频服务。
根据本发明的一个实施例,在可以播放的音频对象受限的低配置用户终端中也可有效率地执行对象关系音频服务。
附图说明
图1是根据本发明的一个实施例的对象关系音频文件提供装置及对象关系音频文件播放装置的整体结构图;
图2是根据本发明的一个实施例的对象关系音频文件提供装置及对象关系音频文件播放装置的相关详细框图;
图3是示出根据本发明的一个实施例的对象关系音频文件的相关比特流的示图;
图4是示出根据本发明的一个实施例的对象关系音频文件的相关比特流的一个示例的示图;
图5是示出根据本发明的另一个实施例的对象关系音频文件的相关比特流的示图;
图6是示出根据本发明的一个实施例的对象关系音频文件提供方法的流程图;
图7是示出根据本发明的一个实施例的对象关系音频文件播放方法的流程图;
图8是示出根据本发明的一个实施例的对象关系音频文件播放过程的示图;
图9是示出根据本发明的另一个实施例的对象关系音频文件播放过程的示图;
图10是示出根据本发明其他另一个实施例的对象关系音频文件播放过程的示图;
图11是示出根据本发明的另一个实施例的对象关系音频文件播放装置的框图。
具体实施方式
下面,将参照附图对本发明实施例进行详细说明。
下面,将参照附图记载的内容,对本发明实施例进行详细说明。但是,本发明并不受实施例的限制或限定。各附图中显示的相同参考符号表示相同的部件。
图1是根据本发明的一个实施例的对象关系音频文件提供装置及对象关系音频文件播放装置的整体结构图。
图1所示的对象关系音频文件提供装置100及对象关系音频文件播放装置101,可以处理包含多个音频音轨的音频文件。即,对象关系音频文件提供装置100,可将音频文件的相关比特流提供至对象关系音频文件播放装置101,对象关系音频文件播放装置101,可从比特流提取音频文件,并播放音频文件中包含的音频音轨。此时,可依照对应音源的音频对象生成音频音轨。
本发明提出了,在对象关系音频文件播放装置101如处理容量低下的用户终端之类只能播放特定个数的音频对象时执行对象关系音频服务的方法。
此外,本发明提出了,在对象关系音频文件播放装置101无法提供对象关系音频服务时,也可以播放混合了多个音频对象的音源的方法。
图2是根据本发明的一个实施例的对象关系音频文件提供装置及对象关系音频文件播放装置的相关详细框图。
参照图2,对象关系音频文件提供装置100,可包括音频文件生成单元201及音频文件提供单元202。
音频文件生成单元201,可生成音频文件,其包括记录各个音频对象的帧、用于对象关系音频服务的文件标题、记录混合了音频对象整体的音源的帧。在这里,文件标题可包括,定义包括多个音频对象各自的对象位置或声音的音量在内的对象属性的音频预置。
此时,由于音频文件包括记录混合了多个音频对象整体的音源的帧,因此,可以由记录多个音频对象中除一个对象之外的其余对象对象的帧构成。对此,在图4中进行了具体说明。
作为另一个例子,用于对象关系音频服务的文件标题,可位于比特流的中间。对此,在图6中进行了具体说明。
音频文件提供单元202,可将音频文件转换为比特流发送至对象关系音频文件播放装置101。
参照图2,对象关系音频文件播放装置101,可包括音频文件接收单元203及音频文件播放单元204。
音频文件接收单元203可接收对象关系音频文件,所述对象关系音频文件包括用于对象关系音频服务的文件标题、记录各个音频对象的帧、混合了音频对象整体的音源的帧。
此外,音频文件播放单元204,可根据对象关系音频文件播放装置101的规格(specification),控制混合了音频对象整体的音源,播放对象关系音频文件。
例如,音频文件播放单元204,在如低配置的移动终端之类对象关系音频文件播放装置101支持的音频对象的个数受限时,基于对象关系音频文件播放装置101可支持的音频对象的个数,播放混合了音频对象整体的音源和用户想要控制的音频对象。对此,将在图3和图4中进行具体说明。
作为另一个例子,当对象关系音频文件播放装置不支持对象关系音频服务时,音频文件播放单元204,可播放混合了文件标题之前的所述音频对象整体的音源。此时,混合了音频对象整体的音源,可以位于对象关系音频文件中对象关系音频服务相关的文件标题之前。这样的话,音频文件播放单元204即使无法播放位于文件标题之后的音频对象,也可以播放混合了位于文件标题之前的音频对象整体的音源。对此将在图5中进行具体说明。
作为另一个例子,当对象关系音频文件中要播放的音频对象被排除在外时,音频文件播放单元204,使用混合了音频对象整体的音源和包含在对象关系音频文件中的其余音频对象,播放被排除在外的音频对象。对此,将在图4中进行具体说明。
图3是示出根据本发明的一个实施例的对象关系音频文件的相关比特流的示图。
参照图3,比特流可包括用于对象关系音频服务的文件标题301和按照多个音频对象的帧302~305。作为一个例子,音频对象帧302,可记录混合了多个音频对象整体的音源。此时,混合了多个音频对象整体的音源可被设定为一个音频对象。此外,依照多个音频对象的帧303~305,可以是在多个音频对象中根据混合了多个音频对象整体的音源的添加,记录除一个音频对象之外其余音频对象的帧。音频对象帧302~305中的每一个,可包括用于识别记录在相关帧中的音频对象的对象ID。
图4是示出根据本发明的一个实施例的对象关系音频文件的相关比特流的一个示例的示图。图4和图3中示出的比特流的结构相同。
如图4所示,多个音频对象各表示声乐部分、鼓、电子琴、吉他和钢琴。此时,音频对象1可表示将多个音频对象即声乐部分、鼓、电子琴、吉他和钢琴混合的音源。音频对象1可被记录在音频对象帧402中。
此外,多个音频对象中的每一个,可以记录在音频对象帧403~406中。但是,并不是多个对象全部被记录在音频对象帧403~406中,可以将一个音频对象排除在外。在图4中,钢琴被排除在外。根据本发明,即使多个对象没有全部被记录在音频对象帧中,也由于记录了混合了多个对象整体的音源,使对象关系音频文件播放装置101可播放多个对象整体。例如,由于音频对象1是混合了多个音频对象全部的对象,所以从音频对象1中排出其余音频对象即声乐部分、鼓、电子琴、吉他的话,就可以提取钢琴的相关音频对象。
通过所述过程,对象关系音频文件播放装置101可以控制多个音频对象的每个对象。
例)
音频对象1=声乐部分+鼓+电子琴+吉他+钢琴
钢琴对象=音频对象1(整体混合)-音频对象2(声乐部分)-音频对象3(鼓)-音频对象4(电子琴)-音频对象5(吉他)
钢琴对象控制(减小50%的强度)=钢琴对象-0.5*钢琴对象
钢琴对象删除(减小100%的强度)=音频对象1-钢琴对象
声乐部分对象控制(减小50%的强度)=音频对象1(整体混合)-0.5*音频对象2(声乐部分)
声乐部分对象删除(减小100%的强度)=音频对象1(整体混合)-音频对象2(声乐部分)
声乐部分对象控制(增大50%的强度)=音频对象1(整体混合)+0.5*音频对象2(声乐部分)
鼓对象控制(减少30%的强度、吉他对象控制(增大20%的强度)=音频对象1(整体混合)-0.3*音频对象3(鼓)+0.2*音频对象5(吉他)
此时,假设对象关系音频文件播放装置101是用户终端,可以实时播放最多三个音频对象。这样,对象关系音频文件播放装置101,基本上可以播放混合了多个音频对象整体的音源即音频对象1,和用户选择的两个音频对象。这样,用户可以将自己选择的两个音频对象调整为所想的值进行播放。
情况1)当对象关系音频文件播放装置101是支持两个对象的用户终端时,
播放音频对象1(整体混合)、音频对象2(声乐部分)←用户可以调整声乐部分的强度
播放音频对象1(整体混合)、音频对象3(鼓)←用户可以调整鼓的强度
情况2)当对象关系音频文件播放装置101是支持3个对象的用户终端时,
播放音频对象1(整体混合)、音频对象2(声乐部分)、音频对象3(鼓)←用户可以调整声乐部分和鼓的强度
播放音频对象1(整体混合)、音频对象2(声乐部分)、音频对象4(电子琴)←用户可以调整声乐部分和电子琴的强度
此外,在无法提供对象关系音频服务的现有移动终端中,也可以通过固件(firmware)升级,在只播放音频对象1时,提供后退兼容性。即,由于图3所示的比特流是音频对象1将多个音频对象整体混合的音源,所以以往的用户终端中,通过固件升级等方法,告知比特流中的音频对象1的位置的话,就可以提供混合多个音频对象整体的音源。
图5是示出根据本发明的另一个实施例的对象关系音频文件的相关比特流的示图。
图5示出对象关系音频文件的相关比特流中,文件标题502位于比特流的中间的情况。图5的对象关系音频文件播放装置101,表示无法播放用于对象关系音频服务的音频对象的装置。
图5所示的比特流,作为混合了多个音频对象整体的音源的音频对象1即501位于文件标题502上面。此时,对象关系音频文件播放装置101,即使无法播放文件标题502下面的用于对象关系音频服务的音频对象,也可以播放位于文件标题502上面的音频对象1即501,向用户提供对象关系音频服务。结果,根据本发明,在无法执行对象关系音频服务的用户终端中,也可以播放混合了音频对象整体的音源。
此外,对象关系音频文件播放装置101,无法播放文件标题502或其余音频对象503~505。在这里,文件标题502,可包括记录定义多个音频对象各自的对象位置或声音的音量的对象属性的音频预置。
图6是示出根据本发明的一个实施例的对象关系音频文件提供方法的流程图。
在步骤S601中,对象关系音频文件提供装置100生成对象关系音频文件,所述对象关系音频文件包括用于对象关系音频服务的文件标题(fileheader)、记录有各个音频对象的帧及记录有混合了音频对象整体的音源的帧。
此外,依照音频对象的帧,由于记录混合了多个音频对象整体的音源的帧,可由记录多个音频对象中除一个音频对象之外的其余音频对象的帧构成。
例如,用于对象关系音频服务的文件标题,可位于比特流的中间。
用于对象关系音频服务的文件标题,定义包含多个音频对象各自的对象位置或声音的音量的对象属性的音频预置。
在步骤S602中,对象关系音频文件提供装置100,可将音频文件的相关比特流发送至对象关系音频文件播放装置101。
图7是示出根据本发明的一个实施例的对象关系音频文件播放方法的流程图。
在步骤S701中,对象关系音频文件播放装置101,可接收对象关系音频文件,所述对象关系音频文件包括用于对象关系音频服务的文件标题、记录有各个音频对象的帧及记录有混合了音频对象整体的音源的帧。
此时,按照音频对象的帧,可由记录有混合了多个音频对象整体的音源的帧及记录多个音频对象中除一个对象之外的其余对象的帧构成。
在步骤S702中,对象关系音频文件播放装置101,可基于可支持的音频对象的个数,播放混合了音频对象整体的音源和用户想要控制的音频对象。其表示对象关系音频文件播放装置101支持的音频对象的个数受限的情况。
作为另一个例子,混合了音频对象整体的音源,可以在对象关系音频文件中位于对象关系音频服务相关文件标题之前。这样,不支持对象关系音频服务的对象关系音频文件播放装置101,可以播放位于文件标题之前的混合了音频对象整体的音源。
而且,当对象关系音频文件中要播放的音频对象被排除在外时,对象关系音频文件播放装置101,可使用混合了音频对象整体的音源和对象关系音频文件中包括的其余音频对象,播放被排除在外的音频对象。
下面,将提出以图1至图10中说明的事项不同的方法支持后退兼容性的方法。
图8至图10中说明的术语,可定义如下。
对象关系音频文件,包括各种音频音轨,可包括按照音频对象的音频音轨、降混频音频音轨或者音质提高音频音轨中的至少一个。音频音轨,指的是按照音频对象的播放对象,可被包含在对象关系音频文件中。当对象为n个时,音频音轨的个数也可以是n个。下载音频音轨,表示将至少一个音频音轨降混频。音质提高音频音轨,指的是从降混频音频音轨中排除降混频时使用的音频音轨的和。音质提高音频音轨,可用于将创建降混频音频音轨时发生的对自动消咔哒声(de-clpping)或母带处理(mastering)的影响从降混频音频音轨去除。
图8是示出根据本发明的一个实施例的对象关系音频文件播放过程的示图。
参照图8,对象关系音频文件播放装置801,选择适合服务的降混频音频音轨并将其解码,由此可向用户提供音频服务。
如图8所示,对象关系音频文件播放装置801,可以解析对象关系音频文件802,但是无法对多个音频音轨进行解码。此时,对象关系音频文件播放装置801,可以解码并播放将对象关系音频文件802中包含的依照对象的音频音轨进行了降混频的降混频音频音轨。
当对象关系音频文件802存在多个降混频音频音轨时,对象关系音频文件播放装置801,可播放选择的降混频音频音轨。此时,对象关系音频文件播放装置801,可根据用户的控制,播放调整了音量增益(gain)的降混频音频音轨。在对象关系音频文件802中,降混频音频音轨,可通过对每个降混频音频音轨分配的标识符(ID)进行区别。
图9是示出根据本发明的另一个实施例的对象关系音频文件播放过程的示图。
参照图9,对象关系音频文件播放装置901,可将对象关系音频文件902中选择的依照对象的音频音轨解码播放。图9所示的对象关系音频文件播放装置901,可以无限制地播放对象关系音频文件902中包含的N个依照对象的音频音轨。即,对象关系音频文件播放装置901,可以播放在对象关系音频文件902中包含的所有按照对象的音频音轨中,根据用户的控制选择的按照对象的音频音轨。
此时,被播放的依照对象的音频音轨,可以是用户选择的音频音轨。当被选择的依照对象的音频音轨为两个以上时,各个按照对象的音频音轨,可根据用户的控制,控制音量之后通过混合机混合并播放。在对象关系音频文件902中,依照对象的音频音轨,在对象关系音频文件902被创建时,可被存储为可独立进行控制。
图10是示出根据本发明其他另一个实施例的对象关系音频文件播放过程的示图。
图10所示的对象关系音频文件播放装置1001,与图9所示的对象关系音频文件播放装置901不同,可以解码的依照对象的音频音轨的个数受限制。即,假设,与对象关系音频文件播放装置901可以解码N个依照对象的音频音轨相反,对象关系音频文件播放装置1001可以解码N-1个音频音轨。
根据图10,对象关系音频文件播放装置1001,可以解码对象关系音频文件1002中包含的按照对象的音频音轨、降混频音频音轨、音质提高音频音轨。这种情况下,对象关系音频文件播放装置1001,可以使用解码的降混频音频音轨和依照对象的音频音轨,推定包含在降混频音频音轨中但是没有包含在对象关系音频文件1002中的依照对象的音频音轨。推定的依照对象的音频音轨,也被提供为可由用户选择。这样,按照对象的音频音轨与降混频音频音轨可通过用户的控制被选择。最终,即使有限制的对象关系音频文件播放装置1001,也可以通过添加处理,播放包含在降混频音频音轨中但是没有包含在对象关系音频文件1002中的依照对象的音频音轨。
添加处理过程可以说明如下。可假设对象关系音频内部1002中存储有如下所述的降混频音频音轨A,依照对象的音频音轨B、C,及音质提高音频音轨E。
A=f(声乐部分(B)+吉他(C)+鼓(D))
B=声乐部分
C=吉他
E=(B+C+D)-A(用于提高音质的音频音轨),E=(B+C+D)-f(B+C+D)
A作为降混频音频音轨,通过A=f(B+C+D)被决定,f(·)表示依照自动消咔哒声(de-clipping)和/或母带处理(mastering)的线性或非线性函数。B和C是指依照对象的音频音轨,E作为音质提高音频音轨,可由E=(B+C+D)-f(B+C+D)被决定。
对象关系音频文件播放装置1001,由于在解码A、B、C、E之后执行A-(B+C)+E的添加处理,因此可以推定鼓的相关音频音轨。之后,将推定的鼓的相关音频音轨提供给用户。这样,对象关系音频文件播放装置1001,可根据用户的控制,将按照对象的音频音轨解码播放。例如,对鼓减小50%的强度,可如(A-(B+C)+E)*0.5处理播放。
此外,当按照对象的音频音轨B、C或者降混频音频音轨A,以反转(invert)的形态的(乘以-1的)信号存储在对象关系音频文件1002时,对象关系音频文件播放装置1001,在将A、B、C解码之后进行A+(B+C)+E的处理,由此可推定鼓的相关音频音轨。其结果,推定的鼓的相关音频音轨可被提供给用户。这种情况下,反转的形态的音频音轨,可在对象关系音频文件播放装置1001中播放而无音质变化。由此,对象关系音频文件播放装置1001,不进行对各依照对象的音频音轨乘以-1的演算就可以播放依照对象的音频音轨。
图8至图10中,依照对象的音频音轨预合成,即,将音频服务区分信息存储在图示的对象关系音频文件内部,以使与对象关系音频文件播放装置的服务类型相关的音频音轨可以与混合和/或母带处理的降混频音频音轨一起被解码。如,音频服务区分信息,可指可区分降混频音频音轨与依照对象的音频音轨的标题信息。
同样地,由于音频服务区分信息存储在对象关系音频文件中,可以解析对象关系音频文件的现有对象关系音频文件播放装置,也可以播放对象关系音频文件内部存储的混降频音频音轨。此外,即使对象关系音频文件中没有存储所有按照对象的音频音轨时,对象关系音频文件播放装置也可使用降混频音频音轨进行添加处理,由此推定对象关系音频文件中没有存储的对象的音频音轨。这样,用户可以选择播放没有存储在对象关系音频文件中的推定的音频音轨,可以有效率地将对象关系音频文件存储并发送。
音频区分信息,可以以如下所述的方法存储在对象关系音频文件内部。
首先,对象关系音频文件的File(文件)、Movie Box(‘moov’)(电影盒)或各Track(‘trak’)(曲目)内部存在的Meta Box(一元盒)中,可存储与各强度相关的音频服务区分信息。
第二,对象关系音频文件的File或者Movie Box(‘moov’)内部定义的新盒(‘box’)中,可存储饮品服务区分信息。根据此方法,音频文件播放装置,通过对象关系音频文件,无需全部查找各按照音频对象的音轨的相关标题信息,就可以确认某音频服务是否可以进行。
此外,在现有的对象关系音频文件播放装置中播放对象关系音频文件时,使用盒中存放的音频服务区分信息的话,无需一一确认各音频音轨的标题信息,就可以容易地检索到降混频音频音轨。
此外,使用降混频音频音轨的媒体数据和依照对象音频音轨的媒体数据,推定对象关系音频文件内未存储的按照对象的音频音轨,并提供给用户时,可提供推定的音频音轨的名字(title_other)。
关于此的语法(syntax)和语义(semantics)如下。
Music Service Header Box
Box Type:‘mshd’
Container:File or Movie Box(‘moov’)
Mandatory:Yes
Quantity:Exactly one
Syntax
aligned(8)class  MusicServiceHeaderBox  extends  FullBox(‘mshd’,version=0,flags){
if(flags==2)
unsigned int(8)num_mixed_track_ID;
unsigned int(32)mixed_track_ID[num_mixed_track_ID];
unsigned int(8)dependency_type;
if(dependency_type==2)
unsigned int(32)enhanced_track_ID;
string title_other;
end
end
}
Semantics
version:盒的版本
flags:表示作为8字节标志旗表示可能进行的音频服务类型信息。
Service_noncompatibility:表示不提供与可解析对象关系音频文件但无法解码多个音频音轨的现有的对象关系音频文件播放装置的兼容性,支持新加入的对象关系音频文件播放装置。当标志旗的值为0x01时,表示对象关系音频文件内不存在在现有的对象关系音频文件播放装置中要解码的降混频音频音轨。
Service_compatibility:表示提供与可解析对象关系音频文件但无法解码多个音频音轨的现有对象关系音频文件播放装置的兼容性。当标志旗的值为0x02时,表示对象关系音频文件内存在在现有的对象关系音频文件播放装置中要解码的降混频音频音轨。
Figure BSA00000281445500141
num_mixed_track_ID:降混频音频音轨的个数
mixed_track_ID[num_mixed_track_ID]:降混频音频音轨的ID
dependency_type:表示为提供对象关系音频服务,在解码可独立控制的依照音频对象的音频音轨中,是否应用降混频音频音轨。
Figure BSA00000281445500151
enhanced_track_ID:音质提高音频音轨的ID。当对象关系音频文件内不存在enhanced_track时,具有值0。
title_other:通过在解码的降混频音频音轨与按照对象的音频音轨之间进行添加处理推定的音频音轨的名字。
第三,音频服务兼容性信息,可被包含在对象关系音频文件的file或者Movie Box(‘moov’)内部定义的新盒中。可区分将通过用户的控制选择出的依照对象的音频音轨合成的结果和依照对象的音频音轨的信息,可被存储于与各依照对象的音频音轨的展示相关联的以原数据存储为目的的Track box中。
Music Service Header Box
Box Type:‘mshd’
Container:File or Movie Box(‘moov’)
Mandatory:Yes
Quantity:Exactly one
Syntax
aligned(8)class  MusicServiceHeaderBox  extends  FullBox(‘mshd’,version=0,flags){
if(flags==3)
string title_other;
end
}
Semantics
version:盒的版本
flags:表示作为8字节标志旗表示可能进行的音频服务的类型信息。
Service_noncompatibility:表示不提供与可解析对象关系音频文件但无法解码多个音频音轨的现有的对象关系音频文件播放装置的兼容性,支持新加入的对象关系音频文件播放装置。当标志旗的值为0x01时,表示对象关系音频文件内不存在在现有的对象关系音频文件播放装置中要解码的降混频音频音轨。
Service_compatibility:表示提供与可解析对象关系音频文件但无法解码多个音频音轨的现有对象关系音频文件播放装置的兼容性。当标志旗的值为0x02和0x03时,表示对象关系音频文件内存在降混频音频音轨。
Figure BSA00000281445500161
title_other:通过解码的降混频音频音轨与依照对象的音频音轨之间的添加处理推定的依照对象的音频音轨的名字。
Audio Track Header B ox
Box Type:‘athd’
Container:Media Information Box(‘minf’)
Mandatory:Yes
Quantity:Exactly one
Syntax
aligned(8)class AudioTrackHeaderBox extends Box(‘athd’){
unsigned int(8)audio_track_type;
}
Semantics
audio_track_type:表示本音轨的服务特性
Track_mixed:表示降混频音频音轨。标志旗值为0x01。
Track_individual:表示可独立控制的按照对象的音频音轨。标志旗值为0x02。
Track_enhanced:表示音质提高音频音轨。当标志旗的值为0x03时,仅在对象关系内具有Track_mixed标志旗的依照对象的音频音轨存在时,具有Track_enhanced标志旗的依照对象的音频音轨才存在。对此,反过来不成立。
上面所述的对象关系音频文件的文件结构,如下面表1所示。
[表1]
Figure BSA00000281445500171
Figure BSA00000281445500181
图11是示出根据本发明的另一个实施例的对象关系音频文件播放装置的框图。
参照图11,对象关系音频文件播放装置1102,可包括音频文件解码单元1103和音频文件播放单元1104。
作为一个例子,音频文件解码单元1103,可以在对象关系音频文件1101中解码至少一个降混频音频音轨。那么,音频文件播放单元1104,可选择至少一个降混频音频音轨播放。
作为另一个例子,音频文件解码单元1103,可将对象关系音频文件1101中包含的至少一个按照音频对象的音频音轨解码。这样,音频文件播放单元1104,可播放至少一个依照音频对象的音频音轨中的由用户选择的音频音轨。
作为另一个例子,音频文件解码单元1103,可将对象关系音频文件1101中包含的多个依照音频对象的音频音轨、所述多个音频对象被降混频的至少一个降混频音频音轨、音质提高音频音轨解码。这样,音频文件播放单元1104,可推定在降混频音频音轨中包含的音频对象中,对象关系音频文件1101中不包含的音频对象,并播放推定的音频对象和多个依照音频对象的音频音轨。在图11中,音频音轨可应用由用户调整的增益播放。
根据本发明的实施例的方法,可被记录在由可通过各种计算机手段执行的程序指令形式构成的计算机可读介质中。所述计算机可读介质可包括:单独或组合的程序指令、数据文件、数据结构等。所述介质中记录的程序指令,可为专门为本发明特意设计和建构,也可为计算机软件技术人士公知而可使用的。
如上所示,本发明虽然已参照有限的实施例和附图进行了说明,但是本发明并不局限于所述实施例,在本发明所述领域中具备通常是知识的人,均可以从此记载中进行各种修改可变形。
因此,本发明的范围不受说明的实施例的局限或定义,而是由后附的权利要求范围或权力要求范围等同物定义。

Claims (18)

1.一种对象关系音频文件播放方法,由对象关系音频文件播放装置执行,包括以下步骤:
接收对象关系音频文件,所述文件包括用于对象关系音频服务的文件标题(file header)、记录有各个音频对象的帧及记录有混合了音频对象整体的音源的帧;和
根据所述对象关系音频文件播放装置的配置,控制混合了所述音频文件整体的音源,播放所述对象关系音频文件。
2.如权利要求1所述的方法,其中,播放所述对象关系音频文件的步骤,基于所述对象关系音频文件播放装置可支持的音频对象的个数,播放整体混合了音频对象的音源和用户想要控制的音频对象。
3.如权利要求1所述的方法,其中,所述混合了音频对象整体的音源,在所述对象关系音频文件中位于对象关系音频服务相关的文件标题之前,播放所述对象关系音频文件的步骤,当所述对象关系音频文件播放装置不支持对象关系音频服务时,播放位于所述文件标题之前的混合了所述音频对象整体的音源。
4.如权利要求1所述的方法,其中,播放所述对象关系音频文件的步骤,当在所述对象关系音频文件中想要播放的音频对象被排除在外时,使用混合了音频对象整体的音源和所述对象关系音频文件中包含的其余音频对象,播放所述被排除在外的音频对象。
5.如权利要求1所述的方法,其中,所述文件标题,包括定义包括所述音频对象各自的对象位置或声音大小的对象属性的音频预置。
6.一种对象关系音频文件播放装置,包括:
音频文件接收单元,其接收对象关系的音频文件,所述文件包括用于对象关系音频服务的文件标题、记录有各个音频对象的帧及记录有混合了音频对象整体的音源的帧;和
音频文件播放单元,其根据所述对象关系音频文件播放装置的规格,控制混合了所述音频文件整体的音源,播放所述对象关系音频文件。
7.如权利要求6所述的装置,其中,所述音频文件播放单元,基于所述对象关系音频文件播放装置可支持的音频对象的个数,播放整体混合了音频对象的音源和用户想要控制的音频对象。
8.如权利要求6所述的装置,其中,所述混合了音频对象整体的音源,在所述对象关系音频文件中位于对象关系音频服务相关的文件标题之前,所述音频文件播放单元,当所述对象关系音频文件播放装置不支持对象关系音频服务时,播放位于所述文件标题之前的混合了所述音频对象整体的音源。
9.如权利要求6所述的装置,其中,所述音频文件播放单元,当在所述对象关系音频文件中想要播放的音频对象被排除在外时,使用混合了音频对象整体的音源和所述对象关系音频文件中包含的其余音频对象,播放所述被排除在外的音频对象。
10.如权利要求6所述的装置,其中,所述文件标题,包括定义包括所述音频对象各自的对象位置或声音大小的对象属性的音频预置。
11.一种对象关系音频文件播放方法,由对象关系音频文件播放装置执行,包括以下步骤:
解码对象关系音频文件中至少一个降混频(down mix)音频音轨;和
选择所述至少一个降混频音频音轨播放。
12.一种对象关系音频文件播放方法,由对象关系音频文件播放装置执行,包括以下步骤:
解码对象关系音频文件中包含的至少一个依照音频对象的音频音轨;和
播放所述至少一个依照音频对象的音频音轨中由用户选择的音频音轨。
13.一种对象关系音频文件播放方法,由对象关系音频文件播放装置执行,包括以下步骤:
解码对象关系音频文件中包含的依照多个音频对象的音频音轨、降混频所述多个音频对象的至少一个降混频音频音轨、音质提高音频音轨;
推定所述降混频音频音轨中包含的音频对象中,所述对象关系音频文件中未包含的音频对象;
播放对应推定的所述音频对象的音频音轨和依照多个音频对象的音频音轨的音频音轨。
14.如权利要求11至权利要求13中任何一项所述的方法,其中,所述播放由用户选择的音频音轨的步骤,应用对所述音频音轨由所述用户调整的增益(gain)来播放。
15.一种对象关系音频文件播放装置,包括:
音频文件解码单元,其解码对象关系音频文件中至少一个降混频音频音轨;和
音频文件播放单元,其选择所述至少一个降混频音频音轨播放。
16.一种对象关系音频文件播放装置,包括:
音频文件解码单元,其解码对象关系音频文件中包含的至少一个依照音频对象的音频音轨;和
音频文件播放单元,其播放所述至少一个依照音频对象的音频音轨中由用户选择的音频音轨。
17.一种对象关系音频文件播放装置,包括:
音频文件解码单元,其解码对象关系音频文件中包含的依照多个音频对象的音频音轨、降混频所述多个音频对象的至少一个降混频音频音轨、音质提高音频音轨;
音频文件播放单元,其推定所述降混频音频音轨中包含的音频对象中,所述对象关系音频文件中未包含的音频对象,播放对应推定的所述音频对象的音频音轨和依照多个音频对象的音频音轨的音频音轨。
18.如权利要求15至权利要求17中任何一项所述的装置,其中,所述音频文件播放单元,应用对所述音频音轨由所述用户调整的增益(gain)来播放。
CN2010102903673A 2009-09-24 2010-09-25 对象关系音频文件提供装置和方法以及其播放装置和方法 Pending CN102034519A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR90358/09 2009-09-24
KR20090090358 2009-09-24
KR20090099155 2009-10-19
KR99155/09 2009-10-19
KR82997/10 2010-08-26
KR1020100082997A KR101125364B1 (ko) 2009-09-24 2010-08-26 객체기반 오디오 파일 제공 장치 및 객체기반 오디오 파일 재생 장치, 그리고, 객체기반 오디오 파일 제공 방법 및 객체기반 오디오 재생 방법

Publications (1)

Publication Number Publication Date
CN102034519A true CN102034519A (zh) 2011-04-27

Family

ID=43756683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102903673A Pending CN102034519A (zh) 2009-09-24 2010-09-25 对象关系音频文件提供装置和方法以及其播放装置和方法

Country Status (2)

Country Link
US (1) US20110069934A1 (zh)
CN (1) CN102034519A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106415711A (zh) * 2014-05-30 2017-02-15 索尼公司 信息处理装置和信息处理方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
SG11201610951UA (en) * 2014-06-30 2017-02-27 Sony Corp Information processing apparatus and information processing method
CN107018021B (zh) * 2017-03-31 2019-06-14 Oppo广东移动通信有限公司 软件升级处理方法、装置和终端
CN112165648B (zh) * 2020-10-19 2022-02-01 腾讯科技(深圳)有限公司 一种音频播放的方法、相关装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1577577A (zh) * 2003-07-12 2005-02-09 三星电子株式会社 构造用于混合的音频流的方法和装置以及信息存储介质
KR20050117776A (ko) * 2004-06-11 2005-12-15 엘지전자 주식회사 휴대용 오디오 기기에서의 음악 및 보이스 믹싱 기록장치및 방법
US20080049943A1 (en) * 2006-05-04 2008-02-28 Lg Electronics, Inc. Enhancing Audio with Remix Capability
WO2008100119A1 (en) * 2007-02-16 2008-08-21 Electronics And Telecommunications Research Institute Method for creating, editing, and reproducing multi-object audio contents files for object-based audio service, and method for creating audio presets
KR100999702B1 (ko) * 2007-11-07 2010-12-08 한국전자통신연구원 오디오 프리셋 생성 및 소비 방법과 그 장치 및 컴퓨터로 읽을 수 있는 기록매체와 파일 구조

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080093422A (ko) * 2006-02-09 2008-10-21 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1577577A (zh) * 2003-07-12 2005-02-09 三星电子株式会社 构造用于混合的音频流的方法和装置以及信息存储介质
KR20050117776A (ko) * 2004-06-11 2005-12-15 엘지전자 주식회사 휴대용 오디오 기기에서의 음악 및 보이스 믹싱 기록장치및 방법
US20080049943A1 (en) * 2006-05-04 2008-02-28 Lg Electronics, Inc. Enhancing Audio with Remix Capability
WO2008100119A1 (en) * 2007-02-16 2008-08-21 Electronics And Telecommunications Research Institute Method for creating, editing, and reproducing multi-object audio contents files for object-based audio service, and method for creating audio presets
KR100999702B1 (ko) * 2007-11-07 2010-12-08 한국전자통신연구원 오디오 프리셋 생성 및 소비 방법과 그 장치 및 컴퓨터로 읽을 수 있는 기록매체와 파일 구조

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106415711A (zh) * 2014-05-30 2017-02-15 索尼公司 信息处理装置和信息处理方法

Also Published As

Publication number Publication date
US20110069934A1 (en) 2011-03-24

Similar Documents

Publication Publication Date Title
JP5514803B2 (ja) オブジェクトベースのオーディオコンテンツの生成/再生方法、およびオブジェクトベースのオーディオサービスのためのファイルフォーマット構造を有するデータを記録したコンピュータ読み出し可能記録媒体
KR100868475B1 (ko) 객체기반 오디오 서비스를 위한 다중객체 오디오 콘텐츠파일의 생성, 편집 및 재생 방법과, 오디오 프리셋 생성방법
CN102034519A (zh) 对象关系音频文件提供装置和方法以及其播放装置和方法
US20060050794A1 (en) Method and apparatus for delivering programme-associated data to generate relevant visual displays for audio contents
US20060087925A1 (en) Content using apparatus, content using method, distribution server apparatus, infomation distribution method, and recording medium
JP2001155425A (ja) ディジタルデータ著作権保護システム
WO2006027957A1 (ja) 記録媒体、記録装置、記録方法、データ出力装置、データ出力方法およびデータ配布・流通システム
US20170034596A1 (en) Personalized soundtrack
JP2005071522A (ja) コンテンツ再生方法、コンテンツ再生装置およびコンテンツ配信方法
JP4106309B2 (ja) オーディオ放送受信装置
KR20090052780A (ko) 객체기반 오디오 서비스 제공 방법과, 이를 위한 다중객체오디오 콘텐츠 파일의 생성/편집/재생 방법 및 그 파일구조
KR20160150616A (ko) 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
US20120277894A1 (en) Audio authoring apparatus and audio playback apparatus for an object-based audio service, and audio authoring method and audio playback method using same
KR100460229B1 (ko) 오디오 데이터 파일에 그래픽 데이터를 삽입하는 방법 및삽입된 그래픽 데이터의 재생 방법
KR101125364B1 (ko) 객체기반 오디오 파일 제공 장치 및 객체기반 오디오 파일 재생 장치, 그리고, 객체기반 오디오 파일 제공 방법 및 객체기반 오디오 재생 방법
KR20190087354A (ko) 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
JP2004301885A (ja) カラオケ映像再生装置における映像更新方法
KR100789551B1 (ko) 디지털 방송 수신기에서 오디오 파일 재생 방법 및 시스템
KR100826659B1 (ko) 음악파일의 특정 연주부분을 소거 또는 선택하여 청취하는방법
JP4188138B2 (ja) 指定された楽曲の演奏期間中の指定された一部区間の映像を指定された映像に差し替えるカラオケ装置の映像システム
JP2010011159A (ja) 音楽再生装置
KR20080069008A (ko) 디지털 오디오 기기의 음향효과 자동 설정 장치 및 방법
Stewart et al. Interactive music applications and standards
JP2006520061A (ja) シームレスな再生を可能にする記録担体及び装置
KR20070024123A (ko) 광 디스크 기록 및 재생 장치 및 그 제어 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110427