CN111512634A - 信息处理装置、信息处理方法和程序 - Google Patents

信息处理装置、信息处理方法和程序 Download PDF

Info

Publication number
CN111512634A
CN111512634A CN201880082582.9A CN201880082582A CN111512634A CN 111512634 A CN111512634 A CN 111512634A CN 201880082582 A CN201880082582 A CN 201880082582A CN 111512634 A CN111512634 A CN 111512634A
Authority
CN
China
Prior art keywords
file
audio
audio data
priority
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201880082582.9A
Other languages
English (en)
Inventor
胜股充
平林光浩
浜田俊也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN111512634A publication Critical patent/CN111512634A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/07Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information characterised by processes or methods for the generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4621Controlling the complexity of the content stream or additional data, e.g. lowering the resolution or bit-rate of the video stream for a mobile client with a small screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4825End-user interface for program selection using a list of items to be played back in a given order, e.g. playlists
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

[问题]能够针对获取的对象音频数据中的每一条对象音频数据设置优先级。[解决手段]提供了一种信息处理装置,该信息处理装置设置有处理单元,该处理单元针对获取的对象音频数据中的每条对象音频数据设置优先级,基于优先级从一条或两条或更多条对象音频数据确定要被包括在生成的分段文件中的对象音频数据,并且基于优先级生成针对所生成的分段文件要设置的新的优先级作为优先级信息。

Description

信息处理装置、信息处理方法和程序
技术领域
本公开内容涉及信息处理装置、信息处理方法和程序。
背景技术
近年来,因特网上的流服务的主流已成为越顶视频(OTT-V)。作为OTT-V的基本技术,HTTP上的运动图像专家组阶段动态自适应流(MPEG-DASH)已经开始变得普遍(例如,参见非专利文献1)。
在通过使用MPEG-DASH执行的音频内容分发中,分发服务器为每个对象准备音频数据(该数据被称为“对象音频数据”),并且客户端根据传输路径等的情况请求最佳对象音频数据组,从而实现自适应流分发。
引用列表
非专利文献
非专利文献1:MPEG-DASH(Dynamic Adaptive Streaming over HTTP)(URL:http://standards.iso.org/ittf/PubliclyAvailableStandards/index.html)
发明内容
本发明要解决的问题
然而,在非专利文献1中描述的MPEG-DASH标准中,不可能以对象音频数据为单位设置优先级。因此,存在以下问题:客户端必须获取音频文件一次,换句话说,获取包括原本应该不需要的数据的整个文件,并且然后解析音频文件的对象音频元数据,并且不能有效地使用带宽,并且客户端也具有处理开销。
因此,鉴于上述问题提出本公开内容,并且本公开内容的目的是提供能够为获取的每个对象音频数据设置优先级的新的且改进的信息处理装置、信息处理方法和程序。
问题的解决方案
根据本公开内容,提供了一种信息处理装置,包括处理单元,该处理单元针对获取的每个对象音频数据设置优先级,基于优先级从一条或更多条对象音频数据中确定要被包括在生成的分段文件中的对象音频数据,并且基于优先级生成针对所生成的分段文件要设置的新的优先级,作为优先级信息。
此外,根据本公开内容,提供了一种由计算机执行的信息处理方法,包括对针对获取的每个对象音频数据设置了优先级的流数据执行信息处理。
此外,根据本公开内容,提供了一种程序,用于使计算机对针对获取的每个对象音频数据设置了优先级的流数据实现信息处理。
本发明的有益效果
如上所述,根据本公开内容,可以针对获取的每个对象音频数据设置优先级。
注意,上述效果不一定是限制性的,除了上述效果之外或者代替上述效果,可以呈现本说明书中描述的任何效果或者可以从本说明书中掌握的其他效果。
附图说明
[图1]图1是示出本公开内容的背景的图。
[图2]图2是示出本公开内容的背景的图。
[图3]图3是示出本公开内容的背景的图。
[图4]图4是示出本公开内容的背景的图。
[图5]图5是示出本公开内容的背景的图。
[图6]图6是示出根据本实施方式的信息处理***的***配置示例的图。
[图7]图7是示出根据本实施方式的服务器100的功能配置示例的框图。
[图8]图8是示出根据本实施方式的客户端200的功能配置示例的框图。
[图9]图9是示出基于优先级的音频文件生成的示例的图。
[图10]图10是示出基于优先级的音频文件生成的示例的图。
[图11]图11是示出基于优先级的音频文件生成的示例的图。
[图12]图12是示出基于优先级的音频文件生成的示例的图。
[图13]图13是示出在优先级不随时间改变的情况下的优先级信息信令示例的图。
[图14]图14是示出在优先级随时间改变的情况下的文件配置的图。
[图15]图15是示出MPEG-H 3D音频中的音频文件的ISOBMFF的图。
[图16]图16是用于说明ISOBMFF的Box结构的图。
[图17]图17是示出MPEG-H 3D音频中的元数据文件的ISOBMFF(示例1,RAW方法)的图。
[图18]图18是示出MPEG-H 3D音频中的元数据文件的ISOBMFF(示例1,MHAS方法)的图。
[图19]图19是示出MPEG-H 3D音频中的元数据文件的ISOBMFF(示例2,RAW方法)的图。
[图20]图20是示出MPEG-H 3D音频中的元数据文件的ISOBMFF(示例2,MHAS方法)的图。
[图21]图21是示出AAC 3D音频中的音频文件的ISOBMFF的图。
[图22]图22是示出AAC 3D音频中的元数据文件的ISOBMFF(示例3)的图。
[图23]图23是示出AAC 3D音频中的元数据文件的ISOBMFF(示例4)的图。
[图24]图24是用于说明音频文件与元数据文件之间的关联的示例的图。
[图25]图25是示出音频文件与元数据文件之间的关联的示例(示例1)的图。
[图26]图26是示出音频文件与元数据文件之间的关联的示例(示例2)的图。
[图27]图27是示出音频文件与元数据文件之间的关联的示例(示例3)的图。
[图28]图28是示出音频文件与元数据文件之间的关联的示例(示例4)的图。
[图29]图29是示出音频文件与元数据文件之间的关联的示例(示例5)的图。
[图30]图30是示出在比特率不随时间改变的情况下的信令示例(示例1)的图。
[图31]图31是示出在比特率不随时间改变的情况下的信令示例(示例2)的图。
[图32]图32是示出在比特率不随时间改变的情况下的信令示例(示例3)的图。
[图33]图33是示出在比特率不随时间改变的情况下的信令示例(示例4)的图。
[图34]图34是用于说明在比特率随时间改变的情况下的信令示例的图。
[图35]图35是示出在比特率随时间改变的情况下的信令示例(示例5)的图。
[图36]图36是示出在比特率随时间改变的情况下的信令示例(示例6)的图。
[图37]图37是示出在比特率随时间改变的情况下的信令示例(示例7)的图。
[图38]图38是示出在比特率随时间改变的情况下的信令示例(示例8)的图。
[图39]图39是示出描述信息信令示例的图。
[图40]图40是示出在优先级不随时间改变的情况下直到客户端200获取用于再现音频内容的音频文件的处理示例的流程图。
[图41]图41是用于说明在优先级不随时间改变的情况下直到客户端200获取用于再现音频内容的音频文件的处理示例的图。
[图42]图42是示出在优先级随时间改变的情况下直到客户端200获取用于再现音频内容的音频文件的处理示例的流程图。
[图43]图43是用于说明在优先级随时间改变的情况下直到客户端200获取用于再现音频内容的音频文件的处理示例的图。
[图44]图44是示出体现服务器100或客户端200的信息处理装置900的硬件配置示例的框图。
[图45]图45是示出3da_meta_data()的结构的图。
[图46]图46是示出存储在DSE中的3da_meta_data()的结构的图。
[图47]图47是示出DSE的结构的图。
[图48]图48是示出存储在DSE中的data_stream_byte中的3da_adjustry_data的结构的图。
具体实施方式
下面将参照附图详细描述本公开内容的优选实施方式。注意,在本说明书和附图中,具有基本相同功能配置的部件由相同的附图标记表示,并且将省略冗余的说明。
注意,将按以下顺序进行描述。
1.背景
2.配置示例
3.基于优先级的文件生成的示例
4.优先级信息信令示例
5.比特率信息信令示例
6.描述信息信令示例
7.客户端200的处理示例
8.硬件配置示例
<1.背景>
首先,将描述本公开内容的背景。
MPEG-H 3D音频和AAC 3D音频是可以处理作为针对每个对象生成的音频数据的对象音频数据的标准。音频内容包括作为声源的波形数据的多条对象音频数据、以及包括关于对象的位置、声音的传播、各种效果等的信息的对象元数据。
例如,如图1所示,对象元数据和多条对象音频数据(在图1中,示出了对象音频数据1至对象音频数据n)由服务器等提供给客户端。在接收到对象元数据和对象音频数据时,用作对象渲染器的客户端基于再现环境信息(例如,扬声器的位置或数目等)执行渲染,并且将波形数据提供给诸如扬声器的再现环境,从而实现音频内容的再现。
此处,在MPEG-H 3D音频和AAC 3D音频中,不总是必须渲染所有对象音频数据。因此,可以考虑如下方法,例如,其中服务器不向客户端提供不被渲染的对象音频数据本身,或者从对象元数据中排除不被渲染的对象音频数据。
此外,在这些标准中,可以以彼此不同的比特率来再现多条对象音频数据。例如,如图2的2A所示,假设音频内容包括对象元数据和分别准备了高比特率数据和低比特率数据的对象音频数据1至对象音频数据3。在这种情况下,可以自由地组合要再现的对象音频数据的比特率。例如,如图2B所示,对象音频数据1和对象音频数据2可以以高比特率进行再现,并且对象音频数据3可以以低比特率进行再现。
在提供音频内容的情况下,对象音频数据被存储在音频文件中并且被发送至客户端。此处,将参照图3描述具体示例。如图3的3A所示,在存在对象音频数据1至对象音频数据3以及与这些数据相对应的对象元数据的情况下,多个组合可以被认为是将它们存储在音频文件中的模式,如3B-1至3B-3所示。
更具体地,如3B-1所示,所有数据可以存储在一个音频文件中,或者如3B-3所示,对象音频数据和与其对应的对象元数据之一可以存储在一个音频文件中。此外,如3B-2所示,一条或更多条对象音频数据和与其对应的对象元数据可以分别存储在音频文件中。
顺便提及,在MPEG-DASH中提供音频内容的情况下,生成具有彼此不同的比特率的音频文件,并且客户端可以从这些音频文件中选择期望的音频文件。
例如,假设如图4所示分别生成具有64[kbps]和32[kbps]的比特率的对象音频数据1至对象音频数据3。在这种情况下,存在可以由客户端获取的音频文件的23个组合。存在具有相同总比特率的组合,例如,文件1-1、文件2-1和文件3-2的组合(总共160[kbps])以及文件1-1、文件2-2和文件3-1的组合(总共160[kbps])。
然而,客户端不能仅通过关于总比特率的信息来确定哪个组合是更适当的。因此,可以考虑将优先级设置为指示哪个对象音频数据应该以较高的声音质量(换句话说,较高的比特率)再现的信息,使得客户端可以确定更适当的组合。
作为可以用作优先级信息的对象元数据之一,可以提及MPEG-H 3D音频等中的“优先级”。然而,优先级是存储在对象元数据中的数据,并且因此,在将优先级应用于MPEG-DASH的情况下,客户端获取音频文件一次,并且从对象元数据获取优先级,从而确定音频文件的比特率。换句话说,客户端必须获取不必要的数据。
因此,鉴于上述情况,本公开内容的公开者已经创建了根据本公开内容的技术。本公开内容使得能够设置所获取的每个对象音频数据的优先级,并且能够高效的获取,并且能够基于优先级来实现适当的音频内容的分发和再现。
此外,在MPEG-DASH中,客户端基本上基于音频文件的比特率来确定要获取的音频文件。因此,在不存在上述优先级信息的情况下,例如,在如图5所示通过组合对象音频数据1和对象音频数据2的比特率来生成四种类型的音频文件的情况下,由于文件2和文件3的比特率都是96[kbps],所以客户端不能仅通过关于比特率的信息来确定哪个音频文件是更适当的,并且此外,内容提供商不能向客户端提供预期的对象音频数据及其比特率的组合。
另一方面,本公开内容可以以存储在音频文件中的对象音频数据为单位向客户端提供比特率信息。因此,客户端还通过考虑上述优先级信息,可以确定哪个音频文件,文件2还是文件3是更适当的。
此外,本公开内容可以向客户端提供对象音频数据的描述信息。因此,操作客户端的用户可以使期望的对象音频数据以高比特率被再现。
在下文中,将更详细地描述本公开内容的一个实施方式。
<2.配置示例>
在以上描述中,已经描述了本公开内容的背景。随后,参照图6至图8,将描述根据本公开内容的实施方式的信息处理***的配置示例。
(2-1.***配置示例)
首先,参照图6,将描述根据本实施方式的信息处理***的***配置示例。
如图6所示,根据本实施方式的信息处理***包括服务器100和客户端200。然后,服务器100和客户端200经由因特网300彼此连接。
服务器100是基于MPEG-DASH将用于音频内容的对象音频数据分发(流)到客户端200的信息处理装置(发送装置)。更具体地,服务器100获取用于每个对象的音频内容的音频数据,并且通过以对象为单位对数据进行编码来生成流数据。然后,服务器100通过将流数据转换为被称为分段的用于约几秒到10秒的每个时间单位的文件,或者用于所有内容的文件来生成音频文件。
注意,对象是声源,并且通过附接至对象的麦克风等获取每个对象的音频数据。该对象可以是诸如麦克风支架的固定对象,或者诸如人的移动对象。
此外,服务器100对包括每个对象的位置信息等的对象元数据进行编码。服务器100通过将对象元数据的编码数据转换为以段为单位的文件来生成元数据文件。
此外,服务器100生成用于管理音频文件的媒体呈现描述(MPD)文件(控制信息)。
然后,服务器100响应于来自客户端200的请求,将上述音频文件、元数据文件、MPD文件等发送至客户端200。
客户端200是再现音频内容的信息处理装置(接收装置)。更具体地,客户端200从服务器100获取MPD文件,并且基于MPD文件从服务器100获取元数据文件和音频文件。然后,客户端200对从服务器100获取的音频文件进行解码、合成和输出,从而实现音频内容的再现。
在上文中,已经描述了根据本实施方式的信息处理***的配置示例。注意,以上参照图6描述的配置仅是示例,并且根据本实施方式的信息处理***的配置不限于这样的示例。例如,可以在客户端200或另一外部装置中提供服务器100的一些功能。例如,提供服务器100的一些功能的软件(例如,使用预定应用编程接口(API)的WEB应用等)可以在客户端200上执行。此外,相反地,可以在服务器100或另一外部装置中提供客户端200的一些功能。根据本实施方式的信息处理***的配置可以根据规范和操作而灵活地修改。
(2-2.服务器100的功能配置示例)
在以上描述中,已经描述了根据本实施方式的信息处理***的***配置示例。随后,参照图7,将描述服务器100的功能配置示例。
如图7所示,服务器100包括处理单元110、控制单元120、通信单元130和存储单元140。
处理单元110具有用于执行与音频内容的提供有关的处理的功能配置。如图7所示,处理单元110包括数据获取单元111、编码处理单元112、分段文件生成单元113和MPD文件生成单元114。
数据获取单元111具有用于获取用于每个对象的音频内容的音频数据(换句话说,获取对象音频数据)的功能配置。数据获取单元111可以从服务器100内获取对象音频数据,或者可以从连接至服务器100的外部装置获取对象音频数据。此外,数据获取单元111可以针对获取的每个对象音频数据设置优先级,或者可以获取预先设置了优先级的对象音频数据。数据获取单元111将获取的对象音频数据提供给编码处理单元112。
编码处理单元112具有用于通过针对每个对象对从数据获取单元111提供的对象音频数据进行编码来生成流数据的功能配置。此外,编码处理单元112对包括从外部输入的每个对象的对象位置信息等的对象元数据进行编码。编码处理单元112将每个对象的流数据和对象元数据的编码数据提供给分段文件生成单元113。
分段文件生成单元113具有用于生成作为可以作为音频内容分发的单元中的数据的分段文件的功能配置。更具体地,分段文件生成单元113通过将从编码处理单元112提供的每个对象的流数据转换为以分段为单位的文件来生成音频文件。存在用于生成音频文件的各种模式。例如,分段文件生成单元113通过基于每个对象音频数据的优先级将一个或更多个对象音频数据存储在一个音频文件中来生成音频文件。此外,分段文件生成单元113还可以针对每个文件设置优先级信息。稍后将描述基于优先级的音频文件的生成的细节。
此外,分段文件生成单元113还可以通过将从编码处理单元112提供的对象元数据的编码数据转换为以段为单位的文件,来生成仅存储对象元数据的元数据文件。稍后将描述元数据文件的内容和生成元数据文件的情况。
MPD文件生成单元114具有用于生成MPD文件的功能配置。在本实施方式中,MPD文件生成单元114生成包括优先级信息、比特率信息或描述信息的MPD文件。稍后将描述MPD文件的内容的细节。
控制单元120具有用于全面地控制由服务器100执行的整个处理的功能配置。例如,控制单元120可以基于经由通信单元130接收到的来自客户端200的请求信息等来控制每个部件的启动和停止。注意,控制单元120的控制内容不受特别限制。例如,控制单元120可以控制通常在通用计算机、PC、平板PC等中执行的处理。
通信单元130具有用于与客户端200执行各种类型的通信的功能配置(也用作发送单元)。例如,通信单元130从客户端200接收请求信息,并且将MPD文件、元数据文件、音频文件等发送至客户端200,作为对请求信息的响应。注意,通信单元130的通信内容不限于这些。
存储单元140具有用于存储各种类型的信息的功能配置。例如,存储单元140存储对象音频数据、音频文件、对象元数据、元数据文件、MPD文件等,并且存储由服务器100的每个功能配置使用的程序、参数等。注意,存储在存储单元140中的信息不限于这些。
在上文中,已经描述了服务器100的功能配置示例。注意,参照图7描述的上述功能配置仅是示例,并且服务器100的功能配置不限于这样的示例。例如,服务器100不一定必须包括图7中所示的所有功能配置,此外,可以根据规范和操作来灵活地修改服务器100的功能配置。
(2-3.客户端200的功能配置示例)
在以上描述中,已经描述了服务器100的功能配置示例。随后,将参照图8描述客户端200的功能配置示例。
如图8所示,客户端200包括处理单元210、控制单元220、通信单元230和存储单元240。
处理单元210具有用于执行与音频内容的再现相关的处理的功能配置。如图8所示,处理单元210包括MPD文件获取单元211、MPD文件处理单元212、分段文件选择单元213、分段文件获取单元214、解码处理单元215和合成处理单元216。
MPD文件获取单元211具有用于在再现音频内容之前从服务器100获取MPD文件的功能配置。更具体地,MPD文件获取单元211基于用户操作等生成MPD文件的请求信息,并且经由通信单元230将请求信息提供给服务器100,从而从服务器100获取MPD文件。MPD文件获取单元211将获取的MPD文件提供给MPD文件处理单元212。
MPD文件处理单元212具有用于执行与从MPD文件获取单元211提供的MPD文件相关的处理的功能配置。更具体地,MPD文件处理单元212分析MPD文件,以识别用于获取音频文件或与其对应的元数据文件所需的信息(例如URL等),或者识别每个对象音频数据(或音频文件)的优先级、比特率等。MPD文件处理单元212将这些条信息提供给分段文件选择单元213。
分段文件选择单元213具有用于选择要获取的分段文件的功能配置。更具体地,分段文件选择单元213基于从MPD文件处理单元212提供的上述各种类型的信息来选择要获取的音频文件或元数据文件。例如,分段文件选择单元213选择要获取的音频文件,使得具有较高优先级的音频文件具有较高比特率。此时,分段文件选择单元213还考虑可用传输频带,并且选择例如在可用传输频带中具有最高比特率的音频文件。
注意,选择要获取的文件的方法不限于上述方法。例如,分段文件选择单元213可以基于来自用户的输入来选择用户期望的音频文件作为获取目标。分段文件选择单元213将关于要获取的文件的信息提供给分段文件获取单元214。
分段文件获取单元214具有用于获取分段文件的功能配置。更具体地,分段文件获取单元214基于从分段文件选择单元213提供的各种类型的信息生成针对音频文件或元数据文件的请求信息,并且经由通信单元230将请求信息提供给服务器100,从而从服务器100获取这些文件。分段文件获取单元214将获取的这些文件提供给解码处理单元215。
解码处理单元215具有用于对从分段文件获取单元214提供的音频文件或元数据文件中所包括的数据进行解码的功能配置。解码处理单元215将通过解码处理获得的对象音频数据等提供给合成处理单元216。
合成处理单元216具有用于对从解码处理单元215提供的多条对象音频数据进行合成和输出的功能配置。合成处理单元216将合成数据提供给控制单元220。
控制单元220具有用于全面地控制由客户端200执行的整个处理的功能配置。例如,控制单元220控制诸如显示器或扬声器的输出单元(未示出),并且输出由合成处理单元216提供的合成数据,从而向用户提供音频内容。此外,控制单元220基于用户使用诸如鼠标和键盘的输入单元(未示出)执行的输入来控制各种类型的处理。注意,控制单元220的控制内容不受特别限制。例如,控制单元220可以控制通常在通用计算机、PC、平板PC等中执行的处理。
通信单元230具有用于与服务器100执行各种类型的通信的功能配置(还用作接收单元)。例如,通信单元230基于用户输入等向服务器100发送请求信息,或者从服务器100接收MPD文件、元数据文件、音频文件等作为对请求信息的响应。注意,通信单元230的通信内容不限于这些。
存储单元240具有用于存储各种类型的信息的功能配置。例如,存储单元240存储从服务器100提供的对象音频数据、音频文件、对象元数据、元数据文件、MPD文件等,并且存储由客户端200的每个功能配置使用的程序、参数等。注意,存储在存储单元240中的信息不限于这些。
在上文中,已经描述了客户端200的功能配置示例。注意,参照图8描述的上述功能配置仅是示例,并且客户端200的功能配置不限于这样的示例。例如,客户端200不一定必须包括图8中所示的所有功能配置。此外,可以根据规范和操作来灵活地修改客户端200的功能配置。
<3.基于优先级的音频文件生成的示例>
在以上描述中,已经描述了客户端200的功能配置示例。随后,将描述基于优先级的音频文件生成的示例。
如上所述,服务器100的分段文件生成单元113通过以下操作来生成音频文件:通过使用每个对象音频数据的优先级信息组合一个或更多个对象音频数据并且将它们存储在一个音频文件中。此外,分段文件生成单元113还可以设置每个文件的优先级信息。
此处,参照图9至图12,将描述基于优先级的音频文件生成的示例。例如,如图9的9A所示,假设存在对象音频数据1至对象音频数据4,并且预先为这些数据设置优先级。更具体地,对象音频数据1的优先级是3,对象音频数据2和对象音频数据3的优先级是2,并且对象音频数据4的优先级是1(注意,值越高,优先级越高)。
在这种情况下,分段文件生成单元113可以组合具有更接近的优先级(优先级差小于或等于预定值)的对象音频数据,并且将这些对象音频数据存储在一个音频文件中。例如,如图9B所示,分段文件生成单元113可将作为一系列数据中的第一数据的对象音频数据1与均具有更接近对象音频数据1的优先级3的优先级2(例如,优先级差小于或等于1)的对象音频数据2和对象音频数据3进行组合,并且将这些对象音频数据存储在一个音频文件中。然后,分段文件生成单元113可以将剩余的对象音频数据4存储在另一音频文件中。
然后,分段文件生成单元113可以将存储在一个音频文件中的对象音频数据的优先级中的最高优先级设置为该一个音频文件的优先级。例如,如图9B所示,分段文件生成单元113可以将对象音频数据1至对象音频数据3的优先级中的最高优先级3设置为存储这些数据的音频文件的优先级。注意,设置音频文件的优先级的方法不限于此。例如,分段文件生成单元113可以将存储在一个音频文件中的对象音频数据的优先级中具有相同优先级的数据的最大数目的优先级设置为音频文件的优先级。此外,分段文件生成单元113可以将存储在一个音频文件中的对象音频数据的优先级的平均值设置为音频文件的优先级。
此外,在没有为对象音频数据1至对象音频数据4设置优先级的情况下,或者在如图10的10A中所示所有优先级相同的情况下,如图10B中所示,分段文件生成单元113可以将所有对象音频数据存储在同一音频文件中。然后,分段文件生成单元113不必设置音频文件的优先级,或者可以将为每个对象音频数据设置的相同的优先级设置为音频文件的优先级。
此外,如图11的11A所示,在对象音频数据1至对象音频数据4的优先级彼此不同的情况下,如图11B所示,分段文件生成单元113可以将对象音频数据分别存储在不同的音频文件中。然后,分段文件生成单元113可以将与每个对象音频数据的优先级相同的值设置为每个音频文件的优先级。
此外,如图12的12A所示,假设对象音频数据1至对象音频数据3的优先级是2,并且对象音频数据4的优先级是1。在这种情况下,如图12B所示,分段文件生成单元113可以将具有相同优先级的对象音频数据1至对象音频数据3存储在一个音频文件中,并且将具有不同优先级的对象音频数据4存储在另一音频文件中。同样在图12B中,与每个对象音频数据的优先级相同的值被设置为每个音频文件的优先级。
此处,在MPEG-DASH中,客户端200以音频文件为单位执行获取控制。因此,如图9的9B、图10的10B和图12的12B所示,分段文件生成单元113将多条对象音频数据存储在一个音频文件中,从而内容创建器可以控制对象音频数据和其比特率的组合。换句话说,内容创建器可以提供具有预期对象音频数据和比特率的组合的音频内容。另一方面,对于用户,对象音频数据的获取的自由度降低。
另一方面,在如图11的11B所示的对象音频数据之一存储在一个音频文件中的情况下,用户可以仅获取期望的对象音频数据,从而增加了对象音频数据的获取的自由度。另一方面,内容创建器变得难以防止音频内容以对象音频数据和比特率的非预期组合被再现。通过上述方式,内容创建器可以根据对象音频数据在音频文件中的存储模式来调整用户获取对象音频数据的自由度。
注意,基于优先级生成音频文件的方法或设置音频文件的优先级的方法不限于上述方法,并且可以适当地改变。
<4.优先级信息信令示例>
在以上描述中,已经描述了基于优先级的音频文件生成的示例。随后,将描述优先级信息信令示例。
(4-1.在优先级不随时间改变的情况下的信令示例)
首先,将描述在优先级不随时间改变的情况下的信令示例。
存储相同对象音频数据的具有不同比特率的音频文件的优先级彼此相同。因此,MPD文件的AdaptationSet(适应集)的信令是适当的。更具体地,本公开内容使用SupplementalProperty(补充性质)来新定义指示优先级信息的SchemeIdUri,并且服务器100的MPD文件生成单元114以值的形式存储优先级信息。
此处,参照图13,将描述优先级信息信令示例。如图13的13A所示,考虑存在存储对象音频数据1和对象音频数据2的音频文件的比特率变化、以及存储对象音频数据3的音频文件的比特率变化的情况(在图中,出于方便,对象音频数据被描述为“obj”)。然后,假设存储对象音频数据1和对象音频数据2的音频文件的优先级是2,并且存储对象音频数据3的音频文件的优先级是1。
在这种情况下,MPD文件生成单元114生成MPD文件,如图13B所示。更具体地,在Preselection(预选)的preselectionComponents(预选部件)中,列举包括要在音频内容中同时再现的对象音频数据的AdaptationSet。第一AdaptationSet是存储对象音频数据1和对象音频数据2的音频文件的AdaptationSet(其id为o1的AdaptationSet)。
第二AdaptationSet是存储对象音频数据3的音频文件的AdaptationSet(其id为o2的AdaptationSet),MPD文件生成单元114在AdaptationSet中设置指示优先级为1的SupplementalProperty。因此,客户端200的MPD文件处理单元212可以基于MPD文件掌握每个音频文件的优先级。
注意,以上仅是示例,并且信令方法不限于以上所述。例如,代替使用SupplementalProperty,可以添加objectAcquisitionProperity(对象获取性质)作为AdaptationSet的Attribute(性质)。更具体地,服务器100的MPD文件生成单元114可以在不使用SupplementalProperty的情况下在MPD文件中描述“<AdaptationSet id=“o1”objectAcquisitionPriority=“2”>”和“<AdaptationSet id=“o2”objectAcquisitionPriority=“1”>”。
(4-2.在优先级随时间改变的情况下的信令示例)
在以上描述中,已经在优先级不随时间改变的情况下描述了信令示例。随后,将描述在优先级随时间改变的情况下的信令示例。
在优先级随时间改变的情况下,对象元数据随时间改变。因此,如果在MPD或ISOBMFF文件的MovieBox(影片盒)区域中进行描述,则从服务器处理负荷和客户端处理开销增加的观点来看是不适当的。因此,服务器100的分段文件生成单元113生成仅存储与每个对象音频数据对应的对象元数据的元数据文件。
例如,如图14所示,考虑存在存储对象音频数据1、对象音频数据2和对应的对象元数据1+2的音频文件1以及存储对象音频数据3和对应的对象元数据3的音频文件2的情况。在这种情况下,分段文件生成单元113通过将对对象元数据1+2和对象元数据3进行集成而获得的对象元数据1+2+3转换为文件来生成元数据文件。注意,假设元数据文件是仅存储对象元数据的文件,但不限于此,并且元数据文件可以适当地存储其他数据。
此处,由于元数据文件的文件大小小于其中存储对象音频数据的音频文件的文件大小,因此客户端200在获取音频文件之前获取元数据文件,从而能够基于存储在文件中的对象元数据1+2+3的优先级信息来适当地执行音频文件获取控制。
由于没有定义将元数据文件存储在ISOBMFF中以及在MPEG-DASH中进行处理的方法,因此在本公开内容中对它们进行了新定义。在下文中,将给出MPEG-H 3D音频和AAC 3D音频中的元数据文件的ISO基媒体文件格式(ISOBMFF)以及存储在元数据文件中的对象元数据与对象音频数据之间的关联方法的描述。
(4-2-1.MPEG-H 3D音频的ISOBMFF)
在描述MPEG-H 3D音频中的元数据文件的ISOBMFF之前,将首先描述现有文件格式。MPEG-H 3D音频规定了在音频文件中存储对象音频数据和对象元数据的方法。例如,如图15的15A所示,考虑存在存储对象音频数据1、对象音频数据2和对象元数据1+2的音频文件1以及存储对象音频数据3和对象元数据3的音频文件2的情况。
在这种情况下,音频文件1和音频文件2中的每一个的ISOBMFF都类似于图15B的ISOBMFF。更具体地,在每个音频文件中,在包括在MovieBox(‘moov’)的SampleEntry(样本条目)中的MHAConfigurationBox(‘mhaC’)的MHADecoderConfigurationRecord中描述包括在样本中的对象的配置。此外,在包括在SampleEntry中的MHAMultiStreamBox(‘maeM’)中,描述在通过多个音频文件提供音频内容的情况下用于唯一地标识每个音频文件的streamID。包括在MediaDataBox(‘mdat’)中的每个样本数据每次都包括对象音频数据(基本流(ES))和对象元数据。
注意,适当地省略了参照图15及以下描述的ISOBMFF的Box结构。更具体地,图15的15B中所示的MovieBox包括各种部件,例如图16中所示的Track Box(轨道盒)。然后,SampleEntry被包括在该Box结构中的Sample Description Box(样本描述盒)中。
(4-2-1-1.MPEG-H 3D音频中的元数据文件的ISOBMFF(示例1))
在以上描述中,已经描述了MPEG-H 3D音频中的音频文件的ISOBMFF。随后,参照图17,将给出对MPEG-H 3D音频中的元数据文件的ISOBMFF(示例1)的描述。更具体地,将给出对MPEG-H 3D音频中的元数据文件的ISOBMFF的描述,该ISOBMFF存储图15的15A中所示的与对象音频数据1至对象音频数据3相对应的对象元数据1+2+3。此外,在MPEG-H 3D音频中,存在两种类型的存储方法,RAW方法和MHAS方法,并且下面将首先描述RAW方法。
此处,本公开内容新定义了MHAMetadataSampleEntry(‘mham’)。如图17的17A和17B所示,num_reference_streamID和reference_streamID在SampleEntry中被描述为关于与元数据文件相对应的音频文件的信息。更具体地,num_reference_streamID指示元数据文件对应的音频文件的数目,并且reference_streamID指示元数据文件对应的音频文件的streamID。
此外,SampleEntry包括用于指示每个对象元数据的内容的MHAMetadataConfigurationBox(‘mhmC’)。MHAMetadataConfigurationBox(‘mhmC’)包括与图15的15B中所示的音频文件的MHADecoderConfigurationRecord相同的MHADecoderConfigurationRecord。然而,在元数据文件的MHADecoderConfigurationRecord中,可以通过去除与Elementary stream(基本流)有关的配置来指示仅包括对象元数据。
在MediaDataBox(‘mdat’)的样本中,存储与由每个streamID指示的音频文件相对应的对象元数据。换句话说,服务器100的分段文件生成单元113将存储在每个音频文件中的对象元数据存储在元数据文件中的样本中。此时,将指示每个对象元数据的数据大小的大小添加到每个对象元数据的头。
注意,在本示例中,num_reference_streamID、reference_streamID等在ISOBMFF的Box结构中的SampleEntry中进行指示,但这不是限制。例如,num_reference_streamID、reference_streamID等可以在Sample Description Box、Sample Group(样本组)、或Sub-Sample Information Box(子样本信息盒)中进行指示。
随后,参照图18,将给出对MHAS方法的ISOBMFF的描述。如图18所示,在MHAS方法中,使用MHAMetadataSampleEntry(‘mhmm’)。此外,在MHAS方法中,MHAMetadataConfigurationBox可以作为MHAConfigurationBox存储在样本中,并且因此不必存储在SampleEntry中(在图中,示出了MHAMetadataConfigurationBox存储在SampleEntry中的示例)。其他点与上述RAW方法的那些点相同,并且因此将省略对其的描述。
(4-2-1-2.MPEG-H 3D音频中的元数据文件的ISOBMFF(示例2))
随后,参照图19,将给出对MPEG-H 3D音频中的元数据文件的ISOBMFF(示例2)的RAW方法的描述。
在该示例中,在样本中存储对图15的15A中所示的存储在音频文件1中的对象元数据1+2和存储在音频文件2中的对象元数据3进行整合的对象元数据1+2+3。换句话说,服务器100的编码处理单元112通过整合对象元数据1+2和对象元数据3来生成对象元数据1+2+3,并且分段文件生成单元113在创建元数据文件时将对象元数据1+2+3存储在样本中。
在该示例中,针对每个streamID指示存储在样本中的对象元数据的对象的数目。更具体地,如图19的19A所示,指示与其streamID(reference_streamID)为1的音频文件1对应的对象元数据的对象的数目(object_num)为二。换句话说,指示其streamID为1的音频文件1存储对象音频数据1和对象音频数据2,此外,指示与其streamID(reference_streamID)为2的音频文件2对应的对象元数据的对象的数目(object_num)为一。换句话说,指示其streamID为2的音频文件2存储在对象音频数据2之后的对象音频数据3。
包括图19的19A和19B中所示的MHAMetadataConfigurationBox的其他项与参照图17描述的其他项相同,因此将省略对其的描述。注意,在本示例中,reference_streamID等在ISOBMFF的Box结构中的SampleEntry中进行指示,但是这不是限制。例如,reference_streamID等可以在Sample Description Box、Sample Group、或Sub-Sample InformationBox中进行指示。
图20是示出本示例中的MHAS方法的ISOBMFF的图。除了指示对象元数据的对象的数目(object_num)之外,与参照图18描述的相同,因此将省略对其的描述。
(4-2-2.AAC 3D音频的ISOBMFF)
在以上描述中,已经描述了MPEG-H 3D音频的ISOBMFF。随后,将给出对AAC 3D音频的ISOBMFF的描述。
在描述AAC 3D音频中的元数据文件的ISOBMFF之前,将首先描述现有文件格式。在AAC 3D音频中,没有定义执行多个音频文件的信令的方法,并且因此在本公开内容中对其进行了新的定义。
更具体地,如图21的21A和21B所示,对于SampleEntry,AAC3DAudioSampleEntry(‘a3a2’)指示使用多个音频文件(在使用一个文件的情况下,使用SampleEntry(‘a3a1’)。此外,作为用于执行多个音频文件的信令的信息,与MPEG-H 3D音频的情况类似地使用MHAMultiStreamBox(‘maeM’)。因此,与MPEG-H 3D音频的情况类似,可以通过使用streamID来指示音频文件之间的关系。
此外,Track之间的关系由轨道参考指示。更具体地,从主轨道(在图21中,包括对象音频数据1和对象音频数据2的文件1)到辅助轨道(在图21中,包括对象音频数据3的文件2)的连接由主轨道的轨道参考(‘maux’)进行指示。此外,从辅助轨道到主轨道的连接由辅助轨道的轨道参考(‘mbas’)进行指示。
注意,还适当地省略了参照图21描述的ISOBMFF的Box结构。更具体地,图21的21A和21B中所示的MovieBox包括各种部件,例如图16中所示的Track Box。然后,SampleEntry被包括在Box结构中的Sample Description Box中(然而,Sample Entry不是图16中所示的(‘mham’),而是(‘a3a2’))。
(4-2-2-1.AAC 3D音频中的元数据文件的ISOBMFF(示例3))
在以上描述中,已经描述了AAC 3D音频中的音频文件的ISOBMFF。随后,参照图22,将给出对AAC 3D音频中的元数据文件的ISOBMFF(示例3)的描述。换句话说,将给出对AAC3D音频中的元数据文件的ISOBMFF的描述,该ISOBMFF存储图15的15A中示出的与对象音频数据1至对象音频数据3对应的对象元数据1+2+3。
在本公开内容中,新定义了指示该文件是AAC 3D音频中的元数据文件的A3AMetadataSampleEntry(‘a3am’)。如图22的22A和22B所示,num_reference_streamID和reference_streamID在SampleEntry中被描述为关于与元数据文件相对应的音频文件的信息。更具体地,num_reference_streamID指示元数据文件对应的音频文件的数目,并且reference_streamID指示元数据文件对应的音频文件的streamID。注意,在AAC 3D音频中,对象元数据的配置被存储在MediaDataBox(‘mdat’)的样本中,并且因此在SampleEntry中不执行信令。
在MediaDataBox(‘mdat’)的样本中,与由每个streamID指示的音频文件相对应地存储对象元数据。换句话说,服务器100的分段文件生成单元113将存储在每个音频文件中的对象元数据存储在元数据文件中的样本中。此时,将指示每个对象元数据的数据大小的大小添加到每个对象元数据的头。
此处,关于样本的结构,可以使用AAC 3D音频的3da_meta_data(),或者可以使用存储在DSE中并且在AAC 3D音频的基本流中使用的3da_meta_data()。注意,3da_meta_data()的结构如图45所示,DSE中存储的3da_meta_data()的结构如图46所示,并且DSE的结构如图47所示。注意,以data_stream_byte存储在图47所示的DSE中的3da_ancillary_data的结构如图48所示。然而,在3da_meta_data()的大小大于DSE的data_stream_byte的最大大小的情况下,3da_meta_data()被划分并且存储在多个DSE中。
注意,还适当地省略了参照图22及以下描述的ISOBMFF的Box结构。更具体地,图22的22A中所示的MovieBox包括各种部件,例如图16中所示的Track Box。然后,将SampleEntry包括在该Box结构中的Sample Description Box中(然而,SampleEntry不是图16中所示的(‘mham’),而是(‘a3am’))。
此外,在本示例中,num_reference_streamID、reference_streamID等在ISOBMFF的Box结构中的SampleEntry中进行指示,但这不是限制。例如,num_reference_streamID、reference_streamID等可以在Sample Description Box、Sample Group、或Sub-SampleInformation Box进行指示。
(4-2-2-2.AAC 3D音频中的元数据文件的ISOBMFF(示例4))
随后,参照图23,将给出对AAC 3D音频中的元数据文件的ISOBMFF(示例4)的描述。
在该示例中,在样本中存储对图15的15A中所示的存储在音频文件1中的对象元数据1+2和存储在音频文件2中的对象元数据3进行整合的对象元数据1+2+3。换句话说,编码处理单元112通过整合对象元数据1+2和对象元数据3来生成对象元数据1+2+3,并且分段文件生成单元113在创建元数据文件时将对象元数据1+2+3存储在样本中。
在该示例中,针对每个streamID指示存储在样本中的对象元数据的对象的数目。更具体地,如图23的23A所示,指示与其streamID(reference_streamID)为1的音频文件1对应的对象元数据的对象的数目(object_num)为二。换句话说,指示其streamID为1的音频文件1存储对象音频数据1和对象音频数据2,此外,指示与其streamID(reference_streamID)为2的音频文件2对应的对象元数据的对象的数目(object_num)为一。换句话说,指示其streamID为2的音频文件2存储在对象音频数据2之后的对象音频数据3。
此处,关于样本的结构,可以使用AAC 3D音频的3da_meta_data(),或者可以使用存储在DSE中并且在AAC 3D音频的基本流中使用的3da_meta_data()。
图23的23A和23B中所示的其他项与参照图22描述的项相同,因此将省略对它们的描述。注意,在本示例中,reference_streamID等在ISOBMFF的Box结构中的SampleEntry中进行指示,但是这不是限制。例如,reference_streamID等可以在Sample DescriptionBox、Sample Group或Sub-Sample Information Box中进行指示。
(4-2-3.音频文件与元数据文件之间的关联的示例)
随后,将给出音频文件与元数据文件之间的关联的示例的描述。本公开内容通过使用MPD文件实现了音频文件与元数据文件之间的关联。此处,在关于MPD文件的定义中,定义了音频文件的信令方法,但是没有定义元数据文件的信令方法。因此,在本公开内容中,定义了MPD文件中的元数据文件的信令方法。
例如,如图24所示,考虑存在存储对象音频数据1和对象音频数据2的音频文件的比特率变化、存储对象音频数据3的音频文件的比特率变化、以及与这些音频文件相对应的元数据文件的情况。
(4-2-3-1.音频文件与元数据文件之间的关联的示例(示例1))
该示例是通过向Preselection元素添加Property来便于获取元数据文件的方法。将参照图25详细描述该示例。
如图25所示,通过在MPD文件中的Preselection,在preselectionComponents中指示包括用于再现的对象音频数据的AdaptationSet,从而实现音频内容的再现。如上所述,由于以Preselection为起点执行再现,所以本公开内容执行元数据文件的AdaptationSet的信令以便于获取元数据文件。
更具体地,本公开内容添加“SupplementalProperty SchemeIdUri=“urn:mpeg:dash:objectAudio:objectMetadataFile”value=“**””。此处,该值指示包括元数据文件的AdaptationSet的id。例如,已经获取图25中的MPD文件的客户端200的MPD文件处理单元212可以从Preselection中包括的SupplementalProperty识别出包括元数据文件的AdaptationSet的id是“m1”(图中的附图标记10)。
然后,对于音频文件与元数据文件之间的关联,使用现有Representation(表示)的associationId。更具体地,客户端200的MPD文件处理单元212可以基于associationId是“o1-1”、“o1-2”、“o2-1”、“o2-2”(图中的附图标记11)来识别元数据文件对应的音频文件。
然而,在该示例的方法中,客户端200需要确认元数据文件的streamID,以确认包括在元数据文件中的streamID与每个音频文件的streamID之间的匹配,并且然后进一步获取每个音频文件并且确认音频文件的MovieBox(‘moov’)部分。换句话说,客户端200获取不用于再现的不必要的音频文件。
此外,如果对象彼此相同,则对象元数据具有相同的内容,而不管比特率如何。也就是说,与包括在相同的AdaptationSet中的音频文件相对应的对象元数据彼此相同。因此,不要求以Representation为单位而仅要求以AdaptationSet为单位来执行利用associationId执行的关联。换句话说,在关于音频文件与元数据文件之间的关联的描述中也存在浪费。
(4-2-3-2.音频文件与元数据文件之间的关联的示例(示例2))
在该示例中,将指示音频文件的streamID的方法添加到上述示例1。更具体地,如图26所示,在包括每个音频文件的AdaptationSet中,添加“SupplementalPropertySchemeIdUri=“urn:mpeg:dash:objectAudio:objectMetadataStreamID”value=“**””(图中的附图标记12)。该值指示音频文件的streamID。
因此,客户端200的MPD文件处理单元212可以在MPD文件中确认元数据文件中包括的streamID与每个音频文件的streamID之间的匹配。换句话说,客户端200不必获取不用于再现的不必要的音频文件。注意,包括音频文件与元数据文件之间的关联的其他内容与图25中示出的MPD文件的内容相同,因此将省略对其的描述。
(4-2-3-3.音频文件与元数据文件之间的关联的示例(示例3))
在该示例中,从上述示例2中省略了音频文件与元数据文件之间的关联的浪费。可以将用于执行包括元数据文件的AdaptationSet与包括每个音频文件的AdaptationSet之间的关联的associationId设置为AdaptationSet的属性。更具体地,如图27所示,可以将指示音频文件的AdaptationSet的associationId(图中的附图标记13)设置为包括元数据文件的AdaptationSet的属性。因此,减少了对关于音频文件与元数据文件之间的关联的描述的浪费。注意,其他内容与图26所示的MPD文件的内容相同,因此将省略对其的描述。
(4-2-3-4.音频文件与元数据文件之间的关联的示例(示例4))
该示例是执行元数据文件的AdaptationSet等的信令以进行Preselection的方法。更具体地,如图28所示,添加“SupplementalProperty SchemeIdUri=“urn:mpeg:dash:objectAudio:objectMetadataFileAndStreamID”value=“metadataASid,num_streamID,streamID1,audioASid1,streamID2,audioASid2,...,streamIDk,audioASidk””(图中的附图标记14)。
关于该值,metadataASid指示包括元数据文件的AdaptationSet的id,并且num_streamID指示元数据文件对应的音频文件的数目(换句话说,该数目与ISOBMFF中的num_reference_streamID相同)。然后,streamIDk指示元数据文件对应的音频文件的streamID,并且audioASidk指示包括该streamID的音频文件的AdaptationSet的id。
(4-2-3-5.音频文件与元数据文件之间的关联的示例(示例5))
在该示例中,利用元数据文件的AdaptationSet来执行示例4中的num_streamID、streamIDk和audioASidk的信令。更具体地,如图29所示,将“SupplementalPropertySchemeIdUri=“urn:mpeg:dash:objectAudio:objectMetadataStreamID”value=“num_streamID,streamIDk,audioASidk””(图中的附图标记15)添加到元数据文件的AdaptationSet。注意,其他内容与图28中所示的MPD文件的内容相同,因此将省略对其的描述。
<5.比特率信息信令示例>
在以上描述中,已经描述了优先级信息信令示例。随后,将描述比特率信息信令示例。更具体地,将描述在多条对象音频数据存储在一个音频文件中的情况下通过MPD文件指示每个对象音频数据的比特率信息的方法的示例。
(5-1.比特率不随时间改变的情况下的信令示例)
首先,将描述在比特率不随时间改变的情况下的信令示例。
(5-1-1.信令示例(示例1)在比特率不随时间改变的情况下)
该示例是仅在存储在音频文件中的多条对象音频数据的比特率彼此相等的情况下才可以使用的比特率信息信令示例。
例如,如图30的30A所示,考虑具有彼此相等的比特率(64[kbps])的对象音频数据1至对象音频数据3被存储在一个音频文件中的情况。在这种情况下,服务器100的MPD文件生成单元114生成MPD文件,如图30B所示。
更具体地,将“SupplementalProperty SchemeIdUri=“urn:mpeg:dash:objectAudio:objectNumber”value=“**””(图中的附图标记16)添加到MPD文件的Representation。该值指示存储在音频文件中的对象音频数据的条数。因此,客户端200的MPD文件处理单元212可以计算通过将整个音频文件的比特率(图中的“bitrate=“192000””)除以对象音频数据的条数而获得的值,作为每个对象音频数据的比特率。注意,适当地省略了参照图30及以下描述的MPD文件的内容。
(5-1-2.比特率不随时间改变的情况下的信令示例(示例2))
该示例是即使在音频文件中存储的多条对象音频数据的比特率彼此不同的情况下也可以使用的比特率信息的信令示例。
例如,如图31的31A所示,考虑其中每个具有64[kbps]的比特率的对象音频数据1和对象音频数据2以及具有32[kbps]的比特率的对象音频数据3被存储在一个音频文件中的情况。在这种情况下,服务器100的MPD文件生成单元114生成MPD文件,如31B所示。
更具体地,将“SupplementalProperty SchemeIdUri=“urn:mpeg:dash:objectAudio:objectBitrate”value=“bitrate1,bitrate2,...,bitratek””(图中的附图标记17)添加到MPD文件的Representation。该值指示按照对象音频数据的存储顺序存储在音频文件中的每个对象音频数据的比特率。因此,客户端200的MPD文件处理单元212可以识别每个对象音频数据的比特率。
(5-1-3.比特率不随时间改变的情况下的信令示例(示例3))
该示例是即使在音频文件中存储的多条对象音频数据的比特率彼此不同的情况下也可以使用的比特率信息的信令示例。
例如,如图31的31A所示,考虑其中每个具有64[kbps]的比特率的对象音频数据1和对象音频数据2以及具有32[kbps]的比特率的对象音频数据3被存储在一个音频文件中的情况。在这种情况下,服务器100的MPD文件生成单元114可以生成如图32所示的MPD文件。
更具体地,将“SupplementalProperty SchemeIdUri=“urn:mpeg:dash:objectAudio:objectBitrarateRatio”value=“ratio1,ratio2,...,ratiok””(图中的附图标记18)添加到MPD文件的Representation。该值指示按照对象音频数据的存储顺序存储在音频文件中的每个对象音频数据的比特率的比率。在图32的示例中,该值指示从对象音频数据1到对象音频数据3的比特率的比率是“2:2:1”。
因此,客户端200的MPD文件处理单元212可以通过使用整个音频文件的比特率(图中的“bitrate=“160000””)与每个对象音频数据的比特率之间的比率来计算每个对象音频数据的比特率。更具体地,MPD文件处理单元212可以识别出首先存储的对象音频数据1的比特率是整个音频文件的比特率(160[kbps])的2/5,并且将对象音频数据1的比特率计算为64[kbps]。可以以类似的方法计算对象音频数据2和对象音频数据3的比特率。
(5-1-4.比特率不随时间改变的情况下的信令示例(示例4))
该示例是组合上述示例1和示例2的比特率信息的信令示例。
例如,如图31的31A所示,考虑其中每个具有64[kbps]的比特率的对象音频数据1和对象音频数据2以及具有32[kbps]的比特率的对象音频数据3被存储在一个音频文件中的情况。在这种情况下,服务器100的MPD文件生成单元114可以生成如图33所示的MPD文件。
更具体地,将“SupplementalProperty SchemeIdUri=“urn:mpeg:dash:objectAudio:objectNumberBitrate”value=“number,bitrate1,bitrate2,...,bitratek””(图中的附图标记19)添加到MPD文件的Representation。值中的数字指示存储在音频文件中的对象音频数据的条数,并且bitratek指示按照对象音频数据的存储顺序的每个对象音频数据的比特率。
在该示例中,即使服务器100的MPD文件生成单元114适当地省略了上述数目或bitratek,客户端200的MPD文件处理单元212也可以适当地计算每个对象音频数据的比特率。
注意,代替组合上述示例1和示例2,可以组合示例1和示例3。换句话说,可以在MPD文件中指示关于存储在音频文件中的对象音频数据的条数的信息,以及其中按照对象音频数据的存储顺序指示每个对象音频数据的比特率的比率的信息。
(5-2.比特率随时间改变的情况下的信令示例)
随后,将描述在比特率随时间改变的情况下的信令示例。此处,将描述在比特率根据优先级而随时间改变的情况下的信令示例。
例如,如图34所示,考虑对象音频数据1至对象音频数据3被存储在一个音频文件中的情况。然后,在时间t1处,对象音频数据1的优先级是3并且其比特率是64[kbps],对象音频数据2的优先级是2并且其比特率是64[kbps],并且对象音频数据3的优先级是1并且其比特率是32[kbps]。然后,在随后的时间t2处,假设对象音频数据2的优先级改变为1并且其比特率改变为32[kbps],并且对象音频数据3的优先级改变为2并且其比特率改变为64[kbps]。
(5-2-1.在比特率随时间改变的情况下的信令示例(示例5))
该示例是仅指示存储在音频文件中的对象音频数据的比特率随时间改变的信令示例。
更具体地,如图35所示,将“SupplementalProperty SchemeIdUri=“urn:mpeg:dash:objectAudio:objectDynamicBitrate””(图中的附图标记20)添加到MPD文件的Representation。因此,客户端200的MPD文件处理单元212可以识别出对象音频数据的比特率随时间而改变,并且可以用于任何目的。注意,适当地省略了参照图35及以下描述的MPD文件的内容。
(5-2-2.比特率随时间改变的情况下的信令示例(示例6))
该示例是通过指示根据优先级确定音频文件中存储的对象音频数据的比特率来指示对象音频数据的比特率随时间改变的信令示例。
更具体地,如图36所示,将“SupplementalProperty SchemeIdUri=“urn:mpeg:dash:objectAudio:objectBitratePrior”value=“bitrate1,bitreta2,...,bitratek””(图中的附图标记21)添加到MPD文件的Representation。该值指示按优先级的降序排列的对象音频数据的比特率。因此,客户端200的MPD文件处理单元212可以识别每个对象音频数据的比特率。
(5-2-3.比特率随时间改变的情况下的信令示例(示例7))
该示例是通过指示根据优先级确定音频文件中存储的对象音频数据的比特率的比率来指示对象音频数据的比特率随时间改变的信令示例。
更具体地,如图37所示,将“SupplementalProperty SchemeIdUri=“urn:mpeg:dash:objectAudio:objectBitraetRatioPriority”value=“ratio1,ratio2,...,ratiok””(图中的附图标记22)添加到MPD文件的Representation。该值指示按照优先级的降序排列的对象音频数据的比特率的比率。
因此,客户端200的MPD文件处理单元212可以通过使用整个音频文件的比特率(图中的“bitrate=“160000””)与每个对象音频数据的比特率之间的比率来计算每个对象音频数据的比特率。
(5-2-4.比特率随时间改变的情况下的信令示例(示例8))
该示例是可以在按照音频文件中的存储顺序指示比特率的方法与按照优先级的降序指示比特率的方法之间切换的信令示例。
更具体地,如图38所示,将“SupplementalProperty SchemeIdUri=“urn:mpeg:dash:objectAudio:objectBitrate”value=“flag,bitrate1,bitrate2,...,bitratek””(图中的附图标记23)添加到MPD文件的Representation。值中的标志指示比特率是按照音频文件中的存储顺序排列还是按照优先级的降序排列。例如,标志为0的事实指示比特率在音频文件中按照存储顺序排列,而标志为1的事实指示比特率按照优先级的降序排列。此外,该值中的bitratek指示每个对象音频数据的比特率。
注意,每个对象音频数据的比特率不是由值中的bitratek指示的,而是每个对象音频数据的比特率的比率可以由ratiok指示。此外,即使音频文件中包括的对象音频数据的优先级彼此相同,也可以创建包括具有不同比特率的对象音频数据的音频文件,并且可以执行如上所述的信令。在这种情况下,客户端200可以选择用户期望的音频文件。
<6.描述信息信令示例>
在以上描述中,已经描述了比特率信息信令示例。随后,将描述描述信息信令示例。
此处,描述信息是指示存储在音频文件中的对象音频数据的内容(或类型、分类、类别等)的信息。例如,如图39的39A所示,假设对象音频数据1至对象音频数据3存储在一个音频文件中,并且其内容分别是主唱、合唱和乐队。在这种情况下,服务器100的MPD文件生成单元114生成如图39B所示的MPD文件。
更具体地,将“SupplementalProperty SchemeIdUri=“urn:mpeg:dash:objectAudio:objectDescription”value=“description1,description2,...,descriptionk””(图中的附图标记24)添加到MPD文件的Representation。该值指示按照对象音频数据的存储顺序的对象音频数据的描述信息。例如,““主唱、合唱、乐队””被存储在39B中所示的值中。
因此,操作客户端200的用户可以识别各个对象音频数据的内容,并且因此可以容易地选择期望的音频文件。注意,适当地省略了图39的39B中所示的MPD文件的内容。
<7.客户端200的处理示例>
在以上描述中,已经描述了信令示例描述信息。随后,将描述客户端200的处理示例。
(7-1.优先级不随时间改变的情况下的客户端200的处理示例)
首先,参照图40,将给出在优先级不随时间改变的情况下客户端200的处理示例的描述。图40是示出在优先级不随时间改变的情况下直到客户端200获取用于再现音频内容的音频文件的处理示例的流程图。
在步骤S1000中,客户端200的MPD文件处理单元212从MPD文件获取存储在MPD文件的AdaptationSet的每个音频文件中的对象音频数据的比特率信息(或者基于MPD文件的信息计算比特率信息)。在步骤S1004中,MPD文件处理单元212从AdaptationSet的SupplementalProperty的objectAcquisitionProperty(对象获取性质)获取优先级信息。
在步骤S1008中,分段文件选择单元213输出音频文件的组合,在该音频文件的组合中,存储在具有较高优先级的音频文件中的对象音频数据的最低比特率大于或等于存储在具有较低优先级的音频文件中的对象音频数据的最高比特率。换句话说,分段文件选择单元213输出具有较高优先级的音频文件的对象音频数据具有较高比特率的组合。然后,分段文件选择单元213按照总比特率的降序排列输出音频文件。
此处,将参照图41描述具体示例。如图41的41A所示,考虑存在作为存储对象音频数据1至对象音频数据3的音频文件1的比特率变化的音频文件1-1至音频文件1-3、以及作为存储对象音频数据4的音频文件2的比特率变化的音频文件2-1和音频文件2-2的情况。然后,假设音频文件1的优先级为2,并且音频文件2的优先级为1。
在这种情况下,在步骤S1008中,具有较高优先级的音频文件中存储的对象音频数据的最低比特率大于或等于具有较低优先级的音频文件中存储的对象音频数据的最高比特率的音频文件的组合是41B中示出的组合1至组合4。
然后,在步骤S1012中,分段文件选择单元213确定可用的传输频带。在步骤S1016中,分段文件选择单元213从在步骤S1008中输出的组合中选择可以基于可用传输频带以最高比特率传输的组合,并且分段文件获取单元214从服务器100获取该组合的音频文件。
此后,在下一个时间处存在分段数据的情况下(步骤S1020/否),继续执行步骤S1012和步骤S1016的处理。在下一个时间处不存在分段数据的情况下(步骤S1020/是),换句话说,在获取分段数据直到内容结束的情况下,结束关于音频文件获取的一系列处理步骤。在步骤S1016中获取的分段数据通过解码处理单元215和合成处理单元216进行对象音频数据的解码处理、合成处理等,从而将音频内容提供给用户。
(7-2.优先级随时间改变的情况下的客户端200的处理示例)
随后,参照图42,将给出在优先级随时间改变的情况下客户端200的处理示例的描述。图42是示出在优先级随时间改变的情况下直到客户端200获取用于再现音频内容的音频文件的处理示例的流程图。
在步骤S1100中,客户端200的MPD文件处理单元212从MPD文件获取MPD文件的AdaptationSet的每个音频文件中存储的对象音频数据的比特率信息(或者基于MPD文件的信息计算比特率信息)。在步骤S1104中,分段文件选择单元213从元数据文件获取在下一个再现时间处用于再现所需的所有对象音频数据的优先级。
在步骤S1108中,分段文件选择单元213输出音频文件的组合,在该音频文件的组合中,存储在具有较高优先级的音频文件中的对象音频数据的最低比特率大于或等于存储在具有较低优先级的音频文件中的对象音频数据的最高比特率。换句话说,分段文件选择单元213输出具有较高优先级的音频文件的对象音频数据具有较高比特率的组合。然后,分段文件选择单元213按照总比特率的降序排列输出音频文件。
此处,将参照图43描述具体示例。如图43的43A所示,考虑存在作为存储对象音频数据1至对象音频数据3的音频文件1的比特率变化的音频文件1-1至音频文件1-3、以及作为存储对象音频数据4的音频文件2的比特率变化的音频文件2-1和音频文件2-2的情况,然后,假设对象音频数据1的优先级是4,对象音频数据2的优先级是3,对象音频数据3的优先级是2,对象音频数据4的优先级是1,并且这些优先级随时间改变。然后,假设音频文件1和音频文件2的优先级根据存储在各个音频文件中的对象音频数据的优先级的改变而改变。
在这种情况下,在步骤S1108中,音频文件的组合是43B中所示的组合1至组合4,在所述音频文件的组合中,存储在具有较高优先级的音频文件中的对象音频数据的最低比特率大于或等于存储在具有较低优先级的音频文件中的对象音频数据的最高比特率。
然后,在步骤S1112中,分段文件选择单元213确定可用的传输频带。在步骤S1116中,分段文件选择单元213从在步骤S1108中输出的组合中选择可以基于可用传输频带以最高比特率传输的组合,并且分段文件获取单元214从服务器100获取该组合的音频文件。
此后,在下一个时间处存在分段数据的情况下(步骤S1120/否),继续执行步骤S1104至步骤S1116的处理。换句话说,由于优先级随时间改变,因此分段文件选择单元213从根据需要获取的元数据文件中连续获取在下一个再现时间处用于再现所需的所有对象音频数据的优先级,从而适当地响应优先级的改变。在下一个时间处不存在分段数据的情况下(步骤S1120/是),换句话说,在获取分段数据直到内容结束的情况下,结束关于音频文件获取的一系列处理步骤。在步骤S1116中获取的分段数据通过解码处理单元215和合成处理单元216进行对象音频数据的解码处理、合成处理等,从而将音频内容提供给用户。
注意,图40和图42的流程图中的步骤不一定必须按照所描述的顺序按时间顺序来处理。换句话说,流程图中的步骤可以以与所描述的顺序不同的顺序来处理,或者可以并行地处理。
<8.硬件配置示例>
在以上描述中,已经描述了客户端200的处理示例。随后,参照图44,将描述服务器100或客户端200的硬件配置示例。
图44是示出实现服务器100或客户端200的信息处理装置900的硬件配置示例的框图。信息处理装置900包括中央处理单元(CPU)901、只读存储器(ROM)902、随机存取存储器(RAM)903、主机总线904、桥接器905、外部总线906、接口907、输入装置908、输出装置909、存储装置(HDD)910、驱动器911和通信装置912。
CPU 901用作算术处理装置和控制装置,并且根据各种程序来控制信息处理装置900内的整体操作。此外,CPU 901可以是微处理器。ROM 902存储CPU 901要使用的程序、计算参数等。RAM 903临时存储在CPU 901的执行中使用的程序、在执行中适当改变的参数等。CPU 901、ROM 902和RAM 903通过包括CPU总线等的主机总线904彼此连接。服务器100的处理单元110或控制单元120、或者客户端200的处理单元210或控制单元220的功能通过CPU901、ROM 902和RAM 903的协作来实现。
主机总线904经由桥接器905连接至诸如***组件互连/接口(PCI)总线的外部总线906。注意,主机总线904、桥接器905和外部总线906不一定必须分开配置,并且这些功能可以在一条总线上实现。
输入装置908包括:用于用户输入信息的输入装置,例如鼠标、键盘、触摸面板、按钮、麦克风、开关和控制杆;基于用户的输入生成输入信号并且将输入信号输出至CPU 901的输入控制电路等。使用信息处理装置900的用户操作输入装置908,从而能够输入各种数据并且向每个装置给出执行处理操作的指令。
输出装置909包括例如显示装置,诸如阴极射线管(CRT)显示装置、液晶显示(LCD)装置、有机发光二极管(OLED)装置和灯。此外,输出装置909包括诸如扬声器和耳机的音频输出装置。输出装置909输出例如再现的内容。具体地,显示装置将诸如再现的视频数据的各种类型的信息显示为文本或图像。另一方面,音频输出装置将再现的音频数据等转换成音频并将其输出。
存储装置910是用于存储数据的装置。存储装置910可以包括存储介质、在存储介质上记录数据的记录装置、从存储介质读取数据的读取装置、删除记录在存储介质上的数据的删除装置等。存储装置910包括例如硬盘驱动器(HDD)。存储装置910驱动硬盘,并且存储各种数据和由CPU 901执行的程序。服务器100的存储单元140或客户端200的存储单元240的功能由存储装置910实现。
驱动器911是存储介质的读取器/写入器,并且被并入信息处理装置900中或从外部附接至信息处理装置900。驱动器911读取记录在诸如安装的磁盘、光盘、磁光盘或半导体存储器的可移除存储介质913上的信息,并且将该信息输出至RAM 903。此外,驱动器911还可以将信息写入可移除存储介质913上。
通信装置912例如是包括用于连接至通信网络914的通信装置等的通信接口。服务器100的通信单元130或客户端200的通信单元230的功能由通信装置912实现。
在上文中,已经参照附图详细描述了本公开内容的优选实施方式;然而,本公开内容的技术范围不限于这样的示例。明显的是,具有本公开内容的技术领域的普通知识的人员可以在权利要求中描述的技术思想的范围内构思各种修改示例或校正示例,并且应当理解,修改示例或校正示例也属于本公开内容的技术范围。
此外,本说明书中描述的效果仅是说明性或示例性的,而不是限制性的。也就是说,根据本公开内容的技术,除了上述效果之外或者代替上述效果,能够展现根据本说明书的描述而对本领域技术人员明显的其他效果。
注意,以下配置也属于本公开内容的技术范围。
(1)
一种发送装置,包括
发送单元,其发送以对象音频数据为单位设置了优先级的流数据。
(2)
根据(1)所述的发送装置,其中,
流数据是由Http上的MPEG动态自适应流(DASH)定义的数据。
(3)
根据(1)或(2)所述的发送装置,还包括
处理单元,其基于所述优先级,通过包括音频文件中的一条或更多条对象音频数据来生成所述流数据。
(4)
根据(3)所述的发送装置,其中,
所述处理单元基于所述优先级以所述音频文件为单位设置其他优先级。
(5)
根据(3)或(4)所述的发送装置,其中,
所述处理单元将关于所述优先级的信息包括在用于所述流数据的MPD文件或包括与所述对象音频数据相对应的对象元数据的元数据文件中。
(6)
根据(5)所述的发送装置,其中,
在所述优先级不随时间改变的情况下,所述处理单元将关于所述优先级的信息包括在所述MPD文件中。
(7)
根据(6)所述的发送装置,其中,
所述处理单元将关于所述优先级的信息包括在所述MPD文件的适应集(AdaptationSet)中。
(8)
根据(5)所述的发送装置,其中,
在所述优先级随时间改变的情况下,所述处理单元将关于所述优先级的信息包括在所述元数据文件中。
(9)
根据(8)所述的发送装置,其中,
所述处理单元通过使用所述MPD文件将所述元数据文件与所述音频文件相关联。
(10)
根据(5)至(9)中任一项所述的发送装置,其中,
所述处理单元将关于所述对象音频数据的比特率的信息包括在所述MPD文件中。
(11)
根据(10)所述的发送装置,其中,
所述处理单元针对每个对象音频数据将关于所述比特率的信息包括在所述MPD文件中。
(12)
根据(10)所述的发送装置,其中,
所述处理单元针对每个优先级将关于所述比特率的信息包括在所述MPD文件中。
(13)
根据(11)或(12)所述的发送装置,其中,
所述处理单元将指示关于所述比特率的信息是针对每个对象音频数据被包括在所述MPD文件中还是针对每个优先级被包括在所述MPD文件中的标志包括在所述MPD文件中。
(14)
根据(5)至(13)中任一项所述的发送装置,其中,
所述处理单元将所述对象音频数据的描述信息包括在所述MPD文件中。
(15)
一种由计算机执行的发送方法,包括
发送以对象音频数据为单位设置了优先级的流数据。
(16)
一种用于使计算机实现以下操作的程序:
发送以对象音频数据为单位设置了优先级的流数据。
(17)
一种接收装置,包括
接收单元,其接收以对象音频数据为单位设置了优先级的流数据。
(18)
根据(17)所述的接收装置,其中,
所述流数据是由Http上的MPEG动态自适应流(DASH)定义的数据。
(19)
根据(17)或(18)所述的接收装置,还包括
处理单元,其基于包括在用于所述流数据的MPD文件或包括与所述对象音频数据相对应的对象元数据的元数据文件中的关于优先级的信息来执行所述流数据的接收处理。
(20)
根据(19)所述的接收装置,其中,
在所述优先级不随时间改变的情况下,所述处理单元基于所述MPD文件中包括的关于所述优先级的信息来执行所述流数据的所述接收处理。
(21)
根据(19)所述的接收装置,其中,
在所述优先级随时间改变的情况下,所述处理单元基于所述元数据文件中包括的关于所述优先级的信息来执行所述流数据的所述接收处理。
(22)
根据(19)至(21)中任一项所述的接收装置,其中,
所述处理单元基于关于所述MPD文件中包括的对象音频数据的比特率的信息来执行所述流数据的选择和接收处理。
(23)
根据(19)至(22)中任一项所述的接收装置,其中,
所述处理单元基于所述MPD文件中包括的对象音频数据的描述信息来执行所述流数据的所述选择和接收处理。
(24)
一种由计算机执行的接收方法,包括
接收以对象音频数据为单位设置了优先级的流数据。
(25)
一种用于使计算机实现以下操作的程序:
接收以对象音频数据为单位设置了优先级的流数据。
注意,以下配置也属于本公开内容的技术范围。
(1)
一种信息处理装置,包括
处理单元,其生成包括对象音频数据和对象元数据的音频文件,以及包括所述对象元数据而不包括所述对象音频数据的元数据文件。
(2)
根据(1)所述的信息处理装置,其中,
所述元数据文件包括在多个音频文件的每一个中包括的对象元数据。
(3)
根据(1)或(2)所述的信息处理装置,其中,
所述元数据文件包括关于以对象音频数据为单位设置的优先级的信息。
(4)
根据(1)至(3)中任一项的信息处理装置,其中,
所述元数据文件和所述音频文件是由MP4(ISO/IEC第12部分ISO基本媒体文件格式)定义的文件。
(5)
根据(4)的信息处理装置,其中,
当生成所述元数据文件时,所述处理单元将用于指定所述元数据文件对应的所述音频文件的信息包括在所述MP4的影片盒中。
(6)
根据(5)的信息处理装置,其中,
所述处理单元将用于指定所述元数据文件对应的所述音频文件的信息包括在所述影片盒的样本描述盒中。
(7)
根据(6)所述的信息处理装置,其中,
所述处理单元将用于指定所述元数据文件对应的所述音频文件的信息包括在所述样本描述盒中的样本条目中。
(8)
根据(5)至(7)中任一项所述的信息处理装置,其中,
用于指定所述音频文件的信息包括streamID,并且
所述元数据文件中包括的所述对象元数据通过所述streamID与所述音频文件相关联。
(9)
根据(1)至(8)中任一项所述的信息处理装置,其中,
所述对象元数据和所述对象音频数据是由MPEG-H 3D音频或AAC3D音频定义的数据。
(10)
根据(9)所述的信息处理装置,其中,
在所述对象元数据和所述对象音频数据是由所述AAC 3D音频指定的数据的情况下,
当生成所述音频文件时,所述处理单元将指示包括所述音频文件的多个音频文件之间的对应关系的信息包括在所述MP4中的影片盒中。
(11)
一种由计算机执行的信息处理方法,包括
生成包括对象音频数据和对象元数据的音频文件,以及包括所述对象元数据而不包括所述对象音频数据的元数据文件。
(12)
一种用于使计算机实现以下操作的程序:
生成包括对象音频数据和对象元数据的音频文件,以及包括所述对象元数据而不包括所述对象音频数据的元数据文件。
(13)
一种信息处理装置,包括
处理单元,其对包括对象音频数据和对象元数据的音频文件以及包括所述对象元数据而不包括所述对象音频数据的元数据文件执行接收处理。
(14)
根据(13)所述的信息处理装置,其中,
所述元数据文件包括在多个音频文件的每一个中包括的对象元数据。
(15)
根据(13)或(14)所述的信息处理装置,其中,
所述元数据文件包括关于以所述对象音频数据为单位设置的优先级的信息。
(16)
根据(13)至(15)中任一项所述的信息处理装置,其中,
所述元数据文件和所述音频文件是由MP4(ISO/IEC第12部分ISO基本媒体文件格式)定义的文件。
(17)
根据(16)所述的信息处理装置,其中,
当对所述元数据文件执行所述接收处理时,所述处理单元通过使用包括在所述MP4中的影片盒中的信息来指定所述元数据文件对应的所述音频文件。
(18)
根据(17)所述的信息处理装置,其中,
所述处理单元通过使用所述影片盒中的样本描述盒中包括的信息来指定所述元数据文件对应的所述音频文件。
(19)
根据(18)所述的信息处理装置,其中,
所述处理单元通过使用所述样本描述盒中的样本条目中包括的信息来指定所述元数据文件对应的所述音频文件。
(20)
根据权利要求(17)至19中任一项所述的信息处理装置,其中,
所述元数据文件中包括的所述对象元数据通过streamID与所述音频文件相关联。
(21)
根据(13)至(20)中任一项所述的信息处理装置,其中,
所述对象元数据和所述对象音频数据是由MPEG-H 3D音频或AAC3D音频定义的数据。
(22)
根据(21)所述的信息处理装置,其中,
在所述对象元数据和所述对象音频数据是由所述AAC 3D音频指定的数据的情况下,
当对所述音频文件执行所述接收处理时,所述处理单元通过使用包括在所述MP4中的影片盒中的信息来识别包括所述音频文件的多个音频文件之间的对应关系。
(23)
一种由计算机执行的信息处理方法,包括
对包括对象音频数据和对象元数据的音频文件以及包括所述对象元数据而不包括所述对象音频数据的元数据文件执行接收处理。
(24)
一种用于使计算机实现以下操作的程序:
对包括对象音频数据和对象元数据的音频文件以及包括所述对象元数据而不包括所述对象音频数据的元数据文件执行接收处理。
注意,以下配置也属于本公开内容的技术范围。
(1)
一种信息处理装置,包括
处理单元,其
针对获取的每个对象音频数据设置优先级,
基于所述优先级从一条或更多条对象音频数据中确定要被包括在生成的分段文件中的对象音频数据,以及
基于所述优先级,生成针对所生成的分段文件要设置的新的优先级,作为优先级信息。
(2)
根据(1)所述的信息处理装置,其中,
所述处理单元还生成包括与所述对象音频数据对应的编码后的对象元数据的元数据文件,并且
所述对象元数据包括所述优先级信息。
(3)
根据(1)所述的信息处理装置,其中,
在所述优先级信息不随时间改变的情况下,所述处理单元还针对所述分段文件生成MPD文件,并且将所述优先级信息包括在所述MPD文件中。
(4)
根据(3)所述的信息处理装置,其中,
所述处理单元将所述优先级信息包括在所述MPD文件的适应集(AdaptationSet)中。
(5)
根据(2)所述的信息处理装置,其中,
在所述优先级信息随时间改变的情况下,所述处理单元还针对所述分段文件和所述元数据文件生成MPD文件。
(6)
根据(4)或(5)所述的信息处理装置,其中,
所述处理单元针对每个对象音频数据将关于所述对象音频数据的比特率的信息包括在所述MPD文件中。
(7)
根据(2)所述的信息处理装置,其中,
所述处理单元将用于指定所述分段文件的信息存储在所述元数据文件的影片盒的样本描述盒中。
(8)
根据(7)所述的信息处理装置,其中,
所述处理单元将用于指定所述分段文件的信息存储在所述样本描述盒中的样本条目中。
(9)
根据(8)所述的信息处理装置,其中,
用于指定所述分段文件的所述信息包括用于唯一地识别所述分段文件的streamID。
(10)
一种由计算机执行的信息处理方法,包括
对针对获取的每个对象音频数据设置了优先级的流数据执行信息处理。
(11)
一种用于使计算机实现以下操作的程序:
对针对获取的每个对象音频数据设置了优先级的流数据执行信息处理。
附图标记列表
100 服务器
110 处理单元
111 数据获取单元
112 编码处理单元
113 分段文件生成单元
114 MPD文件生成单元
120 控制单元
130 通信单元
140 存储单元
200 客户端
210 处理单元
211 MPD文件获取单元
212 MPD文件处理单元
213 分段文件选择单元
214 分段文件获取单元
215 解码处理单元
216 合成处理单元
220 控制单元
230 通信单元
240 存储单元
300 因特网

Claims (11)

1.一种信息处理装置,包括
处理单元,其
针对获取的每个对象音频数据设置优先级,
基于所述优先级从一条或更多条对象音频数据中确定要被包括在生成的分段文件中的对象音频数据,以及
基于所述优先级,生成针对所生成的分段文件要设置的新的优先级,作为优先级信息。
2.根据权利要求1所述的信息处理装置,其中,
所述处理单元还生成包括与所述对象音频数据对应的编码后的对象元数据的元数据文件,并且
所述对象元数据包括所述优先级信息。
3.根据权利要求1所述的信息处理装置,其中,
在所述优先级信息不随时间改变的情况下,所述处理单元还针对所述分段文件生成MPD文件,并且将所述优先级信息包括在所述MPD文件中。
4.根据权利要求3所述的信息处理装置,其中,
所述处理单元将所述优先级信息包括在所述MPD文件的适应集(AdaptationSet)中。
5.根据权利要求2所述的信息处理装置,其中,
在所述优先级信息随时间改变的情况下,所述处理单元还针对所述分段文件和所述元数据文件生成MPD文件。
6.根据权利要求4或5所述的信息处理装置,其中,
所述处理单元针对每个对象音频数据将关于所述对象音频数据的比特率的信息包括在所述MPD文件中。
7.根据权利要求2所述的信息处理装置,其中,
所述处理单元将用于指定所述分段文件的信息存储在所述元数据文件的影片盒的样本描述盒中。
8.根据权利要求7所述的信息处理装置,其中,
所述处理单元将用于指定所述分段文件的信息存储在所述样本描述盒中的样本条目中。
9.根据权利要求8所述的信息处理装置,其中,
用于指定所述分段文件的所述信息包括用于唯一地识别所述分段文件的streamID。
10.一种由计算机执行的信息处理方法,包括
对针对获取的每个对象音频数据设置了优先级的流数据执行信息处理。
11.一种用于使计算机实现以下操作的程序:
对针对获取的每个对象音频数据设置了优先级的流数据执行信息处理。
CN201880082582.9A 2017-12-28 2018-10-23 信息处理装置、信息处理方法和程序 Withdrawn CN111512634A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017-253805 2017-12-28
JP2017253805 2017-12-28
PCT/JP2018/039286 WO2019130763A1 (ja) 2017-12-28 2018-10-23 情報処理装置、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
CN111512634A true CN111512634A (zh) 2020-08-07

Family

ID=67063395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880082582.9A Withdrawn CN111512634A (zh) 2017-12-28 2018-10-23 信息处理装置、信息处理方法和程序

Country Status (9)

Country Link
US (1) US20200321015A1 (zh)
EP (1) EP3734594A4 (zh)
JP (2) JP7226335B2 (zh)
KR (1) KR20200101349A (zh)
CN (1) CN111512634A (zh)
BR (1) BR112020012494A2 (zh)
RU (1) RU2020120328A (zh)
TW (1) TW201939960A (zh)
WO (1) WO2019130763A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2554877B (en) * 2016-10-10 2021-03-31 Canon Kk Methods, devices, and computer programs for improving rendering display during streaming of timed media data
CN111510756A (zh) * 2019-01-30 2020-08-07 上海哔哩哔哩科技有限公司 音视频的切换方法、装置、计算机设备及可读存储介质
CN114731459A (zh) * 2019-11-20 2022-07-08 杜比国际公司 用于个性化音频内容的方法和设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1826635A (zh) * 2003-07-21 2006-08-30 弗兰霍菲尔运输应用研究公司 音频文件格式转换
US20080232775A1 (en) * 2007-03-20 2008-09-25 At&T Knowledge Ventures, Lp Systems and methods of providing modified media content
CN102576533A (zh) * 2009-08-14 2012-07-11 Srs实验室有限公司 面向对象的音频流***
CN103535047A (zh) * 2011-05-17 2014-01-22 阿尔卡特朗讯公司 流式传输视频内容的方法、监视视频内容流的网络中的节点
CN103814562A (zh) * 2011-09-21 2014-05-21 高通股份有限公司 用信号表示片段的特性以用于媒体数据的网络流式传输
US20140189772A1 (en) * 2012-07-02 2014-07-03 Sony Corporation Transmission apparatus, transmission method, and network apparatus
WO2015182491A1 (ja) * 2014-05-30 2015-12-03 ソニー株式会社 情報処理装置および情報処理方法
CN106463148A (zh) * 2014-05-30 2017-02-22 索尼公司 信息处理装置和信息处理方法
CN106463139A (zh) * 2014-06-26 2017-02-22 索尼公司 解码装置、解码方法和程序

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7526427B2 (en) * 2001-03-06 2009-04-28 Ati Technologies, Inc. System and method for reception, processing and transmission of digital audio stream
US20130254611A1 (en) * 2012-03-23 2013-09-26 Qualcomm Incorporated Recovering data in multimedia file segments
JP5979483B2 (ja) 2012-06-25 2016-08-24 パナソニックIpマネジメント株式会社 コンテンツ再生装置、コンテンツ再生システム、及びコンテンツ再生方法
CN105900174B (zh) * 2014-01-14 2019-07-30 索尼公司 信息处理设备、信息记录介质、信息处理***、信息处理方法及计算机可读存储介质
US9564136B2 (en) * 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio
WO2016076569A1 (ko) * 2014-11-12 2016-05-19 엘지전자 주식회사 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법
US10269387B2 (en) * 2015-09-30 2019-04-23 Apple Inc. Audio authoring and compositing

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1826635A (zh) * 2003-07-21 2006-08-30 弗兰霍菲尔运输应用研究公司 音频文件格式转换
US20080232775A1 (en) * 2007-03-20 2008-09-25 At&T Knowledge Ventures, Lp Systems and methods of providing modified media content
CN102576533A (zh) * 2009-08-14 2012-07-11 Srs实验室有限公司 面向对象的音频流***
CN103535047A (zh) * 2011-05-17 2014-01-22 阿尔卡特朗讯公司 流式传输视频内容的方法、监视视频内容流的网络中的节点
CN103814562A (zh) * 2011-09-21 2014-05-21 高通股份有限公司 用信号表示片段的特性以用于媒体数据的网络流式传输
US20140189772A1 (en) * 2012-07-02 2014-07-03 Sony Corporation Transmission apparatus, transmission method, and network apparatus
WO2015182491A1 (ja) * 2014-05-30 2015-12-03 ソニー株式会社 情報処理装置および情報処理方法
CN106415711A (zh) * 2014-05-30 2017-02-15 索尼公司 信息处理装置和信息处理方法
CN106463148A (zh) * 2014-05-30 2017-02-22 索尼公司 信息处理装置和信息处理方法
CN106463139A (zh) * 2014-06-26 2017-02-22 索尼公司 解码装置、解码方法和程序

Also Published As

Publication number Publication date
RU2020120328A (ru) 2021-12-20
RU2020120328A3 (zh) 2021-12-20
US20200321015A1 (en) 2020-10-08
EP3734594A1 (en) 2020-11-04
WO2019130763A1 (ja) 2019-07-04
BR112020012494A2 (pt) 2020-11-24
JP7226335B2 (ja) 2023-02-21
KR20200101349A (ko) 2020-08-27
JP2023053131A (ja) 2023-04-12
JPWO2019130763A1 (ja) 2020-12-17
TW201939960A (zh) 2019-10-01
EP3734594A4 (en) 2020-11-11

Similar Documents

Publication Publication Date Title
US8370887B2 (en) Media streaming with enhanced seek operation
CN104253999B (zh) 用于发送内容的设备和方法
US9639246B2 (en) Seamless playback of composite media
KR100868475B1 (ko) 객체기반 오디오 서비스를 위한 다중객체 오디오 콘텐츠파일의 생성, 편집 및 재생 방법과, 오디오 프리셋 생성방법
JP5513400B2 (ja) マルチメディアファイルのための階層的で簡略なインデックス構造体
US20140052770A1 (en) System and method for managing media content using a dynamic playlist
JP2023053131A (ja) 情報処理装置および情報処理方法
KR20040005919A (ko) 프리젠테이션의 재생 속도 실시간 제어
WO2009054595A1 (en) Method of manipulating media object in media player and apparatus therefor
US11967153B2 (en) Information processing apparatus, reproduction processing apparatus, and information processing method
WO2021002338A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
CN114223211A (zh) 信息处理装置和信息处理方法
JP6535273B2 (ja) 受信装置、セグメント取得方法、及びプログラム
WO2019216001A1 (ja) 受信装置、送信装置、受信方法、送信方法、およびプログラム
EP3982638A1 (en) Information processing device, information processing method, reproduction processing device, and reproduction processing method
CN101395910A (zh) 用于记录对媒体内容的编辑的方法和***
JP2019121037A (ja) 情報処理装置、情報処理方法およびプログラム
KR101275555B1 (ko) 멀티 미디어 재생 방법 및 장치와 이를 위한 멀티 미디어파일 포맷
US20240086451A1 (en) Information processing apparatus, reception apparatus, information processing method, and storage medium
JP2006215903A (ja) 画像表示装置、コンテンツ検索方法およびコンテンツ検索プログラム
JP2004194025A (ja) 動画像蓄積装置、視聴履歴調査システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200807

WW01 Invention patent application withdrawn after publication