CN108886638A - 再现装置和再现方法、以及文件生成装置和文件生成方法 - Google Patents

再现装置和再现方法、以及文件生成装置和文件生成方法 Download PDF

Info

Publication number
CN108886638A
CN108886638A CN201780019067.1A CN201780019067A CN108886638A CN 108886638 A CN108886638 A CN 108886638A CN 201780019067 A CN201780019067 A CN 201780019067A CN 108886638 A CN108886638 A CN 108886638A
Authority
CN
China
Prior art keywords
audio stream
file
unit
audio
bit rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780019067.1A
Other languages
English (en)
Inventor
平林光浩
知念徹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN108886638A publication Critical patent/CN108886638A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8543Content authoring using a description language, e.g. Multimedia and Hypermedia information coding Expert Group [MHEG], eXtensible Markup Language [XML]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开涉及一种再现装置和再现方法、以及文件生成装置和文件生成方法,其使得能够在获取通过无损压缩技术而被编码的音频流和视频流的时候获取具有最佳比特率的视频流。分片文件获取单元在与通过无损DSD技术而被编码的音频流相对应的视频流之前获取所述音频流并且检测所述音频流的比特率。选择单元基于所述分片文件获取单元所检测到的所述比特率来选择要从具有不同比特率的多个所述视频流中获取的所述视频流。例如,本公开可以应用于活动图像再现终端等。

Description

再现装置和再现方法、以及文件生成装置和文件生成方法
技术领域
本公开涉及一种再现装置和再现方法、以及文件生成装置和文件生成方法,并且更具体地涉及一种再现装置和再现方法、以及文件生成装置和文件生成方法,其使得能够在获取通过无损压缩技术而被编码的音频流和视频流的时候获取具有最佳比特率的视频流。
背景技术
近年来,互联网上的流媒体服务的主流是机顶盒视频(OTT-V)。运动画面专家组阶段,即,基于HTTP的动态自适应流,开始作为其基本技术流行(例如,参考非专利文献1)。
在MPEG-DASH中,按照如下方式实施自适应流分发:分发服务器为一段活动图像内容准备具有不同比特率的活动图像数据组并且再现终端根据传输线的状况请求具有最佳比特率的活动图像数据组。
另外,在现在的MPEG-DASH中,将能够***比特率的编码技术假设为活动图像内容的编码技术。具体地,例如,将有损压缩技术假设为音频流的编码技术,其中,对通过脉冲代码调制(PCM)技术经过模数(A/D)转换的音频数字信号进行编码,以便在大小固定的缓冲区中不会产生下溢或者上溢。因此,基于预测比特率和活动图像内容的网络频带来决定要获取的活动图像内容的比特率。
同时,近年来,音质高于光盘(CD)的声源的高分辨率音频备受关注。高分辨率音频的A/D转换技术包括直接数字流(DSD)技术等。DSD技术是作为超级音频CD(SA-CD)的记录和再现技术而被采用的技术并且是基于1比特数字西格玛调制的技术。具体地,在DSD计算中,关于音频模拟信号的信息用时间轴以在“1”与“0”之间的变化点的密度来表示。因此,可以实施独立于比特深度的高分辨率记录和再现。
然而,在DSD技术中,音频数字信号的模式“1”和“0”根据音频模拟信号的波形而改变。因此,在通过DSD技术而被进行A/D转换的音频数字信号被无损压缩并且基于模式“1”和“0”而被编码的无损DSD技术等中,编码之后的音频数字信号的比特生产数量根据音频模拟信号的波形而波动。因此,难以***比特率。
元件符号列表
非专利文献
非专利文献1:基于HTTP的动态自适应流(MPEG-DASH)(URL:http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-description-and-segment-formats/text-isoiec-23009-12012-dam-1)
发明内容
本发明所要解决的问题
由于上述原因,在现在的MPEG-DASH中,在获取到通过无损压缩技术(诸如,无法预测比特率的无损DSD技术)而被编码的音频流和视频流的情况下,必须基于网络频带和可以作为音频流的比特率被采用的值中的最大值来选择要获取的视频流的比特率。因此,难以获取具有最佳比特率的视频流。
本公开已经鉴于上述境况而做出并且本公开的目的是使的可以在获取通过无损压缩技术而被编码的音频流和视频流的时候获取具有最佳比特率的视频流。
问题的解决方案
根据本公开的第一方面的再现装置是这样一种再现装置,其包括:获取单元,该获取单元在与通过无损压缩技术而被编码的音频流相对应的视频流之前获取该音频流并且检测该音频流的比特率;以及选择单元,该选择单元基于获取单元所检测到的比特率来选择要从具有不同比特率的多个视频流中获取的视频流。
根据本公开的第一方面的再现方法与根据本公开的第一方面的再现装置相对应。
在本公开的第一方面中,在与通过无损压缩技术而被编码的音频流相对应的视频流之前获取该音频流,从而检测音频流的比特率,并且基于检测到的比特率从具有不同比特率的多个视频流选择要获取的视频流。
根据本公开的第二方面的文件生成装置是这样一种文件生成装置,其包括文件生成单元,该文件生成单元生成管理通过无损压缩技术而被编码的音频流和与音频流相对应的视频流的管理文件,该管理文件包括指示音频流的编码技术并不是确保编码期间在大小固定的缓冲区中不会产生下溢或者上溢的技术的信息。
根据本公开的第二方面的文件生成方法与根据本公开的第二方面的文件生成装置相对应。
根据本公开的第二方面,生成管理通过无损压缩技术而被编码的音频流和与音频流相对应的视频流的管理文件。管理文件包括指示音频流的编码技术并不是确保编码期间在大小固定的缓冲区中不会产生下溢或者上溢的技术的信息。
要注意,第一方面的再现装置和第二方面的文件生成装置可以通过使计算机执行程序来实施。
另外,为了实施第一方面的再现装置和第二方面的文件生成装置,待由计算机执行的程序可以通过被传输介质传输或者被记录在记录介质上而被提供。
本发明的效果
根据本公开的第一方面,可以在获取通过无损压缩技术而被编码的音频流和视频流的时候获取具有最佳比特率的视频流。
此外,根据本公开的第二方面,可以生成管理文件。根据本公开的第二方面,可以生成管理文件,该管理文件使得能够在获取通过无损压缩技术而被编码的音频流和视频流的时候获取具有最佳比特率的视频流。
要注意,本文中描述的效果不一定是有限的并且可以应用本公开中描述的任何效果。
附图说明
图1是解释了应用了本公开的根据第一实施例的信息处理***的概述的示意图。
图2是解释了DSD技术的示意图。
图3是图示了图1中的文件生成装置的配置示例的框图。
图4是图示了媒体展现描述(MPD)文件的第一描述示例的示意图。
图5是图示了MPD文件的第二描述示例的示意图。
图6是解释了第一实施例中的文件生成处理的流程图。
图7是图示了流式再现单元的配置示例的框图。
图8是图示了音频流的实际比特率的示例的示意图。
图9是解释了第一实施例中的再现处理的流程图。
图10是图示了第二实施例中的MPD文件的第一描述示例的示意图。
图11是图示了第二实施例中的MPD文件的第二描述示例的示意图。
图12是解释了第二实施例中的文件生成处理的流程图。
图13是解释了第二实施例中的MPD文件更新处理的流程图。
图14是解释了第二实施例中的再现处理的流程图。
图15是图示了第三实施例中的媒体分片文件的配置示例的示意图。
图16是图示了图15中的emsg盒的描述示例的示意图。
图17是解释了第三实施例中的文件生成处理的流程图。
图18是图示了第四实施例中的emsg盒的描述示例的示意图。
图19是解释了第四实施例中的文件生成处理的流程图。
图20是图示了第五实施例中的emsg盒的描述示例的示意图。
图21是图示了第六实施例中的MPD文件的描述示例的示意图。
图22是图示了第七实施例中的MPD文件的第一描述示例的示意图。
图23是图示了第七实施例中的MPD文件的第二描述示例的示意图。
图24是图示了第七实施例中的媒体分片文件的配置示例的示意图。
图25是图示了无损压缩编码单元的配置示例的框图。
图26是图示了数据生产计数表的示例的示意图。
图27是图示了换算表table1的示例的示意图。
图28是图示了无损压缩解码单元的配置示例的框图。
图29是图示了计算机的硬件的配置示例的框图。
具体实施方式
下文将描述执行本公开的模式(下文称为实施例)。要注意,将按照以下顺序进行说明。
1、第一实施例:信息处理***(图1至图9)
2、第二实施例:信息处理***(图10至图14)
3、第三实施例:信息处理***(图15至图17)
4、第四实施例:信息处理***(图18至图19)
5、第五实施例:信息处理***(图20)
6、第六实施例:信息处理***(图21)
7、第七实施例:信息处理***(图22至图24)
8、对无损DSD技术的解释(图25至图28)
9、第八实施例:计算机(图29)
<第一实施例>
(第一实施例的信息处理***的概述)
图1是解释了根据应用了本公开的第一实施例的信息处理***的概述的示意图。
图1中的信息处理***10是通过经由互联网13连接作为连接至文件生成装置13的DASH服务器的Web服务器12和作为DASH客户端的活动图像再现终端14来配置的。
在信息处理***10中,Web服务器12通过符合MPEG-DASH的技术将文件生成装置11所生成的活动图像内容的文件现场分发给活动图像再现终端14。
具体地,文件生成装置11对活动图像内容的视频模拟信号和音频模拟信号进行A/D转换以生成视频数字信号和音频数字信号。然后,文件生成装置11通过预定编码技术以多个比特率编码活动图像内容的视频数字信号、音频数字信号和其它信号以生成编码流。在该示例中,假设音频数字信号的编码技术是无损DSD技术或者运动画面专家组阶段4(MPEG-4)技术。MPEG-4技术是对通过PCM技术而被进行A/D转换的音频数字信号进行有损压缩从而不会在大小固定的缓冲区中产生下溢或者上溢的技术。
对于每个比特率,文件生产装置11将已经生成的编码流转换为以时间单位(称为从几秒到约十秒的分片)计的文件。文件生成装置11将作为转换结果生成的分片文件上传到Web服务器12。
文件生成装置11还生成管理活动图像内容的媒体展现描述(MPD)文件(管理文件)。文件生成装置11将MPD文件上传到Web服务器12。
Web服务器12在其中保存有从文件生成装置11上传的分片文件和MPD文件。响应于来自活动图像再现终端14的请求,Web服务器12将所保存的分片文件和MPD文件发送至活动图像再现终端14。
活动图像再现终端14(再现装置)执行控制串流数据的软件(下文称为控制软件)21、活动图像再现软件22、用于超文本传输协议(HTTP)访问的客户端软件(下文称为访问软件)23等。
控制软件21是控制数据从Web服务器12流传送的软件。具体地,控制软件21使活动图像再现终端14从Web服务器12获取MPD文件。
另外,控制软件21基于表示由活动图像再现软件22等指定的再现时间的再现时间信息和互联网13的网络频带,关于待再现的分片文件的编码流的传输请求来命令访问软件23。
活动图像再现软件22是再现经由互联网13从Web服务器12获取到的编码流的软件。具体地,活动图像再现软件22将再现时间信息指定到控制软件21。另外,当接收到开始从访问软件23接收的通知时,活动图像再现软件22解码由活动图像再现终端14接收到的编码流。活动图像再现软件22输出作为编码结果获得的视频数字信号和音频数字信号。
访问软件23是控制使用HTTP经由互联网13与Web服务器12进行的通信的软件。具体地,响应于来自控制软件21的指令,访问软件23使活动图像再现终端14发送待再现的分片文件的编码流的传输请求。响应于该传输请求,访问软件23还使活动图像再现终端14开始接收从Web服务器12发送的编码流并且将开始接收通知提供给活动图像再现软件22。
(对DSD技术的解释)
图2是解释了DSD技术的示意图。
在图2中,水平轴表示时间并且垂直轴表示每个信号的值。
在图2中的示例中,音频模拟信号的波形是正弦波。在这种音频模拟信号通过PCM技术被进行A/D转换的情况下,如图2所示,根据该值将每个取样时间的音频模拟信号的值转换成固定数量的比特的音频数字信号。
与此相反,在音频模拟信号通过DSD技术被进行A/D转换的情况下,根据该值将每个取样时间的音频模拟信号的值转换成具有在“0”与“1”之间的变化点的密度的音频数字信号。具体地,音频模拟信号的值越大,音频数字信号的变化点的密度就越高,而音频模拟信号的值越小,音频数字信号的变化点的密度就越低。即,音频数字信号的模式“1”和“0”根据音频模拟信号的值而改变。
因此,通过依据无损DSD技术(在该无损DSD技术中,基于模式“0”和“1”来进行无损压缩编码)编码该音频数字信号而获得的编码流的比特生产数量根据音频模拟信号的波形而波动。因此,难以***比特率。
(文件生成装置的配置示例)
图3是图示了图1中的文件生成装置的配置示例的框图。
图3中的文件生成装置11由获取单元31、编码单元32、分片文件生成单元33、MPD文件生成单元34和上传单元35组成。
文件生成装置11的获取单元31获取活动图像内容的视频模拟信号和音频模拟信号以进行A/D转换。获取单元31将信号(诸如,作为A/D转换结果获得的视频数字信号和音频数字信号)和另外获取到的活动图像内容的信号提供给编码单元32。编码单元32以多个比特率编码从获取单元31提供的活动图像内容的信号中的每个信号并且生成编码流。编码流32将生成的编码流提供给分片文件生成单元33。
分片文件生成单元33(生成单元)将从编码单元32提供的编码流转换成以每个比特率的分片为单位的文件。分片文件生成单元33将作为转换结果生成的分片文件提供给上传单元35。
MPD文件生成单元34生成MPD文件,该MPD文件包括指示音频数字信号的编码技术是无损DSD技术的信息、作为音频数字信号的编码流的音频流的最大比特率、以及作为视频数字信号的编码流的视频流的比特率。要注意,最大比特率指的是可以作为比特率被采用的值中的最大值。MPD文件生成单元34将MPD文件提供给上传单元35。
上传单元35将从分片文件生成单元33提供的分片文件和从MPD文件生成单元34提供的MPD文件上传到图1中的Web服务器12。
(MPD文件的第一描述示例)
图4是图示了MPD文件的第一描述示例的示意图。
要注意,为了便于解释,图4仅仅图示了在MPD文件中的描述当中的管理音频流的分片文件的描述。这同样适用于稍后描述的图5、图10、图11、图22和图23。
在MPD文件中,信息(诸如,活动图像内容的编码技术和比特率、图像的大小、以及语音的语言)是分层的并且以可扩展标记语言(XML)格式被描述。
如图4所示,MPD文件分层次包括元素,诸如,周期(Period)、自适应集(AdaptationSet)、表示(Representation)和分片信息(Segment)。
在MPD文件中,将该MPD文件所管理的活动图像内容分成预定时间范围(例如,诸如程序和商业(CM)等单位)。描述周期元素是为了每个分开段的活动图像内容。周期元素具有信息,诸如,活动图像内容的再现开始时间、其中保存有活动图像内容的分片文件的Web服务器12的统一资源定位符(URL)、和MinBufferTime,作为相应活动图像内容共用的信息。MinBufferTime是指示虚拟缓冲区的缓冲时间的信息并且在图4中的示例中被设置为0。
自适应集元素被包括在周期元素中并且对与对应于该周期元素的活动图像内容的相同编码流的分片文件组相对应的表示元素进行分组。例如,根据相应分片文件组的数据类型对表示元素进行分组。在图4的示例中,与具有不同比特率的三种类型的音频流的相应分片文件对应的三个表示元素由一个自适应集元素分组。
自适应集元素已经使用,诸如,媒体类、语言、子标题、或者配音、作为比特率的最大值的maxBandwidth、作为比特率的最小值的MinBandwidth等,作为相应分片文件组的组共用的信息。
要注意,在图4中的示例中,具有不同比特率的三种类型的音频流的所有编码技术都采用无损DSD技术。因此,音频流的分片文件的自适应集元素具有指示音频流的编码技术是无损DSD技术的<codecs=“dsd1”>作为组共用的信息。
另外,自适应集元素还具有作为指示音频流的编码技术是否是编码期间确保在大小固定的缓冲区中不会产生下溢或者上溢的技术(诸如,MPEG-4(下文称为固定技术))的描述符的<SupplementalPropertyschemeIdUri=“urn:mpeg:DASH:audio:cbr:2015”>。
<SupplementalProperty schemeIdUri=“urn:mpeg:DASH:audio:cbr:2015”>的值(value)在指示音频流的编码技术是固定技术的情况下被设置为“真”并且在指示编码技术不是固定技术的情况下被设置为“假”。因此,在图4中的示例中,<SupplementalPropertyschemeIdUri=“urn:mpeg:DASH:audio:cbr:2015”>的值为“假”。
自适应集元素还具有指示分片的长度和分片文件的文件名称规则的SegmentTemplate。在SegmentTemplate,描述了timescale、duration、initialization和media。
timescale是表示1秒的值并且duration是将timescale假设为1秒时分片长度的值。在图4中的示例中,timescale具有44100并且duration具有88200。因此,分片长度是2秒。
initialization是指示在音频流的分片文件当中的初始化分片文件的名称的规则的信息。在图4中的示例中,initialization具有“$Bandwidth$init.mp4”。因此,通过将init添加至被包括在表示元素中的Bandwidth来获得音频流的初始化分片文件的名称。
另外,media是指示在音频流的分片文件当中的媒体分片文件的名称的规则的信息。在图4中的示例中,media具有“$Bandwidth$-$Number$.mp4”。因此,通过将“-”添加至被包括在表示元素中的Bandwidth和添加连续数字来获得音频流的媒体分片文件的名称。
表示元素被包括在对该表示元素进行分组的自适应集元素中并且针对与上层周期元素相对应的活动图像内容的相同编码流的每个分片文件组被描述。表示元素具有指示比特率、图像的大小等的带宽作为相应分片文件组共用的信息。
要注意,在编码技术是无损DSD技术的情况下,音频流的实际比特率是不可预测的。因此,在与音频流相对应的表示元素中,描述了音频流的最大比特率作为相应分片文件组共用的比特率。
在图4中的示例中,三种类型的音频流的最大比特率是2.8Mbps、5.6Mbps和11.2Mbps。因此,对于相应的三个表示元素的带宽,采用2800000、5600000和11200000作为带宽。另外,自适应集元素的MinBandwidth是2800000并且其maxBandwidth是11200000。
分片信息元素被包括在表示元素中并且具有与对应于该表示元素的分片文件组的每个分片文件有关的信息。
如上所述,在音频流的编码技术是无损DSD技术的情况下,在MPD文件中描述了音频流的最大比特率。因此,通过基于音频流的比特率是最大比特率来获取音频流和视频流,活动图像再现终端14可以在不中断的情况下再现流。然而,在音频流的实际比特率比最大比特率小的情况下,在分配给音频流的频带中产生浪费。
要注意,在图4中的示例中,<codecs=“dsd1”>and<SupplementalPropertyschemeIdUri=“urn:mpeg:DASH:audio:cbr:2015”value=“false”>在自适应集元素中被描述,但是也可以在每个表示元素中被描述。
(MPD文件的第二描述示例)
图5是图示了MPD文件的第二描述示例的示意图。
在图5的示例中,具有不同比特率的三种类型的音频流当中的两种类型的音频流的编码技术是无损DSD技术,但是一种类型的音频流的编码技术是MPEG-4技术。
因此,在图5中的MPD文件中,自适应集元素不具有<codecs=“dsd1”>和<SupplementalProperty schemeIdUri=“urn:mpeg:DASH:audio:cbr:2015”value=“false”>。相反,表示组元素具有指示音频流的编码技术和<SupplementalPropertyschemeIdUri=“urn:mpeg:DASH:audio:cbr:2015”>的信息。
具体地,在图5中的示例中,与第一表示组元素相对应的音频流的编码技术是无损DSD技术并且最大比特率是2.8Mbps。因此,第一表示组元素具有<codecs=“dsd1”>、<SupplementalPropertyschemeIdUri=“urn:mpeg:DASH:audio:cbr:2015”value=“false”>和作为带宽的2800000。
另外,与第二表示组元素相对应的音频流的编码技术是无损DSD技术并且最大比特率是5.6Mbps。因此,第二表示组元素具有<codecs=“dsd1”>、<SupplementalPropertyschemeIdUri=“urn:mpeg:DASH:audio:cbr:2015”value=“false”>和作为带宽的5600000。
此外,与第三表示组元素相对应的音频流的编码技术是MPEG-4技术并且实际比特率是128kbps。因此,第一表示组元素具有<codecs=“mp4a”>、<SupplementalPropertyschemeIdUri=“urn:mpeg:DASH:audio:cbr:2015”value=“true”>和作为带宽的128000。要注意,<codecs=“mp4a”>是指示音频流的编码技术是MPEG-4技术的信息。
另外,对图4和图5的MPD文件进行配置,从而可以在MPD文件中描述<codecs=“dsd1”>和<SupplementalPropertyschemeIdUri=“urn:mpeg:DASH:audio:cbr:2015”>,在该MPD文件中,不会将除了固定技术之外的技术假设为音频流的编码技术。因此,图4和图5中的MPD文件可与MPD文件兼容,在该MPD文件中,不会将除了固定技术之外的技术假设为音频流的编码技术。
(对文件生成装置的处理的解释)
图6是解释了图3中的文件生成装置11的文件生成处理的流程图。
在图6的步骤S10中,文件生成装置11的MPD文件生成单元34生成MPD文件以提供给上传单元35。在步骤S11中,上传单元35将从MPD文件生成单元34提供的MPD文件上传到Web服务器12。
在步骤S12中,获取单元31获取以分片为单位的活动图像内容的视频模拟信号和音频模拟信号以进行A/D转换。获取单元31将信号(诸如,作为A/D转换结果获得的视频数字信号和音频数字信号)和以分片为单位的活动图像内容的其它信号提供给编码单元32。
在步骤S13中,编码单元32通过预定编码技术以多个比特率编码从获取单元31提供的活动图像内容的信号以生成编码流。编码流32将生成的编码流提供给分片文件生成单元33。
在步骤S14中,分片文件生成单元33将从编码单元32提供的编码流转换成每个比特率的文件以生成分片文件。分片文件生成单元33将生成的分片文件提供给上传单元35。
在步骤S15中,上传单元35将从分片文件生成单元33提供的分片文件上传到Web服务器12。
在步骤S16中,获取单元31确定是否终止文件生成处理。具体地,在以分片为单位的活动图像内容的信号是新提供的情况下,获取单元31确定不终止文件生成处理。然后,处理回到步骤S12,并且重复步骤S12至S16中的处理直到确定终止文件生成处理为止。
另一方面,在以分片为单位的活动图像内容的信号不是新提供的情况下,获取单元31确定终止步骤S16中的文件生成处理。然后,处理终止。
如上所述,在音频流的编码技术是无损DSD技术的情况下,文件生成装置11在MPD文件中描述<SupplementalPropertyschemeIdUri=“urn:mpeg:DASH:audio:cbr:2015”value=“false”>。因此,活动图像再现终端14可以识别音频流的编码技术并不是固定技术。
(活动图像再现终端的功能配置示例)
图7是图示了图1中的执行控制软件21、活动图像再现软件22和访问软件23的活动图像再现终端14实施的流式再现单元的配置示例的框图。
流式再现单元60由MPD获取单元61、MPD处理单元62、分片文件获取单元63、选择单元64、缓冲区65、解码单元66和输出控制单元67组成。
流式再现单元60的MPD获取单元61请求从Web服务器12获取MPD文件。MPD获取单元61将获取到的MPD文件提供给MPD处理单元62。
MPD处理单元62分析从MPD获取单元61提供的MPD文件。具体地,MPD处理单元62获取获取信息,诸如,每个编码流的带宽以及其中保存有每个编码流的分片文件的URL和文件名称。
另外,在编码流是音频流的情况下,MPD处理单元62基于<SupplementalPropertyschemeIdUri=“urn:mpeg:DASH:audio:cbr:2015”>的值来识别与该值相对应的音频流的编码技术是否是固定技术。然后,MPD处理单元62生成指示每个音频流的编码技术是否都是固定技术的编码技术信息。MPD处理单元62将作为分析结果获得的带宽、获取信息、编码技术信息等提供给分片文件获取单元63并且将带宽提供给选择单元64。
在相应音频流的至少一段编码技术信息指示编码技术不是固定技术的情况下,分片文件获取单元63基于互联网13的网络频带和每个音频流的带宽来选择要从具有不同带宽的音频流获取的音频流。然后,分片文件获取单元63(获取单元)将所选的音频流的分片文件当中的处于再现时间的分片文件的获取信息发送至Web服务器12并且获取该分片文件。
另外,分片文件获取单元63检测获取到的音频流的实际比特率以提供给选择单元64。此外,分片文件获取单元63将具有从选择单元64提供的带宽的视频流的分片文件当中的处于再现时间的分片文件的获取信息发送至Web服务器12并且获取该分片文件。
另一方面,在相应音频流的所有编码技术信息指示编码技术是固定技术的情况下,分片文件获取单元63基于每个编码流的带宽和互联网13的网络频带来选择要获取的视频流和音频流的带宽。然后,分片文件获取单元63将具有所选带宽的视频流和音频流的分片文件当中的处于再现时间的分片文件的获取信息发送至Web服务器12并且获取该分片文件。分片文件获取单元63将保存在获取到的分片文件中的编码流提供给缓冲区65。
基于音频流的实际比特率、互联网13的网络频带、和视频流的带宽,选择单元64选择要从具有不同带宽的视频流获取的视频流。选择单元64将所选视频流的带宽提供给分片文件获取单元63。
缓冲区65暂时保存从分片文件获取单元63提供的编码流。
解码单元66从缓冲区65读取编码流以进行解码并且生成活动图像内容的视频数字信号和音频数字信号。解码单元66将生成的视频数字信号和音频数字信号提供给输出控制单元67。
基于从解码单元66提供的视频数字信号,输出控制单元67在显示单元(诸如,被包括在活动图像再现终端14中的显示器(未示出))上显示图像。另外,输出控制单元67对从解码单元66提供的音频数字信号进行数模(D/A)转换。基于作为D/A转换的结果获得的音频模拟信号,输出控制单元67使输出单元(诸如,被包括在活动图像再现终端14中的扬声器(未示出))输出声音。
(音频流的实际比特率的示例)
图8是图示了在编码技术是无损DSD技术的情况下的音频流的实际比特率的示例的示意图。
如图8所示,在编码技术是无损DSD技术的情况下,音频流的实际比特率在带宽所指示的最大比特率之下波动。
然而,音频流的实际比特率是不可预测的。因此,在活动图像内容被现场分发的情况下,活动图像再现终端14无法识别到音频的实际比特率直到获取音频流为止。
因此,活动图像再现终端14在选择视频流的比特率之前通过获取音频流来获取音频流的实际比特率。利用这种操作,活动图像再现终端14可以从互联网13的频带将除了音频流的实际比特率之外的频带分配给视频流。即,可以将作为音频流的最大比特率和实际比特率之间的差的剩余频带分配给视频流。
与此相反,在基于指示音频流的最大比特率的带宽来分配互联网13的网络频带的情况下,不可以将剩余频带81分配给视频流并且频带的浪费使用会发生。
(对活动图像再现终端的处理的解释)
图9是解释了图7中的流式再现单元60的再现处理的流程图。该再现处理在获取到MPD文件并且MPD文件指示作为MPD文件的分析结果生成的相应音频流的至少一段编码技术信息不是固定技术的情况下开始。
在图9的步骤S31中,分片文件获取单元63从MPD处理单元62所提供的相应编码流的带宽当中选择视频流和音频流的最小带宽。
在步骤S32中,分片文件获取单元63以分片为单位将具有在步骤S31中选择的带宽的视频流和音频流的分片文件当中的从再现开始时间开始的预定时间长度的分片文件的获取信息发送给Web服务器12并且获取以分片为单位的这些分片文件。
该预定时间长度是需要在检测互联网13的网络频带的解码开始之前被保存在缓冲区65中的编码流的时间长度。例如,该预定时间长度是可以被保存在缓冲区65中的编码流的时间长度的25%(例如,约30秒至60秒)(下文称为最大时间长度)。分片文件获取单元63将保存在每个获取到的分片文件中的编码流都提供给缓冲区65以进行保存。
在步骤S33中,解码单元66开始解码存储在缓冲区65中的编码流。要注意,从缓冲区65中删除由解码单元66读取和解码的编码流。解码单元66将作为解码结果获得的活动图像内容的视频数字信号和音频数字信号提供给输出控制单元67。基于从解码单元66提供的视频数字信号,输出控制单元67在显示器(诸如,被包括在活动图像再现终端14中的显示器(未示出))上显示图像。另外,输出控制单元67对从解码单元66提供的音频数字信号进行D/A转换,并且基于作为D/A转换结果获得的音频模拟信号,使输出单元(诸如,被包括在活动图像再现终端14中的扬声器(未示出))输出声音。
在步骤S34中,分片文件获取单元63检测互联网13的网络频带。
在步骤S35中,分片文件获取单元63基于互联网13的网络频带和每个编码流的带宽来选择视频流和音频流的带宽。具体地,分片文件获取单元63选择视频流和音频流的带宽,从而使视频流和音频流的所选的带宽的总和不大于互联网13的网络频带。
在步骤S36中,分片文件获取单元63以分片为单位将具有在步骤S35中选择的带宽的音频流的分片文件当中的从在步骤S32中获取到的分片文件的时间之后的时间开始的预定时间长度的分片文件的获取信息提供给Web服务器12并且获取以分片为单位的分片文件。
只要该预定时间长度比相对于最大时间长度而言对保存在缓冲区65中的编码流的时间长度是不足的时间长度短,该预定时间长度便可以是任何时间长度。分片文件获取单元63将保存在每个获取到的分片文件中的音频流都提供给缓冲区65以进行保存。
在步骤S37中,分片文件获取单元63检测在步骤S36中获取到的音频流的实际比特率以提供给选择单元64。
在步骤S38中,选择单元64基于音频流的实际比特率、视频流的带宽、和互联网13的网络频带来确定是否重新选择视频流的带宽。
具体地,选择单元64确定具有等于或者小于通过从互联网13的网络频带减去音频流的实际比特率而获得的值的最大值的视频流的带宽是否与在步骤S35中选择的视频流的带宽匹配。
然后,在选择单元64确定上面的带宽与在步骤S35中选择的视频流的带宽不匹配的情况下,选择单元64确定重新选择视频流的带宽。另一方面,在确定上面的带宽与在步骤S35中选择的视频流的带宽匹配的情况下,选择单元64确定不重新选择视频流的带宽。
在步骤S38中确定重新选择视频流的带宽的情况下,处理继续进行步骤S39。
在步骤S39中,选择单元64重新选择具有等于或者小于通过从互联网13的频带减去音频流的实际比特率而获得的值的最大值的视频流的带宽。然后,选择单元64将重新选择的带宽提供给分片文件获取单元63并且使处理前进至步骤S40。
另一方面,在步骤S38中确定不重新选择视频流的带宽的情况下,选择单元64将在步骤S35中选择的视频流的带宽提供给分片文件获取单元63并且使处理前进至步骤S40。
在步骤S40中,分片文件获取单元63以分片为单位将具有从选择单元64提供的带宽的视频流的分片文件当中的与在步骤S36中获取到的音频流相对应的预定时间长度的分片文件的获取信息提供给Web服务器12并且获取以分片为单位的这些分片文件。分片文件获取单元63将保存在每个获取到的分片文件中的视频流都提供给缓冲区65以进行保存。
在步骤S41中,分片文件获取单元63确定缓冲区65中是否存在空间。在步骤S41中确定缓冲区65中不存在空间的情况下,分片文件获取单元63待机直到在缓冲区65中形成空间为止。
另一方面,在步骤S41中确定缓冲区65中存在空间的情况下,流式再现单元60在步骤S42中确定是否终止再现。在步骤S42中确定不终止再现的情况下,处理返回步骤S34并且重复步骤S34至S42中的处理直到再现终止为止。
另一方面,在步骤S42中确定不终止再现的情况下,解码单元66完成解码存储在缓冲区65中的所有编码流并且然后在步骤S43中终止解码。然后,处理终止。
如迄今为止所描述的,活动图像再现终端14在视频流之前获取通过无损DSD技术而被编码的音频流以获取音频流的实际比特率并且基于该实际比特率来选择要获取的视频流的带宽。
因此,当获取到通过无损DSD技术而被编码的音频流和视频流时,可以将作为音频流的带宽和实际比特率之间的差的剩余频带分配给视频流。结果,与基于音频流的带宽来选择要获取的视频流的带宽的情况相比,可以获取具有最佳比特率的视频流。
<第二实施例>
(MPD文件的第一描述示例)
应用了本公开的信息处理***的第二实施例与图1中的信息处理***10的配置在MPD文件的配置方面的不同在于,每隔预定持续时间、文件生成处理和再现处理来更新MPD文件。因此,仅仅在下面描述MPD文件的配置、文件生成处理、MPD文件的更新处理、和再现处理。
在第二实施例中,在生成音频流之后,文件生成装置11计算所生成的音频流的实际比特率的平均值以在MPD文件中进行描述。在现场分发中,由于平均值在生成音频流时改变,活动图像再现终端14需要定期获取和更新MPD文件。
图10是图示了第二实施例中的MPD文件的第一描述示例的示意图。
图10中的MPD文件的配置与图4中的MPD文件的配置的不同在于,表示元素进一步具有AveBandwidth和DurationForAveBandwidth。
AveBandwidth是指示在预定持续时间内与表示元素相对应的音频流的实际比特率的平均值的信息。DurationForAveBandwidth是指示与AveBandwidth相对应的预定持续时间的信息。
具体地,根据第二实施例的MPD文件生成单元34从编码单元32所生成的音频流的实际比特率的积分制计算每个参考持续时间的平均值,从而计算在增加了参考持续时间的预定持续时间内的音频流的实际比特率的平均值。
然后,MPD文件生成单元34(生成单元)生成计算得到的平均值和与每个参考持续时间的该平均值相对应的预定持续时间作为表示音频流的实际比特率的比特率信息。另外,MPD文件生成单元34生成MPD文件,该MPD文件包括作为AveBandwidth的指示来自比特率信息的平均值的信息和作为DurationForAveBandwidth的指示来自比特率信息的预定持续时间的信息。
在图10中的示例中,MPD文件生成单元34从顶部计算600秒的音频流的实际比特率的平均值。因此,被包括在三个表示元素中的DurationForAveBandwidths具有指示600秒的PT600S。
具有与第一表示元素相对应的最大比特率2.8Mbps的通过无损DSD技术从音频流的顶部计算得到的600秒的实际比特率的平均值是2Mbps。因此,被包括在第一表示元素中的AveBandwidth具有2000000。
具有与第二表示元素相对应的最大比特率5.6Mbps的通过无损DSD技术从音频流的顶部计算得到的600秒的实际比特率的平均值是4Mbps。因此,被包括在第二表示元素中的AveBandwidth具有4000000。
具有与第三表示元素相对应的最大比特率11.2Mbps的通过无损DSD技术从音频流的顶部计算得到的600秒的实际比特率的平均值是8Mbps。因此,被包括在第三表示元素中的AveBandwidth具有8000000。
(MPD文件的第二描述示例)
图11是图示了第二实施例中的MPD文件的第二描述示例的示意图。
图11中的MPD文件的配置与图5中的MPD文件的配置的不同在于,与通过无损DSD技术而被编码的音频流相对应的两个表示元素进一步具有AveBandwidth和DurationForAveBandwidth。
被包括两个表示元素中的AveBandwidths和DurationForAveBandwidths分别与被包括在图10中的第一和第二表示元素中的AveBandwidths和DurationForAveBandwidths相同,并且因此将省略对其的解释。
要注意,在通过对比特率进行积分一直到活动图像内容的最后一个音频流的比特率而获得的积分值计算平均值的情况下,MPD文件生成单元34可以将活动图像的内容的时间描述为DurationForAveBandwidth,或者可以省略对DurationForAveBandwidth的描述。
另外,虽然省略了说明,但是指示参考持续时间作为MPD文件的更新间隔的minimumUpdatePeriod被包括在图10和图11中的MPD文件中。然后,活动图像再现终端14以minimumUpdatePeriod所指示的更新间隔来更新MPD文件。因此,MPD文件生成单元34可以仅仅通过修改在MPD文件中描述的minimumUpdatePeriod来容易地修改MPD文件的更新间隔。
此外,图10和图11中的AveBandwidth和DurationForAveBandwidth可以被描述为SupplementalProperty描述符,而不是被描述为表示元素的参数。
另外,代替图10和图11中的AveBandwidth,可以描述预定持续时间内的音频流的实际比特率的积分值。
要注意,对图10和图11中的MPD文件进行配置,从而可以在MPD文件中描述除了<codecs=“dsd1”>and<SupplementalPropertyschemeIdUri=“urn:mpeg:DASH:audio:cbr:2015”>之外的AveBandwidth和DurationForAveBandwidth,在该MPD文件中,不会将除了固定技术之外的技术假设为音频流的编码技术。因此,图10和图11中的MPD文件可与MPD文件兼容,在该MPD文件中,不会将除了固定技术之外的技术假设为音频流的编码技术。
(对信息处理***的处理的解释)
图12是解释了第二实施例中的文件生成装置11的文件生成处理的流程图。该文件生成处理是在音频流的编码技术中的至少一种是无损DSD技术的情况下进行的。
在图12的步骤S60中,文件生成装置11的MPD文件生成单元34生成MPD文件。此时,由于还未计算音频流的实际比特率的平均值,例如,在AveBandwidth中描述与带宽的值相同的值并且在MPD文件中的DurationForAveBandwidth中描述指示0秒的PT0S。另外,例如,在MPD文件中的minimumUpdatePeriod中设置参考持续时间ΔT。MPD文件生成单元34将生成的MPD文件提供给上传单元35。
由于步骤S61至S65中的处理与图6的步骤S11至S15中的处理相似,所以将省略对其的阐释。
在步骤S66中,MPD文件生成单元34对音频流的实际比特率进行积分以形成被保存的积分值并且保存作为积分结果获得的积分值。
在步骤S67中,MPD文件生成单元34通过步骤S66中的处理用在MPD文件的更新时间之前的1秒再现时间确定实际比特率是否已经被积分到音频流的实际比特率。要注意,在图12中的示例中,由于直到具有更新的积分值的MPD文件实际被上传到Web服务器12的时间是1秒,MPD文件生成单元34用更新时间之前的1秒再现时间确定实际比特率是否已经被积分到音频流的实际比特率。然而,上面的时间当然并不限于1秒,并且在除了1秒之外的值的情况下,用比更新时间早了该段时间的再现时间确定实际比特率是否已经被积分到音频流的实际比特率。另外,在第一时间的在步骤S67中的处理期间的MPD的更新时间是参考持续时间ΔT之后的0秒,而在下一时间的在步骤S67中的处理期间的MPD文件的更新时间是后两次参考持续时间ΔT之后的0秒。之后,MPD文件的更新时间每次都同样增加了参考持续时间ΔT。
在步骤S67中通过步骤S66中的处理用MPD文件的更新时间之前的1秒再现时间确定实际比特率已经被积分到音频流的实际比特率的情况下,处理继续进行步骤S68。在步骤S68中,MPD文件生成单元34通过对由与积分比特率相对应的音频流的持续时间保存的积分值进行划分来计算平均值。
在步骤S69中,MPD文件生成单元34分别将MPD文件中的AveBandwidth和DurationForAveBandwidth更新为指示在步骤S67中计算得到的平均值的信息和指示与平均值相对应的持续时间的信息,并且使处理前进至S70。
另一方面,在步骤S67中通过步骤S66中的处理用MPD文件的更新时间之前的1秒再现时间确定实际比特率还未被积分到音频流的实际比特率的情况下,处理继续进行步骤S70。
由于步骤S70中的处理与图6的步骤S16中的处理相同,将省略对其的阐释。
图13是解释了第二实施例中的流式再现单元60的MPD文件更新处理的流程图。该MPD文件更新处理是在MPD文件中描述了minimumUpdatePeriod的情况下进行的。
在图13的步骤S91中,流式再现单元60的MPD获取单元61获取MPD文件以提供给MPD处理单元62。在步骤S92中,MPD处理单元62通过分析从MPD获取单元61提供的MPD文件获取minimumUpdatePeriod所指示的更新间隔。
另外,与第一实施例的情况相同,MPD处理单元62分析MPD文件以获得编码流的带宽、获取信息、编码技术信息等。此外,在编码技术信息指示编码技术因为对MPD文件的分析而不是固定技术的情况下,MPD处理单元62获取音频流的AveBandwidth以指定作为选择比特率。同时,在编码技术信息指示编码技术是固定技术的情况下,MPD处理单元62指定音频流的带宽作为选择比特率。
MPD处理单元62将每个视频流的带宽和获取信息、以及每个音频流的选择比特率、获取信息和编码技术信息提供给分片文件获取单元63。MPD处理单元62还将每个音频流的选择比特率提供给选择单元64。
在步骤S93中,MPD获取单元61在之前的时间通过步骤S91中的处理从获取MPD文件开始确定更新间隔是否已经过去。在步骤S93中确定更新间隔还未过去的情况下,MPD获取单元61待机直到更新间隔已经过去为止。
在步骤S93中确定更新间隔已经过去的情况下,处理继续进行步骤S94。在步骤S94中,流式再现单元60确定是否终止再现处理。在步骤S94中确定不终止再现处理的情况下,处理返回步骤S91并且重复步骤S91至S94中的处理直到再现处理终止为止。
另一方面,在步骤S94中确定终止再现处理的情况下,处理终止。
图14是解释了第二实施例中的流式再现单元60的再现处理的流程图。该再现处理是并行于图13中的MPD文件更新处理进行的。
在图14的步骤S111中,分片文件获取单元63单独选择视频流的最小带宽和从MPD处理单元62供应的音频流的最小选择比特率。
在步骤S112中,分片文件获取单元63以分片为单位将具有在步骤S111中选择的带宽的视频流和具有在步骤S111中选择的选择比特率的音频流的分片文件当中的从再现开始时间开始的预定时间长度的分片文件的获取信息发送给Web服务器12并且获取以分片为单位的这些分片文件。该预定时间长度与图9的步骤S32中的时间长度相同。分片文件获取单元63将获取到的分片文件提供给缓冲区65以进行保存。
由于步骤S113至S114中的处理与图9的步骤S33至S34中的处理相似,所以将省略对其的阐释。
在步骤S115中,分片文件获取单元63基于互联网13的网络频带、视频流的带宽、和音频流的选择比特率来选择视频流的带宽和音频流的选择比特率。
具体地,分片文件获取单元63选择视频流的带宽和音频流的选择比特率,从而使已经选择的视频流的带宽和音频流的选择比特率的总和不大于互联网13的网络频带。
在步骤S116中,分片文件获取单元63以分片为单位将具有在步骤S112中选择的带宽的视频流和具有在步骤S115中选择的选择比特率的音频流的分片文件当中的从在步骤S112中获取到的分片文件的时间之后的时间开始的预定时间长度的分片文件的获取信息提供给Web服务器12并且获取以分片为单位的分片文件。分片文件获取单元63将获取到的分片文件提供给缓冲区65以进行保存。
要注意,由于AveBandwidth是音频流的实际比特率的平均值,实际比特率在某些情况下超过AveBandwidth。因此,指定步骤S116中的预定时间长度作为比参考持续时间ΔT短的时间长度。利用这种配置,互联网113的网络频带变得更小并且在实际比特率超过AveBandwidth的情况下获取具有更低选择比特率的音频流。结果,可以防止缓冲区65上溢。
由于步骤S117至S119中的处理与图9的步骤S41至S43中的处理相似,所以将省略对其的阐释。
如迄今为止所描述的,根据第二实施例的文件生成装置11生成通过无损DSD技术而被编码的音频流的实际比特率的平均值。因此,通过基于音频流的实际比特率的平均值来选择要获取的视频流的带宽,活动图像再现终端14可以将作为音频流的带宽和实际比特率之间的差的剩余频带的至少一部分分配给视频流。结果,与基于音频流的带宽来选择要获取的视频流的带宽的情况相比,可以获取具有最佳比特率的视频流。
另外,在第二实施例中,不需要在获取视频流之前获取音频流以获取音频流的实际比特率。此外,在第二实施例中,由于文件生成装置11每隔参考持续时间便会更新MPD文件中的AveBandwidth,活动图像再现终端14可以通过在再现开始时间获取最后一个MPD文件来获取最后一个AveBandwidth。
<第三实施例>
(音频流的媒体分片文件的配置示例)
应用了本公开的信息处理***的第三实施例与第二实施例的不同主要在于,未在MPD文件中描述minimumUpdatePeriod,但是将通知MPD文件的更新时间的更新通知信息保存在音频流的媒体分片文件中。因此,仅仅在下面描述音频流的分片文件、文件生成处理、MPD文件更新处理、和再现处理。
图15是图示了根据第三实施例的包括音频流的更新通知信息的媒体分片文件的配置示例的示意图。
图15中的媒体分片文件(媒体分片)由styp盒、sidx盒、emsg盒(事件信息盒)和一个或者多个电影片段组成。
styp盒是其中保存有指示媒体分片文件的格式的信息的盒。在图15中的示例中,将指示媒体分片文件的格式是MPEG-DASH格式的msdh保存在styp盒中。sidx盒是其中保存有由一个或者多个电影片段组成的子分片的索引信息的盒。
emsg盒是其中保存有使用MPD有效期到期的更新通知信息的盒。电影片段由moof盒和mdat盒组成。moof盒是其中保存有音频流的元数据的盒,而mdat盒是其中保存有音频流的盒。将由媒体分片组成的电影片段分成一个或者多个子分片。
(emsg盒的描述示例)
图16是图示了图15中的emsg盒的描述示例的示意图。
如图16所示,在emsg盒中描述了string value、presentation_time_delta、event_duration、id、message_data等。
string value是定义了与该emsg盒相对应的事件的值,并且在图16的情况下,string value具有指示MPD文件的更新的1。
presentation_time_delta指定从放置有该emsg盒的媒体分片文件的再现时间到执行事件的再现时间的时间。因此,在图16的情况下,presentation_time_delta指定从放置有该emsg盒的媒体分片文件的再现时间到更新MPD文件的再现时间的时间,并且充当更新通知信息。在第三实施例中,presentation_time_delta具有5。因此,在放置有该emsg盒的媒体分片文件的再现时间之后的5秒更新MPD文件。
event_duration指定与该emsg盒相对应的事件的持续时间,并且在图16的情况下,event_duration具有指示持续时间是未知的“0xFFFF”。id指定对该emsg盒而言是唯一的标识(ID)。另外,message_data指定与对应于该emsg盒的事件相关的数据,并且在图16的情况下,message_data具有MPD文件的更新时间的可扩展标记语音(XML)数据。
如上所述,文件生成装置11根据需要将图16中的其中保存有presentation_time_delta的emsg盒包括到音频流的媒体分片文件中。利用这种操作,文件生成装置11可以通知活动图像再现终端14在更新MPD文件之前从该媒体分片文件的再现时间开始将过去多少秒。
另外,文件生成装置11可以仅仅通过修改将emsg盒放置到媒体分片文件中的频率来容易地修改MPD文件的更新频率。
(对文件生成装置的处理的解释)
图17是解释了根据第三实施例的文件生成装置11的文件生成处理的流程图。该文件生成处理是在音频流的编码技术中的至少一种是无损DSD技术的情况下进行的。
在图17的步骤S130中,文件生成装置11的MPD文件生成单元34生成MPD文件。该MPD文件与第二实施例中的MPD文件的不同在于,未描述minimumUpdatePeriod,但是描述了“urn:mpeg:dash:profile:is-off-ext-live:2014”。“urn:mpeg:dash:profile:is-off-ext-live:2014”是指示将图16中的emsg盒放置到媒体分片文件中的配置文件。MPD文件生成单元34将生成的MPD文件提供给上传单元35。
由于步骤S131至S133中的处理与图12的步骤S61至S63中的处理相似,所以将省略对其的阐释。
在步骤S134中,文件生成装置11的分片文件生成单元33确定在步骤S133中被编码的音频数字信号的再现时间是否是MPD文件的更新时间之前的5秒。要注意,在图17中的示例中,由于在5秒前将MPD文件更新通知给了活动图像再现终端14,分片文件生成单元33确定再现时间是否是MPD文件的更新时间之前的5秒。然而,至活动图像再现终端14的通知当然可以早于除了5秒之外的时间做出,并且在通知早于除了5秒之外的时间做出的情况下,确定再现时间是否比MPD文件的更新时间早了该时间。另外,在第一时间的在步骤S67中的处理期间的MPD的更新时间是参考持续时间ΔT之后的0秒,而在下一时间的在步骤S134中的处理期间的MPD文件的更新时间是后两次参考持续时间ΔT之后的0秒。之后,MPD文件的更新时间每次都同样增加了参考持续时间ΔT。
在步骤134中确定再现时间是MPD文件的更新时间之前的5秒的情况下,处理继续进行步骤S135。在步骤S135中,分片文件生成单元33生成从编码单元32提供的音频流的分片文件,该分片文件包括图16中的emsg盒。分片文件生成单元33还生成从编码单元32提供的视频流的分片文件。然后,分片文件生成单元33将生成的分片文件提供至上传单元35并且使处理前进至步骤S137。
另一方面,在步骤134中确定再现时间不是MPD文件的更新时间之前的5秒的情况下,处理继续进行步骤S136。在步骤S136中,分片文件生成单元33生成从编码单元32提供的音频流的分片文件,该分片文件不包括图16中的emsg盒。分片文件生成单元33还生成从编码单元32提供的视频流的分片文件。然后,分片文件生成单元33将生成的分片文件提供至上传单元35并且使处理前进至步骤S137。
由于步骤S137至S142中的处理与图12的步骤S65至S70中的处理相似,所以将省略对其的阐释。
要注意,虽然省略了说明,但是在第三实施例中的流式再现单元60的MPD文件更新处理是这样一种处理:当图16中的emsg盒被包括在由分片文件获取单元63获取到的媒体分片文件时,MPD获取单元61在5秒之后获取MPD文件。在第三实施例中,presentation_time_delta具有5,但是当然并不限于该值。
另外,在第三实施例中的流式再现单元60的再现处理与图14中的再现处理相同并且与MPD文件更新处理并行进行。
如迄今为止所描述的,在第三实施例中,活动图像再现终端14仅仅需要在获取包括emsg盒的媒体分片文件的情况下获取MPD文件,从而除了获取编码流之外还可以抑制HTTP开销增加。
<第四实施例>
(emsg盒的描述示例)
应用了本公开的信息处理***的第四实施例与第三实施例的不同主要在于,将其中保存有AveBandwidth和DurationForAveBandwidth的更新值作为MPD文件的更新信息(更新前与更新后之间的差异信息)的emsg盒放置在音频流的分片文件中,而不是更新MPD文件。
即,在第四实施例中,AveBandwidth和DurationForAveBandwidth的初始值被包括在MPD文件中,而AveBandwidth和DurationForAveBandwidth的更新值被包括在音频流的分片文件中。因此,下面将仅仅描述其中保存有AveBandwidth和DurationForAveBandwidth的更新值的emsg盒、文件生成处理、MPD文件更新处理和再现处理。
图18是图示了第四实施例中的emsg盒的描述示例的示意图,该emsg盒中保存有AveBandwidth和DurationForAveBandwidth的更新值。
在图18中的emsg盒中,string value具有指示MPD文件的更新信息的传输的2。另外,用0将presentation_time_delta设置为从放置有该emsg盒的媒体分片文件的再现时间到发送MPD文件的更新信息的再现时间的时间。利用这种配置,活动图像再现终端14可以识别到MPD文件的更新信息被放置到放置有该emsg盒的媒体分片文件中。
与图16的情况一样,event_duration具有“0xFFFF”。另外,message_data具有AveBandwidth和DurationForAveBandwidth的更新值的XML数据,其是MPD文件的更新信息。
(对文件生成装置的处理的解释)
图19是解释了第四实施例中的文件生成装置11的文件生成处理的流程图。该文件生成处理是在音频流的编码技术中的至少一种是无损DSD技术的情况下进行的。
在图19的步骤S160中,文件生成装置11的MPD文件生成单元34生成MPD文件。除了配置文件用指示图16和图18中的emsg盒被包括在媒体分片文件的配置文件来代替之外,该MPD文件都与第三实施例中的MPD文件相同。MPD文件生成单元34将生成的MPD文件提供给上传单元35。
由于步骤S161至S164中的处理与图17的步骤S131至S134中的处理相似,所以将省略对其的阐释。
在步骤164中确定再现时间不是MPD文件的更新时间之前的5秒的情况下,处理继续进行步骤S165。由于步骤S165至S167中的处理与图17的步骤S138至S140中的处理相似,所以将省略对其的阐释。
在步骤S168中,分片文件生成单元33生成从编码单元32提供的音频流的分片文件,该分片文件包括图18中的emsg盒,该emsg盒包括在步骤S167中计算得到的平均值作为AveBandwidth的更新值并且包括与该平均值相对应的持续时间作为DurationForAveBandwidth的更新值。分片文件生成单元33还生成从编码单元32提供的视频流的分片文件。然后,分片文件生成单元33将生成的分片文件提供给上传单元35并且使处理前进至步骤S172。
另一方面,在步骤S166中用MPD文件的更新时间之前的1秒再现时间确定实际比特率还未被积分到音频流的实际比特率的情况下,处理继续进行步骤S169。
在步骤S169中,分片文件生成单元33生成从编码单元32提供的音频流的分片文件,该分片文件不包括图16中的emsg盒或者图18中的emsg盒。分片文件生成单元33还生成从编码单元32提供的视频流的分片文件。然后,分片文件生成单元33将生成的分片文件提供至上传单元35并且使处理前进至步骤S172。
另一方面中,在步骤S164中确定再现时间是更新时间之前的5秒的情况下,在步骤S170中,分片文件生成单元33生成从编码单元32提供的音频流的分片文件,该分片文件包括图16中的其中保存有更新通知信息的emsg盒。分片文件生成单元33还生成从编码单元32提供的视频流的分片文件。然后,分片文件生成单元33将生成的分片文件提供给上传单元35。
在步骤S171中,MPD文件生成单元34对音频流的实际比特率进行积分以形成被保存的积分值并且保存作为积分结果获得的积分值以使处理前进至步骤S172。
在步骤S172中,上传单元35将从分片文件生成单元33提供的分片文件上传到Web服务器12。
由于步骤S173中的处理与图17的步骤S142中的处理相同,将省略对其的阐释。
要注意,虽然省略了说明,但是在第四实施例中的流式再现单元60的MPD文件更新处理是这样一种处理:当图16中的emsg盒被包括在由分片文件获取单元63获取到的媒体分片文件中时,在5秒后从媒体分片文件的在图18中的emsg盒获取AveBandwidth和DurationForAveBandwidth的更新值,并且更新MPD文件。
另外,在第四实施例中的流式再现单元60的再现处理与图14中的再现处理相同并且与MPD文件更新处理并行进行。
如迄今为止所描述的,在第四实施例中,仅仅将AveBandwidth和DurationForAveBandwidth的更新值传输至活动图像再现终端14。因此,可以减少更新AveBandwidth和DurationForAveBandwidth所需的传输量。另外,MPD处理单元62仅仅需要分析与更新的MPD文件的AveBandwidth和DurationForAveBandwidth相关的描述,从而减轻分析负载。
此外,在第四实施例中,由于AveBandwidth和DurationForAveBandwidth的更新值被保存在音频流的分片文件中,所以不一定每次更新MPD文件时都要获取MPD文件。因此,出了获取编码流之外,还可以抑制HTTP开销增加。
<第五实施例>
(emsg盒的描述示例)
应用了本公开的信息处理***的第五实施例与第四实施例的不同主要在于,在MPD文件中没有描述AveBandwidth和DurationForAveBandwidth的初始值并且没有将其中保存有更新通知信息的emsg盒放置在音频流的分片文件。因此,下面将仅仅描述其中保存有AveBandwidth和DurationForAveBandwidth的emsg盒、文件生成处理、AveBandwidth和DurationForAveBandwidth的更新处理、和再现处理。
图20是图示了第五实施例中的emsg盒的描述示例的示意图,该emsg盒中保存有AveBandwidth和DurationForAveBandwidth。
在图20中的emsg盒中,string value具有指示AveBandwidth和DurationForAveBandwidth的传输的3。另外,用0将presentation_time_delta设置为从放置有该emsg盒的媒体分片文件的再现时间到发送AveBandwidth和DurationForAveBandwidth的再现时间的时间。利用这种配置,活动图像再现终端14可以识别到AveBandwidth和DurationForAveBandwidth被放置到放置有该emsg盒的媒体分片文件中。
与图16的情况一样,event_duration具有“0xFFFF”。另外,message_data具有AveBandwidth和DurationForAveBandwidth的XML数据。
文件生成装置11可以仅仅通过修改将图20中的emsg盒放置到音频流的媒体分片文件中的频率来容易地修改AveBandwidth和DurationForAveBandwidth的更新频率。
要注意,虽然省略了说明,但是在第五实施例中的文件生成装置11的文件生成处理与图19中的文件生成处理相似,主要除了没有进行步骤S164、S170和S171中的处理和用图20中的emsg盒代替图18中的emsg盒之外。
然而,在第五实施例中,在MPD文件中没有描述AveBandwidth和DurationForAveBandwidth。另外,在MPD文件中描述的配置文件是指示将图20的emsg盒放置在分片文件中的配置文件并且是例如“urn:mpeg:dash:profile:isoff-dynamic-bandwidth:2015”。
此外,虽然省略了说明,但是代替第四实施例中的MPD文件更新处理,进行第五实施例中的流式再现单元60所进行的AveBandwidth和DurationForAveBandwidth的更新处理。AveBandwidth和DurationForAveBandwidth的更新处理是这样一种处理:当图20中的emsg盒被包括在由分片文件获取单元63获取到的媒体分片文件中时,从该emsg盒获取AveBandwidth和DurationForAveBandwidth,并且更新AveBandwidth和DurationForAveBandwidth。
另外,在第五实施例中的流式再现单元60的再现处理与图14中的再现处理相同,除了步骤S111中的选择比特率当中的AveBandwidth未从MPD处理单元62提供但是由分片文件获取单元63本身更新。该再现处理是与AveBandwidth和DurationForAveBandwidth的更新处理并行执行的。
如迄今为止所描述的,在第五实施例中,由于将AveBandwidth和DurationForAveBandwidth放置在emsg盒中,没有必要每次更新AveBandwidth和DurationForAveBandwidth时都分析MPD文件。
要注意,AveBandwidth和DurationForAveBandwidth可以按照另一标准(诸如,HTTP 2.0和WebSocket)定期从Web服务器12被发送,而不是被保存在emsg盒中。同样,在这种情况下,可以获得与第五实施例的效果相似的效果。
另外,在第五实施例中,可以将其中保存有更新通知信息的emsg盒放置在分片文件中,如在第三实施例中一样。
<第六实施例>
(MPD文件的描述示例)
应用了本公开的信息处理***的第六实施例与第五实施例的不同主要在于,将AveBandwidth和DurationForAveBandwidth的XML数据放置在与音频流的分片文件不同的分片文件中。因此,下面将仅仅描述其中保存有AveBandwidth和DurationForAveBandwidth的分片文件(下文称为频带分片文件)、文件生成处理、AveBandwidth和DurationForAveBandwidth的更新处理、和再现处理。
图21是图示了第六实施例中的MPD文件的描述示例的示意图。
要注意,为了便于解释,图21仅仅图示了在MPD文件中的描述当中的管理频带分片文件的描述。
如图21所示,频带分片文件的自适应集元素与图4中的音频流的自适应集元素的不同在于,频带分片文件的自适应集元素具有<SupplementalPropertyschemeIdUri=“urn:mpeg:dash:bandwidth:2015”>。
<SupplementalProperty schemeIdUri=“urn:mpeg:dash:bandwidth:2015”>是指示频带分片文件的更新间隔的描述符。作为<SupplementalPropertyschemeIdUri=“urn:mpeg:dash:bandwidth:2015”>的值(value),设置更新间隔和作为频带分片文件的名称的基础的文件URL。在图21中的示例中,将更新间隔指定为参考持续时间ΔT并且将文件URL指定为“$Bandwidth$bandwidth.info”。因此,通过将“bandwidth”添加至被包括在表示元素中的Bandwidth来获得频带分片文件的名称的基础。
另外,在图21中的示例中,与频带分片文件相对应的三种类型的音频流的最大比特率是2.8Mbps、5.6Mbps和11.2Mbps。因此,相应的三个表示元素具有2800000、5600000和11200000作为带宽。因此,在图21中的示例中,频带分片文件的名称的基础是2800000bandwidth.info、5600000bandwidth.info和11200000bandwidth.info。
被包括在表示元素中的分片信息元素具有与对应于该表示元素的频带分片文件组的每个分片文件有关的信息。
如上所述,在第六实施例中,在MPD文件中描述了更新间隔。因此,可以仅仅通过修改在MPD文件中描述的更新间隔和频带分片文件的更新间隔来容易地修改AveBandwidth和DurationForAveBandwidth的更新频率。
要注意,虽然省略了说明,但是在第六实施例中的文件生成装置11的文件生成处理与图12中的文件生成处理相似,除了在步骤S60中生成的MPD文件是图21中的MPD文件并且MPD文件未被更新,但是在步骤S69中频带分片文件由分片文件生成单元33生成并且经由上传单元35被上传到Web服务器12。
另外,在第六实施例中的流式再现单元60所进行的AveBandwidth和DurationForAveBandwidth的更新处理与图13中的MPD文件更新处理相似,除了分片文件获取单元63获取频带分片文件并且在步骤S93与步骤S94之间更新AveBandwidth和DurationForAveBandwidth并且在步骤S94中确定处理未被终止的情况下处理返回步骤S93。
此外,在第六实施例中的流式再现单元60的再现处理与图14中的再现处理相同,除了步骤S111中的选择比特率当中的AveBandwidth未从MPD处理单元62提供但是由分片文件获取单元63本身更新。该再现处理是与AveBandwidth和DurationForAveBandwidth的更新处理并行执行的。
如迄今为止所描述的,在第六实施例中,由于将AveBandwidth和DurationForAveBandwidth放置在频带分片文件中,没有必要每次更新AveBandwidth和DurationForAveBandwidth时都分析MPD文件。
<第七实施例>
(MPD文件的第一描述示例)
应用了本公开的信息处理***的第七实施例与第二实施例在MPD文件的配置方面的不同在于,音频流的分片长度被配置为可变的,从而使音频流的分片文件的实际比特率在预定范围内。因此,下面将仅仅描述MPD文件和分片文件的配置。
图22是图示了第七实施例中的MPD文件的第一描述示例的示意图。
图22中的MPD文件的描述与图10中的配置的不同在于,音频流的分片文件的自适应集元素具有指示每个分片文件的分片长度的ConsecutiveSegmentInformation。
在图22中的示例中,分片长度改变了作为参考点的固定分片长度的正数倍。具体地,分片文件是通过将固定分片长度的一个或者多个分片文件连在一起来组成的。
因此,作为ConsecutiveSegmentInformation的值(Value),描述了MaxConsecutiveNumber并且随后按照顺序重复描述FirstSegmentNumber和ConsecutiveNumbers。
MaxConsecutiveNumber是指示固定分片长度的连接分片文件的最大数量的信息。固定分片长度是基于被包括在音频流的分片文件的自适应集元素中的Segment Template的timescale和duration来设置的。在图22中的示例中,timescale具有44100并且duration具有88200。因此,固定分片长度是2秒。
FirstSegmentNumber是从具有相同长度的一组连续分片的顶部分片的顶部开始的分片编号,即,被包括在具有相同长度的分片的连续分片文件的组的顶部分片文件的名称中的编号。ConsecutiveNumbers是指示与上述FirstSegmentNumber相对应的分片组的分片长度有多少次是固定分片长度的信息。
在图22中的示例中,ConsecutiveSegmentInformation的值是2、1、1、11、2、31、1。因此,固定段长度的连接的最大次数是2。另外,与带宽是2800000的表示元素相对应的、具有最大比特率2.8Mbps和文件名称“2800000-1.mp4”的来自顶部的第一媒体文件是通过连接具有文件名称“2800000-1.mp4”的固定分片长度的一个媒体分片文件来获得的。因此,文件名称是“2800000-1.mp4”的媒体分片文件的分片长度是2秒,其是固定分片长度的一倍。
同样,文件名称是“2800000-2.mp4”至“2800000-10.mp4”的来自顶部的第二至第十媒体分片文件也是分别通过连接具有文件名称“2800000-2.mp4”至“2800000-10.mp4”的固定分片长度的一个媒体分片文件来获得的,并且其分片长度是2秒。
同时,文件名称是“2800000-11.mp4”的来自顶部的第十一媒体分片文件是通过连接具有文件名称“2800000-11.mp4”和“2800000-12.mp4”的固定分片长度的两个媒体分片文件来获得的。因此,文件名称是“2800000-11.mp4”的媒体分片文件的分片长度是4秒,其是固定分片长度的两倍。另外,跳过连接至文件名称为“2800000-11.mp4”的媒体分片文件的文件名称“2800000-12.mp4”。
同样,文件名称为“2800000-13.mp4”、“2800000-15.mp4”、……、“2800000-29.mp4”的来自顶部的第十二至第十九媒体分片文件也是分别通过连接固定分片长度的两个媒体分片文件来获得的,并且其分片长度是4秒。
此外,文件名称为“2800000-31.mp4”的来自顶部的第二十媒体分片文件是通过连接文件名称为“2800000-31.mp4”的固定分片长度的一个媒体分片文件来获得的。因此,文件名称是“2800000-31.mp4”的媒体分片文件的分片长度是2秒,其是固定分片长度的一倍。
由于与带宽是5600000和11200000的表示元素相对应的具有最大比特率5.6Mbps和11.2Mbps的媒体分片文件的配置与具有最大比特率2.8Mbps的媒体分片文件的配置相似,所以将省略对其的阐释。
(MPD文件的第二描述示例)
图23是图示了第七实施例中的MPD文件的第二描述示例的示意图。
图23中的MPD文件的配置与图10中的配置的不同在于,在SegmentTemplate中没有描述timescale和duration并且音频流的分片文件的自适应集元素具有SegmentDuration。
在图23中的示例中,分片长度变长任意时间。因此,将timescale和duration描述为SegmentDuration。timescale是表示1秒的值,并且在图23中的示例中设置44100。
另外,关于duration,按照顺序重复描述FirstSegmentNumber和SegmentDuration。FirstSegmentNumber与图22中的FirstSegmentNumber相同。当将timescale指定为1秒时,SegmentDuration是与上述FirstSegmentNumber相对应的分片组的分片长度的值。
在图23中的示例中,SegmentDuration的值是1,88200、11,44100、15,88200。因此,与带宽是2800000的表示元素相对应的、具有最大比特率2.8Mbps并且文件名称为“2800000-1.mp4”的来自顶部的第一媒体分片文件的分片长度是2秒(=88200/44100)。同样,文件名称为“2800000-2.mp4”至“2800000-10.mp4”的来自顶部的第二至第十媒体分片文件的分片长度也是2秒。
同时,文件名称为“2800000-11.mp4”的来自顶部的第十一媒体分片文件的分片长度是1秒(=44100/44100)。同样,文件名称为“2800000-12.mp4”至“2800000-14.mp4”的来自顶部的第十二至第十四媒体分片文件的分片长度也是1秒。
此外,文件名称为“2800000-15.mp4”的来自顶部的第十五媒体分片文件的分片长度是2秒(=88200/44100)。
由于与带宽是5600000和11200000的表示元素相对应的具有最大比特率5.6Mbps和11.2Mbps的媒体分片文件的配置与具有最大比特率2.8Mbps的媒体分片文件的配置相似,所以将省略对其的阐释。
如上所述,在图23中的示例中,不存在音频流的媒体分片文件的跳过文件名称。
要注意,在第七实施例中,分片文件生成单元33基于音频流的实际比特率或者实际比特率的平均值来决定分片长度,从而使该比特率在预定范围内。另外,在第七实施例中,由于分片文件是被现场分发的,所以分片长度是在生成音频流时改变。因此,活动图像重新终端14需要在每次修改分片长度时获取和更新MPD文件。
在第七实施例中,分片长度的修改时间被指定为与音频流的实际比特率的平均值的计算时间相同,但是可能是不同的。在两个时间彼此不同的情况下,指示分片长度的更新间隔和更新时间的信息被传输至活动图像再现终端14并且活动图像再现终端14基于该信息来更新MPD文件。
(分片文件的配置示例)
图24是图示了在第七实施例中的通过无损DSD技术而被编码的音频流的媒体分片文件的配置示例的示意图。
图24的A中的媒体分片文件的配置与图15中的配置的不同在于,存在不等同于固定分片长度但是等同于可变分片长度的电影片段,并且没有提供emsg盒。
要注意,在媒体分片文件是通过连接固定分片长度的一个或者多个媒体分片文件来组成的,如在图22中的示例中一样,媒体分片文件仅仅可以通过连接固定分片长度的一个或者多个媒体分片文件来组成,如图24的B中所示的。在这种情况下,存在与连接的媒体分片文件的数量一样多的styp盒和sidx盒。
如迄今为止所描述的,在第七实施例中,音频流的分片长度被配置成可变的,从而使音频流的分片文件的实际比特率在预定范围内。因此,即使在音频流的实际比特率很小的情况下,活动图像再现终端14也可以通过以分片为单位的分片文件以预定范围内的比特率来获取音频流。
与此相反,在分片长度是固定的情况下,如果音频流的实际比特率很小,则通过一次获取以分片为单位的分片文件而获取到的音频流的比特数减小。结果,每比特数的HTTP开销增加。
要注意,可以按照与第三至第六实施例中的AveBandwidth和DurationForAveBandwidth相似的方式将指示每个分片文件的分片长度的信息发送至活动图像再现终端14。另外,指示每个分片文件的分片长度的文件可以与MPD文件分开被生成以便被发送至活动图像再现终端14。
此外,同样在第三至第六实施例中,分片长度可以被配置成可变的,如在第七实施中一样。
(对无损DSD技术的解释)
(无损压缩编码单元的配置示例)
图25是图示了由图3中的获取单元31和编码单元32组成的无损压缩编码单元的配置示例的框图。
图25中的无损压缩编码单元100由输入单元111、ADC 112、输入缓冲区113、控制单元114、编码器115、编码数据缓存区116、数据量比较单元117、数据传输单元118和输出单元119组成。无损压缩编码单元100通过DSD技术将音频模拟信号转换成音频数字信号并且对转换后的音频数字信号进行无损压缩和编码以进行输出。
具体地,活动图像内容的音频模拟信号被输入单元111输入并且被提供给ADC112。
ADC 112由加法器121、积分器122、比较器123、单采样延迟电路124和1位DAC 125,并且通过DSD计算将音频模拟信号转换成模拟数字信号。
即,将从输入单元111提供的音频模拟信号提供给加法器121。该加法器121将早先从1位DAC 125提供的单采样持续时间的音频模拟信号与来自输入单元111的音频模拟信号相加以输出至积分器122。
积分器122对来自加法器121的音频模拟信号进行积分以输出至比较器123。比较器123通过每隔采样持续时间将积分值与从积分器122供应的音频模拟信号的终点电位进行比较来进行1位量化。
要注意,在该示例中,假设比较器123进行1位量化,但是比较器123可以进行2为量化、4位量化等。另外,例如,使用是48kHz或者44.1kHz的64倍或者128倍的频率作为采样持续时间的频率(采样频率)。比较器123将通过1位量化而获得的1位音频数字信号输出至输入缓冲区113并且还将1位音频数字信号提供给单采样延迟电路124。
单采样延迟电路124将1位音频数字信号延迟单采样持续时间以输出至1位DAC125。1位DAC 125将来自单采样延迟电路124的音频数字信号转换成音频模拟信号以输出至加法器121。
输入缓冲区113暂时积累从ADC 112提供的1位音频数字信号以逐帧提供给控制单元114、编码器115和数据量比较单元117。此处,一个帧是被视为通过将音频数字信号分成预定时间(持续时间)而获得的一个包装的单位。
控制单元114控制整个无损压缩编码单元100的操作。控制单元114还具有创建编码器115进行无损压缩编码所需的换算表table1并且将创建的换算表提供给编码器115的功能。
具体地,控制单元114使用从输入缓冲区113提供的一个帧的音频数字信号来创建以帧为单位的数据生产计数表pre_table并且进一步从数据生产计数表pre_table创建换算表table1。控制单元114将以帧为单位创建的换算表table1提供给编码器115和数据传输单元118。
使用从控制单元114提供的换算表table1,编码器115对以四个比特为单位的从输入缓冲区113提供的音频数字信号进行无损压缩和编码。因此,与提供给控制单元114的时间同时将音频数字信号从输入缓冲区113提供给编码器115。在编码器115中,然而,使处理进入待机状态直到从控制单元114提供换算表table1为止。
虽然稍后将描述无损压缩编码的细节,但是编码器115对4位音频数字信号进行无损压缩并且将其编码成2位音频数字信号或者6位音频数字信号以输出至编码数据缓冲区116。
编码数据缓冲区116暂时将作为无损压缩编码结果生成的音频数字信号缓存在编码器115中以提供给数据量比较单元117和数据传输单元118。
数据量比较单元117以帧为单位将已经从输入缓冲区113提供的未经过无损压缩编码的音频数字信号的数据量与已经从编码数据缓冲区116提供的经过无损压缩编码的音频数字信号的数据量进行比较。
即,如上所述,由于编码器115对4位音频数字信号进行无损压缩并且将其编码成2位音频数字信号或者6位音频数字信号,通过算法,在某些情况下,无损压缩编码之后的音频数字信号的数据量超过无损压缩编码之前的音频数字信号的数据量。因此,数据量比较单元117将无损压缩编码之后的音频数字信号的数据量与无损压缩编码之前的音频数字信号的数据量进行比较。
然后,数据量比较单元117选择具有最小数据量的一个音频数字信号并且将指示哪一个被选择的选择控制数据提供给数据传输单元118。要注意,在将指示已经选择了无损压缩编码之前的音频数字信号的选择控制数据提供给数据传输单元118的情况下,数据量比较单元117还将无损压缩编码之前的音频数字信号提供给数据传输单元118。
基于从数据量比较单元117提供的选择控制数据,数据传输单元118选择从编码数据缓冲区116提供的音频数字信号或者从数据量比较单元117提供的音频数字信号。在选择了已经从编码数据缓冲区116提供的经过无损压缩编码的音频数字信号的情况下,数据传输单元118从该音频数字信号、选择控制数据、和从控制单元114提供的换算表table1生成音频流。另一方面,在选择了已经从数据量比较单元117提供的未经过无损压缩编码的音频数字信号的情况下,数据传输单元118从该音频数字信号和选择控制数据生成音频流。然后,数据传输单元118经由输出单元119输出生成的音频流。要注意,数据传输单元118也可以通过将同步信号和错误校正码(ECC)添加至每个预定数量的样本的音频数字信号来生成音频流。
(数据生产计数表的示例)
图26是图示了由图25中的控制单元114生成的数据生产计数表的示例的示意图。
控制单元114对从以4个比特为单位的输入缓冲区113提供的以帧为单位的音频数字信号进行划分。在下文中,来自顶部的以4个比特为单位的第i个(i是大于1的整数)划分音频数字信号被称为D4数据D4[i]。
控制单元114按照从每个帧的顶部的顺序将第n个(n>3)D4数据D4[n]指定为当前D4数据。对于在当前D4数据D4[n]之前的三段过去D4数据D4[n-3]、D4[n-2]和D4[n-1]的每个模式,控制单元114对当前D4数据D4[n]的生产次数进行计数并且创建图26所示的数据生产计数表pre_table[4096][16]。数据生产计数表pre_table[4096][16]的[4096]和[16]表示数据生产计数表是4096行和16列的表格(矩阵),其中,行[0]至[4095]中的每一行都与可以由三段过去D4数据D4[n-3]、D4[n-2]和D4[n-1]采用的值相对应,并且列[0]至[15]中的每一列都与可以由当前D4数据D4[n]采用的值相对应。
具体地,当三段过去D4数据D4[n-3]、D4[n-2]和D4[n-1]是“0”={0000,0000,0000}时,在数据生产计数表pre_table的第一行的pre_table[0][0]至[0][15]指示当前D4数据D4[n]的生产次数。在图26中的示例中,三段过去D4数据D4[n-3]、D4[n-2]和D4[n-1]是“0”并且当前D4数据D4[n]是“0”的次数是369a(十六进制表示法),并且三段过去D4数据D4[n-3]、D4[n-2]和D4[n-1]是“0”并且当前D4数据D4[n]是除了“0”之外的值的次数是零。因此,pre_table[0][0]至[0][15]被写为{369a,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0}。
当三段过去D4数据D4[n-3]、D4[n-2]和D4[n-1]是“1”={0000,0000,0001}时,在数据生产计数表pre_table的第二行的pre_table[1][0]至[0][15]指示当前D4数据D4[n]的生产次数。在图26中的示例中,不存在一个帧中的模式,其中,三段过去去D4数据D4[n-3]、D4[n-2]和D4[n-1]是“1”。因此,pre_table[1][0]至[1][15]被写为{0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0}.。
另外,当三段过去D4数据D4[n-3]、D4[n-2]和D4[n-1]是“117”={0000,0111,0101}时,在数据生产计数表pre_table的第118行的pre_table[117][0]至[117][15]指示当前D4数据D4[n]的生产次数。图26中的示例指示,在三段过去D4数据D4[n-3]、D4[n-2]、D4[n-1]为“117”的情况下,当前D4数据D4[n]为“0”的生产次数是零,当前D4数据D4[n]为“1”的生产次数是1,当前D4数据D4[n]为“2”的生产次数是10,当前D4数据D4[n]为“3”的生产次数是18,当前D4数据D4[n]为“4”的生产次数是20,当前D4数据D4[n]为“5”的生产次数是31,当前D4数据D4[n]为“6”的生产次数是11,当前D4数据D4[n]为“7”的生产次数是零,当前D4数据D4[n]为“8”的生产次数是4,当前D4数据D4[n]为“9”的生产次数是12,当前D4数据D4[n]为“10”的生产次数是5,并且当前D4数据D4[n]为“11”至“15”的生产次数是零。因此,pre_table[117][0]至[117][15]被写为{0,1,10,18,20,31,11,0,4,12,5,0,0,0,0,0}.。
(换算表的示例)
图27是图示了由图25中的控制单元114生成的换算表table1的示例的示意图。
控制单元114基于之前创建的数据生产计数表pre_table来创建4096行和3列的换算表table1[4096][3]。此处,换算表table1[4096][3]的行[0]至[4095]中的每一行都与可以由三段过去D4数据D4[n-3]、D4[n-2]和D4[n-1]采用的值对应,并且在可以由当前D4数据D4[n]采用的16个值当中,将具有更高的生产频率的三个值保存在列[0]至[2]中的每一列中。将具有最高(第一)生产频率的值保存在换算表table1[4096][3]的第一列[0]中,将具有第二生产频率的值保存在第二列[1]中,并且将具有第三生产频率的值保存在第三列[2]中。
具体地,在控制单元114基于图26中的数据生产计数表pre_table生成换算表table1[4096][3]的情况下,在换算表table1[4096][3]的第118行中的table1[117][0]至[117][2]被写为{05,04,03},如图27所示。即,在图26中的数据生产计数表pre_table的第118行中的pre_table[117][0]至[117][15]中,具有最高(第一)生产频率的值是被生产了31次的“5”,具有第二生产频率的值是被生产了20次的“4”,并且具有第三生产频率的值是被生产了18次的“3”。因此,在换算表table1[4096][3]中,将{05}保存在第一列table1[117][0]的第118行中,将{04}保存在第二列table1[117][1]的第118行中,并且将{03}保存在第三列table1[117][2]的第118行中。
同样,基于在图26中的数据生产计数表pre_table的第一行中的pre_table[0][0]to[0][15]来生成在换算表table1[4096][3]的第一行中的table1[0][0]至[0][2]。即,在图26中的数据生产计数表pre_table的第一行中的pre_table[0][0]to[0][15]中,具有最高(第一)生产频率的值是被生产了369a(十六进制表示法)次的“0”并且不会产生其它值。因此,将{00}保存在换算表table1[4096][3]的第一列table1[0][0]的第一行中,并且将表示不存在数据的{ff}保存在第二列table1[0][1]的第一行和第三列table1[0][2]的第一行中。表示不存在数据的值并不限于table1[0][2]并且在适当时可以被决定。由于保存在换算表table1的每个元素中的值是“0”至“15”中的任何一个,所以值可以由4个比特表示但是为了便于在计算机处理中进行处理由8个比特表示。
(对无损压缩编码的阐释)
接下来,将阐释图25中的编码器115所进行的使用换算表table1的压缩编码方法。
与控制单元114一样,编码器115对从以4个比特为单位的输入缓冲区113提供的以帧为单位的音频数字信号进行划分。在对来自顶部的第n个D4数据D4[n]进行无损压缩编码的情况下,控制单元114在与换算表table1[4096][3]中的紧邻的三段过去D4数据D4[n-3]、D4[n-2]和D4[n-1]对应的行中搜索三个值。在待被进行无损压缩和编码的D4数据D4[n]具有与在和换算表table1[4096][3]中的紧邻的三段过去D4数据D4[n-3]、D4[n-2]和D4[n-1]相对应的行的第一列中的值相同的值的情况下,编码器115生成2位值“01b”作为对D4数据D4[n]进行的无损压缩编码的结果。另外,在待被进行无损压缩和编码的D4数据D4[n]具有与在和换算表table1[4096][3]中的紧邻的三段过去D4数据D4[n-3]、D4[n-2]和D4[n-1]相对应的行的第二列中的值相同的值的情况下,编码器115生成二位值“10b”作为对D4数据D4[n]进行的无损压缩编码的结果,并且在D4数据D4[n]具有与在第三列中的值相同的值的情况下,编码器115生成二位值“11b”作为对D4数据D4[n]进行的无损压缩编码的结果。
另一方面,在与换算表table1[4096][3]中的紧邻的三段过去D4数据D4[n-3]、D4[n-2]和D4[n-1]相对应的行中的三个值当中不存在与待被进行无损压缩和编码的D4数据D4[n]的值相同的值的情况下,编码器115生成通过在该D4数据D4[n]之前粘贴“00b”而获得的6位值“00b+D4[n]”作为对D4数据D4[n]进行的无损压缩编码的结果。此次,“01b”、“10b”、“11b”、“00b+D4[n]”中的b表示这些值以二进制表示。
利用上述操作,编码器115使用换算表table1将4位DSD数据D4[n]转换成2位值“01b”、“10b”或者“11b”或者6位值“00b+D4[n]”以用作无损压缩编码结果。编码器115将无损压缩编码结果输出至编码数据缓冲区116作为经过无损压缩编码的音频数字信号。
(无损压缩解码单元的配置示例)
图28是图示了由图7中的解码单元66和输出控制单元67组成的无损压缩解码单元的配置示例的框图,该无损压缩解码单元通过无损DSD技术解码音频流以进行D/A转换。
图28中的无损压缩解码单元70由输入单元171、数据接收单元172、编码数据缓冲区173、解码器174、表格存储单元175、输出缓冲区176、模拟滤波器177和输出单元178组成。无损压缩解码单元70通过无损DSD技术对音频流进行无损压缩和解码并且通过DSD技术将作为无损压缩解码解码的结果获得的音频数字信号转换成音频模拟信号以输出。
具体地,从图7中的缓冲区65提供的音频流被输入单元171输入并且被提供给数据接收单元172。
数据接收单元172基于指示是否对被包括在音频流中的音频数字信号进行无损压缩和编码的选择控制数据来确定是否对音频数字信号进行无损压缩和编码。然后,在确定对音频数字信号进行无损压缩和编码的情况下,数据接收单元172将被包括在音频流中的音频数字信号提供给编码数据缓冲区173作为经过无损压缩编码的音频数字信号。数据接收单元172还将被包括在音频流中的换算表table1提供给表格存储单元175。
另一方面,在确定不对音频数字信号进行无损压缩和编码的情况下,数据接收单元172将被包括在音频流中的音频数字信号提供给输出缓冲区176作为没有经过无损压缩编码的音频数字信号。
表格存储单元175存储从数据接收单元172提供的换算表table1以提供给解码器174。
编码数据缓冲区173暂时积累以帧为单为的已经从数据接收单元172提供的经过无损压缩编码的音频数字信号。编码数据缓冲区173在随后的阶段中以预定时间每隔两个连续的比特将以帧为单位的所积累的音频数字信号提供给解码器174。
解码器174由2位寄存器191、12位寄存器192、换算表处理单元193、4位寄存器194和选择器195组成。解码器174对经过无损压缩编码的音频数字信号进行无损压缩和解码以生成无损压缩编码之前的音频数字信号。
具体地,寄存器191存储从编码数据缓冲区173提供的2位音频数字信号。寄存器191以预定时间将存储的2位音频数字信号提供给换算表处理单元193和选择器195。
12位寄存器192按照先入先出(FIFO)存储作为无损压缩解码结果的从选择器195提供的4位音频数字信号的12个比特。利用这种操作,寄存器192在其中保存D4数据,该D4数据是对包括存储在寄存器191中的2位音频数字信号的音频数字信号进行的无损压缩解码的结果当中的紧邻的三个过去无损压缩解码结果。
在从寄存器191提供的2位音频数字信号为“00b”的情况下,换算表处理单元193忽略该音频数字信号,因为其未被记录在换算表table1[4096][3]中。换算表处理单元193还忽略由在最近提供的2位音频数字信号之后被立即提供两次的2位音频数字信号组成的全部4位音频数字信号。
另一方面,在提供的2位音频数字信号为“01b”、“10b”或者“11b”的情况下,换算表处理单元193读取存储在寄存器192中的三段D4数据(12位D4数据)。换算表处理单元193从表格存储单元175读取保存在行中的由提供的2为一排数字信号表示的列中,在该行中,三段读取的D4数据被记录为换算表table1中的D4[n-3]、D4[n-2]和D4[n-1]。换算表处理单元193将读取的D4数据提供给寄存器194。
寄存器194存储从换算表处理单元193提供的4位D4数据。寄存器194以预定时间将存储的4位D4数据提供给选择器195的输入终端196b。
在从寄存器191提供的2位音频数字信号为“00b”的情况下,选择器195选择输入终端196a。然后,选择器195通过输出终端197将在“00b”之后被输入至输入终端196a的4位音频数字信号输出至寄存器192和输出缓冲区176作为无损压缩解码结果。
另一方面,在将4位音频数字信号从寄存器194输入至输入终端196b的情况下,选择器195选择输入终端196b。然后,选择器通过输出终端197将被输入至输入终端196a的4位音频数字信号输出至寄存器192和输出缓冲区176作为无损压缩解码结果。
输出缓冲区176存储没有被进行无损压缩和解码的从数据接收单元172提供的音频数字信号和作为无损压缩解码结果的从解码器174提供的音频数字信号以提供给模拟滤波器177。
模拟滤波器177对从输出缓冲区176提供的音频数字信号执行预定滤波处理(诸如,低通滤波和带通滤波)并且经由输出单元178输出结果信号。
要注意,换算表table1可以被无损压缩编码单元100压缩以提供给无损压缩解码单元170。另外,换算表table1可以被提前设置为存储在无损压缩编码单元100和无损压缩解码单元170中。此外,可以采用多个换算表table1。在这种情况下,在第j个(j是等于或者大于0的整数)换算表table1中,将来自最高生产频率的第3(j-1)段、第3(j-1)+1和第3(j-1)+2段D4数据保存在每行中。另外,与每行相对应的过去D4数据的段数并不限于3。
同时,无损压缩编码方法并不限于上述方法,并且,例如,可以是日本专利申请特开平9-74358号公报中公开的方法。
<第八实施例
(对应用了本公开的计算机的阐释)
一系列的上述处理也可以由硬件执行并且也可以由软件执行。在一系列的处理由软件执行的情况下,将组成软件的程序安装在计算机中。在本文中,计算机包括内置有专用硬件的计算机和能够在安装有各种类型的程序时执行各种类型的功能的计算机,例如,通用个人计算机等。
图29是图示了利用程序来执行上面描述的这一系列的处理的计算机的硬件配置示例的框图。
在计算机200中,中央处理单元(CPU)201、只读存储器(ROM)202、和随机存取存储器(RAM)203通过总线204相互连接。
另外,输入/输出接口205连接至总线204。输入单元206、输出单元207、存储单元208、通信单元209和驱动器210连接至输入/输出接口205。
输入单元206包括键盘、鼠标、麦克风等。输出单元207包括显示器、扬声器等。存储单元208包括硬盘、非易失性存储器等。通信单元209包括网络接口等。驱动器210驱动移动介质211,诸如,磁盘、光盘、磁光盘、或者半导体存储器。
在如上所述配置的计算机200中,例如,以这样一种方式进行上述一系列的处理:CPU 201经由输入/输出接口205和总线104将存储在存储单元208中的程序上传到RAM 203以执行。
例如,计算机200(CPU 201)所执行的程序可以通过被记录在充当封装介质等的移动介质211中而被提供。另外,程序可以经由有线或者无线传输介质(诸如,本地局域网、互联网、或者数字卫星广播)而被提供。
在计算机200中,程序可以通过将移动介质211安装在驱动器210中经由输入/输出接口205而被安装到存储单元208中。此外,程序可以在被通信单元209接收时经由有线或者无线传输介质而被安装到存储单元208中。作为替代方式,程序可以被提前安装到ROM 202或者存储单元208中。
要注意,计算机200所执行的程序可以是按照本说明书中描述的顺序沿时间序列这条线进行处理的程序,或者可替代地,可以是并行或者在必要时(例如,在被呼叫时)进行处理的程序。
另外,在本说明书中,***指的是多个组成构件(例如,装置和模块(部件))的集合,并且不认为是否将所有组成构件设置在相同的机柜内是重要的。因此,容纳在单独机柜中以经由网络相互连接并且其中一个装置的多个模块容纳在一个机柜中的多个装置均被视为***。
此外,本说明书中描述的效果仅仅充当示例并且不认为是限制的。可能存在另一效果。
另外,根据本公开的实施例并不限于上述实施例,并且在不脱离本公开的范围的情况下可以做出各种修改。
例如,只要技术是无法通过无损压缩编码预测比特生产量的无损压缩技术,第一至第八实施例中的无损DSD技术便可以是除了无损DSD技术之外的技术。例如,第一至第八实施例中的无损DSD技术可以是自由无损音频编解码(FLAC)技术、Apple无损音频编解码(ALAC)技术等。同样,在FLAC技术和ALAC技术中,比特生产量根据音频模拟信号的波形而波动,如在无损DSD技术中一样。要注意,波动率随着技术的不同而改变。
另外,根据第一至第八实施例的信息处理***10可以按照需要分发来自已经存储在Web服务器12中的活动图像内容的所有分片文件中的分片文件,而不是现场分发分片文件。
在这种情况下,在第二、第三和第七实施例中,MPD文件中描述的AveBandwidth在活动图像内容的整个持续时间内具有平均值。因此,在第二和第七实施例中,活动图像再现终端14不会更新MPD文件。另外,在第三实施例中,活动图像再现终端14更新MPD文件,但是MPD文件在更新之前和之后都不会改变。
另外,在这种情况下,第七实施例可以配置为:当在生成分片文件时生成固定分片长度的分片文件时,Web服务器12在进行按需分发时补偿固定分片长度的这些分片文件以生成可变固定长度的分片文件,并且将生成的分片文件发送至活动图像再现终端14。
此外,根据第一至第八实施例的信息处理***10可以使Web服务器12存储活动图像内容的分片文件以便在这之后进行接近现场分发,其中,分发是从该活动图像内容的顶部分片文件开始的。
在这种情况下,在再现开始时对已经存储在Web服务器12中的分片文件进行与按需分发处理相似的处理,并且在再现开始时对还未被存储在Web服务器12中的分片文件进行与现场分发的情况相似的处理。
同时,在第四至第六实施例中,将AveBandwidth和DurationForAveBandwidth(其更新值)放置在分片文件中。因此,即使在从生成活动图像内容的分片文件的时间到再现分片文件的时间的时间存在的情况下,如在按需分发或者接近现场分发中,活动图像再现终端14无法在再现开始时获取最新的AveBandwidth和DurationForAveBandwidth。因此,当发送其中保存有AveBandwidth和DurationForAveBandwidth(其更新值)的分片文件时,可以将最新的AveBandwidth和DurationForAveBandwidth重新保存在其中。在这种情况下,活动图像再现终端14可以在再现开始时识别最新的AveBandwidth和DurationForAveBandwidth。
另外,在第二至第七实施例中,仅仅在MPD文件或者分片文件中描述了最新的AveBandwidths和DurationForAveBandwidths,但是可以列举出每个任意时间的AveBandwidth和DurationForAveBandwidth。在这种情况下,活动图像再现终端14可以进行细致的频带控制。要注意,在任意时间是不可变的情况下,仅仅可以描述一个DurationForAveBandwidth。
要注意,本公开也可以如下面描述的配置。
(1)
一种再现装置,其包括:
获取单元,该获取单元在与通过无损压缩技术而被编码的音频流相对应的视频流之前获取该音频流并且检测音频流的比特率;以及
选择单元,该选择单元基于获取单元所检测到的比特率来选择要从具有不同比特率的多个视频流中获取的视频流。
(2)
根据(1)所述的再现装置,其中,
获取单元基于用于获取音频流和视频流的频带来选择要从具有不同的最大比特率的多个音频流获取的音频流。
(3)
根据(2)所述的再现装置,其中,
获取单元基于被包括在管理音频流和视频流的管理文件中的音频流的最大比特率和频带来选择要获取的音频流。
(4)
根据(1)至(3)中任一项所述的再现装置,其中,
在指示音频流的编码技术并不是确保编码期间在大小固定的缓冲区中不会产生下溢或者上溢的技术的信息被包括在管理音频流和视频流的管理文件中的情况下,获取单元检测音频流的比特率。
(5)
根据(1)至(4)中任一项所述的再现装置,其中,
无损压缩技术是无损直接数字流(DSD)技术、自由无损音频编解码(FLAC)技术或者Apple无损音频编解码(ALAC)技术。
(6)
一种再现方法,其包括:
获取步骤:通过再现装置,在与通过无损压缩技术而被编码的音频流相对应的视频流之前获取该音频流并且检测音频流的比特率;以及
选择步骤:通过再现装置,基于通过获取步骤的处理而被检测到的比特率来选择要从具有不同比特率的多个视频流中获取的视频流。
(7)
一种文件生成装置,其包括文件生成单元,该文件生成单元生成管理通过无损压缩技术而被编码的音频流和与音频流相对应的视频流的管理文件,管理文件包括指示音频流的编码技术并不是确保编码期间在大小固定的缓冲区中不会产生下溢或者上溢的技术的信息。
(8)
根据(7)所述的文件生成装置,其中,
管理文件包括音频流的最大比特率和视频流的比特率。
(9)
根据(7)或者(8)所述的文件生成装置,其中,
无损压缩技术是无损直接数字流(DSD)技术、自由无损音频编解码(FLAC)技术或者Apple无损音频编解码(ALAC)技术。
(10)
一种文件生成方法,其包括文件生成步骤:通过文件生成单元,生成管理通过无损压缩技术而被编码的音频流和与音频流相对应的视频流的管理文件,管理文件包括指示音频流的编码技术并不是确保编码期间在大小固定的缓冲区中不会产生下溢或者上溢的技术的信息。
参考符号列表
11 文件生成装置
13 互联网
14 活动图像再现终端
33 分片文件生成单元
34MPD 文件生成单元
63 分片文件获取单元
64 选择单元。

Claims (10)

1.一种再现装置,其包括:
获取单元,所述获取单元在与通过无损压缩技术而被编码的音频流相对应的视频流之前获取所述音频流并且检测所述音频流的比特率;以及
选择单元,所述选择单元基于所述获取单元所检测到的所述比特率来选择要从具有不同比特率的多个所述视频流中获取的所述视频流。
2.根据权利要求1所述的再现装置,其中,
所述获取单元基于用于获取所述音频流和所述视频流的频带来选择要从具有不同的最大比特率的多个所述音频流获取的所述音频流。
3.根据权利要求2所述的再现装置,其中,
所述获取单元基于被包括在管理所述音频流和所述视频流的管理文件中的所述音频流的所述最大比特率和所述频带来选择要获取的所述音频流。
4.根据权利要求1所述的再现装置,其中,
在指示所述音频流的编码技术并不是确保编码期间在大小固定的缓冲区中不会产生下溢或者上溢的技术的信息被包括在管理所述音频流和所述视频流的管理文件中的情况下,所述获取单元检测所述音频流的比特率。
5.根据权利要求1所述的再现装置,其中,
所述无损压缩技术是无损直接数字流(DSD)技术、自由无损音频编解码(FLAC)技术或者Apple无损音频编解码(ALAC)技术。
6.一种再现方法,其包括:
获取步骤:通过再现装置,在与通过无损压缩技术而被编码的音频流相对应的视频流之前获取所述音频流并且检测所述音频流的比特率;以及
选择步骤:通过所述再现装置,基于通过所述获取步骤的处理而被检测到的所述比特率来选择要从具有不同比特率的多个所述视频流中获取的所述视频流。
7.一种文件生成装置,其包括文件生成单元,所述文件生成单元生成管理通过无损压缩技术而被编码的音频流和与所述音频流相对应的视频流的管理文件,所述管理文件包括指示所述音频流的编码技术并不是确保编码期间在大小固定的缓冲区中不会产生下溢或者上溢的技术的信息。
8.根据权利要求7所述的文件生成装置,其中,
所述管理文件包括所述音频流的最大比特率和所述视频流的比特率。
9.根据权利要求7所述的文件生成装置,其中,
所述无损压缩技术是无损直接数字流(DSD)技术、自由无损音频编解码(FLAC)技术或者Apple无损音频编解码(ALAC)技术。
10.一种文件生成方法,其包括文件生成步骤:通过文件生成单元,生成管理通过无损压缩技术而被编码的音频流和与所述音频流相对应的视频流的管理文件,所述管理文件包括指示所述音频流的编码技术并不是确保编码期间在大小固定的缓冲区中不会产生下溢或者上溢的技术的信息。
CN201780019067.1A 2016-03-28 2017-03-14 再现装置和再现方法、以及文件生成装置和文件生成方法 Pending CN108886638A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016063222 2016-03-28
JP2016-063222 2016-03-28
PCT/JP2017/010104 WO2017169720A1 (ja) 2016-03-28 2017-03-14 再生装置および再生方法、並びにファイル生成装置およびファイル生成方法

Publications (1)

Publication Number Publication Date
CN108886638A true CN108886638A (zh) 2018-11-23

Family

ID=59964323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780019067.1A Pending CN108886638A (zh) 2016-03-28 2017-03-14 再现装置和再现方法、以及文件生成装置和文件生成方法

Country Status (4)

Country Link
US (1) US20190103122A1 (zh)
JP (1) JPWO2017169720A1 (zh)
CN (1) CN108886638A (zh)
WO (1) WO2017169720A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113709524A (zh) * 2021-08-25 2021-11-26 三星电子(中国)研发中心 选择音视频流的比特率的方法及其装置
WO2022100528A1 (zh) * 2020-11-11 2022-05-19 中兴通讯股份有限公司 音视频转发方法、装置、终端与***

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11546402B2 (en) * 2019-01-04 2023-01-03 Tencent America LLC Flexible interoperability and capability signaling using initialization hierarchy

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101237258A (zh) * 2007-02-01 2008-08-06 索尼株式会社 内容提供和重放方法、便携无线终端以及内容重放设备
WO2011011724A1 (en) * 2009-07-24 2011-01-27 Netflix, Inc. Adaptive streaming for digital content distribution
US20120063603A1 (en) * 2009-08-24 2012-03-15 Novara Technology, LLC Home theater component for a virtualized home theater system
US20160080748A1 (en) * 2013-07-08 2016-03-17 Panasonic Intellectual Property Corporation Of America Image coding method for coding information indicating coding scheme

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4831120B2 (ja) * 1998-10-13 2011-12-07 日本ビクター株式会社 音声符号化方法及び音声復号方法
US20080189359A1 (en) * 2007-02-01 2008-08-07 Sony Corporation Content providing method, content playback method, portable wireless terminal, and content playback apparatus
JP2013029679A (ja) * 2011-07-28 2013-02-07 Panasonic Corp 圧縮オーディオ再生装置及び平均ビットレート算出方法
JP6321181B2 (ja) * 2013-09-12 2018-05-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・コーデックのシステム側面
JP2015195488A (ja) * 2014-03-31 2015-11-05 ソニー株式会社 情報処理装置および情報処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101237258A (zh) * 2007-02-01 2008-08-06 索尼株式会社 内容提供和重放方法、便携无线终端以及内容重放设备
WO2011011724A1 (en) * 2009-07-24 2011-01-27 Netflix, Inc. Adaptive streaming for digital content distribution
US20120063603A1 (en) * 2009-08-24 2012-03-15 Novara Technology, LLC Home theater component for a virtualized home theater system
US20160080748A1 (en) * 2013-07-08 2016-03-17 Panasonic Intellectual Property Corporation Of America Image coding method for coding information indicating coding scheme

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022100528A1 (zh) * 2020-11-11 2022-05-19 中兴通讯股份有限公司 音视频转发方法、装置、终端与***
CN113709524A (zh) * 2021-08-25 2021-11-26 三星电子(中国)研发中心 选择音视频流的比特率的方法及其装置
CN113709524B (zh) * 2021-08-25 2023-12-19 三星电子(中国)研发中心 选择音视频流的比特率的方法及其装置

Also Published As

Publication number Publication date
WO2017169720A1 (ja) 2017-10-05
JPWO2017169720A1 (ja) 2019-02-07
US20190103122A1 (en) 2019-04-04

Similar Documents

Publication Publication Date Title
US8325800B2 (en) Encoding streaming media as a high bit rate layer, a low bit rate layer, and one or more intermediate bit rate layers
CN101535981A (zh) 用于在将媒体数据转换到不同数据格式时维持其质量的方法和***
JP6214765B2 (ja) 音声デコーダ、符号化音声出力データを生成するための装置、及びデコーダの初期化を可能にする方法
CN103858419A (zh) 用于无缝切换多媒体内容的分辨率的分辨率选择
KR20140138087A (ko) 햅틱 데이터 인코딩 및 스트리밍을 위한 방법 및 시스템
US8407565B2 (en) System and method for producing importance rate-based rich media, and server applied to the same
JP7439762B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
CN109194980A (zh) 再现装置以及再现方法
CN108886626B (zh) 信息处理装置、信息处理方法以及信息处理***
JP6876928B2 (ja) 情報処理装置および方法
CN108886638A (zh) 再现装置和再现方法、以及文件生成装置和文件生成方法
CN105409235A (zh) 文件生成装置和方法以及内容重放装置和方法
CN108886628A (zh) 文件生成装置和文件生成方法
CN110214448A (zh) 信息处理装置和方法
CN113271467B (zh) 一种支持高效编辑的超高清视频分层编解码方法
CN101583039B (zh) 信息处理装置和信息处理方法
CN112188285A (zh) 视频转码方法、装置、***及存储介质
CN100459686C (zh) 视频再现设备和视频再现方法
CN105122821A (zh) 服务器装置、内容提供方法以及计算机程序
KR101729765B1 (ko) 실시간 리먹싱 시스템, 송신 방법 및 수신 방법
JP7070886B2 (ja) 情報保存装置
KR102255312B1 (ko) 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법
EP1221259A1 (en) Converting non-temporal based compressed image data to temporal based compressed image data
Pfeiffer et al. Encoding Video
US20200314163A1 (en) Image processing device and method thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181123