WO2018211613A1 - 符号化映像再生装置および符号化映像再生方法 - Google Patents

符号化映像再生装置および符号化映像再生方法 Download PDF

Info

Publication number
WO2018211613A1
WO2018211613A1 PCT/JP2017/018464 JP2017018464W WO2018211613A1 WO 2018211613 A1 WO2018211613 A1 WO 2018211613A1 JP 2017018464 W JP2017018464 W JP 2017018464W WO 2018211613 A1 WO2018211613 A1 WO 2018211613A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
information
audio
access unit
stream
Prior art date
Application number
PCT/JP2017/018464
Other languages
English (en)
French (fr)
Inventor
島田 昌明
礼治 大塚
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2017/018464 priority Critical patent/WO2018211613A1/ja
Priority to JP2019518657A priority patent/JP6742515B2/ja
Publication of WO2018211613A1 publication Critical patent/WO2018211613A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/926Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback by pulse code modulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof

Definitions

  • the present invention relates to an apparatus for reproducing encoded video recorded on an information recording medium such as an SD card or an optical disk.
  • the initialization process of the AV decoder includes pre-setting such as the resolution and frame rate setting of the video supplied to the AV decoder, the initialization process of the AV decoder buffer, and the like.
  • initialization processing is often required when the video stream multiplexing format is changed.
  • the time required for such initialization processing has caused a gap between videos that becomes a black image display period when switching video streams.
  • the occurrence of a waiting time during which no video is displayed due to a gap leads to a loss of opportunity in video display time, and is therefore regarded as a problem.
  • the video brightness and the audio output level are greatly different at the time of scene switching, there is a problem that the user feels uncomfortable and uncomfortable.
  • Patent Document 1 As one means for solving such a problem, for example, as disclosed in Patent Document 1, video / audio information for overlapping video and audio joints is created separately, and natural video scene switching is viewed. A video editing apparatus capable of performing this process is known.
  • AV decoders installed in embedded devices generally perform playback processing for each video file unit, and it is necessary to perform initialization processing for each playback process. There is a problem that loop reproduction cannot be performed without generating a gap.
  • the present invention has been made to solve the above-described problems, and when video files are sequentially played back, it is possible to continuously display video without causing a gap when switching video streams.
  • An object of the present invention is to provide a coded video reproduction apparatus.
  • An encoded video reproduction apparatus is an encoded video reproduction apparatus that reproduces a stream information file in which encoded video information and audio information are multiplexed, and the video information is obtained from the stream information file. And a stream separation unit that separates the audio information into access unit units, and a buffer that records the video information and the audio information divided into access unit units in association with respective display start times.
  • a decoder that reads out and decodes the video information and the audio information from the buffer based on the display start time, a control of recording the display start time, the video information and the audio information with respect to the buffer;
  • a decoder that controls the supply of the video information and the audio information from the buffer to the decoder.
  • the data supply control unit after finishing the supply of the video information and audio information of the preceding stream information file, displays the display start time of the last access unit of the preceding stream information file, Prior to the supply of the video information and audio information of the subsequent stream information file, the display start time of the first access unit of the subsequent stream information file is reset.
  • the encoded video reproduction apparatus of the present invention it is possible to continuously display video without causing a gap between videos when switching video streams.
  • FIG. 1 is a functional block diagram showing a system configuration of an encoded video reproduction apparatus 100 according to an embodiment of the present invention.
  • the encoded video reproduction apparatus 100 includes a system control unit 101, a reproduction driver 102, a stream control unit 110, a video / audio decoder 114 (decoder), a video / audio adjustment unit 115, and a memory 120.
  • the driver 102, the stream control unit 110, the video / audio decoder 114, and the video / audio adjustment unit 115 constitute a decoder block 119.
  • the decoder block 119 performs stream information reproduction processing based on the decoder control signal from the system control unit 101.
  • the encoded video reproduction apparatus 100 receives a request from a user or the like via the operation unit 130, reads out and reproduces a video file or the like recorded on the SD card 140, and displays it on a display device 116 such as a liquid crystal display device.
  • the operation unit 130 refers to an input device such as an operation panel or a remote controller arranged on the front panel of the encoded video reproduction device 100.
  • the system control unit 101 performs integrated control of the entire encoded video reproduction device 100, interprets the content of a command given via the operation unit 130, and controls the decoder block 119 to reproduce arbitrary stream information.
  • the reproduction driver 102 is controlled to read out information from an information recording medium such as the SD card 140 and reproduce it.
  • the SD card 140 stores stream information obtained by multiplexing encoded video information and encoded audio information, which will be described later, and playback control information for the stream information.
  • Playback control information refers to video and audio attribute information related to encoded video and audio streams separated from stream information, access units of stream information, usually playback start time information and playback start position information in GOP (Group of Picture) units. It includes information indicating the correspondence between
  • the stream information includes information corresponding to MPEG (Moving Picture Experts Group) -2 TS (Transport Stream) format, MP4 format, and WMV (Windows Media Video) format (Windows is a registered trademark).
  • MPEG Motion Picture Experts Group
  • TS Transmission Stream
  • MP4 Motion Picture Experts Group
  • WMV Windows Media Video
  • the stream information file multiplexed in MP4 format and WMV format holds playback control information inside the file.
  • the MPEG-2 TS format does not hold the reproduction control information in the stream information file, a reproduction control information file associated with the stream information file is held separately.
  • the stream control unit 110 performs overall control of the stream flow of the entire system, and the stream control unit 110 includes a stream separation unit 111 and an AV buffer 112 (buffer).
  • the stream information file read from the SD card 140 by the playback driver 102 includes the encoded video information and the encoded audio information multiplexed, and the stream separation unit 111 separates the encoded video information and the encoded audio information. Are stored in the AV buffer 112.
  • the video / audio decoder 114 decodes the encoded video information encoded by MPEG-2 or the like to decode the video information, and also encodes the encoded audio information encoded by AC (Audio Coding number) -3 or the like. Is decoded into audio information.
  • the video / audio adjustment unit 115 receives the video information and audio information output from the video / audio decoder 114, performs video image quality adjustment and output volume level adjustment, respectively, and outputs them as an output video signal and an output audio signal to the display device 116. .
  • the system control unit 101 includes a data supply control unit 151, a static analysis unit 152 (analysis unit), and an output video / audio control unit 153.
  • the data supply control unit 151 controls the stream control unit 110 to read the video stream information from the playback driver 102 based on the playlist information 160 read from the memory 120, and the encoded video separated by the stream separation unit 111.
  • the stream separation unit 111 is controlled so that the information and the encoded audio information are stored in the AV buffer 112 in units of access units.
  • the playlist information 160 is information indicating in what order the video files recorded on the SD card 140 are to be played back, and the playback target file name, playback start time and playback end time, start point and end point Neighbor analysis information is stored.
  • the static analysis unit 152 analyzes video information and audio information in the vicinity of the reproduction start time and the reproduction end time of the stream information file, for example, 0.5 second in an encoded compression unit, and the start point of the playlist information 160 and Recorded as end point attribute information.
  • the output video / audio control unit 153 controls the video / audio adjustment unit 115 based on the attribute information of the start point and the end point recorded in the playlist information 160.
  • the functions of the data supply control unit 151, the static analysis unit 152, and the output video / audio control unit 153 may be realized by firmware incorporated in the system control unit 101, but hardware having similar functions may be used. It may be realized by hardware.
  • the data supply control unit 151, the static analysis unit 152, and the output video / audio control unit 153 are illustrated as separate configurations, but may be configured as a single configuration in which the respective functions are integrated.
  • the functions of the stream separation unit 111 and the AV buffer 112 in the stream control unit 110 may be realized by firmware or the like incorporated in the stream control unit 110, but may be hardware having similar functions. It does not matter if it is realized.
  • the system control unit 101 controls the stream control unit 110 to read the playback control information related to the stream information file to be played back from the SD card 140 in advance. Keep it.
  • the system control unit 101 holds the read reproduction control information in the memory 120 and reads it as necessary. Based on the playback control information read from the memory 120, the system control unit 101 instructs each unit under control to perform playback preparation.
  • the stream information file read from the SD card 140 by the playback driver 102 is input to the stream control unit 110 and separated into encoded video information and encoded audio information by the stream separation unit 111.
  • the stream separation unit 111 divides the encoded video information and the encoded audio information for each access unit, and stores them in the AV buffer 112 for each access unit.
  • the access unit is a processing unit of a plurality of data handled by encoded video information and encoded audio information.
  • the encoded video information is a frame unit, and the encoded audio information is a predetermined time (for example, 0.1 second).
  • An access unit is formed by unit data.
  • the access unit information recorded in the AV buffer 112 is sequentially supplied to the video / audio decoder 114.
  • the encoded video information is decoded and decoded into video information
  • the encoded voice information is decoded and decoded into audio information.
  • the decoded video information and audio information are input to the video / audio adjustment unit 115 to adjust the video image quality such as brightness and sharpness of the entire video screen, and to adjust the output volume level to obtain an output video signal and an output audio signal.
  • the data is output to the display device 116.
  • the display device 116 displays an image based on the input output video signal, and emits a sound based on the output audio signal through a speaker for viewing.
  • the encoded video reproduction apparatus 100 is characterized by control by the system control unit 101. That is, prior to the data supply control unit 151 storing data in the AV buffer 112, the static analysis unit 152 performs data analysis of the stream information file 221, and selects a picture that can completely decode the frame image as a start point and Rearrange to end point.
  • the static analysis unit 152 analyzes in advance video information and audio information in the vicinity of the reproduction start time and the reproduction end time of the stream information file, for example, 0.5 second in encoding compression unit, and luminance distribution of the video information
  • the luminance of the final video frame is acquired, the volume level distribution of the audio information and the volume level of the final audio access unit are acquired, and recorded in the playlist information 160 as start point and end point attribute information.
  • the output video / audio control unit 153 controls the video / audio adjustment unit 115 at the joint of the video scenes based on the attribute information of the start point and the end point recorded in the playlist information 160, so Output control of image quality and sound quality is performed so that a change in video luminance and a change in audio output level do not occur. As a result, even if the video luminance and the audio output level change greatly at the video scene switching point, the video scene can be switched without any sense of incongruity for the user.
  • FIG. 2 is a schematic diagram showing a logical file structure of the SD card 140.
  • the root directory 200 is a directory structure at the highest level of a file structure that logically forms a hierarchical structure.
  • the root directory 200 is a folder in which the playback control information directory 210 that is a folder in which the playback control information file 211 that is content management information recorded in the SD card 140 is recorded and the stream information file 221 are collectively recorded.
  • a stream management directory 220 A storage area in which the playback control information directory 210 is constructed is referred to as a playback control information area, and a storage area in which the stream management directory 220 is constructed is referred to as a stream information area.
  • the reproduction control information file 211 and the stream information file 221 are recorded with a five-digit file name and are associated one-to-one.
  • the file name may be a five-digit number and need not be a sequential number.
  • the MP4 format and the WMV format since the playback control information is included in the stream information file 221, there is no need to provide a playback control information file 211 corresponding to each.
  • the reproduction control information file 211 and the stream information file 221 are arranged in separate directories.
  • the reproduction control information file 211 and the stream information file 221 may be arranged in the same directory. It may be arranged directly.
  • the playback control information file 211 and the stream information file 221 are associated one-to-one, but the corresponding stream information files 221 may be recorded together in the playback control information file 211. .
  • FIG. 3 is a diagram for explaining the syntax in the playback control information file 211.
  • Start_PTS301 indicates a PTS (Presentation Time Stamp) indicating the display start time of the first access unit of the target stream information file 221
  • End_PTS302 indicates a PTS indicating the display start time of the last access unit.
  • attribute information management table 310 video attribute information (resolution, bit rate, frame rate, presence / absence of HDR support) and audio attribute information (number of channels, sampling rate) of the stream information file 221 and copyright protection are defined.
  • Information such as MPEG-TS system or MPEG-PS (Program Stream) system, or multiplexing system information such as a packet identifier for separating video and audio is recorded.
  • the “access point management table 320” information necessary for cue playback is recorded.
  • the head of GOP Group of Picture
  • which packet in the stream information file 221 has the head of the GOP is recorded as information necessary for cue reproduction.
  • “Num_of_entry 321” of the “access point management table 320” indicates the total number of access points, and the loop statement (below “for”) below “num_of_entry 321” is repeated by the number of “num_of_entry 321”.
  • PTS_GOP_Start 331 indicates an access point display start PTS
  • SPN_GOP_Start 332 is the relative number of packets from the head of the stream information file 221 to the head of the access point. Since the packet has a fixed length, the relative number of bytes from the head of the stream information file 221 to the head of the access point can be calculated by multiplying the value of “SPN_GOP_Start 332” and the number of bytes per packet.
  • the encoded video reproduction device 100 determines the position of the access point on the disk from the number of bytes from the beginning of the stream information file 221, and performs cue reproduction.
  • FIG. 4 is a schematic diagram for explaining the relationship between the storage order arrangement and the display order arrangement of the encoded compressed video file.
  • the stream information file 221 is recorded in the order of storage frames as shown in the storage order array 401.
  • the static analysis unit 152 performs static analysis of the stream information file 221 before starting playback. Rearrangement is performed as shown in the display order array 402.
  • the GOP that is a coding compression unit is an I picture (I) that is data-compressed in a frame and a P picture (P) that is data-compressed by adding motion compensation by a temporally forward I picture or P picture. ) And a B picture (B) that is data-compressed by adding motion compensation by I and P pictures in the longitudinal direction.
  • the I picture is located at the head of the GOP, then the B picture is continuous, and then becomes the P picture, and is then repeatedly arranged in the order of B, B, and P.
  • the display start time of the stream information file 221 is defined by Start_PTS301 (abbreviated as S_PTS301), the display end time is defined by End_PTS302 (abbreviated as E_PTS302), and in the storage sequence 401 in FIG. Is S_PTS301, and the last P picture is E_PTS302.
  • S_PTS301 the display start time of the stream information file 221
  • E_PTS302 abbreviated as End_PTS302
  • the B picture that becomes S_PTS301 in FIG. 4 cannot always completely decode the frame image. For example, when the B picture is obtained by an open GOP, there is no picture to be referenced to obtain the B picture, so that the frame image cannot be completely decoded, and block noise is generated. There's a problem.
  • the static analysis unit 152 statically analyzes the data of the stream information file 221 so that a picture capable of completely decoding a frame image is set as a start point and an end point.
  • the display order array 402 is obtained by rearranging.
  • the GOP starts with a B picture, followed by a B picture, followed by an I picture.
  • the I picture is the starting point S_VALID_PTS 411, and the last GOP
  • the P picture is the end point E_VALID_PTS412.
  • the I picture is completely decodable because the data is compressed in the frame, and the last P picture is completely decodable because it is compressed by adding motion compensation by the forward P picture in time. .
  • the static analysis unit 152 detects the video luminance information of the video frame after S_VALID_PTS 411 and the audio output level after the display start time in the GOP including the video frame of S_VALID_PTS 411. Similarly, in the GOP including the video frame of E_VALID_PTS 412, the video luminance information of the video frame up to E_VALID_PTS 412 and the audio output level up to the display end time are detected.
  • information is held in one coding compression unit.
  • information may be held in a plurality of coding compression units, or one coding compression unit may be used.
  • the information may be held with a smaller number of frames.
  • the S_VALID_PTS 411, E_VALID_PTS 412, video luminance information, and audio output level information obtained by the static analysis unit 152 are fed back to the playlist information 160 of the memory 120.
  • FIG. 5 is a diagram for explaining the syntax in the playlist information 160.
  • “Num_of_PlayList 501” holds the total number of playlists as a unit for signage display
  • “PlayList_Attribute 502” holds playlist attribute information such as the total time of the playlist, the playlist name, and the recording date and time.
  • “Num_of_MovieFile 503” indicates the total number of stream information files 221 constituting the playlist, and the loop statement (below “for”) in the line immediately below “num_of_MovieFile 503” is repeated by the number of “num_of_MovieFile 503”.
  • Stream_name 504 indicates the file name of the stream information file 221 to be played back
  • S_VALID_PTS 411 indicates the file name of the stream information file 221 to be played back
  • E_VALID_PTS 412 respectively indicate the playback start time and playback end time of the stream information file 221 to be played back.
  • PTSs of pictures that can completely decode a frame image are “S_VALID_PTS411” and “E_VALID_PTS412”. From these pieces of information, the encoded video reproduction device 100 can determine which section of the stream information file 221 should be reproduced.
  • the video luminance information 510 and the audio level information 511 are information on the video luminance and the audio output level near the start point and the end point of the stream information file 221 analyzed by the static analysis unit 152 as described above.
  • the analysis date / time information 512 is information on the date / time when the stream information file 221 is analyzed by the static analysis unit 152, and is recorded in association with the file specifying information for specifying the stream information file 221 to be analyzed.
  • the static analysis unit 152 analyzes the stream information file 221 prior to the video file reproduction process in order to obtain “S_VALID_PTS411”, “E_VALID_PTS412”, video luminance information 510, and audio level information 511. Need time. For this reason, if the analysis date / time information 512 and the file specifying information are recorded in association with each other and the stream information file 221 is not changed, that is, if there is no change from the previously analyzed result, the analysis processing is not performed. Like that. In digital signage, a form in which encoded video is displayed by loop playback is widely used. Therefore, after analysis once, analysis date information 512 is rarely changed, and repeated analysis can be avoided. Therefore, it is possible to avoid a delay in the decoding process accompanying the analysis.
  • the file specifying information is information that associates the file update date and time, the file size, the file name, and the like, and whether or not the stream information file 221 has changed is determined based on whether or not the file specifying information has been changed.
  • S_VALID_PTS411 “E_VALID_PTS412”, video luminance information 510, audio level information 511, and analysis date information 512 extracted by the static analysis unit 152 are referred to as static analysis information.
  • FIG. 6 is a diagram for explaining a storage form when the encoded video information and the encoded audio information separated by the stream separation unit 111 are stored in the AV buffer 112.
  • a plurality of stream information files 221 are recorded on the SD card 140.
  • the stream information file 221 may include files created in various multiplexing formats such as an MTS file created in the MPEG-TS format, an MP4 file created in the MP4 format, and a WMV file created in the WMV format.
  • the stream information file 221 that is a multiplexed file is separated into encoded video information and encoded audio information by the stream separation unit 111 and stored in the AV buffer 112 in units of access units as shown in FIG. .
  • the AV buffer 112 includes a video buffer 601 and an audio buffer 602. Each buffer has a plurality of buffer areas for continuously supplying data, and information is stored in the buffer area in units of access units. To be recorded. This information recording area is referred to as an access unit information area.
  • the video buffer 601 has 30 areas and the audio buffer 602 has 10 buffer areas.
  • encoded video information 610 and video display start time 611 are recorded in association with each other.
  • the encoded audio information 620 and the audio display start time 621 are recorded in association with each other.
  • the display start time is recorded in units of access units.
  • the display start time is set to the video display start time 611 and the audio display start time 621, and the video / audio decoder 114 reads the encoded video information 610 and the encoded audio information from the access unit information area of the AV buffer 112 according to the time information. 620 is read and a decoding process is performed.
  • Such a control data flow is also used in OpenMAX, which is a specification for general-purpose multimedia control for embedded devices.
  • FIG. 7 is a diagram showing the timing of video display and data supply, and the horizontal axis is the time axis.
  • a playlist a case where “00111.mts” of the MTS file is reproduced twice and then “99999.mp4” of the MP4 file is reproduced will be described.
  • the data supply control unit 151 reads the “00111.mts” file from the stream information file 221 of the SD card 140, and starts supply to the stream separation unit 111 at time t1.
  • the stream separator 111 extracts information for each access unit of the encoded video information and encoded audio information, and stores the access unit in the AV buffer 112. Supply in units.
  • the display time (time stamp) for each access unit recorded in the stream information file 221 is given to the video display start time 611 and the audio display start time 621 to be set.
  • the access unit information recorded in the AV buffer 112 is sequentially supplied to the video / audio decoder 114, and the video / audio decoder 114 decodes the encoded information and starts video display at time t2.
  • the data supply control unit 151 continues to supply data until the file end of the “00111.mts” file, and when all the data of the stream information file 221 read in advance is finished, immediately reads the stream information file 221 that follows, At t3, supply to the stream separation unit 111 is started again. At this time point, playback of the preceding stream information file (video display) continues, but the video / audio decoder 114 starts playback of the subsequent stream information file at time t4, and the video display is switched.
  • the “9999999.mp4” file starts to be supplied to the stream separation unit 111 at time t5 and starts to be reproduced at time t6.
  • FIG. 8 is a diagram for explaining the adjustment of the video luminance and the audio output level when the stream information file is reproduced based on the timing chart as shown in FIG.
  • a video display timing chart, video luminance information 510 and audio level information 511 obtained by analysis in the static analysis unit 152 are shown, and the horizontal axis is a time axis.
  • the output video / audio control unit 153 reads the video luminance information 510 and the audio level information 511 from the playlist information 160 recorded in the memory 120. As shown in FIG. 8, there is a large difference in video luminance and audio output level at time T3 when the video display by the preceding “00111.mts” file is switched to the video display by the subsequent “00111.mts” file. To do.
  • the output video / audio control unit 153 controls the video / audio adjustment unit 115 in the video playback section so as to reduce the difference when the difference is equal to or larger than a predetermined set value. Specifically, in the case of the example of FIG. 8, with respect to the video luminance, the output luminance is decreased until the luminance at the start point of the subsequent stream information file 221, that is, the luminance at the time T 3 in the section from the time T 2 to T 3. The video / audio adjustment unit 115 is controlled so as to be performed. As a result, since the video luminance difference is eliminated at time T3, it is possible to switch the video scene without any sense of incongruity for the user.
  • the audio output level is adjusted so that the start point of the subsequent stream information file 221, that is, the audio output level at time T 3 is matched with the end point of the preceding stream information file, that is, the audio output level at time T 3. Reduce the output level. Thereafter, the audio / video adjustment unit 115 is controlled to gradually increase the audio output level so that the original audio output level of the subsequent stream information file 221 is reached at time T4. As a result, the audio output level difference is eliminated at time T3, so that the video scene can be switched without any sense of incongruity for the user.
  • the video brightness and the audio output level are set. There is no big difference.
  • the output video / audio control unit 153 determines that the adjustment is unnecessary, assuming that the difference is less than a predetermined set value, and performs no special control.
  • the section from time T2 to T4 and the section from time T5 to T7 are the playback start time and playback end time of the stream information file that are in the context analyzed by the static analysis unit 152, that is, near the connection point of the stream information file. For example, it corresponds to a 0.5 second section of a coding compression unit.
  • the video luminance and audio output level for the entire period of the “00111.mts” file and the “99999.mp4” file are shown for convenience, but the analysis by the static analysis unit 152 is performed at the time described above. This may be done for the section from T2 to T4 and the section from time T5 to T7.
  • the necessity of adjustment is determined using the difference between the instantaneous values of the video brightness and the audio output level at the access unit at time T3. For example, the interval from time T2 to T3, that is, at time T3, is determined. Average values of video luminance and audio output level at the end portion of the preceding stream information file including the last access unit of the preceding stream information file and a plurality of preceding access units before it, and the subsequent stream at time T3 The necessity of adjustment is determined using the difference between the average value of the video brightness and the audio output level at the start of the subsequent stream information file including the first access unit of the information file and a plurality of subsequent access units after that. You can judge.
  • the encoded video reproduction device 100 starts operation upon receiving a reproduction instruction based on a playlist via the operation unit 130, and the system control unit 101 first streams from the SD card 140.
  • the playback driver 102 is controlled to read the information file 221.
  • the stream information file 221 is input to the stream control unit 110, and is separated into encoded video information and encoded audio information by the stream separation unit 111. Thereafter, the stream separation unit 111 extracts information for each access unit of encoded video information and encoded audio information, and stores the information in the AV buffer 112 in units of access units. This is the video file playback process in step S103, but before the access unit information is stored in the AV buffer 112, the static analysis unit 152 executes the static analysis process (step S101). The video file playback process will be further described later.
  • the static analysis unit 152 performs data analysis of the stream information file 221 and performs rearrangement so that a picture capable of completely decoding a frame image is set as a start point and an end point.
  • the data supply control unit 151 performs rearrangement.
  • the data is stored in the AV buffer 112 in units of access units in the order in which they are assigned. Also, video luminance analysis and audio level analysis are performed on the encoded video information and the encoded audio information, respectively. Information obtained by the static analysis process is fed back to the playlist information 160 in the memory 120. The static analysis process will be further described later.
  • the output video / audio control unit 153 selects the video in the connection point of the stream information file 221 and the section in the vicinity thereof. It is determined whether the difference in luminance and the difference in audio output level are equal to or greater than a predetermined set value. If it is equal to or greater than the set value, the filter setting process for filtering the output signal is performed for the section by controlling the video / audio adjusting unit 115 (step S102).
  • the filtering of the output signal is the adjustment process by the video / audio adjustment unit 115 described with reference to FIG. 8, and the process of changing the setting of the video / audio adjustment unit 115 for the adjustment process is the filter setting process.
  • the static analysis process ends the analysis corresponding to the preceding stream information file 221 and starts the separation process for the subsequent stream information file 221 in the stream separation unit 111, thereby analyzing the subsequent stream information file 221. Therefore, if the section is in the vicinity of the connection point of the preceding stream information file 221 and the succeeding stream information file 221, and the section in the vicinity thereof, the information of the video luminance and the audio output level is included. Therefore, as described above, a difference in video luminance and a difference in audio output level in the section can be determined.
  • the system control unit 101 sequentially supplies the access unit information stored in the AV buffer 112 in units of access units in step S103 to the video / audio decoder 114 according to the procedure described with reference to FIG.
  • the controller 151 determines whether or not the supply of all data to the video / audio decoder 114 of the read stream information file has been completed as at times t3 and t5 in FIG. 7 (step S104).
  • step S104 If it is determined in step S104 that all data supply of the read stream information file has been completed (YES), whether there is a stream information file to be reproduced next to the stream information file is determined based on the playlist. (Step S105). On the other hand, if all the data supply has not been completed (NO), the process of step S103 is continued.
  • step S105 If it is determined in step S105 that the next playlist exists (YES), the process proceeds to step S106. If the next playlist does not exist (NO), reproduction based on the playlist is terminated.
  • the data supply control unit 151 records the PTS (E_VALID_PTS 412) indicating the end of the stream information file that has been played back in the AV buffer 112 as a time stamp offset time (step S106). Thereafter, the supply of the next stream information file is started (step S107), and the processes in and after step S103 are repeated.
  • the offset time is used to mean shifting the display start time of the next stream information file.
  • the data supply control unit 151 Prior to supplying the next stream information file to the video / audio decoder 114, the data supply control unit 151 records the video display start time 611 and the audio display start time 621 set for each access unit in the AV buffer 112. After changing to the offset time, supply of the next stream information file is started immediately. Thereafter, the video display start time 611 and the audio display start time 621 are sequentially changed for each access unit in accordance with the read time interval of the access unit of the stream information file to be supplied.
  • the PTS indicating the end of the stream information file that has been reproduced in advance is set as the time stamp offset time, and in the next stream information file, the offset time is set as the video and audio display start time.
  • the video scene can be continuously reproduced without being interrupted.
  • the static analysis unit 152 first reads the analysis date / time information 512 (FIG. 5) from the playlist information 160 in the memory 120 and determines whether the playlist information 160 has valid static analysis information. Is determined (step S201).
  • This determination is made based on whether or not the analysis date / time information 512 of the stream information file to be reproduced has been changed, and whether or not the update date / time, file size, and file name of the file included in the analysis date / time information 512 have been changed. If neither is changed, the analysis date / time information 512 is not changed, and it is determined that there is valid static analysis information (YES), and the process ends without performing the following analysis processing. . Whether or not the file update date / time, file size, and file name have been updated can be confirmed from the file property information.
  • step S202 extracts the static analysis information from the stream information file 221.
  • step S202 video attribute information is acquired.
  • the video attribute information for example, an MPEG sequence header is extracted, and resolution, frame rate, and presence / absence of HDR (HighHDynamic Range) support are acquired from the header information.
  • HDR is a standard having luminance information in a wider range than the luminance information of normal video, and the presence or absence of HDR compatibility is information indicating whether or not this standard is supported.
  • bit rate information is calculated from the start / end points of the PES (Packetized Elementary Stream) header of the stream information file 221 and the file size.
  • the bit rate can be calculated by dividing by.
  • the audio attribute information is acquired (step S203).
  • the audio attribute information extracts the number of channels and the sampling rate from the audio header information.
  • a video start point is detected in step S204, and a video end point is detected in step S205.
  • the picture S_PTS 301 for which the reference relationship has not been established is not used as the S_VALID_PTS 411, and the I picture is used as the S_VALID_PTS 411.
  • pictures, here, access units are rearranged to be used as E_VALID_PTS 412.
  • S_PT301 and E_PTS302 can be extracted from the PES (Packetized Elementary Stream) header of the stream information file 221, and the reference relationship is known from the picture type (I, P, B), the start point (S_VALID_PTS) at which the video frame can be completely decoded. ) And end point (E_VALID_PTS) can be set.
  • PES Packetized Elementary Stream
  • step S206 the video luminance is analyzed.
  • software decoding processing is performed on the video coding compression unit near the start point including S_VALID_PTS411, and a luminance value histogram is generated for each video frame to extract the average video luminance value and maximum video luminance value. To do.
  • software decoding processing is also performed on a video coding compression unit near the end point including E_VALID_PTS 412 to extract a video luminance average value and a video luminance maximum value.
  • step S207 the voice level is analyzed.
  • software decoding processing of the audio encoding compression unit is performed on the section of the video encoding compression unit in the vicinity of the start point including S_VALID_PTS411, and the audio output level is extracted.
  • software decoding processing is also performed on the video coding compression unit near the end point including E_VALID_PTS 412 to extract the audio output level.
  • the vicinity of the start point including S_VALID_PTS 411 and the vicinity of the end point including E_VALID_PTS 412 in steps S206 and S207 described above are, for example, video coding compression units of 0.5 seconds centering on the start point and the end point.
  • the section from time T2 to T4 and the section from time T5 to T7 are, for example, video coding compression units of 0.5 seconds centering on the start point and the end point.
  • the analysis date information is stored in the playlist information 160 in the memory 120.
  • file identification information such as the date / time information at which the static analysis information was acquired, the update date / time of the statically analyzed file, the file size, the file name, and the SD card type information is recorded.
  • the reproduction driver 102 reads the stream information file to be reproduced from the SD card 140 based on an instruction from the data supply control unit 151 (step S301).
  • the file reading unit is assumed to be a predetermined file size, and in this embodiment, reading is performed every 1 MB (megabyte).
  • the stream information file read by the playback driver 102 is input to the stream separation unit 111 and separated into encoded video information and encoded audio information (step S302).
  • the separated encoded video information and encoded audio information are divided into access units, and the display start times (video display start time 611 and audio display start time 621) of each access unit are extracted as time stamps.
  • the data is given to the access unit and written to the AV buffer 112 (step S303).
  • the encoded video information and the encoded audio information are supplied to the video / audio decoder 114 for each access unit, and decoded by the video / audio decoder 114 (step S304).
  • step S305 it is determined whether or not the end of the stream information file is included in the data read every 1 MB. If the end of the file is not included (NO), the process proceeds to step S301. Then, the next 1 MB data is read. On the other hand, if the end of the file is detected (YES), it is determined that all the stream information files have been supplied to the video / audio decoder 114, and the file reproduction process is terminated.
  • the PTS indicating the end of the stream information file that has been reproduced in advance is timed.
  • the initialization process in the video / audio decoder 114 can be omitted, and no time is required for the initialization process.
  • the initialization process includes prior settings such as the resolution and frame rate settings of the video supplied to the video / audio decoder 114, initialization of the buffer of the video / audio decoder 114, and the like.
  • the static analysis unit 152 executes the static analysis process before executing the video file reproduction process in step S103, and performs a stream so that a picture that can completely decode the frame image is set as a start point and an end point. Since the pictures of the information file 221 are rearranged and stored in the AV buffer 112 in the order of the rearrangement according to the rearranged order, video frames that cannot be completely decoded can be surely excluded. Video display is possible without generating block noise.
  • the output video / audio control unit 153 controls the video / audio adjustment unit 115 at the joint of the video scenes based on the attribute information of the start point and the end point recorded in the playlist information 160, thereby making a sudden change.
  • Image quality and sound quality output control is performed so that abrupt changes in video brightness and audio output level do not occur, so that changes in video brightness and audio output level during video stream transitions are suppressed, and the user feels uncomfortable. It is possible to switch between video scenes without noise.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本発明は符号化映像の再生装置に関し、ストリーム情報ファイルから、映像情報と音声情報とを分離し、それぞれアクセスユニット単位に分割するストリーム分離部と、映像情報および音声情報を、それぞれの表示開始時刻と関連付けて記録するバッファと、表示開始時刻に基づいて、映像情報および音声情報をバッファから読み出して復号するデコーダと、バッファに対する表示開始時刻、映像情報および音声情報の記録の制御と、バッファからデコーダへの映像情報および音声情報の供給を制御するデータ供給制御部と、を備え、データ供給制御部は、先行するストリーム情報ファイルの映像情報および音声情報の供給を終えると、先行するストリーム情報ファイルの最終のアクセスユニットの表示開始時刻を、後続するストリーム情報ファイルの映像情報および音声情報の供給に先立って、後続するストリーム情報ファイルの最初のアクセスユニットの表示開始時刻に再設定する。

Description

符号化映像再生装置および符号化映像再生方法
 本発明は、SDカード、光ディスク等の情報記録媒体に記録された符号化映像の再生装置に関する。
 近年、広告媒体として、画像表示装置の画面に動画映像を表示する電子広告(デジタルサイネージ)が普及している。デジタルサイネージに使用される画像表示装置としては、高性能なプロセッサを搭載したPC(パーソナルコンピュータ)を使用することが多いが、コスト、信頼性、および耐環境性などの観点からは、電子広告表示機能が組み込まれた専用の画像表示装置(組み込み機器)の適用が望ましい。しかし、一般的に組み込み機器では、プロセッサ性能、メモリサイズなどが制限されていることに加え、符号化映像を復号化するAVデコーダはハードウェアでの実装となるため、操作制約が厳しく復号処理の自由度が少ないといった問題がある。
 デジタルサイネージの一形態として、可搬性記録媒体に保存された符号化映像をループ再生で表示する形態が広く用いられている。しかしながら複数の映像ストリームを順次再生する場合、映像ストリーム自体に記録されている映像フレーム単位での表示時間に従って表示制御を行う必要があるため、映像ストリーム毎にAVデコーダの初期化処理が必要となっていた。AVデコーダの初期化処理とは、AVデコーダに供給する映像の解像度およびフレームレート設定などの事前設定、AVデコーダのバッファの初期化処理などを含んでいる。
 また、映像ストリームの多重化フォーマットが変更される際にも初期化処理が必要となることが多い。このような初期化処理に必要となる時間が、映像ストリームの切換えに際して、黒画像表示期間となるような映像間のギャップを生じさせる原因となっていた。デジタルサイネージでは、ギャップに起因する映像を表示しない待ち時間の発生は映像表示時間の機会損失につながるため、非常に問題視されている。また、シーン切換え時に、映像輝度および音声出力レベルが大きく異なると、ユーザーにとって違和感を生じさせ、不快となるといった問題があった。
 このような問題を解決する1つの手段として、例えば、特許文献1に開示されるように、映像および音声の繋ぎ目をオーバーラップさせる映像音声情報を別途作成し、自然な映像シーンの切換えが視聴できる映像編集装置が知られている。
特開平7-23329号公報
 先行文献1に開示される従来技術では、映像シーンの繋ぎ目付近の映像音声を一時的に記録しておき、オーバーラップさせる映像音声をオフラインで別途作成している。この方式は汎用コンピュータのような高速処理が可能な性能のプロセッサを持つ場合に有用な方法であり、組み込み機器で映像シーンの合成処理を行うとCPU(Control Processing Unit)の負荷が高くなり、多くの処理時間を必要とするため実用的ではない。
 また、一般的には、組み込み機器に搭載されているAVデコーダは、映像ファイルの単位毎に再生処理を行うのが一般的となっており、再生処理毎に初期化処理を行う必要があり、ギャップを生じることなくループ再生を行うことができないといった問題がある。
 本発明は上記のような問題を解決するためになされたものであり、映像ファイルを順次再生した場合に、映像ストリームの切換えに際して、ギャップを生じさせず、連続的に映像表示を行うことが可能な符号化映像再生装置を提供することを目的とする。
 本発明に係る符号化映像再生装置は、符号化された映像情報と音声情報とが多重化されたストリーム情報ファイルを再生する符号化映像再生装置であって、前記ストリーム情報ファイルから、前記映像情報と前記音声情報とを分離し、それぞれアクセスユニット単位に分割するストリーム分離部と、前記アクセスユニット単位に分割された、前記映像情報および前記音声情報を、それぞれの表示開始時刻と関連付けて記録するバッファと、前記表示開始時刻に基づいて、前記映像情報および前記音声情報を前記バッファから読み出して復号するデコーダと、前記バッファに対する前記表示開始時刻、前記映像情報および前記音声情報の記録の制御と、前記バッファから前記デコーダへの前記映像情報および前記音声情報の供給を制御するデータ供給制御部と、を備え、前記データ供給制御部は、先行するストリーム情報ファイルの映像情報および音声情報の供給を終えると、前記先行するストリーム情報ファイルの最終のアクセスユニットの表示開始時刻を、後続するストリーム情報ファイルの映像情報および音声情報の供給に先立って、前記後続するストリーム情報ファイルの最初のアクセスユニットの表示開始時刻に再設定する。
 本発明に係る符号化映像再生装置によれば、映像ストリームの切換えに際して、映像間にギャップを生じさせず、連続的に映像表示を行うことが可能となる。
本発明に係る符号化映像再生装置のシステム構成を示す機能ブロック図である。 SDカードの論理ファイル構造を示す模式図である。 再生制御情報ファイルのシンタックスを説明する図である。 符号化圧縮映像ファイルの蓄積順配列と表示順配列の関係を説明する模式図である。 プレイリスト情報のシンタックスを説明する図である。 符号化映像情報および符号化音声情報の保存形態を説明する図である。 映像表示とデータ供給のタイミングを示す図である。 ストリーム情報ファイルを再生する場合についての、映像輝度および音声出力レベルの調整を説明する図である。 本発明に係る符号化映像再生装置における全体動作を説明する図である。 静的解析処理の動作を示すフローチャートである。 ファイル再生処理の動作を示すフローチャートである。
 <実施の形態>
  <装置構成>
 図1は、本発明に係る実施の形態の符号化映像再生装置100のシステム構成を示す機能ブロック図である。
 図1に示すように符号化映像再生装置100は、システム制御部101、再生ドライバ102、ストリーム制御部110、映像音声デコーダ114(デコーダ)、映像音声調整部115およびメモリ120を備えており、再生ドライバ102、ストリーム制御部110、映像音声デコーダ114および映像音声調整部115はデコーダブロック119を構成している。デコーダブロック119は、システム制御部101からのデコーダ制御信号に基づいてストリーム情報の再生処理を行う。
 符号化映像再生装置100は、操作部130を介してユーザー等からの要求を受け付け、SDカード140に記録されている映像ファイル等を読み出して再生し、液晶表示装置等の表示装置116に表示する。一般的に操作部130は、符号化映像再生装置100のフロントパネルに配置されている操作パネル、リモートコントローラなどの入力機器を指す。
 システム制御部101は、符号化映像再生装置100全体を統合制御し、操作部130を介して与えられた命令の内容を解釈し、デコーダブロック119を制御することで任意のストリーム情報を再生する。例えば、再生ドライバ102を制御してSDカード140等の情報記録媒体から情報を読み出し、再生する。
 SDカード140には、後述する符号化映像情報と符号化音声情報が多重化されたストリーム情報、および当該ストリーム情報の再生制御情報が記録されている。再生制御情報とは、ストリーム情報から分離した符号化映像および音声ストリームに関する映像および音声の属性情報、ストリーム情報のアクセス単位、通常はGOP(Group of Picture)単位で再生開始時間情報と再生開始位置情報の対応関係を示す情報などを含んでいる。
 また、ストリーム情報としては、MPEG(Moving Picture Experts Group)-2 TS(Transport Stream)フォーマット、MP4フォーマット、WMV(Windows Media Video)フォーマットに対応する情報を含んでいる(Windowsは登録商標)。
 MP4フォーマットおよびWMVフォーマットで多重化されたストリーム情報ファイルは、ファイル内部に再生制御情報を保持している。一方、MPEG-2 TSフォーマットは当該再生制御情報をストリーム情報ファイル内に保持していないため、当該ストリーム情報ファイルに関連付けられた再生制御情報ファイルを別途に保持している。
 ストリーム制御部110は、システム全体のストリームの流れを統括制御し、ストリーム制御部110内には、ストリーム分離部111およびAVバッファ112(バッファ)を有している。再生ドライバ102がSDカード140から読み出したストリーム情報ファイルには、符号化映像情報と符号化音声情報が多重化されており、ストリーム分離部111で、符号化映像情報と符号化音声情報に分離され、AVバッファ112に保存される。
 映像音声デコーダ114は、MPEG-2などで符号化された符号化映像情報を復号化処理して映像情報に復号すると共に、AC(Audio Coding number)-3などで符号化された符号化音声情報を復号化処理して音声情報に復号する。
 映像音声調整部115は、映像音声デコーダ114から出力される映像情報および音声情報を受け、それぞれ映像画質調整および出力音量レベル調整を行って、出力映像信号および出力音声信号として表示装置116に出力する。
 システム制御部101内には、データ供給制御部151、静的解析部152(解析部)および出力映像音声制御部153を有している。
 データ供給制御部151は、メモリ120から読み出したプレイリスト情報160に基づいて、再生ドライバ102から映像ストリーム情報を読み出すようにストリーム制御部110を制御し、ストリーム分離部111で分離された符号化映像情報および符号化音声情報をAVバッファ112にアクセスユニット単位で保存するようにストリーム分離部111を制御する。
 プレイリスト情報160は、SDカード140に記録されている映像ファイルをどのような順番で再生するかを示す情報であり、再生対象のファイル名、再生開始時刻と再生終了時刻、開始点および終了点近傍の解析情報などが保存されている。
 静的解析部152は、ストリーム情報ファイルの再生開始時刻と再生終了時刻の近傍の、例えば符号化圧縮単位の0.5秒間の映像情報および音声情報を解析し、プレイリスト情報160の開始点および終了点の属性情報として記録する。
 出力映像音声制御部153は、プレイリスト情報160内に記録される開始点および終了点の属性情報に基づいて、映像音声調整部115を制御する。
 なお、データ供給制御部151、静的解析部152および出力映像音声制御部153の各機能は、システム制御部101内に組み込まれたファームウェアなどで実現しても良いが、同様の機能を有するハードウェアで実現しても構わない。また、データ供給制御部151、静的解析部152および出力映像音声制御部153は、それぞれ別個の構成として示しているが、それぞれの機能が統合された1つの構成としても構わない。
 また、同様にストリーム制御部110内のストリーム分離部111およびAVバッファ112の各機能は、ストリーム制御部110内に組み込まれたファームウェアなどで実現しても良いが、同様の機能を有するハードウェアで実現しても構わない。
  <復号処理の流れ>
 次に、符号化映像再生装置100における復号処理の流れについて説明する。再生ドライバ102がSDカード140から読み出したストリーム情報ファイルを再生する場合、システム制御部101はストリーム制御部110を制御して予めSDカード140から再生対象のストリーム情報ファイルに関連する再生制御情報を読み出しておく。システム制御部101は、読み出した再生制御情報をメモリ120に保持し、必要に応じて読み出す。システム制御部101は、メモリ120から読み出した再生制御情報に基づいて、制御統括下にある各部に対して再生準備を行うよう指示する。
 再生ドライバ102がSDカード140から読み出したストリーム情報ファイルは、ストリーム制御部110に入力され、ストリーム分離部111で符号化映像情報と符号化音声情報に分離される。
 その後、ストリーム分離部111は、符号化映像情報および符号化音声情報をアクセスユニット毎に分割し、AVバッファ112にアクセスユニット単位で保存する。なお、アクセスユニットとは符号化映像情報および符号化音声情報で取扱う複数のデータの処理単位であり、符号化映像情報では1フレーム単位、符号化音声情報では所定時間(例えば、0.1秒)単位のデータでアクセスユニットが形成される。
 AVバッファ112に記録されたアクセスユニット情報は、順次、映像音声デコーダ114に供給される。映像音声デコーダ114では、符号化映像情報を復号化処理して映像情報に復号し、符号化声情報を復号化処理して音声情報に復号する。
 復号された映像情報および音声情報は映像音声調整部115に入力され、映像画面全体のブライトネス、シャープネスなどの映像画質調整を行うと共に、出力音量レベル調整を行って出力映像信号および出力音声信号とし、表示装置116に出力する。
 表示装置116では、入力された出力映像信号に基づいた画像を表示し、また、出力音声信号に基づいた音をスピーカーを介して放音し、視聴に供する。
  <システム制御部による制御>
 本発明に係る符号化映像再生装置100においては、システム制御部101による制御に特徴を有している。すなわち、データ供給制御部151がAVバッファ112にデータを保存するのに先立って、静的解析部152がストリーム情報ファイル221のデータ解析を行い、完全にフレーム画像を復号可能なピクチャを開始点および終了点とするように並べ替えを行う。
 また、静的解析部152では、ストリーム情報ファイルの再生開始時刻と再生終了時刻の近傍の、例えば符号化圧縮単位の0.5秒間の映像情報および音声情報を予め解析し、映像情報の輝度分布、最終映像フレームの輝度を取得し、また、音声情報の音量レベル分布、最終音声アクセスユニットの音量レベルを取得し、プレイリスト情報160内に開始点および終了点の属性情報として記録する。
 出力映像音声制御部153は、プレイリスト情報160内に記録された開始点および終了点の属性情報に基づいて、映像シーンの繋ぎ目で、映像音声調整部115を制御することにより、急俊な映像輝度変化および音声出力レベル変化が起きないように、画質および音質の出力制御を行う。これにより、映像シーンの切換え点において、映像輝度および音声出力レベルが大きく変化しても、ユーザーにとって違和感のない映像シーンの切換えができる。
  <SDカードの論理ファイル構造>
 図2は、SDカード140の論理ファイル構造を示す模式図である。ルートディレクトリ200は、論理的に階層構造を成すファイル構造の最上位階層のディレクトリ構造である。ルートディレクトリ200は、SDカード140に記録されているコンテンツ管理情報である再生制御情報ファイル211をまとめて記録したフォルダである再生制御情報ディレクトリ210と、ストリーム情報ファイル221をまとめて記録したフォルダであるストリーム管理ディレクトリ220とを有している。なお、再生制御情報ディレクトリ210が構築される記憶領域を再生制御情報領域と呼称し、ストリーム管理ディレクトリ220が構築される記憶領域をストリーム情報領域と呼称する。
 図2において、再生制御情報ファイル211およびストリーム情報ファイル221は、5桁のファイル名により記録され、一対一で対応付けされている。ファイル名は5桁の数字であれば良く、連番である必要はない。また、MP4フォーマットとWMVフォーマットに関しては、ストリーム情報ファイル221内に再生制御情報を含むため、個別に対応した再生制御情報ファイル211を設ける必要はない。
 なお、図2では、再生制御情報ファイル211とストリーム情報ファイル221は個別のディレクトリ内に配置する例を示したが、同一のディレクトリ内に配置しても良いし、これらのファイルがルートディレクトリ200に直接配置されていても構わない。また、再生制御情報ファイル211とストリーム情報ファイル221は、一対一で対応付けされているものとしたが、再生制御情報ファイル211に、対応するストリーム情報ファイル221がまとめて記録されていても構わない。
  <再生制御情報ファイルのシンタックス>
 図3は、再生制御情報ファイル211におけるシンタックスを説明する図である。「Start_PTS301」は対象となるストリーム情報ファイル221の最初のアクセスユニットの表示開始時刻を意味するPTS(Presentation Time Stamp)を示し、「End_PTS302」は最終のアクセスユニットの表示開始時刻を意味するPTSを示す。
 「属性情報管理テーブル310」には、ストリーム情報ファイル221の映像属性情報(解像度、ビットレート、フレームレート、HDR対応の有無)および音声属性情報(チャンネル数、サンプリングレート)、著作権保護に規定される暗号化の必要性情報、MPEG-TS方式かMPEG-PS(Program Stream)方式か、映像と音声を分離するためのパケット識別子などの多重化方式情報などの情報が記録されている。
 「アクセスポイント管理テーブル320」には、頭出し再生に必要となる情報が記録されている。例えば映像データがMPEG-2のビデオストリームでエンコードされている場合、GOP(Group of Picture)の先頭が、アクセスポイントに相当する。本実施の形態ではストリーム情報ファイル221のどのパケットに、GOPの先頭が存在するかが頭出し再生に必要となる情報として記録されている。
 「アクセスポイント管理テーブル320」の「num_of_entry321」は、アクセスポイントの総数を示し、「num_of_entry321」の1つ下の行にあるループ文(for以下)は、「num_of_entry321」の数だけ繰り返される。
 「PTS_GOP_Start331」は、アクセスポイントの表示開始PTSを示し、「SPN_GOP_Start332」はストリーム情報ファイル221の先頭からアクセスポイントの先頭までの相対パケット数である。パケットは固定長であることから、ストリーム情報ファイル221の先頭からアクセスポイント先頭までの相対バイト数は、「SPN_GOP_Start332」の値とパケット当たりのバイト数を掛け合せた値で算出できる。符号化映像再生装置100は、ストリーム情報ファイル221の先頭からのバイト数から、ディスク上のアクセスポイントの位置を割り出し、頭出し再生を行う。
  <ピクチャの並べ替え>
 図4は、符号化圧縮映像ファイルの蓄積順配列と表示順配列の関係を説明する模式図である。ストリーム情報ファイル221は、蓄積順配列401に示されるように、蓄積フレーム順に記録されるが、本実施の形では、再生開始前に、静的解析部152がストリーム情報ファイル221のデータ解析を静的に行い表示順配列402のように並べ替えを行う。
 すなわち、符号化圧縮単位であるGOPは、フレーム内でデータ圧縮されたIピクチャ(I)と、時間的に前方向のIピクチャまたはPピクチャによる動き補償を加えてデータ圧縮されたPピクチャ(P)と、時間的に前後方向のIピクチャおよびPピクチャによる動き補償を加えてデータ圧縮されたBピクチャ(B)とで構成されている。
 蓄積順配列401では、Iピクチャは、GOPの先頭に位置しており、次に、Bピクチャが連続し、その後にPピクチャとなり、以下、B、B、Pの順で繰り返して配列される。
 通常、ストリーム情報ファイル221の表示開始時刻はStart_PTS301(S_PTS301と略記)で規定され、表示終了時刻はEnd_PTS302(E_PTS302と略記)で規定され、図4の蓄積順配列401ではIピクチャの次のBピクチャがS_PTS301となり、最後のPピクチャがE_PTS302となっている。しかしながら、図4においてS_PTS301となったBピクチャは、フレーム画像を完全に復号化できるとは限らない。例えば当該BピクチャがオープンGOPで得られる場合は、当該Bピクチャを得るために参照するピクチャが前に存在しないため、フレーム画像を完全に復号化することができず、ブロックノイズが発生するなどの問題がある。
 そこで、本実施の形態では、再生開始前に、静的解析部152がストリーム情報ファイル221のデータ解析を静的に行い、完全にフレーム画像を復号可能なピクチャを開始点および終了点とするように並べ替えを行って表示順配列402を得る。図4に示す表示順配列402では、GOPの先頭がBピクチャであり、さらにBピクチャが続き、その次がIピクチャとなっており、当該Iピクチャを開始点であるS_VALID_PTS411とし、GOPの最後のPピクチャを終了点であるE_VALID_PTS412としている。
 Iピクチャはフレーム内でデータ圧縮されているので完全に復号可能であり、最後のPピクチャは時間的に前方向のPピクチャによる動き補償を加えてデータ圧縮されているので完全に復号可能である。
 また、静的解析部152は、S_VALID_PTS411の映像フレームを含むGOPにおいて、S_VALID_PTS411以降の映像フレームの映像輝度情報および表示開始時刻以降の音声出力レベルを検出する。同様にE_VALID_PTS412の映像フレームを含むGOPにおいて、E_VALID_PTS412までの映像フレームの映像輝度情報と、当該表示終了時刻までの音声出力レベルを検出する。
 なお、本実施の形態では、1つの符号化圧縮単位で情報を保持する例を示しているが、例えば複数の符号化圧縮単位で情報を保持する構成としても良いし、1つの符号化圧縮単位よりも少ないフレーム数で情報を保持する構成としても良い。
 静的解析部152で得られたS_VALID_PTS411、E_VALID_PTS412、映像輝度情報および音声出力レベルの情報は、メモリ120のプレイリスト情報160にフィードバックされる。
  <プレイリスト情報のシンタックス>
 図5は、プレイリスト情報160におけるシンタックスを説明する図である。「num_of_PlayList501」は、サイネージ表示を行う単位となるプレイリストの総数、「PlayList_Attribute502」は、プレイリストの総時間、プレイリスト名称、および記録日時のようなプレイリストの属性情報が保持されている。
 「PlayList_Attribute502」の1つ下の行にあるループ文(for以下)は、「num_of_PlayList501」の数だけ繰り返される。
 「num_of_MovieFile503」は、プレイリストを構成しているストリーム情報ファイル221の総数を示し、「num_of_MovieFile503」の1つ下の行にあるループ文(for以下)は、「num_of_MovieFile503」の数だけ繰り返される。
 「stream_name504」は、再生の対象となるストリーム情報ファイル221のファイル名を示し、「S_VALID_PTS411」および「E_VALID_PTS412」は、それぞれ再生対象のストリーム情報ファイル221の所定区間の再生開始時刻と再生終了時刻を示す。本実施の形態では、フレーム画像を完全に復号可能なピクチャのPTSを「S_VALID_PTS411」、「E_VALID_PTS412」としている。これらの情報から、符号化映像再生装置100は、ストリーム情報ファイル221のどの区間を再生すれば良いのかを判断することができる。
 なお、「stream_name504」、「S_VALID_PTS411」および「E_VALID_PTS412」の情報を再生区間情報と呼称する。
 映像輝度情報510と音声レベル情報511は、前述したように静的解析部152において解析されたストリーム情報ファイル221の開始点近傍と終了点近傍の、映像輝度と音声出力レベルの情報である。
 解析日時情報512とは、静的解析部152においてストリーム情報ファイル221を解析した日時の情報であり、解析対象となるストリーム情報ファイル221を特定するファイル特定情報と関連付けて記録する。
 静的解析部152は、「S_VALID_PTS411」、「E_VALID_PTS412」、映像輝度情報510および音声レベル情報511を得るためにストリーム情報ファイル221の解析を映像ファイル再生処理に先立って行うが、解析には多くの時間を必要とする。このため、解析日時情報512とファイル特定情報とを関連付けて記録することで、ストリーム情報ファイル221に変化がなければ、すなわち、以前に解析された結果と変化がない場合は、解析処理を行わないようにする。デジタルサイネージでは、符号化映像をループ再生で表示する形態が広く用いられているので、一度解析した後は、解析日時情報512が変更されることは少なく、解析を繰り返すことを回避することができ、解析に伴う復号処理の遅延を回避できる。
 なお、ファイル特定情報とは、ファイルの更新日時、ファイルサイズ、ファイル名などを関連付けた情報であり、ストリーム情報ファイル221の変化の有無は、これらのファイル特定情報の変更の有無で判断する。
 なお、静的解析部152で抽出される「S_VALID_PTS411」、「E_VALID_PTS412」、映像輝度情報510、音声レベル情報511および解析日時情報512を、静的解析情報と呼称する。
  <AVバッファへの保存>
 図6は、ストリーム分離部111で分離された符号化映像情報および符号化音声情報をAVバッファ112に保存する場合の保存形態を説明する図である。図6に示すように、SDカード140には、複数のストリーム情報ファイル221が記録されている。ストリーム情報ファイル221は、MPEG-TSフォーマットで作成されたMTSファイル、MP4フォーマットで作成されたMP4ファイルおよびWMVフォーマットで作成されたWMVファイルなど様々な多重化フォーマットで作成されたファイルを含んでも良い。
 多重化されたファイルであるストリーム情報ファイル221は、ストリーム分離部111で符号化映像情報と符号化音声情報に分離され、図6に示されるように、アクセスユニット単位でAVバッファ112に保存される。
 AVバッファ112は、映像用バッファ601および音声用バッファ602を備え、それぞれのバッファは、連続的にデータを供給するために複数のバッファ領域を有しており、バッファ領域にアクセスユニット単位で情報が記録される。この情報の記録領域を、アクセスユニット情報領域と呼称する。
 本実施の形態では映像用バッファ601として30領域、音声用バッファ602として10領域のバッファ領域を有しているものとする。
 映像のフレームレートが30fps(frames per second)である場合、1/30秒×30=1秒分の映像データを保存することができる。また、音声も1アクセスユニットが0.1秒とすると、0.1秒×10=1秒分の音声データを保存することが可能となる。
 映像用バッファ601のアクセスユニット情報領域には、符号化映像情報610と映像表示開始時刻611とが関連付けて記録されている。同様に音声用バッファ602のアクセスユニット情報領域には、符号化音声情報620と音声表示開始時刻621が関連付けて記録されている。
 一般的に、多重化されたストリーム情報ファイル221では、アクセスユニット単位で表示開始時刻が記録されている。当該表示開始時刻を、映像表示開始時刻611および音声表示開始時刻621に設定し、映像音声デコーダ114は当該時刻情報に従って、AVバッファ112のアクセスユニット情報領域から符号化映像情報610や符号化音声情報620を読み出して復号化処理を行う。このような制御データフローは、組み込み機器向けの汎用マルチメディア制御の仕様であるOpenMAXでも利用されている。
  <映像輝度および音声出力レベルの調整>
 図7は、映像表示とデータ供給のタイミングを示す図であり、横軸は時間軸である。ここでは、プレイリストとして、MTSファイルの「00111.mts」を2回再生させた後、MP4ファイルの「99999.mp4」を再生させる場合についての説明を行うものとする。
 まず、データ供給制御部151は、SDカード140のストリーム情報ファイル221の中から「00111.mts」ファイルを読み出し、時刻t1でストリーム分離部111への供給を開始する。ストリーム分離部111で符号化映像情報と符号化音声情報に分離された後、ストリーム分離部111は、符号化映像情報および符号化音声情報のアクセスユニット毎に情報を取り出し、AVバッファ112にアクセスユニット単位で供給する。その際に、設定する映像表示開始時刻611および音声表示開始時刻621には、ストリーム情報ファイル221に記録されているアクセスユニット毎の表示時刻(タイムスタンプ)が付与される。
 その後、AVバッファ112に記録されたアクセスユニット情報は、順次、映像音声デコーダ114に供給され、映像音声デコーダ114では、符号化情報を復号化して時刻t2で映像表示を開始する。
 データ供給制御部151は、「00111.mts」ファイルのファイル終端までデータ供給を続け、先行で読み出したストリーム情報ファイル221の全データ供給を終えると、すぐに後続するストリーム情報ファイル221を読み出し、時刻t3で再びストリーム分離部111への供給を開始する。この時点では先行するストリーム情報ファイルの再生(映像表示)が継続しているが、映像音声デコーダ114は、時刻t4で後続するストリーム情報ファイルの再生を開始し、映像表示が切り替わることになる。「99999.mp4」ファイルについても時刻t5でストリーム分離部111への供給を開始し、時刻t6で再生を開始する。
 図8は、図7に示すようなタイミングチャートに基づいてストリーム情報ファイルを再生する場合についての、映像輝度および音声出力レベルの調整を説明する図である。図8において、映像表示のタイミングチャートと、静的解析部152での解析によって得られた映像輝度情報510および音声レベル情報511を示しており、横軸は時間軸である。
 出力映像音声制御部153は、メモリ120に記録されたプレイリスト情報160から、映像輝度情報510および音声レベル情報511を読み出す。図8に示されるように、先行する「00111.mts」ファイルによる映像表示が、後続の「00111.mts」ファイルによる映像表示に切り替わる時刻T3において、映像輝度および音声出力レベルに、大きな差異が存在する。
 出力映像音声制御部153は、当該差異が予め定めた所定の設定値以上である場合には、差異を減少させるように、当該映像再生区間において映像音声調整部115を制御する。具体的には、映像輝度については、図8の例の場合には、時刻T2~T3の区間で、後続するストリーム情報ファイル221の開始点、すなわち時刻T3での輝度になるまで出力輝度を減少させるように映像音声調整部115を制御する。その結果、時刻T3において、映像輝度差が解消されるため、ユーザーにとって違和感のない映像シーンの切換えを行うことができる。
 同様に音声出力レベルについては、後続するストリーム情報ファイル221の開始点、すなわち時刻T3での音声出力レベルを、先行するストリーム情報ファイルの終了点、すなわち時刻T3での音声出力レベルに合わせるように音声出力レベルを下げる。その後、時刻T4で後続するストリーム情報ファイル221の本来の音声出力レベルになるように徐々に音声出力レベルを上げるように映像音声調整部115を制御する。その結果、時刻T3において、音声出力レベル差が解消されるため、ユーザーにとって違和感のない映像シーンの切換えを行うことができる。
 一方、図8に示されるように、2つ目の「00111.mts」ファイルによる映像表示が、後続の「99999.mp4」ファイルによる映像表示に切り替わる時刻T6においては、映像輝度および音声出力レベルに、大きな差異は存在しない。出力映像音声制御部153は、当該差異は予め定めた所定の設定値未満であるとして、調整は不要と判断し、特段の制御は行わない。
 なお、時刻T2~T4の区間および時刻T5~T7の区間は、静的解析部152が解析する前後関係にあるストリーム情報ファイルの再生開始時刻と再生終了時刻、すなわちストリーム情報ファイルの接続点の近傍の区間であり、例えば、符号化圧縮単位の0.5秒間の区間に相当する。図8おいては、便宜的に「00111.mts」ファイルおよび「99999.mp4」ファイルの全期間分の映像輝度および音声出力レベルを示したが、静的解析部152による解析は、上述した時刻T2~T4の区間および時刻T5~T7の区間について行えば良い。
 また、上記においては、時刻T3におけるアクセスユニットでの映像輝度および音声出力レベルの瞬時値の差異を用いて調整の要否を判断しているが、例えば時刻T2~T3の区間、すなわち時刻T3における先行するストリーム情報ファイルの最終のアクセスユニットと、それより前の複数の先行アクセスユニットとを含む先行するストリーム情報ファイルの終了部分における映像輝度および音声出力レベルの平均値と、時刻T3における後続するストリーム情報ファイルの最初のアクセスユニットと、それより後の複数の後続アクセスユニットとを含む後続するストリーム情報ファイルの開始部分における映像輝度および音声出力レベルの平均値との差異を用いて調整の要否を判断しても構わない。
  <符号化映像再生装置の全体動作>
 次に、図1を参照しつつ、図9に示すフローチャートを用いて符号化映像再生装置100における全体動作を説明する。図9に示すように符号化映像再生装置100は、操作部130を介してプレイリストに基づいた再生の指示を受けることで動作を開始し、まず、システム制御部101は、SDカード140からストリーム情報ファイル221を読み出すように再生ドライバ102を制御する。
 ストリーム情報ファイル221は、ストリーム制御部110に入力され、ストリーム分離部111で符号化映像情報と符号化音声情報に分離される。その後、ストリーム分離部111は、符号化映像情報および符号化音声情報のアクセスユニット毎に情報を取り出し、AVバッファ112にアクセスユニット単位で保存する。これが、ステップS103の映像ファイル再生処理であるが、AVバッファ112へのアクセスユニット情報の保存の前に、静的解析部152が静的解析処理を実行する(ステップS101)。なお、映像ファイル再生処理については、後にさらに説明する。
 静的解析部152は、ストリーム情報ファイル221のデータ解析を行い、完全にフレーム画像を復号可能なピクチャを開始点および終了点とするように並べ替えを行い、データ供給制御部151は、並べ替えられた順に従ってAVバッファ112にアクセスユニット単位で保存する。また、符号化映像情報および符号化音声情報に対して、それぞれ映像輝度解析および音声レベル解析を実行する。静的解析処理によって得られた情報は、メモリ120のプレイリスト情報160にフィードバックされる。なお、静的解析処理については、後にさらに説明する。
 出力映像音声制御部153は、メモリ120に記録されたプレイリスト情報160から得られた映像輝度情報510および音声レベル情報511に基づいて、ストリーム情報ファイル221の接続点と、その近傍の区間における映像輝度の差異および音声出力レベルの差異が、所定の設定値以上か否かを判定する。設定値以上であれば当該区間に対して、映像音声調整部115を制御することにより、出力信号をフィルタリングするためのフィルタ設定処理を行う(ステップS102)。
 この出力信号のフィルタリングが、図8を用いて説明した映像音声調整部115による調整処理であり、この調整処理のために映像音声調整部115の設定を変える処理がフィルタ設定処理である。なお、静的解析処理は、先行するストリーム情報ファイル221に対応する解析が終了し、ストリーム分離部111で後続のストリーム情報ファイル221に対する分離処理が開始されることで後続のストリーム情報ファイル221に対する解析を始めるので、先行するストリーム情報ファイル221と後続のストリーム情報ファイル221の接続点と、その近傍の区間であれば、映像輝度および音声出力レベルの情報を有している。そのため、上述したように当該区間での映像輝度の差異および音声出力レベルの差異を判定することができる。
 次に、システム制御部101は、ステップS103においてアクセスユニット単位でAVバッファ112に保存されたアクセスユニット情報を、図7を用いて説明した手順で、順次、映像音声デコーダ114に供給し、データ供給制御部151は、図7の時刻t3およびt5のように、読み出したストリーム情報ファイルの映像音声デコーダ114への全データ供給が終了したか否かを判定する(ステップS104)。
 ステップS104において、読み出したストリーム情報ファイルの全データ供給が終了したと判定した場合(YES)は、当該ストリーム情報ファイルの次に再生すべきストリーム情報ファイルが存在するか否かを、プレイリストに基づいて判定する(ステップS105)。一方、全てのデータ供給が終了していない場合(NO)は、ステップS103の処理を続ける。
 ステップS105において、次のプレイリストが存在すると判定された場合(YES)は、ステップS106に移行し、次のプレイリストが存在しない場合(NO)は、プレイリストに基づいた再生を終了する。
 データ供給制御部151は、先行して再生していたストリーム情報ファイルのファイル終端を示すPTS(E_VALID_PTS412)をタイムスタンプのオフセット時刻としてAVバッファ112に記録する(ステップS106)。その後、次のストリーム情報ファイルの供給を開始し(ステップS107)、ステップS103以下の処理を繰り返す。なお、オフセット時刻とは、次のストリーム情報ファイルの表示開始時刻をずらすと言う意味で用いている。
 データ供給制御部151は、次のストリーム情報ファイルの映像音声デコーダ114への供給に先立って、AVバッファ112でアクセスユニット単位で設定されている映像表示開始時刻611および音声表示開始時刻621を、記録したオフセット時刻に変更した後、即座に、次のストリーム情報ファイルの供給を開始する。その後は、供給するストリーム情報ファイルのアクセスユニットの読み出しの時間間隔に合わせて、順次、アクセスユニット毎に映像表示開始時刻611および音声表示開始時刻621を変更する。
 このように、先行して再生していたストリーム情報ファイルのファイル終端を示すPTSをタイムスタンプのオフセット時刻とし、次のストリーム情報ファイルにおいては当該オフセット時刻を映像および音声の表示開始時刻とすることで、映像シーンを途切れさせることなく連続的に再生することが可能となる。
   <静的解析処理>
 次に、図10に示す静的解析処理の動作を示すフローチャートを用いて、静的解析処理についてさらに説明する。
 静的解析処理において、静的解析部152は、まずメモリ120のプレイリスト情報160から解析日時情報512(図5)を読み出し、プレイリスト情報160中に有効な静的解析情報を有するか否かを判定する(ステップS201)。
 この判定は、再生しようとしているストリーム情報ファイルの解析日時情報512が変更されているか否かで判定され、解析日時情報512に含まれるファイルの更新日時、ファイルサイズおよびファイル名が変更されているか否かで判定され、何れも変更されていない場合は解析日時情報512が変更されておらず、有効な静的解析情報があるものと判定し(YES)、以下の解析処理を行わずに終了する。なお、ファイルの更新日時、ファイルサイズおよびファイル名が更新されているか否かは、ファイルのプロパティの情報によって確認することができる。
 一方、解析日時情報512が変更されている場合は、有効な静的解析情報がないものと判定し(NO)、ステップS202に進んでストリーム情報ファイル221から静的解析情報を抽出する。
 ステップS202では、映像属性情報を取得する。映像属性情報としては、例えば、MPEGのシーケンスヘッダを抽出し、当該ヘッダ情報から、解像度、フレームレート、HDR(High Dynamic Range)対応の有無を取得する。HDRは通常の映像の輝度情報より広い範囲の輝度情報を持つ規格であり、HDR対応の有無とは、この規格に対応しているか否かを示す情報である。
 また、ストリーム情報ファイル221のPES(Packetized Elementary Stream)ヘッダの開始点/終了点、およびファイルサイズからビットレート情報を算出する。PESヘッダは、アクセスユニット単位毎のヘッダであり、内部情報としてPTS(Presentation Time Stamp)およびDTS(Decoding Time Stamp)を保持しており、ファイルサイズをPTS差(終了PTS-開始PTS=再生時間)で割ることでビットレートを算出できる。
 映像属性情報を取得した後は、音声属性情報を取得する(ステップS203)。音声属性情報は、音声ヘッダ情報から、チャンネル数、サンプリングレートを抽出する。
 次に、ステップS204において映像開始点を検出し、ステップS205において映像終了点を検出する。具体的には、図4を用いて説明したように、蓄積フレーム順に記録されたストリーム情報ファイル221において、参照関係が確立できていないピクチャS_PTS301はS_VALID_PTS411として使用せず、IピクチャをS_VALID_PTS411として使用する。また、E_PTS302は参照関係が確立できているのでE_VALID_PTS412として使用するようにピクチャ、ここではアクセスユニットの並べ替えを行う。
 ストリーム情報ファイル221のPES(Packetized Elementary Stream)ヘッダから、S_PT301およびE_PTS302を抽出でき、ピクチャの種別(I、P、B)から参照関係が判るので、映像フレームの完全に復号可能な開始点(S_VALID_PTS)および終了点(E_VALID_PTS)を設定することができる。
 次に、ステップS206において、映像輝度の解析を行う。映像輝度の解析は、S_VALID_PTS411を含む開始点近傍の映像符号化圧縮単位に対して、ソフトウェアデコード処理を行い、映像フレーム毎に輝度値ヒストグラムを生成し、映像輝度平均値、映像輝度最大値を抽出する。同様に、E_VALID_PTS412を含む終了点近傍の映像符号化圧縮単位に対してもソフトウェアデコード処理を行い、映像輝度平均値、映像輝度最大値を抽出する。
 映像輝度の解析に際しては画像データを標本化し、それを量子化することで画素毎の輝度値を得ることができ、横路に輝度値、縦軸に各輝度値を持つ画素の個数として表すことで輝度値ヒストグラムを得ることができる。輝度値ヒストグラムを用いると、画像中の画素の輝度値の分布を知ることができ、明るさ、色の補正、コントラストの強調などの画像処理ができ、また、平均輝度および最大輝度も取得できる。
 次に、ステップS207において、音声レベルの解析を行う。音声レベルの解析は、S_VALID_PTS411を含む開始点近傍の映像符号化圧縮単位の区間に対して、音声符号化圧縮単位のソフトウェアデコード処理を行い、音声出力レベルを抽出する。同様に、E_VALID_PTS412を含む終了点近傍の映像符号化圧縮単位に対してもソフトウェアデコード処理を行い、音声出力レベルを抽出する。符号化圧縮された音声情報を復号化すると、出力音声レベルを持つ音声情報となり音声出力レベルの抽出が可能となる。
 なお、上述したステップS206およびS207におけるS_VALID_PTS411を含む開始点近傍およびE_VALID_PTS412を含む終了点近傍とは、例えば開始点および終了点を中心とした0.5秒間の映像符号化圧縮単位であり、図8に示した、時刻T2~T4の区間および時刻T5~T7の区間に相当する。
 最後に、ステップS208において、メモリ120のプレイリスト情報160に解析日時情報を保存する。解析日時情報には、静的解析情報を取得した日時情報、静的解析したファイルの更新日時、ファイルサイズ、ファイル名、SDカードの種別情報などのファイル特定情報を記録する。
   <ファイル再生処理>
 次に、図11に示すファイル再生処理の動作を示すフローチャートを用いて、ファイル再生処理についてさらに説明する。
 ファイル再生処理においては、まず、データ供給制御部151からの指示に基づいて、再生ドライバ102がSDカード140から再生対象のストリーム情報ファイルの読み込みを行う(ステップS301)。ファイル読み込み単位は、所定のファイルサイズで行うものとし、本実施の形態では1MB(メガバイト)毎に読み込むものとする。
 再生ドライバ102が読み込んだストリーム情報ファイルは、ストリーム分離部111に入力されて、符号化映像情報と符号化音声情報とに分離される(ステップS302)。
 分離された符号化映像情報および符号化音声情報は、アクセスユニット単位に分割されると共に、アクセスユニット単位の表示開始時刻(映像表示開始時刻611および音声表示開始時刻621)を抽出し、タイムスタンプとしてアクセスユニットに付与し、AVバッファ112への書込みが行われる(ステップS303)。
 その後、符号化映像情報および符号化音声情報は、アクセスユニット単位毎に、映像音声デコーダ114に供給され、映像音声デコーダ114で復号される(ステップS304)。
 その後、1MB毎に読み込まれたデータにストリーム情報ファイルのファイル終端が含まれているか否かを判定し(ステップS305)、ファイル終端が含まれていない場合(NO)には、ステップS301に移行し、次の1MBのデータを読み込む。一方、ファイル終端を検出(YES)した場合は、当該ストリーム情報ファイル全てが映像音声デコーダ114に供給されたものと判断し、ファイル再生処理を終了する。
 以上説明したように、本発明に係る符号化映像再生装置100においては、図9に示すフローチャートを用いて説明したように、先行して再生していたストリーム情報ファイルのファイル終端を示すPTSをタイムスタンプのオフセット時刻とし、次のストリーム情報ファイルにおいては当該オフセット時刻を映像および音声の表示開始時刻とすることで、映像音声デコーダ114での初期化処理を省略でき、初期化処理に費やす時間が不要となって、映像シーンを途切れさせることなく連続的に再生することが可能となる。このため、映像ストリームの遷移に起因するギャップをなくすことができる。なお、上記初期化処理には、映像音声デコーダ114に供給する映像の解像度およびフレームレート設定などの事前設定、映像音声デコーダ114のバッファの初期化などを含んでいる。
 また、上記のような機能を持たせるために符号化映像再生装置100に特別なハードウェアを付加する必要がないので、装置自体のコストアップを抑制できる。
 また、静的解析部152は、ステップS103の映像ファイル再生処理を実行する前に、静的解析処理を実行し、完全にフレーム画像を復号可能なピクチャを開始点および終了点とするようにストリーム情報ファイル221のピクチャの並べ替えを行い、並べ替えた順に従ってAVバッファ112にアクセスユニット単位で保存するので、完全に復号化できない映像フレームを確実に除外することができ、映像ストリームの遷移時に、ブロックノイズなどが発生させることなく映像表示が可能となる。
 また、出力映像音声制御部153は、プレイリスト情報160内に記録された開始点および終了点の属性情報に基づいて、映像シーンの繋ぎ目で、映像音声調整部115を制御することにより、急俊な映像輝度変化および音声出力レベル変化が起きないように、画質および音質の出力制御を行うので、映像ストリームの遷移時に、映像輝度および音声出力レベルが大きく変化することが抑制され、ユーザーにとって違和感のない映像シーンの切換えができる。
 この発明は詳細に説明されたが、上記した説明は、全ての局面において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。
 なお、本発明は、その発明の範囲内において、実施の形態を適宜、変形、省略することが可能である。

Claims (10)

  1.  符号化された映像情報と音声情報とが多重化されたストリーム情報ファイルを再生する符号化映像再生装置であって、
     前記ストリーム情報ファイルから、前記映像情報と前記音声情報とを分離し、それぞれアクセスユニット単位に分割するストリーム分離部と、
     前記アクセスユニット単位に分割された、前記映像情報および前記音声情報を、それぞれの表示開始時刻と関連付けて記録するバッファと、
     前記表示開始時刻に基づいて、前記映像情報および前記音声情報を前記バッファから読み出して復号するデコーダと、
     前記バッファに対する前記表示開始時刻、前記映像情報および前記音声情報の記録の制御と、前記バッファから前記デコーダへの前記映像情報および前記音声情報の供給を制御するデータ供給制御部と、を備え、
     前記データ供給制御部は、
     先行するストリーム情報ファイルの映像情報および音声情報の供給を終えると、前記先行するストリーム情報ファイルの最終のアクセスユニットの表示開始時刻を、後続するストリーム情報ファイルの映像情報および音声情報の供給に先立って、前記後続するストリーム情報ファイルの最初のアクセスユニットの表示開始時刻に再設定する、符号化映像再生装置。
  2.  前記データ供給制御部による前記バッファへの前記映像情報および前記音声情報の記録に先立って、前記ストリーム情報ファイルの最初のアクセスユニットと、最終のアクセスユニットのデータ解析を行う解析部を備え、
     前記解析部は、完全にフレーム画像を復号可能なアクセスユニットが前記最初のアクセスユニットおよび前記最終のアクセスユニットとなるように、アクセスユニットの並べ替えを行い、前記データ供給制御部は、並べ替えられた順に前記バッファに記録する、請求項1記載の符号化映像再生装置。
  3.  前記デコーダで復号された映像情報および音声情報を受け、それぞれの映像輝度および出力音量レベルの調整を行う映像音声調整部を備え、
     前記解析部は、
     前記ストリーム情報ファイルの前記最初のアクセスユニットを含む開始部分および、前記最終のアクセスユニットを含む終了部分の映像輝度および音声出力レベルを解析し、
     前記映像音声調整部は、
     前記先行するストリーム情報ファイルの前記終了部分と、前記後続するストリーム情報ファイルの前記開始部分において、前記映像輝度の差異および音声出力レベルの差異が、予め定めた差異よりも大きい場合に、前記予め定めた差異以内とするように、前記映像輝度および音声出力レベルを低減させる、請求項2記載の符号化映像再生装置。
  4.  前記映像音声調整部は、
     前記先行するストリーム情報ファイルの前記最終のアクセスユニットと、前記後続するストリーム情報ファイルの前記最初のアクセスユニットにおいて、前記映像輝度の差異および前記音声出力レベルの差異が、前記予め定めた差異よりも大きい場合に、前記予め定めた差異以内とするように、前記映像輝度および音声出力レベルを低減させる、請求項3記載の符号化映像再生装置。
  5.  前記先行するストリーム情報ファイルの前記終了部分は、前記最終のアクセスユニットと、それより前の複数の先行アクセスユニットを含み、
     前記後続するストリーム情報ファイルの前記開始部分は、前記最初のアクセスユニットと、それより後の複数の後続アクセスユニットを含み、
     前記映像音声調整部は、
     前記最終のアクセスユニットおよび前記複数の先行アクセスユニットにおける前記映像輝度および前記音声出力レベルのそれぞれの平均値と、
     前記最初のアクセスユニットおよび前記複数の後続アクセスユニットにおける前記映像輝度および前記音声出力レベルのそれぞれの平均値との差異が、前記予め定めた差異よりも大きい場合に、前記予め定めた差異以内とするように、前記映像輝度および音声出力レベルを低減させる、請求項3記載の符号化映像再生装置。
  6.  符号化された映像情報と音声情報とが多重化されたストリーム情報ファイルを再生する符号化映像再生方法であって、
     (a)前記ストリーム情報ファイルから、前記映像情報と前記音声情報とを分離するステップと
     (b)前記映像情報および前記音声情報それぞれアクセスユニット単位に分割し、分割された、前記映像情報および前記音声情報を、それぞれの表示開始時刻と関連付けてバッファに記録するステップと、
     (c)前記バッファから前記映像情報および前記音声情報を読み出してデコーダに供給するステップと、
     (d)前記デコーダにおいて、前記表示開始時刻に基づいて、前記映像情報および前記音声情報を復号するステップと、を備え、
     前記ステップ(d)の後に、
     先行するストリーム情報ファイルの最終のアクセスユニットの表示開始時刻を、後続するストリーム情報ファイルの映像情報および音声情報の前記デコーダへの供給に先立って、前記後続するストリーム情報ファイルの最初のアクセスユニットの表示開始時刻に再設定するステップを備える、符号化映像再生方法。
  7.  前記ステップ(b)に先立って、
     (e)前記ストリーム情報ファイルの最初のアクセスユニットと、最終のアクセスユニットのデータ解析を行うステップを備え、
     前記ステップ(e)は、
     完全にフレーム画像を復号可能なアクセスユニットが前記最初のアクセスユニットおよび前記最終のアクセスユニットとなるように、アクセスユニットの並べ替えを行うステップを含み、
     前記ステップ(b)は、
     前記ステップ(e)で並べ替えられた順に前記バッファに記録する、請求項6記載の符号化映像再生方法。
  8.  前記ステップ(d)の後に、
     (f)前記デコーダで復号された映像情報および音声情報を受け、それぞれの映像輝度および出力音量レベルの調整を行うステップを備え、
     前記ステップ(e)は、
     前記ストリーム情報ファイルの前記最初のアクセスユニットを含む開始部分および、前記最終のアクセスユニットを含む終了部分の映像輝度および音声出力レベルを解析するステップを含み、
     前記ステップ(f)は、
     前記先行するストリーム情報ファイルの前記終了部分と、前記後続するストリーム情報ファイルの前記開始部分において、前記映像輝度の差異および音声出力レベルの差異が、予め定めた差異よりも大きい場合に、前記予め定めた差異以内とするように、前記映像輝度および音声出力レベルを低減させるステップを含む、請求項7記載の符号化映像再生方法。
  9.  前記ステップ(f)は、
     前記先行するストリーム情報ファイルの前記最終のアクセスユニットと、前記後続するストリーム情報ファイルの前記最初のアクセスユニットにおいて、前記映像輝度の差異および前記音声出力レベルの差異が、前記予め定めた差異よりも大きい場合に、前記予め定めた差異以内とするように、前記映像輝度および音声出力レベルを低減させるステップを含む、請求項8記載の符号化映像再生方法。
  10.  前記先行するストリーム情報ファイルの前記終了部分は、前記最終のアクセスユニットと、それより前の複数の先行アクセスユニットを含み、
     前記後続するストリーム情報ファイルの前記開始部分は、前記最初のアクセスユニットと、それより後の複数の後続アクセスユニットを含み、
     前記ステップ(f)は、
     前記最終のアクセスユニットおよび前記複数の先行アクセスユニットにおける前記映像輝度および前記音声出力レベルのそれぞれの平均値と、
     前記最初のアクセスユニットおよび前記複数の後続アクセスユニットにおける前記映像輝度および前記音声出力レベルのそれぞれの平均値との差異が、前記予め定めた差異よりも大きい場合に、前記予め定めた差異以内とするように、前記映像輝度および音声出力レベルを低減させるステップを含む、請求項8記載の符号化映像再生方法。
PCT/JP2017/018464 2017-05-17 2017-05-17 符号化映像再生装置および符号化映像再生方法 WO2018211613A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2017/018464 WO2018211613A1 (ja) 2017-05-17 2017-05-17 符号化映像再生装置および符号化映像再生方法
JP2019518657A JP6742515B2 (ja) 2017-05-17 2017-05-17 符号化映像再生装置および符号化映像再生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/018464 WO2018211613A1 (ja) 2017-05-17 2017-05-17 符号化映像再生装置および符号化映像再生方法

Publications (1)

Publication Number Publication Date
WO2018211613A1 true WO2018211613A1 (ja) 2018-11-22

Family

ID=64274223

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/018464 WO2018211613A1 (ja) 2017-05-17 2017-05-17 符号化映像再生装置および符号化映像再生方法

Country Status (2)

Country Link
JP (1) JP6742515B2 (ja)
WO (1) WO2018211613A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021002338A1 (ja) * 2019-07-03 2021-01-07 ソニー株式会社 情報処理装置、情報処理方法、再生処理装置及び再生処理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04345285A (ja) * 1991-05-22 1992-12-01 Fuji Xerox Co Ltd 動画像編集装置及び方法
JP2005302100A (ja) * 2004-04-08 2005-10-27 Sony Corp 情報再生装置、情報再生方法および情報再生プログラム
JP2006066995A (ja) * 2004-08-24 2006-03-09 Canon Inc 画像再生装置及びその制御方法及びプログラム及び記憶媒体
JP2008028793A (ja) * 2006-07-24 2008-02-07 Nec Electronics Corp ストリーム編集方法及びストリーム編集装置
JP2009290768A (ja) * 2008-05-30 2009-12-10 Toshiba Corp 映像処理装置および映像処理方法
JP2012044615A (ja) * 2010-08-23 2012-03-01 Nec Personal Computers Ltd 情報処理装置、動画ファイル編集方法及びプログラム
JP2014096716A (ja) * 2012-11-09 2014-05-22 Canon Inc 画像処理装置、画像処理方法およびプログラム
JP2014239524A (ja) * 2014-08-08 2014-12-18 ヤマハ株式会社 連続する複数のフレームで構成される動画像の圧縮方法、および連続する複数のフレームで構成される動画像を圧縮符号化する画像処理装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04345285A (ja) * 1991-05-22 1992-12-01 Fuji Xerox Co Ltd 動画像編集装置及び方法
JP2005302100A (ja) * 2004-04-08 2005-10-27 Sony Corp 情報再生装置、情報再生方法および情報再生プログラム
JP2006066995A (ja) * 2004-08-24 2006-03-09 Canon Inc 画像再生装置及びその制御方法及びプログラム及び記憶媒体
JP2008028793A (ja) * 2006-07-24 2008-02-07 Nec Electronics Corp ストリーム編集方法及びストリーム編集装置
JP2009290768A (ja) * 2008-05-30 2009-12-10 Toshiba Corp 映像処理装置および映像処理方法
JP2012044615A (ja) * 2010-08-23 2012-03-01 Nec Personal Computers Ltd 情報処理装置、動画ファイル編集方法及びプログラム
JP2014096716A (ja) * 2012-11-09 2014-05-22 Canon Inc 画像処理装置、画像処理方法およびプログラム
JP2014239524A (ja) * 2014-08-08 2014-12-18 ヤマハ株式会社 連続する複数のフレームで構成される動画像の圧縮方法、および連続する複数のフレームで構成される動画像を圧縮符号化する画像処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021002338A1 (ja) * 2019-07-03 2021-01-07 ソニー株式会社 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
CN114026849A (zh) * 2019-07-03 2022-02-08 索尼集团公司 信息处理装置、信息处理方法、再现处理装置以及再现处理方法
US11985290B2 (en) 2019-07-03 2024-05-14 Sony Group Corporation Information processing device, information processing method, reproduction processing device, and reproduction processing method

Also Published As

Publication number Publication date
JPWO2018211613A1 (ja) 2019-11-07
JP6742515B2 (ja) 2020-08-19

Similar Documents

Publication Publication Date Title
JP6671022B2 (ja) 表示装置、表示方法及びコンピュータプログラム
US8326117B2 (en) Data recording device, data recording method, data processing device, data processing method, program, program recording medium, data recording medium, and data structure
US8160422B2 (en) Data recording device, data recording method, data processing device, data processing method, program, program recording medium, data recording medium, and data structure
TW200412801A (en) Display of closed captioned information during video trick modes
US20140126885A1 (en) Synchronized stream packing
KR20050032461A (ko) 텍스트 기반의 자막 정보를 포함하는 저장 매체, 재생장치 및 그 재생 방법
JP4577409B2 (ja) 再生装置、再生方法、プログラム、及び、データ構造
CN107736017B (zh) 影像再现装置和影像再现方法
JPH10262208A (ja) 同期ずれ制御装置及び方法
JP2024045366A (ja) 情報処理装置、情報処理方法、記録媒体、再生装置、再生方法、およびプログラム
JP6742515B2 (ja) 符号化映像再生装置および符号化映像再生方法
KR20010092278A (ko) 화상 기록 장치 및 방법, 화상 재생 장치 및 방법과 기록매체
US6999090B2 (en) Data processing apparatus, data processing method, information storing medium, and computer program
JP4852453B2 (ja) 記録装置、映像再生装置、および、その特殊再生方法
JP4225339B2 (ja) 画像データ処理装置および方法、プログラム、並びに記録媒体
JP2002010254A (ja) 特徴点検出方法および記録再生装置
JP2006148275A (ja) ビデオ信号多重化装置、ビデオ信号多重化方法及び映像再生装置
JP4763589B2 (ja) 再生装置、および、その再生方法
US20150255119A1 (en) Display apparatus and method for editing and displaying recorded video content
JP6976219B2 (ja) 映像記録再生装置および映像記録再生方法
JP2001320673A (ja) コンピュータシステムおよび動画再生方法
JP2021166363A (ja) 映像再生装置および映像再生方法
JP4288442B2 (ja) 記録再生装置および映像処理方法
JP2007027880A (ja) デジタル放送蓄積・再生方法
JP2020198560A (ja) 映像記録再生装置及び映像記録再生方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17910380

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019518657

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17910380

Country of ref document: EP

Kind code of ref document: A1