WO2010125757A1 - 映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法 - Google Patents

映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法 Download PDF

Info

Publication number
WO2010125757A1
WO2010125757A1 PCT/JP2010/002735 JP2010002735W WO2010125757A1 WO 2010125757 A1 WO2010125757 A1 WO 2010125757A1 JP 2010002735 W JP2010002735 W JP 2010002735W WO 2010125757 A1 WO2010125757 A1 WO 2010125757A1
Authority
WO
WIPO (PCT)
Prior art keywords
scene
picture
thumbnail
video
boundary
Prior art date
Application number
PCT/JP2010/002735
Other languages
English (en)
French (fr)
Inventor
楠恵明
島田昌明
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Publication of WO2010125757A1 publication Critical patent/WO2010125757A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8227Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being at least another television signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA

Definitions

  • the present invention displays a thumbnail corresponding to each scene of video information on a display device, and a video that can start playback of each scene by selecting and operating the thumbnail of the scene to be played back while viewing the displayed thumbnail
  • the present invention relates to an audio playback device, a video / audio recording / playback device, a video / audio playback method, and a video / audio recording / playback method.
  • the playback start time is selected by the title name or chapter number, so the user can select what content before playback. couldn't know if the video will be played.
  • thumbnail images based on the generated thumbnail image data are generated on a graphics screen for generating thumbnail image data using image data before video encoding processing at the time of recording and selecting a playback title.
  • There is a method of notifying the user of the playback content by displaying for example, see Patent Document 1.
  • Patent Documents 2 and 3 On the other hand, in order to express the content of a specific scene as a continuous still image, there is a method of determining a thumbnail image by using a scene change occurrence interval in the scene (see, for example, Patent Document 4).
  • JP 2006-148731 page 14, FIG. 9) JP 2006-229821 A (page 4, FIG. 1) JP 2003-274361 A (page 4, FIG. 3) JP 2001-298711 A (page 3, FIG. 25)
  • the start and end positions of a scene are separated by chapters or entries, and images after a fixed time from the start of playback or after a fixed time from the entry position are used as thumbnails. Therefore, there is a difference between the content of the selected thumbnail image and the content of the video to be played back, and the user sometimes feels uncomfortable.
  • a picture of a scene with a large change in motion is selected as a thumbnail, there is a problem that it is not possible to know what the thumbnail image is displayed.
  • the present invention has been made in order to solve the above-described problems, and can record or record video / audio content into scenes, and display an appropriate image as a thumbnail for each scene on a display device.
  • An object of the present invention is to provide a video / audio reproduction device, a video / audio recording / reproduction device, a video / audio reproduction method, and a video / audio recording / reproduction method.
  • the video / audio reproduction device includes scene boundary extraction means for extracting a scene boundary, which is a boundary of a scene composed of a plurality of pictures, from video information, and entry information for accessing the extracted scene boundary.
  • An entry generating means for generating a thumbnail, a representative picture representative of a scene divided by the extracted scene boundary, and a thumbnail generating means for generating thumbnail image data based on the representative picture; and the generated thumbnail Thumbnail display control means for displaying thumbnails based on image data on a display device, thumbnail selection means for selecting an arbitrary thumbnail from the displayed thumbnails, and a scene corresponding to the selected thumbnail as the entry Means for reproducing from a position based on information;
  • the thumbnail generation means is that upon selection of the representative picture of each scene, to select the picture later than the picture of the scene boundaries as the representative picture.
  • the representative picture is selected from the pictures after the scene boundary, and the thumbnail image data of each scene is generated based on the representative picture of each scene. Appropriate images can be displayed as thumbnails.
  • FIG. 1 is a block diagram showing a schematic configuration of a video / audio recording / reproducing apparatus according to Embodiment 1.
  • FIG. It is a figure which shows an example of the display screen in the thumbnail selection operation for selecting a reproduction scene. It is a figure which shows the relationship between a scene, a picture, and a thumbnail image. It is a figure which shows an example of the relationship between a scene boundary and the representative picture which becomes the origin of a thumbnail image. It is a figure which shows the other example of the relationship between a scene boundary and the representative picture which becomes the origin of a thumbnail image. It is a figure which shows the further another example of the relationship between a scene boundary and the representative picture which becomes the origin of a thumbnail image.
  • FIG. 6 is a block diagram showing a schematic configuration of a video / audio recording / reproducing apparatus according to Embodiment 2.
  • FIG. (A)-(c) is explanatory drawing which shows the method of detecting a scene boundary by the frequency analysis of an audio
  • 6 is a block diagram showing a schematic configuration of a video / audio recording / reproducing apparatus according to Embodiment 3.
  • FIG. 1 is a block diagram showing a schematic configuration of a video / audio recording / reproducing apparatus 100 according to Embodiment 1 of the present invention.
  • the video / audio recording / reproducing apparatus 100 is an apparatus capable of performing the video / audio recording / reproducing method according to the first embodiment.
  • the video / audio recording / reproducing apparatus 100 includes a digital tuner 3, an analog tuner 4, an external input terminal 5, a monitor output terminal 31, and a network terminal 30 as interfaces with external devices.
  • the digital tuner 3 and the analog tuner 4 are connected to the antenna 91 and can receive digital and analog broadcasts.
  • the external input terminal 5 mainly corresponds to composite input called analog input, S video input, LR audio input, and the like.
  • a monitor 93 is connected to the monitor output terminal 31 and can output video and audio signals generated by the video / audio recording / reproducing apparatus 100.
  • the video / audio recording / reproducing apparatus 100 includes a remote control receiving unit 6 that receives a signal from a remote control 94 for remotely operating the apparatus, and a remote control code received by infrared rays or the like is transmitted to the system control unit 2.
  • the system control unit 2 controls the video / audio recording / reproducing apparatus 100 in accordance with a control signal from the remote controller 94 based on a user's request.
  • the system control unit 2 activates a recording application (recording application execution unit) 9 and instructs execution of recording.
  • the recording application 9 controls the recording control unit 10 to manage the start and end of recording and the recording operation during recording.
  • the system control unit 2 activates the playback application (playback application execution unit) 11 and instructs playback execution.
  • the playback application 11 controls the playback control unit 14 to start playback of the specified content.
  • the digital broadcast received by the digital tuner 3 is sent to the input stream control unit 8 as a full TS (Transport Stream).
  • the input stream control unit 8 temporarily stores the data and steadily writes the AV stream recording unit 17 in order to stably record the AV stream, which is video / audio data, in the AV stream recording unit 17.
  • the input stream control unit 8 also supports a partial TS in which packets that do not need to be recorded from the full TS are omitted.
  • the input stream control unit 8 detects the PID (packet identifier) and section information of the TS, and also detects the start position of a GOP (Group Of Picture) in the recorded video stream.
  • the AV stream recording unit 17 is configured by an HDD (Hard Disc Drive) or the like, but may be a recording device other than the HDD such as an optical disk recording device.
  • the address information and the time information of the AV stream recorded on the HDD are associated with each other in order to improve scene searchability during playback and to achieve random seek at an arbitrary time during special playback.
  • Address map is required.
  • the recording control unit 10 generates an address map based on the GOP start position information detected by the input stream control unit 8 during recording, and records this address map in the AV management information recording unit 18.
  • the AV management information recording unit 18 records the above-described address map, as well as the recorded program title, recording start time, recording end time, broadcast service name, channel number, video codec information, audio codec information, and program details information. Etc. are recorded.
  • the reproduction control unit 14 reads information recorded in the AV management information recording unit 18 as necessary.
  • the AV stream recording unit 17, the AV management information recording unit 18, and the later-described metadata recording unit 19 may be separate recording devices as shown in FIG. 1, but are different from each other in the same recording device. It may be a recording area.
  • the analog broadcasting and the video signal recording function input from outside will be described. Only the signal of the channel designated by the user is extracted from the analog broadcast received by the antenna 91 by the analog tuner 4.
  • the signal taken out by the analog tuner 4 is converted into a video signal, converted into a digital signal by an AD / DA converter (Analog to Digital / Digital to Analog Converter) (not shown), and then input to the AV encoder 7.
  • the AV encoder 7 encodes the video signal into MPEG-2 video, encodes the audio signal with AAC (Advanced Audio Coding), multiplexes the encoded video and audio signal into the MPEG-2 TS, and outputs the AV stream. Generate.
  • the AV stream is sent to the input stream control unit 8 and recorded in the AV stream recording unit 17.
  • the video / audio signal input from the external input terminal 5 is AD / DA converted by an AD / DA converter (not shown) and then converted to an AV stream by the AV encoder 7.
  • the AV stream is input to the input stream control unit 8. And recorded in the AV stream recording unit 17.
  • the playback function in the video / audio recording and playback apparatus 100 will be described.
  • the remote controller 94 When the user operates the remote controller 94 to display a recorded title list, for example, when a “recorded title list” button provided on the remote controller 94 is pressed, all program names of the recorded titles (digital contents such as video and audio) are displayed. (Title name) or a part of the program name is displayed on the screen of the monitor 93.
  • the user moves the cursor to the desired program name by operating the remote controller 94, for example, by operating the up / down / left / right cursor keys (for example, cursor keys 97U, 97D, 97L, 97R in FIG.
  • the title to be reproduced is selected by pressing a “decision” key (for example, a “decision” key 96 in FIG. 2 described later).
  • the code corresponding to the program name selection operation is transmitted from the remote controller 94 to the remote control receiver 6 as an infrared signal.
  • the remote control receiving unit 6 converts the received code into a software code and then sends it to the system control unit 2.
  • the system control unit 2 updates the graphics screen.
  • the reproduction application 11 instructs the reproduction control unit 14 to reproduce the designated title.
  • the reproduction control unit 14 reads out reproduction control information relating to the title from the AV management information recording unit 18 and is not shown in the RAM (for example, provided as a part of the reproduction control unit 14 or outside the reproduction control unit 14). To enter.
  • the playback control unit 14 uses the address map of the playback control information to read address information corresponding to the playback start point of the next stream to be played back, reads the AV stream at that address from the AV stream recording unit 17, and outputs it.
  • the data is sent to the stream control unit 16.
  • the AV decoder 15 decodes the AV stream sent from the output stream control unit 16 in the order of transfer, and outputs it to the monitor 93 via the monitor output terminal 31.
  • the output stream control unit 16 reads the AV stream recorded in the AV stream recording unit 17 and transfers the AV stream to the AV decoder 15 so as not to interrupt the video and audio due to the underflow and overflow of the AV decoder 15. Further, the output stream control unit 16 uses a DMA (Direct Memory Access) transfer function, which is an H / W assist, to temporarily store the AV stream in accordance with the buffer state of the AV decoder 15. Transfer to the AV decoder 15.
  • DMA Direct Memory Access
  • the scene detection unit 50 performs scene detection by analyzing the video and / or audio of the AV stream temporarily recorded in the input stream control unit 8 during a recording operation.
  • the analysis decoder 21 extracts a key frame (I picture) from the head of the GOP and decodes the I picture.
  • the decoded luminance signal (Y) and color difference signal (U, V) data are input to the frame buffer 22.
  • the frame buffer 22 has a size capable of holding at least two images (image data for two frames) of the decoded YUV data.
  • the scene boundary extraction unit 23 obtains the difference between the image data of the two images input to the frame buffer 22, and determines that the scene change SC has occurred if the difference between the image data is equal to or greater than a preset threshold value. It is determined that a scene boundary SB exists between these two images.
  • a histogram of each image to be compared is obtained, a difference absolute value that is an absolute value of a difference between a histogram element of one image and a histogram element of the other image is obtained, and the histogram is obtained.
  • a method is conceivable in which the absolute value of each element is accumulated and this accumulated value is used as a difference between two images.
  • a method for obtaining a difference between two images may be a method in which a motion vector or the like that is an encoding parameter in an AV stream is detected and a value based on the motion vector is used as a difference between the two images.
  • a method for obtaining a difference between two images uses a face data detected by face detection, face recognition, or the like to digitize a change in the composition of the characters and use the obtained value as a difference between the two images. It may be a method.
  • the position determined as the scene boundary SB by the scene boundary extraction unit 23 is the scene reproduction start position.
  • the entry generation unit 24 creates reproduction entry information including address information of the scene reproduction start position and time information. Such a scene is generally called a chapter.
  • the entry position or its information is called a chapter mark, but it may be simply called a chapter.
  • the entry information generated in this way is recorded in the metadata recording unit 19.
  • the thumbnail generation unit 25 extracts the image information of the pictures constituting the scene from the frame buffer 22, and the thumbnail image data in the bitmap format based on this image information.
  • Generate a TNI also referred to simply as a “thumbnail image”.
  • the generated thumbnail image TNI is recorded as thumbnail information in the metadata recording unit 19 (details of a thumbnail selection method will be described later).
  • the format of the thumbnail image TNI may be other formats such as TIFF and JPEG instead of the bitmap.
  • a method of recording the thumbnail image TNI instead of the method of recording the thumbnail image TNI, a method of recording the time information and / or address information of the AV stream in which the thumbnail image TNI exists as thumbnail information in the metadata recording unit 19 may be adopted.
  • FIG. 2 shows a state in which the playback video (background part) of the AV stream and the graphics image (five thumbnails and two arrow parts) are superimposed and displayed on the monitor 93.
  • the thumbnails TN15, TN16, TN17, TN18, and TN19 are read out by the metadata control unit 12 from the thumbnail information stored in the metadata recording unit 19 and imaged in the thumbnail display control unit 13, and then the graphics superimposing unit. 20 is superimposed on the reproduced video and displayed on the monitor 93.
  • the playback application 11 instructs the playback control unit 14 to play back the selected title.
  • the output stream control unit 16 reads the AV stream from the AV stream recording unit 17.
  • the AV stream read by the output stream control unit 16 is decoded by the AV decoder 15, and an image based on the decoded AV stream is displayed on the monitor 93.
  • the playback application 11 should play back to the metadata control unit 12. Tell the title and the elapsed time information of the playback video.
  • the metadata control unit 12 reads a total of five thumbnails from the metadata control unit 12 including a thumbnail corresponding to the scene of the elapsed time and two thumbnails before and after the thumbnail.
  • the thumbnail selection frame generation unit 28 generates selection frame data indicating that one of the displayed thumbnails is selected, and outputs this to the thumbnail display control unit 13.
  • the thumbnail display control unit 13 develops the thumbnail metadata as an image and outputs the thumbnail metadata together with the selection frame 41 to the graphics superimposing unit 20.
  • the selection frame 41 is displayed in accordance with the currently reproduced scene.
  • the selection frame 41 is displayed so as to surround the thumbnail TN17 corresponding to Scene # 17.
  • the user moves the selection frame 41 to the left or right using the right or left cursor key 97R or 97L of the remote controller 94, and selects a thumbnail corresponding to a desired scene from the displayed plurality of thumbnails. be able to.
  • the thumbnail selection frame generation unit 28 generates a selection frame 41 that moves to the left and right in conjunction with the operation of the remote controller 94.
  • the right or left cursor key 97R, 97L is further pressed while the selection frame 41 has reached the right or left edge of the screen, the displayed thumbnails are all displayed as a right or left cursor key.
  • the playback application 11 causes the playback control unit 14 to pause playback of the content being played back.
  • the playback application 11 instructs the playback control unit 14 to restart playback from the time specified by the entry information of the scene, based on the entry information indicating the start position of the scene selected by the user.
  • the playback control unit 14 uses the address map information recorded in the AV management information recording unit 18, converts the entry time information into AV stream address information and sends it to the output stream control unit 16.
  • the output stream control unit 16 reads the AV stream data of the selected scene from the AV stream recording unit 17 and outputs it to the AV decoder 15.
  • the AV decoder 15 decodes the AV stream data from the output stream control unit 16. As a result, the scene corresponding to the thumbnail selected by the user can be reproduced.
  • FIG. 3 is a diagram illustrating a relationship among the scene SCE, the picture PIC, and the thumbnail.
  • t indicates a time axis
  • PIC indicated by a plurality of squares arranged in the time axis direction indicates a plurality of pictures P52 to P118
  • SCE indicates a scene composed of a plurality of pictures.
  • FIG. 3 illustrates a plurality of pictures P52 to P118, and examples of scenes SCE include Scene # 15, Scene # 16, Scene # 17, Scene # 18, and Scene # 19.
  • Pictures P52, P67, P83, P94, and P103 are the top pictures (pictures of the scene boundary SB) of Scene # 15, Scene # 16, Scene # 17, Scene # 18, and Scene # 19.
  • Pictures P55, P72, P86, P98, and P107 are representative pictures RP of Scene # 15, Scene # 16, Scene # 17, Scene # 18, and Scene # 19, and the thumbnail image TNI is based on the representative picture RP. Generated.
  • a scene change SC that is a video change point is a boundary of the scene SCE, that is, a scene boundary SB.
  • the scene boundary SB is not limited to the scene change SC.
  • a silent section where no sound is generated (b) a codec or format change point, (c) a frequency change position, and (d) the number of channels. You may detect based on a change position, (e) the change position of a quantization number, or (f) any combination in these.
  • each scene SCE may be configured by providing scene boundaries SB at predetermined time intervals such as 5 minutes, 10 minutes, 15 minutes, or time intervals specified by the user. Further, the scene boundary SB may be provided in correspondence with a specific event given from the outside to constitute the scene SCE. Thus, in each scene SCE divided at the scene boundary SB, a thumbnail image TNI that displays the contents of the scene SCE is generated.
  • a representative picture RP (eg, P55) that is temporally later than the first picture of the scene, not the picture at the beginning of the scene (eg, P52, P67, P83, P94, P103).
  • a thumbnail image TNI for displaying thumbnails (for example, TN15, TN16, TN17, TN18, TN19) is generated.
  • a thumbnail image TNI for example, TN15, TN16, TN17, TN18, TN19) is generated.
  • a picture at a position after a certain time, for example, 3 seconds, is detected as the representative picture RP after detecting the scene change SC.
  • a method for generating a thumbnail image TNI based on this (FIG. 4).
  • a method of generating a thumbnail image TNI based on the picture at the first position where the amount of change in the scene is equal to or less than a threshold after the scene change SC is detected (FIG. 5). 5).
  • a picture at a position where the amount of change in the scene is less than or equal to a threshold value and a state below the threshold value has elapsed for a certain time is set as a representative picture RP.
  • a certain time for example, 3 seconds
  • a method for generating a thumbnail image TNI based on this (FIG. 6).
  • the video data is data having motion vector information
  • a picture in which the amount of motion vector is equal to or less than a certain threshold value is used as a representative picture RP, and a thumbnail image TNI is generated based on the representative picture RP.
  • FIG. 4 is a diagram showing an example of the relationship between the scene boundary and the picture PIC that is the source of the thumbnail image TNI.
  • the horizontal axis represents the picture number (PIC No.)
  • the vertical axis represents the image difference value DIF between two adjacent pictures.
  • the image difference value DIF is, for example, a value obtained by generating respective histograms of the luminance signal (Y) and the color difference signal (U, V) of two pictures and dividing the cumulative sum of the difference absolute values of each element by the total number of elements. It is good.
  • the image difference value DIF takes a value between the minimum value 0 and the maximum value 1.
  • the scene boundary extraction unit 23 determines that a scene change SC has occurred between the two pictures.
  • the scene boundary extraction unit 23 determines that a scene change SC has occurred between the picture P51 and the picture P52. Then, the picture P52 is a picture at the scene boundary SB. Therefore, the scene boundary extraction unit 23 records the entry information in the metadata recording unit 19 with the picture P52 as a scene start position, that is, an entry.
  • the thumbnail generation unit 25 does not adopt the image of the picture P52 as a picture based on the thumbnail image TNI corresponding to the scene, and after a predetermined time t1 has elapsed from the picture 52 (for example, 3 seconds).
  • the post-elapsed picture P55 is adopted as the representative picture RP based on the thumbnail image TNI.
  • Data of the picture P55 is detected by the input stream control unit 8, decoded by the analysis decoder 21, and then input to the frame buffer 22.
  • the thumbnail generation unit 25 generates a thumbnail image TNI based on the data of the picture P55 input to the frame buffer 22, and records this in the metadata recording unit 19.
  • the thumbnail image TNI based on the scene boundary SB, that is, the picture that has passed the predetermined time t1 from the entry position, for example, the panned video of the camera, the image being changed by the image effect, the image interrupted for a moment
  • an image inappropriate as a thumbnail image from being selected as the representative picture RP that is the source of the thumbnail image TNI, such as (an image that often appears immediately after the scene boundary SB).
  • FIG. 5 is a diagram showing another example of the relationship between the scene boundary and the picture that is the source of the thumbnail image TNI.
  • a thumbnail determination threshold value TH2 having a value smaller than the scene change determination threshold value TH1 is used to select a picture that is a source of the thumbnail image TNI.
  • the thumbnail determination threshold value TH2 is a threshold value for selecting a picture that is a source of the thumbnail image TNI.
  • the scene boundary extraction unit 23 obtains an image difference value DIF between two temporally preceding and following images in a video, and a scene in which the calculated image difference value DIF is set in advance. Compared with the change determination threshold TH1, if the scene change determination threshold TH1 is exceeded, it is considered that a scene change SC has occurred. Then, the entry generation unit 24 determines that the position at which this scene change SC has occurred is the entry position, and records entry information indicating the entry position in the metadata recording unit 19. This point is the same as the process in the method shown in FIG.
  • the thumbnail generation unit 25 is also similar to the example of FIG. 4 in that the thumbnail image TNI is not generated based on the picture at the position where the scene change SC has occurred (here, the picture at the scene boundary SB).
  • the image difference value DIF between images is continuously obtained, the calculated image difference value DIF is compared with the determination threshold TH2 for thumbnails, and after the scene change SC occurrence position (here, For the first time, after the scene boundary SB), the picture at the position where the image difference value DIF falls below the thumbnail determination threshold TH2 is selected as the representative picture RP from which the thumbnail image TNI is generated. That is, in the method shown in FIG. 5, the thumbnail image is based on the picture at the first position after the video changes greatly like the scene change SC (the video change is less than the predetermined threshold value TH2). TNI is generated.
  • the first position among them is the thumbnail image TNI. In general, the closer the time, the closer the content. Because there is.
  • FIG. 5 shows an example in which the thumbnail image TNI is generated as a thumbnail image TNI based on a picture that first falls below the thumbnail determination threshold TH2 after the occurrence of the scene change SC. However, the thumbnail image TNI falls below the thumbnail determination threshold TH2.
  • the thumbnail image TNI may be generated based on the second and subsequent pictures from the picture.
  • a picture suitable for the thumbnail image TNI may be selected by combining conditions such as when there is characteristic information in the video or audio information, and the thumbnail image TNI may be generated based on the selected picture.
  • the characteristic information includes, for example, face detection, luminance detection, shape detection, silence detection, human speech detection, music detection, or any combination thereof.
  • FIG. 6 is a diagram showing still another example of the relationship between the scene boundary and the picture that is the source of the thumbnail image TNI.
  • a thumbnail determination threshold value TH3 having a value smaller than the scene change determination threshold value TH1 is used to select a picture that is a source of the thumbnail image TNI.
  • the thumbnail generation unit 25 uses the picture P58 after the predetermined time t2 has elapsed (here, 3 seconds have elapsed) after the image difference value DIF falls below the thumbnail determination threshold value TH3 as the source of the thumbnail image TNI. Is selected as a picture.
  • the thumbnail generation unit 25 can generate the thumbnail image TNI based on the images in the period in which images with the same contents are continuously displayed (in this example, from the picture P55 to the picture P58). Therefore, the thumbnail display control unit 13 can display on the monitor 93 an image whose contents are easy to recognize as a thumbnail image TNI, and the user who has seen the monitor 93 can view a video of a scene to be played back and a screen for playback selection. Can be more easily associated with the thumbnail displayed on the screen.
  • a method is used in which the thumbnail image TNI is generated based on a picture after a predetermined time t2 has elapsed since the scene change value of the video falls below the thumbnail determination threshold TH3, but the predetermined time t2 has elapsed. Later, a method of generating a thumbnail image TNI based on a picture (a picture P56 or a picture P57) before a predetermined time point may be employed.
  • FIG. 7 is a flowchart showing an example of the entry information generation operation.
  • AV streams are sequentially input to the input stream control unit 8, and an entry information generation operation starts (S101).
  • the input stream control unit 8 detects a GOP header from the AV stream, analyzes and extracts only an I picture called a key frame (S102).
  • the analysis decoder 21 decodes the extracted picture data of the key frame (S103).
  • the scene boundary extraction unit 23 calculates an image difference value DIF from the decoded data (S104), and determines whether there is a scene change (S105). If it is determined that no scene change SC has occurred (NO in S105), the processes in steps S102 to S104 are performed for the next picture.
  • step S105 when a scene change SC is detected in step S105 (YES in S105), the scene boundary extraction unit 23 determines that the location where the scene change SC has occurred is the scene boundary SB, and the entry generation unit 24 The entry information of the SB position is generated (S106). The generated entry information is recorded in the metadata recording unit 19 (S107). The above operation is performed until the recording is completed and the input stream control unit 8 detects the end of input of the recording AV stream (recording stream). When the input stream control unit 8 detects a flag indicating the end of the stream from the AV stream (YES in S108), the recording process ends (S109).
  • FIG. 8 is a flowchart showing an example of the operation for generating the thumbnail image TNI.
  • the flowchart of FIG. 8 shows an operation when the thumbnail image TNI is generated based on the picture shown in FIG. 4 after a predetermined time has elapsed since the scene change SC occurred (for example, after 3 seconds).
  • steps S202, S203, S210, S211, S212, S213, and S215 of FIG. 8 correspond to steps S102, S103, S104, S105, S106, S107, and S108 of FIG. 7, respectively.
  • the input stream control unit 8 starts the operation of generating the thumbnail image TNI (S201).
  • the input stream control unit 8 extracts an I picture, which is a key frame, from the input AV stream and sends it to the analysis decoder 21 (S202), and the analysis decoder 21 performs a key frame decoding process (S203).
  • the thumbnail generation unit 25 determines whether or not the thumbnail generation timer (thumbnail generation counter) 25a is set (S204).
  • the thumbnail generation timer 25a is set in step S214 after the scene change SC is detected (here, after the scene boundary SB is detected) (the timer is in an operating state), and thereafter, every time a key frame is decoded, the thumbnail generation timer 25a The count is subtracted (S205).
  • the thumbnail generation timer 25a is for counting a predetermined time (for example, 3 seconds) until the selection of a picture to be the source of the thumbnail image TNI after the scene change SC is detected.
  • the thumbnail generation unit 25 When the thumbnail generation timer 25a times out after a predetermined time has elapsed (YES in S206), the thumbnail generation unit 25 generates a thumbnail image TNI (S207).
  • thumbnail information including the thumbnail image TNI is recorded in the metadata recording unit 19 (S208).
  • the scene boundary extraction unit 23 When the predetermined time has not elapsed until the thumbnail image TNI is generated (NO in S206), or when the generation of the thumbnail image TNI is completed and the thumbnail generation timer 25a is set (S209), the scene boundary extraction unit 23 Then, the image difference value DIF between the two key frames decoded in step S204 is calculated (S210), and the presence / absence determination process of the scene change SC is performed based on the image difference value DIF (S211).
  • the entry generation unit 24 When the scene boundary extraction unit 23 detects a scene change SC, the entry generation unit 24 generates entry information indicating the scene boundary SB (S212), and records this entry information in the metadata recording unit 19 (S213).
  • the thumbnail generation timer 25a is set (S214), and the input stream control unit 8 starts the key frame extraction process for the subsequent recording stream (S202). The above processing is performed until the input of the recording stream is completed (S215).
  • the timeout is determined using the process of subtracting the value (count) of the thumbnail generation timer 25a every time the picture is processed. Instead, the timeout may be determined using the function of another timer existing in the apparatus. Further, in the operation for generating the thumbnail image TNI, the system time superimposed on the AV stream to be recorded may be used instead of using the thumbnail generation timer 25a.
  • FIG. 9 is a flowchart showing another example of the operation for generating the thumbnail image TNI.
  • the flowchart of FIG. 9 shows the thumbnail image based on the picture shown in FIG. 6 after the scene change SC has occurred and after a predetermined time has elapsed (for example, after 3 seconds have elapsed) after the image difference value DIF falls below the thumbnail determination threshold TH3.
  • the operation for generating the TNI is shown. Note that steps S302, S303, S304, S313, S314, S315, and S317 in FIG. 9 correspond to steps S102, S103, S104, S105, S106, S107, and S108, respectively, in FIG.
  • steps S302 to S304 in FIG. 9 are the same as the processing steps shown in steps S102 to S104 in FIG.
  • the scene boundary extraction unit 23 determines whether or not the scene start state is set (that is, whether or not the entry that is the scene start position is determined) (S305). ). Whether or not the entry has been determined is determined based on whether or not the scene start state is set in step S316. That is, after a scene change SC is detected (S313), entry information is generated (S314), and entry information is recorded (S315), a scene start state is set (S316).
  • step S305 when the scene start state is set (when the entry is determined), the thumbnail generation unit 25 determines whether the image difference value DIF is equal to or smaller than the thumbnail determination threshold TH3 (S306). ). When it is determined that it is equal to or less than the thumbnail determination threshold TH3 (YES in S306), the count of the thumbnail generation timer 25a is subtracted (S307). After a predetermined period has elapsed since the image difference value DIF has fallen below the thumbnail determination threshold TH3 (that is, when the thumbnail generation timer 25a times out) (S308), the thumbnail generation unit 25 generates a thumbnail image TNI (S309), and a thumbnail. Thumbnail information including the image TNI is recorded in the metadata recording unit 19 (S310).
  • the thumbnail generation unit 25 cancels the scene start state (that is, sets the thumbnail generation timer 25a) (S311). Thereby, the detection process of the next scene boundary SB is started.
  • the count value of the thumbnail generation timer 25a is reset (S312), and the image difference value DIF is again equal to or smaller than the thumbnail determination threshold TH3.
  • the count of the thumbnail generation timer 25a is not subtracted until. The above processing is performed until the input of the recording stream is completed (S317).
  • FIG. 10 is a flowchart showing an operation of displaying thumbnails on a monitor and selecting thumbnails of playback scenes while viewing the displayed thumbnails.
  • the command encoded by the remote control receiving unit 6 is input to the system control unit 2 (S402).
  • the system control unit 2 branches the process according to the command.
  • the reproduction start instruction is input (S403)
  • the system control unit 2 issues a reproduction start instruction to the reproduction application 11 (S404). Thereby, reading of the AV stream from the AV stream recording unit 17 to the output stream control unit 16 is started, and decoding and image output are started in the AV decoder 15.
  • thumbnail display command is sent from the remote control receiving unit 6 to the system control unit 2, and the system control unit 2 displays a thumbnail on the playback application 11.
  • the playback application 11 issues a thumbnail display instruction to the playback control unit 14, the metadata control unit 12, and the thumbnail selection unit (S405).
  • the thumbnail image TNI is read from the metadata recording unit 19 (S406), and the image on which the thumbnail image TNI from the thumbnail display control unit 13 is superimposed is displayed on the monitor 93 (S407).
  • a selection frame movement instruction is issued (S408), and the selection frame 41 displayed by the thumbnail selection frame generation unit 28 is moved and drawn. Is performed (S409).
  • the system control unit 2 is instructed to determine the playback start scene (S410).
  • the playback application 11 is instructed to extract entry information, the playback control unit 14 reads the playback control information from the AV management information recording unit 18, and the address of the scene designated by the AV stream recording unit 17.
  • a seek operation is performed at the position (S411).
  • step S412 if a reproduction end instruction is given, the process ends (S413). Otherwise, a new command is input (S402). As described above, when the user selects and determines a thumbnail displayed on the screen of the monitor 93, reproduction from the entry position of the corresponding scene is started.
  • the thumbnail image TNI can be generated based on the picture temporally later from the entry position corresponding to the scene change SC.
  • the problem that occurs when the thumbnail image TNI is generated based on the picture immediately after the entry that has a high possibility that the scene change SC continuously occurs (the image difference value DIF exceeds the threshold value TH1) is solved.
  • a more appropriate picture can be selected as a picture from which the thumbnail image TNI is based.
  • thumbnail image TNI is generated based on a picture selected within a period in which a highly correlated image such as a still image continues in time, a thumbnail that matches the content of the scene is displayed on the monitor 93.
  • the thumbnail image TNI selected by the user can be confirmed in the video of the scene, and the user can play the scene by selecting the thumbnail image TNI with peace of mind.
  • the condition for selecting the picture that is the source of the thumbnail image TNI is only the passage of time, so the load on the system for calculating the generation determination condition for the thumbnail image TNI is small. That's it.
  • the AV stream to be reproduced is directly analyzed and the entry information is extracted and the picture that is the basis of the thumbnail image TNI is selected. Therefore, the time information included in the entry information and the thumbnail image TNI is the AV stream. Associated with. Therefore, it is possible to reproduce the AV stream reproduction elapsed time in association with the entry information and the time indicated by the thumbnail image TNI.
  • a method for generating entry information indicating the position of a picture on the scene boundary SB and a method for generating a thumbnail image TNI are provided for an AV stream recorded in an AV stream recording unit 17 such as an HDD. Have been applied. However, these methods are not only applicable to the encoded stream, but can also be applied to, for example, image data before encoding.
  • a decoder implemented by H / W or the like may be used as the analysis decoder 21.
  • thumbnail image TNI generation process may be performed using a dedicated H / W encoder.
  • each configuration for example, digital tuner 3, analog tuner 4, AV encoder 7, input stream control unit 8, AV stream recording unit 17
  • the present invention can be applied to a conventional video / audio recording / reproducing apparatus by making a relatively small configuration change. Can do.
  • the thumbnail generation unit 25 determines whether the picture that is the source of the thumbnail image TNI to be generated is an image that is appropriate (preferred) as a thumbnail, and determines that the picture is not appropriate (not preferable).
  • the thumbnail image TNI may be newly generated based on another picture instead of being adopted as a picture that is a source of the thumbnail image TNI.
  • images that are not suitable as thumbnail images TNI include, for example, monochrome images such as black and white, images in which there are no objects in the images, images with a whiteout screen due to a camera flash, etc. An image that does not show what is reflected too much, an image whose contrast is lower than a predetermined value, and the like can be considered.
  • a system hang caused by unexpected data input, etc.
  • a configuration has been described in which the selection of the picture that is the source of the thumbnail image TNI and the generation of the thumbnail image TNI after the scene boundary SB is extracted.
  • an appropriate picture is detected as the thumbnail image TNI.
  • a configuration may be adopted in which the scene boundary SB that is temporally before the detected picture is extracted.
  • the scene boundary SB for example, detection of the scene change SC
  • a reduction in processing load can be expected.
  • the scene is segmented only when an appropriate image is detected as the thumbnail image TNI. As a result, an image inappropriate as a thumbnail is not selected as a picture that is the basis of the thumbnail image TNI.
  • the load for detecting the scene boundary SB can be reduced.
  • the process of selecting the best thumbnail image TNI in the scene can be easily realized. As a result, a more appropriate picture for the thumbnail image TNI can be selected.
  • the video / audio recording / reproducing apparatus 100 has a reproducing function, but may be a recording apparatus having only a recording function.
  • Such a video / audio recording apparatus can be realized by providing an interface function for outputting the recorded AV stream, reproduction control information, and metadata to the outside.
  • a video / audio reproduction device having a reproduction function of the video / audio recording / reproduction device 100 may be configured using data output from such an interface or a medium on which data is recorded.
  • the scene detection unit 50 has a configuration for reading the AV stream of the AV stream recording unit 17 and records it in the AV stream recording unit 17. The video and / or audio of the recorded AV stream is analyzed to detect a scene.
  • An example of a configuration for reading the AV stream of the AV stream recording unit 17 will be described in a third embodiment to be described later, but is not limited to the configuration in the third embodiment.
  • FIG. FIG. 11 is a block diagram showing a schematic configuration of a video / audio recording / reproducing apparatus 101 according to Embodiment 2 of the present invention.
  • the video / audio recording / reproducing apparatus 101 according to the second embodiment is different from the video / audio recording / reproducing apparatus 100 according to the first embodiment in the configuration of the scene detection unit 51.
  • the video / audio recording / reproducing apparatus 101 according to Embodiment 2 includes an audio boundary extracting unit 26 instead of the scene boundary extracting unit 23 in the video / audio recording / reproducing apparatus 100 shown in FIG.
  • the video / audio recording / reproducing apparatus 101 according to the second embodiment is the same as the video / audio recording / reproducing apparatus 100 according to the first embodiment except for the scene detection unit 51.
  • the analysis decoder 21 also performs decoding on encoded audio data in the AV stream.
  • the voice boundary extraction unit 26 detects, for example, a section where silence is occurring (silence section) from the voice data input via the frame buffer 22, and determines that the detected silence section is the scene boundary SB. To do.
  • the entry generation unit 24 creates entry information including address information and / or time information of the scene reproduction start position, and records the entry information as metadata. Record in section 19.
  • the speech analysis method in the speech boundary extraction unit 26 is not limited to the method using silence detection, and performs a frequency analysis of speech and uses a process of classifying speech information characteristics from the frequency distribution obtained by this analysis.
  • the method like this may be used.
  • the voice boundary extraction unit 26 performs frequency analysis for each audio frame on a voice signal in a certain section, and obtains a frequency distribution of each audio frame.
  • the voice boundary extraction unit 26 classifies and holds the frequency distribution shape of each audio frame in advance as “conversation”, “music”, “sports”, “animal voice”, “noise”, and the like. Which pattern of the frequency distribution patterns is matched (or closest) is obtained.
  • the speech boundary extraction unit 26 provides section windows composed of a plurality of audio frames, and determines that the frequency distribution pattern having the highest frequency in each section window is a pattern representing the corresponding section window. Then, the audio boundary extraction unit 26 sets the head of the section window in which the representative pattern has changed as the scene boundary SB.
  • FIGS. 12A to 12C are explanatory diagrams showing a method of detecting the scene boundary SB by audio frequency analysis.
  • the audio signal is divided into audio frames AF m , AF m + 1 ,..., AF m + 14 ,.
  • m is an integer of 1 or more.
  • the voice boundary extraction unit 26 performs frequency analysis of audio data in units of divided audio frames, and the frequency distribution of each audio frame matches any of the frequency distribution patterns held in advance, or Find the closest.
  • the speech boundary extraction unit 26 three sections windows made of audio frame W n, W n + 1, ... and arranged, as shown in FIG.
  • the interval windows W n It is determined whether the frequency distribution of the audio signal included in each of W n + 1 ,... Matches or is closest to any of the frequency distribution patterns held in advance.
  • n is an integer of 1 or more.
  • the audio boundary extraction unit 26 determines that the time point at which the frequency distribution pattern associated with the section windows W n , W n + 1 ,... Changes is a scene boundary SB that is a scene change.
  • the video signal is divided into scenes SCE s , SCE s + 1 ,... By the scene boundary SB.
  • s is an integer of 1 or more.
  • thumbnail generation unit 25 generates the thumbnail image TNI based on the picture at the position where the same frequency distribution pattern continues in the section window.
  • thumbnail generating unit 25 in a range from the interval windows W n + 1 to "sports" continues until W n + 3, select a section windows W n + 2 of the center corresponding to the audio frame AF m + 7 of the center in the section window W n + 2 of the central
  • a thumbnail image TNI is generated from the picture to be processed.
  • Subsequent thumbnail image TNI generation processing is the same as the processing in the first embodiment.
  • the detection of the scene boundary SB and the selection of the picture that is the source of the thumbnail image TNI based on the audio information are performed, based on the video information as in the first embodiment.
  • the analysis process can be reduced in weight and the processing speed can be increased.
  • the analysis process becomes very light and the process can be completed more quickly.
  • the accuracy of scene detection for a program characterized by audio, for example, a music program or a sports program can be improved.
  • the apparatus or method according to Embodiment 2 is not limited to the case of detecting a scene boundary based on video information or audio information, or selecting a picture that is a source of a thumbnail image TNI, and is superimposed on a broadcast wave. Detecting a scene boundary or selecting a picture that is a source of a thumbnail image TNI using various information, for example, caption information, EPG (Electronic Program Guide) data, copyright management information, etc. . When these data are used, accurate scene division is possible.
  • FIG. FIG. 13 is a block diagram showing a schematic configuration of a video / audio recording / reproducing apparatus 102 according to Embodiment 3 of the present invention.
  • the video / audio recording / reproducing device 102 uses the AV stream recorded in the AV stream recording unit 17 in the process of detecting the scene boundary SB and selecting the picture that is the source of the thumbnail image TNI.
  • the dubbing stream control unit 27 is provided.
  • the configuration other than the dubbing stream control unit 27 is the same as that of the video / audio recording / reproducing apparatus 100 shown in FIG.
  • the dubbing stream control unit 27 reads the AV stream from the AV stream recording unit 17 and inputs the AV stream data to be analyzed to the analysis decoder 21.
  • the dubbing stream control unit 27 is normally used as a dubbing buffer. During dubbing, the dubbing stream control unit 27 reads the AV stream from the AV stream recording unit 17 and outputs the read AV stream from a stream output terminal (not shown). Alternatively, an operation of writing an AV stream input from a stream input terminal (not shown) into the AV stream recording unit 17 is performed.
  • the dubbing stream control unit 27 is also provided with a function of causing the analysis decoder 21 to input the AV stream read from the AV stream recording unit 17.
  • the dubbing stream control unit 27 sequentially reads the AV stream recorded in the AV stream recording unit 17 and inputs the AV stream to the analysis decoder 21 when the recording is completed.
  • the analysis decoder 21 analyzes a packet including the first I picture and decodes the I picture. Subsequent operations are the same as those in the first embodiment.
  • the configuration is such that the detection of the scene boundary SB and the selection of the picture to be the basis of the thumbnail image TNI are performed after the recording is completed.
  • it is possible to analyze an AV stream in a state where the processing load is low, not in a state where the processing load is high at the time of recording, and stable processing is possible.
  • the scene boundary SB is detected and the thumbnail image TNI is generated after the recording is finished. Can be as low as possible.
  • the scene boundary SB is detected and the thumbnail image TNI is generated after recording, so that only a specific period (for example, a period excluding the CM period) ), The total analysis load can be reduced and the power consumption can be reduced.
  • the process of detecting the scene boundary SB and generating the thumbnail image TNI can be performed on the title that has been recorded once. Even when the content of the title changes (for example, when some scenes are deleted or the order of multiple scenes is changed), appropriate thumbnails are displayed for the edited video and audio data. be able to.

Abstract

 シーン毎に適切な画像をサムネイルとして表示させることができる装置または方法であって、この装置または方法は、映像情報からシーン境界(SB)を抽出し、シーン境界(SB)により区画されたシーン(Scene#15,Scene#16,…)を代表する代表ピクチャ(P55,P72,…)を選択し、各シーンの代表ピクチャに基づいて各シーンのサムネイル画像データを生成し、各シーンのサムネイル画像データに基づいて各シーンのサムネイル(TN15,TN16,…)を表示装置に表示させ、表示されたサムネイルのうちから任意に選択されたサムネイルに対応するシーンを再生し、各シーンの代表ピクチャの選択に際し、シーン境界(SB)のピクチャ(P52,P67,…)よりも時間的に後のピクチャから前記代表ピクチャ(P55,P72,…)は選択される。

Description

映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法
 本発明は、映像情報の各シーンに対応するサムネイルを表示装置に表示させ、表示されたサムネイルを見ながら再生するシーンのサムネイルを選択操作することによって、各シーンの再生を開始させることができる映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法に関するものである。
 従来の映像記録再生装置においては、映像の再生開始位置から再生を行う場合、再生開始時点をタイトル名もしくはチャプター番号によって選択していたため、ユーザーは、再生を行う前の段階で、どのような内容の映像が再生されるかを知ることができなかった。
 このような問題を解消するため、録画時における映像符号化処理前の画像データを用いて、サムネイル画像データを生成し、再生タイトルを選択するグラフィックス画面上に、生成したサムネイル画像データに基づくサムネイルを表示することによって、再生内容をユーザーに知らせる方法がある(例えば、特許文献1参照)。さらに、タイトル、もしくはタイトル内の特定区間(チャプターやシーン)の内容を示すサムネイル画像データの画像をより適切な画像内容とするために、サムネイル画像データの元となる映像の位置を決定する方法も考案されている(例えば、特許文献2及び3参照)。一方、特定のシーンの内容を、連続する静止画として表現するために、シーン内のシーンチェンジの発生間隔を利用し、サムネイル画像を決定する方法もある(例えば、特許文献4参照)。
特開2006-148731号公報(第14頁、図9) 特開2006-229821号公報(第4頁、図1) 特開2003-274361号公報(第4頁、図3) 特開2001-298711号公報(第3頁、図25)
 しかし、従来の映像記録再生装置においては、シーンの開始および終了位置をチャプターもしくはエントリーで区切り、再生開始から固定時間、もしくはエントリー位置からの固定時間経過後の画像をサムネイルとして利用していた。そのため、選択したサムネイル画像の内容と、再生される映像内容に乖離があり、ユーザーが違和感を覚えることがあった。また、動きの変化が激しい場面のピクチャがサムネイルとして選択された場合、サムネイル画像が何を表示しているのか分からないという不具合もあった。
 本発明は、上記の課題を解決するためになされたものであり、記録するまたは記録された映像音声コンテンツをシーンに区切るとともに、各シーンについて、適切な画像をサムネイルとして表示装置に表示させることができる映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法を提供することを目的とする。
 本発明に係る映像音声再生装置は、映像情報から、複数のピクチャによって構成されるシーンの境界であるシーン境界を抽出するシーン境界抽出手段と、抽出された前記シーン境界にアクセスするためのエントリー情報を生成するエントリー生成手段と、抽出された前記シーン境界により分割されたシーンを代表する代表ピクチャを選択し、該代表ピクチャに基づいてサムネイル画像データを生成するサムネイル生成手段と、生成された前記サムネイル画像データに基づくサムネイルを表示装置に表示させるサムネイル表示制御手段と、表示された前記サムネイルのうちから任意のサムネイルを選択するためのサムネイル選択手段と、選択された前記サムネイルに対応するシーンを前記エントリー情報に基づく位置から再生する手段と、を備え、前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、前記シーン境界のピクチャよりも後のピクチャを前記代表ピクチャとして選択するものである。
 本発明によれば、シーン境界より後のピクチャから代表ピクチャを選択し、各シーンの代表ピクチャに基づいて各シーンのサムネイル画像データを生成するので、映像音声コンテンツをシーンに区切るとともに、各シーンについて、適切な画像をサムネイルとして表示させることができる。
実施の形態1に係る映像音声記録再生装置の概略的な構成を示すブロック図である。 再生シーンを選択するためのサムネイル選択操作における表示画面の一例を示す図である。 シーンとピクチャとサムネイル画像との関係を示す図である。 シーン境界とサムネイル画像の元になる代表ピクチャとの関係の一例を示す図である。 シーン境界とサムネイル画像の元になる代表ピクチャとの関係の他の例を示す図である。 シーン境界とサムネイル画像の元になる代表ピクチャとの関係のさらに他の例を示す図である。 エントリー情報の生成動作の一例を示すフローチャートである。 サムネイル画像の生成動作の一例を示すフローチャートである。 サムネイル画像の生成動作の他の例を示すフローチャートである。 サムネイルをモニターに表示させ、表示されたサムネイルを見ながら再生シーンのサムネイルを選択する動作を示すフローチャートである。 実施の形態2に係る映像音声記録再生装置の概略的な構成を示すブロック図である。 (a)~(c)は、音声の周波数解析によりシーン境界を検出する方法を示す説明図である。 実施の形態3に係る映像音声記録再生装置の概略的な構成を示すブロック図である。
実施の形態1.
 図1は、本発明の実施の形態1に係る映像音声記録再生装置100の概略的な構成を示すブロック図である。映像音声記録再生装置100は、実施の形態1に係る映像音声記録再生方法を実施することができる装置である。映像音声記録再生装置100は、外部機器とのインターフェースとして、デジタルチューナー3、アナログチューナー4、外部入力端子5、モニター出力端子31、および、ネットワーク端子30を有する。デジタルチューナー3およびアナログチューナー4は、アンテナ91に接続され、デジタルおよびアナログ放送を受信することができる。外部入力端子5は、主に、アナログ入力と呼ばれるコンポジット入力、Sビデオ入力、LR音声入力等に対応する。モニター出力端子31にはモニター93が接続され、映像音声記録再生装置100が生成する映像および音声信号を出力することが可能である。また、映像音声記録再生装置100は、装置を遠隔操作するためのリモコン94からの信号を受信するリモコン受信部6を備え、赤外線等で受信されたリモコンコードはシステム制御部2に送信される。
 システム制御部2は、ユーザーの要求に基づくリモコン94からの制御信号に応じて映像音声記録再生装置100を制御する。システム制御部2は、ユーザーから録画の要求がなされると、録画アプリ(録画用アプリケーション実行部)9を起動し、録画実行を指示する。録画アプリ9は、録画制御部10を制御し、録画の開始、終了および録画中の記録動作を管理する。また、ユーザーから再生の要求がなされると、システム制御部2は、再生アプリ(再生用アプリケーション実行部)11を起動し、再生実行を指示する。再生アプリ11は、再生制御部14を制御し、指定されたコンテンツの再生を開始する。
 図1を参照し、映像音声記録再生装置100における、デジタル放送の録画機能について説明する。デジタルチューナー3で受信されたデジタル放送は、フルTS(Transport Stream)として入力ストリーム制御部8に送られる。入力ストリーム制御部8は、AVストリーム記録部17に映像音声データであるAVストリームを安定的に記録するために、データを一時的に蓄えて、AVストリーム記録部17に定常的に書き込む処理を行う。また、入力ストリーム制御部8は、フルTSから記録する必要のないパケット等を省いたパーシャルTSにも対応する。また、入力ストリーム制御部8は、TSのPID(パケット識別子)やセクション情報の検出処理を行うほか、記録されるビデオストリーム中のGOP(Group Of Picture)の開始位置の検出等も行う。AVストリーム記録部17は、HDD(Hard Disc Drive)等により構成されるが、光ディスク記録装置などのようなHDD以外の記録装置であってもよい。
 HDDにAVストリームを記録する場合、再生時におけるシーン検索性の向上、特殊再生時における任意時間へのランダムシークを実現するため、HDDに記録されるAVストリームのアドレス情報と時間情報とを対応付けたアドレスマップが必要となる。録画制御部10は、録画時に、入力ストリーム制御部8により検出されるGOP開始位置情報に基づいてアドレスマップを生成し、このアドレスマップをAV管理情報記録部18に記録する。AV管理情報記録部18は、前述のアドレスマップを記録するほか、記録された番組のタイトル、記録開始時間、記録終了時間、放送サービス名、チャンネル番号、映像コーデック情報、音声コーデック情報、番組詳細情報等が含まれる再生制御情報を記録する。再生制御部14は、必要に応じてAV管理情報記録部18に記録された情報を読み出す。なお、AVストリーム記録部17、AV管理情報記録部18、及び後述のメタデータ記録部19は、図1に示されるように、別個の記録装置であってもよいが、同一の記録装置の異なる記録領域であってもよい。
 次に、アナログ放送、および外部から入力された映像信号の録画機能について説明する。アンテナ91で受信されたアナログ放送から、アナログチューナー4によって、ユーザーが指定されたチャンネルの信号のみが取り出される。アナログチューナー4により取り出された信号は、映像信号化され、図示しないAD/DAコンバーター(Analog to Digital/Digital to Analog Converter)によってデジタル信号化された後、AVエンコーダ7に入力される。AVエンコーダ7は、映像信号をMPEG-2ビデオに符号化するとともに、音声信号をAAC(Advanced Audio Coding)により符号化し、符号化した映像および音声信号をMPEG-2 TSに多重し、AVストリームを生成する。AVストリームは、入力ストリーム制御部8に送られ、AVストリーム記録部17に記録される。外部入力端子5から入力された映像音声信号についても同様に、図示しないAD/DAコンバーターによってAD/DA変換された後に、AVエンコーダ7によってAVストリームに変換され、AVストリームは、入力ストリーム制御部8に送られ、AVストリーム記録部17に記録される。
 図1を参照し、映像音声記録再生装置100における再生機能について説明する。ユーザーが、リモコン94により録画タイトル一覧を表示させる操作、例えば、リモコン94に設けられた「録画タイトル一覧」ボタンを押下すると、録画されたタイトル(映像や音声等のデジタルコンテンツ)の全ての番組名(タイトル名)または一部の番組名がモニター93の画面上に表示される。ユーザーはリモコン94の操作、例えば、リモコン94に設けられた上下左右のカーソルキー(例えば、後述する図2のカーソルキー97U,97D,97L,97R)の操作によって希望する番組名にカーソルを移動させ、「決定」キー(例えば、後述する図2の「決定」キー96)を押下することで再生するタイトルを選択する。番組名の選択操作に応じたコードは、リモコン94から赤外線信号としてリモコン受信部6に送信される。リモコン受信部6は、受信したコードをソフトウェアコードに変換した後、システム制御部2に送る。システム制御部2は、グラフィックス画面を更新する。また、再生待機状態である場合(または、録画状態でない場合)、これらのコードは再生アプリ11に送られ、対応する再生動作機能が呼び出され、再生状態が変更される。以下、具体的な再生動作について説明する。
 ユーザーが再生する番組名を指定する操作を行うと、再生アプリ11は指定されたタイトルを再生するように再生制御部14に指示を行う。再生制御部14は、そのタイトルに関する再生制御情報をAV管理情報記録部18から読み出し、図示しないRAM(例えば、再生制御部14の一部として、または、再生制御部14の外部に設けられる。)に入力する。再生制御部14は、再生制御情報のうちアドレスマップを用いて、次に再生すべきストリームの再生開始時点に対応するアドレス情報を読み出し、そのアドレスのAVストリームをAVストリーム記録部17から読み出し、出力ストリーム制御部16に送る。AVデコーダ15は、出力ストリーム制御部16から送り込まれたAVストリームを、転送された順にデコードし、モニター出力端子31を介してモニター93に出力する。出力ストリーム制御部16は、AVデコーダ15のアンダーフローおよびオーバーフローに起因する映像及び音声の中断を発生させないように、AVストリーム記録部17に記録されたAVストリームを読み出してAVデコーダ15に転送する。さらに、出力ストリーム制御部16は、AVデコーダ15のバッファの状態に応じて、一時的に保存されたAVストリームを、H/WのアシストであるDMA(Direct Memory Access)転送機能を利用して、AVデコーダ15に転送する。
 次に、映像音声記録再生装置100におけるシーン検出部50の動作について説明する。シーン検出部50は、録画動作時に入力ストリーム制御部8に一時的に記録されるAVストリームの映像および/または音声を解析して、シーン検出を行う。録画時に、入力ストリーム制御部8においてGOPの先頭が検出されると、解析用デコーダ21は、GOPの先頭からキーフレーム(Iピクチャ)を抽出し、Iピクチャのデコードを行う。デコードされた輝度信号(Y)、および色差信号(U,V)のデータは、フレームバッファ22に入力される。フレームバッファ22は、デコードされたYUVデータの少なくとも2つの画像(2フレーム分の画像データ)を保持できるサイズを有する。シーン境界抽出部23は、フレームバッファ22に入力された2つの画像の画像データの差を求め、画像データの差が予め設定した閾値以上であれば、シーンチェンジSCが発生したものと判断し、これら2つの画像の間に、シーン境界SBが存在すると判定する。
 2つの画像の差を求める手法としては、比較する各画像のヒストグラムを求め、一方の画像のヒストグラムの要素と他方の画像のヒストグラムの要素との差分の絶対値である差分絶対値を求め、ヒストグラムの各要素の差分絶対値を累積し、この累積値を2つの画像の差とする方法が考えられる。また、2つの画像の差を求める手法は、AVストリーム中の符号化パラメータである動きベクトル等を検出し、この動きベクトルに基づく値を2つの画像の差とする方法であってもよい。また、2つの画像の差を求める手法は、顔検出および顔認識等によって検出された顔データを用いて、登場人物の構成の変化を数値化し、得られた数値を2つの画像の差とする方法であってもよい。
 シーン境界抽出部23によってシーン境界SBとして判定された位置は、シーン再生開始位置とされる。エントリー生成部24は、シーン再生開始位置のアドレス情報および時間情報からなる再生エントリー情報を作成する。このようなシーンは、一般的にはチャプターと呼ばれる。また、エントリー位置もしくはその情報は、チャプターマークと呼ばれるが、単にチャプターと呼ばれることもある。このように生成されたエントリー情報は、メタデータ記録部19に記録される。
 シーン境界抽出部23によりシーン境界SBが検出されると、サムネイル生成部25は、シーンを構成するピクチャの画像情報をフレームバッファ22から抜き出し、この画像情報に基づいてビットマップのフォーマットのサムネイル画像データ(単に「サムネイル画像」とも言う)TNIを生成する。生成されたサムネイル画像TNIは、サムネイル情報としてメタデータ記録部19に記録される(サムネイルの選択方法の詳細については後述する)。なお、サムネイル画像TNIのフォーマットは、ビットマップに代えて、TIFF、JPEG等の他のフォーマットであってもよい。また、サムネイル画像TNIを記録する方法に代えて、サムネイル画像TNIが存在するAVストリームの時間情報および/またはアドレス情報を、サムネイル情報としてメタデータ記録部19に記録する方法を採用してもよい。この場合、サムネイルを表示するために使用される実データ(サムネイル画像TNI)の生成時間を必要とせず、システム負荷を低減できるほか、メタデータ記録部19の領域を小さくするとともに、データ転送にかかる時間およびシステム負荷を低減できるというメリットがある。
 次に、映像音声記録再生装置100において、エントリー情報とサムネイル情報を用いて任意のシーンを再生する方法について説明する。図2は、モニター93にAVストリームの再生映像(背景部分)とグラフィックス画像(5個のサムネイル及び2つの矢印部分)が重畳されて表示されている状態を示している。サムネイルTN15,TN16,TN17,TN18,TN19は、メタデータ記録部19に保存されているサムネイル情報を、メタデータ制御部12により読み出し、サムネイル表示制御部13において画像化された後、グラフィックス重畳部20で再生映像に重畳され、モニター93に表示される。
 ユーザーが、例えば、リモコン94を用いて、所望のタイトルに対応するサムネイルを選択する操作を行うと、再生アプリ11は、再生制御部14に、選択されたタイトルの再生を指示する。再生制御部14からの制御信号に応じて、出力ストリーム制御部16は、AVストリーム記録部17からAVストリームを読み出す。出力ストリーム制御部16に読み出されたAVストリームは、AVデコーダ15によってデコードされ、デコードされたAVストリームに基づく画像がモニター93に表示される。
 ユーザーが、再生シーンを選択する操作、例えば、リモコンに設けられたシーンセレクトのための専用ボタン(シーンセレクトボタン)を押下すると、再生アプリ11は、メタデータ制御部12に対して、再生すべきタイトルと、再生映像の経過時間情報を伝える。メタデータ制御部12は、例えば、経過時間のシーンに対応するサムネイルと、その前後2枚ずつのサムネイルとから成る、合計5枚のサムネイルをメタデータ制御部12から読み出す。サムネイル選択枠生成部28は、表示された複数枚のサムネイルのうちの1つのサムネイルを選択していることを示す選択枠データを生成し、これをサムネイル表示制御部13に出力する。サムネイル表示制御部13は、サムネイルのメタデータを画像として展開し、選択枠41とともにグラフィックス重畳部20に出力する。
 上記処理により、図2に示すように、現在のシーン(Scene#17)に対応するサムネイルTN17と、その前後2枚ずつのサムネイルTN15,TN16,TN18,TN19とから成る、合計5枚のサムネイルTN15,TN16,TN17,TN18,TN19が表示される。サムネイルが表示された初期状態においては、選択枠41は、現在再生中のシーンに合わせて表示される。ここでは、現在表示されているシーンはScene#17であるため、Scene#17に対応するサムネイルTN17を囲うように選択枠41が表示される。ユーザーは、例えば、リモコン94の右もしくは左のカーソルキー97R,97Lを使って選択枠41を左右に移動させ、表示された複数枚のサムネイルの中から、所望のシーンに対応するサムネイルを選択することができる。サムネイル選択枠生成部28は、このリモコン94の操作に連動して左右に移動する選択枠41を生成する。さらに、選択枠41が画面の右もしくは左端に到達した状態でさらに右もしくは左のカーソルキー97R,97Lを押下すると、表示されている複数枚のサムネイル全体が、押下された右もしくは左のカーソルキー97R,97Lと反対の方向に移動することによって、現在表示されていないシーンのサムネイルが表示される。ユーザーが、所望のサムネイルにカーソルを合わせ、「決定」キー96を押下すると、再生アプリ11は、再生制御部14に対して、再生しているコンテンツの再生を一時停止させる。
 さらに、再生アプリ11は、再生制御部14に対して、ユーザーが選択したシーンの開始位置を示すエントリー情報に基づいて、シーンのエントリー情報によって指定される時間から再生を再開するよう指示を行う。再生制御部14は、AV管理情報記録部18に記録されているアドレスマップ情報を用いて、エントリーの時間情報をAVストリームのアドレス情報に変換し、出力ストリーム制御部16に送る。出力ストリーム制御部16は、再生制御部14からのアドレス情報に基づいて、選択されたシーンのAVストリームのデータをAVストリーム記録部17から読み出し、AVデコーダ15に出力する。AVデコーダ15は、出力ストリーム制御部16からのAVストリームのデータをデコードする。これにより、ユーザーが選択したサムネイルに対応するシーンの再生が可能となる。
 図3は、シーンSCEとピクチャPICとサムネイルとの関係を示す図である。
図3において、tは時間軸を示し、複数の四角形の時間軸方向の配列で示されるPICは複数のピクチャP52~P118を示し、SCEは複数のピクチャから構成されるシーンを示す。図3には、複数のピクチャP52~P118を例示し、複数のシーンSCEとして、Scene#15,Scene#16,Scene#17,Scene#18,Scene#19を例示する。また、ピクチャP52,P67,P83,P94,P103は、Scene#15,Scene#16,Scene#17,Scene#18,Scene#19の先頭のピクチャ(シーン境界SBのピクチャ)である。また、ピクチャP55,P72,P86,P98,P107は、Scene#15,Scene#16,Scene#17,Scene#18,Scene#19の代表ピクチャRPであり、サムネイル画像TNIは代表ピクチャRPに基づいて生成される。ここでは、映像の変化点であるシーンチェンジSCを、シーンSCEの境界、すなわち、シーン境界SBとしている。
 なお、シーン境界SBは、シーンチェンジSCに限らず、例えば、(a)音声が発生しない無音区間、(b)コーデックやフォーマットの変化点、(c)周波数の変化位置、(d)チャンネル数の変化位置、(e)量子化数の変化位置、又は、(f)これらの中のいずれかの組み合わせに基づいて検出してもよい。また、シーン境界SBを、5分、10分、15分等の所定時間間隔、あるいはユーザー指定による時間間隔で設けて、各シーンSCEを構成してもよい。また、シーン境界SBを、外部から与えられた特定のイベントに対応して設けて、シーンSCEを構成してもよい。このように、シーン境界SBで分割された各シーンSCEにおいて、シーンSCEの内容を表示するサムネイル画像TNIが生成される。
 本実施の形態は、図3に示すように、シーン先頭のピクチャ(例えば、P52,P67,P83,P94,P103)ではなく、シーンの先頭ピクチャより時間的に後の代表ピクチャRP(例えば、P55,P72,P86,P98,P107)に基づいてサムネイル(例えば、TN15,TN16,TN17,TN18,TN19)を表示させるためのサムネイル画像TNIを生成することを特徴とする。映像が継続して変化しているような画像は、その位置をシーン境界SBであるエントリーとして採用することは適切であるが、その画像をシーンSCEの代表画であるサムネイル画像TNIとして採用することは適切でない。一般的に、継続的に変化する映像から一つの画像を抜き出した場合、その画像だけでは何が表示されているのか分からないことが多い。このため、ユーザーが再生するシーンSCEを選択するために使用されるサムネイル画像TNIとして、このような動いている映像の一部を用いることは適切ではなく、静止画もしくは静止画に近い画像を採用することが適切であると考えられる。シーンの開始位置のピクチャではなく、シーンの開始位置からある時間(例えば、td15,td16,td17,td18,td19)が経過した後のピクチャをサムネイル画像TNIの元になる代表ピクチャRPとすることにより、こうした不具合を解消することができる。
 シーン境界SBから時間的に遅れた代表ピクチャRPに基づいてサムネイル画像を生成する方法としては、シーンチェンジSCを検出した後、一定時間、例えば、3秒後の位置のピクチャを代表ピクチャRPとし、これに基づいてサムネイル画像TNIを生成する方法がある(図4)。また、他の方法としては、シーンチェンジSC検出後、シーンの変化量が閾値以下になった最初の位置のピクチャを代表ピクチャRPとし、これに基づいてサムネイル画像TNIを生成する方法がある(図5)。さらに他の方法としては、シーンチェンジSC検出後、シーンの変化量が閾値以下になり、かつ閾値以下の状態が一定時間経過(例えば、3秒)した位置のピクチャを代表ピクチャRPとし、これに基づいてサムネイル画像TNIを生成する方法がある(図6)。また、さらに他の方法としては、映像データが動きベクトル情報を有するデータである場合、動きベクトルの量がある閾値以下になるピクチャを代表ピクチャRPとし、これに基づいてサムネイル画像TNIを生成する方法がある。このように、シーン境界SBからある時間が経過した後のピクチャに基づいてサムネイル画像TNIを生成することにより、各シーンの内容に合致した画像をシーン選択のための画像であるサムネイルとして、ユーザーに提供することが可能となる。
 図4は、シーン境界とサムネイル画像TNIの元になるピクチャPICとの関係の一例を示す図である。図4において、横軸はピクチャ番号(PIC No.)、縦軸は隣接する2つのピクチャの画像差分値DIFを示す。ここでは、説明を単純化するため、1秒間に1枚のピクチャを解析対象とする。画像差分値DIFは、例えば、2つのピクチャの輝度信号(Y)、色差信号(U,V)のそれぞれのヒストグラムを生成し、各要素の差分絶対値の累積和を全要素数で除算した値としてもよい。この場合、画像差分値DIFは、最小値0から最大値1までの範囲内の間の値をとることになる。そして、シーン境界抽出部23は、画像差分値DIFが、予め設定しているシーン変化判定閾値TH1を越えた場合、2つのピクチャ間にシーンチェンジSCが発生したと判定する。
 図4では、ピクチャ番号P52において、画像差分値DIFがシーン変化判定閾値TH1を越えているため、シーン境界抽出部23は、ピクチャP51とピクチャP52の間でシーンチェンジSCが発生していると判定し、ピクチャP52をシーン境界SBのピクチャとする。よって、シーン境界抽出部23は、ピクチャP52を、シーン開始位置、つまりエントリーとし、メタデータ記録部19にエントリー情報を記録する。先述の通り、サムネイル生成部25は、ピクチャP52の画像を、当該シーンに対応するサムネイル画像TNIの元とするピクチャとしては採用せず、ピクチャ52から、さらに所定時間t1経過後(例えば、3秒経過後)のピクチャP55をサムネイル画像TNIの元とする代表ピクチャRPとして採用する。ピクチャP55のデータは、入力ストリーム制御部8により検出され、解析用デコーダ21でデコードされた後、フレームバッファ22に入力される。サムネイル生成部25は、フレームバッファ22に入力されたピクチャP55のデータに基づいてサムネイル画像TNIを生成し、これをメタデータ記録部19に記録する。
 このようにシーン境界SB、すなわちエントリー位置から所定時間t1経過したピクチャに基づいてサムネイル画像TNIを生成することによって、例えば、カメラのパーン映像、画像エフェクトによる画像変化中の画像、一瞬割り込まれた画像等(シーン境界SBの直後に現われることが多い画像)のように、サムネイル画像として不適切な画像が、サムネイル画像TNIの元となる代表ピクチャRPとして選択されることを防ぐことができる。
 図5は、シーン境界とサムネイル画像TNIの元になるピクチャとの関係の他の例を示す図である。図5に示す方法では、シーン変化判定閾値TH1に加えて、シーン変化判定閾値TH1よりも小さい値のサムネイル用判定閾値TH2を用いてサムネイル画像TNIの元になるピクチャを選択する。サムネイル用判定閾値TH2は、サムネイル画像TNIの元になるピクチャを選択するための閾値であり、シーンチェンジSC発生後、画像差分値DIFがサムネイル用判定閾値TH2以下となった場合に、サムネイル画像TNIの元になるピクチャを選択する。
 図5に示した方法では、シーン境界抽出部23は、映像中の時間的に前後の2枚の画像間で画像差分値DIFを求め、算出された画像差分値DIFを予め設定されているシーン変化判定閾値TH1と比較し、シーン変化判定閾値TH1を越えていれば、シーンチェンジSCが発生したとみなす。そして、エントリー生成部24は、このシーンチェンジSCが発生したとみなした位置をエントリー位置と判定して、メタデータ記録部19にエントリー位置を示すエントリー情報を記録する。この点は、図4に示した方法における処理と同じである。また、サムネイル生成部25は、シーンチェンジSCが発生した位置のピクチャ(ここでは、シーン境界SBのピクチャ)に基づいてサムネイル画像TNIを生成しない点も、図4の例と同様である。
 次に、前記シーンチェンジSCの発生以降、継続して画像間の画像差分値DIFを求め、算出した画像差分値DIFとサムネイル用判定閾値TH2を比較し、シーンチェンジSC発生位置以降(ここでは、シーン境界SBよりも後に)、始めて画像差分値DIFがサムネイル用判定閾値TH2を下回った位置のピクチャを、サムネイル画像TNIの生成の元とする代表ピクチャRPとして選択する。つまり、図5に示す方法は、映像がシーンチェンジSCのように大きく変化した後の、映像変化があまり起こらない(映像変化が所定の閾値TH2より小さい)最初の位置のピクチャに基づいてサムネイル画像TNIを生成するものである。ここで、シーンチェンジSC発生位置以降において映像変化の少ない画像は複数存在するが、その中でも最初の位置をサムネイル画像TNIとしているのは、一般に、時間的に近い画像ほどより内容も近いという傾向があるからである。
 図5においては、サムネイル画像TNIとしてシーンチェンジSC発生以降で最初にサムネイル用判定閾値TH2を下回ったピクチャに基づいてサムネイル画像TNIを生成する例を示しているが、サムネイル用判定閾値TH2を下回ったピクチャから2番目以降のピクチャに基づいてサムネイル画像TNIを生成してもよい。
 さらには、映像もしくは音声情報に特徴的な情報がある場合等の条件を組合せてサムネイル画像TNIとしてふさわしいピクチャを選択し、この選択されたピクチャに基づいてサムネイル画像TNIを生成してもよい。特徴的な情報として、例えば、顔検出、輝度検出、形状検出、無音検出、人間の話し声の検出、楽曲検出、または、これらのいずれかの組み合わせ等がある。
 図6は、シーン境界とサムネイル画像TNIの元になるピクチャとの関係のさらに他の例を示す図である。図6に示す方法では、シーン変化判定閾値TH1に加えて、シーン変化判定閾値TH1よりも小さい値のサムネイル用判定閾値TH3を用いてサムネイル画像TNIの元になるピクチャを選択する。図6に示す方法では、サムネイル生成部25は、画像差分値DIFがサムネイル用判定閾値TH3を下回ってから所定時間t2経過後(ここでは3秒経過後)のピクチャP58をサムネイル画像TNIの元になるピクチャとして選択する。これにより、サムネイル生成部25は、同じ内容の画像が継続して表示される期間(この例ではピクチャP55からピクチャP58まで)における画像に基づいてサムネイル画像TNIを生成することができる。そのため、サムネイル表示制御部13は、モニター93に、内容を認識しやすい画像をサムネイル画像TNIとして表示させることができるとともに、モニター93を見たユーザーは、再生したいシーンの映像と再生選択用の画面に表示されているサムネイルとをより容易に関連付けすることができる。
 図6に示す例では、映像のシーン変化値がサムネイル用判定閾値TH3を下回ってから所定時間t2経過後のピクチャに基づいてサムネイル画像TNIを生成する方法を採用しているが、所定時間t2経過後に、所定時間経過時点よりも以前のピクチャ(ピクチャP56やピクチャP57)に基づいてサムネイル画像TNIを生成する方法を採用してもよい。
 以下、フローチャートを用いて本実施の形態に係る映像音声記録再生装置100の動作を説明する。
 図7は、エントリー情報の生成動作の一例を示すフローチャートである。録画を開始すると、入力ストリーム制御部8にAVストリームが順次入力され、エントリー情報の生成動作が開始する(S101)。入力ストリーム制御部8は、AVストリームからGOPヘッダの検出を行い、キーフレームと呼ばれるIピクチャのみを解析し、抽出する(S102)。解析用デコーダ21は、抽出されたキーフレームのピクチャのデータをデコードする(S103)。シーン境界抽出部23は、デコードされたデータから画像差分値DIFを算出し(S104)、シーンチェンジの有無を判定する(S105)。シーンチェンジSCが発生していないと判定された場合(S105においてNO)、次のピクチャについてステップS102~S104の処理が行われる。
 一方、ステップS105において、シーンチェンジSCが検出されると(S105においてYES)、シーン境界抽出部23は、シーンチェンジSCが発生した箇所をシーン境界SBと判定し、エントリー生成部24は、シーン境界SBの位置のエントリー情報を生成する(S106)。生成されたエントリー情報は、メタデータ記録部19に記録される(S107)。上記動作は録画が完了し、入力ストリーム制御部8が録画用AVストリーム(録画ストリーム)の入力の終了を検知するまで行われる。入力ストリーム制御部8において、AVストリーム中からストリームの終端を示すフラグが検出された場合(S108においてYES)、録画処理が終了する(S109)。
 図8は、サムネイル画像TNIの生成動作の一例を示すフローチャートである。図8のフローチャートは、図4に示す、シーンチェンジSC発生から所定時間経過後(例えば、3秒経過後)のピクチャに基づいてサムネイル画像TNIを生成する場合の動作を示している。なお、図8のステップS202,S203,S210,S211,S212,S213,S215は、図7のステップS102,S103,S104,S105,S106,S107,S108にそれぞれ対応する。
 図8に示されるように、入力ストリーム制御部8は、AVストリームの入力が開始されると、サムネイル画像TNIの生成動作を開始する(S201)。入力ストリーム制御部8は、入力されたAVストリームからキーフレームであるIピクチャを抽出し、解析用デコーダ21に送り(S202)、解析用デコーダ21は、キーフレームのデコード処理を行う(S203)。デコード処理の後、サムネイル生成部25は、サムネイル生成タイマー(サムネイル生成カウンタ)25aがセットされているか否かを判定する(S204)。サムネイル生成タイマー25aは、シーンチェンジSC検出後(ここでは、シーン境界SB検出後)のステップS214においてセットされ(タイマーが動作状態となり)、以降、キーフレームがデコードされるごとにサムネイル生成タイマー25aのカウントは減算される(S205)。サムネイル生成タイマー25aは、シーンチェンジSC検出後、サムネイル画像TNIの元になるピクチャを選択するまでの所定時間(例えば、3秒間)をカウントするためのものである。所定時間が経過してサムネイル生成タイマー25aがタイムアウトすると(S206においてYES)、サムネイル生成部25においてサムネイル画像TNIが生成される(S207)。サムネイル画像TNIが生成されると、サムネイル画像TNIを含むサムネイル情報がメタデータ記録部19に記録される(S208)。サムネイル画像TNIを生成するまでの所定時間が経過していない場合(S206においてNO)、あるいはサムネイル画像TNIの生成が完了してサムネイル生成タイマー25aをセットした場合(S209)、シーン境界抽出部23は、ステップS204においてデコードされた2つのキーフレームの画像差分値DIFを算出し(S210)、画像差分値DIFに基づいてシーンチェンジSCの有無の判定処理を行う(S211)。シーン境界抽出部23がシーンチェンジSCを検出した場合、エントリー生成部24は、シーン境界SBを示すエントリー情報を生成し(S212)、このエントリー情報をメタデータ記録部19に記録する(S213)。エントリー情報が記録されると、サムネイル生成タイマー25aがセットされ(S214)、入力ストリーム制御部8は、続く録画ストリームについてキーフレーム抽出処理を開始する(S202)。以上の処理が、録画ストリームの入力が終了するまで行われる(S215)。
 ここでは、サムネイル画像TNIの生成動作において、ピクチャの処理を行うごとにサムネイル生成タイマー25aの値(カウント)を減算する処理を利用してタイムアウトを判定する場合を説明したが、サムネイル生成タイマー25aに代えて、装置内に存在する他のタイマーの機能を使ってタイムアウトを判定してもよい。また、サムネイル画像TNIの生成動作において、サムネイル生成タイマー25aの利用に代えて、記録されるAVストリームに重畳されているシステム時間を利用してもよい。
 図9は、サムネイル画像TNIの生成動作の他の例を示すフローチャートである。図9のフローチャートは、図6に示す、シーンチェンジSC発生後、画像差分値DIFがサムネイル用判定閾値TH3を下回ってから所定時間経過後(例えば、3秒経過後)のピクチャに基づいてサムネイル画像TNIを生成する場合の動作を示している。なお、図9のステップS302,S303,S304,S313,S314,S315,S317は、図7のステップS102,S103,S104,S105,S106,S107,S108にそれぞれ対応する。
 図9のステップS302~S304に示す処理工程は、図7のステップS102~S104に示す処理工程と同様である。ステップS304における画像差分値DIFの算出後、シーン境界抽出部23は、シーン開始状態が設定されているか否か(すなわち、シーン開始位置であるエントリーが決定しているか否か)を判定する(S305)。エントリーが決定しているか否かの判定は、後段のステップS316においてシーン開始状態が設定されているかにより行われる。すなわち、シーンチェンジSCが検出され(S313)、エントリー情報が生成され(S314)、エントリー情報が記録された(S315)後に、シーン開始状態が設定される(S316)。ステップS305において、シーン開始状態が設定されている場合(エントリーが決定している場合)、サムネイル生成部25は、画像差分値DIFがサムネイル用判定閾値TH3以下であるか否かを判定する(S306)。サムネイル用判定閾値TH3以下と判定された場合(S306においてYES)、サムネイル生成タイマー25aのカウントが減算される(S307)。画像差分値DIFがサムネイル用判定閾値TH3を下回ってから所定期間経過後(すなわち、サムネイル生成タイマー25aがタイムアウトすると)(S308)、サムネイル生成部25は、サムネイル画像TNIを生成し(S309)、サムネイル画像TNIを含むサムネイル情報をメタデータ記録部19に記録する(S310)。サムネイル画像TNI生成処理が終了すると、サムネイル生成部25は、シーン開始状態を解除する(すなわち、サムネイル生成タイマー25aをセットする)(S311)。これにより、次のシーン境界SBの検出処理が開始される。一方、画像差分値DIFがサムネイル用判定閾値TH3以下と判定された場合(S306においてNO)、サムネイル生成タイマー25aのカウント値がリセットされ(S312)、画像差分値DIFが再びサムネイル用判定閾値TH3以下となるまでサムネイル生成タイマー25aのカウントの減算は行われない。以上の処理が、録画ストリームの入力が終了するまで行われる(S317)。
 図10は、サムネイルをモニターに表示させ、表示されたサムネイルを見ながら再生シーンのサムネイルを選択する動作を示すフローチャートである。ユーザーがリモコン94等を操作して所望のコマンドを映像記録再生装置100のリモコン受信部6に入力すると、リモコン受信部6でコード化されたコマンドがシステム制御部2に入力される(S402)。システム制御部2はコマンドに応じて処理を分岐する。再生開始指示が入力された場合(S403)、システム制御部2は、再生アプリ11に対して再生開始指示を行う(S404)。これにより、AVストリーム記録部17から出力ストリーム制御部16へのAVストリームの読み出しが開始され、AVデコーダ15においてデコードおよび出画が開始される。
 次に、ユーザーが、リモコン94に設けられた「シーンセレクト」ボタンを押下した場合、リモコン受信部6からシステム制御部2にサムネイル表示コマンドが送られ、システム制御部2は再生アプリ11にサムネイル表示指示を行い、再生アプリ11は、再生制御部14、メタデータ制御部12、サムネイル選択部にサムネイル表示指示を行う(S405)。これにより、メタデータ記録部19からサムネイル画像TNIが読み出され(S406)、サムネイル表示制御部13からのサムネイル画像TNIが重畳された画像がモニター93に表示される(S407)。
 次に、ユーザーがリモコン94の右もしくは左のカーソルキー97R,97Lを押下すると、選択枠移動指示が行われ(S408)、サムネイル選択枠生成部28によって表示された選択枠41を移動させて描画する処理が行われる(S409)。ユーザーが希望するシーンのサムネイルに選択枠41を移動させ、「決定」キー96を押下すると、システム制御部2に対し再生開始シーンの決定指示がなされる(S410)。次に、再生アプリ11に対してエントリー情報を抽出するように指示がなされ、再生制御部14はAV管理情報記録部18から再生制御情報を読み出し、AVストリーム記録部17において指定されたシーンのアドレス位置にシーク動作が行われる(S411)。ステップS412において、再生終了指示がなされた場合は処理を終了し(S413)、それ以外の場合は、新たなコマンドの入力に従う(S402)。以上のように、ユーザーが、モニター93の画面に表示されたサムネイルを選択し、決定する操作を行うことによって、対応するシーンのエントリー位置からの再生が開始される。
 以上において説明した本実施の形態に係る映像音声記録再生装置100によれば、シーンチェンジSCに対応するエントリー位置から時間的に後のピクチャに基づいてサムネイル画像TNIを生成することができる。これにより、シーンチェンジSCが継続して発生している(画像差分値DIFが閾値TH1を超えている)可能性が高いエントリー直後のピクチャに基づいてサムネイル画像TNIを生成した場合に生じる不具合を解消し、サムネイル画像TNIの元になるピクチャとして、より適切なピクチャを選択することができる。具体的には、動きが激しい映像や、瞬間的に表示されるような映像をサムネイル画像TNIの元になるピクチャとして選択することを避け、動きが少ない静止画に近い画像をサムネイル画像TNIの元になるピクチャとして選択とすることができる。また、サムネイル画像TNIは静止画等の相関性の高い画像が時間的に継続する期間内で選択されたピクチャに基づいて生成されるので、シーンの内容に合致したサムネイルをモニター93に表示させることができるとともに、ユーザーが選択したサムネイル画像TNIをシーンの映像内において確認することができ、ユーザーは安心してサムネイル画像TNI選択によるシーン再生をすることができる。
 また、図4及び図8に示される例では、サムネイル画像TNIの元になるピクチャを選択する条件は、時間経過のみであるため、サムネイル画像TNIの生成判定条件を計算するシステムの負荷が少なくて済む。
 また、本実施の形態においては、再生するAVストリームを直接解析して、エントリー情報の抽出およびサムネイル画像TNIの元になるピクチャを選択するので、エントリー情報およびサムネイル画像TNIが有する時間情報はAVストリームと関連付けられている。このため、AVストリームの再生経過時間とエントリー情報およびサムネイル画像TNIが示す時間とを対応付けて再生することが可能である。
 さらに、本実施の形態では、シーン境界SBのピクチャの位置を示すエントリー情報を生成する方法、およびサムネイル画像TNIを生成する方法は、HDDなどのAVストリーム記録部17に記録されるAVストリームに対して適用されている。しかし、これらの方法は、符号化ストリームにのみ適用可能なものではなく、例えば、符号化を行う前の画像データに対しても適用可能である。
 また、H/Wなどで実装されたデコーダを解析用デコーダ21として用いてもよい。
 さらに、サムネイル画像TNIの生成処理を、専用のH/Wエンコーダを用いて行ってもよい。
 また、実施の形態1に係る映像記録再生装置100の記録処理を行う各構成(例えば、デジタルチューナー3、アナログチューナー4、AVエンコーダ7、入力ストリーム制御部8、AVストリーム記録部17)は、従来の映像音声記録再生装置の記録処理を行う各構成と共通する構成であるので、本発明は、従来の映像音声記録再生装置に、比較的小規模な構成の変更を行うことによって、適用することができる。
 また、サムネイル生成部25は、生成しようとするサムネイル画像TNIの元になるピクチャが、サムネイルとしてふさわしい(好ましい)画像であるか否かを判定し、ふさわしくない(好ましくない)画像であると判定した場合に、サムネイル画像TNIの元になるピクチャとして採用せず、新たに別のピクチャに基づいてサムネイル画像TNIを生成するようにしてもよい。サムネイル画像TNIとしてふさわしくない画像の例としては、例えば、黒色や白色などの単色の画像、画像内に何も対象物が存在しない画像、カメラのフラッシュ等で画面が白とびした画像、動きが早すぎて何が写っているのかわらない画像、コントラストが所定値よりも低い画像等が考えられる。これにより、適切な画像をサムネイル画像TNIとして選択することができるだけでなく、不適切なデータに基づいてサムネイル生成処理を行うことにより発生することがある、システムのハング(予期しないデータ入力などによって生じることがある機能停止)を回避することができる。
 また、本実施の形態では、シーン境界SBを抽出した後にサムネイル画像TNIの元になるピクチャの選択とサムネイル画像TNIの生成を行う構成を説明したが、例えば、サムネイル画像TNIとして適切なピクチャを検出し、その後に、この検出されたピクチャよりも時間的に前にあるシーン境界SBの抽出を行う構成を採用してもよい。この場合には、シーン境界SBの検出(例えば、シーンチェンジSCの検出)を常に行わなくてもよく、処理負荷の軽減が期待できる。さらに、サムネイル画像TNIとして適正な画像が検出されたときのみ、シーンを区切るので、結果的にサムネイルとして不適切な画像がサムネイル画像TNIの元になるピクチャとして選択されることがなくなる。
 さらにまた、シーン境界SBの検出を固定値で行った場合、例えば、5分間隔等でシーンを区切った場合、シーン境界SBの検出のための負荷を軽減できる。また、この場合には、録画動作と並行してサムネイル画像を生成するときに、シーンの長さが予めわかっているので、シーンの中で最良のサムネイル画像TNIを選択する処理が簡単に実現でき、結果として、より適切なサムネイル画像TNI用のピクチャを選択することができる。
 なお、本実施の形態に係る映像音声記録再生装置100は、再生機能を有しているが、記録機能のみを有する記録装置であってもよい。このような映像音声記録装置は、記録したAVストリーム、再生制御情報、メタデータを外部に出力するインターフェース機能を設けることにより実現することができる。
 また、こうしたインターフェースから出力されたデータ、もしくはデータが記録された媒体を用いて、本実施の形態に係る映像音声記録再生装置100が持つ再生機能を有する映像音声再生装置を構成してもよい。映像音声記録再生装置100が、録画機能を持たない映像音声再生装置である場合には、シーン検出部50は、AVストリーム記録部17のAVストリームを読み出す構成を備え、AVストリーム記録部17に記録されたAVストリームの映像および/または音声を解析して、シーン検出を行う。AVストリーム記録部17のAVストリームを読み出す構成の一例は、後述の実施の形態3で説明されるが、実施の形態3の構成に限定されない。
実施の形態2.
 図11は、本発明の実施の形態2に係る映像音声記録再生装置101の概略的な構成を示すブロック図である。図11において、図1に示される構成と同一または対応する構成には、同じ符号を付す。実施の形態2に係る映像音声記録再生装置101は、シーン検出部51の構成の点において、実施の形態1に係る映像音声記録再生装置100と相違する。実施の形態2に係る映像音声記録再生装置101は、図1に示す映像音声記録再生装置100におけるシーン境界抽出部23に代えて、音声境界抽出部26を備えたことを特徴とする。実施の形態2に係る映像音声記録再生装置101は、シーン検出部51以外の点について、実施の形態1に係る映像音声記録再生装置100と同じである。
 実施の形態2のシーン検出部51において、解析用デコーダ21は、AVストリーム中の符号化されている音声データに対しても復号を行う。音声境界抽出部26は、フレームバッファ22を介して入力される音声データについて、例えば、無音が発生している区間(無音区間)を検出し、この検出された無音区間をシーン境界SBである判定する。エントリー生成部24は、シーン境界SBの判定結果に基づき、実施の形態1と同様に、シーン再生開始位置のアドレス情報および/または時間情報からなるエントリー情報を作成し、このエントリー情報をメタデータ記録部19に記録する。
 音声境界抽出部26における音声の解析方法は、無音検出を用いる方法に限らず、音声の周波数解析を行い、この解析によって得られた周波数分布より、音声情報の特性分類を行う処理を用いる、以下のような方法であってもよい。先ず、音声境界抽出部26は、一定区間の音声信号に対し、オーディオフレーム単位で周波数解析を実施し、各オーディオフレームの周波数分布を求める。次に、音声境界抽出部26は、各オーディオフレームの周波数分布の形状が、予め「会話」、「音楽」、「スポーツ」、「動物の声」、「騒音」等に分類され、保持された周波数分布パターンのうちのいずれのパターンに一致するか(または最も近いか)を求める。次に、音声境界抽出部26は、複数のオーディオフレームからなる区間窓を設け、各区間窓内において最も頻度の高い周波数分布パターンを、対応する区間窓を代表するパターンであると判定する。そして、音声境界抽出部26は、代表するパターンが変化した区間窓の先頭を、シーン境界SBとする。
 図12(a)~(c)は、音声の周波数解析によりシーン境界SBを検出する方法を示す説明図である。図12(a)に示すように、音声信号はオーディオフレームAF,AFm+1,…,AFm+14,…に分割される。ここで、mは、1以上の整数である。音声境界抽出部26は、分割されたオーディオフレーム単位でオーディオデータの周波数解析を行い、各オーディオフレームの周波数分布が、予め保持された周波数分布パターンのうちのいずれのパターンに一致するか、または、最も近いかを求める。図12(a)に示す例では、音声境界抽出部26は、3つのオーディオフレームからなる区間窓W,Wn+1,…を設け、図12(b)に示すように、区間窓W,Wn+1,…の各々に含まれる音声信号の周波数分布が、予め保持された周波数分布パターンのうちのいずれのパターンに一致するか、または、最も近いかを求める。ここで、nは、1以上の整数である。音声境界抽出部26は、この区間窓W,Wn+1,…に対応付けられた周波数分布パターンが変化した時点をシーンの変わり目であるシーン境界SBと判定する。その結果、図12(c)に示すように、映像信号は、シーン境界SBによって、シーンSCE,SCEs+1,…に分割される。ここで、sは、1以上の整数である。
 次に、オーディオ情報に基づいて、各シーンに属する複数のピクチャからサムネイル画像TNIの元になる代表ピクチャRPを選択する方法について説明する。映像情報と音声情報の区切りは、必ずしも一致する訳ではないが、音声の区切りで映像の変化が発生することが多い。このような理由から、図12(c)に示す、シーン境界SB(周波数分布の形状パターンが変化する区間窓の境界)の画像をサムネイル画像TNIとすべきではない。よって、サムネイル生成部25は、区間窓において、同じ周波数分布パターンが続く位置のピクチャに基づいてサムネイル画像TNIを生成することが好ましい。例えば、サムネイル生成部25は、「スポーツ」が続く区間窓Wn+1からWn+3までの範囲において、中心の区間窓Wn+2を選び、この中心の区間窓Wn+2における中心のオーディオフレームAFm+7に対応するピクチャからサムネイル画像TNIを生成する。以降のサムネイル画像TNIの生成処理は、実施の形態1における処理と同じである。
 実施の形態2に係る装置又は方法によれば、音声情報に基づいてシーン境界SBの検出やサムネイル画像TNIの元になるピクチャを選択することにより、実施の形態1のように映像情報に基づいてこれらの処理を行う場合に比して、解析処理を軽量化し、処理速度を上げることができる。特に、音声信号から検出された無音区間に基づいてシーン境界SBを検出する方法を採用した場合は、解析処理が非常に軽量になり、より早く処理を完了させることができる。また、実施の形態2に係る装置又は方法によれば、音声情報を利用するため、音声に特徴のある番組、例えば、音楽番組や、スポーツ番組に対するシーン検出の精度を向上させることができる。
 さらに、実施の形態2に係る装置又は方法において、映像と音声とを組み合わせてシーン境界SBの検出を行う場合、または、サムネイル画像TNIの元になるピクチャの選択を行う場合には、より適切な処理が可能となる。
 また、実施の形態2に係る装置又は方法は、映像情報や音声情報に基づいてシーン境界の検出、または、サムネイル画像TNIの元になるピクチャの選択を行う場合に限定されず、放送波に重畳される種々の情報、例えば、字幕情報、EPG(Electronic Program Guide)データ、著作権管理情報などを利用してシーン境界の検出、または、サムネイル画像TNIの元になるピクチャの選択を行ってもよい。これらのデータを利用する場合には、正確なシーン分割が可能になる。
実施の形態3.
 図13は本発明の実施の形態3に係る映像音声記録再生装置102の概略的な構成を示すブロック図である。本実施の形態に係る映像音声記録再生装置102は、AVストリーム記録部17に記録されたAVストリームを読み出して、シーン境界SBの検出およびサムネイル画像TNIの元になるピクチャの選択を行う処理において用いられるダビング用ストリーム制御部27を備えたことを特徴とする。図13に示す映像音声記録再生装置102において、ダビング用ストリーム制御部27以外の構成は、図1に示す映像音声記録再生装置100と同様である。
 ダビング用ストリーム制御部27は、AVストリーム記録部17からAVストリームを読み出し、解析対象となるAVストリームのデータを解析用デコーダ21に入力する。ダビング用ストリーム制御部27は、通常、ダビング用のバッファとして用いられ、ダビング時には、AVストリーム記録部17からAVストリームを読み出し、図示しないストリーム出力端子から、読み出されたAVストリームを出力するか、または、図示しないストリーム入力端子から入力されたAVストリームを、AVストリーム記録部17に書き込む動作を行う。本実施の形態においては、このダビング用ストリーム制御部27に、AVストリーム記録部17から読み出されたAVストリームを解析用デコーダ21に入力させる機能をも持たせている。
 ダビング用ストリーム制御部27は、録画が終了するとAVストリーム記録部17に記録されたAVストリームを順次読み出し、解析用デコーダ21に入力する。解析用デコーダ21は、GOPの開始コードが検出されると、先頭のIピクチャが含まれるパケットを解析し、当該Iピクチャのデコードを行う。以降の動作は、実施の形態1における動作と同様である。
 このように、実施の形態3に係る映像音声記録再生装置102によれば、録画終了後にシーン境界SBの検出およびサムネイル画像TNIの元になるピクチャの選択を行う構成としているので、実施の形態1のように録画時の処理負荷の高い状態ではなく、処理の負荷が低い状態でのAVストリームの解析を行うことができ、安定した処理が可能となる。
 また、録画時にAVストリームの解析を行う場合、録画動作の速度と同じか、それ以上の速度でシーン境界SBの検出およびサムネイル画像TNIの生成を行う必要(すなわち、高速な解析処理の必要)があったが、実施の形態3に係る映像音声記録再生装置102によれば、録画終了後においてシーン境界SBの検出およびサムネイル画像TNIの生成を行うので、要求される解析処理の速度は、比較的に低い速度とすることができる。
 また、実施の形態3に係る映像音声記録再生装置102によれば、録画後にシーン境界SBの検出およびサムネイル画像TNIの生成の処理を行うため、特定の期間のみ(例えば、CM区間を除いた期間)の解析を行うことができ、トータルの解析負荷を低減し、消費電力の削減に貢献できる。
 また、実施の形態3に係る映像音声記録再生装置102によれば、一度記録されたタイトルに対してシーン境界SBの検出およびサムネイル画像TNIの生成の処理を行うことができるため、編集操作等でタイトルの内容が変わった場合(例えば、一部のシーンが削除されたり、複数のシーンの順番が入れ替えられたりした場合)であっても、編集後の映像音声データについて適切なサムネイルの表示を行うことができる。
 100,101,102 映像音声記録再生装置、 2 システム制御部、 3 デジタルチューナー、 4 アナログチューナー、 5 外部入力端子、 6 リモコン受信部、 7 AVエンコーダ、 8 入力ストリーム制御部、 9 録画アプリ、 10 録画制御部、 11 再生アプリ、 12 メタデータ制御部、 13 サムネイル表示制御部、 14 再生制御部、 15 AVデコーダ、 16 出力ストリーム制御部、 17 AVストリーム記録部、 18 AV管理情報記録部、 19 メタデータ記録部、 20 グラフィック重畳部、 21 解析用デコーダ、 22 フレームバッファ、 23 シーン境界抽出部、 24 エントリー生成部、 25 サムネイル生成部、 25a サムネイル生成タイマー、 26 音声境界抽出部、 27 ダビング用ストリーム制御部、 28 サムネイル選択枠生成部、 30 ネットワーク端子、 31 モニター出力端子、 41 選択枠、 50,51 シーン検出部、 91 アンテナ、 92 ネットワーク、 93 モニター、 94 リモコン、 95 画面、 PIC ピクチャ、 RP,P55,P72,P86,P98,P107 代表ピクチャ、 P52,P67,P83,P94,P103 シーン境界のピクチャ、 SB シーン境界、 SCE シーン、 SC シーンチェンジ、 TNI サムネイル画像、 TN15~TN19 サムネイル。

Claims (22)

  1.  映像情報から、複数のピクチャによって構成されるシーンの境界であるシーン境界を抽出するシーン境界抽出手段と、
     抽出された前記シーン境界にアクセスするためのエントリー情報を生成するエントリー生成手段と、
     抽出された前記シーン境界により分割されたシーンを代表する代表ピクチャを選択し、該代表ピクチャに基づいてサムネイル画像データを生成するサムネイル生成手段と、
     生成された前記サムネイル画像データに基づくサムネイルを表示装置に表示させるサムネイル表示制御手段と、
     表示された前記サムネイルのうちから任意のサムネイルを選択するためのサムネイル選択手段と、
     選択された前記サムネイルに対応するシーンを前記エントリー情報に基づく位置から再生する手段と、を備え、
     前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、前記シーン境界のピクチャよりも後のピクチャを前記代表ピクチャとして選択する
     ことを特徴とする映像音声再生装置。
  2.  前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、前記映像情報を解析し、前記シーン内において映像変化が少ないピクチャを前記代表ピクチャとして選択することを特徴とする請求項1記載の映像音声再生装置。
  3.  前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、当該差分値が所定の閾値以下となるピクチャを前記代表ピクチャとして選択することを特徴とする請求項1記載の映像音声再生装置。
  4.  前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第1のピクチャであって、かつ前記シーン境界以降において最初に当該差分値が所定の閾値以下となる前記第1のピクチャを、前記代表ピクチャとして選択することを特徴とする請求項1記載の映像音声再生装置。
  5.  前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第2のピクチャであって、かつ前記シーン境界以降において当該差分値が所定の閾値以下の状態が所定の時間続いた後の最初のピクチャである前記第2のピクチャを、前記代表ピクチャとして選択することを特徴とする請求項1記載の映像音声再生装置。
  6.  メタデータ記憶手段を更に備え、
     前記サムネイル生成手段は、生成された前記サムネイル画像データに対応するピクチャのアドレス情報をサムネイル情報として生成し、前記メタデータ記憶手段に前記サムネイル情報を記憶させる
     ことを特徴とする請求項1から5のいずれか1項に記載の映像音声再生装置。
  7.  前記シーン境界抽出手段は、前記映像情報のシーンチェンジを検出し、該検出の結果に基づいて、前記シーン境界を検出することを特徴とする請求項1から5のいずれか1項に記載の映像音声再生装置。
  8.  前記シーン境界抽出手段は、前記映像情報に含まれる音声データの周波数分布の変化を検出し、該検出の結果に基づいて、前記シーン境界を検出することを特徴とする請求項1から5のいずれか1項に記載の映像音声再生装置。
  9.  前記シーン境界抽出手段は、前記映像情報に重畳されるデータに基づいて、前記シーン境界を検出することを特徴とする請求項1から5のいずれか1項に記載の映像音声再生装置。
  10.  映像情報から、複数のピクチャによって構成されるシーンの境界であるシーン境界を抽出し、
     抽出された前記シーン境界にアクセスするためのエントリー情報を生成し、
     抽出された前記シーン境界により分割されたシーンを代表する代表ピクチャを選択し、該代表ピクチャに基づいてサムネイル画像データを生成し、
     生成された前記サムネイル画像データに基づくサムネイルを表示装置に表示させ、
     表示された前記サムネイルのうちから任意に選択されたサムネイルに対応するシーンを前記エントリー情報に基づく位置から再生し、
     各シーンの前記代表ピクチャの選択に際し、前記シーン境界のピクチャよりも後のピクチャを前記代表ピクチャとして選択する
     ことを特徴とする映像音声再生方法。
  11.  各シーンの前記代表ピクチャの選択に際し、前記映像情報を解析し、映像変化が少ないピクチャを前記代表ピクチャとして選択することを特徴とする請求項10記載の映像音声再生方法。
  12.  各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第1のピクチャであって、かつ前記シーン境界以降において最初に当該差分値が所定の閾値以下となる前記第1のピクチャを、前記代表ピクチャとして選択する請求項10記載の映像音声再生方法。
  13.  各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第2のピクチャであって、かつ前記シーン境界以降において当該差分値が所定の閾値以下の状態が所定の時間続いた後の最初のピクチャである前記第2のピクチャを、前記代表ピクチャとして選択することを特徴とする請求項10記載の映像音声再生方法。
  14.  映像情報を記録媒体に記録する記録手段と、
     前記記録媒体に記録されるまたは記録された映像情報から、複数のピクチャによって構成されるシーンの境界であるシーン境界を抽出するシーン境界抽出手段と、
     抽出された前記シーン境界にアクセスするためのエントリー情報を生成するエントリー生成手段と、
     抽出された前記シーン境界により分割されたシーンを代表する代表ピクチャを選択し、該代表ピクチャに基づいてサムネイル画像データを生成するサムネイル生成手段と、
     生成された前記サムネイル画像データに基づくサムネイルを表示装置に表示させるサムネイル表示制御手段と、
     表示された前記サムネイルのうちから任意のサムネイルを選択するためのサムネイル選択手段と、
     選択された前記サムネイルに対応するシーンを前記エントリー情報に基づく位置から再生する手段と、を備え、
     前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、前記シーン境界のピクチャよりも後のピクチャを前記代表ピクチャとして選択する
     ことを特徴とする映像音声記録再生装置。
  15.  前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、当該差分値が所定の閾値以下となるピクチャを前記代表ピクチャとして選択することを特徴とする請求項14記載の映像音声記録再生装置。
  16.  前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第1のピクチャであって、かつ前記シーン境界以降において最初に当該差分値が所定の閾値以下となる前記第1のピクチャを、前記代表ピクチャとして選択することを特徴とする請求項14記載の映像音声記録再生装置。
  17.  前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第2のピクチャであって、かつ前記シーン境界以降において当該差分値が所定の閾値以下の状態が所定の時間続いた後の最初のピクチャである前記第2のピクチャを、前記代表ピクチャとして選択する請求項14記載の映像音声記録再生装置。
  18.  前記サムネイル生成手段は、前記サムネイル画像データに含まれる画像特性に基づいて、前記サムネイル画像データに基づく第1のサムネイルを表示させるか否かを判定し、前記第1のサムネイルを表示させないと判定したときに、他のサムネイル画像データを生成することを特徴とする請求項14から17のいずれか1項に記載の映像音声記録再生装置。
  19.  映像情報を記録媒体に記録し、
     前記記録媒体に記録されるまたは記録された映像情報から、複数のピクチャによって構成されるシーンの境界であるシーン境界を抽出し、
     抽出された前記シーン境界にアクセスするためのエントリー情報を生成し、
     抽出された前記シーン境界により分割されたシーンを代表する代表ピクチャを選択し、該代表ピクチャに基づいてサムネイル画像データを生成し、
     生成された前記サムネイル画像データに基づくサムネイルを表示装置に表示させ、
     表示された前記サムネイルのうちから任意に選択されたサムネイルに対応するシーンを前記エントリー情報に基づく位置から再生し、
     各シーンの前記代表ピクチャの選択に際し、前記シーン境界のピクチャよりも後のピクチャを前記代表ピクチャとして選択する
     ことを特徴とする映像音声記録再生方法。
  20.  各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、当該差分値が所定の閾値以下となるピクチャを前記代表ピクチャとして選択することを特徴とする請求項19記載の映像音声記録再生方法。
  21.  各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第1のピクチャであって、かつ前記シーン境界以降において最初に当該差分値が所定の閾値以下となる前記第1のピクチャを、前記代表ピクチャとして選択することを特徴とする請求項19記載の映像音声記録再生方法。
  22.  各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第2のピクチャであって、かつ前記シーン境界以降において当該差分値が所定の閾値以下の状態が所定の時間続いた後の最初のピクチャである前記第2のピクチャを、前記代表ピクチャとして選択することを特徴とする請求項19記載の映像音声記録再生方法。
     
PCT/JP2010/002735 2009-04-28 2010-04-15 映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法 WO2010125757A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009109309A JP2012142645A (ja) 2009-04-28 2009-04-28 映像音声再生装置、映像音声記録再生装置、映像音声編集装置、映像音声再生方法、映像音声記録再生方法、および映像音声編集方法
JP2009-109309 2009-04-28

Publications (1)

Publication Number Publication Date
WO2010125757A1 true WO2010125757A1 (ja) 2010-11-04

Family

ID=43031917

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/002735 WO2010125757A1 (ja) 2009-04-28 2010-04-15 映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法

Country Status (2)

Country Link
JP (1) JP2012142645A (ja)
WO (1) WO2010125757A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019082268A1 (ja) * 2017-10-24 2019-05-02 三菱電機株式会社 画像処理装置及び画像処理方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105432067A (zh) * 2013-03-08 2016-03-23 汤姆逊许可公司 使用列表驱动选择过程以改善基于视频和媒体时间的编辑的方法和设备
JP6411058B2 (ja) * 2014-04-03 2018-10-24 シャープ株式会社 録画再生装置、録画再生方法、およびプログラム
JP2021132281A (ja) * 2020-02-19 2021-09-09 Jcc株式会社 メタデータ生成システムおよびメタデータ生成方法
JP7096296B2 (ja) * 2020-07-30 2022-07-05 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム
CN113286196B (zh) * 2021-05-14 2023-02-17 亿咖通(湖北)技术有限公司 一种车载视频播放***及视频分屏显示方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09322174A (ja) * 1996-05-30 1997-12-12 Hitachi Ltd 動画データの再生方法
JP3131560B2 (ja) * 1996-02-26 2001-02-05 沖電気工業株式会社 動画像処理システムにおける動画像情報検出装置
JP3340905B2 (ja) * 1996-02-07 2002-11-05 株式会社東芝 動画像処理方法
JP3525493B2 (ja) * 1994-06-22 2004-05-10 松下電器産業株式会社 静止画像抽出装置、動画像記録装置および静止画像自動抽出方法
JP2007201643A (ja) * 2006-01-24 2007-08-09 Sharp Corp サムネイル作成方法および動画データ再生装置
JP2009049667A (ja) * 2007-08-20 2009-03-05 Sony Corp 情報処理装置、その処理方法およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3525493B2 (ja) * 1994-06-22 2004-05-10 松下電器産業株式会社 静止画像抽出装置、動画像記録装置および静止画像自動抽出方法
JP3340905B2 (ja) * 1996-02-07 2002-11-05 株式会社東芝 動画像処理方法
JP3131560B2 (ja) * 1996-02-26 2001-02-05 沖電気工業株式会社 動画像処理システムにおける動画像情報検出装置
JPH09322174A (ja) * 1996-05-30 1997-12-12 Hitachi Ltd 動画データの再生方法
JP2007201643A (ja) * 2006-01-24 2007-08-09 Sharp Corp サムネイル作成方法および動画データ再生装置
JP2009049667A (ja) * 2007-08-20 2009-03-05 Sony Corp 情報処理装置、その処理方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019082268A1 (ja) * 2017-10-24 2019-05-02 三菱電機株式会社 画像処理装置及び画像処理方法

Also Published As

Publication number Publication date
JP2012142645A (ja) 2012-07-26

Similar Documents

Publication Publication Date Title
JP5322550B2 (ja) 番組推奨装置
US8643745B2 (en) Content shooting apparatus
US8400513B2 (en) Data processing apparatus, data processing method, and data processing program
EP1971134B1 (en) Information processing apparatus, imaging apparatus, image display control method and computer program
US8849093B2 (en) Thumbnail generating apparatus and thumbnail generating method
JP2003513564A (ja) 動的閾値を使用する視覚的索引付けシステムの重要シーン検出及びフレームフィルタリング
TW200533193A (en) Apparatus and method for reproducing summary
EP1600973A1 (en) Moving image processing apparatus and method
WO2010125757A1 (ja) 映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法
KR20030026529A (ko) 키프레임 기반 비디오 요약 시스템
JP2010062621A (ja) コンテンツデータ処理装置、コンテンツデータ処理方法、プログラムおよび記録再生装置
CN107251551B (zh) 图像处理设备、图像捕获装置、图像处理方法和存储介质
JP3728775B2 (ja) 動画像の特徴場面検出方法及び装置
KR100823370B1 (ko) 영상 신호 기록 및 재생 장치, 영상 신호 기록 및 재생 방법, 및 기록 매체
JP3144285B2 (ja) 映像処理装置
JP2006180306A (ja) 動画記録再生装置
JP4609711B2 (ja) 画像処理装置および方法、並びにプログラム
US20060263062A1 (en) Method of and apparatus for setting video signal delimiter information using silent portions
JP4539884B2 (ja) 再生装置、プログラム及び電子画面を構築する方法
JP5682167B2 (ja) 映像音声記録再生装置、および映像音声記録再生方法
JP4007406B2 (ja) 動画像の特徴場面検出方法
JP4760893B2 (ja) 動画記録再生装置
JP2011182274A (ja) 映像記録再生装置
JP2019212348A (ja) 映像記録再生装置および映像記録再生方法
JP2009218874A (ja) 記録再生装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10769459

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10769459

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP