WO2013124923A1 - 興味区間特定装置、興味区間特定方法、興味区間特定プログラム - Google Patents

興味区間特定装置、興味区間特定方法、興味区間特定プログラム Download PDF

Info

Publication number
WO2013124923A1
WO2013124923A1 PCT/JP2012/006717 JP2012006717W WO2013124923A1 WO 2013124923 A1 WO2013124923 A1 WO 2013124923A1 JP 2012006717 W JP2012006717 W JP 2012006717W WO 2013124923 A1 WO2013124923 A1 WO 2013124923A1
Authority
WO
WIPO (PCT)
Prior art keywords
interest
section
specificity
frame
motion feature
Prior art date
Application number
PCT/JP2012/006717
Other languages
English (en)
French (fr)
Inventor
前田 和彦
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to US13/824,692 priority Critical patent/US9288463B2/en
Priority to JP2013514425A priority patent/JP5960691B2/ja
Priority to CN201280003448.8A priority patent/CN103404130B/zh
Publication of WO2013124923A1 publication Critical patent/WO2013124923A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • H04N5/145Movement estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs
    • G11B2220/2541Blu-ray discs; Blue laser DVR discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs
    • G11B2220/2562DVDs [digital versatile discs]; Digital video discs; MMCDs; HDCDs

Definitions

  • the present invention relates to an interest section specifying device for specifying a section that attracts a user's interest in a moving image.
  • the digest that the user is interested in is considered to be a moving image
  • the motion of the person is detected in the moving image for which the digest is to be created (for example, see Patent Document 1). It is conceivable to extract a section where a person moves.
  • the present invention has been made in view of the above problems, and an object thereof is to provide an interest section specifying device that is useful for creating an interesting digest video for a user.
  • an interest interval specifying device is an interest interval specifying device that specifies an interest interval that is estimated to be of interest to a user in a moving image, and an object is extracted from a frame extracted from the moving image.
  • Object detection means for detecting, motion feature quantity extraction means for calculating a motion feature quantity of the object with respect to the extracted frame, and specificity of motion of the object in the extracted frame using the motion feature quantity of the object
  • Specificity calculating means for calculating the interest interval
  • interest interval specifying means for specifying the interest interval in the moving image using the specificity.
  • An interest section specifying method is an interest section specifying method by an interest section specifying device that specifies an interest section that is presumed to be of interest to a user in a moving image, and an object is extracted from a frame extracted from the moving image.
  • An object detection step for detecting; a motion feature amount extracting step for calculating a motion feature amount of the object with respect to the extracted frame; and a specificity of the motion of the object in the extracted frame using the motion feature amount of the object
  • a specificity calculating step for calculating the interest interval, and an interest interval specifying step for specifying the interest interval in the moving image using the specificity.
  • the interest section specifying program is an interest section specifying program for causing a computer to execute an interest section specifying process for specifying an interest section that is presumed to be interesting by a user in a moving image.
  • an object detection step for detecting an object from a frame extracted from the moving image
  • a motion feature amount extraction step for calculating a motion feature amount of the object with respect to the extracted frame, and using the motion feature amount of the object
  • the method includes a specificity calculation step of calculating the specificity of the movement of the object in the extracted frame, and an interest interval specifying step of specifying the interest interval in the moving image using the specificity.
  • the interest interval specifying device specifies the interest interval based on the specificity of the motion of the object in the extracted frame. Therefore, the convenience of creating a digest video interesting for the user can be improved.
  • FIG. 10 is a flowchart showing the operation of the interested section identification device according to the second embodiment.
  • 12 is a flowchart showing an operation of calculating specificity of the interested area identification device according to the second embodiment.
  • the inventor uses the movement of an object as in the technique described in Patent Document 1 to specify the section of interest that the user is likely to be interested in the video for creating the digest video. Considering. However, it has been found that when only the movement of an object is used for specifying an interest section, even a monotonous movement (for example, a movement just walking) may be specified as an interest section. For example, when the technique described in Patent Document 1 is used, the same repeated video (for example, video in which the subject person keeps walking) is extracted, and a digest video that is not interesting to the user is created. There is a problem that will be done.
  • FIG. 1 is a block diagram illustrating a functional configuration of the interested section identification device 100. Note that FIG. 1 also shows peripheral devices of the section of interest specifying device 100.
  • the interested section specifying device 100 is connected to a photographing device 120 and a display device 130.
  • the interest section specifying device 100 extracts the interest section from the moving image photographed by the photographing device 120 and causes the display device 130 to display it.
  • the interest section is a moving image having a predetermined fixed time length (for example, 3 minutes).
  • the photographing device 120 is a device having a function of photographing and recording a moving image such as a movie camera or a digital camera.
  • the imaging device 120 is connected to the section of interest specifying device 100 via a USB (UniversalUSBSerial Bus) cable, for example.
  • USB UniversalUSBSerial Bus
  • the display device 130 is a monitor having a function of displaying an image such as a digital television, an LCD (Liquid Crystal Display), or a PDP (Plasma Display Panel).
  • the display device 130 is connected to the section of interest specifying device 100 via, for example, a USB cable.
  • the interested section identification device 100 includes a moving image acquisition unit 101, an object detection unit 102, an object tracking unit 103, a region determination unit 104, a motion feature amount calculation unit 105, and a specificity calculation unit. 106, an interesting section specifying unit 107, and an interesting section extracting unit 108.
  • the moving image acquisition unit 101 has a function of acquiring a moving image shot by the shooting device 120 from the shooting device 120.
  • the moving image acquisition unit 101 includes software that controls an interface such as a USB port for connecting a USB cable and a USB driver, for example.
  • the object detection unit 102 has a function of detecting an object from each frame of the moving image.
  • Examples of the object include a person, a person's face, an animal, and a car.
  • the object detection unit 102 detects an edge with respect to a frame, or moves a search window within the frame to classify a classifier for identifying an object within the search window.
  • a face learning dictionary For example, as shown in FIG. 2, a person's face in a frame can be detected.
  • the object 203 is detected from the t-th frame 201 of the moving image, and the object 204 is detected from the t + 1-th frame 202.
  • the classifier is described as detecting a person's face, but the classifier may be other than a person such as an animal or a car.
  • the object detection unit 102 may hold a plurality of classifiers in order to detect a plurality of different types, and when an object is detected from a frame, the classifier used to detect the object It may also have a function of giving information on what is to be detected as metadata to the detected object.
  • the object tracking unit 103 tracks the position of each of the one or more objects detected by the object detection unit 102 in the next frame.
  • the object tracking unit 103 has a function of assigning the same identifier (object ID) to objects that are assumed to be the same in each frame as a result of the tracking.
  • object ID the same identifier
  • An example of the object tracking method will be described with reference to FIG.
  • the areas of the detected object 203 and the object 204 in the frames 201 and 202 which are continuous frames have almost the same position in the respective frames.
  • 204 is the same object, and is assigned the same object ID. That is, in the present embodiment, in the frame, the objects whose positions in the respective frames of the regions in each frame are close to each other are specified as the same object. In this way, the object tracking unit 103 tracks an object by identifying objects included in a plurality of frames.
  • the area determination unit 104 has a function of determining an area for evaluating the movement of the object in each frame of the moving image.
  • the area for detecting the movement of the object includes the object to be tracked. Region determination by the region determination unit 104 will be described with reference to FIG.
  • FIG. 3 is a diagram illustrating an area determined based on an object in the frame 301.
  • the area determination unit 104 determines the area 302a (the left hatched portion in FIG. 3) that includes the object estimated by the object detection unit 102 as the person's face and the size of the person's face.
  • a region 302b (right hatched portion in FIG. 3) estimated to have a human body is determined as a region for detecting the movement of the object.
  • the size of the region 302b is determined in advance in what direction with respect to the inclination and size of the detected region 302a. In each frame, the position and range where the corresponding region exists may be common between frames or may be different.
  • the area determined by the area determination unit 104 is determined as a shape and a region depending on the content of the object detected by the object detection unit 102, and the object detection unit 102 determines the area from the content of the detected object. Determine the shape and extent of the.
  • the motion feature amount calculation unit 105 has a function of calculating the motion feature amount of an object in each frame included in the moving image.
  • the motion feature amount calculation unit 105 identifies each pixel in the region determined by the region determination unit 104 for the frame included in the moving image (see FIG. 4).
  • FIG. 4 shows each pixel in the determined region 302.
  • the motion feature amount calculation unit 105 calculates an optical flow of each identified pixel (see FIG. 5).
  • FIG. 5 shows an example of a part of the optical flow instead of the optical flow of all the pixels in the region.
  • a gradient method is used as an example of the optical flow calculation method.
  • the gradient method estimates where a certain pixel of a frame at time t is moving in the frame at time t + 1 under the assumption that “the brightness of a point on the object does not change after movement” A vector is obtained based on the amount of movement.
  • the motion feature amount calculation unit 105 determines the motion feature amount of the region determined by the region determination unit 104 using the calculated optical flow. With reference to FIG. 5, a method for determining the motion feature amount of the region will be described.
  • the coordinates (x, y) of the pixel at the left end of the first step in the region 302 are (a, b), the right neighbor is (a + 1, b),.
  • the coordinates (x, y) of the rightmost pixel are (a + w, b), and the coordinates of the second leftmost pixel are (a, b + 1).
  • the optical flow at coordinates (a, b) is (x a , y b ), the optical flow at coordinates (a + 1, b) is (x a + 1 , y b ),..., Coordinates (a + w, b) Is calculated as (x a + w , y b ), the optical flow at coordinates (a, b + 1) is (x a , y b + 1 ), and so on.
  • the motion feature amount (feature amount 1, feature amount 2, feature amount 3,..., Feature amount K,...)
  • the region 302 is (x a , y b , x a + 1 , y b ,..., X a + w , y b , x a , y b + 1 ,. That is, the motion feature amount of the region 302 determined by the region determination unit 104 is a set of optical flows of each pixel included in the region 302, and the region 302 has a right end from the left end of the first step, a right end from the left end of the second step,. The N-th stage left end to the right end,...
  • the motion feature amount calculation unit 105 calculates the motion feature amount of each object detected for each frame, and stores the information in a memory (not shown) or the like.
  • FIG. 6 is a data conceptual diagram of information on stored motion feature amounts.
  • the motion feature amount information is information in which a frame number for identifying each frame is associated with a numerical value of the feature amount for each feature amount type.
  • the type of feature amount is the amount of motion in the x-axis direction or the amount of motion in the y-axis direction of the motion vector of any pixel in the region.
  • the numeric value of feature quantity 1 is 6, and the numeric value of feature quantity 2 is 2.
  • the specificity calculation unit 106 has a function of calculating the specificity of each frame included in the moving image.
  • the specificity of each frame is an index indicating how much the motion of the object included in each frame differs from the motion of the object in other frames. Details of the specificity calculation method will be described later.
  • the interest interval specifying unit 107 has a function of specifying an interest interval using the specificity of each frame calculated by the specificity calculating unit 106. With reference to FIG. 7, a method for identifying an interest interval will be described.
  • FIG. 7 is a graph showing changes in specificity over time of a moving image, with the time axis on the horizontal axis and the specificity on the vertical axis.
  • the interest interval specifying unit 107 adds the specificities of the frames included in the window 701 while shifting the window 701 of the interest interval length from the beginning to the end of the moving image, with respect to the fixed-length interest interval.
  • the window 701 at the highest point is specified as the interest section.
  • the interest section specifying unit 107 gives information indicating the start point of the specified interest section and information indicating the end point of the interest section to the moving image.
  • a tag indicating the start point of the interest section hereinafter referred to as a start point tag
  • a tag indicating the end point of the interest section hereinafter referred to as an end point tag
  • the interest interval extracting unit 108 Based on the start point tag and end point tag attached to the moving image by the interest interval specifying unit 107, the interest interval extracting unit 108 extracts an interest interval moving image from the moving image, which is a moving image having the start point tag as the start point and the end point tag as the end point. Has a function to extract.
  • the output unit 109 has a function of outputting the interest section moving image extracted by the interest section extraction unit 108 to the display device 130.
  • the display device 130 reproduces the interest section moving image output from the output unit 109, and the user can recognize the content of the moving image in a short time and watch the interest section moving image with interest by watching this. ⁇ Operation> Next, the operation of the section of interest specifying device 100 according to the present embodiment will be described using the flowchart shown in FIG.
  • the moving image acquisition unit 101 of the interested section identification device 100 receives and acquires a moving image from the photographing device 120 via the USB cable (step S801).
  • the moving image acquisition unit 101 transmits the acquired moving image to the object detection unit 102.
  • the object detection unit 102 detects an object included in the image to be displayed for each frame from the transmitted video (step S802).
  • the object detection unit 102 transmits information about the detected one or more objects to the object tracking unit 103.
  • the object tracking unit 103 tracks, for each object detected from each frame, at which position in which frame each object exists, and identifies an object common between the frames by assigning the same object ID (Ste S803).
  • the region determination unit 104 determines, for each object detected as a result of tracking by the object tracking unit 103, a region in which motion is detected for each object in each frame (step S804).
  • the motion feature amount calculation unit 105 determines, for each region of each object determined by the region determination unit 104, how much the region moves from the target frame for which the motion feature amount is calculated to the next frame. Based on this, the motion feature amount of each frame is calculated (step S805). That is, the motion feature amount calculation unit 105 generates, for each frame of the moving image, a vector composed of a set of optical flows of each pixel included in the region as the motion feature amount of the frame.
  • the specificity calculation unit 106 calculates the specificity of each frame using the motion feature amount of each frame calculated by the motion feature amount calculation unit 105 (step S806). Details of the calculation of the specificity of the frame will be described later using the flowchart of FIG.
  • the interest section specifying unit 107 specifies the section where the sum of the specificities of consecutive frames corresponding to the length of the interest section in the video is the highest as the interest section of the video.
  • Information indicating the start point and end point of the section is given (indexed) to the moving image (step S807).
  • the interest interval extraction unit 108 extracts the interest interval identified by the interest interval identification unit 107 from the moving image, and transmits the extracted interest interval moving image to the output unit 109. Then, the output unit 109 outputs the transmitted interest section moving image to the display device 130 (step S808).
  • the display device 130 displays the interest section moving image transmitted from the interest section specifying device 100, and the user can recognize the content of the moving image only by confirming the contents of the interest section without viewing the entire moving image. .
  • FIG. 9 is a flowchart showing the motion feature amount calculation operation by the motion feature amount calculation unit 105.
  • the motion feature amount calculation unit 105 calculates the optical flow of each pixel in the region 302 in each frame (step S901).
  • the motion feature quantity calculation unit 105 normalizes the optical flow calculated for each frame based on the size of the object in each frame (step S902).
  • the motion feature amount calculation unit 105 for example, based on the size information of the face of the object, the optical flow in each pixel is linearly interpolated when enlarging, and the average of the reduction source areas when reducing There is. This is because even when the same object is the subject, the size of the object in the moving image changes depending on the distance between the imaging device 120 and the object of the subject, and the size of the object is determined in the process of determining the motion feature amount of the object. Is determined to be constant.
  • the motion feature amount calculation unit 105 calculates, for each frame, a motion feature amount composed of a set of optical flows of each pixel included in the region defined for the object included in each frame (step S903). .
  • FIG. 10 is a flowchart showing the calculation operation of specificity by the specificity calculation unit 106.
  • FIG. 11 is a diagram for explaining a frame to be used when calculating the specificity.
  • FIG. 11 is a three-dimensional graph with time on the x-axis, type of motion feature quantity on the y-axis, and feature quantity on the z-axis, and shows the motion feature quantity of a certain object in each frame of the moving image at each time It is a conceptual diagram.
  • the motion feature amount used for calculating the specificity will be described with reference to FIG.
  • the specificity of the target frame for which the specificity is calculated indicates how much the motion feature quantity of the target frame is not similar to the motion feature quantity of a frame in a predetermined range before and after the target frame It is.
  • the previous M frame M is an integer of 2 or more
  • the subsequent M frame are defined as the first section.
  • the preceding N N is an integer of 1 or more and less than M
  • the following N frames are set as the second section.
  • the motion feature amount of the target frame and the average value of the motion feature amounts of the frames included in the third section excluding the second section from the first section are used.
  • M is 300 frames and N is 60 frames.
  • 300 frames corresponds to 10 seconds of a moving image
  • 60 frames corresponds to 2 seconds of a moving image.
  • the specificity calculation unit 106 determines a target frame for which the specificity is calculated (step S1001). This can be done in order from the beginning to the end of the movie, in reverse order from the end to the beginning, or at random, as the specificity only needs to be calculated for all frames of the movie. May be. Here, the calculation is performed in order from the beginning of the moving image.
  • the specificity calculation unit 106 selects one object included in the target frame (step S1002).
  • the specificity calculation unit 106 calculates the average motion feature amount from the motion feature amount of the frame for the third section (2M-2N) with the target frame of the selected object as a reference (step S1003).
  • the specificity calculation unit 106 represents the motion feature amount of the object A in the target frame k by the following formula 1.
  • the average motion feature amount of the object A in the third section which is a comparison target of the specificity, is expressed by the following formula 2 for the target frame k.
  • the average motion feature amount of the object A in the third section can be expressed by the following formula 3.
  • the average motion feature amount of the object A in the third section used for calculating the specificity for the target frame k can be expressed by the following equation (4).
  • the average motion feature amount of the object A in the target frame k when f max ⁇ N ⁇ k can be expressed by the following formula 5.
  • the specificity calculation unit 106 calculates the score of the selected object in the target frame k using the mathematical formula and the average motion feature amount shown in Equation 1 (step S1004).
  • the score of the object A in the target frame k can be expressed by the following formula 6.
  • the absolute value of the motion feature amount of the object A in the frame k is a value obtained by adding 1 to the inner product of the motion feature amount of the object A in the frame k and the average motion feature amount of the object A in the third section with respect to the frame k.
  • the result of division is used as the score of object A in frame k.
  • the specificity calculation unit 106 determines whether or not the scores for all objects have been calculated in the selected symmetric frame (step S1005). If scores for all objects have not been calculated (NO in step S1005), the process returns to step S1002.
  • step S1005 If the scores for all objects have been calculated (YES in step S1005), the calculated scores of the respective objects are added together to calculate the specificity of the target frame (step S1006).
  • step S1007 the specificity calculation unit 106 determines whether or not the specificity for all the frames has been calculated. If the specificity for all frames has not been calculated (NO in step S1007), the process returns to step S1001.
  • step S1007 If the specificity for all frames has been calculated (YES in step S1007), the specificity calculation processing is terminated.
  • the interest section specifying device 100 specifies a part of the moving image that is particularly rich in the movement of the object as an interest section, and thus provides an interest section that does not bore the user. Will be able to.
  • the detection is performed by comparing with the movement of the same object in another frame.
  • the method for detecting the specificity of the object is not limited to this.
  • a specificity detection method different from that in the first embodiment will be described.
  • the description common to the first embodiment will be omitted, and different points will be described.
  • the interest section specifying device 1200 includes a moving image acquisition unit 101, an object detection unit 102, a motion feature amount calculation unit 105, a specificity calculation unit 1206, and an interest section specification unit. 1207, an interest section extraction unit 108, and an output unit 109.
  • the same name and number are attached
  • the object detection unit 102 information on the detected object is transmitted to the motion feature amount calculation unit 105 via the object tracking unit 103 and the region determination unit 104.
  • the motion feature amount calculation unit 105 calculates a motion feature amount for each object detected by the object detection unit 102 for each frame. Then, the motion feature amount calculation unit 105 transmits the calculated motion feature amount to the specificity calculation unit 1206.
  • the accepting unit 1205 has a function of accepting designation of a specific object selected from the objects detected by the object detecting unit 102 from the user and transmitting information about the specific object to the specificity calculating unit 1206.
  • the specificity calculation unit 1206 has a function of calculating how specific a specific object is from other objects photographed in the same frame.
  • the specificity calculation unit 1206 selects a specific object received from the reception unit 1205 from among a plurality of objects detected by the object detection unit 102. Then, how specific the motion feature amount of the identified object is calculated from the motion feature amount of the other object is calculated.
  • the interest section specifying unit 1207 has a function of specifying an interest section based on the specificity of a specific object in each frame calculated by the specificity calculation unit 1206. Specifically, the interest section specifying unit 1207 is a predetermined period (the moving image length that is desired to be specified as the interest section, for example, 3 minutes, for which the total value of the specificity P of each frame calculated by the specificity calculation unit 1206 is the largest. Alternatively, an equivalent number of frames) is specified as the interest interval.
  • ⁇ Operation> The operation of identifying an interest interval of the interest interval identification device 1200 according to Embodiment 2 will be described using the flowcharts of FIGS. 13 and 14. In the flowcharts of FIGS.
  • the motion feature amount calculation unit 105 of the interested section identification device 1200 calculates the motion feature amount of each object for each frame (step S805).
  • the specificity calculation unit 1206 of the interest section identification device 1200 receives the motion feature amount calculated for each object extracted from each frame of the moving image, and calculates the specificity of the object.
  • the accepting unit 1205 accepts designation of a specific object for which the specificity is calculated from the user (step S1401).
  • the specificity calculation unit 1206 calculates the specificity of the specific object for the target frame (step S1404). Specifically, the specificity calculation unit 1206 calculates the specificity of the specified specific object from the average value of motion feature amounts of other objects included in the target frame for which the specificity is calculated. Specifically, it is calculated as follows.
  • the motion feature amount of the identified object is expressed by the following formula 7 for the target frame for which the specificity is calculated.
  • k is an index for identifying other objects.
  • n there is an index n in the target frame.
  • the average value vector b k, ave of the motion feature values of other objects can be expressed as the following Expression 9.
  • the specificity P of the identified object in the target frame can be expressed by the following formula 10.
  • the specificity calculation unit 1206 calculates the specificity P as the specificity of the target frame (step S1406).
  • the specificity calculation unit 1206 calculates the specificity in each frame.
  • the interest section identification unit 1207 receives the specificity for each frame from the specificity calculation unit 1206, and for a predetermined period (the period of the window 701 shown in FIG. 7), the predetermined period in which the combined value of the specificity is the highest. Is identified as the interval of interest.
  • the interested section specifying device 1200 moves differently from other children by one person, for example, when the movie is a picture of a group gymnastics scene at a children's athletic meet. This is useful for extracting NG scenes.
  • the interest section specifying device 1200 can specify a scene in which there are objects that are operating differently from the plurality of objects as the interest section while a plurality of objects are performing the same operation. .
  • ⁇ Modification> Although the interest section specifying device according to the present invention has been described according to the above embodiment, the embodiment of the present invention is not limited to this. Hereinafter, various modifications included as the idea of the present invention will be described.
  • the length of the interest section specified by the interest section specifying device 100 (1200) is determined in advance.
  • the interest section length need not be fixed.
  • the length may be a predetermined ratio (for example, 10%) with respect to the moving image length of the moving image from which the interest interval is extracted.
  • the interest section identification device 100 (1200) may change the extracted interest section length according to the type of moving image.
  • the type of moving image is a genre of moving image content such as variety, sports, drama, and news.
  • the interest interval specifying device holds an interest interval length table in which the interest interval length is determined in association with the genre of the moving image, and the moving image acquisition unit 101 uses the acquired moving image metadata or the like to The type of interest is specified, and the interest interval specifying unit 107 (1200) acquires the interest interval length corresponding to the type of the specified video in the held interest interval length table, and specifies the interest interval of that length. To do.
  • the interested section identifying apparatus 100 can identify a more appropriate interested section if it can identify an appropriate length of the interested section according to the type of the moving image.
  • the user may input the genre to specify the interest section length, or the predetermined length may be set as the interest section length.
  • the interested section specifying device 100 (1200) may include a setting unit (interface) for the user to set the interested section length.
  • the interest interval specifying means specifies the interest interval of the interest interval length set by the user.
  • the interest section can be set by directly entering the number of seconds of the interest section, or by inputting to an interface having a button for determining the length of the interest section, such as long, normal, or short. It is good to do. Thus, it is good also as a structure which specifies the interest area of a desired length by a user.
  • the lengths of the first section and the second section for calculating the specificity of each frame are determined in advance.
  • the first section length and the second section length need not be fixed.
  • the interested section identification device 100 (1200) may determine the first section length and the second section length according to the type of the moving image.
  • the type of moving image is a genre of moving image content such as variety, sports, drama, and news.
  • the interested section specifying device 100 (1200) holds a section length table that defines the first section length and the second section length in association with the genre of the moving picture, and the moving picture acquisition unit 101 stores the acquired moving picture.
  • the type of the moving image is specified, and the specificity calculation unit 106 (1206) has a first section length and a second section corresponding to the specified type of moving image in the stored section length table. Get the length and calculate the specificity.
  • the interested section specifying device 100 (1200) can specify appropriate lengths of the first section and the second section according to the type of the moving image, the specificity of the more accurate value can be obtained. It can be calculated.
  • the user may input the genre and specify the first section length and the second section length, or set the predetermined length as the first section length and the second section length. Also good.
  • the interested section identification device 100 (1200) may include setting means (interface) for the user to set the first section length and the second section length.
  • the specificity calculation unit 106 (1206) calculates the specificity using the first section having the first section length and the second section having the second section length set by the user.
  • the method for calculating the specificity by the section of interest specifying device 100 (1200) shown in the above embodiment is an example, and other methods can be used as long as the specificity of the motion of the object in the moving image can be calculated. It may be calculated.
  • the motion characteristic amount of the second section is not used in calculating the specificity of the frame, but the second section length is set to 0 and the target frame of the first section is excluded. You may use the motion feature-value of all the frames.
  • the numerator may be 1.
  • the specificity calculated for the frame may be weighted so that the motion feature amount of the specific frame is more reflected.
  • Equation 6 and Equation 10 may be used.
  • the interest section specifying device 100 (1200) adds the specificities calculated from the moving feature amount of each object.
  • the specificity of the target frame was used. However, another method may be used to calculate the specificity of the target frame.
  • the specificity calculated for each object may be weighted and then calculated as the specificity of the target frame.
  • the interest section specifying device 100 (1200) includes an object specifying unit for specifying what the object detected by the object detecting unit 102 is. And for classifying an object, a classifier indicating the characteristics of various objects is used.
  • the interest section specifying device 100 (1200) holds an object classification table for weighting an object, and the object classification table is associated with a weight value according to the contents of the object (person, animal, building, etc.). It has been.
  • an object A, B the weighted values for the C, respectively, W A, W B, and a W C.
  • the specificity calculation unit 106 calculates the specificity of the target frame as P A ⁇ W A + P B ⁇ W B + P C ⁇ W C.
  • the interest section specifying device 100 (1200) may take such a configuration, calculate the specificity according to the detected object, and extract the interest section.
  • the interest section specifying device 100 (1200) includes the receiving unit 1205 as in the second embodiment, and the receiving unit 1205 receives a designation from the user that the object A is the center of the moving image. . Then, interested section identifying unit 100 (1200), so that the weight of the object A is increased, the W A example, set to 1.5, to set the other weights 0.5. In this way, it is possible to execute a specific object priority interest section specification.
  • the weight of the object A is 1.5 and the others are 0.5, but this numerical value is an example, and it is sufficient that the weight of the object A is heavier than the weights of the other objects.
  • the interested section identification device 100 (1200) may determine the weight as follows.
  • the designation of the object A is accepted from the user.
  • the section of interest specifying apparatus 100 (1200) may specify the object A as follows.
  • the interest interval identification device 100 (1200) includes a recording medium that stores a plurality of moving images other than the moving image from which the interest interval is to be extracted.
  • a function of accessing a recording medium (may be a memory on a network) outside the interested section specifying device 100 that stores a plurality of moving images is provided.
  • a frame for detecting an object is extracted from an arbitrary frame of each moving image. That is, it may be extracted from all the frames, or may be extracted from one or more randomly selected frames. Then, in order to determine whether or not one or more detected objects are the same object, clustering is performed according to the feature amount of each detected object.
  • the interested section identifying apparatus 100 (1200) recognizes each cluster obtained by such clustering as one identical object.
  • the object A described above is identified as the object (subject) having the largest number of nodes (object feature quantities) belonging to each cluster is the object (subject) important to the user of the interest section identifying device 100. May be.
  • the largest number is specified as the object A. This is because the number of predetermined nodes is determined in advance as a threshold, and the weight corresponding to the cluster exceeding the threshold is weighted with specificity. It is good also as performing.
  • the weighting at this time may be as long as the weight of the object corresponding to the cluster exceeding the threshold is larger than the weights of the other objects. In this case, weighting may be performed for a plurality of objects corresponding to clusters exceeding the threshold value. However, this weighting may be a uniform value or in order from the largest number of nodes.
  • X1, Y1, Y2 are the coordinate values of the pixels in the frame) in the frame Is determined as the central portion of the frame, and it is determined whether or not each object is within the central portion. Then, the weight of the object in the center portion is set to 1, and the weight of the object outside the center portion is set to 0.
  • the weight of the object in the central portion is larger than the weight of the object outside the central portion, and the weight is not limited to 1 or 0.
  • the interested section identification device 100 (1200) may have a configuration for determining weights in this way.
  • a predetermined period in which the sum of specificities of frames included in the predetermined period is the maximum is specified as the interest interval. It was decided to.
  • the method for specifying the interest interval is not limited to this, and other methods may be used as long as a specific segment of motion can be specified.
  • a part where the difference in motion feature amount between a certain frame and the next frame exceeds a predetermined threshold may be specified, and a predetermined period including the most part may be specified as an interest section.
  • all the difference values of motion feature quantities between consecutive frames in the moving image are obtained, a predetermined period in which the sum of the difference values is maximum is specified, and the difference value used to specify the predetermined period is calculated.
  • a period including all frames corresponding to the motion feature amount used in the above may be specified as an interest section.
  • the section of interest specifying device 100 (1200) specifies one section of interest from the video.
  • the interest interval specified from the moving image may not be one.
  • the interest section specifying device 100 may specify a predetermined period in which the combined value of the specificities exceeds a predetermined threshold, and may set all of them as the interest section. At this time, the average value may be compared with a predetermined threshold instead of the sum of the specificities. With such a configuration, a plurality of interest intervals can be extracted. When two predetermined periods satisfying this condition overlap with each other, the start point of the earlier predetermined period is set as the start point of the interest section, and the end point of the later predetermined period is set as the end point of the interest section. It is good also as specifying the interest area exceeding the length which has been.
  • the output unit 109 may output a digest video in which these plurality of interest sections are connected.
  • the creation of the digest video may be performed by the interest section extraction unit 108.
  • the specificity calculating unit 106 (1206) calculates the specificity of all frames
  • the interest interval specifying unit 107 (1207) is based on the specificity of all frames. It was decided to identify. However, this is only an example, and it is not necessary to calculate the specificity of all frames as long as the interest interval can be specified to some extent.
  • the specificity calculation unit 106 (1206) may calculate only the specificity of even-numbered or odd-numbered frames for each frame of the moving image, or only the specificity of that frame for each specific number of frames. May be calculated. That is, the specificity calculation unit 106 (1206) may calculate the specificity by thinning out the frames of the moving image. Then, the interest interval specifying unit 107 (1207) may specify the interest interval using only the frame for which the specificity is calculated.
  • the interest interval specifying device calculates the interest interval specifying device 100 (1200), although the accuracy of the interest interval to be specified is lower than the case where the specificity of all frames is calculated. While reducing the processing burden, it is possible to shorten the time until the interest section is specified.
  • Embodiment 1 how specific the motion feature amount of the target frame is as seen from the motion feature amount of each frame in the third section is calculated. It may be peculiarity from the viewpoint of the motion feature amount of each frame of the entire moving image excluding the target frame, not each frame of the section.
  • the object tracking by the object tracking unit 103 is performed by tracking the objects close to each other in the position of the object in the frame and the object in the next frame (the coordinate position of the object in the frame) as the same object. It was decided to. However, other methods may be used for tracking the object.
  • the similarity between objects detected in one frame and the next frame is detected for each frame detected by the object detection unit 102. It may be performed by calculating. The similarity is obtained by calculating the similarity of image feature amounts obtained by using, for example, a Gabor filter for each detected object.
  • the region 302 determined by the region determination unit 104 includes the object (face) detected by the object detection unit 102 and the body that should accompany it.
  • this region 302 may be a range other than this.
  • the region whose motion should be evaluated is similarly the face region (region 302a in FIG. 3). Only). That is, it may be a region including a part of the object region detected by the object detection unit 102, or may be a region including the detected object region as in the above-described embodiment.
  • the interest interval specifying unit 107 (1207) adds up the specificities of the frames included in the window 701, and specifies the place where the sum is the highest as the interest interval. .
  • this is not a simple summation and other calculations may be performed.
  • the specificities of the rear frames may be weighted and then added together. With such a configuration, it is easy to extract an interest section in which a section rich in changes in the movement of an object exists in the second half rather than the first half.
  • the motion feature amount calculation unit 105 calculates the motion feature amount of the object based on the region for evaluating the motion of the object.
  • the method of calculating the optical flow of the pixels and using the information obtained by arranging the information as the motion feature amount has been described as an example, but other methods may be used.
  • the optical flow of the entire image may be calculated, and the average value thereof may be subtracted from each pixel in the region.
  • the difference value in the previous and next frames of the luminance of each pixel in the region where the motion should be evaluated may be calculated, and the information obtained by arranging the information may be used as the motion feature amount.
  • the distance between the image capturing device 120 and the object may be estimated based on the size of the region in which the motion in each frame is to be evaluated, and the information may be added as a motion feature amount.
  • the luminance change amount may be used as the motion feature amount.
  • the motion feature amount of the area is the first stage left end to the right end of the area 302, the second stage left end to the right end,..., The N stage left end to the right end,. It is assumed that this is a set of optical flows of each pixel arranged in the order from the left end to the right end of the lower end, but the order of optical flows is not limited to this. As long as the arrangement order of the pixels of the motion feature amount is common for the objects in each frame, other orders may be used.
  • the region 302 may be arranged in order from the first right end of the region 302 to the left end, the second step right end to the left end,..., The N step right end to the left end,. It may be arranged from the lower end to the upper end direction.
  • the interest section specifying unit 107 (1207) assigns a start point tag and an end point tag indicating the start point and end point of the specified interest section for the moving image.
  • a configuration may be adopted in which only one of them is given. Place one tag away from it by the length of the interest section (if the start tag is attached, then after the interest section length, then if the end tag is attached, the interest The last point of the section length) becomes the end point of the section of interest.
  • the interested section specifying device 100 displays the moving picture acquired by the moving picture acquiring unit 101, and the interested section specifying unit 107 (1207) indicates the starting point and the ending point of the interested section.
  • the storage unit is realized by, for example, an HDD (Hard Disc Drive) or an SSD (Solid State Drive) flash memory.
  • the section of interest specifying device 100 (1200) acquires a moving image from the image capturing device 120, but this may be acquired from other than the image capturing device 120.
  • a USB flash memory drive may be mounted on the interested section specifying device 100 to acquire a moving image stored in the USB flash memory, or a network communication function may be provided to the interested section specifying device 100 (1200). It is also possible to download and acquire a video from the Internet.
  • the output unit 109 outputs the moving image of the interest section extracted to the display device 130, but the output destination is not limited to the display device 130.
  • USB flash memory connected to the section of interest specifying device 100 (1200), or may be uploaded to the Internet.
  • the output unit 109 may output the entire moving image indexed with the information indicating the starting point and the ending point of the interested interval, instead of outputting only the moving image of the interested interval part.
  • the section of interest specifying device 100 (1200) is supposed to extract a section with a large movement of the object as the section of interest, but in this case, the scene has changed in the video. Therefore, there may be a case where a large movement has been detected.
  • the interest section specifying device 100 (1200) determines that a scene change has occurred when the change in the movement feature amount is greater than or equal to a predetermined threshold, and divides the moving image from which the interest section is extracted at that point. And it is good also as extracting an interest area from the animation which became two.
  • the detection of the scene change may not be a change in the motion feature amount, but may be based on a case where the change in specificity is larger than a predetermined threshold.
  • the interest section specifying device 1200 selects a specific object. That is, instead of the receiving unit 1205 that receives a specific object designation from the user, an object selecting unit that selects an object according to a predetermined algorithm may be provided.
  • the object detection unit 102 of the interested section identification device 1200 detects each object included in the frame for each frame of the input moving image. Then, the motion feature amount calculation unit 105 calculates the motion feature amount of each detected object.
  • the specificity calculation unit 1206 first calculates the average value of the motion feature amounts of all the objects included in each frame. Then, for each frame, the distance between the motion feature amount of each object included in the frame and the calculated average value is calculated. An object whose distance is greater than or equal to a predetermined threshold value is selected as a specific object, assuming that the object is moving in a specific manner in the frame.
  • the interest section may be specified by calculating the specificity for the specific object using the method described in the second embodiment.
  • a method other than the method of the second embodiment may be used, and the predetermined section having the largest sum of the distances calculated for selecting a specific object is specified as the interest section. May be.
  • the total value of the distance is used, but as a method of specifying the interest interval, for example, a moving image for a predetermined period before and after the frame having the largest distance may be specified as the interest interval.
  • the object selection unit may select, as a specific object, an object that is included in a large number of moving images other than a moving image that specifies an interest interval, as in the method for specifying object A described in supplement (4).
  • a control program comprising a processor code such as a recording / playback apparatus such as a BD player and program codes to be executed by various circuits connected to the processor is recorded on a recording medium or distributed via various communication paths. It can also be distributed.
  • Such recording media include IC cards, hard disks, optical disks, flexible disks, ROMs, and the like.
  • the distributed and distributed control program is used by being stored in a memory or the like that can be read by the processor, and the processor executes the control program, thereby realizing various functions as shown in the embodiment. Will come to be.
  • the cloud server may execute detection of an object from a moving image included in the object detection unit 102 held by the interested section identification device 100 (1200).
  • the cloud server gives information about the detected object to the moving image, and the interested section specifying device 100 (1200) receives the moving image to which the information is added. Then, the interested section specifying device 100 (1200) inputs the moving image to which the detected object information is added to the object tracking unit 103, and causes the subsequent processing to be executed.
  • the object detection unit 102 adds information on the detected object to the moving image for the moving image in which the object is detected. Then, the interested section identification device 100 (1200) transmits the moving image to which the object information is added, for example, to the cloud server.
  • the cloud server executes the functions of the object tracking unit 103, the region determination unit 104, and the motion feature amount calculation unit 105, using the transmitted moving image to which the object information is added. Then, the cloud server adds feature amount information for each object of each frame to the moving image, and transmits the moving image to the interest section specifying device 100 (1200). Then, the interested section identification device 100 (1200) executes processing after calculation of specificity.
  • a part of necessary processing may be requested to an external device outside the section of interest specifying apparatus 100 (1200).
  • transmission / reception of data necessary for processing is executed between the interested area identification device 100 (1200) and the external device.
  • Each functional component shown in the above embodiment may be realized as a circuit that realizes the function, or may be realized by executing a program by one or a plurality of processors.
  • the section of interest specifying device 100 (1200) of the above-described embodiment may be configured as an IC, LSI, or other integrated circuit package. This package is incorporated into various devices and used for use, whereby the various devices realize the functions as described in the embodiments.
  • Each functional block is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • the name used here is LSI, but it may also be called IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • An interest interval specifying device is an interest interval specifying device that specifies an interest interval that is presumed that a user is interested in a moving image, and detects an object from a frame extracted from the moving image.
  • An interest section specifying method is an interest section specifying method by an interest section specifying device that specifies an interest section that is presumed to be of interest to a user in a moving image, and an object is extracted from a frame extracted from the moving image.
  • An object detection step for detecting; a motion feature amount extracting step for calculating a motion feature amount of the object with respect to the extracted frame; and a specificity of the motion of the object in the extracted frame using the motion feature amount of the object
  • a specificity calculating step for calculating the interest interval, and an interest interval specifying step for specifying the interest interval in the moving image using the specificity.
  • the interest section specifying program is an interest section specifying program for causing a computer to execute an interest section specifying process for specifying an interest section that is presumed to be interesting by a user in a moving image.
  • an object detection step for detecting an object from a frame extracted from the moving image
  • a motion feature amount extraction step for calculating a motion feature amount of the object with respect to the extracted frame, and using the motion feature amount of the object
  • the method includes a specificity calculation step of calculating the specificity of the movement of the object in the extracted frame, and an interest interval specifying step of specifying the interest interval in the moving image using the specificity.
  • the section of interest specifying device can specify a frame in which the motion of the object is unique in the moving image, it can specify the section of interest that does not get bored for the user.
  • the identified interest section is used for creating a digest video or displaying it on a monitor so that the user can recognize the content of the moving image.
  • the object detecting means detects the object from a plurality of frames included in the moving image
  • the motion feature amount extracting means is configured to detect the object in each of the plurality of frames.
  • the motion feature amount of the object is extracted, and the specificity calculation unit calculates the specificity of the motion feature amount of the object in the frame from the motion feature amount of the object in another frame for each of the plurality of frames. It is good to do.
  • the interested section specifying device can specify the interested section including the scene when the object moves peculiarly in the time axis direction.
  • the specificity calculation means for a target frame for which the specificity of the object is to be calculated, the motion feature quantity of the object in the target frame, and the target frame
  • the specificity may be calculated based on the inner product with the average of the motion feature quantities of the object in a plurality of frames other than.
  • an indicator of how similar the object motion in the target frame is to the object motion in the other frames As an index suitable for calculating the specificity. As the inner product is closer to 0, the movement of the object in the target frame does not resemble the movement of the object in other frames.
  • the specificity calculation means uses the motion feature amount of a frame included in a predetermined first section including the target frame in the moving image to calculate the target frame. It is also possible to calculate the specificity of the movement of the object.
  • the specificity of the frame included in the moving image from the other frames can be calculated, and can be used as an index for specifying the section of interest. Further, by limiting to the motion feature amount of the first section instead of the entire moving image, it is possible to reduce the load of calculation processing by the interested section specifying device.
  • the specificity calculation means includes a motion feature amount of the object of the target frame that is shorter than the first section including the target frame from the first section.
  • the specificity may be calculated from the average value of the motion feature amount of the object in each frame included in the third section excluding the second section.
  • the interested section specifying device can allow the interest section to include the monotonous motion for the second section. Even if it is a monotonous movement, if it is about several seconds, the user will not feel painful to see it, so such an interval may be included in the interest interval.
  • the specificity calculation means may determine the interval length of the second interval according to the interval length of the first interval.
  • the section of interest specifying device is appropriate according to the length of the first section. It becomes possible to set the second section with a long length.
  • the interest interval identification device may further include setting means for the user to set the second interval.
  • the interested section specifying device can specify the interested section according to the user's preference.
  • the specificity calculation means may determine the interval length of the first interval based on the moving image length of the moving image.
  • the interested section specifying device can determine the first section for calculating the specificity according to the length of the moving image.
  • the interest interval specifying device may further include setting means for the user to set the first interval.
  • the interested section specifying device can specify the interested section according to the user's preference.
  • the interest interval identification device uses each object included in a predetermined period in the moving image using the specificity of the object calculated for each frame. It is good also as specifying as the said interest area the predetermined period when the total value of specificity of this becomes the maximum.
  • the interested section identifying device can identify the interested section where the object makes a lot of unique movements.
  • the specificity calculating means calculates the specificity of the motion feature amount of the object from the motion feature amount of another object included in the frame. It is good.
  • the interested section specifying device can specify a section including a frame having an object that moves peculiarly from other objects in the frame as the interested section.
  • the specificity calculation unit may calculate the motion feature of another object when there are a plurality of other objects included in the frame. It is good also as calculating the specificity from the average value.
  • the interest section specifying device can calculate the specificity used to specify the interest section.
  • the interest interval specifying device specifies an NG scene as an interest interval, particularly when only one person moves out of the same scene while a plurality of persons are moving the same. be able to.
  • the interested section specifying device can specify a section with particularly high movement and high specificity as the interested section.
  • the interest interval specifying means may further index information indicating the start point and end point of the specified interest interval into the moving image.
  • the interested area specifying device can provide a moving image including information on the interested area.
  • indexing the information related to the section of interest it can be used, for example, for specifying a playback position (designating a skip destination) when playing back a moving image.
  • the interest interval specifying device further includes an extraction means for extracting the interest interval specified by the interest interval specifying means from the moving image, and the interest extracted by the extraction means.
  • an extraction means for extracting the interest interval specified by the interest interval specifying means from the moving image, and the interest extracted by the extraction means.
  • the section of interest specifying device further includes object position detecting means for detecting a location in the frame from which the object is extracted, and each of the objects for evaluating the movement of the object.
  • object position detecting means for detecting a location in the frame from which the object is extracted, and each of the objects for evaluating the movement of the object.
  • a region determining unit that determines a region including the object in the frame, wherein the motion feature amount extracting unit determines the motion of the object in each frame from an average value of the motion feature amount of each feature point in the region of each frame. The feature amount may be calculated.
  • the interest section identification device can more easily detect the specificity of the movement of the object than using the movement of the entire frame. it can.
  • the specificity calculation unit is configured to detect a motion feature amount calculated for each object when the object detection unit detects a plurality of objects. Weighting may be performed to calculate the specificity.
  • the motion feature amount is weighted to calculate the specificity, so that it is possible to specify an interest section that can follow the object focused on by the user. it can.
  • the specificity calculating unit may weight the objects existing within the specific range of the frame more heavily than the objects outside the specific range. Good.
  • the object that is normally the center is often photographed in the central part of the video, so for example, by setting a specific range to the central part of the frame, the object that is the center of the video can be easily weighted. To identify the section of interest.
  • the interest interval specifying device further includes accepting means for accepting designation of a specific object detected from a frame, and the specificity calculating means is the accepting means. It is also possible to give a higher weight to the specific object received in step 1 than for other objects.
  • the interest interval specifying device further includes storage means for holding one or more other moving images other than the moving image, and the accepting means includes the one or more interested portions. It is good also as accepting the object contained in many other moving images as the said specific object.
  • the interest section specifying device can select a specific object and perform weighting on the object without designation from the user.
  • the user holds a plurality of captured videos in the interest section specifying device, there is a high possibility that many objects that are of interest to the user have been captured. Therefore, an object that is frequently photographed in a plurality of other moving images can be identified as an object that is interesting to the user.
  • the motion feature amount may be an optical flow.
  • the apparatus for specifying a section of interest can be used as a device for creating a digest video from a moving image, for example, a recording / playback device such as a DVD player or a BD player.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

 興味区間特定装置は、動画から抽出したフレームからオブジェクトを検出するオブジェクト検出手段と、検出したオブジェクトの動き特徴量を算出する動き特徴量算出手段と、算出されたオブジェクトの動き特徴量を用いて、抽出したフレームにおけるオブジェクトの動きの特異度を算出する特異度算出手段と、複数の連続するフレーム各々の特異度に基づいて、動画における興味区間を特定する興味区間特定手段とを備える。

Description

興味区間特定装置、興味区間特定方法、興味区間特定プログラム
 本発明は、動画の中でユーザの興味を引く区間を特定する興味区間特定装置に関する。
 近年、ユーザは、デジタルカメラやビデオカメラなどのデジタル画像撮影機器で撮影した動画や写真など数多くのコンテンツをPCなどに保存して蓄積している。蓄積されているコンテンツが膨大になると、これらのコンテンツの内容をユーザが容易に識別できるように、コンテンツを分類したり、あるいは、コンテンツが動画の場合にはそのダイジェスト映像を作成したりして、コンテンツの内容の把握の容易化が求められることになる。
 従来、動画のダイジェスト映像を作成する手法としては、ユーザ自身が、動画の中からダイジェスト映像として用いる区間を指定して、それらの区間をつなぎ合わせて、ダイジェスト映像としていた。しかしながら、この手法はユーザの負担が大きく、また、専門的な知識も必要になるため、ダイジェスト映像作成の簡略化、自動化が望まれている。
 そこで、ユーザが興味を引くダイジェストとは、動きのある映像であると考えられることから、ダイジェストを作成する対象の動画の中で、人物の動きを検出して(例えば、特許文献1参照)、人物に動きがある区間を抽出することが考えられる。
特開2006-019387号公報
 しかしながら、上記特許文献1の場合、人物に動きがあることが検出できるだけで、ユーザにとって興味を引く区間(以下、興味区間という)を抽出できる保証がなく、適切なダイジェスト映像を作成できない可能性があるという問題がある。
 そこで、本発明は上記問題に鑑みてなされたものであり、ユーザにとって興味深いダイジェスト映像の作成に利する興味区間特定装置を提供することを目的とする。
 上記課題を解決するため、本発明に係る興味区間特定装置は、動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置であって、前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出手段と、前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出手段と、前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出手段と、前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定手段とを備えることを特徴としている。
 また、本発明に係る興味区間特定方法は、動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置による興味区間特定方法であって、前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出ステップと、前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出ステップと、前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出ステップと、前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定ステップとを含むことを特徴としている。
 また、本発明に係る興味区間特定プログラムは、動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定処理をコンピュータに実行させる興味区間特定プログラムであって、前記興味区間特定処理は、前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出ステップと、前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出ステップと、前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出ステップと、前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定ステップとを含むことを特徴としている。
 上述のような構成によって、興味区間特定装置は、抽出したフレームにおけるオブジェクトの動きの特異度に基づいて興味区間を特定するので、例えば、動画区間の中でも動きの大きい区間を興味区間として特定することができるので、ユーザにとって興味深いダイジェスト映像の作成の利便性を向上させることができる。
興味区間特定装置の機能構成例を示すブロック図である。 動画のフレームと、各フレームから抽出されるオブジェクトの一例である。 フレームにおけるオブジェクトの動きを評価する領域の一例である。 フレームにおけるオブジェクトの算出されたオプティカルフローの一例である。 フレームにおけるオブジェクトの動き特徴量を決定するためのオブジェクトの動きを評価する画素の一例である。 オブジェクトの各フレームにおける動き特徴量の一例である。 興味区間の特定方法を示すための図である。 興味区間特定装置の動作を示すフローチャートである。 動き特徴量を算出する動作を示すフローチャートである。 特異度を算出する動作を示すフローチャートである。 フレームの特異度の算出を説明するための図である。 実施の形態2に係る興味区間特定装置の機能構成例を示すブロック図である。 実施の形態2に係る興味区間特定装置の動作を示すフローチャートである。 実施の形態2に係る興味区間特定装置の特異度算出の動作を示すフローチャートである。
<発明者らが得た知見>
 発明者は、ダイジェスト映像の作成のための動画においてユーザが興味を示すと思われる興味区間の装置による特定を行うにあたって、上記特許文献1に記載の技術のようにオブジェクトの動きを利用することを考慮した。しかし、単純にオブジェクトの動きだけを興味区間特定に用いた場合、単調な動き(例えば、ただ歩いているだけの動き)でさえも、興味区間として特定される虞があることを発見した。例えば、上記特許文献1に記載の技術を用いた場合、延々と同じことの繰り返し映像(例えば、被写体の人物が歩き続ける映像)などを抽出することになり、ユーザにとって面白味のないダイジェスト映像が作成されることになるという問題がある。
 そこで、発明者は、ダイジェスト映像としてどのようなものがユーザにとって興味深いかを思索したところ、撮影されているオブジェクトの動きが特異な部分(動きが激しかったり、ユニークであったりする部分)はユーザにとって興味深い内容になっていることが多いことを知見した。
 以下、発明者が創意工夫の下、発明するに至った興味区間特定装置について、どのように特異度を算出し、どのようにその特異度に基づいてダイジェスト映像の作成に利する興味区間を特定するのかを説明する。
<実施の形態1>
 以下、本発明の一実施形態である興味区間特定装置について図面を用いて説明する。
<構成>
 図1は、興味区間特定装置100の機能構成を示すブロック図である。なお、図1には、興味区間特定装置100の周辺機器も示している。
 図1に示すように、興味区間特定装置100は、撮影装置120と、表示装置130とに接続されている。興味区間特定装置100は、撮影装置120が撮影した動画から興味区間を抽出し、表示装置130に表示させる。なお、本実施の形態においては、興味区間は予め定められた固定時間長(例えば、3分)の動画である。
 撮影装置120は、例えば、ムービーカメラやデジタルカメラなどの動画を撮影し記録する機能を有する機器である。撮影装置120は、例えば、USB(Universal Serial Bus)ケーブルを介して興味区間特定装置100に接続されている。
 表示装置130は、例えば、デジタルテレビやLCD(Liquid Crystal Display)、PDP(Plasma Display Panel)などの画像を表示する機能を有するモニタである。表示装置130は、例えば、USBケーブルを介して興味区間特定装置100に接続されている。
 以下、本発明に係る興味区間特定装置100の構成について述べる。
 図1に示すように、興味区間特定装置100は、動画取得部101と、オブジェクト検出部102と、オブジェクト追跡部103と、領域決定部104と、動き特徴量算出部105と、特異度算出部106と、興味区間特定部107と、興味区間抽出部108とを含む。
 動画取得部101は、撮影装置120から、撮影装置120が撮影した動画を取得する機能を有する。動画取得部101は、例えば、USBケーブルを接続するためのUSBポート及びUSBドライバなどのインターフェースを制御するソフトウェアから構成される。
 オブジェクト検出部102は、動画の各フレームから、オブジェクトを検出する機能を有する。オブジェクトとは、例えば、人物、人物の顔、動物、車などがあげられる。
 オブジェクト検出部102は、フレームに対してエッジ検出や、フレーム内で検索ウィンドウを移動させて、検索ウィンドウ内を、オブジェクトを識別するための分類器(人物の顔を検出する場合には、分類器は、顔学習辞書と呼称されることもある。)を用いて、各オブジェクトを判別することによって、例えば、図2に示すように、フレーム内の人物の顔を検出することができる。図2の場合、オブジェクト(顔)検出を行うことで、動画のt番目のフレーム201から、オブジェクト203が、t+1番目のフレーム202から、オブジェクト204が検出される。なお、ここで分類器は、人物の顔を検出するためのものとして説明するが、分類器は、動物や車など、人物以外を検出するためのものであってもよい。また、オブジェクト検出部102は、複数の異なる種別のものを検出するために、複数の分類器を保持していてもよく、フレームからオブジェクトを検出した場合に、そのオブジェクトの検出に用いた分類器が何を検出するためのものであるかの情報を検出したオブジェクトに対してメタデータとして付与する機能も有していてもよい。
 オブジェクト追跡部103は、オブジェクト検出部102が検出した1以上のオブジェクトそれぞれについて、次のフレームにおいてどの位置にあるかを追跡する。オブジェクト追跡部103は、当該追跡の結果、各フレームにおいて、同一であると推測されるオブジェクトについては、同じ識別子(オブジェクトID)を付与する機能を有する。オブジェクト追跡の手法の一例を、図2を用いて説明する。例えば、図2の場合であれば、連続するフレームであるフレーム201とフレーム202について、検出されたオブジェクト203とオブジェクト204の領域は、それぞれのフレームにおける位置がほぼ同じであるので、オブジェクト203とオブジェクト204とは同じオブジェクトであるとし、同一のオブジェクトIDを付与する。即ち、本実施の形態においては、フレームにおいて、各フレームにおける領域のそれぞれのフレームでの位置が近いオブジェクト同士を同一のオブジェクトであると特定する。このようにしてオブジェクト追跡部103は、複数のフレームに含まれるオブジェクトを同定することでオブジェクトを追跡する。
 領域決定部104は、動画の各フレームにおいて、オブジェクトの動きを評価するための領域を決定する機能を有する。オブジェクトの動きを検出するための領域は、追跡対象のオブジェクトを含む。図3を用いて領域決定部104による領域の決定について説明する。
 図3は、フレーム301内のオブジェクトに基づいて決定される領域を示す図である。領域決定部104は、本実施の形態においては、オブジェクト検出部102が検出した人物の顔と推定されるオブジェクトを含む領域302a(図3の左斜線部分)と、その人物の顔のサイズからその人物の体があると推定される領域302b(図3の右斜線部分)とを、合わせた領域302を、オブジェクトの動きを検出する領域として決定する。領域302bは、検出された領域302aの傾きとサイズに対してどの方向にどのようなサイズとなるかを予め定められている。なお、各フレームにおいて、対応する領域の存在する位置及び範囲はフレーム間で共通の場合もあれば、異なる場合もある。領域決定部104が決定する領域は、オブジェクト検出部102が検出するオブジェクトの内容によって、その形状及び領域として決定する範囲が定められており、オブジェクト検出部102が、検出したオブジェクトの内容から、領域の形状と範囲を決定する。
 動き特徴量算出部105は、動画に含まれる各フレームについて、そのフレームにおけるオブジェクトの動き特徴量を算出する機能を有する。動き特徴量算出部105は、動画に含まれるフレームについて、そのフレームに対して領域決定部104が決定した領域内の各画素を特定する(図4参照)。図4は、決定した領域302内の各画素を示している。そして、動き特徴量算出部105は、特定した各画素のオプティカルフローを算出する(図5参照)。なお、図5には、領域内の全画素のオプティカルフローではなく、一部のオプティカルフローの一例を示している。また、オプティカルフローの算出方法としては、一例として、勾配法を用いる。勾配法は、「物体上の点の明るさは移動後も変化しない」という仮定のもとに、時刻tにおけるフレームのある画素が、時刻t+1におけるフレームにおいてどこに移動しているかを推定し、その移動量を基にしてベクトルを求めるものである。
 そして、動き特徴量算出部105は、算出したオプティカルフローを用いて、領域決定部104が決定した領域の動き特徴量を決定する。図5を用いて、領域の動き特徴量の決定手法を説明する。
 図5に示すように、領域302の一段目左端の画素の座標(x、y)が、(a、b)、その右隣が、(a+1、b)、・・・、領域302の一段目右端の画素の座標(x、y)が、(a+w、b)、二段目左端の画素の座標が(a,b+1)であったとする。そして、座標(a、b)のオプティカルフローが(xa、yb)、座標(a+1、b)のオプティカルフローが(xa+1、yb)、・・・、座標(a+w、b)のオプティカルフローが(xa+w、yb)、座標(a、b+1)のオプティカルフローが(xa、yb+1)、・・・というように算出されたとする。このとき、領域302に対して、その動き特徴量(特徴量1、特徴量2、特徴量3、・・・、特徴量K、・・・)は、(xa、yb、xa+1、yb、・・・、xa+w、yb、xa、yb+1、・・・)と決定される。即ち、領域決定部104が決定した領域302の動き特徴量は、領域302に含まれる各画素のオプティカルフローの集合であり、領域302の一段目左端から右端、二段目左端から右端、・・・、N段目左端から右端、・・・、領域302の下端の左端から右端の順に並べたものである。このようにして、動き特徴量算出部105は、各フレームについて検出された各オブジェクトの動き特徴量を算出し、その情報をメモリ(図示せず)等に記憶する。
 図6は、記憶された動き特徴量の情報のデータ概念図である。図6に示すように、動き特徴量の情報は、各フレームを識別するためのフレーム番号に、各特徴量の種別にその特徴量の数値を対応づけた情報である。ここで、特徴量の種別とは、領域内のいずれかの画素の動きベクトルのx軸方向の動き量またはy軸方向の動き量のことである。例えば、フレーム番号3の動き特徴量として、特徴量1の数値は6に、特徴量2の数値は2となっている。
 特異度算出部106は、動画に含まれる各フレームの特異度を算出する機能を有する。各フレームの特異度とは、各フレームに含まれるオブジェクトの動きが、どれだけ、他のフレームにおけるオブジェクトの動きと異なるかを示す指標である。特異度の算出手法の詳細については、後述する。
 興味区間特定部107は、特異度算出部106が算出した各フレームの特異度を用いて、興味区間を特定する機能を有する。図7を用いて、興味区間の特定方法を説明する。図7は、横軸に時間軸を、縦軸に特異度をとった、動画の時間経過による特異度の変化を示すグラフである。興味区間特定部107は、固定長の興味区間について、興味区間長の窓701を動画の先頭から終わりに向けてずらしながら、その窓701に含まれるフレームの特異度を合算し、その合算値が最も高くなったところでの窓701を興味区間として特定する。そして、興味区間特定部107は、特定した興味区間の始点を示す情報と興味区間の終点を示す情報とを動画に対して付与する。これは、興味区間の始点を示すタグ(以降、始点タグと呼称する)と、興味区間の終点を示すタグ(以降、終点タグと呼称する)とを、動画に対して付与する(インデキシングする)ことで行われる。
 興味区間抽出部108は、興味区間特定部107が動画に対して付した始点タグと終点タグとに基づき、始点タグを開始点、終点タグを終了点とする動画である興味区間動画を動画から抽出する機能を有する。
 出力部109は、興味区間抽出部108が抽出した興味区間動画を、表示装置130に出力する機能を有する。
 表示装置130は、出力部109から出力された興味区間動画を再生し、ユーザはこれを見ることで、動画の内容を短時間で認識するとともに、興味区間動画を興味深く視聴することができる。

<動作>
 次に、本実施の形態に係る興味区間特定装置100の動作を図7に示すフローチャートを用いて説明する。
 まず、興味区間を特定するための基本動作を説明する。
 興味区間特定装置100の動画取得部101は、動画を撮影装置120からUSBケーブルを介して入力され、取得する(ステップS801)。動画取得部101は、取得した動画をオブジェクト検出部102に伝達する。
 オブジェクト検出部102は、伝達された動画から、各フレームについて、その表示されるべき画像に含まれているオブジェクトを検出する(ステップS802)。オブジェクト検出部102は、検出した1以上のオブジェクトについての情報をオブジェクト追跡部103に伝達する。
 オブジェクト追跡部103は、各フレームから検出されたオブジェクトについて、それぞれのオブジェクトが、どのフレームのどの位置に存在するかを追跡し、フレーム間で共通するオブジェクトを同じオブジェクトIDを付与して同定する(ステップS803)。
 領域決定部104は、オブジェクト追跡部103による追跡の結果、検出されているオブジェクト毎に、各フレームにおいてそれぞれのオブジェクトについて動きを検出する領域を決定する(ステップS804)。
 動き特徴量算出部105は、領域決定部104により決定された各オブジェクトの各領域について、その領域が動き特徴量を算出する対象の対象フレームから、次のフレームまでで、どの程度動いているかに基づき、各フレームの動き特徴量を算出する(ステップS805)。即ち、動き特徴量算出部105は、動画の各フレームについて、領域に含まれる各画素のオプティカルフローの集合から成るベクトルをそのフレームの動き特徴量として生成する。
 特異度算出部106は、動き特徴量算出部105が算出した各フレームの動き特徴量を用いて、各フレームの特異度を算出する(ステップS806)。フレームの特異度の算出の詳細は、図10のフローチャートを用いて、後述する。
 興味区間特定部107は、算出された各フレームの特異度に基づき、動画において興味区間長分の連続するフレームの特異度の合算値が最高となる区間を、動画の興味区間として特定し、興味区間の始点と終点を示す情報を動画に対して付与(インデキシング)する(ステップS807)。
 興味区間抽出部108は、興味区間特定部107が特定した興味区間を動画から抽出し、抽出した興味区間動画を出力部109に伝達する。そして、出力部109は、伝達された興味区間動画を表示装置130に出力する(ステップS808)。表示装置130は、興味区間特定装置100から伝達された興味区間動画を表示し、ユーザは動画全てを視聴せずとも、興味区間の内容を確認するだけで、動画の内容を認識することができる。
 次に、図8のステップS805における動き特徴量の算出についての詳細を説明する。
 図9は、動き特徴量算出部105による動き特徴量の算出動作を示すフローチャートである。
 動き特徴量算出部105は、各フレームにおける領域302内の各画素のオプティカルフローを算出する(ステップS901)。
 動き特徴量算出部105は、各フレームについて算出したオプティカルフローを各フレームにおけるオブジェクトの大きさに基づいて正規化する(ステップS902)。動き特徴量算出部105は、例えば、オブジェクトの顔の大きさ情報を基に、各画素におけるオプティカルフローを、拡大する場合には線形補間を、縮小する場合には縮小元領域の平均をとる方法がある。これは、同じオブジェクトを被写体とした場合でも撮影装置120と被写体のオブジェクトとの距離により、動画におけるオブジェクトの大きさが変わるものであり、オブジェクトの動き特徴量を決定する処理において、オブジェクトの大きさは一定であるとして決定しているためである。
 そして、動き特徴量算出部105は、各フレームについて、それぞれのフレームに含まれるオブジェクトに対して定められた領域に含まれる各画素のオプティカルフローの集合からなる動き特徴量を算出する(ステップS903)。
 これにより、図6に示すように、各フレームについて動き特徴量が算出される。
 次に、特異度の算出についての詳細を、図10及び図11を用いて説明する。
 図10は、特異度算出部106による特異度の算出動作を示すフローチャートである。また、図11は、特異度を算出する際に、用いるフレームを説明するための図である。図11は、x軸に時間を、y軸に動き特徴量種別と、z軸に特徴量をとった、3次元グラフであり、各時間における動画の各フレームにおけるあるオブジェクトの動き特徴量を示した概念図である。
 特異度の算出に用いられる動き特徴量について図11を用いて説明する。特異度を算出する対象となっている対象フレームの特異度は、対象フレームの動き特徴量が、対象フレームの前後の定められた範囲のフレームの動き特徴量からどれだけ似ていないかを示すものである。図11に示すように、特異度を算出する対象の対象フレームを中心に、その前M(Mは2以上の整数)フレーム及び後ろMフレームを第1区間とする。また、対象フレームを中心に、その前N(Nは1以上M未満の整数)フレーム及び後ろNフレームを第2区間とする。そして、対象フレームの特異度の算出には、対象フレームの動き特徴量と、第1区間から第2区間を除いた第3区間に含まれるフレームの動き特徴量の平均値とを用いる。なお、ここでは、Mは300フレーム、Nは60フレームとする。300フレームは動画の10秒、60フレームは動画の2秒に相当する。
 以下、図10のフローチャートを用いて詳細に説明する。
 特異度算出部106は、特異度を算出する対象の対象フレームを決定する(ステップS1001)。これは、動画の全フレームについて特異度が算出されればよいので、動画の初めから終わりまで順番に決定してもよいし、終わりから初めまで逆順に決定してもよいし、ランダムに決定してもよい。ここでは、動画の初めから順に算出することとする。
 特異度算出部106は、対象フレームに含まれる1つのオブジェクトを選択する(ステップS1002)。
 次に、特異度算出部106は、選択したオブジェクトの対象フレームを基準とする第3区間(2M―2N)分のフレームの動き特徴量から、平均動き特徴量を算出する(ステップS1003)。
 具体的には、特異度算出部106は、対象フレームkにおけるオブジェクトAの動き特徴量を、以下の数1で表す。
Figure JPOXMLDOC01-appb-M000001
 そして、対象フレームkに対して、特異度の比較対象である第3区間のオブジェクトAの平均動き特徴量を、以下の数2で表すとする。
Figure JPOXMLDOC01-appb-M000002
 すると、第3区間のオブジェクトAの平均動き特徴量は、以下の数3で表すことができる。
Figure JPOXMLDOC01-appb-M000003
 なお、k≦Nの場合には、対象フレームkに対して、特異度の算出に用いる、第3区間のオブジェクトAの平均動き特徴量は、以下の数4で表すことができる。
Figure JPOXMLDOC01-appb-M000004
 また、動画における全フレーム数をfmaxとした場合、fmax-N≦kのときの対象フレームkにおけるオブジェクトAの平均動き特徴量は、以下の数5で表すことができる。
Figure JPOXMLDOC01-appb-M000005
 そして、特異度算出部106は、上記数1に示す数式及び平均動き特徴量を用いて、対象フレームkにおける選択したオブジェクトのスコアを算出する(ステップS1004)。
 対象フレームkにおけるオブジェクトAのスコアは、以下の数6で表すことができる。
Figure JPOXMLDOC01-appb-M000006
 即ち、フレームkにおけるオブジェクトAの動き特徴量の絶対値を、フレームkにおけるオブジェクトAの動き特徴量とフレームkに対する第3区間のオブジェクトAの平均動き特徴量の内積に1を足した値で、除算したものを、フレームkにおけるオブジェクトAのスコアとして用いる。
 特異度算出部106は、選択した対称フレームにおいて、全てのオブジェクトについてのスコアを算出したか否かを判定する(ステップS1005)。全てのオブジェクトについてのスコアを算出していない場合には(ステップS1005のNO)、ステップS1002に戻る。
 全てのオブジェクトについてのスコアを算出していた場合には(ステップS1005のYES)、算出した各オブジェクトのスコアを合算して、対象フレームの特異度を算出する(ステップS1006)。
 次に特異度算出部106は、全てのフレームについての特異度を算出したか否かを判定する(ステップS1007)。全てのフレームについての特異度を算出していない場合には(ステップS1007のNO)、ステップS1001に戻る。
 全てのフレームについての特異度を算出している場合には(ステップS1007のYES)、特異度算出の処理を終了する。
 以上が、興味区間特定装置100の動作である。
 興味区間特定装置100は、上述の構成を備えることにより、動画の中でも、特にオブジェクトの動きの変化が富んでいる部分を興味区間として特定することになるので、ユーザに飽きさせない興味区間を提供することができるようになる。
<実施の形態2>
 上記実施の形態1においては、オブジェクトの動きの特異性を検出するにあたって、他のフレームにおける同じオブジェクトの動きと比較することで検出することとした。しかし、オブジェクトの特異性を検出する方法はこれに限らない。本実施の形態2においては、上記実施の形態1とは異なる特異性の検出方法を説明する。なお、本実施の形態2においては、上記実施の形態1と共通する内容については、説明を省略し、異なる点について述べることとする。
 また、本実施の形態2においては、動画には複数のオブジェクトが撮影されていることを前提とする。
<構成>
 実施の形態2に係る興味区間特定装置1200は、図12に示す通り、動画取得部101と、オブジェクト検出部102と、動き特徴量算出部105と、特異度算出部1206と、興味区間特定部1207と、興味区間抽出部108と、出力部109とを含む。図12においては、図2に示す興味区間特定装置100と同一の機能を果たす機能部については、同一の名称と付番を付し、説明を簡略化もしくは省略する。
 オブジェクト検出部102において、検出されたオブジェクトの情報は、オブジェクト追跡部103、領域決定部104を経て、動き特徴量算出部105に伝達される。
 動き特徴量算出部105は、各フレームについて、オブジェクト検出部102により検出された各オブジェクト毎の動き特徴量を算出する。そして、動き特徴量算出部105は、算出した動き特徴量を特異度算出部1206に伝達する。
 受付部1205は、ユーザからオブジェクト検出部102により検出されたオブジェクトの中から選択した特定のオブジェクトの指定を受け付け、当該特定のオブジェクトについての情報を特異度算出部1206に伝達する機能を有する。
 特異度算出部1206は、特定のオブジェクトについて、同じフレーム内に撮影されている他のオブジェクトからどれだけ特異であるかを算出する機能を有する。
 特異度算出部1206は、オブジェクト検出部102により検出された複数のオブジェクトの中から受付部1205から受け付けた特定のオブジェクトを選択する。そして、特定されたオブジェクトの動き特徴量が、他のオブジェクトの動き特徴量から、どれだけ特異であるかを算出する。
 興味区間特定部1207は、特異度算出部1206により算出された各フレームにおける特定のオブジェクトの特異度に基づき興味区間を特定する機能を有する。具体的には、興味区間特定部1207は、特異度算出部1206が算出した各フレームの特異度Pの合算値が最も大きい所定期間(興味区間として特定したい動画長であって、例えば、3分間あるいは同等のフレーム数)を興味区間として特定する。
<動作>
 実施の形態2に係る興味区間特定装置1200の興味区間を特定する動作について、図13、図14のフローチャートを用いて、説明する。なお、図13、図14のフローチャートにおいては、興味区間特定装置1200の動作として、上記実施の形態1に示した興味区間特定装置100と共通する内容については、図8や図10などのフローチャートと同じ符号を付与し、説明を割愛する。
 興味区間特定装置1200の動き特徴量算出部105は、各フレームについて、各オブジェクトの動き特徴量を算出する(ステップS805)。
 そして、興味区間特定装置1200の特異度算出部1206は、動画の各フレームから抽出した各オブジェクトについて算出された動き特徴量を受け取り、オブジェクトの特異度を算出する。
 オブジェクトの特異度の算出方法の詳細は、図14のフローチャートに示す通りである。
 対象フレームが決定された後、受付部1205は、特異度を算出する対象となる特定のオブジェクトの指定を、ユーザから受け付ける(ステップS1401)。
 そして、特異度算出部1206は、対象フレームについて、特定のオブジェクトの特異度を算出する(ステップS1404)。具体的には、特異度算出部1206は、指定された特定のオブジェクトについて、特異度を算出する対象の対象フレームに含まれる他のオブジェクトの動き特徴量の平均値からの特異度を算出する。具体的には以下のように算出する。
 まず、特異度を算出する対象の対象フレームについて、特定されたオブジェクトの動き特徴量を、以下の数7で表すとする。
Figure JPOXMLDOC01-appb-M000007
 また、特定されたオブジェクト以外の他のオブジェクトの動き特徴量を、以下の数8で表すとする。
Figure JPOXMLDOC01-appb-M000008
 なお、kは、他のオブジェクトを識別するためのインデックスである。ここでは、対象フレームにおいてインデックスnまであるものとする。
 他のオブジェクトの動き特徴量の平均値ベクトルbk,aveは、以下の数9のように表すことができる。
Figure JPOXMLDOC01-appb-M000009
 この時、対象フレームにおける特定されたオブジェクトの特異度Pは、以下の数10で表すことができる。
Figure JPOXMLDOC01-appb-M000010
 特異度算出部1206は、この特異度Pを対象フレームの特異度として算出する(ステップS1406)。
 以上のようにして、特異度算出部1206は、各フレームにおける特異度を算出する。
 そして、興味区間特定部1207は、特異度算出部1206から、各フレームについての特異度を受け取り、所定期間(図7に示す窓701の期間)について、特異度の合算値が最も高くなる所定期間を興味区間として特定する。
 このような構成によって、興味区間特定装置1200は、例えば、動画が子供たちの運動会での組体操のシーンを撮影したものであった場合に、一人だけ他の子どもとは異なった動きをしているNGシーンの抽出に役立つ。即ち、興味区間特定装置1200は、複数のオブジェクトが同様の動作をしている中で、それら複数のオブジェクトとは異なる動作をしているオブジェクトがあるようなシーンを興味区間として特定することができる。
<変形例>
 上記実施の形態に従って、本発明に係る興味区間特定装置について説明してきたが、本発明の実施の形態はこれに限られるものではない。以下、本発明の思想として含まれる各種変形例について説明する。
 (1)上記実施の形態においては、興味区間特定装置100(1200)が特定する興味区間の長さは予め定められていることとした。しかし、興味区間長は、固定でなくともよい。
 例えば、興味区間を抽出する対象となる動画の動画長に対して、所定の割合(例えば一割)の長さであってもよい。
 あるいは、興味区間特定装置100(1200)は、動画の種別に応じて、抽出する興味区間長を変更してもよい。動画の種別とは、バラエティ、スポーツ、ドラマ、ニュースなど、動画の内容のジャンルのことである。この場合、興味区間特定装置は、動画のジャンルに対応付けて、興味区間長を定めた興味区間長テーブルを保持し、動画取得部101は、取得した動画のメタデータなどを用いて、動画の種別を特定し、興味区間特定部107(1200)は、保持している興味区間長テーブルにおいて、特定された動画の種別に対応する興味区間長を取得して、その長さの興味区間を特定する。このような構成をとることで、興味区間特定装置100(1200)は、動画の種別に応じて、興味区間の適切な長さを特定できれば、より適切な興味区間を特定できるようになる。動画のジャンルが特定できない場合には、ユーザがジャンルを入力して興味区間長を特定してもよいし、予め定めた長さを興味区間長としてもよい。
 あるいは、興味区間特定装置100(1200)は、ユーザが興味区間長を設定するための設定手段(インターフェース)を備えていてもよい。この場合、興味区間特定手段は、ユーザにより設定された興味区間長の興味区間を特定する。興味区間の設定は、直接、興味区間の秒数を入力することとしてもよいし、あるいは、長め、普通、短めというような興味区間長を定めるためのボタンを備えたインターフェースに対する入力で以て決定することとしてもよい。このように、ユーザが望ましい長さの興味区間を特定する構成としてもよい。
 (2)上記実施の形態においては、各フレームの特異度を算出するための、第1区間及び第2区間の長さは、予め定められていることとした。しかし、第1区間長及び第2区間長は固定でなくともよい。
 例えば、興味区間特定装置100(1200)は、動画の種別に応じて、第1区間長、第2区間長を定めることとしてもよい。動画の種別とは、バラエティ、スポーツ、ドラマ、ニュースなど、動画の内容のジャンルのことである。この場合、興味区間特定装置100(1200)は、動画のジャンルに対応付けて、第1区間長及び第2区間長を定めた区間長テーブルを保持し、動画取得部101は、取得した動画のメタデータなどを用いて、動画の種別を特定し、特異度算出部106(1206)は、保持している区間長テーブルにおいて、特定された動画の種別に対応する第1区間長及び第2区間長を取得して、特異度を算出する。このような構成をとることで、興味区間特定装置100(1200)は、動画の種別に応じて、第1区間及び第2区間の適切な長さを特定できれば、より的確な値の特異度を算出できるようになる。動画のジャンルが特定できない場合には、ユーザがジャンルを入力して第1区間長及び第2区間長を特定してもよいし、予め定めた長さを第1区間長及び第2区間長としてもよい。
 あるいは、興味区間特定装置100(1200)は、ユーザが第1区間長及び第2区間長を設定するための設定手段(インターフェース)を備えていてもよい。この場合、特異度算出部106(1206)は、ユーザにより設定された第1区間長の第1区間及び第2区間長の第2区間を用いて、特異度を算出する。
 (3)上記実施の形態に示した興味区間特定装置100(1200)による特異度の算出方法は一例であり、動画におけるオブジェクトの動きの特異さを算出できるのであれば、その他の手法を用いて算出することとしてもよい。
 例えば、上記実施の形態1においては、フレームの特異度を算出するにあたり、第2区間の動き特徴量を用いないこととしたが、第2区間長を0として、第1区間の対象フレームを除くすべてのフレームの動き特徴量を用いてもよい。
 あるいは、上記数6、数10において、分子を1にしてもよい。
 あるいは、特異度を算出するために用いるフレームの動き特徴量について、特定のフレームの動き特徴量がより反映されるように、フレームに対して算出された特異度に対して重み付けを行ってもよい。
 更には、上記数6、数10を変形する以外の手法を用いてもよい。例えば、単純に、対象フレームの動き特徴量と、第3区間の動き特徴量の平均値との内積のみを特異度として用いることとしてもよい。この内積は、0に近いほど、特異性(特異度)が高く、1に近いほど、特異性(特異度)が低いことになる。
 (4)上記実施の形態においては、興味区間特定装置100(1200)は、動画から複数のオブジェクトが検出されている場合には、各オブジェクトの動く特徴量から算出した特異度を合算することで対象フレームの特異度とした。しかし、対象フレームの特異度の算出には別の手法を用いてもよい。
 即ち、オブジェクト検出部102が複数のオブジェクトを検出している場合には、オブジェクトそれぞれに算出された特異度に対して、重み付けを行った上で、対象フレームの特異度として算出することとしてもよい。
 例えば、動画から3つのオブジェクトA、B、Cが検出されたとし、それぞれのオブジェクトの対処フレームにおける特異度がPA、PB、PCと算出されたとする。また、興味区間特定装置100(1200)は、オブジェクト検出部102が検出したオブジェクトが何であるかを特定するためのオブジェクト特定部を備えることとする。そして、オブジェクトの特定には、各種オブジェクトの特徴を示す分類器を用いる。興味区間特定装置100(1200)は、オブジェクトに対する重み付けを行うためのオブジェクト分類表を保持し、オブジェクト分類表には、オブジェクトの内容(人物、動物、建築物など)に応じて重み付け値が対応付けられている。オブジェクト分類表において、オブジェクトA、B、Cに対する重み付け値が、それぞれ、WA、WB、WCであるとする。すると、この場合、特異度算出部106は、対象フレームの特異度を、PA×WA+PB×WB+PC×WCと算出する。興味区間特定装置100(1200)は、このような構成をとって、検出されるオブジェクトに応じた特異度を算出して、興味区間を抽出することとしてもよい。
 このとき、あるオブジェクトAが、その動画において、中心に撮影されていたとする。つまり、オブジェクトAに相当する人物を主人公としてその動画が撮影されているとする。そのような場合には、オブジェクトAの動きの特異度が中心となるように興味区間が特定されるのが望ましい。
 そこで、興味区間特定装置100(1200)は、上記実施の形態2のように受付部1205を備え、受付部1205が、ユーザからオブジェクトAが動画の中心であるとの指定を受けているとする。すると、興味区間特定装置100(1200)は、オブジェクトAの重みが大きくなるよう、WAを例えば、1.5に設定し、その他の重みを0.5に設定する。このように、特定のオブジェクト優先の興味区間特定を実行することもできる。なお、ここでは、オブジェクトAの重みを1.5、その他を0.5としているが、この数値は一例であり、オブジェクトAの重みが、その他のオブジェクトの重みより重ければよい。
 また、興味区間特定装置100(1200)は、次のように重みを決定してもよい。上述では、オブジェクトAの指定をユーザから受け付けることとしている。しかし、以下のようにして、興味区間特定装置100(1200)がオブジェクトAを指定してもよい。
 興味区間特定装置100(1200)は、興味区間を抽出しようとする動画以外の動画を複数記憶する記録媒体を備えているものとする。あるいは、複数の動画を記憶する興味区間特定装置100外部にある記録媒体(ネットワーク上のメモリであってもよい)にアクセスする機能を有するものとする。
 そして、記録媒体に記録されている複数の動画から1以上のオブジェクトを検出する。ここで、オブジェクトを検出するフレームは、各動画の任意のフレームから抽出する。即ち、全てのフレームから抽出してもよいし、ランダムに選択した1以上のフレームから抽出することとしてもよい。そして、検出された1以上のオブジェクトについて、同じオブジェクトであるか否かを判定するために、検出された各オブジェクトの特徴量に従って、クラスタリングする。
 そして、興味区間特定装置100(1200)は、そのようにクラスタリングされて得られる各クラスタを、1つの同一のオブジェクトであると認定する。
 そして、各クラスタについて、各クラスタに属するノード(オブジェクトの特徴量)の個数が最も多いものが、興味区間特定装置100のユーザにとって重要なオブジェクト(被写体)であるとして、上述のオブジェクトAを特定してもよい。
 なお、ここで、最も多いものをオブジェクトAとして特定しているが、これは、予め所定のノードの個数を閾値として定めておき、この閾値を超えたクラスタに対応するオブジェクトについて、特異度の重み付けを行うこととしてもよい。このときの重み付けは、閾値を超えたクラスタに対応するオブジェクトの重みが、他のオブジェクトの重みよりも大きくなればよい。また、この場合には、閾値を超えたクラスタに対応するオブジェクト複数について重み付けを実行することもあるが、この重み付けは、均一の値であってもよいし、ノードの個数の多かったものから順に予め定めた重み値を乗じてもよいし、閾値を超えたものについて重み付け値の傾斜配分(重み値の総量を定めて、閾値を超えたオブジェクトについて、それぞれのクラスタに属するノードの個数に応じて、前述の総量を配分する)を行って、重み値を乗じてもよい。
 あるいは、動画の中心となるものは、フレームの中心部分に撮影されていることが多いため、検出されたオブジェクトそれぞれについて、中心部分に撮影されているかを判定して重みを決定することとしてもよい。
 例えば、フレーム内の(X1、Y1)‐(X2(X2>X1)、Y2(Y2>Y1))(X1、X2、Y1、Y2はフレームにおける画素の座標値)を対角線とする長方形の範囲内をフレームの中心部分と定め、各オブジェクトがその中心部分内にあるか否かを判定する。そして、中心部分内にあるオブジェクトの重みを1とし、中心部分外にあるオブジェクトの重みを0とする。ここで、中心部分内のオブジェクトの重みが中心部分外のオブジェクトの重みよりも大きければよく、1や0に限定するものではない。なお、オブジェクトが中心部分内と中心部分外とに跨る場合には、オブジェクトの占める面積の多い方に該当するものと定める。興味区間特定装置100(1200)は、このようにして重みを決定する構成を有してもよい。
 (5)上記実施の形態においては、興味区間特定部106(1206)による興味区間の特定手法として、所定期間に含まれるフレームそれぞれの特異度の合算値が最大となる所定期間を興味区間として特定することとした。しかし、興味区間の特定手法はこれに限るものではなく、動きの特異な区間を特定できるのであれば、その他の手法を用いることとしてもよい。
 例えば、連続するフレームについて、あるフレームとその次のフレームとの動き特徴量の差分が、所定の閾値を超える箇所を特定し、その箇所を最も多く含む所定期間を興味区間として特定してもよい。
 あるいは、動画における連続するフレーム間の動き特徴量の差分値を全て求め、その差分値の合算が最大となる所定期間を特定し、その所定期間を特定するために用いられた差分値を算出するのに用いた動き特徴量に対応するフレーム全てを含む期間を興味区間として特定してもよい。
 (6)上記実施の形態においては、興味区間特定装置100(1200)は、動画から一つの興味区間を特定することとなる。しかしながら、動画から特定される興味区間は、一つでなくともよい。
 例えば、興味区間特定装置100(1200)は、特異度の合算値が所定の閾値を超える所定期間を特定し、これらを全て興味区間としてもよい。このとき、特異度の合算値ではなく、平均値を所定の閾値と比較することとしてもよい。このような構成によって、複数の興味区間を抽出できるようになる。なお、この条件を満たす2つの所定期間が互いに重複しあう場合には、早い方の所定期間の始点を興味区間の始点とし、遅い方の所定期間の終点を興味区間の終点とする予め定められている長さを超える興味区間を特定することとしてもよい。
 また、複数の興味区間を特定する場合には、出力部109は、これらの複数の興味区間をつなぎ合わせたダイジェスト映像を出力することとしてもよい。ダイジェスト映像の作成は、興味区間抽出部108が実行すればよい。
 これにより、興味区間特定装置100(1200)の利便性を向上させることができる。
 (7)上記実施の形態においては、特異度算出部106(1206)は、全てのフレームの特異度を算出し、興味区間特定部107(1207)は、全てのフレームの特異度に基づき興味区間を特定することとした。しかし、これは一例であり、ある程度、興味区間を特定できるのであれば、全てのフレームの特異度を算出せずともよい。
 例えば、特異度算出部106(1206)は、動画の各フレームについて、偶数番あるいは奇数番のフレームの特異度のみを算出することとしてもよいし、特定数のフレーム毎にそのフレームの特異度のみを算出することとしてもよい。即ち、特異度算出部106(1206)は、動画のフレームを間引いて、特異度を算出してもよい。そして、興味区間特定部107(1207)は、特異度が算出されたフレームのみを用いて、興味区間を特定することとしてもよい。
 このような構成をとることで、興味区間特定装置は、特定する興味区間の精度は、全てのフレームの特異度を算出した場合に比して落ちるものの、興味区間特定装置100(1200)の算出処理の負担を低減するとともに、興味区間を特定するに至るまでの時間を短縮することができる。
 (8)上記実施の形態1においては、対象フレームの動き特徴量が、第3区間の各フレームの動き特徴量からみて、どれほど特異であるかを算出することとしたが、これは、第3区間の各フレームではなく、対象フレームを除く動画全体の各フレームの動き特徴量からみた特異性であってもよい。
 (9)上記実施の形態においては、オブジェクト追跡部103によるオブジェクトの追跡は、あるフレームにおけるオブジェクトと次のフレームにおけるオブジェクトとの位置(フレームにおけるオブジェクトの座標位置)の近いものを同一のオブジェクトとして追跡することとした。しかし、オブジェクトの追跡には、これ以外の手法を用いてよく、オブジェクトの追跡は、オブジェクト検出部102が検出した各フレームについて、あるフレームとその次のフレームにおいて検出されたオブジェクト間の類似性を算出することで行われてもよい。当該類似性は、検出された各オブジェクトについて、例えば、ガボールフィルタなどを用いることにより得られる画像特徴量の類似性を算出することで得られる。
 このような手法によっても、フレーム間のオブジェクトの同定を実行できる。
 (10)上記実施の形態においては、領域決定部104が決定する領域302は、オブジェクト検出部102が検出したオブジェクト(顔)と、それに付随するはずの体とを含むこととした。しかし、この領域302は、これ以外の範囲であってもよく、例えば、検出するオブジェクトを人物の顔とした場合、動きを評価すべき領域も同様に顔の領域(図3で言えば領域302aのみ)にしてもよい。つまり、オブジェクト検出部102で検出されたオブジェクトの領域の一部を含むような領域でも良いし、上記実施の形態のように、検出されたオブジェクトの領域を包含するような領域としても良い。
 (11)上記実施の形態においては、興味区間特定部107(1207)は、窓701に含まれるフレームの特異度を合算し、その合算値が最も高くなるところを興味区間として特定することとした。しかし、これは単純な合算ではなく、その他の計算を行ってもよい。
 例えば、窓701に含まれるフレームのうち、後方のフレームの特異度に対して重み付けを行ってから合算してもよい。このような構成にすると、オブジェクトの動きについて変化に富んだ区間が前半よりも後半に存在するような興味区間を抽出しやすくなる。
 (12)上記実施の形態においては、動き特徴量算出部105が、オブジェクトの動きを評価するための領域を基にオブジェクトの動き特徴量を算出する方法として、動きを評価すべき領域内における各画素のオプティカルフローを算出し、それらの情報を並べたものを動き特徴量とする方法を例として説明したが、これ以外の手法を用いてもよい。
 例えば、画像全体のオプティカルフローを算出し、それらの平均値を領域内の各画素から減算してもよい。こうすることで、例えば、オブジェクト自体が動いているわけではないが映像が左右にパンすることで算出されてしまうオプティカルフローの影響を軽減することができる。また、動きを評価すべき領域内における各画素の輝度の前後フレームにおける差分値を算出し、それらの情報を並べたものを動き特徴量としても良い。また、各フレームにおける動きを評価すべき領域の大きさをもとに撮影装置120とオブジェクトとの距離を推定し、その情報を動き特徴量として加えても良い。
 また、動き特徴量として、オプティカルフローではなく、輝度変化量を用いることとしてもよい。
 (13)上記実施の形態においては、領域の動き特徴量は、領域302の一段目左端から右端、二段目左端から右端、・・・、N段目左端から右端、・・・、領域302の下端の左端から右端の順に並べた各画素のオプティカルフローの集合であるとしたが、オプティカルフローの順序は、この限りではない。各フレームのオブジェクトについて、その動き特徴量の画素の並び順が共通であれば、その他の順序であってもよい。例えば、領域302の一段目右端から左端、二段目右端から左端、・・・、N段目右端から左端、・・・、領域302の下端の右端から左端の順に並べたものであってもよいし、下端から上端方向への並びであってもよい。
 (14)上記実施の形態において、興味区間特定部107(1207)は、動画に対して特定した興味区間の始点及び終点を示す始点タグと終点タグとを付与することとした。しかし、興味区間の区間長が固定である場合には、いずれか一方のみを付与する構成をとってもよい。一方のタグが付されることでそこから興味区間長だけ離れたところ(始点タグが付与されている場合は、そこから興味区間長だけ後、終点タグが付与されている場合は、そこから興味区間長だけ前)が興味区間の端点になる。
 (15)上記実施の形態には示していないが、興味区間特定装置100(1200)は、動画取得部101が取得した動画、興味区間特定部107(1207)が興味区間の始点と終点を示す情報のインデキシングを実行した動画、興味区間抽出部108が抽出した動画等を記憶する記憶部を備えていてもよい。記憶部は、例えば、HDD(Hard Disc Drive)やSSD(Solid State Drive)フラッシュメモリなどにより実現される。
 (16)上記実施の形態においては、興味区間特定装置100(1200)は、撮影装置120から動画を取得することとしたが、これは、撮影装置120以外から取得することとしてもよい。
 例えば、興味区間特定装置100にUSBフラッシュメモリドライブを搭載して、USBフラッシュメモリに記憶されている動画を取得することとしてもよいし、あるいは、興味区間特定装置100(1200)にネットワーク通信機能を搭載して、インターネットから動画をダウンロードして取得することとしてもよい。
 (17)上記実施の形態においては、出力部109は、表示装置130に抽出した興味区間の動画を出力することとしたが、出力先は、表示装置130に限るものではない。
 例えば、興味区間特定装置100(1200)に接続されたUSBフラッシュメモリに出力して記憶させることとしてもよいし、インターネットにアップロードすることとしてもよい。
 また、出力部109は、興味区間部分の動画のみを出力するのではなく、興味区間の始点と終点を示す情報をインデキシングした動画全体を出力することとしてもよい。
 (18)上記実施の形態においては、興味区間特定装置100(1200)は、オブジェクトの動きの大きい区間を興味区間として抽出することになっているが、この場合、動画において場面が転換してしまったために、大きな動きが検出されてしまっている場合も考えられる。
 そこで、興味区間特定装置100(1200)は、動き特徴量の変化が所定の閾値以上に大きい場合に、場面転換が発生したものと判断し、興味区間を抽出する対象の動画をその点で分割し、2つになった動画から興味区間を抽出することとしてもよい。この場面転換の検出は動き特徴量の変化ではなく、特異度の変化が所定の閾値以上に大きい場合を判断基準としてもよい。
 (19)上記実施の形態2においては、特定のオブジェクトの指定をユーザから受け付けて、この特定のオブジェクトの特異度を算出し、対象フレームの特異度とする構成を示した。
 しかし、ユーザからの特定のオブジェクトの指定を受け付けないことも考えられる。このような場合には、特定のオブジェクトを興味区間特定装置1200が選択する構成をとる。即ち、ユーザから特定のオブジェクトの指定を受け付ける受付部1205に換えて、予め定められたアルゴリズムに従ってオブジェクトを選択するオブジェクト選択部を備える構成としてもよい。
 具体的には、以下のような手法を採用するとよい。
 興味区間特定装置1200のオブジェクト検出部102は、入力された動画について、各フレーム毎に、フレームに含まれる各オブジェクトを検出する。そして、動き特徴量算出部105は、検出された各オブジェクトの動き特徴量を算出する。
 そして、特異度算出部1206は、まず、各フレームに含まれる全オブジェクトの動き特徴量の平均値を算出する。そして、次に、各フレームに対して、そのフレームに含まれる各オブジェクトの動き特徴量と算出された平均値との距離を算出する。この距離が、所定の閾値以上に離れているオブジェクトをそのフレームにおいて、特異な動きをしているオブジェクトであるとして、そのオブジェクトを特定のオブジェクトとして選択する。
 そして、当該特定のオブジェクトに対して、上記実施の形態2で示した手法を用いて、特異度を算出しての興味区間の特定を行ってもよい。なお、ここで、興味区間の特定にあたっては、上記実施の形態2以外の手法を用いてもよく、特定のオブジェクトを選択するために算出した距離の合算値が最も大きい所定区間を興味区間として特定してもよい。なお、ここでは、距離の合算値としているが、興味区間の特定手法としては、例えば、距離が最も大きかったフレームを中心とする前後所定期間分の動画を興味区間として特定してもよい。
 また、オブジェクト選択部は、補足(4)に記載したオブジェクトAの特定手法のように、興味区間を特定する動画以外の動画に多く含まれるオブジェクトを特定のオブジェクトとして、選択することとしてもよい。
 (20)上記実施の形態に示した構成及び各種変形例に示した構成を組み合わせることとしてもよい。
 (21)上述の実施形態で示した通信に係る動作、興味区間特定処理等(図8~図10、図13~図14参照)を興味区間特定装置あるいは興味区間特定装置を搭載したDVDプレーヤやBDプレーヤなどの録画再生装置等のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布させることもできる。このような記録媒体には、ICカード、ハードディスク、光ディスク、フレキシブルディスク、ROM等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより、実施形態で示したような各種機能が実現されるようになる。
 (22)上記実施の形態に示した興味区間特定装置100(1200)が実行した処理内容について、ネットワーク上のクラウドサーバ等の他のコンピュータや装置に処理を依頼して、上記実施の形態に示す興味区間の特定を実現してもよい。
 例えば、興味区間特定装置100(1200)が保持していたオブジェクト検出部102が有する動画からのオブジェクトの検出を、例えば、クラウドサーバが実行することとしてもよい。この場合、クラウドサーバは、検出したオブジェクトについての情報を動画に付与し、当該情報が付与された動画を興味区間特定装置100(1200)は受け取る。そして、興味区間特定装置100(1200)はオブジェクト追跡部103に検出されたオブジェクトの情報が付与された動画を入力して、以降の処理を実行させる。
 あるいは、特徴量検出を他の装置に依頼することとしてもよい。例えば、オブジェクト検出部102は、オブジェクトを検出した動画について、検出したオブジェクトの情報を動画に付与する。そして、興味区間特定装置100(1200)は、オブジェクトの情報を付与した動画を、例えば、クラウドサーバに送信する。クラウドサーバは、送信されてきたオブジェクトの情報が付与された動画を用いて、オブジェクト追跡部103、領域決定部104及び動き特徴量算出部105が有する機能を実行する。そして、クラウドサーバは、各フレームの各オブジェクトについて特徴量の情報を動画に付与し、興味区間特定装置100(1200)に送信する。そして、興味区間特定装置100(1200)は、特異度算出以降の処理を実行する。
 このように、興味区間の特定にあたって、必要な処理の一部を興味区間特定装置100(1200)外の外部装置に依頼することとしてもよい。その場合に、例示したように、興味区間特定装置100(1200)と外部装置間で、それぞれにおいて処理に必要なデータの送受信が実行される。
 (23)上述の実施の形態で示した各機能構成要素は、その機能を実現する回路として実現されてもよいし、1又は複数のプロセッサによりプログラムを実行することで実現されてもよい。また、上述の実施の形態の興味区間特定装置100(1200)は、IC、LSIその他の集積回路のパッケージとして構成されるものとしてもよい。このパッケージは各種装置に組み込まれて利用に供され、これにより、各種装置は、各実施の形態で示したような各機能を実現するようになる。
 なお、各機能ブロックは典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることができる可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
<補足>
 ここで、本実施の形態に係る興味区間特定装置の一実施形態の構成と、各構成により奏する効果について説明する。
 (a)本発明に係る興味区間特定装置は、動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置であって、前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出手段と、前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出手段と、前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出手段と、前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定手段とを備えることを特徴としている。
 また、本発明に係る興味区間特定方法は、動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置による興味区間特定方法であって、前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出ステップと、前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出ステップと、前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出ステップと、前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定ステップとを含むことを特徴としている。
 また、本発明に係る興味区間特定プログラムは、動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定処理をコンピュータに実行させる興味区間特定プログラムであって、前記興味区間特定処理は、前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出ステップと、前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出ステップと、前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出ステップと、前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定ステップとを含むことを特徴としている。
 これにより、興味区間特定装置は、動画の中で、オブジェクトの動きが特異なフレームを特定できるので、ユーザにとって飽きさせない内容の興味区間を特定することができる。特定された興味区間は、ダイジェスト映像の作成や、モニタに表示させて動画の内容をユーザに認識させるための利用に供される。
 (b)上記(a)の興味区間特定装置において、前記オブジェクト検出手段は、前記動画に含まれる複数のフレームから前記オブジェクトを検出し、前記動き特徴量抽出手段は、前記複数のフレーム各々における前記オブジェクトの動き特徴量を抽出し、前記特異度算出手段は、前記複数のフレーム各々について、当該フレームにおける前記オブジェクトの動き特徴量の、他のフレームにおける前記オブジェクトの動き特徴量からの特異度を算出することとしてもよい。
 これにより、興味区間特定装置は、時間軸方向でオブジェクトが特異な動きをしている場合に、そのシーンを含む興味区間を特定することができる。
 (c)上記(b)の興味区間特定装置において、前記特異度算出手段は、前記オブジェクトの特異度を算出する対象となる対象フレームについて、前記対象フレームにおけるオブジェクトの動き特徴量と、前記対象フレーム以外の複数のフレームにおける前記オブジェクトの動き特徴量の平均との内積に基づいて特異度を算出することとしてもよい。
 対象フレームの動き特徴量と、その他のフレームの動き特徴量の平均値との内積をとることで、対象フレームにおけるオブジェクトの動きが、その他のフレームにおけるオブジェクトの動きとどれだけ似ていないかの指標として用いることができ、特異度を算出するのに適した指標となる。対象フレームにおけるオブジェクトの動きは、内積が0に近いほど、その他のフレームにおけるオブジェクトの動きに似ていないことになる。
 (d)上記(c)の興味区間特定装置において、前記特異度算出手段は、前記動画中の前記対象フレームを含む所定の第1区間に含まれるフレームの動き特徴量を用いて、前記対象フレームにおける前記オブジェクトの動きの特異度を算出することとしてもよい。
 これにより、動画に含まれるフレームについて、そのフレームの他のフレームからの特異性を算出することができ、興味区間を特定するための指標に用いることができる。また、動画全体ではなく、第1区間の動き特徴量に限定することで、興味区間特定装置による算出処理の負荷を軽減することができる。
 (e)上記(d)の興味区間特定装置において、前記特異度算出手段は、前記対象フレームの前記オブジェクトの動き特徴量の、前記第1区間から前記対象フレームを含み前記第1区間よりも短い第2区間を除いた第3区間に含まれる各フレームにおける前記オブジェクトの動き特徴量の平均値からの、特異度を算出することとしてもよい。
 これにより、第2区間分のフレームの動き特徴量を算出対象から除外することで、興味区間特定装置は、興味区間に第2区間分の単調な動きが含まれることを許容することができる。単調な動きであっても、数秒程度であれば、ユーザはそれを見ることに苦痛を覚えないので、そのような区間が興味区間に含まれても良いようにすることができる。
 (f)上記(e)の興味区間特定装置において、前記特異度算出手段は、前記第2区間の区間長を、前記第1区間の区間長に応じて、定めることとしてもよい。
 興味区間が長ければ、その分だけ、多少単調な動きの部分が含まれていても、ユーザにとって苦痛ではなくなるため、この構成により、興味区間特定装置は、第1区間の長さに応じた適切な長さの第2区間を設定できるようになる。
 (g)上記(e)の興味区間特定装置において、前記興味区間特定装置は、更に、前記第2区間をユーザが設定するための設定手段を備えることとしてもよい。
 これにより、興味区間特定装置は、ユーザの嗜好に応じた興味区間を特定できるようになる。
 (h)上記(d)の興味区間特定装置において、前記特異度算出手段は、前記第1区間の区間長を、前記動画の動画長に基づいて定めることとしてもよい。
 これにより、興味区間特定装置は、動画の長さに応じて、特異度を算出するための第1区間を定めることができる。
 (i)上記(d)の興味区間特定装置において、前記興味区間特定装置は、更に、前記第1区間をユーザが設定するための設定手段を備えることとしてもよい。
 これにより、興味区間特定装置は、ユーザの嗜好に応じた興味区間を特定できるようになる。
 (j)上記(a)の興味区間特定装置において、前記興味区間特定装置は、各フレームに対して算出された前記オブジェクトの特異度を用いて、前記動画において、所定期間内に含まれる各フレームの特異度の合算値が、最大となる所定期間を前記興味区間として特定することとしてもよい。
 これにより、興味区間特定装置は、オブジェクトが特異な動きを多くしている興味区間を特定できるようになる。
 (k)上記(a)の興味区間特定装置において、前記特異度算出手段は、前記オブジェクトの動き特徴量の、前記フレームに含まれる他のオブジェクトの動き特徴量からの、特異度を算出することとしてもよい。
 これにより、興味区間特定装置は、フレーム内で他のオブジェクトから特異な動きをするオブジェクトがあるフレームを含む区間を興味区間として特定することができる。
 (l)上記(k)の興味区間特定装置において、前記特異度算出手段は、前記オブジェクトの動き特徴量の、前記フレームに含まれる他のオブジェクトが複数ある場合に、他のオブジェクトの動き特徴量の平均値からの特異度を算出することとしてもよい。
 これにより、興味区間特定装置は、他のオブジェクトが複数あっても、興味区間を特定するために用いる特異度を算出することができる。この構成をとると、興味区間特定装置は、特に同じシーン内で複数の人物が同じ動きをしている中で、一人だけ的外れな動きをしている場合などのNGシーンを興味区間として特定することができる。
 これにより、興味区間特定装置は、特に動きの激しく、特異性の高い区間を興味区間として特定することができる。
 (m)上記(a)の興味区間特定装置において、前記興味区間特定手段は、更に、特定した興味区間の始点と終点を示す情報を前記動画にインデキシングすることとしてもよい。
 これにより、興味区間特定装置は、興味区間の情報を含む動画を提供することができる。興味区間に関する情報がインデキシングされていることにより、例えば、動画の再生時の再生位置指定(スキップの飛び先の指定)に用いることができる。
 (n)上記(a)の興味区間特定装置において、前記興味区間特定装置は、更に、前記興味区間特定手段が特定した興味区間を前記動画から抽出する抽出手段と、前記抽出手段が抽出した興味区間が複数ある場合に、複数の興味区間をつなぎ合わせたダイジェスト映像を作成するダイジェスト作成手段とを備えることとしてもよい。
 これにより、興味区間特定装置は、動画からダイジェスト映像を作成できるようになるので、ユーザは動画の内容を、作成されたダイジェスト映像を視聴することで、容易に認識することができる。
 (o)上記(a)の興味区間特定装置において、前記興味区間特定装置は、更に、前記オブジェクトを抽出したフレームにおける場所を検出するオブジェクト位置検出手段と、前記オブジェクトの動きを評価するための各フレームにおける前記オブジェクトを含む領域を決定する領域決定手段とを備え、前記動き特徴量抽出手段は、各フレームの前記領域内における特徴点各々の動き特徴量の平均値から各フレームにおける前記オブジェクトの動き特徴量を算出することとしてもよい。
 フレームの中でも、オブジェクトに基づく領域を特定して、その領域の動きを用いることで、興味区間特定装置は、フレーム全体の動きを用いるよりも、オブジェクトの動きの特異性を検出しやすくすることができる。
 (p)上記(a)の興味区間特定装置において、前記特異度算出手段は、前記オブジェクト検出手段が複数のオブジェクトを検出した場合に、それぞれのオブジェクトに対して算出される動き特徴量に対して重み付けを行って、前記特異度を算出することとしてもよい。
 これにより、検出されるオブジェクトの内容に応じて、動き特徴量に重み付けを行って特異度を算出することから、ユーザが注目しているオブジェクトを重点的に追えるような興味区間を特定することができる。
 (q)上記(p)の興味区間特定装置において、前記特異度算出手段は、フレームの特定範囲内に存在するオブジェクトに対して、前記特定範囲外にあるオブジェクトよりも重い重み付けを行うこととしてもよい。
 これにより、通常中心となるオブジェクトが動画の中心部分に撮影されていることが多いことから、例えば、特定範囲をフレーム中心部分に設定することで、動画の中心となるオブジェクトに対する重み付けを容易に行って、興味区間を特定することができる。
 (r)上記(p)の興味区間特定装置において、前記興味区間特定装置は、更に、フレームから検出された特定のオブジェクトの指定を受け付ける受付手段を備え、前記特異度算出手段は、前記受付手段で受け付けた特定のオブジェクトに対して、他のオブジェクトよりも重い重み付けを行うこととしてもよい。
 これにより、指定されたオブジェクトに対する重み付けを行うことができる。例えば、ユーザが動画の中心であると想定しているオブジェクトを指定した場合に、このオブジェクトに対する重み付けを行って、当該オブジェクトの特異な動きがある興味区間を特定することができる。したがって、当該ユーザにとって興味深い興味区間を特定することができる。
 (s)上記(r)の興味区間特定装置において、前記興味区間特定装置は、更に、前記動画以外の1以上の他の動画を保持する記憶手段を備え、前記受付手段は、前記1以上の他の動画に多く含まれるオブジェクトを、前記特定のオブジェクトとして受け付けることとしてもよい。
 これにより、興味区間特定装置は、ユーザからの指定なしでも、特定のオブジェクトを選択して、当該オブジェクトに対する重み付けを実行できる。興味区間特定装置に、ユーザが複数の撮影した動画を保持していた場合、このユーザにとって興味をひく対象が多数撮影されている可能性が高い。そのため、他の複数の動画に多く撮影されているオブジェクトは、ユーザにとって興味深いオブジェクトであると特定することができる。
 (t)上記(a)の興味区間特定装置において、前記動き特徴量は、オプティカルフローであることとしてもよい。
 これにより、動き特徴量として、広範に知られるオプティカルフロー(動きベクトル)を用いることで、興味区間特定装置の汎用性を高めることができる。
 本発明に係る興味区間特定装置は、動画からダイジェスト映像を作成するための装置として、例えば、DVDプレーヤ、BDプレーヤなどの録画再生装置などに活用することができる。
100、1200 興味区間特定装置
101 動画取得部
102 オブジェクト検出部
103 オブジェクト追跡部
104 領域決定部
105 動き特徴量算出部
106、1205 特異度算出部
107、1207 興味区間特定部
108 興味区間抽出部
109 出力部
120 撮影装置
130 表示装置
1205 受付部

Claims (22)

  1.  動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置であって、
     前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出手段と、
     前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出手段と、
     前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出手段と、
     前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定手段とを備える
     ことを特徴とする興味区間特定装置。
  2.  前記オブジェクト検出手段は、前記動画に含まれる複数のフレームから前記オブジェクトを検出し、
     前記動き特徴量抽出手段は、前記複数のフレーム各々における前記オブジェクトの動き特徴量を抽出し、
     前記特異度算出手段は、前記複数のフレーム各々について、当該フレームにおける前記オブジェクトの動き特徴量の、他のフレームにおける前記オブジェクトの動き特徴量からの特異度を算出する
     ことを特徴とする請求項1記載の興味区間特定装置。
  3.  前記特異度算出手段は、前記オブジェクトの特異度を算出する対象となる対象フレームについて、前記対象フレームにおけるオブジェクトの動き特徴量と、前記対象フレーム以外の複数のフレームにおける前記オブジェクトの動き特徴量の平均との内積に基づいて特異度を算出する
     ことを特徴とする請求項2記載の興味区間特定装置。
  4.  前記特異度算出手段は、前記動画中の前記対象フレームを含む所定の第1区間に含まれるフレームの動き特徴量を用いて、前記対象フレームにおける前記オブジェクトの動きの特異度を算出する
     ことを特徴とする請求項3記載の興味区間特定装置。
  5.  前記特異度算出手段は、前記対象フレームの前記オブジェクトの動き特徴量の、前記第1区間から前記対象フレームを含み前記第1区間よりも短い第2区間を除いた第3区間に含まれる各フレームにおける前記オブジェクトの動き特徴量の平均値からの、特異度を算出する
     ことを特徴とする請求項4記載の興味区間特定装置。
  6.  前記特異度算出手段は、前記第2区間の区間長を、前記第1区間の区間長に応じて、定める
     ことを特徴とする請求項5記載の興味区間特定装置。
  7.  前記興味区間特定装置は、更に、
     前記第2区間をユーザが設定するための設定手段を備える
     ことを特徴とする請求項5記載の興味区間特定装置。
  8.  前記特異度算出手段は、前記第1区間の区間長を、前記動画の動画長に基づいて定める
     ことを特徴とする請求項4記載の興味区間特定装置。
  9.  前記興味区間特定装置は、更に、
     前記第1区間をユーザが設定するための設定手段を備える
     ことを特徴とする請求項4記載の興味区間特定装置。
  10.  前記興味区間特定装置は、各フレームに対して算出された前記オブジェクトの特異度を用いて、前記動画において、所定期間内に含まれる各フレームの特異度の合算値が、最大となる所定期間を前記興味区間として特定する
     ことを特徴とする請求項1記載の興味区間特定装置。
  11.  前記特異度算出手段は、前記オブジェクトの動き特徴量の、前記フレームに含まれる他のオブジェクトの動き特徴量からの、特異度を算出する
     ことを特徴とする請求項1記載の興味区間特定装置。
  12.  前記特異度算出手段は、前記オブジェクトの動き特徴量の、前記フレームに含まれる他のオブジェクトが複数ある場合に、他のオブジェクトの動き特徴量の平均値からの特異度を算出する
     ことを特徴とする請求項11記載の興味区間特定装置。
  13.  前記興味区間特定手段は、更に、特定した興味区間の始点と終点を示す情報を前記動画にインデキシングする
     ことを特徴とする請求項1記載の興味区間特定装置。
  14.  前記興味区間特定装置は、更に、
     前記興味区間特定手段が特定した興味区間を前記動画から抽出する抽出手段と、
     前記抽出手段が抽出した興味区間が複数ある場合に、複数の興味区間をつなぎ合わせたダイジェスト映像を作成するダイジェスト作成手段とを備える
     ことを特徴とする請求項1記載の興味区間特定装置。
  15.  前記興味区間特定装置は、更に、
     前記オブジェクトを抽出したフレームにおける場所を検出するオブジェクト位置検出手段と、
     前記オブジェクトの動きを評価するための各フレームにおける前記オブジェクトを含む領域を決定する領域決定手段とを備え、
     前記動き特徴量抽出手段は、各フレームの前記領域内における特徴点各々の動き特徴量の平均値から各フレームにおける前記オブジェクトの動き特徴量を算出する
     ことを特徴とする請求項1記載の興味区間特定装置。
  16.  前記特異度算出手段は、前記オブジェクト検出手段が複数のオブジェクトを検出した場合に、それぞれのオブジェクトに対して算出される動き特徴量に対して重み付けを行って、前記特異度を算出する
     ことを特徴とする請求項1記載の興味区間特定装置。
  17.  前記特異度算出手段は、フレームの特定範囲内に存在するオブジェクトに対して、前記特定範囲外にあるオブジェクトよりも重い重み付けを行う
     ことを特徴とする請求項16記載の興味区間特定装置。
  18.  前記興味区間特定装置は、更に、
     フレームから検出された特定のオブジェクトの指定を受け付ける受付手段を備え、
     前記特異度算出手段は、前記受付手段で受け付けた特定のオブジェクトに対して、他のオブジェクトよりも重い重み付けを行う
     ことを特徴とする請求項16記載の興味区間特定装置。
  19.  前記興味区間特定装置は、更に、
     前記動画以外の1以上の他の動画を保持する記憶手段を備え、
     前記受付手段は、前記1以上の他の動画に多く含まれるオブジェクトを、前記特定のオブジェクトとして受け付ける
     ことを特徴とする請求項18記載の興味区間特定装置。
  20.  前記動き特徴量は、オプティカルフローである
     ことを特徴とする請求項1記載の興味区間特定装置。
  21.  動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定装置による興味区間特定方法であって、
     前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出ステップと、
     前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出ステップと、
     前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出ステップと、
     前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定ステップとを含む
     ことを特徴とする興味区間特定方法。
  22.  動画においてユーザが興味を覚えると推測される興味区間を特定する興味区間特定処理をコンピュータに実行させる興味区間特定プログラムであって、
     前記興味区間特定処理は、
     前記動画から抽出したフレームからオブジェクトを検出するオブジェクト検出ステップと、
     前記抽出したフレームに対する前記オブジェクトの動き特徴量を算出する動き特徴量抽出ステップと、
     前記オブジェクトの動き特徴量を用いて、前記抽出したフレームにおける前記オブジェクトの動きの特異度を算出する特異度算出ステップと、
     前記特異度を用いて、前記動画における前記興味区間を特定する興味区間特定ステップとを含む
     ことを特徴とする興味区間特定プログラム。
PCT/JP2012/006717 2012-02-23 2012-10-19 興味区間特定装置、興味区間特定方法、興味区間特定プログラム WO2013124923A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/824,692 US9288463B2 (en) 2012-02-23 2012-10-19 Interesting section identification device, interesting section identification method, and interesting section identification program
JP2013514425A JP5960691B2 (ja) 2012-02-23 2012-10-19 興味区間特定装置、興味区間特定方法、興味区間特定プログラム
CN201280003448.8A CN103404130B (zh) 2012-02-23 2012-10-19 兴趣区间确定装置、兴趣区间确定方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-037462 2012-02-23
JP2012037462 2012-02-23

Publications (1)

Publication Number Publication Date
WO2013124923A1 true WO2013124923A1 (ja) 2013-08-29

Family

ID=49005147

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/006717 WO2013124923A1 (ja) 2012-02-23 2012-10-19 興味区間特定装置、興味区間特定方法、興味区間特定プログラム

Country Status (4)

Country Link
US (1) US9288463B2 (ja)
JP (1) JP5960691B2 (ja)
CN (1) CN103404130B (ja)
WO (1) WO2013124923A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015179438A (ja) * 2014-03-19 2015-10-08 オムロン株式会社 画像処理装置、移動速度判定方法、および移動速度判定プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017129804A1 (en) * 2016-01-29 2017-08-03 Kiwisecurity Software Gmbh Methods and apparatus for using video analytics to detect regions for privacy protection within images from moving cameras
US10867393B2 (en) 2018-03-22 2020-12-15 Texas Instruments Incorporated Video object detection
CN111461104B (zh) * 2019-01-22 2024-04-09 北京京东乾石科技有限公司 视觉识别方法、装置、设备及存储介质
CN113286194A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 视频处理方法、装置、电子设备及可读存储介质
KR102630705B1 (ko) * 2023-07-12 2024-01-29 주식회사 넥스톤 에너지 절약형 네트워크 카메라 저장 장치 및 네트워크카메라 저장 장치의 동작 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128947A (ja) * 2008-11-28 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 非定常度推定装置、非定常度推定方法、非定常度推定プログラム
JP2011175599A (ja) * 2010-02-25 2011-09-08 Canon Inc 画像処理装置、その処理方法及びプログラム
JP2012010133A (ja) * 2010-06-25 2012-01-12 Nikon Corp 画像処理装置および画像処理プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0648458B2 (ja) 1985-03-01 1994-06-22 日本電信電話株式会社 情報入力装置
US7499077B2 (en) * 2001-06-04 2009-03-03 Sharp Laboratories Of America, Inc. Summarization of football video content
JP3947973B2 (ja) * 2003-02-14 2007-07-25 ソニー株式会社 画像処理装置および方法、プログラム、並びに記録媒体
JP2005115672A (ja) * 2003-10-08 2005-04-28 Fuji Photo Film Co Ltd 画像処理装置
JP2006019387A (ja) 2004-06-30 2006-01-19 Toshiba Corp 半導体記憶装置およびその製造方法
JP4830650B2 (ja) 2005-07-05 2011-12-07 オムロン株式会社 追跡装置
EP1811457A1 (en) * 2006-01-20 2007-07-25 BRITISH TELECOMMUNICATIONS public limited company Video signal analysis
JP2008278467A (ja) * 2007-03-30 2008-11-13 Sanyo Electric Co Ltd 画像処理装置および画像処理方法
JP2010226557A (ja) * 2009-03-25 2010-10-07 Sony Corp 画像処理装置、画像処理方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128947A (ja) * 2008-11-28 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 非定常度推定装置、非定常度推定方法、非定常度推定プログラム
JP2011175599A (ja) * 2010-02-25 2011-09-08 Canon Inc 画像処理装置、その処理方法及びプログラム
JP2012010133A (ja) * 2010-06-25 2012-01-12 Nikon Corp 画像処理装置および画像処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015179438A (ja) * 2014-03-19 2015-10-08 オムロン株式会社 画像処理装置、移動速度判定方法、および移動速度判定プログラム

Also Published As

Publication number Publication date
US9288463B2 (en) 2016-03-15
CN103404130A (zh) 2013-11-20
US20140072279A1 (en) 2014-03-13
JP5960691B2 (ja) 2016-08-02
JPWO2013124923A1 (ja) 2015-05-21
CN103404130B (zh) 2017-06-27

Similar Documents

Publication Publication Date Title
Lai et al. Semantic-driven generation of hyperlapse from 360 degree video
CN106663196B (zh) 用于识别主体的方法、***和计算机可读存储介质
JP5960691B2 (ja) 興味区間特定装置、興味区間特定方法、興味区間特定プログラム
US8594488B1 (en) Methods and systems for video retargeting using motion saliency
Higuchi et al. Egoscanning: Quickly scanning first-person videos with egocentric elastic timelines
US20090251421A1 (en) Method and apparatus for tactile perception of digital images
JP6141829B2 (ja) 動画解析装置、動画解析方法、プログラム、及び集積回路
US20110249904A1 (en) Face clustering device, face clustering method, and program
Dubuisson et al. A survey of datasets for visual tracking
US9691180B2 (en) Determination of augmented reality information
JP2013122763A (ja) 映像処理装置及び映像処理方法
JP2012105205A (ja) キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置
EP3151243B1 (en) Accessing a video segment
CN108960130B (zh) 视频文件智能处理方法和装置
WO1999005865A1 (en) Content-based video access
JP2007072789A (ja) 映像構造化方法及び装置及びプログラム
WO2023088029A1 (zh) 一种封面生成方法、装置、设备及介质
US10762395B2 (en) Image processing apparatus, image processing method, and recording medium
TW201222422A (en) Method and arrangement for identifying virtual visual information in images
Choudhary et al. Real time video summarization on mobile platform
JP2014085845A (ja) 動画処理装置、動画処理方法、プログラム、および集積回路
TWI729322B (zh) 資訊顯示系統及資訊顯示方法
Lee Novel video stabilization for real-time optical character recognition applications
JP5276609B2 (ja) 画像処理装置及びプログラム
Hamandi Modeling and Enhancing Deep Learning Accuracy in Computer Vision Applications

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 13824692

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2013514425

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12869342

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12869342

Country of ref document: EP

Kind code of ref document: A1