WO2007020897A1 - 映像シーン分類装置および映像シーン分類方法 - Google Patents

映像シーン分類装置および映像シーン分類方法 Download PDF

Info

Publication number
WO2007020897A1
WO2007020897A1 PCT/JP2006/315957 JP2006315957W WO2007020897A1 WO 2007020897 A1 WO2007020897 A1 WO 2007020897A1 JP 2006315957 W JP2006315957 W JP 2006315957W WO 2007020897 A1 WO2007020897 A1 WO 2007020897A1
Authority
WO
WIPO (PCT)
Prior art keywords
cluster
image
index
classification
video
Prior art date
Application number
PCT/JP2006/315957
Other languages
English (en)
French (fr)
Inventor
Masaki Yamauchi
Masayuki Kimura
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US12/063,884 priority Critical patent/US8233708B2/en
Priority to JP2007530981A priority patent/JP4841553B2/ja
Publication of WO2007020897A1 publication Critical patent/WO2007020897A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content

Definitions

  • the present invention relates to automatic index generation technology for video content, and more particularly to a buffering technology for automatically adding a chapter (index) to broadcast video content.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2000-285243
  • Patent Document 2 Japanese Patent Application Laid-Open No. 2003-52003
  • Patent Document 3 Japanese Patent Application Laid-Open No. 2004-361987
  • Non-Patent Document 1 "Automatic Indexing Method to Video Based on Shot Classification” (Ide, et al., Shingaku (D-11), Vol. J82-D-II, No. 10, pp. 1543- 1551, Oct. 1 999.)
  • Non-patent document 2 "TV program corner high-speed analysis system by video dialogue detection” (Aoki Tsune, Shingaku theory (D-11), Vol. J88-D-II, No. 1, pp. 17-27, Jan 2005.))
  • Non-patent literature 3 "Sports video divided into play units using regularity of cut composition” (Masaki Yuki, et al., Shingaku theory (D-11), Vol. J85-D-II, No. 6, pp. 1016-102 4, Jun. 2002.)
  • Non-Patent Document 4 Video Scene Clustering Based on Space-Time Images of Fixed Length
  • D-11 Vol. J86-D-II, No. 6, pp. 877 — 885, Jun. 2003.
  • Non-patent document 5 "Event Detection and Summarization in Sports Video J (B. Li, et al., IEEE Workshop on CBAIVL 2001, pp. 114- 138, Dec. 2001.)
  • the conventional top-down method of "identifying objects” has poor robustness, is difficult to identify the object, and has a very difficult task under general circumstances.
  • the top-down approach referred to here refers to a type of approach such as template matching or prior learning, which involves processing that limits the target, and which can not extract the target unless the target is identified in advance).
  • the top-down method relies heavily on the performance in detecting the detection target in the system, and there is a problem in the difference between the ideal model and the real data. Or, since the detection target is specified in advance, such as an object such as an architectural structure or a change in the scene feature amount, detection is applied and metadata is applied to the model, so that the robustness tends to be lost.
  • a scene having a significant and fixed meaning is, for example, an appearance scene of each group in a Nora Eti program or each pitching scene in a baseball program. It is a scene that you will be aware of, and if the force also appears relatively frequently.
  • the video is divided into several small sections by shot switching points, change points of appropriate video, and time width, and each section is classified by an appropriate method, and the interrelationship of the classified clusters is determined.
  • a structural element of an image is extracted to generate a chapter while examining it in a round-robin manner (see, for example, Patent Document 1).
  • the classification performance affects the extraction performance of the structural element.
  • the shooting conditions are not always stable, and a wide variety of changes occur, such as weather changes and captions being inserted. Because of this, The classification performance for general video in the state of the art is very low and unstable.
  • the clusters obtained as a result of classification are compared round by round, comparing similarity by correlation, etc.
  • the scene is included in the cluster! / /! /, I needed to search (or estimate).
  • a pitch is given to each pitching scene during baseball broadcasting.
  • approximately 200 to 300 balls of pitching scene occur.
  • the probability of being able to hunt each pitching scene in one match is the probability corresponding to 98% to the 250th power in a simple calculation.
  • the power of 0.098 is about 0.0064. In other words, it is almost 0%.
  • the present invention has been made in view of the above problems, and an object thereof is to provide a video scene classification device and the like that can generate a general-purpose, high-speed, and obvious chapter for a user.
  • a video scene classification device is a video scene classification device that adds an index to one or more of a plurality of images constituting a video.
  • Image classification means for classifying the plurality of images into a plurality of clusters based on a classification index representing a feature on the images, and cluster selection for selecting at least one cluster from the plurality of classified clusters And indexing means for indexing at least one of the images constituting the selected cluster And a step.
  • the video scene classification device further determines a video sampling unit for acquiring a plurality of the video output images by sampling, and a processing range to which image processing is applied to each of the acquired images.
  • processing range determination means for specifying a classification index by performing image processing on the processing range, the image classification means, based on the classification index representing the feature on the image in the determined processing range. It is characterized by classification.
  • the video scene classification device further includes index singler selection means for determining an indexing rule based on the classified index of the cluster or the program content information of the video, and the video scene classification device further comprises: Index generation means is characterized in that the selected image is indexed using the selected indexing rule for the selected cluster.
  • the indexing rule selection means (1) indexes all the images included in the selected cluster based on the program content information, (2) all included in the selected cluster The images are sorted by time axis, indexed for each image cluster within a predetermined time, and (3) video blocks included in a predetermined cluster are included in continuous clusters by other predetermined clusters. Indicating to a powerful video block It is characterized by selecting the medium power indexing rule of any rule to be assigned.
  • the present invention can be realized as a video scene classification method in which the characteristic constituent means in the above-mentioned video scene classification device is taken as steps, or as a program that causes a computer or the like to execute those steps.
  • the program can be widely distributed via a recording medium such as a DVD and a transmission medium such as the Internet.
  • the present invention can be realized as an integrated circuit provided with the above-described characteristic configuration means.
  • the present invention can also be realized as a client server system provided with the characteristic configuration means of the video scene classification device 100 described above.
  • FIG. 1 is a schematic view of Conventional Example 1.
  • FIG. 2 is a diagram schematically illustrating Conventional Example 2.
  • FIG. 3 is a diagram schematically illustrating Conventional Example 3.
  • FIG. 4 is a block diagram showing a functional configuration of a video scene classification device according to Embodiment 1.
  • FIG. 5 is a block diagram showing a detailed functional configuration of the video scene classification device in Embodiment 1.
  • FIG. 6 is a flowchart showing the internal operation of the image classification unit.
  • FIG. 7 is a flowchart showing the internal operation of the cluster selection unit.
  • FIG. 8 is a flowchart showing the internal operation of the index generation unit.
  • FIG. 9 is a flowchart showing the internal operation of the index rule selection unit.
  • FIG. 10 is a flowchart showing the internal operation of the processing range determination unit.
  • FIG. 11 is a view schematically showing how an index is provided by the effective brick.
  • 12 (a) to 12 (c) are diagrams showing examples of cut images.
  • 13 (a) to 13 (c) are diagrams showing an example of determination of the processing range.
  • FIG. 14 is a view schematically showing how an index is given by Invalid Brick.
  • the present invention classifies video data (moving image data and still image data such as broadcast content and personal content, etc.) more effectively and efficiently, and generates a faster code with better accuracy.
  • the present invention relates to a video scene classification charting technique.
  • This video scene classification and filtering technique has better performance when given a priori knowledge of the type of video data. Examples of this prior knowledge are program information (EPG information) 120 for broadcast content, and information such as “travel” and “exercise event” input by the user, and location information and indoor / outdoor information based on GPS and the like.
  • EPG information program information
  • FIG. 4 is a block diagram showing a functional configuration of the video scene classification device 100 according to the present embodiment. First, an outline of the function of the video scene classification device 100 will be described, and then the function of each part will be described in detail.
  • video information (for example, video data representing the video itself and information related to control or management of the video, etc.) is input to the video input unit 101.
  • the input video information is sampled at a video sampling unit 102 based on a predetermined time interval (or Z and a predetermined rule) to form a collection of still images.
  • the video may be sampled at the cut point by using the cut detection function (that is, the function to detect the cut point indicating the change of the camera for capturing the video) (in the following description, the video sampling unit
  • the output from 102 will be referred to for convenience as the “cut image.”
  • the image may be sampled by any sampling means) o
  • the image classification unit 104 is a part that generates one or more clusters by classifying cut images (hereinafter also referred to as “clustering”). Note that an image group composed of one or more still images obtained by clustering the cut images is referred to as a “cluster”. The fact that the classification performance in the image classification unit 104 greatly affects the performance of the entire video scene classification device 100 is as already described in the related art.
  • Cutlet An index (hereinafter referred to as a “classification index”) for classifying a tomogram is image information of each cut image (for example, image data representing the cut image itself and information representing features of the cut image, etc.)
  • a processing range determination unit 103 is provided at the front stage of the image classification unit 104.
  • the processing range determination unit 103 calculates a classification index (that is, a physical quantity used for clustering) from the image information of each cut image, a range having information suitable for the classification within each cut image which is not the entire image. Dynamically changing and setting. Note that the user can change the classification index using an operation input unit (not shown).
  • the processing range determination unit 103 will be briefly described. For example, consider the case where a pitching scene is indexed (chapter) in baseball broadcasting.
  • the pitching scene is a force that a human can immediately recognize as a pitching scene.
  • There are various variations in the cut image of the actual pitching scene see Fig. 12).
  • the cut image 1201 is a basic pitching scene
  • the cut image 1202 is a pitching scene to which a caption representing a score or a ball count is added, and the camera angle is slightly changed (cut In the image 1202, the wall on the knock net side is visible).
  • the cut image 1203 is a pitching scene to which a caption related to the notch is added.
  • the processing range determination unit 103 displays a range in which a human is expected to pay attention to the content of a program for such a plurality of cut images (for example, in the case of baseball, a battle between pitcher and batter is displayed). Dynamically) for each cut image (see Figure 13).
  • the processing range setting example 1301, the processing range setting example 1302, and the processing range setting example 1303 shown in FIG. 13 are the processing range setting examples for the cut image 1201, the cut image 1202 and the cut image 1203 in FIG. 12 respectively. Equivalent to.
  • the image information of the processing range set by the processing range determination unit 103 which is not used for the information on the entire image as in the prior art (or for the entire image).
  • the image classification unit 104 it is possible to perform mouth-to-mouth classification (clustering) by adapting to changes in the classification object (the operation principle of the processing range determination unit 103 and the internal operation will be described later).
  • the function of the cluster selection unit 106 will be described.
  • the cluster selection unit 106 selects which cluster to use for assignment of a cluster from the clusters classified by the image classification unit 104 according to a previously defined rule.
  • the element of each cluster is a cut image, and one or more cut images gather to form each cluster.
  • the cluster selection unit 106 sorts the clusters classified by the image classification unit 104 in the descending order of the number of elements (the number of cut images).
  • the cluster with the largest number of elements is composed of the same type of cut image that was most frequently broadcast, and it is said by the delivery side that it is most reported that it was most frequently broadcast. ⁇ ) It can be said that it is the main component of a program (note that such inferences do not hold in conventional video classification methods that can not be classified correctly) o
  • the cuts that appear most frequently during broadcasting are cut images of pitching scenes as shown in FIGS. 12 (a) to (c) (by experiment, other cut images are used. It has been confirmed that the frequency of occurrence is overwhelmingly higher than that). And, of course, the pitching scene is the trigger for baseball play and is the most important component.
  • the basic operation of the force cluster selection unit 106 may be considered when the selection method of clusters should be changed by selecting a necessary (or important) cluster in this manner. (The detailed description of the cluster selection unit 106 will be described later).
  • Indexing rule selection unit 107 generates an index generation rule (also referred to as a "chapter generation rule"), which is a rule for adding an index (chapter) to the cut image of the cluster selected by the cluster selection unit 106. decide.
  • index generation rule also referred to as a "chapter generation rule”
  • an index generation rule will be described when the above-mentioned “most element count !, cluster” is selected by the cluster selection unit 106.
  • the index generation rule determined by the indexing rule selection unit 107 is “the group selected by the cluster selection unit 106. It is assumed that an index is given to all cut images included in the raster. This corresponds to “direct generation” in step S 909 in the flowchart of FIG. 9 described later.
  • indexing rule selection unit 107 decides the rules necessary for giving a chapter in this way (indexing rule selection A detailed description of part 107 will be given later).
  • the index generation unit 108 sets all the cut images constituting the cluster selected by the cluster selection unit 106 (referred to as “selected cluster”) or cut images of a part of them, and an indexing rule selection unit. An index is assigned in accordance with the index generation rule selected at 107.
  • the index generation unit 108 will be specifically described along with the above-mentioned example of the indexing rule selection unit 107.
  • the cluster selection unit 106 the “cluster with the largest number of elements” is selected, and the indexing rule selection unit At 107, a "directly generated” rule is selected. Therefore, the index generation unit 108 reads out the “cluster with the largest number of elements” by the cluster group class classified by the image classification unit 104 and indexes all cut images included in the “cluster with the largest number of elements”. Grant
  • the selected cluster selected in the cluster selection unit 106 is read out from the cluster group classified by the image classification unit 104, and the selected cluster is selected according to the rule selected by the indexing rule selection unit 107. Add an index to part or all of the cut image of.
  • the index reproduction unit 109 reproduces an image using the index (chapter) generated by the index generation unit 108. Move to the cut image to which the next chapter is attached, or move to the cut image to which the previous chapter is attached! Skipping, each chapter is added, and the subsequent cut image is reproduced for a predetermined number of seconds, and the next chapter is added to move to the cut image.
  • the output unit 110 outputs index information representing the generated index.
  • the output unit 110 outputs index information alone. Even if the input video is output in association with the input video, a chapter may be set to the input video and the video may be output as a chapter-appended video.
  • the program information 120 means information on a program that can be acquired by the Internet, broadcast radio waves or user input, and is meant to include EPG information and the like.
  • the processing range determination unit 103, the cluster selection unit 106, and the indexing rule selection unit 107 can use the program information 120 as auxiliary information.
  • FIG. 4 The configuration shown in FIG. 4 is for illustrative purposes, and the present invention is implemented by selecting a minimum configuration that fulfills the necessary functions without necessarily including all the components included in FIG. You may
  • sampling interval in the video sampling unit 102 may be any existing method that has a fixed time width (for example, 1 second), sampling of an I frame of an MPEG stream, or sampling at a cut point. You may use sampling.
  • the video sampling unit 102 may divide an input video into video small streams of an appropriate length and output the video small stream as a video stream group.
  • the series of post-processing on the sampled still image can be read as processing on a part or all of the frames of the video small stream.
  • FIG. 5 is a more detailed functional block diagram of the video scene classification device 100. As shown in FIG. 6 to 10 show flowcharts showing the internal operation of each part.
  • a cut image group sampled by the video sampling unit 102 is generated (S 502).
  • the method of generating a cut image group is generation by sampling at the change point of the video content (S530), or detection of the change point of the cut, and sampling at the change point Any conventional method such as generation by performing (S531) or generation by sampling at constant time intervals (S532) can be used.
  • the processing range determination unit 103 When the image data of the sampled cut image group is input (S1001), the processing range determination unit 103 also calculates an image feature amount for each cut image force (S503 ZS 1002).
  • the image feature quantities used here are physical information on the image, and are luminance information (edge, amount of Mach effect, etc.) and color information (hue, color difference, etc.).
  • the processing range determination unit 103 analyzes the image feature amount in pixel units or small block units based on the extracted image feature amount (S504 ZS 1003). Predetermined weighting is added to each of the analyzed image feature amounts, each weighted image feature amount is added (S505ZS 1004), and threshold processing is performed (S1005).
  • the processing range determination unit 103 determines a rectangle in the cut image which includes or circumscribes the cut pixel group corresponding to the image feature amount specified by the threshold processing (S 1006).
  • the processing range determination unit 103 outputs the rectangle determined in this way as a processing range (S505 ZS 1007).
  • the analysis and weighting of the image feature amount, and the processing of the threshold may be adaptively changed using program content information, program bibliography information, or related information.
  • program content information is acquired via EPG information (S1020), an area in which a caption is likely to occur, and an occurrence frequency are estimated (S1009), or an area in which a variety of telop Z information is likely to occur and an occurrence frequency
  • S1011 an area in which main image information is displayed, rather than auxiliary information such as estimation (S1010) or captions or telops.
  • the image feature amount of the main image area is preferentially used or when weighting is performed, the weight of the image feature amount in which the caption area force is also generated is relatively low (or high). By doing this, the influence of the main image information can be made relatively high (or low).
  • the amount of change in the entire image tends to be large if telops and captions are likely to occur, so if the threshold is raised or conversely, the occurrence of telops and captions is small. It is also possible to perform processing in which the estimation of the region frequency and each processing are arbitrarily combined, such as lowering the threshold.
  • the shape of the processing range to be determined is not limited to a rectangle! An area of a predetermined (or larger than or equal to) size so that the threshold value processing is not performed and the image feature amount per unit area becomes larger, instead of the rectangle including the remaining points in the threshold processing or circumscribing it.
  • the processing range may be determined while powering the image. Note that when program content information is acquired via EPG information, the program color of the program is also estimated (for example, green for soccer broadcast), and the degree of deviation from that color is used as the image feature. It may be a quantity.
  • processing range setting examples 1301, processing range setting examples 1302 and processing ranges are used as processing ranges for the cut image 1201, cut image 1202 and cut image 1203.
  • Setting example 1303 is determined.
  • the processing range is determined approximately as follows. For example, in the case of the processing range setting example 1301, the difference between the edge and the color appears significantly on the left and right of the pitcher. The same applies to the white lines in the knotter box, the hitter, the catcher, and the ampere. By adding these while weighting, a point (small block) having an image feature amount larger than a predetermined threshold is generated.
  • the left edge of the force puncher on the left in the image is the white line of the batter box, the upper is the batter's head and catcher The lower side of the head is the pitcher's waistline and the border between the green and brown of the ground.
  • the processing range setting example 1302 and the processing range setting example 1303 are also the same, and processing is performed along edges such as captions (score display and ball count display), telops (introduction to batter), etc. in addition to the edges The range is determined.
  • FIG. 6 is a flowchart showing an internal operation of the image classification unit 104.
  • n is set to “1” (S602), and clustering is started with the input of the above-described cut image (S603). Thereafter, a classification index is selected (S604ZS506), and clustering is performed with the selected classification index (S605ZS507).
  • the clustering algorithm may be any existing method.
  • C n clusters are generated (S 606).
  • n 1, so it is C1.
  • constant k and n are compared (S 607). If k and n are not equal, p clusters are selected from C n clusters (S 608 ZS 509), and n is incremented by 1 ( S610)
  • the clustering is re-executed using the cut image group included in the p clusters as new input image data (S603).
  • p is a positive integer less than or equal to Cn.
  • the number of cluster forces with a large number of elements is also the number until reaching a predetermined percentage of the total number of input cut images and does not exceed one half of Cn.
  • step S 607 the clustering is completed (S 61 Do
  • the method of determining p is not limited to the above, and may be determined simply as a number until reaching a predetermined percentage of the total number of input cut images in order from a cluster having a large number of elements. Also, p may be determined by a constant. Also, p may be set as a predetermined ratio of Cn.
  • the constant k may be a fixed value such as 2 or 3.
  • cut images of a predetermined ratio or more are classified into specific clusters (clusters with higher numbers of elements). Whether or not to perform clustering again may be determined.
  • the processing range may be input from the processing range determination unit 103 (S630).
  • information representing physical quantities limited by the processing range may be used as a classification index to be clustered.
  • the shape, position, size, etc. of the processing range may be used as a classification index when clustering.
  • the classification index stored in the database may be referred to (S 620).
  • a color index hue index, color difference index, etc.
  • a brightness index may be selected as a physical quantity from image information and used as a classification index.
  • image characteristic amounts such as a color difference index and a luminance index may be calculated for only the image inside the processing range.
  • image outside the processing range may be used.
  • only the peripheral area of the processing range having a predetermined width may be targeted.
  • classification indicators use physical quantities directly or may use histograms. 7
  • DCT Discrete Lysine Transform
  • FFT Fast Fourier Transform
  • the following two physical quantities may be used as a classification index for clustering. “1. Position of the processing range in the cut image”, “2. Image feature of a certain range inside and outside the processing range (for example, around 20 pixels)”.
  • the physical quantity of “2.” specifically acquires a histogram of edge intensity and hue for each pixel in a certain range inside and outside from the boundary of the processing range, and the histogram is normalized by the number of pixels referred to.
  • Turn into Classification of the cut image is performed by clustering based on, for example, the shortest distance method from the two classification indexes of “1.” and “2.”. At this time, two stages of clustering may be performed by using two classification indexes separately.
  • clustering is performed using the distance D1 between processing ranges as a distance measure. If the processing range is a rectangle, D1 is the distance between corresponding vertices of the two rectangles. By comparing the distances between the processing ranges, it is possible to estimate the powerful composition of the cut image.
  • a cluster force having a large number of elements is sequentially selected as a certain number of clusters, the distance D2 is set based on the histogram for the cut image belonging to the cluster, and the second clustering is performed.
  • D2 is defined using the edge intensity histogram He and the hue histogram Hh,
  • Ne and Nh represent the degree of the histogram.
  • the histogram of the hue He includes 16 stages of chromatic color and 3 stages of achromatic color, with 16 for Ne and 15 for Nh.
  • the edge strength histogram H e and the hue histogram H h are expected to have an effect of determining the similarity between the foreground and the background of the cut image.
  • FIG. 7 is a flowchart showing an internal operation of the cluster selection unit 106.
  • a cluster selection index is determined (S 702).
  • the top S 1 clusters having a large number of elements are selected (S 704, S 540) (for example, in the case of baseball, pitching season) In this case, S1 is 1 and the top one cluster is selected), and the process moves to step S705.
  • S2 clusters are selected using a predetermined calculation formula (S S706).
  • the predetermined calculation formula can be described, for example, as follows. "If the number of elements of the first cluster Ci is Ri, then S2 pieces are selected in order from the one with the largest Ri among Th1 ⁇ Ri> Th2 satisfying i" (In this case, for example, the number of elements is This is equivalent to the case of selecting a cluster consisting of LO cut images, etc. This is effective when the total number of topics on the program configuration is roughly expected, such as a questioning scene of a quiz program. The approximate number of problems is predefined, and clusters having the number of elements according to the number are automatically selected.) Then, the process moves to the next step S 707.
  • a matching template for selecting a cluster is read. (S708).
  • the template may be stored as a database as a pattern DB, and may be read as needed (S710).
  • pattern matching is performed with each cluster, a cluster of a pattern matching the template is selected (S709), and cluster selection is completed (S711).
  • the pattern matching in step S 709 may be performed on all clusters, or may be performed on some clusters, or may be performed on only part of images (representative images) of each cluster.
  • program content information, program bibliographic information or related information is acquired via program information 120, for example, EPG information (S720), determination of a cluster selection index (S702), determination of a template type to be read (S720) You may use as auxiliary information, such as determination of S708), Sl, and S2 (S704, S706).
  • step S 706 above not only the number of elements Ri, but also a time distribution may be used as the conditional expression.
  • the conditional expression is the j-th element (cut image) of the i-th cluster Ci (a cut image) and the time stamp of Rij is TRij
  • the minimum TRij on the time axis is MIN-TRij
  • the maximum TRij is MAX-TRij.
  • the time width of the main part of T be from T1 to T2
  • the deviation of the appearance time (DIF1) with respect to the main part time (DIF1) may be defined by (MIN_TRij-T1) + (T2-MAX_TRij)! / ⁇ .
  • DIF1 the deviation of the appearance time
  • MIN-TR ij and MAX-TR ij force are contained in a predetermined time width. It is good also as a conditional expression which selects a star. For example, select a cluster that fits within the first 10 to 15 minutes of a one-hour program. By selecting multiple clusters like this while changing the time width, the configuration changes significantly in each corner of the program, and even if there is no similarity between the corners, the index (chapter) is properly selected. You can select clusters to give.
  • the cluster appearing locally is a cluster for generating an "ineffective mass” unsuitable for the index, and a cut image not included in this "ineffective mass” is used.
  • a cluster having a homogeneous time distribution can be said to be a cluster to which an index is to be assigned.
  • conditional expression is not limited to the above.
  • the distribution, distribution, average, or most frequently appearing time zone of cut images may be used to compare with the program structure to help select appropriate clusters.
  • using the number of appearance cuts, maximum number, average, etc. contrast with the program structure may be used to help select appropriate clusters.
  • program information 120 may be used to determine a template to be used.
  • the use of fixed templates is very effective if the program has a scene with a specific pattern or layout.
  • the image classification unit 104 since each cluster is appropriately classified by the image classification unit 104, other similar compositions can be obtained only by matching the representative image (for example, average image) of each cluster and selecting the closest cluster. You can get cut images with at one time. The same results as in the case of performing the same matching for the entire image It can be obtained by simply matching with a representative image (for example, an average image) of a cluster, which leads to a significant reduction in calculation cost.
  • step S 777 the selected cluster and the attribute information of the selected cluster are output.
  • attribute information of selected cluster indicates “whether it is a valid Z invalid cluster for generating a brick” and “whether a cluster should be directly indexed” when selecting a cluster. It is information.
  • the determination criteria for determining attribute information are the same as the selection criteria of the cluster itself described in the example of the youth program or baseball program described above. If the cluster is "selected as a cluster for independently and appropriately indexing", "a cluster to be directly indexed" t, attribute information for conveying the purpose is added to the cluster and output. The same applies to other attribute information.
  • the cluster selection unit 106 can select a cluster in consideration of such a feature of the program configuration.
  • the number of clusters to be selected may be determined, for example, as follows.
  • Lp be the total broadcast time of a program including commercials and the like, and let the average number of cut occurrences in the program be (when using a cut image).
  • the number of cuts included in the i-th cluster Ci is NCi, the number of clusters to be selected is
  • Tc is a threshold
  • is a parameter
  • Tc is obtained by the product of ⁇ , Cr and Cr.
  • is a parameter indicating how much the cut which is particularly important in the program is included.
  • FIG. 9 is a flowchart showing an internal operation of the indexing rule selection unit 107. As shown in FIG.
  • Indexing rule selection section 107 receives data input indicating the clustering result (S 902) (S 903), and first determines from the number of clusters to be used and the number of elements of clusters whether it is necessary to generate Brick. (S904).
  • the mass is called Brick.
  • a cut image is input as video data (S 1101) and clustered (S 1102). Assuming that clusters A, B, and F are selected among the clusters, cut images in the selected cluster are arranged on the time series of the original video data (S 1103). Black data position (black cut image) force of S1104 corresponds to the data position of the cut image belonging to any of clusters A, B, F, White (white cut image) corresponds to the others.
  • four Brick (mass) powers S can be made like S1105A, S1105B, S1105C, S1105D.
  • the algorithm for generating Brick is such that if the cut image power in the selected cluster as described above forms a substantially continuous mass in time, it is considered as Brick, and if it is not continuous V, I take a relatively simple way to make a Brick and a!
  • the determination as to whether the image is continuous in time is that, if one or more white cut images having a predetermined time width (Twh) or more are included between an arbitrary black cut image and a black cut image shown in FIG. The cuts do not form the same brick. In other words, as long as a black cut image appears with no interval in time, it is assumed that the image is approximately continuous in time.
  • the predetermined time width Twh is required to generate an index (required by the index generation unit 108), but the indexing rule selection unit 107 does not need to specify the time width Twh. (It is good if the indexing rule selection unit 107 decides, as a minimum, whether or not it is necessary to create a brick as a rule!).
  • step S 908 a cluster for invalid Brick generation and a cluster for which Brick is not generated are selected by the cluster selection unit 106 (described above—use) Even if the anchor person's scene is similar, such as a program, the VTR scene has similarities.
  • Invalid Brick is also the same as the above-mentioned effective Brick as an algorithm for generating Brick. Disabled Cut image power belonging to a cluster for brick generation Invalid Brick is generated.
  • a cut image belonging to “a cluster selected as a cluster which does not generate a brick” is referred to as a meaningful cut image.
  • the (imitation cut image) corresponds to the data position of the significant cut image (assumed to be six) of the cluster D, and the white (white cut image) corresponds to the other.
  • the white (white cut image) corresponds to the other.
  • the method of determining the indexing rule at the time of brick generation in the indexing rule selection unit 107 is as described above.
  • step S 904 when it is determined in step S 904 that Brick generation is required, the process will be described.
  • a "direct generation" signal is issued to directly add an index to the cut image of the selected cluster (S909ZS544). Then, the process proceeds to step S910.
  • the judgment as to whether or not it is necessary to create a Brick depends on the information selected by the cluster selection unit 106 (this cluster is a cluster for Invalid Brick, this cluster is a cluster for Valid Brick, etc.) It is determined. However, if the cluster designation information in the cluster selection unit 106 is missing for some reason, etc., the program content information, program bibliography information or related information is assisted through the EPG information as in S720 of FIG. You may enter it as information (S7 20). It may be determined based on the auxiliary information whether the brick generation is necessary.
  • indexing rule selection section 107 determines whether valid brick or invalid brick is necessary if brick generation is necessary, based on whether or not brick generation is required, and brick generation is performed. If you do not need to directly determine the generation.
  • Invalid Brick generation Of cut images (significant cut images) included in a predetermined cluster (significant clusters), a cut image which has not been included in Brick by another predetermined cluster (ineffective clusters) Assign an index.
  • the cluster selection unit 106 determines a cluster for generating an effective brick, a cluster for generating an invalid brick, and how to select an effective cluster for index assignment.
  • the cluster selection unit 106 described above As mentioned in the explanation of, it is judged by the number of elements of each cluster and the total number of elements.
  • the time distribution of each cluster and program information 120 including EPG information are used.
  • a program such as a news program has similarities to the anchor person's scene but does not have similarities to the VTR scene, such as a news program
  • time distribution is performed throughout the main program.
  • a uniform cluster of time distribution is regarded as a cluster effective for a chapter (a cluster including significant cuts), and a cluster having a bias in time distribution is regarded as a cluster for invalid brick generation. Can be used.
  • the cluster for direct generation is generated As a method of selecting the cluster can be used.
  • This is a particularly effective technique for sports programs such as baseball.
  • information indicating that it is a baseball program may be acquired from the program information 120, and the top n may be unconditionally selected, or conversely, a baseball program has a predetermined ratio or more and a plurality of conditions.
  • the total number of cuts is In the case where the ratio does not exceed the predetermined ratio, or when the upper clusters are biased in time distribution, etc., the top n clusters or clusters which are biased in time are used for “effective brick” generation.
  • the method of selecting as can be used. This is especially useful for variety shows and music shows.
  • the auxiliary information may be obtained from the program information 120 in the same manner as the previous baseball example.
  • clusters conforming to the template pattern may be used for "direct generation”. If the anchor person's scene is collected and it is desired to add an index if it is included in the invalid brick, the anchor person's template may be used to collect the scene.
  • indexing rules may be used to construct an indexing rule.
  • an invalid brick and an effective brick may be respectively generated, and an index may be assigned to an effective brick such as (not included !, Z not included, Z-share not shared) with duplicate bricks.
  • rules may be used to generate indexes hierarchically. For example, it is possible to use "direct creation” as the index of fineness and layers, and use "effective brick creation” as the index of coarser (upper) layers.
  • direct creation as the index of fineness and layers
  • effective brick creation as the index of coarser (upper) layers.
  • selection of “use” clusters and “do not use” clusters and combination rules may be generated as program information 120 as auxiliary information.
  • Twh predetermined time width
  • Nlim number of cut images belonging to a cluster not constituting a Brick
  • T H is a threshold value, which is obtained by dividing the product of ⁇ and k by Cr with ⁇ as a parameter.
  • r? is a parameter indicating how much non-significant cut is included in the program. As for the value of r? Together with the previous ⁇ , the average value of the values obtained experimentally from multiple programs can be adopted.
  • FIG. 8 is a flowchart showing the internal operation of the index generation unit 108.
  • the index is actually generated along with the issuance signal of the indexing rule. Do. If a directly generated signal has been issued, the cut image of the selected cluster will be directly used (S 805: Yes), and after extracting the time stamps of all cut images in the selected cluster (S 806 ZS 545), An index is generated in accordance with each time of the extracted time stamp (S812), and is output (S813).
  • a direct generation signal is issued, and in the case (S805: No), it is basic to generate Brick. Therefore, when the signal for brick generation is not issued (S807: No), error processing is performed (S830).
  • the generated Brick is an invalid chapter (S 809: No ZS 547), that is, if it is an invalid Brick for chapter generation (the assignment of an index), a cut image of a selected cluster not included in each Brick.
  • the time stamp is extracted (S 811 ZS 547), and an index is generated according to each time of the time stamp (S 812) and output (S 813).
  • the time stamp of the top image of each Brick is extracted, but an arbitrary timing (for example, average time, median time, etc.) in each Brick is extracted as a time stamp.
  • an example of an algorithm for index generation is not limited to this, and the algorithm for force index generation is not limited to this, as long as it is an algorithm that actually executes a rule determined as an index rule. It goes without saying that the form of
  • FIG. 1 shows substantial outline processing steps of Conventional Example 1 (Patent Document 1). Segment the video, measure the similarity of the segments from the audio features and video features, and cluster. Then, clusters containing similar segments are searched for, and similar chains are constructed.
  • the present invention is significantly different from the present invention in that the configuration is different and that it can be realized. Furthermore, it has an overwhelming advantage in terms of accuracy and speed that can be obtained, and robust classification is also possible for telops in cut images, etc., and classification according to human perception can be performed. Hana! Also has a peculiar effect.
  • FIG. 2 shows substantial outline processing steps of Conventional Example 2 (Patent Document 2).
  • Patent Document 2 In the case of baseball, for example, three small areas are set in the horizontal direction, and detection of a pitching scene is attempted by detecting green and brown areas.
  • the present invention is distinctly different from the present invention, and the present invention is overwhelmingly superior with the obtained accuracy, and the robust classification is performed on the force, the telop in the cut image, etc. If classification according to knowledge can be made !, ⁇ ⁇ , Conventional Example 2 also has unique effects!
  • FIG. 3 shows substantial outline processing steps of Conventional Example 3 (Patent Document 3).
  • the image is divided into areas, the degree of heterogeneity of the shape is calculated for the shape of each area, and the degree of attractiveness is calculated particularly from the color feature amount (mainly defining red as the most noticeable color, color from red).
  • the degree of attraction is calculated and measured by measuring the distance). Based on the degree of heterogeneity and the degree of attraction, the most remarkable area in the area divided into areas is determined.
  • the image is divided into small blocks separately, and the average value of the degree of attraction is calculated for each small block, and a k-dimensional feature vector is generated by sequentially arranging the degrees of attraction of a plurality of (for example, k) small blocks. Classify the image by its feature vector!
  • the conventional example 3 is intended to enable a search specifically for a characteristic portion in an image when searching for an image which is not intended to generate a chapter or the like. For example, when a user searches for an image in which a flower is photographed predominantly as a key image, a characteristic portion (a portion in which a flower is photographed) is better than evaluating the similarity by grasping the entire image. It is considered that it is better to evaluate the similarity only by the user's search, according to the actual conditions, and the t, t, claims.
  • the present invention is a broad idea similar in that classification in consideration of human's perceptual characteristics is carried out in similarity classification of classified images, detection of an object that appears to be dominant in this application is It does not go, but conversely it calculates the range which has a relatively universal feature.
  • Example 3 When Conventional Example 3 is applied to, for example, a baseball broadcast, if the batter of the cut image 1202 in FIG. 12 wears a red uniform, only the shape of the batter is detected as the region of interest in the cut image 1202. Ru. Generally, players in the same team wear uniforms of the same color, so it is not limited to pitching scenes, and cut images in which players from the same red uniform appear can be classified into the same category with high similarity. It is imagined. Furthermore, when the player introduction caption power of the cut image 1203 has a red background, only the player introduction caption is detected as the attention area in the cut image 1203. It can be easily imagined that cut image 1203 and cut image 1202 are not classified into the same category.
  • the present invention is obviously different in configuration from the present invention, and the present invention has an overwhelming advantage in terms of the accuracy obtained when viewed only by classification.
  • the present invention also has a unique effect not found in Conventional Example 3 in that robust classification can be performed on telops and the like in cut images.
  • the completed cluster is such that cut images that should be originally the same cluster belong to different clusters or completely different cut images are in the same cluster
  • There is a problem with basic classification performance such as belonging.
  • a round-robin process was required, and it was noted again that there were problems with both accuracy and speed.
  • the accuracy rate of the pitching scene is 99.6% or more on average.
  • This is a figure for the case of a full baseball game including a commercial, and is a figure for a test with practical use in mind, using relatively bad conditions (the test Three baseball broadcasts were used, one of which was bright sunny at the beginning of the game, gradually becoming cloudy and getting darker, snow falling from the middle of the day and snowing that the image might be white for a while The other one is a video that has a strong rain during the second half of the day, but it is a case where it breaks down in the clustering method, and it is especially important for baseball. Even in the case of a system such as Patent Document 2, there is a case where the color information is lost and the solution is broken.
  • the present invention is obviously different in configuration from the conventional example, and can achieve accuracy and speed which can not be achieved at all by the prior art. Furthermore, it is confirmed that it has unique effects that have not been achieved before.
  • data to be classified is not limited to broadcast content, and may be any image data.
  • it is very effective for personal content (image group captured by digital camera) centering on still images. For example, photographs taken at the same place multiple times can be classified into the same category by this method and given the same tag (indexing).
  • a large number of still images for example, images captured at an interval of 1 second
  • a camera capable of intermittent shooting for a few hours to several days.
  • it may be, for example, an image of a surveillance camera, or an image of an individual who wears a camera on a body during travel and shoots a travel journal. It is thought that the cause of such a large amount of images automatically organized V, or the index given, occurs as a natural motive.
  • the classification method of the present method is introduced.
  • This method enables classification based on human visual features (appearing atmosphere). Since it is possible to reduce the influence of image information that is not visually important but not (not noticeable! /, Area), it is more similar to human intuition. It can be indexed as a single unit (cluster).
  • tags may be attached to images belonging to each cluster.
  • data to be classified is not limited to broadcast content, and may be arbitrary image data.
  • an image shot during intermittent travel of an individual travel is taken as an example of personal content, the embodiment is not limited to this, and it is good for an arbitrary still image or moving image. Well.
  • the user does not specify an object (not top down), and uses a new classification method of a stable image close to human perception, so as to be versatile and fast for the user. It becomes possible to construct a charting system that generates a trivial index (chapter), and it is possible to construct a comfortable video reproduction search system.
  • the present invention is applicable not only to video recorders (HDD recorders, DVD recorders, etc.), TVs, cell phones, car navigation systems, DVD players, etc., but also to recording or playback equipment, etc. Also, it can be used as a server-client system or the like that distributes the data to the client device together with the video.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 画像を分類する際に、画像内の処理対象範囲を映像内容に応じて動的に変更させながら分類用の指標を生成することで、ロバスト性の良い分類を可能とする。  映像シーン分類装置(100)における画像分類部(104)は、取得した複数の画像について、画像上の特徴を表す分類指標に基づいて複数のクラスタに分類する。クラスタ選択部(106)は、分類された前記クラスタの中から少なくとも1つのクラスタを選択する。インデックス生成部(108)は、選択されたクラスタを構成する画像のうち、少なくとも1つの画像にインデックスを付与する。これにより、分類結果のクラスタからインデックス付与に適したクラスタを選択する際に、クラスタの要素数や時間分布・EPG情報など比較的平易な情報に基づいてインデキシングルールを選択し、これに従ってインデックスを生成することで、自明的かつ安定したチャプタの生成が可能になる。

Description

明 細 書
映像シーン分類装置および映像シーン分類方法
技術分野
[0001] 本発明は、映像コンテンツを対象としたインデックスの自動生成技術に関し、特に 放送映像コンテンツにチヤプタ (インデックス)を自動的に付加するチヤプタリング技 術に関する。
背景技術
[0002] 近年、デジタルコンテンツの撮像や蓄積に関する環境が急速に整ったことを背景と して、これらのコンテンツをどのように取り扱うかについての検討が拡がっている。 HD D/DVDレコーダを始めとするデジタル家電の普及は、個人での大量の映像コンテ ンッの所有やアクセスを容易なものとして 、る。
[0003] このような「コンテンツ爆発」とも呼べる状況においては、ユーザに対して、映像コン テンッの視聴時 (さらに、検索時や編集時等)における利便性をいかに提供するかが 課題となる。例えば、テレビ番組等の放送コンテンツに対しては、意味のあるまとまり 毎に自動でチヤプタ (インデックス)を付与し、このチヤプタを使用してボタン一つで見 た 、シーンを頭出しできるようにする等の視聴支援技術が重要になる。
[0004] また、番組中のカット点を検出し、タイムスタンプをメタデータとしてチヤプタリングす る手法もあるが、これは、特許庁標準技術集にもあるように、古くから提示されている 手法である(例えば、非特許文献 1参照)。しかし、一般に放送コンテンツの場合は、 数秒ないし十数秒に 1回程度カット点が出現し、コマーシャル放送や音楽プロモーシ ヨンなどのビデオクリップの場合は、 1秒未満に 1回カット点が出現することも珍しくな い。これは、 1つの番組でもチヤプタが数百〜数千に及ぶことを意味する。利便性を 考えると、好みのシーンを探すために数百回以上の操作をすることは現実性に乏しく 、カット点をそのままチヤプタリングに用いることは殆ど無意味であると言わざるを得な い。
[0005] これに対し、いくつかのカット点をまとめることによってチヤプタの数を減らす試みも 行われている。また、映像に言語情報や音声信号を組み合わせることによってチヤプ タリングを行うもの(例えば、非特許文献 1又は特許文献 1参照)や、カット点間の画像 の類似性に基づくもの(例えば、非特許文献 2参照)、テンプレートマッチングなどの 特定シーンに対する認識抽出処理や隠れマルコフなどのモデルにより、映像におけ るカット構成の規則性や映像コンテンツの構成上の特徴を用いるもの(例えば、非特 許文献 3又は特許文献 2参照)、カット点の代わりに単純に一定時間毎にパケットィ匕 するもの (例えば、非特許文献 4参照)などが提案されている。便宜上、これらをカテ ゴリモデリング法 (CM法)と呼ぶことにする。
特許文献 1:特開 2000— 285243号公報
特許文献 2:特開 2003 - 52003号公報
特許文献 3:特開 2004 - 361987号公報
非特許文献 1 :「ショット分類に基づく映像への自動的索引付け手法」(井手一郎、他 、信学論(D— 11)、 Vol. J82-D-II, No. 10、 pp. 1543— 1551、 Oct. 1 999. )
非特許文献 2 :「映像対話検出によるテレビ番組コーナ構成高速解析システム」(青木 恒、信学論(D— 11)、 Vol. J88— D— II、 No. 1、 pp. 17— 27、 Jan. 2005. )
非特許文献 3:「カット構成の規則性を利用したスポーツ映像のプレイ単位への分割」 (椋木雅之、他、信学論(D— 11)、 Vol. J85— D— II、 No. 6、 pp. 1016— 102 4、 Jun. 2002. )
非特許文献 4:「固定長の時空間画像に基づく映像シーンのクラスタリング」(岡本啓 嗣、他、信学論(D— 11)、 Vol. J86-D-II, No. 6、 pp. 877— 885、 Jun. 2003. )
非特許文献 5:「Event Detection and Summarization in Sports VideoJ ( B. Li、他、 IEEE Workshop on CBAIVL 2001、 pp. 114— 138、 Dec. 2001. )
発明の開示
発明が解決しょうとする課題
し力しながら、理想的な視聴支援技術を実現するためには、なんらかの形でメタデ ータを付与するための技術が必要である。ところが、一般的には、メタデータを付与 するためには高度なメディア理解技術が必要と考えられており、これが大きな実用上 の障壁となっている。
[0007] つまり、汎用的なメタデータを付与し得るシステムの構築には、膨大な知識ベースと 理解ルールの構築が必要であるため、メタデータ付与の自動化プロセスは、用手的 アプローチが認められて 、る(人海戦術的なメタデータ付与が必要視されて 、る)ァ セットマネジメントシステムなど一部の業務用システム以外は不向きであると考えられ てきた。
[0008] 言い換えると、従来の「対象物を個別特定」するトップダウン的手法は、ロバスト性に 乏しく、被写対象が特定されにく 、一般状況下では非常に困難な課題を抱えて 、る (ここでいうトップダウン的手法とは、テンプレートマッチングや事前学習等、対象物を 限定した処理を伴う、対象物を事前に特定しなければ対象物を抽出できないタイプ の手法を指している)。
[0009] トップダウン型の手法は、そのシステムにおける検出対象を検出する際の性能に大 きく依存していることや、理想的モデルと現実データとの乖離に課題があり、顔、ヒト、 車又は建築構造物といった対象物やシーン特徴量の変化など、事前に検出対象を 特定した上で検出しモデルに当て嵌めてメタデータを付与しているため、ロバスト性 を失いやすいのである。
[0010] 更に、ここで、従来技術における実用上の課題について考える。
[0011] まず、第一に、チヤプタの付与基準がユーザにとって自明的でなければならない。
例えば、視聴中に次のチヤプタへジャンプする「スキップ視聴」をする場合、ユーザは 、「スキップ後のシーンがどのようなシーンである力」を事前にイメージできなければ現 実的に使用できない。ユーザにとって「次にどのようなシーンまでジャンプするのか分 力もない」状況は、乱数でスキップしていることと変わりなぐ次第に視聴意欲が削が れることとなる。
[0012] つまり、「チヤプタ」の位置がユーザにとって自明的でない場合には、視聴対象のシ ーンが「どのシーンがスキップされたのか分からない」ことになり、「(重要なシーンを見 逃している可能性もあるため、)使い勝手が悪い」ことにつながる。「どのシーンがスキ ップされて、次にどのシーンが来るの力」が予測可能でなければ、 自明的なチヤプタ とは云えない。
[0013] このように、視聴時、検索時又は編集時にぉ 、てユーザを支援するためには、チヤ プタがユーザにとって自明的な位置に付与されていることが絶対条件であると云える 。チヤプタの位置は有意でし力もなるベく固定的な意味を持つシーンであることが望 ましぐ重要なシーンの見逃しを招かないためには、特に再現率が重視されなければ ならない。
[0014] ここで、有意で固定的な意味を持つシーンとは、例えば、ノ ラエティ番組での各グ ループの登場シーンや野球番組での各ピッチングシーンなど、ユーザが暗黙裡に「 次のチヤプタ」として意識するであろうシーンであり、し力も比較的出現頻度が高いも のを指す。
[0015] この視点で考えると、これまでに開示されて 、る技術は 、ずれも十分ではな 、。
[0016] 例えば、あるチヤプタについて、意味のあるカット点として必ずしも間違っていなけ れば正解に準じて評価するケースがある。この場合、あるチヤプタは 10分程度の意 味のある固まり(シーン)に付与され、また別のチヤプタは 3秒程度のシーンに付与さ れるなど、番組内での各チヤプタの粒度が変化してしまうため、利用者は、次に 10分 間分のシーンがスキップされるのか数秒分のシーンがスキップされるのか分からず、 非常に困惑する。
[0017] また、野球やサッカーなど特定の番糸且コンテンツに限定するケースでは、当然汎用 性が無ぐ野球放送に限っても、天候の変化や球場の変化などに対応することができ ない。
[0018] また、映像をショットの切り替わり点や適当な映像の変化点や時間幅で幾つかの小 区間に区切り、それぞれの区間を適当な手法で分類し、分類された各クラスタの相互 関係を総当りで検査しながら映像の構造要素を抽出してチヤプタを生成するケースも ある (例えば、特許文献 1参照)。
[0019] しかし、このケースでは、分類性能により構造要素の抽出性能が左右される。一般 の放送映像は、必ずしも撮影条件が安定しているとは限らず、天候が変化したり、テ 口ップゃキャプションが挿入されたりと、多種多様な変化が発生する。このため、現在 の技術水準における一般映像に対する分類性能は、非常に低く不安定である。
[0020] このように分類性能が不安定であるが故に、従来の手法では、分類の結果できあが つたクラスタ同士を総当りで比較湘互相関などにより類似度を比較)し、同じようなシ ーンがクラスタに含まれて!/、な!/、かを検索 (又は推定)する必要があった。
[0021] 上記特許文献 1では、総当り検索をチェーン検出と称して、映像内の番組構造を抽 出するために用いている。しかし、元々、同じであると判定できな力つた (ために同一 クラスタに分類できなかった)二つのクラスタを、どうやって同一であるとしてチェーン 化するかにつ 、ては言及されて ヽな 、。
[0022] そのため、現実的な精度を有して実装することが不可能であると考えられるが、仮 にチェーン化するための類似判定エンジンが実現できたとしても、クラスタを総当りで 検索し、その中から構造要素を抽出しなければならず、計算コストは莫大なものにな る。その上、でき上がったチヤプタが自明的なものになるかどうかは、更に別問題とし て残ったままである。
[0023] 一般に、 CM法のチヤプタ性能は、想定したモデルに対しての再現率 (Recall)と適 合率(Precision)によって表される。
[0024] 例えば、上記特許文献 2および非特許文献 5に開示されて 、るように、条件を極め て限定し (この例では、映像を野球放送に限定)、分類する画像の種類も事前に固定 的に決定し (この例では、ピッチングシーンと固定)、分類のための特徴量をピッチン グシーンに特ィ匕した場合でも(この例では、後述の図 2のステップ S 304及びステップ S305のように、「ピッチングシーンは緑色の領域と褐色の領域が出現するはず」と決 め打ちで特徴量を設定しても)、再現率は 98%、適合率は 95%と報告されている。
[0025] 一見、これらの数値は、性能として十分であると見える力も知れな 、。しかし、この数 値は、構造化がしゃすく画像パターンが比較的変化しない野球の場合に対し、条件 を特ィ匕したものであることに注意された 、。
[0026] し力も、この例では、野球放送中の各投球シーンにチヤプタが付与されることになる 力 一試合では、おおよそ 200〜300球程度の投球シーンが発生する。例えば 250 球とした場合、一試合中に各投球シーンを逃さずチヤプタリングできる確率は、単純 計算で 98%の 250乗に相当する確率である。 0. 98の 250乗は約 0. 0064である。 つまり、ほぼ 0%である。
[0027] まとめると、従来のビデオ処理 (ビデオチヤプタリング)システムは、画像の分類性能 に立脚している。しかし、動画像データの(時間)変化'変動により、必ずしも良好な分 類結果を得られるとは限らない。これまでは、動画像を複数のフレーム力もなるセグメ ントに分割し、各セグメントの特徴量 (画像全体の色ヒストグラムや時間方向での変化 量など)を用いて分類していた。しかし、放送中には、任意のタイミングでテロップが 入ったり、カメラの切り替えが行なわれるため、人間が見た時に同じカテゴリに分類し て欲しいセグメントが、別のカテゴリに分類されることが往々にして発生してしまう。特 にトップダウン型では、こういった状況の変化に全く追従できない。
[0028] このような、雑音耐性が低く使用条件が限定された不安定な分類方法による、ビデ ォ処理は結果として非常に性能が低ぐ実用性に乏しいものとなる。し力も、分類性 能の低さを後段 (チヤプタ位置決定ルーチン)が補おうとするため、分類された各カテ ゴリ間の類似度を全検索しながら映像構造を推定するなど、速度面でも非常に遅い アプローチとなっている。そのため、分類性能の低さから逃れるために、放送コンテン ッの内容に対して特ィ匕したアプローチを取らざるを得ず、汎用性が犠牲となっていた
[0029] 更に、繰り返しになる力 生成されるチヤプタの付与基準はユーザにとって自明的 でなければならず、有意で固定的な意味を持つシーンであることが要求される。
[0030] 本発明は、上記課題に鑑みてなされたものであり、汎用的且つ高速で、ユーザにと つて自明的なチヤプタを生成し得る映像シーン分類装置等を提供することを目的と する。
課題を解決するための手段
[0031] 上記課題を解決するために、本発明に係る映像シーン分類装置は、映像を構成す る複数の画像のうち、 1つ以上の画像にインデックスを付与する映像シーン分類装置 であって、前記複数の画像について、画像上の特徴を表す分類指標に基づいて複 数のクラスタに分類する画像分類手段と、分類された前記複数のクラスタの中から少 なくとも 1つのクラスタを選択するクラスタ選択手段と、前記選択されたクラスタを構成 する画像のうち、少なくとも 1つの画像にインデックスを付与するインデックス生成手 段とを備える。
[0032] この構成によって、映像を構成する画像について分類指標に基づいてクラスタリン グすること〖こより、ロバスト性の良い分類を行うと共に、インデックスを付与すべきクラス タを特定することが可能になるため、ユーザにとってより自明的なチヤプタリングが可 會 になる。
[0033] また、前記映像シーン分類装置は、さらに、サンプリングすることによって前記映像 力 複数の画像を取得する映像サンプリング手段と、取得された前記画像毎に画像 処理を施す処理範囲を決定し、当該処理範囲に対して画像処理を施すことにより分 類指標を特定する処理範囲決定手段とを備え、前記画像分類手段は、決定された 前記処理範囲における画像上の特徴を表す分類指標に基づいて前記分類を行うこ とを特徴とする。
[0034] この構成により、それぞれの画像内でより有意な範囲を動的に限定して画像処理を 施して分類指標を決定するので、画像内にキャプションが入るなど、画像に変動が生 じた場合であっても、分類指標に基づいて安定したクラスタリングを行うことが可能と なる。
[0035] また、前記映像シーン分類装置は、さらに、分類された前記クラスタの分類指標又 は前記映像の番組内容情報に基づ 、て、インデキシングルールを決定するインデキ シングルール選択手段を備え、前記インデックス生成手段は、選択された前記クラス タに対して、選択された前記インデキシングルールを用いて、前記画像にインデック スを付与することを特徴とする。
[0036] この構成により、分類指標又は番組内容情報に基づいて、選択されたクラスタに対 してインデックスを付与する際のルールを選択することができ、より画像の特徴に応じ たインデックスを付与することが可能となる。
[0037] また、前記インデキシングルール選択手段は、前記番組内容情報に基づいて、 (1) 選択されたクラスタに含まれる全ての画像にインデックス付与する、 (2)選択されたク ラスタに含まれる全ての画像を時間軸でソートし、所定時間以内の画像の固まり毎に インデックス付与する、及び、(3)所定のクラスタに含まれる映像ブロックのうち、他の 所定クラスタにより連続的な固まりに含まれることのな力つた映像ブロックにインデック ス付与する、とする何れかのルールの中力 インデキシングルールを選択することを 特徴とする。
[0038] この構成により、より木目細力 、インデックスの付与ルールを設定することができる ため、ユーザにとってより自明的なチヤプタを生成することが可能になる。
[0039] なお、本発明は、上記映像シーン分類装置における特徴的な構成手段をステップ とする映像シーン分類方法として実現したり、それらステップをコンピュータ等に実行 させるプログラムとして実現したりすることもできる。そして、そのプログラムを DVD等 の記録媒体やインターネット等の伝送媒体を介して広く流通させることができるのは 云うまでもない。さら〖こ、本発明は、上記特徴的な構成手段を備える集積回路として 実現することちでさる。
[0040] さらに、本発明は、上記映像シーン分類装置 100の特徴的な構成手段を備えるク ライアントーサーバシステムとして実現することも可能である。
発明の効果
[0041] 本発明により、番組内容に対して、汎用的かつロバストで、ユーザにとってより分か りやすいチヤプタリングが可能となる。そして、ユーザにとって自明的で有意なチヤプ タを生成することができる。
[0042] 同時に、生成されるクラスタ精度が高いため、従来手法のような生成クラスタ間に対 する類似検査やクラスタ同士の分類行程が不要であるため、高速処理が可能となる。 図面の簡単な説明
[0043] [図 1]図 1は、従来例 1の概略を表す図である。
[図 2]図 2は、従来例 2の概略を表す図である。
[図 3]図 3は、従来例 3の概略を表す図である。
[図 4]図 4は、実施の形態 1における映像シーン分類装置の機能構成を示すブロック 図である。
[図 5]図 5は、実施の形態 1における映像シーン分類装置の詳細な機能構成を示す ブロック図である。
[図 6]図 6は、画像分類部の内部動作の様子を示すフローチャートである。
[図 7]図 7は、クラスタ選択部の内部動作の様子を示すフローチャートである。 [図 8]図 8は、インデックス生成部の内部動作の様子を示すフローチャートである。
[図 9]図 9は、インデックスルール選択部の内部動作の様子を示すフローチャートであ る。
[図 10]図 10は、処理範囲決定部の内部動作の様子を示すフローチャートである。
[図 11]図 11は、有効 Brickによるインデックスを付与する様子を模式的に示す図であ る。
[図 12]図 12 (a)〜(c)は、カット画像例を示す図である。
[図 13]図 13 (a)〜(c)は、処理範囲の決定例を示す図である。
[図 14]図 14は、無効 Brickによるインデックスを付与する様子を模式的に示す図であ る。
符号の説明
100 映像シーン分類装置
101 映像入力部
102 映像サンプリング部
103 処理範囲決定部
104 画像分類部
106 クラスタ選択部
107 インデキシングルール選択部
108 インデックス生成部
109 インデックス再生部
110 出力部
120 番組情報
1201 カット画像
1202 カット画像
1203 カット画像
1301 処理範囲設定例
1302 処理範囲設定例
1303 処理範囲設定例 発明を実施するための最良の形態
[0045] 以下、本発明の実施の形態について、図面を参照しながら説明する。なお、本発 明について、以下の実施の形態および添付の図面を用いて説明を行うが、これは例 示を目的としており、本発明がこれらに限定されることを意図しない。
[0046] また、本発明は、映像データ (放送コンテンツや個人コンテンツといった、動画デー タ及び静止画データ)をより効果的、かつ効率的に分類し、より精度良ぐ高速にチヤ プタを生成する映像シーン分類チヤプタリング技術に関するものである。この映像シ ーン分類チヤプタリング技術は、映像データの種類に対する事前知識が与えられる 場合には、更に良い性能を有する。この事前知識の例として、放送コンテンツでは番 組情報 (EPG情報) 120、個人コンテンツではユーザ入力による「旅行」「運動会」と いった情報や GPSなどによる位置情報や屋内外情報などがある。
[0047] (実施の形態)
図 4は、本実施の形態における映像シーン分類装置 100の機能構成を示すブロッ ク図である。まず、映像シーン分類装置 100の機能の概略を説明し、その後、各部の 機能について詳細な説明を行う。
[0048] 最初に、映像入力部 101にお ヽて映像情報 (例えば、映像自体を表す映像データ 及び映像の制御又は管理に関連する情報など)が入力される。入力された映像情報 は、映像サンプリング部 102において、予め規定された時間間隔 (又は Z及び予め 決められた規則)に基づいてサンプリングされ、静止画像の集合体が形成される。な お、カット検出機能 (即ち、映像を撮影するカメラの切り替わりを示すカット点を検出 する機能)を用いることによって、カット点で映像をサンプリングしてもよい(以降の説 明では、映像サンプリング部 102からの出力を、便宜上「カット画像」と呼ぶことにする 。もちろん、任意のサンプリング手段によって映像をサンプリングしてもよい。 ) o
[0049] 画像分類部 104は、カット画像を分類 (以下「クラスタリング」ともいう。)すること〖こよ つて、 1又は複数のクラスタを生成する部分である。なお、上記カット画像をクラスタリ ングすること〖こより得られた、 1又は複数の静止画像で構成される画像グループを「ク ラスタ」という。画像分類部 104における分類性能が、本映像シーン分類装置 100全 体の性能に大きく影響することは、既に従来技術の課題として述べた通りである。カツ ト画像を分類する際の指標 (以下「分類指標」という。)は、各カット画像の画像情報( 例えば、カット画像自体を表す画像データ及びカット画像の特徴等を表す情報など) 力 算出する訳であるが、カット画像内の変化に適応的に追従し、安定した分類を可 能とするために、画像分類部 104の前段に、処理範囲決定部 103を設ける。
[0050] 処理範囲決定部 103は、分類指標(即ち、クラスタリングに用いる物理量)を各カット 画像の画像情報から算出する際に、画像全体ではなぐ各カット画像内で分類に適 した情報を持つ範囲を動的に変更し設定する部分である。なお、ユーザは、操作入 力手段 (図示せず)を用いて、上記分類指標の変更が可能である。
[0051] 次に、処理範囲決定部 103の機能について、簡単に説明する。例えば、野球放送 でピッチングシーンにインデックス (チヤプタ)を付与する場合を考える。ピッチングシ ーンは、ヒトが見ればすぐピッチングシーンであると分かる力 実際のピッチングシー ンのカット画像には様々なバリエーションがある(図 12参照)。
[0052] 例えば、カット画像 1201を基本のピッチングシーンとすると、カット画像 1202は、ス コアやボールカウントを表すキャプションが付加されたピッチングシーンであり、更に カメラの角度が若干変化している(カット画像 1202ではノックネット側の壁が見えて いる)。また、カット画像 1203は、ノ ッターに関するキャプションが付加されたピッチン グシーンである。
[0053] 処理範囲決定部 103は、このような複数のカット画像に対し、ヒトが番組内容を把握 するにあたって注目すると予想される範囲(例えば、野球であれば、ピッチャーとバッ ターの対戦を表示している範囲)を、各カット画像について動的に設定する(図 13参 照)。図 13に示されている処理範囲設定例 1301、処理範囲設定例 1302及び処理 範囲設定例 1303が、それぞれ、図 12におけるカット画像 1201、カット画像 1202及 びカット画像 1203についての処理範囲設定例に相当する。
[0054] このように、本実施の形態では、従来のような画像全体の情報を用いる(又は、画像 全体を対象とする)のではなぐ処理範囲決定部 103によって設定された処理範囲の 画像情報を用いることで、画像分類部 104により、分類対象の変化に適応して口バス トな分類 (クラスタリング)を可能とする (処理範囲決定部 103の動作原理及び内部動 作に関する説明は後述する)。 [0055] 次に、クラスタ選択部 106の機能について説明する。クラスタ選択部 106は、画像 分類部 104において分類されたクラスタの中から、どのクラスタをチヤプタ付与に用い るかを、予め規定したルールに従って選択する。当然ながら、各クラスタの要素はカツ ト画像であり、 1以上のカット画像が集まって各クラスタを形成している。
[0056] クラスタ選択部 106におけるクラスタを選択する際のルールの一例として、「最も要 素数の多 、クラスタを選択する」場合にっ 、て説明する。
[0057] クラスタ選択部 106は、画像分類部 104によって分類されたクラスタについて、それ らの要素数 (カット画像数)が多いもの順にソートすることとする。この場合、最も要素 数の多いクラスタは、最も頻繁に放送された同種のカット画像で構成されており、最も 頻繁に放送されたと ヽうことは、配信側が最も伝えた 、 (伝えなければならな ヽ)番組 の主構成要素であると云える(正しく分類できない従来の映像分類方法では、このよ うな推論が成立しないことに留意されたい。 ) o
[0058] 例えば、野球放送であれば、放送中に最も頻繁に出現するカットは、図 12 (a)〜(c )のようなピッチングシーンのカット画像である(実験により、他のカット画像に較べて 圧倒的に出現頻度が高いことを確認している)。そして、当然ながら、ピッチングシー ンが野球プレイのトリガーであり、最も重要な構成要素である。
[0059] 即ち、野球放送にお!、て、最も要素数の多 、クラスタを選択すると、そのクラスタに はピッチングシーンのカット画像が集まっている。
[0060] 他の種類の番組では、クラスタの選択方法を変えるべき場合も考えられる力 クラス タ選択部 106の基本的な動作は、このように必要な (又は重要な)クラスタを選択する ことである (クラスタ選択部 106の詳細説明は後述する)。
[0061] 次に、インデキシングルール選択部 107の機能にっ 、て説明する。インデキシング ルール選択部: L07は、上記クラスタ選択部 106で選択されたクラスタのカット画像に インデックス(チヤプタ)を付与する際のルールであるインデックス生成ルール(「チヤ プタ生成ルール」とも 、う。)を決定する。
[0062] 例えば、先述の「最も要素数の多!、クラスタ」がクラスタ選択部 106で選択された場 合のインデックス生成ルールについて説明する。この場合、インデキシングルール選 択部 107が決定するインデックス生成ルールは、「クラスタ選択部 106で選択されたク ラスタに含まれるカット画像全てに、インデックスを付与する」こととする。これは、後述 の図 9のフローチャート中で、ステップ S909の「直接生成」に相当する。
[0063] その他のインデックス生成ルールについては後述するが、インデキシングルール選 択部 107の基本的な動作は、このようにチヤプタを付与する際に必要なルールを決 定することである (インデキシングルール選択部 107についての詳細な説明は後述 する)。
[0064] 次に、インデックス生成部 108の機能について説明する。インデックス生成部 108 は、クラスタ選択部 106で選択されたクラスタ (これを「選択クラスタ」という。)を構成す る全てのカット画像又はその一部のカット画像につ!、て、インデキシングルール選択 部 107で選択されたインデックス生成ルールに沿って、インデックスを付与する。
[0065] インデックス生成部 108の動作について、先述のインデキシングルール選択部 107 の例に沿って具体的に説明すると、クラスタ選択部 106において「最も要素数の多い クラスタ」が選択され、インデキシングルール選択部 107において、「直接生成」ルー ルが選択される。そこで、インデックス生成部 108は、「最も要素数の多いクラスタ」を 画像分類部 104によって分類されたクラスタ群カゝら読み出し、「最も要素数の多いクラ スタ」に含まれるカット画像の全てにインデックスを付与する。
[0066] このようにクラスタ選択部 106において選択された選択クラスタを、画像分類部 104 によって分類されたクラスタ群カゝら読み出し、インデキシングルール選択部 107で選 択されたルールに沿って、選択クラスタのカット画像の一部もしくは全部にインデック スを付与する。
[0067] 次に、インデックス再生部 109の機能について説明する。インデックス再生部 109 は、インデックス生成部 108で生成されたインデックス (チヤプタ)を用いて映像の再 生を行う。次のチヤプタが付与されているカット画像への移動や、前のチヤプタが付 与されて!/ヽるカット画像への移動、チヤプタが付与されて ヽるカット画像単位での手 動スキップや自動スキップ、各チヤプタが付与されて 、るカット画像以降を所定の秒 数間再生して、次のチヤプタが付与されて 、るカット画像に移動するなどを行う。
[0068] 次に、出力部 110の機能について説明する。出力部 110は、生成されたインデック スを表すインデックス情報を出力する。出力部 110は、インデックス情報を単独で出 力しても、入力された映像に関連づけて出力しても、入力された映像にチヤプタを設 定して、チヤプタ付与済み映像として出力してもよい。
[0069] 最後に、番組情報 120について説明する。番組情報 120は、インターネット、放送 電波又はユーザの入力によって取得可能な、番組に関する情報を意味しており、 EP G情報などを含む意である。上記処理範囲決定部 103、クラスタ選択部 106及びイン デキシングルール選択部 107は、補助情報としてこの番組情報 120を利用すること ができる。
[0070] 以上が、映像シーン分類装置 100の機能の概略である。
[0071] なお、図 4の構成図は例示を目的としており、本発明は図 4に含まれる構成要素を 必ずしも全て含まなくてもよぐ必要な機能を果たす最小限の構成を選択して実現し てもよい。
[0072] なお、映像サンプリング部 102でのサンプリング間隔は、固定の時間幅(例えば、 1 秒)でも、 MPEGストリームの Iフレームのサンプリングでも、カット点でのサンプリング でもよぐ任意の既存の手法を用いてサンプリングしてもよ 、。
[0073] また、映像サンプリング部 102では、静止画像であるカット画像を出力する代わりに 、入力映像を適当な長さの映像小ストリームに分割して、映像ストリーム群として出力 してもよい。この場合、サンプリングされた静止画像に対する一連の後処理は、映像 小ストリームの一部もしくは全フレームに対する処理と読み替えることができる。
[0074] なお、ユーザや上位システムからの指示入力を受け付けることが必要な場合は、映 像入力部 101を介して受け付けてもよい。
[0075] 以下、本発明に係る映像シーン分類装置 100の各主要部分の動作について、詳 細に説明する。
[0076] 図 5は、映像シーン分類装置 100のより詳細な機能ブロック図である。そして、各部 の内部動作の様子を示すフローチャートを図 6〜図 10に示す。
[0077] 図 5に示されるように、まず、映像入力部 101に映像データが入力されると(S501) 、映像サンプリング部 102によってサンプリングされたカット画像群が生成される (S5 02)。カット画像群を生成する手法は、前述のように、映像内容の変化点でサンプリ ングすることによる生成(S530)や、カットの変化点を検出し、変化点でサンプリング することによる生成(S531)、一定時間毎のサンプリングによる生成(S532)など、従 来の任意の手法を用いることができる。
[0078] 次に、処理範囲決定部 103の動作について詳細に説明する(図 5、図 10参照)。
[0079] サンプリングされたカット画像群の画像データが入力されると(S1001)、処理範囲 決定部 103は、各カット画像力も画像特徴量を算出する(S503ZS1002)。ここで用 いる画像特徴量は、画像に関する物理的な情報であり、輝度情報 (エッジ、マッハ効 果量など)や色情報 (色相、色差など)である。処理範囲決定部 103は、抽出された 画像特徴量に基づ ヽて、画素単位もしくは小ブロック単位で画像特徴量の解析を行 う(S504ZS1003)。解析された各画像特徴量には、所定の重み付けが付加され、 重み付けされた各画像特徴量が合算され (S505ZS 1004)、閾値処理がなされる( S1005)。
[0080] さらに、処理範囲決定部 103は、閾値処理によって特定された画像特徴量に対応 するカット画素群に対し、それらを内包もしくは外接する、カット画像内における矩形 を決定する(S1006)。処理範囲決定部 103は、このように決定された矩形を処理範 囲として出力する(S505ZS1007)。
[0081] ここで、画像特徴量の解析や重み付け、閾値の処理を、番組内容情報、番組書誌 情報又は関連情報を用いて適応的に変化させてもよい。
[0082] 例えば、 EPG情報を介して番組内容情報を取得し (S1020)、キャプションの発生 しそうな領域や発生頻度を推定 (S1009)したり、テロップ Z各種情報の発生しそうな 領域や発生頻度の推定 (S1010)や、キャプションやテロップなどの補助情報ではな ぐ主たる画像情報が表示されている領域の推定 (S1011)を行うこともできる。そして 、画像特徴量を解析する際に、主たる画像領域の画像特徴量を優先的に使用したり 、重み付けの際に、キャプション領域力も発生した画像特徴量の重みを相対的に低く (又は高く)することにより、主たる画像情報の影響を相対的に高く (又は低く)すること ができる。加えて、閾値の範囲については、テロップやキャプションが発生しやすい 場合には画像全体の変化量が大きくなりやすいため、閾値を上げたり、逆に、テロッ プゃキャプションの発生が少ない場合には、閾値を下げるなど、領域'頻度の推定と 各処理とを任意に組み合わせた処理を行うこともできる。 [0083] なお、決定される処理範囲の形状は矩形に限定されな!、。なお、閾値処理で残つ た点を内包もしくは外接する矩形の代わりに、閾値処理を行わず、単位面積当たりの 画像特徴量がより大きくなるように、所定 (又は所定以上)の大きさの領域を画像中に 動力しながら処理範囲を決定してもよい。なお、 EPG情報を介して番組の内容情報 を取得した際に、映像中の主体的な色を番組内容力も推定し (例えば、サッカー放 送なら緑色など)、その色との乖離度を画像特徴量としてもよい。
[0084] 以上の結果、図 12および 13に示すように、カット画像 1201、カット画像 1202及び カット画像 1203の各画像に対する処理範囲として、処理範囲設定例 1301、処理範 囲設定例 1302及び処理範囲設定例 1303が決定される。
[0085] 処理範囲決定部 103において、処理範囲は、おおよそ次のように決定する。例え ば、処理範囲設定例 1301の場合、投手の左右にエッジおよび色の差が顕著に現れ る。ノ ッターボックスの白線、打者、キャッチャー、アンパイャについても同様である。 これらを重み付けしながら足し合わせることで、所定の閾値よりも大きい画像特徴量 を有する点(小ブロック)が発生する。
[0086] 所定の閾値を超えた点(小ブロック)のうち、もっとも画像中で左側にあるもの力 ピ ツチヤーの左側のエッジ、右側にあるものがバッターボックスの白線、上側は打者の 頭及びキャッチャーの頭、下側はピッチャーのユニフォームのウェストラインおよびグ ラウンドの緑と茶色の境目である。この 4辺が決定し、処理範囲設定例 1301のような 範囲となる。処理範囲設定例 1302、処理範囲設定例 1303も同様であり、ュニフォ ームゃバッターボックスなどのエッジの他、キャプション(スコア表示およびボールカウ ント表示)、テロップ(打者紹介)などのエッジに沿って処理範囲が決定されて 、る。
[0087] 次に画像分類部 104について詳細に説明する(図 5、図 6参照)。
[0088] 図 6は、画像分類部 104の内部動作の様子を示すフローチャートである。
[0089] 画像分類部 104が呼び出されると(S601)、変数 nが「1」にセットされ (S602)、前 述のカット画像の入力とともにクラスタリングが開始される(S603)。その後、分類指標 が選択され (S604ZS506)、選択された分類指標でクラスタリングが実施される (S6 05ZS507)。クラスタリングアルゴリズムは、既存の任意の手法でよい。
[0090] なお、クラスタリング手法を大別すると、似たもの同士を併合してまとめて行く階層的 なクラスタリングと、似たものが結果的に同じグループに入るように集合を分割する非 階層的クラスタリングとがある。非階層的クラスタリングの代表例として、「k— mean法 」がある。また、階層的なクラスタリングでは、最初、各対象をばらばらの一つのクラス タとみなして、近いクラスタを次々と統合することによって、最終的な分類結果を得る 。階層的クラスタリングの代表例として、「最小距離法」などが挙げられる。
[0091] さて、クラスタリングの結果、 Cn個クラスタが生成される(S606)。ここでは n= 1なの で、 C1個である。ここで、定数 kと nを比較し(S607)、 kと nが等しくない場合には、 Cn 個のクラスタから p個のクラスタを選択し(S608ZS509)、nに 1を付カ卩して(S610)、 p個のクラスタに含まれるカット画像群を新たな入力画像データとしてクラスタリングを やり直す(S603)。このとき、 pは Cn以下の正の整数である。 pの決定方法は、要素数 の多いクラスタ力も順に、総入力カット画像数の所定パーセントに達するまでの個数 とし、 Cnの 2分の 1を超えないものとする。
[0092] また、上記ステップ S607で kと nが等しい場合には、クラスタリングを完了する(S61 D o
[0093] なお、 pの決定方法は上記に限らず、単に、要素数の多いクラスタから順に、総入 力カット画像数の所定パーセントに達するまでの個数として決定してもよい。また、定 数によって pを決定していてもよい。また、 Cnの所定割合としても pを設定してもよい。
[0094] なお、定数 kは、 2ないし 3といった固定値でよいが、 S607の代わりに、特定のクラ スタ(要素数が上位のクラスタ)に所定の割合以上のカット画像が分類されて ヽるか否 かでもう一度クラスタリングをおこなうかどうか決定してもよい。
[0095] なお、処理範囲決定部 103から処理範囲が入力されてもよい(S630)。処理範囲 が入力された場合、クラスタリングする分類指標として、処理範囲によって限定される 物理量を表す情報を用いてもよい。例えば、処理範囲の形状、位置及びサイズなど をクラスタリングする際の分類指標としてもよい。
[0096] なお、分類指標を選択する際に、データベースに格納されて!、る分類指標を参照 してもよい(S620)。例えば、上記のような処理範囲の形状、位置及びサイズといった 分類指標の他、画像情報から物理量として色指標 (色相指標、色差指標など)や、輝 度指標を選び出し、分類指標としてもよい。 [0097] なお、処理範囲の内側の画像のみを対象として、色差指標や、輝度指標などの画 像特徴量を算出してもよい。これはもちろん、処理範囲の外側の画像のみでもよぐ 更に、所定の幅を持つ処理範囲の周辺領域のみを対象としてもよい。
[0098] これらの分類指標は、物理量を直接使用するほか、ヒストグラムを用いてもょ 、。ま 7こ、 DCT (Discrete Lysine Transformノゃ FFT( Fast Fourier Transform)などの周波 数変換を行!、、その直流成分又は交流成分を指標として用いてもょ 、。
[0099] なお、以下の 2つの物理量を利用してクラスタリングする際の分類指標としてもよい 。「1.処理範囲のカット画像中における位置」、「2.処理範囲の内外の一定範囲の 画像特徴 (例えば周囲 20ピクセルなど)」。
[0100] 特に、上記「2.」の物理量は、具体的には処理範囲の境界線から内外一定範囲の 画素について、エッジ強度と色相のヒストグラムをそれぞれ取得し、ヒストグラムは参照 した画素数で正規化しておく。カット画像の分類は、上記「1.」および「2.」の二つの 分類指標から、例えば最短距離法に基づくクラスタリングによって行う。この際、 2つ の分類指標を個別に用いることで、 2段階のクラスタリングを行ってもよい。
[0101] まず、はじめに、処理範囲間の距離 D1を距離尺度としてクラスタリングを行う。処理 範囲を矩形とした場合、 D1は二つの矩形の対応する頂点間の距離である。処理範 囲間の距離を比較することで、カット画像の大ま力な構図を判定する効果が見込まれ る。次に、 1回目のクラスタリングで要素数が多いクラスタ力も順に一定個数のクラスタ を選び、そのクラスタに属するカット画像に対してヒストグラムに基づいて距離 D2を設 定し、 2回目のクラスタリングを行う。
[0102] D2は、エッジ強度のヒストグラム He、色相のヒストグラム Hhを用いて定義し、
[0103] [数 1]
Ne
D2 = 厶 〖園 { He,x ( i ) , He,y ( 1 ) 1
i=0
Nh
+ L. [ MIN i Hh^ f j ) , Hh,y ( j ) } ]
j=0 のように表される。なお、 MIN{x, y}は、 x, yのうち、小さい方の値を表す。また、 Ne 、 Nhは、ヒストグラムの次数を表す。例えば、 Neは 16、 Nhは 15として色相のヒストグ ラム Heは、有彩色 12段階と無彩色 3段階を含むものとする。エッジ強度ヒストグラム H eと色相ヒストグラム Hhを用いて、カット画像の前景および背景の類似度を判定する 効果が見込まれる。両者を組み合わせることによって、「ヒトがどこを見て類似性を判 断して 、る力」を大まかに考慮しつつ、注目して 、る部分の近傍の特徴を捉えること で、よりヒトの直感に近い分類が可能となる。
[0104] 次に、クラスタ選択部 106について詳細に説明する(図 5、図 7参照)。
[0105] 図 7は、クラスタ選択部 106の内部動作の様子を示すフローチャートである。
[0106] 画像分類部 104においてクラスタリングが終了すると(S701)、クラスタ選択指標が 決定される(S702)。クラスタ選択指標には大きく 3種類あり、「クラスタの要素数で選 択」、「所定の算出式力 選択」及び「特定のクラスタを選択」のうちから何れかが選択 される。
[0107] ここで、クラスタの要素数に基づいて選択された場合 (S703 : Yes)、要素数の多い クラスタの上位 S1個が選択され(S704、 S540) (例えば野球の場合、ピッチングシ ーンのクラスタに相当する。この場合、 S1が 1であり、上位 1個のクラスタが選択され) 、ステップ S705に移動する。
[0108] クラスタの要素数順で選択されず (S703 :No)、所定の算出式より選択されていた 場合 (S705 :Yes)、所定の算出式を用いて S2個のクラスタが選択される (S706)。
[0109] 所定の算出式 (条件式)は、例えば、次のように記述することができる。「1番目のクラ スタ Ciの要素数を Riとするとき、 Thl <Riく Th2を満たす iのうち、 Riの大きいものか ら順に S2個を選択」する(このケースは、例えば、要素数が 5〜: LO枚のカット画像から なるクラスタを選択する場合などが相当する。クイズ番組の出題シーンなど、番組構 成上のトピックの総数がおおよそ予想される場合に有効である。クイズ番組のタイトル などから、おおよその問題数が予め定義され、その数に有った要素数を持つクラスタ を自動選択する。)その後、次のステップ S707に移動する。
[0110] 所定の算出式より選択されておらず (S705 :No)、特定のクラスタより選択されてい た場合 (S707 : Yes)、クラスタを選択するためのマッチングのテンプレートが読み込 まれる(S708)。テンプレートはパターン DBとしてデータベース化し、記憶しておい ても、必要に応じて読み出してもよい(S710)。読み込まれたテンプレートを用いて、 各クラスタとパターンマッチングを行い、テンプレートに適合するパターンのクラスタを 選択して(S709)、クラスタ選択は完了する(S711)。
[0111] 一方、特定のクラスタからの選択がされていない場合(S707 : No)、これまでに何ら かのクラスタの選択がなされているかどうかを判定する(S750)。これまでに何らかの クラスタの選択がされていれば、クラスタ選択完了(S711)に移動する。何も選択され ていなければ、これまでの 3通りの何れかの選択手法に限定するよう、フィードバック を選択決定ステップ (S 702)に返す (S721)。
[0112] なお、上記ステップ S709でのパターンマッチングは、全クラスタについて行っても、 一部のクラスタについて行ってもよぐ各クラスタの一部の画像 (代表画像)について のみ行ってもよい。
[0113] また、番組情報 120、例えば EPG情報を介して番組内容情報、番組書誌情報又は 関連情報を取得し (S720)、クラスタ選択指標の決定 (S702)や、読み込むテンプレ ート種類の決定(S708)、 Sl、 S2の決定(S704、 S706)などの補助情報として用い てもよい。
[0114] 例えば、番組情報 120から番組のジャンルが「野球」と分力つた場合には、前述のよ うに、「クラスタの要素数で選択」し、「S1は 1」とすることができる。同じく前述のように 、(10問前後が出題される)クイズ番組と分力つた場合には、「所定の算出式から選択 」し、算出式は「Thlを 7、 Th2を 13」とし、「S2は 5」などと設定できる。
[0115] また、上記ステップ S 706では、要素数 Riだけではなく、時間分布を用いて条件式 としてもよい。例えば、条件式を i番目のクラスタ Ciの j番目の要素(カット画像) Rijのタ ィムスタンプを TRijとし、時間軸で最小の TRijを MIN— TRij、最大の TRijを MAX —TRijとするとき、番組の本編の時間幅を T1から T2として、本編時間に対する出現 時間ズレ(DIF1)を(MIN_TRij— T1) + (T2— MAX_TRij)で定義してもよ!/ヽ。 この場合、より DIF1が小さいクラスタを選択することで、同じ要素数のクラスタであつ ても、より番組全般の特徴を捉えたクラスタを取得することができる。
[0116] 逆に、 MIN— TRijと MAX— TRij力 所定の時間幅の中に収まっているようなクラ スタを選択するような条件式としてもよい。例えば、 1時間番組の中の最初の 10分か ら 15分の間に収まっているようなクラスタを選択する、などである。このようなクラスタ を時間幅を変えながら複数選択することで、番組内でコーナー毎に大きく構成が変 化し、コーナー相互に類似性が無いような番組であっても、適切にインデックス (チヤ プタ)を付与するためのクラスタを選択することができる。
[0117] 同様に考えると、ニュース番組など、アンカーパーソンのシーンには類似性があつ ても、 VTRシーンには類似性がないような番組であれば、番組本編全体に渡って、 時間分布の均質なクラスタと、局所的に固まって出現するクラスタを組み合わせること で、容易にチヤプタ付与ができる。
[0118] ちなみに、後述の Brick (チヤプタ Zインデックス候補の固まり)を生成する際に、チ ャプタに有効な固まり(インデックスを付与すべき範囲を示す固まり)を生成するの力、 無効な固まり(インデックスを付与すべきでない範囲を示す固まり)を生成するのかを 決定しなければならない。このニュース番組の例では、局所的に固まって出現するク ラスタは、インデックスに不向きな「無効な固まり」を生成するためのクラスタといえ、こ の「無効な固まり」に含まれないカット画像を有する時間分布が均質なクラスタは、ィ ンデッタスを付与すべきクラスタであると云える。
[0119] もちろん、条件式は上記に限らない。上記の例のように、番糸且情報 120を補助情報 として、一般に想定し得る番組構造への仮説 (仮定)を数式ィヒしたものであれば任意 のものを扱ってよい。例えば、時間軸では、カット画像の分布、分散、平均又は最頻 出現時間帯などを用いて、番組構造との対比を行い、適切なクラスタ選択に役立て てもよい。要素数でも同様に、出現カット数、最大数、平均などを用いて、番組構造と の対比を行 、、適切なクラスタ選択に役立ててもよ 、。
[0120] 更に、番組情報 120を用いて、使用するテンプレートを決定してもよい。特定の図 柄やレイアウトを有するシーンが存在する番組であれば、固定的なテンプレートの使 用は非常に有効である。このとき、画像分類部 104によって各クラスタは適切に分類 されているため、各クラスタの代表画像 (例えば、平均画像)とのマッチングを行い、 最も近いクラスタを選択するだけで、他の同様の構図を持つカット画像を一度に取得 することができる。画像全体に対して、同じマッチングを行った場合と同様の結果を各 クラスタの代表画像 (例えば、平均画像)とのマッチングを行っただけで得られるため 、大幅な計算コストの削減にもつながる。
[0121] ステップ S777では、選択クラスタと選択クラスタの属性情報を出力する。ここで、「 選択クラスタの属性情報」とは、クラスタを選択した際の「Brickを生成するのに有効 Z無効なクラスタかどうか」及び「直接インデックスを付与すべきクラスタかどうか」につ いて表す情報である。
[0122] 属性情報を決定する判断基準は、先の-ユース番組や野球番組の例で述べたクラ スタ自身の選択基準と同一である。「単独で適切にインデックスを付与するためのクラ スタとして選択した」クラスタであれば「直接インデックスを付与すべきクラスタ」 t 、う 趣旨を伝える属性情報がそのクラスタに付与されて出力される。他の属性情報につ いて同様である。
[0123] なお、この Brickに関する動作については、次のインデキシングルール選択部 107 にて詳しく説明し、その後、クラスタ選択部 106における各 Brick用のクラスタ選択例 を示すこととする。
[0124] なお、単純に、番糸且構成においてより意味を持つシーン群やショット群力 他のシ 一ン群ゃショット群に較べて利用(放送)されることが多くなることは、合理的な仮定で あると云える。これは、作成者側の構造的に番組を構成し視聴者に流れを伝えたいと いう意図を考えた場合でも同様と思われる。番組内容を理解するために必要な導入 部分やブリッジ部分は、映像文法的にも高い頻度で繰り返され、番組内のコーナー やシーン (の先頭や重要部分の開始位置)を構成するものと考えられる。クラスタ選択 部 106は、このような番組構成上の特徴を踏まえた上で、クラスタを選択することがで きる。
[0125] なお、クラスタを選択する個数について、例えば次のように求めてもよい。
[0126] コマーシャルなどを含んだ番組の総放送時間を Lpとし、番組内での平均カット出現 数を とする(カット画像を用いた場合)。 i番目のクラスタ Ciに含まれるカット数を NCi とするとき、選択する個数となるクラスタ数は、
[0127] [数 2] k
NCi > Tc
i—0 を満たす最小の正の整数 kとして求めてもよい。なお Tcはしきい値であり、 γをパラメ ータとして Tcは γと Τρと Crの積で求められる。 γは番組中において特に重要なカツ トがどの程度含まれるかを表すパラメータである。
[0128] 次に、インデキシングルール選択部 107の動作について詳細に説明する(図 5、図 9参照)。後半では、クラスタ選択部 106における各 Brick用のクラスタ選択例を併せ て示す。
[0129] 図 9は、インデキシングルール選択部 107の内部動作の様子を示すフローチャート である。
[0130] インデキシングルール選択部 107は、クラスタリング結果(S902)を示すデータの入 力(S903)を受け、まず、使用するクラスタ数やクラスタの要素数から、 Brickの生成 が必要力どうかを判断する(S904)。ここでは、選択されたクラスタ内のカット画像力 時間的にほぼ連続した固まりを形成している場合に、その固まりを Brickと呼んでいる
[0131] Brickの生成が必要と判断された場合、 Brick生成が必要であることを次段に伝え るシグナルが発行される(S905ZS543)。そして、その Brickがチヤプタとして「有効 」な候補なのか、「無効」な候補なのかを決め(S906)、有効な場合は「有効チヤプタ」 シグナルを発行する(S907)。無効の場合は「無効チヤプタ」シグナルを発行する(S 908ZS542)。その後、各発行シグナルを入力映像に対するインデキシングルール として出力し(S910ZS511)、インデキシングルールの決定処理を終了する(S911
) o
[0132] Brickを用いたチヤプタリングルールの概略について、図 11を用いて説明する。映 像データとしてカット画像が入力され (S 1101)、クラスタリングされる(S 1102)。クラ スタのうち、クラスタ A、 B、 Fが選択されたとして、選択クラスタ内のカット画像を元の 映像データの時系列上に配置する(S 1103)。 S1104の黒色のデータ位置(黒カット 画像)力 クラスタ A、 B、 Fの何れかに属しているカット画像のデータ位置に相当し、 白色(白カット画像)がそれ以外に相当する。ここで、 Brickを生成すると、 S1105A、 S1105B、 S1105C、 S1105Dのように、 4つの Brick (固まり)力 Sできる。
[0133] ここでの Brickの生成アルゴリズムは、先述のように選択されたクラスタ内のカット画 像力 時間的にほぼ連続した固まりを形成している場合に Brickとし、連続していな V、場合には Brickとしな ヽと 、う比較的単純な方法を取って!/、る。時間的に連続かど うかの判定は、図 11の任意の黒カット画像と黒カット画像の間に所定の時間幅 (Twh )以上、一つ以上の白カット画像が含まれている場合、その黒カット同士は同じ Brick を形成しない。つまり、 Twh以上、時間的に間を置かずに黒カット画像が出現する限 り、時間的にほぼ連続であるとする。
[0134] この所定の時間幅 Twhは、インデックスを生成する際に必要となる (インデックス生 成部 108で必要となる)が、インデキシングルール選択部 107では、時間幅 Twhを特 定する必要はない (インデキシングルール選択部 107は、必要最低限、 Brick作成が 必要かどうかのみをルールとして決定すれば良!、)。
[0135] なお、図 11の Brick生成(S1105)及びインデックス付与(S1106)の例は、図 9の S907の有効チヤプタが選択された場合に相当する。後述のインデックス生成部 108 でも触れるが、「Brickを有効チヤプタ」とした場合、インデックスは各 Brickの先頭 (も しくは各 Brick内の任意箇所)に付与される。
[0136] 逆に、ステップ S908の「Brickを無効チヤプタ」とした場合は、無効な Brick生成用 のクラスタと、 Brickを生成しないクラスタがクラスタ選択部 106で選択されている(先 述の-ユース番組など、アンカーパーソンのシーンには類似性があっても、 VTRシー ンには類似'性がな ヽような番糸且などのケース)。
[0137] 無効 Brickも、 Brickの生成アルゴリズムとしては、先の有効 Brickと同様である。無 効 Brick生成用のクラスタに属するカット画像力 無効 Brickが生成される。ここで、 便宜上、『Brickを生成しないクラスタに選択されたクラスタ』に属するカット画像を有 意カット画像と呼ぶことにする。
[0138] この「Brickを無効チヤプタ」とした場合、インデックスは無効 Brickではなぐ有意力 ット画像に付与される力 有意カット画像のうち、各無効 Brickに含まれるカット画像 には付与されない。 [0139] 図 11と同様、無効 Brickを用いたチヤプタリングルールの概略について、図 14を用 いて説明する。映像データとしてカット画像が入力され (S1401)、クラスタリングされ る(S1402)。クラスタのうち、クラスタ A、 B、 Fが無効 Brickを生成するクラスタとして 選択され、クラスタ Dが有効なクラスタとして選択されたとする。これらの選択クラスタ 内のカット画像を元の映像データの時系列上に配置する(S1403)。ステップ S1404 の黒色のデータ位置(黒カット画像)が無効 Brickクラスタ A、 B、 Fの何れかに属して V、るカット画像のデータ位置に相当し、白黒の斜め線の模様が入ったデータ位置 (模 様カット画像)がクラスタ Dの有意カット画像(6つあるとする)のデータ位置に相当し、 白色(白カット画像)がそれ以外に相当する。ここで、先の Brickと同じように無効 Brie kを生成すると、 S1405A、 S1405B, S1405C, S1405Dのように 4つの無効 Brick ができる。
[0140] ここで、 6つの有意カット画像 S1410A、 S1410B、 S1410C、 S1410D、 S1410E 及び S1410Fにインデックスを付与する力 このうち、無効 Brickに含まれている S 14 10B及び S1410Dにはインデックスが付与されず、残りの 4つにインデックスが付与さ れる。
[0141] インデキシングルール選択部 107における Brick生成時のインデキシングルールの 決定方法は、以上の通りである。
[0142] 次に、ステップ S 904で Brick生成が必要な 、と判断された場合にっ 、て説明する 。この場合は、選択されているクラスタのカット画像に直接インデックスを付与する「直 接生成」シグナルを発行する(S909ZS544)。そして、ステップ S910に進む。
[0143] 基本的に、 Brickの生成が必要かどうかの判断は、クラスタ選択部 106で (このクラ スタは無効 Brick用のクラスタ、このクラスタは有効 Brick用のクラスタなどと)選択され た情報に従って決定される。しかし、何らかの原因でクラスタ選択部 106でのクラスタ 指定情報が欠落した場合などには、上記図 7の S720と同様に、番組内容情報、番 組書誌情報又は関連情報を、 EPG情報を介して補助情報として入力してもよ 、 (S7 20)。 Brickの生成が必要力どうかについて、補助情報に基づいて判断してもよい。
[0144] このように、インデキシングルール選択部 107では、 Brick生成が必要かどうかに基 づいて、 Brick生成が必要であれば有効 Brickか無効 Brickかを決定し、 Brick生成 の必要がなければ直接生成を決定する。
[0145] この「直接生成」、「有効 Brick生成」及び「無効 Brick生成」の各シグナルに対する 実インデキシングルールをまとめると次のようになる。
[0146] ·直接生成:選択されたクラスタに含まれる全カット画像にインデックスを付与する。
[0147] ·有効 Brick生成:選択されたクラスタに含まれる全カット画像を時間軸でソート、所 定時間以内の固まり毎にインデックスを付与する。
[0148] ·無効 Brick生成:所定のクラスタ (有意なクラスタ)に含まれるカット画像 (有意カット 画像)のうち、他の所定クラスタ (無効クラスタ)による Brickに含まれることのな力つた カット画像にインデックスを付与する。
[0149] なお、クラスタ選択部 106で、有効 Brickを生成するクラスタや、無効 Brickを生成 するクラスタとインデックス付与に有効なクラスタをどのように選択するかについてであ る力 上述したクラスタ選択部 106の説明においても触れたように、各クラスタの要素 数や総要素数で判断する。他にも、各クラスタの時間分布状況や、 EPG情報を始め とする番組情報 120を用 ヽることも前に述べた通りである。
[0150] 重複するが、ニュース番組など、アンカーパーソンのシーンには類似性があっても、 VTRシーンには類似性がないような番組であれば、番組本編全体に渡って、時間分 布の均質なクラスタと、局所的に固まって出現するクラスタを組み合わせることで、容 易にチヤプタを付与することができる。
[0151] つまり、ニュース番糸且であれば、時間分布の均質なクラスタをチヤプタに有効なクラ スタ(有意カットを含むクラスタ)とし、時間分布に偏りのあるクラスタを無効 Brick生成 用のクラスタとする、という方法を用いることができる。
[0152] また、上位 n個(例えば 1個)のクラスタに含まれるカット画像数の総カット画像数に 占める割合が、所定値 (例えば 15%)以上である場合には、直接生成用のクラスタと して、そのクラスタを選択する、という方法を用いることができる。これは特に野球など のスポーツ番組において有効な手法である。もちろんこの場合、番組情報 120から野 球番組である、という情報を取得して、上位 n個を無条件に選択してもよいし、逆に、 野球番組で且つ所定割合以上と ヽぅ複数条件にしてもょ ヽ。
[0153] また、上位 n個(例えば 10個)のクラスタのカット数の総和を取っても、総カット数の 所定割合を超えな ヽような場合や、上位のクラスタが時間分布でそれぞれ偏って ヽる 場合などは、上位 n個のクラスタや、時間的に偏っている各クラスタを「有効 Brick」生 成用として選択する、という方法を用いることができる。これは、特にバラエティ番組や 音楽番組に有効である。もちろんこの場合も、先の野球の例と同じように番組情報 12 0から補助情報を得てもよい。
[0154] なお、この「直接生成」、「有効 Brick生成」及び「無効 Brick生成」の!、ずれかを選 択する際に、クラスタ選択部 106におけるマッチングテンプレートを用いたパターンに 適合したクラスタ(S708、 S709)を用いてもよい。
[0155] 例えば、特定のシーンには必ずインデックスを付与したい場合には、テンプレートの パターンに適合したクラスタを「直接生成」に用いてもよい。アンカーパーソンのシー ンを集め、無効 Brickに含まれた以内場合には、インデックスを付与したい場合には 、アンカーパーソン用のテンプレートを利用し当該のシーンを集めてもよい。
[0156] なお、上記図 9の説明では、インデックス付与ルールとして、「直接生成」、「有効 Bri ck生成」及び「無効 Brick生成」についてのみ記述した力 これらを組み合わせてィ ンデッタス付与ルールを構築してもよい。例えば、無効 Brickと有効 Brickをそれぞれ 生成し、無効 Brickと重複しな 、(内包しな!、Z内包されな 、Z—部共有しな 、)よう な有効 Brickにインデックスを付与してもよい。また、階層的にインデックスを生成する ようなルールとしてもよい。例えば、より細力 、レイヤーのインデックスとして「直接生 成」を用い、より粗 ヽ(上位の)レイヤーのインデックスとして「有効 Brick生成」を用い てもよい。ここで、階層構造とした場合に、互いのレイヤーの情報を相互で利用できる ようにしても、もちろんよい。
[0157] なお、「直接生成」、「有効 Brick生成」及び「無効 Brick生成」のみではなぐ単純に 「利用する」クラスタ、「利用しない」クラスタを指定して、それらを組み合わせることで ルールを構成してもよい。「直接生成」、「有効 Brick生成」及び「無効 Brick生成」は 、「利用する」クラスタ、「利用しない」クラスタを指定して組み合わせた特殊なケースの 一つである。
[0158] また、「利用する」クラスタ、「利用しない」クラスタの選択と組み合わせルールを、番 組情報 120を補助情報として生成してもよい。 [0159] なお、 Brickを生成する際の閾値条件である所定の時間幅 (Twh)を、 Brickを構成 しないクラスタに属するカット画像の枚数 (Nlim)に置き換えても良ぐ例えば、一つの Brickとして継続できる許容限界 (他のカットが連続して混入してよ!、枚数)を Nlimと すると、 Nlimは、
[0160]
Figure imgf000030_0001
を満たす最小の正整数として求めてもょ 、。
[0161] ある Brick内にぉ 、て、 Brick構成対象の k個のクラスタ以外に属するカット画像が 連続して Nlim枚を超えて出現した場合、その Brickは分割されるものとする。なお、 T Hは閾値であり、 ηをパラメータとして、 ηと kの積を Crで割ったものとして求められる 。 r?は、番組中において非重要なカットがどの程度含まれるかを表すパラメータであ る。先の γと合わせて r?の値は、複数の番組から実験的に求めた値の平均値を採用 できる。
[0162] 次にインデックス生成部 108の動作について詳細に説明する(図 5、図 8参照)。
[0163] 図 8は、インデックス生成部 108の内部動作の様子を示すフローチャートである。
[0164] インデキシングルールの入力(S801)、クラスタリング結果の入力(S802)、クラスタ 選択結果の入力(S893)によるデータ入力後(S804)、インデキシングルールの発 行シグナルに沿って実際にインデックスの生成を行う。直接生成シグナルが発行され ている場合、選択されたクラスタのカット画像を直接利用することになり(S805 :Yes) 、選択されたクラスタ内の全カット画像のタイムスタンプを抽出(S806ZS545)した 後、抽出したタイムスタンプの各時刻に合わせてインデックスを生成し (S812)、出力 する(S813)。
[0165] 直接生成シグナルが発行されて 、な 、場合 (S805: No)、 Brickを生成することが 基本となる。そのため、 Brick生成のシグナルが発行されていない場合は(S807 :N o)、エラー処理を行う (S830)。
[0166] Brick生成のシグナルが発行されている場合(S807 : Yes)、有効 Brickもしくは無 効 Brickを、選択されているクラスタを用いて実際に生成する(S808)。生成方法の 説明は、既にクラスタ選択部 106やインデキシングルール選択部 107の説明時に述 ベている通りである。
[0167] 次に、生成された Brickが有効チヤプタである場合(S809 :YesZS548)、すなわ ちチヤプタ生成 (インデックスの付与)に有効な Brickである場合、各 Brickの先頭画 像のタイムスタンプを抽出し(S810ZS546)、タイムスタンプの各時刻に合わせてィ ンデッタスを生成して(S812)、出力する(S813)。
[0168] さらに、生成された Brickが無効チヤプタである場合(S809 :NoZS547)、すなわ ちチヤプタ生成 (インデックスの付与)に無効な Brickである場合、各 Brickに含まれ ない選択クラスタのカット画像のタイムスタンプを抽出し(S811ZS547)、タイムスタ ンプの各時刻に合わせてインデックスを生成して(S812)、出力する(S813)。
[0169] なお、 S810では各 Brickの先頭画像のタイムスタンプを抽出したが、各 Brick内の 任意のタイミング (例えば、平均時間、中央時間など)をタイムスタンプとして抽出して ちょい。
[0170] なお、上記では、インデックス生成のアルゴリズムの一例を示した力 インデックス生 成のアルゴリズムはこれに限定されるものではなぐインデックスルールとして決定さ れたルールを実際に実行するアルゴリズムであれば任意の形をとつて良いことは云う までもない。
[0171] 以上が、本発明に係る実施の形態 1における映像シーン分類装置 100の説明であ る。
[0172] なお、ここで、参考までに従来例と本願との比較を行ってみる。
[0173] 図 1は、従来例 1 (特許文献 1)の実質的な概略処理ステップを示している。映像を セグメント化し、音響特徴量と映像特徴量からセグメントの類似度を測り、クラスタリン グする。その上で互いに類似するセグメントを含むクラスタを探し出し、類似チェーン を構成している。
[0174] 発明が解決しょうとする課題にて先述したように、精度や速度両面をはじめ、実現 性そのものにも課題を有しているが (仮に出願時の技術水準で複数のジャンルに適 用した場合、適合率 ·再現率とも 30〜50%程度になると試算)、放送番組に汎用的 にインデックスを付けようとする点で、本願と目的は同一であり、先行例として従来技 術水準を表す文献である。
[0175] 本願発明とは、明らかに構成が異なる上、実現可能であるという点で大きな違いが ある。更に、得られる精度や速度面での圧倒的な優位性があり、しかも、カット画像内 のテロップなどにもロバストな分類を行い、ヒトの知覚に沿った分類ができるという、従 来例 1にはな!/ヽ特有の効果も有して ヽる。
[0176] 図 2は、従来例 2 (特許文献 2)の実質的な概略処理ステップを示して 、る。映像ジ ヤンルを特定し、例えば野球の場合には、水平方向に 3つの小領域を設定し、緑色 および褐色の領域を検出することでピッチングシーンの検出を試みるものである。
[0177] 上記発明が解決しょうとする課題にて述べたように、ジャンルに対する汎用性がな い上、球場や天候にも左右される。また、図 12のように水平方向に大きくテロップが 出た場合にも無力である(先に示した再現率は 98%、適合率は 95%という数値は、 テロップを含んだカット画像群に対してではない)。経験的に、野球のカット画像には 、 20〜30%の確率で複数のキャプションやテロップがカット画像中に含まれて!/、る。 このような場合には、特に再現率が約 60〜80%に大きく低下すると試算される。
[0178] このように、実現時には映像状況へのロバスト性とジャンルの汎用性の無さが課題 になるが、放送番組にインデックスを付けようとする点で、本願と目的は同一であり、 先行例として従来技術水準を表す文献である。
[0179] 本願発明とは、明らかに構成が異なる上、得られる精度で本願発明は圧倒的な優 位性があり、し力も、カット画像内のテロップなどにもロバストな分類を行い、ヒトの知 覚に沿った分類ができると!、う、従来例 2にはな 、特有の効果も有して!/、る。
[0180] 図 3は、従来例 3 (特許文献 3)の実質的な概略処理ステップを示して 、る。画像を 領域分割し、各領域の形状についてその形状の異質度を算出し、更に、特に色特徴 量から誘目度を算出している(主として、赤色を最も目立つ色と定義し、赤色からの色 距離を測ることで誘目度を算出して ヽる)。異質度と誘目度から領域分割された領域 で最も注目される領域を決定している。更に、別途、画像を小ブロックに分け、小プロ ックごとにこの誘目度の平均値を求め、複数個(例えば k個)の小ブロックの誘目度を 順に並べた k次元の特徴ベクトルを生成し、その特徴ベクトルで画像を分類して!/、る [0181] この従来例 3は、チヤプタ生成等を意図したものではなぐ画像を検索する際に、画 像のなかで特徴的な部分に特ィ匕した検索を可能とするためのものである。例えば、ュ 一ザが「花が主体的に写っている画像」をキー画像に検索する場合、画像全体を捉 えて類似度を評価するよりも、特徴的な部分 (花の写っている部分)のみで類似度を 評価したほうがユーザの検索した 、と考えて 、る実情に沿って 、て良 、、 t 、う主張 である。
[0182] 本願発明とは、分類画像の類似分類に際して、ヒトの知覚特性を考慮した分類を行 うと言う大くぐりな着想で類似しているものの、本願では主体的に映っている物の検出 は行っておらず、逆に比較的普遍的な特徴を持つ範囲を算出している。
[0183] 従来例 3を、例えば野球放送に応用した場合、図 12のカット画像 1202の打者が赤 いユニフォームを着ていたとすると、カット画像 1202では、打者の形状だけが注目領 域として検出される。一般に同じチームの選手は同じ色のユニフォームを着用してい るので、ピッチングシーンに限らず、同じ赤いユニフォームの選手が映っているカット 画像は、高い類似度を持ち同じカテゴリに分類されることが容易に想像される。更に 、カット画像 1203の選手紹介キャプション力 赤色の背景を有していた場合、カット 画像 1203では選手紹介キャプションだけが注目領域として検出される。カット画像 1 203とカット画像 1202は同じカテゴリに分類されないことも容易に想像できる。
[0184] 更に、攻守交替した場合には、ユニフォームの色が入れ替わるため、ピッチングシ ーンに限っても、同じカテゴリへの分類は非常に困難であり、またピッチングシーン以 外のカット画像が紛れ込む誤分類も頻発することが予測される。
[0185] つまり、本願発明とは明らかに構成が異なる上、分類のみで見た時の得られる精度 についても、本願発明は圧倒的な優位性がある。しカゝも、カット画像内のテロップなど にもロバストな分類を行うことができるという、従来例 3にはない特有の効果も有してい る。
[0186] このように、従来技術では、分類精度を上げるために、入力画像の種類を限定した 上で、分類に用いる特徴量を特ィ匕するアプローチが取られていたことに、改めて留意 して頂きたい。例えば、野球放送のみと言った限定をした上で、野球放送に特化した 特徴量を用いて分類を行って ヽた。
[0187] 逆に、限定を行わない従来の分類方法では、分類の結果、できあがったクラスタは 、本来同じクラスタであるべきカット画像が別々のクラスタに属していたり、全く異なる カット画像が同一クラスタに属しているなど、基本分類性能に問題がある。後段の処 理ではそれを吸収するため、総当り的処理が必要となり精度及び速度両面で課題が あったことも改めて留意して頂きた 、。
[0188] 以上が、本願と従来例との比較である。
[0189] なお、客観的な実験データによる優位性も確認できている。以下にデータを転記す る。
[0190] 本願発明の構成によるインデキシングを行うと、例えば野球放送の場合、ピッチング シーンの適合率は平均 99. 6%以上であった。これは、コマーシャルを含む野球放 送全編を対象とした場合の数値であり、しかも、比較的悪条件の放送を用いた、実応 用を念頭に置いたテストでの数値である(テストには、 3本の野球放送を用いた。その 内 1本は、試合開始当初は明るい晴天であった力 次第に曇天になって暗くなり、途 中から雪が降り出して一時は映像が白くなるほどの降雪があった映像であり、さらに 別の 1本は、晴天力も後半は強い雨になった映像である。云うまでもなぐ従来のロバ スト性のな!、クラスタリング手法では破綻するケースであり、野球に特化した特許文献 2のようなシステムでも色情報が失われるため破綻するケースである。 )。
[0191] また、他のジャンルの番組でも良好な結果を得ており、処理時間も約 100分 (カット 画像数 1411枚)の野球映像に対して、約 45秒(3GHzCPU)であった。この処理時 間は、カット画像の読み込み、処理範囲の決定、クラスタリング、インデキシングにか 力る時間の総計である。
[0192] 以上のように、本願発明は、明らかに従来例と構成が異なる上、従来の技術水準で は到底成し得ない精度と速度を達成することができる。さらに、従来にはない特有の 効果も有して 、ることが確認される。
[0193] なお、上記では、放送コンテンツの分類やインデックスの付与を中心に説明してき たが、分類の対象となるデータは放送コンテンツに限らず、任意の画像データであつ てもよい。 [0194] 特に、静止画を中心とした個人コンテンツ (デジタルカメラで撮影した画像群)には 非常に有効である。例えば、同じ場所に複数回行った時の写真を本方式によって同 じカテゴリに分類し、同じタグを付与することが (インデキシングすることが)できる。
[0195] 間歇撮影や連続撮影をしたような画像群の場合、その利点は更に大きくなる。上記 従来技術での個人コンテンツの分類では、撮影時間のバラつきなどを利用するもの がほとんどであるため、画像の視覚的な特徴に基づ 、た納得性の高 、分類はできな い。更に、連続的に取得された画像群では撮影が一定間隔で行われているため、従 来技術が拠り所としている時間的なバラつきも利用することができないため、従来手 法での分類はほぼ破綻してしまう。
[0196] しかし、本手法であれば、離散的な時間間隔で撮られた静止画像群 (個人の旅行 毎の写真など)であっても、連続的な時間間隔で撮られた画像群 (監視カメラ映像や 、個人のビデオ映像、個人記録写真など)であっても、視覚的な特徴に基づいてイン デキシングすることが可能である。そのため、本手法の利点は更に大きくなる。
[0197] 例えば、仮に間歇撮影のできるカメラを用いて静止画像 (例えば 1枚 Z秒間隔で撮 影された画像)を、数時間分から数日分に渡り大量に蓄積する状況を考える。具体的 には、例えば監視カメラの画像であってもよいし、個人が旅行中にカメラを体に装着 して旅行記を撮影した画像であってもよ 、。このような大量画像を自動的に整理した V、、もしくはインデックスを付与した 、と 、うのは自然な動機として発生すると考えられ る。
[0198] 個人旅行の場合で考えると、旅行先の風景の変化(山間部にいる、海辺にいる、街 中に 、るなど)や天候の変化、屋内外の変化などで撮影される画像は少しずつ変化 する。これらの画像は短い時間 (数秒力も数分)では、おおきな変化は殆ど発生せず 、おおよそヒトには同じようなシーンであると知覚されることが多い。しかしコンピュータ ビジョンの観点では、人の眼には同じようなシーンであってもそれを同じカテゴリに分 類することは一般に困難である。これは先に説明した放送コンテンツにおけるテロッ プの有無や細かな相違力 従来技術における分類の阻害要因になっていることと同 じである。大量の自然画像 (個人コンテンツ)の中から局所的に雰囲気が似ているも のを、画像情報で「似ている」として同じカテゴリに分類することは、非常に困難である [0199] そこで、本方式の分類方法を導入する。本方式によりヒトの視覚特徴量 (見た目の 雰囲気)に基づ 、た分類が可能となる。視覚的に重要では無 、ところ (注目されな!/、 領域)の画像情報による影響を軽減することができるため、よりヒトの直感に近いような 、「似て 、る」と思う画像群を一かたまり(クラスタ)としてインデキシングすることができ る。
[0200] もちろん、それぞれのクラスタに属する画像に対してタグを付与してもよい。
[0201] このように、分類の対象となるデータは放送コンテンツに限らず、任意の画像データ であってもよい。
[0202] なお、ここでは個人コンテンツの例として個人旅行の間歇撮影画像を取り上げたが 実施の形態はこれに限定されるものではなぐ任意の静止画像や動画像を対象とし て良 、ことは云うまでもな 、。
[0203] 以上のように、本発明により、「対象物を特定しない(トップダウン型ではない)、ヒト の知覚に近い安定した映像の新しい分類方法による、汎用的且つ高速で、ユーザに とって自明的なインデックス (チヤプタ)を生成するチヤプタリングシステムの構築が可 能となり、快適な映像再生検索システムを構築することが可能になる。
産業上の利用可能性
[0204] 本発明は、ビデオレコーダ(HDDレコーダや DVDレコーダなど)をはじめ、 TV、携 帯電話、カーナビゲーシヨンシステム、 DVDプレーヤ等といった、録画もしくは再生 機器等に適用できることはもちろん、サーバでチヤプタリングし、そのデータを映像と 併せてクライアント装置に配信するようなサーバ一クライアントシステム等としても利用 が可能である。

Claims

請求の範囲
[1] 映像を構成する複数の画像のうち、 1つ以上の画像にインデックスを付与する映像 シーン分類装置であって、
前記複数の画像について、画像上の特徴を表す分類指標に基づいて複数のクラ スタに分類する画像分類手段と、
分類された前記複数のクラスタの中から少なくとも 1つのクラスタを選択するクラスタ 選択手段と、
前記選択されたクラスタを構成する画像のうち、少なくとも 1つの画像にインデックス を付与するインデックス生成手段と
を備えることを特徴とする映像シーン分類装置。
[2] 前記映像シーン分類装置は、さらに、
サンプリングすることによって前記映像力も複数の画像を取得する映像サンプリング 手段と、
取得された前記画像毎に画像処理を施す処理範囲を決定し、当該処理範囲に対 して画像処理を施すことにより分類指標を特定する処理範囲決定手段とを備え、 前記画像分類手段は、
決定された前記処理範囲における前記分類指標に基づいて前記分類を行う ことを特徴とする請求項 1記載の映像シーン分類装置。
[3] 前記映像シーン分類装置は、さらに、
分類された前記クラスタの分類指標又は前記映像の番組内容情報に基づ 、て、ィ ンデキシングルールを選択するインデキシングルール選択手段を備え、
前記インデックス生成手段は、選択された前記クラスタに対して、選択された前記ィ ンデキシングルールを用いて、前記画像にインデックスを付与する
ことを特徴とする請求項 1記載の映像シーン分類装置。
[4] 前記インデキシングルール選択手段は、前記番組内容情報に基づいて、
(1)選択されたクラスタに含まれる全ての画像にインデックスを付与する、
(2)選択されたクラスタに含まれる全ての画像を時間軸でソートし、所定時間以内 の画像の固まり毎にインデックスを付与する、及び、 (3)所定のクラスタに含まれる映像ブロックのうち、他の所定クラスタにより連続的な 固まりに含まれることのな力つた映像ブロックにインデックスを付与する、
とする何れかのルールの中からインデキシングルールを選択する
ことを特徴とする請求項 3記載の映像シーン分類装置。
[5] 前記クラスタ選択手段は、
選択するクラスタの数を決定するクラスタ数決定部と、
選択するクラスタの種類を決定するクラスタ種決定部の少なくとも一つを備え、 前記クラスタ数決定部は、
(1)前記意味内容情報もしくは画像情報力 映像のジャンルを特定し、特定された ジャンルに対応した所定の数を、選択するクラスタの数として決定する、および
(2)前記意味内容情報もしくは画像情報力 映像のジャンルを特定し、特定された ジャンルと分類結果情報によって求まる所定の数を、選択するクラスタの数として決 定する、
とする何れかの手法に基づいて前記クラスタ数を決定し、
前記クラスタ種決定部は、
(1)クラスタの映像ブロック数が最大のクラスタカゝら所定個数を選択する、
(2)クラスタの映像ブロックの出現時間平均値が所定時刻に近いクラスタ力 所定 個数を選択する、
(3)クラスタの映像ブロックの出現時間分布が所定時間帯に近いクラスタ力も所定 個数を選択する、及び
(4)クラスタの映像ブロックの出現時間分布が所定時間帯に含まれて 、な 、クラス タから所定個数を選択する、
とする何れかの手法に基づいて前記クラスタの種類を決定する
ことを特徴とする請求項 1記載の映像シーン分類装置。
[6] 前記処理範囲決定手段は、
入力された映像の輝度情報若しくは色情報を用いて前記対象範囲を決定する、又 は前記意味内容情報を用いて、
(1)前記対象範囲の決定に際して、位置に関する重み付けを行う、及び (2)キャプションもしくはテロップが出現する位置を推定し、位置に関する重み付け を行う、
とする何れかの手法に基づいて前記対象範囲を決定する
ことを特徴とする請求項 1記載の映像シーン分類装置。
[7] 前記処理範囲決定手段は、
前記番組内容情報が、野球番組に関する情報を意味するときに、前記重み付けを 画像中心部に設定する、又は前記キヤプションの位置推定をスコア表示および選手 紹介の表示位置を用いて行う
ことを特徴とする請求項 6記載の映像シーン分類装置。
[8] 前記画像分類手段は、
(1)前記対象範囲の大きさ若しくはその位置の!/、ずれかを用いて、又は
(2)前記対象範囲の内部の画像情報、前記対象範囲の所定の周辺部の画像情報 、若しくは前記対象範囲の外部の画像情報のいずれかを用いて、前記クラスタの分 類を行い、当該分類において、画像の色情報もしくは輝度情報のヒストグラムを用い る
ことを特徴とする請求項 1記載の映像シーン分類装置。
[9] 前記画像分類手段は、
前記処理対象範囲の位置の各入力画像間での差分量によって第 1の画像の分類 を行い、
前記第 1の画像の分類のクラスタ結果から、映像ブロック数が最も多 、所定数のクラ スタに含まれる映像ブロックを用い、前記処理対象範囲の周辺部の輝度分布もしくは 色分布のヒストグラムによって第 2の画像の分類を行う
ことを特徴とする請求項 8記載の映像シーン分類装置。
[10] 映像を構成する複数の画像のうち、 1つ以上の画像にインデックスを付与する映像 シーン分類方法であって、
前記複数の画像について、画像上の特徴を表す分類指標に基づいて複数のクラ スタに分類する画像分類ステップと、
分類された前記複数のクラスタの中から少なくとも 1つのクラスタを選択するクラスタ 選択ステップと、
前記選択されたクラスタを構成する画像のうち、少なくとも 1つの画像にインデックス を付与するインデックス生成ステップと
を含むことを特徴とする映像シーン分類方法。
[11] 映像を構成する複数の画像のうち、 1つ以上の画像にインデックスを付与する映像 シーン分類装置に用いる、コンピュータに実行させるためのプログラムであって、 前記プログラムは、
前記複数の画像について、画像上の特徴を表す分類指標に基づいて複数のクラ スタに分類する画像分類ステップと、
分類された前記複数のクラスタの中から少なくとも 1つのクラスタを選択するクラスタ 選択ステップと、
前記選択されたクラスタを構成する画像のうち、少なくとも 1つの画像にインデックス を付与するインデックス生成ステップと
を含むプログラム。
[12] 映像を構成する複数の画像のうち、 1つ以上の画像にインデックスを付与するため のプログラムが記録された記録媒体であって、
前記プログラムは、
前記複数の画像について、画像上の特徴を表す分類指標に基づいて複数のクラ スタに分類する画像分類ステップと、
分類された前記複数のクラスタの中から少なくとも 1つのクラスタを選択するクラスタ 選択ステップと、
前記選択されたクラスタを構成する画像のうち、少なくとも 1つの画像にインデックス を付与するインデックス生成ステップと
を含むプログラムが記録された、コンピュータが読み取り可能な記録媒体。
[13] 映像を構成する複数の画像のうち、 1つ以上の画像にインデックスを付与する集積 回路であって、
前記複数の画像について、画像上の特徴を表す分類指標に基づいて複数のクラ スタに分類する画像分類手段と、 分類された前記複数のクラスタの中から少なくとも 1つのクラスタを選択するクラスタ 選択手段と、
前記選択されたクラスタを構成する画像のうち、少なくとも 1つの画像にインデックス を付与するインデックス生成手段と
を備えることを特徴とする集積回路。
サーバ装置とクライアント装置とを有するサーバークライアントシステムであって、 前記サーバ装置は、
前記複数の画像について、画像上の特徴を表す分類指標に基づいて複数のクラ スタに分類する画像分類手段と、
分類された前記複数のクラスタの中から少なくとも 1つのクラスタを選択するクラスタ 選択手段と、
前記選択されたクラスタを構成する画像のうち、少なくとも 1つの画像にインデックス を付与するインデックス生成手段と、
前記インデックスが付与された画像を表す画像データをクライアント装置に送信す る送信手段とを備え、
前記クライアント装置は、
前記サーバ装置から画像データを受信する受信手段と、
受信した前記画像データに係るインデックスに基づ!/、て、受信された前記データに 係る画像の再生時に頭出し又はスキップを伴う再生を行う再生手段とを備える ことを特徴とするサーバ クライアントシステム。
PCT/JP2006/315957 2005-08-17 2006-08-11 映像シーン分類装置および映像シーン分類方法 WO2007020897A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/063,884 US8233708B2 (en) 2005-08-17 2006-08-11 Video scene classification device and video scene classification method
JP2007530981A JP4841553B2 (ja) 2005-08-17 2006-08-11 映像シーン分類装置、映像シーン分類方法、プログラム、記録媒体、集積回路およびサーバ−クライアントシステム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005236355 2005-08-17
JP2005-236355 2005-08-17

Publications (1)

Publication Number Publication Date
WO2007020897A1 true WO2007020897A1 (ja) 2007-02-22

Family

ID=37757558

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/315957 WO2007020897A1 (ja) 2005-08-17 2006-08-11 映像シーン分類装置および映像シーン分類方法

Country Status (4)

Country Link
US (1) US8233708B2 (ja)
JP (1) JP4841553B2 (ja)
CN (1) CN101243448A (ja)
WO (1) WO2007020897A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008236603A (ja) * 2007-03-23 2008-10-02 Pioneer Electronic Corp 動画コンテンツ判別装置、映像信号処理ユニット、及び、動画コンテンツ判別方法
JP2013021525A (ja) * 2011-07-12 2013-01-31 Sony Corp 画像処理装置および方法、並びにプログラム
CN105049660A (zh) * 2007-08-10 2015-11-11 佳能株式会社 图像处理设备及其控制方法
CN109033297A (zh) * 2018-07-16 2018-12-18 维沃移动通信有限公司 一种图像显示方法及移动终端
CN110019872A (zh) * 2017-12-21 2019-07-16 佳能株式会社 索引装置和方法、对象图像检索装置和方法以及监视***
CN110557653A (zh) * 2018-06-04 2019-12-10 上海临境文化传播有限公司 一种基于互联网大数据的数字视频制作方法
JP2020190935A (ja) * 2019-05-22 2020-11-26 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置
CN117082268A (zh) * 2023-10-18 2023-11-17 成都有为财商教育科技有限公司 一种在线直播的视屏录播方法及***
WO2023238550A1 (ja) * 2022-06-10 2023-12-14 コニカミノルタ株式会社 画像編集装置、画像編集方法及び画像編集プログラム

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007020570A2 (en) * 2005-08-17 2007-02-22 Nxp B.V. Video processing method and device for depth extraction
US8233708B2 (en) * 2005-08-17 2012-07-31 Panasonic Corporation Video scene classification device and video scene classification method
US20080256454A1 (en) * 2007-04-13 2008-10-16 Sap Ag Selection of list item using invariant focus location
JP4946789B2 (ja) * 2007-10-24 2012-06-06 株式会社Jvcケンウッド ダイジェストデータ作成装置およびダイジェストデータ作成方法
US9171454B2 (en) 2007-11-14 2015-10-27 Microsoft Technology Licensing, Llc Magic wand
US8952894B2 (en) * 2008-05-12 2015-02-10 Microsoft Technology Licensing, Llc Computer vision-based multi-touch sensing using infrared lasers
US8847739B2 (en) 2008-08-04 2014-09-30 Microsoft Corporation Fusing RFID and vision for surface object tracking
US8682085B2 (en) * 2008-10-06 2014-03-25 Panasonic Corporation Representative image display device and representative image selection method
WO2010083238A1 (en) 2009-01-13 2010-07-22 Futurewei Technologies, Inc. Method and system for image processing to classify an object in an image
JP5533861B2 (ja) * 2009-04-30 2014-06-25 ソニー株式会社 表示制御装置、表示制御方法、及び、プログラム
US8876638B2 (en) * 2010-01-29 2014-11-04 Mlb Advanced Media, L.P. Real time pitch classification
US9026111B2 (en) * 2010-04-29 2015-05-05 Alcatel Lucent Method and system of handling requests for location information of mobile devices
TWI477995B (zh) * 2010-05-17 2015-03-21 Hon Hai Prec Ind Co Ltd 相片分類系統及方法
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
US9007463B2 (en) 2010-12-22 2015-04-14 Sportsvision, Inc. Video tracking of baseball players which identifies merged participants based on participant roles
US8659663B2 (en) 2010-12-22 2014-02-25 Sportvision, Inc. Video tracking of baseball players to determine the start and end of a half-inning
EP2659480B1 (en) 2010-12-30 2016-07-27 Dolby Laboratories Licensing Corporation Repetition detection in media data
US20120324507A1 (en) * 2011-06-15 2012-12-20 Michael Ryan Weber Interactive Ticker
KR20130059639A (ko) * 2011-11-29 2013-06-07 삼성전자주식회사 디스플레이장치 및 그 제어방법
JP6043753B2 (ja) * 2014-06-12 2016-12-14 富士フイルム株式会社 コンテンツ再生システム、サーバ、携帯端末、コンテンツ再生方法、プログラムおよび記録媒体
US10031928B2 (en) * 2014-07-02 2018-07-24 BicDroid Inc. Display, visualization, and management of images based on content analytics
JPWO2016157860A1 (ja) * 2015-03-27 2018-01-11 パナソニックIpマネジメント株式会社 録画再生装置、および番組情報の表示方法
US10402436B2 (en) 2016-05-12 2019-09-03 Pixel Forensics, Inc. Automated video categorization, value determination and promotion/demotion via multi-attribute feature computation
JP6812181B2 (ja) * 2016-09-27 2021-01-13 キヤノン株式会社 画像処理装置、画像処理方法、及び、プログラム
US10719712B2 (en) * 2018-02-26 2020-07-21 Canon Kabushiki Kaisha Classify actions in video segments using play state information
CN111798457B (zh) * 2020-06-10 2021-04-06 上海众言网络科技有限公司 图像视觉重量确定方法、装置和图像评价方法
CN114707014B (zh) * 2022-06-06 2022-08-26 科大天工智能装备技术(天津)有限公司 一种基于fov的影像数据融合索引方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022792A (ja) * 1999-05-28 2001-01-26 Fuji Xerox Co Ltd キーフレーム選択のための候補フレームを選択する方法
JP2001167110A (ja) * 1999-12-08 2001-06-22 Matsushita Electric Ind Co Ltd 画像検索方法及びその装置
JP2002041541A (ja) * 2000-05-19 2002-02-08 Jisedai Joho Hoso System Kenkyusho:Kk 映像検索装置
JP2003032583A (ja) * 2001-03-23 2003-01-31 Lg Electronics Inc ニュースビデオブラウジングシステムでアンカーショットの自動検出方法
JP2004280669A (ja) * 2003-03-18 2004-10-07 Nippon Hoso Kyokai <Nhk> 映像特徴情報生成方法、映像特徴情報生成装置及び映像特徴情報生成プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5537488A (en) * 1993-09-16 1996-07-16 Massachusetts Institute Of Technology Pattern recognition system with statistical classification
US5963670A (en) * 1996-02-12 1999-10-05 Massachusetts Institute Of Technology Method and apparatus for classifying and identifying images
US6574378B1 (en) * 1999-01-22 2003-06-03 Kent Ridge Digital Labs Method and apparatus for indexing and retrieving images using visual keywords
US6411953B1 (en) * 1999-01-25 2002-06-25 Lucent Technologies Inc. Retrieval and matching of color patterns based on a predetermined vocabulary and grammar
JP2000285243A (ja) 1999-01-29 2000-10-13 Sony Corp 信号処理方法及び映像音声処理装置
EP1067800A4 (en) * 1999-01-29 2005-07-27 Sony Corp METHOD FOR PROCESSING SIGNALS AND DEVICE FOR PROCESSING VIDEO / VOCAL SIGNALS
US7016540B1 (en) * 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US7035468B2 (en) * 2001-04-20 2006-04-25 Front Porch Digital Inc. Methods and apparatus for archiving, indexing and accessing audio and video data
US7143354B2 (en) 2001-06-04 2006-11-28 Sharp Laboratories Of America, Inc. Summarization of baseball video content
US7035467B2 (en) * 2002-01-09 2006-04-25 Eastman Kodak Company Method and system for processing images for themed imaging services
US7152209B2 (en) * 2003-03-28 2006-12-19 Microsoft Corporation User interface for adaptive video fast forward
JP2004361987A (ja) 2003-05-30 2004-12-24 Seiko Epson Corp 画像検索システム、画像分類システム、画像検索プログラム及び画像分類プログラム、並びに画像検索方法及び画像分類方法
US8233708B2 (en) * 2005-08-17 2012-07-31 Panasonic Corporation Video scene classification device and video scene classification method
US8094948B2 (en) * 2007-04-27 2012-01-10 The Regents Of The University Of California Photo classification using optical parameters of camera from EXIF metadata

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022792A (ja) * 1999-05-28 2001-01-26 Fuji Xerox Co Ltd キーフレーム選択のための候補フレームを選択する方法
JP2001167110A (ja) * 1999-12-08 2001-06-22 Matsushita Electric Ind Co Ltd 画像検索方法及びその装置
JP2002041541A (ja) * 2000-05-19 2002-02-08 Jisedai Joho Hoso System Kenkyusho:Kk 映像検索装置
JP2003032583A (ja) * 2001-03-23 2003-01-31 Lg Electronics Inc ニュースビデオブラウジングシステムでアンカーショットの自動検出方法
JP2004280669A (ja) * 2003-03-18 2004-10-07 Nippon Hoso Kyokai <Nhk> 映像特徴情報生成方法、映像特徴情報生成装置及び映像特徴情報生成プログラム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008236603A (ja) * 2007-03-23 2008-10-02 Pioneer Electronic Corp 動画コンテンツ判別装置、映像信号処理ユニット、及び、動画コンテンツ判別方法
CN105049660A (zh) * 2007-08-10 2015-11-11 佳能株式会社 图像处理设备及其控制方法
CN105049660B (zh) * 2007-08-10 2018-05-29 佳能株式会社 图像处理设备及其控制方法
JP2013021525A (ja) * 2011-07-12 2013-01-31 Sony Corp 画像処理装置および方法、並びにプログラム
CN110019872B (zh) * 2017-12-21 2023-08-22 佳能株式会社 索引装置和方法、对象图像检索装置和方法以及监视***
CN110019872A (zh) * 2017-12-21 2019-07-16 佳能株式会社 索引装置和方法、对象图像检索装置和方法以及监视***
CN110557653A (zh) * 2018-06-04 2019-12-10 上海临境文化传播有限公司 一种基于互联网大数据的数字视频制作方法
CN109033297A (zh) * 2018-07-16 2018-12-18 维沃移动通信有限公司 一种图像显示方法及移动终端
JP2020190935A (ja) * 2019-05-22 2020-11-26 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置
JP7197795B2 (ja) 2019-05-22 2022-12-28 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置
WO2023238550A1 (ja) * 2022-06-10 2023-12-14 コニカミノルタ株式会社 画像編集装置、画像編集方法及び画像編集プログラム
CN117082268A (zh) * 2023-10-18 2023-11-17 成都有为财商教育科技有限公司 一种在线直播的视屏录播方法及***
CN117082268B (zh) * 2023-10-18 2024-01-30 成都有为财商教育科技有限公司 一种在线直播的视屏录播方法及***

Also Published As

Publication number Publication date
US8233708B2 (en) 2012-07-31
CN101243448A (zh) 2008-08-13
US20090257649A1 (en) 2009-10-15
JP4841553B2 (ja) 2011-12-21
JPWO2007020897A1 (ja) 2009-03-26

Similar Documents

Publication Publication Date Title
WO2007020897A1 (ja) 映像シーン分類装置および映像シーン分類方法
CN109922373B (zh) 视频处理方法、装置及存储介质
Ngo et al. Automatic video summarization by graph modeling
Sujatha et al. A study on keyframe extraction methods for video summary
JP5533861B2 (ja) 表示制御装置、表示制御方法、及び、プログラム
US7203693B2 (en) Instantly indexed databases for multimedia content analysis and retrieval
US6744922B1 (en) Signal processing method and video/voice processing device
CN109948446B (zh) 一种视频片段处理方法、装置及计算机可读存储介质
You et al. A multiple visual models based perceptive analysis framework for multilevel video summarization
US8503770B2 (en) Information processing apparatus and method, and program
Sreeja et al. Towards genre-specific frameworks for video summarisation: A survey
CN103200463A (zh) 一种视频摘要生成方法和装置
Xiong et al. A unified framework for video summarization, browsing & retrieval: with applications to consumer and surveillance video
JP5360979B2 (ja) 重要情報抽出方法および装置
JP2006251885A (ja) スポーツ映像の分類装置およびログ生成装置
US20040249848A1 (en) Method and apparatus for intelligent and automatic alert management using multimedia database system
JP5116017B2 (ja) 動画検索方法およびシステム
CN110933520B (zh) 一种基于螺旋摘要的监控视频展示方法及存储介质
Chen et al. On the preview of digital movies
JP2010081531A (ja) 映像処理装置及びその方法
Chen et al. An effective method for video genre classification
JP4949307B2 (ja) 動画像シーン分割装置および動画像シーン分割方法
Yu et al. Semantic analysis and retrieval of sports video
Ellapan et al. Event detection in sports video based on audio-visual and support vector machine. Case-study: football
Aggarwal et al. Automated Navigation System for News Videos: A Survey

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680029916.3

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007530981

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12063884

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06782696

Country of ref document: EP

Kind code of ref document: A1