WO2019225692A1 - 映像処理装置、映像処理方法、および映像処理プログラム - Google Patents

映像処理装置、映像処理方法、および映像処理プログラム Download PDF

Info

Publication number
WO2019225692A1
WO2019225692A1 PCT/JP2019/020423 JP2019020423W WO2019225692A1 WO 2019225692 A1 WO2019225692 A1 WO 2019225692A1 JP 2019020423 W JP2019020423 W JP 2019020423W WO 2019225692 A1 WO2019225692 A1 WO 2019225692A1
Authority
WO
WIPO (PCT)
Prior art keywords
foreground
unit
image
pixel
background
Prior art date
Application number
PCT/JP2019/020423
Other languages
English (en)
French (fr)
Inventor
弘員 柿沼
喜秀 外村
広夢 宮下
長田 秀信
日高 浩太
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/056,995 priority Critical patent/US11461903B2/en
Publication of WO2019225692A1 publication Critical patent/WO2019225692A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/02Digital function generators
    • G06F1/03Digital function generators working, at least partly, by table look-up
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to a video processing device, a video processing method, and a video processing program, and more particularly, to a technique for separating a background and a foreground subject in a video using machine learning.
  • the background subtraction method uses a difference between the feature vector (color, distance, etc.) of the background image captured in advance and the feature vector of the input image to extract only the region that has changed since the background image was acquired. In addition, since it is a relatively simple process, high-speed region extraction is possible.
  • the background subtraction method basically, a difference between a feature vector (for example, three values of R, G, and B) of a pixel of an input image (referred to as an input pixel) and a feature vector of a pixel of a background image (referred to as a background pixel).
  • a threshold value that determines how much the difference is determined as the foreground.
  • the number of combinations becomes enormous, and the optimum threshold value may differ depending on the coordinates even for one set of feature vectors. For this reason, the globally optimized threshold cannot be easily determined.
  • the combination of the pixel colors of the input image and the background image is learned, and the optimum foreground and background discrimination plane in the feature space is obtained.
  • This improves the accuracy compared to the background difference method by simple threshold setting, but is a technique for linearly identifying a given feature vector, so the feature vectors of the input pixel and background pixel are close, and the vector in the feature space It is difficult to identify when the distribution is complex.
  • it is necessary to shorten the processing time for identification.
  • the present invention has been made in view of such circumstances, and provides a video processing apparatus, a video processing method, and a video processing program capable of accurate and high-speed identification even when the feature vectors of input pixels and background pixels are close to each other.
  • the purpose is to do.
  • an invention is a video processing apparatus, wherein a feature extraction unit extracts a feature for each pixel from an input image and an input image at a different time, and the feature extraction unit A quantization unit that reduces the number of gradations of features extracted by the learning unit, a learning unit that learns a combination of features for each pixel by a machine learning algorithm that performs nonlinear identification, and constructs a network by machine learning, and the learning A foreground likelihood of each pixel of the input image is estimated by referring to the LUT generated by the LUT generating unit that generates a lookup table (LUT) that substitutes the network operation constructed by the unit.
  • LUT lookup table
  • the foreground region estimation unit, and the foreground likelihood estimated by the foreground region estimation unit includes foreground, background, and foreground / background boundary pixels Classifying the classification region, and summarized in that and a said boundary correction unit which performs only the boundary correction on the unclassified area.
  • the quantization unit changes a quantization method in accordance with the characteristics of the input image.
  • the invention according to a third aspect is the invention according to the first or second aspect, wherein the boundary correction unit uses the foreground, background, and foreground / background boundary pixels estimated by the foreground region estimation unit. And further classifying the unclassified region into two or more types of correction target regions according to the characteristics near the boundary pixels, and changing the correction method for each correction target region. .
  • the invention according to a fourth aspect is the invention according to any one of the first to third aspects, wherein the feature extraction unit automatically or semi-automatically corrects an input image and an input image at a different time, Alternatively, the gist is to switch an input image at a different time to another edited image.
  • the invention according to a fifth aspect is the invention according to any one of the first to fourth aspects, wherein the learning unit has a plurality of different properties depending on different machine learning algorithms or different machine learning parameter settings.
  • a type of network is constructed, the LUT generation unit generates a plurality of types of LUTs from the plurality of types of networks, and the foreground region estimation unit refers to a different LUT for each preset image region
  • the learning unit has a plurality of different properties depending on different machine learning algorithms or different machine learning parameter settings.
  • the invention according to a sixth aspect is a video processing method, wherein a computer extracts a feature for each pixel from an input image and an input image at a different time, and is extracted in the feature extraction step It is constructed by a quantization step for reducing the number of gradations of features, a learning step for learning a combination of features for each pixel by a machine learning algorithm for performing nonlinear identification, and building a network by machine learning, and the learning step.
  • a LUT generation step for generating an LUT that replaces the network operation; a foreground region estimation step for estimating the foreground likelihood of each pixel of the input image by referring to the LUT generated in the LUT generation step;
  • the foreground quality estimated in the region estimation step is calculated based on the foreground, background, and foreground / background boundary pixels. Classified into class areas, and be required to run the boundary correction step of performing boundary correction only for the unclassified area.
  • the invention according to the seventh aspect is a video processing program, and is summarized in causing a computer to function as each functional unit of the invention according to any one of the first to fifth aspects.
  • the present invention it is possible to provide a video processing apparatus, a video processing method, and a video processing program capable of accurate and high-speed identification even when the feature vectors of the input pixel and the background pixel are close to each other.
  • a neural network that can be estimated after transforming a feature space so that accurate identification can be performed even when feature vectors are close, an input image and a background are obtained.
  • the combination of pixel colors of the image is learned, and the foreground likelihood of each pixel is estimated.
  • the processing in the embodiment of the present invention is divided into learning processing and extraction processing.
  • the learning process is a pre-process
  • the extraction process is a real-time process.
  • FIG. 1 is an explanatory diagram of learning processing (pre-processing) in the embodiment of the present invention. As shown in this figure, in the learning process, the following processes 1-1 to 1-6 are performed.
  • one input image of the camera at a time when the subject is not included in the image is acquired in advance as a background image.
  • a camera input image is acquired as a sample image, and a mask image (white: subject as a foreground, black: background) is created by manually cutting out the subject area.
  • a combination of the pixel features of the sample image and the background image (total 6-dimensional feature vector) is used as the foreground pixel teacher data for the coordinates corresponding to the foreground of the created mask.
  • the combination of the pixel features of the sample image and the background image (total six-dimensional feature vector) is used as background pixel teacher data for the coordinates corresponding to the background of the created mask.
  • the 6-dimensional feature vector of these teacher data is input, and the probability of whether the combination is foreground or background is output, and NN is learned.
  • the NN computation process takes time and is not suitable for the real-time process for moving images, so the input / output relationship of the NN is converted into an LUT. Specifically, all combinations of 6-dimensional feature vectors are input to NN, and an output associated with them is obtained, so that the relationship between the input and the output is tabulated.
  • each pixel has a three-dimensional feature vector.
  • Specific variations include “each pixel value R, G, B of 8-bit RGB image”. ", Each pixel value H, S, V of an 8-bit HSV image”, “each pixel value Y, U, V of a 10-bit YUV image”, and the like.
  • the 6-dimensional feature vector is R t , G t , B t , R b , G b , B b having pixel values of 0 to 255 (8 bits).
  • the number of dimensions and the number of gradations can be flexibly changed according to the size that can be handled by the system and the target scene, and do not necessarily need to be a feature vector of 6 dimensions and 32 gradations.
  • the background image is converted to a gray scale to form a four-dimensional 128-gradation feature vector (R t , G t , B t , Gray b ), or 5 by referring only to the hue and brightness of the background image.
  • a LUT may be generated by learning a combination of different types of feature amounts, such as a feature vector (R t , G t , B t , H b , V b ) of dimension 64.
  • LUT there is no need to refer to one type of LUT in the extraction processing described later, and a plurality of LUTs that differ for each image area may be referred to.
  • a plurality of LUTs that differ for each image area may be referred to.
  • the lower region is divided so that the LUT obtained by learning with the feature vector of 6-dimensional 32 gradations, and the upper region of the image is divided so as to refer to the LUT obtained by learning with the feature vector of three-dimensional 128 gradations.
  • the identification result suitable for can be obtained.
  • FIG. 3 is an explanatory diagram of extraction processing (real-time processing) in the embodiment of the present invention. As shown in this figure, in the extraction process, the following processes 2-1 to 2-7 are performed.
  • the input image is quantized in the same manner as when generating the LUT.
  • a combination of pixels having the same coordinates of the quantized input image and the background image is input to the LUT generated by the learning process, and an output is obtained. This is performed for all pixels in the image to obtain a foreground / posterior probability image representing the degree of foreground-likeness.
  • a ternary image (TRIMAP) is generated in which a region serving as a boundary between the foreground and the background is set as an unclassified region.
  • TRIMAP ternary image
  • high-speed boundary correction processing is performed on the generated unclassified area of TRIMAP.
  • “Hiromu Miyashita, Kota Takeuchi, Hidenobu Nagata, Akira Ono:“ High-speed subject extraction for 4K video ”, IEICE Technical Report (MVE Study Group), 117 (73), pp.189-190 (Jun.2017) ” can be used.
  • the subject extraction image is output by masking the input image with the mask image generated by the boundary correction process.
  • FIG. 4 is a block diagram showing the configuration of the video processing apparatus according to the embodiment of the present invention.
  • the video processing apparatus includes an imaging unit 200, an image processing unit 100, an image editing unit 400, and a display unit 300.
  • the imaging unit 200 is a camera or the like that captures an object.
  • the image processing unit 100 is a computer that performs image processing on an image from the imaging unit 200.
  • the image editing unit 400 is an external application that edits an image from the image processing unit 100.
  • the display unit 300 is a display device that displays an image from the image processing unit 100.
  • the image processing unit 100 is a computer or the like that performs image processing on an image from the imaging unit 200, and functionally includes an image input unit 101, a color correction unit 141, a quantized image generation unit 102, and a foreground region.
  • the image input unit 101 is a functional unit that inputs an image. Specifically, an image output from the imaging unit 200 is captured.
  • the image storage unit 106 is a storage device that stores images. Specifically, the input image is stored as a background image or an original image of a teacher image, or an image created by the teacher image creation unit 401 is stored as a teacher image.
  • the color correction unit 141 is a functional unit that performs color correction as necessary. Specifically, the input image color is corrected so that it approaches the color of the background image, and the input image is converted every frame with the color correction matrix, or the background image color is changed to the color of the input image at a certain point. The accuracy of the background difference after a change in illumination is improved by performing correction so as to approach and converting the background image using the color correction matrix.
  • the quantizer generation unit 131 is a functional unit that determines a quantization rule. Specifically, the quantization rule for appropriately compressing the feature vector of the image in the target shooting scene is determined with reference to the input image and the teacher image. Here, it is assumed that the quantization rule of the quantizer generation unit 131 sets the number of gradations of a given feature vector to 32 gradations at equal intervals.
  • the quantized image generating unit 102 is a functional unit that quantizes image feature vectors. Specifically, the quantization rule generated by the quantizer generation unit 131 is applied to both the input image and the background image, and the feature vector of each image is quantized.
  • the learning unit 107 is a functional unit that performs learning. Specifically, a network is constructed from a combination of feature vectors of three types of images: a foreground only image, an image other than the foreground, and a background image.
  • NN is used as a machine learning algorithm for performing nonlinear identification.
  • the index generation unit 108 is a functional unit that generates an index. Specifically, the quantization rule generated by the quantizer generation unit 131 is applied to all combinations of multidimensional feature vectors to generate an LUT index.
  • the LUT generation unit 109 is a functional unit that generates an LUT. Specifically, an LUT is generated by inputting a quantized index to the network and arranging the outputs in order.
  • the foreground region estimation unit 103 is a functional unit that estimates the likelihood of the foreground region. Specifically, the LUT is applied to the input image and the background image to estimate the foreground area likelihood. When the LUT is not used, the foreground area likelihood is estimated by using a conventional background difference or stereo parallax (when a stereo image is obtained from the imaging unit).
  • the boundary correction unit 121 is a functional unit that performs boundary correction processing. Specifically, the foreground-likeness obtained from the foreground area estimation unit 103 is classified into one or more types of unclassified areas, foreground and background, and the input pixels and background pixels around the target pixel with respect to the unclassified areas. , A boundary correction process for identifying whether the target pixel is the foreground or the background is performed.
  • the image composition unit 104 is a functional unit that composes images. Specifically, a binary image (mask image) classified as a foreground and a background is combined with an input image to obtain an image in which only the foreground is extracted.
  • a binary image mask image
  • the image output unit 105 is a functional unit that outputs an image to the display unit 300.
  • NN is used. This makes it possible to estimate the foreground or background more accurately. Furthermore, by replacing the network calculation process with the LUT reference process, a high-speed subject extraction process can be performed even for moving images.
  • a functional unit including the image input unit 101, the image storage unit 106, the quantizer generation unit 131, the learning unit 107, the index generation unit 108, and the LUT generation unit 109 is referred to as a pre-learning unit 100A (see FIG. 5).
  • the pre-learning unit 100A is a functional unit that performs learning processing (pre-processing).
  • a functional unit including an image input unit 101, an image storage unit 106, a color correction unit 141, a quantized image generation unit 102, a foreground region estimation unit 103, a boundary correction unit 121, an image composition unit 104, and an image output unit 105.
  • Is called real-time extraction means 100B Is called real-time extraction means 100B (see FIG. 6).
  • the real time extraction unit 100B is a functional unit that performs an extraction process (real time process).
  • a function unit that extracts features for each pixel from an input image and an input image at a different time may be referred to as a “feature extraction unit”.
  • a function unit that reduces the number of gradation levels of features extracted by the feature extraction unit may be referred to as a “quantization unit”.
  • the background image stored in the image storage unit 106 is an image of a temporary point that is output from the imaging unit 200 and does not include the foreground (subject).
  • the input image is an image that has just been output from the imaging unit 200.
  • An image other than the foreground is an image from which at least the foreground to be extracted is excluded.
  • a specific example of the background image is shown in FIG. 7A, a specific example of the input image is shown in FIG. 7B, a specific example of the foreground only image is shown in FIG. 7C, and a specific example of the image other than the foreground is shown in FIG. d).
  • the classification is made into one or more types of unclassified regions.
  • a conventional method that selectively applies a plurality of boundary correction methods is used. Also good.
  • Such conventional methods include “Mariko Yamaguchi, Hidenobu Nagata, Akira Ono,“ Adaptive matting method for fast and precise subject extraction, ”2017 Shingaku Sogaku Univ., No.D-11-29, March. 2017. "
  • the teacher image creation unit 401 that manually creates a teacher image from the input image and the background image is included in the image editing unit 400 such as an external application.
  • teacher images There are two “teacher images”: teacher data for foreground pixels and teacher data for background pixels.
  • a specific example of the foreground pixel teacher data is shown in FIG.
  • a specific example of the background pixel teacher data is shown in FIG.
  • the background pixel teacher data is prepared for the number of effective pixels in the image other than the foreground by combining R t , G t , B t , R b , G b , and B b .
  • the processing of the index generation unit 108 will be supplementarily described.
  • the feature vector is “an 8-bit RGB image consisting of RGB of the background pixels and RGB of the foreground pixels”
  • the 6-dimensional all feature vectors are as shown in FIG. .
  • the index generation unit 108 refers to the quantization rule, generates 32 ⁇ 6 types of 6-dimensional feature vectors in FIG. 10, and this combination of feature vectors is called an index.
  • the reason for calling the index is to specify the line of the LUT corresponding to this combination by referring to the feature vector (a, b, c, d, e, f) as follows: This is because it can.
  • index a * 32 ⁇ 5 + b * 32 ⁇ 4 + c * 32 ⁇ 3 + d * 32 ⁇ 2 + e * 32 ⁇ 1 + f * 32 ⁇ 0
  • an index is sequentially input to a network constructed by learning, and a matrix (32 ⁇ 6 rows and 1 column) in which outputs obtained thereby are sequentially arranged is a final LUT. .
  • FIG. 12 is a flowchart showing the flow of the learning process in the embodiment of the present invention.
  • the operation subject of steps S61 to S65 of this flowchart is the quantizer generation unit 131.
  • the input / background image is stored, and a teacher image is generated and learned (steps S51 ⁇ S52 ⁇ S53). If the index has already been generated, an LUT is generated (steps S54 ⁇ S55). On the other hand, if the index has not been generated and the quantization rule is not generated by the quantizer generation unit 131, an initial quantizer (equal interval) is set and an LUT is generated (steps S54 ⁇ S61 ⁇ S65 ⁇ S55). ).
  • the quantization rule is generated by the quantizer generation unit 131, the teacher data is acquired, the quantizer is generated, the index is quantized, and the LUT is generated (steps S54 ⁇ S61 ⁇ S62 ⁇ S63 ⁇ S64 ⁇ S55).
  • FIG. 13 is a flowchart showing the flow of extraction processing in the embodiment of the present invention.
  • the operation subject in steps S201 to S205 is the color correction unit 141
  • the operation subject in steps S301 to S303 is the quantizer generation unit 131
  • the operation subject in steps S106 to S109 is the foreground region estimation unit 103
  • the operation subject is the boundary correction unit 121.
  • an image is read (step S101).
  • the input image is color-corrected
  • the background region rectangle of the input image is designated, the matrix that approximates the two backgrounds is estimated, and the input image is color-corrected (step S201 ⁇ S202 ⁇ S203 ⁇ S204 ⁇ S205). If the color correction matrix has been generated, the input image is color corrected (steps S201 ⁇ S202 ⁇ S205).
  • an initial quantizer (equal interval) is set (steps S201 ⁇ S301 ⁇ S102).
  • the quantization rule is generated by the quantizer generation unit 131, teacher data is acquired, and a quantizer is generated in accordance with the bias of the feature vectors of the foreground pixel teacher data and the background pixel teacher data (step S201 ⁇ S301 ⁇ S302 ⁇ S303).
  • step S103 ⁇ S104 ⁇ S105 the background image is quantized and the input image is quantized.
  • step S103 ⁇ S105 the background image has been quantized.
  • step S106 ⁇ S107 ⁇ S109 when the LUT is not used, the foreground is estimated by using a conventional background difference or stereo parallax, and a threshold for generating TRIMAP is specified (steps S106 ⁇ S107 ⁇ S109).
  • a threshold for generating TRIMAP is designated (steps S106 ⁇ S108 ⁇ S109).
  • a boundary region is set (TRIMAP is generated), the boundary is refined, a mask is applied to the input image, and the extracted image is written (steps S401 ⁇ S402 ⁇ S403 ⁇ S111). ⁇ S112).
  • boundary correction is not performed, the foreground area is set (binarized), a mask is applied to the input image, and the extracted image is written (steps S401 ⁇ S110 ⁇ S111 ⁇ S112).
  • Points> The following points can be cited as points of the embodiment of the present invention.
  • -A TRIMAP is generated at the time of foreground pixel estimation by NN and combined with boundary correction processing, thereby enabling extraction of a subject area with higher accuracy.
  • -Since the number of operations is greatly reduced by making the NN input / output relationship LUT, it can be applied to moving images at a high speed per frame.
  • FIG. 14 shows the total number of error pixels when a subject is extracted using each method. As shown in FIG. 14, the accuracy of the embodiment of the present invention was the best. In particular, it has been found that there are few error pixels in the head of the subject close to the background color, the judo clothing of the subject close to the color of the floor, and the shadow area generated at the feet, and it can be accurately identified.
  • SVM support vector machine
  • the input feature vector was identified because it was converted into an appropriate feature space in the NN model.
  • the extraction process in the embodiment of the present invention can be performed on a 4K video in real time (at a frame rate of 30 FPS or more).
  • the video processing device includes an input image, a feature extraction unit that extracts features for each pixel from input images at different times, and features extracted by the feature extraction unit.
  • a learning unit 107 that learns a quantization unit that reduces the number of gradations, a machine learning algorithm (for example, NN) that performs non-linear identification of combinations of features for each pixel, and constructs a network based on machine learning, and a learning unit 107
  • the LUT generation unit 109 that generates an LUT that substitutes for the network operation constructed by the above, and the foreground region that estimates the foreground likelihood of each pixel of the input image at high speed by referring to the LUT generated by the LUT generation unit 109
  • the foreground quality estimated by the estimation unit 103 and the foreground region estimation unit 103 is calculated using the foreground, background, and boundary pixels between the foreground and the background. Classified into non unclassified region, and a boundary correction unit 121 for
  • the quantization unit may change the quantization method according to the characteristics of the input image. As a result, it is possible to appropriately reduce feature vectors and suppress a decrease in foreground / background identification accuracy.
  • the boundary correction unit 121 classifies the foreground-likeness estimated by the foreground region estimation unit 103 into unclassified regions including foreground, background, and foreground / background boundary pixels, and further classifies the unclassified region near the boundary pixels. It may be classified into two or more types of correction target areas according to the characteristics, and the correction method may be changed for each correction target area. This makes it possible to obtain an extracted image suitable for the boundary feature.
  • the feature extraction unit may automatically or semi-automatically correct either the input image and the input image at a different time, or switch to another image obtained by editing the input image at a different time. As a result, it is possible to obtain an extracted image adapted to a change in the shooting scene while referring to the same LUT.
  • the learning unit 107 constructs a plurality of types of networks having different properties by different machine learning algorithms or different machine learning parameter settings, and the LUT generation unit 109 generates a plurality of types of LUTs from the plurality of types of networks.
  • the generated and foreground region estimation unit 103 may refer to a different LUT for each preset image region. Thereby, it is possible to obtain an extracted image adapted to the background feature of the shooting scene.
  • “different machine learning” includes a machine learning algorithm for linear identification.
  • the video processing method extracts features for each pixel from an input image and input images at different times, constructs an NN that estimates the foreground likelihood for each extracted feature, and This is a method for deriving the foreground likeness of each pixel.
  • Such a video processing method is a method for deriving the foreground likeness for each pixel, and appropriately reducing the feature vector by changing the quantization method according to the feature of the input image, and calculating the constructed network
  • a method of processing at high speed by LUT reference processing may be used.
  • such a video processing method is a method for deriving the foreground likeness for each pixel, and classifying the derived foreground likeness into one or more types of unclassified regions including foreground, background, and foreground / background boundary pixels.
  • a method may be used in which an extracted image in which the boundary of the subject is refined is obtained at high speed by performing boundary correction in consideration of the peripheral information of the target pixel only for the unclassified region.
  • such a video processing method is a method for deriving the foreground-likeness for each pixel, and automatically or semi-automatically corrects an input image at a time different from the input image, or separates an input image at a different time.
  • a method of obtaining an output result that is robust against changes in the shooting scene while using the same LUT may be used.
  • such a video processing method is a method for deriving the foreground-likeness for each pixel, and is an image obtained by editing an input image at a different time, an image obtained by editing an input image at a different time, or a mask image as an output result.
  • a method may be used in which a plurality of networks having different properties are constructed, LUTs are generated, and different LUTs are referred to for each region of the image to obtain an output result suitable for the scene.
  • the embodiment of the present invention can be realized not only as such a video processing apparatus and video processing method, but also as a video processing program for causing a computer to function as each functional unit included in such a video processing apparatus. You can also do it. Needless to say, such a program can be distributed via a recording medium such as a CD-ROM or a transmission medium such as the Internet.
  • the video processing apparatus (see FIG. 4) described in the embodiment of the present invention may be configured on a single piece of hardware, or may be configured on a plurality of pieces of hardware depending on the functions and the number of processes. May be. Further, it may be realized on an existing video processing system.
  • DESCRIPTION OF SYMBOLS 100 ... Image processing part 101 ... Image input part 102 ... Quantized image generation part 103 ... Foreground area

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

入力画素と背景画素の特徴ベクトルが近い場合でも正確且つ高速な識別を可能にする。映像処理装置は、入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する特徴抽出部と、特徴抽出部によって抽出された特徴の階調数を削減する量子化部と、画素ごとの特徴の組み合わせを非線形の識別を行う機械学習アルゴリズムによって学習し、機械学習によるネットワークを構築する学習部107と、学習部107によって構築されたネットワークの演算を代替するLUTを生成するLUT生成部109と、LUT生成部109によって生成されたLUTを参照することによって、入力画像の各画素の前景らしさを高速に推定する前景領域推定部103と、前景領域推定部103によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、未分類領域に対してのみ境界補正を行う境界補正部121とを備える。

Description

映像処理装置、映像処理方法、および映像処理プログラム
 本発明は、映像処理装置、映像処理方法、および映像処理プログラムに関し、特に、機械学習を用いて映像中の背景と前景にある被写体を分離する技術に関する。
 任意背景の映像中から任意の領域を抽出する手法として、背景差分法がある(特許文献1)。背景差分法は、予め撮影した背景画像の特徴ベクトル(色や距離など)と、入力画像の特徴ベクトルの差を用いて、背景画像を取得した時点から変化のあった領域のみを抽出する手法であり、比較的単純な処理であることから高速な領域抽出が可能である。
 ただし、一般的な撮影シーンにおいて、単純な閾値を用いた背景差分法を適用しても、正しく抽出されない領域(例:背景の色と類似の色を持つ被写体の衣服)や、誤って抽出されてしまう領域(例:被写体の足元に生じた影)が現れ、期待通りに任意領域のみを正確に抽出することは困難である。そのため、教師データを用いて最近傍識別器を学習させることにより、閾値を柔軟に設定し、背景差分法をベースとしながら、より高精度に前景と背景を識別する手法が提案されている(非特許文献1)。
特許第3123587号
加藤丈和,柴田智行,和田俊和:"最近傍識別器を用いた背景差分と色検出の統合",情報処理学会研究報告コンピュータビジョンとイメージメディア 2004.6 (2003-CVIM-142)(2004):p.31-36
 背景差分法では、基本的に、入力画像の画素(入力画素と呼ぶ)の特徴ベクトル(例えばR,G,Bの3値)と、背景画像の画素(背景画素と呼ぶ)の特徴ベクトルの差を算出した後、その差がどれだけ大きければ前景と判定するかを決める閾値を設定する必要がある。しかしながら、グリーンスクリーンやブルースクリーンを使用しない一般的な撮影シーンにおいては、前景と背景の特徴ベクトルの差が僅かしかない画素が多く、前景と背景を分離できる閾値の範囲が狭く限られてくる。同時に、閾値の設定が繊細になればなるほど、背景の僅かな変化がノイズとして前景に表出しやすくなるため、単純に画像全体に対して一律の閾値で前景と背景に分離することは困難である。理想的には、入力画素と背景画素の特徴ベクトルごとに異なる閾値を設定できることが望ましいが、組み合わせの数が膨大になる上に、1組の特徴ベクトルでも座標によっては最適な閾値が異なる場合があるため、全体最適化された閾値は簡単には決めることができない。
 最近傍識別器を用いた手法では、入力画像と背景画像の画素の色の組み合わせを学習させ、特徴空間における前景と背景の最適な識別面を求める。これにより、単純な閾値設定による背景差分法よりも精度は向上するものの、与えられた特徴ベクトルを線形識別する手法であるため、入力画素と背景画素の特徴ベクトルが近く、特徴空間でのベクトルの分布が複雑な場合の識別は難しい。また、高解像度・高フレームレートの映像の実時間処理を実現するには識別にかかる処理時間も短縮する必要がある。
 本発明は、このような事情に鑑みてなされたもので、入力画素と背景画素の特徴ベクトルが近い場合でも正確且つ高速な識別が可能な映像処理装置、映像処理方法、および映像処理プログラムを提供することを目的とする。
 上記目的を達成するため、第1の態様に係る発明は、映像処理装置であって、入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する特徴抽出部と、前記特徴抽出部によって抽出された特徴の階調数を削減する量子化部と、前記画素ごとの特徴の組み合わせを非線形の識別を行う機械学習アルゴリズムによって学習し、機械学習によるネットワークを構築する学習部と、前記学習部によって構築されたネットワークの演算を代替するルックアップテーブル(LUT)を生成するLUT生成部と、前記LUT生成部によって生成されたLUTを参照することによって、入力画像の各画素の前景らしさを推定する前景領域推定部と、前記前景領域推定部によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、前記未分類領域に対してのみ境界補正を行う境界補正部とを備えることを要旨とする。
 第2の態様に係る発明は、第1の態様に係る発明において、前記量子化部が、入力画像の特徴に合わせて量子化方法を変えることを要旨とする。
 第3の態様に係る発明は、第1または第2の態様に係る発明において、前記境界補正部が、前記前景領域推定部によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、さらに、前記未分類領域を境界画素付近の特徴に合わせて2種類以上の補正対象領域に分類し、前記補正対象領域ごとに補正手法を変えることを要旨とする。
 第4の態様に係る発明は、第1から第3のいずれか1つの態様に係る発明において、前記特徴抽出部が、入力画像と、異なる時間の入力画像のいずれかを自動あるいは半自動で補正、または、異なる時間の入力画像を編集した別の画像に切り替えることを要旨とする。
 第5の態様に係る発明は、第1から第4のいずれか1つの態様に係る発明において、前記学習部が、異なる機械学習アルゴリズム、または、異なる機械学習のパラメータ設定によって、異なる性質を持つ複数種類のネットワークを構築し、前記LUT生成部が、前記複数種類のネットワークから複数種類のLUTを生成し、前記前景領域推定部が、予め設定した画像の領域ごとに異なるLUTを参照することを要旨とする。
 第6の態様に係る発明は、映像処理方法であって、コンピュータが、入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する特徴抽出ステップと、前記特徴抽出ステップで抽出された特徴の階調数を削減する量子化ステップと、前記画素ごとの特徴の組み合わせを非線形の識別を行う機械学習アルゴリズムによって学習し、機械学習によるネットワークを構築する学習ステップと、前記学習ステップで構築されたネットワークの演算を代替するLUTを生成するLUT生成ステップと、前記LUT生成ステップで生成されたLUTを参照することによって、入力画像の各画素の前景らしさを推定する前景領域推定ステップと、前記前景領域推定ステップで推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、前記未分類領域に対してのみ境界補正を行う境界補正ステップとを実行することを要旨とする。
 第7の態様に係る発明は、映像処理プログラムであって、第1から第5のいずれか1つの態様に係る発明の各機能部としてコンピュータを機能させることを要旨とする。
 本発明によれば、入力画素と背景画素の特徴ベクトルが近い場合でも正確且つ高速な識別が可能な映像処理装置、映像処理方法、および映像処理プログラムを提供することが可能である。
本発明の実施の形態における学習処理の説明図である。 本発明の実施の形態においてLUTを複数用いる場合の説明図である。 本発明の実施の形態における抽出処理の説明図である。 本発明の実施の形態における映像処理装置の構成を示すブロック図である。 本発明の実施の形態における映像処理装置の構成を示すブロック図である。 本発明の実施の形態における映像処理装置の構成を示すブロック図である。 本発明の実施の形態における画像の具体例を示す図である。 本発明の実施の形態における教師データの具体例を示す図である。 本発明の実施の形態におけるインデックス生成処理の説明図である。 本発明の実施の形態におけるインデックス生成処理の説明図である。 本発明の実施の形態におけるLUT生成処理の説明図である。 本発明の実施の形態における学習処理の流れを示すフローチャートである。 本発明の実施の形態における抽出処理の流れを示すフローチャートである。 本発明の実施の形態と従来技術の実験結果を示すグラフである。
 以下、図面を用いて本発明の実施の形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号を付している。
 <概要>
 本発明の実施の形態では、特徴ベクトルが近い場合でも正確な識別ができるよう、特徴空間の変換を行った上で推定することが可能なニューラルネットワーク(NN)を利用して、入力画像と背景画像の画素の色の組み合わせを学習させ、各画素の前景らしさを推定する。さらに、構築したNNの演算処理をルックアップテーブル(LUT)参照処理に置き換えることで、動画像に対する実時間処理を可能としながら、抽出した領域の境界領域や前景か背景かが曖昧な領域の画素については、対象画素の色に近い周辺画素をスパースに探索し、1画素ずつ前景か背景かを再識別していくことで、被写体の境界を精緻に補正しつつ、高速な処理を可能とする。
 本発明の実施の形態における処理は、学習処理と抽出処理に分かれる。学習処理は事前処理であり、抽出処理は実時間処理である。以下、図面を参照しながら各処理を詳細に説明する。
 <学習処理>
 図1は、本発明の実施の形態における学習処理(事前処理)の説明図である。この図に示すように、学習処理では以下の1-1~1-6の処理を行う。
 1-1の処理では、被写体が画像中に含まれていない時間のカメラの入力画像を背景画像として予め1枚取得しておく。
 1-2の処理では、カメラの入力画像をサンプル画像として取得し、手動で被写体領域を切り抜いたマスク画像(白:前景となる被写体、黒:背景)を作成しておく。
 1-3の処理では、作成したマスクの前景にあたる座標に対して、サンプル画像と背景画像の画素の特徴の組み合わせ(合計6次元の特徴ベクトル)を前景画素の教師データとする。
 1-4の処理では、作成したマスクの背景にあたる座標に対して、サンプル画像と背景画像の画素の特徴の組み合わせ(合計6次元の特徴ベクトル)を背景画素の教師データとする。これら教師データの6次元の特徴ベクトルを入力、その組み合わせが前景か背景かの確率を出力として、NNに学習させる。
 1-5の処理では、サンプル画像(学習データ)が複数枚ある場合は1-2~1-4の処理をその枚数分繰り返す。
 1-6の処理では、NNの演算処理は時間がかかり、動画像に対する実時間処理には適していないため、NNの入出力の関係をLUT化する。具体的には、6次元の特徴ベクトルの全組み合わせをNNに入力し、それらに紐づく出力を得ることで、入力と出力との関係をテーブル化する。
 ‐補足‐
 画像の特徴は、基本的に色情報を想定しているため、1画素で3次元の特徴ベクトルを持ち、具体的なバリエーションとしては、“8ビットのRGB画像の各画素値R,G,B”、“8ビットのHSV画像の各画素値H,S,V”、“10ビットのYUV画像の各画素値Y,U,V”などを挙げることができる。例えば、6次元の特徴ベクトルが0~255(8ビット)の画素値を持つR,G,B,R,G,Bであるとする。この場合、全色の組み合わせは256^6通りであるが、このデータサイズのテーブルは昨今の一般的な計算機のメモリ上で扱うには大きすぎるため、各色の画素値を0~31(6ビット)の32^6通りなどに量子化して、現実的に扱えるデータサイズのLUTを生成する。量子化の具体例としては、0~255の256階調の画像であれば、全画素値を8で割り、0~31の等間隔な32階調の画像にするというものがある。
 なお、次元数と階調数はシステムで扱えるサイズや対象のシーンに合わせて柔軟に変更することが可能であり、必ずしも6次元32階調の特徴ベクトルである必要はない。具体的には、背景画像をグレースケールに変換して4次元128階調の特徴ベクトル(R,G,B,Gray)としたり、背景画像の色相と明度だけを参照して5次元64階調の特徴ベクトル(R,G,B,H,V)としたりと、異なる種類の特徴量の組み合わせを学習してLUTを生成しても良い。さらに、例えば、シーンの背景が大幅に変化する場合、背景差分の効果が得にくく、多くの背景画素が前景画素として現れてしまうと考えられるため、背景画素は学習させずに、3次元128階調の特徴ベクトル(R,G,B)だけを学習させ、入力画素のみから前景か背景かを識別するLUTを生成するということもできる。
 また、後述の抽出処理において参照するLUTも1種類である必要はなく、画像の領域ごとに異なる複数のLUTを参照しても良い。これにより、例えば、シーン中に背景画素の色変化の少ない領域(画像の下部の地面の領域)と、背景画素の色変化の多い領域(画像の上部の空の領域)がある場合、画像の下部領域は6次元32階調の特徴ベクトルで学習した結果のLUTを、画像の上部領域は3次元128階調の特徴ベクトルで学習した結果のLUTを参照するように分けることで、シーンの特徴に合った識別結果を得ることができる。
 このように、参照するLUTを複数用いる場合、図2に示す参照LUT指定画像のような、どの画素がどのLUTを参照するかを示すデータ(画素の座標とLUTの種類が対応付けられたテーブル等)を予め用意しておく必要がある。図2の例では、背景画素の色変化の少ない地面の領域Eについては、6次元32階調の特徴ベクトルで学習した結果のLUT(2)を参照し、背景画素の色変化の多い空の領域Eについては、3次元128階調の特徴ベクトルで学習した結果のLUT(1)を参照するようになっている。
 <抽出処理>
 図3は、本発明の実施の形態における抽出処理(実時間処理)の説明図である。この図に示すように、抽出処理では以下の2-1~2-7の処理を行う。
 2-1の処理では、予め背景画像に対して、LUT生成時と同様の量子化を行っておく。
 2-2の処理では、入力画像に対して、LUT生成時と同様の量子化を行う。
 2-3の処理では、量子化した入力画像と背景画像の、同一座標の画素の組み合わせを学習処理で生成したLUTの入力とし、出力を得る。これを画像内の全画素に対して行い、前景らしさの度合いを表した前景事後確率画像を得る。
 2-4の処理では、前景事後確率画像を参照して、前景事後確率の高い領域を前景、確率事後確率の低い領域を背景と設定した後、前景か背景かの確率が曖昧な領域や、前景と背景の境界となる領域を未分類領域と設定した3値の画像(TRIMAP)を生成する。すなわち、前景事後確率画像を任意の閾値を設定して2値化したときに、細かなノイズや被写体領域の欠けを含んでいる場合があるため、事後確率が曖昧な値の範囲を設定し、その領域に対して境界補正処理を行うことで、識別精度を向上させるようになっている。
 2-5の処理では、生成したTRIMAPの未分類領域に対して、高速な境界補正処理を行う。このような高速な境界補正処理としては、「宮下広夢,竹内広太,長田秀信,小野朗:“4K映像のための高速な被写体抽出”,電子情報通信学会技術研究報告(MVE研究会),117(73),pp.189-190(Jun.2017)」に記載の技術を用いることができる。
 2-6の処理では、入力画像を境界補正処理によって生成されたマスク画像でマスクすることで、被写体抽出画像を出力する。
 2-7の処理では、2-2~2-6の処理を繰り返し行い、動画像に対する実時間処理を実現する。
 <映像処理装置>
 図4は、本発明の実施の形態における映像処理装置の構成を示すブロック図である。この映像処理装置は、撮像部200と、画像処理部100と、画像編集部400と、表示部300とを備える。撮像部200は、対象を撮影するカメラ等である。画像処理部100は、撮像部200からの画像に画像処理を施すコンピュータ等である。画像編集部400は、画像処理部100からの画像を編集する外部アプリケーション等である。表示部300は、画像処理部100からの画像を表示する表示装置等である。
 以下、画像処理部100について詳細に説明する。画像処理部100は、撮像部200からの画像に画像処理を施すコンピュータ等であって、機能的には、画像入力部101と、色補正部141と、量子化画像生成部102と、前景領域推定部103と、境界補正部121と、画像合成部104と、画像出力部105と、画像記憶部106と、学習部107と、量子化器生成部131と、インデックス生成部108と、LUT生成部109とを備える。
 画像入力部101は、画像を入力する機能部である。具体的には、撮像部200から出力される画像を取り込む。
 画像記憶部106は、画像を記憶する記憶装置である。具体的には、入力画像を背景画像あるいは教師画像の元画像として記憶する、または教師画像作成部401によって作成された画像を教師画像として記憶する。
 色補正部141は、必要に応じて色補正を行う機能部である。具体的には、入力画像の色を背景画像の色に近付くように補正し、その色補正行列で入力画像を毎フレーム変換する、または、背景画像の色をある一時点の入力画像の色に近付くように補正し、その色補正行列で背景画像を変換することで、照明変化後の背景差分の精度を向上させる。
 量子化器生成部131は、量子化ルールを決定する機能部である。具体的には、入力画像や教師画像を参照して、対象の撮影シーンにおける画像の特徴ベクトルを適切に圧縮する量子化ルールを決定する。ここでは、量子化器生成部131の量子化ルールは、与えられた特徴ベクトルの階調数を等間隔な32階調にするものとする。
 量子化画像生成部102は、画像の特徴ベクトルの量子化を行う機能部である。具体的には、入力画像と背景画像の両方に対して、量子化器生成部131によって生成された量子化ルールを適用し、各画像の特徴ベクトルの量子化を行う。
 学習部107は、学習を行う機能部である。具体的には、前景のみ画像、前景以外画像、背景画像の3種類の画像の特徴ベクトルの組み合わせからネットワークを構築する。ここでは、非線形の識別を行う機械学習のアルゴリズムとしてNNを用いるものとする。
 インデックス生成部108は、インデックスを生成する機能部である。具体的には、多次元の特徴ベクトルの全ての組み合わせに対して、量子化器生成部131によって生成された量子化ルールを適用し、LUTのインデックスを生成する。
 LUT生成部109は、LUTを生成する機能部である。具体的には、ネットワークに量子化したインデックスを入力し、その出力を順に並べることでLUTを生成する。
 前景領域推定部103は、前景領域らしさを推定する機能部である。具体的には、入力画像と背景画像に対してLUTを適用し、前景領域らしさを推定する。なお、LUTを利用しない場合は、従来の背景差分や、(撮像部からステレオ画像が得られる場合は)ステレオ視差を利用することで前景領域らしさを推定する。
 境界補正部121は、境界補正処理を行う機能部である。具体的には、前景領域推定部103から得られた前景らしさを、前景、背景と1種類以上の未分類領域に分類し、未分類領域に対して、対象画素の周囲の入力画素と背景画素を参照し、対象画素が前景か背景かを識別する境界補正処理を行う。
 画像合成部104は、画像を合成する機能部である。具体的には、前景と背景に分類された2値画像(マスク画像)と入力画像を合成して前景のみを抽出した画像を得る。
 画像出力部105は、表示部300に対して画像を出力する機能部である。
 このような映像処理装置によれば、固定カメラで撮影した画像を対象とした、背景差分法をベースとした被写体抽出において、被写体と背景の画素の特徴ベクトルが近い場合でも、NNを用いることでより正確に前景か背景かの推定ができるようになる。さらに、ネットワーク演算処理をLUT参照処理に置き換えることで、動画像に対しても高速な被写体抽出処理を可能にする。
 なお、画像入力部101、画像記憶部106、量子化器生成部131、学習部107、インデックス生成部108、LUT生成部109から構成される機能部を事前学習手段100Aと呼ぶ(図5参照)。事前学習手段100Aは、学習処理(事前処理)を行う機能部である。
 また、画像入力部101、画像記憶部106、色補正部141、量子化画像生成部102、前景領域推定部103、境界補正部121、画像合成部104、画像出力部105から構成される機能部を実時間抽出手段100Bと呼ぶ(図6参照)。実時間抽出手段100Bは、抽出処理(実時間処理)を行う機能部である。
 さらに、以下の説明では、入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する機能部を「特徴抽出部」と呼ぶ場合がある。また、特徴抽出部によって抽出された特徴の階調数を削減する機能部を「量子化部」と呼ぶ場合がある。
 ‐補足‐
 なお、画像記憶部106に記憶される背景画像は、撮像部200から出力された、前景(被写体)が写っていない過去のある一時点の画像である。入力画像は、撮像部200から今まさに出力されている画像である。前景以外画像とは、少なくとも抽出対象の前景は排除されている画像である。背景画像の具体例を図7(a)に、入力画像の具体例を図7(b)に、前景のみ画像の具体例を図7(c)に、前景以外画像の具体例を図7(d)に示す。
 また、上記の説明では、1種類以上の未分類領域に分類することとしているが、未分類領域を2種類設定した場合は、複数の境界補正手法を選択的に適用する従来手法を使用してもよい。このような従来手法としては、「山口真理子,長田秀信,小野朗,“高速・精緻な被写体抽出のための適応的マッティング手法,”2017信学総大,no.D-11-29, March 2017.」がある。
 また、入力画像と背景画像から手動で教師画像を作成する教師画像作成部401は、外部アプリケーションなどの画像編集部400が備えるものとする。「教師画像」は、前景画素の教師データと背景画素の教師データの二つである。前景画素の教師データの具体例を図8(a)に示す。前景画素の教師データは、R,G,B,R,G,Bの組み合わせで、前景のみ画像において有効な画素数分用意する。背景画素の教師データの具体例を図8(b)に示す。背景画素の教師データは、R,G,B,R,G,Bの組み合わせで、前景以外画像において有効な画素数分用意する。
 次に、インデックス生成部108の処理について補足説明する。特徴ベクトルを「8ビットのRGB画像で、背景画素のRGBと前景画素のRGBからなるベクトル」とした場合、6次元の全特徴ベクトルは図9のようになり、全部で256^6行になる。このような場合、インデックス生成部108は、量子化ルールを参照して、図10の32^6通りの6次元の特徴ベクトルを生成し、この特徴ベクトルの組み合わせをインデックスと呼ぶ。なお、インデックスと呼ぶ理由は、特徴ベクトル(a,b,c,d,e,f)を参照することで、以下のように、この組み合わせがLUTの何行目の入力に対応するかを特定できるためである。
  index = a*32^5+b*32^4+c*32^3+d*32^2+e*32^1+f*32^0
 LUT生成部109では、図11のように、インデックスを学習によって構築したネットワークに順に入力し、これにより得られた出力を順に並べた行列(32^6行1列)が最終的なLUTである。
 <学習処理の流れ>
 図12は、本発明の実施の形態における学習処理の流れを示すフローチャートである。このフローチャートのステップS61~S65の動作主体は量子化器生成部131である。
 まず、入力・背景画像を記憶し、教師画像を生成し、学習する(ステップS51→S52→S53)。ここで、インデックスが生成済みである場合、LUTを生成する(ステップS54→S55)。一方、インデックスが生成済みでない場合、量子化器生成部131によって量子化ルールを生成しないときは、初期量子化器(等間隔)を設定し、LUTを生成する(ステップS54→S61→S65→S55)。また、量子化器生成部131によって量子化ルールを生成するときは、教師データを取得し、量子化器を生成し、インデックスを量子化し、LUTを生成する(ステップS54→S61→S62→S63→S64→S55)。
 <抽出処理の流れ>
 図13は、本発明の実施の形態における抽出処理の流れを示すフローチャートである。このフローチャートのステップS201~S205の動作主体は色補正部141、ステップS301~S303の動作主体は量子化器生成部131、ステップS106~S109の動作主体は前景領域推定部103、ステップS401~S403の動作主体は境界補正部121である。
 まず、画像を読み込む(ステップS101)。ここで、入力画像を色補正する場合、色補正行列を生成済でないときは、入力画像の背景領域矩形を指定し、2背景を近付ける行列を推定し、入力画像を色補正する(ステップS201→S202→S203→S204→S205)。また、色補正行列を生成済であるときは、入力画像を色補正する(ステップS201→S202→S205)。
 一方、入力画像を色補正しない場合、量子化器生成部131によって量子化ルールを生成しないときは、初期量子化器(等間隔)を設定する(ステップS201→S301→S102)。また、量子化器生成部131によって量子化ルールを生成するときは、教師データを取得し、前景画素教師データと、背景画素教師データの特徴ベクトルの偏りに合わせた量子化器を生成する(ステップS201→S301→S302→S303)。
 次いで、背景画像が量子化済でない場合、背景画像を量子化し、入力画像を量子化する(ステップS103→S104→S105)。一方、背景画像が量子化済である場合、入力画像を量子化する(ステップS103→S105)。
 次いで、LUTを利用しない場合、従来の背景差分や、ステレオ視差利用による前景の推定を行い、TRIMAP生成のための閾値を指定する(ステップS106→S107→S109)。一方、LUTを利用する場合、LUT適用による前景の推定を行い、TRIMAP生成のための閾値を指定する(ステップS106→S108→S109)。
 次いで、境界補正を行う場合、境界領域を設定(TRIMAPを生成)し、境界の精緻化を実施し、入力画像にマスクを適用し、抽出画像の書き出しを行う(ステップS401→S402→S403→S111→S112)。一方、境界補正を行わない場合、前景領域の設定(2値化)を行い、入力画像にマスクを適用し、抽出画像の書き出しを行う(ステップS401→S110→S111→S112)。
 <ポイント>
 本発明の実施の形態のポイントとしては、以下の点を挙げることができる。
・最新の入力画像と、異なる時間に得られた入力画像における、同一座標画素の最大6次元の特徴ベクトルを1組の入力として、NNに学習させる点。
・NNによる前景画素推定時にTRIMAPを生成し、境界補正処理と組み合わせることで、より高精度な被写体領域の抽出を可能にしている点。
・NNの入出力の関係をLUT化することで、演算回数が大幅に削減されるため、動画像に対しても毎フレーム高速に適用することができる点。
 <実験>
 4K解像度のカメラで撮影した柔道競技の映像を用いて、従来の背景差分を用いた被写体抽出、サポートベクタマシン(SVM)(線形の識別を行う機械学習アルゴリズム)を用いた被写体抽出、本発明の実施の形態(NNによる機械学習)の被写体抽出の精度比較実験を行った。各方法を用いて被写体を抽出した場合のエラー画素の総数を図14に示す。図14に示すように、本発明の実施の形態の精度が最も良い結果になった。特に、背景の色に近い被写体の頭部や、床の色に近い被写体の柔道着、足元に発生する影の領域においてもエラー画素が少なく、正確に識別できていることがわかった。これは、入力された特徴ベクトルがNNモデル内で適切な特徴空間に変換されたため識別できていると考えられる。また、本発明の実施の形態における抽出処理については、4K映像に対してリアルタイムに(30FPS以上のフレームレートで)処理ができることを確認している。
 <まとめ>
 以上説明したように、本発明の実施の形態における映像処理装置は、入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する特徴抽出部と、特徴抽出部によって抽出された特徴の階調数を削減する量子化部と、画素ごとの特徴の組み合わせを非線形の識別を行う機械学習アルゴリズム(例えば、NN)によって学習し、機械学習によるネットワークを構築する学習部107と、学習部107によって構築されたネットワークの演算を代替するLUTを生成するLUT生成部109と、LUT生成部109によって生成されたLUTを参照することによって、入力画像の各画素の前景らしさを高速に推定する前景領域推定部103と、前景領域推定部103によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、未分類領域に対してのみ境界補正を行う境界補正部121とを備える。これにより、入力画素と背景画素の特徴ベクトルが近い場合でも正確且つ高速な識別が可能となる。
 ここで、量子化部は、入力画像の特徴に合わせて量子化方法を変えてもよい。これにより、適切に特徴ベクトルを削減し、前景、背景の識別精度の低下を抑制することが可能となる。
 また、境界補正部121は、前景領域推定部103によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、さらに、未分類領域を境界画素付近の特徴に合わせて2種類以上の補正対象領域に分類し、補正対象領域ごとに補正手法を変えてもよい。これにより、境界の特徴に適した抽出画像を得ることが可能となる。
 また、特徴抽出部は、入力画像と、異なる時間の入力画像のいずれかを自動あるいは半自動で補正、または、異なる時間の入力画像を編集した別の画像に切り替えてもよい。これにより、同一のLUTを参照しながら撮影シーンの変化に適応した抽出画像を得ることが可能となる。
 また、学習部107は、異なる機械学習アルゴリズム、または、異なる機械学習のパラメータ設定によって、異なる性質を持つ複数種類のネットワークを構築し、LUT生成部109は、複数種類のネットワークから複数種類のLUTを生成し、前景領域推定部103は、予め設定した画像の領域ごとに異なるLUTを参照してもよい。これにより、撮影シーンの背景の特徴に適応した抽出画像を得ることが可能となる。なお、ここでいう「異なる機械学習」には線形識別の機械学習アルゴリズムも含むものとする。
 また、本発明の実施の形態における映像処理方法は、入力画像と、異なる時間の入力画像から画素ごとの特徴を抽出し、抽出した特徴ごとに前景らしさを推定するNNを構築し、入力画像の各画素の前景らしさを導出する方法である。
 また、このような映像処理方法は、画素ごとに前景らしさを導出する方法であって、入力画像の特徴に合わせて量子化方法を変えることで適切に特徴ベクトルを削減し、構築したネットワークの演算処理をLUT参照処理により高速に処理する方法であってもよい。
 また、このような映像処理方法は、画素ごとに前景らしさを導出する方法であって、導出した前景らしさを、前景、背景、前景と背景の境界画素を含む1種類以上の未分類領域に分類し、未分類領域に対してのみ注目画素の周辺情報を加味した境界補正を行うことで、被写体の境界が精緻になった抽出画像を高速に得る方法であってもよい。
 また、このような映像処理方法は、画素ごとに前景らしさを導出する方法であって、入力画像と異なる時間の入力画像のいずれかを自動あるいは半自動で補正、または、異なる時間の入力画像を別の画像に切り替えることで、同一のLUTを使い続けながら、撮影シーンの変化に対して頑健な出力結果を得る方法であってもよい。
 また、このような映像処理方法は、画素ごとに前景らしさを導出する方法であって、異なる時間の入力画像を、異なる時間の入力画像を編集した画像や、出力結果のマスク画像を編集した画像に置き換えることで、異なる性質を持つ複数のネットワークを構築・LUTを生成し、画像の領域ごとに異なるLUTを参照することで、シーンに適した出力結果を得る方法であってもよい。
 なお、本発明の実施の形態は、このような映像処理装置や映像処理方法として実現することができるだけでなく、このような映像処理装置が備える各機能部としてコンピュータを機能させる映像処理プログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD-ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのはいうまでもない。
 <その他の実施の形態>
 上記のように、本発明の実施の形態によって記載したが、この開示の一部をなす論述および図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例および運用技術が明らかとなる。
 例えば、本発明の実施の形態に記載した映像処理装置(図4参照)は、一つのハードウエア上に構成されても良いし、その機能や処理数に応じて複数のハードウエア上に構成されても良い。また、既存の映像処理システム上に実現されても良い。
 本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
 100…画像処理部
 101…画像入力部
 102…量子化画像生成部
 103…前景領域推定部
 104…画像合成部
 105…画像出力部
 106…画像記憶部
 107…学習部
 108…インデックス生成部
 109…LUT生成部
 121…境界補正部
 131…量子化器生成部
 141…色補正部
 200…撮像部
 300…表示部
 400…画像編集部
 401…教師画像作成部

Claims (7)

  1.  入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する特徴抽出部と、
     前記特徴抽出部によって抽出された特徴の階調数を削減する量子化部と、
     前記画素ごとの特徴の組み合わせを非線形の識別を行う機械学習アルゴリズムによって学習し、機械学習によるネットワークを構築する学習部と、
     前記学習部によって構築されたネットワークの演算を代替するルックアップテーブル(LUT)を生成するLUT生成部と、
     前記LUT生成部によって生成されたLUTを参照することによって、入力画像の各画素の前景らしさを推定する前景領域推定部と、
     前記前景領域推定部によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、前記未分類領域に対してのみ境界補正を行う境界補正部と
     を備えることを特徴とする映像処理装置。
  2.  前記量子化部は、入力画像の特徴に合わせて量子化方法を変えることを特徴とする請求項1に記載の映像処理装置。
  3.  前記境界補正部は、前記前景領域推定部によって推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、さらに、前記未分類領域を境界画素付近の特徴に合わせて2種類以上の補正対象領域に分類し、前記補正対象領域ごとに補正手法を変えることを特徴とする請求項1または2に記載の映像処理装置。
  4.  前記特徴抽出部は、入力画像と、異なる時間の入力画像のいずれかを自動あるいは半自動で補正、または、異なる時間の入力画像を編集した別の画像に切り替えることを特徴とする請求項1から3のいずれか1項に記載の映像処理装置。
  5.  前記学習部は、異なる機械学習アルゴリズム、または、異なる機械学習のパラメータ設定によって、異なる性質を持つ複数種類のネットワークを構築し、
     前記LUT生成部は、前記複数種類のネットワークから複数種類のLUTを生成し、
     前記前景領域推定部は、予め設定した画像の領域ごとに異なるLUTを参照する
     ことを特徴とする請求項1から4のいずれか1項に記載の映像処理装置。
  6.  コンピュータが、
     入力画像と、異なる時間の入力画像から、画素ごとに特徴を抽出する特徴抽出ステップと、
     前記特徴抽出ステップで抽出された特徴の階調数を削減する量子化ステップと、
     前記画素ごとの特徴の組み合わせを非線形の識別を行う機械学習アルゴリズムによって学習し、機械学習によるネットワークを構築する学習ステップと、
     前記学習ステップで構築されたネットワークの演算を代替するLUTを生成するLUT生成ステップと、
     前記LUT生成ステップで生成されたLUTを参照することによって、入力画像の各画素の前景らしさを推定する前景領域推定ステップと、
     前記前景領域推定ステップで推定された前景らしさを、前景、背景、前景と背景の境界画素を含む未分類領域に分類し、前記未分類領域に対してのみ境界補正を行う境界補正ステップと
     を実行することを特徴とする映像処理方法。
  7.  請求項1乃至5のいずれか1項に記載した各機能部としてコンピュータを機能させることを特徴とする映像処理プログラム。
PCT/JP2019/020423 2018-05-24 2019-05-23 映像処理装置、映像処理方法、および映像処理プログラム WO2019225692A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/056,995 US11461903B2 (en) 2018-05-24 2019-05-23 Video processing device, video processing method, and video processing program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-099678 2018-05-24
JP2018099678A JP6715289B2 (ja) 2018-05-24 2018-05-24 映像処理装置、映像処理方法、および映像処理プログラム

Publications (1)

Publication Number Publication Date
WO2019225692A1 true WO2019225692A1 (ja) 2019-11-28

Family

ID=68616831

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/020423 WO2019225692A1 (ja) 2018-05-24 2019-05-23 映像処理装置、映像処理方法、および映像処理プログラム

Country Status (3)

Country Link
US (1) US11461903B2 (ja)
JP (1) JP6715289B2 (ja)
WO (1) WO2019225692A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160359A (zh) * 2019-12-23 2020-05-15 潍坊科技学院 一种数字图像处理方法
WO2022201318A1 (ja) * 2021-03-23 2022-09-29 日本電信電話株式会社 画像処理装置、画像処理方法及び画像処理プログラム
WO2022244135A1 (ja) * 2021-05-19 2022-11-24 日本電信電話株式会社 学習装置、推定装置、学習モデルデータ生成方法、推定方法及びプログラム
WO2023026464A1 (ja) * 2021-08-27 2023-03-02 日本電信電話株式会社 映像処理装置、映像処理方法、およびプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11763433B2 (en) * 2019-11-14 2023-09-19 Samsung Electronics Co., Ltd. Depth image generation method and device
JPWO2022153476A1 (ja) * 2021-01-15 2022-07-21
WO2022185403A1 (ja) * 2021-03-02 2022-09-09 日本電信電話株式会社 画像処理装置、画像処理方法、およびプログラム
JP7480088B2 (ja) 2021-04-27 2024-05-09 キヤノン株式会社 画像処理装置、画像処理方法、プログラム
CN116258725B (zh) * 2023-05-16 2023-08-22 福建自贸试验区厦门片区Manteia数据科技有限公司 基于特征影像的医学图像处理方法、装置以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016009326A (ja) * 2014-06-24 2016-01-18 日本電信電話株式会社 画像分割装置、方法、及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3123587B2 (ja) 1994-03-09 2001-01-15 日本電信電話株式会社 背景差分による動物体領域抽出方法
JP5615088B2 (ja) * 2010-08-18 2014-10-29 キヤノン株式会社 画像処理装置及びその方法、プログラム、並びに撮像装置
US11195057B2 (en) * 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
JP6355346B2 (ja) * 2014-01-29 2018-07-11 キヤノン株式会社 画像処理装置、画像処理方法、プログラム、及び記憶媒体
US11055828B2 (en) * 2019-05-09 2021-07-06 Adobe Inc. Video inpainting with deep internal learning
CN113822836B (zh) * 2020-06-05 2024-06-18 英业达科技有限公司 标记图像的方法
JP2022046219A (ja) * 2020-09-10 2022-03-23 キヤノン株式会社 画像処理方法、画像処理装置、画像処理プログラム、学習方法、学習装置、学習プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016009326A (ja) * 2014-06-24 2016-01-18 日本電信電話株式会社 画像分割装置、方法、及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KAKINUMA, HIROKAZU ET AL.: "4K real-time subject extraction framework using machine learning", PROCEEDINGS OF THE ITE WINTER ANNUAL CONVENTION, 13 December 2017 (2017-12-13), ISSN: 1880-6953 *
NAGATA, HIDENOBU ET AL.: "A random background real-time subject extraction technique", NTT GIJUTSU JOURNAL, vol. 29, no. 10, 1 October 2017 (2017-10-01), pages 33 - 37, ISSN: 0915-2318 *
WADA, TOSHIKAZU: "Color-target detection based on nearest neighbor classifier", IPSJ TRANSACTIONS, vol. 44, no. SIG 17, 15 December 2003 (2003-12-15), pages 126 - 135, ISSN: 0387-5806 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160359A (zh) * 2019-12-23 2020-05-15 潍坊科技学院 一种数字图像处理方法
WO2022201318A1 (ja) * 2021-03-23 2022-09-29 日本電信電話株式会社 画像処理装置、画像処理方法及び画像処理プログラム
JP7473076B2 (ja) 2021-03-23 2024-04-23 日本電信電話株式会社 画像処理装置、画像処理方法及び画像処理プログラム
WO2022244135A1 (ja) * 2021-05-19 2022-11-24 日本電信電話株式会社 学習装置、推定装置、学習モデルデータ生成方法、推定方法及びプログラム
WO2023026464A1 (ja) * 2021-08-27 2023-03-02 日本電信電話株式会社 映像処理装置、映像処理方法、およびプログラム

Also Published As

Publication number Publication date
JP6715289B2 (ja) 2020-07-01
JP2019204333A (ja) 2019-11-28
US11461903B2 (en) 2022-10-04
US20210158534A1 (en) 2021-05-27

Similar Documents

Publication Publication Date Title
WO2019225692A1 (ja) 映像処理装置、映像処理方法、および映像処理プログラム
US10853925B2 (en) Methods, systems, and media for image processing
CN107016691B (zh) 基于超像素特征的运动目标检测方法
Chen et al. Fast image segmentation based on K-Means clustering with histograms in HSV color space
US6912313B2 (en) Image background replacement method
US10319085B2 (en) Metadata-based image processing method and apparatus
JP5458905B2 (ja) 画像におけるシャドーの検知装置および検知方法
US20040240749A1 (en) Image processing device, image processing method, and program
JP2006318474A (ja) 画像シーケンス内のオブジェクトを追跡するための方法及び装置
CN111310768B (zh) 基于鲁棒性背景先验和全局信息的显著性目标检测方法
JP7152065B2 (ja) 画像処理装置
JP2015011585A (ja) 画像処理装置、画像形成装置、画像形成システム、画像処理方法およびプログラム
CN111491149B (zh) 基于高清视频的实时抠像方法、装置、设备及存储介质
KR102192016B1 (ko) 의미 인식 기반의 이미지 보정 방법 및 그를 위한 장치
US8331695B1 (en) Integrated circuit having a circuit for and method of updating parameters associated with a background estimation portion of a video frame
CN109166135B (zh) 一种基于hsv颜色空间与色度键的蓝屏抠像方法
WO2018039667A1 (en) Process to isolate object of interest in image
US7885458B1 (en) Illuminant estimation using gamut mapping and scene classification
Sazzad et al. Establishment of an efficient color model from existing models for better gamma encoding in image processing
Kotera A scene-referred color transfer for pleasant imaging on display
US6816289B1 (en) Method for automatically extracting image effect color and recovering original image color
EP3143549A1 (en) Segmentation based image transform
JP2721107B2 (ja) 映像特徴処理方法
CN111724297B (zh) 图像处理方法及装置
KR101706347B1 (ko) 샷 경계 검출 방법, 그리고 이를 구현한 영상 처리 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19806553

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19806553

Country of ref document: EP

Kind code of ref document: A1