WO2020170785A1 - 生成装置及びコンピュータプログラム - Google Patents

生成装置及びコンピュータプログラム Download PDF

Info

Publication number
WO2020170785A1
WO2020170785A1 PCT/JP2020/003955 JP2020003955W WO2020170785A1 WO 2020170785 A1 WO2020170785 A1 WO 2020170785A1 JP 2020003955 W JP2020003955 W JP 2020003955W WO 2020170785 A1 WO2020170785 A1 WO 2020170785A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
interpolation
unit
frames
identification
Prior art date
Application number
PCT/JP2020/003955
Other languages
English (en)
French (fr)
Inventor
翔太 折橋
忍 工藤
隆一 谷田
清水 淳
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/431,678 priority Critical patent/US20220122297A1/en
Publication of WO2020170785A1 publication Critical patent/WO2020170785A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/164Feedback from the receiver or from the transmission channel
    • H04N19/166Feedback from the receiver or from the transmission channel concerning the amount of transmission errors, e.g. bit error rate [BER]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to a generation device and a computer program.
  • Image interpolation technology that interpolates a missing area by estimating a missing area (hereinafter referred to as “missing area”) from an image in which a part of the image is missing is known.
  • the image interpolation technique is not only the original purpose of interpolating an image, but also loss of an image in a device that performs encoding in lossy compression encoding of an image, and interpolating a loss area in a device that performs decoding. Applications such as reducing the code amount required for an image to be transmitted are also possible.
  • Non-Patent Document 1 an interpolation network that outputs an image in which a defective region is interpolated (hereinafter referred to as “interpolation image”) according to an input of an image having a defective region and a mask indicating the defective region.
  • the input image is an interpolated image or an image that does not have a loss region (hereinafter, referred to as “non-loss image”).
  • a network for interpolating can be learned.
  • the missing image shown in FIG. 9 is a missing area mask M ⁇ (where ⁇ is above M, and so on) in which a missing area is represented by 1 and an area in which no missing occurs (hereinafter referred to as "non-defective area") is represented by 0. And the non-defective image x.
  • a lossy image in which the central portion of the image is lost is generated.
  • the loss image can be expressed as the following expression (1) by the element product of the loss region mask M ⁇ and the non-loss image x.
  • the defective image can be expressed as in Expression (1).
  • the interpolation network G inputs a lossy image represented by the above equation (1) and outputs an interpolation image.
  • the interpolated image can be expressed by the following equation (2). Similarly, in the following description, it is assumed that the interpolated image can be expressed as in Expression (2).
  • the identification network D inputs the image x and outputs the probability D(x) that the image x is an interpolated image.
  • the parameters of the interpolation network G and the identification network D are alternately updated based on the following expression (3) for the purpose of optimizing the following objective function V based on the learning framework of the adversarial generation network.
  • X in the equation (3) represents the distribution of the image group of the teacher data
  • L(x, M ⁇ ) is the square error between the pixel of the image x and the pixel of the interpolated image as in the following equation (4). ..
  • ⁇ shown in Expression 3 is a parameter indicating the weight of the squared error of the pixel and the error propagated from the identification network D in learning the interpolation network G.
  • a moving image including a missing image is input to the interpolation network G as three-dimensional data by combining each frame in the channel direction, and interpolation is performed in both the spatial direction and the temporal direction with consistency.
  • a method of outputting the result can be considered.
  • the identification network D identifies whether the input moving image is an interpolated moving image or a moving image that does not include a missing image, as in the case of a still image, and is identified as the interpolation network G. By alternately updating the parameters of the network D, a network that realizes interpolation of moving images is constructed.
  • the identification network D discriminates, for each moving image, whether the input moving image is an interpolated moving image or a moving image that does not include a missing image, and therefore has a large amount of input information.
  • the difficulty of identification is lower than that of the identification of one still image.
  • the interpolation network G outputs the weighted average of the other frame that can be referred to, so that it is particularly easy to obtain consistency in the time direction. .. This makes it easy for the interpolation network G to obtain an image output by averaging in the time direction.
  • the output image is blurred and the texture in the image disappears and the quality of the output image deteriorates.
  • the present invention has an object of providing a technique capable of improving the quality of an output image when the interpolation of a moving image is applied to the framework of a hostile generation network.
  • an interpolating unit that generates, from a moving image including a plurality of frames, an interpolated frame in which a partial region in one or a plurality of frames included in the moving image is interpolated, is input.
  • An identification unit that identifies whether or not the plurality of frames are interpolated frames in which a partial area is interpolated, and the identification unit temporally identifies the input plurality of frames in time.
  • One aspect of the present invention is the above-described generation device, wherein the time direction identification unit uses the time-series data of a frame in which only the interpolation regions of the plurality of input frames are extracted, Output the probability that the frame is an interpolated frame as an identification result, and the spatial direction identification unit identifies the probability that the plurality of input frames are interpolated frames using the input frames at each input time. Output as a result.
  • One aspect of the present invention is the generation device described above, wherein when the plurality of input frames include a reference frame in which some or all regions in the frame are not interpolated, the time direction identification unit Outputs the probability that the plurality of input frames are interpolation frames using the reference frame and the interpolation frame, as the identification result, and the spatial direction identification unit outputs the plurality of input frames at the respective times.
  • the probability that the plurality of input frames are the interpolation frames is output as the identification result.
  • One embodiment of the present invention is the above-described generation device, wherein the reference frames are two first reference frames and second reference frames, and the plurality of input frames are at least the first reference frames.
  • Reference frame, the interpolation frame, and the second reference frame are two first reference frames and second reference frames, and the plurality of input frames.
  • One aspect of the present invention is the above-mentioned generation device, wherein the identification unit is based on a correct answer rate of a result of the identification performed by the spatial direction identification unit and the temporal direction identification unit, and the spatial direction identification unit.
  • the parameters used for weighting with the time direction identification unit are updated.
  • One aspect of the present invention includes an interpolation unit learned by the above-described generation device, and when the moving image is input, the interpolation unit causes a partial area in one or a plurality of frames forming the moving image to Generate interpolated interpolated frames.
  • an interpolation step of generating, from a moving image composed of a plurality of frames, an interpolation frame in which a partial region in one or a plurality of frames forming the moving image is interpolated is input.
  • FIG. 6 is a flowchart showing a flow of a learning process performed by the image generating apparatus according to the first embodiment. It is a figure which shows the specific example of the loss image interpolation process, image division process, and identification process which the image generation apparatus in 1st Embodiment performs. It is a schematic block diagram showing the functional structure of the image generation apparatus in 2nd Embodiment. 9 is a flowchart showing the flow of a learning process performed by the image generating apparatus according to the second embodiment. It is a figure which shows the specific example of the missing image interpolation process, image division process, and identification process which the image generation apparatus in 2nd Embodiment performs.
  • FIG. 11 is a flowchart showing the flow of learning processing performed by the image generating apparatus according to the third embodiment. It is a figure which shows the structure of the interpolation network and identification network in a prior art. It is a figure which shows the structure of the interpolation network and identification network in a prior art.
  • the learning target of the present invention is not limited to the convolutional neural network. That is, the present invention can be applied to an arbitrary generation model that performs interpolation generation of an image that can be learned by an adversarial generation network and an arbitrary discrimination model that handles an image discrimination problem.
  • image used in the description of the present invention may be replaced with a frame.
  • FIG. 1 is a schematic block diagram showing the functional configuration of the image generating apparatus 100 according to the first embodiment.
  • the image generation apparatus 100 includes a CPU (Central Processing Unit), a memory, an auxiliary storage device, and the like connected by a bus, and executes a learning program. By executing the learning program, the image generation device 100 functions as a device including a loss area mask generation unit 11, a loss image generation unit 12, a loss image interpolation unit 13, an interpolation image identification unit 14, and an update unit 15. Note that all or some of the functions of the image generating apparatus 100 may be realized using hardware such as an ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), and FPGA (Field Programmable Gate Array). ..
  • ASIC Application Specific Integrated Circuit
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • the learning program may be recorded in a computer-readable recording medium.
  • the computer-readable recording medium is, for example, a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, or a storage device such as a hard disk built in a computer system. Further, the learning program may be transmitted/received via an electric communication line.
  • the loss area mask generation unit 11 generates a loss area mask. Specifically, the loss area mask generation unit 11 may generate different loss area masks for the respective non-loss images forming the moving image, or may generate a common loss area mask.
  • the loss image generation unit 12 generates a loss image based on the non-loss image and the loss region mask generated by the loss region mask generation unit 11. Specifically, the loss image generation unit 12 generates a plurality of loss images based on all the non-loss images forming the moving image and the loss region mask generated by the loss region mask generation unit 11.
  • the lost image interpolating unit 13 is composed of a generator in the interpolation network G, that is, GAN, and generates an interpolated image by interpolating the lost area in the lost image.
  • the interpolation network G is realized by, for example, a convolutional neural network used in the technique described in Non-Patent Document 1. Specifically, the loss image interpolation unit 13 determines the loss region in the loss image based on the loss region mask generated by the loss region mask generation unit 11 and the plurality of loss images generated by the loss image generation unit 12. To generate a plurality of interpolated images.
  • the interpolated image identification unit 14 is composed of an image division unit 141, an identification unit 142, and an identification result integration unit 143.
  • the image dividing unit 141 receives a plurality of interpolated images and divides each of the input interpolated images into a time-series image of an interpolation area and an interpolated image at each time.
  • the time-series image of the interpolation area is data obtained by combining still images, in which only the interpolation area of each interpolation image is extracted, in the channel direction.
  • the identification unit 142 includes a temporal direction identification network D T and spatial direction identification networks D S0 to D SN (0 to N are subscripts of S, and N is an integer of 1 or more).
  • the time direction identification network D T inputs the time series image of the interpolation area and outputs the probability that the input image is the interpolation image.
  • the spatial direction identification networks D S0 to D SN take an interpolated image at a specific time as an input, and output the probability that the input image is an interpolated image. For example, the spatial direction identification network D S0 inputs the interpolation image at time 0, and outputs the probability that the input image is the interpolation image.
  • the time direction identification network D T and the space direction identification networks D S0 to D SN may be realized by a convolutional neural network used in the technique described in Non-Patent Document 1, for example.
  • the identification result integration unit 143 receives the probabilities output from the identification unit 142 as input, and outputs the probability that the image input to the interpolation image identification unit 14 is an interpolation image.
  • FIG. 2 is a flowchart showing the flow of learning processing performed by the image generating apparatus 100 according to the first embodiment.
  • the loss area mask generation unit 11 generates a loss area mask M ⁇ (step S101). Specifically, the loss area mask generation unit 11 generates a loss area mask M ⁇ in which the loss area is represented by 1 and the non-loss area is expressed by 0, with the area in the center of the screen or the randomly derived area as the loss area. ..
  • the loss area mask generation unit 11 outputs the generated loss area mask M ⁇ to the loss image generation unit 12 and the loss image interpolation unit 13.
  • the loss image generation unit 12 inputs a plurality of non-loss images x forming a moving image from the outside and the loss region mask M ⁇ generated by the loss region mask generation unit 11.
  • the loss image generation unit 12 generates a plurality of loss images based on the plurality of input non-loss images x and the loss region mask M ⁇ generated by the loss region mask generation unit 11 (step S102).
  • the lossy image generation unit 12 outputs a lossy image by generating a lossy image in the non-lossy image x by deleting the region obtained by the lossy region mask M ⁇ .
  • the loss image can be expressed by the element product of the non-loss image x and the loss area mask M ⁇ as in the above equation (1).
  • the loss image generation unit 12 outputs the generated loss images to the loss image interpolation unit 13.
  • FIG. 3 is a diagram illustrating a specific example of the lossy image interpolation process, the image division process, and the identification process performed by the image generation device 100 according to the first embodiment.
  • the loss image interpolation unit 13 inputs the loss region mask M ⁇ and a plurality of loss images, and interpolates the loss region in the loss image based on the input loss region mask M ⁇ and the plurality of loss images. To generate a plurality of interpolated images (step S103).
  • the missing image interpolating unit 13 outputs the generated plurality of interpolating images to the image dividing unit 141.
  • the image division unit 141 performs image division processing using the plurality of interpolated images output from the lossy image interpolation unit 13 (step S104). Specifically, the image division unit 141 divides the plurality of interpolated images into input units of the identification network included in the identification unit 142. Then, the image dividing unit 141 inputs a plurality of interpolated images and outputs a time-series image of the interpolated region and an interpolated image at each time to each identification network.
  • the image division unit 141 outputs the time-series image of the interpolation area to the temporal direction identification network D T , outputs the interpolation image at time 0 to the spatial direction identification network D S0, and outputs the time 1 Output the interpolated image at the spatial direction identification network D S1 and the interpolated image at time N ⁇ 1 to the spatial direction identification network D SN ⁇ 1 .
  • the interpolation image is expressed by the equation (5)
  • the time series image of the interpolation area is expressed by the equation (6).
  • the interpolation areas are different in each interpolated image, the common part or the union of the interpolated areas of each interpolated image can be used.
  • the interpolated image at the time n is represented by the equation (7).
  • the identification unit 142 outputs the probability that the image input to each identification network is an interpolation image, using the input time-series image of the interpolation region and the interpolation image at each time (step S105). Specifically, the time direction identification network D T included in the identification unit 142 receives the time series image of the interpolation region as an input, and outputs the probability that the input image is the interpolation image to the identification result integration unit 143.
  • the probability that the image obtained by the time direction identification network D T is an interpolated image is represented by the following equation (8).
  • Each of the spatial direction identification networks D S0 to D SN included in the identification unit 142 receives the image at time n as an input, and outputs the probability that the input image is an interpolated image to the identification result integration unit 143 for each time.
  • the probability that an image obtained by the spatial direction identification networks D S0 to D SN is an interpolated image is represented by the following equation (9). Note that the spatial direction identification networks D S0 to D SN may be networks having different parameters depending on the time n, or networks having common parameters.
  • the identification result integration unit 143 receives each probability output from the identification unit 142 as an input, and integrates the value obtained by using Expression (10) below to obtain the final value for the input image to the interpolation image identification unit 14. Output as a probability (step S106).
  • the updating unit 15 updates the parameters of the interpolation network G so as to obtain an interpolated image that is difficult to be discriminated by the discrimination network D and whose pixel values do not greatly deviate from the non-lost image corresponding to the lost image (step S107).
  • the updating unit 15 updates the parameters of the identification network D so that the identification network D identifies the interpolated image and the non-defective image (step S108).
  • Non-Patent Document 1 the generated network update process is performed by the square error of pixels of the interpolated image and the corresponding non-defective image and the error propagated by the adversarial learning between the identification network
  • the identification network update process is performed based on the mutual information between the value output from the identification network and the correct value
  • the following formula (11) is formulated as the optimization of the objective function V as described below.
  • the updating unit 15 alternately updates the parameters of the interpolation network G and the identification network D based on the following equation (11) in order to optimize the objective function V.
  • X represents the distribution of the image group of the teacher data
  • L(x,M ⁇ ) is the squared error between the pixel of the image x and the pixel of the interpolated image as shown in the above equation (4).
  • is a parameter representing the squared error of a pixel and the weight of the error propagated from the identification network in learning the interpolation network.
  • the network to be updated is changed for each iteration of learning by the correct answer rate of the identification network, the minimization of the squared error of the middle layer of the identification network is included in the objective function of the generation network, etc. Any adversarial generation network and conventional techniques for learning neural networks can be applied.
  • the image generating apparatus 100 determines whether or not the learning end condition is satisfied (step S109).
  • the end of learning may be executed by a predetermined number of iterations or may be determined by the transition of the error function.
  • the image generating apparatus 100 ends the process of FIG.
  • the image generating apparatus 100 repeatedly executes the processing of step S101 and thereafter. Thereby, the image generating apparatus 100 learns the interpolation network G.
  • the interpolation image generation device includes an image input unit and a loss image interpolation unit.
  • the image input unit inputs a moving image including a loss image from the outside.
  • the missing image interpolating unit has the same configuration as the missing image interpolating unit 13 in the image generating apparatus 100, and inputs a moving image via the image input unit.
  • the missing image interpolating unit outputs the interpolated moving image by interpolating the input moving image.
  • the interpolation image generation device may be configured as a single device or may be provided in the image generation device 100.
  • the image generating apparatus 100 configured as above divides the identification network into a network that identifies only from the time direction and a network that identifies only from the spatial direction, thereby intentionally making learning of the identification network difficult and performing interpolation. It is possible to facilitate hostile learning with the network G.
  • the conventional technique has a problem that the interpolation network G is likely to be learned by outputting the weighted average of the referable regions, and the texture is likely to be lost in the unit of frame.
  • the direction identification networks D S0 to D SN the parameters of the interpolation network G can be acquired so as to perform learning to output an interpolation image that is consistent in the spatial direction.
  • the spatial direction identification networks D S0 to D SN in the interpolated image identification unit 14 are shown as different networks for each time, but a common network may be used to derive the output from the input at each time.
  • the second embodiment differs from the first embodiment in the missing image interpolation processing, the image division processing, and the identification result integration processing.
  • the first embodiment it is premised that there is a defective area in all the images forming the moving image as shown in FIG.
  • an image of a non-defective area hereinafter, referred to as a “reference image” exists in all the areas forming the moving image. Therefore, in the second embodiment, a learning method when a reference image is included in images forming a moving image will be described.
  • FIG. 4 is a schematic block diagram showing the functional configuration of the image generating apparatus 100a according to the second embodiment.
  • the image generation device 100a includes a CPU, a memory, an auxiliary storage device, and the like connected by a bus, and executes a learning program. By executing the learning program, the image generation device 100a functions as a device including the loss area mask generation unit 11, the loss image generation unit 12, the loss image interpolation unit 13a, the interpolation image identification unit 14a, the update unit 15, and the image determination unit 16. To do.
  • all or some of the functions of the image generating apparatus 100a may be implemented using hardware such as ASIC, PLD, and FPGA.
  • the learning program may be recorded in a computer-readable recording medium.
  • the computer-readable recording medium is, for example, a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, or a storage device such as a hard disk built in a computer system. Further, the learning program may be transmitted/received via an electric communication line.
  • the image generating apparatus 100a differs from the image generating apparatus 100 in that it includes a missing image interpolating section 13a and an interpolating image identifying section 14a in place of the missing image interpolating section 13 and the interpolating image identifying section 14 and that an image identifying section 16 is newly provided.
  • the configuration is different.
  • the image generating apparatus 100a is similar to the image generating apparatus 100 in other configurations. Therefore, the description of the entire image generation device 100a is omitted, and the loss image interpolation unit 13a, the interpolation image identification unit 14a, and the image determination unit 16 will be described.
  • the image discriminating unit 16 inputs the non-defective image and the reference image information, and discriminates which non-defective image among the non-defective images forming the moving image is the reference image based on the input reference image information.
  • the reference image information is information for specifying a non-defective image as a reference image, and is information indicating, for example, which non-defective image among non-defective images forming a moving image is used as the reference image.
  • the lost image interpolating unit 13a is composed of a generator in the interpolation network G, that is, GAN, and generates an interpolated image by interpolating a lost area in the lost image. Specifically, the loss image interpolating unit 13a uses the loss region mask generated by the loss region mask generating unit 11, the plurality of loss images generated by the loss image generating unit 12, and the reference image to determine the loss. A plurality of interpolated images are generated by interpolating a defective area in the image.
  • the interpolation image identifying unit 14a includes an image dividing unit 141a, an identifying unit 142a, and an identification result integrating unit 143.
  • the image division unit 141a receives a plurality of interpolated images and reference images, divides each input interpolated image into a time series image of an interpolation region and an interpolated image at each time, and divides the reference image into a time series of the interpolation region. Split into images only.
  • the image dividing unit 141a inputs the reference image only to the time direction identification network D T for the reference image.
  • the time series image of the interpolation area in the second embodiment is data obtained by combining in the channel direction still images in which only the interpolation area is extracted from each interpolation image and the reference image.
  • the reference image does not have an interpolation region, the interpolation region in another interpolation image is extracted from the reference image and used as a time-series image of the interpolation region.
  • the identification unit 142a includes a temporal direction identification network D T and spatial direction identification networks D S0 to D SN .
  • the time direction identification network D T inputs the time series image of the interpolation region and the time series image of the reference image, and outputs the probability that the input image is the interpolation image.
  • the spatial direction identification networks D S0 to D SN perform the same processing as the functional unit with the same name in the first embodiment.
  • FIG. 5 is a flowchart showing the flow of learning processing performed by the image generating apparatus 100a according to the second embodiment.
  • the same processes as those in FIG. 2 are designated by the same reference numerals in FIG.
  • the image discriminating unit 16 inputs the non-defective image and the reference image information, and discriminates which non-defective image among the non-defective images forming the moving image is the reference image based on the input reference image information. (Step S201).
  • the information in which the oldest (oldest) non-defective image and the latest (most future) non-defective image are reference images in chronological order is the reference image. It is supposed to be included in the information.
  • the image determination unit 16 outputs the earliest non-missing image and the most future non-missing image in time series order to the lossy image interpolating unit 13a as reference images.
  • the image discrimination unit 16 outputs the non-defective image, which is not included in the reference image information, to the defective image generation unit 12.
  • the non-loss image output to the loss image generation unit 12 is input to the loss image interpolation unit 13a as a loss image.
  • the reason why the oldest non-defective image and the latest non-defective image in time series order among the non-defective images forming the moving image are used is that the interpolation network G for interpolation as shown in FIG. 6 is used.
  • the image input to the lossy image interpolating unit 13a is a mixture of non-lossy images and lossy images.
  • FIG. 6 is a diagram showing a specific example of the lossy image interpolation process, the image division process, and the identification process performed by the image generation device according to the second embodiment.
  • the loss image interpolation unit 13a inputs the loss region mask M ⁇ , a plurality of loss images, and the reference image, and based on the input loss region mask M ⁇ , the plurality of loss images, and the reference image, Then, an interpolation network for generating a loss area of a loss image at an intermediate time is constructed from a future reference image, and a loss image interpolation process is realized by recursively applying the interpolation network (step S202). At this time, the parameters of each interpolation network may be common or different.
  • the lossy image interpolating unit 13a outputs the generated plurality of interpolating images and the reference image to the image dividing unit 141a.
  • the image dividing unit 141a outputs the time-series image of the interpolation region to the temporal direction identification network D T , outputs the interpolation image at time 1 to the spatial direction identification network D S1, and outputs the time 2
  • the interpolated image of is output to the spatial direction identification network D S2
  • the interpolated image of time N-2 is output to the spatial direction identification network D SN-2 .
  • a part of the reference image is output only to the time direction identification network D T. That is, the time direction identification network D T outputs the probability that the input image is the interpolation image to the identification result integration unit 143 using the time series images of the interpolation regions in the reference image and the interpolation image.
  • the identification result integration unit 143 receives each probability output from the identification unit 142a as an input, and integrates the value obtained by using the following formula (12) to obtain the final value for the input image to the interpolation image identification unit 14a. Output as a random probability (step S204).
  • the interpolation image generation device includes an image input unit and a loss image interpolation unit.
  • the image input unit inputs a moving image including a loss image from the outside.
  • the missing image interpolating unit has the same configuration as the missing image interpolating unit 13a in the image generating apparatus 100, and inputs a moving image through the image input unit.
  • the missing image interpolating unit outputs the interpolated moving image by interpolating the input moving image.
  • the interpolation image generating device may be configured as a single device or may be provided in the image generating device 100a.
  • the image generation apparatus 100a configured as described above has a configuration in which a non-defective image is used as a reference image for learning, and when a non-defective image is used for learning, the reference image is input only to the time direction identification network D T. There is.
  • the interpolation network outputs the weighted sum of the reference images, so that the texture in the spatial direction easily disappears. Since it is applied only to the identification of the consistency of, the disappearance of the texture is less likely to occur. Therefore, the interpolation accuracy of the interpolation network G can be improved. Therefore, when the interpolation of the moving image is applied to the framework of the adversarial generation network, the accuracy of the quality of the output image can be improved.
  • the method of giving the reference image is not limited to this. That is, for example, a plurality of past non-defective images may be reference images, or non-defective images at intermediate times among images forming a moving image may be reference images.
  • the image generation device 100 changes the weight parameter in the interpolation network update process and the identification network update process.
  • FIG. 7 is a schematic block diagram showing the functional configuration of the image generation apparatus 100b according to the third embodiment.
  • the image generation device 100b includes a CPU, a memory, an auxiliary storage device, and the like connected by a bus, and executes a learning program.
  • the image generation device 100b is a device including a loss area mask generation unit 11, a loss image generation unit 12, a loss image interpolation unit 13, an interpolation image identification unit 14b, an update unit 15, and a weight parameter determination unit 17. Function.
  • All or some of the functions of the image generating apparatus 100b may be realized using hardware such as ASIC, PLD, and FPGA.
  • the learning program may be recorded in a computer-readable recording medium.
  • the computer-readable recording medium is, for example, a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, or a storage device such as a hard disk built in a computer system. Further, the learning program may be transmitted/received via an electric communication line.
  • the image generation apparatus 100b differs from the image generation apparatus 100 in that it includes an interpolation image identification unit 14b instead of the interpolation image identification unit 14 and that a weight parameter determination unit 17 is newly provided.
  • the image generating apparatus 100b is similar to the image generating apparatus 100 in other configurations. Therefore, the description of the entire image generation device 100b is omitted, and the interpolation image identification unit 14b and the weight parameter determination unit 17 will be described.
  • the weight parameter determining unit 17 receives the probability that the image input to each identification network is an interpolated image, and determines the weight parameter used during learning.
  • the image input to each identification network (the temporal direction identification network D T and the spatial direction identification networks D S0 to D SN ) obtained by the identification unit 142 is an interpolated image.
  • the correct answer rate of each identification network is calculated using the probability, and the weight parameter used at the time of learning is determined based on the calculated correct answer rate of each identification network.
  • the interpolation image identifying unit 14b includes an image dividing unit 141, an identifying unit 142, and an identification result integrating unit 143b.
  • the identification result integration unit 143b receives the probabilities output from the identification unit 142 and outputs the probability that the image input to the interpolation image identification unit 14b is the interpolation image.
  • the interpolation image identification unit 14b calculates the probability that the image input to the interpolation image identification unit 14b is the interpolation image.
  • the weight parameter the weight parameter obtained by the weight parameter determination unit 17 may be used. Note that when the weighting is performed so that the identification network D having a low correct answer rate becomes heavy, the identification of the identification network D becomes disadvantageous. Therefore, it is necessary to reverse the weighting or use a fixed value at the time of integration.
  • FIG. 8 is a flowchart showing the flow of learning processing performed by the image generating apparatus 100b according to the third embodiment.
  • the same processes as those in FIG. 2 are denoted by the same reference numerals in FIG. 8 as those in FIG.
  • the weighting parameter determination unit 17 calculates the correct answer rate of each identification network by using the probability that the input to each network obtained as a result of the identification processing for each area is an interpolated image.
  • the correct answer rate may be derived based on the correct answer rate derived by repeating learning in the past.
  • a weighting parameter to be applied in either or both of the interpolation network updating process and the identification network updating process is determined (step S301).
  • the weight parameter determination unit 17 determines the weight parameter so that the value of the weight parameter corresponding to the identification network having a high correct answer rate becomes relatively large, and the weight parameter determination unit 17 When learning is promoted, the weight parameter is determined so that the value of the weight parameter corresponding to the identification network with a low correct answer rate is relatively large. As described above, the weight parameter determination unit 17 determines the target of the weight parameter depending on the target for promoting learning.
  • the updating unit 15 updates the parameters of the interpolation network G so as to obtain an interpolated image that is difficult to be discriminated by the discrimination network D and whose pixel values do not greatly deviate from the non-lost image corresponding to the lost image (step S302). For example, when promoting the learning of the interpolation network, the updating unit 15 relatively increases the value of the weight parameter corresponding to the identification network having a high correct answer rate, and executes the interpolation network updating process. Specifically, assuming the first embodiment as shown in FIG. 3, the correct answer rates of the time direction identification network D T and the space direction identification networks D S0 to D SN are represented by a T and a SN , respectively. At this time, the updating unit 15 executes the interpolation network updating process as the following Expression (13).
  • the updating unit 15 updates the parameters of the identification network D so that the identification network D can identify the interpolated image and the non-defective image (step S303). For example, when the learning of the identification network is promoted, the update unit 15 relatively increases the value of the weight parameter corresponding to the identification network having a low correct answer rate, and executes the identification network update processing. Specifically, assuming the first embodiment as shown in FIG. 3, the correct answer rates of the time direction identification network D T and the space direction identification networks D S0 to D SN are represented by a T and a SN , respectively. At this time, the updating unit 15 executes the interpolation network updating process as the following Expression (14). The network to which this processing is applied may be determined based on the value of the error function of each network, for example.
  • the image generating apparatus 100b configured as described above extracts an area that the interpolation network is not good at or an area that the identification network is good at by considering the correct answer rate of the divided identification networks with respect to the teacher data. be able to.
  • the image used for learning is described as an example of a defective image, but the image used for learning is not limited to a defective image.
  • the image used for learning may be an up-converted image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Television Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

複数のフレームで構成される動画像から、動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間部と、入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別部と、を備え、識別部は、入力された複数のフレームを時間的に識別する時間方向識別部と、入力された複数のフレームを空間的に識別する空間方向識別部と、時間方向識別部と、空間方向識別部との識別結果を統合する統合部とで構成される、生成装置。

Description

生成装置及びコンピュータプログラム
 本発明は、生成装置及びコンピュータプログラムに関する。
 画像内の一部が欠損した画像から、欠損が生じている領域(以下、「欠損領域」という。)を推定して、欠損領域を補間する画像補間技術が知られている。画像補間技術は、本来の目的である画像の補間だけでなく、画像の非可逆圧縮符号化において符号化を行う装置で画像を欠損させて、復号を行う装置で欠損領域を補間することで、送信すべき画像に要する符号量を削減する等の応用も可能である。
 また、深層学習を用いて欠損を含む静止画像を補間する技術として、敵対的生成ネットワーク(GAN:Generative Adversarial Networks)の枠組みを用いた方法が提案されている(例えば、非特許文献1参照)。非特許文献1における技術では、欠損領域を有する画像と、欠損領域を示すマスクとの入力に応じて、欠損領域が補間された画像(以下、「補間画像」という。)を出力する補間ネットワークと、入力された画像が、補間画像又は欠損領域を有していない画像(以下、「非欠損画像」という。)のいずれの画像であるかを識別する識別ネットワークとの敵対的学習により、欠損領域を補間するネットワークを学習することができる。
 非特許文献1における補間ネットワーク及び識別ネットワークの構成を図9に示す。図9に示す欠損画像は、欠損領域を1、欠損が生じていない領域(以下、「非欠損領域」という。)を0で表現する欠損領域マスクM^(^はMの上、以下同様)と、非欠損画像xとに基づいて生成される。図9に示す例では、画像の中央部分が欠損した欠損画像が生成されたとする。欠損画像は、欠損領域マスクM^と、非欠損画像xとの要素積で以下の式(1)のように表すことができる。なお、以下の説明においても同様に、欠損画像は、式(1)のように表すことができるものとして説明する。
Figure JPOXMLDOC01-appb-M000001
 補間ネットワークGは、上記の式(1)のように表される欠損画像を入力として、補間画像を出力する。補間画像は、以下の式(2)のように表すことができる。なお、以下の説明においても同様に、補間画像は、式(2)のように表すことができるものとして説明する。
Figure JPOXMLDOC01-appb-M000002
 識別ネットワークDは、画像xを入力として、画像xが補間画像である確率D(x)を出力する。このとき、敵対的生成ネットワークの学習の枠組みに基づき、以下の目的関数Vの最適化のため、補間ネットワークGと識別ネットワークDのパラメータは以下の式(3)に基づいて交互に更新される。
Figure JPOXMLDOC01-appb-M000003
 ここで、式(3)におけるXは教師データの画像群の分布を表し、L(x,M^)は以下の式(4)のように、画像xと補間画像の画素の二乗誤差である。
Figure JPOXMLDOC01-appb-M000004
 また、式3に示すαは、補間ネットワークGの学習において、画素の二乗誤差と、識別ネットワークDから伝播した誤差との重みを表すパラメータである。
 次に、非特許文献1の技術を、複数枚の静止画像を、動画像を構成する各フレームとして時間方向に連続させた動画像に適用し、欠損画像を含む動画像を補間する技術を考える。簡易な方法として、動画像を構成する各フレームに対して、非特許文献1に示す技術を独立に適用することで動画像を補間する方法がある。しかしながら、この方法では、各フレームを独立した静止画像として欠損領域の補間を行うため、動画像として時間方向の連続性を持つ出力を得ることができない。
 そこで、図10のように、欠損画像を含む動画像を補間ネットワークGに、各フレームをチャネル方向に結合することで3次元データとして入力し、空間方向、時間方向いずれも整合性の取れた補間結果を出力させる方法が考えられる。このとき、識別ネットワークDは静止画像の場合と同様に、入力された動画像が補間された動画像であるか欠損画像を含まない動画像であるかを識別するものとし、補間ネットワークGと識別ネットワークDのパラメータを交互に更新することで、動画像の補間を実現するネットワークを構築する。
D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, A.A. Efros, "Context Encoders: Feature Learning by Inpainting", Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Graphics (cs.GR); Machine Learning (cs.LG), pp.2536-2544, 2016.
 上記の方法は、各フレーム内で空間方向の整合性を取りながら、時間方向の整合性を取れる画像を出力しなければならないため、補間ネットワークGによる生成は静止画像に比べて難易度が高まる。一方で、識別ネットワークDは、動画像単位で、入力された動画像が補間された動画像であるか欠損画像を含まない動画像であるかを識別するため、入力の情報量が豊富であり識別の難易度は1枚の静止画像の識別に比べて低くなる。敵対的生成ネットワークの枠組みで上記の補間ネットワークGを学習する場合、識別ネットワークDの学習が補間ネットワークGの学習に先行して進みやすいことから、学習を成功に導くための学習スケジュールやネットワークのパラメータに関する調整が難しい。
 また、あるフレームの欠損領域と同一位置の領域が別フレームから参照可能な場合、補間ネットワークGは参照可能な別フレームの重み付き平均を出力することで、特に時間方向での整合性を取りやすい。これにより、補間ネットワークGは時間方向での平均による画像の出力を獲得しやすくなる。しかしながら、出力画像にはボケが生じてしまい画像内のテクスチャが消失して出力画像の品質が低下してしまうという問題があった。
 上記事情に鑑み、本発明は、動画像の補間を敵対的生成ネットワークの枠組みに適用した場合において、出力画像の品質を向上させることができる技術の提供を目的としている。
 本発明の一態様は、複数のフレームで構成される動画像から、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間部と、入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別部と、を備え、前記識別部は、入力された前記複数のフレームを時間的に識別する時間方向識別部と、入力された前記複数のフレームを空間的に識別する空間方向識別部と、前記時間方向識別部と、前記空間方向識別部との識別結果を統合する統合部とで構成される、生成装置である。
 本発明の一態様は、上記の生成装置であって、前記時間方向識別部は、入力された前記複数のフレームの補間領域のみが抽出されたフレームの時系列データを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力し、前記空間方向識別部は、入力された各時刻の入力されたフレームを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力する。
 本発明の一態様は、上記の生成装置であって、入力された前記複数のフレームに、フレーム内の一部又は全ての領域が補間されていない参照フレームが含まれる場合、前記時間方向識別部は、前記参照フレームと、前記補間フレームとを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力し、前記空間方向識別部は、入力された各時刻の前記複数のフレームのうち補間フレームを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力する。
 本発明の一態様は、上記の生成装置であって、前記参照フレームは、第1の参照フレーム及び第2の参照フレームの2枚であり、入力された前記複数のフレームは、少なくとも前記第1の参照フレーム、前記補間フレーム、第2の参照フレームの時系列順になっている。
 本発明の一態様は、上記の生成装置であって、前記識別部は、前記空間方向識別部と前記時間方向識別部が識別を行った結果の正答率に基づいて、前記空間方向識別部と前記時間方向識別部との重み付けに用いるパラメータを更新する。
 本発明の一態様は、上記の生成装置によって学習された補間部を備え、前記補間部は、動画像が入力されると、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する。
 本発明の一態様は、複数のフレームで構成される動画像から、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間ステップと、入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別ステップと、をコンピュータに実行させ、前記識別ステップにおいて、入力された前記複数のフレームを時間的に識別し、入力された前記複数のフレームを空間的に識別し、前記識別ステップにおける識別結果を統合する、コンピュータプログラムである。
 本発明により、動画像の補間を敵対的生成ネットワークの枠組みに適用した場合において、出力画像の品質を向上させることが可能となる。
第1の実施形態における画像生成装置の機能構成を表す概略ブロック図である。 第1の実施形態における画像生成装置が行う学習処理の流れを示すフローチャートである。 第1の実施形態における画像生成装置が行う欠損画像補間処理、画像分割処理及び識別処理の具体例を示す図である。 第2の実施形態における画像生成装置の機能構成を表す概略ブロック図である。 第2の実施形態における画像生成装置が行う学習処理の流れを示すフローチャートである。 第2の実施形態における画像生成装置が行う欠損画像補間処理、画像分割処理及び識別処理の具体例を示す図である。 第3の実施形態における画像生成装置の機能構成を表す概略ブロック図である。 第3の実施形態における画像生成装置が行う学習処理の流れを示すフローチャートである。 従来技術における補間ネットワーク及び識別ネットワークの構成を示す図である。 従来技術における補間ネットワーク及び識別ネットワークの構成を示す図である。
 以下、本発明の一実施形態を、図面を参照しながら説明する。
 以下の説明では、畳み込みニューラルネットワークによる生成、識別の敵対的学習を前提とするが、本発明の学習対象は畳み込みニューラルネットワークに限られるものではない。すなわち、敵対的生成ネットワークで学習可能な画像の補間生成を行う任意の生成モデルおよび画像の識別問題を扱う任意の識別モデルに対して適用することができる。なお、本件発明について説明に用いている画像という言葉はフレームと置き換えてもよい。
(第1の実施形態)
 図1は、第1の実施形態における画像生成装置100の機能構成を表す概略ブロック図である。
 画像生成装置100は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、学習プログラムを実行する。学習プログラムの実行によって、画像生成装置100は、欠損領域マスク生成部11、欠損画像生成部12、欠損画像補間部13、補間画像識別部14及び更新部15を備える装置として機能する。なお、画像生成装置100の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。また、学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、学習プログラムは、電気通信回線を介して送受信されてもよい。
 欠損領域マスク生成部11は、欠損領域マスクを生成する。具体的には、欠損領域マスク生成部11は、動画像を構成する非欠損画像それぞれに異なる欠損領域マスクを生成してもよいし、共通の欠損領域マスクを生成してもよい。
 欠損画像生成部12は、非欠損画像と、欠損領域マスク生成部11によって生成された欠損領域マスクとに基づいて欠損画像を生成する。具体的には、欠損画像生成部12は、動画像を構成する全ての非欠損画像と、欠損領域マスク生成部11によって生成された欠損領域マスクとに基づいて複数の欠損画像を生成する。
 欠損画像補間部13は、補間ネットワークG、すなわちGANにおける生成器により構成され、欠損画像における欠損領域を補間することによって補間画像を生成する。補間ネットワークGは、例えば非特許文献1に示す技術で用いられるような畳み込みニューラルネットワークで実現される。具体的には、欠損画像補間部13は、欠損領域マスク生成部11によって生成された欠損領域マスクと、欠損画像生成部12によって生成された複数の欠損画像とに基づいて、欠損画像における欠損領域を補間することによって複数の補間画像を生成する。
 補間画像識別部14は、画像分割部141、識別部142及び識別結果統合部143で構成される。画像分割部141は、複数の補間画像を入力とし、入力された補間画像それぞれを補間領域の時系列画像と、各時刻の補間画像とに分割する。ここで、補間領域の時系列画像とは、各補間画像の補間領域のみが抽出された静止画像をチャネル方向に結合したデータである。
 識別部142は、時間方向識別ネットワークDと、空間方向識別ネットワークDS0~DSN(0~NはSの下付きであり、Nは1以上の整数)により構成される。時間方向識別ネットワークDは、補間領域の時系列画像を入力し、入力された画像が補間画像である確率を出力する。空間方向識別ネットワークDS0~DSNは、特定時刻の補間画像を入力とし、入力された画像が補間画像である確率を出力する。例えば、空間方向識別ネットワークDS0は、時刻0の補間画像を入力とし、入力された画像が補間画像である確率を出力する。時間方向識別ネットワークDと空間方向識別ネットワークDS0~DSNは、例えば非特許文献1に示す技術で用いられるような畳み込みニューラルネットワークで実現すればよい。
 識別結果統合部143は、識別部142から出力された各確率を入力として、補間画像識別部14へ入力された画像が補間画像である確率を出力する。
 図2は、第1の実施形態における画像生成装置100が行う学習処理の流れを示すフローチャートである。
 欠損領域マスク生成部11は、欠損領域マスクM^を生成する(ステップS101)。
具体的には、欠損領域マスク生成部11は、画面中央の領域やランダムに導出した領域等を欠損領域として、欠損領域を1、非欠損領域を0で表現する欠損領域マスクM^を生成する。欠損領域マスク生成部11は、生成した欠損領域マスクM^を欠損画像生成部12及び欠損画像補間部13に出力する。
 欠損画像生成部12は、外部から動画像を構成する複数の非欠損画像xと、欠損領域マスク生成部11によって生成された欠損領域マスクM^とを入力する。欠損画像生成部12は、入力した複数の非欠損画像xと、欠損領域マスク生成部11によって生成された欠損領域マスクM^とに基づいて複数の欠損画像を生成する(ステップS102)。具体的には、欠損画像生成部12は、非欠損画像xにおいて欠損領域マスクM^により求められる領域を欠損させることによって欠損画像を生成する出力する。欠損領域マスクM^を上記の2値マスク画像として表現する場合、欠損画像は上式(1)のように、非欠損画像xと欠損領域マスクM^との要素積で表すことができる。
 欠損画像生成部12は、生成した複数の欠損画像を欠損画像補間部13に出力する。欠損画像生成部12によって生成される複数の欠損画像は、図3に示すように、時系列順に並んでいる。図3に示すnは、補間画像のフレーム番号を表し、n=0,1,…,N-1である。図3は、第1の実施形態における画像生成装置100が行う欠損画像補間処理、画像分割処理及び識別処理の具体例を示す図である。
 欠損画像補間部13は、欠損領域マスクM^と、複数の欠損画像とを入力し、入力した欠損領域マスクM^と、複数の欠損画像とに基づいて、欠損画像における欠損領域を補間することによって複数の補間画像を生成する(ステップS103)。欠損画像補間部13は、生成した複数の補間画像を画像分割部141に出力する。画像分割部141は、欠損画像補間部13から出力された複数の補間画像を用いて画像分割処理を行う(ステップS104)。具体的には、画像分割部141は、複数の補間画像を識別部142が有する識別ネットワークの入力単位に分割する。そして、画像分割部141は、複数の補間画像を入力として、補間領域の時系列画像、各時刻の補間画像を各識別ネットワークに出力する。
 例えば、画像分割部141は、図3に示すように、補間領域の時系列画像を時間方向識別ネットワークDに出力し、時刻0の補間画像を空間方向識別ネットワークDS0に出力し、時刻1の補間画像を空間方向識別ネットワークDS1に出力し、時刻N-1の補間画像を空間方向識別ネットワークDSN-1に出力する。
 ここで、補間画像を式(5)で表すとき、補間領域の時系列画像は式(6)で表すものとする。なお、各補間画像で補間領域が異なる場合は、各補間画像の補間領域の共通部分または和集合等を用いることができる。また、補間画像を式(5)で表すとき、時刻nの補間画像を式(7)で表すものとする。
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 識別部142は、入力された補間領域の時系列画像及び各時刻の補間画像を用いて、各識別ネットワークへ入力された画像が補間画像である確率を出力する(ステップS105)。具体的には、識別部142が有する時間方向識別ネットワークDは、補間領域の時系列画像を入力として、入力された画像が補間画像である確率を識別結果統合部143に出力する。なお、時間方向識別ネットワークDにより得られる画像が補間画像である確率を以下の式(8)で表すものとする。識別部142が有する空間方向識別ネットワークDS0~DSNはそれぞれ、時刻nの画像を入力として、入力された画像が補間画像である確率を時刻毎に識別結果統合部143に出力する。なお、空間方向識別ネットワークDS0~DSNにより得られる画像が補間画像である確率を以下の式(9)で表すものとする。なお、空間方向識別ネットワークDS0~DSNは、時刻nに応じて別のパラメータを持つネットワークとしても、共通のパラメータを持つネットワークとしても良い。
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
 識別結果統合部143は、識別部142から出力された各確率を入力として、以下の式(10)を用いて統合して得られた値を、補間画像識別部14への入力画像に対する最終的な確率として出力する(ステップS106)。
Figure JPOXMLDOC01-appb-M000010
 なお、式(10)におけるW及びWsnは、事前に決定された重み付けのパラメータ(以下、「重みパラメータ」という。)である。
 更新部15は、識別ネットワークDに識別されにくく、かつ欠損画像に対応する非欠損画像から画素値が大きく離れない補間画像を得るように、補間ネットワークGのパラメータを更新する(ステップS107)。
 更新部15は、識別ネットワークDが補間画像と非欠損画像を識別するように、識別ネットワークDのパラメータを更新する(ステップS108)。
 なお、これらの更新処理は、例えば非特許文献1と同様に、生成ネットワーク更新処理を補間画像とそれに対応する非欠損画像の画素の二乗誤差および識別ネットワークとの敵対的学習により伝播される誤差、識別ネットワーク更新処理を識別ネットワークの出力する値と正解値との相互情報量に基づき行うとすると、下記のように目的関数Vの最適化として以下の式(11)のように定式化される。更新部15は、目的関数Vの最適化のため、補間ネットワークGと識別ネットワークDのパラメータを以下の式(11)に基づいて交互に更新する。
Figure JPOXMLDOC01-appb-M000011
 ここで、Xは教師データの画像群の分布を表し、L(x,M^)は上式(4)の通り、画像xと補間画像の画素の二乗誤差である。また、αは補間ネットワークの学習において画素の二乗誤差と識別ネットワークから伝播した誤差の重みを表すパラメータである。なお、各パラメータの更新においては、識別ネットワークの正答率により更新対象とするネットワークを学習の反復毎に変更する、識別ネットワークの中間層の二乗誤差の最小化を生成ネットワークの目的関数に含める等、任意の敵対的生成ネットワーク、およびニューラルネットワークの学習に関する従来技術を適用することができる。
 その後、画像生成装置100は、学習終了条件を満たすか否かを判定する(ステップS109)。学習の終了は、予め定義した反復回数分だけ実行されたことであってもよいし、誤差関数の推移により判定してもよい。学習終了条件を満たされた場合(ステップS109-YES)、画像生成装置100は図2の処理を終了する。
 一方、学習終了条件を満たされていない場合(ステップS109-NO)、画像生成装置100はステップS101以降の処理を繰り返し実行する。これにより、画像生成装置100は、補間ネットワークGの学習を行う。
 ここで、上記の学習処理によって学習された補間ネットワークGを用いて、動画像を入力すると補間された動画像を出力する補間画像生成装置について説明する。補間画像生成装置は、画像入力部と、欠損画像補間部とを備える。画像入力部は、外部から欠損画像を含む動画像を入力する。欠損画像補間部は、画像生成装置100における欠損画像補間部13と同様の構成であり、画像入力部を介して動画像を入力する。欠損画像補間部は、入力された動画像を補間することによって、補間された動画像を出力する。なお、補間画像生成装置は、単体の装置として構成されてもよいし、画像生成装置100内に設けられてもよい。
 以上のように構成された画像生成装置100は、識別ネットワークを時間方向のみから識別するネットワークと空間方向のみから識別するネットワークに分割することで、識別ネットワークの学習を意図的に難化させ、補間ネットワークGとの敵対的学習を行いやすくすることができる。特に、従来技術では、参照可能な領域の重み付き平均を出力するとして補間ネットワークGが学習されやすく、フレーム単位でのテクスチャが消失しやすいという課題があったのに対し、本発明のように空間方向識別ネットワークDS0~DSNを導入することにより、空間方向に整合性が取れる補間画像を出力する学習となるよう補間ネットワークGのパラメータを取得できる。その結果、テクスチャの消失を防止することができ、補間ネットワークGの補間精度を向上させることができる。そのため、動画像の補間を敵対的生成ネットワークの枠組みに適用した場合において、出力画像の品質の精度を向上させることが可能になる。
 <変形例>
 補間画像識別部14における空間方向識別ネットワークDS0~DSNは、時刻毎に別のネットワークとして示されているが、共通のネットワークを用いて入力から出力を各時刻で導出してもよい。
(第2の実施形態)
 第2の実施形態は、第1の実施形態と欠損画像補間処理、画像分割処理および識別結果統合処理が異なる。第1の実施形態では、図3に示されるように動画像を構成する全ての画像に欠損領域が存在することを前提としていた。しかしながら、動画像を構成する画像内の全ての領域が非欠損領域の画像(以下、「参照画像」という。)が存在する場合も想定される。そこで、第2の実施形態では、動画像を構成する画像に参照画像が含まれる場合の学習方法について説明する。
 図4は、第2の実施形態における画像生成装置100aの機能構成を表す概略ブロック図である。
 画像生成装置100aは、バスで接続されたCPUやメモリや補助記憶装置などを備え、学習プログラムを実行する。学習プログラムの実行によって、画像生成装置100aは、欠損領域マスク生成部11、欠損画像生成部12、欠損画像補間部13a、補間画像識別部14a、更新部15及び画像判別部16を備える装置として機能する。なお、画像生成装置100aの各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されてもよい。また、学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、学習プログラムは、電気通信回線を介して送受信されてもよい。
 画像生成装置100aは、欠損画像補間部13及び補間画像識別部14に代えて欠損画像補間部13a及び補間画像識別部14aを備える点、画像判別部16を新たに備える点で画像生成装置100と構成が異なる。画像生成装置100aは、他の構成については画像生成装置100と同様である。そのため、画像生成装置100a全体の説明は省略し、欠損画像補間部13a、補間画像識別部14a及び画像判別部16について説明する。
 画像判別部16は、非欠損画像及び参照画像情報を入力し、入力した参照画像情報に基づいて、動画像を構成する非欠損画像のうちいずれの非欠損画像を参照画像とするのかを判別する。参照画像情報は、参照画像とする非欠損画像を特定するための情報であり、例えば動画像を構成する非欠損画像のうち何番目の非欠損画像を参照画像とするのかを示す情報である。
 欠損画像補間部13aは、補間ネットワークG、すなわちGANにおける生成器により構成され、欠損画像における欠損領域を補間することによって補間画像を生成する。具体的には、欠損画像補間部13aは、欠損領域マスク生成部11によって生成された欠損領域マスクと、欠損画像生成部12によって生成された複数の欠損画像と、参照画像とに基づいて、欠損画像における欠損領域を補間することによって複数の補間画像を生成する。
 補間画像識別部14aは、画像分割部141a、識別部142a及び識別結果統合部143で構成される。画像分割部141aは、複数の補間画像及び参照画像を入力とし、入力された補間画像それぞれを補間領域の時系列画像と、各時刻の補間画像とに分割し、参照画像を補間領域の時系列画像にのみ分割する。このように、画像分割部141aは、参照画像については、時間方向識別ネットワークDにのみ参照画像を入力する。第2の実施形態における補間領域の時系列画像は、各補間画像及び参照画像から補間領域のみが抽出された静止画像をチャネル方向に結合したデータである。参照画像には補間領域は存在しないが、他の補間画像における補間領域が参照画像から抽出されて補間領域の時系列画像として用いられる。
 識別部142aは、時間方向識別ネットワークDと、空間方向識別ネットワークDS0~DSNにより構成される。時間方向識別ネットワークDは、補間領域の時系列画像及び参照画像の時系列画像を入力し、入力された画像が補間画像である確率を出力する。
空間方向識別ネットワークDS0~DSNは第1の実施形態における同名の機能部と同様の処理を行う。
 図5は、第2の実施形態における画像生成装置100aが行う学習処理の流れを示すフローチャートである。図2と同様の処理については図5において図2と同様の符号を付して説明を省略する。
 画像判別部16は、非欠損画像及び参照画像情報を入力し、入力した参照画像情報に基づいて、動画像を構成する非欠損画像のうちいずれの非欠損画像を参照画像とするのかを判別する(ステップS201)。ここでは、一例として、動画像を構成する非欠損画像のうち、時系列順で最古(最も過去)の非欠損画像と最新(最も未来)の非欠損画像が参照画像とする情報が参照画像情報に含まれていたとする。この場合、画像判別部16は、時系列順で最も過去の非欠損画像と最も未来の非欠損画像を参照画像として、欠損画像補間部13aに出力する。また、画像判別部16は、参照画像情報に含まれていなかった非欠損画像については欠損画像生成部12に出力する。これにより、欠損画像生成部12に出力された非欠損画像は、欠損画像として欠損画像補間部13aに入力される。ここで、一例として、動画像を構成する非欠損画像のうち、時系列順で最古の非欠損画像と最新の非欠損画像を用いた理由は、図6のような内挿の補間ネットワークGの構成で補間を有利に行いやすいためである。すなわち、補間する対象の画像を参照画像で時系列的に挟むためである。例えば、参照画像1→参照画像2→補間対象画像という時系列であれば、未来若しくは過去を予測した補間ということになってしまうため、時系列的に挟み込むことで補間精度の向上を図っている。
 欠損画像補間部13aに入力される画像は、図6に示すように、非欠損画像と欠損画像とが混在している。図6は、第2の実施形態における画像生成装置が行う欠損画像補間処理、画像分割処理及び識別処理の具体例を示す図である。欠損画像補間部13aは、欠損領域マスクM^と、複数の欠損画像と、参照画像とを入力し、入力した欠損領域マスクM^と、複数の欠損画像と、参照画像とに基づいて、過去と未来の参照画像から中間時刻の欠損画像の欠損領域を生成する補間ネットワークを構築し、補間ネットワークを再帰的に適用することで欠損画像補間処理を実現する(ステップS202)。このとき、各補間ネットワークのパラメータは共通のものを用いても、異なるものを用いても良い。欠損画像補間部13aは、生成した複数の補間画像を及び参照画像を画像分割部141aに出力する。
 画像分割部141aは、欠損画像補間部13aから出力された複数の補間画像及び参照画像を用いて画像分割処理を行う(ステップS203)。具体的には、画像分割部141aは、複数の補間画像を識別部142aが有する識別ネットワークの入力単位に分割する。そして、画像分割部141aは、複数の補間画像及び参照画像を入力として、補間領域の時系列画像、各時刻の補間画像を各識別ネットワークに出力する。第2の実施形態では、時間方向識別ネットワークDで出力される補間領域の時系列画像に、参照画像で補間領域に対応する領域も含めるものとする。また、空間方向識別ネットワークDS0~DSNに入力される各時刻の画像は参照画像を含まない、すなわちn=1,2,…,N-2である。
 例えば、画像分割部141aは、図6に示すように、補間領域の時系列画像を時間方向識別ネットワークDに出力し、時刻1の補間画像を空間方向識別ネットワークDS1に出力し、時刻2の補間画像を空間方向識別ネットワークDS2に出力し、時刻N-2の補間画像を空間方向識別ネットワークDSN-2に出力する。図6に示すように、時間方向識別ネットワークDにのみ、参照画像の一部の画像が出力される。すなわち、時間方向識別ネットワークDは、参照画像及び補間画像における補間領域の時系列画像を用いて、入力された画像が補間画像である確率を識別結果統合部143に出力する。
 識別結果統合部143は、識別部142aから出力された各確率を入力として、以下の式(12)を用いて統合して得られた値を、補間画像識別部14aへの入力画像に対する最終的な確率として出力する(ステップS204)。
Figure JPOXMLDOC01-appb-M000012
 その後、学習終了条件を満たされるまで学習がなされることによって、画像生成装置100aは、補間ネットワークGの学習を行う。次に、上記の学習処理によって学習された補間ネットワークGを用いて、動画像を入力すると補間された動画像を出力する補間画像生成装置について説明する。補間画像生成装置は、画像入力部と、欠損画像補間部とを備える。画像入力部は、外部から欠損画像を含む動画像を入力する。欠損画像補間部は、画像生成装置100における欠損画像補間部13aと同様の構成であり、画像入力部を介して動画像を入力する。欠損画像補間部は、入力された動画像を補間することによって、補間された動画像を出力する。なお、補間画像生成装置は、単体の装置として構成されてもよいし、画像生成装置100a内に設けられてもよい。
 以上のように構成された画像生成装置100aは、非欠損画像を参照画像として学習に用いる構成とし、非欠損画像を学習に用いる場合には時間方向識別ネットワークDにのみ参照画像を入力している。従来技術の拡張では、参照画像が存在する場合、参照画像の重み付き和を補間ネットワークが出力することで空間方向のテクスチャの消失が生じやすくなるのに対して、本発明では参照画像が時間方向の整合性の識別にしか適用されないため、テクスチャの消失が発生しにくくなる。したがって、補間ネットワークGの補間精度を向上させることができる。そのため、動画像の補間を敵対的生成ネットワークの枠組みに適用した場合において、出力画像の品質の精度を向上させることが可能になる。
<変形例>
 上記では過去の1フレームと未来の1フレームを参照画像として用いる構成を示したが、参照画像の与え方はこれに限るものではない。すなわち、例えば過去の複数枚の非欠損画像が参照画像であってもよいし、動画像を構成する画像のうち中間時刻の非欠損画像が参照画像であってもよい。
(第3の実施形態)
 第3の実施形態では、画像生成装置100が、補間ネットワーク更新処理及び識別ネットワーク更新処理における重みパラメータを変更する。
 図7は、第3の実施形態における画像生成装置100bの機能構成を表す概略ブロック図である。
 画像生成装置100bは、バスで接続されたCPUやメモリや補助記憶装置などを備え、学習プログラムを実行する。学習プログラムの実行によって、画像生成装置100bは、欠損領域マスク生成部11、欠損画像生成部12、欠損画像補間部13、補間画像識別部14b、更新部15及び重みパラメータ決定部17を備える装置として機能する。なお、画像生成装置100bの各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されてもよい。また、学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、学習プログラムは、電気通信回線を介して送受信されてもよい。
 画像生成装置100bは、補間画像識別部14に代えて補間画像識別部14bを備える点、重みパラメータ決定部17を新たに備える点で画像生成装置100と構成が異なる。
画像生成装置100bは、他の構成については画像生成装置100と同様である。そのため、画像生成装置100b全体の説明は省略し、補間画像識別部14b及び重みパラメータ決定部17について説明する。
 重みパラメータ決定部17は、各識別ネットワークへ入力された画像が補間画像である確率を入力とし、学習時に用いられる重みパラメータを決定する。具体的には、重みパラメータ決定部17は、識別部142によって得られた各識別ネットワーク(時間方向識別ネットワークD及び空間方向識別ネットワークDS0~DSN)へ入力された画像が補間画像である確率を用いて各識別ネットワークの正答率を算出し、算出した各識別ネットワークの正答率に基づいて学習時に用いられる重みパラメータを決定する。
 補間画像識別部14bは、画像分割部141、識別部142及び識別結果統合部143bで構成される。識別結果統合部143bは、識別部142から出力された各確率を入力として、補間画像識別部14bへ入力された画像が補間画像である確率を出力する。この際、補間画像識別部14bは、補間画像識別部14bへ入力された画像が補間画像である確率を算出する。ここで、重みパラメータは、重みパラメータ決定部17によって得られた重みパラメータを用いてもよい。なお、正答率が低い識別ネットワークDが重くなる重みをつける場合、識別ネットワークDの識別が不利になるため、統合の際は重みを逆転させるか、固定値を用いる必要がある。
 図8は、第3の実施形態における画像生成装置100bが行う学習処理の流れを示すフローチャートである。図2と同様の処理については図8において図2と同様の符号を付して説明を省略する。
 重みパラメータ決定部17は、領域別識別処理の結果得られた各ネットワークへの入力が補間画像である確率を用いて、各識別ネットワークの正答率を算出する。正答率の導出には、過去の学習の反復で導出された正答率を踏まえても良い。導出された正答率に基づき、補間ネットワーク更新処理、識別ネットワーク更新処理のいずれかまたは両方で適用する重みパラメータを決定する(ステップS301)。例えば、重みパラメータ決定部17は、補間ネットワークGの学習を促進する場合には正答率が高い識別ネットワークに対応する重みパラメータの値が相対的に大きくなるように重みパラメータを決定し、識別ネットワークの学習を促進する場合には正答率が低い識別ネットワークに対応する重みパラメータの値を相対的に大きくなるように重みパラメータを決定する。このように、重みパラメータ決定部17は、学習を促進させる対象によって、重みパラメータを決定する対象が異なる。
 更新部15は、識別ネットワークDに識別されにくく、かつ欠損画像に対応する非欠損画像から画素値が大きく離れない補間画像を得るように、補間ネットワークGのパラメータを更新する(ステップS302)。例えば、更新部15は、補間ネットワークの学習を促進する場合は、正答率が高い識別ネットワークに対応する重みパラメータの値を相対的に大きくして、補間ネットワーク更新処理を実施する。具体的には、図3のような第1の実施形態を想定する場合、時間方向識別ネットワークD及び空間方向識別ネットワークDS0~DSNの正答率がそれぞれa及びaSNで表されるとき、更新部15は以下の式(13)として補間ネットワーク更新処理を実施する。
Figure JPOXMLDOC01-appb-M000013
 更新部15は、識別ネットワークDが補間画像と非欠損画像を識別するように、識別ネットワークDのパラメータを更新する(ステップS303)。例えば、更新部15は、識別ネットワークの学習を促進する場合は、正答率が低い識別ネットワークに対応する重みパラメータの値を相対的に大きくして、識別ネットワーク更新処理を実施する。具体的には、図3のような第1の実施形態を想定する場合、時間方向識別ネットワークD及び空間方向識別ネットワークDS0~DSNの正答率がそれぞれa及びaSNで表されるとき、更新部15は以下の式(14)として補間ネットワーク更新処理を実施する。なお、本処理の適用対象とするネットワークは、例えば各ネットワークの誤差関数の値に基づいて決定すれば良い。
Figure JPOXMLDOC01-appb-M000014
 以上のように構成された画像生成装置100bは、分割された各識別ネットワークの教師データに対する正答率を考慮することにより、補間ネットワークが苦手としている領域、若しくは識別ネットワークが得意としている領域を抽出することができる。この情報を用いて、補間ネットワーク更新処理、若しくは識別ネットワーク更新処理における更新時の重みパラメータを制御することにより、補間ネットワーク若しくは識別ネットワークの学習を意図的に有利に進めることが可能となる。その結果、制御方法により学習を安定化させることができる。
 以下、各実施形態に共通する変形例について説明する。
 上記の各実施形態では、学習に用いる画像として欠損画像を例に説明したが、学習に用いる画像は欠損画像に限られない。例えば、学習に用いる画像は、アップコンバートされた画像であってもよい。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
11…欠損領域マスク生成部, 12…欠損画像生成部, 13、13a…欠損画像補間部, 14、14a、14b…補間画像識別部, 15…更新部, 16…画像判別部, 17…重みパラメータ決定部,100、100a、100b…画像生成装置, 141、141a…画像分割部, 142、142a…識別部, 143、143b…識別結果統合部

Claims (7)

  1.  複数のフレームで構成される動画像から、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間部と、
     入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別部と、
     を備え、
     前記識別部は、
     入力された前記複数のフレームを時間的に識別する時間方向識別部と、
     入力された前記複数のフレームを空間的に識別する空間方向識別部と、
     前記時間方向識別部と、前記空間方向識別部との識別結果を統合する統合部とで構成される、生成装置。
  2.  前記時間方向識別部は、入力された前記複数のフレームの補間領域のみが抽出されたフレームの時系列データを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力し、
     前記空間方向識別部は、入力された各時刻の入力されたフレームを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力する、請求項1に記載の生成装置。
  3.  入力された前記複数のフレームに、フレーム内の一部又は全ての領域が補間されていない参照フレームが含まれる場合、
     前記時間方向識別部は、前記参照フレームと、前記補間フレームとを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力し、
     前記空間方向識別部は、入力された各時刻の前記複数のフレームのうち補間フレームを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力する、請求項1に記載の生成装置。
  4.  前記参照フレームは、第1の参照フレーム及び第2の参照フレームの2枚であり、
     入力された前記複数のフレームは、少なくとも前記第1の参照フレーム、前記補間フレーム、第2の参照フレームの時系列順になっている、請求項3に記載の生成装置。
  5.  前記識別部は、前記空間方向識別部と前記時間方向識別部が識別を行った結果の正答率に基づいて、前記空間方向識別部と前記時間方向識別部との重み付けに用いるパラメータを更新する、請求項1から4のいずれか一項に記載の生成装置。
  6.  請求項1から請求項5のいずれか一項に記載の生成装置によって学習された補間部を備え、
     前記補間部は、動画像が入力されると、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する生成装置。
  7.  複数のフレームで構成される動画像から、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間ステップと、
     入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別ステップと、
     をコンピュータに実行させ、
     前記識別ステップにおいて、
     入力された前記複数のフレームを時間的に識別し、
     入力された前記複数のフレームを空間的に識別し、
     前記識別ステップにおける識別結果を統合する、コンピュータプログラム。
PCT/JP2020/003955 2019-02-19 2020-02-03 生成装置及びコンピュータプログラム WO2020170785A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/431,678 US20220122297A1 (en) 2019-02-19 2020-02-03 Generation apparatus and computer program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-027405 2019-02-19
JP2019027405A JP7161107B2 (ja) 2019-02-19 2019-02-19 生成装置及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2020170785A1 true WO2020170785A1 (ja) 2020-08-27

Family

ID=72143932

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/003955 WO2020170785A1 (ja) 2019-02-19 2020-02-03 生成装置及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US20220122297A1 (ja)
JP (1) JP7161107B2 (ja)
WO (1) WO2020170785A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220114259A1 (en) * 2020-10-13 2022-04-14 International Business Machines Corporation Adversarial interpolation backdoor detection

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220092407A1 (en) * 2020-09-23 2022-03-24 International Business Machines Corporation Transfer learning with machine learning systems
US12010335B2 (en) 2021-04-08 2024-06-11 Disney Enterprises, Inc. Microdosing for low bitrate video compression
US20220329876A1 (en) * 2021-04-08 2022-10-13 Disney Enterprises, Inc. Machine Learning Model-Based Video Compression

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IIZUKA, SATOSHI ET AL.: "Globally and Locally Consistent Image Completion", ACM TRANSACYIONS ON GRAPHICS, vol. 36, no. 4, July 2017 (2017-07-01), XP058372881, DOI: 10.1145/3072959.3073659 *
MATSUDA, YUYA ET AL.: "Non-official translation: Basic study of conditionally generated NN for image inpainting", PCSJ /IMPS 2016, 16 November 2016 (2016-11-16), pages 26 - 27 *
ORIHASHI, SHOTA ET AL.: "Image coding based on completion using generative adversarial networks", IEICE TECHNICAL REPORT, vol. 118, no. 113, 22 June 2018 (2018-06-22), pages 33 - 38 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220114259A1 (en) * 2020-10-13 2022-04-14 International Business Machines Corporation Adversarial interpolation backdoor detection
US12019747B2 (en) * 2020-10-13 2024-06-25 International Business Machines Corporation Adversarial interpolation backdoor detection

Also Published As

Publication number Publication date
JP2020136884A (ja) 2020-08-31
US20220122297A1 (en) 2022-04-21
JP7161107B2 (ja) 2022-10-26

Similar Documents

Publication Publication Date Title
WO2020170785A1 (ja) 生成装置及びコンピュータプログラム
US20210279840A1 (en) Systems and methods for multi-frame video frame interpolation
CN111652899B (zh) 一种时空部件图的视频目标分割方法
JP4155952B2 (ja) パターン分析に基づく動きベクトル補正装置及びその方法
JPH08205194A (ja) 動き補償フレーム間予測装置
CN109740563B (zh) 一种面向视频监控的运动目标检测方法
JP2009509418A (ja) 時間予測のための分類フィルタリング
CN109191498B (zh) 基于动态记忆和运动感知的目标检测方法及***
JP2010154264A (ja) 画像復号装置及び画像符号化装置
US8391626B2 (en) Learning of coefficients for motion deblurring by pixel classification and constraint condition weight computation
CN111898482A (zh) 基于渐进型生成对抗网络的人脸预测方法
CN115587924A (zh) 一种基于循环生成对抗网络的自适应掩膜引导的图像模态转换方法
JP2798120B2 (ja) 動き補償フレーム間予測方法及び動き補償フレーム間予測装置
JP2020014042A (ja) 画質評価装置、学習装置及びプログラム
US10382711B2 (en) Method and device for processing graph-based signal using geometric primitives
CN111275751A (zh) 一种无监督绝对尺度计算方法及***
WO2022124026A1 (ja) 学習済モデルの生成方法および情報処理装置
JP5376049B2 (ja) イントラ予測処理方法、及びイントラ予測処理プログラム
KR102298175B1 (ko) 딥러닝기반의 영상 아웃페인팅 장치 및 그 방법
Yan et al. A noisy chaotic neural network approach to image denoising
JP6985609B2 (ja) 符号化装置、画像補間システム及び符号化プログラム
WO2021084738A1 (ja) データ生成方法、データ生成装置及びプログラム
JPH0983961A (ja) クラス予測係数の学習方法並びにクラス分類適応処理を用いた信号変換装置および方法
WO2022181367A1 (ja) 情報処理装置、情報処理方法及び記録媒体
JPWO2022180683A5 (ja)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20758786

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20758786

Country of ref document: EP

Kind code of ref document: A1