WO2021095245A1 - 画像処理方法、データ処理方法、画像処理装置、およびプログラム - Google Patents

画像処理方法、データ処理方法、画像処理装置、およびプログラム Download PDF

Info

Publication number
WO2021095245A1
WO2021095245A1 PCT/JP2019/044909 JP2019044909W WO2021095245A1 WO 2021095245 A1 WO2021095245 A1 WO 2021095245A1 JP 2019044909 W JP2019044909 W JP 2019044909W WO 2021095245 A1 WO2021095245 A1 WO 2021095245A1
Authority
WO
WIPO (PCT)
Prior art keywords
order
layer
unit
neural network
output values
Prior art date
Application number
PCT/JP2019/044909
Other languages
English (en)
French (fr)
Inventor
聡志 鈴木
基宏 高木
隆一 谷田
真由子 渡邊
木全 英明
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/773,952 priority Critical patent/US20220375033A1/en
Priority to JP2021555757A priority patent/JP7356052B2/ja
Priority to PCT/JP2019/044909 priority patent/WO2021095245A1/ja
Publication of WO2021095245A1 publication Critical patent/WO2021095245A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/88Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving rearrangement of data among different coding units, e.g. shuffling, interleaving, scrambling or permutation of pixel data or permutation of transform coefficient data among different blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field

Definitions

  • the present invention relates to an image processing method, a data processing method, an image processing device, and a program.
  • CNN convolutional neural network
  • Collaborative Intelligence is an approach that distributes the computational load between the edge and the cloud.
  • the edge device performs image processing by CNN halfway, and transmits the intermediate output (deep layer feature) of CNN as a result. Then, the cloud server side performs the remaining processing.
  • This Collaborative Intelligence has been shown to have the potential to surpass the cloud approach and edge approach in terms of power and latency (see Non-Patent Document 1).
  • the present invention relates to a coding technique for compressing deep features in Collaborative Intelligence. That is, it is desired that the coding technique targeted by the present invention is based on the image processing accuracy when the deep layer feature is compressed, and maintains the accuracy even when compressed.
  • the first is a method in which deep features are arranged for each channel and compressed as an image.
  • the second is a method in which each channel is regarded as one frame and a set of a plurality of frames is compressed as a moving image.
  • a compression method H. It is common to use a moving image compression method such as 265 / HEVC (see Non-Patent Document 2) (see Non-Patent Document 3).
  • One of the problems of the present invention is to improve the compression rate when the method of compressing as a moving image is used.
  • a method of rearranging the coding order of frames can be considered. For example, it is conceivable to use a method of reducing the MSE between adjacent frames by using the mean square error (MSE) between two arbitrary frames as an index. If this method is used, it is expected that the correlation between adjacent frames will increase in the deep features after sorting, and the prediction efficiency of interframe prediction will increase. However, since the deep features are generated for each input image, the optimum sorting order must be calculated for each input image, and there is a concern that the amount of calculation will increase significantly. Further, since the sort order is not fixed, in order to restore the sort order on the receiving side, in addition to the deep features, the sort order must be transmitted at the same time each time. In other words, there is also the problem that the overhead cannot be ignored.
  • MSE mean square error
  • the present invention provides an image processing method, a data processing method, an image processing apparatus, and a program that do not require a determination of a rearrangement order each time a deep feature is compressed and transmitted. ..
  • an image for inference is input from an input layer of a neural network, forward propagation is performed in the neural network, and an intermediate layer which is a predetermined layer other than the output layer of the neural network is used.
  • the intermediate output values arranged in the first order are the intermediate output values arranged in the first order based on a predetermined sort order from the first order to the second order so that the total similarity of the intermediate output values is larger.
  • the step of rearranging in the second order and the intermediate output values regarded as frames, and the plurality of the intermediate output values rearranged in the second order are compressed by using a compression coding method based on the correlation between frames. It is an image processing method having a step of converting.
  • data to be processed is input from an input layer of a neural network, forward propagation is performed in the neural network, and neurons in an intermediate layer which is a predetermined layer other than the output layer of the neural network.
  • the intermediate outputs adjacent to each other in the second order are the second.
  • the step of rearranging in order and the intermediate output values are regarded as frames, and the plurality of intermediate output values sorted in the second order are compressed and coded using a compression coding method based on the correlation between frames. It is a data processing method having steps and.
  • an image for inference is input from the input layer of the neural network, forward propagation is performed in the neural network, and neurons in an intermediate layer which is a predetermined layer other than the output layer of the neural network.
  • the deep feature generator that outputs the output values of the above as intermediate output values arranged in the predetermined first order and the intermediate output values that are adjacent to each other in the first order are adjacent to each other in the second order rather than the total degree of similarity.
  • the intermediate output values arranged in the first order are based on a predetermined sort order from the first order to the second order so that the total similarity of the matching intermediate output values is greater.
  • the sorting unit that sorts in the second order and the plurality of intermediate output values sorted in the second order are regarded as frames, and the plurality of intermediate output values sorted in the second order are compressed and coded based on the correlation between the frames. It is an image processing apparatus including a coding unit for compression coding.
  • an image for inference is input from the input layer of the neural network, forward propagation is performed in the neural network, and neurons in an intermediate layer which is a predetermined layer other than the output layer of the neural network.
  • the deep feature generator that outputs the output values of the above as intermediate output values arranged in the predetermined first order and the intermediate output values that are adjacent to each other in the first order are adjacent to each other in the second order rather than the total degree of similarity.
  • the intermediate output values arranged in the first order are based on a predetermined sort order from the first order to the second order so that the total similarity of the matching intermediate output values is greater.
  • the sorting unit that sorts in the second order and the plurality of intermediate output values sorted in the second order are regarded as frames, and the plurality of intermediate output values sorted in the second order are compressed and coded based on the correlation between the frames. It is a program for operating a computer as an image processing device including a coding unit for compression coding.
  • image processing using a multi-layer neural network is performed.
  • the multi-layer neural network used for image processing is typically a convolutional neural network (CNN).
  • FIG. 1 is a block diagram showing an outline of the overall functional configuration of the present embodiment.
  • the image processing system 1 of the present embodiment includes an image acquisition unit 10, a deep feature generation unit 20, a rearrangement unit 30, an image transmission unit 40, a rearrangement unit 50, and a cloud image processing unit. It has a configuration including 60, a model parameter storage unit 70, and a pre-learning unit 80.
  • Each of these functional units can be realized by, for example, a computer and a program.
  • each functional unit has a storage means, if necessary.
  • the storage means is, for example, a variable on the program or a memory allocated by executing the program.
  • a non-volatile storage means such as a magnetic hard disk device or a solid state drive (SSD) may be used. Further, at least a part of the functions of each functional unit may be realized not as a program but as a dedicated electronic circuit.
  • the sorting order estimated by the pre-learning unit 80 by learning is used at the time of inference (at the time of image processing). That is, in the configuration of FIG. 1, the timing at which the pre-learning unit 80 operates and the timing at which the other parts in the image processing system 1 operate are different.
  • the functions of each part are as follows.
  • the pre-learning unit 80 determines the order in which the sorting unit 30 rearranges the frames based on the learning data.
  • the rearrangement unit 50 performs the reverse processing of the rearrangement processing of the sorting unit 30. Therefore, the sort order determined by the pre-learning unit 80 is also passed to the rearrangement unit 50 and used.
  • the pre-learning unit 80 includes a similarity estimation unit 81 and a sorting order determination unit 82.
  • the pre-learning unit 80 acquires a rearrangement order in which predetermined features existing at predetermined positions in the frame are arranged in a predetermined order (absolute order).
  • the predetermined order is, for example, the order in which the similarity between adjacent frames is maximized.
  • the order determined by the pre-learning unit 80 is shared by the transmitting side device 2 (FIG. 2) and the receiving side device 3 (FIG. 2).
  • the output of neurons in the middle layer is a value that reflects the position and characteristics in the input image.
  • the similarity estimation unit 81 estimates and outputs the similarity between channels in the deep features output by the deep feature generation unit 20. Therefore, the similarity estimation unit 81 acquires the model parameters from the model parameter storage unit 70. By acquiring the model parameters, the similarity estimation unit 81 can perform processing equivalent to the neural network of the deep feature generation unit 20 and the cloud image processing unit 60, respectively.
  • the deep feature generation unit 20 and the cloud image processing unit 60 correspond to the first half portion (upstream portion) and the second half portion (downstream portion) of the multilayer neural network, respectively. That is, the entire multi-layer neural network is divided into a first half portion and a second half portion in a certain hierarchy.
  • the similarity estimation unit 81 estimates the similarity between channels with respect to the output in the hierarchy of the division points.
  • the similarity estimation unit 81 uses learning data for machine learning to estimate the similarity between the channels.
  • This learning data is a set of pairs of an image input to the deep feature generation unit 20 and a correct output label output for the image.
  • the similarity estimation unit 81 provides a network-in-network (NIN) at the subsequent stage of the layer which is the output from the deep feature generation unit 20.
  • the similarity estimation unit 81 performs machine learning processing using the multi-layer neural network into which the NIN is introduced and the above-mentioned learning data.
  • the similarity estimation unit 81 estimates the similarity between channels based on the weight of each channel obtained as a result of the machine learning process.
  • deep features and channels will be described.
  • Deep features are intended for the output of all neurons located in the desired middle layer.
  • it is all the outputs of the mth layer.
  • a channel is intended for the output of each neuron located in the desired middle layer.
  • the output value for each neuron is regarded as a frame and an image coding method such as HEVC is applied.
  • the output (channel image) of neurons having 2 or more and less than the desired number of neurons in the intermediate layer is regarded as one frame.
  • the output in the image form is used as a frame.
  • the similarity estimation unit 81 outputs the estimated similarity.
  • the sort order determination unit 82 acquires the similarity estimated by the similarity estimation unit 81.
  • the sort order determination unit 82 determines the sort order based on the acquired similarity between the two channels.
  • the sort order determined by the sort order determination unit 82 is an order adjusted so that when the sort unit 30 rearranges the frames, the total degree of similarity between adjacent frames becomes as large as possible.
  • the rearrangement order is different from that obtained as a result of connecting a neural network different from the neural network to the subsequent stage of the intermediate layer (corresponding to the mth layer 22 in FIG. 2) and performing the learning process using the learning data. It is predetermined based on the weight of the neural network.
  • This "different neural network” is the above NIN. That is, the “different neural network” performs 1 ⁇ 1 convolution processing.
  • the image acquisition unit 10 acquires an image (inference image) to be image-processed and passes it to the deep feature generation unit 20. For example, the image acquisition unit 10 acquires the captured image as an inference image.
  • the deep feature generation unit 20 inputs an image for inference from the input layer of the neural network (corresponding to the first layer 21 in FIG. 2), performs forward propagation in the neural network, and is not an output layer of the neural network. From the intermediate layer (corresponding to the mth layer 22 in FIG. 2), each of which is a plurality of frame images including a channel image, and a plurality of frame images arranged in a predetermined first order are used as intermediate output values. Output.
  • the deep feature generation unit 20 inputs an image for inference from the input layer of the neural network, performs forward propagation in the neural network, and performs forward propagation in the intermediate layer which is a predetermined layer other than the output layer of the neural network.
  • the output value of the neuron is output as an intermediate output value (which can be regarded as a frame image) arranged in a predetermined first order.
  • the first order may be any order.
  • the deep feature generation unit 20 acquires the model parameters of the multi-layer neural network model from the model parameter storage unit 70.
  • the model parameter is a weight parameter when calculating the output value from the input value in each node constituting the multi-layer neural network.
  • the deep feature generation unit 20 performs conversion based on the above parameters on the inference image acquired from the image acquisition unit 10.
  • the deep feature generation unit 20 performs forward propagation processing (forward propagation) up to a predetermined layer (output layer as the deep feature generation unit 20) in the multi-layer neural network.
  • the deep layer feature generation unit 20 outputs the output from the layer (intermediate output in the multi-layer neural network) as a deep layer feature.
  • the deep feature generation unit 20 passes the obtained deep feature to the sorting unit 30.
  • the sorting unit 30 makes the total similarity between adjacent frame images in the second order larger than the total similarity between adjacent frame images in the first order. Based on the predetermined sort order from the order to the second order, the frame images arranged in the first order are sorted into the frame images in the second order. In other words, the sort unit 30 makes the total similarity of the intermediate output values adjacent to each other in the second order larger than the total similarity of the intermediate output values adjacent to each other in the first order. Based on the predetermined sort order from the first order to the second order, the intermediate output values arranged in the first order are sorted into the second order. This sort order is determined by the sort order determination unit 82, and a specific determination method thereof will be described later.
  • the sorting unit 30 rearranges the order of the frames of the deep features passed from the deep feature generation unit 20 according to the sorting order acquired from the sorting order determining unit 82.
  • the sorting order determination unit 82 determines the sorting order so that the total degree of similarity between adjacent frames after sorting is as large as possible. Therefore, it is expected that the total degree of similarity between adjacent frames will be maximized or as large as possible in a plurality of frames in the order after the sorting unit 30 has rearranged. In other words, it minimizes the total difference between adjacent frames.
  • the sorting unit 30 passes the sorted deep features as described above to the coding unit 41 in the image transmission unit 40.
  • the image transmission unit 40 transmits a plurality of frame images output from the sorting unit 30 and passes them to the rearranging unit 50.
  • the image transmission unit 40 includes a coding unit 41 and a decoding unit 42. It is assumed that the coding unit 41 and the decoding unit 42 are located far from each other. Information is transmitted from the coding unit 41 to the decoding unit 42, for example, via a communication network. In such a case, a transmission unit that transmits the coded data (bit stream) that is the output of the coding unit and a receiving unit that receives the transmitted coded data should be prepared.
  • the coding unit 41 compresses and encodes the plurality of the frame images rearranged in the second order by using a compression coding method based on the correlation between the frames.
  • the coding unit 41 regards the intermediate output value as a frame, and compresses the plurality of the intermediate output values rearranged in the second order by using a compression coding method based on the correlation between the frames. To be.
  • the coding unit 41 acquires the sorted deep features from the sorting unit 30.
  • the coding unit 41 encodes the rearranged deep features.
  • the coding unit 41 uses a method of interframe predictive coding (interframe predictive coding) when performing coding. In other words, the coding unit 41 performs information compression coding using the similarity between adjacent frames.
  • interframe predictive coding interframe predictive coding
  • existing technology may be used.
  • HEVC also called High Efficiency Video Coding
  • H.I. 264 / AVC AVC is an abbreviation for Advanced Video Coding
  • the sorting unit 30 sorts a plurality of frame images included in the deep feature so that the total degree of similarity between adjacent frame images is maximized or as large as possible. Therefore, when the coding unit 41 compresses and encodes, it is expected that the effect of interframe prediction coding can be greatly obtained. In other words, it is expected that a good compression ratio can be obtained by compression coding by the coding unit 41.
  • the coding unit 41 outputs a bit stream that is the result of coding.
  • the bit stream output by the coding unit 41 is transmitted to the decoding unit 42 by a communication means (not shown), that is, by, for example, a wireless or wired transmission / reception device.
  • the decoding unit 42 receives the bit stream transmitted from the encoding unit 41 and decodes the bit stream.
  • the decoding process itself corresponds to the coding method used by the coding unit 41.
  • the decoding unit 42 passes the deep feature obtained as a result of decoding (which may be referred to as “decoding deep layer feature”) to the rearrangement unit 50.
  • the rearrangement unit 50 acquires the decoding deep layer feature from the decoding unit 42, and returns the order of the frame images included in the decoding deep layer feature to the original order. That is, the rearrangement unit 50 rearranges the order of the frame images to the order before the rearrangement unit 30 rearranges them. At the time of this processing, the rearrangement unit 50 refers to the sort order passed from the sort order determination unit 82. The rearrangement unit 50 passes the rearranged deep features to the cloud image processing unit 60.
  • the cloud image processing unit 60 processes the multi-layer neural network together with the deep feature generation unit 20.
  • the cloud image processing unit 60 processes the portion of the multi-layer neural network after the output layer of the deep feature generation unit 20 (that is, downstream).
  • the cloud image processing unit 60 executes forward propagation processing (forward propagation) following the processing performed by the deep feature generation unit 20.
  • the cloud image processing unit 60 acquires the parameters of the multi-layer neural network from the model parameter storage unit 70.
  • the cloud image processing unit 60 inputs the rearranged deep layer features passed from the realignment unit 50, performs image processing based on the above parameters, and outputs the result of the image processing.
  • FIG. 2 is a block diagram showing a functional configuration of a part of the image processing system 1 described with reference to FIG.
  • the image processing system 1 can be configured to include a transmitting side device 2 and a receiving side device 3.
  • Each of the transmitting side device 2 and the receiving side device 3 may be referred to as an "image processing device".
  • the transmitting side device 2 includes a deep feature generation unit 20, a rearrangement unit 30, and a coding unit 41.
  • the receiving device 3 includes a decoding unit 42, a rearrangement unit 50, and a cloud image processing unit 60.
  • the functions of the deep feature generation unit 20, the sorting unit 30, the coding unit 41, the decoding unit 42, the rearrangement unit 50, and the cloud image processing unit 60 have already been described with reference to FIG. It's a street.
  • the description of the model parameter storage unit 70 and the pre-learning unit 80 is omitted.
  • the deep feature generation unit 20 internally includes a multi-layer neural network from the first layer 21 to the mth layer 22 (the middle layer is omitted in the figure).
  • the cloud image processing unit 60 internally includes a multi-layer neural network from the (m + 1) layer 61 to the Nth layer 62 (layers in the middle are omitted in the figure). In addition, 1 ⁇ m ⁇ (N-1).
  • the first layer 21 is an input layer of the entire multi-layer neural network.
  • the Nth layer 62 is an output layer of the entire multi-layer neural network.
  • the second layer to the (N-1) layer are intermediate layers.
  • the m-th layer 22 on the deep feature generation unit 20 side and the (m + 1) th layer 61 on the cloud image processing unit 60 side are logically the same layer. In this way, one multi-layer neural network is distributed and constructed on the deep feature generation unit 20 side and the cloud image processing unit 60 side.
  • the transmitting side device 2 and the receiving side device 3 can be realized as separate housings.
  • the transmitting side device 2 and the receiving side device 3 may be provided at remote locations from each other.
  • the image processing system 1 may be configured by a large number of transmitting side devices 2 and one or a small number of receiving side devices 3.
  • the transmitting side device 2 may be a terminal device having a photographing function, such as a smartphone.
  • the transmitting side device 2 may also be, for example, a communication terminal device to which an imaging device is connected.
  • the receiving side device 3 may be realized by using a so-called cloud server.
  • the communication band between the transmitting side device 2 and the receiving side device 3 is narrower than the communication band between other components in the image processing system 1. In such a case, improving the data compression rate during communication between the coding unit 41 and the decoding unit 42 is strongly necessary for improving the performance of the entire image processing system 1. desired.
  • the configuration of this embodiment increases the compression rate of the data transmitted between the coding unit 41 and the decoding unit 42.
  • FIG. 3 is a flowchart for explaining the overall operation procedure of the pre-learning unit 80 among the deep feature compression methods according to the present embodiment.
  • the processing procedure by the pre-learning unit 80 will be described with reference to this flowchart.
  • step S51 the similarity estimation unit 81 acquires the model parameters of the multi-layer neural network from the model parameter storage unit 70.
  • the similarity estimation unit 81 has a configuration in which a network in network (NIN) is provided after the output layer (m layer 22) of the neural network in the deep feature generation unit 20 of FIG. , Perform learning process.
  • the similarity estimation unit 81 estimates the similarity between frame images based on the weight of NIN which is the result of this learning process.
  • the sort order determination unit 82 determines the frame sort order based on the similarity between the frames estimated in step S52.
  • the sort order is an order that enhances the overall inter-frame correlation (total similarity between adjacent frames).
  • the sort order determination unit 82 notifies the sort unit 30 and the rearrangement unit 50 of the determined sort order.
  • FIG. 4 is a flowchart for explaining the operation procedure of the similarity estimation unit 81 of the present embodiment in more detail.
  • the operation of the similarity estimation unit 81 will be described with reference to this flowchart.
  • step S101 the similarity estimation unit 81 acquires the parameters of the multi-layer neural network from the model parameter storage unit 70.
  • the similarity estimation unit 81 has another layer after a predetermined layer (third layer 22 shown in FIG. 2) in the multi-layer neural network determined by the parameters obtained in step S101. Add a hierarchy.
  • This other layer is a layer corresponding to Network In Network (NIN).
  • NIN is a filtering process corresponding to 1 ⁇ 1 convolution.
  • NIN is known to give a large weight to filters that extract similar features (see also Non-Patent Document 4).
  • NIN can output a plurality of channel images, and the number of channels can be set arbitrarily. It is assumed that the number of channels is, for example, about the same as the number of layers to be divided (here, m). However, the number of output channels does not necessarily have to be the same as the number of such layers, and the same effect is obtained in that case as well.
  • the similarity estimation unit 81 may randomly initialize the above NIN architecture from a Gaussian distribution or the like.
  • step S103 the similarity estimation unit 81 performs machine learning after the NIN architecture unit added in step S102.
  • the similarity estimation unit 81 does not change the weight of the multi-layer network in the layers before the divided layers (that is, the layers from the first layer 21 to the mth layer 22 shown in FIG. 2).
  • the cross entropy loss which is the difference between x, which is the image processing result, that is, x, which is the output from the multi-layer neural network, and the correct label y given as training data, is reduced. Learning.
  • This cross entropy loss is given by the following equation (1).
  • step S104 the similarity estimation unit 81 outputs the estimated similarity.
  • the estimated similarity here is the value of the weight parameter of NIN after the learning in step S103 is completed.
  • the number of co-occurrence of frames having a large weight can be used as the estimated similarity.
  • the estimated similarity is output as a value of similarity between any two different channels (ie, between frames).
  • FIG. 5 is a flowchart for explaining the operation procedure of the rearrangement order determination unit 82 of the present embodiment.
  • the operation of the sorting order determination unit 82 will be described with reference to this flowchart.
  • step S201 the sorting order determination unit 82 acquires the estimated similarity from the similarity estimation unit 81.
  • This estimated similarity is output by the similarity estimation unit 81 in step S104 of FIG.
  • step S202 the sorting order determining unit 82 estimates the sorting order of the frames so that the sum of the estimated similarities between the frames of the deep features is maximized.
  • the more specific estimation of the sorting order is as follows.
  • the frames output from the mth layer 22 in FIG. 2 are f (1), f (2), ..., F (Nf).
  • Nf is the number of frames output from the mth layer 22.
  • one frame corresponds to one channel of deep features.
  • the transmitting side device 2 can appropriately rearrange these frames f (1), f (2), ..., F (Nf) and then encode them.
  • the set ⁇ f (1), f (2), ..., F (Nf) ⁇ and the set ⁇ fp (1), fp (2), ..., fp (Nf) ⁇ match.
  • the total sum S of the estimated similarity is given by the following equation (2).
  • s (f (i), f (j)) is the estimated similarity between the i-th frame and the j-th frame. That is, the rearrangement order determination unit 82 requests the rearrangement so as to maximize the sum S of the equation (2).
  • the exact solution for rearranging the frame order that maximizes the sum S can only be brute force. Therefore, when the number of frames to be targeted is large, it is difficult to determine this exact solution in a realistic time.
  • TSP traveling salesman problem
  • the traveling salesman problem is a problem of optimizing the route from the departure city to the departure city after traveling all the predetermined cities in a situation where the travel cost between any two cities is given in advance. .. In other words, it is a problem of minimizing the total travel cost required for patrol.
  • the differences between the problem of determining the sorting order in the present embodiment and the traveling salesman problem are as follows. The difference is that in the traveling salesman problem, the salesman returns to the departure city at the end, whereas in the sorting of this embodiment, it is not necessary to return to the first frame at the end of the transition from frame to frame. Is. The only effect of this difference is that the number of terms of the evaluation function to be optimized is different by one, not an essential difference. That is, the sorting order determination unit 82 can determine the optimum solution (exact solution) or the quasi-optimal solution (approximate solution) of the sorting order by using a well-known method for solving the traveling salesman problem.
  • the sort order determination unit 82 can obtain an exact solution of the sort order when the number of frames is relatively small. Further, the sorting order determination unit 82 can obtain an approximate solution by using a method such as a local search algorithm, simulated annealing method, genetic algorithm, or tabu search, regardless of the number of frames.
  • step S203 the sort order determination unit 82 passes the sort order determined by the process of step S202 to the sort unit 30 and the rearrangement unit 50.
  • FIG. 6 shows a flowchart for explaining the overall operation procedure other than the pre-learning unit among the processes using the deep feature compression method according to the present embodiment.
  • the procedure of the operation in which the image processing system 1 performs image processing according to a predetermined sorting order will be described with reference to these flowcharts.
  • step S251 the deep feature generation unit 20 acquires an inference image from the image acquisition unit 10. Further, the deep feature generation unit 20 acquires the model parameters of the multi-layer neural network from the model parameter storage unit 70.
  • step S252 the deep feature generation unit 20 calculates and outputs the deep features of the inference image. Specifically, the deep feature generation unit 20 uses the model parameters acquired in step S251 and inputs the inference image acquired in step S251 to the multi-layer neural network. The deep layer feature generation unit 20 performs antegrade propagation processing from the first layer 21 to the mth layer 22 of the multi-layer neural network shown in FIG. 2 based on the above model parameters, and as a result, the mth layer 22 (FIG. 2). From 2), the deep feature is output.
  • the sorting unit 30 acquires the sorting order output from the pre-learning unit 80.
  • the rearrangement unit 30 rearranges the deep layer features acquired from the deep layer feature generation unit 20 according to this rearrangement order. Specifically, the sorting unit 30 sorts the frame image group output from the deep feature generation unit 20 according to the above sorting order. The sorting unit 30 outputs the sorted deep features.
  • the coding unit 41 encodes the sorted deep features output by the sorting unit 30, that is, a plurality of frame images.
  • the coding performed here by the coding unit 41 is compression coding based on the correlation between frames.
  • the compression coding method may be lossless compression or lossy compression.
  • the coding unit 41 uses, for example, a coding method used for compression coding of moving images in this step. As described above, the order of the frame images is adjusted so as to maximize the total degree of similarity between adjacent frames or to be an approximate solution thereof by the machine learning performed in advance by the pre-learning unit 80. Has been done. Therefore, when the coding unit 41 performs compression coding based on the correlation between frames, it is expected that the best or similar good compression ratio can be realized.
  • the coding unit 41 outputs the coded result as a bit stream.
  • step S255 the bit stream is transmitted from the coding unit 41 to the decoding unit 42.
  • This transmission is performed by a communication means (not shown) using, for example, the Internet, another communication network, or the like.
  • the decoding unit 42 receives the bit stream.
  • the decoding unit 42 decodes the received bit stream and outputs the decoded deep features.
  • the deep-layer features output by the decoding unit 42 are the same as the deep-layer features output by the rearrangement unit 30 in the transmitting side device 2.
  • step S256 the rearrangement unit 50 performs the rearrangement opposite to the sort performed by the rearrangement unit 30 in step S253, based on the sort order notified by the pre-learning unit 80. That is, the rearrangement unit 50 rearranges the deep-layer features output by the decoding unit 42 in the order before sorting.
  • step S257 the cloud image processing unit 60 performs forward propagation processing of the remaining portion of the multi-layer neural network based on the realigned deep-layer features output by the realignment unit 50. That is, the cloud image processing unit 60 inputs the rearranged deep layer features into the (m + 1) layer 61 shown in FIG. 2 and causes the cloud image processing unit 60 to perform antegrade propagation to the Nth layer 62. Then, the cloud image processing unit 60 outputs the image processing result which is the output from the Nth layer 62 of FIG.
  • FIG. 7 is a flowchart showing a processing procedure by the deep feature generation unit 20.
  • FIG. 7 illustrates a part of the procedure shown in FIG. 6 in more detail.
  • step S301 the deep feature generation unit 20 acquires an inference image from the image acquisition unit 10.
  • step S302 the deep feature generation unit 20 acquires the model parameters of the multi-layer neural network from the model parameter storage unit 70.
  • step S303 the deep feature generation unit 20 inputs the inference image acquired in step S301 into the multi-layer neural network.
  • the data of the inference image propagates forward to the m-th layer (FIG. 2), which is a predetermined division layer.
  • step S304 the deep layer feature generation unit 20 outputs the value (output value from the mth layer 22) obtained as a result of the forward propagation processing in step S303 as a deep layer feature.
  • FIG. 8 is a flowchart showing a processing procedure by the sorting unit 30.
  • FIG. 8 illustrates a part of the procedure shown in FIG. 6 in more detail.
  • step S401 the sorting unit 30 acquires the sorting order information from the sorting order determining unit 82.
  • step S402 the sorting unit 30 acquires the deep features output from the deep feature generating section 20.
  • This deep feature is a plurality of frame images before sorting.
  • step S403 the sorting unit 30 sorts the frame images of the deep feature acquired in step S402 according to the order acquired in step S401.
  • step S404 the sorting unit 30 outputs the deep features sorted in step S403.
  • the rearrangement unit 30 passes the deep features thereof to the coding unit 41.
  • FIG. 9 is a flowchart showing a processing procedure by the rearrangement unit 50.
  • FIG. 9 illustrates a part of the procedure shown in FIG. 6 in more detail.
  • step S501 the rearrangement unit 50 acquires information on the sort order from the sort order determination unit 82.
  • This sort order was obtained by the procedure shown in FIG.
  • step S502 the rearrangement unit 50 acquires the deep feature from the decoding unit 42.
  • This deep feature is a plurality of frame images arranged by the rearrangement unit 30.
  • step S503 the rearrangement unit 50 rearranges the deep features acquired in step S502 based on the order information acquired in step S501. That is, the rearrangement unit 50 performs the rearrangement opposite to the sort performed by the rearrangement unit 30. By the processing of the rearrangement unit 50, the order of the plurality of frame images is returned to the order before the rearrangement unit 30 rearranges.
  • step S504 the rearrangement unit 50 outputs the rearranged deep-layer features.
  • the rearrangement unit 50 passes the rearranged deep-layer features to the cloud image processing unit 60.
  • FIG. 10 is a flowchart showing a processing procedure by the cloud image processing unit 60.
  • FIG. 10 illustrates a part of the procedure shown in FIG. 6 in more detail.
  • step S601 the cloud image processing unit 60 acquires the realigned deep-layer features output by the realignment unit 50.
  • This deep feature is a plurality of frame images in the order output by the deep feature generation unit 20.
  • step S602 the cloud image processing unit 60 acquires the model parameters of the multi-layer neural network from the model parameter storage unit 70.
  • the cloud image processing unit 60 uses the weight value of each of the parameters from the (m + 1) layer 61 to the Nth layer 62 in FIG.
  • step S603 the cloud image processing unit 60 inputs the rearranged deep layer features acquired in step S601 into the first (m + 1) layer 61, which is an input location to the latter half of the divided multi-layer neural network. Then, the cloud image processing unit 60 performs forward propagation processing based on the above model parameters from the first (m + 1) layer 61 to the Nth layer 62 of the multilayer neural network.
  • step S604 the cloud image processing unit 60 outputs the image processing result obtained as a result of the forward propagation in step S603.
  • the sorting order determination unit 82 determines the sorting order in advance, each time the data to be processed (inference image) is input, the deep feature It is possible to reduce various costs for calculating an index (MSE, etc.) related to the correlation between frames. Further, according to the present embodiment, since the sorting order determination unit 82 determines the sorting order in advance, it is possible to reduce the overhead for transmitting the determined sorting order each time. Further, the rearrangement order determination unit 82 connects a neural network different from the original neural network to the subsequent stage of the intermediate layer (mth layer 22), and performs learning processing using the training data between frames obtained as a result.
  • interframe prediction coding is performed with one channel image as one frame.
  • interframe prediction coding is performed with images for a plurality of channels as one frame.
  • each channel of the deep feature generated by the deep feature generation unit 20 is set as one frame, the rearrangement unit 30 rearranges, and the coding unit 41 encodes (see FIG. 11B). ).
  • the output resolution of the channel decreases as the layer of the multi-layer neural network becomes deeper.
  • the efficiency of the intra-frame prediction in the I-frame portion (intra-coded frame) encoded without using the inter-frame prediction is lowered.
  • a method of arranging images of a plurality of channels included in the deep feature in one frame and compressing them as an image can be considered (see FIG. 11A).
  • a method of arranging images of a plurality of channels in one frame and treating them as a moving image composed of a plurality of frames can be considered (see FIG. 11C).
  • FIG. 11A, 11B, and 11C are schematic views for explaining an example in which imaging and animation are performed at the same time.
  • FIG. 11A is a reference example showing a frame image when an image for a plurality of channels is compressed and coded as an image of one frame.
  • FIG. 11B is an example (method of the first embodiment) showing a frame image when interframe prediction coding is performed by using an image for one channel as an image for one frame.
  • FIG. 11C shows a frame image in the case where interframe predictive coding is performed on a plurality of frame images (in the case of the present embodiment) while the images for a plurality of channels are regarded as one frame image.
  • FIG. 12 is a block diagram showing an outline of the overall functional configuration of the second embodiment.
  • the image processing system 5 of the present embodiment includes an image acquisition unit 10, a deep feature generation unit 20, a rearrangement unit 130, an image transmission unit 40, a rearrangement unit 150, and a cloud image processing unit. It has a configuration including 60, a model parameter storage unit 70, and a pre-learning unit 180. That is, the image processing system 5 of the present embodiment replaces the sorting unit 30, the rearrangement unit 50, and the pre-learning unit 80 in the image processing system 1 of the first embodiment with the sorting unit 130, respectively. , The rearrangement unit 150 and the pre-learning unit 180 are included.
  • the sorting unit 130 performs a process of sorting the order of frame images including images for a plurality of channels in frame units.
  • the sorting unit 130 sorts according to the sorting order determined by the sorting order determining unit 182.
  • the rearrangement unit 150 performs a process of returning the frame images rearranged by the rearrangement unit 130 to the order before the rearrangement. That is, the realignment unit 150 realigns in frame units.
  • the process performed by the rearrangement unit 150 is the reverse process of the process performed by the rearrangement unit 130.
  • the frame images including p channel images per frame are rearranged.
  • p is an integer of 2 or more. That is, one frame includes two or more channel images in the intermediate layer (mth layer).
  • one frame image includes channel images arranged in a vertical and horizontal direction.
  • some image (blank image or the like) instead of the channel image may be filled in the vacant part.
  • the channel images are Nc images of C (1), C (2), ..., C (Nc).
  • the frame image is an Nf image of f (1), f (2), ..., F (Nf).
  • which channel image is arranged in which frame image may be fixed in advance.
  • which channel image is arranged in which frame image may be determined by the pre-learning unit 180 by machine learning processing or the like.
  • the position where the channel image is arranged in the frame image may be fixed in advance.
  • the position in which the channel image is arranged in the frame image may also be determined by the pre-learning unit 180 by machine learning processing or the like.
  • the pre-learning unit 180 obtains the similarity between frames and determines the sorting order in frame units based on the similarity.
  • the pre-learning unit 180 includes a similarity estimation unit 181 and a rearrangement order determination unit 182.
  • the similarity estimation unit 181 estimates the similarity between Nf frame images based on the learning data.
  • the method itself for estimating the similarity is the same as that by the similarity estimation unit 81 in the previous embodiment.
  • the sort order determination unit 182 determines the frame rearrangement order based on the similarity between the frames estimated by the similarity estimation unit 181.
  • the method itself for estimating the sort order is the same as that by the sort order determination unit 82 in the previous embodiment. That is, the sort order determination unit 182 determines the sort order so that the sum of the similarities between adjacent frames in the order after the sort is maximized or as large as possible.
  • the sort order determination unit 182 can use a method of solving the traveling salesman problem when determining the sort order.
  • the sorting order determination unit 182 can also determine in which frame the channel image is arranged by using an algorithm based on the maximum matching. In addition, the sort order determination unit 182 can also determine at which position in the frame the channel image is to be arranged by using an algorithm based on the maximum matching.
  • FIG. 13 is a flowchart showing a processing procedure of the sorting order determination unit 82 when imaging and moving images are performed at the same time.
  • step S701 the sorting order determination unit 182 acquires the estimated similarity from the similarity estimation unit 81.
  • the process of this step is the same as the process of step S201 (FIG. 5) in the previous embodiment.
  • the sort order determination unit 182 determines the sort order.
  • the sorting order determination unit 182 determines the sorting order of the frames using at least an algorithm similar to the algorithm for solving the traveling salesman problem on the premise of a predetermined frame set. .. Further, the sort order determination unit 182 may estimate the best frame set itself by using an algorithm based on the maximum matching. In this case, the similarity estimation unit 181 estimates the similarity between frames in the required frame set, and passes it to the sorting order determination unit 182.
  • step S703 the sort order determination unit 182 passes the sort order determined by the process of step S702 to the sort unit 30 and the rearrangement unit 50.
  • the process of this step is the same as the process of step S203 (FIG. 5) in the previous embodiment.
  • the first embodiment and the second embodiment can be implemented as the following modified examples.
  • the data input to the deep feature generation unit 20 (this is referred to as processing target data) is not limited to the image (inference image).
  • the data to be processed includes, for example, voice, map information, game phases, time-series or spatial arrangement of physical quantities (including temperature, humidity, pressure, voltage, current amount, fluid flow rate, etc.), and social.
  • the deep feature generation unit 20 generates deep features of such data to be processed.
  • the sorting unit 30 sets the order of a plurality of frame data (which may be regarded as a pseudo frame image) corresponding to the plurality of channel data included in the deep layer feature according to a predetermined sorting order. Sort.
  • the coding unit 41 performs compression coding of such frame data by utilizing the correlation between frames. Even when the modified example is used, the same actions and effects as those of the first embodiment or the second embodiment already described can be obtained.
  • the data processing method based on this modified example includes a plurality of steps listed below. That is, in the first step, the data to be processed is input from the input layer of the neural network, the forward propagation is performed in the neural network, and each is from the intermediate layer which is a predetermined layer which is not the output layer of the neural network. Is a plurality of frame data including channel data, and a plurality of frame data arranged in a predetermined first order are acquired as intermediate output values.
  • the first step is such that the sum of the similarity between the adjacent frame data in the second order is larger than the sum of the similarity between the adjacent frame data in the first order.
  • the frame data arranged in the first order is sorted into the frame data in the second order.
  • the plurality of frame data rearranged in the second order are compressed and coded using a moving image compression coding method based on the correlation between the frames.
  • FIG. 14 is a block diagram showing an example of a hardware configuration for realizing each of the plurality of embodiments (including modified examples) already described.
  • the configuration shown is a configuration including a bus 901, a processor 902, a memory 903, and an input / output port 904.
  • each of the processor 902, the memory 903, and the input / output port 904 is connected to the bus 901.
  • the components connected to the bus 901 can send and receive signals to and from each other via the bus 901.
  • Bus 901 transmits those signals.
  • the processor 902 is a processor for a computer.
  • the processor 902 can execute an instruction to be read from the memory 903.
  • the processor 902 By executing these instructions, the processor 902 reads data from the memory 903, writes data to the memory 903, and communicates with the outside via the input / output port 904.
  • the architecture of the processor 902 is not particularly limited.
  • the memory 903 stores a program or data, which is a sequence of instructions, at least temporarily.
  • the input / output port 904 is a port for the processor 902 and the like to communicate with the outside. That is, data can be input / output to / from the outside and other signals can be exchanged with the outside via the input / output port 904.
  • Any one of the plurality of embodiments described above can be realized by using a computer and a program.
  • the program implemented in the above-described embodiment does not depend on a single device, but records the program on a computer-readable recording medium, and the computer system reads the program recorded on the recording medium and executes the program. The image conversion process may be performed by doing so.
  • the term "computer system” as used herein includes hardware such as an OS and peripheral devices.
  • the "computer system” shall also include a WWW system provided with a homepage providing environment (or display environment).
  • the "computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, or a DVD-ROM, or a storage device such as a hard disk built in a computer system.
  • the "computer-readable recording medium” is a volatile memory (RAM) inside a computer system that serves as a server or client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. As such, it shall include those that hold the program for a certain period of time.
  • the above program may be transmitted from a computer system in which this program is stored in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium.
  • the "transmission medium” for transmitting a program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
  • the above program may be for realizing a part of the above-mentioned functions. Further, it may be a so-called difference file (difference program) that can realize the above-mentioned function in combination with a program already recorded in the computer system.
  • FIG. 15 is a numerical graph showing the effect of the embodiment of the present invention.
  • This graph shows the image processing accuracy (vertical axis) with respect to the average (horizontal axis) of the code amount of the compressed deep-layer feature.
  • the dataset is the ImageNet2012 dataset commonly used in image identification tasks.
  • the broken line is the result when the prior art is used.
  • the solid line is the result when the frames are rearranged using the first embodiment.
  • the image processing (identification) accuracy is slightly higher when the first embodiment is used than when the prior art is used over the entire region of the code amount (horizontal axis).
  • the BD rate (BD-rate, Bjontegaard deltabitrate, Beyontegaard deltabitrate) is 3.3% lower when the first embodiment is used than when the prior art is used. That is, it can be seen that the present invention realizes a better compression ratio than the prior art.
  • the present invention can be used, for example, for analysis of images or other data.
  • the scope of use of the present invention is not limited to the possibilities listed here.
  • Image processing system 2 Transmission side device 3 Receiving side device 5 Image processing system 10 Image acquisition unit 20 Deep layer feature generation unit 21 1st layer 22 Mst layer 30 Sorting unit 40 Image transmission unit 41 Coding unit 42 Decoding unit 50 Re Alignment unit 60 Cloud image processing unit 61 First (m + 1) layer 62 Nth layer 70 Model parameter storage unit 80 Pre-learning unit 81 Similarity estimation unit 82 Sorting order determination unit 130 Sorting unit 150 Realignment unit 180 Pre-learning unit 181 Similarity estimation unit 182 Sorting order determination unit 901 Bus 902 Processor 903 Memory 904 Input / output port

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

深層特徴生成部(20)は、ニューラルネットワークの入力層(21)から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層(22)から、各々がチャネル画像を含む複数のフレーム画像であって、所定の第1順序で整列された複数のフレーム画像を中間出力値として出力する。並び替え部(30)は、前記第1順序において隣接し合うフレーム画像間の類似度の総計よりも、第2順序において隣接し合うフレーム画像間の類似度の総計のほうが大きくなるように、前記第1順序から前記第2順序への予め決定された並び替え順序に基づいて、前記第1順序で整列されたフレーム画像を前記第2順序のフレーム画像に並び替える。符号化部(41)は、前記第2順序に並び替えられた複数の前記フレーム画像を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する。

Description

画像処理方法、データ処理方法、画像処理装置、およびプログラム
 本発明は、画像処理方法、データ処理方法、画像処理装置、およびプログラムに関する。
 近年、機械学習技術、特に、畳み込みニューラルネットワーク(Convolutional Neural Network,CNN)を用いた、画像内の被写体の識別や検出、領域分割等の技術の精度向上が著しい。機械学習を用いた、各種業務における目視工程の自動化を推進する技術が注目を集めている。
 撮像デバイスがモバイル等のエッジ端末環境にある場合、撮像した画像を処理するためにいくつかのアプローチが候補として考えられる。主なものとして、撮像画像をクラウドまで伝送しクラウドで処理を行うアプローチ(クラウドアプローチ)、あるいはエッジ端末のみで処理を完結するアプローチ(エッジアプローチ)が考えられる。これらの代表的なアプローチに加えて、近年、コラボラティブインテリジェンス(Collaborative Intelligence)と呼ばれるアプローチが提唱されている。
 Collaborative Intelligenceは、エッジとクラウドで計算負荷を分散するアプローチである。エッジデバイスは、CNNによる画像処理を途中まで行い、その結果であるCNNの中間出力(深層特徴)を伝送する。そして、その残りの処理をクラウドサーバ側が行う。このCollaborative Intelligenceは、電力やレイテンシの観点で、クラウドアプローチやエッジアプローチを凌駕する可能性が示されている(非特許文献1を参照)。
Y. Kang, J. Hauswald, C. Gao, A. Rovinski, T. Mudge, J. Mars, and L. Tang, "Neurosurgeon: Collaborative intelligence between the cloud and mobile edge", 2017 ITU-T Recommendation,"H.265: High Efficiency Video Coding", 2013. H. Choi, I. Bajic,"Deep feature compression for collaborative object detection", 2018. S. Suzuki, H. Shouno,"A study on visual interpretation of network in network", 2017.
 本発明は、Collaborative Intelligenceにおける、深層特徴を圧縮する符号化技術に関連する。即ち、本発明が対象とする符号化技術は、深層特徴を圧縮した際の画像処理精度を基準とし、圧縮しても精度を保持することが望まれる。
 深層特徴の圧縮方式としては、主に2つの方式が考えられる。1つ目は、深層特徴をチャネルごとに整列し、画像として圧縮する方式である。2つ目は、各チャネルを1フレームとみなして、複数フレームの集合を動画として圧縮する方式である。圧縮方式としては、H.265/HEVC(非特許文献2を参照)などの動画像圧縮方式を用いることが一般的である(非特許文献3を参照)。本発明の課題の一つは、動画として圧縮する方式を用いる場合の圧縮率を良くすることである。
 深層特徴を動画として圧縮する場合、インターフレーム予測によってフレーム間の相関を利用することによって、圧縮効率を高めることが期待できる。しかしながら、従来技術においては、CNNの学習を行う場合にチャネル同士の相関は考量されていない。つまり、フレーム間の相関は考慮されていない。したがって、自然映像を対象としてインターフレーム予測を行う場合と比べて、CNNのチャネルに関してのインターフレーム予測の効率は良くない。このような状況において、高圧縮を行うと、歪みが大きくなり精度が大幅に低下してしまうことも懸念される。
 その解決策として、フレームの符号化順序を並び替える手法も考えられる。例えば、任意の2フレーム間の平均二乗誤差(MSE)等を指標とし、隣接フレーム間のMSEを小さくするような手法を用いることが考えられる。この手法を用いれば、並び替え後の深層特徴において隣接するフレーム間での相関が高まりインターフレーム予測の予測効率が高まる事も期待される。しかしながら、深層特徴は入力画像ごとに生成されるものであるため、入力画像毎に最適な並び替え順序を算出しなければならず、計算量が大幅に増加するという別の問題が懸念される。さらに、並び替え順序が固定されていないことにより、受信側で並び替え順を元に戻すために、深層特徴以外に、並び替え順序もその都度同時に伝送しなくてはならない。つまり、そのオーバーヘッドを無視することができないという問題もある。
 本発明は、深層特徴を圧縮して伝送する際に、その都度並び替え順序を決定することを必要としない画像処理方法、データ処理方法、画像処理装置、およびプログラムを提供しようとするものである。
 本発明の一態様による画像処理方法は、ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第1順序で整列された中間出力値として取得するステップと、前記第1順序において隣接し合う中間出力値の類似度の総計よりも、第2順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第1順序から前記第2順序への予め決定された並び替え順序に基づいて、前記第1順序で整列された中間出力値を前記第2順序に並び替えるステップと、前記中間出力値をフレームとみなし、前記第2順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化するステップと、を有する画像処理方法である。
 また、本発明の一態様は、ニューラルネットワークの入力層から処理対象データを入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第1順序で整列された中間出力値として取得するステップと、前記第1順序において隣接し合う中間出力値の類似度の総計よりも、第2順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第1順序から前記第2順序への予め決定された並び替え順序に基づいて、前記第1順序で整列された中間出力値を前記第2順序に並び替えるステップと、前記中間出力値をフレームとみなし、前記第2順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化するステップと、を有するデータ処理方法である。
 また、本発明の一態様は、ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第1順序で整列された中間出力値として出力する深層特徴生成部と、前記第1順序において隣接し合う中間出力値の類似度の総計よりも、第2順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第1順序から前記第2順序への予め決定された並び替え順序に基づいて、前記第1順序で整列された中間出力値を前記第2順序に並び替える並び替え部と、前記中間出力値をフレームとみなし、前記第2順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する符号化部と、を含む画像処理装置である。
 また、本発明の一態様は、ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第1順序で整列された中間出力値として出力する深層特徴生成部と、前記第1順序において隣接し合う中間出力値の類似度の総計よりも、第2順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第1順序から前記第2順序への予め決定された並び替え順序に基づいて、前記第1順序で整列された中間出力値を前記第2順序に並び替える並び替え部と、前記中間出力値をフレームとみなし、前記第2順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する符号化部と、を含む画像処理装置、としてコンピュータを機能させるためのプログラムである。
 本発明によると、深層特徴を圧縮する際に、予め決定された並び替え順序を用いることにより、その都度並び替え順序を決定することを必要としない。
第1実施形態の全体的な機能構成の概略を示すブロック図である。 本実施形態による画像処理システムの少なくとも一部の機能を、送信側装置および受信側装置として実現する場合の機能構成を示すブロック図である。 本実施形態による深層特徴圧縮方法のうち事前学習部の全体動作手順を説明するためのフローチャートである。 本実施形態の類似度推定部の動作手順を説明するためのフローチャートである。 本実施形態の並び替え順序決定部の動作手順を説明するためのフローチャートである。 本実施形態による深層特徴圧縮方法を用いた処理のうち、事前学習部以外の全体動作手順を説明するためのフローチャートである。 本実施形態の深層特徴生成部の動作を説明するためのフローチャートである。 本実施形態の並び替え部の動作を説明するためのフローチャートである。 本実施形態の再整列部の動作を説明するためのフローチャートである。 本実施形態のクラウド画像処理部の動作を説明するためのフローチャートである。 複数チャネル分の画像を1フレームの画像として圧縮符号化する場合のフレーム画像を示す参考例である。 1チャネル分の画像を1フレームの画像としてインターフレーム予測符号化を行う場合のフレーム画像を示す例(第1実施形態の方式)である。 複数チャネル分の画像を1フレームの画像としながら、複数のフレーム画像についてインターフレーム予測符号化を行う場合のフレーム画像を示す例(第2実施形態の方式)である。 第2実施形態の全体的な機能構成の概略を示すブロック図である。 本実施形態の画像化と動画化を同時に行う場合の並び替え順序決定部の動作を説明するためのフローチャートである。 第1実施形態および第2実施形態のそれぞれを実現するためのハードウェア構成の一例を示すブロック図である。 第1実施形態と用いる場合と、従来技術を用いる場合との、圧縮符号化の効果の差を示すグラフである。
[第1実施形態]
 次に、本発明の一実施形態について、図面を参照しながら説明する。本実施形態では、多層ニューラルネットワーク(deep neural network,DNN)を用いた画像処理を行う。画像処理のために用いる多層ニューラルネットワークは、典型的な場合には、畳み込みニューラルネットワーク(CNN)である。
 図1は、本実施形態の全体的な機能構成の概略を示すブロック図である。図示するように、本実施形態の画像処理システム1は、画像取得部10と、深層特徴生成部20と、並び替え部30と、画像伝送部40と、再整列部50と、クラウド画像処理部60と、モデルパラメータ記憶部70と、事前学習部80とを含む構成を有する。これらの各機能部を、例えば、コンピュータと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。
 図1の構成において、事前学習部80が学習によって推定した並び替え順序を、推論時(画像処理時)に利用する。つまり、図1の構成において、事前学習部80が動作するタイミングと、画像処理システム1内のその他の部分が動作するタイミングとは、異なる。各部の機能は、次の通りである。
 まず事前学習部80から説明する。事前学習部80は、学習用のデータに基づいて、並び替え部30がフレームの並び替えを行う際の順序を決定する。再整列部50は、並び替え部30の並び替え処理の、逆処理を行う。したがって、事前学習部80が決定した並び替え順序は、再整列部50にも渡され、利用される。事前学習部80は、類似度推定部81と、並び替え順序決定部82とを含む。
 ここで、事前学習部80の意図について説明する。事前学習部80は、フレームにおける所定の位置に存在する所定の特徴が所定の順序(絶対的な順序)に並ぶような並び替え順序を取得する。所定の順序とは、例えば隣接するフレーム間の類似度が最大になる順序である。このようにすることで、事前学習部80により決定された順序を送信側装置2(図2)と受信側装置3(図2)で共有する。これにより、画像毎に順序を送らなくても並び替えを行う前の順序に再度並び替えることが可能となる。これは、例えばCNNのような畳み込みニューラルネットワークでは、中間層のニューロンの出力は、入力された画像における位置と特徴を反映した値である事も利用するためである。
 類似度推定部81は、深層特徴生成部20が出力する深層特徴における、チャネル間の類似度を推定し、出力する。そのため、類似度推定部81は、モデルパラメータ記憶部70からモデルパラメータを取得する。類似度推定部81は、モデルパラメータを取得することにより、深層特徴生成部20およびクラウド画像処理部60がそれぞれ持つニューラルネットワークと等価な処理を行うことができる。深層特徴生成部20とクラウド画像処理部60とは、多層ニューラルネットワークの、それぞれ、前半部分(上流部分)と後半部分(下流部分)に相当する。つまり、全体の多層ニューラルネットワークが、ある階層において、前半部分と後半部分とに分割されている。類似度推定部81は、その分割箇所の階層での出力について、チャネル間の類似度を推定する。類似度推定部81は、このチャネル間の類似度を推定するために、機械学習用の学習データを用いる。この学習データは、深層特徴生成部20に入力される画像と、その画像についての正解の出力ラベル出力との、対の集合である。類似度推定部81は、後述するように、深層特徴生成部20からの出力である階層の後段に、ネットワークインネットワーク(NIN)を設ける。類似度推定部81は、このNINが導入された多層ニューラルネットワークと、上記の学習データとを用いて、機械学習処理を行う。類似度推定部81は、その機械学習処理の結果として得られる各チャネルの重みに基づいて、チャネル間の類似度を推定する。ここで、深層特徴とチャネルについて説明する。深層特徴とは、所望の中間層に配置されている全てのニューロンの出力を意図する。図2の例であれば、第m層の出力全てである。チャネルとは、所望の中間層に配置されているニューロンごとの出力を意図する。本実施例においてはニューロン毎の出力値をフレームとみなし、HEVC等の画像符号化方法を適用することを考える。なお、第2実施形態においては2以上且つ所望の中間層のニューロン数未満のニューロンの出力(チャネル画像)を1つのフレームとみなしている。CNNのように、ニューロンが複数集合して画像上の出力をもたらす構造の場合、その画像状の出力をフレームとする。類似度推定部81は、推定した類似度を出力する。
 並び替え順序決定部82は、類似度推定部81によって推定された類似度を取得する。並び替え順序決定部82は、取得した任意の2チャネル間の類似度に基づいて、並び替え順序を決定する。並び替え順序決定部82が決定する並び替え順序は、並び替え部30がフレームを並び替えたときに、隣接し合うフレーム間の類似度の総計がなるべく大きくなるように調整された順序である。
 つまり、並び替え順序は、中間層(図2における第m層22にあたる)の後段に前記ニューラルネットワークとは異なるニューラルネットワークを接続して、学習データを用いて学習処理を行った結果得られる前記異なるニューラルネットワークの重みに基づいて予め決定されている。この「異なるニューラルネットワーク」が、上記のNINである。つまり、「異なるニューラルネットワーク」は、1×1の畳み込みの処理を行うものである。
 次に、画像処理システム1内の、事前学習部80以外の各部分の機能について説明する。
 画像取得部10は、画像処理の対象となる画像(推論用画像)を取得し、深層特徴生成部20に渡す。例えば、画像取得部10は、撮像された画像を推論用画像として取得する。
 深層特徴生成部20は、ニューラルネットワークの入力層(図2における第1層21にあたる)から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層(図2における第m層22にあたる)から、各々がチャネル画像を含む複数のフレーム画像であって、所定の第1順序で整列された複数のフレーム画像を中間出力値として出力する。言い換えれば、深層特徴生成部20は、ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第1順序で整列された中間出力値(フレーム画像とみなし得る)として出力する。なお、第1順序は、任意の順序であってよい。
 その実現の一形態として、深層特徴生成部20は、モデルパラメータ記憶部70から多層ニューラルネットワークモデルのモデルパラメータを取得する。モデルパラメータは、多層ニューラルネットワークを構成する各ノードにおいて、入力値から出力値を算出する際の重みパラメータである。深層特徴生成部20は、画像取得部10から取得した推論用画像に対して上記のパラメータに基づいた変換を施す。深層特徴生成部20は、多層ニューラルネットワークにおける所定の階層(深層特徴生成部20としての出力層)まで、順行伝播処理(forward propagation)を実施する。深層特徴生成部20は、その階層からの出力(多層ニューラルネットワークの中の中間出力)を、深層特徴として出力する。深層特徴生成部20は、求めた深層特徴を、並び替え部30に渡す。深層特徴生成部20が出力する深層特徴の出力値をフレーム画像の画素値とみなすことで、フレーム画像として取り扱うこととする。
 並び替え部30は、前記第1順序において隣接し合うフレーム画像間の類似度の総計よりも、第2順序において隣接し合うフレーム画像間の類似度の総計のほうが大きくなるように、前記第1順序から前記第2順序への予め決定された並び替え順序に基づいて、前記第1順序で整列されたフレーム画像を前記第2順序のフレーム画像に並び替える。言い換えれば、並び替え部30は、前記第1順序において隣接し合う中間出力値の類似度の総計よりも、第2順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第1順序から前記第2順序への予め決定された並び替え順序に基づいて、前記第1順序で整列された中間出力値を前記第2順序に並び替える。この並び替え順序は、並び替え順序決定部82によって決定されるものであり、その具体的な決定方法については後述する。
 つまり、並び替え部30は、並び替え順序決定部82から取得した並び替え順序にしたがって、深層特徴生成部20から渡される深層特徴のフレームの順序を並び替える。並び替え順序決定部82は、並び替え後の隣接するフレーム間の類似度の総計がなるべく大きくなるような並び替え順序を決定している。したがって、並び替え部30が並び替えた後の順序による複数のフレームにおいては、隣接するフレーム間の類似度の総計が、最大化されているか、あるいはなるべく大きくなることが期待される。隣接するフレーム間の差の総計を最小化すると言い換えてもよい。並び替え部30は、上記のように並び替え済みの深層特徴を、画像伝送部40内の符号化部41に渡す。
 画像伝送部40は、並び替え部30から出力された複数のフレーム画像を、伝送し、再整列部50に渡す。画像伝送部40は、符号化部41と、復号部42とを含む。符号化部41と、復号部42とは、互いに遠隔の地に存在することが想定される。符号化部41から復号部42へは、例えば、通信ネットワークを介して情報が伝送される。このような場合、符号化部の出力である符号化データ(ビットストリーム)を送信する送信部と、送信されてきた符号化データを受信する受信部を用意すべきである。
 符号化部41は、前記第2順序に並び替えられた複数の前記フレーム画像を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する。言い換えれば、符号化部41は、前記中間出力値をフレームとみなし、前記第2順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する。
 具体的には、符号化部41は、並び替え部30から、並び替え済みの深層特徴を取得する。符号化部41は、並び替え済みの深層特徴を符号化する。符号化部41は、符号化を行う際に、インターフレーム予測符号化(フレーム間予測符号化)の方式を使用する。言い換えれば、符号化部41は、隣接するフレーム間の類似性を利用した情報圧縮符号化を行う。符号化の方法自体は、既存の技術を用いてよい。具体例として、符号化の方式として、HEVC(High Efficiency Video Codingとも呼ばれる。)や、H.264/AVC(AVCは、Advanced Video Codingの略)等を用いることができる。前述の通り、並び替え部30は、深層特徴に含まれる複数のフレーム画像を、隣接し合うフレーム画像間の類似度の総計が最大になるように、あるいはなるべく大きくなるように並び替える。したがって、符号化部41が圧縮符号化する際には、インターフレーム予測符号化の効果が大きく得られることが期待される。言い換えれば、符号化部41が圧縮符号化することにより良好な圧縮率が得られることが期待される。符号化部41は、符号化の結果であるビットストリームを出力する。
 符号化部41が出力するビットストリームは、図示しない通信手段によって、即ち、例えば、無線あるいは有線による送受信装置によって、復号部42に伝送される。
 復号部42は、符号化部41から伝送されたビットストリームを受信し、そのビットストリームを復号する。復号の処理自体は、符号化部41が用いた符号化方式に対応するものである。復号部42は、復号した結果得られる深層特徴(「復号深層特徴」と呼んでもよい)を、再整列部50に渡す。
 再整列部50は、復号部42から復号深層特徴を取得し、この深層特徴に含まれるフレーム画像の順序を、元の順序に戻す。つまり、再整列部50は、フレーム画像の順序を、並び替え部30が並び替える前の順序に再整列する。この処理の際に、再整列部50は、並び替え順序決定部82から渡される並び替え順序を参照する。再整列部50は、再整列済みの深層特徴を、クラウド画像処理部60に渡す。
 クラウド画像処理部60は、深層特徴生成部20とともに、多層ニューラルネットワークの処理を行う。クラウド画像処理部60は、多層ニューラルネットワークのうちの、深層特徴生成部20の出力層より後の(即ち、下流の)部分の処理を行う。言い換えれば、クラウド画像処理部60は、深層特徴生成部20によって行われる処理に後続する、順行伝播処理(forward propagation)を実行する。クラウド画像処理部60は、モデルパラメータ記憶部70から、多層ニューラルネットワークのパラメータを取得する。クラウド画像処理部60は、再整列部50から渡された再整列済み深層特徴を入力し、上記のパラメータに基づいて画像処理を行い、画像処理の結果を出力する。
 図2は、図1で説明した画像処理システム1の一部分の機能構成を示すブロック図である。画像処理システム1は、一例として、図2に示すように、送信側装置2と受信側装置3とを含むように構成することができる。送信側装置2と受信側装置3のそれぞれを「画像処理装置」と呼んでもよい。送信側装置2は、深層特徴生成部20と、並び替え部30と、符号化部41とを含む。受信側装置3は、復号部42と、再整列部50と、クラウド画像処理部60とを含む。深層特徴生成部20と、並び替え部30と、符号化部41と、復号部42と、再整列部50と、クラウド画像処理部60の各部の機能は、既に図1を参照しながら説明した通りである。なお、図2では、モデルパラメータ記憶部70や事前学習部80の記載を省略している。
 深層特徴生成部20は、内部に、多層ニューラルネットワークの、第1層21から第m層22まで(途中の階層は図内で省略)を含む。クラウド画像処理部60は、内部に、多層ニューラルネットワークの、第(m+1)層61から第N層62まで(途中の階層は図内で省略)を含む。なお、1≦m≦(N-1)である。第1層21は、この多層ニューラルネットワーク全体の入力層である。第N層62は、この多層ニューラルネットワーク全体の出力層である。第2層から第(N-1)層までは、中間層である。深層特徴生成部20側の第m層22と、クラウド画像処理部60側の第(m+1)層61とは、論理的には同一の階層である。このように、1つの多層ニューラルネットワークが、深層特徴生成部20側と、クラウド画像処理部60側とに、分散して構築されている。
 構成例として、送信側装置2と受信側装置3とを、別々の筐体として実現することができる。送信側装置2と受信側装置3とを、相互に遠隔地に設けるようにしてもよい。また、一例として、多数の送信側装置2と、1台または少数の受信側装置3とで、画像処理システム1を構成するようにしてもよい。送信側装置2は、例えば、スマートフォン等の、撮影機能を有する端末装置であってもよい。送信側装置2は、また、例えば、撮像デバイスが接続された通信端末装置であってもよい。また、受信側装置3は、いわゆるクラウドサーバを用いて実現してもよい。
 構成の一例では、送信側装置2と受信側装置3との間の通信帯域は、画像処理システム1内の他の構成要素間での通信帯域と比べて、狭い。このような場合には、符号化部41と復号部42との間での通信の際の、データの圧縮率を良くすることが、画像処理システム1全体のパフォーマンスの向上のためには、強く望まれる。本実施形態の構成は、符号化部41と復号部42との間で伝送されるデータの圧縮率を高めるものである。
 図3は、本実施形態による深層特徴圧縮方法のうち事前学習部80の全体的な動作手順を説明するためのフローチャートである。以下で、このフローチャートを参照しながら、事前学習部80による処理手順を説明する。
 まず、ステップS51において、類似度推定部81は、モデルパラメータ記憶部70から、多層ニューラルネットワークのモデルパラメータを取得する。
 次に、ステップS52において、類似度推定部81は、図2の深層特徴生成部20内のニューラルネットワークの出力層(第m層22)の後段に、ネットワークインネットワーク(NIN)を設けた構成により、学習処理を行う。類似度推定部81は、この学習処理の結果であるNINの重みに基づいて、フレーム画像間での類似度を推定する。
 次に、ステップS53において、並び替え順序決定部82は、ステップS52で推定されたフレーム間の類似度に基づいて、フレームの並び替え順序を決定する。その並び替え順序とは、全体的なフレーム間相関(隣接するフレーム間での類似度の総計)を高めるような、順序である。並び替え順序決定部82は、決定した並び替え順序を、並び替え部30および再整列部50に通知する。
 図4は、本実施形態の類似度推定部81の動作手順を、より詳細に説明するためのフローチャートである。以下、このフローチャートに沿って、類似度推定部81の動作を説明する。
 まず、ステップS101において、類似度推定部81は、モデルパラメータ記憶部70から、多層ニューラルネットワークのパラメータを取得する。
 次に、ステップS102において、類似度推定部81は、ステップS101で得たパラメータによって決定される多層ニューラルネットワークの中の所定の階層(図2に示した第m層22)の後段に、別の階層を追加する。この別の階層とは、Network In Network(NIN)に相当する階層である。NINは、1×1の畳み込みに相当するフィルタ処理である。NINは、類似する特徴を抽出するフィルタに対して大きい重みをもたらすことが知られている(非特許文献4も参照)。NINは複数のチャネル画像を出力することが可能で、そのチャネル数は任意に設定可能である。このチャネル数は、例えば、分割する階層数(ここでは、m)と同程度であることが想定される。ただし、出力のチャネル数は、必ずしもそのような階層数と同程度でなくてもよく、その場合にも同様の効果を奏する。なお、類似度推定部81は、上記のNINアーキテクチャを、ガウス分布等からランダムに初期化してよい。
 次に、ステップS103において、類似度推定部81は、ステップS102で追加したNINのアーキテクチャ部以降の機械学習を行う。なお、類似度推定部81は、分割される層より前の層(つまり、図2に示した第1層21から第m層22までの層)における多層ネットワークの重みについては、変更しない。ここでの機械学習では、例えば、画像処理結果であるx、即ち、多層ニューラルネットワークからの出力であるxと、学習データとして与えられる正解ラベルyとの差分である交差エントロピー損失等を小さくするような学習を行う。この交差エントロピー損失は、次の式(1)で与えられる。
Figure JPOXMLDOC01-appb-M000001
 ただし、実施しようとする画像処理タスクにおいて適切な目的関数であれば、平均二乗誤差(mean square error)等を用いて学習してもよく、その場合にも同様の効果を奏する。
 次に、ステップS104において、類似度推定部81は、推定類似度を出力する。ここでの推定類似度は、ステップS103における学習が完了した後のNINの重みパラメータの値である。NINに基づく本実施形態では、大きい重みを持つフレームの共起回数等を推定類似度として利用できる。推定類似度は、任意の異なる2つのチャネル間の(即ち、フレーム間の)類似度の値として出力される。
 図5は、本実施形態の並び替え順序決定部82の動作手順を説明するためのフローチャートである。以下、このフローチャートに沿って、並び替え順序決定部82の動作を説明する。
 まず、ステップS201において、並び替え順序決定部82は、類似度推定部81から推定類似度を取得する。この推定類似度は、図4のステップS104において類似度推定部81が出力するものである。
 次に、ステップS202において、並び替え順序決定部82は、深層特徴のフレーム間の推定類似度の総和が最大になるようなフレームの並び替え順序を推定する。並び替え順序の推定をより具体的に書くと、次の通りである。
 図2の第m層22から出力されるフレームが、f(1),f(2),・・・,f(Nf)とする。ただし、Nfは、第m層22から出力されるフレーム数である。本実施形態では、1フレームが、深層特徴の1チャネルに対応する。この送信側装置2は、適宜、これらのフレームf(1),f(2),・・・,f(Nf)の並び替えを行ってから符号化することができる。並び替えた結果の順序によるフレームをfp(1),fp(2),・・・,fp(Nf)とする。ただし、集合{f(1),f(2),・・・,f(Nf)}と集合{fp(1),fp(2),・・・,fp(Nf)}とは一致する。このとき、推定類似度の総和Sは、次の式(2)により与えられる。
Figure JPOXMLDOC01-appb-M000002
 ただし、式(2)において、s(f(i),f(j))は、i番目のフレームとj番目のフレームとの間の推定された類似度である。つまり、並び替え順序決定部82は、式(2)の総和Sを最大にするような並び替えを求める。一般的に、総和Sを最大にするフレーム順序の並び替えの厳密解は総当たりでしか求められない。したがって、対象とするフレーム数が大きい場合には、現実的な時間内にこの厳密解を決定することは困難である。ただし、この並び替えの順序を決定する問題は、巡回セールスマン問題(TSP,travelling salesman problem)と、ほぼ同一である。巡回セールスマン問題は、任意の2都市間の移動コストが予め与えられている状況で、出発都市から、所定の複数都市をすべて巡回した後に、再び出発都市に戻る経路を最適化する問題である。つまり、巡回に要する総移動コストを最小化する問題である。本実施形態における並び替え順序の決定の問題と、巡回セールスマン問題との相違点は、次の通りである。相違点は、巡回セールスマン問題ではセールスマンは最後に出発都市に戻ってくるのに対して、本実施形態の並び替えではフレームからフレームへと推移した最後に最初のフレームに戻る必要はない点である。この相違点による影響は、最適化の対象である評価関数の項の数が1個違うことだけであり、本質的な違いではない。つまり、並び替え順序決定部82は、巡回セールスマン問題を解くための周知の手法を用いて、並び替え順序の最適解(厳密解)または準最適解(近似解)を決定することができる。
 具体的には、並び替え順序決定部82は、フレーム数が比較的小さい場合には、並び替え順序の厳密解を求めることができる。また、並び替え順序決定部82は、フレーム数の大小に依らず、局所探索アルゴリズム、焼きなまし法、遺伝的アルゴリズム、タブー探索(tabu search)といった手法を用いて、近似解を求めることができる。
 次に、ステップS203において、並び替え順序決定部82は、ステップS202の処理によって決定した並び替え順序を、並び替え部30と再整列部50とに渡す。
 図6は、本実施形態による深層特徴圧縮方法を用いた処理のうち、事前学習部以外の全体動作手順を説明するためのフローチャートを示す。以下、これらのフローチャートに沿って、画像処理システム1が、予め決定された並び替え順序にしたがって画像処理を行う動作の手順を説明する。
 まず、ステップS251において、深層特徴生成部20は、画像取得部10から推論用画像を取得する。また、深層特徴生成部20は、多層ニューラルネットワークのモデルパラメータをモデルパラメータ記憶部70から取得する。
 ステップS252において、深層特徴生成部20は、推論用画像の深層特徴を算出し、出力する。具体的には、深層特徴生成部20は、ステップS251で取得したモデルパラメータを使用し、ステップS251で取得した推論用画像を多層ニューラルネットワークに入力する。深層特徴生成部20は、図2に示した多層ニューラルネットワークの第1層21から第m層22までの、上記モデルパラメータに基づく順行伝播処理を行い、その結果として、第m層22(図2)から、深層特徴を出力する。
 ステップS253において、並び替え部30は、事前学習部80から出力された並び替え順序を取得する。並び替え部30は、この並び替え順序にしたがって、深層特徴生成部20から取得した深層特徴を並び替える。具体的には、並び替え部30は、深層特徴生成部20から出力されるフレーム画像群を、上記の並び替え順序にしたがって並び替える。並び替え部30は、並び替え済みの深層特徴を出力する。
 ステップS254において、符号化部41は、並び替え部30が出力した並び替え済みの深層特徴を、即ち、複数のフレーム画像を、符号化する。符号化部41がここで行う符号化は、フレーム間の相関に基づく圧縮符号化である。また、その圧縮符号化の方式は、可逆圧縮であってもよいし、非可逆圧縮であってもよい。符号化部41は、例えば、動画の圧縮符号化のために用いる符号化方式を本ステップで用いる。既に説明したように、事前学習部80が予め行った機械学習により、フレーム画像の並び順は、隣接するフレーム間の類似度の総計が最大になるように、あるいはその近似解になるように調整されている。したがって、符号化部41が、フレーム間の相関に基づく圧縮符号化を行った場合には、最良の、あるいはそれに準じる良好な、圧縮率を実現できることが期待される。符号化部41は、符号化した結果を、ビットストリームとして出力する。
 ステップS255において、符号化部41から復号部42へのビットストリームの伝送が行われる。この伝送は、図示しない通信手段が、例えば、インターネットや、その他の通信ネットワーク等を用いることによって行う。復号部42は、ビットストリームを受信する。復号部42は、受信したビットストリームを復号し、復号された深層特徴を出力する。用いる圧縮符号化の方式が可逆圧縮である場合には、復号部42が出力する深層特徴は、送信側装置2内の並び替え部30が出力した深層特徴と同一である。
 ステップS256において、再整列部50は、事前学習部80より通知された並び替え順序に基づいて、ステップS253において並び替え部30が行った並び替えと逆の並び替えを行う。つまり、再整列部50は、復号部42が出力した深層特徴を、並び替え前の順序に再整列する。
 ステップS257において、クラウド画像処理部60は、再整列部50が出力した再整列済みの深層特徴に基づいて、多層ニューラルネットワークの残りの部分の順行伝播処理を行う。つまり、クラウド画像処理部60は、再整列済みの深層特徴を、図2に示した第(m+1)層61に入力し、第N層62までの順行伝播を行わせる。そして、クラウド画像処理部60は、即ち図2の第N層62からの出力である画像処理結果を、出力する。
 図7は、深層特徴生成部20による処理の手順を示すフローチャートである。図7は、図6に示した手順の一部を、より詳細に説明するものである。
 まず、ステップS301において、深層特徴生成部20は、画像取得部10から推論用画像を取得する。
 次に、ステップS302において、深層特徴生成部20は、モデルパラメータ記憶部70から多層ニューラルネットワークのモデルパラメータを取得する。
 次に、ステップS303において、深層特徴生成部20は、ステップS301で取得した推論用画像を多層ニューラルネットワークに入力する。推論用画像のデータは、事前に決定されている分割階層である第m層(図2)まで順行伝播する。
 次に、ステップS304において、深層特徴生成部20は、ステップS303での順行伝播処理の結果得られた値(第m層22からの出力値)を深層特徴として出力する。
 図8は、並び替え部30による処理の手順を示すフローチャートである。図8は、図6に示した手順の一部を、より詳細に説明するものである。
 ステップS401において、並び替え部30は、並び替え順序決定部82から、並び替え順序の情報を取得する。
 ステップS402において、並び替え部30は、深層特徴生成部20から出力された深層特徴を取得する。この深層特徴は、並び替える前の複数のフレーム画像である。
 ステップS403において、並び替え部30は、ステップS401で取得した順序にしたがって、ステップS402で取得した深層特徴のフレーム画像を並び替える。
 ステップS404において、並び替え部30は、ステップS403で並び替え済みの深層特徴を出力する。並び替え部30は、その深層特徴を、符号化部41に渡す。
 図9は、再整列部50による処理の手順を示すフローチャートである。図9は、図6に示した手順の一部を、より詳細に説明するものである。
 ステップS501において、再整列部50は、並び替え順序決定部82から、並び替え順序の情報を取得する。この並び替え順序は、図5に示した手順で求められたものである。
 ステップS502において、再整列部50は、復号部42から深層特徴を取得する。この深層特徴は、並び替え部30によって並べられた複数のフレーム画像である。
 ステップS503において、再整列部50は、ステップS501で取得した順序の情報に基づいて、ステップS502で取得した深層特徴の再整列を行う。つまり、再整列部50は、並び替え部30が行った並び替えとは逆の並び替えを行う。この再整列部50の処理により、複数のフレーム画像の順序は、並び替え部30が並び替える前の順序に戻る。
 ステップS504において、再整列部50は、再整列させた深層特徴を、出力する。再整列部50は、その再整列済み深層特徴をクラウド画像処理部60に渡す。
 図10は、クラウド画像処理部60による処理の手順を示すフローチャートである。図10は、図6に示した手順の一部を、より詳細に説明するものである。
 ステップS601において、クラウド画像処理部60は、再整列部50が出力した再整列済みの深層特徴を取得する。この深層特徴は、深層特徴生成部20が出力した順序での、複数のフレーム画像である。
 ステップS602において、クラウド画像処理部60は、モデルパラメータ記憶部70から多層ニューラルネットワークのモデルパラメータを取得する。クラウド画像処理部60は、このパラメータのうちの、図2における第(m+1)層61から第N層62までの各層における重み値を使用する。
 ステップS603において、クラウド画像処理部60は、分割された多層ニューラルネットワークの後半部分への入力箇所である第(m+1)層61に、ステップS601で取得した再整列済み深層特徴を入力する。そして、クラウド画像処理部60は、多層ニューラルネットワークの第(m+1)層61から第N層62までの、上記モデルパラメータに基づく順行伝播処理を行う。
 ステップS604において、クラウド画像処理部60は、ステップS603での順行伝播の結果として得られる画像処理結果を出力する。
 以上、説明したように、本実施形態によれば、並び替え順序決定部82が予め並び替え順序を決定しておくため、処理対象のデータ(推論用画像)が入力される都度、深層特徴のフレーム間の相関に関する指標(MSE等)を計算するための諸コストを削減できる。また、本実施形態によれば、並び替え順序決定部82が予め並び替え順序を決定しておくため、決定された並び替え順序をその都度伝送するためのオーバーヘッドを削減することができる。また、並び替え順序決定部82は、中間層(第m層22)の後段に元々のニューラルネットワークとは異なるニューラルネットワークを接続して、学習データを用いて学習処理を行った結果得られるフレーム間の類似度に基づいて、隣接し合うフレーム間での類似度の総計ができるだけ大きくなるような順序を決定する。これにより、深層学習の中間出力データに対して、データの精度を維持しながら、良好な圧縮符号化を行うことが可能となる。また、それにより、相対的に低いビットレートでの深層特徴伝送が可能になる。さらに、副次効果として画像処理システムを活用した目視工程の自動化の応用範囲が広がる。
[第2実施形態]
 次に、第2実施形態について説明する。なお、前実施形態において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。第1実施形態では1チャネルの画像を1フレームとしてインターフレーム予測符号化を行っていた。対して、第2実施形態では、複数チャネル分の画像を1フレームとしてインターフレーム予測符号化を行う。
 第1実施形態では、深層特徴生成部20が生成した深層特徴の各チャネルを1フレームとして、並び替え部30が並び替えを行い、符号化部41が符号化を行っていた(図11Bを参照)。しかしながら、多層ニューラルネットワークの階層が深くなると、チャネルの出力解像度が低下してしまうという問題もある。出力解像度が低下すると、インターフレーム予測を用いずに符号化されるIフレーム部(intra-coded frame)におけるイントラフレーム予測の効率が低下してしまう。このような課題の解決するために、例えば、深層特徴に含まれる複数のチャネルの画像を1フレーム内に整列し、画像として圧縮する手法が考えられる(図11Aを参照)。また、複数のチャネルの画像を1フレーム内に整列し、且つ複数フレームから成る動画として扱う手法が考えられる(図11Cを参照)。
 図11Aと図11Bと図11Cとは、画像化と動画化を同時に行う場合の例を説明するための概略図である。図11Aは、複数チャネル分の画像を1フレームの画像として圧縮符号化する場合のフレーム画像を示す参考例である。図11Bは、1チャネル分の画像を1フレームの画像としてインターフレーム予測符号化を行う場合のフレーム画像を示す例(第1実施形態の方式)である。図11Cは、複数チャネル分の画像を1フレームの画像としながら、複数のフレーム画像についてインターフレーム予測符号化を行う場合(本実施形態の場合)のフレーム画像を示す。
 図12は、第2実施形態の全体的な機能構成の概略を示すブロック図である。図示するように、本実施形態の画像処理システム5は、画像取得部10と、深層特徴生成部20と、並び替え部130と、画像伝送部40と、再整列部150と、クラウド画像処理部60と、モデルパラメータ記憶部70と、事前学習部180とを含む構成を有する。つまり、本実施形態の画像処理システム5は、第1実施形態の画像処理システム1における並び替え部30と、再整列部50と、事前学習部80とに代えて、それぞれ、並び替え部130と、再整列部150と、事前学習部180とを含む。
 並び替え部130は、複数のチャネル分の画像を含むフレーム画像の順序を、フレーム単位で並び替える処理を行う。なお、並び替え部130は、並び替え順序決定部182が決定した並び替え順序にしたがって、並び替えを行う。
 再整列部150は、並び替え部130が並び替えたフレーム画像を、並び替え前の順序に戻す処理を行う。つまり、再整列部150は、フレーム単位での再整列を行う。再整列部150が行う処理は、並び替え部130が行う処理の逆処理である。
 本実施形態では、チャネル数をNcとしたときに、1フレームあたりp枚のチャネル画像を含むフレーム画像の並び替えを行う。pは、2以上の整数である。つまり、1フレームは中間層(第m層)における2以上のチャネル画像を含む。なお、全体のフレーム数は、Nfである。つまり、Ncがpで割り切れる場合には、Nc=p・Nfである。例えば、1枚のフレーム画像は、縦方向および横方向に配列状に整列されたチャネル画像を含む。例えばNcがpで割り切れない場合などには、空く箇所には、チャネル画像に代わる何らかの画像(空白画像等)を埋めてよい。
 つまり、チャネル画像は、C(1)、C(2)、・・・、C(Nc)のNc枚である。また、フレーム画像は、f(1),f(2),・・・,f(Nf)のNf枚である。このとき、どのチャネル画像がどのフレーム画像内に配置されるかを予め固定してもよい。また、どのチャネル画像がどのフレーム画像内に配置されるかも、事前学習部180が機械学習処理等によって決定するようにしてもよい。また、チャネル画像が、フレーム画像内のどの位置に配置されるかを予め固定してもよい。また、チャネル画像がフレーム画像内のどの位置に配置されるかも、事前学習部180が機械学習処理等によって決定するようにしてもよい。
 事前学習部180は、フレーム間の類似度を求め、その類似度に基づいてフレーム単位での並び替え順序を決定する。事前学習部180は、類似度推定部181と、並び替え順序決定部182とを含む。
 類似度推定部181は、学習用データに基づいて、Nf枚のフレーム画像の相互間の類似度を推定する。類似度を推定する方法自体は、前実施形態における類似度推定部81によるそれと同様である。
 並び替え順序決定部182は、類似度推定部181が推定したフレーム間の類似度に基づいて、フレームの並び替え順序を決定する。並び替え順序を推定する方法自体は、前実施形態における並び替え順序決定部82によるそれと同様である。即ち、並び替え順序決定部182は、並び替え後の順序において隣接するフレーム間の類似度の総和が最大になるように、あるいはなるべく大きくなるように、並び替え順序を決定する。並び替え順序決定部182は、並び替え順序を決定する際に、巡回セールスマン問題を解く手法を用いることができる。
 また、並び替え順序決定部182は、最大マッチングに基づくアルゴリズムを用いて、チャネル画像を、どのフレームに配置するかを決定することもできる。また、並び替え順序決定部182は、最大マッチングに基づくアルゴリズムを用いて、チャネル画像を、フレーム内のどの位置に配置するかを決定することもできる。
 図13は、画像化と動画化を同時に行う場合の、並び替え順序決定部82の処理の手順を示すフローチャートである。
 まず、ステップS701において、並び替え順序決定部182は、類似度推定部81から推定類似度を取得する。本ステップの処理は、前実施形態におけるステップS201(図5)の処理と同様である。
 ステップS702において、並び替え順序決定部182は、並び替え順序を決定する。本ステップの処理において、並び替え順序決定部182は、少なくとも、事前に決められたフレーム集合を前提として、巡回セールスマン問題を解くアルゴリズムと同様のアルゴリズムを用いて、フレームの並び替え順序を決定する。また、さらに、並び替え順序決定部182は、最大マッチングに基づくアルゴリズムを用いて、最良のフレーム集合自体を推定してもよい。この場合には、必要なフレーム集合におけるフレーム間の類似度を、類似度推定部181が推定し、並び替え順序決定部182に渡すようにする。
 次に、ステップS703において、並び替え順序決定部182は、ステップS702の処理によって決定した並び替え順序を、並び替え部30と再整列部50とに渡す。本ステップの処理は、前実施形態におけるステップS203(図5)の処理と同様である。
 本実施形態によれば、多層ニューラルネットワークの階層が深くなって、チャネルの出力解像度が低下してしまうような場合にも、イントラフレーム予測の効率の低下を回避することが可能となる。
[変形例]
 第1実施形態や第2実施形態を、次のような変形例として実施することができる。変形例において、深層特徴生成部20に入力されるデータ(これを、処理対象データと呼ぶ。)は、画像(推論用画像)には限定されない。処理対象データは、例えば、音声や、地図情報や、ゲームの局面や、物理量(温度、湿度、圧力、電圧、電流量、流体の流量等を含む)の時系列あるいは空間内配置や、社会的要因による指標値や統計値(価格、為替レート、金利、価格等の指数、人口、雇用統計値等を含む)の時系列あるいは空間内配置等、を含む、任意のパターン等を表すデータであってよい。この変形例では、深層特徴生成部20は、そのような処理対象データの深層特徴を生成する。また、並び替え部30は、予め決定された並び替え順序にしたがって、深層特徴に含まれる複数のチャネルデータに対応する複数のフレームデータ(これを疑似的にフレーム画像とみなしてもよい)の順序の並び替えを行う。符号化部41は、そのようなフレームデータの、フレーム間の相関を利用した圧縮符号化を行う。変形例を用いる場合も、既に説明した第1実施形態あるいは第2実施形態と同様の作用および効果が得られる。
 この変形例によるデータ処理方法は、次に列挙する複数のステップを含む。即ち、第1のステップでは、ニューラルネットワークの入力層から処理対象データを入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層から、各々がチャネルデータを含む複数のフレームデータであって、所定の第1順序で整列された複数のフレームデータを中間出力値として取得する。第2のステップでは、前記第1順序において隣接し合うフレームデータ間の類似度の総計よりも、第2順序において隣接し合うフレームデータ間の類似度の総計のほうが大きくなるように、前記第1順序から前記第2順序への予め決定された並び替え順序に基づいて、前記第1順序で整列されたフレームデータを前記第2順序のフレームデータに並び替える。第3のステップでは、前記第2順序に並び替えられた複数の前記フレームデータを、フレーム間の相関に基づく動画の圧縮符号化方法を用いて圧縮符号化する。
 図14は、既に説明した複数の実施形態(変形例を含む)のそれぞれを実現するためのハードウェア構成の一例を示すブロック図である。図示する構成は、バス901と、プロセッサ902と、メモリ903と、入出力ポート904とを含む構成である。図示するように、プロセッサ902と、メモリ903と、入出力ポート904のそれぞれは、バス901に接続されている。バス901に接続されている構成要素は、バス901を介して相互に信号の送受信を行うことができる。バス901は、それらの信号を伝送する。プロセッサ902は、コンピュータ用のプロセッサである。プロセッサ902は、メモリ903から読み込む命令を実行することができる。プロセッサ902は、それらの命令を実行することにより、メモリ903からデータを読み出したり、メモリ903にデータを書き込んだり、入出力ポート904を介して外部と通信したりする。プロセッサ902のアーキテクチャは、特に限定されるものではない。メモリ903は、命令の列であるプログラムや、データを、少なくとも一時的に記憶する。入出力ポート904は、プロセッサ902等が外部と通信するためのポートである。つまり、入出力ポート904を介して、外部との間でデータを入出力したり、外部との間でその他の信号をやりとりしたりすることができる。
 図14に示す構成により、既に説明した実施形態の機能を持つプログラムを実行することができる。
 上述した複数の実施形態のいずれかをコンピュータとプログラムとを用いて実現できる。上述した形態で実施されるプログラムは、単一の装置に依存するものではなく、プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませて実行することによって画像変換処理を行ってもよい。なお、ここで言う「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM等の可搬媒体や、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことを言う。さらに、「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
 また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
 以上、本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。
 図15は、本発明の実施形態による効果を表す数値のグラフである。このグラフは、圧縮した深層特徴の符号量の平均(横軸)に対する画像処理精度(縦軸)を示す。データセットは画像識別タスクで一般的に用いられるImageNet2012データセットである。破線は、従来技術を用いた場合の結果である。実線は、第1実施形態を用いてフレームの並び替えを行った場合の結果である。このグラフに示されるように、符号量(横軸)の全領域に渡って、従来技術を用いる場合よりも、第1実施形態を用いる場合のほうが、画像処理(識別)精度が若干高い。具体的には、BDレート(BD-rate、Bjontegaard deltabitrate、ビヨンテガード・デルタ・ビットレート)は、従来技術を用いる場合よりも、第1実施形態を用いる場合のほうが、3.3%低い。即ち、本発明が、従来技術よりも良好な圧縮率を実現していることがわかる。
 本発明は、例えば、画像あるいはその他のデータの解析等に利用できる。ただし、本発明の利用範囲は、ここに挙げた可能性に限定されるものではない。
1 画像処理システム
2 送信側装置
3 受信側装置
5 画像処理システム
10 画像取得部
20 深層特徴生成部
21 第1層
22 第m層
30 並び替え部
40 画像伝送部
41 符号化部
42 復号部
50 再整列部
60 クラウド画像処理部
61 第(m+1)層
62 第N層
70 モデルパラメータ記憶部
80 事前学習部
81 類似度推定部
82 並び替え順序決定部
130 並び替え部
150 再整列部
180 事前学習部
181 類似度推定部
182 並び替え順序決定部
901 バス
902 プロセッサ
903 メモリ
904 入出力ポート

Claims (8)

  1.  ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第1順序で整列された中間出力値として取得するステップと、
     前記第1順序において隣接し合う中間出力値の類似度の総計よりも、第2順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第1順序から前記第2順序への予め決定された並び替え順序に基づいて、前記第1順序で整列された中間出力値を前記第2順序に並び替えるステップと、
     前記中間出力値をフレームとみなし、前記第2順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化するステップと、
     を有する画像処理方法。
  2.  前記並び替え順序は、前記中間層の後段に前記ニューラルネットワークとは異なるニューラルネットワークを接続して、学習データを用いて学習処理を行った結果得られる前記異なるニューラルネットワークの重みに基づいて予め決定されている、
     請求項1に記載の画像処理方法。
  3.  前記異なるニューラルネットワークは、1×1の畳み込みの処理を行うニューラルネットワークである、
     請求項2に記載の画像処理方法。
  4.  前記フレーム画像間の前記類似度を、前記異なるニューラルネットワークの重みに基づいて決定する、請求項2または3に記載の画像処理方法。
  5.  前記フレームは前記中間層における2以上のチャネル画像を含む、
     請求項1から4までのいずれか一項に記載の画像処理方法。
  6.  ニューラルネットワークの入力層から処理対象データを入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第1順序で整列された中間出力値として取得するステップと、
     前記第1順序において隣接し合う中間出力値の類似度の総計よりも、第2順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第1順序から前記第2順序への予め決定された並び替え順序に基づいて、前記第1順序で整列された中間出力値を前記第2順序に並び替えるステップと、
     前記中間出力値をフレームとみなし、前記第2順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化するステップと、
     を有するデータ処理方法。
  7.  ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第1順序で整列された中間出力値として出力する深層特徴生成部と、
     前記第1順序において隣接し合う中間出力値の類似度の総計よりも、第2順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第1順序から前記第2順序への予め決定された並び替え順序に基づいて、前記第1順序で整列された中間出力値を前記第2順序に並び替える並び替え部と、
     前記中間出力値をフレームとみなし、前記第2順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する符号化部と、
     を含む画像処理装置。
  8.  ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第1順序で整列された中間出力値として出力する深層特徴生成部と、
     前記第1順序において隣接し合う中間出力値の類似度の総計よりも、第2順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第1順序から前記第2順序への予め決定された並び替え順序に基づいて、前記第1順序で整列された中間出力値を前記第2順序に並び替える並び替え部と、
     前記中間出力値をフレームとみなし、前記第2順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する符号化部と、
     を含む画像処理装置、としてコンピュータを機能させるためのプログラム。
PCT/JP2019/044909 2019-11-15 2019-11-15 画像処理方法、データ処理方法、画像処理装置、およびプログラム WO2021095245A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/773,952 US20220375033A1 (en) 2019-11-15 2019-11-15 Image processing method, data processing method, image processing apparatus and program
JP2021555757A JP7356052B2 (ja) 2019-11-15 2019-11-15 画像処理方法、データ処理方法、画像処理装置、およびプログラム
PCT/JP2019/044909 WO2021095245A1 (ja) 2019-11-15 2019-11-15 画像処理方法、データ処理方法、画像処理装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/044909 WO2021095245A1 (ja) 2019-11-15 2019-11-15 画像処理方法、データ処理方法、画像処理装置、およびプログラム

Publications (1)

Publication Number Publication Date
WO2021095245A1 true WO2021095245A1 (ja) 2021-05-20

Family

ID=75912172

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/044909 WO2021095245A1 (ja) 2019-11-15 2019-11-15 画像処理方法、データ処理方法、画像処理装置、およびプログラム

Country Status (3)

Country Link
US (1) US20220375033A1 (ja)
JP (1) JP7356052B2 (ja)
WO (1) WO2021095245A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009033423A (ja) * 2007-07-26 2009-02-12 Hitachi Ltd 画像圧縮方法、および、画像処理装置
WO2019176579A1 (ja) * 2018-03-15 2019-09-19 ソニー株式会社 画像処理装置および方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009033423A (ja) * 2007-07-26 2009-02-12 Hitachi Ltd 画像圧縮方法、および、画像処理装置
WO2019176579A1 (ja) * 2018-03-15 2019-09-19 ソニー株式会社 画像処理装置および方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FUKUOKA, HISAKAZU ET AL.: "Improving information transmission efficiency in distributed machine learning using video compression technology", IEICE TECHNICAL REPORT, vol. 117, no. 153, July 2017 (2017-07-01), pages 151 - 155 *

Also Published As

Publication number Publication date
JP7356052B2 (ja) 2023-10-04
US20220375033A1 (en) 2022-11-24
JPWO2021095245A1 (ja) 2021-05-20

Similar Documents

Publication Publication Date Title
RU2687039C1 (ru) Устройство для кодирования изображений с предсказанием, устройство для декодирования изображений с предсказанием, способ кодирования изображений с предсказанием, способ декодирования изображений с предсказанием, программа для кодирования изображений с предсказанием и программа для декодирования изображений с предсказанием
US20200160565A1 (en) Methods And Apparatuses For Learned Image Compression
CN104735454B (zh) 通过使用大变换单元对图像进行编码和解码的方法和设备
CN103647972B (zh) 运动图像解码方法和运动图像编码方法
US11363287B2 (en) Future video prediction for coding and streaming of video
CN100463527C (zh) 一种多视点视频图像视差估计的方法
CN104581163B (zh) 通过使用大型变换单元编码和解码图像的方法和设备
US11516478B2 (en) Method and apparatus for coding machine vision data using prediction
CN103037214A (zh) 视频压缩方法
WO2010050152A1 (ja) 画素予測値生成手順自動生成方法、画像符号化方法、画像復号方法、それらの装置、それらのプログラム、およびこれらのプログラムを記録した記録媒体
CN102137263A (zh) 基于cnm关键帧分类的分布式视频编码及解码方法
CN103188494A (zh) 跳过离散余弦变换对深度图像编码/解码的设备和方法
Huang et al. HMFVC: a human-machine friendly video compression scheme
Zou et al. Adaptation and attention for neural video coding
KR101845622B1 (ko) 영상에 대한 적응적 rdpcm 방법, 적응적 rdpcm에 기반한 인코딩 방법 및 적응적 rdpcm에 기반한 디코딩 방법
CN110677644B (zh) 一种视频编码、解码方法及视频编码帧内预测器
Jeong et al. An overhead-free region-based JPEG framework for task-driven image compression
CN111246217B (zh) 基于八度卷积的压缩视频动作识别方法
WO2021095245A1 (ja) 画像処理方法、データ処理方法、画像処理装置、およびプログラム
CN115499666A (zh) 视频的压缩方法、解压缩方法、装置、设备和存储介质
CN116918329A (zh) 一种视频帧的压缩和视频帧的解压缩方法及装置
CN113556551B (zh) 一种编码、解码方法、装置及设备
CN114745556B (zh) 编码方法、装置、数字视网膜***、电子设备及存储介质
CN101184242A (zh) 基于多参考运动补偿的三维小波视频编码算法
Ingole et al. A review on fractal compression and motion estimation techniques

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19952557

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021555757

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19952557

Country of ref document: EP

Kind code of ref document: A1