WO2021095245A1

WO2021095245A1 - 画像処理方法、データ処理方法、画像処理装置、およびプログラム

Info

Publication number: WO2021095245A1
Application number: PCT/JP2019/044909
Authority: WO
Inventors: 聡志鈴木; 基宏高木; 隆一谷田; 真由子渡邊; 木全　英明
Original assignee: 日本電信電話株式会社
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2021-05-20
Also published as: JP7356052B2; US20220375033A1; JPWO2021095245A1

Abstract

深層特徴生成部（２０）は、ニューラルネットワークの入力層（２１）から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層（２２）から、各々がチャネル画像を含む複数のフレーム画像であって、所定の第１順序で整列された複数のフレーム画像を中間出力値として出力する。並び替え部（３０）は、前記第１順序において隣接し合うフレーム画像間の類似度の総計よりも、第２順序において隣接し合うフレーム画像間の類似度の総計のほうが大きくなるように、前記第１順序から前記第２順序への予め決定された並び替え順序に基づいて、前記第１順序で整列されたフレーム画像を前記第２順序のフレーム画像に並び替える。符号化部（４１）は、前記第２順序に並び替えられた複数の前記フレーム画像を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する。

Description

画像処理方法、データ処理方法、画像処理装置、およびプログラム

　本発明は、画像処理方法、データ処理方法、画像処理装置、およびプログラムに関する。

　近年、機械学習技術、特に、畳み込みニューラルネットワーク（Convolutional Neural Network，ＣＮＮ）を用いた、画像内の被写体の識別や検出、領域分割等の技術の精度向上が著しい。機械学習を用いた、各種業務における目視工程の自動化を推進する技術が注目を集めている。

　撮像デバイスがモバイル等のエッジ端末環境にある場合、撮像した画像を処理するためにいくつかのアプローチが候補として考えられる。主なものとして、撮像画像をクラウドまで伝送しクラウドで処理を行うアプローチ（クラウドアプローチ）、あるいはエッジ端末のみで処理を完結するアプローチ（エッジアプローチ）が考えられる。これらの代表的なアプローチに加えて、近年、コラボラティブインテリジェンス（Collaborative Intelligence）と呼ばれるアプローチが提唱されている。

　Collaborative Intelligenceは、エッジとクラウドで計算負荷を分散するアプローチである。エッジデバイスは、ＣＮＮによる画像処理を途中まで行い、その結果であるＣＮＮの中間出力（深層特徴）を伝送する。そして、その残りの処理をクラウドサーバ側が行う。このCollaborative Intelligenceは、電力やレイテンシの観点で、クラウドアプローチやエッジアプローチを凌駕する可能性が示されている（非特許文献１を参照）。

Y. Kang, J. Hauswald, C. Gao, A. Rovinski, T. Mudge, J. Mars, and L. Tang, "Neurosurgeon: Collaborative intelligence between the cloud and mobile edge", 2017 ITU-T Recommendation,"H.265: High Efficiency Video Coding", 2013. H. Choi, I. Bajic,"Deep feature compression for collaborative object detection", 2018. S. Suzuki, H. Shouno,"A study on visual interpretation of network in network", 2017.

　本発明は、Collaborative Intelligenceにおける、深層特徴を圧縮する符号化技術に関連する。即ち、本発明が対象とする符号化技術は、深層特徴を圧縮した際の画像処理精度を基準とし、圧縮しても精度を保持することが望まれる。

　深層特徴の圧縮方式としては、主に２つの方式が考えられる。１つ目は、深層特徴をチャネルごとに整列し、画像として圧縮する方式である。２つ目は、各チャネルを1フレームとみなして、複数フレームの集合を動画として圧縮する方式である。圧縮方式としては、Ｈ．２６５／ＨＥＶＣ（非特許文献２を参照）などの動画像圧縮方式を用いることが一般的である（非特許文献３を参照）。本発明の課題の一つは、動画として圧縮する方式を用いる場合の圧縮率を良くすることである。

　深層特徴を動画として圧縮する場合、インターフレーム予測によってフレーム間の相関を利用することによって、圧縮効率を高めることが期待できる。しかしながら、従来技術においては、ＣＮＮの学習を行う場合にチャネル同士の相関は考量されていない。つまり、フレーム間の相関は考慮されていない。したがって、自然映像を対象としてインターフレーム予測を行う場合と比べて、ＣＮＮのチャネルに関してのインターフレーム予測の効率は良くない。このような状況において、高圧縮を行うと、歪みが大きくなり精度が大幅に低下してしまうことも懸念される。

　その解決策として、フレームの符号化順序を並び替える手法も考えられる。例えば、任意の2フレーム間の平均二乗誤差（ＭＳＥ）等を指標とし、隣接フレーム間のＭＳＥを小さくするような手法を用いることが考えられる。この手法を用いれば、並び替え後の深層特徴において隣接するフレーム間での相関が高まりインターフレーム予測の予測効率が高まる事も期待される。しかしながら、深層特徴は入力画像ごとに生成されるものであるため、入力画像毎に最適な並び替え順序を算出しなければならず、計算量が大幅に増加するという別の問題が懸念される。さらに、並び替え順序が固定されていないことにより、受信側で並び替え順を元に戻すために、深層特徴以外に、並び替え順序もその都度同時に伝送しなくてはならない。つまり、そのオーバーヘッドを無視することができないという問題もある。

　本発明は、深層特徴を圧縮して伝送する際に、その都度並び替え順序を決定することを必要としない画像処理方法、データ処理方法、画像処理装置、およびプログラムを提供しようとするものである。

　本発明の一態様による画像処理方法は、ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第１順序で整列された中間出力値として取得するステップと、前記第１順序において隣接し合う中間出力値の類似度の総計よりも、第２順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第１順序から前記第２順序への予め決定された並び替え順序に基づいて、前記第１順序で整列された中間出力値を前記第２順序に並び替えるステップと、前記中間出力値をフレームとみなし、前記第２順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化するステップと、を有する画像処理方法である。

　また、本発明の一態様は、ニューラルネットワークの入力層から処理対象データを入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第１順序で整列された中間出力値として取得するステップと、前記第１順序において隣接し合う中間出力値の類似度の総計よりも、第２順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第１順序から前記第２順序への予め決定された並び替え順序に基づいて、前記第１順序で整列された中間出力値を前記第２順序に並び替えるステップと、前記中間出力値をフレームとみなし、前記第２順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化するステップと、を有するデータ処理方法である。

　また、本発明の一態様は、ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第１順序で整列された中間出力値として出力する深層特徴生成部と、前記第１順序において隣接し合う中間出力値の類似度の総計よりも、第２順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第１順序から前記第２順序への予め決定された並び替え順序に基づいて、前記第１順序で整列された中間出力値を前記第２順序に並び替える並び替え部と、前記中間出力値をフレームとみなし、前記第２順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する符号化部と、を含む画像処理装置である。

　また、本発明の一態様は、ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第１順序で整列された中間出力値として出力する深層特徴生成部と、前記第１順序において隣接し合う中間出力値の類似度の総計よりも、第２順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第１順序から前記第２順序への予め決定された並び替え順序に基づいて、前記第１順序で整列された中間出力値を前記第２順序に並び替える並び替え部と、前記中間出力値をフレームとみなし、前記第２順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する符号化部と、を含む画像処理装置、としてコンピュータを機能させるためのプログラムである。

　本発明によると、深層特徴を圧縮する際に、予め決定された並び替え順序を用いることにより、その都度並び替え順序を決定することを必要としない。

第１実施形態の全体的な機能構成の概略を示すブロック図である。本実施形態による画像処理システムの少なくとも一部の機能を、送信側装置および受信側装置として実現する場合の機能構成を示すブロック図である。本実施形態による深層特徴圧縮方法のうち事前学習部の全体動作手順を説明するためのフローチャートである。本実施形態の類似度推定部の動作手順を説明するためのフローチャートである。本実施形態の並び替え順序決定部の動作手順を説明するためのフローチャートである。本実施形態による深層特徴圧縮方法を用いた処理のうち、事前学習部以外の全体動作手順を説明するためのフローチャートである。本実施形態の深層特徴生成部の動作を説明するためのフローチャートである。本実施形態の並び替え部の動作を説明するためのフローチャートである。本実施形態の再整列部の動作を説明するためのフローチャートである。本実施形態のクラウド画像処理部の動作を説明するためのフローチャートである。複数チャネル分の画像を１フレームの画像として圧縮符号化する場合のフレーム画像を示す参考例である。１チャネル分の画像を１フレームの画像としてインターフレーム予測符号化を行う場合のフレーム画像を示す例（第１実施形態の方式）である。複数チャネル分の画像を１フレームの画像としながら、複数のフレーム画像についてインターフレーム予測符号化を行う場合のフレーム画像を示す例（第２実施形態の方式）である。第２実施形態の全体的な機能構成の概略を示すブロック図である。本実施形態の画像化と動画化を同時に行う場合の並び替え順序決定部の動作を説明するためのフローチャートである。第１実施形態および第２実施形態のそれぞれを実現するためのハードウェア構成の一例を示すブロック図である。第１実施形態と用いる場合と、従来技術を用いる場合との、圧縮符号化の効果の差を示すグラフである。

［第１実施形態］
　次に、本発明の一実施形態について、図面を参照しながら説明する。本実施形態では、多層ニューラルネットワーク（deep neural network，ＤＮＮ）を用いた画像処理を行う。画像処理のために用いる多層ニューラルネットワークは、典型的な場合には、畳み込みニューラルネットワーク（ＣＮＮ）である。

　図１は、本実施形態の全体的な機能構成の概略を示すブロック図である。図示するように、本実施形態の画像処理システム１は、画像取得部１０と、深層特徴生成部２０と、並び替え部３０と、画像伝送部４０と、再整列部５０と、クラウド画像処理部６０と、モデルパラメータ記憶部７０と、事前学習部８０とを含む構成を有する。これらの各機能部を、例えば、コンピュータと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。

　図１の構成において、事前学習部８０が学習によって推定した並び替え順序を、推論時（画像処理時）に利用する。つまり、図１の構成において、事前学習部８０が動作するタイミングと、画像処理システム１内のその他の部分が動作するタイミングとは、異なる。各部の機能は、次の通りである。

　まず事前学習部８０から説明する。事前学習部８０は、学習用のデータに基づいて、並び替え部３０がフレームの並び替えを行う際の順序を決定する。再整列部５０は、並び替え部３０の並び替え処理の、逆処理を行う。したがって、事前学習部８０が決定した並び替え順序は、再整列部５０にも渡され、利用される。事前学習部８０は、類似度推定部８１と、並び替え順序決定部８２とを含む。

　ここで、事前学習部８０の意図について説明する。事前学習部８０は、フレームにおける所定の位置に存在する所定の特徴が所定の順序（絶対的な順序）に並ぶような並び替え順序を取得する。所定の順序とは、例えば隣接するフレーム間の類似度が最大になる順序である。このようにすることで、事前学習部８０により決定された順序を送信側装置２（図２）と受信側装置３（図２）で共有する。これにより、画像毎に順序を送らなくても並び替えを行う前の順序に再度並び替えることが可能となる。これは、例えばＣＮＮのような畳み込みニューラルネットワークでは、中間層のニューロンの出力は、入力された画像における位置と特徴を反映した値である事も利用するためである。

　類似度推定部８１は、深層特徴生成部２０が出力する深層特徴における、チャネル間の類似度を推定し、出力する。そのため、類似度推定部８１は、モデルパラメータ記憶部７０からモデルパラメータを取得する。類似度推定部８１は、モデルパラメータを取得することにより、深層特徴生成部２０およびクラウド画像処理部６０がそれぞれ持つニューラルネットワークと等価な処理を行うことができる。深層特徴生成部２０とクラウド画像処理部６０とは、多層ニューラルネットワークの、それぞれ、前半部分（上流部分）と後半部分（下流部分）に相当する。つまり、全体の多層ニューラルネットワークが、ある階層において、前半部分と後半部分とに分割されている。類似度推定部８１は、その分割箇所の階層での出力について、チャネル間の類似度を推定する。類似度推定部８１は、このチャネル間の類似度を推定するために、機械学習用の学習データを用いる。この学習データは、深層特徴生成部２０に入力される画像と、その画像についての正解の出力ラベル出力との、対の集合である。類似度推定部８１は、後述するように、深層特徴生成部２０からの出力である階層の後段に、ネットワークインネットワーク（ＮＩＮ）を設ける。類似度推定部８１は、このＮＩＮが導入された多層ニューラルネットワークと、上記の学習データとを用いて、機械学習処理を行う。類似度推定部８１は、その機械学習処理の結果として得られる各チャネルの重みに基づいて、チャネル間の類似度を推定する。ここで、深層特徴とチャネルについて説明する。深層特徴とは、所望の中間層に配置されている全てのニューロンの出力を意図する。図２の例であれば、第ｍ層の出力全てである。チャネルとは、所望の中間層に配置されているニューロンごとの出力を意図する。本実施例においてはニューロン毎の出力値をフレームとみなし、ＨＥＶＣ等の画像符号化方法を適用することを考える。なお、第２実施形態においては２以上且つ所望の中間層のニューロン数未満のニューロンの出力（チャネル画像）を１つのフレームとみなしている。ＣＮＮのように、ニューロンが複数集合して画像上の出力をもたらす構造の場合、その画像状の出力をフレームとする。類似度推定部８１は、推定した類似度を出力する。

　並び替え順序決定部８２は、類似度推定部８１によって推定された類似度を取得する。並び替え順序決定部８２は、取得した任意の２チャネル間の類似度に基づいて、並び替え順序を決定する。並び替え順序決定部８２が決定する並び替え順序は、並び替え部３０がフレームを並び替えたときに、隣接し合うフレーム間の類似度の総計がなるべく大きくなるように調整された順序である。

　つまり、並び替え順序は、中間層（図２における第ｍ層２２にあたる）の後段に前記ニューラルネットワークとは異なるニューラルネットワークを接続して、学習データを用いて学習処理を行った結果得られる前記異なるニューラルネットワークの重みに基づいて予め決定されている。この「異なるニューラルネットワーク」が、上記のＮＩＮである。つまり、「異なるニューラルネットワーク」は、１×１の畳み込みの処理を行うものである。

　次に、画像処理システム１内の、事前学習部８０以外の各部分の機能について説明する。

　画像取得部１０は、画像処理の対象となる画像（推論用画像）を取得し、深層特徴生成部２０に渡す。例えば、画像取得部１０は、撮像された画像を推論用画像として取得する。

　深層特徴生成部２０は、ニューラルネットワークの入力層（図２における第１層２１にあたる）から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層（図２における第ｍ層２２にあたる）から、各々がチャネル画像を含む複数のフレーム画像であって、所定の第１順序で整列された複数のフレーム画像を中間出力値として出力する。言い換えれば、深層特徴生成部２０は、ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第１順序で整列された中間出力値（フレーム画像とみなし得る）として出力する。なお、第１順序は、任意の順序であってよい。

　その実現の一形態として、深層特徴生成部２０は、モデルパラメータ記憶部７０から多層ニューラルネットワークモデルのモデルパラメータを取得する。モデルパラメータは、多層ニューラルネットワークを構成する各ノードにおいて、入力値から出力値を算出する際の重みパラメータである。深層特徴生成部２０は、画像取得部１０から取得した推論用画像に対して上記のパラメータに基づいた変換を施す。深層特徴生成部２０は、多層ニューラルネットワークにおける所定の階層（深層特徴生成部２０としての出力層）まで、順行伝播処理（forward propagation）を実施する。深層特徴生成部２０は、その階層からの出力（多層ニューラルネットワークの中の中間出力）を、深層特徴として出力する。深層特徴生成部２０は、求めた深層特徴を、並び替え部３０に渡す。深層特徴生成部２０が出力する深層特徴の出力値をフレーム画像の画素値とみなすことで、フレーム画像として取り扱うこととする。

　並び替え部３０は、前記第１順序において隣接し合うフレーム画像間の類似度の総計よりも、第２順序において隣接し合うフレーム画像間の類似度の総計のほうが大きくなるように、前記第１順序から前記第２順序への予め決定された並び替え順序に基づいて、前記第１順序で整列されたフレーム画像を前記第２順序のフレーム画像に並び替える。言い換えれば、並び替え部３０は、前記第１順序において隣接し合う中間出力値の類似度の総計よりも、第２順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第１順序から前記第２順序への予め決定された並び替え順序に基づいて、前記第１順序で整列された中間出力値を前記第２順序に並び替える。この並び替え順序は、並び替え順序決定部８２によって決定されるものであり、その具体的な決定方法については後述する。

　つまり、並び替え部３０は、並び替え順序決定部８２から取得した並び替え順序にしたがって、深層特徴生成部２０から渡される深層特徴のフレームの順序を並び替える。並び替え順序決定部８２は、並び替え後の隣接するフレーム間の類似度の総計がなるべく大きくなるような並び替え順序を決定している。したがって、並び替え部３０が並び替えた後の順序による複数のフレームにおいては、隣接するフレーム間の類似度の総計が、最大化されているか、あるいはなるべく大きくなることが期待される。隣接するフレーム間の差の総計を最小化すると言い換えてもよい。並び替え部３０は、上記のように並び替え済みの深層特徴を、画像伝送部４０内の符号化部４１に渡す。

　画像伝送部４０は、並び替え部３０から出力された複数のフレーム画像を、伝送し、再整列部５０に渡す。画像伝送部４０は、符号化部４１と、復号部４２とを含む。符号化部４１と、復号部４２とは、互いに遠隔の地に存在することが想定される。符号化部４１から復号部４２へは、例えば、通信ネットワークを介して情報が伝送される。このような場合、符号化部の出力である符号化データ（ビットストリーム）を送信する送信部と、送信されてきた符号化データを受信する受信部を用意すべきである。

　符号化部４１は、前記第２順序に並び替えられた複数の前記フレーム画像を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する。言い換えれば、符号化部４１は、前記中間出力値をフレームとみなし、前記第２順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する。

　具体的には、符号化部４１は、並び替え部３０から、並び替え済みの深層特徴を取得する。符号化部４１は、並び替え済みの深層特徴を符号化する。符号化部４１は、符号化を行う際に、インターフレーム予測符号化（フレーム間予測符号化）の方式を使用する。言い換えれば、符号化部４１は、隣接するフレーム間の類似性を利用した情報圧縮符号化を行う。符号化の方法自体は、既存の技術を用いてよい。具体例として、符号化の方式として、ＨＥＶＣ（High Efficiency Video Codingとも呼ばれる。）や、Ｈ．２６４／ＡＶＣ（ＡＶＣは、Advanced Video Codingの略）等を用いることができる。前述の通り、並び替え部３０は、深層特徴に含まれる複数のフレーム画像を、隣接し合うフレーム画像間の類似度の総計が最大になるように、あるいはなるべく大きくなるように並び替える。したがって、符号化部４１が圧縮符号化する際には、インターフレーム予測符号化の効果が大きく得られることが期待される。言い換えれば、符号化部４１が圧縮符号化することにより良好な圧縮率が得られることが期待される。符号化部４１は、符号化の結果であるビットストリームを出力する。

　符号化部４１が出力するビットストリームは、図示しない通信手段によって、即ち、例えば、無線あるいは有線による送受信装置によって、復号部４２に伝送される。

　復号部４２は、符号化部４１から伝送されたビットストリームを受信し、そのビットストリームを復号する。復号の処理自体は、符号化部４１が用いた符号化方式に対応するものである。復号部４２は、復号した結果得られる深層特徴（「復号深層特徴」と呼んでもよい）を、再整列部５０に渡す。

　再整列部５０は、復号部４２から復号深層特徴を取得し、この深層特徴に含まれるフレーム画像の順序を、元の順序に戻す。つまり、再整列部５０は、フレーム画像の順序を、並び替え部３０が並び替える前の順序に再整列する。この処理の際に、再整列部５０は、並び替え順序決定部８２から渡される並び替え順序を参照する。再整列部５０は、再整列済みの深層特徴を、クラウド画像処理部６０に渡す。

　クラウド画像処理部６０は、深層特徴生成部２０とともに、多層ニューラルネットワークの処理を行う。クラウド画像処理部６０は、多層ニューラルネットワークのうちの、深層特徴生成部２０の出力層より後の（即ち、下流の）部分の処理を行う。言い換えれば、クラウド画像処理部６０は、深層特徴生成部２０によって行われる処理に後続する、順行伝播処理（forward propagation）を実行する。クラウド画像処理部６０は、モデルパラメータ記憶部７０から、多層ニューラルネットワークのパラメータを取得する。クラウド画像処理部６０は、再整列部５０から渡された再整列済み深層特徴を入力し、上記のパラメータに基づいて画像処理を行い、画像処理の結果を出力する。

　図２は、図１で説明した画像処理システム１の一部分の機能構成を示すブロック図である。画像処理システム１は、一例として、図２に示すように、送信側装置２と受信側装置３とを含むように構成することができる。送信側装置２と受信側装置３のそれぞれを「画像処理装置」と呼んでもよい。送信側装置２は、深層特徴生成部２０と、並び替え部３０と、符号化部４１とを含む。受信側装置３は、復号部４２と、再整列部５０と、クラウド画像処理部６０とを含む。深層特徴生成部２０と、並び替え部３０と、符号化部４１と、復号部４２と、再整列部５０と、クラウド画像処理部６０の各部の機能は、既に図１を参照しながら説明した通りである。なお、図２では、モデルパラメータ記憶部７０や事前学習部８０の記載を省略している。

　深層特徴生成部２０は、内部に、多層ニューラルネットワークの、第１層２１から第ｍ層２２まで（途中の階層は図内で省略）を含む。クラウド画像処理部６０は、内部に、多層ニューラルネットワークの、第（ｍ＋１）層６１から第Ｎ層６２まで（途中の階層は図内で省略）を含む。なお、１≦ｍ≦（Ｎ－１）である。第１層２１は、この多層ニューラルネットワーク全体の入力層である。第Ｎ層６２は、この多層ニューラルネットワーク全体の出力層である。第２層から第（Ｎ－１）層までは、中間層である。深層特徴生成部２０側の第ｍ層２２と、クラウド画像処理部６０側の第（ｍ＋１）層６１とは、論理的には同一の階層である。このように、１つの多層ニューラルネットワークが、深層特徴生成部２０側と、クラウド画像処理部６０側とに、分散して構築されている。

　構成例として、送信側装置２と受信側装置３とを、別々の筐体として実現することができる。送信側装置２と受信側装置３とを、相互に遠隔地に設けるようにしてもよい。また、一例として、多数の送信側装置２と、１台または少数の受信側装置３とで、画像処理システム１を構成するようにしてもよい。送信側装置２は、例えば、スマートフォン等の、撮影機能を有する端末装置であってもよい。送信側装置２は、また、例えば、撮像デバイスが接続された通信端末装置であってもよい。また、受信側装置３は、いわゆるクラウドサーバを用いて実現してもよい。

　構成の一例では、送信側装置２と受信側装置３との間の通信帯域は、画像処理システム１内の他の構成要素間での通信帯域と比べて、狭い。このような場合には、符号化部４１と復号部４２との間での通信の際の、データの圧縮率を良くすることが、画像処理システム１全体のパフォーマンスの向上のためには、強く望まれる。本実施形態の構成は、符号化部４１と復号部４２との間で伝送されるデータの圧縮率を高めるものである。

　図３は、本実施形態による深層特徴圧縮方法のうち事前学習部８０の全体的な動作手順を説明するためのフローチャートである。以下で、このフローチャートを参照しながら、事前学習部８０による処理手順を説明する。

　まず、ステップＳ５１において、類似度推定部８１は、モデルパラメータ記憶部７０から、多層ニューラルネットワークのモデルパラメータを取得する。

　次に、ステップＳ５２において、類似度推定部８１は、図２の深層特徴生成部２０内のニューラルネットワークの出力層（第ｍ層２２）の後段に、ネットワークインネットワーク（ＮＩＮ）を設けた構成により、学習処理を行う。類似度推定部８１は、この学習処理の結果であるＮＩＮの重みに基づいて、フレーム画像間での類似度を推定する。

　次に、ステップＳ５３において、並び替え順序決定部８２は、ステップＳ５２で推定されたフレーム間の類似度に基づいて、フレームの並び替え順序を決定する。その並び替え順序とは、全体的なフレーム間相関（隣接するフレーム間での類似度の総計）を高めるような、順序である。並び替え順序決定部８２は、決定した並び替え順序を、並び替え部３０および再整列部５０に通知する。

　図４は、本実施形態の類似度推定部８１の動作手順を、より詳細に説明するためのフローチャートである。以下、このフローチャートに沿って、類似度推定部８１の動作を説明する。

　まず、ステップＳ１０１において、類似度推定部８１は、モデルパラメータ記憶部７０から、多層ニューラルネットワークのパラメータを取得する。

　次に、ステップＳ１０２において、類似度推定部８１は、ステップＳ１０１で得たパラメータによって決定される多層ニューラルネットワークの中の所定の階層（図２に示した第ｍ層２２）の後段に、別の階層を追加する。この別の階層とは、Network In Network（ＮＩＮ）に相当する階層である。ＮＩＮは、１×１の畳み込みに相当するフィルタ処理である。ＮＩＮは、類似する特徴を抽出するフィルタに対して大きい重みをもたらすことが知られている（非特許文献４も参照）。ＮＩＮは複数のチャネル画像を出力することが可能で、そのチャネル数は任意に設定可能である。このチャネル数は、例えば、分割する階層数（ここでは、ｍ）と同程度であることが想定される。ただし、出力のチャネル数は、必ずしもそのような階層数と同程度でなくてもよく、その場合にも同様の効果を奏する。なお、類似度推定部８１は、上記のＮＩＮアーキテクチャを、ガウス分布等からランダムに初期化してよい。

　次に、ステップＳ１０３において、類似度推定部８１は、ステップＳ１０２で追加したＮＩＮのアーキテクチャ部以降の機械学習を行う。なお、類似度推定部８１は、分割される層より前の層（つまり、図２に示した第１層２１から第ｍ層２２までの層）における多層ネットワークの重みについては、変更しない。ここでの機械学習では、例えば、画像処理結果であるｘ、即ち、多層ニューラルネットワークからの出力であるｘと、学習データとして与えられる正解ラベルｙとの差分である交差エントロピー損失等を小さくするような学習を行う。この交差エントロピー損失は、次の式（１）で与えられる。

　ただし、実施しようとする画像処理タスクにおいて適切な目的関数であれば、平均二乗誤差（mean square error）等を用いて学習してもよく、その場合にも同様の効果を奏する。

　次に、ステップＳ１０４において、類似度推定部８１は、推定類似度を出力する。ここでの推定類似度は、ステップＳ１０３における学習が完了した後のＮＩＮの重みパラメータの値である。ＮＩＮに基づく本実施形態では、大きい重みを持つフレームの共起回数等を推定類似度として利用できる。推定類似度は、任意の異なる２つのチャネル間の（即ち、フレーム間の）類似度の値として出力される。

　図５は、本実施形態の並び替え順序決定部８２の動作手順を説明するためのフローチャートである。以下、このフローチャートに沿って、並び替え順序決定部８２の動作を説明する。

　まず、ステップＳ２０１において、並び替え順序決定部８２は、類似度推定部８１から推定類似度を取得する。この推定類似度は、図４のステップＳ１０４において類似度推定部８１が出力するものである。

　次に、ステップＳ２０２において、並び替え順序決定部８２は、深層特徴のフレーム間の推定類似度の総和が最大になるようなフレームの並び替え順序を推定する。並び替え順序の推定をより具体的に書くと、次の通りである。

　図２の第ｍ層２２から出力されるフレームが、ｆ（１），ｆ（２），・・・，ｆ（Ｎｆ）とする。ただし、Ｎｆは、第ｍ層２２から出力されるフレーム数である。本実施形態では、１フレームが、深層特徴の１チャネルに対応する。この送信側装置２は、適宜、これらのフレームｆ（１），ｆ（２），・・・，ｆ（Ｎｆ）の並び替えを行ってから符号化することができる。並び替えた結果の順序によるフレームをｆｐ（１），ｆｐ（２），・・・，ｆｐ（Ｎｆ）とする。ただし、集合｛ｆ（１），ｆ（２），・・・，ｆ（Ｎｆ）｝と集合｛ｆｐ（１），ｆｐ（２），・・・，ｆｐ（Ｎｆ）｝とは一致する。このとき、推定類似度の総和Ｓは、次の式（２）により与えられる。

　ただし、式（２）において、ｓ（ｆ（ｉ），ｆ（ｊ））は、ｉ番目のフレームとｊ番目のフレームとの間の推定された類似度である。つまり、並び替え順序決定部８２は、式（２）の総和Ｓを最大にするような並び替えを求める。一般的に、総和Ｓを最大にするフレーム順序の並び替えの厳密解は総当たりでしか求められない。したがって、対象とするフレーム数が大きい場合には、現実的な時間内にこの厳密解を決定することは困難である。ただし、この並び替えの順序を決定する問題は、巡回セールスマン問題（ＴＳＰ，travelling salesman problem）と、ほぼ同一である。巡回セールスマン問題は、任意の２都市間の移動コストが予め与えられている状況で、出発都市から、所定の複数都市をすべて巡回した後に、再び出発都市に戻る経路を最適化する問題である。つまり、巡回に要する総移動コストを最小化する問題である。本実施形態における並び替え順序の決定の問題と、巡回セールスマン問題との相違点は、次の通りである。相違点は、巡回セールスマン問題ではセールスマンは最後に出発都市に戻ってくるのに対して、本実施形態の並び替えではフレームからフレームへと推移した最後に最初のフレームに戻る必要はない点である。この相違点による影響は、最適化の対象である評価関数の項の数が１個違うことだけであり、本質的な違いではない。つまり、並び替え順序決定部８２は、巡回セールスマン問題を解くための周知の手法を用いて、並び替え順序の最適解（厳密解）または準最適解（近似解）を決定することができる。

　具体的には、並び替え順序決定部８２は、フレーム数が比較的小さい場合には、並び替え順序の厳密解を求めることができる。また、並び替え順序決定部８２は、フレーム数の大小に依らず、局所探索アルゴリズム、焼きなまし法、遺伝的アルゴリズム、タブー探索（tabu search）といった手法を用いて、近似解を求めることができる。

　次に、ステップＳ２０３において、並び替え順序決定部８２は、ステップＳ２０２の処理によって決定した並び替え順序を、並び替え部３０と再整列部５０とに渡す。

　図６は、本実施形態による深層特徴圧縮方法を用いた処理のうち、事前学習部以外の全体動作手順を説明するためのフローチャートを示す。以下、これらのフローチャートに沿って、画像処理システム１が、予め決定された並び替え順序にしたがって画像処理を行う動作の手順を説明する。

　まず、ステップＳ２５１において、深層特徴生成部２０は、画像取得部１０から推論用画像を取得する。また、深層特徴生成部２０は、多層ニューラルネットワークのモデルパラメータをモデルパラメータ記憶部７０から取得する。

　ステップＳ２５２において、深層特徴生成部２０は、推論用画像の深層特徴を算出し、出力する。具体的には、深層特徴生成部２０は、ステップＳ２５１で取得したモデルパラメータを使用し、ステップＳ２５１で取得した推論用画像を多層ニューラルネットワークに入力する。深層特徴生成部２０は、図２に示した多層ニューラルネットワークの第１層２１から第ｍ層２２までの、上記モデルパラメータに基づく順行伝播処理を行い、その結果として、第ｍ層２２（図２）から、深層特徴を出力する。

　ステップＳ２５３において、並び替え部３０は、事前学習部８０から出力された並び替え順序を取得する。並び替え部３０は、この並び替え順序にしたがって、深層特徴生成部２０から取得した深層特徴を並び替える。具体的には、並び替え部３０は、深層特徴生成部２０から出力されるフレーム画像群を、上記の並び替え順序にしたがって並び替える。並び替え部３０は、並び替え済みの深層特徴を出力する。

　ステップＳ２５４において、符号化部４１は、並び替え部３０が出力した並び替え済みの深層特徴を、即ち、複数のフレーム画像を、符号化する。符号化部４１がここで行う符号化は、フレーム間の相関に基づく圧縮符号化である。また、その圧縮符号化の方式は、可逆圧縮であってもよいし、非可逆圧縮であってもよい。符号化部４１は、例えば、動画の圧縮符号化のために用いる符号化方式を本ステップで用いる。既に説明したように、事前学習部８０が予め行った機械学習により、フレーム画像の並び順は、隣接するフレーム間の類似度の総計が最大になるように、あるいはその近似解になるように調整されている。したがって、符号化部４１が、フレーム間の相関に基づく圧縮符号化を行った場合には、最良の、あるいはそれに準じる良好な、圧縮率を実現できることが期待される。符号化部４１は、符号化した結果を、ビットストリームとして出力する。

　ステップＳ２５５において、符号化部４１から復号部４２へのビットストリームの伝送が行われる。この伝送は、図示しない通信手段が、例えば、インターネットや、その他の通信ネットワーク等を用いることによって行う。復号部４２は、ビットストリームを受信する。復号部４２は、受信したビットストリームを復号し、復号された深層特徴を出力する。用いる圧縮符号化の方式が可逆圧縮である場合には、復号部４２が出力する深層特徴は、送信側装置２内の並び替え部３０が出力した深層特徴と同一である。

　ステップＳ２５６において、再整列部５０は、事前学習部８０より通知された並び替え順序に基づいて、ステップＳ２５３において並び替え部３０が行った並び替えと逆の並び替えを行う。つまり、再整列部５０は、復号部４２が出力した深層特徴を、並び替え前の順序に再整列する。

　ステップＳ２５７において、クラウド画像処理部６０は、再整列部５０が出力した再整列済みの深層特徴に基づいて、多層ニューラルネットワークの残りの部分の順行伝播処理を行う。つまり、クラウド画像処理部６０は、再整列済みの深層特徴を、図２に示した第（ｍ＋１）層６１に入力し、第Ｎ層６２までの順行伝播を行わせる。そして、クラウド画像処理部６０は、即ち図２の第Ｎ層６２からの出力である画像処理結果を、出力する。

　図７は、深層特徴生成部２０による処理の手順を示すフローチャートである。図７は、図６に示した手順の一部を、より詳細に説明するものである。

　まず、ステップＳ３０１において、深層特徴生成部２０は、画像取得部１０から推論用画像を取得する。

　次に、ステップＳ３０２において、深層特徴生成部２０は、モデルパラメータ記憶部７０から多層ニューラルネットワークのモデルパラメータを取得する。

　次に、ステップＳ３０３において、深層特徴生成部２０は、ステップＳ３０１で取得した推論用画像を多層ニューラルネットワークに入力する。推論用画像のデータは、事前に決定されている分割階層である第ｍ層（図２）まで順行伝播する。

　次に、ステップＳ３０４において、深層特徴生成部２０は、ステップＳ３０３での順行伝播処理の結果得られた値（第ｍ層２２からの出力値）を深層特徴として出力する。

　図８は、並び替え部３０による処理の手順を示すフローチャートである。図８は、図６に示した手順の一部を、より詳細に説明するものである。

　ステップＳ４０１において、並び替え部３０は、並び替え順序決定部８２から、並び替え順序の情報を取得する。

　ステップＳ４０２において、並び替え部３０は、深層特徴生成部２０から出力された深層特徴を取得する。この深層特徴は、並び替える前の複数のフレーム画像である。

　ステップＳ４０３において、並び替え部３０は、ステップＳ４０１で取得した順序にしたがって、ステップＳ４０２で取得した深層特徴のフレーム画像を並び替える。

　ステップＳ４０４において、並び替え部３０は、ステップＳ４０３で並び替え済みの深層特徴を出力する。並び替え部３０は、その深層特徴を、符号化部４１に渡す。

　図９は、再整列部５０による処理の手順を示すフローチャートである。図９は、図６に示した手順の一部を、より詳細に説明するものである。

　ステップＳ５０１において、再整列部５０は、並び替え順序決定部８２から、並び替え順序の情報を取得する。この並び替え順序は、図５に示した手順で求められたものである。

　ステップＳ５０２において、再整列部５０は、復号部４２から深層特徴を取得する。この深層特徴は、並び替え部３０によって並べられた複数のフレーム画像である。

　ステップＳ５０３において、再整列部５０は、ステップＳ５０１で取得した順序の情報に基づいて、ステップＳ５０２で取得した深層特徴の再整列を行う。つまり、再整列部５０は、並び替え部３０が行った並び替えとは逆の並び替えを行う。この再整列部５０の処理により、複数のフレーム画像の順序は、並び替え部３０が並び替える前の順序に戻る。

　ステップＳ５０４において、再整列部５０は、再整列させた深層特徴を、出力する。再整列部５０は、その再整列済み深層特徴をクラウド画像処理部６０に渡す。

　図１０は、クラウド画像処理部６０による処理の手順を示すフローチャートである。図１０は、図６に示した手順の一部を、より詳細に説明するものである。

　ステップＳ６０１において、クラウド画像処理部６０は、再整列部５０が出力した再整列済みの深層特徴を取得する。この深層特徴は、深層特徴生成部２０が出力した順序での、複数のフレーム画像である。

　ステップＳ６０２において、クラウド画像処理部６０は、モデルパラメータ記憶部７０から多層ニューラルネットワークのモデルパラメータを取得する。クラウド画像処理部６０は、このパラメータのうちの、図２における第（ｍ＋１）層６１から第Ｎ層６２までの各層における重み値を使用する。

　ステップＳ６０３において、クラウド画像処理部６０は、分割された多層ニューラルネットワークの後半部分への入力箇所である第（ｍ＋１）層６１に、ステップＳ６０１で取得した再整列済み深層特徴を入力する。そして、クラウド画像処理部６０は、多層ニューラルネットワークの第（ｍ＋１）層６１から第Ｎ層６２までの、上記モデルパラメータに基づく順行伝播処理を行う。

　ステップＳ６０４において、クラウド画像処理部６０は、ステップＳ６０３での順行伝播の結果として得られる画像処理結果を出力する。

　以上、説明したように、本実施形態によれば、並び替え順序決定部８２が予め並び替え順序を決定しておくため、処理対象のデータ（推論用画像）が入力される都度、深層特徴のフレーム間の相関に関する指標（ＭＳＥ等）を計算するための諸コストを削減できる。また、本実施形態によれば、並び替え順序決定部８２が予め並び替え順序を決定しておくため、決定された並び替え順序をその都度伝送するためのオーバーヘッドを削減することができる。また、並び替え順序決定部８２は、中間層（第ｍ層２２）の後段に元々のニューラルネットワークとは異なるニューラルネットワークを接続して、学習データを用いて学習処理を行った結果得られるフレーム間の類似度に基づいて、隣接し合うフレーム間での類似度の総計ができるだけ大きくなるような順序を決定する。これにより、深層学習の中間出力データに対して、データの精度を維持しながら、良好な圧縮符号化を行うことが可能となる。また、それにより、相対的に低いビットレートでの深層特徴伝送が可能になる。さらに、副次効果として画像処理システムを活用した目視工程の自動化の応用範囲が広がる。

［第２実施形態］
　次に、第２実施形態について説明する。なお、前実施形態において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。第１実施形態では１チャネルの画像を１フレームとしてインターフレーム予測符号化を行っていた。対して、第２実施形態では、複数チャネル分の画像を１フレームとしてインターフレーム予測符号化を行う。

　第１実施形態では、深層特徴生成部２０が生成した深層特徴の各チャネルを１フレームとして、並び替え部３０が並び替えを行い、符号化部４１が符号化を行っていた（図１１Ｂを参照）。しかしながら、多層ニューラルネットワークの階層が深くなると、チャネルの出力解像度が低下してしまうという問題もある。出力解像度が低下すると、インターフレーム予測を用いずに符号化されるＩフレーム部（intra-coded frame）におけるイントラフレーム予測の効率が低下してしまう。このような課題の解決するために、例えば、深層特徴に含まれる複数のチャネルの画像を１フレーム内に整列し、画像として圧縮する手法が考えられる（図１１Ａを参照）。また、複数のチャネルの画像を１フレーム内に整列し、且つ複数フレームから成る動画として扱う手法が考えられる（図１１Ｃを参照）。

　図１１Ａと図１１Ｂと図１１Ｃとは、画像化と動画化を同時に行う場合の例を説明するための概略図である。図１１Ａは、複数チャネル分の画像を１フレームの画像として圧縮符号化する場合のフレーム画像を示す参考例である。図１１Ｂは、１チャネル分の画像を１フレームの画像としてインターフレーム予測符号化を行う場合のフレーム画像を示す例（第１実施形態の方式）である。図１１Ｃは、複数チャネル分の画像を１フレームの画像としながら、複数のフレーム画像についてインターフレーム予測符号化を行う場合（本実施形態の場合）のフレーム画像を示す。

　図１２は、第２実施形態の全体的な機能構成の概略を示すブロック図である。図示するように、本実施形態の画像処理システム５は、画像取得部１０と、深層特徴生成部２０と、並び替え部１３０と、画像伝送部４０と、再整列部１５０と、クラウド画像処理部６０と、モデルパラメータ記憶部７０と、事前学習部１８０とを含む構成を有する。つまり、本実施形態の画像処理システム５は、第１実施形態の画像処理システム１における並び替え部３０と、再整列部５０と、事前学習部８０とに代えて、それぞれ、並び替え部１３０と、再整列部１５０と、事前学習部１８０とを含む。

　並び替え部１３０は、複数のチャネル分の画像を含むフレーム画像の順序を、フレーム単位で並び替える処理を行う。なお、並び替え部１３０は、並び替え順序決定部１８２が決定した並び替え順序にしたがって、並び替えを行う。

　再整列部１５０は、並び替え部１３０が並び替えたフレーム画像を、並び替え前の順序に戻す処理を行う。つまり、再整列部１５０は、フレーム単位での再整列を行う。再整列部１５０が行う処理は、並び替え部１３０が行う処理の逆処理である。

　本実施形態では、チャネル数をＮｃとしたときに、１フレームあたりｐ枚のチャネル画像を含むフレーム画像の並び替えを行う。ｐは、２以上の整数である。つまり、１フレームは中間層（第ｍ層）における２以上のチャネル画像を含む。なお、全体のフレーム数は、Ｎｆである。つまり、Ｎｃがｐで割り切れる場合には、Ｎｃ＝ｐ・Ｎｆである。例えば、１枚のフレーム画像は、縦方向および横方向に配列状に整列されたチャネル画像を含む。例えばＮｃがｐで割り切れない場合などには、空く箇所には、チャネル画像に代わる何らかの画像（空白画像等）を埋めてよい。

　つまり、チャネル画像は、Ｃ（１）、Ｃ（２）、・・・、Ｃ（Ｎｃ）のＮｃ枚である。また、フレーム画像は、ｆ（１），ｆ（２），・・・，ｆ（Ｎｆ）のＮｆ枚である。このとき、どのチャネル画像がどのフレーム画像内に配置されるかを予め固定してもよい。また、どのチャネル画像がどのフレーム画像内に配置されるかも、事前学習部１８０が機械学習処理等によって決定するようにしてもよい。また、チャネル画像が、フレーム画像内のどの位置に配置されるかを予め固定してもよい。また、チャネル画像がフレーム画像内のどの位置に配置されるかも、事前学習部１８０が機械学習処理等によって決定するようにしてもよい。

　事前学習部１８０は、フレーム間の類似度を求め、その類似度に基づいてフレーム単位での並び替え順序を決定する。事前学習部１８０は、類似度推定部１８１と、並び替え順序決定部１８２とを含む。

　類似度推定部１８１は、学習用データに基づいて、Ｎｆ枚のフレーム画像の相互間の類似度を推定する。類似度を推定する方法自体は、前実施形態における類似度推定部８１によるそれと同様である。

　並び替え順序決定部１８２は、類似度推定部１８１が推定したフレーム間の類似度に基づいて、フレームの並び替え順序を決定する。並び替え順序を推定する方法自体は、前実施形態における並び替え順序決定部８２によるそれと同様である。即ち、並び替え順序決定部１８２は、並び替え後の順序において隣接するフレーム間の類似度の総和が最大になるように、あるいはなるべく大きくなるように、並び替え順序を決定する。並び替え順序決定部１８２は、並び替え順序を決定する際に、巡回セールスマン問題を解く手法を用いることができる。

　また、並び替え順序決定部１８２は、最大マッチングに基づくアルゴリズムを用いて、チャネル画像を、どのフレームに配置するかを決定することもできる。また、並び替え順序決定部１８２は、最大マッチングに基づくアルゴリズムを用いて、チャネル画像を、フレーム内のどの位置に配置するかを決定することもできる。

　図１３は、画像化と動画化を同時に行う場合の、並び替え順序決定部８２の処理の手順を示すフローチャートである。

　まず、ステップＳ７０１において、並び替え順序決定部１８２は、類似度推定部８１から推定類似度を取得する。本ステップの処理は、前実施形態におけるステップＳ２０１（図５）の処理と同様である。

　ステップＳ７０２において、並び替え順序決定部１８２は、並び替え順序を決定する。本ステップの処理において、並び替え順序決定部１８２は、少なくとも、事前に決められたフレーム集合を前提として、巡回セールスマン問題を解くアルゴリズムと同様のアルゴリズムを用いて、フレームの並び替え順序を決定する。また、さらに、並び替え順序決定部１８２は、最大マッチングに基づくアルゴリズムを用いて、最良のフレーム集合自体を推定してもよい。この場合には、必要なフレーム集合におけるフレーム間の類似度を、類似度推定部１８１が推定し、並び替え順序決定部１８２に渡すようにする。

　次に、ステップＳ７０３において、並び替え順序決定部１８２は、ステップＳ７０２の処理によって決定した並び替え順序を、並び替え部３０と再整列部５０とに渡す。本ステップの処理は、前実施形態におけるステップＳ２０３（図５）の処理と同様である。

　本実施形態によれば、多層ニューラルネットワークの階層が深くなって、チャネルの出力解像度が低下してしまうような場合にも、イントラフレーム予測の効率の低下を回避することが可能となる。

［変形例］
　第１実施形態や第２実施形態を、次のような変形例として実施することができる。変形例において、深層特徴生成部２０に入力されるデータ（これを、処理対象データと呼ぶ。）は、画像（推論用画像）には限定されない。処理対象データは、例えば、音声や、地図情報や、ゲームの局面や、物理量（温度、湿度、圧力、電圧、電流量、流体の流量等を含む）の時系列あるいは空間内配置や、社会的要因による指標値や統計値（価格、為替レート、金利、価格等の指数、人口、雇用統計値等を含む）の時系列あるいは空間内配置等、を含む、任意のパターン等を表すデータであってよい。この変形例では、深層特徴生成部２０は、そのような処理対象データの深層特徴を生成する。また、並び替え部３０は、予め決定された並び替え順序にしたがって、深層特徴に含まれる複数のチャネルデータに対応する複数のフレームデータ（これを疑似的にフレーム画像とみなしてもよい）の順序の並び替えを行う。符号化部４１は、そのようなフレームデータの、フレーム間の相関を利用した圧縮符号化を行う。変形例を用いる場合も、既に説明した第１実施形態あるいは第２実施形態と同様の作用および効果が得られる。

　この変形例によるデータ処理方法は、次に列挙する複数のステップを含む。即ち、第１のステップでは、ニューラルネットワークの入力層から処理対象データを入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層から、各々がチャネルデータを含む複数のフレームデータであって、所定の第１順序で整列された複数のフレームデータを中間出力値として取得する。第２のステップでは、前記第１順序において隣接し合うフレームデータ間の類似度の総計よりも、第２順序において隣接し合うフレームデータ間の類似度の総計のほうが大きくなるように、前記第１順序から前記第２順序への予め決定された並び替え順序に基づいて、前記第１順序で整列されたフレームデータを前記第２順序のフレームデータに並び替える。第３のステップでは、前記第２順序に並び替えられた複数の前記フレームデータを、フレーム間の相関に基づく動画の圧縮符号化方法を用いて圧縮符号化する。

　図１４は、既に説明した複数の実施形態（変形例を含む）のそれぞれを実現するためのハードウェア構成の一例を示すブロック図である。図示する構成は、バス９０１と、プロセッサ９０２と、メモリ９０３と、入出力ポート９０４とを含む構成である。図示するように、プロセッサ９０２と、メモリ９０３と、入出力ポート９０４のそれぞれは、バス９０１に接続されている。バス９０１に接続されている構成要素は、バス９０１を介して相互に信号の送受信を行うことができる。バス９０１は、それらの信号を伝送する。プロセッサ９０２は、コンピュータ用のプロセッサである。プロセッサ９０２は、メモリ９０３から読み込む命令を実行することができる。プロセッサ９０２は、それらの命令を実行することにより、メモリ９０３からデータを読み出したり、メモリ９０３にデータを書き込んだり、入出力ポート９０４を介して外部と通信したりする。プロセッサ９０２のアーキテクチャは、特に限定されるものではない。メモリ９０３は、命令の列であるプログラムや、データを、少なくとも一時的に記憶する。入出力ポート９０４は、プロセッサ９０２等が外部と通信するためのポートである。つまり、入出力ポート９０４を介して、外部との間でデータを入出力したり、外部との間でその他の信号をやりとりしたりすることができる。

　図１４に示す構成により、既に説明した実施形態の機能を持つプログラムを実行することができる。

　上述した複数の実施形態のいずれかをコンピュータとプログラムとを用いて実現できる。上述した形態で実施されるプログラムは、単一の装置に依存するものではなく、プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませて実行することによって画像変換処理を行ってもよい。なお、ここで言う「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ等の可搬媒体や、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことを言う。さらに、「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

　また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

　以上、本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。

　図１５は、本発明の実施形態による効果を表す数値のグラフである。このグラフは、圧縮した深層特徴の符号量の平均（横軸）に対する画像処理精度（縦軸）を示す。データセットは画像識別タスクで一般的に用いられるImageNet2012データセットである。破線は、従来技術を用いた場合の結果である。実線は、第１実施形態を用いてフレームの並び替えを行った場合の結果である。このグラフに示されるように、符号量（横軸）の全領域に渡って、従来技術を用いる場合よりも、第１実施形態を用いる場合のほうが、画像処理（識別）精度が若干高い。具体的には、ＢＤレート（BD-rate、Bjontegaard deltabitrate、ビヨンテガード・デルタ・ビットレート）は、従来技術を用いる場合よりも、第１実施形態を用いる場合のほうが、３．３％低い。即ち、本発明が、従来技術よりも良好な圧縮率を実現していることがわかる。

　本発明は、例えば、画像あるいはその他のデータの解析等に利用できる。ただし、本発明の利用範囲は、ここに挙げた可能性に限定されるものではない。

１　画像処理システム
２　送信側装置
３　受信側装置
５　画像処理システム
１０　画像取得部
２０　深層特徴生成部
２１　第１層
２２　第ｍ層
３０　並び替え部
４０　画像伝送部
４１　符号化部
４２　復号部
５０　再整列部
６０　クラウド画像処理部
６１　第（ｍ＋１）層
６２　第Ｎ層
７０　モデルパラメータ記憶部
８０　事前学習部
８１　類似度推定部
８２　並び替え順序決定部
１３０　並び替え部
１５０　再整列部
１８０　事前学習部
１８１　類似度推定部
１８２　並び替え順序決定部
９０１　バス
９０２　プロセッサ
９０３　メモリ
９０４　入出力ポート

Claims

　ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第１順序で整列された中間出力値として取得するステップと、
　前記第１順序において隣接し合う中間出力値の類似度の総計よりも、第２順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第１順序から前記第２順序への予め決定された並び替え順序に基づいて、前記第１順序で整列された中間出力値を前記第２順序に並び替えるステップと、
　前記中間出力値をフレームとみなし、前記第２順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化するステップと、
　を有する画像処理方法。
　前記並び替え順序は、前記中間層の後段に前記ニューラルネットワークとは異なるニューラルネットワークを接続して、学習データを用いて学習処理を行った結果得られる前記異なるニューラルネットワークの重みに基づいて予め決定されている、
　請求項１に記載の画像処理方法。
　前記異なるニューラルネットワークは、１×１の畳み込みの処理を行うニューラルネットワークである、
　請求項２に記載の画像処理方法。
　前記フレーム画像間の前記類似度を、前記異なるニューラルネットワークの重みに基づいて決定する、請求項２または３に記載の画像処理方法。
　前記フレームは前記中間層における２以上のチャネル画像を含む、
　請求項１から４までのいずれか一項に記載の画像処理方法。
　ニューラルネットワークの入力層から処理対象データを入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第１順序で整列された中間出力値として取得するステップと、
　前記第１順序において隣接し合う中間出力値の類似度の総計よりも、第２順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第１順序から前記第２順序への予め決定された並び替え順序に基づいて、前記第１順序で整列された中間出力値を前記第２順序に並び替えるステップと、
　前記中間出力値をフレームとみなし、前記第２順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化するステップと、
　を有するデータ処理方法。
　ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第１順序で整列された中間出力値として出力する深層特徴生成部と、
　前記第１順序において隣接し合う中間出力値の類似度の総計よりも、第２順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第１順序から前記第２順序への予め決定された並び替え順序に基づいて、前記第１順序で整列された中間出力値を前記第２順序に並び替える並び替え部と、
　前記中間出力値をフレームとみなし、前記第２順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する符号化部と、
　を含む画像処理装置。
　ニューラルネットワークの入力層から推論用画像を入力し、前記ニューラルネットワークにおける順行伝播を行って、前記ニューラルネットワークの出力層ではない所定の階層である中間層におけるニューロンの出力値を所定の第１順序で整列された中間出力値として出力する深層特徴生成部と、
　前記第１順序において隣接し合う中間出力値の類似度の総計よりも、第２順序において隣接し合う中間出力値の類似度の総計のほうが大きくなるように、前記第１順序から前記第２順序への予め決定された並び替え順序に基づいて、前記第１順序で整列された中間出力値を前記第２順序に並び替える並び替え部と、
　前記中間出力値をフレームとみなし、前記第２順序に並び替えられた複数の前記中間出力値を、フレーム間の相関に基づく圧縮符号化方法を用いて圧縮符号化する符号化部と、
　を含む画像処理装置、としてコンピュータを機能させるためのプログラム。