JP2022135080A

JP2022135080A - 画像処理装置および画像処理方法

Info

Publication number: JP2022135080A
Application number: JP2021034666A
Authority: JP
Inventors: 啓治渡邊; Keiji Watanabe; 英勝杉山; Hidekatsu Sugiyama; 敬史山崎; Takashi Yamazaki
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2022-09-15
Also published as: US20220292814A1

Abstract

【課題】検査対象の画像に含まれる異常部分を、機械学習モデルを用いて検出する画像処理装置において、サイズの小さな異常部分の検出率を向上させること。【解決手段】画像処理装置は、検査対象を撮影した第１の元画像から生成した複数の部分画像を用いて、学習モデルの学習用データを生成する。また、画像処理装置は、検査対象を撮影した第２の元画像の部分画像を入力データとして、学習済の学習モデルを用いて推論処理を行う。【選択図】図５

Description

本発明は画像処理装置および画像処理方法に関する。

機械学習モデルを用いた画像認識（分類）は、性能の向上とともに広く利用されるようになっている。また、分類精度を高めるために、異なる機械学習モデルで別個に分類した結果に基づいて最終的な分類を決定することも知られている（特許文献１）。

特開２０２０－１１２９２６号公報

一方で、検査対象を撮影した画像に含まれる異常部分を、機械学習モデルを用いて検出する従来の画像処理装置においては、サイズの小さな異常部分の検出率が低いという問題があった。

そこで本発明は、検査対象の画像に含まれる異常部分を、機械学習モデルを用いて検出する画像処理装置および画像処理方法において、サイズの小さな異常部分の検出率を向上させることを目的の１つとする。

上述の目的は、検査対象を撮影した第１の元画像から学習モデルの学習用データを生成する生成手段と、学習用データを用いて学習モデルを学習する学習手段と、検査対象を撮影した第２の元画像から生成した入力データに対し、学習済の学習モデルを用いて推論処理を行う推論手段と、を有し、生成手段は、第１の元画像から複数の部分画像を生成し、複数の部分画像を用いて学習用データを生成し、推論手段は、第２の元画像の部分画像を入力データとして用いる、ことを特徴とする画像処理装置によって達成される。

本発明によれば、検査対象の画像に含まれる異常部分を、機械学習モデルを用いて検出する画像処理装置および画像処理方法において、サイズの小さな異常部分の検出率を向上させることができる。

画像処理システム１００の構成を示す図クラウドサーバ２００、エッジサーバ３００の構成を示すブロック図（ａ）はスマートフォン５００の外観例を、（ｂ）は構成例を示す図（ａ）および（ｂ）はプリンタ６００の外観例を、（ｃ）は構成例を示す図処理システム１００のソフトウェア構成を示す図学習モデル２５２、学習済モデル３５２を利用する際の入出力の構造を示す概念図第１実施形態における学習前の処理の内容を示す図第１実施形態における学習時と推論時の構成を示す図第１実施形態におけるテスト画像の処理の内容を示す図第２実施形態における学習前の処理の内容を示す図画像の分割方法を示す図第２実施形態におけるテスト画像の処理の内容を示す図第３実施形態における学習時と推論時の構成を示す図第３実施形態における学習時と推論時の構成を示す図

以下、添付図面を参照して本発明をその例示的な実施形態に基づいて詳細に説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定しない。また、実施形態には複数の特徴が記載されているが、その全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

また、以下では、機械学習モデルを画像処理装置の外部装置に配置し、画像処理装置が外部装置に画像を提供し、外部装置が機械学習モデルの学習や、学習済みモデルを利用した認識（分類）を行う画像処理システムで発明を実施する形態について説明する。しかしながら、画像処理装置が機械学習モデルを有し、画像処理装置が発明を実施する構成であってもよい。

●＜第１実施形態＞
（画像処理システムの構成）
図１は、本発明の一実施形態としての画像処理システム１００の全体構成例を示すブロック図である。画像処理システム１００は、クラウドサーバ２００、エッジサーバ３００、およびデバイス４００が互いに通信可能に接続された構成を有する。ここでは、クラウドサーバ２００がインターネット上に、エッジサーバ３００およびデバイス４００がローカルエリアネットワーク（ＬＡＮ）１０２上に存在する構成例について説明する。しかし、クラウドサーバ２００、エッジサーバ３００、およびデバイス４００は、任意の構成によって接続されうる。また、クラウドサーバ２００とエッジサーバ３００とに分離することも必須でなく、両者の機能を１つのサーバで実施してもよい。さらに、クラウドサーバ２００およびエッジサーバ３００で実施する機能を、デバイス４００が実施してもよい。

デバイス４００は、クラウドサーバ２００およびエッジサーバ３００と通信可能な電子機器の総称である。図１では、デバイス４００の例示として、デジタルカメラ４０２、クライアント端末４０１、スマートフォン５００、プリンタ６００を示している。しかしながら、デバイス４００は、通信インタフェースを有し、画像データを供給可能な任意の電子機器を含みうる。なお、クライアント端末４０１は、パーソナルコンピュータ、タブレット端末、ゲーム機などのコンピュータ機器である。以下では、デジタルカメラ４０２、クライアント端末４０１、スマートフォン５００、プリンタ６００に共通する構成および動作については、デバイス４００の構成および動作として説明する。

なお、インターネット１０４とＬＡＮ１０２とを接続するルータ１０３に、無線ＬＡＮのアクセスポイント機能を持たせてもよい。この場合、デバイス４００はルータ１０３が提供するアクセスポイントを通じてＬＡＮ１０２に接続することができる。例えばプリンタ６００やクライアント端末４０１は有線で、スマートフォン５００やデジタルカメラ４０２は無線でＬＡＮ１０２に接続するように構成することも可能である。デバイス４００およびエッジサーバ３００は、ルータ１０３を介して接続されたインターネット１０４を経由してクラウドサーバ２００と相互に通信することが可能である。

エッジサーバ３００とデバイス４００はＬＡＮ１０２を経由して相互に通信可能である。また、デバイス４００間でもＬＡＮ１０２を経由して相互に通信可能である。また、スマートフォン５００とプリンタ６００はＬＡＮ１０２経由に加えて近距離無線通信１０１によっても通信可能である。近距離無線通信１０１は、例えばＢｌｕｅｔｏｏｔｈ（登録商標）規格やＮＦＣ規格などに則った無線通信であってよい。スマートフォン５００は携帯電話回線網１０５とも接続されており、携帯電話回線網１０５を介してクラウドサーバ２００と通信することもできる。

図１に示した構成は一例であり、異なる構成を有してもよい。例えばルータ１０３以外の機器がアクセスポイントとして機能してもよい。また、エッジサーバ３００とデバイス４００とがＬＡＮ１０２とは異なる形態で接続されてもよい。例えばＬＰＷＡ(Low Power, Wide Area)に分類される無線アクセス技術、ＺｉｇＢｅｅ、Ｂｌｕｅｔｏｏｔｈ、赤外線通信、近距離無線通信１０１などによる無線接続、ＵＳＢなどの有線接続といった様々な形態が考えられる。

（サーバの構成）
図２は、クラウドサーバ２００およびエッジサーバ３００の構成例を示すブロック図である。以下ではクラウドサーバ２００の構成について説明するが、エッジサーバ３００についても同じ機能を有するものとする。

クラウドサーバ２００は、装置全体を制御するメインボード２１０と、ネットワーク接続ユニット２０１、ハードディスクユニット２０２を有する。

メインボード２１０に配置されるＣＰＵ２１１は、内部バス２１２を介して接続されているプログラムメモリ２１３（ＲＯＭ）に格納されている制御プログラムと、データメモリ２１４（ＲＡＭ）に格納されている設定内容や変数などに従って動作する。ＣＰＵ２１１はプログラムを実行することにより、サーバ２００の動作を制御する。

ＣＰＵ２１１は、ネットワーク制御回路２１５を介してネットワーク接続ユニット２０１を制御することで、インターネット１０４やＬＡＮ１０２などのネットワークを通じて他の装置と通信する。ＣＰＵ２１１はまた、ハードディスク制御回路２１６を介して接続されたハードディスクユニット２０２にデータを書き込んだり、ハードディスクユニット２０２からデータを読み出したりすることができる。

ハードディスクユニット２０２には、プログラムメモリ２１３にロードしてＣＰＵ２１１が実行するオペレーティングシステムや、サーバ２００の制御ソフトウェア、アプリケーションソフトウェア、各種のデータなどが格納される。

メインボード２１０の内部バス２１２にはＧＰＵ２１７が接続されている。ＧＰＵ２１７は各種の演算処理をＣＰＵ２１１の代わりに実行することができる。ＧＰＵ２１７は並列処理を高速に実行できるため、ニューラルネットワークをディープラーニングのような手法で学習するための演算や、学習済みモデルを用いた推論のための演算をＣＰＵ２１１より効率的に実行できる。本実施形態では、後述の学習部２５１の処理を、ＣＰＵ２１１に加えてＧＰＵ２１７を用いて実施する。具体的には、ＣＰＵ２１１とＧＰＵ２１７とが協同して演算を行うことにより、機械学習モデルの実装と学習とを実現する。なお、学習部２５１はＣＰＵ２１１とＧＰＵ２１７のいずれか一方のみを用いて実施されてもよい。また、推論部３５１についても学習部２５１と同様、ＧＰＵ２１７を用いて実施することができる。

本実施形態ではエッジサーバ３００をクラウドサーバ２００と同じ構成であるものとしたが、異なる構成であってもよい。例えば、エッジサーバ３００のメインボード２１０にはＧＰＵ２１７が搭載されなくてもよい。また、クラウドサーバ２００とエッジサーバ３００とでは、名称が同じ構成の性能が異なっていてもよい。

（スマートフォン５００の外観）
図３（ａ）は、スマートフォン５００のディスプレイ面を正面から見た外観例と、スマートフォン５００が有する通信ユニットの例を示す図である。スマートフォン５００は、タッチディスプレイおよびカメラと、インターネットなどのデータネットワークへの接続機能を有し、ＯＳ上で様々なアプリケーションを実行可能な、携帯電話機の総称である。

近距離無線通信ユニット５０１は、通信範囲内に存在する他の機器が有する近距離無線通信ユニットと通信することができる。無線ＬＡＮユニット５０２は、通信範囲内に存在する、無線ＬＡＮのアクセスポイントや他の機器が有する無線ＬＡＮユニットと通信することができる。回線接続ユニット５０３は、携帯電話回線網に接続して通信することができる。これらの通信ユニットは、スマートフォン５００の筐体内に格納され、筐体表面などに設けられたアンテナを通じて通信する。

タッチディスプレイ５０４はタッチパネルを備えるＬＣＤや有機ＥＬディスプレイパネルである。タッチディスプレイ５０４の表示画面が存在する面をスマートフォン５００の前面とする。タッチディスプレイ５０４に対するタッチ操作が検出されると、スマートフォン５００は、タッチディスプレイ５０４の表示内容に応じてタッチ操作を解釈し、様々な動作を実行する。電源ボタン５０５はスマートフォン５００の電源をオンおよびオフするためのボタンである。

（スマートフォンの構成）
図３（ｂ）は、スマートフォン５００の構成例を示すブロック図である。スマートフォン５００は、装置全体を制御するメインボード５１０と、無線ＬＡＮユニット５０２と、近距離無線通信ユニット５０１と、回線接続ユニット５０３とを有する。

メインボード５１０に配置されるＣＰＵ５１１は、内部バス５１２を介して接続されているプログラムメモリ５１３（ＲＯＭ）に格納されている制御プログラムと、データメモリ５１４（ＲＡＭ）に格納されている設定内容や変数などに従って動作する。ＣＰＵ５１１はプログラムを実行することにより、スマートフォン５００の動作を制御する。

ＣＰＵ５１１は、無線ＬＡＮ制御回路５１５を介して無線ＬＡＮユニット５０２を制御することで、通信範囲内に存在する、無線ＬＡＮのアクセスポイントや他の機器が有する無線ＬＡＮユニットと通信することができる。ＣＰＵ５１１は近距離無線通信制御回路５１６を介して近距離無線通信ユニット５０１を制御することで、通信範囲内に存在する他の近距離無線通信端末を検知したり、他の近距離無線通信端末との間でデータを送受信したりすることができる。またＣＰＵ５１１は回線制御回路５１７を介して回線接続ユニット５０３を制御することで、携帯電話回線網１０５に接続し、音声やデータを送受信することができる。ＣＰＵ５１１は操作部制御回路５１８を制御することで、タッチディスプレイ５０４の表示内容を制御したり、タッチ操作を検出したりすることができる。

ＣＰＵ５１１はカメラ部５１９を制御することで静止画および動画を撮影することができる。ＣＰＵ５１１は撮影によって得られた画像のデータを、データメモリ５１４内の画像メモリ５２０に格納する。また、ＣＰＵ５１１は、携帯電話回線、ＬＡＮ１０２、および近距離無線通信１０１を通じて外部から取得した画像データを画像メモリ５２０に格納したり、画像メモリ５２０に格納された画像データを外部に送信したりすることもできる。

不揮発性メモリ５２１は電源をオフされてもデータを保持する。そのため、連絡先や通信履歴、保存する画像データなどのユーザデータ、アプリケーションソフトウェアなどが格納される。

（プリンタの外観）
図４は、プリンタ６００の外観例を示す図である。本実施形態ではプリンタ６００が複合機もしくはマルチファンクションプリンタ（ＭＦＰ）と呼ばれる、スキャナを備えたプリンタであるものとする。図４（ａ）はプリンタ６００の外観例を示す斜視図である。原稿台６０１はガラスなどの透明材料で構成され、読み取る原稿を置く場所である。原稿台圧板６０２は開閉可能であり、閉じた状態で原稿台６０１を押圧するとともに、原稿台６０１を遮光する。印刷用紙挿入口６０３にセットされた様々なサイズの記録媒体は印刷時に一枚ずつに搬送され、印刷部を通って印刷用紙排出口６０４から排出される。

図４（ｂ）はプリンタ６００上面の外観例と、プリンタ６００が備える通信ユニットを模式的に示している。原稿台圧板６０２の天面には操作パネル６０５および近距離無線通信ユニット６０６が設けられている。近距離無線通信ユニット６０６は通信範囲内に存在する他の機器が有する近距離無線通信ユニットと通信することができる。また、無線ＬＡＮアンテナ６０７は、不図示の無線ＬＡＮユニットに接続され、通信範囲内に存在する、無線ＬＡＮのアクセスポイントや他の機器が有する無線ＬＡＮユニットとプリンタ６００が通信することを可能とする。

（プリンタの構成）
図４（ｃ）は、プリンタ６００の構成例を示すブロック図である。プリンタ６００は、装置全体を制御するメインボード６１０と、無線ＬＡＮユニット６０８と、近距離無線通信ユニット６０６とを有する。

メインボード６１０に配置されるＣＰＵ６１１は、内部バス６１２を介して接続されているプログラムメモリ６１３（ＲＯＭ）に格納されている制御プログラムと、データメモリ６１４（ＲＡＭ）に格納されている設定内容や変数などに従って動作する。ＣＰＵ６１１はプログラムを実行することにより、プリンタ６００の動作を制御する。

ＣＰＵ６１１はスキャナ部６１５を制御して原稿を読み取り、読み取った画像データをデータメモリ６１４中の画像メモリ６１６に格納する。また、ＣＰＵ６１１は印刷部３１７を制御してデータメモリ６１４中の画像メモリ６１６の画像を記録媒体に印刷することができる。

ＣＰＵ６１１は、無線ＬＡＮ制御回路６１８を介して無線ＬＡＮユニット６０８を制御することで、通信範囲内に存在する、無線ＬＡＮのアクセスポイントや他の機器が有する無線ＬＡＮユニットと通信することができる。ＣＰＵ６１１は近距離無線通信制御回路６２０を介して近距離無線通信ユニット６０６を制御することで、通信範囲内に存在する他の近距離無線通信端末を検知したり、他の近距離無線通信端末との間でデータを送受信したりすることができる。

ＣＰＵ６１１は操作部制御回路６２１を制御することで、操作パネル６０５にプリンタ６００の状態やメニュー画面などを表示したり、操作パネル６０５の操作を検出したりすることができる。操作パネル６０５にはバックライトが備えられており、ＣＰＵ６１１は操作部制御回路６２１を介してバックライトの点灯、消灯を制御することができる。

（ソフトウェア構成）
図５は、画像処理システム１００のソフトウェア構成例を示す図である。説明および理解を容易にするため、図５には、画像処理システム１００で稼働するソフトウェアのうち、本実施形態の説明に必要な、学習および推論の処理に関するソフトウェアのみを示している。例えばオペレーティングシステムやミドルウェア、メンテナンスのためのアプリケーションなどは図示していない。

クラウドサーバ２００は、学習データ生成部２５０、学習部２５１、学習モデル２５２を有する。学習データ生成部２５０は、外部から受信したデータから、学習モデル２５２の学習用データを生成するモジュールである。学習用データは、入力データＸと、入力データＸに対する学習結果の正解を示す教師データＴとを有する。学習データ生成部２５０は、生成した学習用データを学習部２５１に供給する。

学習部２５１は、学習データ生成部２５０が生成した学習用データを用いて、学習モデル２５２の学習を実行するプログラムモジュールである。学習モデル２５２は、学習部２５１で行った学習の結果を蓄積する。ここでは、学習モデル２５２を、ニューラルネットワークを用いて実装するものとする。学習用データを用い、ニューラルネットワークの各ノード間の重み付けパラメータを公知の方法で最適化することにより、学習モデル２５２の学習を実行する。

パラメータの最適化（学習）が完了した学習モデル２５２（学習済モデル）は、クラウドサーバ２００からエッジサーバ３００に供給され、エッジサーバ３００に学習済モデル３５２として保持される。なお、学習モデル２５２の全体をエッジサーバ３００に供給してもよいし、エッジサーバ３００での推論処理に必要な部分のみをエッジサーバ３００に供給してもよい。エッジサーバ３００は、学習済モデル３５２を用いて入力データの分類や、入力データに基づく数値の予測（回帰）といった推論処理を実行することができる。

エッジサーバ３００は、データ収集・提供部３５０、推論部３５１、学習済モデル３５２を有する。データ収集・提供部３５０は、デバイス４００から受信したデータや、エッジサーバ３００が自ら収集したデータを、学習用データを生成するためのデータとしてクラウドサーバ２００に送信するモジュールである。推論部３５１は、デバイス４００から受信したデータに基づく入力データを学習済モデル３５２に与えて推論処理を実行し、学習済モデル３５２の出力をデバイス４００に返送するプログラムモジュールである。

デバイス４００は、アプリケーション部４５０、データ送受信部４５１を有する。アプリケーション部４５０は、デバイス４００で各種の機能を実現するモジュールである。ここでは、アプリケーション部４５０に含まれるアプリケーションモジュールが、エッジサーバ３００が有する学習済モデル３５２を利用するものとする。

データ送受信部４５１は、デバイス４００で取得したデータのうち、学習モデル２５２の学習に用いるデータをエッジサーバ３００のデータ収集・提供部３５０に送信する。データ送受信部４５１は、デバイス４００で取得したり生成したりしたデータのうち、推論処理に用いるデータをエッジサーバ３００の推論部３５１に送信する。データ送受信部４５１は、エッジサーバ３００の推論部３５１から推論処理の結果を受信すると、結果を推論処理の依頼元であるアプリケーションモジュールに供給する。

なお、本実施形態ではクラウドサーバ２００で学習した学習モデル２５２をエッジサーバ３００に供給し、エッジサーバ３００における推論処理に用いる構成を示した。しかし、学習モデルを設ける場所や、学習済モデルを用いた処理を行う場所は変更してもよい。例えば、デバイス４００に学習モデルを実装し、学習モデルの学習や学習モデルを用いた推論処理もデバイス４００で実施してもよい。例えば、学習モデルに関する演算に要する処理速度や消費電力の大きさと、デバイス４００が有するハードウェア資源との関係から、学習モデルをデバイス４００に配置するか否かを決定することができる。そして、学習モデルをデバイス４００に配置することができない、もしくは配置が望ましくない場合には、学習モデルを外部装置に配置する。

また、学習モデルを外部装置に配置する場合、デバイス４００と同じネットワーク上の外部装置に学習モデルを配置した方が、異なるネットワーク上の外部装置のいずれに配置するよりも推論処理の結果を取得するのに要する時間を短縮することができる。

本実施形態では、大量の入力データを用いる学習についてはエッジサーバ３００よりも処理能力が高いクラウドサーバ２００で実施し、推論処理についてはエッジサーバ３００で実施する。推論処理についてはエッジサーバ３００で実施することで、推論処理に必要な通信時間を短縮することができる。

学習と推論処理とを異なる主体で実施する場合、それぞれの処理に適した構成を採用することができるため、資源を節約したり、より高速に実行できる構成を用いたりすることができる。なお、学習モデルを設ける場所や、学習済モデルを用いた処理を行う場所は、例えばネットワークの状態などに応じて動的に変更してもよい。例えば通常はエッジサーバ３００で推論処理を実施するが、エッジサーバ３００の負荷が高い場合にはクラウドサーバ２００で推論処理を実施するようにしてもよい。

（学習モデル）
図６は、学習モデル２５２の学習処理と、学習済モデル３５２を利用した推論処理とを模式的に示した図である。
図６（ａ）は、学習処理における学習モデル２５２の入出力データと、学習の手法に関して模式的に示した図である。入力データＸ８０１は、学習モデル２５２の入力層に供給される。入力データＸ８０１の詳細については後述する。

入力データＸ８０１を機械学習モデルである学習モデル２５２で処理した結果として出力データＹ８０３が出力される。学習時には、入力データＸ８０１に対する処理の正解データとして教師データＴ８０２が与えられる。したがって、出力データＹ８０３と教師データＴ８０２とを損失関数８０４に与えることにより、正解（教師データ）に対する処理結果のずれ量Ｌ８０５が得られる。多数の学習用データについて、ずれ量Ｌ８０５が０に近づくように、学習モデル２５２を構成するニューラルネットワークのノード間の結合重み付け係数等を更新する。誤差逆伝播法は、ずれ量Ｌ８０５が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を最適化する手法の一例である。

機械学習の具体的なアルゴリズムの例としては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシンなどがある。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習（ディープラーニング）や深層距離学習も知られている。本実施形態ではこれら公知のアルゴリズムのうち、機械学習の用途などを考慮して適宜利用することができる。学習モデル２５２の実装方法は特に制限されない。学習モデル２５２は例えば畳み込みニューラルネットワーク（ＣＮＮ）、回帰結合型ニューラルネットワーク（ＲＮＮ）、オートエンコーダ、敵対的生成ネットワーク（ＧＡＮ）などによって実装することができる。

図６（ｂ）は、推論処理における学習済モデル３５２の入出力データを示した図である。入力データＸ８１１は、学習済モデル３５２の入力層に供給される。入力データＸ８１１の詳細については後述する。入力データＸ８１１は、学習時に用いられる入力データＸ８０１と同じ形式であるが、対応する教師データが存在しない。

入力データＸ８１１を学習済モデル３５２で処理した結果として出力データＹ８１３）が出力される。推論処理では出力データＹ８１３を処理結果としてデバイス４００に返送する。学習済モデル３５２は、学習モデル２５２と同一構成のニューラルネットワークによって実装されてもよいし、学習モデル２５２のうち、推論処理に必要な部分のみを学習済モデル３５２として有してもよい。学習モデル２５２よりも少ない構成とすることにより、学習済モデル３５２のデータ量を削減したり、推論処理時の演算時間を短縮したりすることができる。

図７は、画像処理システム１００を用いて半導体基板の検査画像から異常を検出する際に学習モデル２５２に適用する学習用データの具体例を示している。図７（ａ）は、学習用データに用いる元画像（第１の元画像）データ９００の例を示している。元画像（元画像データ）９００は、半導体基板の表面を撮影して得られた画像データであり、異常部分９０５が画像の中心部分に位置するように撮影されているものとする。

元画像データ９００の解像度は２２４×２２４画素であり、異常部分９０５の水平および垂直方向の大きさは数画素から数十画素である。半導体プロセスでは基板上の極めて小さい異常も不具合の原因となりうる。また、半導体基板には反りが生じていたり、異常部分によって表面に凹凸が存在していたりする。そのため、撮影範囲全体で鮮明な画像が取得できるように、検査画像の撮影には焦点深度が大きい（例えば５μｍ以上の）レンズを用いる。

本実施形態では元画像データ９００をそのまま学習に用いるのではなく、元画像データ９００から抽出した複数の部分画像（部分画像データ）９０１を学習に用いる。具体的には、元画像を水平および垂直方向のそれぞれに２等分して得られる４つの部分画像と、これら４つの部分画像と同じ大きさで、元画像の中心部分から抽出した１つの部分画像とのデータを学習に用いる。中心部分から抽出した部分画像の中心は、元画像の中心と等しい。図７（ｂ）では、この画像抽出処理を前処理として記載している。また、等分割により得られる４つの部分画像を左下、左上、右下、右上と記載し、中心部分から抽出した１つの部分画像を中心と記載している。

このように、２２４×２２４画素の元画像データ９００から、１１２×１１２画素の部分画像データ９０１を５つ生成する。このような前処理により、左下、左上、右下、右上の部分画像は、画像の中心から離れた位置に異常部分が存在する画像となる。部分画像を生成することにより、画像内における異常箇所の位置を分散させることができる。また、画像に占める異常部分の割合（面積比）を増加させることができる。さらに、元画像の全領域をまとめて学習に用いる場合よりも多くの画像で学習を行うことができる。具体的には、図７の例では、元画像の数の５倍の画像を用いて学習することができる。

ここでは、学習済モデル３５２を用いた推論処理により、入力データを、異常が含まれるデータと、異常が含まれないデータとに分類する。したがって、個々の部分画像についての正しい分類を教師データとして用意する。具体的には、図７（ｃ）に示すように、認識すべき異常が存在する画像９０２をクラスＡ、認識すべき異常が存在しない（正常な）画像９０３をクラスＢとして、人間が目視で部分画像（データ）９０１を確認して分類することにより、教師データを生成した。

なお、ここでは説明および理解を容易にするため、推論処理によって入力データを２つのクラスに分類するものとして説明したが、３以上のクラスに分類してもよい。また、認識すべき異常の有無以外の基準によってクラスを規定してもよい。また、教師データを目視以外の方法によって生成してもよい。例えば、目視で確認した画像を元に作成した簡易的な学習モデルを作成して部分画像に対する教師データを生成してもよい。

図８は、本実施形態における画像処理システム１００における学習処理および推論処理の流れと、関連するデータとを模式的に示した図である。図７を用いて説明した、認識すべき異常が存在するクラスＡの画像９０２と、認識すべき異常が存在しない（正常な）クラスＢの画像９０３とをデバイス４００から、エッジサーバ３００を経由して学習データ生成部２５０に供給する。また、教師データを目視に基づいて生成する場合には、教師データについてもデバイス４００から学習データ生成部２５０に供給する。

学習データ生成部２５０は、クラスＡの画像９０２とクラスＢの画像９０３とから、学習用データとして入力データ８０１と教師データ８０２とを生成し、学習部２５１に供給する。教師データが画像と共に与えられる場合、学習データ生成部２５０は供給された教師データを用いてもよい。学習部２５１は、学習用データを用いて学習モデル２５２の学習を行い、損失関数が示すずれ量Ｌが予め定められた閾値未満になると、学習を完了する。この時点で、学習モデル２５２が学習済モデルとなる。そして、学習モデル２５２の全部または一部がエッジサーバ３００に供給され、学習済モデル３５２として保存される。

その後、テスト画像９０４を入力データ８１１として学習済モデル３５２に供給し、判定されたクラスを出力データとして取得する。なお、テスト画像９０４は学習に用いる入力データ８０１と同じサイズ（１１２×１１２画素）であるが、元画像からの生成方法が異なる。

図９（ａ）は、学習済モデル３５２を用いて異常の有無を判定するための元画像９００の例を示している。デバイス４００のデータ送受信部４５１は、元画像９００（第２の元画像）をエッジサーバ３００のデータ収集・提供部３５０および推論部３５１に送信する。推論部３５１は、元画像９００からテスト画像９０４を生成し、入力データ８１１として学習済モデル３５２に供給する。

推論部３５１は、図９（ｂ）に示すように、元画像９００のそれぞれについて、テスト画像９０４の中心が元画像９００の中心と一致するように画像中心部分をトリミングして、１１２×１１２画素のテスト画像９０４を生成する。画像３のように、トリミングにより、テスト画像９０４における異常の位置が画像の周辺部となる場合もある。しかし、学習済モデル３５２は、異常が周辺部に存在する画像を含んだ入力データを用いて学習したものであるため、画像３のようなテスト画像についても精度のよい判定ができる。

図８に示した処理を行う、エッジサーバ３００およびクラウドサーバ２００が有する機械学習に係る構成は、例えば深層学習ライブラリとしてＫｅｒａｓを、ＫｅｒａｓのバックエンドとしてＴｅｎｓｏｒＦｌｏｗを用いて実装することができる。しかしながら、他のバックエンドを用いてもよい。また、オープンソース、市販品を問わず、例えば、ＴｅｎｓｏｒＦｌｏｗ、Ｃａｆｆｅ、Ｃｈａｉｎｅｒ、Ｐｙｔｏｒｃｈ、ＨＡＬＣＯＮ、ＶｉｓｉｏｎＰｒｏＶｉｄｉなど、他の公知の機械学習フレームワークを用いて実装することもできる。また、既製のフレームワークを用いずに実装してもよい。

本実施形態による学習済モデルと、元画像をそのまま用いる従来の方法で学習した学習済モデルとを用い、判定精度を比較した。その結果、本実施形態による学習済モデルの方が、判定精度が高いことが確認できた。

●（第２実施形態）
次に、本発明の第２実施形態について説明する。なお、本実施形態は第１実施形態で説明した画像処理システム１００で実施可能であるため、第１実施形態と共通の内容については説明を省略する。

本実施形態は、検査対象の撮影画像の任意の位置に異常部分が存在しうるという点において、異常部分が撮影画像の中心部分に存在する第１実施形態と異なる。ここでは異常部分の位置が不定である検査対象の撮影画像の一例として、ＭＲＩ画像を用いるものとする。図１０（ａ）は元画像９００の例を示す。本実施形態において元画像９００の解像度は６００×６００画素であり、異常部分の水平および垂直方向の大きさは数十画素である。

第１実施形態では異常部分が元画像の中心部分に位置するように撮影されていた。そのため、元画像９００から学習用画像を生成する際に、元画像９００を垂直および水平方向に等分割した４つの部分画像に加え、中心部分から１つの部分画像を抽出した。

これに対し本実施形態では、異常部分が元画像内で様々な位置に存在するため、中心部分からの抽出を行わない。したがって、図１０（ｂ）に示すように、元画像９００を分割して部分画像９０１を生成する。図１０（ｂ）は、元画像９００を水平および垂直方向に２等分し、３００×３００画素の部分画像９０１を４つ生成する例を示している。

なお、水平方向および垂直方向の一方について元画像９００を分割して部分画像９０１を生成してもよい。図１１（ａ）は元画像９００を垂直方向にのみ３分割して部分画像９０１を生成する例を、図１１（ｂ）は元画像９００を水平方向にのみ３分割して部分画像９０１を生成する例を、それぞれ示している。

本実施形態においても、元画像９００から複数の部分画像を生成して学習用画像とすることにより、画像全体に対する検出対象（例えば異常部分）の占める割合を高めることができる。また、画像内において存在する位置が不定な検出対象について効率的に学習することができる。結果として、検出対象の認識精度を高めることができる。

ここでは、学習済モデル３５２を用いた推論処理により、入力データを、異常が含まれるデータと、異常が含まれないデータとに分類する。したがって、個々の部分画像９０１についての正しい分類を教師データとして用意する。具体的には、図１０（ｃ）に示すように、認識すべき異常が存在する画像９０２をクラスＡ、認識すべき異常が存在しない（正常な）画像９０３をクラスＢとして、人間が目視で部分画像９０１を確認して分類することにより、教師データを生成した。

このようにして生成した入力データ（部分画像９０１）と教師データとを用い、第１実施形態と同様にして学習モデル２５２を学習し、学習済モデル３５２としてエッジサーバ３００に供給する。

その後、テスト画像９０４を入力データ８１１として学習済モデル３５２に供給し、判定されたクラスを出力データとして取得する。なお、本実施形態では、学習用画像（部分画像９０１）と同様にテスト画像９０４を生成する。

図１２（ａ）は、学習済モデル３５２を用いて異常の有無を判定するための元画像９００の例を示している。推論部３５１は、図１２（ｂ）に示すように、元画像９００のそれぞれを水平方向および垂直方向に２等分した部分画像を、テスト画像９０４として生成する。推論部３５１は、生成したテスト画像９０４を、入力データ８１１として学習済モデル３５２に供給する。

本実施形態では第１実施形態と異なり、１つの元画像から複数のテスト画像が生成される。そのため、同じ元画像から生成された複数のテスト画像のうち１つ以上が学習済モデル３５２によってクラスＡに分類された場合、元画像から異常が検出されたものとする。

●（第３実施形態）
次に、本発明の第３実施形態について説明する。なお、本実施形態は第１実施形態で説明した画像処理システム１００で実施可能であるため、第１実施形態と共通の内容については説明を省略する。本実施形態では第２実施形態と同じＭＲＩ画像を用いるものとする。以下では、第２実施形態と異なる部分について重点的に説明する。

図１３は、図８と同様に、本実施形態における画像処理システム１００における学習処理および推論処理の流れと、関連するデータとを模式的に示した図である。図１３に示すように、本実施形態では、元画像を分割した領域ごとに別個の学習モデルを用いる。

図１４（ａ）および（ｂ）において、元画像９００から部分画像９０１を生成するまでは第２実施形態と共通である。その後、同じ位置の部分画像９０１ごと（元画像の領域ごと）に、認識すべき異常が存在する画像９０２をクラスＡ、認識すべき異常が存在しない（正常な）画像９０３をクラスＢと分類することにより、教師データを生成する。具体的には図１４（ｃ）に示すように、左上の部分画像９０７、左下の部分画像９０８、右上の部分画像９０９、右下の部分画像９１０ごとに、クラスＡとクラスＢに分類することにより、教師データを生成する。

デバイス４００のデータ送受信部４５１は、元画像を分割した領域ごとに、クラスＡの画像９０２およびクラスＢの画像９０３、さらに必要に応じて教師データを、学習データ生成部２５０に供給する。学習データ生成部２５０は、元画像を分割した領域ごとに、学習用データとして入力データ８０１と教師データ８０２とを生成し、学習部２５１に供給する。

学習部２５１は、学習用データを用いて個々の学習モデル２５２の学習を行い、損失関数が示すずれ量Ｌが予め定められた閾値未満になると、学習を完了する。この時点で、学習モデル２５２が学習済モデルとなる。そして、学習モデル２５２の全部または一部がエッジサーバ３００に供給され、学習済モデル３５２として保存される。なお、学習データ生成部２５０および学習部２５１の少なくとも一方についても、学習モデル２５２と同様に部分画像の種類ごとに設けてもよい。

テスト画像９０４および入力データ８１１の生成は第２実施形態と同様である。第２実施形態では入力データ８１１を１つの学習済モデル３５２に入力した。本実施形態では、左下、左上、右下、右上のテスト画像９０４に対応する４つの入力データ８１１を、対応する学習済モデル３５２に入力する。

４つの学習済モデル３５２から、１つの元画像を分割した４つの領域のそれぞれについての判定結果が得られる。推論部３５１は、４つの判定結果から、元画像に対する判定結果を求める。例えば、推論部３５１は、４つの判定結果のうち１つでも異常が存在するとの判定結果があれば、元画像に異常が存在すると判定する。

本実施形態でも第２実施形態と同様の効果が得られる。また、元画像を分割した領域ごとに学習モデルを用いることで、１つの学習モデルを用いる場合よりも領域間のノイズが少なくなり、判定精度が向上する。

（その他の実施形態）
上述の実施形態では１種類の学習モデルを用いる構成について説明したが、用いる画像のサイズや構成が異なる複数の学習モデルを並列に用い、学習および推論を行ってもよい。推論結果については例えばアンサンブル判定により、最終的な結果を得ることができる。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００…処理システム、１０１…近距離無線通信、１０２…ＬＡＮ、１０３…ルータ、１０４…インターネット、１０５…携帯電話回線網、２００…クラウドサーバ、３００…エッジサーバ、４００…デバイス

Claims

検査対象を撮影した第１の元画像から学習モデルの学習用データを生成する生成手段と、
前記学習用データを用いて前記学習モデルを学習する学習手段と、
検査対象を撮影した第２の元画像から生成した入力データに対し、学習済の前記学習モデルを用いて推論処理を行う推論手段と、を有し、
前記生成手段は、前記第１の元画像から複数の部分画像を生成し、前記複数の部分画像を用いて前記学習用データを生成し、
前記推論手段は、前記第２の元画像の部分画像を前記入力データとして用いる、
ことを特徴とする画像処理装置。
前記生成手段は、前記第１の元画像を分割した複数の部分画像と、前記第１の元画像の中心部分を抽出した部分画像とを生成し、
前記推論手段は、前記第２の元画像の中心部分を抽出した部分画像を前記入力データとして用いる、
請求項１に記載の画像処理装置。
前記学習モデルが、前記第１の元画像および前記第２の元画像から異常部分を検出するために用いられ、
前記第１の元画像および前記第２の元画像が、前記異常部分が中心部分に存在するように撮影された画像である請求項２に記載の画像処理装置。
前記生成手段は、前記第１の元画像を分割した複数の部分画像を生成し、
前記推論手段は、前記第２の元画像を前記第１の元画像と同様に分割した複数の部分画像を前記入力データとして用いる、
請求項１に記載の画像処理装置。
前記学習モデルが、前記第１の元画像および前記第２の元画像から異常部分を検出するために用いられ、
前記第１の元画像および前記第２の元画像において前記異常部分が任意の位置に存在しうる請求項４に記載の画像処理装置。
前記学習モデルが、前記部分画像ごとに設けられる請求項４または５に記載の画像処理装置。
前記画像処理装置が通信可能に接続された複数の装置を有し、
前記学習手段と前記推論手段とが別個の装置に設けられる、
請求項１から６のいずれか１項に記載の画像処理装置。
前記学習手段は、前記学習が完了した前記学習モデルの一部または全部を、前記推論手段が設けられた装置に供給し、
前記推論手段は、前記学習手段から供給された学習モデルを、前記学習済の前記学習モデルとして用いる、
請求項７に記載の画像処理装置。
前記第１の元画像および前記第２の元画像を供給する装置が、前記学習手段と前記推論手段が設けられる装置と別個の装置である請求項７または８に記載の画像処理装置。
画像処理装置が実行する画像処理方法であって、
検査対象を撮影した第１の元画像から学習モデルの学習用データを生成する生成工程と、
前記学習用データを用いて前記学習モデルを学習する学習工程と、
検査対象を撮影した第２の元画像から生成した入力データに対し、学習済の前記学習モデルを用いて推論処理を行う推論工程と、を有し、
前記生成工程は、
前記第１の元画像から複数の部分画像を生成する工程と、
前記複数の部分画像を用いて前記学習用データを生成する工程とを有し、
前記推論工程では、前記第２の元画像の部分画像を前記入力データとして用いる、
ことを特徴とする画像処理方法。
コンピュータを、請求項１から６のいずれか１項に記載の画像処理装置が有する各手段として機能させるためのプログラム。