WO2021140601A1

WO2021140601A1 - 画像処理システム、内視鏡システム及び画像処理方法

Info

Publication number: WO2021140601A1
Application number: PCT/JP2020/000376
Authority: WO
Inventors: 文行白谷
Original assignee: オリンパス株式会社
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2021-07-15

Abstract

画像処理システム（２００）は、処理対象画像を取得する画像取得部（２１０）と、処理対象画像に対する処理を行う処理部（２２０）を含む。処理部（２２０）は、処理対象画像が第１観察方法において撮像された確からしさを表す第１分類スコアと、処理対象画像が第２観察方法において撮像された確からしさを表す第２分類スコアと、を求め、処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、第１分類スコアと第２分類スコアとに基づいて閾値を設定し、設定された閾値と検出スコアを比較し、閾値よりも検出スコアが大きい場合に、注目領域の検出結果を出力する。

Description

画像処理システム、内視鏡システム及び画像処理方法

　本発明は、画像処理システム、内視鏡システム及び画像処理方法等に関する。

　物体検出システムにおいては、物体らしさを表す物体検出スコアが、予め設定しておいた閾値を超えたときに、物体検出の候補枠が画面に表示される。この閾値は、物体検出システムの学習後に、評価用画像セットを用いて調整され、ある値に固定される。この閾値の調整は、正検出と過検出のトレードオフを調整するために必要とされている。

　例えば病変等の注目領域の検出処理を行う医療向け診断支援においては、感度が優先される場合と過検出抑制が優先される場合がある。前者は、スクリーニング用途等のために、見落しが少なくなることを優先し、過検出の増加が許容される。後者は、病変検出ＡＦ（Auto Focus）用途等のために、過検出の抑制を優先し、感度の低下が許容される。

　特許文献１には、過検出抑制モード又は未検出欠陥の検出モードのいずれかを指定する手法が開示されている。このうち過検出抑制モードが指定されると、欠陥候補部のうち検出しなくてもよい疑似欠陥部を除いた欠陥候補部が抽出され、未検出欠陥の検出モードが指定されると、欠陥候補部のうち本欠陥部が抽出される。この際、過検出抑制モードにおいては疑似欠陥部の特徴量に対応するパラメータが用いられ、未検出欠陥の検出モードにおいては本欠陥部の特徴量に対応するパラメータが用いられる。パラメータとは、具体的には閾値である。

特開２００３－３４４３０９号公報

　処理対象画像が種々の観察方法において撮像される場合がある。過検出の抑制を優先すべき状況において、検出スコアの閾値を１つに固定すると、観察方法ごとに感度、過検出率のばらつきが発生してしまい、観察方法によっては、過検出を十分に抑制できない。また感度を優先すべき状況においても同様であり、観察方法に応じたばらつきに起因して、十分な感度を得られない場合がある。特許文献１は、観察方法に応じてパラメータを切り替える手法を開示していない。

　本開示のいくつかの態様によれば、観察方法が変化する場合にも、状況に応じた検出結果を出力可能な画像処理システム、内視鏡システム及び画像処理方法等を提供できる。

　本開示の一態様は、処理対象画像を取得する画像取得部と、前記処理対象画像に対する処理を行う処理部と、を含み、前記処理部は、前記処理対象画像が第１観察方法において撮像された確からしさを表す第１分類スコアと、前記処理対象画像が第２観察方法において撮像された確からしさを表す第２分類スコアと、を求め、前記処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、前記第１分類スコアと前記第２分類スコアとに基づいて、閾値を設定し、設定された前記閾値と前記検出スコアを比較し、前記閾値よりも前記検出スコアが大きい場合に、前記注目領域の検出結果を出力する画像処理システムに関係する。

　本開示の他の態様は、生体内画像を撮像する撮像部と、前記生体内画像を処理対象画像として取得する画像取得部と、前記処理対象画像に対する処理を行う処理部と、を含み、前記処理部は、前記処理対象画像が第１観察方法において撮像された確からしさを表す第１分類スコアと、前記処理対象画像が第２観察方法において撮像された確からしさを表す第２分類スコアと、を求め、前記処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、前記第１分類スコアと前記第２分類スコアとに基づいて、閾値を設定し、設定された前記閾値と前記検出スコアを比較し、前記閾値よりも前記検出スコアが大きい場合に、前記注目領域の検出結果を出力する内視鏡システムに関係する。

　本開示のさらに他の態様は、処理対象画像を取得し、前記処理対象画像が第１観察方法において撮像された確からしさを表す第１分類スコアと、前記処理対象画像が第２観察方法において撮像された確からしさを表す第２分類スコアと、を求め、前記処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、前記第１分類スコアと前記第２分類スコアとに基づいて、閾値を設定し、設定された前記閾値と前記検出スコアを比較し、前記閾値よりも前記検出スコアが大きい場合に、前記注目領域の検出結果を出力する画像処理方法に関係する。

画像処理システムを含むシステムの概略構成例。学習装置の構成例。画像処理システムの構成例。内視鏡システムの構成例。図５（Ａ）、図５（Ｂ）はニューラルネットワークの構成例。図６（Ａ）は注目領域検出器の入力と出力を説明する図、図６（Ｂ）は観察方法分類器の入力と出力を説明する図。第１の実施形態における学習装置の構成例。第１の実施形態における画像処理システムの構成例。第１の実施形態における検出処理を説明するフローチャート。検出一体型観察方法分類器であるニューラルネットワークの構成例。第２の実施形態における画像処理システムの構成例。第２の実施形態における検出処理を説明するフローチャート。記憶部に記憶される閾値に関する情報の例。第４の実施形態における学習装置の構成例。

　以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。

１．概要
　医師が内視鏡システムを用いて診断等を行う際、種々の観察方法が用いられる。ここでの観察とは、撮像画像を用いて被写体の状態を見ることである。撮像画像とは、具体的には生体内画像である。内視鏡装置の照明光の種類や、被写体の状態に応じて、観察方法が変化する。観察方法としては、通常光を照明光として照射することによって撮像を行う観察方法である通常光観察、特殊光を照明光として照射することによって撮像を行う観察方法である特殊光観察、染料を被写体に散布した状態で撮像を行う観察方法である色素散布観察等が考えられる。以下の説明においては、通常光観察において撮像される画像を通常光画像と表記し、特殊光観察において撮像される画像を特殊光画像と表記し、色素散布観察において撮像される画像を色素散布画像と表記する。

　通常光とは、可視光に対応する波長帯域のうち、広い波長帯域において強度を有する光であって、狭義には白色光である。特殊光とは、通常光とは分光特性が異なる光であり、例えば通常光に比べて波長帯域が狭い狭帯域光である。特殊光を用いた観察手法としては、例えば３９０～４４５ｎｍに対応する狭帯域光と、５３０～５５０ｎｍに対応する狭帯域光を用いたＮＢＩ（Narrow Band Imaging）が考えられる。また特殊光は、赤外光等の可視光以外の波長帯域の光を含んでもよい。特殊光観察に用いられる特殊光は種々の波長帯域の光が知られており、本実施形態においてはそれらを広く適用可能である。色素散布観察における染料は、例えばインジゴカルミンである。インジゴカルミンを散布することによって、ポリープの視認性を向上させることが可能である。染料の種類や対象となる注目領域の組み合わせも種々知られており、本実施形態の色素散布観察においてはそれらを広く適用可能である。

　上述したように、物体検出処理において、検出スコアと閾値との比較に基づいて、検出結果を出力する手法が知られている。検出スコアとは、検出結果の確からしさを表す指標値である。以下、処理対象画像が生体内画像であり、検出対象が注目領域である例について説明する。例えば医師による診断をサポートする目的で、ディープラーニング等の機械学習によって検出器を作成し、当該検出器を注目領域の検出に応用する試みがなされている。本実施形態における注目領域とは、使用者にとって観察の優先順位が他の領域よりも相対的に高い領域である。ユーザが診断や治療を行う医者である場合、注目領域は、例えば病変部を写した領域に対応する。ただし、医者が観察したいと欲した対象が泡や便であれば、注目領域は、その泡部分や便部分を写した領域であってもよい。即ち、ユーザが注目すべき対象は観察目的によって異なるが、その観察に際し、ユーザにとって観察の優先順位が他の領域よりも相対的に高い領域が注目領域となる。以下、注目領域が病変、又はポリープである例について主に説明する。

　内視鏡検査中には、医師が照明光を通常光と特殊光との間で切り替える、体内組織に色素を散布する等、被写体を撮像する観察方法が変化する。この観察方法変化に起因して、検出結果にばらつきが生じる。例えば注目領域を適切に検出した検出結果が得られた際に、通常光画像を対象とした場合には、当該検出結果に対応付けられた検出スコアが大きくなりやすく、特殊光画像を対象とした場合には、検出スコアが小さくなりやすいといった差異が生じる。

　「感度がｘ％近傍」という条件を満たす感度優先モードを実現する場合を考える。感度とは、入力となる画像に撮像された注目領域のうち、どれだけの注目領域が適切に検出されたかの割合を表す情報である。このような検出モードは、評価用画像を入力した際の感度がｘ％となるように、閾値調整を行うことによって実現可能である。しかし、上記例のように観察方法によって検出スコアの傾向が異なる場合が考えられる。上記例において通常光画像を対象とした場合、相対的に高い閾値であっても感度をｘ％程度とすることが可能である。一方、特殊光画像を対象とした場合、相対的に低い閾値でなければ感度をｘ％程度とすることができない。通常光画像を評価用画像として用いた閾値調整が行われた場合、特殊光画像が入力されると所望の感度が得られなくなってしまうため感度優先モードとして不適切である。一方、特殊光画像を用いた閾値調整が行われた場合、通常光画像の入力時には感度が過剰に高くなってしまう。そのため、通常光画像の入力時に過検出率が増大するおそれがある。

　また過検出抑制モードについても同様である。過検出とは、注目領域でない領域を誤って注目領域として検出することである。また以下では、単位画像枚数当たりの過検出数（箇所／枚）を表す情報を過検出率と表記する。例えば「過検出率がｙ近傍」という条件を満たす過検出抑制モードを実現するために、通常光画像を評価用画像として用いた閾値調整が行われた場合、特殊光画像が入力されると過検出率がｙから乖離するおそれがある。また特殊光画像を評価用画像として用いた閾値調整が行われた場合、通常光画像が入力されると過検出率がｙから乖離するおそれがある。

　以上のように、固定の閾値を用いた場合、観察方法の変化に起因して感度や過検出率がばらついてしまう。特許文献１等の従来手法では、観察方法の変化が考慮されていない。従来手法においては、例えば感度優先モードを用いる場合、一貫した検出処理を行えず、感度が観察方法によって異なってしまう。過検出抑制モードにおいても同様に、一貫した検出処理を行えず、過検出率が観察方法によって異なってしまう。一貫した検出処理とは、例えば感度を表す数値又は過検出率を表す数値が、観察方法によらずに基準値の近傍となることを表す。結果として、観察方法によっては、感度優先モードであるのに所望の感度を得られない、或いは、過検出抑制モードであるのに過検出が十分に抑制されないおそれがある。

　本実施形態の手法においては、処理対象画像が第１観察方法において撮像された確からしさを表す第１分類スコアと、処理対象画像が第２観察方法において撮像された確からしさを表す第２分類スコアと、に基づいて、閾値が設定される。そして設定された閾値と検出スコアを比較し、閾値よりも検出スコアが大きい場合に、注目領域の検出結果が出力される。このようにすれば、処理対象画像の観察方法の判定結果に応じて動的に閾値が調整されるため、観察方法が異なる画像に対しても、一貫した検出処理を実現できる。具体的には、観察方法によらず一貫して検出感度が優先される検出処理、又は、一貫して過検出の抑制が優先される検出処理を実行できる。結果として、多様な観察方法が想定される場合にも、安定した診断支援が可能なシステムを提供すること等が可能になる。

　以下、まず図１～図４を用いて本実施形態に係る画像処理システム２００を含むシステムの概略構成を説明する。その後、第１～第４の実施形態において、具体的な手法や処理の流れについて説明する。

　図１は、画像処理システム２００を含むシステムの構成例である。システムは、学習装置１００と、画像処理システム２００と、内視鏡システム３００を含む。ただしシステムは図１の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。

　学習装置１００は、機械学習を行うことによって学習済モデルを生成する。内視鏡システム３００は、内視鏡撮像装置によって生体内画像を撮像する。画像処理システム２００は、生体内画像を処理対象画像として取得する。そして画像処理システム２００は、学習装置１００が生成した学習済モデルに従って動作することによって、処理対象画像を対象とした注目領域の検出処理を行う。内視鏡システム３００は、検出結果を取得、表示する。このようにすれば、機械学習を用いることによって、医師による診断等をサポートするシステムを実現することが可能になる。

　学習装置１００、画像処理システム２００、内視鏡システム３００は、例えばそれぞれが別体として設けられてもよい。学習装置１００及び画像処理システム２００は、それぞれが例えばＰＣ（Personal Computer）やサーバシステム等の情報処理装置である。なお学習装置１００は、複数の装置による分散処理によって実現されてもよい。例えば学習装置１００は複数のサーバを用いたクラウドコンピューティングによって実現されてもよい。画像処理システム２００も同様に、クラウドコンピューティング等によって実現されてもよい。内視鏡システム３００は、例えば図４を用いて後述するように、挿入部３１０と、システム制御装置３３０と、表示部３４０とを含む装置である。ただし、システム制御装置３３０の一部又は全部が、サーバシステム等のネットワークを介した機器によって実現されてもよい。例えばシステム制御装置３３０の一部又は全部は、クラウドコンピューティングによって実現される。

　また、画像処理システム２００及び学習装置１００の一方が他方を含んでもよい。この場合、画像処理システム２００（学習装置１００）は、機械学習を行うことによって学習済モデルを生成する処理と、当該学習済モデルに従った検出処理の両方を実行するシステムである。また画像処理システム２００及び内視鏡システム３００の一方が、他方を含んでもよい。例えば、内視鏡システム３００のシステム制御装置３３０が画像処理システム２００を含む。この場合、システム制御装置３３０は、内視鏡システム３００の各部の制御と、学習済モデルに従った検出処理の両方を実行する。或いは、学習装置１００、画像処理システム２００、システム制御装置３３０の全てを含むシステムが実現されてもよい。例えば、１又は複数のサーバからなるサーバシステムが、機械学習を行うことによって学習済モデルを生成する処理と、当該学習済モデルに従った検出処理と、内視鏡システム３００の各部の制御と、を実行してもよい。以上のように、図１に示すシステムの具体的な構成は種々の変形実施が可能である。

　図２は、学習装置１００の構成例である。学習装置１００は、画像取得部１１０と、学習部１２０を含む。画像取得部１１０は、学習用画像を取得する。画像取得部１１０は、例えば他の装置から学習用画像を取得するための通信インターフェースである。学習用画像とは、例えば通常光画像、特殊光画像、色素散布画像等に対して、正解データがメタデータとして付与された画像である。学習部１２０は、取得した学習用画像に基づいて機械学習を行うことによって学習済モデルを生成する。機械学習に用いられるデータの詳細、及び学習処理の具体的な流れについては後述する。

　学習部１２０は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された１又は複数の回路装置や、１又は複数の回路素子で構成することができる。１又は複数の回路装置は例えばＩＣ（Integrated Circuit）、ＦＰＧＡ（field-programmable gate array）等である。１又は複数の回路素子は例えば抵抗、キャパシター等である。

　また学習部１２０は、下記のプロセッサにより実現されてもよい。学習装置１００は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）等、各種のプロセッサを用いることが可能である。メモリは、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）などの半導体メモリであってもよいし、レジスタであってもよいし、ＨＤＤ（Hard Disk Drive）等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、学習部１２０の各部の機能が処理として実現されることになる。学習部１２０の各部とは、例えば図７、図１４を用いて後述する各部である。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。

　図３は、画像処理システム２００の構成例である。画像処理システム２００は、画像取得部２１０と、処理部２２０と、記憶部２３０を含む。

　画像取得部２１０は、内視鏡システム３００の撮像装置によって撮像された生体内画像を、処理対象画像として取得する。例えば画像取得部２１０は、内視鏡システム３００からネットワークを介して生体内画像を受信する通信インターフェースとして実現される。ここでのネットワークは、イントラネット等のプライベートネットワークであってもよいし、インターネット等の公衆通信網であってもよい。またネットワークは、有線、無線を問わない。

　処理部２２０は、学習済モデルに従って動作することによって、処理対象画像における注目領域の検出処理を行う。また処理部２２０は、学習済モデルの検出結果に基づいて、出力する情報を決定する。処理部２２０は、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むハードウェアにより構成される。例えば、ハードウェアは、回路基板に実装された１又は複数の回路装置や、１又は複数の回路素子で構成することができる。

　また処理部２２０は、下記のプロセッサにより実現されてもよい。画像処理システム２００は、プログラムと各種のデータ等の情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。ここでのメモリは、記憶部２３０であってもよいし、異なるメモリであってもよい。プロセッサは、ＧＰＵ等、各種のプロセッサを用いることが可能である。メモリは、半導体メモリ、レジスタ、磁気記憶装置、光学式記憶装置等、種々の態様により実現可能である。メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、処理部２２０の各部の機能が処理として実現される。処理部２２０の各部とは、例えば図８、図１１を用いて後述する各部である。

　記憶部２３０は、処理部２２０等のワーク領域となるもので、その機能は半導体メモリ、レジスタ、磁気記憶装置などにより実現できる。記憶部２３０は、画像取得部２１０が取得した処理対象画像を記憶する。また記憶部２３０は、学習装置１００によって生成された学習済モデルの情報を記憶する。

　図４は、内視鏡システム３００の構成例である。内視鏡システム３００は、挿入部３１０と、外部Ｉ／Ｆ部３２０と、システム制御装置３３０と、表示部３４０と、光源装置３５０を含む。

　挿入部３１０は、その先端側が体内へ挿入される部分である。挿入部３１０は、対物光学系３１１、撮像素子３１２、アクチュエータ３１３、照明レンズ３１４、ライトガイド３１５、ＡＦ（Auto Focus）開始／終了ボタン３１６を含む。

　ライトガイド３１５は、光源３５２からの照明光を、挿入部３１０の先端まで導光する。照明レンズ３１４は、ライトガイド３１５によって導光された照明光を被写体に照射する。対物光学系３１１は、被写体から反射した反射光を、被写体像として結像する。対物光学系３１１は、フォーカスレンズを含み、フォーカスレンズの位置に応じて被写体像が結像する位置を変更可能である。アクチュエータ３１３は、ＡＦ制御部３３６からの指示に基づいて、フォーカスレンズを駆動する。なお、ＡＦは必須ではなく、内視鏡システム３００はＡＦ制御部３３６を含まない構成であってもよい。

　撮像素子３１２は、対物光学系３１１を経由した被写体からの光を受光する。撮像素子３１２はモノクロセンサであってもよいし、カラーフィルタを備えた素子であってもよい。カラーフィルタは、広く知られたベイヤフィルタであってもよいし、補色フィルタであってもよいし、他のフィルタであってもよい。補色フィルタとは、シアン、マゼンタ及びイエローの各色フィルタを含むフィルタである。

　ＡＦ開始／終了ボタン３１６は、ユーザがＡＦの開始／終了を操作するための操作インターフェースである。外部Ｉ／Ｆ部３２０は、内視鏡システム３００に対するユーザからの入力を行うためのインターフェースである。外部Ｉ／Ｆ部３２０は、例えばＡＦ制御モードの設定ボタン、ＡＦ領域の設定ボタン、画像処理パラメータの調整ボタンなどを含む。

　システム制御装置３３０は、画像処理やシステム全体の制御を行う。システム制御装置３３０は、Ａ／Ｄ変換部３３１、前処理部３３２、検出処理部３３３、後処理部３３４、システム制御部３３５、ＡＦ制御部３３６、記憶部３３７を含む。

　Ａ／Ｄ変換部３３１は、撮像素子３１２から順次出力されるアナログ信号をデジタルの画像に変換し、前処理部３３２に順次出力する。前処理部３３２は、Ａ／Ｄ変換部３３１から順次出力される生体内画像に対して、各種補正処理を行い、検出処理部３３３、ＡＦ制御部３３６に順次出力する。補正処理とは、例えばホワイトバランス処理、ノイズ低減処理等を含む。

　検出処理部３３３は、例えば前処理部３３２から取得した補正処理後の画像を、内視鏡システム３００の外部に設けられる画像処理システム２００に送信する処理を行う。内視鏡システム３００は不図示の通信部を含み、検出処理部３３３は、通信部の通信制御を行う。ここでの通信部は、所与のネットワークを介して、生体内画像を画像処理システム２００に送信するための通信インターフェースである。また検出処理部３３３は、通信部の通信制御を行うことによって、画像処理システム２００から検出結果を受信する処理を行う。

　或いは、システム制御装置３３０は、画像処理システム２００を含んでもよい。この場合、Ａ／Ｄ変換部３３１が、画像取得部２１０に対応する。記憶部３３７が、記憶部２３０に対応する。前処理部３３２、検出処理部３３３、後処理部３３４等が、処理部２２０に対応する。この場合、検出処理部３３３は、記憶部３３７に記憶される学習済モデルの情報に従って動作することによって、処理対象画像である生体内画像を対象として、注目領域の検出処理を行う。学習済モデルがニューラルネットワークである場合、検出処理部３３３は、入力である処理対象画像に対して、学習によって決定された重みを用いて順方向の演算処理を行う。そして、出力層の出力に基づいて、検出結果を出力する。

　後処理部３３４は、検出処理部３３３における検出結果に基づく後処理を行い、後処理後の画像を表示部３４０に出力する。ここでの後処理は、画像における認識対象の強調、検出結果を表す情報の付加等、種々の処理が考えられる。例えば後処理部３３４は、前処理部３３２から出力された画像に対して、検出処理部３３３において検出された検出枠を重畳することによって、表示画像を生成する後処理を行う。

　システム制御部３３５は、撮像素子３１２、ＡＦ開始／終了ボタン３１６、外部Ｉ／Ｆ部３２０、ＡＦ制御部３３６と互いに接続され、各部を制御する。具体的には、システム制御部３３５は、各種制御信号の入出力を行う。ＡＦ制御部３３６は、前処理部３３２から順次出力される画像を用いてＡＦ制御を行う。

　表示部３４０は、後処理部３３４から出力される画像を順次表示する。表示部３４０は、例えば液晶ディスプレイやＥＬ（Electro-Luminescence）ディスプレイ等である。光源装置３５０は、照明光を発光する光源３５２を含む。光源３５２は、キセノン光源であってもよいし、ＬＥＤであってもよいし、レーザー光源であってもよい。また光源３５２は他の光源であってもよく、発光方式は限定されない。

　なお、光源装置３５０は、通常光と特殊光を照射可能である。例えば光源装置３５０は、白色光源と回転フィルタを含み、回転フィルタの回転に基づいて、通常光と特殊光を切り替え可能である。或いは光源装置３５０は、赤色ＬＥＤ、緑色ＬＥＤ、青色ＬＥＤ、緑色狭帯域光ＬＥＤ、青色狭帯域光ＬＥＤ等の複数の光源を含むことによって、波長帯域の異なる複数の光を照射可能な構成であってもよい。光源装置３５０は、赤色ＬＥＤ、緑色ＬＥＤ、青色ＬＥＤを点灯させることによって通常光を照射し、緑色狭帯域光ＬＥＤ、青色狭帯域光ＬＥＤを点灯させることによって特殊光を照射する。ただし、通常光及び特殊光を照射する光源装置の構成は種々知られており、本実施形態においてはそれらを広く適用可能である。

２．第１の実施形態
　以下では、第１観察方法が通常光観察であり、第２観察方法が特殊光観察である例について説明する。ただし、第２観察方法は色素散布観察であってもよい。即ち、以下の説明において、特殊光観察又は特殊光画像との表記を、適宜、色素散布観察及び色素散布画像と読み替えることが可能である。

　まず機械学習の概要について説明する。以下では、ニューラルネットワークを用いた機械学習について説明する。即ち、以下で説明する注目領域検出器及び観察方法分類器は、例えばニューラルネットワークを用いた学習済モデルである。ただし、本実施形態の手法はこれに限定されない。本実施形態においては、例えばＳＶＭ（support vector machine）等の他のモデルを用いた機械学習が行われてもよいし、ニューラルネットワークやＳＶＭ等の種々の手法を発展させた手法を用いた機械学習が行われてもよい。

　図５（Ａ）は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図５（Ａ）においては、中間層が２層であるネットワークを例示するが、中間層は１層であってもよいし、３層以上であってもよい。また各層に含まれるノード（ニューロン）の数は図５（Ａ）の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いたディープラーニングを用いることが望ましい。ここでの多層とは、狭義には４層以上である。

　図５（Ａ）に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重み付け係数が設定されている。各ノードは、前段のノードの出力と重み付け係数を乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。なお活性化関数としては、シグモイド関数やＲｅＬＵ関数等の種々の関数が知られており、本実施形態ではそれらを広く適用可能である。

　ニューラルネットワークにおける学習は、適切な重み付け係数を決定する処理である。ここでの重み付け係数は、バイアスを含む。具体的には、学習装置１００は、訓練データのうちの入力データをニューラルネットワークに入力し、そのときの重み付け係数を用いた順方向の演算を行うことによって出力を求める。学習装置１００の学習部１２０は、当該出力と、訓練データのうちの正解データとに基づいて、誤差関数を演算する。そして誤差関数を小さくするように、重み付け係数を更新する。重み付け係数の更新では、例えば出力層から入力層に向かって重み付け係数を更新していく誤差逆伝播法を利用可能である。

　またニューラルネットワークは例えばＣＮＮ（Convolutional Neural Network）であってもよい。図５（Ｂ）は、ＣＮＮを説明する模式図である。ＣＮＮは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。図５（Ｂ）に示す例は、畳み込み層及びプーリング層による演算を複数回行った後、全結合層による演算を行うことによって出力を求めるネットワークである。全結合層とは、所与の層のノードに対して前の層の全てのノードが結合される場合の演算処理を行う層であり、図５（Ａ）を用いて上述した各層の演算に対応する。なお、図５（Ｂ）では記載を省略しているが、ＣＮＮでは活性化関数による演算処理も行われる。ＣＮＮは種々の構成が知られており、本実施形態においてはそれらを広く適用可能である。例えば本実施形態のＣＮＮは、公知のＲＰＮ等（Region Proposal Network）を利用できる。

　ＣＮＮを用いる場合も、処理の手順は図５（Ａ）と同様である。即ち、学習装置１００は、訓練データのうちの入力データをＣＮＮに入力し、そのときのフィルタ特性を用いたフィルタ処理やプーリング演算を行うことによって出力を求める。当該出力と、正解データとに基づいて誤差関数が算出され、当該誤差関数を小さくするように、フィルタ特性を含む重み付け係数の更新が行われる。ＣＮＮの重み付け係数を更新する際にも、例えば誤差逆伝播法を利用可能である。

　次に、本実施形態における機械学習について説明する。画像処理システム２００が実行する注目領域の検出処理とは、具体的には注目領域の有無、位置、大きさ、形状のうち少なくとも１つを検出する処理である。

　例えば検出処理は、注目領域を囲む矩形の枠領域を特定する情報と、当該枠領域の確からしさを表す検出スコアを求める処理である。以下、枠領域を検出枠と表記する。検出枠を特定する情報とは、例えば検出枠の左上端点の横軸における座標値、当該端点の縦軸における座標値、検出枠の横軸方向の長さ、検出枠の縦軸方向の長さ、の４つの数値である。注目領域の形状が変化することによって、検出枠の縦横比が変化するため、当該検出枠は注目領域の有無、位置、大きさだけでなく、形状を表す情報に該当する。ただし本実施形態の検出処理では、広く知られているセグメンテーションが用いられてもよい。この場合、画像中の各画素について、当該画素が注目領域であるか否かを表す情報、例えばポリープであるか否かを表す情報が出力される。この場合、注目領域の形状をより詳細に特定することが可能である。

　図７は、第１の実施形態における学習装置１００の構成例である。学習装置１００の学習部１２０は、検出学習部１２１と、観察方法分類学習部１２２を含む。検出学習部１２１は、画像取得部１１０から画像群Ａ１を取得し、当該画像群Ａ１に基づく機械学習を行うことによって、注目領域検出器を生成する。

　検出学習部１２１において実行される学習処理は、通常光画像と特殊光画像の両方に適用可能な学習済モデルを生成するための学習処理である。即ち、画像群Ａ１は、通常光画像に対して、注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する情報である検出データが付与された学習用画像と、特殊光画像に対して検出データが付与された学習用画像とを含む。

　例えば、検出データは、検出対象であるポリープ領域と背景領域が異なる色で塗り分けられたマスクデータである。或いは検出データは、ポリープを囲む検出枠を特定するための情報であってもよい。例えば画像群Ａ１に含まれる学習用画像は、通常光画像又は特殊光中のポリープ領域を矩形枠で囲み、当該矩形枠に「ポリープ」というラベルが付加され、それ以外の領域に「正常」というラベルが付加されたデータであってもよい。なお検出枠は矩形枠に限定されず、ポリープ領域付近を囲むものであれば、楕円形状の枠等でもよい。

　図６（Ａ）は、注目領域検出器の入力及び出力を説明する図である。注目領域検出器は、処理対象画像を入力として受け付け、当該処理対象画像に対する処理を行うことによって、検出結果を表す情報を出力する。検出学習部１２１は、画像が入力される入力層と、中間層と、検出結果を出力する出力層を含むモデルの機械学習を行う。例えば注目領域検出器は、ＲＰＮ（Region Proposal Network）、Ｆａｓｔｅｒ　Ｒ－ＣＮＮ、ＹＯＬＯ（You only Look Once）等の物体検出用ＣＮＮである。

　具体的には、検出学習部１２１は、画像群Ａ１に含まれる学習用画像をニューラルネットワークの入力として、現在の重み付け係数に基づく順方向の演算を行う。検出学習部１２１は、出力層の出力と、正解データである検出データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。以上が１枚の学習用画像に基づく処理であり、検出学習部１２１は、上記処理を繰り返すことによって注目領域検出器の重み付け係数を学習する。なお、重み付け係数の更新は１枚単位で行うものに限定されず、バッチ学習等が用いられてもよい。

　画像群Ａ２は、通常光画像に対して、観察方法を特定する情報である観察方法データが正解データとして付与された学習用画像と、特殊光画像に対して観察方法データが付与された学習用画像とを含む画像群である。観察方法データは、例えば通常光画像又は特殊光画像のいずれかを表すラベルである。

　図６（Ｂ）は、観察方法分類器の入力と出力を説明する図である。観察方法分類器は、処理対象画像を入力として受け付け、当該処理対象画像に対する処理を行うことによって、観察方法分類結果を表す情報を出力する。観察方法分類結果を表す情報は、例えば第１分類スコア及び第２分類スコアである。

　観察方法分類学習部１２２は、画像が入力される入力層と、観察方法分類結果を出力する出力層を含むモデルの機械学習を行う。観察方法分類器は、例えば、ＶＧＧ１６やＲｅｓＮｅｔ等の画像分類用ＣＮＮである。観察方法分類学習部１２２は、画像群Ａ２に含まれる学習用画像をニューラルネットワークの入力として、現在の重み付け係数に基づく順方向の演算を行う。検出学習部１２１は、出力層の出力と、正解データである観察方法データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。観察方法分類学習部１２２は、上記処理を繰り返すことによって観察方法分類器の重み付け係数を学習する。

　なお、観察方法分類器における出力層の出力は、例えば入力された画像が通常光観察において撮像された通常光画像である確からしさを表すデータと、入力された画像が特殊光観察において撮像された特殊光画像である確からしさを表すデータを含む。例えば観察方法分類器の出力層が公知のソフトマックス層である場合、出力層は合計が１となる２つの確率データを出力する。以下、入力された画像が通常光画像である確からしさを表すデータを通常光スコアと表記し、入力された画像が特殊光画像である確からしさを表すデータを特殊光スコアと表記する。図６（Ｂ）において、例えば第１分類スコアが通常光スコアに対応し、第２分類スコアが特殊光スコアに対応する。

　観察方法分類学習部１２２は、正解データであるラベルが通常光画像である場合、通常光画像である確率データが１であり、特殊光画像である確率データが０であるデータを正解データとして誤差関数を求める。また観察方法分類学習部１２２は、正解データであるラベルが特殊光画像である場合、通常光画像である確率データが０であり、特殊光画像である確率データが１であるデータを正解データとして誤差関数を求める。

　図８は、第１の実施形態における画像処理システム２００の構成例である。画像処理システム２００の処理部２２０は、観察方法分類部２２１と、閾値設定部２２２と、検出処理部２２３と、出力処理部２２４を含む。観察方法分類部２２１は、観察方法分類器に基づく観察方法分類処理を行う。閾値設定部２２２は、観察方法分類処理の結果に基づいて、検出結果の出力処理に用いられる閾値を設定する。検出処理部２２３は、注目領域検出器を用いた検出処理を行う。出力処理部２２４は、閾値設定部２２２において設定された閾値と、検出処理部２２３における検出結果とに基づいて出力処理を行う。

　図９は、第１の実施形態における画像処理システム２００の処理を説明するフローチャートである。なお処理の流れは図９に限定されず、種々の変形実施が可能である。例えば、ステップＳ１０３の検出処理は、ステップＳ１０４～Ｓ１０６の閾値設定処理よりも後に行われてもよいし、検出処理と閾値設定処理が並列に行われてもよい。以下、各ステップについて説明する。

　まずステップＳ１０１において、画像取得部２１０は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。

　ステップＳ１０２において、観察方法分類部２２１は、処理対象画像が通常光画像であるか特殊光画像であるかを判定する観察方法分類処理を行う。例えば観察方法分類部２２１は、画像取得部２１０が取得した処理対象画像を観察方法分類器に入力することによって、処理対象画像が通常光画像である確率を表す通常光スコアと、処理対象画像が特殊光画像である確率を表す特殊光スコアとを取得する。

　ステップＳ１０３において、検出処理部２２３は、注目領域検出器を用いて注目領域の検出処理を行う。具体的には、検出処理部２２３は、処理対象画像を注目領域検出器に入力することによって、処理対象画像中の所定数の検出枠に関する情報と、当該検出枠に対応付けられた検出スコアを取得する。本実施形態における検出結果とは例えば検出枠を表し、検出スコアは当該検出結果の確からしさを表す。

　ステップＳ１０４～ステップＳ１０６において、閾値設定部２２２は、観察方法分類結果に基づいて閾値を設定する。具体的には、まずステップＳ１０４において、閾値設定部２２２は観察方法分類結果が通常光観察を表すか否かを判定する。例えば閾値設定部２２２は、観察方法分類部２２１から通常光スコア及び特殊光スコアを取得し、その大小関係を判定する。閾値設定部２２２は、通常光スコアが特殊光スコア以上の場合に、観察方法が通常光観察であると判定し、通常光スコアが特殊光スコアよりも小さい場合に、観察方法が特殊光観察であると判定する。

　処理対象画像が通常光画像であるという観察方法分類結果が取得された場合、ステップＳ１０５において、閾値設定部２２２は通常光観察用の閾値を設定する。処理対象画像が特殊光画像であるという観察方法分類結果が取得された場合、ステップＳ１０６において、閾値設定部２２２は特殊光観察用の閾値を設定する。具体的には、画像処理システムの記憶部２３０は、通常光画像を評価用画像として用いることによって取得された閾値Ｔｈ１と、特殊光観察を評価用画像として用いることによって取得された閾値Ｔｈ２を記憶している。例えば過検出率が０．０５（箇所／枚）近傍となるような過検出抑制モードを実現する場合、Ｔｈ１は、通常光画像を評価用画像として入力した際の過検出率が０．０５となるように設定された閾値である。Ｔｈ２は、特殊光画像を評価用画像として入力した際の過検出率が０．０５となるように設定された閾値である。

　閾値設定部２２２は、ステップＳ１０５においてＴｈ１を閾値に設定する処理を行い、ステップＳ１０６においてＴｈ２を閾値に設定する処理を行う。

　ステップＳ１０７において、出力処理部２２４は、ステップＳ１０３において取得された検出結果と、ステップＳ１０５又はＳ１０６において設定された閾値とに基づいて、検出結果の出力処理を実行する。具体的には、出力処理部２２４は、検出枠に対応付けられた検出スコアと、設定された閾値を比較する処理を行う。そして出力処理部２２４は、検出処理部２２３において検出された検出枠のうち、検出スコアが閾値より大きい検出枠を出力し、検出スコアが閾値以下である検出枠を出力しない。

　ステップＳ１０７における出力処理は、例えば画像処理システム２００が内視鏡システム３００に含まれる場合、表示画像を生成する処理、及び、当該表示画像を表示部３４０に表示する処理である。また画像処理システム２００と内視鏡システム３００が別体として設けられる場合、上記出力処理は、例えば表示画像の内視鏡システム３００への送信処理である。或いは上記出力処理は、検出枠を表す情報を内視鏡システム３００へ送信する処理であってもよい。この場合、表示画像の生成処理及び表示制御は内視鏡システム３００において実行される。

　以上のように、本実施形態に係る画像処理システム２００は、処理対象画像を取得する画像取得部２１０と、処理対象画像において注目領域を検出した結果である検出結果を出力する処理を行う処理部２２０を含む。図９のステップＳ１０２に示したように、処理部２２０は、処理対象画像が第１観察方法において撮像された確からしさを表す第１分類スコアと、処理対象画像が第２観察方法において撮像された確からしさを表す第２分類スコアと、を求める。また処理部２２０は、ステップＳ１０３に示したように、処理対象画像において注目領域を検出し、検出された注目領域の確からしさを表す検出スコアを求める。また処理部２２０は、ステップＳ１０４～Ｓ１０６に示したように、第１分類スコアと第２分類スコアとに基づいて、閾値を設定する。そして処理部２２０は、ステップＳ１０７に示したように、設定された閾値と検出スコアを比較し、閾値よりも検出スコアが大きい場合に、注目領域の検出結果を出力する。

　例えば、第１分類スコアは通常光スコアであり、第２分類スコアは特殊光スコアである。ただし、第２観察方法は色素散布観察であってもよく、その場合の第２分類スコアとは、処理対象画像が色素散布画像である確からしさを表す情報である。

　本実施形態の手法によれば、処理対象画像が撮像された観察方法の分類結果に基づいて、適切な閾値を設定できる。これにより、処理対象画像の観察方法に応じた感度や過検出のばらつきを抑制し、一貫した検出処理を行うことが可能になる。

　なお、第１分類スコア及び第２分類スコアを求める処理は、観察方法分類器に基づいて行われる。検出結果及び検出スコアを求める処理は、注目領域検出器に基づいて行われる。観察方法分類器、注目領域検出器のそれぞれに基づく処理は、学習済モデルからの指示に従って処理部２２０が動作することによって実現される。

　学習済モデルに従った処理部２２０における演算、即ち、入力データに基づいて出力データを出力するための演算は、ソフトウェアによって実行されてもよいし、ハードウェアによって実行されてもよい。換言すれば、図５（Ａ）の各ノードにおいて実行される積和演算や、ＣＮＮの畳み込み層において実行されるフィルタ処理等は、ソフトウェア的に実行されてもよい。或いは上記演算は、ＦＰＧＡ等の回路装置によって実行されてもよい。また、上記演算は、ソフトウェアとハードウェアの組み合わせによって実行されてもよい。このように、学習済モデルからの指令に従った処理部２２０の動作は、種々の態様によって実現可能である。例えば学習済モデルは、推論アルゴリズムと、当該推論アルゴリズムにおいて用いられるパラメータとを含む。推論アルゴリズムとは、入力データに基づいて、フィルタ演算等を行うアルゴリズムである。パラメータとは、学習処理によって取得されるパラメータであって、例えば重み付け係数である。この場合、推論アルゴリズムとパラメータの両方が記憶部２３０に記憶され、処理部２２０は、当該推論アルゴリズムとパラメータを読み出すことによってソフトウェア的に推論処理を行ってもよい。或いは、推論アルゴリズムはＦＰＧＡ等によって実現され、記憶部２３０はパラメータを記憶してもよい。或いは、パラメータを含む推論アルゴリズムがＦＰＧＡ等によって実現されてもよい。この場合、学習済モデルの情報を記憶する記憶部２３０は、例えばＦＰＧＡの内蔵メモリである。

　また本実施形態における処理対象画像は、内視鏡撮像装置によって撮像された生体内画像である。ここで、内視鏡撮像装置とは、内視鏡システム３００に設けられ、生体に対応する被写体像の結像結果を出力可能な撮像装置であって、狭義には撮像素子３１２に対応する。

　そして第１観察方法は、通常光を照明光とする観察方法であり、第２観察方法は、特殊光を照明光とする観察方法である。このようにすれば、照明光が通常光と特殊光の間で切り替えられることによって観察方法が変化する場合であっても、当該変化に起因する感度や過検出のばらつきを抑制できる。結果として、一貫した検出処理を実現することが可能になる。

　また第１観察方法は、通常光を照明光とする観察方法であり、第２観察方法は、被写体に対して色素散布が行われた観察方法であってもよい。このようにすれば、被写体に色材を散布することによって観察方法が変化する場合であっても、当該変化に起因する感度や過検出のばらつきを抑制することが可能になる。

　特殊光観察及び色素散布観察は、通常光観察に比べて特定の被写体の視認性を向上させることが可能になるため、通常光観察と併用する利点が大きい。本実施形態の手法によれば、特殊光観察や色素散布観察によってユーザに視認性の高い画像を提示することと、検出処理における感度等のばらつきを抑制することの両立が可能になる。

　また処理部２２０は、学習済モデルに従って動作することによって、処理対象画像が第１観察方法において撮像された確からしさを表す第１分類スコアと、処理対象画像が第２観察方法において撮像された確からしさを表す第２分類スコアと、を求める。当該学習済モデルは、第１観察方法又は第２観察方法で撮像された学習用画像と、学習用画像が第１観察方法と第２観察方法のいずれで撮像された画像であるかを表す観察方法データと、に基づく機械学習によって取得されたモデルである。

　このようにすれば、観察方法データが対応付けられた学習用画像を用いて生成された学習済モデルに基づいて、観察方法分類処理を行うことが可能になる。機械学習を利用することによって、観察方法分類処理を精度よく行うことが可能になる。

　また本実施形態の画像処理システム２００は、第１観察方法に対応する第１閾値と、第２観察方法に対応する第２閾値とを記憶する記憶部２３０をさらに含んでもよい。処理部２２０は、第１分類スコアが第２分類スコアよりも大きい場合に、第１閾値を閾値として設定する。処理部２２０は、第２分類スコアが第１分類スコアよりも大きい場合に、第２閾値を閾値として設定する。なお、第１分類スコアと第２分類スコアが等しい場合、処理部２２０は第１閾値を閾値として設定してもよいし、第２閾値を閾値として設定してもよい。

　ここでの第１閾値は第１観察方法において撮像された画像を評価用画像とすることによって取得される閾値であり、例えば上記Ｔｈ１である。第２閾値は第２観察方法において撮像された画像を評価用画像とすることによって取得される閾値であり、例えば上記Ｔｈ２である。このように、分類スコアの大小関係に基づいて閾値を選択することによって、処理対象画像の観察方法に適した閾値を設定可能である。

　ただし、本実施形態における閾値設定はこれに限定されない。例えば処理部２２０は、第１分類スコア及び第２分類スコアに基づく重みを用いて、第１閾値及び第２閾値を重み付け加算することによって、閾値を設定してもよい。

　例えば、閾値設定部２２２は、第１閾値をＴｈ１とし、第２閾値をＴｈ２とし、第１分類スコアをＳＣ１とし、第２分類スコアをＳＣ２とした場合に、下式（１）に基づいて閾値Ｔｈを設定する。
　　Ｔｈ＝ＳＣ１×Ｔｈ１＋ＳＣ２×Ｔｈ２　・・・（１）

　例えば、第１分類スコアと第２分類スコアの両方が０．５近傍である場合、処理対象画像は通常光画像であるか特殊光画像であるかの判定が難しい画像である。このような例において、通常光画像に対応するＴｈ１そのものを閾値として設定した場合、処理対象画像は、特殊光画像と同様の画像特徴をある程度含むにもかかわらず、その点が考慮されない。結果として感度や過検出率にばらつきが発生するおそれがある。特殊光画像に対応するＴｈ２そのものを閾値として設定する場合も同様である。

　その点、上式（１）のように第１閾値と第２閾値の両方を考慮した閾値を設定することによって、処理対象画像に適した閾値を柔軟に設定することが可能になる。なお、上式（１）は重み付け加算の一例であり、異なる演算によって閾値が求められてもよい。例えば上式（１）においては確率データである分類スコアそのものを重み付け加算における重みとして用いたが、処理はこれに限定されない。例えば第１分類スコア及び第２分類スコアと、重み付け加算における重みとを対応付けたテーブルデータを用意し、当該テーブルデータを参照することによって重みが決定されてもよい。

　また図９を用いた上記説明においては、過検出抑制モードにおける閾値を設定する例を説明した。ただし画像処理システム２００は複数の検出モードを切り替え可能であってもよい。この場合、記憶部２３０は、検出モード及び観察方法に応じた閾値を記憶する。

　例えば、検出モードとして感度優先モードと過検出抑制モードの２つを切り替え可能であり、観察方法として通常光観察と特殊光観察の２つを切り替え可能である場合を考える。この場合、記憶部２３０は、感度優先モード且つ通常光観察に適した閾値Ｔｈ１１と、過検出抑制モード且つ通常光観察に適したＴｈ１２と、感度優先モード且つ特殊光観察に適した閾値Ｔｈ２１と、過検出抑制モード且つ特殊光観察に適したＴｈ２２と、を記憶してもよい。

　そして閾値設定部２２２は、現在の検出モードと、観察方法分類部２２１から出力される分類スコアに基づいて、閾値を設定する。例えば検出モードが感度優先モードである場合、閾値設定部２２２は、Ｔｈ１１、Ｔｈ２１、第１分類スコア、第２分類スコアに基づいて閾値を設定する。具体的には閾値設定部２２２は、上記のようにＴｈ１１とＴｈ２１のいずれか一方を選択してもよいし、重み付け加算を行ってもよい。また検出モードが過検出抑制モードである場合、閾値設定部２２２は、Ｔｈ１２、Ｔｈ２２、第１分類スコア、第２分類スコアに基づいて閾値を設定する。このように、本実施形態の手法は検出モードごとに一貫した検出処理を実行できればよく、検出モードの数は１つであってもよいし２以上であってもよい。なお検出モードは、ユーザ入力によって決定されてもよいし、システム側で自動的に決定されてもよい。いずれの場合であっても、閾値設定部２２２は、検出モードを特定する情報を取得可能である。

　また本実施形態の観察方法分類器は、コンボリューショナルニューラルネットワーク（Convolutional Neural Network）からなってもよい。このようにすれば、画像に対する観察方法分類処理を効率的に、且つ高い精度で実行することが可能になる。また、本実施形態の注目領域検出器がＣＮＮであってもよい。このようにすれば、画像を入力とする検出処理を効率的に、且つ高い精度で実行することが可能になる。

　また本実施形態の手法は、内視鏡システム３００に適用可能である。内視鏡システム３００は、生体内画像を撮像する撮像部と、生体内画像を処理対象画像として取得する画像取得部と、処理対象画像に対する処理を行う処理部と、を含む。上述したように、この場合の撮像部は、例えば撮像素子３１２である。画像取得部は、例えばＡ／Ｄ変換部３３１である。処理部は、例えば前処理部３３２、検出処理部３３３、後処理部３３４等である。なお、画像取得部が、Ａ／Ｄ変換部３３１と前処理部３３２に対応すると考えることも可能であり、具体的な構成は種々の変形実施が可能である。

　内視鏡システム３００の処理部は、処理対象画像が第１観察方法において撮像された確からしさを表す第１分類スコアと、処理対象画像が第２観察方法において撮像された確からしさを表す第２分類スコアと、を求める。処理部は、処理対象画像において注目領域を検出し、検出された注目領域の確からしさを表す検出スコアを求める。そして処理部は、第１分類スコアと前２分類スコアとに基づいて、閾値を設定し、設定された閾値と検出スコアを比較し、閾値よりも検出スコアが大きい場合に、注目領域の検出結果を出力する。

　また、本実施形態の画像処理システム２００が行う処理は、画像処理方法として実現されてもよい。本実施形態の画像処理方法は、処理対象画像を取得し、処理対象画像が第１観察方法において撮像された確からしさを表す第１分類スコアと、処理対象画像が第２観察方法において撮像された確からしさを表す第２分類スコアと、を求め、処理対象画像において注目領域を検出し、検出された注目領域の確からしさを表す検出スコアを求め、第１分類スコアと第２分類スコアとに基づいて、閾値を設定し、設定された閾値と検出スコアを比較し、閾値よりも検出スコアが大きい場合に、注目領域の検出結果を出力する。

３．第２の実施形態
　第１の実施形態においては、観察方法分類器が観察方法分類処理のみを実行する例について説明した。ただし、観察方法分類器は、観察方法分類処理に加えて、注目領域の検出処理を実行してもよい。なお、第２の実施形態においても、第１観察方法が通常光観察であり、第２観察方法が特殊光観察である例について説明するが、第２観察方法は色素散布観察であってもよい。

　本実施形態の学習部１２０は、検出学習部１２１と観察方法分類学習部１２２に区分されず、検出処理と観察方法分類処理の両方を行う観察方法分類器を生成する処理を行う。なお、以下では、第１の実施形態の観察方法分類器と区別するために、第２の実施形態の観察方法分類器を検出一体型観察方法分類器とも表記する。

　検出一体型観察方法分類器としては、例えば、注目領域検出用ＣＮＮと観察方法分類用ＣＮＮが、畳み込み、プーリング、非線形活性化処理を繰り返しながら特徴を抽出する特徴抽出層を共有し、そこから検出結果の出力と、観察方法分類結果の出力に分かれる構成が用いられる。

　図１０は、検出一体型観察方法分類器のニューラルネットワークの構成を示す図である。図１０に示すように、検出一体型観察方法分類器であるＣＮＮは、特徴量抽出層と、検出層と、観察方法分類層と、を含む。図１０における矩形領域は、それぞれが畳み込み層、プーリング層、全結合層等の何らかの演算を行う層を表す。ただし、ＣＮＮの構成は図１０に限定されず、種々の変形実施が可能である。

　特徴量抽出層は、処理対象画像を入力として受け付け、畳み込み演算等を含む演算を行うことによって特徴量を出力する。検出層は、特徴量抽出層から出力された特徴量を入力とし、検出結果を表す情報を出力する。検出層の出力は、例えば検出枠と、当該検出枠に対応付けられる検出スコアである。観察方法分類層は、特徴量抽出層から出力された特徴量を入力とし、観察方法分類結果を表す情報を出力する。観察方法分類層の出力は、例えば第１分類スコア及び第２分類スコアである。学習装置１００は、特徴量抽出層、検出層、観察方法分類層の各層における重み付け係数を決定する学習処理を実行する。

　本実施形態の学習部１２０は、通常光画像に対して検出データ及び観察方法データが正解データとして付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像とを含む画像群に基づいて学習処理を行うことによって、検出一体型観察方法分類器を生成する。

　具体的には、学習部１２０は、図１０に示すニューラルネットワークにおいて、画像群に含まれる通常光画像又は特殊光画像を入力として、現在の重み付け係数に基づく順方向の演算を行う。観察方法分類学習部１２２は、順方向の演算によって求められた結果と、正解データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。例えば学習部１２０は、検出層の出力と検出データの間の誤差と、観察方法分類層の出力と観察方法データの間の誤差と、の重み付け和を誤差関数として求める。これにより、図１０に示すニューラルネットワークのうち、特徴量抽出層における重み付け係数、検出層における重み付け係数、観察方法分類層における重み付け係数、の全てが学習対象となる。

　図１１は、第２の実施形態における画像処理システム２００の構成例である。画像処理システム２００の処理部２２０は、検出分類部２２５と、閾値設定部２２２と、出力処理部２２４を含む。検出分類部２２５は、学習装置１００によって生成された検出一体型観察方法分類器に基づいて、検出結果と観察方法分類結果を出力する。閾値設定部２２２及び出力処理部２２４については、第１の実施形態と同様である。

　図１２は、第２の実施形態における画像処理システム２００の処理を説明するフローチャートである。まずステップＳ２０１において、画像取得部２１０は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。

　ステップＳ２０２において、検出分類部２２５は、画像取得部２１０が取得した処理対象画像を検出一体型観察方法分類器の入力として順方向の演算を行う。ステップＳ２０２の処理において、検出分類部２２５は、検出層からの検出結果を表す情報と、観察方法分類層からの観察方法分類結果を表す情報を取得する。具体的には、検出分類部２２５は、検出枠、検出スコア、第１分類スコア、第２分類スコアを取得する。

　ステップＳ２０３～Ｓ２０６の処理は、図９のステップＳ１０４～Ｓ１０７と同様である。即ち、ステップＳ２０３～Ｓ２０５において、閾値設定部２２２は、第１分類スコア及び第２分類スコアに基づいて閾値を設定する。出力処理部２２４は、ステップＳ２０６において、検出スコアと設定された閾値とに基づいて、検出結果を出力する。ただし検出枠及び検出スコアが、検出一体型観察方法分類器によって出力された情報である点が第１の実施形態とは異なる。

　以上のように、本実施形態における処理部２２０は、学習済モデルに従って動作することによって、第１分類スコアと、第２分類スコアと、検出スコアと、を求める。そして学習済モデルは、第１観察方法又は第２観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得されたモデルであり、正解データは、学習用画像における注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データと、学習用画像が第１観察方法と第２観察方法のいずれで撮像された画像であるかを表す観察方法データと、を含む。

　このようにすれば、観察方法分類器が、注目領域の検出器を兼ねることが可能になる。例えば図１０に示す構成を用いることによって、検出処理における特徴量抽出と観察方法分類処理における特徴量抽出を共通化することが可能になる。そのため、特徴量抽出層をそれぞれ設ける場合に比べて、学習済モデルのサイズを小さくすることが可能になる。例えば、画像処理システム２００の記憶部２３０が学習済モデルの重み付け係数を記憶する場合に、当該記憶部２３０の容量を小さくすることが可能である。或いは、学習済モデルに従った推論処理アルゴリズムをＦＰＧＡ等を用いて構成する場合において、当該ＦＰＧＡのサイズ低減が可能になる。

４．第３の実施形態
　以上では、第１観察方法が通常光観察であり、第２観察方法が特殊光観察又は色素散布観察である例について説明した。しかし観察方法は２つに限定されない。例えば、観察方法として、通常光観察と、特殊光観察と、色素散布観察の３つが用いられてもよい。

　さらに、観察方法は通常光観察、特殊光観察、色素散布観察に限定されない。例えば本実施形態の観察方法は、挿入部から水を放出する送水操作が行われている状態で撮像を行う観察方法である送水観察、挿入部から気体を放出する送気操作が行われている状態で撮像を行う観察方法である送気観察、泡が付着した状態の被写体を撮像する観察方法である泡観察、残渣が付着した状態の被写体を撮像する観察方法である残渣観察、等を含んでもよい。観察方法の組み合わせは柔軟に変更可能であり、通常光観察、特殊光観察、色素散布観察、送水観察、送気観察、泡観察、残渣観察のうちの２以上を任意に組み合わせ可能である。また上記以外の観察方法が用いられてもよい。

　Ｎ（Ｎは３以上の整数）通りの観察方法が想定される場合、観察方法分類器は、第１～第Ｎ分類スコアを出力する。第ｉ分類スコアは、観察方法分類器に入力された画像が第ｉ観察方法において撮像された確からしさを表すデータである。ここでｉは１以上、且つ、Ｎ以下の各整数である。例えば第１～第Ｎ分類スコアは、合計が１となる確率データである。

　記憶部２３０は、第１～第Ｎ観察方法のそれぞれに適した閾値Ｔｈ１～ＴｈＮを記憶している。閾値設定部２２２は、観察方法分類器の出力である第１～第Ｎ分類スコアと、閾値Ｔｈ１～ＴｈＮとに基づいて、閾値を設定する。閾値設定部２２２は、第１～第Ｎ分類スコアのうち値が最大になる分類スコアに基づいて、Ｔｈ１～ＴｈＮのうちのいずれか１つを閾値として選択してもよいし、第１～第Ｎ分類スコアとＴｈ１～ＴｈＮとの重み付け加算を行うことによって閾値を演算してもよい。

　また上述したように、複数の検出モードが切り替え可能であってもよい。図１３は、記憶部２３０に記憶される各観察方法に対応する閾値の例である。図１３に示すように、記憶部２３０は、感度優先モードを実現する閾値として、通常光観察、特殊光観察、色素散布観察、送水観察、送気観察、泡観察、残渣観察の各観察方法に適した７つの閾値Ｔｈ１１～Ｔｈ７１を記憶する。同様に記憶部２３０は、過検出抑制モードを実現する閾値として、通常光観察、特殊光観察、色素散布観察、送水観察、送気観察、泡観察、残渣観察の各観察方法に適した７つの閾値Ｔｈ１２～Ｔｈ７２を記憶する。即ち記憶部２３０は、検出モード数がＭ（Ｍは１以上の整数）であり、観察方法数がＮである場合に、Ｎ×Ｍ個の閾値Ｔｈ１１～ＴｈＮＭを記憶する。

　閾値設定部２２２は、検出モードを特定することによってのＮ×Ｍ通りの閾値のうちのＮ個の閾値を選択する。例えばｊ番目（ｊは１以上Ｍ以下の整数）の検出モードを実現する場合、閾値設定部２２２は、Ｔｈ１ｊ～ＴｈＮｊを選択する。そして第１～第Ｎ分類スコアと閾値Ｔｈ１ｊ～ＴｈＮｊとに基づいて閾値を設定する。

　以上のように、観察方法の数は３以上の拡張可能である。同様に、検出モードの数も１又は２に限定されず３以上に拡張されてもよい。このようにすれば、多様な観察方法を対象とする場合であっても、観察方法によらず一貫した検出処理を実現することが可能になる。

５．第４の実施形態
　例えば医師による診断工程は、通常光観察を用いて病変を探す工程と、特殊光観察を用いて、見つかった病変の悪性度の鑑別を行う工程とが考えられる。特殊光画像は、通常光画像に比べて病変の視認性が高いため、悪性度の鑑別を精度よく行うことが可能になる。しかし、特殊光画像は、通常光画像に比べて取得される枚数が少ない。そのため、特殊光画像を用いた機械学習において訓練データが不足することによって、検出精度が低下するおそれがある。

　訓練データの不足に対して、プレトレーニングとファインチューニングを行う手法が知られている。しかし従来手法においては、特殊光画像と通常光画像の間の観察方法の違いが考慮されていない。ディープラーニングでは、学習に用いた画像群と異なる条件で撮影されたテスト画像に対する認識性能が低下する。ここでのテスト画像とは、学習結果を用いた推論処理の対象となる画像を表す。即ち、従来手法は、特殊光画像を対象とした検出処理の精度を向上させる手法を開示していない。

　よって本実施形態においては、通常光画像を含む画像群を用いてプレトレーニングを行い、当該プレトレーニング後に、特殊光画像を含む画像群を用いてファインチューニングを行う。このようにすれば、特殊光画像の枚数が不足する場合であっても、検出精度を高くすることが可能になる。

　また、以下では第１観察方法が通常光観察であり、第２観察方法が特殊光観察である例について説明するが、第２観察方法は色素散布観察であってもよい。また第２観察方法は、訓練データの不足によって検出精度が低下するおそれがある他の観察方法に拡張可能である。例えば第２観察方法は、上述した送気観察、送水観察、泡観察、残渣観察等であってもよい。

　図１４は、本実施形態の学習装置１００の構成例である。学習部１２０は、プレトレーニング部１２３と、ファインチューニング部１２４を含む。

　プレトレーニング部１２３は、画像取得部１１０から画像群Ｂ１を取得し、当該画像群Ｂ１に基づく機械学習を行うことによって、検出一体型観察方法分類器のプレトレーニングを行う。画像群Ｂ１は、通常光画像に対して検出データが付与された学習用画像を含む。上述したように、通常光観察は注目領域を探す工程において広く利用される。そのため、検出データが付与された通常光画像は豊富に取得可能である。なおプレトレーニング部１２３が画像群Ｂ１を用いて行う処理は、検出タスク向けのプレトレーニングである。検出タスク向けのプレトレーニングとは、検出データを正解データとして用いることによって、図１０における特徴量抽出層及び検出層の重み付け係数を更新する学習処理である。即ち、検出一体型観察方法分類器のプレトレーニングにおいては、観察方法分類層の重み付け係数は学習対象ではない。

　ファインチューニング部１２４は、豊富に取得することが難しい特殊光画像を用いた学習処理を行う。画像群Ｂ２は、通常光画像に対して検出データ及び観察方法データが付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像を含む画像群である。ファインチューニング部１２４は、プレトレーニングによって取得された重み付け係数を初期値として、画像群Ｂ２を用いた学習処理を実行することによって、検出一体型観察方法分類器を生成する。ファインチューニングにおいては、検出タスク及び観察方法分類タスクの両方を対象とした学習が行われるため、特徴量抽出層、検出層、観察方法分類層の全ての重み付け係数が学習対象となる。

　検出一体型観察方法分類器の生成後の処理は、第２の実施形態と同様である。また、第４の実施形態の手法と、第３の実施形態の手法が組み合わせられてもよい。即ち、通常光観察を含む３つ以上の観察方法を用いる場合において、通常光画像を用いたプレトレーニングと、撮像枚数が不足する観察方法における撮像画像を用いたファインチューニングとを組み合わせることが可能である。

　また以上では、注目領域検出器を兼ねる検出一体型観察方法分類器を、プレトレーニングとファインチューニングによって生成する例を説明した。ただし第１の実施形態と同様に、観察方法分類器と注目領域検出器は別体であってもよい。この場合、通常光画像を用いたプレトレーニングと、通常光画像及び特殊光画像を用いたファインチューニングとを行うことによって、注目領域検出器が生成される。また通常光画像を用いて検出タスク向けにプレトレーニングを行い、プレトレーニング後の特徴量抽出層を流用して観察方法分類タスク向けのファインチューニングを実行することによって、観察方法分類器が生成されてもよい。

　以上のように、学習済モデルは、第１観察方法において撮像された画像を含む第１画像群を用いてプレトレーニングされ、プレトレーニング後に、第１観察方法において撮像された画像及び第２観察方法において撮像された画像を含む第２画像群を用いてファインチューニングされることによって学習されたモデルであってもよい。

　ここでの学習済モデルは具体的には検出一体型観察方法分類器である。第１画像群は画像群Ｂ１に対応し、通常光画像に対して検出データが付与された学習用画像を複数含む画像群である。第２画像群は画像群Ｂ２に対応し、通常光画像に対して検出データ及び観察方法データが付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像を含む画像群である。観察方法が３つ以上である場合、第２画像群は、複数の観察方法の各観察方法で撮像された学習用画像を含む。

　本実施形態の手法によれば、学習用画像の枚数不足を補うために、機械学習のプレトレーニングが行われる。ニューラルネットワークを用いる場合、プレトレーニングとはファインチューニングを行う際の重み付け係数の初期値を設定する処理である。これにより、プレトレーニングを行わない場合に比べて、検出処理の精度向上が可能になる。

　なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また学習装置、画像処理システム、内視鏡システム等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。

１００…学習装置、１１０…画像取得部、１２０…学習部、１２１…検出学習部、１２２…観察方法分類学習部、１２３…プレトレーニング部、１２４…ファインチューニング部、２００…画像処理システム、２１０…画像取得部、２２０…処理部、２２１…観察方法分類部、２２２…閾値設定部、２２３…検出処理部、２２４…出力処理部、２２５…検出分類部、２３０…記憶部、３００…内視鏡システム、３１０…挿入部、３１１…対物光学系、３１２…撮像素子、３１３…アクチュエータ、３１４…照明レンズ、３１５…ライトガイド、３１６…ＡＦ開始／終了ボタン、３２０…外部Ｉ／Ｆ部、３３０…システム制御装置、３３１…Ａ／Ｄ変換部、３３２…前処理部、３３３…検出処理部、３３４…後処理部、３３５…システム制御部、３３６…制御部、３３７…記憶部、３４０…表示部、３５０…光源装置、３５２…光源

Claims

　処理対象画像を取得する画像取得部と、
　前記処理対象画像に対する処理を行う処理部と、
　を含み、
　前記処理部は、
　前記処理対象画像が第１観察方法において撮像された確からしさを表す第１分類スコアと、前記処理対象画像が第２観察方法において撮像された確からしさを表す第２分類スコアと、を求め、
　前記処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、
　前記第１分類スコアと前記第２分類スコアとに基づいて、閾値を設定し、
　設定された前記閾値と前記検出スコアを比較し、
　前記閾値よりも前記検出スコアが大きい場合に、前記注目領域の検出結果を出力する、
　ことを特徴とする画像処理システム。
　請求項１において、
　前記処理対象画像は、内視鏡撮像装置によって撮像された生体内画像であり、
　前記第１観察方法は、通常光を照明光とする観察方法であり、
　前記第２観察方法は、特殊光を前記照明光とする観察方法である、
　ことを特徴とする画像処理システム。
　請求項１において、
　前記処理対象画像は、内視鏡撮像装置によって撮像された生体内画像であり、
　前記第１観察方法は、通常光を照明光とする観察方法であり、
　前記第２観察方法は、被写体に対して色素散布が行われた観察方法である、
　ことを特徴とする画像処理システム。
　請求項１において、
　前記処理部は、
　学習済モデルに基づいて、前記処理対象画像が前記第１観察方法において撮像された確からしさを表す前記第１分類スコアと、前記処理対象画像が前記第２観察方法において撮像された確からしさを表す前記第２分類スコアと、を求め、
　前記学習済モデルは、
　前記第１観察方法又は前記第２観察方法で撮像された学習用画像と、前記学習用画像が前記第１観察方法と前記第２観察方法のいずれで撮像された画像であるかを表す観察方法データと、に基づく機械学習によって取得されたモデルである、
　ことを特徴とする画像処理システム。
　請求項１において、
　前記処理部は、
　学習済モデルに基づいて、前記第１分類スコアと、前記第２分類スコアと、前記検出スコアと、を求め、
　前記学習済モデルは、
　前記第１観察方法又は前記第２観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得されたモデルであり、
　前記正解データは、
　前記学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データと、前記学習用画像が前記第１観察方法と前記第２観察方法のいずれで撮像された画像であるかを表す観察方法データと、を含む、
　ことを特徴とする画像処理システム。
　請求項５において、
　前記学習済モデルは、
　前記第１観察方法において撮像された画像を含む第１画像群を用いてプレトレーニングされ、前記プレトレーニング後に、前記第１観察方法において撮像された画像及び前記第２観察方法において撮像された画像を含む第２画像群を用いてファインチューニングされることによって学習されたモデルである、
　ことを特徴とする画像処理システム。
　請求項１において、
　前記第１観察方法に対応する第１閾値と、前記第２観察方法に対応する第２閾値とを記憶する記憶部をさらに含み、
　前記処理部は、
　前記第１分類スコアが前記第２分類スコアよりも大きい場合に、前記第１閾値を前記閾値として設定し、
　前記第２分類スコアが前記第１分類スコアよりも大きい場合に、前記第２閾値を前記閾値として設定する、
　ことを特徴とする画像処理システム。
　請求項１において、
　前記第１観察方法に対応する第１閾値と、前記第２観察方法に対応する第２閾値とを記憶する記憶部をさらに含み、
　前記処理部は、
　前記第１分類スコア及び前記第２分類スコアに基づく重みを用いて、前記第１閾値及び前記第２閾値を重み付け加算することによって、前記閾値を設定する、
　ことを特徴とする画像処理システム。
　請求項４又は５において、
　学習済モデルは、コンボリューショナルニューラルネットワーク（Convolutional Neural Network）からなることを特徴とする画像処理システム。
　生体内画像を撮像する撮像部と、
　前記生体内画像を処理対象画像として取得する画像取得部と、
　前記処理対象画像に対する処理を行う処理部と、
　を含み、
　前記処理部は、
　前記処理対象画像が第１観察方法において撮像された確からしさを表す第１分類スコアと、前記処理対象画像が第２観察方法において撮像された確からしさを表す第２分類スコアと、を求め、
　前記処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、
　前記第１分類スコアと前記第２分類スコアとに基づいて、閾値を設定し、
　設定された前記閾値と前記検出スコアを比較し、
　前記閾値よりも前記検出スコアが大きい場合に、前記注目領域の検出結果を出力する、
　ことを特徴とする内視鏡システム。
　処理対象画像を取得し、
　前記処理対象画像が第１観察方法において撮像された確からしさを表す第１分類スコアと、前記処理対象画像が第２観察方法において撮像された確からしさを表す第２分類スコアと、を求め、
　前記処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、
　前記第１分類スコアと前記第２分類スコアとに基づいて、閾値を設定し、
　設定された前記閾値と前記検出スコアを比較し、
　前記閾値よりも前記検出スコアが大きい場合に、前記注目領域の検出結果を出力する、
　ことを特徴とする画像処理方法。