JP2022517769A - 三次元ターゲット検出及びモデルの訓練方法、装置、機器、記憶媒体及びコンピュータプログラム - Google Patents

三次元ターゲット検出及びモデルの訓練方法、装置、機器、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2022517769A
JP2022517769A JP2021539662A JP2021539662A JP2022517769A JP 2022517769 A JP2022517769 A JP 2022517769A JP 2021539662 A JP2021539662 A JP 2021539662A JP 2021539662 A JP2021539662 A JP 2021539662A JP 2022517769 A JP2022517769 A JP 2022517769A
Authority
JP
Japan
Prior art keywords
actual
image
target detection
predicted
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021539662A
Other languages
English (en)
Inventor
ロー ドン
ニン ジャン
シアンレイ チェン
レイ ジャオ
ニン ホアン
リアン ジャオ
ジン ユエン
Original Assignee
シャンハイ センスタイム インテリジェント テクノロジー カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャンハイ センスタイム インテリジェント テクノロジー カンパニー リミテッド filed Critical シャンハイ センスタイム インテリジェント テクノロジー カンパニー リミテッド
Publication of JP2022517769A publication Critical patent/JP2022517769A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10088Magnetic resonance imaging [MRI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10132Ultrasound image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本願は、三次元ターゲット検出方法及びそのモデルの訓練方法及び装置、機器、記憶媒体を開示する。三次元ターゲットモデルの訓練方法は、サンプル三次元画像を取得することであって、サンプル三次元画像に、三次元ターゲットの実際領域の実際位置情報が付記されている、ことと、三次元ターゲット検出モデルを利用してサンプル三次元画像に対してターゲット検出を行い、サンプル三次元画像の1つ又は複数のサブ画像に対応する1つ又は複数の予測領域情報を得ることであって、各予測領域情報は、予測領域の予測位置情報及び予測信頼度を含む、ことと、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定することと、損失値を利用して、三次元ターゲット検出モデルのパラメータを調整することと、を含む。

Description

(関連出願の相互参照)
本願は、2019年12月27日に提出された出願番号201911379639.4の中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、人工知能技術分野に関し、特に三次元ターゲット検出方法及びそのモデルの訓練方法及び装置、機器、記憶媒体に関する。
ニューラルネットワーク、深層学習などの人工知能技術の成長に伴い、ニューラルネットワークモデルを訓練し、訓練したニューラルネットワークモデルを利用してターゲット検出等のタスクを行うという方式は、ますます注目されている。
しかしながら、従来のニューラルネットワークモデルは、一般的には、二次元画像を検出対象として設計されたものである。MRI(Magnetic Resonance Imaging:磁気共鳴イメージング)画像などの三次元画像について、一般的には、二次元平面画像に分割した後に処理する必要がある。これにより、三次元画像における一部の空間情報及び構造情報は失われた。従って、三次元画像における三次元ターゲットを直接的に検出することが困難である。
本願は、三次元ターゲットを直接的に検出でき、その検出難度を低減させることができる三次元ターゲット検出方法及びそのモデルの訓練方法及び装置、機器、記憶媒体を提供することが望ましい。
本願の実施例は、三次元ターゲットモデルの訓練方法を提供する。前記方法は、サンプル三次元画像を取得することであって、サンプル三次元画像に、三次元ターゲットの実際領域の実際位置情報が付記されている、ことと、三次元ターゲット検出モデルを利用してサンプル三次元画像に対してターゲット検出を行い、サンプル三次元画像の1つ又は複数のサブ画像に対応する1つ又は複数の予測領域情報を得ることであって、各予測領域情報は、予測領域の予測位置情報及び予測信頼度を含む、ことと、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定することと、損失値を利用して、三次元ターゲット検出モデルのパラメータを調整することと、を含む。従って、三次元画像に対して三次元ターゲット検出を行うためのモデルを訓練により得ることができる。三次元画像を処理して二次元平面画像を得た後にターゲット検出を行う必要がない。従って、三次元ターゲットの空間情報及び構造情報を効果的に保留することができ、三次元ターゲットを直接的に検出できる。三次元ターゲット検出モデルがターゲット検出を行う時、三次元画像の1つ又は複数のサブ画像の予測領域情報を得ることができるため、三次元画像の1つ又は複数のサブ画像において三次元ターゲット検出を行うことができ、三次元ターゲット検出の難度の低減に寄与する。
幾つかの実施例において、予測領域情報の数は、所定の数であり、所定の数は、三次元ターゲット検出モデルの出力寸法とマッチングし、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定することは、実際位置情報を利用して、所定の数のサブ画像にそれぞれ対応する所定の数の実際領域情報を生成することであって、各実際領域情報は、実際位置情報及び実際信頼度を含み、実際領域の所定点の所在するサブ画像に対応する実際信頼度は、第1値であり、他のサブ画像に対応する実際信頼度は、第1値未満である第2値である、ことと、所定の数のサブ画像に対応する実際位置情報及び予測位置情報を利用して、位置損失値を得ることと、所定の数のサブ画像に対応する実際信頼度及び予測信頼度を利用して、信頼度損失値を得ることと、位置損失値及び信頼度損失値に基づいて、三次元ターゲット検出モデルの損失値を得ることと、を含む。従って、実際位置情報により、所定の数のサブ画像に対応する所定の数の実際領域情報を生成することで、所定の数の実際領域情報及びそれに対応する予測領域情報に基づいて損失演算を行うことができ、更に、損失演算の複雑さを低減させることができる。
幾つかの実施例において、実際位置情報は、実際領域の実際所定点位置及び実際領域寸法を含み、予測位置情報は、予測領域の予測所定点位置及び予測領域寸法を含み、所定の数のサブ画像に対応する実際位置情報及び予測位置情報を利用して位置損失値を得ることは、バイナリクロスエントロピーを利用して、所定の数のサブ画像に対応する実際所定点位置及び予測所定点位置に対して演算を行い、第1位置損失値を得ることと、平均二乗誤差関数を利用して、所定の数のサブ画像に対応する実際領域寸法及び予測領域寸法に対して演算を行い、第2位置損失値を得ることと、を含み、所定の数のサブ画像に対応する実際信頼度及び予測信頼度を利用して、信頼度損失値を得ることは、バイナリクロスエントロピーを利用して、所定の数のサブ画像に対応する実際信頼度及び予測信頼度に対して演算を行い、信頼度損失値を得ることを含み、位置損失値及び信頼度損失値に基づいて、三次元ターゲット検出モデルの損失値を得ることは、第1位置損失値、第2位置損失値及び信頼度損失値に対して加重処理を行い、三次元ターゲット検出モデルの損失値を得ることを含む。従って、実際所定点位置と予測所定点位置との第1位置損失値、実際領域寸法と予測領域寸法との第2位置損失値、及び実際信頼度と予測信頼度との信頼度損失値をそれぞれ演算し、最終的に上記損失値を加重処理することで、三次元ターゲット検出モデルの損失値を正確かつ全局的に得ることができる。モデルパラメータの正確な調整に寄与し、更に、モデル訓練の加速に寄与し、三次元ターゲット検出モデルの正確度を向上させる。
幾つかの実施例において、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定する前に、前記方法は、実際位置情報の値、1つ又は複数の予測位置情報及び予測信頼度をいずれも所定の数値範囲内に制約することを更に含み、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定することは、制約された実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定することを含む。従って、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定する前に、実際位置情報の値、1つ又は複数の予測位置情報及び予測信頼度をいずれも所定の数値範囲内に制約し、制約された実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定することで、訓練プロセスで発生可能なネットワークショックを効果的に避け、収束速度を速くすることができる。
幾つかの実施例において、実際位置情報は、実際領域の実際所定点位置及び実際領域寸法を含み、予測位置情報は、予測領域の予測所定点位置及び予測領域寸法を含み、実際位置情報の値をいずれも所定の数値範囲内に制約することは、実際領域寸法と所定寸法との第1比を得て、第1比の対数値を、制約された実際領域寸法とすることと、実際所定点位置とサブ画像の画像寸法との第2比を得て、第2比の小数部分を、制約された実際所定点位置とすることと、を含み、1つ又は複数の予測位置情報及び予測信頼度をいずれも所定の数値範囲内に制約することは、所定のマッピング関数を利用して、1つ又は複数の予測所定点位置及び予測信頼度をそれぞれ所定の数値範囲内にマッピングすることを含む。従って、実際領域寸法と所定寸法との第1比を得て、第1比の対数値を、制約された実際領域寸法とし、実際所定点位置とサブ画像の画像寸法との第2比を得て、第2比の小数部分を、制約された実際所定点位置とする。なお、所定のマッピング関数を利用して、1つ又は複数の予測所定点位置及び予測信頼度をそれぞれ所定の数値範囲内にマッピングする。これにより、数学的演算又は関数マッピングにより制約処理を行うことができ、更に、制約処理の複雑さを低減させることができる。
幾つかの実施例において、実際所定点位置とサブ画像の画像寸法との第2比を得ることは、サンプル三次元画像の画像寸法とサブ画像の数との第3比を算出し、実際所定点位置と第3比との第2比を得ることを含む。従って、サンプル三次元画像の画像寸法とサブ画像の数との第3比を算出することで、サブ画像の画像寸法を得ることができ、第2比の演算の複雑さを低減させることができる。
幾つかの実施例において、所定の数値範囲は、0から1までの範囲であり、及び/又は、所定の寸法は、複数のサンプル三次元画像における実際領域の領域寸法の平均値である。従って、所定の数値範囲を1から1に設定することで、モデルの収束速度を速くすることができる。所定の寸法を複数のサンプル三次元画像における実際領域の領域寸法の平均値とすることで、制約された実際領域寸法は、大きすぎるか又は小さすぎることがない。これにより、訓練の初期段階でショックが発生して、ひいては収束できないことを避けることができ、モデル品質の向上に寄与する。
幾つかの実施例において、三次元ターゲット検出モデルを利用してサンプル三次元画像に対してターゲット検出を行い、1つ又は複数の予測領域情報を得る前に、方法は、サンプル三次元画像を三原色チャネル画像に変換するという前処理工程、サンプル三次元画像の寸法を所定の画像寸法にスケーリングするという前処理工程、サンプル三次元画像に対して正規化及び標準化処理を行うという前処理工程のうちの少なくとも1つを更に含む。従って、サンプル三次元画像を三原色チャネル画像に変換することで、ターゲット検出の視覚的効果を向上させることができる。サンプル三次元画像の寸法を所定の画像寸法にスケーリングすることで、三次元画像をモデルの入力寸法と可能な限りマッチングさせることができ、モデル訓練効果を向上させることができる。サンプル三次元画像に対して正規化及び標準化処理を行うことで、訓練過程におけるモデルの収束速度の向上に寄与する。
本願の実施例は、三次元ターゲット検出方法を提供する。前記方法は、被検三次元画像を取得し、三次元ターゲット検出モデルを利用して、被検三次元画像に対してターゲット検出を行い、被検三次元画像における三次元ターゲットに対応するターゲット領域情報を得ることであって、三次元ターゲット検出モデルは、上記三次元ターゲット検出モデルの訓練方法によって得られたものである、ことを含む。従って、三次元ターゲット検出モデルの訓練方法により得られた三次元ターゲット検出モデルは、三次元画像における三次元ターゲット検出を実現させ、三次元ターゲット検出の難度を低減させる。
本願の実施例は、三次元ターゲット検出モデル訓練装置を提供する。前記装置は、画像取得モジュールと、ターゲット検出モジュールと、損失決定モジュールと、パラメータ調整モジュールと、を備え、画像取得モジュールは、サンプル三次元画像を取得するように構成され、サンプル三次元画像に、三次元ターゲットの実際領域の実際位置情報が付記されており、ターゲット検出モジュールは、三次元ターゲット検出モデルを利用してサンプル三次元画像に対してターゲット検出を行い、サンプル三次元画像の1つ又は複数のサブ画像に対応する1つ又は複数の予測領域情報を得るように構成され、各予測領域情報は、予測領域の予測位置情報及び予測信頼度を含み、損失決定モジュールは、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定するように構成され、パラメータ調整モジュールは、損失値を利用して、三次元ターゲット検出モデルのパラメータを調整するように構成される。
本願の実施例は、三次元ターゲット検出装置を提供する。前記装置は、画像取得モジュールと、ターゲット検出モジュールと、を備え、画像取得モジュールは、被検三次元画像を取得するように構成され、ターゲット検出モジュールは、三次元ターゲット検出モデルを利用して、被検三次元画像に対してターゲット検出を行い、被検三次元画像における三次元ターゲットに対応するターゲット領域情報を得るように構成され、三次元ターゲット検出モデルは、上記三次元ターゲット検出モデル訓練装置で得られたものである。
本願の実施例は、電子機器を提供する。前記電子機器は、互いに結合されたメモリ及びプロセッサを備え、プロセッサは、メモリに記憶されたプログラム命令を実行し、上記三次元ターゲット検出モデルの訓練方法又は上記三次元ターゲット検出方法を実現するように構成される。
本願の実施例は、コンピュータ可読記憶媒体を提供する。前記記憶媒体にプログラム命令が記憶されており、プログラム命令がプロセッサにより実行されるときに、前記プロセッサに上記三次元ターゲット検出モデルの訓練方法又は上記三次元ターゲット検出方法を実現させる。
本願の実施例は、コンピュータ可読コードを含むコンピュータプログラムを提供する。前記コンピュータ可読コードは、電子機器で実行されるときに、前記電子機器におけるプロセッサに、上記1つ又は複数の実施例におけるサーバにより実行された三次元ターゲット検出モデルの訓練方法、又は上記1つ又は複数の実施例におけるサーバにより実行された三次元ターゲット検出方法を実現させる。
本願の実施例は、三次元ターゲット検出方法及びそのモデルの訓練方法及び装置、機器、記憶媒体を提供する。本願の実施例では、取得されたサンプル三次元画像に、三次元ターゲットの実際領域の実際位置情報が付記されており、三次元ターゲット検出モデルを利用してサンプル三次元画像に対してターゲット検出を行い、サンプル三次元画像の1つ又は複数のサブ画像に対応する1つ又は複数の予測領域情報を得、各予測領域情報は、サンプル三次元画像の1つのサブ画像に対応する予測領域の予測位置情報及び予測信頼度を含む。これにより、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定し、損失値を利用して、三次元ターゲット検出モデルのパラメータを調整する。更に、三次元画像に対して三次元ターゲット検出を行うためのモデルを訓練により得ることができる。また、三次元画像を処理して二次元平面画像を得た後にターゲット検出を行う必要がない。従って、三次元ターゲットの空間情報及び構造情報を効果的に保留することができ、三次元ターゲットを直接的に検出して得ることができる。三次元ターゲット検出モデルがターゲット検出を行う時、三次元画像の1つ又は複数のサブ画像の予測領域情報を得ることができるため、三次元画像の1つ又は複数のサブ画像において三次元ターゲット検出を行うことができ、三次元ターゲット検出の難度の低減に寄与する。
本願の実施例による三次元ターゲット検出及びモデルの訓練方法のシステムアーキテクチャを示す概略図である。 本願による三次元ターゲット検出モデルの訓練方法の一実施例を示すフローチャートである。 図1BにおけるステップS13の一実施例を示すフローチャートである。 実際位置情報の値を所定の数値範囲内に制約する実施例を示すフローチャートである。 本願による三次元ターゲット検出方法の一実施例を示すフローチャートである。 本願による三次元ターゲット検出モデル訓練装置の一実施例を示すブロック図である。 本願による三次元ターゲット検出装置の一実施例を示すブロック図である。 本願による電子機器の一実施例を示すブロック図である。 本願によるコンピュータ可読記憶媒体の一実施例を示すブロック図である。
ニューラルネットワーク、深層学習などの技術の台頭に伴い、ニューラルネットワークに基づいた画像処理方法もそれに伴って生じる。
ここで、第1方法は、ニューラルネットワークを利用して二次元画像に対して検出領域の分割を行うことである。例えば、病巣領域に対して分割を行う。しかしながら、二次元画像を分割する方法を三次元画像処理シーンに直接的に適用すると、三次元画像における一部の空間情報及び構造情報が失われる。
ここで、第2方法は、ニューラルネットワークを利用して三次元画像に対して検出領域の分割を行うことである。例えば、検出領域は、乳腺腫瘍領域である。まず、深層学習により、三次元画像における乳腺腫瘍に対して位置決めを行う。続いて、乳腺腫瘍領域の領域成長を利用して、腫瘍境界に対して分割を行う。又は、まず、三次元U-Netネットワークを利用して脳部核磁気共鳴画像特徴を抽出する。続いて、高次元ベクトル非局所的平均値アテンションモデルを利用して、画像特徴に対して再配置を行う。最後に、脳部組織分割結果を得る。このような方法によれば、画像品質が低い場合、画像におけるボケ領域に対して正確な分割を行うことが困難であり、分割結果の正確性に影響を与えてしまう。
ここで、第3方法は、ニューラルネットワークを利用して二次元画像に対して検出領域認識を行うことである。前記方法は、二次元画像に対して操作を行うか又は三次元ニューラルネットワークを利用して検出領域に対してターゲット検出を行う。しかしながら、このような方法は、直接的にニューラルネットワークにより検出領域を生成する。ニューラルネットワーク訓練段階における収束速度が遅く、正確度が低い。
上記3つの方法から分かるように、関連技術において、三次元画像処理技術は、未成熟であり、特徴抽出効果が低く適用可能性が低いなどの問題がある。なお、関連技術におけるターゲット検出方法は、二次元平面画像の処理に適用される。三次元画像処理に適用される場合、一部の画像空間情報及び構造情報等が失われる等の問題がある。
図1Aは、本願の実施例による三次元ターゲット検出及びモデルの訓練方法のシステムアーキテクチャを示す概略図である。図1Aに示すように、該システムアーキテクチャにCT装置100、サーバ200、ネットワーク300及び端末装置400が含まれる。例示的な適用を実現させるために、CT装置100は、ネットワーク300を経由して端末装置400に接続される。端末装置400は、ネットワーク300を経由してサーバ200に接続される。CT装置100は、CT画像の収集に用いられる。例えば、X線CT装置又はγ線CT装置などのような人体部位の一定の厚さの層面に対して走査を行うことができる端末であってもよい。端末装置400は、ノートパソコン、タブレット、デスクトップコンピュータ、専用メッセージング装置などのような画面表示機能を有する装置であってもよい。ネットワーク300は、広域ネットワーク又はローカルエリアネットワークであってもよく、又は両者の組み合わせであってもよい。これは、無線リンクを利用してデータ伝送を実現させる。
サーバ200は、本願の実施例で提供される三次元ターゲット検出及びモデルの訓練方法を利用してサンプル三次元画像を取得し、三次元ターゲット検出モデルを利用してサンプル三次元画像に対してターゲット検出を行い、前記サンプル三次元画像の1つ又は複数のサブ画像に対応する1つ又は複数の予測領域情報を得て、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定し、損失値を利用して、三次元ターゲット検出モデルのパラメータを調整することができる。また、三次元ターゲット検出モデルを利用して被検三次元画像に対してターゲット検出を行い、被検三次元画像における三次元ターゲットに対応するターゲット領域情報を得ることができる。ここで、前記サンプル三次元画像は、病院、健康診断センタなどの機構におけるCT装置100により収集された患者又は被検者の肺部CT画像であってもよい。サーバ200は、端末装置400から、CT装置100により収集されたサンプル三次元画像を取得してサンプル三次元画像とすることができ、CT装置から、サンプル三次元画像を取得することができ、ネットワークから、サンプル三次元画像を取得することもできる。
サーバ200は、独立した物理的サーバであってもよく、複数の物理的サーバからなるサーバクラスタ又は分散型システムであってもよく、クラウド技術に基づいたクラウドサーバであってもよい。クラウド技術は、広域ネットワーク又はローカルエリアネットワークにおいて、ハードウェア、ソフトウェア、ネットワーク等の一連のリソースを集積し、データの演算、記憶、処理及び共有を実現させるホスティング技術である。一例として、サーバ200は、被検三次元画像(例えば、肺部CT画像)を取得した後、訓練された三次元ターゲット検出モデルにより、被検三次元画像に対してターゲット検出を行い、被検三次元画像における三次元ターゲットに対応するターゲット領域情報を得る。続いて、サーバ200は、検出されたターゲット領域情報を端末装置400に返送して表示する。これにより、医者は、調べることができる。
以下、明細書の図面を参照しながら、本願の実施例の技術的解決手段を詳しく説明する。
下記説明において、本発明の実施例を深く理解するために、特定システム構造、インタフェース、技術等の具体的な細部を提出し、これは、本発明を解釈するためのものに過ぎず、本発明を限定するためのものではない。
本明細書において、「システム」と「ネットワーク」は相互交換可能に用いられる。本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、a1及び/又はb1は、a1のみが存在すること、a1とb1が同時に存在すること、b1のみが存在するという3つの場合を表す。なお、本明細書において、文字「/」は一般的には、前後関連対象が「又は」という関係であることを示す。また、本明細書における「複数」は、2つ又は2つより多いことを表す。図1Bは、本願による三次元ターゲット検出モデルの訓練方法の一実施例を示すフローチャートである。図1Bに示すように、該方法は、下記ステップを含んでもよい。
ステップS11において、サンプル三次元画像を取得し、サンプル三次元画像に、三次元ターゲットの実際領域の実際位置情報が付記されている。
一つの実施シーンにおいて、人体部位などの三次元ターゲットの検出を実現させるために、サンプル三次元画像は、核磁気共鳴画像であってもよい。なお、サンプル三次元画像は、CT(Computed Tomography:コンピュータ断層撮像)画像、Bモード(Type B Ultrasonic:Bモード超音波)画像を利用して三次元再構築を行うことで得られた三次元画像であってもよく、ここで、これを限定するものではない。前記人体部位は、前十字靭帯、脳下垂体等を含んでもよいが、これらに限定されない。病変組織などのような他のタイプの三次元ターゲットは、このように類推してもよく、ここでは逐一説明しない。
一つの実施シーンにおいて、訓練された三次元ターゲット検出モデルの正確性を向上させるために、サンプル三次元画像の数は、複数であってもよく、例えば、200、300、400個などであってもよい。ここで、これを限定するものではない。
一つの実施シーンにおいて、サンプル三次元画像を三次元ターゲット検出モデルの入力とマッチングさせるために、サンプル三次元画像を得た後、これに対して前処理を行うことができる。前記前処理は、サンプル三次元画像の寸法を所定の画像寸法にスケーリングすることであってもよい。所定の画像寸法は、三次元ターゲット検出モデルの入力寸法と一致してもよい。例えば、サンプル三次元画像の元寸法は、160*384*384であってもよい。三次元ターゲット検出モデルの入力寸法が160*160*160であると、サンプル三次元画像の寸法を160*160*160にスケーリングすることができる。なお、訓練過程におけるモデルの収束速度を向上させるために、サンプル三次元画像に対して正規化処理及び標準化処理を行うこともできる。又は、ターゲット検出効果を向上させるために、サンプル三次元画像を三原色(つまり、赤、緑、青)チャネル画像に変換することもできる。
ステップS12において、三次元ターゲット検出モデルを利用してサンプル三次元画像に対してターゲット検出を行い、サンプル三次元画像の1つ又は複数のサブ画像に対応する1つ又は複数の予測領域情報を得る。
本実施例において、各予測領域情報は、サンプル三次元画像の1つのサブ画像の予測領域に対応する予測位置情報及び予測信頼度を含む、ここで、予測信頼度は、予測結果が三次元ターゲットである信頼度を表す。予測信頼度が高いほど、予測結果の信頼度が高くなることを表す。
なお、本実施例における予測領域は、三次元空間領域である。例えば、長方体で囲まれた領域、又は正方体で囲まれた領域等であってもよい。
一つの実施シーンにおいて、実際の適用上の需要を満たすために、三次元ターゲット検出モデルに対してパラメータ設定を予め行うことができる。これにより、三次元ターゲット検出モデルは、サンプル三次元画像の所定の数のサブ画像に対応する予測領域の予測位置情報及び予測信頼度を出力することができる。つまり、本実施例における予測領域情報の数は、所定の数と設定されてもよい。該所定の数は、1以上の整数である。所定の数は、三次元ターゲットモデルの出力寸法とマッチングする。例えば、三次元ターゲット検出モデルに入力された三次元画像の画像寸法が160*160*160であることを例として、ネットワークパラメータを予め設定することで、三次元ターゲット検出モデルから、10*10*10個の画像寸法16*16*16のサブ画像に対応する予測領域の予測位置情報及び予測信頼度を出力することができる。なお、実際の需要に応じて、所定の数は、20*20*20、40*40*40等と設定されてもよい。ここで、これを限定するものではない。
一つの実施シーンにおいて、三次元でのターゲット検出を実現させるために、三次元ターゲット検出モデルは、三次元畳み込みニューラルネットワークモデルであってもよく、離間して接続された複数の畳み込み層及び複数のプーリング層を含んでもよい。また、畳み込み層における畳み込みカーネルは、所定の寸法の三次元畳み込みカーネルである。所定の数が10*10*10であることを例として、下記表1を参照されたい。表1は、三次元ターゲット検出モデルの一実施例のパラメータ設定テーブルである。
Figure 2022517769000002
表1に示すように、三次元畳み込みカーネルのサイズは、3*3*3であってもよい。所定の数が10*10*10である場合、三次元ターゲット検出モデルは、8層の畳み込み層を含んでもよい。表1に示すように、三次元ターゲット検出モデルは、順次接続された第1層の畳み込み層及び活性化層(つまり、表1におけるconv1+relu)、第1層のプーリング層(つまり、表1におけるpool1)、第2層の畳み込み層及び活性化層(つまり、表1におけるconv2+relu)、第2層のプーリング層(つまり、表1におけるpool2)、第3層の畳み込み層及び活性化層(つまり、表1におけるconv3a+relu)、第4層の畳み込み層及び活性化層(つまり、表1におけるconv3b+relu)、第3層のプーリング層(つまり、表1におけるpool3)、第5層の畳み込み層及び活性化層(つまり、表1におけるconv4a+relu)、第6層の畳み込み層及び活性化層(つまり、表1におけるconv4b+relu)、第4層のプーリング層(つまり、表1におけるpool4)、第7層の畳み込み層及び活性化層(つまり、表1におけるconv5a+relu)、第8層の畳み込み層(つまり、表1におけるconv5b)を含んでもよい。上記設定により、最終的にサンプル三次元画像の10*10*10個のサブ画像において三次元ターゲットの予測を行うことができる。従って、三次元ターゲットの予測領域の予測所定点(例えば、予測領域の中心点)がサブ画像の所在する領域にある場合、該サブ画像の所在する領域は、三次元ターゲットの予測領域情報の予測を担う。
ステップS13において、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定する。
ここで、バイナリクロスエントロピー、平均二乗誤差関数(Mean Square Error:MSE)のうちの少なくとも1つにより、実際位置情報及び予測領域情報を演算し、三次元ターゲット検出モデルの損失値を得ることができる。本実施例は、ここで詳細な説明を省略する。
ステップS14において、損失値を利用して、三次元ターゲット検出モデルのパラメータを調整する。
実際位置情報及び予測領域情報を利用して得られた三次元ターゲット検出モデルの損失値は、三次元ターゲット検出モデルの現在パラメータを利用して三次元ターゲットの予測を行うことで得られた予測結果と付記された実際位置との偏差を表す。なお、損失値が大きいほど、両者間の偏差が大きくなることを表す。つまり、現在パラメータとターゲットパラメータとの偏差が大きくなることを表す。従って、損失値により、三次元ターゲット検出モデルのパラメータを調整することができる。
一つの実施シーンにおいて、安定した利用可能な三次元ターゲット検出モデルを訓練により得るために、三次元ターゲット検出モデルのパラメータを調整した後、上記ステップS12及び後続のステップを再実行することで、サンプル三次元画像に対する検出、三次元ターゲット検出モデルの損失値の演算及びそのパラメータ調整プロセスを絶え間なく実行して、所定の訓練終了要件を満たすまで継続する。一つの実施シーンにおいて、所定の訓練終了要件は、損失値が1つの所定の損失閾値未満であり、且つ損失が減少しないことを含んでもよい。
上記技術的解決手段において、取得されたサンプル三次元画像に、三次元ターゲットの実際領域の実際位置情報が付記されている。三次元ターゲット検出モデルを利用してサンプル三次元画像に対してターゲット検出を行い、サンプル三次元画像の1つ又は複数のサブ画像に対応する1つ又は複数の予測領域情報を得る。各予測領域情報は、サンプル三次元画像の1つのサブ画像に対応する予測領域の予測位置情報及び予測信頼度を含む。これにより、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定し、損失値を利用して、三次元ターゲット検出モデルのパラメータを調整する。更に、三次元画像に対して三次元ターゲット検出を行うためのモデルを訓練により得ることができる。三次元画像を処理して二次元平面画像を得た後にターゲット検出を行う必要がない。従って、三次元ターゲットの空間情報及び構造情報を効果的に保留することができ、三次元画像の画像情報を十分にマイニングでき、三次元ターゲットを直接的に検出できる。三次元ターゲット検出モデルがターゲット検出を行う時、三次元画像の1つ又は複数のサブ画像の予測領域情報を得ることができるため、三次元画像の1つ又は複数のサブ画像において三次元ターゲット検出を行うことができ、三次元ターゲット検出の難度の低減に寄与する。
図2は、図1BにおけるステップS13の一実施例を示すフローチャートである。本実施例において、予測領域情報の数は、所定の数であり、所定の数は、三次元ターゲット検出モデルの出力寸法とマッチングする。図2に示すように、下記ステップを含んでもよい。
ステップS131において、実際位置情報を利用して、所定の数のサブ画像にそれぞれ対応する所定の数の実際領域情報を生成する。
また、三次元ターゲット検出モデルから10*10*10個のサブ画像の予測領域の予測位置情報及び予測信頼度を出力することを例とする。表1を参照すると、三次元ターゲット検出モデルから出力された予測領域情報は、7*10*10*10のベクトルと認められてもよい。ここで、10*10*10は、所定の数のサブ画像を表す。7は、各サブ画像で予測された三次元ターゲットの予測位置情報(例えば、x、y、z方向での、予測領域の中心点位置の座標、及び長手方向、幅方向、高さ方向での予測領域の寸法)及び予測信頼度を表す。従って、予め付記された実際位置情報と所定の数のサブ画像に対応する予測領域情報を一対一に対応させ、後続の損失値の演算を容易にするために、本実施例において、実際位置情報を拡張し、所定の数のサブ画像に対応する所定の数の実際領域情報を生成する。各前記実際領域情報は、実際位置情報(例えば、x、y、z方向での、実際領域の中心点位置の座標、及び長手方向、幅方向、高さ方向での実際領域の寸法)及び実際信頼度を含む。実際領域の所定点(例えば、中心点)が所在するサブ画像に対応する実際信頼度は、第1値(例えば、1)である。他のサブ画像に対応する実際信頼度は、第1未満である第2値(例えば、0)である。これにより、生成された実際領域情報は、予測領域情報寸法と一致するベクトルと認められてもよい。
なお、三次元ターゲットに対して一意的に標識するために、予測位置情報は、予測所定点位置(例えば、予測領域の中心点位置)及び予測領域寸法を含んでもよい。予測位置情報に対応するように、実際位置情報は、実際所定点位置(例えば、予測所定点位置に対応するように、実際所定点位置は、実際領域の中心点位置であってもよい)及び実際領域寸法を含んでもよい。
ステップS132において、所定の数のサブ画像に対応する実際位置情報及び予測位置情報を利用して、位置損失値を得る。
本実施例において、バイナリクロスエントロピーを利用して、所定の数のサブ画像に対応する実際所定点位置及び予測所定点位置に対して演算を行い、第1位置損失値を得ることができる。ここで、第1損失値を得るための式は、式(1)に示すとおりである。
Figure 2022517769000003
(1)
式中、nは、所定の数を表す。
Figure 2022517769000004
はそれぞれ、i番目のサブ画像に対応する予測所定点位置を表す。
Figure 2022517769000005
はそれぞれ、i番目のサブ画像に対応する予測所定点位置を表す。
Figure 2022517769000006
はそれぞれ、x、y、z方向での、第1位置損失値のサブ損失値を表す。
なお、平均二乗誤差関数を利用して、所定の数のサブ画像に対応する実際領域寸法及び予測領域寸法に対して演算を行い、第2位置損失値を得ることもできる。ここで、第2位置損失値を得るための式は、式(2)に示すとおりである。
Figure 2022517769000007
(2)
式中、nは、所定の数を表す。
Figure 2022517769000008
はそれぞれ、i番目のサブ画像に対応する予測領域寸法を表す。
Figure 2022517769000009
はそれぞれ、i番目のサブ画像に対応する実際領域寸法を表す。
Figure 2022517769000010
はそれぞれ、l(長さ)、w(幅)、h(高さ)方向での、第2位置損失値のサブ損失値を表す。
ステップS133において、所定の数のサブ画像に対応する実際信頼度及び予測信頼度を利用して、信頼度損失値を得る。
ここで、バイナリクロスエントロピーを利用して、所定の数のサブ画像に対応する実際信頼度及び予測信頼度に対して演算を行い、信頼度損失値を得ることができる。ここで、信頼度損失値を得るための式は、式(3)に示すとおりである。
Figure 2022517769000011
(3)
式中、nは、所定の数を表す。
Figure 2022517769000012
は、i番目のサブ画像に対応する予測信頼度を表す。
Figure 2022517769000013
は、i番目のサブ画像に対応する実際信頼度を表す。
Figure 2022517769000014
は、信頼度損失値を表す。
本実施例において、上記ステップS132及びステップS133は、優先順位に応じて実行されてもよい。例えば、ステップS132を実行した後、ステップS133を実行する。又は、ステップS133を実行した後、ステップS132を実行する。上記ステップS132及びステップS133は、同時に実行されてもよい。ここで、これを限定するものではない。
ステップS134において、位置損失値及び信頼度損失値に基づいて、三次元ターゲット検出モデルの損失値を得る。
ここで、上記第1位置損失値、第2位置損失値及び信頼度損失値に対して加重処理を行い、三次元ターゲット検出モデルの損失値を得ることができる。ここで、三次元ターゲット検出モデルの損失値
Figure 2022517769000015
を得るための式は、式(4)に示すとおりである。
Figure 2022517769000016
(4)
式中、
Figure 2022517769000017
は、x,y,z方向での第1損失値のサブ損失値にそれぞれ対応する重みを表す。
Figure 2022517769000018
は、l(長さ)、w(幅)、h(高さ)方向での第2位置損失値のサブ損失値にそれぞれ対応する重みを表す。
Figure 2022517769000019
は、信頼度損失値に対応する重みを表す。
一つの実施シーンにおいて、式中の
Figure 2022517769000020
の和は、1である。もう1つの実施シーンにおいて、式中の
Figure 2022517769000021
の和は、1ではない。損失値を標準化処理するために、上記式で得られた損失値を式中の
Figure 2022517769000022
の和で割ることができる。
前記実施例と異なっており、実際位置情報により、所定の数のサブ画像に対応する所定の数の実際領域情報を生成することで、所定の数の実際領域情報及び対応する予測領域情報に基づいて、損失演算を行うことができる。これにより損失演算の複雑さを低減させることができる。
一実施形態において、予測領域情報と実際領域情報の基準値が一致しない可能性がある。例えば、予測所定点位置は、予測領域の中心点位置とその所在するサブ画像領域の中心点位置とのオフセット値であってもよい。予測領域寸法は、予測領域の実際寸法と所定の寸法(例えば、アンカーボックスサイズ)との相対値であってもよい。実際所定点位置は、サンプル三次元画像における、実際領域の中心点の位置であってもよい。実際領域寸法は、実際領域の長さ、幅、高さ寸法であってもよい。従って、収束速度を速くするために、損失値を演算する前に、実際位置情報の値、1つ又は複数の予測位置情報及び予測信頼度をいずれも所定の数値範囲(例えば、0~1)内に制約することもできる。続いて、制約された実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定する。前記損失値演算プロセスは、上記実施例における関連工程を参照されたい。ここで、詳細な説明を省略する。
ここで、所定のマッピング関数を利用して、1つ又は複数の予測所定点位置及び予測信頼度をそれぞれ所定の数値範囲内にマッピングすることができる。本実施例において、所定のマッピング関数は、sigmoid関数であってもよい。これにより、予測位置情報及び予測信頼度を0~1の範囲内にマッピングする。ここで、sigmoid関数を利用して、予測位置情報及び予測信頼度を0~1の範囲内にマッピングするための式は、式(5)に示すとおりである。
Figure 2022517769000023
(5)
式中において、
Figure 2022517769000024
は、予測位置情報における予測所定点位置を表す。
Figure 2022517769000025
は、制約された予測位置情報における予測所定点位置を表す。
Figure 2022517769000026
は、予測信頼度を表す。
Figure 2022517769000027
は、制約された予測信頼度を表す。
なお、図3を参照されたい。図3は、実際位置情報の値を所定の数値範囲内に制約する実施例を示すフローチャートである。図3に示すように、該方法は、下記ステップを含んでもよい。
ステップS31において、実際領域寸法と所定寸法との第1比を得て、第1比の対数値を、制約された実際領域寸法とする。
本実施例において、所定の寸法は、ユーザにより実際の状況に応じて予め設定されたものであってもよく、複数のサンプル三次元画像における実際領域の領域寸法の平均値であってもよい。例えば、N個のサンプル三次元画像について言えば、j番目のサンプル三次元画像の実際領域の領域寸法は、l(長さ)、w(幅)、h(高さ)方向において、それぞれ
Figure 2022517769000028
で表されてもよい。ここで、l(長さ)、w(幅)、h(高さ)方向での所定寸法の表現式は、式(6)に示すとおりである。
Figure 2022517769000029
(6)
式中、
Figure 2022517769000030
はそれぞれ、l(長さ)、w(幅)、h(高さ)方向での所定寸法の値を表す。
これに基づいて、l(長さ)、w(幅)、h(高さ)方向での制約された実際領域寸法を算出するための式は、式(7)に示すとおりである。
Figure 2022517769000031
(7)
式中、
Figure 2022517769000032

Figure 2022517769000033

Figure 2022517769000034
はそれぞれ、l(長さ)、w(幅)、h(高さ)方向での第1比を表す。
Figure 2022517769000035
はそれぞれ、l(長さ)、w(幅)、h(高さ)方向での制約された実際寸法の寸法を表す。
上記による処理により、実際領域寸法から、全ての実際領域寸法の平均値に対する実際領域寸法の相対値を得ることができる。
ステップS32において、実際所定点位置とサブ画像の画像寸法との第2比を得て、第2比の小数部分を、制約された実際所定点位置とする。
本実施例において、三次元サンプル画像の画像寸法とサブ画像の数との第3比をサブ画像の画像寸法とすることができる。これにより、実際所定点位置と第3比との第2比を取得することができる。一つの実施シーンにおいて、サブ画像の数は、三次元ターゲット検出モデルの出力寸法とマッチングした所定の数であってもよい。所定の数が10*10*10であり、三次元サンプル画像の画像寸法が160*160*160であることを例として、サブ画像の画像寸法は、l(長さ)、w(幅)、h(高さ)方向で、それぞれ16、16、16である。所定の数及び三次元サンプル画像の画像寸法が他の数値である場合、これにより類推することができる。ここで、逐一説明しない。
ここで、第2比の小数部分を取る操作は、第2比と、端数を切り捨てた第2比との差分値により実現することができる。小数部分を得るための式は、式(8)に示すとおりである。
Figure 2022517769000036
(8)
式中、
Figure 2022517769000037
はそれぞれ、x、y、z方向での、制約された実際所定点位置の数値を表す。
Figure 2022517769000038
はそれぞれ、(長さ)、w(幅)、h(高さ)方向での、所定寸法の寸法を表す。
Figure 2022517769000039
はそれぞれ、x、y、z方向での、実際所定点位置の数値を表す。
Figure 2022517769000040
は、端数切り捨て処理を表す。
所定寸法がサブ画像の画像寸法である場合、上記処理により、上記所定点位置を制約処理してサブ画像における実際所定点の相対的位置を得ることができる。
本実施例において、上記ステップS31及びステップS32は、優先順位に応じて実行されてもよい。例えば、ステップS31を実行した後、ステップS32を実行する。又は、ステップS32を実行した後、ステップS31を実行する。上記ステップS31及びステップS32は、同時に実行されてもよい。ここで、これを限定するものではない。
前記実施例と異なっており、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定する前に、実際位置情報の値、1つ又は複数の予測位置情報及び予測信頼度をいずれも所定の数値範囲内に制約し、制約された実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定することで、訓練プロセスで発生可能なネットワークショックを効果的に避け、収束速度を速くすることができる。
幾つかの実施例において、訓練の自動化程度を向上させるために、スクリプトプログラムを利用して、上記いずれか1つの実施例における工程を実行することができる。ここで、Python言語及びPytorchフレームワークにより、上記いずれか1つの実施例における工程を実行することができる。これにより、Adamオプティマイザ(Adam optimizer)を利用して、学習率(learning rate)を0.0001と設定し、ネットワークのバッチサイズ(batch size)を2と設定し、反復回数(epoch)を50と設定することができる。上記学習率、バッチサイズ、反復回数の値は例だけであり、本実施例で列挙した数値に加えて、実際の状況に応じて設定することもできる。ここで、これを限定するものではない。
幾つかの実施例において、訓練結果を直観的に反映するために、実際位置情報を利用して、所定の数のサブ画像にそれぞれ対応する所定の数の実際領域情報を生成する。ここで、各実際領域情報は、実際位置情報を含む。上記実施例における関連工程を参照することができる。これにより、所定の数のサブ画像に対応する実際領域情報及び予測領域情報を利用して、所定の数のサブ画像に対応する実際領域と予測領域のユニオン交差(Intersection over Union:IoU)を算出する。続いて、所定の数のユニオン交差の平均値を算出し、一回の訓練過程におけるユニオン交差平均値(Mean Intersection over Union:MIoU)とする。ユニオン交差平均値が大きいほど、予測領域と実際領域との重合度が高くなり、モデルが正確になることを表す。ここで、演算難度を低減させるために、冠状面、矢状面、横断面でそれぞれユニオン交差を算出することもできる。ここで、逐一説明しない。
図4を参照されたい。図4は、三次元ターゲット検出方法の一実施例を示すフローチャートである。図4は、上記いずれか1つの三次元ターゲット検出モデルの訓練方法実施例における工程により訓練された三次元ターゲット検出モデルを利用してターゲット検出を行う実施例を示すフローチャートである。図4に示すように、該方法は、下記ステップを含む。
ステップS41において、被検三次元画像を取得する。
サンプル三次元画像と同様に、被検三次元画像は、核磁気共鳴画像であってもよく、CT(Computed Tomography:コンピュータ断層撮影)画像、Bモード画像を利用して再構築された三次元画像であってもよく、ここで、これを限定するものではない。
ステップS42において、三次元ターゲット検出モデルを利用して、被検三次元画像に対してターゲット検出を行い、被検三次元画像における三次元ターゲットに対応するターゲット領域情報を得る。
本実施例において、三次元ターゲット検出モデルは、上記いずれか1つの三次元ターゲット検出モデルの訓練方法によって得られたものである。これは、上記いずれか1つの三次元ターゲット検出モデルの訓練方法実施例における工程を参照されたい。ここで、詳細な説明を省略する。
ここで、三次元ターゲット検出モデルを利用して被検三次元画像に対してターゲット検出を行う時、被検三次元画像の1つ又は複数のサブ画像に対応する1つ又は複数の予測領域情報を得ることができる。ここで、各予測領域情報は、予測領域の予測位置情報及び予測信頼度を含む。一つの実施シーンにおいて、1つ又は複数の予測領域情報の数は、所定の数であってもよい。所定の数は、三次元ターゲット検出モデルの出力寸法とマッチングする。これは、前記実施例における関連工程を参照することができる。被検三次元画像の1つ又は複数のサブ画像に対応する1つ又は複数の予測領域情報を得た後、最も高い予測信頼度を統計し、最も高い予測信頼度に対応する予測位置に基づいて、被検三次元画像における三次元ターゲットに対応するターゲット領域情報を決定することができる。最も高い予測信頼度に対応する予測位置情報は、最も確実な信頼度を有する。従って、最も高い予測信頼度に対応する予測位置情報に基づいて、三次元ターゲットに対応するターゲット領域情報を決定することができる。ここで、ターゲット領域情報は、最も高い予測信頼度に対応する予測位置情報であってもよい。これは、予測所定位置点(例えば、予測領域の中心点位置)及び予測領域寸法を含んでもよい。被検三次元画像の1つ又は複数のサブ画像において三次元ターゲット検出を行うことで、三次元ターゲット検出の難度の低減に寄与する。
一つの実施シーンにおいて、被検三次元画像を三次元ターゲット検出モデルに入力してターゲット検出を行う前に、三次元ターゲット検出モデルの入力とマッチングするために、所定の画像寸法(所定の画像寸法は、三次元ターゲット検出モデルの入力と一致してもよい)にスケーリングしてもよい。上記方式で、スケーリング処理された被検三次元画像におけるターゲット領域情報を得た後、得られたターゲット領域に対して逆スケーリング処理を行うことで、被検三次元画像におけるターゲット領域を得ることができる。
上記技術的解決手段において、三次元ターゲット検出モデルを利用して被検三次元画像に対してターゲット検出を行い、被検三次元画像における三次元ターゲットに対応するターゲット領域情報を得る。また、三次元ターゲット検出モデルは、上記いずれか1つの三次元ターゲット検出モデルの訓練方法によって得られたものである。三次元画像を処理して二次元平面画像を得た後にターゲット検出を行う必要がない。従って、三次元ターゲットの空間情報及び構造情報を効果的に保留することができ、三次元ターゲットを直接的に検出できる。
本願の実施例は、三次元ターゲット検出方法を提供する。三次元畳み込みに基づいた膝関節MRI画像における前十字靭帯領域の検出を例として、前記検出は、医用画像演算による診断支援技術分野に適用される。前記方法は、以下を含む。
ステップ410において、前十字靭帯領域を含む三次元膝関節MRI画像を取得し、前記画像に対して前処理を行う。
例を挙げると、424組の三次元膝関節MRI画像を取得する。前記画像のフォーマットは.niiであってもよい。各枚の画像の寸法は、160*384*384である。
ここで、例を挙げて前記画像に対する前処理を説明する。まず、関数パケットにより、MRI画像を行列データに変換する。続いて、前記行列データをシングルチャネルデータから3チャンネルデータに拡張し、前記3チャンネルデータの寸法を3*160*160*160に縮小する。ここで、3は、RGBチャネル数である。最後に、寸法が縮小された前記3チャネルデータに対して正規化及び標準化処理を行い、前記画像の前処理を完了する。
ここで、3:1:1の割合に応じて、前処理した画像データを訓練集合、検証集合及び試験集合に分ける。
ステップ420において、前記前処理した画像に対して手動でアノテーションを行い、前十字靭帯領域の三次元位置の真実の枠を得る。これは、その中心点座標及び縦横高さを含む。
例を挙げると、ソフトウェアにより、前記前処理した画像の冠状面、矢状面、横断面の3つのビューを調べて、前十字靭帯領域に対して手動でアノテーションを行い、前十字靭帯領域の三次元位置枠を得る。前記領域の中心点座標及び縦横高さは、
Figure 2022517769000041
と記される。全てのアノテーション枠の縦横高さの平均値を算出して所定の寸法とし、
Figure 2022517769000042
と記す。
ステップ430において、三次元畳み込みに基づいた前十字靭帯領域検出ネットワークを構築し、膝関節MRI画像に対して特徴抽出を行い、前十字靭帯領域の三次元位置枠の予測値を得る。
一つの実施シーンにおいて、三次元ターゲット検出モデルに入力された三次元膝関節MRI画像の画像寸法が160*160*160であることを例として、ステップ430は、下記ステップを含んでもよい。
ステップ431において、前記三次元膝関節MRI画像を10*10*10個の画像寸法16*16*16のサブ画像に分ける。前十字靭帯領域の中心がいずれか1つのサブ画像にあれば、前記サブ画像を前十字靭帯の予測に用いる。
ステップ432において、3*160*160*160の訓練集合データを表1の検出ネットワーク構造に入力し、7*10*10*10の画像特徴
Figure 2022517769000043
を出力する。
ここで、各前記サブ画像は、7個の予測値を含む。前記予測値は、三次元位置枠の6個の予測値
Figure 2022517769000044
及び1つの前記位置枠の信頼度予測値
Figure 2022517769000045
を含む。
ステップ433において、各サブ画像の7個の予測値
Figure 2022517769000046
に対して、所定のマッピング関数を利用して所定の数値範囲内に制約する。
ここで、前記予測値を所定の数値範囲内に制約することで、検出ネットワークの収束速度を向上させ、損失関数の演算に寄与する。ここで、前記所定のマッピング関数は、sigmoid関数であってもよい。各サブ画像の予測枠の中心点をいずれも前記サブ画像内に位置させて、収束速度を速くするために、枠の中心点座標の3個の予測値
Figure 2022517769000047
をsigmoid関数により区間[0,1]にマッピングし、該サブ画像内での相対的位置とする。具体的には、式(5)に示すとおりである。ここで、枠の信頼度予測値
Figure 2022517769000048
をsigmoid関数により、区間[0,1]にマッピングする。前記
Figure 2022517769000049
は、サブ画像の予測枠が該MRI画像における前十字靭帯の実際位置情報である確率値を表す。具体的には、式(5)に示すとおりである。
ステップ440において、実際領域寸法及び所定寸法に基づいて、損失関数を最適化してネットワークを訓練し、収束するまで継続し、前十字靭帯領域を正確に検出できるネットワークを得る。
一つの実施シーンにおいて、ステップ440は、下記ステップを含んでもよい。
ステップ441において、前記手動でアノテーションされた前十字靭帯領域の枠の市中心点座標及び縦横高さ
Figure 2022517769000050
を寸法7*10*10*10のベクトルに拡張して10*10*10個のサブ画像に対応させる。
ここで、前記各サブ画像の枠中心点及び縦横高さ
Figure 2022517769000051
、前記前十字靭帯領域の中心点が所在するサブ画像に対応する信頼度の真値
Figure 2022517769000052
は、1である。他のサブ画像信頼度の真値
Figure 2022517769000053
は0である。
ステップ442において、前記サブ画像の実際値
Figure 2022517769000054
を算出する。前記算出ステップは以下を含む。
ステップ4421において:枠中心点座標の真値
Figure 2022517769000055
について、各サブ画像の辺長を単位1とし、式(8)により、サブ画像内部における、中心点の相対値を算出する。
ステップ4422において、枠の縦横高さの真値
Figure 2022517769000056
について、式(7)により、前記真値と前記所定の寸法
Figure 2022517769000057
との比の対数値を算出し、処理された寸法7×10×10×10の真値ベクトル
Figure 2022517769000058
を得る。
ステップ443において、処理された予測ベクトル
Figure 2022517769000059
及び真値ベクトル
Figure 2022517769000060
について、バイナリクロスエントロピー及び分散関数を利用して損失関数を演算する。式は、式(1)から(4)である。ここで、
Figure 2022517769000061
はそれぞれ、寸法S×S×Sの中心点座標、縦横高さ及び信頼度の予測ベクトルである。
Figure 2022517769000062
はそれぞれ、寸法S×S×Sの中心点座標、縦横高さ及び信頼度の真値ベクトルであり、
Figure 2022517769000063
はそれぞれ、損失関数の各構成部の重み値である。
ステップ444において、Python言語及びPytorchフレームワークに基づいて試験を行う。ネットワーク訓練プロセスにおいて、オプティマイザを選択し、学習率を0.0001と設定し、ネットワークのバッチサイズを2と設定し、反復回数を50と設定する。
ステップ450において、膝関節MRI試験データを訓練された前十字靭帯領域検出ネットワークに入力し、前十字靭帯領域検出結果を得る。
ステップ460において、MIoUを検出ネットワークの実験結果のための評価指標として用いる。
ここで、MIoUは、2つの集合の交差と和集合の比を算出することで、検出ネットワークを評価する。三次元ターゲット検出方法において、前記2つの集合は、実際領域と予測領域である。MIoUを得るための式は、式(9)に示すとおりである。
Figure 2022517769000064
(9)
ただし、
Figure 2022517769000065
は、予測領域面積であり、
Figure 2022517769000066
は、実際領域面積である。
ここで、MIoUを利用して検出ネットワークの実験結果を評価することは、表2に示すとおりである。表2は、冠状面、矢状面及び横断面のユニオン交差を示す。
Figure 2022517769000067
上記技術的解決手段において、膝関節MRI試験データを訓練された前十字靭帯領域検出ネットワークに入力することで、前十字靭帯区域検出結果を得る。これにより、三次元膝関節MRI画像に対する直接処理及び前十字靭帯領域に対する直接検出を実現させることができる。前記三次元膝関節MRI画像を複数のサブ画像に分け、各サブ画像の7個の予測値を、所定のマッピング関数により所定の数値範囲内に制約する。従って、検出プロセスにおいて、前十字靭帯領域検出の難度を低減させ、ネットワーク収束速度を速くし、検出の正確度を向上させる。三次元膝関節MRI画像を複数のサブ画像に分けて、所定のマッピング関数を利用してネットワークから出力した予測枠の中心点座標、縦横高さ及び信頼度を制約する。これにより、予測枠の中心点を予測用サブ画像内に位置させる。縦横高さの数値は所定の寸法に対して大きすぎるか又は小さすぎることがない。ネットワークの初期訓練段階においてショックが発生し、延いては収束できないという問題を避ける。検出ネットワークを利用して膝関節MRI画像に対して特徴抽出を行う。従って、画像における前十字靭帯領域検出を正確に行い、前十字靭帯疾患の診断の効率及び正確率の向上に根拠を与える。これにより、二次元医用画像による診断支援の制限を突破することができる。三次元MRI画像を利用して医用画像を処理するため、より多くのデータ数及びより豊かなデータ情報を持つ。
図5は、本願による三次元ターゲット検出モデル訓練装置50の一実施例を示すブロック図である。三次元ターゲット検出モデル訓練装置50は、画像取得モジュール51と、ターゲット検出モジュール52と、損失決定モジュール53と、パラメータ調整モジュール54と、を備え、画像取得モジュール51は、サンプル三次元画像を取得するように構成され、サンプル三次元画像に、三次元ターゲットの実際領域の実際位置情報が付記されており、ターゲット検出モジュール52は、三次元ターゲット検出モデルを利用してサンプル三次元画像に対してターゲット検出を行い、サンプル三次元画像の1つ又は複数のサブ画像に対応する1つ又は複数の予測領域情報を得るように構成され、各予測領域情報は、予測領域の予測位置情報及び予測信頼度を含み、損失決定モジュール53は、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定するように構成され、パラメータ調整モジュール54は、損失値を利用して、三次元ターゲット検出モデルのパラメータを調整するように構成される。一つの実施シーンにおいて、三次元ターゲット検出モデルは、三次元畳み込みニューラルネットワークモデルである。一つの実施シーンにおいて、サンプル三次元画像は、核磁気共鳴画像であり、三次元ターゲットは、人体部位である。
上記技術的解決手段において、取得されたサンプル三次元画像に、三次元ターゲットの実際領域の実際位置情報が付記されている。三次元ターゲット検出モデルを利用してサンプル三次元画像に対してターゲット検出を行い、サンプル三次元画像の1つ又は複数のサブ画像に対応する1つ又は複数の予測領域情報を得る。各予測領域情報は、サンプル三次元画像の1つのサブ画像に対応する予測領域の予測位置情報及び予測信頼度を含む。これにより、実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定し、損失値を利用して、三次元ターゲット検出モデルのパラメータを調整する。更に、三次元画像に対して三次元ターゲット検出を行うためのモデルを訓練により得ることができる。三次元画像を処理して二次元平面画像を得た後にターゲット検出を行う必要がない。従って、三次元ターゲットの空間情報及び構造情報を効果的に保留することができ、三次元ターゲットを直接的に検出できる。三次元ターゲット検出モデルがターゲット検出を行う時、三次元画像の1つ又は複数のサブ画像の予測領域情報を得ることができるため、三次元画像の1つ又は複数のサブ画像において三次元ターゲット検出を行うことができ、三次元ターゲット検出の難度の低減に寄与する。
幾つかの実施例において、予測領域情報の数は、所定の数であり、所定の数は、三次元ターゲット検出モデルの出力寸法とマッチングし、損失決定モジュール53は、実際位置情報を利用して、所定の数のサブ画像にそれぞれ対応する所定の数の実際領域情報を生成するように構成される実際領域情報生成サブモジュールであって、各実際領域情報は、実際位置情報及び実際信頼度を含み、実際領域の所定点の所在するサブ画像に対応する実際信頼度は、第1値であり、他のサブ画像に対応する実際信頼度は、第1値未満である第2値である、実際領域情報生成サブモジュールを備え、損失決定モジュール53は、所定の数のサブ画像に対応する実際位置情報及び予測位置情報を利用して、位置損失値を得るように構成される位置損失演算サブモジュールを備え、損失決定モジュール53は、所定の数のサブ画像に対応する実際信頼度及び予測信頼度を利用して、信頼度損失値を得るように構成される信頼度損失演算サブモジュールを備え、損失決定モジュール53は、位置損失値及び信頼度損失値に基づいて、三次元ターゲット検出モデルの損失値を得るように構成されるモデル損失演算サブモジュールを備える。
前記実施例と異なっており、実際位置情報により、所定の数のサブ画像に対応する所定の数の実際領域情報を生成することで、所定の数の実際領域情報及びそれに対応する予測領域情報に基づいて損失演算を行うことができ、更に、損失演算の複雑さを低減させることができる。
幾つかの実施例において、実際位置情報は、実際領域の実際所定点位置及び実際領域寸法を含み、予測位置情報は、予測領域の予測所定点位置及び予測領域寸法を含み、位置損失演算サブモジュールは、バイナリクロスエントロピーを利用して、所定の数のサブ画像に対応する実際所定点位置及び予測所定点位置に対して演算を行い、第1位置損失値を得るように構成され第1位置損失値演算部を備え、位置損失演算サブモジュールは、平均二乗誤差関数を利用して、所定の数のサブ画像に対応する実際領域寸法及び予測領域寸法に対して演算を行い、第2位置損失値を得るように構成される第2位置損失演算部を備え、信頼度損失演算サブモジュールは、バイナリクロスエントロピーを利用して、所定の数のサブ画像に対応する実際信頼度及び予測信頼度に対して演算を行い、信頼度損失値を得るように構成され、モデル損失演算サブモジュールは、第1位置損失値、第2位置損失値及び信頼度損失値に対して加重処理を行い、三次元ターゲット検出モデルの損失値を得るように構成される。
幾つかの実施例において、三次元ターゲット検出モデル訓練装置50は、実際位置情報の値、1つ又は複数の予測位置情報及び予測信頼度をいずれも所定の数値範囲内に制約するように構成される数値制約モジュールを更に備え、損失演算モジュール53は、制約された実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定するように構成される。一つの実施シーンにおいて、所定の数値範囲は、0から1までの範囲である。
前記実施例と異なっており、訓練装置50は、実際位置情報の値、1つ又は複数の予測位置情報及び予測信頼度をいずれも所定の数値範囲内に制約するように構成される制約モジュールを更に備え、損失決定モジュール53は更に、制約された実際位置情報及び1つ又は複数の予測領域情報を利用して、三次元ターゲット検出モデルの損失値を決定する。これにより、訓練プロセスで発生可能なネットワークショックを効果的に避け、収束速度を速くすることができる。
幾つかの実施例において、実際位置情報は、実際領域の実際所定点位置及び実際領域寸法を含み、予測位置情報は、予測領域の予測所定点位置及び予測領域寸法を含み、数値制約モジュールは、実際領域寸法と所定寸法との第1比を得て、第1比の対数値を、制約された実際領域寸法とするように構成される第1制約サブモジュールを備え、数値制約モジュールは、実際所定点位置とサブ画像の画像寸法との第2比を得て、第2比の小数部分を、制約された実際所定点位置とするように構成される第2制約サブモジュールを備え、数値制約モジュールは、所定のマッピング関数を利用して、1つ又は複数の予測所定点位置及び予測信頼度をそれぞれ所定の数値範囲内にマッピングするように構成される第3制約サブモジュールを備える。一つの実施シーンにおいて、所定の寸法は、複数のサンプル三次元画像における実際領域の領域寸法の平均値である。
幾つかの実施例において、第2制約サブモジュールは更に、サンプル三次元画像の画像寸法とサブ画像の数との第3比を算出し、実際所定点位置と第3比との第2比を得るように構成される。
幾つかの実施例において、所定の数値範囲は、0から1までの範囲であり、及び/又は、所定の寸法は、複数のサンプル三次元画像における実際領域の領域寸法の平均値である。三次元ターゲット検出モデル訓練装置50は、サンプル三次元画像を三原色チャネル画像に変換し、サンプル三次元画像の寸法を所定の画像寸法にスケーリングし、サンプル三次元画像に対して正規化及び標準化処理を行うように構成される前処理モジュールを更に備える。
図6を参照されたい。図6は、本願による三次元ターゲット検出装置60の一実施例を示すブロック図である。三次元ターゲット検出装置60は、画像取得モジュール61と、ターゲット検出モジュール62と、を備え、画像取得モジュール61は、被検三次元画像を取得するように構成され、ターゲット検出モジュール62は、三次元ターゲット検出モデルを利用して、被検三次元画像に対してターゲット検出を行い、被検三次元画像における三次元ターゲットに対応するターゲット領域情報を得るように構成され、三次元ターゲット検出モデルは、上記いずれか1つの三次元ターゲット検出モデルの訓練方法によって得られたものである。
上記技術的解決手段において、三次元ターゲット検出モデルを利用して被検三次元画像に対してターゲット検出を行い、被検三次元画像における三次元ターゲットに対応するターゲット領域情報を得る。また、三次元ターゲット検出モデルは、上記いずれか1つの三次元ターゲット検出モデル訓練装置の実施例における三次元ターゲット検出モデル訓練装置により訓練されたものである。従って、三次元画像を処理して二次元平面画像を得た後にターゲット検出を行う必要がない。従って、三次元ターゲットの空間情報及び構造情報を効果的に保留することができ、三次元ターゲットを直接的に検出できる。
図7を参照されたい。図7は、本願の電子機器70の一実施例を示すブロック図である。電子機器70は、互いに結合されたメモリ71及びプロセッサ72を備え、プロセッサ72は、メモリ71に記憶されたプログラム命令を実行し、上記いずれか1つの三次元ターゲット検出モデルの訓練方法の工程又は上記いずれか1つの三次元ターゲット検出方法を実現するように構成される。一つの実施シーンにおいて、電子機器70は、マイクロコンピュータ、サーバを含んでもよいが、これらに限定されない。なお、電子機器70は、ノートパソコン、タブレットなどの携帯機器を含んでもよく、ここで、これを限定するものではない。
ここで、プロセッサ72は、その自体及びメモリ71を制御して、上記いずれか1つの三次元ターゲット検出モデルの訓練方法の工程又は上記いずれか1つの三次元ターゲット検出方法を実現するように構成される。プロセッサ72は、CPU(Central Processing Unit:中央演算装置)と呼ばれてもよい。プロセッサ72は、信号処理能力を持つ集積回路チップであってもよい。プロセッサ72は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor:DSP)、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array:FPGA)又は他のプログラマブルゲートアレイ、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントであってもよい。汎用プロセッサは、マイクロプロセッサであってもよく、該プロセッサは、如何なる従来のプロセッサなどであってもよい。なお、プロセッサ72は、集積回路チップにより共同で実現してもよい。
上記技術的解決手段において、三次元画像を処理して二次元平面画像を得た後にターゲット検出を行う必要がない。従って、三次元ターゲットの空間情報及び構造情報を効果的に保留することができ、三次元ターゲットを直接的に検出できる。三次元ターゲット検出モデルがターゲット検出を行う時、三次元画像の1つ又は複数のサブ画像の予測領域情報を得ることができるため、三次元画像の1つ又は複数のサブ画像において三次元ターゲット検出を行うことができ、三次元ターゲット検出の難度の低減に寄与する。
図8を参照されたい。図8は、本願によるコンピュータ可読記憶媒体80の一実施例を示すブロック図である。コンピュータ可読記憶媒体80に、プロセッサにより実行可能なプログラム命令801が記憶されており、プログラム命令801は、プロセッサに上記いずれか1つの三次元ターゲット検出モデルの訓練方法の工程又は上記いずれか1つの三次元ターゲット検出方法を実現させるように構成される。
上記技術的解決手段において、三次元画像を処理して二次元平面画像を得た後にターゲット検出を行う必要がない。従って、三次元ターゲットの空間情報及び構造情報を効果的に保留することができ、三次元ターゲットを直接的に検出できる。三次元ターゲット検出モデルがターゲット検出を行う時、三次元画像の1つ又は複数のサブ画像の予測領域情報を得ることができるため、三次元画像の1つ又は複数のサブ画像において三次元ターゲット検出を行うことができ、三次元ターゲット検出の難度の低減に寄与する。
本願で提供される幾つかの実施例において、開示される方法及び装置は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施形態はただ例示的なもので、例えば、前記モジュール又はコンポーネントの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のコンポーネント又はユニットを組み合わせてもよく、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよく、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はコンポーネントによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
分離部材として説明したコンポーネントは、物理的に別個のものであってもよく、そうでなくてもよい。コンポーネントとして示された部材は、物理的コンポーネントであってもよく、そうでなくてもよい。即ち、同一の位置に位置してもよく、複数のネットワークコンポーネントに分布してもよい。実際の需要に応じてそのうちの一部又は全てのコンポーネントにより本実施例の方策の目的を実現することができる。また、本願の各実施例における各機能コンポーネントは一つの処理コンポーネントに集積されてもよく、各コンポーネントが物理的に別個のものとして存在してもよく、2つ以上のコンポーネントが一つのユニットに集積されてもよい。上記集積したコンポーネントはハードウェアとして実現してもよく、ソフトウェア機能コンポーネントとして実現してもよい。
集積したものは、ソフトウェア機能コンポーネントの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよいことに留意されたい。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、1台のコンピュータ設備(パソコン、サーバ、又はネットワーク装置など)又はプロセッサ(processor)に、本願の各実施例に記載の方法の全部又は一部を実行させるための若干の命令を含む。前記の記憶媒体は、USBメモリ、リムーバブルハードディスク、読み出し専用メモリ(ROM:Read Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスクなどの、プログラムコードを記憶できる種々の媒体を含む。
なお、本願の実施例は、コンピュータ可読記憶媒体を提供する。前記記憶媒体にプログラム命令が記憶されており、プログラム命令がプロセッサにより実行されるときに、前記プロセッサに上記三次元ターゲット検出モデルの訓練方法又は上記三次元ターゲット検出方法を実現させる。
なお、本願の実施例は、コンピュータ可読コードを含むコンピュータプログラムを提供する。前記コンピュータ可読コードは、電子機器で実行されるときに、前記電子機器におけるプロセッサに、本願の実施例で提供されるいずれか1つの三次元ターゲット検出モデルの訓練方法、又は上記三次元ターゲット検出方法を実現させる。
本実施例において、電子機器は、三次元ターゲット検出モデルに対するターゲット検出を行い、三次元画像の1つ又は複数のサブ画像の予測領域情報を得ることで、三次元画像の1つ又は複数のサブ画像において三次元ターゲット検出を行うことができる。これにより、三次元ターゲット検出の難度の低減に寄与する。
本願は、人工知能技術分野に関し、特に三次元ターゲット検出方法及びそのモデルの訓練方法装置、機器、記憶媒体及びコンピュータプログラムに関する。

Claims (20)

  1. サンプル三次元画像を取得することであって、前記サンプル三次元画像に、三次元ターゲットの実際領域の実際位置情報が付記されている、ことと、
    三次元ターゲット検出モデルを利用して前記サンプル三次元画像に対してターゲット検出を行い、前記サンプル三次元画像の1つ又は複数のサブ画像に対応する1つ又は複数の予測領域情報を得ることであって、各前記予測領域情報は、予測領域の予測位置情報及び予測信頼度を含む、ことと、
    前記実際位置情報及び前記1つ又は複数の予測領域情報を利用して、前記三次元ターゲット検出モデルの損失値を決定することと、
    前記損失値を利用して、前記三次元ターゲット検出モデルのパラメータを調整することと、を含む、三次元ターゲットモデルの訓練方法。
  2. 前記予測領域情報の数は、所定の数であり、前記所定の数は、前記三次元ターゲット検出モデルの出力寸法とマッチングし、
    前記実際位置情報及び前記1つ又は複数の予測領域情報を利用して、前記三次元ターゲット検出モデルの損失値を決定することは、
    前記実際位置情報を利用して、前記所定の数のサブ画像にそれぞれ対応する所定の数の実際領域情報を生成することであって、各前記実際領域情報は、前記実際位置情報及び実際信頼度を含み、前記実際領域の所定点の所在するサブ画像に対応する実際信頼度は、第1値であり、残りの前記サブ画像に対応する実際信頼度は、第1値未満である第2値である、ことと、
    前記所定の数のサブ画像に対応する前記実際位置情報及び前記予測位置情報を利用して、位置損失値を得ることと、
    前記所定の数のサブ画像に対応する前記実際信頼度及び前記予測信頼度を利用して、信頼度損失値を得ることと、
    前記位置損失値及び前記信頼度損失値に基づいて、前記三次元ターゲット検出モデルの損失値を得ることと、を含むことを特徴とする
    請求項1に記載の訓練方法。
  3. 前記実際位置情報は、前記実際領域の実際所定点位置及び実際領域寸法を含み、前記予測位置情報は、前記予測領域の予測所定点位置及び予測領域寸法を含み、
    前記所定の数のサブ画像に対応する前記実際位置情報及び前記予測位置情報を利用して位置損失値を得ることは、
    バイナリクロスエントロピーを利用して、前記所定の数のサブ画像に対応する前記実際所定点位置及び前記予測所定点位置に対して演算を行い、第1位置損失値を得ることと、
    平均二乗誤差関数を利用して、前記所定の数のサブ画像に対応する前記実際領域寸法及び前記予測領域寸法に対して演算を行い、第2位置損失値を得ることと、を含み、
    前記所定の数のサブ画像に対応する前記実際信頼度及び前記予測信頼度を利用して、信頼度損失値を得ることは、
    バイナリクロスエントロピーを利用して、前記所定の数のサブ画像に対応する前記実際信頼度及び前記予測信頼度に対して演算を行い、信頼度損失値を得ることを含み、
    前記位置損失値及び前記信頼度損失値に基づいて、前記三次元ターゲット検出モデルの損失値を得ることは、
    前記第1位置損失値、前記第2位置損失値及び前記信頼度損失値に対して加重処理を行い、前記三次元ターゲット検出モデルの損失値を得ることを含むことを特徴とする
    請求項2に記載の訓練方法。
  4. 前記実際位置情報及び前記1つ又は複数の予測領域情報を利用して、前記三次元ターゲット検出モデルの損失値を決定する前に、
    前記実際位置情報の値、前記1つ又は複数の予測位置情報及び前記予測信頼度をいずれも所定の数値範囲内に制約することを更に含み、
    前記実際位置情報及び前記1つ又は複数の予測領域情報を利用して、前記三次元ターゲット検出モデルの損失値を決定することは、
    制約された前記実際位置情報及び前記1つ又は複数の予測領域情報を利用して、前記三次元ターゲット検出モデルの損失値を決定することを含むことを特徴とする
    請求項1~3のうちいずれか一項に記載の訓練方法。
  5. 前記実際位置情報は、前記実際領域の実際所定点位置及び実際領域寸法を含み、前記予測位置情報は、前記予測領域の予測所定点位置及び予測領域寸法を含み、
    前記実際位置情報の値をいずれも所定の数値範囲内に制約することは、
    前記実際領域寸法と所定寸法との第1比を得て、前記第1比の対数値を、制約された実際領域寸法とすることと、
    前記実際所定点位置と前記サブ画像の画像寸法との第2比を得て、前記第2比の小数部分を、制約された前記実際所定点位置とすることと、を含み、
    前記1つ又は複数の予測位置情報及び前記予測信頼度をいずれも所定の数値範囲内に制約することは、
    所定のマッピング関数を利用して、前記1つ又は複数の予測所定点位置及び予測信頼度をそれぞれ前記所定の数値範囲内にマッピングすることを含むことを特徴とする
    請求項4に記載の訓練方法。
  6. 前記実際所定点位置と前記サブ画像の画像寸法との第2比を得ることは、
    前記サンプル三次元画像の画像寸法と前記サブ画像の数との第3比を算出し、前記実際所定点位置と前記第3比との第2比を得ることを含むことを特徴とする
    請求項5に記載の訓練方法。
  7. 前記所定の数値範囲は、0から1までの範囲であり、及び/又は、前記所定の寸法は、複数のサンプル三次元画像における実際領域の領域寸法の平均値であることを特徴とする
    請求項5に記載の訓練方法。
  8. 三次元ターゲット検出モデルを利用して前記サンプル三次元画像に対してターゲット検出を行い、1つ又は複数の予測領域情報を得る前に、
    前記サンプル三次元画像を三原色チャネル画像に変換するという前処理工程、
    前記サンプル三次元画像の寸法を所定の画像寸法にスケーリングするという前処理工程、及び
    前記サンプル三次元画像に対して正規化及び標準化処理を行うという前処理工程のうちの少なくとも1つを更に含むことを特徴とする
    請求項1に記載の訓練方法。
  9. 被検三次元画像を取得することと、
    三次元ターゲット検出モデルを利用して、前記被検三次元画像に対してターゲット検出を行い、前記被検三次元画像における三次元ターゲットに対応するターゲット領域情報を得ることであって、前記三次元ターゲット検出モデルは、請求項1から8のうちいずれか一項に記載の三次元ターゲット検出モデルの訓練方法によって得られたものである、ことと、を含む、三次元ターゲット検出方法。
  10. サンプル三次元画像を取得するように構成される画像取得モジュールであって、前記サンプル三次元画像に、三次元ターゲットの実際領域の実際位置情報が付記されている、画像取得モジュールと、
    三次元ターゲット検出モデルを利用して前記サンプル三次元画像に対してターゲット検出を行い、前記サンプル三次元画像の1つ又は複数のサブ画像に対応する1つ又は複数の予測領域情報を得るように構成されるターゲット検出モジュールであって、各前記予測領域情報は、予測領域の予測位置情報及び予測信頼度を含む、ターゲット検出モジュールと、
    前記実際位置情報及び前記1つ又は複数の予測領域情報を利用して、前記三次元ターゲット検出モデルの損失値を決定するように構成される損失決定モジュールと、
    前記損失値を利用して、前記三次元ターゲット検出モデルのパラメータを調整するように構成されるパラメータ調整モジュールと、を備える、三次元ターゲット検出モデル訓練装置。
  11. 前記予測領域情報の数は、所定の数であり、前記所定の数は、前記三次元ターゲット検出モデルの出力寸法とマッチングし、前記損失決定モジュールは、
    前記実際位置情報を利用して、前記所定の数のサブ画像にそれぞれ対応する所定の数の実際領域情報を生成するように構成される実際領域情報生成サブモジュールであって、各前記実際領域情報は、前記実際位置情報及び実際信頼度を含み、前記実際領域の所定点の所在するサブ画像に対応する実際信頼度は、第1値であり、残りの前記サブ画像に対応する実際信頼度は、第1値未満である第2値である、実際領域情報生成サブモジュールと、
    前記所定の数のサブ画像に対応する前記実際位置情報及び前記予測位置情報を利用して、位置損失値を得るように構成される位置損失演算サブモジュールと、
    前記所定の数のサブ画像に対応する前記実際信頼度及び前記予測信頼度を利用して、信頼度損失値を得るように構成される信頼度損失演算サブモジュールと、
    前記位置損失値及び前記信頼度損失値に基づいて、前記三次元ターゲット検出モデルの損失値を得るように構成されるモデル損失演算サブモジュールと、を備えることを特徴とする
    請求項10に記載の装置。
  12. 前記実際位置情報は、前記実際領域の実際所定点位置及び実際領域寸法を含み、前記予測位置情報は、前記予測領域の予測所定点位置及び予測領域寸法を含み、前記位置損失演算サブモジュールは、
    バイナリクロスエントロピーを利用して、前記所定の数のサブ画像に対応する前記実際所定点位置及び前記予測所定点位置に対して演算を行い、第1位置損失値を得るように構成される第1位置損失演算部と、
    平均二乗誤差関数を利用して、前記所定の数のサブ画像に対応する前記実際領域寸法及び前記予測領域寸法に対して演算を行い、第2位置損失値を得るように構成される第2位置損失演算部と、を備え、
    前記信頼度損失演算サブモジュールは更に、バイナリクロスエントロピーを利用して、前記所定の数のサブ画像に対応する前記実際信頼度及び前記予測信頼度に対して演算を行い、信頼度損失値を得るように構成され、
    前記モデル損失演算サブモジュールは更に、前記第1位置損失値、前記第2位置損失値及び前記信頼度損失値に対して加重処理を行い、前記三次元ターゲット検出モデルの損失値を得るように構成されることを特徴とする
    請求項11に記載の装置。
  13. 前記実際位置情報の値、前記1つ又は複数の予測位置情報及び前記予測信頼度をいずれも所定の数値範囲内に制約するように構成される制約モジュールを更に備え、
    前記損失決定モジュールは更に、制約された前記実際位置情報及び前記1つ又は複数の予測領域情報を利用して、前記三次元ターゲット検出モデルの損失値を決定するように構成されることを特徴とする
    請求項10~12のうちいずれか一項に記載の装置。
  14. 前記実際位置情報は、前記実際領域の実際所定点位置及び実際領域寸法を含み、前記予測位置情報は、前記予測領域の予測所定点位置及び予測領域寸法を含み、前記数値制約モジュールは、
    前記実際領域寸法と所定寸法との第1比を得て、前記第1比の対数値を、制約された実際領域寸法とするように構成される第1制約サブモジュールと、
    前記実際所定点位置と前記サブ画像の画像寸法との第2比を得て、前記第2比の小数部分を、制約された前記実際所定点位置とするように構成される第2制約サブモジュールと、
    所定のマッピング関数を利用して、前記1つ又は複数の予測所定点位置及び予測信頼度をそれぞれ前記所定の数値範囲内にマッピングするように構成される第3制約サブモジュールと、を備えることを特徴とする
    請求項13に記載の装置。
  15. 前記第2制約サブモジュールは更に、前記サンプル三次元画像の画像寸法と前記サブ画像の数との第3比を算出し、前記実際所定点位置と前記第3比との第2比を得るように構成されることを特徴とする
    請求項14に記載の装置。
  16. 前記サンプル三次元画像を三原色チャネル画像に変換し、前記サンプル三次元画像の寸法を所定の画像寸法にスケーリングし、前記サンプル三次元画像に対して正規化及び標準化処理を行うように構成される前処理モジュールを更に備えることを特徴とする
    請求項10に記載の装置。
  17. 被検三次元画像を取得するように構成される画像取得モジュールと、
    三次元ターゲット検出モデルを利用して、前記被検三次元画像に対してターゲット検出を行い、前記被検三次元画像における三次元ターゲットに対応するターゲット領域情報を得るように構成されるターゲット検出モジュールであって、前記三次元ターゲット検出モデルは、請求項10に記載の三次元ターゲット検出モデル訓練装置で得られたものである、ターゲット検出モジュールと、を備える、三次元ターゲット検出装置。
  18. 互いに結合されたメモリ及びプロセッサを備える電子機器であって、前記プロセッサは、メモリに記憶されたプログラム命令を実行して、請求項1~8のうちいずれか一項に記載の三次元ターゲット検出モデルの訓練方法又は請求項9に記載の三次元ターゲット検出方法を実現するように構成される、電子機器。
  19. プロセッサにより実行されるときに、前記プロセッサに請求項1~8のうちいずれか一項に記載の三次元ターゲット検出モデルの訓練方法、又は請求項9に記載の三次元ターゲット検出方法を実現させるためのプログラム命令を記憶した、コンピュータ可読記憶媒体。
  20. 電子機器で実行されるときに、前記電子機器におけるプロセッサに、請求項1~8のうちいずれか一項に記載の三次元ターゲット検出モデルの訓練方法、又は請求項9に記載の三次元ターゲット検出方法を実現させるためのコンピュータ可読コードを含む、コンピュータプログラム。
JP2021539662A 2019-12-27 2020-07-22 三次元ターゲット検出及びモデルの訓練方法、装置、機器、記憶媒体及びコンピュータプログラム Pending JP2022517769A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911379639.4 2019-12-27
CN201911379639.4A CN111179247A (zh) 2019-12-27 2019-12-27 三维目标检测方法及其模型的训练方法及相关装置、设备
PCT/CN2020/103634 WO2021128825A1 (zh) 2019-12-27 2020-07-22 三维目标检测及模型的训练方法及装置、设备、存储介质

Publications (1)

Publication Number Publication Date
JP2022517769A true JP2022517769A (ja) 2022-03-10

Family

ID=70654208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021539662A Pending JP2022517769A (ja) 2019-12-27 2020-07-22 三次元ターゲット検出及びモデルの訓練方法、装置、機器、記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220351501A1 (ja)
JP (1) JP2022517769A (ja)
CN (1) CN111179247A (ja)
TW (1) TW202125415A (ja)
WO (1) WO2021128825A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179247A (zh) * 2019-12-27 2020-05-19 上海商汤智能科技有限公司 三维目标检测方法及其模型的训练方法及相关装置、设备
CN112258572A (zh) * 2020-09-30 2021-01-22 北京达佳互联信息技术有限公司 目标检测方法、装置、电子设备及存储介质
CN112712119B (zh) * 2020-12-30 2023-10-24 杭州海康威视数字技术股份有限公司 确定目标检测模型的检测准确率的方法和装置
CN113435260A (zh) * 2021-06-07 2021-09-24 上海商汤智能科技有限公司 图像检测方法和相关训练方法及相关装置、设备及介质
CN113938895B (zh) * 2021-09-16 2023-09-05 中铁第四勘察设计院集团有限公司 铁路无线信号的预测方法、装置、电子设备及存储介质
CN114119588A (zh) * 2021-12-02 2022-03-01 北京大恒普信医疗技术有限公司 一种训练眼底黄斑病变区域检测模型的方法、装置及***
CN114005110B (zh) * 2021-12-30 2022-05-17 智道网联科技(北京)有限公司 3d检测模型训练方法与装置、3d检测方法与装置
CN115457036B (zh) * 2022-11-10 2023-04-25 中国平安财产保险股份有限公司 检测模型训练方法、智能点数方法和相关设备
CN117315402A (zh) * 2023-11-02 2023-12-29 北京百度网讯科技有限公司 三维对象检测模型的训练方法及三维对象检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257128A (zh) * 2018-01-30 2018-07-06 浙江大学 一种基于3d卷积神经网络的肺结节检测装置的建立方法
US20190050981A1 (en) * 2017-08-09 2019-02-14 Shenzhen Keya Medical Technology Corporation System and method for automatically detecting a target object from a 3d image
CN109492697A (zh) * 2018-11-15 2019-03-19 厦门美图之家科技有限公司 图片检测网络训练方法及图片检测网络训练装置
EP3462373A1 (en) * 2017-10-02 2019-04-03 Promaton Holding B.V. Automated classification and taxonomy of 3d teeth data using deep learning methods

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229489B (zh) * 2016-12-30 2020-08-11 北京市商汤科技开发有限公司 关键点预测、网络训练、图像处理方法、装置及电子设备
JP6799169B2 (ja) * 2017-03-17 2020-12-09 本田技研工業株式会社 マルチモーダル融合による3dオブジェクト検出と配向推定の結合
US10748036B2 (en) * 2017-11-21 2020-08-18 Nvidia Corporation Training a neural network to predict superpixels using segmentation-aware affinity loss
US10140544B1 (en) * 2018-04-02 2018-11-27 12 Sigma Technologies Enhanced convolutional neural network for image segmentation
CN108648178A (zh) * 2018-04-17 2018-10-12 杭州依图医疗技术有限公司 一种影像结节检测的方法及装置
CN108986085B (zh) * 2018-06-28 2021-06-01 深圳视见医疗科技有限公司 Ct图像肺结节检测方法、装置、设备及可读存储介质
CN109147254B (zh) * 2018-07-18 2021-05-18 武汉大学 一种基于卷积神经网络的视频野外火灾烟雾实时检测方法
CN109102502B (zh) * 2018-08-03 2021-07-23 西北工业大学 基于三维卷积神经网络的肺结节检测方法
CN109685768B (zh) * 2018-11-28 2020-11-20 心医国际数字医疗***(大连)有限公司 基于肺部ct序列的肺结节自动检测方法及***
CN109635685B (zh) * 2018-11-29 2021-02-12 北京市商汤科技开发有限公司 目标对象3d检测方法、装置、介质及设备
CN109685152B (zh) * 2018-12-29 2020-11-20 北京化工大学 一种基于dc-spp-yolo的图像目标检测方法
CN109902556A (zh) * 2019-01-14 2019-06-18 平安科技(深圳)有限公司 行人检测方法、***、计算机设备及计算机可存储介质
CN109886307A (zh) * 2019-01-24 2019-06-14 西安交通大学 一种基于卷积神经网络的图像检测方法及***
CN109816655B (zh) * 2019-02-01 2021-05-28 华院计算技术(上海)股份有限公司 基于ct图像的肺结节图像特征检测方法
CN110046572A (zh) * 2019-04-15 2019-07-23 重庆邮电大学 一种基于深度学习的地标建筑物识别与检测方法
CN110223279B (zh) * 2019-05-31 2021-10-08 上海商汤智能科技有限公司 一种图像处理方法和装置、电子设备
CN115601374B (zh) * 2019-08-22 2023-12-08 杭州德适生物科技有限公司 一种染色体图像分割方法
CN110543850B (zh) * 2019-08-30 2022-07-22 上海商汤临港智能科技有限公司 目标检测方法及装置、神经网络训练方法及装置
CN110598620B (zh) * 2019-09-06 2022-05-06 腾讯科技(深圳)有限公司 基于深度神经网络模型的推荐方法和装置
CN111179247A (zh) * 2019-12-27 2020-05-19 上海商汤智能科技有限公司 三维目标检测方法及其模型的训练方法及相关装置、设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050981A1 (en) * 2017-08-09 2019-02-14 Shenzhen Keya Medical Technology Corporation System and method for automatically detecting a target object from a 3d image
EP3462373A1 (en) * 2017-10-02 2019-04-03 Promaton Holding B.V. Automated classification and taxonomy of 3d teeth data using deep learning methods
CN108257128A (zh) * 2018-01-30 2018-07-06 浙江大学 一种基于3d卷积神经网络的肺结节检测装置的建立方法
CN109492697A (zh) * 2018-11-15 2019-03-19 厦门美图之家科技有限公司 图片检测网络训练方法及图片检测网络训练装置

Also Published As

Publication number Publication date
WO2021128825A1 (zh) 2021-07-01
TW202125415A (zh) 2021-07-01
CN111179247A (zh) 2020-05-19
US20220351501A1 (en) 2022-11-03

Similar Documents

Publication Publication Date Title
JP2022517769A (ja) 三次元ターゲット検出及びモデルの訓練方法、装置、機器、記憶媒体及びコンピュータプログラム
JP6947759B2 (ja) 解剖学的対象物を自動的に検出、位置特定、及びセマンティックセグメンテーションするシステム及び方法
RU2677764C2 (ru) Координатная привязка медицинских изображений
CN107909622B (zh) 模型生成方法、医学成像的扫描规划方法及医学成像***
US20230038364A1 (en) Method and system for automatically detecting anatomical structures in a medical image
TW202025137A (zh) 圖像處理方法及其裝置、電子設備及電腦可讀儲存媒體
CN110853111B (zh) 医学影像处理***、模型训练方法及训练装置
CN111724904A (zh) 用于针对医学扫描的患者建模的多任务渐进式网络
JP6885517B1 (ja) 診断支援装置及びモデル生成装置
US20190130565A1 (en) Method of processing medical image, and medical image processing apparatus performing the method
CN110880366A (zh) 一种医学影像处理***
US20210248716A1 (en) Systems and methods for consistent presentation of medical images using deep neural networks
CN114387317B (zh) Ct图像和mri三维图像的配准方法、装置
CN108701360A (zh) 图像处理***和方法
JPWO2019220871A1 (ja) 胸部x線画像の異常表示制御方法、異常表示制御プログラム、異常表示制御装置、及びサーバ装置
CN116869555A (zh) 扫描协议调节方法、装置以及存储介质
US11080866B2 (en) Dynamic image processing method and dynamic image processing device
CN115841476A (zh) 肝癌患者生存期预测方法、装置、设备及介质
Chernyshov et al. Automated Segmentation and Quantification of the Right Ventricle in 2-D Echocardiography
CN115700740A (zh) 医学图像处理方法、装置、计算机设备和存储介质
RU2478337C2 (ru) Способ определения контура сердца на флюорографических снимках
CN112669405A (zh) 图像重建方法、***、可读存储介质和设备
US20190095579A1 (en) Biomechanical model generation for human or animal torsi
US20230046302A1 (en) Blood flow field estimation apparatus, learning apparatus, blood flow field estimation method, and program
US20230169653A1 (en) Medical image processing apparatus, medical image processing method, and storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210707

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230307