JP7355924B2 - 画像認識モデルのトレーニング方法、画像認識方法及び装置 - Google Patents

画像認識モデルのトレーニング方法、画像認識方法及び装置 Download PDF

Info

Publication number
JP7355924B2
JP7355924B2 JP2022515569A JP2022515569A JP7355924B2 JP 7355924 B2 JP7355924 B2 JP 7355924B2 JP 2022515569 A JP2022515569 A JP 2022515569A JP 2022515569 A JP2022515569 A JP 2022515569A JP 7355924 B2 JP7355924 B2 JP 7355924B2
Authority
JP
Japan
Prior art keywords
image
predicted probability
loss function
recognition model
image recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022515569A
Other languages
English (en)
Other versions
JP2022547184A (ja
Inventor
▲鴻▼ 尚
瀚 ▲鄭▼
▲鐘▼前 ▲孫▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022547184A publication Critical patent/JP2022547184A/ja
Application granted granted Critical
Publication of JP7355924B2 publication Critical patent/JP7355924B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Description

本願は、2019年10月17日に中国特許局に提出された、出願番号が201910989262.8であり、発明の名称が「画像認識モデルのトレーニング方法、画像認識方法及び装置」である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれている。
本願は、人工知能(AI:Artificial Intelligence)分野に関し、特に、画像処理技術に関する。
人口の増加に伴い、医療システムへの負担は日々増加され、医療資源の需要もますます高まっている。実際の適用において、医療関係者は医用画像を介して患者の状態を分析することができる。医療関係者がより速く且つより正確に病状を診断するのを助けるために、自動診断機器によって医用画像を認識することができる。
現在、自動診断を実現するために、通常、大量の医用画像を採用して画像認識モデルをトレーニングする必要があり、ここで、これらの医用画像は医療関係者によるラベル付けを必要とし、即ち、医療関係者は、臨床経験に応じて、例えば、当該医用画像に疾患が存在するか否かをラベル付けすること、及び当該医用画像内の病変の位置をラベル付けすることなど、各医用画像に対して判断する。
しかし、医用画像の数の増え続けることに伴い、病変の複雑さもますます高まり、ラベル付けの難易度も増やし、画像認識モデルをトレーニングするためのラベル付けのリソースは限られている。ただし、ラベル付けのリソースが限られているため、モデルのトレーニングプロセスでは、ラベル付けされた医用画像の一部のみを使用できるようになる。さらに、モデルのトレーニングは、通常、具体的なタスクを組み合わせて実現する必要があり、異なるタスクに対して、当該タスクに対応するトレーニングセットを採用する必要がある。その結果、ラベル付けされた医用画像は、効果的に利用できないし、タスクのトレーニングセットの一部のデータが足りなくなる可能性があり、さらに、モデルの予測効果の正確度が低くなる。
本願実施例は、画像認識モデルのトレーニング方法、画像認識方法及び装置を提供し、ラベル付けされ且つ異なるタスクの医用画像及びラベル付けされていない医用画像に対して、モデルを共にトレーニングすることができ、ラベル付き画像及びラベルなし画像を効果的に利用して、画像に対するラベル付けの要求を低下するだけでなく、トレーニングのデータ量を増やし、それにより、ラベル付きリソースを節約し、同時にモデルの予測効果を向上させることもできる。
これを鑑みて、本願の第1態様は、画像認識モデルのトレーニング方法を提供し、前記方法は、
トレーニング対象となる画像セットを取得するステップであって、ここで、前記トレーニング対象となる画像セットは、少なくとも、第1画像セット、第2画像セット及び第3画像セットを含み、前記第1画像セットは、少なくとも1つの第1画像を含み、前記第2画像セットは、少なくとも1つの第2画像及び少なくとも1つの干渉画像を含み、前記第3画像セットは、少なくとも1つの第3画像を含み、前記第1画像は、第1タスクに対応するラベル付き画像であり、前記第2画像は、第1タスクに対応するラベルなし画像であり、前記第3画像は、第2タスクに対応するラベル付き画像であり、前記第1タスク及び前記第2タスクは異なるタスクに属する、ステップと、
前記トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得するステップであって、ここで、前記第1予測確率は、前記第1画像セットに基づいて出力される予測結果であり、前記第2予測確率及び前記第3予測確率は、前記第2画像セットに基づいて出力される予測結果であり、前記第4予測確率は、前記第3画像セットに基づいて出力される予測結果である、ステップと、
前記第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定するステップであって、ここで、前記ターゲット損失関数は、少なくとも、第1損失関数、第2損失関数及び第3損失関数を含み、前記第1損失関数は、前記第1予測確率によって決定されるものであり、前記第2損失関数は、前記第2予測確率及び前記第3予測確率によって決定されるものであり、前記第3損失関数は、前記第4予測確率によって決定されるものである、ステップと、
前記ターゲット損失関数に基づいて、前記トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得するステップと、を含む。
本願の第2態様は、画像認識方法を提供し、前記方法は、
認識対象となる画像を取得する、ステップと、
画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得する、ステップであって、ここで、前記画像認識モデルは、上記の第1態様によって提供される画像認識モデルである、ステップと、
前記画像認識結果を展示する、ステップと、を含む。
本願の第3態様は、画像認識モデルのトレーニング装置を提供し、前記装置は、取得モジュールと、決定モジュールと、トレーニングモジュールと、を備え、
前記取得モジュールは、トレーニング対象となる画像セットを取得するように構成され、ここで、前記トレーニング対象となる画像セットは、少なくとも、第1画像セット、第2画像セット及び第3画像セットを含み、前記第1画像セットは、少なくとも1つの第1画像を含み、前記第2画像セットは、少なくとも1つの第2画像及び少なくとも1つの干渉画像を含み、前記第3画像セットは、少なくとも1つの第3画像を含み、前記第1画像は、第1タスクに対応するラベル付き画像であり、前記第2画像は、第1タスクに対応するラベルなし画像であり、前記第3画像は、第2タスクに対応するラベル付き画像であり、前記第1タスク及び前記第2タスクは異なるタスクに属し、
前記取得モジュールはさらに、前記トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得するように構成され、ここで、前記第1予測確率は、前記第1画像セットに基づいて出力される予測結果であり、前記第2予測確率及び前記第3予測確率は、前記第2画像セットに基づいて出力される予測結果であり、前記第4予測確率は、前記第3画像セットに基づいて出力される予測結果であり、
前記決定モジュールは、前記第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定するように構成され、ここで、前記ターゲット損失関数は、少なくとも、第1損失関数、第2損失関数及び第3損失関数を含み、前記第1損失関数は、前記第1予測確率によって決定されるものであり、前記第2損失関数は、前記第2予測確率及び前記第3予測確率によって決定されるものであり、前記第3損失関数は、前記第4予測確率によって決定されるものであり、
前記トレーニングモジュールは、前記決定モジュールによって決定される前記ターゲット損失関数に従って、前記トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得するように構成される。
本願の第4態様は、画像認識装置を提供し、前記装置は、取得モジュールと、展示モジュールと、を備え、
前記取得モジュールは、認識対象となる画像を取得するように構成され、
前記取得モジュールはさらに、画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得するように構成され、ここで、前記画像認識モデルは、上記の第1態様によって提供される画像認識モデルであり、
前記展示モジュールは、前記取得モジュールによって取得される前記画像認識結果を展示するように構成される。
本願の第5態様は、メモリ、トランシーバ、プロセッサ及びバスシステムを備える、電子機器を提供し、
ここで、前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、上記の第1態様又は第2態様のいずれか一項に記載の方法を実行することを含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサが通信できるように構成される。
本願の第6態様は、プローブ、回路、プロセッサ及びディスプレイを備える、内視鏡医療診断システムを提供し、
前記回路は、前記プローブを励起して、認識対象となる画像を取得させるように構成され、
前記プロセッサは、画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得するように構成され、ここで、前記画像認識モデルは、上記の第1態様のいずれか一項に記載の画像認識モデルであり、
前記ディスプレイは、前記画像認識結果を表示するように構成される。
本願の第7態様は、コンピュータで実行されるとき、コンピュータに上記の各態様に記載の方法を実行させる命令を記憶する、コンピュータ可読記憶媒体を提供する。
本願の第8態様は、コンピュータで実行されるとき、コンピュータに上記の第1態様又は第2態様のいずれか一項に記載の方法を実行させる命令を含む、コンピュータプログラム製品を提供する。
以上の技術的解決策から分かるように、本願実施例は、以下の利点を有する。
本願実施例は、画像認識モデルのトレーニング方法を提供し、まず、トレーニング対象となる画像セットを取得し、その後、トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得し、さらに、第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定し、最後に、ターゲット損失関数に基づいて、トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得する。上記の方式を介して、ラベル付けされ且つ異なるタスクの医用画像及びラベル付けされていない医用画像に対して、モデルを共にトレーニングすることができ、ラベル付き画像及びラベルなし画像を効果的に利用して、画像に対するラベル付けの要求を低下するだけでなく、トレーニングのデータ量を増やし、それにより、ラベル付けリソースを節約し、同時にモデルの予測効果を向上させることができる。
本願実施例における画像認識システムのアーキテクチャの概略図である。 本願実施例における画像認識モデルをトレーニングする全体的な構造の概略図である。 本願実施例における画像認識モデルのトレーニング方法の実施例の概略図である。 本願実施例における半教師あり学習ベースの実施例の概略図である。 本願実施例におけるマルチタスク学習ベースの実施例の概略図である。 本願実施例における画像認識方法の実施例の概略図である。 本願実施例における画像認識結果を展示するインターフェースの概略図である。 本願実施例における画像認識モデルのトレーニング装置の実施例の概略図である。 本願実施例における画像認識装置の実施例の概略図である。 本願実施例におけるサーバの例示的な構造図である。 本願実施例における端末機器の例示的な構造図である。 本願実施例における内視鏡医療診断システムの例示的な構造図である。
本願実施例は、画像認識モデルのトレーニング方法、画像認識方法及び装置を提供し、ラベル付けされ且つ異なるタスクの医用画像及びラベル付けされていない医用画像に対して、モデルを共にトレーニングし、ラベル付き画像及びラベルなし画像を効果的に利用して、画像に対するラベル付け要求を低下するだけでなく、トレーニングのデータ量を増やし、それにより、ラベル付きリソースを節約し、同時にモデルの予測効果を向上させることができる。
本願による画像認識モデルのトレーニング方法及び画像認識方法は、人工知能(AI:Artificial Intelligence)の医学分野に適用され、具体的には、コンピュータビジョン技術(CV:Computer Vision)に基づく医用画像認識の分野に適用されることができることを理解されたい。
医学分野で最も一般的な医用画像は、内視鏡画像、血管造影画像、心血管造影画像、コンピュータ断層撮影(CT:computerized tomography)画像、超音波Bモード画像及び病理学的画像を含むがこれに限定されない。医用画像は、組織内部で発生した病変を直接に反映できるため、医師が疾患を診断する重要な根拠であり、特定の疾患診断のための最終的な根拠でもある。例えば、癌の診断では、影、プラーク又は血管の拡張などの状況があるか否かを観察するなど、病変の放射線画像を観察することにより、癌の診断結果を決定する。本願は、内視鏡画像を認識して、内視鏡画像の自動診断に適用することで、医師を補助して、診断の効率及び正確度を向上させ、この基で、取得できる他の形のデータをさらに利用してモデルのトレーニングを補助して、モデルの正確度を向上させることができる。
医用画像は、医師が患者の状態を理解するための重要な情報ポータルであり、現在、高品質の医療イメージング機器は普及されているが、医用画像を正確に解釈するためには、常に、専門的な知識及び長期的な経験の蓄積を持つ医師が必要である。人口が多く、医療システムへの負担が大きく、経験豊富な医師の数が足りなく、且つ、主に、1線都市の大規模な三甲病院(日本の特定機能病院に相当)に集まっていることを考慮すると、医療資源が非常に乏しい。本願による方法は、ターゲットタスクのラベル付きデータを利用する基で、当該ターゲットタスクのラベルなしデータ(即ち、半教師あり学習)、及び他の関連タスクのラベル付きデータ(即ち、マルチタスク学習)をさらに利用し、既存の様々なタイプのデータ内の情報を最大限に利用してモデルのトレーニングを補助し、それにより、モデル効果を向上させることができる。
理解を容易にするために、本願は、図1に示された画像認識システムに適用される、画像認識方法を提案し、図1を参照すると、図1は、本願実施例における画像認識システムの1つのアーキテクチャの概略図であり、図面に示されたように、画像認識システムは、医療機器を含み得、医療機器は、具体的には、内視鏡機器又は電子顕微鏡などであり得、医療機器は、認識対象となる医用画像を収集した後、タスクのタイプに従って、トレーニングされた画像認識モデルを採用して医用画像を認識することができる。内視鏡画像の自動診断を例として、異なる部位(例えば、食道、胃、十二指腸又は結腸直腸)に従って認識してもよいし、異なるターゲットタスク(良性と悪性の区別、部位の区別、画像が適格かどうかの区別など)に従って認識してもよく、最後に、1つの視覚的な結果を取得して、医師に焦点を当てる領域を提供することができる。
例示的に、医療機器は、認識対象となる医用画像を収集した後、当該医用画像を端末機器に送信することができ、端末機器は、トレーニングされた画像認識モデルを採用して当該医用画像を認識することにより、1つの視覚的な結果を取得して、医師に1つの焦点を当てる領域を提供し、インターフェースに展示することができる。
例示的に、医療機器は、認識対象となる医用画像を収集した後、当該医用画像をサーバに送信することができ、サーバは、トレーニングされた画像認識モデルを採用して当該医用画像を認識し、サーバは、認識結果を取得した後、当該結果を端末機器又は医療機器にフィードバックすることができ、端末機器又は医療機器によって展示する。
端末機器は、タブレット、ラップトップ、ポケットコンピュータ、携帯電話、音声対話機器及びパソコン(PC:personal computer)を含むがこれに限定されないことに留意されたい。
本願で使用される画像認識モデルは、図2に示されたアーキテクチャを採用してトレーニングすることができ、図2を参照すると、図2は、本願実施例における画像認識モデルをトレーニングする1つの全体的な構造の概略図である。図面に示されたように、本願の画像認識モデルは、残差ネットワーク(ResNet:Residual Network)構造又は密集畳み込みネットワーク(Dense Net)構造など、深層学習モデル構造を採用することができる。トレーニングのプロセスでは、トレーニングデータに対してデータ増強(data augmentation)及びデータ前処理(preprocessing)を実行することができ、トレーニングは、エンドツーエンドの確率的勾配降下法を採用する。タスクごとに代替トレーニングを選択することができ、代替トレーニングに対して、即ち、ターゲットタスクのラベル付きデータ、マルチタスク学習内の補助タスクデータ及び半教師あり学習内のラベルなしデータを順次に入力し、対応するオプティマイザを呼び出して対応する損失値を低下することにより、重複する部分のパラメータ及び当該ターゲットタスクに固有のパラメータを更新する。ハイブリッドトレーニングを選択することもできるが、ハイブリッドトレーニングに対して、即ち、ハイブリッドのターゲットタスクのラベル付きデータ、マルチタスク学習内の補助タスクデータ及び半教師あり学習内のラベルなしデータを毎回入力して、対応する損失値を加算した後、オプティマイザを呼び出し、それにより、損失値の合計を低下する。
トレーニングして画像認識モデルを得た後、図2に示されたオンライン推論(inference)部分を使用して予測することができ、オンライン推論部分は、データ前処理、ネットワークモデル及び全結合層を含み、実際の適用ではさらに、他のネットワーク層を含み得、ここでは一例に過ぎず、本願に対する制限として理解されるべきではない。
図3を参照すると、本願実施例における画像認識モデルのトレーニング方法の一実施例は、以下のステップを含む。
ステップ101において、トレーニング対象となる画像セットを取得し、ここで、トレーニング対象となる画像セットは、少なくとも、第1画像セット、第2画像セット及び第3画像セットを含み、第1画像セットは、少なくとも1つの第1画像を含み、第2画像セットは、少なくとも1つの第2画像及び少なくとも1つの干渉画像を含み、第3画像セットは、少なくとも1つの第3画像を含み、第1画像は、第1タスクに対応するラベル付き画像であり、第2画像は、第1タスクに対応するラベルなし画像であり、第3画像は、第2タスクに対応するラベル付き画像であり、第1タスク及び第2タスクは異なるタスクに属する。
本実施例において、画像認識モデルのトレーニング装置が、トレーニング対象となる画像セットを取得し、画像認識のトレーニング装置は端末機器に配置されてもよいし、サーバに配置されてもよいことを理解されたい。トレーニングされるデータ量は比較的に大きいことが多いため、サーバを採用してモデルをトレーニングすることができるが、本願に対する制限として理解されるべきではない。
トレーニング対象となる画像セットは少なくとも、第1画像セット、第2画像セット及び第3画像セットを含み、第1画像セット、第2画像セット及び第3画像セットはすべてトレーニングサンプルに属し、第1画像セットは、少なくとも1つの第1画像(xに表すことができる)を含み、第2画像セットは、少なくとも1つの第2画像(xULに表すことができる)及び少なくとも1つの干渉画像(xpertに表すことができる)を含み、第3画像セットは、少なくとも1つの第3画像(xに表すことができる)を含み、第1画像は、第1タスクに対応する、ラベル付き情報を搬送するラベル付き画像であり、第2画像は、第1タスクに対応する、ラベル付き情報を搬送しないラベルなし画像であり、第3画像は、第2タスクに対応する、ラベル付き情報を搬送するラベル付き画像であり、第1タスク及び第2タスクは異なるタスクに属する。干渉画像は、第2画像がランダムにスクランブルされた後に得られたものであり、干渉画像のサイズは通常、第2画像のサイズと同じである。ランダムのスクランブルは、反転、回転及び平行移動を含むがこれに限定されない。1つの第2画像は、ランダムのスクランブルを2回実行することができ、即ち、1つの第2画像は、2つの干渉画像に対応することを理解されたい。さらに、干渉画像は通常、トレーニング中に生成されたものである。
ステップ102において、トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得し、ここで、第1予測確率は、第1画像セットに基づいて出力される予測結果であり、第2予測確率及び第3予測確率は、第2画像セットに基づいて出力される予測結果であり、第4予測確率は、第3画像セットに基づいて出力される予測結果である。
本実施例において、2つのトレーニングプロセスを採用し、それぞれ、半教師あり学習(Semi-Supervised learning)及びマルチタスク学習(MTL:Multitask learning)である。ここで、第1画像セット及び第2画像セットは、半教師あり学習のために使用され、第2予測確率及び第3予測確率は、半教師あり学習の出力結果であり、第3画像セットは、マルチタスク学習のために使用され、第4予測確率は、マルチタスク学習の出力結果である。
半教師あり学習は、同じタスクのラベルなしデータを利用して、トレーニングを補助してモデル効果を向上させる。ラベル付けの重要性は、現在のモデル予測の結果は正しいか否かを判断することであり、それにより、モデルの良否を評価する指標として使用する。即ち、1つのターゲット損失関数を設定し、現在のトレーニング対象となる画像認識モデルが正確であるほど、ターゲット損失関数の値は小さくなり、モデルトレーニングのプロセスは、ターゲット損失関数に最小値を取得させる最適化プロセスである。ラベル付き画像データに対して、クロスエントロピ損失関数(cross entropy loss)を採用して、モデルの良否を評価することができることに留意されたい。そして、ラベルなし画像データに対して、ラベルでモデルの良否を評価できないため、同じ画像を、2回のランダムな摂動を介してネットワークに入力させ、一貫性制限損失関数(consistency loss)を採用して、2回の予測結果間の差異を判断することができる。モデルトレーニングの目的は、2回の予測結果間の差異を減らすことである。
マルチタスク学習は、他の関連タスク内のラベル付きデータセットを利用してトレーニングを補助することにより、モデル効果を向上させる。従来の機械学習方法は、タスクごとに1つのモデルを独立してトレーニングするが、マルチタスク学習の方法は、1つのネットワークモデルで複数の関連タスクをトレーニングすることができ、ネットワークモデルのパラメータの一部は各タスクによって共有され、ネットワークモデルのパラメータの別の一部は各タスクによって固有される。
ステップ103において、第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定し、ここで、ターゲット損失関数は、少なくとも、第1損失関数、第2損失関数及び第3損失関数を含み、第1損失関数は、第1予測確率によって決定されるものであり、第2損失関数は、第2予測確率及び第3予測確率によって決定されるものであり、第3損失関数は、第4予測確率によって決定されるものである。
本実施例において、画像認識モデルのトレーニング装置は、第1予測確率及び第1画像セットに対応するラベル付き情報に従って第1損失関数を決定し、ここで、第1予測確率セットは予測値に属するが、第1画像セットに対応するラベル付き情報は実の値に属し、予測値及び実の値に基づいて第1損失関数を計算する。画像認識モデルのトレーニング装置は、第2予測確率及び第3予測確率に従って第2損失関数を決定し、ここで、第2予測確率及び第3予測確率は両方とも予測値である。画像認識モデルのトレーニング装置は、第4予測結果セット及び第3画像セットに対応するラベル付き情報に従って第3損失関数を決定し、第4予測結果セットは予測値に属するが、第3画像セットに対応するラベル付き情報は実の値に属し、予測値及び実の値に基づいて第3損失関数を計算する。第1損失関数、第2損失関数及び第3損失関数を組み合わせて、ターゲット損失関数を取得することができる。
ステップ104において、ターゲット損失関数に基づいて、トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得する。
本実施例において、ターゲット損失関数が収束するとき、トレーニング対象となる画像認識モデルがトレーニングを完了したことを表し、この場合、当該トレーニング対象となる画像認識モデルが画像認識モデルである。実際の適用では、回数の閾値に達するまでトレーニングした場合、ターゲット損失関数が収束されたと見なすことができることを理解されたい。
本願実施例は、画像認識モデルのトレーニング方法を提供し、まず、トレーニング対象となる画像セットを取得し、その後、トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得し、さらに、第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定し、最後に、ターゲット損失関数に基づいて、トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得する。上記の方式を介して、ラベル付けされ且つ異なるタスクの医用画像及びラベル付けされていない医用画像に対して、モデルを共にトレーニングすることができ、ラベル付き画像及びラベルなし画像を効果的に利用して、画像に対するラベル付けの要求を低下するだけでなく、トレーニングのデータ量を増やし、それにより、ラベル付きリソースを節約し、同時にモデルの予測効果を向上させることもできる。
例示的に、上記の図3に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の最初の代替実施例において、トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得する、ステップは、
第1画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率を取得する、ステップと、
第2画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第2予測確率及び第3予測確率を取得する、ステップと、
第3画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第4予測確率を取得する、ステップと、を含み得る。
本実施例において、画像認識モデルのトレーニング装置は、第2画像セットをトレーニング対象となる画像認識モデルに入力し、具体的には、第2画像セットは、第2画像及び干渉画像を含む。第2画像Aが最初のランダムスクランブルを介して干渉画像Aを取得し、第2画像Aが二回目のランダムスクランブルを介して干渉画像Bを取得すると仮定する。そして、画像認識モデルのトレーニング装置は、まず、第2画像A及び干渉画像Aをトレーニング対象となる画像認識モデルに入力し、当該トレーニング対象となる画像認識モデルによって第2予測確率を出力し、その後、画像認識モデルのトレーニング装置は、第2画像A及び干渉画像Bをトレーニング対象となる画像認識モデルに入力して、当該トレーニング対象となる画像認識モデルによって第3予測確率を出力し、2回の予測を介して2つの予測確率を取得する。実際の適用では、各第2画像に対していずれも2回のランダムスクランブル処理を実行することができる。
理解を容易にするために、図4を参照すると、図4は、本願実施例におけるラベルなしサンプルに基づいてトレーニングする1つの実施例の概略図であり、図面に示されたように、第2画像のサンプルセットは少なくとも1つの第2画像を含む。まず、第2画像のサンプルセット内の各第2画像に対して最初のランダムスクランブルを実行して、干渉画像Aのサンプルセットを取得する。さらに、第2画像のサンプルセット内の各第2画像に対して二回目のランダムスクランブルを実行して、干渉画像Bのサンプルセットを取得する。第2画像のサンプルセット及び干渉画像Aのサンプルセットを両方ともトレーニング対象となる画像認識モデルに入力することにより、各サンプルに対応する第1予測確率を取得する。次に、第2画像のサンプルセット及び干渉画像Bのサンプルセットを両方ともトレーニング対象となる画像認識モデルに入力することにより、各サンプルに対応する第2予測確率を取得する。
本実施例において、画像認識モデルのトレーニング装置は、さらに、第1画像セットをトレーニング対象となる画像認識モデルに入力し、具体的には、第1画像セットは第1画像を含み、第1画像はラベル付き画像である。同様に、画像認識モデルのトレーニング装置は、さらに、第3画像セットをトレーニング対象となる画像認識モデルに入力し、具体的には、第3画像セットは第3画像を含み、第3画像は第1画像と類似して、ラベル付き画像である。異なるのは、第1画像が配置されている第1画像セット及び第3画像が配置されている第3画像セットは、異なる学習タスクに対応する。例えば、第1画像セットは、病変の位置づけタスクに対してラベル付けしたものであり、即ち、第1画像によってラベル付けされたコンテンツは、例えば、病変が食道、胃、十二指腸又は結腸直腸における病変の位置など、病変の位置である。第3画像セットは、腫瘍の性質のタスクに対してラベル付けしたものであり、即ち、第3画像によってラベル付けされたコンテンツは、悪性腫瘍又は良性腫瘍などの腫瘍の性質である。実際の適用では、さらに、要件に応じて他の異なるタスクを設定することができ、ここでは一例に過ぎず、本願の制限として理解されるべきではない。
説明を容易にするために、図5を参照すると、図5は、本願実施例におけるマルチタスク学習ベースの1つの実施例の概略図であり、図面に示されたように、マルチタスク学習(MTL:Multitask learning)は他の関連するラベル付きデータセットを利用してトレーニングを補助し、それにより、モデル効果を向上させ、従来の機械学習方法は、タスクごとに1つのモデルを独立してトレーニングするが、マルチタスク学習の方法は、1つのネットワークモデルを使用して、複数の関連タスクを同時にトレーニングすることができ、ネットワークモデルのパラメータの一部は、各タスクによって共有され、ネットワークモデルのパラメータの別の一部は、各タスクによって固有される。図5に示されたように、入力されたトレーニングデータに対して、トレーニング対象となる画像認識モデルは、4つの異なるタスクでの予測結果を出力し、且つ異なるタスク間はパラメータを共有し、且つすべてのタスクのすべてのデータセットを利用するため、トレーニングのデータ量を増やす。
マルチタスク学習は複数の形があり、統合学習(joint learning)、自律的学習(learning to learn)及び補助タスクありの学習(learning with auxiliary task)を含むがこれに限定されない。通常の場合、複数の損失関数を最適化することは、マルチタスク学習を実行することと同じである。1つの損失関数のみを最適化しても、補助タスクによって元のタスクモデルを改善する可能性がある。本願によるマルチタスク学習は、パラメータのハード共有(Parameter Hard Sharing)に基づいて実現してもよいし、パラメータのソフト共有(Parameter Soft Sharing)に基づいて実現してもよい。パラメータのハード共有の場合、通常、すべてのタスク間で隠し層を共有し、同時にいくつかの特定のタスクの出力層を保留することにより実現する。パラメータのソフト共有の場合、各タスクはすべて、独立したモデルがあり、各モデルは、それぞれのパラメータを含む。
さらに、本願実施例において、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得する方法を提供し、半教師あり学習を利用して、第2画像セットに基づいて第2予測確率及び第3予測確率を取得し、さらに、マルチタスク学習を利用して、第3画像セットに基づいて第4予測確率を取得する。上記の方式を介して、ラベルなしデータを効果的に利用してトレーニングし、それにより、モデル効果を向上させ、より良い効果を取得し、同時にラベル付きデータに対する要求を低下して、製品開発のコストを減らし、製品開発の周期を加速する。同時に、1つの画像認識モデルを使用して、複数の関連タスクをトレーニングすることもでき、画像認識モデルのパラメータの一部は、各タスクによって共有され、パラメータの別の一部は、各タスクによって固有される。共有パラメータは、すべてのタスクのすべてのデータセットを利用することにより、トレーニングのデータ量を増やすだけでなく、同時に各トレーニングセット固有のノイズを相殺し、それにより、モデルの一般化能力を向上させ、モデルのオーバーフィットを低減する。独立した出力層は、共有部分から当該タスクに最も関連性のある特徴を選択し、各タスクの特定の分類境界を学習して、モデルに、十分な柔軟度を有し、画像認識タスクからより高い正確度を取得させることができる。
例示的に、上記の図3に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の二番目の代替実施例において、第1画像セットに基づいて、トレーニング対象となる画像認識モデルを介して第1予測確率を取得する、ステップは、
少なくとも1つの第1画像に基づいて、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第1予測値を取得する、ステップと、
第1予測値に対して正規化処理を実行して、第1予測確率を取得する、ステップと、を含み得る。
本実施例において、第1予測確率を生成する方法を紹介し、説明の便宜上、以下は、第1画像セット内の1つの第1画像を例として説明する。第1画像セット内の他の第1画像も類似する方式を採用して処理し、ここでは繰り返して説明しないことを理解されたい。
具体的には、第1画像をxに表し、第1画像のラベル付き情報をyに表し、ラベル付き情報は、分類タスクでの分類ラベルを表すと仮定すると、例えば、分類タスクが病変の位置づけタスクであると、分類ラベルは異なる部位であり得、例えば、ラベル1は、食道部位を表し、ラベル2は、胃を表し、ラベル3は、十二指腸部位を表し、ラベル4は、結腸直腸部位を表し、ラベル5は、タイプなしを表す。さらに例えば、分類タスクは、腫瘍の性質を区別するタスクであると、分類ラベルは、異なる腫瘍の悪化程度であり得、例えば、ラベル1は、良性腫瘍を表し、ラベル2は、悪性腫瘍を表し、ラベル3は、腫瘍なしを表す。さらに例えば、分類タスクが、画像の適格状況を区別するタスクであると、分類ラベルは、異なる画像の適格状況であり得、例えば、ラベル1は、画像の適格を表し、ラベル2は、画像の不適格を表す。
第2タスクに属する第1画像xは、全結合(FC:fully connection)層を通した後、第1予測値を出力し、第1予測値はzに表し、第1予測値zは、softmaxを通した後、正規化処理を実現し、それにより、第1画像の第1予測確率pを取得する。以下の方式を採用して第1予測確率を計算して取得する。

Figure 0007355924000001
ここで、pは、第1予測確率を表し、p[i]は、第1予測確率内の第i個のユニットを表し、Cは、タイプの総数を表し、kは、第k個のタイプを表し、iの値は、0より大きいか等しく、且つC-1より小さいか等しい整数である。
トレーニング対象となる画像認識モデルの最後の一層は、全結合層+Softmax層であり得、全結合層は、重み行列を入力ベクトルと乗算してからバイアスを加算し、N個の実数をK個の分数にマッピングし、Softmax層は、K個の実数をK個の(0,1)範囲内の確率にマッピングし、同時にK個の実数の合計が1になるように保証する。
次に、本願実施例において、第1予測確率を生成する方法を提供し、即ち、まず、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第1画像の第1予測値を取得し、その後、第1画像の第1予測値に対して正規化処理を実行して、第1画像の第1予測確率を取得する。上記の方式を介して、予測値に対して正規化処理を実行した後、サンプルの予測カテゴリをより直感的に反映することができ、それにより、トレーニングサンプル分類の正確度を向上させ、モデルトレーニングの効率及び正確度を向上させることに役立つ。
例示的に、上記の図3に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の三番目の代替実施例において、第2画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第2予測確率及び第3予測確率を取得する、ステップは、
少なくとも1つの第2画像に従って第1干渉画像セットを生成するステップであって、ここで、第1干渉画像セットは、少なくとも1つの第1干渉画像を含み、第1干渉画像は第2画像と対応関係を有し、第1干渉画像は干渉画像に属する、ステップと、
少なくとも1つの第2画像に従って第2干渉画像セットを生成するステップであって、ここで、第2干渉画像セットは、少なくとも1つの第2干渉画像を含み、第2干渉画像は第2画像と対応関係を有し、第2干渉画像は干渉画像に属する、ステップと、
少なくとも1つの第2画像及び第1干渉画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第2予測確率を取得する、ステップと、
少なくとも1つの第2画像及び第2干渉画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第3予測確率を取得する、ステップと、を含み得る。
本実施例において、半教師あり学習ベースのデータ処理方式を紹介し、まず、画像認識モデルのトレーニング装置は、少なくとも1つの第2画像を取得し、ここでの第2画像はラベルなし画像である。その後、各第2画像に対して2回のランダムスクランブル処理を実行し、最初のスクランブルの後、第1干渉画像セットを取得し、第1干渉画像セットは、少なくとも1つの第1干渉画像を含み、即ち、各第1干渉画像は1つの第2画像に対応する。同様に、二回目のスクランブルの後、第2干渉画像セットを取得し、第2干渉画像セットは少なくとも1つの第2干渉画像を含み、即ち、各第2干渉画像は1つの第2画像に対応し、且つ、第2干渉画像の数は、通常、第1干渉画像の数と同じである。少なくとも1つの第2画像及び第1干渉画像セットをトレーニング対象となる画像認識モデルに入力して、第2予測確率を取得する。例えば、1000個の第2画像及び1000個の第1干渉画像をトレーニング対象となる画像認識モデルに入力してもよいし、100個の第2画像及び100個の第1干渉画像をトレーニング対象となる画像認識モデルに入力してもよく、ここでは、第2画像の数に対して限定しない。同様に、少なくとも1つの第2画像及び第2干渉画像セットをトレーニング対象となる画像認識モデルに入力して、第3予測確率を取得する。第2予測確率は第3予測確率と同じであってもよいし、異なってもよい。
実際の適用では、トレーニング対象となる画像認識モデルによって出力された結果は、1つの予測値であり得、当該予測値に対して正規化処理を実行した後、予測確率を取得することができることを理解されたい。
ランダムスクランブルのプロセスでは、第2画像に対してデータ増強処理を実行する必要があり、第2画像に対して反転、回転及び平行移動処理を実行することができるだけでなく、第2画像の方向、位置、比率及び輝度などをさらに変更することもできることに留意されたい。トレーニング対象となる画像認識モデルにランダムドロップアウト(dropout)などのランダム要因を追加することができ、dropoutは、深層構造を有する人工ニューラルネットワークを最適化する方法であり、学習プロセスでは、隠れ層の重みの一部又は出力の一部をランダムにゼロにすることにより、ノード間の相互依存性を低減し、ニューラルネットワークの正則化を実現する。干渉画像がランダムノイズである場合、ランダムスクランブルのプロセスを、Piモデル(Pi-Model)と称することができる。干渉画像が敵対的干渉(adversarial perturbation)である場合、ランダムスクランブルのプロセスを、仮想敵対的トレーニング(VAT:Virtual Adversarial Training)と称することができる。
次に、本願実施例において、半教師あり学習ベースのデータ処理方式を提供し、即ち、第2画像に対して2回のランダムスクランブルの処理を実行して、第1干渉画像及び第2干渉画像を取得する必要があり、その後、第2画像を、第1干渉画像及び第2干渉画像とそれぞれ組み合わせて、モデルによって入力された2つのトレーニングサンプルを構成して、2つの予測確率を取得する。上記の方式を介して、ラベルなし画像に対してランダムスクランブル処理を実行することにより、干渉のレベルが異なる画像を取得してモデルのトレーニングサンプルとして使用し、ランダムスクランブルのプロセスは、人工的な介入は必要せず、モデルのトレーニング効率を向上させる同時に、ランダム化の処理は、サンプルの一般化能力を向上させて、モデルのトレーニング効果を向上させることができる。半教師あり学習は、データ及びリソースの浪費を回避すると同時に、完全教師あり学習のモデルの弱い一般化能力と、教師なし学習のモデルの不正確である問題を解决する。
例示的に、上記の図3に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の四番目の代替実施例において、第3画像セットに基づいて、トレーニング対象となる画像認識モデルを介して第4予測確率を取得する、ステップは、
少なくとも1つの第3画像に基づいて、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第4予測値を取得する、ステップと、
第4予測値に対して正規化処理を実行して、第4予測確率を取得する、ステップと、を含み得る。
本実施例において、第4予測確率を生成する方法を紹介し、説明の便宜上、以下は、第3画像セット内の1つの第3画像を例として説明する。第3画像セット内の他の第3画像も類似する方式を採用して処理し、ここでは繰り返して説明しないことを理解されたい。
具体的には、第3画像をxに表し、第3画像のラベル付き情報をyに表し、ラベル付き情報は、分類タスクでの分類ラベルを表すと仮定すると、例えば、分類タスクが病変の位置づけタスクであると、分類ラベルは異なる部位であり得、例えば、ラベル1は、食道部位を表し、ラベル2は、胃を表し、ラベル3は、十二指腸部位を表し、ラベル4は、結腸直腸部位を表し、ラベル5は、タイプなしを表す。さらに例えば、分類タスクは、腫瘍の性質を区別するタスクであると、分類ラベルは、異なる腫瘍の悪化程度であり得、例えば、ラベル1は、良性腫瘍を表し、ラベル2は、悪性腫瘍を表し、ラベル3は、腫瘍なしを表す。さらに例えば、分類タスクが、画像の適格状況を区別するタスクであると、分類ラベルは、異なる画像の適格状況であり得、例えば、ラベル1は、画像の適格を表し、ラベル2は、画像不適格を表す。第3画像のラベル付き情報は第2タスクに属し、第1画像のラベル付き情報は第1タスクに属し、2つのタスクは異なることに留意されたい。
第2タスクに属する第3画像xは全結合層を通した後、第2予測値を出力し、第2予測値をzに表し、第2予測値zは、softmaxを通した後、正規化処理を実現して、第3画像の第4予測確率pを取得する。以下の方式を採用して第4予測確率を計算して取得する。

Figure 0007355924000002
ここで、pは第4予測確率を表し、p[i]は、第4予測確率内の第i個のユニットを表し、Cは、タイプの総数を表し、kは、第k個のタイプを表し、iの値は、0より大きいか等しく、且つC-1より小さいか等しい整数である。
トレーニング対象となる画像認識モデルの最後の一層は、全結合層+Softmax層であり得、全結合層は、重み行列を入力ベクトルと乗算してからバイアスを加算し、N個の実数をK個の分数にマッピングし、Softmax層は、K個の実数をK個の(0,1)範囲内の確率にマッピングし、同時にK個の実数の合計が1になるように保証する。
次に、本願実施例において、第4予測確率を生成する方法を提供し、即ち、まず、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第3画像の第2予測値を取得し、その後、第3画像の第2予測値に対して正規化処理を実行して、第3画像の第4予測確率を取得する。上記の方式を介して、予測値に対して正規化処理を実行した後、サンプルの予測カテゴリをより直感的に反映することができ、それにより、トレーニングサンプル分類の正確度を向上させ、モデルトレーニングの効率及び正確度を向上させることに役立つ。
例示的に、上記の図3に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の五番目の代替実施例において、第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定する、ステップは、
第1予測確率及び第1画像セットに対応するラベル付き情報に従って、第1損失関数を計算する、ステップと、
第2予測確率及び第3予測確率に従って、第2損失関数を計算する、ステップと、
第4予測確率及び第3画像セットに対応するラベル付き情報に従って、第3損失関数を計算する、ステップと、
エントロピ損失関数及び正則化損失関数を取得する、ステップと、
第1損失関数、第2損失関数、第3損失関数、エントロピ損失関数及び正則化損失関数に従って、ターゲット損失関数を計算する、ステップと、を含み得る。
本実施例において、ターゲット損失関数の具体的なコンテンツを紹介し、画像認識モデルのトレーニング装置は、第1予測確率及び第1画像セットに対応するラベル付き情報に従って、第1損失関数LCEを計算する。画像認識モデルのトレーニング装置は、少なくとも1つの第2予測確率及び少なくとも1つの第3予測確率に従って、第2損失関数LConを計算する。画像認識モデルのトレーニング装置は、第3予測確率及び第3画像セットに対応するラベル付き情報に従って、第3損失関数LMTLを計算する。さらに、ターゲット損失関数は、さらに、エントロピ損失関数LEnt及び正則化損失関数LRegを含む。
以下は、エントロピ損失関数LEnt及び正則化損失関数LRegを紹介する。
エントロピ損失関数を最小化すると、いくつかのカテゴリがすべて可能であると見なすことではなく、モデルを特定のタスクでの具体的なカテゴリをより確実に予測させ、エントロピは、各分類の情報量の期待を表す。
エントロピ損失関数の計算方式は以下の通りである。

Figure 0007355924000003
ここで、LEntは、エントロピ損失関数を表し、Cは、タイプの総数を表し、kは、第k個のタイプを表し、pは、予測確率を表す。
モデルのオーバーフィットを防ぎ、モデルの一般化能力を向上させるために、ターゲット損失関数に1つの正則化損失関数を追加することができ、正則化損失関数は、L1正則化損失関数及びL2正則化損失関数を含むがこれに限定されないことを理解されたい。正則化損失関数は、ターゲット損失関数のペナルティ項として使用することができる。
上記の紹介に基づいて、本願におけるターゲット損失関数は、以下の通りに表すことができる。

Figure 0007355924000004
ここで、Ltotalは、ターゲット損失関数を表し、LCEは、第1損失関数を表し、LConは、第2損失関数を表し、LMTLは、第3損失関数を表し、LEntは、エントロピ損失関数を表し、LRegは、正則化損失関数を表し、wは、第1重みを表し、wは、第2重みを表し、wは、第3重みを表し、wは、第4重みを表し、wは、第5重みを表す。重ね合わせるとき、各項は異なる重み(即ち、重みは一定値又は動的に変化するものであり得る)を有することができ、通常の場合、異なるタスク及び異なるデータセットに応じて、各重みを調整する必要がある。
次に、本願実施例において、ターゲット損失関数の具体的なコンテンツを提供し、即ち、ターゲット損失関数は第1損失関数、第2損失関数、第3損失関数、エントロピ損失関数及び正則化損失関数を含む。上記の方式を介して、異なるタイプの損失関数を利用して、異なる次元でモデルをトレーニングして、モデルトレーニングの正確度を向上させる。
例示的に、上記の図3に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の六番目の代替実施例において、第1予測確率及び第1画像セットに対応するラベル付き情報に従って、第1損失関数を計算する、ステップは、以下のステップを含み得る。
以下の方式を採用して第1損失関数を計算する。

Figure 0007355924000005
ここで、LCEは、第1損失関数を表し、pは、第1予測確率を表し、yは、第1画像セットに対応するラベル付き情報を表す。
本実施例において、第1損失関数の計算方式を紹介し、画像認識モデルのトレーニング装置は、予測して得られた第1予測確率、及び第1画像セットに対応する実のラベル付き情報に従って、第1損失関数を計算することができ、当該第1損失関数はクロスエントロピ損失関数であり得、実際の適用では、他のタイプの損失関数であってもよく、ここではクロスエントロピ損失関数を例として説明することを理解されたい。
以下の方式を採用して第1損失関数を計算する。

Figure 0007355924000006
は、第1予測確率を表し、第1予測確率が腫瘍の悪化程度のラベル付けタスクに対して生成された確率であると仮定すると、ラベル1は、良性腫瘍を表し、ラベル2は、悪性腫瘍を表し、ラベル3は、腫瘍なしを表す。第1画像の第1予測確率が(0.1,0.2,0.7)であると仮定すると、第1画像の予測ラベルがラベル3であり、即ち、腫瘍なしのラベルであることを取得する。第1画像に対してはラベル付け処理を実行しており、それにより、ラベル付き情報y、即ち、実のラベルを取得することができる。実のラベルがラベル3であると仮定すると、当該ラベル3に対応する確率は(0,0,1)である。クロスエントロピ損失関数を利用して2つの確率分布間の距離を説明し、クロスエントロピが小さいほど、両方間はより近接することを説明する。モデルトレーニングの目的は、予測確率が実の確率の分布により近接することを期待することである。
次に、本願実施例において、第1損失関数の計算方式を提供し、上記の方式を介して、第1損失関数の生成のために具体的な実現根拠を提供し、それにより、モデルトレーニングの実行可能性及び動作可能性を向上させる。
例示的に、上記の図3に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の七番目の代替実施例において、第2予測確率及び第3予測確率に従って、第2損失関数を計算する、ステップは、

Figure 0007355924000007
の方式を採用して、第2損失関数を計算する、ステップ、
又は、

Figure 0007355924000008
の方式を採用して、第2損失関数を計算する、ステップを含み得、
ここで、LConは、第2損失関数を表し、Cは、タイプの総数を表し、kは、第k個のタイプを表し、pは、第2予測確率を表し、pは、第3予測確率を表す。
本実施例において、第2損失関数の計算方式を紹介し、画像認識モデルのトレーニング装置は、予測して得られた第2予測確率及び第3予測確率に従って、第2損失関数を計算することができる。当該第2損失関数は、平均二乗誤差(MSE:mean-square error)損失関数であってもよいし、KL発散(Kullback-Leibler Divergence)損失関数であってもよい。実際の適用では、他のタイプの損失関数であってもよく、ここでは、MSE損失関数及びKL発散損失関数を例として説明することを理解されたい。
第2損失関数がMSE損失関数である場合、以下の方式を採用して第2損失関数を計算する。

Figure 0007355924000009
第2損失関数がKL発散損失関数である場合、以下の方式を採用して第2損失関数を計算する。

Figure 0007355924000010
第2予測確率pの計算方式は以下の通りである。

Figure 0007355924000011
ここで、pは、第2予測確率を表し、p[i]は、第2予測確率内の第i個のユニットを表し、Cは、タイプの総数を表し、kは、第k個のタイプを表し、iの値は、0より大きいか等しく、且つC-1より小さいか等しい整数である。
第3予測確率pの計算方式は以下の通りである。

Figure 0007355924000012
ここで、pは、第3予測確率を表し、p[i]は、第3予測確率内の第i個のユニットを表し、Cは、タイプの総数を表し、kは、第k個のタイプを表し、iの値は、0より大きいか等しく、且つC-1より小さいか等しい整数である。
第2予測確率及び第3予測確率は、同じトレーニングで出力されることができるため、第2予測確率はpで表すこともでき、pは、第3予測確率を表し、同様に、第3予測確率pは、予測値zが正規化処理された後に得られたものであることを理解されたい。第2予測確率及び第3予測確率は、異なるトレーニングで出力されたものである。第2損失関数は、具体的には、一貫性損失関数(Consistency Loss)であり得、第2損失関数が小さいほど、2回の予測の結果はより近接し、即ち、モデルのトレーニング効果もよりよく、当該第2損失関数を最小化することにより、2回の予測値を一致させる。
さらに、本願実施例において、第2損失関数の計算方式を提供し、上記の方式を介して、第2損失関数の生成に具体的な実現根拠を提供し、それにより、モデルトレーニングの実行可能性及び動作可能性を向上させる。なお、ニーズに応じて適した第2損失関数を選択して計算して、技術案の柔軟性を向上させることもできる。
例示的に、上記の図3に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の八番目の代替実施例において、第4予測確率及び、第3画像セットに対応するラベル付き情報に従って、第3損失関数を計算する、ステップは、以下のステップを含む。

Figure 0007355924000013
の方式を採用して、第3損失関数を計算する。
ここで、LMTLは、第3損失関数を表し、pは、第4予測確率を表し、yは、第3画像セットに対応するラベル付き情報を表す。
本実施例において、第3損失関数の計算方式を紹介し、画像認識モデルのトレーニング装置は、予測して得られた第3予測確率、及び第3画像セットに対応する実のラベル付き情報に従って、第3損失関数を計算することができ、当該第3損失関数はクロスエントロピ損失関数であり得、実際の適用では、他のタイプの損失関数であってもよく、ここではクロスエントロピ損失関数を例として説明することを理解されたい。

Figure 0007355924000014
の方式を採用して、第3損失関数を計算する。
は、第4予測確率を表し、第4予測確率が、画像の適格状況のラベル付けタスクに対して生成された確率であると仮定すると、ラベル1は、画像の適格を表し、ラベル2は、画像の不適格を表す。第3画像の第4予測確率が(0.2,0.8)であると仮定すると、第3画像の予測ラベルがラベル2であることを取得し、即ち、画像不適格のラベルを取得する。第3画像に対してはラベル付け処理を実行しており、それにより、ラベル付き情報y、即ち、実のラベルを取得することができる。実のラベルがラベル1であると仮定すると、当該ラベル1に対応する確率は(1,0)である。クロスエントロピ損失関数を利用して2つの確率分布間の距離を説明し、クロスエントロピが小さいほど、両方間はより近接することを説明する。モデルトレーニングの目的は、予測確率が実の確率の分布により近接することを期待することである。
次に、本願実施例において、第3損失関数の計算方式を提供し、上記の方式を介して、第3損失関数の生成に具体的な実現根拠を提供し、それにより、モデルトレーニングの実行可能性及び動作可能性を向上させる。
上記の紹介を参照して、本願はさらに、画像認識方法を提供し、図6を参照すると、本願実施例における画像認識方法の一実施例は、以下のステップを含む。
ステップ201において、認識対象となる画像を取得する。
本実施例において、画像認識装置は、認識対象となる画像を取得し、当該認識対象となる画像は内視鏡画像であってもよいし、他のタイプの医用画像であってもよく、ここでは限定しない。ここで、画像認識装置は、サーバに配置されてもよいし、端末機器に配置されてもよく、ここでは、端末機器に配置することを例として説明するが、本願の制限として理解されるべきではない。
ステップ202において、画像認識モデルを介して、認識対象となる画像に対応する画像認識結果を取得し、ここで、画像認識モデルは、上記の実施例で説明された画像認識モデルである。
本実施例において、画像認識装置は、認識対象となる画像を上記の実施例で説明された画像認識モデルに入力して、当該画像認識モデルによって、対応する画像認識結果を出力する。
ステップ203において、画像認識結果を展示する。
本実施例において、画像認識装置は、当該画像認識結果を展示することができる。理解を容易にするために、図7を参照すると、図7は、本願実施例における画像認識結果を展示するインターフェースの概略図であり、図面に示されたように、入力された一枚の医用画像を例として、医師は、ニーズに応じて、対応するタスクを選択することができる。タスクA、即ち、病変部位を位置づけるタスクを選択すると仮定すると、医師によって選択されたタスクAに基づいて対応する結果を出力し、例えば、位置づけられた病変部位が「胃」である。タスクB、即ち、腫瘍の性質を検出するタスクを選択すると仮定すると、医師によって選択されたタスクBに基づいて対応する結果を出力し、例えば、腫瘍の性質が「良性」であると検出する。タスクC、即ち、画像の適格要求のタスクを選択すると仮定すると、医師によって選択されたタスクCに基づいて対応する結果を出力し、例えば、画像の適格状況が「適格」である。
本願実施例において、画像認識方法を提供し、即ち、まず、認識対象となる画像を取得し、その後、それをトレーニングされた画像認識モデルに入力して、画像認識モデルによって画像認識結果を出力し、最後に、当該画像認識結果を展示する。上記の方式を介して、本願による画像認識モデルを使用して自動診断を実行するとき、ニーズに応じて、対応するタスクでの認識結果を展示し、医師の診断を補助して、特に、関連する臨床的経験が足りない医師にとって、医師をより効果的に助けて、検査中の誤診や見逃し診断を減らせる。
以下は、本願における画像認識モデルのトレーニング装置を詳細に説明し、図8を参照すると、図8は、本願実施例における画像認識モデルのトレーニング装置の実施例の概略図であり、画像認識モデルのトレーニング装置30は、取得モジュール301と、決定モジュール302と、トレーニングモジュール303と、を備え、
前記取得モジュール301は、トレーニング対象となる画像セットを取得するように構成され、ここで、前記トレーニング対象となる画像セットは、少なくとも、第1画像セット、第2画像セット及び第3画像セットを含み、前記第1画像セットは、少なくとも1つの第1画像を含み、前記第2画像セットは、少なくとも1つの第2画像及び少なくとも1つの干渉画像を含み、前記第3画像セットは、少なくとも1つの第3画像を含み、前記第1画像は、第1タスクに対応するラベル付き画像であり、前記第2画像は、第1タスクに対応するラベルなし画像であり、前記第3画像は、第2タスクに対応するラベル付き画像であり、前記第1タスク及び前記第2タスクは異なるタスクに属し、
前記取得モジュール301はさらに、前記トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得するように構成され、ここで、前記第1予測確率は、前記第1画像セットに基づいて出力される予測結果であり、前記第2予測確率及び前記第3予測確率は、前記第2画像セットに基づいて出力される予測結果であり、前記第4予測確率は、前記第3画像セットに基づいて出力される予測結果であり、
前記決定モジュール302は、前記取得モジュール301によって取得された前記第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定するように構成され、ここで、前記ターゲット損失関数は、少なくとも、第1損失関数、第2損失関数及び第3損失関数を含み、前記第1損失関数は、前記第1予測確率によって決定されるものであり、前記第2損失関数は、前記第2予測確率及び前記第3予測確率によって決定されるものであり、前記第3損失関数は、前記第4予測確率によって決定されるものであり、
前記トレーニングモジュール303は、前記決定モジュール302によって決定される前記ターゲット損失関数に従って、前記トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得するように構成される、
本願実施例は、画像認識モデルのトレーニング装置を提供し、まず、トレーニング対象となる画像セットを取得し、その後、トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得し、さらに、第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定し、最後に、ターゲット損失関数に基づいて、トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得する。上記の方式を介して、ラベル付けされ且つ異なるタスクの医用画像及びラベルなし医用画像に対して、モデルを共にトレーニングし、ラベル付き画像及びラベルなし画像を効果的に利用して、画像に対するラベル付けの要求を低下するだけでなく、トレーニングのデータ量を増やし、それにより、ラベル付きリソースを節約し、同時にモデルの予測効果を向上させることができる。
例示的に、上記の図8に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置30の別の実施例において、前記取得モジュール301は、具体的に、
前記第1画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第1予測確率を取得し、
前記第2画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第2予測確率及び前記第3予測確率を取得し、
前記第3画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第4予測確率を取得するように構成される。
さらに、本願実施例において、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得する方法を提供し、半教師あり学習を利用して、第2画像セットに基づいて第2予測確率及び第3予測確率を取得し、マルチタスク学習を利用して、第3画像セットに基づいて第4予測確率を取得する。上記の方式を介して、ラベルなしデータを効果的に利用してトレーニングして、モデル効果を向上させ、より良い効果を取得し、同時にラベル付きデータに対する要求を低下して、製品開発のコストを減らし、製品開発の周期を加速する。同時に、1つの画像認識モデルを使用して複数の関連タスクをトレーニングすることもでき、画像認識モデルのパラメータの一部は各タスクによって共有され、パラメータの別の一部は各タスクによって固有される。共有パラメータは、すべてのタスクのすべてのデータセットを利用し、トレーニングのデータ量を増やしただけでなく、各トレーニングセット固有のノイズをキャンセルし、それにより、モデル一般化能力を向上させ、モデルオーバーフィットを低減する。独立する出力層は、共有部分から当該タスクに最も関連する特徴を選択し、各タスク固有の分類制限を学習して、モデルに、十分な柔軟度を有し、画像認識タスクからより高い正確度を取得させることができる。
例示的に、上記の図8に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置30の別の実施例において、
前記取得モジュール301は、具体的に、前記少なくとも1つの第1画像に基づいて、前記トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第1予測値を取得し、
前記第1予測値に対して正規化処理を実行して、前記第1予測確率を取得するように構成される。
次に、本願実施例において、第1予測確率を生成する方法を提供し、まず、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第1画像の第1予測値を取得し、その後、第1画像の第1予測値に対して正規化処理を実行して、第1画像の第1予測確率を取得する。上記の方式を介して、予測値に対して正規化処理を実行した後、サンプルの予測カテゴリを直感的に反映し、それにより、トレーニングサンプル分類の正確度を向上させ、モデルトレーニングの効率及び正確度を向上させることに役立つ。
例示的に、上記の図8に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置30の別の実施例において、前記取得モジュール301は、具体的に、
前記少なくとも1つの第2画像に従って第1干渉画像セットを生成し、ここで、前記第1干渉画像セットは、少なくとも1つの第1干渉画像を含み、前記第1干渉画像は前記第2画像と対応関係を有し、前記第1干渉画像は前記干渉画像に属し、
前記少なくとも1つの第2画像に従って第2干渉画像セットを生成し、ここで、前記第2干渉画像セットは、少なくとも1つの第2干渉画像を含み、前記第2干渉画像は前記第2画像と対応関係を有し、前記第2干渉画像は前記干渉画像に属し、
前記少なくとも1つの第2画像及び前記第1干渉画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第2予測確率を取得し、
前記少なくとも1つの第2画像及び前記第2干渉画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第3予測確率を取得するように構成される。
さらに、本願実施例において、半教師あり学習ベースのデータ処理方式を提供し、即ち、第2画像に対して2回のランダムスクランブルの処理を実行して、第1干渉画像及び第2干渉画像を取得する必要があり、その後、第2画像を、第1干渉画像及び第2干渉画像とそれぞれ組み合わせて、モデルによって入力された2つのトレーニングサンプルを構成して、2つの予測確率を取得する。上記の方式を介して、ラベルなし画像に対してランダムスクランブル処理を効果的に実行して、干渉のレベルが異なる画像を取得してモデルのトレーニングサンプルとして使用し、ランダムスクランブルのプロセスは、人工的な介入は必要せず、モデルのトレーニング効率を向上させ、同時にランダム化の処理は、サンプルの一般化能力を向上させて、モデルのトレーニング効果を向上させることができる。半教師あり学習は、データ及びリソースの浪費を回避すると同時に、完全教師あり学習のモデルの弱い一般化能力と、教師なし学習のモデルの不正確である問題を解决する。
例示的に、上記の図8に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置30の別の実施例において、前記取得モジュール301は、具体的に、
前記少なくとも1つの第3画像に基づいて、前記トレーニング対象となる画像認識モデルに含まれる全結合層を介して、前記第4予測値を取得し、
前記第4予測値に対して正規化処理を実行して、前記第4予測確率を取得するように構成される。
次に、本願実施例において、第4予測確率を生成する方法を提供し、まず、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第3画像の第2予測値を取得し、その後、第3画像の第2予測値に対して正規化処理を実行して、第3画像の第4予測確率を取得する。上記の方式を介して、予測値に対して正規化処理を実行した後、サンプルの予測カテゴリをより直感的に反映することができ、それにより、トレーニングサンプル分類の正確度を向上させ、モデルトレーニングの効率及び正確度を向上させることに役立つ。
例示的に、上記の図8に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置30の別の実施例において、前記決定モジュール302は、具体的に、
前記第1予測確率及び前記第1画像セットに対応するラベル付き情報に従って、前記第1損失関数を計算し、
前記第2予測確率及び前記第3予測確率に従って、前記第2損失関数を計算し、
前記第4予測確率及び前記第3画像セットに対応するラベル付き情報に従って、前記第3損失関数を計算し、
エントロピ損失関数及び正則化損失関数を取得し、
前記第1損失関数、前記第2損失関数、前記第3損失関数、前記エントロピ損失関数及び前記正則化損失関数に従って、前記ターゲット損失関数を計算するように構成される。
さらに、本願実施例において、ターゲット損失関数の具体的なコンテンツを提供し、即ち、ターゲット損失関数は第1損失関数、第2損失関数、第3損失関数、エントロピ損失関数及び正則化損失関数を含む。上記の方式を介して、異なるタイプの損失関数を利用して、異なる次元でモデルをトレーニングして、モデルトレーニングの正確度を向上させる。
例示的に、上記の図8に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置30の別の実施例において、前記決定モジュール302は、具体的に、以下の方式を採用して前記第1損失関数を計算するように構成される。

Figure 0007355924000015
ここで、前記LCEは、前記第1損失関数を表し、前記pは、第1予測確率を表し、前記yは、前記第1画像セットに対応するラベル付き情報を表す。
次に、本願実施例において、第1損失関数の計算方式を提供し、上記の方式を介して、第1損失関数の生成に具体的な実現根拠を提供し、それにより、モデルトレーニングの実行可能性及び動作可能性を向上させる。
例示的に、上記の図8に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置30の別の実施例において、前記決定モジュール302は、具体的に、

Figure 0007355924000016
の方式を採用して、前記第2損失関数を計算し、
又は、

Figure 0007355924000017
の方式を採用して前記第2損失関数を計算するように構成され、
ここで、前記LConは、前記第2損失関数を表し、前記Cは、タイプの総数を表し、前記kは、第k個のタイプを表し、前記pは、前記第2予測確率を表し、前記pは、前記第3予測確率を表す。
次に、本願実施例において、第2損失関数の計算方式を提供し、上記の方式を介して、第2損失関数の生成に具体的な実現根拠を提供し、それにより、モデルトレーニングの実行可能性及び動作可能性を向上させる。なお、ニーズに応じて適した第2損失関数を選択して計算して、技術案の柔軟性を向上させることもできる。
例示的に、上記の図8に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置30の別の実施例において、前記決定モジュール302は、具体的に、
以下の方式を採用して、前記第3損失関数を計算するように構成され、

Figure 0007355924000018
ここで、前記LMTLは、前記第3損失関数を表し、前記pは、前記第4予測確率を表し、前記yは、前記第3画像セットに対応するラベル付き情報を表す。
さらに、本願実施例において、第3損失関数の計算方式を提供し、上記の方式を介して、第3損失関数の生成に具体的な実現根拠を提供し、それにより、モデルトレーニングの実行可能性及び動作可能性を向上させる。
以下は、本願における画像認識装置を詳細に説明し、図9を参照すると、図9は、本願実施例における画像認識装置の実施例の概略図であり、画像認識装置40は、取得モジュール401と、展示モジュール402と、を備え、
前記取得モジュール401は、認識対象となる画像を取得するように構成され、
前記取得モジュール401は、さらに、画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得するように構成され、ここで、前記画像認識モデルは、上記の図3に対応する各実施例による画像認識モデルであり、
前記展示モジュール402は、前記取得モジュール401によって取得される前記画像認識結果を展示するように構成される。
本願実施例において、画像認識装置を提供し、即ち、まず、認識対象となる画像を取得し、その後、それをトレーニングされた画像認識モデルに入力して、画像認識モデルによって画像認識結果を出力し、最後に、当該画像認識結果を展示する。上記の方式を介して、本願による画像認識モデルを使用して自動診断を実行するとき、ニーズに応じて、対応するタスクでの認識結果を展示し、医師の診断を補助して、特に、関連する臨床的経験が足りない医師にとって、医師をより効果的に助けて、検査中の誤診や見逃し診断を減らせる。
本願による画像認識モデルのトレーニング装置及び画像認識装置は、電子機器に配置することができ、当該電子機器はサーバであってもよいし、端末機器であってもよい。
図10を参照すると、図10は、本願実施例によるサーバの例示的な構造図であり、当該サーバ500は、構成又は性能の異なりにより比較的に大きい差異があり得、1つ又は1つ以上の中央プロセッサ(CPU:central processing units)522(例えば、1つ又は1つ以上のプロセッサ)及びメモリ532、1つ又は1つ以上のアプリケーションプログラム542又はデータ544が記憶された記憶媒体530(例えば、1つ又は1つ以上の大容量記憶機器)を備えることができる。ここで、メモリ532及び記憶媒体530は、一時的な記憶又は持続的な記憶であり得る。記憶媒体530に記憶されたプログラムは、1つ又は1つ以上のモジュール(未図示)を含み得、各モジュールは、サーバでの一連の命令動作を含み得る。さらに、中央プロセッサ522は、記憶媒体530と通信し、サーバ500で記憶媒体530内の一連の命令動作を実行するように設定することができる。
サーバ500は、さらに、Windows ServerTM、Mac OS XTM、UnixTM、Linux(登録商標)、FreeBSDTMなどの、1つ又は1つ以上の電源526、1つ又は1つ以上の有線又は無線ネットワークインターフェース550、1つ又は1つ以上の入力出力インターフェース558、及び/又は、1つ又は1つ以上の動作システム541を含み得る。
上記の実施例における、サーバによって実行されたステップは、当該図10に示されたサーバ構造に基づくことができる。
本願実施例において、当該サーバに含まれるCPU522は、さらに、以下の機能を有する。
トレーニング対象となる画像セットを取得し、ここで、トレーニング対象となる画像セットは、少なくとも、第1画像セット、第2画像セット及び第3画像セットを含み、第1画像セットは、少なくとも1つの第1画像を含み、第2画像セットは、少なくとも1つの第2画像及び少なくとも1つの干渉画像を含み、第3画像セットは、少なくとも1つの第3画像を含み、第1画像は、第1タスクに対応するラベル付き画像であり、第2画像は、第1タスクに対応するラベルなし画像であり、第3画像は、第2タスクに対応するラベル付き画像であり、第1タスク及び第2タスクは異なるタスクに属し、
トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得し、ここで、第1予測確率は、第1画像セットに基づいて出力される予測結果であり、第2予測確率及び第3予測確率は、第2画像セットに基づいて出力される予測結果であり、第4予測確率は、第3画像セットに基づいて出力される予測結果であり、
第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定し、ここで、ターゲット損失関数は、少なくとも、第1損失関数、第2損失関数及び第3損失関数を含み、第1損失関数は、第1予測確率によって決定されるものであり、第2損失関数は、第2予測確率及び第3予測確率によって決定されるものであり、第3損失関数は、第4予測確率によって決定されるものであり、
ターゲット損失関数に基づいて、トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得する。
本願実施例において、当該サーバに含まれるCPU522は、さらに、以下の機能を有する。
認識対象となる画像を取得し、
画像認識モデルを介して認識対象となる画像に対応する画像認識結果を取得し、ここで、画像認識モデルは上記の図3に対応する各実施例における画像認識モデルであり、
画像認識結果を展示する。
本願実施例は、さらに、別の画像認識モデルのトレーニング装置及び画像認識装置を提供し、図11に示されたように、説明の便宜上、本願実施例に関連する部分のみを示し、具体的な技術的詳細は示しておらず、本願実施例の方法部分を参照されたい。当該端末機器は、携帯電話、タブレット、携帯情報端末(PDA:Personal Digital Assistant)、販売端末機器(POS:Point of Sales)、車載コンピュータなどを含む任意の端末機器であり得、端末機器が携帯電話であることを例として、
図11は、本願実施例による端末機器に関連する携帯電話の構造の一部のブロック図を示す。図11を参照すると、携帯電話は、無線周波数(RF:Radio Frequency)回路610、メモリ620、入力ユニット630、ディスプレイユニット640、センサ650、オーディオ回路660、ワイヤレス・フィディリティ(WiFi:wireless fidelity)モジュール670、プロセッサ680、及び電源690などの部品を備え、ここで、入力ユニット630は、タッチパネル631及び他の入力機器632を備えることができ、ディスプレイユニット640は、ディスプレイパネル641を備えることができ、オーディオ回路660には、スピーカ661及びマイクロフォン662が接続されている。当業者なら自明であるが、図11で示された携帯電話の構造は、携帯電話への限定を構成せず、図に示されるよりも多いまたは少ない部品を備えるか、またはいくつかの部品を組み合わせるか、または異なる部品で配置することができる。
ここで、メモリ620は、ソフトウェアプログラム及びモジュールを記憶するように構成でき、プロセッサ680は、メモリ620に記憶されたソフトウェアプログラム及びモジュールを実行することによって、携帯電話の様々な機能アプリケーション及びデータ処理を実行する。メモリ620は、主に、プログラム記憶エリア及びデータ記憶エリアを含み得、ここで、プログラム記憶エリアは、操作システム、少なくとも1つの機能に必要なアプリケーションプログラム(例えば、音声再生機能、画像再生機能など)などを記憶することができ、データ記憶エリアは、携帯電話の使用によって作成されたデータ(例えば、オーディオデータ、電話帳など)などを記憶することができる。
ここで、プロセッサ680は、携帯電話のコントロールセンタであり、様々なインターフェース及び回線を使用してすべての携帯電話の各部分を接続し、メモリ620内に記憶されたソフトウェアプログラム及び/又はモジュールを動作又は実行し、及びメモリ620内に記憶されたデータを呼び出すことにより、携帯電話の様々な機能の実行およびデータの処理を実行し、それにより、携帯電話に対して全体的な監視を実行する。
本願実施例において、当該端末機器に含まれるプロセッサ680は、さらに、以下の機能を有する。
トレーニング対象となる画像セットを取得し、ここで、トレーニング対象となる画像セットは、少なくとも、第1画像セット、第2画像セット及び第3画像セットを含み、第1画像セットは、少なくとも1つの第1画像を含み、第2画像セットは、少なくとも1つの第2画像及び少なくとも1つの干渉画像を含み、第3画像セットは、少なくとも1つの第3画像を含み、第1画像は、第1タスクに対応するラベル付き画像であり、第2画像は、第1タスクに対応するラベルなし画像であり、第3画像は、第2タスクに対応するラベル付き画像であり、第1タスク及び第2タスクは異なるタスクに属し、
トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得し、ここで、第1予測確率は、第1画像セットに基づいて出力される予測結果であり、第2予測確率及び第3予測確率は、第2画像セットに基づいて出力される予測結果であり、第4予測確率は、第3画像セットに基づいて出力される予測結果であり、
第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定し、ここで、ターゲット損失関数は、少なくとも、第1損失関数、第2損失関数及び第3損失関数を含み、第1損失関数は、第1予測確率によって決定されるものであり、第2損失関数は、第2予測確率及び第3予測確率によって決定されるものであり、第3損失関数は、第4予測確率によって決定されるものであり、
ターゲット損失関数に基づいて、トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得する。
本願実施例において、当該端末機器に含まれるプロセッサ680は、さらに、以下の機能を有する。
認識対象となる画像を取得し、
画像認識モデルを介して認識対象となる画像に対応する画像認識結果を取得し、ここで、画像認識モデルは上記の図3に対応する各実施例における画像認識モデルであり、
画像認識結果を展示する。
図12は、本願の実施形態の内視鏡医療診断システム70の構造図を示す。本実施形態の内視鏡医療診断システム80は、内視鏡ビジネスを補助するためのシステムである。内視鏡医療診断システム70は、プローブ701、プロセッサ702、ディスプレイ703、回路704及びインターフェース705を備える。内視鏡医療診断システム70は、端末機器80と協働して作業することができる。プローブ701は、具体的には、内視鏡プローブであり得、食道、胃腸、気管支などに挿入して、リアルタイムの撮影イメージングを実行することができる。内視鏡プローブを使用することにより、医師は、腫瘍の成長レベル、浸潤の深さを明確に特定することができる。なお、内視鏡プローブは、腸の近くの臓器のイメージングに適用されることができ、膵臓、胆管、胆嚢の病変の診断に役立つ。
プロセッサ702は、プローブ701によって撮影された内視鏡画像を認識して、認識結果を生成するように構成される。ディスプレイ703は、プロセッサ702によって入力された影像信号に従って病変の認識結果を表示し、当該病変の認識結果は、具体的は、影像結果であり、プローブ701によって撮影して得られた影像をリアルタイムで表示することができる。回路704は、内視鏡医療診断システム70の内部が正常に作業でき、端末機器80と通信接続を確立できるようにするために、内視鏡医療診断システム70内の各モジュールを接続し、電気信号を提供するように構成される。
内視鏡医療診断システム70は、収集された内視鏡画像を直接に認識したり処理することができ、インターフェース705を介して、端末機器80に収集された内視鏡画像を送信することもでき、端末機器80によって内視鏡画像を認識したり処理する。端末機器80は、内視鏡医療診断システム70から送信された病変の認識結果に基づいて、電子カルテ、処方箋を作成するか、直接に印刷することができる。
本願実施例において、当該内視鏡医療診断システムに含まれるプロセッサ702は、さらに、以下の機能を有する。
トレーニング対象となる画像セットを取得し、ここで、トレーニング対象となる画像セットは、少なくとも、第1画像セット、第2画像セット及び第3画像セットを含み、第1画像セットは、少なくとも1つの第1画像を含み、第2画像セットは、少なくとも1つの第2画像及び少なくとも1つの干渉画像を含み、第3画像セットは、少なくとも1つの第3画像を含み、第1画像は、第1タスクに対応するラベル付き画像であり、第2画像は、第1タスクに対応するラベルなし画像であり、第3画像は、第2タスクに対応するラベル付き画像であり、第1タスク及び第2タスクは異なるタスクに属し、
トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得し、ここで、第1予測確率は、第1画像セットに基づいて出力される予測結果であり、第2予測確率及び第3予測確率は、第2画像セットに基づいて出力される予測結果であり、第4予測確率は、第3画像セットに基づいて出力される予測結果であり、
第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定し、ここで、ターゲット損失関数は、少なくとも、第1損失関数、第2損失関数及び第3損失関数を含み、第1損失関数は、第1予測確率によって決定されるものであり、第2損失関数は、第2予測確率及び第3予測確率によって決定されるものであり、第3損失関数は、第4予測確率によって決定されるものであり、
ターゲット損失関数に基づいて、トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得する。
例示的に、当該内視鏡医療診断システムに含まれるプロセッサ702は、具体的には、
第1画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率を取得し、
第2画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第2予測確率及び第3予測確率を取得し、
第3画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第4予測確率を取得する、ステップを実行するように構成される。
例示的に、当該内視鏡医療診断システムに含まれるプロセッサ702は、具体的には、
少なくとも1つの第1画像に基づいて、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第1予測値を取得し、
第1予測値に対して正規化処理を実行して、第1予測確率を取得する、ステップを実行するように構成される。
例示的に、当該内視鏡医療診断システムに含まれるプロセッサ702は、具体的には、
少なくとも1つの第2画像に従って第1干渉画像セットを生成し、ここで、第1干渉画像セットは、少なくとも1つの第1干渉画像を含み、第1干渉画像は第2画像と対応関係を有し、第1干渉画像は干渉画像に属し、
少なくとも1つの第2画像に従って第2干渉画像セットを生成し、ここで、第2干渉画像セットは、少なくとも1つの第2干渉画像を含み、第2干渉画像は第2画像と対応関係を有し、第2干渉画像は干渉画像に属し、
少なくとも1つの第2画像及び第1干渉画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第2予測確率を取得し、
少なくとも1つの第2画像及び第2干渉画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第3予測確率を取得する、ステップを実行するように構成される。
例示的に、当該内視鏡医療診断システムに含まれるプロセッサ702は、具体的には、
少なくとも1つの第3画像に基づいて、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第4予測値を取得し、
第4予測値に対して正規化処理を実行して、第4予測確率を取得する、ステップを実行するように構成される。
例示的に、当該内視鏡医療診断システムに含まれるプロセッサ702は、具体的には、
第1予測確率及び第1画像セットに対応するラベル付き情報に従って、第1損失関数を計算し、
第2予測確率及び第3予測確率に従って、第2損失関数を計算し、
第4予測確率及び第3画像セットに対応するラベル付き情報に従って、第3損失関数を計算し、
エントロピ損失関数及び正則化損失関数を取得し、
第1損失関数、第2損失関数、第3損失関数、エントロピ損失関数及び正則化損失関数に従って、ターゲット損失関数を計算する、ステップを実行するように構成される。
本願実施例において、当該内視鏡医療診断システムに含まれるプロセッサ702は、さらに、以下の機能を有する。
認識対象となる画像を取得し、
画像認識モデルを介して認識対象となる画像に対応する画像認識結果を取得し、ここで、画像認識モデルは上記の図3に対応する各実施例における画像認識モデルであり、
画像認識結果を展示する。
当業者なら自明であるが、説明の便宜上および簡潔さのために、上記に説明されるシステム、装置およびユニットの具体的な作業プロセスは、上記の方法の実施例における対応するプロセスを参照することができ、ここでは繰り返して説明しない。
30 画像認識モデルのトレーニング装置
40 画像認識装置
70 内視鏡医療診断システム
80 端末機器
301 取得モジュール
302 決定モジュール
303 トレーニングモジュール
401 取得モジュール
402 展示モジュール
500 サーバ
522 中央プロセッサ
526 電源
530 記憶媒体
532 メモリ
541 動作システム
542 アプリケーションプログラム
544 データ
550 有線又は無線ネットワークインターフェース
558 入力出力インターフェース
610 RF回路
620 メモリ
630 入力ユニット
631 タッチパネル
632 他の入力機器
640 ディスプレイユニット
641 ディスプレイパネル
650 センサ
660 オーディオ回路
661 スピーカ
662 マイクロフォン
670 WiFiモジュール
680 プロセッサ
690 電源
702 プロセッサ
703 ディスプレイ
704 回路
705 インターフェース

Claims (15)

  1. 電子機器が実行する、画像認識モデルのトレーニング方法であって、
    トレーニング対象となる画像セットを取得するステップであって、前記トレーニング対象となる画像セットは、少なくとも、第1画像セット、第2画像セット及び第3画像セットを含み、前記第1画像セットは、少なくとも1つの第1画像を含み、前記第2画像セットは、少なくとも1つの第2画像及び少なくとも1つの干渉画像を含み、前記第3画像セットは、少なくとも1つの第3画像を含み、前記第1画像は、第1タスクに対応するラベル付き画像であり、前記第2画像は、前記第1タスクに対応するラベルなし画像であり、前記第3画像は、第2タスクに対応するラベル付き画像であり、前記第1タスク及び前記第2タスクは異なるタスクに属する、ステップと、
    前記トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得するステップであって、前記第1予測確率は、前記第1画像セットに基づいて出力される予測結果であり、前記第2予測確率及び前記第3予測確率は、前記第2画像セットに基づいて出力される予測結果であり、前記第4予測確率は、前記第3画像セットに基づいて出力される予測結果である、ステップと、
    前記第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定するステップであって、前記ターゲット損失関数は、少なくとも、第1損失関数、第2損失関数及び第3損失関数を含み、前記第1損失関数は、前記第1予測確率によって決定されるものであり、前記第2損失関数は、前記第2予測確率及び前記第3予測確率によって決定されるものであり、前記第3損失関数は、前記第4予測確率によって決定されるものである、ステップと、
    前記ターゲット損失関数に基づいて、前記トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得するステップと、
    を含む、画像認識モデルのトレーニング方法。
  2. 前記トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得する、前記ステップは、
    前記第1画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第1予測確率を取得する、ステップと、
    前記第2画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第2予測確率及び前記第3予測確率を取得する、ステップと、
    前記第3画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第4予測確率を取得する、ステップと、
    を含む、請求項1に記載の画像認識モデルのトレーニング方法。
  3. 前記第1画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第1予測確率を取得する、前記ステップは、
    前記少なくとも1つの第1画像に基づいて、前記トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第1予測値を取得する、ステップと、
    前記第1予測値に対して正規化処理を実行して、前記第1予測確率を取得する、ステップと、
    を含む、請求項2に記載の画像認識モデルのトレーニング方法。
  4. 前記少なくとも1つの第2画像に従って第1干渉画像セットを生成する方式であって、前記第1干渉画像セットは、少なくとも1つの第1干渉画像を含み、前記第1干渉画像は前記第2画像と対応関係を有し、前記第1干渉画像は前記干渉画像に属する方式と、
    前記少なくとも1つの第2画像に従って第2干渉画像セットを生成する方式であって、前記第2干渉画像セットは、少なくとも1つの第2干渉画像を含み、前記第2干渉画像は前記第2画像と対応関係を有し、前記第2干渉画像は前記干渉画像に属する方式と、を介して前記第2画像セットを生成し、
    前記第2画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第2予測確率及び前記第3予測確率を取得する、前記ステップは、
    前記少なくとも1つの第2画像及び前記第1干渉画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第2予測確率を取得する、ステップと、
    前記少なくとも1つの第2画像及び前記第2干渉画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第3予測確率を取得する、ステップと、
    を含む、請求項2に記載の画像認識モデルのトレーニング方法。
  5. 前記第3画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第4予測確率を取得する、前記ステップは、
    前記少なくとも1つの第3画像に基づいて、前記トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第4予測値を取得する、ステップと、
    前記第4予測値に対して正規化処理を実行して、前記第4予測確率を取得する、ステップと、
    を含む、請求項2に記載の画像認識モデルのトレーニング方法。
  6. 前記第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定する、前記ステップは、
    前記第1予測確率及び前記第1画像セットに対応するラベル付き情報に従って、前記第1損失関数を計算する、ステップと、
    前記第2予測確率及び前記第3予測確率に従って、前記第2損失関数を計算する、ステップと、
    前記第4予測確率及び前記第3画像セットに対応するラベル付き情報に従って、前記第3損失関数を計算する、ステップと、
    エントロピ損失関数及び正則化損失関数を取得する、ステップと、
    前記第1損失関数、前記第2損失関数、前記第3損失関数、前記エントロピ損失関数及び前記正則化損失関数に従って、前記ターゲット損失関数を計算する、ステップと、
    を含む、請求項1に記載の画像認識モデルのトレーニング方法。
  7. 前記第1予測確率及び前記第1画像セットに対応するラベル付き情報に従って、前記第1損失関数を計算する、前記ステップは、

    Figure 0007355924000019
    の方式を採用して、前記第1損失関数を計算する、ステップを含み、
    前記LCEは、前記第1損失関数を表し、前記pは、第1予測確率を表し、前記yは、前記第1画像セットに対応するラベル付き情報を表す、
    請求項6に記載の画像認識モデルのトレーニング方法。
  8. 前記第2予測確率及び前記第3予測確率に従って、前記第2損失関数を計算する、前記ステップは、

    Figure 0007355924000020
    の方式を採用して、前記第2損失関数を計算する、ステップ、
    又は、

    Figure 0007355924000021
    の方式を採用して前記第2損失関数を計算する、ステップを含み、
    前記LConは、前記第2損失関数を表し、前記Cは、タイプの総数を表し、前記kは、k番目のタイプを表し、前記pは、前記第2予測確率を表し、前記pは、前記第3予測確率を表す、
    請求項6に記載の画像認識モデルのトレーニング方法。
  9. 前記第4予測確率及び前記第3画像セットに対応するラベル付き情報に従って、前記第3損失関数を計算する、前記ステップは、

    Figure 0007355924000022
    の方式を採用して、前記第3損失関数を計算する、ステップを含み、
    前記LMTLは、前記第3損失関数を表し、前記pは、前記第4予測確率を表し、前記yは、前記第3画像セットに対応するラベル付き情報を表す、
    請求項6に記載の画像認識モデルのトレーニング方法。
  10. 電子機器が実行する、画像認識方法であって、
    認識対象となる画像を取得する、ステップと、
    画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得する、ステップであって、前記画像認識モデルは、上記の請求項1ないし9のいずれか一項に記載の画像認識モデルである、ステップと、
    前記画像認識結果を展示する、ステップと、
    を含む、画像認識方法。
  11. 画像認識モデルのトレーニング装置であって、取得モジュールと、決定モジュールと、トレーニングモジュールと、を備え、
    前記取得モジュールは、トレーニング対象となる画像セットを取得するように構成され、前記トレーニング対象となる画像セットは、少なくとも、第1画像セット、第2画像セット及び第3画像セットを含み、前記第1画像セットは、少なくとも1つの第1画像を含み、前記第2画像セットは、少なくとも1つの第2画像及び少なくとも1つの干渉画像を含み、前記第3画像セットは、少なくとも1つの第3画像を含み、前記第1画像は、第1タスクに対応するラベル付き画像であり、前記第2画像は、前記第1タスクに対応するラベルなし画像であり、前記第3画像は、第2タスクに対応するラベル付き画像であり、前記第1タスク及び前記第2タスクは異なるタスクに属し、
    前記取得モジュールはさらに、前記トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第1予測確率、第2予測確率、第3予測確率及び第4予測確率を取得するように構成され、前記第1予測確率は、前記第1画像セットに基づいて出力される予測結果であり、前記第2予測確率及び前記第3予測確率は、前記第2画像セットに基づいて出力される予測結果であり、前記第4予測確率は、前記第3画像セットに基づいて出力される予測結果であり、
    前記決定モジュールは、前記第1予測確率、第2予測確率、第3予測確率及び第4予測確率に従って、ターゲット損失関数を決定するように構成され、前記ターゲット損失関数は、少なくとも、第1損失関数、第2損失関数及び第3損失関数を含み、前記第1損失関数は、前記第1予測確率によって決定されるものであり、前記第2損失関数は、前記第2予測確率及び前記第3予測確率によって決定されるものであり、前記第3損失関数は、前記第4予測確率によって決定されるものであり、
    前記トレーニングモジュールは、前記決定モジュールによって決定される前記ターゲット損失関数に従って、前記トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得するように構成される、画像認識モデルのトレーニング装置。
  12. 画像認識装置であって、取得モジュールと、展示モジュールと、を備え、
    前記取得モジュールは、認識対象となる画像を取得するように構成され、
    前記取得モジュールはさらに、画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得するように構成され、前記画像認識モデルは、上記の請求項1ないし9のいずれか一項に記載の画像認識モデルであり、
    前記展示モジュールは、前記取得モジュールによって取得される前記画像認識結果を展示するように構成される、画像認識装置。
  13. メモリ、トランシーバ、プロセッサ及びバスシステムを備える、電子機器であって、
    前記メモリは、プログラムを記憶するように構成され、
    前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、上記の請求項1ないし9のいずれか一項に記載の方法を実行し、又は、上記の請求項10に記載の方法を実行することを含み、
    前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサが通信できるように構成される、
    電子機器。
  14. プローブ、回路、プロセッサ及びディスプレイを備える、内視鏡医療診断システムであって、
    前記回路は、前記プローブを励起して、認識対象となる画像を取得させるように構成され、
    前記プロセッサは、画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得するように構成され、前記画像認識モデルは、上記の請求項1ないし9のいずれか一項に記載の画像認識モデルであり、
    前記ディスプレイは、前記画像認識結果を表示するように構成される、
    内視鏡医療診断システム。
  15. 命令を含み、コンピュータで実行されるとき、コンピュータに請求項1ないし9のいずれか一項に記載の方法、又は、請求項10に記載の方法を実行させる、コンピュータプログラム。
JP2022515569A 2019-10-17 2020-09-23 画像認識モデルのトレーニング方法、画像認識方法及び装置 Active JP7355924B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910989262.8 2019-10-17
CN201910989262.8A CN110738263B (zh) 2019-10-17 2019-10-17 一种图像识别模型训练的方法、图像识别的方法及装置
PCT/CN2020/116998 WO2021073380A1 (zh) 2019-10-17 2020-09-23 一种图像识别模型训练的方法、图像识别的方法及装置

Publications (2)

Publication Number Publication Date
JP2022547184A JP2022547184A (ja) 2022-11-10
JP7355924B2 true JP7355924B2 (ja) 2023-10-03

Family

ID=69270074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022515569A Active JP7355924B2 (ja) 2019-10-17 2020-09-23 画像認識モデルのトレーニング方法、画像認識方法及び装置

Country Status (5)

Country Link
US (2) US11960571B2 (ja)
EP (1) EP3982292B1 (ja)
JP (1) JP7355924B2 (ja)
CN (1) CN110738263B (ja)
WO (1) WO2021073380A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738263B (zh) 2019-10-17 2020-12-29 腾讯科技(深圳)有限公司 一种图像识别模型训练的方法、图像识别的方法及装置
KR20220148245A (ko) * 2020-03-04 2022-11-04 구글 엘엘씨 스트리밍 시퀀스 모델에 대한 일관성 예측
CN111401445B (zh) * 2020-03-16 2023-03-10 腾讯科技(深圳)有限公司 一种图像识别模型的训练方法、图像识别的方法及装置
CN113469205B (zh) * 2020-03-31 2023-01-17 阿里巴巴集团控股有限公司 数据处理方法及***、网络模型及其训练方法、电子设备
CN111523597B (zh) * 2020-04-23 2023-08-25 北京百度网讯科技有限公司 目标识别模型训练方法、装置、设备以及存储介质
CN111582342B (zh) * 2020-04-29 2022-08-26 腾讯科技(深圳)有限公司 一种图像识别方法、装置、设备以及可读存储介质
CN111598169B (zh) * 2020-05-18 2023-04-07 腾讯科技(深圳)有限公司 一种模型训练方法、游戏测试方法、模拟操作方法及装置
CN111738365B (zh) * 2020-08-06 2020-12-18 腾讯科技(深圳)有限公司 图像分类模型训练方法、装置、计算机设备及存储介质
CN111898696B (zh) * 2020-08-10 2023-10-27 腾讯云计算(长沙)有限责任公司 伪标签及标签预测模型的生成方法、装置、介质及设备
CN112199479A (zh) * 2020-09-15 2021-01-08 北京捷通华声科技股份有限公司 优化语言语义理解模型方法、装置、设备及存储介质
CN112562069B (zh) * 2020-12-24 2023-10-27 北京百度网讯科技有限公司 三维模型的构造方法、装置、设备和存储介质
CN112579808B (zh) * 2020-12-29 2023-07-18 上海赛图默飞医疗科技有限公司 数据标注处理方法及装置、***
CN113255427B (zh) * 2021-02-09 2022-05-27 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备和存储介质
CN113011490B (zh) * 2021-03-16 2024-03-08 北京百度网讯科技有限公司 模型训练方法、装置及电子设备
CN113255445A (zh) * 2021-04-20 2021-08-13 杭州飞步科技有限公司 多任务模型训练及图像处理方法、装置、设备及存储介质
CN113762585B (zh) * 2021-05-17 2023-08-01 腾讯科技(深圳)有限公司 数据的处理方法、账号类型的识别方法及装置
CN113642671B (zh) * 2021-08-27 2024-03-05 京东科技信息技术有限公司 基于任务分布变化的半监督元学习方法及装置
CN114332558A (zh) * 2021-12-15 2022-04-12 厦门市美亚柏科信息股份有限公司 多任务神经网络的训练方法、装置、计算设备及存储介质
CN114359904B (zh) * 2022-01-06 2023-04-07 北京百度网讯科技有限公司 图像识别方法、装置、电子设备以及存储介质
CN115471717B (zh) * 2022-09-20 2023-06-20 北京百度网讯科技有限公司 模型的半监督训练、分类方法装置、设备、介质及产品
CN116403074B (zh) * 2023-04-03 2024-05-14 上海锡鼎智能科技有限公司 基于主动标注的半自动图像标注方法及标注装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015066297A1 (en) * 2013-10-30 2015-05-07 Worcester Polytechnic Institute System and method for assessing wound
CN107122375B (zh) * 2016-12-12 2020-11-06 南京理工大学 基于图像特征的图像主体的识别方法
US10592779B2 (en) * 2017-12-21 2020-03-17 International Business Machines Corporation Generative adversarial network medical image generation for training of a classifier
CN108986067B (zh) * 2018-05-25 2020-08-14 上海交通大学 基于跨模态的肺结节检测方法
CN108830300A (zh) * 2018-05-28 2018-11-16 深圳市唯特视科技有限公司 一种基于混合监督检测的目标传输方法
US11487997B2 (en) * 2018-10-04 2022-11-01 Visa International Service Association Method, system, and computer program product for local approximation of a predictive model
CN110163234B (zh) * 2018-10-10 2023-04-18 腾讯科技(深圳)有限公司 一种模型训练方法、装置和存储介质
CN109447065B (zh) * 2018-10-16 2020-10-16 杭州依图医疗技术有限公司 一种乳腺影像识别的方法及装置
CN110276741B (zh) * 2019-03-08 2022-12-16 腾讯科技(深圳)有限公司 结节检测及其模型训练的方法和装置以及电子设备
CN109949309B (zh) * 2019-03-18 2022-02-11 安徽紫薇帝星数字科技有限公司 一种基于深度学习的肝脏ct图像分割方法
CN110473192B (zh) 2019-04-10 2021-05-14 腾讯医疗健康(深圳)有限公司 消化道内镜图像识别模型训练及识别方法、装置及***
CN110738263B (zh) * 2019-10-17 2020-12-29 腾讯科技(深圳)有限公司 一种图像识别模型训练的方法、图像识别的方法及装置
CN110909780B (zh) 2019-11-14 2020-11-03 腾讯科技(深圳)有限公司 一种图像识别模型训练和图像识别方法、装置及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Samuli Laine, Timo Aila,"TEMPORAL ENSEMBLING FOR SEMI-SUPERVISED LEARNING",arXiv,米国,2017年03月15日,https://arxiv.org/pdf/1610.02242.pdf
Shin, Seung Yeon、Lee, Soochahn、Yun, Il Dong、Kim, Sun Mi、Lee, Kyoung Mu,"Joint Weakly and Semi-Supervised Deep Learning for Localization and Classification of Masses in Breast Ultrasound Images",IEEE Transactions on Medical Imaging,2019年03月,Vol.38,No.3,pp.762-774,https://ieeexplore.ieee.org/document/8471199,DOI: 10.1109/TMI.2018.2872031

Also Published As

Publication number Publication date
WO2021073380A1 (zh) 2021-04-22
US20220051059A1 (en) 2022-02-17
EP3982292B1 (en) 2023-08-09
US20240184854A1 (en) 2024-06-06
EP3982292A1 (en) 2022-04-13
CN110738263A (zh) 2020-01-31
US11960571B2 (en) 2024-04-16
EP3982292A4 (en) 2022-08-17
JP2022547184A (ja) 2022-11-10
CN110738263B (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
JP7355924B2 (ja) 画像認識モデルのトレーニング方法、画像認識方法及び装置
US11850021B2 (en) Dynamic self-learning medical image method and system
WO2021036695A1 (zh) 一种待标注图像确定的方法、模型训练的方法及装置
JP2021513435A (ja) 胃腸腫瘍を診断するシステム及び方法
CN111274425B (zh) 医疗影像分类方法、装置、介质及电子设备
CN111511287A (zh) 从医学图像自动提取超声心动图测量结果
CN111091127A (zh) 一种图像检测方法、网络模型训练方法以及相关装置
CN110400298A (zh) 心脏临床指标的检测方法、装置、设备及介质
CN111028223A (zh) 一种微卫星不稳定肠癌能谱ct碘水图影像组学特征处理方法
TW202347180A (zh) 影像處理模型的訓練方法
WO2019086586A1 (en) A method and apparatus for analysing echocardiograms
Loncaric et al. Integration of artificial intelligence into clinical patient management: focus on cardiac imaging
CN110517771B (zh) 一种医学图像处理方法、医学图像识别方法及装置
US20220277445A1 (en) Artificial intelligence-based gastroscopic image diagnosis assisting system and method
Kagiyama et al. Machine learning in cardiovascular imaging
WO2024126468A1 (en) Echocardiogram classification with machine learning
Shao et al. FCG-Net: an innovative full-scale connected network for thyroid nodule segmentation in ultrasound images
CN115311188A (zh) 一种图像识别方法、装置、电子设备及存储介质
Perrone et al. Machine learning-based prediction of hip joint moment in healthy subjects, patients and post-operative subjects
WO2023060735A1 (zh) 图像生成模型训练及图像生成方法、装置、设备和介质
US20240225447A1 (en) Dynamic self-learning medical image method and system
CN116501904B (zh) 分布式存储方法、装置、设备及介质
CN113723523A (zh) 医学影像的处理方法、装置、计算机设备及存储介质
CN116978549A (zh) 一种器官疾病预测方法、装置、设备及存储介质
Bernante et al. Mobile Application for Remote Monitoring of Peripheral Edema

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230921

R150 Certificate of patent or registration of utility model

Ref document number: 7355924

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150