JP2022514917A - 画像処理方法、画像処理装置、コンピュータプログラム、及び画像処理機器 - Google Patents

画像処理方法、画像処理装置、コンピュータプログラム、及び画像処理機器 Download PDF

Info

Publication number
JP2022514917A
JP2022514917A JP2021536061A JP2021536061A JP2022514917A JP 2022514917 A JP2022514917 A JP 2022514917A JP 2021536061 A JP2021536061 A JP 2021536061A JP 2021536061 A JP2021536061 A JP 2021536061A JP 2022514917 A JP2022514917 A JP 2022514917A
Authority
JP
Japan
Prior art keywords
feature map
instance
processing
image
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021536061A
Other languages
English (en)
Other versions
JP7248799B2 (ja
Inventor
チィ,リュ
ジアン,リ
リィウ,シュ
シェン,シアオヨン
ジィア,ジィアヤ
タイ,ユィウィン
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2022514917A publication Critical patent/JP2022514917A/ja
Application granted granted Critical
Publication of JP7248799B2 publication Critical patent/JP7248799B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

画像処理方法であって、予測対象画像を取得し、前記予測対象画像に対して特徴抽出を行うステップと、前記予測対象画像の少なくとも1つの候補領域を生成し、前記少なくとも1つの候補領域を前記予測対象画像の特徴マップにマッピングするステップであって、それぞれの前記候補領域には、1つのインスタンスが含まれる、ステップと、ターゲットネットワークに基づいて、マッピング後の前記特徴マップを処理し、前記予測対象画像における遮蔽されたインスタンスの全体的な構造を透視マスクで指示し、前記遮蔽されたインスタンスの不可視部分を非透視マスクで指示するステップであって、前記透視マスク及び前記非透視マスクは、前記遮蔽されたインスタンスの相対的な遮蔽関係を示す、ステップと、を含む。

Description

本願は、2019年4月25日に中国特許庁に提出された、出願番号が第2019103388350号であり、発明の名称が「画像処理方法、装置、記憶媒体、及び機器」である、中国特許出願に基づく優先権を主張し、その全ての内容が、参照することにより本願に組み込まれている。
本願は、人工知能の技術分野及びコンピュータビジョンの技術分野に関し、特に画像処理方法、装置、記憶媒体、及び機器に関する。
インスタンスセグメンテーションは、画像における各インスタンスを見つけて、各インスタンスのカテゴリを決定する画像認識技術であり、無人運転分野で前方車両の正確な位置を決定して、次の運転制御戦略の選択を補助するためによく使用される。
しかしながら、画像におけるインスタンスは、可視部分と、遮蔽された不可視部分と、を含む。インスタンスセグメンテーション処理において、完全なターゲットを判断するには、可視部分のセグメンテーションに加えて、このインスタンスの遮蔽された不可視部分を推理できる必要がある。
したがって、どのように画像処理を行って、画像における各インスタンスの遮蔽された不可視部分を推理するかは、当業者が注目している焦点となっている。
本願で提供される各種の実施例によれば、画像処理方法、装置、記憶媒体、及び機器が提供されている。その構成は、以下のとおりである。
画像処理機器が実行する画像処理方法であって、
予測対象画像を取得し、予測対象画像に対して特徴抽出を行うことにより、予測対象画像の特徴マップを取得するステップと、
予測対象画像の少なくとも1つの候補領域を生成し、少なくとも1つの候補領域を予測対象画像の特徴マップにマッピングするステップであって、それぞれの候補領域には、1つのインスタンスが含まれる、ステップと、
ターゲットネットワークに基づいて、マッピング後の特徴マップを処理し、予測対象画像における遮蔽されたインスタンスの全体的な構造を透視マスクで指示し、遮蔽されたインスタンスの不可視部分を非透視マスクで指示するステップであって、透視マスク及び非透視マスクは、遮蔽されたインスタンスの相対的な遮蔽関係を示す、ステップと、を含む。
画像処理機器に設置された画像処理装置であって、
予測対象画像を取得する取得モジュールと、
予測対象画像に対して特徴抽出を行うことにより、予測対象画像の特徴マップを取得する特徴抽出モジュールと、
予測対象画像の少なくとも1つの候補領域を生成する生成モジュールと、
少なくとも1つの候補領域を予測対象画像の特徴マップにマッピングするマッピングモジュールであって、それぞれの候補領域には、1つのインスタンスが含まれる、マッピングモジュールと、
ターゲットネットワークに基づいて、マッピング後の特徴マップを処理し、予測対象画像における遮蔽されたインスタンスの全体的な構造を透視マスクで指示し、遮蔽されたインスタンスの不可視部分を非透視マスクで指示する処理モジュールであって、透視マスク及び非透視マスクは、遮蔽されたインスタンスの相対的な遮蔽関係を示す、処理モジュールと、を含む。
1つ又は複数のプロセッサとメモリとを含み、前記メモリには、少なくとも1つのコンピュータ読み取り可能な命令が記憶されており、前記少なくとも1つのコンピュータ読み取り可能な命令は、前記1つ又は複数のプロセッサによってロードされて実行されると、請求項1乃至12のいずれか1項に記載の画像処理方法を実現させる、ことを特徴とする画像処理機器。
1つ又は複数のコンピュータ読み取り可能な記憶媒体であって、記憶媒体には、少なくとも1つのコンピュータ読み取り可能な命令が記憶されており、少なくとも1つのコンピュータ読み取り可能な命令は、1つ又は複数のプロセッサによってロードされて実行されると、上記の画像処理方法を実現させる。
画像処理機器であって、1つ又は複数のプロセッサとメモリとを含み、メモリには、少なくとも1つのコンピュータ読み取り可能な命令が記憶されており、少なくとも1つのコンピュータ読み取り可能な命令は、1つ又は複数のプロセッサによってロードされて実行されると、上記の画像処理方法を実現させる。
本願の1つ又は複数の実施例の詳細は、以下の図面及び説明に記載されている。本願の他の特徴、目的、及び利点は、本願の明細書、図面、及び特許請求の範囲から明らかになる。
本願の実施例の構成をより明確に説明するために、以下に、実施例の説明に必要な図面を簡単的に紹介する。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているに過ぎず、当業者であれば、創造的な労働をすることなく、これらの図面から他の図面を得ることもできる。
本願の実施例で提供される画像の模式図である。 本願の実施例で提供される他の画像の模式図である。 本願の実施例で提供される他の画像の模式図である。 本願の実施例で提供される画像処理方法に係る実施環境の模式図である。 本願の実施例で提供される画像処理方法に係るネットワーク構成の構成図である。 本願の実施例で提供されるマルチブランチ符号化の過程の模式図である。 本願の実施例で提供される他の画像の模式図である。 本願の実施例で提供される他の画像の模式図である。 本願の実施例で提供される他の画像の模式図である。 本願の実施例で提供される他の画像の模式図である。 本願の実施例で提供される他の画像の模式図である。 本願の実施例で提供される他の画像の模式図である。 本願の実施例で提供される他の画像の模式図である。 本願の実施例で提供される他の画像の模式図である。 本願の実施例で提供される他の画像の模式図である。 本願の実施例で提供される他の画像の模式図である。 本願の実施例で提供される画像処理方法のフローチャートである。 本願の実施例で提供される他の画像処理方法のフローチャートである。 本願の実施例で提供される他の画像の処理方法のフローチャートである。 本願の実施例で提供される他の画像の模式図である。 本願の実施例で提供される画像処理装置の構成の模式図である。 本願の実施例で提供される画像処理機器の構成の模式図である。 本願の実施例で提供される画像処理機器の構成の模式図である。
本願の目的、構成、及び利点をより明確にするために、以下、図面を参照しながら、本願の実施形態をさらに詳しく説明する。理解すべきものとして、ここで説明する具体的な実施形態は、本願を解釈するものに過ぎず、本願を限定するものではない。
本願の実施例を詳しく解釈して説明するに先立って、本願の実施例に係るいくつかの用語を解釈して説明する。
インスタンス:本願の実施例において、インスタンスとは、画像に現れる1つ1つの具体的なターゲット又はオブジェクトを指す。無人運転シナリオを例にすると、インスタンスは、前方に現れる車両や人であってもよい。
インスタンスセグメンテーション:画像における各インスタンスを見つけて、各インスタンスのカテゴリを決定する画像認識技術である。換言すると、インスタンスセグメンテーションは、画素レベルでターゲットの輪郭を認識するタスクである。例えば、マシンは、ターゲット検出方法を自動的に利用して、画像において異なるインスタンスの周りを囲み、次に、セマンティクスセグメンテーション方法によって、異なるインスタンス領域内で画素ごとにマークする。
一例として、インスタンスセグメンテーションは、無人運転分野で前方車両の正確な位置を決定して、次の運転制御戦略の選択を補助するためによく使用される。
例1
セマンティクスセグメンテーション方法では、同じカテゴリに属する異なるインスタンスが区分されない。例えば、画像に2匹の猫がある場合、セマンティクスセグメンテーション方法では、2匹の猫の全ての画素が、猫というカテゴリとして予測される。一方、インスタンスセグメンテーションでは、画像においてどの画素が1番目の猫に属するか、どの画素が2番目の猫に属するかを区分する必要がある。
例2
図1には、分類+位置決定、物体検出、及びインスタンスセグメンテーションの区別がそれぞれ示されている。
左上の図は、画像に対する分類+位置決定の処理結果を示している。ここで、画像分類処理は、画像にカテゴリラベルを割り当てることであり、位置決定は、ターゲットの画像における位置を提供することである。
右上の図は、同一画像に対する物体検出の処理結果を示している。ここで、物体検出は、関心のある固定カテゴリグループから始まる。これらのカテゴリのいずれかが入力画像に現れるたびに、その周囲に境界ボックスを描画して、そのカテゴリラベルを予測する。分類+位置決定と異なる点として、物体検出では、単一のターゲットのみに対して、分類、及び、境界ボックスの描画を行う。
図1の下方の図は、同一画像に対するインスタンスセグメンテーションの処理結果を示している。ここで、インスタンスセグメンテーションは、セマンティックセグメンテーションとターゲット検出とを組み合わせた技術である。1枚の画像が与えられると、この画像におけるターゲットの位置及びアイデンティティを予測することができる(ターゲット検出と類似)。しかし、ターゲットの境界ボックスを予測するよりも、ターゲットのセグメンテーションマスク全体、即ち、入力画像におけるどの画素がどのターゲットに対応するかを予測する方がよい。これに応じて、この画像における各羊(sheep)には、それぞれ異なるセグメンテーションマスクが与えられている。
一方、セマンティックセグメンテーションでは、全ての羊のセグメンテーションマスクは同じである。即ち、セマンティックセグメンテーションとは、各画素のカテゴリ決定を出力することである。換言すると、セマンティックセグメンテーションとは、各画素をいくつかの可能なカテゴリの1つに分類することである。これは、図1における羊の所在する全ての画素が1つのカテゴリに分類され、出力において2つの異なる羊が区分されないことを意味する。
透視インスタンスセグメンテーション:インスタンスセグメンテーション技術の新しい方向であり、人間の能力を模倣して画像における各インスタンスをセグメンテーションすることを目的としている。ここで、セグメンテーションされたインスタンスには、インスタンスの遮蔽された不可視部分も含まれる。即ち、透視インスタンスセグメンテーションは、人間の視覚が備える推理能力と類似しており、あるインスタンスの遮蔽されていない可視部分に基づいて、このインスタンスの遮蔽された不可視部分を推理し、完全なターゲットを判断することができる。
透視マスク:バイナリマスクであり、指定の画素がインスタンスの一部に属するか否かを示すことができる。例えば、ある画素は、インスタンスに属する場合、1と標識され、インスタンスに属しない場合、0と標識される。
本願の実施例では、透視マスクは、インスタンスの可視部分と不可視部分の両方を含むインスタンスの全体的な構造に対するものである。透視マスクは、インスタンスの全体的な構造を指示するために用いられる。
一例として、インスタンスの非透視マスクは、このインスタンスの透視マスク及び相対的な遮蔽順番に基づいて算出できる。非透視マスクも、バイナリマスクであり、指定の画素がインスタンスの一部に属するか否かを示すために用いられる。但し、非透視マスクは、このインスタンスの不可視部分のみに対するものである。即ち、非透視マスクは、インスタンスの遮蔽された不可視部分を指示する。また、遮蔽されたインスタンスに対しては、その透視マスク及び非透視マスクが、このインスタンスの相対的な遮蔽関係を示すこともできる。
前述のように、透視インスタンスセグメンテーションでは、インスタンスの複雑な構造を推理する必要がある。したがって、このタスクが非常に重要で未来的であるにもかかわらず、インスタンスの不可視部分を正確且つ整合的にマークすることが困難であるため、関連技術では、このタスクに対する、大規模で詳細にアノテーションされたデータセットが不足している。これは、視覚認識の最前線を探索する上で、巨大な障害となっている。一方、データ駆動に基づく深層学習方法は、データセットの不足により制限される。これにより、透視インスタンスセグメンテーションタスクの探索は、さらに制限される。また、関連技術において、透視インスタンスセグメンテーションタスクに対するネットワークは、従来のインスタンスセグメンテーションネットワーク、例えば、Mask R-CNNモデルを用いることが多く、透視インスタンスセグメンテーションタスクに対する特別な改良が一切ない。
換言すると、関連技術では、大規模で詳細にアノテーションされた透視インスタンスデータセットと、透視インスタンスセグメンテーションタスクに専用のネットワークとが不足している。関連技術では、透視インスタンスセグメンテーションタスクに対して探索を行っていないため、製品側の要求を満たすことができない。図2及び図3に示すように、Mask R-CNNモデルは、訓練回数が増加するにつれて、インスタンスの遮蔽部分に対する推理能力がますます悪くなる。ここで、図2は20000の訓練回数に対応しており、図3は24000の訓練回数に対応している。
上記した問題に基づいて、本願の実施例では、画像における各インスタンスの画素レベルの位置を予測できるだけでなく、各インスタンスの遮蔽された不可視部分を推理できる画像処理方法が提案されている。
本願の実施例では、大規模な透視インスタンスデータセットが精細にアノテーションされている。一例として、数的には、このデータセットが、15000枚に近い画像を含み、品質的には、本願の実施例において、各インスタンスのセマンティックラベル、透視マスク、及び相対的な遮蔽順番がそれぞれアノテーションされているため、各インスタンスの非透視マスクも容易に計算することができ、データセットがより普遍的な意味を持つものとなっている。
一方、本願の実施例では、マルチブランチ符号化のマルチタスクフレームワークが提案されている。このようなネットワークは、インスタンスの遮蔽された不可視部分をより良く推理することができる。これにより、このようなネットワークは、人間の視覚に類似した推理能力を有する。
以下、本願の実施例で提供される画像処理方法に係る実施環境を説明する。
図4を参照すると、この実施環境は、画像処理機器401を含む。ここで、画像処理機器401は、機械学習能力を有するコンピュータ機器である。例えば、このコンピュータ機器は、パソコン、サーバなどの据え置き型コンピュータ機器であってもよいし、タブレットコンピュータ、スマートフォン、電子書籍リーダーなどのモバイルコンピュータ機器であってもよい。本願の実施例は、これに対して特に限定しない。
本願の実施例では、画像処理機器401には、図5に示すようなネットワークが設けられている。ここで、このネットワークにおけるマルチブランチ符号化の詳細な構造は、図6に示すとおりである。
ここで、画像処理機器401は、外部から入力された予測対象画像を受信し、このネットワークに基づいて、本願の実施例で提供される画像処理方法を実行する。
一実施例では、この画像処理方法を人工知能(AI:Artificial Intelligence)分野の無人運転シナリオに適用した場合を例にすると、予測対象画像は、撮像機器により撮影されたストリートスケープ画像(ストリートビュー画像とも呼ぶ)であってもよい。換言すると、撮像機器は、無人運転車両に搭載されたカメラであってもよい。つまり、本願の実施例で提供される画像処理方法は、AI分野、例えば、AI分野の無人運転車両に適用することができる。また、本願の実施例の適用シナリオは、無人運転のような、人間の知能をシミュレートするためのシナリオを含むが、これらに限定されない。ここで、AIは、現在、研究・開発されている、人間の知能をシミュレート、延伸、及び拡張するための新興科学技術であり、画像処理、顔認識、ゲーム、医療などの他の分野に広く適用されている。
本願の実施例で提供される画像処理方法は、大規模で詳細にアノテーションされた訓練データセットと、図5に示すネットワークとに関わる。
訓練データセットの面で、前述のように、訓練データセットの画像ごとに、この画像における各インスタンスのいずれもアノテーションされている。ここで、アノテーション情報は、セマンティックラベル、相対的な遮蔽順番、及び透視マスクを含む。この訓練データセットに基づいて、図5に示すネットワークを訓練することにより、このネットワークが配置された画像処理機器401による透視インスタンスセグメンテーションが可能になる。
ネットワークの面で、透視インスタンスセグメンテーションタスクに対して、本願の実施例は、分類+回帰ブランチ及びMask(マスク)ブランチに加えて、遮蔽分類ブランチを追加している。ここで、分類+回帰ブランチは、インスタンスのセマンティックラベルと、インスタンスの画像における大体の領域とを検出する。Maskブランチは、このインスタンスの大体の領域をさらに正確にマスクセグメンテーションする。遮蔽分類ブランチは、このインスタンスが遮蔽されているか否かを判断し、遮蔽分類情報を提供する。
また、本願の実施例では、マルチブランチ符号化も提案されている。即ち、本願の実施例では、分類+回帰ブランチの特徴情報、遮蔽分類ブランチの特徴情報、及びMaskブランチの特徴情報を融合し、融合された特徴情報に基づいて、Maskブランチによる透視インスタンスセグメンテーションの推理を補助する。
ここで、本願の実施例において、Maskブランチは、図5に示す2つのブランチにさらに分けられている。これら2つのブランチは、それぞれ透視セグメンテーション及び非透視セグメンテーションに用いられ、それぞれインスタンスの全体的な構造及び不可視部分に対応している。ここで、本明細書において、非透視セグメンテーションブランチは第1マスクブランチとも呼び、透視セグメンテーションブランチは第2マスクブランチとも呼ぶことができる。
次に、本願の実施例で使用される訓練データセットを説明する。
本願の実施例において、訓練データセットは、透視インスタンスデータセットとも呼ぶことができる。一実施例において、無人運転シナリオを例にすると、訓練データセットは、無人運転データセットKITTIに由来してもよく、KITTI INStanceデータセット(KINSと略称)とも呼ぶ。
一実施例において、本願の実施例では、KITTIデータセットの合計14991枚の画像がアノテーションされており、大規模な透視インスタンスデータセット、即ちKINSが形成されている。
一実施例では、このデータセットが2つの部分に分けられている。ここで、7474枚の画像がモデル又はネットワークの訓練に用いられ、残りの7517枚の画像がネットワーク又はモデルのテストに用いられる。
一実施例において、インスタンスアノテーションは、透視マスク、セマンティックラベル、及び相対的な遮蔽順番の3つを含む。
本願の実施例では、高品質且つ整合的なアノテーション情報を得るために、下記の3つのインスタンスアノテーション規則に従ってもよい。
(1)、特定のセマンティックカテゴリにおいて、セマンティックアノテーションを行うこと。
(2)、画像におけるインスタンス間の相対的な遮蔽順番をアノテーションすること。
(3)、インスタンスごとに、このインスタンスの遮蔽された不可視部分を含めて、画素レベルのアノテーションを行うこと。
上記の3つの規則に基づいて、本願の実施例では、下記のステップによって、画像におけるインスタンスをアノテーションしてもよい。
第1ステップでは、各画像について、1人のシニアアノテータが、この画像における具体的なインスタンスの特別なタイプ及び境界ボックスをアノテーションしてもよい。ここで、アノテーション順番は、近くから遠くまでの相対的な遮蔽順番に従う必要がある。
第2ステップでは、N人のアノテータが、この画像における各インスタンスに対して透視マスクアノテーションを行う。一実施例において、Nの値は3であってもよい。即ち、3人のアノテータが、同一のインスタンスに対して透視マスクアノテーションを行う。本願の実施例は、これに対して特に限定しない。
第3ステップでは、各アノテータによる画素レベルのアノテーションをまとめる。
一実施例では、上記のアノテーション規則を満たすアノテーションツールを用いてアノテーションを行ってもよい。本願の実施例は、これに対して特に限定しない。ここで、アノテーションツールを用いてアノテーションを行う場合、インタフェースは、図7に示すようなものであってもよい。
一実施例において、アノテーションの詳細な過程は、以下のとおりである。
(1)セマンティックアノテーション
本願の実施例において、インスタンスは、特定のカテゴリに属する。一実施例において、KINSデータセットの場合、セマンティックラベルは、一般カテゴリとサブカテゴリとの包含関係が定義された組織的な2層の階層構造である。即ち、セマンティックラベルは、インスタンスのカテゴリを指示するために用いられる。
ここで、KINSデータセットの全ての画像がいずれもストリートスケープ画像であるため、一般カテゴリとして2つの代表的なカテゴリを選択し、サブカテゴリとして8つの代表的なカテゴリを選択する。一般カテゴリは、人と車とを含んでもよい。さらに、一般カテゴリ「人」は、「歩行者」、「バイカー」、及び「座っている人」の合計3つのサブカテゴリに細分化されており、一般カテゴリ「車」は、「自動車」、「電気自動車」、「トラック」、「コンバーチブルカー」、及び「その他の車」の合計5つのサブカテゴリに細分化されている。ここで、その他の車とは、上記の4種類の車を除いた他の車を指す。
(2)相対的な遮蔽順番
一実施例では、画像ごとに、シニアアノテータが、境界ボックスを用いてこの画像における各インスタンスを注釈し、各インスタンスをソートして相対的な遮蔽順番を取得してもよい。
ここで、遮蔽されたインスタンス間の順番について、この画像における各インスタンスは、まず、接続が切断されたいくつかのクラスタに分けられる。ここで、ソートによる遮蔽順番の取得を容易にするために、各クラスタそれぞれには、接続されたいくつかのインスタンスがある。例えば、図3において、左に現れる自動車と、右に現れる自動車とは、接続が切断された2つのクラスタに属している。
換言すると、相対的な遮蔽順番は、各インスタンスとカメラとの間の距離に基づいている。カメラからの距離が近いほど、インスタンスが遮蔽されない可能性が高くなる。
図8から図13を参照すると、同一のクラスタにおけるインスタンスは、近い距離にあるインスタンスから順にアノテーションされ、即ち、カメラに最も近いインスタンスからアノテーションされる。ここで、図8と図9は対応しており、図10と図11は対応しており、図12と図13は対応している。図8、図10、及び図12は、相対的な遮蔽順番がアノテーションされていないストリートスケープ画像を示しており、図9、図11、及び図13は、相対的な遮蔽順番がアノテーションされたストリートスケープ画像を示している。
一実施例では、遮蔽が存在しない非重畳インスタンスの相対的な遮蔽順番は、0とマークされる。このクラスタにおける遮蔽された重畳インスタンスの順番は、1からマークされる。遮蔽されるたびに、相対的な遮蔽順番は1増加する。
(3)透視マスクアノテーション
本願の実施例では、N人のアノテータが、1枚の画像における各インスタンスに対して、透視マスクアノテーションを行う。一実施例では、3人のアノテータが、各インスタンスの、対応する境界ボックス内の透視マスクをマークしてもよい。ここで、このステップの重点は、N人のアノテータがそれぞれ独立してインスタンスの遮蔽された部分を推断し、その後、N人のアノテータによる同一のインスタンスへの独立したマスク予測に基づいて、このインスタンスの透視マスクを決定することである。一実施例において、1つのインスタンスに対する透視マスクアノテーションは、N人のアノテータの多数決によって決定される。
一実施例において、図14~図16は、画像インスタンスのアノテーション過程を示している。ここで、図14は、アノテーションされていない元の画像を示しており、図15は、透視インスタンスのセグメンテーションアノテーション結果を示しており、図16は、相対的な遮蔽順番のアノテーション結果を示している。ここで、色が薄いほど、対応するインスタンスが遮蔽されていないことを示す。
一実施例では、上記した訓練データセットに基づいてモデル訓練を行う際に、以下の方式を用いてもよい。
第1ステップでは、訓練サンプル画像を取得する。この訓練サンプル画像における各インスタンスのアノテーション情報には、このインスタンスの相対的な遮蔽順番と、このインスタンスのカテゴリを指示するセマンティックラベルと、このインスタンスの透視マスクとが含まれる。
ここで、この訓練サンプル画像とは、前述した訓練データセットに含まれる画像を指す。
第2ステップでは、この訓練サンプル画像における遮蔽されたインスタンスについて、遮蔽されたインスタンスの相対的な遮蔽順番及び透視マスクに基づいて、遮蔽されたインスタンスの非透視マスクを決定し、透視マスク、非透視マスク、及びセマンティックラベルがアノテーションされた訓練サンプル画像に基づいてモデル訓練を行うことにより、ターゲットネットワークを取得する。
ここで、相対的な遮蔽順番に基づいて、あるインスタンスが、他のインスタンスによって遮蔽されているか、又は他のインスタンスを遮蔽しているかを推断することができる。該インスタンスが他のインスタンスによって遮蔽されている場合、該インスタンスの相対的な遮蔽順番に基づいて、該インスタンスが具体的にいくつのインスタンスによって遮蔽されているかを決定することもできる。一実施例では、他のインスタンスの透視マスクと、該インスタンスの透視マスクとに基づいて、該インスタンスの非透視マスクを推断することができる。
本願の実施例では、上記のアノテーション情報が付されている訓練サンプル画像に基づいて、図5に示す構造を有する初期ネットワークを訓練する。ここで、訓練過程は、ネットワークパラメータを継続的に最適化する過程である。一実施例では、クロスエントロピー損失関数を使用して最適化処理を行ってもよい。本願の実施例は、これに対して特に限定しない。訓練が終了すると、図5に示すターゲットネットワークが取得される。また、訓練終了後に、ネットワークの予測能力を検証するために、テストデータに基づいてネットワークをテストしてもよい。
ターゲットネットワークは、上記アノテーション情報が付されている訓練サンプル画像に基づく訓練によって取得される。したがって、ターゲットネットワークは、透視インスタンスセグメンテーションを精確に指示できるだけでなく、インスタンスのカテゴリ情報や遮蔽分類情報などを決定できる。特に、上記訓練サンプル画像に基づいてモデル訓練を行って取得されたターゲットネットワークは、予測対象画像におけるインスタンスの遮蔽された不可視部分を精確に決定することができる。即ち、ターゲットネットワークは、人間の視覚に類似した推理能力を有し、透視インスタンスセグメンテーションを合理的に推理することができる。したがって、このような画像処理方式は、インテリジェンスが良く、画像処理方式を豊富にした。
以下、本願の実施例で提供される画像処理方法を詳細に解釈して説明する。説明すべきものとして、下記の実施例に現れる第1、第2、第3、第4などのような表現は、異なるオブジェクトを区分するためのものに過ぎず、優先順位などのようないかなる他の限定を構成するものではない。
図17は、本願の実施例で提供される画像処理方法のフローチャートである。図17を参照すると、本願の実施例で提供される方法は、画像処理機器に適用される。この方法は、具体的に下記のステップを含む。
1701では、予測対象画像を取得し、予測対象画像に対して特徴抽出を行うことにより、予測対象画像の特徴マップを取得する。
無人運転シナリオを例にすると、予測対象画像は、無人運転車両に配置された撮像機器によって撮影されたストリートスケープ画像であってもよい。ここで、このストリートスケープ画像は、車両、人、道の両側の木、交通標識、看板などを含むが、これらに限定されない。
一実施例では、図5を参照すると、予測対象画像の特徴抽出に畳み込みbackbone構造を採用してもよい。ここで、畳み込みbackbone構造は、複数の畳み込み層と、複数のプーリング層と、を含んでもよい。即ち、予測対象画像が畳み込みbackbone構造に入力された後、複数の畳み込み層と複数のプーリング層との処理を経ると、画像全体の特徴マップ(feature map)が取得される。
また、予測対象画像を畳み込みbackbone構造に入力する前に、まず、予測対象画像に対して前処理操作を実行してもよい。ここで、前処理操作は、サイズ調整又はノイズ低減などを含むが、これらに限定されない。本願の実施例は、これに対して特に限定しない。
1702では、予測対象画像の少なくとも1つの候補領域を生成し、少なくとも1つの候補領域を予測対象画像の特徴マップにマッピングし、それぞれの候補領域には、1つのインスタンスが含まれる。
本願の実施例では、領域生成ネットワークに基づいて、予測対象画像の少なくとも1つの候補領域を生成してもよい。一実施例において、この領域生成ネットワークは、領域提案ネットワーク(RPN:Region Proposal Network)であってもよい。本願の実施例は、これに対して特に限定しない。
説明すべきものとして、ここで言及される少なくとも1つの候補領域とは、フィルタリングされた後に残っている、画像前景インスタンスが含まれる候補領域を指す。無人運転シナリオを引き続き例にすると、画像前景インスタンスとは、画像前景に属する車両又は人を指す。
一実施例において、予測対象画像の特徴マップは、通常、畳み込みbackbone構造の最後の畳み込み層から出力された特徴マップである。したがって、少なくとも1つの候補領域をこの特徴マップにマッピングする。
また、この少なくとも1つの候補領域は、本明細書で関心領域(ROI:Region Of Interest)とも呼ばれる。本願の実施例は、これに対しても特に限定しない。
1703では、ターゲットネットワークに基づいて、マッピング後の特徴マップを処理し、予測対象画像における遮蔽されたインスタンスの全体的な構造を透視マスクで指示し、遮蔽されたインスタンスの不可視部分を非透視マスクで指示し、透視マスク及び非透視マスクは、遮蔽されたインスタンスの相対的な遮蔽関係を示す。
本願の実施例において、ターゲットネットワークは、少なくとも第1ブランチ構造を含む。一実施例において、図5に示すように、上記第1ブランチ構造は、透視セグメンテーションブランチ及び非透視セグメンテーションブランチを指す。ここで、第1ブランチ構造は、本明細書でMaskブランチとも呼ばれる。
他の可能な実現形態において、ターゲットネットワークは、遮蔽分類情報を決定する第2ブランチ構造をさらに含む。ここで、遮蔽分類情報は、インスタンスが遮蔽されていないか、又は遮蔽されていることを指示するためのものである。図5を参照すると、上記第2ブランチ構造は、遮蔽分類ブランチを指す。
また、ターゲットネットワークは、分類ブランチ及び回帰ブランチをさらに含む。本明細書では、分類ブランチ及び回帰ブランチは、第3ブランチ構造又は検出ボックスブランチと総称される。ここで、分類ブランチは、インスタンスの分類を担当し、回帰ブランチは、インスタンスの画像における位置の決定を担当する。
本願の実施例では、図5を参照すると、少なくとも1つの候補領域のマッピングが完了した後、まず、ROI Align層によって、各ROIの画素補正を行う必要もある。
ここで、ROI Alignは、ROI Pooling操作における2回の量子化による領域のミスアライメント(mis-alignment)の問題を解決することができる。ROI Alignの構想は、量子化操作をキャンセルし、双線形補間法を使用して、座標が浮動小数点数である画素点の画像数値を取得することにより、特徴集約過程全体を連続的な操作に変換することである。
一実施例において、ROI Align操作過程は、以下のとおりである。各ROIをトラバースし、浮動小数点数の境界を量子化せずに保持する。ROIごとに、該ROIをk×k個のユニットに分割し、各ユニットの境界も量子化しない。各ユニットにおいて、4つの固定座標位置に対して計算を行い、双線形補間法によってこれら4つの位置の値を算出した後、最大プーリング操作を行う。
ここで、ROI Alignによって、まず、元の予測対象画像と、上記の特徴抽出で取得された特徴マップの画素とを対応付け、次に、特徴マップと、固定サイズの特徴マップとを対応付けることが実現されている。換言すると、ROI Align層によって、ROIごとに固定サイズの特徴マップが生成される。
本願の実施例では、図5を参照すると、候補領域ごとに、該候補領域に対して画素補正処理を行った後、複数の特徴マップが取得される。図5に示すように、ROIごとに、図5における三角形記号、紡錘形記号、及び六角形記号は、それぞれ1種類の特徴マップを指す。
本明細書では、標識しやすいために、六角形記号に対応する特徴マップを第1特徴マップと呼び、紡錘形記号に対応する特徴マップを第2特徴マップと呼び、三角形記号に対応する特徴マップを第3特徴マップと呼ぶ。ここで、図5に示すように、第1特徴マップのサイズと第2特徴マップのサイズとは、大きさが一致しており、且つ第3特徴マップのサイズより小さい。例えば、第1特徴マップの大きさと第2特徴マップの大きさとは7*7であり、第3特徴マップの大きさは14*14である。
一実施例において、図5を参照すると、本願の実施例では、マスク予測を行う際にマルチブランチ符号化を使用して特徴融合を行う。即ち、遮蔽分類ブランチの特徴(第1特徴マップ)、検出ボックスブランチの特徴(第2特徴マップ)、及びマスク予測用の特徴(第3特徴マップ)は、図5に示すマルチブランチ符号化モジュールによって特徴融合される。これにより、検出ボックスブランチ、遮蔽分類ブランチ、及びMaskブランチの特徴を融合することにより、Maskブランチによる透視インスタンスセグメンテーションの推理を補助することが実現される。
一実施例において、図18を参照すると、ターゲットネットワークに基づいて、マッピング後の特徴マップを処理することは、
候補領域ごとに、この候補領域の第1特徴マップを第2ブランチ構造に入力して処理することにより、この候補領域に含まれるインスタンスの遮蔽分類情報を取得するステップ1703-1と、
この候補領域の第1特徴マップ、第2特徴マップ、及び第3特徴マップに対して特徴融合処理を行い、取得された融合特徴マップを第1ブランチ構造に入力して処理するステップ1703-2と、を含む。
本願の実施例で提供される方法では、予測対象画像を取得した後、まず、予測対象画像に対して特徴抽出を行い、予測対象画像の少なくとも1つの候補領域を生成し、次に、少なくとも1つの候補領域を予測対象画像の特徴マップにマッピングし(それぞれの候補領域には、1つのインスタンスが含まれる)、続いて、ターゲットネットワークに基づいて、マッピング後の特徴マップを処理することにより、インスタンスの全体的な構造を透視マスクで指示し、インスタンスの遮蔽された不可視部分を非透視マスクで指示することを実現する。ターゲットネットワークが、特徴マップを処理することにより、インスタンスの透視マスク及び非透視マスクを提供しているので、本願の実施例は、インスタンスの全体的な構造を精確に決定できるだけではなく、インスタンスの遮蔽された不可視部分を精確に決定できる。即ち、ターゲットネットワークは、人間の視覚に類似した推理能力を有し、透視インスタンスセグメンテーションを合理的に推理することができる。したがって、このような画像処理方式は、インテリジェンスが良く、画像処理方式を豊富にした。
また、ネットワーク構成について、本願の実施例では、検出ボックスブランチ及びMaskブランチに加えて、遮蔽分類ブランチが新たに追加されている。遮蔽分類ブランチによって、インスタンスの遮蔽分類情報を効果的に決定することができ、即ち、インスタンスが遮蔽されているか、又は遮蔽されていないかを効果的に決定することができる。これにより、画像処理方式がさらに豊富になり、効果が良い。
また、本願の実施例では、マルチブランチ符号化によるマルチ特徴融合も提案されている。マルチブランチ融合によって、ターゲットネットワークがインスタンスの遮蔽された不可視部分をより良く推理することを可能にする。換言すると、マルチ特徴融合によって、ターゲットネットワークは、人間の視覚に類似した推理能力をより有するようになり、インスタンスの不可視部分をより合理的に推理することが可能になる。
説明すべきものとして、以下、説明の便宜上、図5において、遮蔽分類ブランチに接続された全結合層FCを第1全結合層と呼び、分類ブランチに接続された全結合層FCを第2全結合層と呼び、回帰ブランチに接続された全結合層FCを第3全結合層と呼ぶ。
検出ボックスブランチ
他の実施例では、図19を参照すると、ターゲットネットワークに基づいて、マッピング後の特徴マップを処理するステップは、
この候補領域の第2特徴マップを第3ブランチ構造に入力して処理することにより、この候補領域に含まれるインスタンスのセマンティックラベル及び位置情報を取得するステップ1703-3をさらに含む。
一実施例において、図5を参照すると、第2特徴マップを第3ブランチ構造に入力して処理することは、第2特徴マップを第2全結合層に入力して処理するステップと、第2全結合層で処理された第2特徴マップを、第3ブランチ構造に含まれる分類ブランチに入力して処理することにより、この候補領域に含まれるインスタンスのセマンティックラベルを取得するステップと、第2特徴マップを第3全結合層に入力して処理するステップと、第3全結合層で処理された第2特徴マップを、第3ブランチ構造に含まれる回帰ブランチに入力して処理することにより、この候補領域に含まれるインスタンスの位置情報を取得するステップと、を含むが、これらに限定されない。ここで、位置情報は、この候補領域に含まれるインスタンスの境界ボックスのオフセット(offset)であってもよい。インスタンスをアノテーションするときに各インスタンスの境界ボックスがアノテーションされるので、本開示の実施例では、インスタンスの位置情報を予測することができる。
本願の実施例で提供される方法によれば、ターゲットネットワークには、検出ボックスブランチ、遮蔽分類ブランチ、及びMaskブランチが含まれる。検出ボックスブランチによって、インスタンスの分類及び位置決定を実施することができる。即ち、インスタンスのカテゴリラベルと、インスタンスの予測対象画像における具体的な位置とが決定される。
遮蔽分類ブランチ
通常、領域生成ネットワークにおいて512個の候補領域をサンプリングすると、そのうち、128個のみの候補領域が画像の前景を含む。さらに、訓練過程の統計によれば、画像の前景を含むこの128個の候補領域のうち、遮蔽が存在するのは一般に多くとも40個のみの候補領域である。大部分の遮蔽された領域には、通常、1~10個程度の画素のみが含まれる。遮蔽サンプルと非遮蔽サンプルの極端な不均衡は、ネットワークの訓練品質に極めて大きな影響を与える。また、候補領域の特徴を抽出した後、小領域の特徴は非常に目立たない。上記の考慮に基づき、本願の実施例では、遮蔽領域の面積が境界ボックスの面積の所定のパーセンテージよりも大きい候補領域を遮蔽サンプルとして選択する。一実施例において、所定のパーセンテージの値は、5%であってもよい。本願の実施例は、これに対して特に限定しない。
上記の説明に基づき、一実施例において、上記ステップ1703-1における第1特徴マップを第2ブランチ構造に入力して処理することにより、この候補領域に含まれるインスタンスの遮蔽分類情報を取得することは、第2ブランチ構造に基づいて、この候補領域に含まれるインスタンスの遮蔽された面積がターゲット閾値に達したか否かを決定するステップと、この候補領域に含まれるインスタンスの遮蔽された面積がターゲット閾値に達した場合、この候補領域に含まれるインスタンスの遮蔽分類情報を「遮蔽されている」と決定するステップと、を含むが、これらに限定されない。また、遮蔽されている場合、いくつのインスタンスにより遮蔽されているか、及びインスタンスの相対的な遮蔽順番のような、具体的な遮蔽状況の説明を提供してもよい。本願の実施例は、これに対して特に限定しない。
ここで、ターゲット閾値は、境界ボックスの面積の5%であってもよい。本願の実施例は、これに対して特に限定しない。
一実施例では、図5を参照すると、第1特徴マップを第2ブランチ構造に入力して処理する前に、まず、第1特徴マップを第1全結合層に入力して処理し、その後、第1全結合層で処理された第1特徴マップを第2ブランチ構造に入力して処理する。
一実施例において、遮蔽分類ブランチの構造は、検出ボックスブランチにおける分類ブランチの構造と一致しており、最後の層のみにおいて、「遮蔽されている」と「遮蔽されていない」との二項分類が行われる。一実施例において、分類ブランチは、4つの畳み込み層及び1つのFC層を含むが、遮蔽分類ブランチは、同様に4つの畳み込み層及び1つのFC層を含み、それ以外に、1つの二項分類softmax層をさらに含む。
本願の実施例で提供される方法によれば、ターゲットネットワークには、検出ボックスブランチ、遮蔽分類ブランチ、及びMaskブランチが含まれる。遮蔽分類ブランチによって、インスタンスの遮蔽分類情報を効果的に決定することができ、即ち、インスタンスが遮蔽されているか、又は遮蔽されていないかを効果的に決定することができる。
マルチブランチ特徴融合
遮蔽分類ブランチによって、ターゲットネットワークは、効果的な遮蔽特徴を抽出することができる。本願の実施例では、ターゲットネットワークの透視マスク又は非透視マスクの予測能力をさらに強化するために、マルチブランチ符号化モジュールが特徴融合を行うことにより、マスク予測におけるグローバル情報を拡大することが提案されている。ここで、Maskブランチは、精細な画素レベルのマスク予測を行うことを目的としている。検出ボックスブランチ及び遮蔽分類ブランチの特徴情報は、グローバルな指導情報としてMaskブランチを指導することができる。
一実施例において、マルチブランチ符号化モジュールの構造は、図6に示すとおりである。まず、遮蔽分類ブランチの特徴情報と検出ボックスブランチの特徴情報とを連結(CONCAT)し、連結後、1つの逆畳み込み層(DECONV)と2つの畳み込み層(CONV)とを含む更なる融合を行い、その後、融合された特徴情報とMaskブランチの特徴情報とを連結してから、3つの畳み込み層を含む融合を行い、最後に融合された特徴情報を透視マスク又は非透視マスクの予測に使用する。
上記の説明から分かるように、一実施例において、上記ステップ1703-2における第1特徴マップ、第2特徴マップ、及び第3特徴マップに対して特徴融合処理を行うことは、
第1特徴マップと第2特徴マップとの連結処理を行うことにより、第1中間特徴マップを取得するステップと、第1中間特徴マップを1つの逆畳み込み層及び2つの畳み込み層で順次処理することにより、第2中間特徴マップを取得するステップと、第2中間特徴マップと第3特徴マップとの連結処理を行うことにより、第3中間特徴マップを取得し、第3中間特徴マップを3つの畳み込み層で順次処理することにより、融合特徴マップを取得するステップと、を含むが、これらに限定されない。
ここで、上記融合特徴マップは、図6の五角形記号に対応している。畳み込み操作では、特徴の空間的次元が保持されるが、逆畳み込み操作では、特徴の空間的次元が増大される。
また、上記ステップ1703-2における取得された融合特徴マップを第1ブランチ構造に入力することにより、候補領域に含まれるインスタンスの遮蔽された不可視部分を取得することは、ステップaとステップbとを含むが、これらに限定されない。
ステップaでは、融合特徴マップを第1逆畳み込み層に入力して処理することにより、第1処理特徴マップを取得する。
本ステップでは、逆畳み込み操作を用いて、特徴空間の次元を増加させ、即ち、解像度を向上させる。
ステップbでは、第1処理特徴マップを、第1ブランチ構造に含まれる第1マスクブランチに入力し、この候補領域に含まれるインスタンスが、遮蔽されたインスタンスである場合、この候補領域に含まれるインスタンスの非透視マスクを取得する。
ここで、この非透視マスクに基づいて、この候補領域に含まれるインスタンスの遮蔽された不可視部分を決定することができる。
他の可能な実施形態において、本願の実施例で提供される方法は、ステップcとステップdとをさらに含む。
ステップcでは、融合特徴マップを第2逆畳み込み層に入力して処理することにより、第2処理特徴マップを取得する。
ステップdでは、第2処理特徴マップを、第1ブランチ構造に含まれる第2マスクブランチに入力することにより、この候補領域に含まれるインスタンスの透視マスクを取得する。
ここで、この透視マスクに基づいて、この候補領域に含まれるインスタンスの全体的な構造を決定することができる。ここで、全体的な構造は、可視部分と不可視部分とを含む。
一実施例において、Maskブランチの構造は、検出ボックスブランチにおける分類ブランチの構造と一致してもよい。例えば、Maskブランチにおける透視セグメンテーションブランチ及び非透視セグメンテーションブランチは、いずれも、4つの畳み込み層を含む。本願の実施例は、これに対して特に限定しない。
本願の実施例で提供される方法では、マルチブランチ融合によって、ターゲットネットワークが透視インスタンスセグメンテーションをより良く推理することを可能にする。
他の実施例において、本願の実施例で提供される画像処理方法の適用シナリオは、下記の2種類を含むが、これらに限定されない。
例1:本願の実施例で提供される透視インスタンスセグメンテーションは、無人運転シナリオに適用することができる。
このシナリオに関しては、無人運転車両が走行状態にある場合、無人運転車両に搭載されたカメラは、図8、図10、図12、及び図13に示すようなストリートスケープ画像をリアルタイムで撮影することができる。撮影されたストリートスケープ画像には、走行中の車両、静止している車両、歩行者、バイカーなどが含まれる可能性がある。視野範囲の影響により、現在のストリートスケープ画像には、他のインスタンスによって遮蔽されているインスタンスがある場合がある。遮断された部分は、不可視であり、即ち視線が届かないため、遮蔽されたインスタンスを無人運転車両が適時に回避できないなど、無人運転に悪影響を及ぼす恐れがある。
本開示の実施例で提供される透視インスタンスセグメンテーションタスクは、無人運転システムが精確な運転制御戦略を実行するのを補助することができる。例えば、透視インスタンスセグメンテーションによれば、無人運転システムが、ストリートスケープ画像における遮蔽されたインスタンスの可視部分を取得すると、さらに、この可視部分に基づいてこのインスタンスの不可視部分を推理し、即ち、このインスタンスの構造全体を取得するのを補助することができる。これにより、無人運転システムにおける検出信号のジッターの発生を効果的に低減することができ、現在の道路状況に応じて無人運転車両が運転制御戦略を精確に実行することを実現することができる。
例2:本願の実施例で提供される透視インスタンスセグメンテーションは、撮影シナリオ又はダウンロードシナリオにも適用することができる。
一実施例において、撮影シナリオは、知能ロボットがタスクを実行するときの撮影シナリオであってもよい。即ち、本開示の実施例で提供される透視インスタンスセグメンテーションタスクは、知能ロボットシナリオにも適用することができる。知能ロボットが清掃タスクを実行する場合を例にすると、知能ロボットに配置されたカメラは、前方の画像をリアルタイムで撮影することができる。撮影された画像には、知能ロボットの行動に影響を与える障害物が含まれる場合がある。上述した図8、図10、図12、及び図13に示された遮蔽状況と類似して、図20を参照すると、撮影された画像には、他の障害物によって遮蔽されている障害物がある場合がある。遮断された部分は、不可視であり、即ち視線が届かないため、知能ロボットが清掃タスクを実行することに悪影響を及ぼす恐れがある。しかしながら、本開示の実施例で提供される透視インスタンスセグメンテーションタスクは、インスタンスの可視部分に基づいて、遮蔽された不可視部分を推断することができるので、知能ロボットが清掃タスクを実施するのを効果的に補助することができる。
ダウンロードシナリオに関しては、ダウンロードされた画像における一部の人や物が他の人や物に遮蔽されている場合がある。又は、ネットワーク上の理由により、ダウンロードされた画像には、有効な情報の一部しか含まれておらず、他の部分の情報が失われてしまう場合がある。ほとんどの場合、ユーザは、完全なターゲットを見ることを望む。本開示の実施例で提供される透視インスタンスセグメンテーションタスクは、インスタンスの可視部分に基づいて、その不可視部分を推断することができるので、ユーザが完全なターゲットを見るのを助けることを実現することができる。
換言すると、本願の実施例で提供される画像処理方法は、自然画像に含まれる高度なセマンティック構造のターゲットにおいて優れている。
以上のように、上記で提供された画像処理方法は、適用シナリオが幅広く、上記2種類のシナリオだけでなく、他のシナリオにも適用可能であり、異なるタイプの訓練データを提供して訓練するだけでよい。
理解すべきものとして、上述した各実施例のフローチャートにおける各ステップは、矢印の指示に従って順次示されているが、これらのステップは、必ずしも矢印で示される順序に従って順次実行されるとは限らない。本明細書で明確に説明されない限り、これらのステップの実行順序には、厳しい制限がない。これらのステップは、他の順序で実行されてもよい。また、上述した各実施例における少なくとも一部のステップは、複数のサブステップ又は複数の段階を含んでもよい。これらのサブステップ又は段階は、必ずしも同一の時刻に実行完了するとは限らず、異なる時刻に実行されてもよい。これらのサブステップ又は段階の実行順序も、必ずしも順次に実行するとは限らず、他のステップ、あるいは、他のステップのサブステップ又は段階の少なくとも一部と代わる代わる又は交代で実行されてもよい。図21は、本願の実施例で提供される画像処理装置の構成の模式図である。この装置は、上述した実施例の画像処理機器に設置してもよい。図21を参照すると、この装置は、
予測対象画像を取得する取得モジュール2101と、
予測対象画像に対して特徴抽出を行うことにより、予測対象画像の特徴マップを取得する特徴抽出モジュール2102と、
予測対象画像の少なくとも1つの候補領域を生成する生成モジュール2103と、
少なくとも1つの候補領域を予測対象画像の特徴マップにマッピングするマッピングモジュール2104であって、それぞれの候補領域には、1つのインスタンスが含まれるマッピングモジュール2104と、
ターゲットネットワークに基づいて、マッピング後の特徴マップを処理し、予測対象画像における遮蔽されたインスタンスの全体的な構造を透視マスクで指示し、遮蔽されたインスタンスの不可視部分を非透視マスクで指示する処理モジュール2105であって、透視マスク及び非透視マスクは、遮蔽されたインスタンスの相対的な遮蔽関係を示す、処理モジュール2105と、を含む。
本願の実施例で提供される装置では、予測対象画像を取得した後、まず、予測対象画像に対して特徴抽出を行い、予測対象画像の少なくとも1つの候補領域を生成し、次に、少なくとも1つの候補領域を予測対象画像の特徴マップにマッピングし(それぞれの候補領域には、1つのインスタンスが含まれる)、続いて、ターゲットネットワークに基づいて、マッピング後の特徴マップを処理することにより、インスタンスの全体的な構造を透視マスクで指示し、インスタンスの遮蔽された不可視部分を非透視マスクで指示することを実現する。ターゲットネットワークが、特徴マップを処理することにより、インスタンスの透視マスク及び非透視マスクを提供しているので、本願の実施例は、インスタンスの全体的な構造を精確に決定できるだけではなく、インスタンスの遮蔽された不可視部分を精確に決定できる。即ち、ターゲットネットワークは、人間の視覚に類似した推理能力を有し、透視インスタンスセグメンテーションを合理的に推理することができる。したがって、このような画像処理方式は、インテリジェンスが高く、画像処理方式を豊富にした。
一実施例において、処理モジュール2105は、さらに、候補領域ごとに、候補領域に対して画素補正処理を行うことにより、候補領域の特徴マップを取得し、
ここで、候補領域の特徴マップは、第1特徴マップ、第2特徴マップ、及び第3特徴マップを含み、第1特徴マップのサイズと第2特徴マップのサイズとは、一致しており、且つ第3特徴マップのサイズより小さい。
一実施例において、処理モジュール2105は、さらに、候補領域ごとに、第1特徴マップ、第2特徴マップ、及び第3特徴マップに対して特徴融合処理を行い、取得された融合特徴マップをターゲットネットワークの第1ブランチ構造に入力して処理する。
一実施例において、ターゲットネットワークは、第2ブランチ構造をさらに含み、処理モジュール2105は、さらに、候補領域ごとに、第1特徴マップを第2ブランチ構造に入力して処理することにより、候補領域に含まれるインスタンスの遮蔽分類情報を取得する。
一実施例において、ターゲットネットワークは、第3ブランチ構造をさらに含み、処理モジュール2105は、さらに、候補領域ごとに、第2特徴マップを第3ブランチ構造に入力して処理することにより、候補領域に含まれるインスタンスのセマンティックラベル及び位置情報を取得する。
一実施例において、処理モジュール2105は、さらに、第1特徴マップと第2特徴マップとの連結処理を行うことにより、第1中間特徴マップを取得し、第1中間特徴マップを1つの逆畳み込み層及び2つの畳み込み層で順次処理することにより、第2中間特徴マップを取得し、第2中間特徴マップと第3特徴マップとの連結処理を行うことにより、第3中間特徴マップを取得し、第3中間特徴マップを3つの畳み込み層で順次処理することにより、融合特徴マップを取得する。
一実施例において、処理モジュール2105は、さらに、融合特徴マップを第1逆畳み込み層に入力して処理することにより、第1処理特徴マップを取得し、第1処理特徴マップを、第1ブランチ構造に含まれる第1マスクブランチに入力し、候補領域に含まれるインスタンスが、遮蔽されたインスタンスである場合、候補領域に含まれるインスタンスの非透視マスクを取得する。
一実施例では、処理モジュール2105は、さらに、融合特徴マップを第2逆畳み込み層に入力して処理することにより、第2処理特徴マップを取得し、第2処理特徴マップを、第1ブランチ構造に含まれる第2マスクブランチに入力することにより、候補領域に含まれるインスタンスの透視マスクを取得する。
一実施例において、処理モジュール2105は、さらに、第2ブランチ構造に基づいて、候補領域に含まれるインスタンスの遮蔽された面積がターゲット閾値に達したか否かを決定し、候補領域に含まれるインスタンスの遮蔽された面積がターゲット閾値に達した場合、候補領域に含まれるインスタンスの遮蔽分類情報を「遮蔽されている」と決定する。
一実施例において、処理モジュール2105は、さらに、第1特徴マップを第1全結合層に入力して処理し、第1全結合層で処理された第1特徴マップを第2ブランチ構造に入力して処理する。
一実施例において、処理モジュール2105は、さらに、第2特徴マップを第2全結合層に入力して処理し、第2全結合層で処理された第2特徴マップを、第3ブランチ構造に含まれる分類ブランチに入力して処理することにより、分類情報を取得し、第2特徴マップを第3全結合層に入力して処理し、第3全結合層で処理された第2特徴マップを、第3ブランチ構造に含まれる回帰ブランチに入力して処理することにより、位置情報を取得する。
一実施例において、装置は、
訓練サンプル画像を取得し(訓練サンプル画像におけるそれぞれのインスタンスのアノテーション情報には、少なくとも、カテゴリを指示するためのセマンティックラベルと、相対的な遮蔽順番と、透視マスクとが含まれる)、訓練サンプル画像における遮蔽されたインスタンスの相対的な遮蔽順番及び透視マスクに基づいて、訓練サンプル画像における遮蔽されたインスタンスの非透視マスクを決定し、透視マスク、非透視マスク、及びセマンティックラベルがアノテーションされた訓練サンプル画像に基づいてモデル訓練を行うことにより、ターゲットネットワークを取得する訓練モジュールをさらに含む。
上記の全ての任意選択的な構成を任意に組み合わせて、本開示の任意選択的な実施例を形成することができ、ここではいちいち説明しない。
説明すべきものとして、上記実施例で提供される画像処理装置は、画像処理時に、上記の各機能モジュールの分割のみを例として説明されているが、実際の適用では、必要に応じて、上記の機能を異なる機能モジュールに割り当てて完了し、即ち、装置の内部構成を異なる機能モジュールに分割して、以上に説明した全部又は一部の機能を完了してもよい。また、上記実施例で提供される画像処理装置は、画像処理方法の実施例と同一の構想に属し、その具体的な実現過程の詳しくは、方法の実施例を参照すればよいが、ここでは説明を省略する。
図22は、本願の例示的な一実施例で提供される画像処理機器2200の構成のブロック図を示す。この機器2200は、ポータブル携帯端末、例えば、スマートフォン、タブレットコンピュータ、ムービング・ピクチャー・エクスパーツ・グループ・オーディオレイヤー3(MP3:Moving Picture Experts Group Audio Layer III)プレーヤー、ムービング・ピクチャー・エクスパーツ・グループ・オーディオレイヤー4(MP4:Moving Picture Experts Group Audio Layer IV)プレーヤー、ノートパソコン、又はデスクトップパソコンであってもよい。機器2200は、ユーザ機器、ポータブル端末、ラップトップ型端末、デスクトップ型端末などの他の名称と呼ばれる可能性もある。
通常、機器2200は、プロセッサ2201とメモリ2202とを備える。
プロセッサ2201は、1つ又は複数の処理コアを含んでもよく、例えば、4コアプロセッサ、8コアプロセッサなどである。プロセッサ2201は、デジタル信号プロセッサ(DSP:Digital Signal Processor)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)、プログラマブルロジックアレイ(PLA:Programmable Logic Array)のうちの少なくとも1つのハードウェアの形で実現されてもよい。プロセッサ2201は、メインプロセッサとコプロセッサとを含んでもよい。メインプロセッサは、ウェイク状態でのデータを処理するためのプロセッサであり、中央処理装置(CPU:Central Processing Unit)とも呼ばれる。コプロセッサは、スタンバイ状態でのデータを処理するための低消費電力プロセッサである。いくつかの実施例では、プロセッサ2201には、グラフィック処理ユニット(GPU:Graphics Processing Unit)が組み込まれてもよい。GPUは、ディスプレイに表示しようとするコンテンツのレンダリング及び描画を担当する。いくつかの実施例では、プロセッサ2201は、機械学習に関する演算操作を処理するための人工知能(AI:Artificial Intelligence)プロセッサを含んでもよい。
メモリ2202は、1つ又は複数のコンピュータ読み取り可能な記憶媒体を含んでもよい。該コンピュータ読み取り可能な記憶媒体は、非一時的であってもよい。メモリ2202は、高速ランダムアクセスメモリ、及び不揮発性メモリ、例えば、1つ又は複数のディスク記憶装置、フラッシュメモリ記憶装置を含んでもよい。いくつかの実施例において、メモリ2202内の非一時的なコンピュータ読み取り可能な記憶媒体は、少なくとも1つのコンピュータ読み取り可能な命令を記憶する。該少なくとも1つのコンピュータ読み取り可能な命令は、プロセッサ2201によって実行されると、本願の方法の実施例で提供される画像処理方法を実現させる。
いくつかの実施例において、機器2200は、任意選択的に、周辺機器インタフェース2203及び少なくとも1つの周辺機器をさらに含む。プロセッサ2201、メモリ2202、及び周辺機器インタフェース2203の間には、バス又は信号線を介して接続されてもよい。各周辺機器は、バス、信号線、又は回路基板を介して、周辺機器インタフェース2203に接続されてもよい。具体的には、周辺機器は、無線周波数回路2204、タッチディスプレイ2205、カメラコンポーネント2206、オーディオ回路2207、測位コンポーネント2208、及び電源2209のうちの少なくとも1つを含む。
周辺機器インタフェース2203は、入出力(I/O:Input/Output)に関する少なくとも1つの周辺機器をプロセッサ2201とメモリ2202とに接続するために用いられてもよい。いくつかの実施例において、プロセッサ2201、メモリ2202、及び周辺機器インタフェース2203は、同一のチップ又は回路基板上に集積される。いくつかの他の実施例において、プロセッサ2201、メモリ2202、及び周辺機器インタフェース2203のいずれか1つ又は2つが、個別のチップ又は回路基板上で実現されてもよく、本実施例はこれを限定しない。
無線周波数回路2204は、電磁信号とも呼ばれる無線周波数(RF:Radio Frequency)信号を送受信する。無線周波数回路2204は、電磁信号により通信ネットワーク及び他の通信機器と通信を行う。無線周波数回路2204は、電気信号を電磁信号に変換して送信したり、受信された電磁信号を電気信号に変換したりする。
ディスプレイ2205は、ユーザインタフェース(UI:User Interface)を表示する。該UIは、図形、テキスト、アイコン、ビデオ、及びこれらの任意の組み合わせを含んでもよい。ディスプレイ2205がタッチディスプレイである場合、ディスプレイ2205は、ディスプレイ2205の表面又は表面の上方のタッチ信号を収集する能力も有する。該タッチ信号は、制御信号としてプロセッサ2201に入力されて処理されてもよい。この場合、ディスプレイ2205は、ソフトボタン及び/又はソフトキーボードとも呼ばれる仮想ボタン及び/又は仮想キーボードを提供するために用いられてもよい。いくつかの実施例において、ディスプレイ2205は、1つであってもよく、機器2200のフロントパネルに設けられてもよい。別のいくつかの実施例において、ディスプレイ2205は、少なくとも2つであってもよく、それぞれ機器2200の異なる表面に設けられたり、折り畳まれるように設計されたりしてもよい。他のいくつかの実施例において、ディスプレイ2205は、機器2200の湾曲面又は折り畳み面に設けられるフレキシブルなディスプレイであってもよい。ひいては、ディスプレイ2205は、非矩形の不規則な図形、即ち異形ディスプレイに設けられてもよい。ディスプレイ2205は、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機発光ダイオード(OLED:Organic Light-Emitting Diode)などの材質を用いて製造されてもよい。
カメラコンポーネント2206は、画像又はビデオを収集する。任意選択的に、カメラコンポーネント2206は、フロントカメラとリアカメラとを含む。一般的に、フロントカメラは、端末のフロントパネルに設けられ、リアカメラは、端末の背面に設けられる。いくつかの実施例において、リアカメラは、少なくとも2つあり、それぞれメインカメラ、デプスカメラ、広角カメラ、望遠カメラのうちの任意の1種類である。これにより、メインカメラ及びデプスカメラを組み合わせて実現される背景ボケの機能、メインカメラ及び広角カメラを組み合わせて実現されるパノラマ撮影及び仮想現実(VR:Virtual Reality)撮影の機能、又はその他の組み合わせ撮影の機能を実現する。いくつかの実施例では、カメラコンポーネント2206は、フラッシュをさらに含んでもよい。
オーディオ回路2207は、マイクロホン及びスピーカーを含んでもよい。マイクロホンは、ユーザ及び環境の音波を収集し、音波を電気信号に変換し、電気信号を、処理のためにプロセッサ2201に入力するか、又は、音声通信を実現するために無線周波数回路2204に入力する。マイクロホンは、ステレオ収集又はノイズ低減のために、複数であってもよく、機器2200の異なる部位にそれぞれ設けられてもよい。
測位コンポーネント2208は、ナビゲーション又は位置情報サービス(LBS:Location Based Service)を実現するために、機器2200の現在の地理的位置を測位する。
電源2209は、機器2200内の各コンポーネントに電力を供給する。
いくつかの実施例において、機器2200は、1つ又は複数のセンサ2210をさらに含む。該1つ又は複数のセンサ2210は、加速度センサ2211、ジャイロセンサ2212、圧力センサ2213、指紋センサ2214、光学センサ2215、及び近接センサ2216を含むが、これらに限定されない。
加速度センサ2211は、機器2200で確立された座標系の3つの座標軸上の加速度の大きさを検出することができる。
ジャイロセンサ2212は、機器2200の機体の方向及び回転角度を検出することができる。ジャイロセンサ2212は、加速度センサ2211と協働して、機器2200に対するユーザの3D動作を収集することができる。
圧力センサ2213は、機器2200のサイドフレーム及び/又はタッチディスプレイ2205の下に設けられてもよい。
指紋センサ2214は、ユーザの指紋を収集する。プロセッサ2201が、指紋センサ2214で収集された指紋に基づいて、ユーザのアイデンティティを識別し、又は、指紋センサ2214が、収集された指紋に基づいて、ユーザのアイデンティティを識別する。
光学センサ2215は、環境光の強度を収集する。
近接センサ2216は、距離センサとも呼ばれ、通常、機器2200のフロントパネルに設けられる。近接センサ2216は、ユーザと機器2200の正面との距離を収集する。
当業者であれば理解できるように、図22に示された構成が、機器2200を限定するものではなく、機器2200は、図示より多く又は少ないコンポーネントを含んでもよく、あるいはいくらかのコンポーネントを組み合わせたものであってもよく、あるいはコンポーネントの異なる配置を採用してもよい。
図23は、本願の実施例で提供される画像処理機器の構成の模式図である。この機器2300は、スペック又は性能によって大きく異なる場合があり、1つ又は複数のプロセッサ(CPU:central processing units)2301と、1つ又は複数のメモリ2302とを含んでもよい。ここで、メモリ2302には、少なくとも1つのコンピュータ読み取り可能な命令が記憶されており、少なくとも1つのコンピュータ読み取り可能な命令は、プロセッサ2301によってロードされて実行されると、上記した各方法の実施例で提供される画像処理方法を実現させる。もちろん、この機器2300は、入出力のために、有線又は無線のネットワークインタフェース、キーボード、及び入出力インタフェースなどの構成要素を有してもよい。この機器2300は、機器の機能を実現するための他の構成要素をさらに含んでもよく、ここでは説明を省略する。
例示的な実施例では、コンピュータ読み取り可能な命令が含まれるメモリのようなコンピュータ読み取り可能な記憶媒体も提供されている。上記コンピュータ読み取り可能な命令は、画像処理機器内のプロセッサによって実行されて、上記実施例における画像処理方法を実現させることが可能である。例えば、コンピュータ読み取り可能な記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピーディスク、及び光データ記憶装置などであってもよい。
当業者であれば理解できるように、上記実施例を実現するためのステップの全部又は一部は、ハードウェアによって実行されてもよいし、プログラムを介して関連ハードウェアに指示することにより実行されてもよい。プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。上記で言及された記憶媒体は、読み出し専用メモリ、磁気ディスク、又は光ディスクなどであってもよい。
上記は、本願の好ましい実施例に過ぎず、本願の保護範囲を限定するものではない。本願の精神および原則内で行われる種々の修正、均等置換え、改善などは全て本願の保護範囲内に含まれるべきである。

Claims (15)

  1. 画像処理機器が実行する画像処理方法であって、
    予測対象画像を取得し、前記予測対象画像に対して特徴抽出を行うことにより、前記予測対象画像の特徴マップを取得するステップと、
    前記予測対象画像の少なくとも1つの候補領域を生成し、前記少なくとも1つの候補領域を前記予測対象画像の特徴マップにマッピングするステップであって、それぞれの前記候補領域には、1つのインスタンスが含まれる、ステップと、
    ターゲットネットワークに基づいて、マッピング後の前記特徴マップを処理し、前記予測対象画像における遮蔽されたインスタンスの全体的な構造を透視マスクで指示し、前記遮蔽されたインスタンスの不可視部分を非透視マスクで指示するステップであって、前記透視マスク及び前記非透視マスクは、前記遮蔽されたインスタンスの相対的な遮蔽関係を示す、ステップと、
    を含むことを特徴とする方法。
  2. 前記少なくとも1つの候補領域を前記予測対象画像の特徴マップにマッピングした後、
    前記候補領域ごとに、前記候補領域に対して画素補正処理を行うことにより、前記候補領域の特徴マップを取得するステップをさらに含み、
    前記候補領域の特徴マップは、第1特徴マップ、第2特徴マップ、及び第3特徴マップを含み、前記第1特徴マップのサイズと前記第2特徴マップのサイズとは、一致しており、且つ前記第3特徴マップのサイズより小さい、
    ことを特徴とする請求項1に記載の方法。
  3. ターゲットネットワークに基づいて、マッピング後の前記特徴マップを処理することは、
    前記候補領域ごとに、前記第1特徴マップ、前記第2特徴マップ、及び前記第3特徴マップに対して特徴融合処理を行うステップと、
    取得された融合特徴マップを前記ターゲットネットワークの第1ブランチ構造に入力して処理するステップと、
    を含むことを特徴とする請求項2に記載の方法。
  4. 前記ターゲットネットワークは、第2ブランチ構造を含み、
    前記方法は、前記候補領域ごとに、前記第1特徴マップを前記第2ブランチ構造に入力して処理することにより、前記候補領域に含まれるインスタンスの遮蔽分類情報を取得するステップをさらに含む、
    ことを特徴とする請求項2又は3に記載の方法。
  5. 前記ターゲットネットワークは、第3ブランチ構造を含み、
    前記方法は、前記候補領域ごとに、前記第2特徴マップを前記第3ブランチ構造に入力して処理することにより、前記候補領域に含まれるインスタンスのセマンティックラベル及び位置情報を取得するステップをさらに含む、
    ことを特徴とする請求項2乃至4のいずれか1項に記載の方法。
  6. 前記第1特徴マップ、前記第2特徴マップ、及び前記第3特徴マップに対して特徴融合処理を行うことは、
    前記第1特徴マップと前記第2特徴マップとの連結処理を行うことにより、第1中間特徴マップを取得するステップと、
    前記第1中間特徴マップを1つの逆畳み込み層及び2つの畳み込み層で順次処理することにより、第2中間特徴マップを取得するステップと、
    前記第2中間特徴マップと前記第3特徴マップとの連結処理を行うことにより、第3中間特徴マップを取得し、前記第3中間特徴マップを3つの畳み込み層で順次処理することにより、前記融合特徴マップを取得するステップと、
    を含むことを特徴とする請求項3乃至5のいずれか1項に記載の方法。
  7. 取得された融合特徴マップを前記ターゲットネットワークの第1ブランチ構造に入力して処理する前記ステップは、
    前記融合特徴マップを第1逆畳み込み層に入力して処理することにより、第1処理特徴マップを取得するステップと、
    前記第1処理特徴マップを、前記第1ブランチ構造に含まれる第1マスクブランチに入力することにより、前記候補領域に含まれるインスタンスが、遮蔽されたインスタンスである場合、前記候補領域に含まれるインスタンスの非透視マスクを取得するステップと、
    を含むことを特徴とする請求項3乃至6のいずれか1項に記載の方法。
  8. 取得された融合特徴マップを前記ターゲットネットワークの第1ブランチ構造に入力して処理する前記ステップは、
    前記融合特徴マップを第2逆畳み込み層に入力して処理することにより、第2処理特徴マップを取得するステップと、
    前記第2処理特徴マップを、前記第1ブランチ構造に含まれる第2マスクブランチに入力することにより、前記候補領域に含まれるインスタンスの透視マスクを取得するステップと、
    をさらに含むことを特徴とする請求項7に記載の方法。
  9. 前記第1特徴マップを前記第2ブランチ構造に入力して処理することにより、前記候補領域に含まれるインスタンスの遮蔽分類情報を取得することは、
    前記第2ブランチ構造と前記第1特徴マップとに基づいて、前記候補領域に含まれるインスタンスの遮蔽された面積がターゲット閾値に達したか否かを決定するステップと、
    前記候補領域に含まれるインスタンスの遮蔽された面積が前記ターゲット閾値に達した場合、前記候補領域に含まれるインスタンスの遮蔽分類情報を「遮蔽されている」と決定するステップと、
    を含むことを特徴とする請求項4に記載の方法。
  10. 前記第1特徴マップを前記第2ブランチ構造に入力して処理することは、
    前記第1特徴マップを第1全結合層に入力して処理するステップと、
    前記第1全結合層で処理された前記第1特徴マップを前記第2ブランチ構造に入力して処理するステップと、
    を含むことを特徴とする請求項4に記載の方法。
  11. 前記第2特徴マップを前記第3ブランチ構造に入力して処理することは、
    前記第2特徴マップを第2全結合層に入力して処理するステップと、
    前記第2全結合層で処理された前記第2特徴マップを、前記第3ブランチ構造に含まれる分類ブランチに入力して処理することにより、前記候補領域に含まれるインスタンスのセマンティックラベルを取得するステップと、
    前記第2特徴マップを第3全結合層に入力して処理するステップと、
    前記第3全結合層で処理された前記第2特徴マップを、前記第3ブランチ構造に含まれる回帰ブランチに入力して処理することにより、前記位置情報を取得するステップと、
    を含むことを特徴とする請求項5に記載の方法。
  12. 訓練サンプル画像を取得するステップであって、前記訓練サンプル画像におけるそれぞれのインスタンスのアノテーション情報には、少なくとも、カテゴリを指示するためのセマンティックラベルと、相対的な遮蔽順番と、透視マスクとが含まれる、ステップと、
    前記訓練サンプル画像における遮蔽されたインスタンスの相対的な遮蔽順番及び透視マスクに基づいて、前記訓練サンプル画像における遮蔽されたインスタンスの非透視マスクを決定するステップと、
    前記透視マスクと、前記非透視マスクと、前記セマンティックラベルとがアノテーションされた訓練サンプル画像に基づいてモデル訓練を行うことにより、前記ターゲットネットワークを取得するステップと、
    をさらに含むことを特徴とする請求項1乃至11のいずれか1項に記載の方法。
  13. 画像処理機器に設置された画像処理装置であって、
    予測対象画像を取得する取得モジュールと、
    前記予測対象画像に対して特徴抽出を行うことにより、前記予測対象画像の特徴マップを取得する特徴抽出モジュールと、
    前記予測対象画像の少なくとも1つの候補領域を生成する生成モジュールと、
    前記少なくとも1つの候補領域を前記予測対象画像の特徴マップにマッピングするマッピングモジュールであって、それぞれの前記候補領域には、1つのインスタンスが含まれる、マッピングモジュールと、
    ターゲットネットワークに基づいて、マッピング後の前記特徴マップを処理し、前記予測対象画像における遮蔽されたインスタンスの全体的な構造を透視マスクで指示し、前記遮蔽されたインスタンスの不可視部分を非透視マスクで指示する処理モジュールであって、前記透視マスク及び前記非透視マスクは、前記遮蔽されたインスタンスの相対的な遮蔽関係を示す、処理モジュールと、
    を含むことを特徴とする画像処理装置。
  14. 請求項1乃至12のいずれか1項に記載の画像処理方法をコンピュータに実現させる、ことを特徴とするコンピュータプログラム。
  15. 1つ又は複数のプロセッサとメモリとを含み、前記メモリには、少なくとも1つのコンピュータ読み取り可能な命令が記憶されており、前記少なくとも1つのコンピュータ読み取り可能な命令は、前記1つ又は複数のプロセッサによってロードされて実行されると、請求項1乃至12のいずれか1項に記載の画像処理方法を実現させる、ことを特徴とする画像処理機器。
JP2021536061A 2019-04-25 2020-03-30 画像処理方法、画像処理装置、コンピュータプログラム、及び画像処理機器 Active JP7248799B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910338835.0 2019-04-25
CN201910338835.0A CN110070056B (zh) 2019-04-25 2019-04-25 图像处理方法、装置、存储介质及设备
PCT/CN2020/082109 WO2020216008A1 (zh) 2019-04-25 2020-03-30 图像处理方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
JP2022514917A true JP2022514917A (ja) 2022-02-16
JP7248799B2 JP7248799B2 (ja) 2023-03-29

Family

ID=67368922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021536061A Active JP7248799B2 (ja) 2019-04-25 2020-03-30 画像処理方法、画像処理装置、コンピュータプログラム、及び画像処理機器

Country Status (6)

Country Link
US (1) US20210279503A1 (ja)
EP (1) EP3961485A4 (ja)
JP (1) JP7248799B2 (ja)
KR (1) KR102677044B1 (ja)
CN (1) CN110070056B (ja)
WO (1) WO2020216008A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023131087A (ja) * 2022-03-08 2023-09-21 クヮンジュ・インスティテュート・オブ・サイエンス・アンド・テクノロジー 階層的オクルージョン推論モジュール並びにこれを用いた不可視物体インスタンスセグメンテーションのシステム及び方法

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070056B (zh) * 2019-04-25 2023-01-10 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质及设备
CN110766007B (zh) * 2019-10-28 2023-09-22 深圳前海微众银行股份有限公司 证件遮挡检测方法、装置、设备及可读存储介质
CN110866897B (zh) * 2019-10-30 2022-10-14 上海联影智能医疗科技有限公司 一种图像检测方法及计算机可读存储介质
CN110929651B (zh) * 2019-11-25 2022-12-06 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
EP3832491A1 (en) * 2019-12-06 2021-06-09 Idemia Identity & Security France Methods for processing a plurality of candidate annotations of a given instance of an image, and for learning parameters of a computational model
CN113469173A (zh) * 2020-03-31 2021-10-01 珠海格力电器股份有限公司 一种信号灯遮挡检测方法、装置、终端及计算机可读介质
CN113468931B (zh) * 2020-03-31 2022-04-29 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及存储介质
CN111598133B (zh) * 2020-04-22 2022-10-14 腾讯医疗健康(深圳)有限公司 基于人工智能的图像显示方法、装置、***、设备及介质
US11494933B2 (en) * 2020-06-30 2022-11-08 Ncr Corporation Occluded item detection for vision-based self-checkouts
CN111899204B (zh) * 2020-07-30 2024-04-09 平安科技(深圳)有限公司 车损检测数据合成方法、装置及存储介质
CN112417967B (zh) * 2020-10-22 2021-12-14 腾讯科技(深圳)有限公司 障碍物检测方法、装置、计算机设备和存储介质
TWI786463B (zh) * 2020-11-10 2022-12-11 中華電信股份有限公司 適用於全景影像的物件偵測裝置和物件偵測方法
CN112489060B (zh) * 2020-12-07 2022-05-10 北京医准智能科技有限公司 一种用于肺炎病灶分割的***及方法
CN112843730A (zh) * 2020-12-31 2021-05-28 上海米哈游天命科技有限公司 一种拍摄方法、装置、设备及存储介质
CN113033334B (zh) * 2021-03-05 2024-07-02 北京字跳网络技术有限公司 图像处理方法、装置、电子设备、介质
CN113222830A (zh) * 2021-03-05 2021-08-06 北京字跳网络技术有限公司 图像处理方法和装置
CN112967197A (zh) * 2021-03-05 2021-06-15 北京字跳网络技术有限公司 图像处理方法、装置、电子设备、介质和计算机程序产品
CN112967200A (zh) * 2021-03-05 2021-06-15 北京字跳网络技术有限公司 图像处理方法、装置、电子设备、介质和计算机程序产品
CN112967198A (zh) * 2021-03-05 2021-06-15 北京字跳网络技术有限公司 图像处理方法和装置
KR102496769B1 (ko) * 2021-04-08 2023-02-06 고려대학교 산학협력단 분류 결과 설명이 가능한 반 사실적 맵 생성 방법 및 그 장치
CN113205546A (zh) * 2021-04-30 2021-08-03 四川云从天府人工智能科技有限公司 获得目标车辆运动轨迹的方法、***、介质及设备
CN113256656A (zh) * 2021-05-28 2021-08-13 北京达佳互联信息技术有限公司 图像分割方法和装置
US20220414887A1 (en) * 2021-06-25 2022-12-29 Honda Motor Co., Ltd. Systems and methods for birds eye view segmentation
CN113695256B (zh) * 2021-08-18 2023-05-23 国网江苏省电力有限公司电力科学研究院 一种电网异物检测识别方法及装置
CN113537173B (zh) * 2021-09-16 2022-03-18 中国人民解放军国防科技大学 一种基于面部补丁映射的人脸图像真伪识别方法
GB202204204D0 (en) * 2022-03-24 2022-05-11 Supponor Tech Limited Image processing method and apparatus
GB202204205D0 (en) * 2022-03-24 2022-05-11 Supponor Tech Limited Image processing method and apparatus
CN115331245B (zh) * 2022-10-12 2023-02-03 中南民族大学 一种基于图像实例分割的表格结构识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180259970A1 (en) * 2017-03-10 2018-09-13 TuSimple System and method for occluding contour detection
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN109389078A (zh) * 2018-09-30 2019-02-26 京东方科技集团股份有限公司 图像分割方法、相应的装置及电子设备

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8269769B1 (en) * 2003-12-22 2012-09-18 Nvidia Corporation Occlusion prediction compression system and method
US7995056B1 (en) * 2003-12-22 2011-08-09 Nvidia Corporation Culling data selection system and method
US10839510B2 (en) * 2015-08-19 2020-11-17 Colorado Seminary, Which Owns And Operates The University Of Denver Methods and systems for human tissue analysis using shearlet transforms
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
CA3017697C (en) * 2016-03-17 2021-01-26 Imagia Cybernetics Inc. Method and system for processing a task with robustness to missing input information
CN106097353B (zh) * 2016-06-15 2018-06-22 北京市商汤科技开发有限公司 基于多层次局部区域融合的物体分割方法及装置、计算设备
WO2018128741A1 (en) * 2017-01-06 2018-07-12 Board Of Regents, The University Of Texas System Segmenting generic foreground objects in images and videos
CN106780536A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于对象掩码网络的形状感知实例分割方法
US10445928B2 (en) * 2017-02-11 2019-10-15 Vayavision Ltd. Method and system for generating multidimensional maps of a scene using a plurality of sensors of various types
CN107704862A (zh) * 2017-11-06 2018-02-16 深圳市唯特视科技有限公司 一种基于语义实例分割算法的视频对象分割方法
CN108875732B (zh) * 2018-01-11 2022-07-12 北京旷视科技有限公司 模型训练与实例分割方法、装置和***及存储介质
CN108805889B (zh) * 2018-05-07 2021-01-08 中国科学院自动化研究所 边缘引导的精细化显著性物体分割方法与***、设备
CN108734211B (zh) * 2018-05-17 2019-12-24 腾讯科技(深圳)有限公司 图像处理的方法和装置
CN108710919A (zh) * 2018-05-25 2018-10-26 东南大学 一种基于多尺度特征融合深度学习的裂缝自动化勾画方法
CN108830220B (zh) * 2018-06-15 2021-01-05 山东大学 基于深度学习的视觉语义库构建及全局定位方法
GB2576322B (en) * 2018-08-13 2022-11-09 Imperial College Innovations Ltd Mapping object instances using video data
CN109325412B (zh) * 2018-08-17 2023-11-24 平安科技(深圳)有限公司 行人识别方法、装置、计算机设备及存储介质
CN109087346B (zh) * 2018-09-21 2020-08-11 北京地平线机器人技术研发有限公司 单目深度模型的训练方法、训练装置和电子设备
CN109242869B (zh) * 2018-09-21 2021-02-02 安徽科大讯飞医疗信息技术有限公司 一种图像实例分割方法、装置、设备及存储介质
JP7052663B2 (ja) * 2018-09-26 2022-04-12 トヨタ自動車株式会社 物体検出装置、物体検出方法及び物体検出用コンピュータプログラム
CN109508720B (zh) * 2018-10-23 2021-04-23 高新兴科技集团股份有限公司 一种车辆颜色识别方法及装置
CN109447169B (zh) * 2018-11-02 2020-10-27 北京旷视科技有限公司 图像处理方法及其模型的训练方法、装置和电子***
CN109543682A (zh) * 2018-11-23 2019-03-29 电子科技大学 一种基于深度学习的指针式仪表读数方法
CN109635740B (zh) * 2018-12-13 2020-07-03 深圳美图创新科技有限公司 视频目标检测方法、装置及图像处理设备
CN109583517A (zh) * 2018-12-26 2019-04-05 华东交通大学 一种适用于小目标检测的增强的全卷积实例语义分割算法
CN110070056B (zh) * 2019-04-25 2023-01-10 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180259970A1 (en) * 2017-03-10 2018-09-13 TuSimple System and method for occluding contour detection
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN109389078A (zh) * 2018-09-30 2019-02-26 京东方科技集团股份有限公司 图像分割方法、相应的装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023131087A (ja) * 2022-03-08 2023-09-21 クヮンジュ・インスティテュート・オブ・サイエンス・アンド・テクノロジー 階層的オクルージョン推論モジュール並びにこれを用いた不可視物体インスタンスセグメンテーションのシステム及び方法
JP7479070B2 (ja) 2022-03-08 2024-05-08 クヮンジュ・インスティテュート・オブ・サイエンス・アンド・テクノロジー 階層的オクルージョン推論モジュール並びにこれを用いた不可視物体インスタンスセグメンテーションのシステム及び方法

Also Published As

Publication number Publication date
CN110070056B (zh) 2023-01-10
KR102677044B1 (ko) 2024-06-24
US20210279503A1 (en) 2021-09-09
WO2020216008A1 (zh) 2020-10-29
KR20210097762A (ko) 2021-08-09
CN110070056A (zh) 2019-07-30
EP3961485A4 (en) 2022-07-13
EP3961485A1 (en) 2022-03-02
JP7248799B2 (ja) 2023-03-29

Similar Documents

Publication Publication Date Title
JP2022514917A (ja) 画像処理方法、画像処理装置、コンピュータプログラム、及び画像処理機器
JP5887775B2 (ja) ヒューマンコンピュータインタラクションシステム、手と手指示点位置決め方法、及び手指のジェスチャ決定方法
JP2022515620A (ja) 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム
CN108388882B (zh) 基于全局-局部rgb-d多模态的手势识别方法
CN105333883B (zh) 一种用于抬头显示器的导航路径轨迹显示方法和装置
CN109492507A (zh) 红绿灯状态的识别方法及装置、计算机设备及可读介质
KR102285915B1 (ko) 모바일 디바이스를 위한 실시간 3d 제스처 인식 및 트랙킹 시스템
US10339629B2 (en) Method for providing indication in multi-dimensional media in electronic device
CN110119148A (zh) 一种六自由度姿态估计方法、装置及计算机可读存储介质
CN104838337A (zh) 用于用户界面的无触摸输入
CN109800676A (zh) 基于深度信息的手势识别方法及***
WO2017169273A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN113221726A (zh) 一种基于视觉与惯性信息融合的手部姿态估计方法及***
CN110188766A (zh) 基于卷积神经网络的图像主目标检测方法及装置
CN109558854A (zh) 障碍物感知方法、装置、电子设备及存储介质
US11386287B2 (en) Method and apparatus for computer vision
CN113076814A (zh) 文本区域的确定方法、装置、设备及可读存储介质
CN113378605B (zh) 多源信息融合方法及装置、电子设备和存储介质
CN109815854A (zh) 一种用于在用户设备上呈现图标的关联信息的方法与设备
Pillai Traffic Surveillance Systems through Advanced Detection, Tracking, and Classification Technique
CN109857244A (zh) 一种手势识别方法、装置、终端设备、存储介质及vr眼镜
CN110609616B (zh) 一种具有智能交互功能的立体投影沙盘***
CN114155504A (zh) 用于自动驾驶的视觉识别车辆方法、装置、出行装置及介质
CN112507954A (zh) 一种人体关键点识别方法、装置、终端设备及存储介质
Jain et al. [POSTER] AirGestAR: Leveraging Deep Learning for Complex Hand Gestural Interaction with Frugal AR Devices

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230316

R150 Certificate of patent or registration of utility model

Ref document number: 7248799

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150