JP7264929B2 - 背景なし画像の生成方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents

背景なし画像の生成方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP7264929B2
JP7264929B2 JP2021043323A JP2021043323A JP7264929B2 JP 7264929 B2 JP7264929 B2 JP 7264929B2 JP 2021043323 A JP2021043323 A JP 2021043323A JP 2021043323 A JP2021043323 A JP 2021043323A JP 7264929 B2 JP7264929 B2 JP 7264929B2
Authority
JP
Japan
Prior art keywords
image
mask
original image
subject
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021043323A
Other languages
English (en)
Other versions
JP2021119457A (ja
Inventor
ハイイェン ヤン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021119457A publication Critical patent/JP2021119457A/ja
Application granted granted Critical
Publication of JP7264929B2 publication Critical patent/JP7264929B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

本出願の実施例はコンピュータの技術分野に関し、具体的に、画像処理技術に関する。
従来の画像処理技術においてマッティング処理技術に関し、即ち、画像の主体部分を前景として保持すると共に、背景部分を抜き取る。画像を処理する過程中、常に画像における主体に必要な背景を追加するように、主体以外の他の元の背景部分を画像から抜き取る必要がある。
従来技術において、背景なし画像を生成する時、オリジナル画像に対して直接マッティング処理を行い、しかしながら、オリジナル画像における主体状況の変化が多くて、複雑であり、単一処理方式は様々な主体状況に良好に適用できず、示されたマッティング効果が理想的ではなく、マッティング精度が高くない。
本出願の実施例は、より高いマッティング精度を実現するように、背景なし画像の生成方法、装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。
第1態様において、本出願の実施例は、対象主体のオリジナル画像における画像占有率を確定することと、
前記画像占有率が所定閾値より小さい場合、前記オリジナル画像から前記対象主体に対応する主体領域画像を切り抜くことと、
前記主体領域画像に基づいて、対応する主体領域マスクを確定することと、
前記主体領域マスクと前記主体領域画像を合成して、前記オリジナル画像に対応する背景なし画像を生成することと、を備える背景なし画像の生成方法を提供する。
第2態様において、本出願の実施例は、背景なし画像の生成装置であって、
対象主体のオリジナル画像における画像占有率を確定するための占有率確定モジュールと、
前記画像占有率が所定閾値より小さい場合、前記オリジナル画像から前記対象主体に対応する主体領域画像を切り抜くための画像切り抜きモジュールと、
前記主体領域画像に基づいて、対応する主体領域マスクを確定するためのマスク確定モジュールと、
前記主体領域マスクと前記主体領域画像を合成して、前記オリジナル画像に対応する背景なし画像を生成するための画像生成モジュールと、を備える背景なし画像の生成装置を提供する。
第3態様において、本出願の実施例は、少なくとも1つのプロセッサ、及び
前記少なくとも1つのプロセッサと通信可能に接続されるメモリを備えており、
前記メモリに、前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶され、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、本出願の実施例のいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる電子機器を提供する。
第4態様において、本出願の実施例は、コンピュータコマンドが記憶される非一時的なコンピュータ可読記憶媒体であって、前記コンピュータコマンドは、前記コンピュータに本出願の実施例のいずれか1項に記載の方法を実行させることに用いられる非一時的なコンピュータ可読記憶媒体を提供する。
第5態様において、本出願の実施例は、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、本出願の実施例のいずれか1項に記載の方法を実現する、コンピュータプログラムを提供する。
本出願の実施例はより小さい対象主体について、マッティング効果を改善し、マッティング精度を高めることができる。
この部分に記載された内容は、本開示の実施例の肝要又は重要な特徴を標識するものではなく、本開示の範囲を制限するものでもないことを理解すべきである。本開示のほかの特徴は以下の説明を通して容易に理解される。
図面は本解決手段をさらによく理解させるためのものであり、本出願に対する限定ではない。ここで、
図1は本出願の実施例による背景なし画像の生成方法のフローチャートである。 図2は本出願の実施例によるもう1つの背景なし画像の生成方法のフローチャートである。 図3Aは本出願の実施例による更なる背景なし画像の生成方法のフローチャートである。 図3Bは本出願の実施例による選択可能なマッティング方式のフローチャートである。 図3Cは本出願の実施例によるマッティング過程の効果図である。 図4は本出願の実施例による背景なし画像の生成装置の構造概略図である。 図5は本出願の実施例による背景なし画像の生成方法を実現するための電子機器のブロック図である。
次に、図面を合わせて本出願の例示的な実施例を説明し、理解させることに役に立つように本出願の実施例の様々な詳細情報が含まれ、それらは例示的なものだけであるとみなされるべきである。そのため、当業者であれば、ここで記載された実施例に対して様々な変化と修正を行うことができ、本出願の範囲と精神から逸脱しないことを認識すべきである。それと同じように、はっきり、簡潔に説明するように、以下の説明に公的な機能と構造の説明が省略される。
本出願の実施例により、本出願は背景なし画像の生成方法を提供する。
図1に示されるように、本出願の実施例による背景なし画像の生成方法のフローチャートである。本実施例は画像に対して背景切り抜きを行う状況に適用され、該方法は背景なし画像の生成装置により実行され、該装置はソフトウェア及び/又はハードウェアにより実現され、且つ一般的にコンピュータ、携帯電話などの電子機器の中に集積される。
具体的に、図1に示されるように、該方法は具体的に下記のステップ(S110~S140)を備える。
S110:対象主体のオリジナル画像における画像占有率を確定する。
本実施例において、オリジナル画像は前景と背景を備え、前景は少なくとも1つの対象主体を含み、背景はオリジナル画像における前景以外の部分であってもよい。具体的に、対象主体は、人、動物、指定されたオブジェクトなどのオリジナル画像における顕著な部分であり得、ここで限定しない。そのほか、対象主体のオリジナル画像における画像占有率は、オリジナル画像におけるすべての対象主体に対応する画像領域とオリジナル画像全体との面積比であってもよい。
対象主体のオリジナル画像における画像占有率を確定する目的は、対象主体のオリジナル画像における画像占有率が小さすぎるか否かを判断することにより、後続のステップにおいて異なる主体占有率のオリジナル画像に対して、異なる方式でマッティングを行うことである。
S120:画像占有率が所定閾値よりも小さい場合、オリジナル画像から対象主体に対応する主体領域画像を切り抜く。
1つの実施形態において、対象主体のオリジナル画像における画像占有率が所定閾値より小さい場合、該対象主体のオリジナル画像における画像占有率が小さすぎることを示し、画像のマッティング精度を高めるために、オリジナル画像における対象主体に対して単独的に画像のマッティング処理を行う必要があることがわかる。ここで、所定閾値は実際の需要に応じて設定可能であり、ここで限定しない。
例示的なものとして、主体領域画像に対してマッティング処理をさらに行うように、オリジナル画像から対象主体に対応する主体領域画像を切り抜くことができる。ここで、切り抜かれた主体領域画像はオリジナル画像における対象主体及び一部の背景が含まれる領域画像であってもよく、主体領域画像における対象主体の画像占有率はオリジナル画像における画像占有率よりも高い。主体領域画像の切り抜き方式は、もとの対象主体に対応する画像領域のサイズに基づいて、対象主体に対応する画像領域以外の背景部分に向かって所定倍数拡張し、オリジナル画像を切り抜くことなどを含むが、それに限定されない。
なお、本実施例は主体領域画像に対して画像のマッティング処理を行うため、切り抜く過程中により多くの細部を考えることができるため、主体占有率が小さい画像に対するマッティング精度を高めることができる。
S130:主体領域画像に基づいて、対応する主体領域マスクを確定する。
マスクは選択ボックスの外側であり得る(選択ボックスの内側は選択領域である)。即ち、選択領域に対し、選択ボックスの外部はマスクと称され、一般的な選択領域は操作の傾向を示し、即ち、選択された領域を処理しようとすることを示し、マスクは逆に、選択された領域を保護し、操作されないようにするためのものであり、カバーされていない部分のみが処理される。まとめれば、マスクは選択領域以外の部分であり、選択領域の内容を保護するためのものである。マスクがカバーする部分は画像を処理する時に影響を受けない部分であり、完全に残さなければならないため、レイヤに表示する必要があり、この角度から、マスクの黒色(即ち選択領域の外側)は完全に透明で、白色(即ち選択領域)は不透明で、灰色は両者の間に介在する(部分的に選択された領域で、半透明である)。
本実施例において、主体領域マスクは対象主体を選択領域とし、背景部分を選択領域の外側としてもよく、それにより、選択領域の外側、即ち背景部分に対応する画像を切り抜くことができる。具体的に、例えば、トリマップに基づいたマッティング方式、及び/又は顕著性検出方式によりマスクを取得することなど、様々な方式で主体領域画像に対応する主体領域マスクを確定することができる。
選択可能に、主体領域画像に基づき、対応する主体領域マスクを確定することは、主体領域画像に対して顕著性検出を行い、主体領域画像の初期マスクを取得することと、主体領域画像の初期マスクに対して二値化処理を行い、主体領域画像の二値化マスクを取得することと、主体領域画像の二値化マスクに基づいてトリマップを生成し、且つトリマップに基づいて主体領域画像に対して所定のマッティングアルゴリズムを用いてマッティング処理を行い、主体領域マスクを取得することとを備える。
本実施例における選択可能な実施形態は、顕著性検出とトリマップに基づくマッティングアルゴリズムを結合する方式によりマスクを取得し、このように設定するメリットは、マッティング精度をさらに高めることができる。ここで、顕著性検出、即ち視覚顕著性検出は、インテリジェントなアルゴリズムを通して人の視覚的特徴を模擬し、画像における顕著な領域(即ち人が関心を持つ領域)を抽出することである。
例示的なものとして、まず、主体領域画像に対して顕著性検出を行い、初期マスクを取得し、該初期マスクに白色部分(対象主体領域とされる)、黒色部分(背景領域とされる)及び複数種の画素値の灰色部分(未確定領域)が含まれてもよく、その後、該初期マスクに対して二値化処理を行い、二値化マスクを取得し、該二値化マスクに白色部分と黒色部分のみが含まれ、最後に、主体領域画像の二値化マスクによってトリマップを生成し、ここで、トリマップは白色部分(対象主体領域)、黒色部分(背景領域とされる)及び対象主体領域と背景領域との境界部の単一画素値の灰色部分(未確定領域)が含まれてもよく、また、該トリマップを合わせて主体領域画像に対して画像のマッティング処理を行い、主体領域マスクを取得する。ここで、用いられた所定のマッティングアルゴリズムはknn matting(K近隣マッティング)、closed form matting(閉合型マッティング)、deep matting(高精度化マッティング)、large kernel matting(ラージカーネルマッティング)、guided contextual attention matting(ガイドされた文脈的注意によるマッティング)などのmatting(マッティング)方法の少なくとも1種であってもよい。
S140:主体領域マスクと主体領域画像を合成して、オリジナル画像に対応する背景なし画像を生成する。
本実施例において、主体領域画像に対応する主体領域マスクを取得した後、主体領域マスクと主体領域画像を合成処理し、主体領域マスクにおける白色部分を利用して主体領域画像における対象主体を保護し、黒色部分を利用して主体領域画像の中の背景を切り抜き、さらにオリジナル画像に対応する背景なし画像を生成する。選択可能に、オリジナル画像に対応する背景なし画像を生成した後、背景なし画像を所定占有率で拡大処理し、且つ所定の背景画像における対応する位置に復元し、所定背景を備える主体画像を生成することをさらに含み得る。背景なし主体画像を拡大し、且つ所定の背景画像におけるオリジナル画像の中の対象主体に対応する位置に復元することは、適切な占有率に達するように、主体占有率が小さい画像における対象主体を、新しい所定背景画像中に拡大することで、画像に対するほかの処理に役立つ。
本実施例の技術的解決手段により、対象主体のオリジナル画像における画像占有率が所定閾値より小さいと判定された時、オリジナル画像から対象主体に対応する主体領域画像を切り抜き、その後、主体領域画像に基づいて対応する主体領域マスクを確定し、主体領域マスクと主体領域画像を合成して、オリジナル画像に対応する背景なし画像を生成し、主体占有率が小さい画像を切り抜き、且つ単独的にマッティング処理を行うことにより、従来技術において、オリジナル画像における主体占有率が小さい場合、処理して取得した背景なし画像が示したマッティング効果が理想的ではなく、マッティング精度が高くないという問題を解決し、主体占有率が小さい画像でも、高いマッティング精度を確保できる目標を達成できる。
本出願の実施例により、本出願は背景なし画像の生成方法をさらに提供する。
図2に示されるように、本出願の実施例によるもう1つの背景なし画像の生成方法のフローチャートである。本実施例は上記のいずれかの実施例を詳細化し、対象主体のオリジナル画像における画像占有率を確定することは、前記オリジナル画像に対して顕著性検出を行い、前記オリジナル画像の初期マスクを取得し、前記オリジナル画像の初期マスクに対して二値化処理を行い、前記オリジナル画像の二値化マスクを取得し、前記オリジナル画像の二値化マスクにおける対象主体の領域の面積と、前記オリジナル画像の面積に基づき、前記オリジナル画像における前記対象主体の画像占有率を計算することを含むように具現化される。
具体的に、図2に示されるように、本方法は具体的に下記のステップを備える。
S210:オリジナル画像に対して顕著性検出を行い、オリジナル画像の初期マスクを取得する。
上記実施例の上で、本実施例は対象主体のオリジナル画像における画像占有率を計算する過程中、オリジナル画像に対して前処理と顕著性検出を先に行った後、取得したマスクに基づいて対象主体の画像占有率を計算する。
選択可能な実施形態において、上記実施例1による主体領域画像に対する顕著性検出を行うことと同様な方式により、オリジナル画像に対して顕著性検出を行い、さらにオリジナル画像の初期マスクを取得することができ、該初期マスクにおいても白色部分(対象主体領域とされる)、灰色部分(未確定領域)及び黒色部分(背景領域とされる)が含まれてもよい。
上記各実施例の上で、選択可能に、画像に対して顕著性検出を行い、画像の初期マスクを取得することは、トレーニング済み顕著性検出モデルに画像を入力し、画像の初期マスクを出力して取得することを備える。
例示的なものとして、オリジナル画像及び/又は主体領域画像について、深層学習に基づく顕著性検出方法を用いて、対応する初期マスクを取得でき、ここで、用いられた深層ニューラルネットワークのタイプはCNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)、FCN(Fully Convolutional Networks、完全畳み込みニューラルネットワーク)などを含むが、それらに限定されず、好ましくはCPD(Cascaded Partial Decoder、カスケード部分デコーダ)である。
顕著性検出モデルを用いて検出を行うことのメリットは、画像における前景又は背景を手動でマークアップしなくても、画像における任意種類の対象主体に対する識別を実現できることにある。
選択可能な実施形態において、トレーニングサンプルを用いて事前設定ニューラルネットワークをトレーニングし、ネットワークパラメータを継続的に最適化することができ、パラメータが最適である時、トレーニング済み顕著性検出モデルを取得することができる。ここで、事前設定ニューラルネットワークをトレーニングする時に用いられたトレーニングサンプルは、例えば、トレーニングデータセットDUTS-TRであってもよく、ここで、DUTS-TRデータセットに複数のオリジナル画像サンプル及びその対応するマスクが含まれる。当然ながら、他のトレーニングデータセットを用いてもよく、ここで限定しない。
選択可能に、トレーニング済み顕著性検出モデルに画像を入力する前、複数の背景なし主体画像と複数の所定背景画像を取得することと、あらゆる背景なし主体画像といずれかの所定背景画像を合成して、トレーニングサンプルを生成することと、トレーニングサンプルを用いて事前設定ニューラルネットワークをトレーニングし、トレーニング済み顕著性検出モデルを取得することをさらに備える。
選択可能な実施形態において、DUTS-TRデータセットをトレーニングサンプルとして用いるほか、透明素材の画像と複数の背景を組み合わせた複数のトレーニングサンプルを拡張データセットとして利用し、事前設定ニューラルネットワークをトレーニングすることもできる。ここで、複数の背景なし主体画像の取得方式はネットワーク検索エンジンから検索して取得することを含むが、それに限定されない。そのほか、所定背景画像はオリジナル画像と類似する背景を備える背景画像であってもよく、例えば、オリジナル画像はデスクトップを背景にして撮る異なる対象主体の画像であれば、所定背景画像は類似するか又は同じデスクトップ画像であってもよい。複数の所定背景画像の取得方式は、オリジナル画像の収集環境と同背景を備える時に収集した画像を含むが、それに限定されない。
複数の背景なし主体画像と複数の所定背景画像をランダムに組み合わせて構成した画像をトレーニングサンプルとし、事前設定ニューラルネットワークをトレーニングするメリットは、類似又は同じ背景において収集したオリジナル画像を対象として、顕著性検出モデルの優れたマッティング効果を発揮させ、マッティング精度を高めることができることである。
選択可能に、オリジナル画像に対して顕著性検出を行う前、オリジナル画像に対して増強と鮮鋭化処理を行うことをさらに備える。
例示的なものとして、マッティング処理前、まず、オリジナル画像に対して前処理を行い、ここで、前処理方式は増強と鮮鋭化処理などを含むが、それに限定されない。具体的に、所定増強アルゴリズムを用いてオリジナル画像に対して増強処理を行い、且つ増強処理結果画像に対して所定鮮鋭化アルゴリズムを用いて鮮鋭化処理を行うことができる。ここで、所定増強アルゴリズムは、例えば、ヒストグラム均等化とガンマ変換などであってもよく、所定鮮鋭化アルゴリズムは、アンシャープマスキング法などであってもよい。
オリジナル画像に対して増強と鮮鋭化処理を行うメリットは、オリジナル画像における対象主体をさらに明確にし、背景とのコントラストをさらに強くし、さらに顕著性検出の精度を高めることができることである。
S220:オリジナル画像の初期マスクに対して二値化処理を行い、オリジナル画像の二値化マスクを取得する。
本実施例において、初期マスクに対して二値化処理を行う過程は、初期マスクに含まれた黒色背景部分、白色主体部分及び灰色の未確定部分のマスクを、黒色背景部分と白色主体部分のみが含まれたマスクに変換する過程であってもよい。利用された二値化処理アルゴリズムはOTSU(最大クラス間分散法)等を含むが、それに限定されない。
S230:オリジナル画像の二値化マスクにおける対象主体の領域の面積と、オリジナル画像の面積に基づいて、対象主体のオリジナル画像における画像占有率を計算する。
例示的なものとして、オリジナル画像の二値化マスクを対象とし、対象主体の面積のサイズを計算し、且つオリジナル画像のサイズと比較し、さらに計算して、対象主体のオリジナル画像における画像占有率を取得する。具体的に、対象主体の面積とオリジナル画像の面積との比を、対象主体のオリジナル画像における画像占有率とし、1つの実際の例において、二値化マスクにおける白色主体部分の画素点の数と二値化マスクに含まれたすべての画素点の総数との比を計算することにより、対象主体の面積とオリジナル画像の面積との比、即ち、対象主体のオリジナル画像における画像占有率を取得できる。
選択可能に、オリジナル画像の二値化マスクにおける対象主体の領域の面積と、オリジナル画像の面積に基づき、対象主体のオリジナル画像における画像占有率を計算した後、画像占有率が所定閾値以上である場合、オリジナル画像の二値化マスクに基づいてトリマップを生成し、且つトリマップに基づいてオリジナル画像に対して所定のマッティングアルゴリズムを用いてマッティング処理を行い、オリジナル画像の最終的なマスクを取得することをさらに含む。
選択可能な実施形態において、対象主体のオリジナル画像における画像占有率が所定閾値以上である場合、即ち、オリジナル画像における対象主体は大サイズのオブジェクトである場合、主体領域画像の切り抜きを行う必要がなく、顕著性検出とトリマップに基づくマッティングアルゴリズムを組み合わせる方式を直接用いて、オリジナル画像に対してマッティング処理を行えば済む。具体的に、対象主体の画像占有率を計算する前にオリジナル画像に対する顕著性検出処理をすでに行ったため、オリジナル画像における対象主体が大サイズのオブジェクトであると判定された後、オリジナル画像の二値化マスクによってトリマップを直接生成し、且つトリマップのマッティングアルゴリズムを合わせてオリジナル画像に対してマッティング処理を行い、オリジナル画像の最終的なマスクを取得することができる。ここで、トリマップ及び所定のマッティングアルゴリズムに対する説明は上記実施例における主体領域画像に対するトリマップに基づくマッティング処理の部分を参照することができるため、ここで贅言しない。
主体占有率が異なるオリジナル画像に対して異なる方式によりマッティングを行うメリットは、主体のサイズが異なるオリジナル画像に対して高いマッティング精度を保持することができることである。
S240:画像占有率が所定閾値より小さい場合、オリジナル画像から対象主体に対応する主体領域画像を切り抜く。
選択可能に、オリジナル画像から対象主体に対応する主体領域画像を切り抜くことは、オリジナル画像の二値化マスクに基づき、対象主体の最小外接行列を確定することと、最小外接行列に対応する画像領域を所定倍数に拡大して、画像切り抜き領域とすることと、画像切り抜き領域の位置に基づき、オリジナル画像から対応する画像ブロックを切り抜き、主体領域画像とすることを備える。
ここで、最小外接行列はオリジナル画像における対象主体に外接する最小矩形を記述する行列であってもよい。対象主体の画像占有率を適切な占有率に達させるように、最小外接行列に対応する画像領域を所定倍数に拡大し、例えば、元の1.5倍に拡大することができ、その後、該拡大後の画像領域を画像切り抜き領域とし、オリジナル画像の対応する領域位置から画像ブロックを切り抜き、オリジナル画像のROI(Region Of Interest、関心領域)、即ち主体領域画像とする。
対象主体の最小外接行列に対応する画像領域を所定倍数に拡大して、画像切り抜き領域とし、且つ画像切り抜き領域に基づいてオリジナル画像に対して対応する主体部分の切り抜きを行うメリットは、対象主体を適切な画像占有率にした後、対応するマッティング処理を行うことにより、主体占有率が小さい画像のマッティング精度を高めることである。
S250:主体領域画像に基づいて、対応する主体領域マスクを確定する。
S260:主体領域マスクと主体領域画像を合成して、オリジナル画像に対応する背景なし画像を生成する。
本実施例の技術的解決手段により、オリジナル画像に対して顕著性検出を行うことにより、オリジナル画像の初期マスクを取得し、該初期マスクに対して二値化処理を行い、オリジナル画像の二値化マスクを取得し、該二値化マスクにおける対象主体の領域面積と、オリジナル画像の面積に基づき、対象主体のオリジナル画像における画像占有率を計算し、且つ画像占有率が所定閾値より小さい場合、対応するマッティングプロセスを実行し、顕著性検出及び二値化処理により取得した二値化マスクを利用して、対象主体の画像占有率の計算を行い、それにより、対象主体の画像占有率の計算をより便利、容易にし、同時に計算結果の正確性を高める。
上記各実施例の上で、選択可能に、二値化マスクに基づいてトリマップを生成することは、二値化マスクに対して膨張と浸食処理を行い、膨張マスクと浸食マスクを取得することと、二値化マスクにおいて、膨張マスク内の対象主体領域位置に対応する画像領域の画素値を、第1画素値として設定することと、二値化マスクにおいて、浸食マスク内の対象主体領域位置に対応する画像領域の画素値を、第2画素値として設定することと、二値化マスクにおけるほかの画像領域の画素値を、第3画素値として設定して、トリマップを取得することを備える。
ここで、膨張とは対象主体を背景の中に融合させ、外部へ拡張させることであり、例えば、二値化マスクに対して膨張処理を行うことは、二値化マスク内の白色主体部分を外へ拡張し、即ち、対象主体を大きくすることであり、浸食とは、膨張の意味と反して、連通している境界を消去して、境界を内へ収縮させることであり、例えば、二値化マスクに対して浸食処理を行うことは、二値化マスク内の白色主体部分を内へ収縮させ、即ち対象主体を小さくすることである。
例示的なものとして、トリマップを生成する具体的な形態は以下のようにしてもよい。画像膨張操作と画像浸食操作をそれぞれ利用して二値化マスクにおける対象主体を所定範囲内で膨張又は浸食し、且つ、膨張結果における対象主体領域位置に対応する画像領域内の画素値(即ち膨張と浸食結果の和集合部分の画素値)を、第1画素値として設定し、また、浸食結果における対象主体領域位置に対応する画素領域内の画素値(即ち、膨張と浸食結果の積集合部分の画素値)を、第2画素値として設定し、最後に、これらの2つの画素領域以外の画素値を、第3画素値として設定することによって、トリマップを取得する。
ここで、第1画素値、第2画素値及び第3画素値の間に違いがあり、例えば、第1画素値は128、第2画素値は255、第3画素値は0であってもよい。
膨張と浸食処理後のトリマップを合わせて、オリジナル画像又は主体領域画像に対して所定のマッティングアルゴリズムによってマッティングを行うメリットは、対象主体と背景との境界の識別の正確性を高め、さらに画像のマッティング精度を高めることができる。
選択可能に、トリマップに対して所定のマッティングアルゴリズムを用いてマッティング処理を行った後、所定のフィルタリング方式により、マッティング処理後に取得したマスクに対してエッジ平滑化処理を行うことをさらに備える。
ここで、所定のフィルタリング方式はガウスフィルタリングとメディアンフィルタリングなどを含むが、それらに限定されない。マッティング処理後に取得したマスクに対してエッジ平滑化処理を行うメリットは、マスクにおける対象主体のエッジのギザギザを平滑化し、マスクの精度を高め、さらに精確なエッジ構造を備えるマスクを取得し、画像のマッティング効果を高めることである。
本出願の実施例により、本出願は背景なし画像の生成方法をさらに提供する。
図3Aに示されるように、本出願の実施例によるもう1つの背景なし画像の生成方法のフローチャートである。本実施例は上記いずれかの実施例を詳細化し、詳しい選択可能な実施形態を提供する。
具体的に、図3Aに示されるように、当該方法は具体的に下記のステップを備える。
S310:オリジナル画像に対して顕著性検出を行い、オリジナル画像の初期マスクを取得し、オリジナル画像の初期マスクに対して二値化処理を行い、オリジナル画像の二値化マスクを取得する。
S320:オリジナル画像の二値化マスクにおける対象主体の領域の面積と、オリジナル画像の面積に基づいて、対象主体のオリジナル画像における画像占有率を計算する。
S330:画像占有率が所定閾値より小さいか否かを判定し、小さい場合、S340を実行し、小さくない場合、S380を実行する。
S340:オリジナル画像から対象主体に対応する主体領域画像を切り抜く。
S350:主体領域画像に対して顕著性検出を行い、主体領域画像の初期マスクを取得し、主体領域画像の初期マスクに対して二値化処理を行い、主体領域画像の二値化マスクを取得する。
S360:主体領域画像の二値化マスクに基づいてトリマップを生成し、且つトリマップに基づいて主体領域画像に対して所定のマッティングアルゴリズムを用いてマッティング処理を行い、主体領域マスクを取得する。
S370:主体領域マスクと主体領域画像を合成して、オリジナル画像に対応する背景なし画像を生成する。
S380:オリジナル画像の二値化マスクに基づいてトリマップを生成し、且つトリマップに基づいてオリジナル画像に対して所定のマッティングアルゴリズムを用いてマッティング処理を行い、オリジナル画像の最終的なマスクを取得する。
S390:オリジナル画像の最終的なマスクとオリジナル画像を合成して、オリジナル画像に対応する背景なし画像を生成する。
1つの実例において、図3Bに示された方式でマッティング処理を行うことができ、それは、まず、オリジナル画像に対して、増強と鮮鋭化処理などの前処理を行うことと、前処理後のオリジナル画像に対して顕著性検出を行うことと、検出後に取得したマスクに対して二値化処理を行った後に対象主体の主体占有率を計算し、且つ主体占有率が小さいか否かを判断することと、小さい場合、オリジナル画像からROI切り抜きを行い、切り抜き後に取得した主体画像に対して顕著性検出を再び行い、画像処理アルゴリズムを利用してトリマップを生成し、またmatting方法を用いてマッティングを行い、且つエッジ最適化処理を行い、最終的にαチャンネルデータを生成することと、小さくない場合、画像処理アルゴリズムを直接利用して、トリマップを生成し、またmatting方法を用いてマッティングを行い、且つエッジ最適化処理を行い、最終的にαチャンネルデータを生成することを備える。
対応して、主体占有率が大きい場合における対応する処理プロセスを例として、図3Cに示された効果図を取得でき、それは、オリジナル画像31に対して前処理を行い、主体増強画像32を取得することと、主体増強画像32に対して顕著性検出を行い、初期マスク33を取得することと、初期マスク33を二値化処理した後に膨張と浸食処理を行い、トリマップ34を取得することと、トリマップ34に基づいてオリジナル画像31に対して、所定matting方法によってマッティング処理を行い、オリジナル画像の精確なマスク35を取得することと、最後に、精確なマスク35に対してエッジ最適化処理を行い、オリジナル画像の最終的なマスク36を取得し、さらにαチャンネルデータを生成し、オリジナル画像31と合成した後に背景なし画像37を取得することができることを備える。
本実施例の技術的解決手段により、異なる主体占有率のオリジナル画像に対して異なるマッティング方式によりマッティング処理を行うことにより、主体占有率が小さい状況においても、高精度のマッティング効果を取得でき、同時に、本実施例は顕著性検出とトリマップに基づくマッティングアルゴリズムを合わせて、マッティング結果の精度をさらに高めることができる。
本出願の実施例により、本出願は背景なし画像の生成装置をさらに提供する。
図4に示されるように、本出願の実施例による背景なし画像の生成装置の構造概略図である。該装置はソフトウェア及び/又はハードウェアの方式で実現され、且つ、本出願のいずれかの実施例に記載の背景なし画像の生成方法を実行する。具体的に、背景なし画像の生成装置400は、占有率確定モジュール401、画像切り抜きモジュール402、マスク確定モジュール403及び画像生成モジュール404を備える。
ここで、占有率確定モジュール401は、対象主体のオリジナル画像における画像占有率を確定することに用いられる。
画像切り抜きモジュール402は、前記画像占有率が所定閾値より小さい場合、前記オリジナル画像から前記対象主体に対応する主体領域画像を切り抜くことに用いられる。
マスク確定モジュール403は、前記主体領域画像に基づいて、対応する主体領域マスクを確定することに用いられる。
画像生成モジュール404は、前記主体領域マスクと前記主体領域画像を合成して、前記オリジナル画像に対応する背景なし画像を生成することに用いられる。
選択可能に、占有率確定モジュール401は、具体的に、
前記オリジナル画像に対して顕著性検出を行い、前記オリジナル画像の初期マスクを取得することに用いられる第1顕著検出ユニットと、
前記オリジナル画像の初期マスクに対して二値化処理を行い、前記オリジナル画像の二値化マスクを取得することに用いられる第1二値化処理ユニットと、
前記オリジナル画像の二値化マスクにおける対象主体の領域の面積と、前記オリジナル画像の面積に基づいて、前記オリジナル画像における前記対象主体の画像占有率を計算することに用いられる占有率計算ユニットと、を備えることができる。
選択可能に、占有率確定モジュール401は、具体的に、
前記オリジナル画像の二値化マスクにおける対象主体の領域の面積と、前記オリジナル画像の面積に基づき、前記オリジナル画像における前記対象主体の画像占有率を計算した後、前記画像占有率が前記所定閾値以上である場合、前記オリジナル画像の二値化マスクに基づいてトリマップを生成し、且つ前記トリマップに基づいて前記オリジナル画像に対して所定のマッティングアルゴリズムを用いてマッティング処理を行い、前記オリジナル画像の最終的なマスクを取得するための第1マッティング処理ユニットと、
前記オリジナル画像の最終的なマスクと前記オリジナル画像を合成して、前記オリジナル画像に対応する背景なし画像を生成するための画像合成ユニットをさらに備えることができる。
選択可能に、画像切り抜きモジュール402は、具体的に、
前記オリジナル画像の二値化マスクに基づいて、前記対象主体の最小外接行列を確定するための行列確定ユニットと、
前記最小外接行列に対応する画像領域を所定倍数に拡大し、画像切り抜き領域とするための領域拡大ユニットと、
前記画像切り抜き領域の位置により、前記オリジナル画像から対応する画像ブロックを切り抜き、主体領域画像とするための主体切り抜きユニットと、を備えることができる。
選択可能に、マスク確定モジュール403は、具体的に、
前記主体領域画像に対して顕著性検出を行い、前記主体領域画像の初期マスクを取得するための第2顕著検出ユニットと、
前記主体領域画像の初期マスクに対して二値化処理を行い、前記主体領域画像の二値化マスクを取得するための第2二値化処理ユニットと、
前記主体領域画像の二値化マスクに基づいてトリマップを生成し、且つ前記トリマップに基づいて前記主体領域画像に対して所定のマッティングアルゴリズムを用いてマッティング処理を行い、主体領域マスクを取得するための第2マッティング処理ユニットを備えてもよい。
選択可能に、第1顕著検出ユニット及び/又は第2顕著検出ユニットは、具体的に、
トレーニング済み顕著性検出モデルに画像を入力し、前記画像の初期マスクを出力して取得するためのモデル入力ユニットを備えてもよい。
選択可能に、第1顕著検出ユニット及び/又は第2顕著検出ユニットは、具体的に、
トレーニング済み顕著性検出モデルに画像を入力する前、複数の背景なし主体画像と複数の所定背景画像を取得するための画像取得ユニットと、
いずれかの前記背景なし主体画像といずれかの前記所定背景画像を合成し、トレーニングサンプルを生成するためのサンプル生成ユニットと、
前記トレーニングサンプルを用いて事前設定ニューラルネットワークに対してトレーニングを行い、トレーニング済み顕著性検出モデルを取得するためのモデルトレーニングユニットと、をさらに備えてもよい。
選択可能に、占有率確定モジュール401は、具体的に、
前記オリジナル画像に対して顕著性検出を行う前、前記オリジナル画像に対して増強と鮮鋭化処理を行うための画像前処理ユニットをさらに備えてもよい。
選択可能に、第1マッティング処理ユニット及び/又は第2マッティング処理ユニットは、具体的に
二値化マスクに対して膨張と浸食処理を行い、膨張マスクと浸食マスクを取得するためのマスク処理ユニットと、
前記二値化マスクにおいて、前記膨張マスク内の対象主体領域の位置に対応する画像領域の画素値を、第1画素値として設定するための第1設定ユニットと、
前記二値化マスクにおいて、前記浸食マスク内の対象主体領域の位置に対応する画像領域の画素値を、第2画素値として設定するための第2設定ユニットと、
前記二値化マスクにおけるほかの画像領域の画素値を、第3画素値として設定して、トリマップを取得するための第3設定ユニットと、
前記トリマップに対して所定のマッティングアルゴリズムを用いてマッティング処理を行い、最終的なマスクを取得するためのトリマップマッティングユニットと、を備えてもよい。
選択可能に、第1マッティング処理ユニット及び/又は第2マッティング処理ユニットは、具体的に
前記トリマップに対して所定のマッティングアルゴリズムを用いてマッティング処理を行った後、所定のフィルタリング方式により、マッティング処理後に取得したマスクに対してエッジ平滑化処理を行うための平滑化処理ユニットをさらに備えてもよい。
本出願の実施例により提供される背景なし画像の生成装置は、本出願のいずれかの実施例により提供される背景なし画像の生成方法を実行でき、実行方法に対応する機能モジュールと有益な効果を備える。
本出願の実施例により、本出願は電子機器と可読記憶媒体をさらに提供する。
図5に示されるように、本出願の実施例の背景なし画像の生成方法による電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、大型コンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示した構成要素、それらの接続関係、およびそれらの機能はあくまでも一例であり、ここで説明および/または要求した本出願の実現を限定することを意図するものではない。
図5に示されるように、該電子機器は、1つ又は複数のプロセッサ501、メモリ502及び高速インターフェースと低速インターフェースなどの各構成要素に接続されるためのインターフェースを備える。各構成要素は異なるバスによって互いに接続され、且つパブリックマザーボードに取り付けられるか又は需要に応じてほかの方式で取り付けられる。プロセッサは、メモリの中又はメモリに記憶されて外部入出力装置(例えば、インターフェースに結合された表示機器)にGUIの図形情報を表示するためのコマンドを含む電子機器内に実行されるコマンドを処理することができる。ほかの実施形態において、需要に応じて、複数のプロセッサ及び/又は複数のバスと複数のメモリを一緒に使用できる。同様に、複数の電子機器を接続することができ、各機器は一部の必要な操作(例えば、サーバアレイ、ブレードサーバ又はマルチプロセッサシステムとされる)を提供する。図5において、1つのプロセッサ501を例とする。
メモリ502は、本出願により提供される非一時的なコンピュータ可読記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサに本出願により提供される背景なし画像の生成方法を実行させるように、少なくとも1つのプロセッサにより実行されるコマンドが記憶される。本出願の非一時的なコンピュータ可読記憶媒体は、コンピュータに本出願により提供される背景なし画像の生成方法を実行させるためのコンピュータコマンドを記憶する。
メモリ502は、非一時的なコンピュータ可読記憶媒体として、本出願の実施例における背景なし画像の生成方法に対応するプログラムコマンド/モジュール(例えば、図4に示される占有率確定モジュール401、画像切り抜きモジュール402、マスク確定モジュール403及び画像生成モジュール404)などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶することに用いられてもよい。プロセッサ501は、メモリ502に記憶された非一時的なソフトウェアプログラム、コマンド及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例における背景なし画像の生成方法を実現する。
メモリ502はプログラム記憶エリアとデータ記憶エリアを含んでもよく、ここで、プログラム記憶エリアはオペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶でき、データ記憶エリアは、背景なし画像の生成方法による電子機器の使用によって新規作成されたデータなどを記憶できる。そのほか、メモリ502は、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス又はほかの非一時的なソリッドステートストレージデバイスなどの高速ランダムアクセスメモリ、さらに非一時的なメモリを含んでもよい。一部の実施例において、メモリ502は、プロセッサ501に対してリモートで設置されたメモリを選択可能に含むことができ、これらのリモートメモリはネットワークを介して背景なし画像の生成方法の電子機器に接続される。上記ネットワークの実例はインターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク及びそれらの組み合わせを含むことができるが、それらに限定されない。
背景なし画像の生成方法の電子機器はさらに入力装置503と出力装置504を備えてもよい。プロセッサ501、メモリ502、入力装置503及び出力装置504はバス又はほかの方式で接続可能であり、図5はバスで接続することを例とする。
入力装置503は入力された数字又は文字情報を受信し、並びに背景なし画像の生成方法に用いられる電子機器のユーザ設定及び機能制御に関するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケーターロッド、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置がある。出力装置504は表示機器、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを含んでもよい。該表示機器は、液晶表示装置(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含むことができるが、それらに限定されない。一部の実施形態において、表示機器はタッチスクリーンとされてもよい。
ここで説明したシステムと技術の様々な実施形態はデジタル電子回路システム、集積回路システム、専用ASIC(アプリケーション特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア及び/又はそれらの組み合わせの中に実現される。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実装され、該1つ又は複数のコンピュータプログラムが、少なくとも1つのプログラマブルプロセッサ付きのプログラマブルシステムで実行されるか及び/又は解釈され、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであり、ストレージシステム、少なくとも1つの入力装置及び少なくとも1つの出力装置からデータとコマンドを受信し、且つデータとコマンドを該ストレージシステム、該少なくとも1つの入力装置及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも称される)はプログラマブルプロセッサの機械コマンドを含み、且つ高レベルの過程及び/又は対象向けのプログラミング言語及び/又はアセンブリ言語/機械語を用いてこれらの計算プログラムを実施することができる。本文に用いられる専門用語「機械可読媒体」と「コンピュータ可読媒体」は機械コマンド及び/又はデータをプログラマブルプロセッサに提供するためのいずれかのコンピュータプログラム製品、機器及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械可読信号としての機械コマンドを受信する機械可読媒体を含む。専門用語「機械可読信号」は機械コマンド及び/又はデータをプログラマブルプロセッサに提供するためのいずれかの信号を指す。
ユーザとのインタラクションを提供するように、ここで説明したシステムと技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶表示装置)モニタ)、並びにキーボードとポインティングデバイス(例えば、マウス又はトラックボール)を備え、ユーザは該キーボードと該ポインティングデバイスを通して入力をコンピュータに提供することができる。ほかのタイプの装置はさらにユーザとのインタラクションを提供することに用いられ、例えば、ユーザに提供されるフィードバックはいずれかの形式のセンシングフィードバック(例えば、視覚的フィードバック、聴覚的フィードバック又は触覚的フィードバック)であってもよく、且ついずれかの形式(音響入力、音声入力又は触覚入力が含まれる)でユーザからの入力を受信できる。
ここで説明されたシステムと技術を、バックグラウンド構成要素が含まれるコンピューティングシステム(例えば、データサーバとされる)、又はミドルウェア構成要素が含まれるコンピューティングシステム(例えば、アプリケーションサーバ)又はフロントエンドが含まれるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はネットワークブラウザ付きのユーザコンピュータであり、ユーザは該グラフィカルユーザインターフェース又は該ネットワークブラウザを通してここで説明したシステムと技術の実施形態と対話することができる)、又はこのようなバックグラウンド構成要素、ミドルウェア構成要素、フロントエンド構成要素のいずれかの組み合わせが含まれるコンピューティングシステムに実装することができる。いずれかの形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を通してシステムの構成要素を互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)及びインターネットを備える。
コンピュータシステムはクライアントとサーバを備える。クライアントとサーバは一般的に互いに離れ、且つ通常通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行され且つ互いにクライアント-サーバの関係を持つコンピュータプログラムを通して、クライアントとサーバの関係を生成する。
本実施例の技術的解決手段により、対象主体のオリジナル画像における画像占有率が所定閾値より小さいことを確定する時、オリジナル画像から対象主体に対応する主体領域画像を切り抜き、その後、主体領域画像によって対応する主体領域マスクを確定し、また主体領域マスクと主体領域画像を合成して、オリジナル画像に対応する背景なし画像を生成し、主体占有率が小さい画像を切り抜き、且つ単独的にマッティング処理を行うメリットを利用して、従来技術において、オリジナル画像における主体占有率が小さい場合、処理して取得した背景なし画像が示したマッティング効果が理想的ではなく、マッティング精度が高くないという問題を解決し、主体占有率が小さい画像でも、高いマッティング精度を確保できる目標を達成する。
なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本願に記載された各ステップは、本願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、サブコンビネーション、および置換を行うことができることを当業者は理解すべきである。本出願の精神および原理内で行われたあらゆる補正、同等置換および改善などは、いずれも本願の保護範囲内に含まれるべきである。


Claims (21)

  1. 対象主体のオリジナル画像における画像占有率を確定することと、
    前記画像占有率が所定閾値より小さい場合、前記オリジナル画像から前記対象主体に対応する主体領域画像を切り抜くことと、
    前記主体領域画像に基づいて、対応する主体領域マスクを確定することと、
    前記主体領域マスクと前記主体領域画像を合成して、前記オリジナル画像に対応する背景なし画像を生成することと、を備え、
    対象主体のオリジナル画像における画像占有率を確定することは、
    前記オリジナル画像に対して顕著性検出を行い、前記オリジナル画像の初期マスクを取得することと、
    前記オリジナル画像の初期マスクに対して二値化処理を行い、前記オリジナル画像の二値化マスクを取得することと、
    前記オリジナル画像の二値化マスクにおける対象主体の領域の面積と、前記オリジナル画像の面積に基づいて、前記オリジナル画像における前記対象主体の画像占有率を計算することと、を備える、
    コンピュータによって実行される背景なし画像の生成方法。
  2. 前記オリジナル画像の二値化マスクにおける対象主体の領域の面積と、前記オリジナル画像の面積に基づいて、前記オリジナル画像における前記対象主体の画像占有率を計算した後、さらに、
    前記画像占有率が前記所定閾値以上である場合、前記オリジナル画像の二値化マスクに基づいてトリマップを生成し、且つ前記トリマップに基づいて前記オリジナル画像に対して所定のマッティングアルゴリズムを用いてマッティング処理を行い、前記オリジナル画像の最終的なマスクを取得することと、
    前記オリジナル画像の最終的なマスクと前記オリジナル画像を合成して、前記オリジナル画像に対応する背景なし画像を生成することと、を備える請求項1に記載の方法。
  3. 前記オリジナル画像から前記対象主体に対応する主体領域画像を切り抜くことは、
    前記オリジナル画像の二値化マスクに基づいて、前記対象主体の最小外接行列を確定することと、
    前記最小外接行列に対応する画像領域を所定倍数に拡大し、画像切り抜き領域とすることと、
    前記画像切り抜き領域の位置に基づいて、前記オリジナル画像から対応する画像ブロックを切り抜き、主体領域画像とすることと、を備える請求項1に記載の方法。
  4. 前記主体領域画像に基づいて、対応する主体領域マスクを確定することは、
    前記主体領域画像に対して顕著性検出を行い、前記主体領域画像の初期マスクを取得することと、
    前記主体領域画像の初期マスクに対して二値化処理を行い、前記主体領域画像の二値化マスクを取得することと、
    前記主体領域画像の二値化マスクに基づいてトリマップを生成し、且つ前記トリマップに基づいて前記主体領域画像に対して所定のマッティングアルゴリズムを用いてマッティング処理を行い、主体領域マスクを取得することと、を備える請求項1に記載の方法。
  5. 画像に対して顕著性検出を行い、前記画像の初期マスクを取得することは、
    トレーニング済み顕著性検出モデルに画像を入力し、前記画像の初期マスクを出力して取得することを備える請求項1に記載の方法。
  6. 画像をトレーニング済み顕著性検出モデルに入力する前に、
    複数の背景なしの主体画像と複数の所定背景画像を取得することと、
    いずれかの前記背景なしの主体画像といずれかの前記所定背景画像を合成し、トレーニングサンプルを生成することと、
    前記トレーニングサンプルを用いて事前設定ニューラルネットワークをトレーニングし、トレーニング済み顕著性検出モデルを取得することと、をさらに備える請求項5に記載の方法。
  7. 前記オリジナル画像に対して顕著性検出を行う前に、
    前記オリジナル画像に対して増強と鮮鋭化処理を行うことをさらに備える請求項1に記載の方法。
  8. 二値化マスクに基づいてトリマップを生成することは、
    二値化マスクに対して膨張と浸食処理を行い、膨張マスクと浸食マスクを取得することと、
    前記二値化マスクにおいて、前記膨張マスク内の対象主体領域の位置に対応する画像領域の画素値を、第1画素値として設定することと、
    前記二値化マスクにおいて、前記浸食マスク内の対象主体領域の位置に対応する画像領域の画素値を、第2画素値として設定することと、
    前記二値化マスクにおける他の画像領域の画素値を、第3画素値として設定して、トリマップを取得することと、を備える請求項2又は4に記載の方法。
  9. 前記トリマップに対して所定のマッティングアルゴリズムによりマッティング処理を行った後、
    所定のフィルタリング方式により、マッティング処理後に取得したマスクに対してエッジ平滑化処理を行うことをさらに備える請求項8に記載の方法。
  10. 背景なし画像の生成装置であって、
    対象主体のオリジナル画像における画像占有率を確定するための占有率確定モジュールと、
    前記画像占有率が所定閾値より小さい場合、前記オリジナル画像から前記対象主体に対応する主体領域画像を切り抜くための画像切り抜きモジュールと、
    前記主体領域画像に基づいて、対応する主体領域マスクを確定するためのマスク確定モジュールと、
    前記主体領域マスクと前記主体領域画像を合成して、前記オリジナル画像に対応する背景なし画像を生成するための画像生成モジュールと、を備え、
    前記占有率確定モジュールは、
    前記オリジナル画像に対して顕著性検出を行い、前記オリジナル画像の初期マスクを取得するための第1顕著検出ユニットと、
    前記オリジナル画像の初期マスクに対して二値化処理を行い、前記オリジナル画像の二値化マスクを取得するための第1二値化処理ユニットと、
    前記オリジナル画像の二値化マスクにおける対象主体の領域の面積と、前記オリジナル画像の面積に基づいて、前記オリジナル画像における前記対象主体の画像占有率を計算するための占有率計算ユニットと、を備える背景なし画像の生成装置。
  11. 前記占有率確定モジュールは、
    前記オリジナル画像の二値化マスクにおける対象主体の領域の面積と、前記オリジナル画像の面積に基づいて、前記オリジナル画像における前記対象主体の画像占有率を計算した後、前記画像占有率が前記所定閾値以上である場合、前記オリジナル画像の二値化マスクに基づいてトリマップを生成し、且つ前記トリマップに基づいて前記オリジナル画像に対して所定のマッティングアルゴリズムを用いてマッティング処理を行い、前記オリジナル画像の最終的なマスクを取得するための第1マッティング処理ユニットと、
    前記オリジナル画像の最終的なマスクと前記オリジナル画像を合成して、前記オリジナル画像に対応する背景なし画像を生成するための画像合成ユニットと、を備える請求項10に記載の装置。
  12. 前記画像切り抜きモジュールは、
    前記オリジナル画像の二値化マスクに基づいて、前記対象主体の最小外接行列を確定するための行列確定ユニットと、
    前記最小外接行列に対応する画像領域を所定倍数に拡大し、画像切り抜き領域とするための領域拡大ユニットと、
    前記画像切り抜き領域の位置に基づいて、前記オリジナル画像から対応する画像ブロックを切り抜き、主体領域画像とするための主体切り抜きユニットと、を備える請求項10に記載の装置。
  13. 前記マスク確定モジュールは、
    前記主体領域画像に対して顕著性検出を行い、前記主体領域画像の初期マスクを取得するための第2顕著検出ユニットと、
    前記主体領域画像の初期マスクに対して二値化処理を行い、前記主体領域画像の二値化マスクを取得するための第2二値化処理ユニットと、
    前記主体領域画像の二値化マスクに基づいてトリマップを生成し、且つ前記トリマップに基づいて前記主体領域画像に対して所定のマッティングアルゴリズムを用いてマッティング処理を行い、主体領域マスクを取得するための第2マッティング処理ユニットと、を備える請求項11に記載の装置。
  14. 前記第1顕著検出ユニット及び/又は前記第2顕著検出ユニットは、
    トレーニング済み顕著性検出モデルに画像を入力し、前記画像の初期マスクを出力して取得するためのモデル入力ユニットを備える請求項13に記載の装置。
  15. 前記第1顕著検出ユニット及び/又は前記第2顕著検出ユニットは、
    トレーニング済み顕著性検出モデルに画像を入力する前に、複数の背景なしの主体画像と複数の所定背景画像を取得するための画像取得ユニットと、
    いずれかの前記背景なしの主体画像といずれかの前記所定背景画像を合成し、トレーニングサンプルを生成するためのサンプル生成ユニットと、
    前記トレーニングサンプルを用いて事前設定ニューラルネットワークをトレーニングし、トレーニング済み顕著性検出モデルを取得するためのモデルトレーニングユニットと、を備える請求項14に記載の装置。
  16. 前記占有率確定モジュールは、
    前記オリジナル画像に対して顕著性検出を行う前に、前記オリジナル画像に対して増強と鮮鋭化処理を行うための画像前処理ユニットをさらに備える請求項10に記載の装置。
  17. 前記第1マッティング処理ユニット及び/又は前記第2マッティング処理ユニットは、
    二値化マスクに対して膨張と浸食処理を行い、膨張マスクと浸食マスクを取得するためのマスク処理ユニットと、
    前記二値化マスクにおいて、前記膨張マスク内の対象主体領域の位置に対応する画像領域の画素値を、第1画素値として設定するための第1設定ユニットと、
    前記二値化マスクにおいて、前記浸食マスク内の対象主体領域の位置に対応する画像領域の画素値を、第2画素値として設定するための第2設定ユニットと、
    前記二値化マスクにおける他の画像領域の画素値を、第3画素値として設定して、トリマップを取得するための第3設定ユニットと、
    前記トリマップに対して所定のマッティングアルゴリズムによりマッティング処理を行い、最終的なマスクを取得するためのトリマップマッティングユニットと、を備える請求項13に記載の装置。
  18. 前記第1マッティング処理ユニット及び/又は前記第2マッティング処理ユニットは、
    前記トリマップに対して所定のマッティングアルゴリズムによりマッティング処理を行った後、所定のフィルタリング方式により、マッティング処理後に取得したマスクに対してエッジ平滑化処理を行うための平滑化処理ユニットをさらに備える請求項17に記載の装置。
  19. 電子機器であって、
    少なくとも1つのプロセッサ、及び
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリを備えており、
    前記メモリに、前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶され、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、請求項1~9のいずれか一項に記載の方法を前記少なくとも1つのプロセッサに実行させる電子機器。
  20. コンピュータコマンドが記憶される非一時的なコンピュータ可読記憶媒体であって、前記コンピュータコマンドは、前記コンピュータに請求項1~9のいずれか一項に記載の方法を実行させることに用いられる非一時的なコンピュータ可読記憶媒体。
  21. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1~9のいずれか一項に記載の方法を実現する、コンピュータプログラム。
JP2021043323A 2020-05-22 2021-03-17 背景なし画像の生成方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Active JP7264929B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010443553.X 2020-05-22
CN202010443553.XA CN111640123B (zh) 2020-05-22 2020-05-22 无背景图像的生成方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
JP2021119457A JP2021119457A (ja) 2021-08-12
JP7264929B2 true JP7264929B2 (ja) 2023-04-25

Family

ID=72332160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021043323A Active JP7264929B2 (ja) 2020-05-22 2021-03-17 背景なし画像の生成方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US11704811B2 (ja)
EP (1) EP3846122B1 (ja)
JP (1) JP7264929B2 (ja)
KR (1) KR102466394B1 (ja)
CN (1) CN111640123B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183629B (zh) * 2020-09-28 2024-05-28 海尔优家智能科技(北京)有限公司 一种图像标识方法、装置、存储介质及电子设备
CN113435491A (zh) * 2021-06-20 2021-09-24 上海体素信息科技有限公司 医学图像处理方法和装置
CN113409378B (zh) * 2021-06-28 2024-04-12 北京百度网讯科技有限公司 图像处理方法、装置和设备
CN116703691B (zh) * 2022-11-17 2024-05-14 荣耀终端有限公司 图像处理方法、电子设备及计算机存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109727264A (zh) 2019-01-10 2019-05-07 南京旷云科技有限公司 图像生成方法、神经网络的训练方法、装置和电子设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011176748A (ja) * 2010-02-25 2011-09-08 Sony Corp 画像処理装置および方法、並びにプログラム
AU2015283079A1 (en) * 2014-06-30 2016-11-24 Ventana Medical Systems, Inc. Detecting edges of a nucleus using image analysis
US9607391B2 (en) * 2015-08-04 2017-03-28 Adobe Systems Incorporated Image object segmentation using examples
EP3246874B1 (en) * 2016-05-16 2018-03-14 Axis AB Method and apparatus for updating a background model used for background subtraction of an image
CN106097353B (zh) * 2016-06-15 2018-06-22 北京市商汤科技开发有限公司 基于多层次局部区域融合的物体分割方法及装置、计算设备
US9965865B1 (en) * 2017-03-29 2018-05-08 Amazon Technologies, Inc. Image data segmentation using depth data
CN110148102B (zh) * 2018-02-12 2022-07-15 腾讯科技(深圳)有限公司 图像合成方法、广告素材合成方法及装置
US10671855B2 (en) * 2018-04-10 2020-06-02 Adobe Inc. Video object segmentation by reference-guided mask propagation
CN109146892B (zh) * 2018-07-23 2020-06-19 北京邮电大学 一种基于美学的图像裁剪方法及装置
WO2020025000A1 (en) 2018-08-01 2020-02-06 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for image processing
US11227390B2 (en) * 2018-09-26 2022-01-18 Shanghai United Imaging Intelligence Co., Ltd. Systems and methods for image processing
CN110751668B (zh) * 2019-09-30 2022-12-27 北京迈格威科技有限公司 图像处理方法、装置、终端、电子设备及可读存储介质
CN110991465B (zh) * 2019-11-15 2023-05-23 泰康保险集团股份有限公司 一种物体识别方法、装置、计算设备及存储介质
US11657513B2 (en) * 2019-11-29 2023-05-23 Samsung Electronics Co., Ltd. Method and system for generating a tri-map for image matting

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109727264A (zh) 2019-01-10 2019-05-07 南京旷云科技有限公司 图像生成方法、神经网络的训练方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chang-Lin Hsieh, et al.,Automatic Trimap Generation for Digital Image Matting,2013 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference,2013年

Also Published As

Publication number Publication date
EP3846122A3 (en) 2021-11-24
JP2021119457A (ja) 2021-08-12
US20210217180A1 (en) 2021-07-15
US11704811B2 (en) 2023-07-18
EP3846122B1 (en) 2023-05-31
CN111640123A (zh) 2020-09-08
KR102466394B1 (ko) 2022-11-11
EP3846122A2 (en) 2021-07-07
KR20210047282A (ko) 2021-04-29
CN111640123B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
JP7264929B2 (ja) 背景なし画像の生成方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
KR20210156228A (ko) 광학 문자 인식 방법, 장치, 전자기기 및 기록매체
CN108830780B (zh) 图像处理方法及装置、电子设备、存储介质
CN111709873B (zh) 图像转换模型生成器的训练方法和装置
CN112990204B (zh) 目标检测方法、装置、电子设备及存储介质
Rahman et al. A framework for fast automatic image cropping based on deep saliency map detection and gaussian filter
CN112381183B (zh) 目标检测方法、装置、电子设备及存储介质
CN112270745B (zh) 一种图像生成方法、装置、设备以及存储介质
JP7213291B2 (ja) 画像を生成するための方法及装置
JP7389824B2 (ja) オブジェクト識別方法と装置、電子機器及び記憶媒体
CN112287924A (zh) 文本区域检测方法、装置、电子设备和计算机存储介质
Ko et al. Skelgan: A font image skeletonization method
CN112257629A (zh) 一种建筑图纸的文本信息识别方法及装置
JP2023543964A (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体およびコンピュータプログラム
CN111932530A (zh) 三维对象检测方法、装置、设备和可读存储介质
Liang et al. Optimised image retargeting using aesthetic‐based cropping and scaling
CN115565186B (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN116363249A (zh) 可控图像生成方法、装置及电子设备
CN113033563B (zh) 文本分割方法、装置、电子设备及存储介质
CN111160358B (zh) 一种图像二值化方法、装置、设备、介质
KR20150094108A (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
CN113450355A (zh) 一种基于多膜态ct图像和3dcnn网络提取图像特征的方法
Pawar et al. Morphology approach in image processing
CN111899181A (zh) 去除图像中的阴影的方法和装置
CN115147850B (zh) 文字生成模型的训练方法、文字生成方法及其装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230413

R150 Certificate of patent or registration of utility model

Ref document number: 7264929

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150