JP2005521169A - ピクセルの行列からなる画像の解析 - Google Patents
ピクセルの行列からなる画像の解析 Download PDFInfo
- Publication number
- JP2005521169A JP2005521169A JP2003579177A JP2003579177A JP2005521169A JP 2005521169 A JP2005521169 A JP 2005521169A JP 2003579177 A JP2003579177 A JP 2003579177A JP 2003579177 A JP2003579177 A JP 2003579177A JP 2005521169 A JP2005521169 A JP 2005521169A
- Authority
- JP
- Japan
- Prior art keywords
- pixels
- image content
- pixel
- classified
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/41—Analysis of texture based on statistical description of texture
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
各ピクセルがパラメータ行列(Y)に配列された少なくとも1つのパラメータにより規定されるようなピクセルの行列からなる画像を解析する方法である。本方法は、上記パラメータ行列(Y)に微分演算を実行して、行列に配列された複数の微分エントリ(D)を得るステップを有する。略同一の微分エントリを有する隣接する微分エントリの集合が決定される。各集合におけるピクセルに関して、当該集合におけるエントリの数を示す経路長が決定される。上記経路長及び微分エントリに基づいて、ピクセルは、自然の又は合成の画像コンテンツとして分類される。
Description
本発明は、画像を解析する方法に関する。また、本発明はコンピュータプログラム製品、装置、プロセッサデバイスシステム及びコンピュータ読み取り可能な媒体にも関する。
CRT/LCDモニタ、即ちコンピュータ及びコンピュータシステムに適用可能なモニタは、高解像度及び低輝度を特徴としている。これらの表示システム(以下、モニタと称す)は、典型的には合成的コンテンツ、例えばテキスト又はグラフィックス、を表示するために使用される。これら表示システムは、現在は、益々自然的コンテンツ、例えば画像又はビデオ、を表示することを要求されるようになっている。特に、TVモニタと比較して、CRTモニタは高解像度及び低輝度を特徴としている。これは、元々はモニタ(例えば、コンピュータ用のモニタ)上に表示されるコンテンツは専ら合成のものであり、特に本質的にはテキストにより表されていたからである。このタイプのコンテンツは、明らかに、ユーザにより享受されるべき高解像度を必要とするが、これは、例えばCRTにおける所要の小さなスポット寸法の電子ビームにより輝度も減少も生じる。
合成的コンテンツとは、以下においては、自然的コンテンツと比較して、合成的起源により幾らか高い秩序度を有するような画像の内容と理解されたい。合成的コンテンツとしての上述したテキストの例とは別に、アイコン、記号、及び如何なる種類のどちらかというと構築された形状、グラフィックス又は画像も合成的コンテンツと理解されるべきである。対照的に、自然的コンテンツとは、以下においては、自然的起源の如何なる画像、特に任意の入力コンポジットラスタ画像の一部であるようなデジタル化写真、ビデオクリップ及び類似の画像のような構築された起源ではないものと理解されるべきである。
今日の状況は大きく変化している。インターネット及びマルチメディア技術(DVD並びに画像記憶及び伝送等)は、モニタ用途での自然なTV的コンテンツを増加させている。この新たな状況は、モニタが元々は合成的及び自然的コンテンツを表示するようには設計されていない故に、斯かるモニタに関する一連の問題を生じている。特には、この問題は、特にCRT及びLCDモニタ及びフラットモニタ等の如何なるPCアプリケーション用モニタによっても直面されている。更に、斯様な問題は、合成的及び自然的コンテンツを含む画像を処理するように構成されたビデオカード、ビデオチップ、マルチメディアチップ、プロセッサユニット、フレームバッファ及びVRAMメモリ等の如何なる関連のあるプロセッサデバイスによっても同様に直面されている。
合成的及び自然的コンテンツを含む画像は、複合コンテンツを有するものと云うことにする。
特にモニタ装置、デバイス及びプロセッサデバイスシステム等の現在普通な表示装置は、高解像度及び無視できる程度の輝度損失で、且つ、複合コンテンツの画像に対して許容可能な処理性能及び時間で画像処理を実行することを要する。
特に視覚的性能等の性能を大幅に改善することが可能な強化解決策が既に存在している。画像処理の性能を効果的に向上させるために、斯様な処理は、例えば自然的コンテンツが存在するスクリーン等の、表示システムの特定の領域に適用及び限定することができる。ユーザによりなされる斯様な“ウインドウ型”の手動選択は、全体のウインドウのコンテンツが自然的なものである場合に採用することができる、簡単ではあるが効果的ではない領域を識別する方法である。
米国特許第6,195,459号に記載されたファジー検出規則に基づく画像検出のための検出方法も適用可能であるが、信頼性に欠ける可能性がある。
残念ながら、ウェブページに典型的であるような同一のウインドウ内の複合コンテンツに対して同一の方法を使用することはできない。何故なら、純粋なテキスト又はグラフィックスに対する向上技術の適用は、これらテキスト又はグラフィックスの知覚される視覚品質の大きな損失を生じさせ得るからである。しかしながら、モニタ上に表示された自然画像の品質の大幅な向上を得るために適用されるビデオ向上アルゴリズムは、純粋なテキスト又はグラフィックスに適用されると悪影響がある。従って、適用される斯様なアルゴリズムの結果は、常に、不十分である。
従って、如何なる種類の複合コンテンツの画像に対しても自然的コンテンツと合成的コンテンツとの間を高信頼度で区別する能力が、重要になる。
本発明の目的は、画像を解析する、即ち特には複合コンテンツのデジタル画像の何の領域が自然画像コンテンツを含み、何の領域が合成画像コンテンツを含むかを検出する改善された方法を提供することにある。更に、本発明の目的は、斯様な方法を実行することが可能なコンピュータプログラム製品、装置、プロセッサデバイスシステム及びコンピュータ読み取り可能な媒体を提供することにもある。
本発明は、独立請求項により規定される。従属請求項は、有利な実施例を規定している。
本発明の基本的な利点は、本発明による方法が、画像処理を特定の時点で表示され又は処理される画像コンテンツに自動的に適応化させるのを可能にすることにある。基本思想は、自然画像コンテンツは合成画像コンテンツから区別することができるということである。該区別は、本発明の基本的思想に基づいて、ローカル画像情報とグローバル画像情報との混合により実施される。グローバル情報とは経路長のような集合に関する情報である。ローカル情報は、各ピクセルに対する微分エントリにより提供される。
この種の区別から利益を受け得る他のアプリケーションは画像圧縮技術であり、斯かる圧縮技術は自然画像コンテンツと合成画像コンテンツとに各々別個の符号化方法を使用することができる。特に、これは、例えばビデオ画像及びテキスト/グラフィックスを符号化するための画像圧縮技術に関するものである。
上述した提案された方法は、各々が驚くべき知覚を有するような3つのステップに実質的に分割することができる。
第1ステップにおいて、本方法はピクセルの1以上の関連するパラメータ値を処理する。更に、パラメータ行列の微分によりローカル画像情報が与えられる一方、グローバル画像情報は同一の微分エントリを有する隣接するピクセルの集合により与えられる。
第2ステップに関しては、徹底した実験的観察が、長い経路を見つける確率は自然画像コンテンツに対しては非常に低いということを示した。該確率は、微分エントリの増加に伴い減少する。対照的に、この確率は合成画像コンテンツに対しては、より高くなる。考えは、この特徴を、複合画像コンテンツにおいて一方における自然画像コンテンツと、他方における合成画像コンテンツとを区別するために使用することである。特に、複合画像コンテンツに関しては、この知覚は、自然画像コンテンツは合成画像コンテンツより一層“断片化”されているので、自然画像コンテンツの経路長が非常に長くなることは一層困難となると見ることにより説明することができる。従って、一般的に自然画像コンテンツと合成画像コンテンツとの比較に関しては、自然画像コンテンツの経路が非常に長くなるということは余りありそうにない。
結果として、本発明の第3ステップは、閾関数T(D)を用いて閾処理を実行する。各集合の長さが計算され、該経路長と微分エントリとの組合せが該閾を超えた場合は、該集合に属する全てのピクセルは合成的と見なされ、該集合は合成画像コンテンツに属するものとしてラベルが付される。それ以外では、ピクセルは自然的とみなされ、当該集合は自然画像コンテンツに属するものとしてラベルが付される。
勾配値に関しては、自然画像コンテンツに対する閾は、より高い。何故なら、自然画像は一般的にピクセル間の低い勾配を特徴とし、従って長い集合が一層ありそうであるからである。従って、低勾配と高勾配との比較に関しては、低勾配の場合、自然画像コンテンツに対しては長い集合の方が一層ありそうである。反対に、高勾配値では閾は低くなければならない。何故なら、斯かる勾配値が合成画像に典型的であるからである。
提案された方法は、複合コンテンツに含まれる自然画像コンテンツを合成画像コンテンツから改善された品質で区別する方法を提供する。
有利な構成においては、ピクセルは、微分エントリDにおける該ピクセルの微分エントリが最小エントリ値以下である場合、背景画像コンテンツとして分類される。改善は、低い値のピクセルは、これらピクセルが背景を表し、合成画像コンテンツ又は自然画像コンテンツの何れにも属し得るので別個に考察されるという認識から生じる。このように、上記最小エントリ値以下の値の全ての集合は、経路長の如何に拘わらず、背景画像コンテンツに属するとしてラベルが付される。
更に改善された構成は、所定の最大差分値が零の場合に達成される。この構成は処理時間を減少させる。
また、前記少なくとも1つのパラメータ値がピクセルの輝度に対応すると有利である。輝度は画像を解析するための関連するパラメータである。何故なら、輝度は画像エネルギの及び形状に関する情報の主要な部分を含む、言い換えるとコンテンツの検出に必要とされるものを含むからである。
ピクセルに対する前記微分エントリが下記2つの勾配の最大値を選択することにより決定されることが、他の利点となる:
− 行列におけるピクセルの該行列のピクセルの行に沿う第1方向における位置の関数としての当該輝度の第1勾配、
− 上記行列における上記第1方向とは垂直なピクセルの他の行に沿う第2方向における位置の関数としての当該輝度の第2勾配。
上記第1及び第2勾配は、当該勾配の正又は負の値と、又は該勾配の絶対値とすることができる。
− 行列におけるピクセルの該行列のピクセルの行に沿う第1方向における位置の関数としての当該輝度の第1勾配、
− 上記行列における上記第1方向とは垂直なピクセルの他の行に沿う第2方向における位置の関数としての当該輝度の第2勾配。
上記第1及び第2勾配は、当該勾配の正又は負の値と、又は該勾配の絶対値とすることができる。
第1及び第2勾配は、勾配の正若しくは負の値又は勾配の絶対値とすることができる。
最小エントリ値を零とするのも他の利点である。これは、ピクセルを背景画像コンテンツとして分類するための好適な値であることが分かった。
他の有利な構成においては、背景画像コンテンツとして分類されたピクセルを持つ背景集合におけるピクセルは、
− 該背景集合が、合成画像コンテンツとして分類されたピクセルを持つ所定の数未満の隣接集合を有する、
− 該背景集合が、自然画像コンテンツとして分類されたピクセルを持つ最低数の隣接集合を有する、
場合に自然画像コンテンツとして分類され、それ以外の場合は合成画像コンテンツとして分類される。
− 該背景集合が、合成画像コンテンツとして分類されたピクセルを持つ所定の数未満の隣接集合を有する、
− 該背景集合が、自然画像コンテンツとして分類されたピクセルを持つ最低数の隣接集合を有する、
場合に自然画像コンテンツとして分類され、それ以外の場合は合成画像コンテンツとして分類される。
背景画像コンテンツとしてラベル付けされたピクセルは、背景画像コンテンツとしてラベル付けされたピクセルの関係解析を実行することにより、合成画像コンテンツ又は自然画像コンテンツの何れかへ変換される。これは、当該背景画像コンテンツの周囲の画像コンテンツを解析することにより実行することができる。
他の改善は、
− 隣接する集合が合成画像コンテンツとして分類されたピクセルを持つ、
− 当該集合の経路長が閾長さより短い、
場合において、集合における自然画像コンテンツとして分類されたピクセルが合成画像コンテンツとして分類される場合に達成される。
− 隣接する集合が合成画像コンテンツとして分類されたピクセルを持つ、
− 当該集合の経路長が閾長さより短い、
場合において、集合における自然画像コンテンツとして分類されたピクセルが合成画像コンテンツとして分類される場合に達成される。
この最後に述べた改善ステップは、画像コンテンツの正しい検出を改善するために先に述べたステップの後で実行されることが重要である。
他の有利な構成においては、本方法は第3部分により補足することができる。該第3部分においては、主に自然画像コンテンツとしてラベル付けされたピクセルを伴う領域内の不規則さが補正される。特に、合成画像コンテンツとして分類された隣接ピクセルの系列は、該系列の長さが最大長より短い場合に自然画像コンテンツとして分類される。
他の有利な構成は、当該画像のうちの自然画像コンテンツとして分類されたピクセルを有する領域において、
− 各ピクセルに対して彩度パラメータがチェックされ、
− 彩度閾値より大きな彩度パラメータ値を持つピクセルの割合が、閾割合を超えたら、当該領域におけるピクセルは合成画像コンテンツとして分類される、
とする。
− 各ピクセルに対して彩度パラメータがチェックされ、
− 彩度閾値より大きな彩度パラメータ値を持つピクセルの割合が、閾割合を超えたら、当該領域におけるピクセルは合成画像コンテンツとして分類される、
とする。
最後に、
− 当該画像において自然画像コンテンツとして分類された領域におけるピクセルの微分エントリの絶対値dが発生され、
− 下記のようなヒストグラムH(d)が発生され、
− 零と最大範囲値との間の絶対値dの範囲を有し、
− 同一の絶対値dを有する領域内のピクセルの数のカウントを前記絶対値dの範囲の関数として含み、
− 下記の場合に、絶対値dにおいてピークを有し、
− 隣接するヒストグラム値H(d-1),H(d+1)がH(d)より小さい、且つ
− H(d)が、絶対値dと前記最大範囲値との間の絶対値dの範囲内の最高の値である、
− 下記の場合に、当該領域におけるピクセルが合成画像コンテンツとして分類される、
− H(d)がピークを持つような絶対値dの最低の値が、第1閾距離を超える、又は
− ヒストグラムH(d)の2つの隣接するピークに属する絶対値(d)の間の差が、第2閾距離を超える、
場合に、利点となる。
− 当該画像において自然画像コンテンツとして分類された領域におけるピクセルの微分エントリの絶対値dが発生され、
− 下記のようなヒストグラムH(d)が発生され、
− 零と最大範囲値との間の絶対値dの範囲を有し、
− 同一の絶対値dを有する領域内のピクセルの数のカウントを前記絶対値dの範囲の関数として含み、
− 下記の場合に、絶対値dにおいてピークを有し、
− 隣接するヒストグラム値H(d-1),H(d+1)がH(d)より小さい、且つ
− H(d)が、絶対値dと前記最大範囲値との間の絶対値dの範囲内の最高の値である、
− 下記の場合に、当該領域におけるピクセルが合成画像コンテンツとして分類される、
− H(d)がピークを持つような絶対値dの最低の値が、第1閾距離を超える、又は
− ヒストグラムH(d)の2つの隣接するピークに属する絶対値(d)の間の差が、第2閾距離を超える、
場合に、利点となる。
上記微分エントリの絶対値のヒストグラムは、当該画像の自然画像コンテンツとして分類された領域が本当に自然のものであるかを検証するために使用される。
コンピュータプログラム製品に関する目的は、本発明によれば、コンピュータ上で実行された場合に上記の提案された方法を実行するコンピュータプログラム製品により解決される。
ここで、ラベルi及びjは各行列のエントリをラベル付けするために使用され、S(i,j)は各ピクセルに対する画像コンテンツ(自然、合成又は背景)を含む意味行列(semantic matrix)である。
前記装置に関する問題は、本発明によれば、ピクセルの行列からなる画像を解析する回路及び/又はコンピュータプログラムを有する装置であって、各ピクセルが少なくとも1つのパラメータにより規定され、各ピクセルに対する該少なくとも1つのパラメータの値がパラメータ行列(Y)に配列され、当該装置が前述した請求項1の方法を実行する処理回路を有するような装置により解決される。
該装置は、コンピュータ、表示装置、モニタ、テレビジョン又は表示装置を有するか若しくは画像を処理する処理回路を有する如何なる他の製品でもあり得る。
プロセッサデバイスシステム及び/又はコンピュータ読み取り可能な媒体に関する目的は、提案された前記方法を実行するためにロードされたコンピュータプログラム製品を有するプロセッサデバイスシステム及び/又はコンピュータ読み取り可能な媒体により解決される。
本発明による方法及び装置の、上記及び他の態様を添付図面を参照して詳細に解説及び記載する。
図1は、提案された画像を解析する方法に関する主要なフィーチャを3つのステップで示している。
図1で使用されている記号は:
Y 当該画像を作成するピクセルの行列のパラメータ値を有するパラメータ行列、
D 上記パラメータ値の微分エントリを含む勾配行列、
P 経路行列。該行列は各ピクセルに対する経路長を含む。
S 意味行列。各ピクセルに対して、該行列は以下に説明するように3つのラベルNAT、SYNT及びBACKのうちの1つを含んでいる。
Y 当該画像を作成するピクセルの行列のパラメータ値を有するパラメータ行列、
D 上記パラメータ値の微分エントリを含む勾配行列、
P 経路行列。該行列は各ピクセルに対する経路長を含む。
S 意味行列。各ピクセルに対して、該行列は以下に説明するように3つのラベルNAT、SYNT及びBACKのうちの1つを含んでいる。
画像は、ピクセルの行列からなっている。各ピクセルは、少なくとも1つのパラメータ値により規定される。上記ピクセル行列のパラメータ値は、パラメータ行列Yに配列される。これらパラメータ値は、通常は、デジタルの形態で利用可能である。パラメータとしては輝度が使用されることが有利である。第1ステップにおいては、行列Yの輝度パラメータ値に対して勾配演算1が実行され、該勾配は微分行列Dに配列された複数の微分エントリにより提供される。
第2ステップにおいては、所定の最大差分値以下しか相互にずれていない隣接する微分エントリの集合が識別される。各集合に対して、当該集合におけるエントリの数を示すような、経路長が経路発見器(path finder)2により決定される。
必要な計算を簡略化する代替例は、上記所定の最大差分値を零に等しくすることである。
第3ステップにおいては、各ピクセルに対して当該ピクセルの微分エントリと経路長との組合せが所定の閾関数T(D)を超えるかチェックすることにより閾チェック3が実行される。
各集合に関して、経路長及び微分エントリの変数を閾関数T(D)と比較することにより、当該集合に関係するピクセルは、上記変数が閾関数H(D)を超える場合は合成画像コンテンツSYNTと分類され、上記変数が閾関数H(D)より低いままである場合は自然画像コンテンツNATと分類される。
図2は、有利な実施例において使用される好ましい閾関数T(D)を示す。該閾関数は、微分エントリの絶対値dの関数として与えられる。自然画像においては、一般的にピクセル間では低い勾配が一層ありそうであり、結果として、統計的に見て、低い勾配に対しては一層長い経路長となる。この結果、図2に示すような好ましい閾関数T(D)が得られ、該図において、閾関数H(D)は部分エントリの絶対値dが増加すると減少する。図1における比較ステップにおいて、微分エントリは最小エントリ値と比較される。
上記最小エントリ値より小さい微分エントリを有するピクセルは、背景画像コンテンツBACKと分類される。背景画像コンテンツとして分類されたピクセルは、合成画像コンテンツSYNTにも及び自然画像コンテンツにも属する可能性があるので、以下に見られるように更なる処理が必要とされる。
上記最小エントリ値は零とされるのが有利である。ここまで述べたステップの結果として、各ピクセルに対してラベルNAT、SYNT又はBACKの1つを含む意味行列Sを作成することができる。
前記勾配演算に関しては、該タスクを実行するために多数の演算子が好適であるが、実験的試験の後、異なる勾配演算を使用しても結果は大幅には相違しないことが分かった。従って、計算的見地からは、単純なノルム、即ちmaxノルム:
を使用するのが有利であり、ここで、D(i,j)は行方向にiでラベルを付され、列方向にjでラベルを付された複数の微分エントリを持つ行列Dを示し、
は行列Yの行方向及び列方向の各々のエントリに関する偏微分を示す。
N=∞の場合、これは、有利な実施例において使用されるようにmaxノルムとなる。
各ピクセルに関して、微分エントリを追加メモリに記憶することができる。しかしながら、好ましい実施例においては、微分エントリDの行列を記憶する追加のメモリは必要ではない。行列Yは、フレームメモリに記憶することができる。微分エントリが算出されている各ピクセルに対して、この微分エントリは、対応するパラメータ値が記憶されたのと同一のフレームメモリに記憶することができる。何故なら、このパラメータ値は、当該方法の後のステップにおいては最早決して使用されることはないからである。これを実行するために、追加のラインメモリのみを必要とすることもできる。
本方法の部分1の結果として、3つの可能性のあるラベルNAT、SYNT又はBACKのうちの1つが各ピクセルに割り当てられる。
背景画像コンテンツBACK値として分類されたピクセルを持つ集合は、図3のフローチャートに示すように更に処理されねばならない。これらの集合は、当該画像の一様な領域である。通常、一様な領域は画像の背景を表し、このような理由により、斯かる一様な領域は画像の自然コンテンツに及び/又は合成コンテンツの両方に属する可能性がある。例えば、風景の空の領域は、量子化の後にJPEG圧縮により一様に見える可能性があり、同様にして、図のテキストも一様な背景を有する。一様な領域における前記集合の処理は2つのステップで、即ち短NAT経路処理ステップ5が後続するBACK経路処理ステップ4により実行される。
自然画像に属する一様な領域に関して検証されるべき2つの独特の特性が識別されている。即ち:
1.当該画像の一様な領域を囲む領域はテキスト文字又はグラフィック部分を含むべきではない(又は、斯かるテキスト文字又はグラフィック部分は少数しか含んではならない)。言い換えると、斯かる領域はSYNTとして分類されたピクセルを持つ集合を過度に多く含んではならない。
2.上記一様な領域は、NATとして分類されたピクセルを持つ集合に少なくとも部分的に隣接していなければならない。さもなければ、これらをビデオ画像の一部として見なす理由が存在しない。
1.当該画像の一様な領域を囲む領域はテキスト文字又はグラフィック部分を含むべきではない(又は、斯かるテキスト文字又はグラフィック部分は少数しか含んではならない)。言い換えると、斯かる領域はSYNTとして分類されたピクセルを持つ集合を過度に多く含んではならない。
2.上記一様な領域は、NATとして分類されたピクセルを持つ集合に少なくとも部分的に隣接していなければならない。さもなければ、これらをビデオ画像の一部として見なす理由が存在しない。
BACK経路処理ステップ4においては2つの特性が前記意味行列Sを解析することにより検証される。これらの特性を持つBACKとして分類されたピクセルを持つ集合が発見されたら、該集合のピクセルはNATに変換され、それ以外の場合、これらはSYNTに変換される。BACK経路処理ステップ4の結果として、NAT又はSYNTとして分類されたピクセルを含む適応化された意味行列Sが発生される。
有利な実施例においては、上記2つの特性は、背景画像コンテンツBACKとして分類されたピクセルを持つ背景集合においてピクセルを分類するために使用される。斯かる背景集合におけるピクセルは、下記の2つの特性が満足された場合は、自然画像コンテンツとして分類される:
1.当該背景集合が、合成画像コンテンツSYNTとして分類されたピクセルを持つ所定数未満の隣接する集合しか有しておらず、且つ
2.当該背景集合が、自然画像コンテンツNATとして分類されたピクセルを持つ最小数の隣接する集合を有する。
1.当該背景集合が、合成画像コンテンツSYNTとして分類されたピクセルを持つ所定数未満の隣接する集合しか有しておらず、且つ
2.当該背景集合が、自然画像コンテンツNATとして分類されたピクセルを持つ最小数の隣接する集合を有する。
他の全ての場合には、背景集合におけるピクセルは合成画像コンテンツSYNTと分類される。
上述した処理の結果は、NAT又はSYNTと分類されたピクセルを含む適応化された意味行列S1となる。
背景が正しく分類されたら、好ましい実施例は、短NAT経路処理ステップ5において、分離されており且つ自然画像コンテンツとして見なすには短か過ぎるNATとして分類された集合を変換し続ける。これらの集合は、短NAT経路と呼ばれ、偽経路と考えられる。何故なら、これら集合は小さなアイコン又はJPEGで圧縮された合成画像の部分から生じるからである。短NAT経路処理ステップ5において、短NAT経路におけるピクセルはSYNTに変換される。該短NAT経路処理の結果は、第2の適応化された意味行列S2に記憶される。
最後の2つのステップの順序は逆転されてはならないことに注意することが重要である。
事実、自然画像の小さな部分が当該画像から背景により分離されることはしばしば発生する。これらの種類の経路は真の短NAT経路と呼ぶことができる。何故なら、これら経路は、好ましい実施例により、過度に短いが短NAT経路の最大部分のような誤った検出ではない自然画像に属するものであるとして分類された経路であるからである。好ましい実施例がBACK部分の前に短NAT経路を処理すると、全ての短NAT経路がSYNTに変換されてしまう。従って、短NAT経路の部分集合であるような幾つかの真の短NAT経路もSYNTに変換されてしまう事態が発生し得る。これは、検出性能の低下に繋がる。このように、上記ステップの正に述べた順序を維持することが、不所望な影響を防止する。
図3に示すように、BACK経路処理ステップ4及び短NAT経路処理ステップ5の後、当該アルゴリズムは、2種類のラベル、即ちNAT及びSYNTのみを含む第2の適応化された意味行列S2を出力として生成する。各ピクセルは、これら2つのラベルのうちの1つで分類される。NATとラベルが付されたピクセルの集合は出力マスクを表す。このようなマスクは、しばしば、該マスク内及び境界上の両方に幾つかの不規則性を含む。従って、有利な実施例においては、これらの不規則性を低減するために不規則性低減処理ステップ6が適用される。
上記第2の適応化された意味行列は、行方向及び列方向の両方向に走査される。このようにすることにより、下記の2つの状況を特徴付けることができる。即ち、“マスク/非マスク”遷移及び反対の“非マスク/マスク”遷移である。最初の用語は、当該アルゴリズムが最初にマスクに属するピクセルに出会い、その後に該マスクに属さないピクセルに出会うような状況を示す。第2の用語は、反対の状況を示す。ライン内で“マスク/非マスク”遷移が見付かったら、反対の遷移が発生するか又は当該ラインが完了するまで、カウンタが増加される。次いで、該カウンタが評価される。即ち、該カウンタの値が或る閾より小さい場合は、最後の“マスク/非マスク”イベントからの全ピクセルは該マスクに属するピクセルに変換される。
言い換えると、合成画像コンテンツとして分類された隣接するピクセルの系列は、該系列の長さが最大長より短い場合、自然画像コンテンツNATとして分類される。
この種の処理は、マスク不規則性の最も大きな部分を除去する。
最終的に、自然領域の検出の信頼性のレベルを増加させる目的で、2つのテストT1、T2が当該処理の最後に実行される。
図3に示すように、第1のテストT1は当該マスク内のピクセルの彩度パラメータに対して実行される。該彩度パラメータの飽和値Svは、自然と分類された領域においてピクセル毎に評価される。
各ピクセルに対して飽和閾値Svが決定され、当該マスクにおける飽和値が該飽和閾値より大きいピクセルの割合が決定される。このピクセルの割合が上記飽和閾値より大きい場合、このマスクは合成領域と見なされ、関連するピクセル及び経路は合成画像コンテンツSYNTとラベル付けされる。
最後に、自然として認識された各領域に関する微分エントリのヒストグラムに対して第2のテストT2が実行される。このようなヒストグラムは自然画像の場合に2つの規準を満たさねばならないことが分かった。従って、該第2のテストの目的は、自然画像コンテンツNATとして検出された領域に対して斯かる規準を検証すると共に、当該領域のヒストグラムが両規準を満たす場合に該テストされた領域の分類を自然画像コンテンツNATとして維持することにある。それ以外の場合は、当該分類は合成画像コンテンツSYNTに変更される。
有利な実施例においては、テスト下の領域におけるピクセルの微分エントリの絶対値dが、斯かる絶対値dの関数としてのヒストグラムH(d)を発生するために使用される。
他の実施例においては、上記微分エントリの正及び負の値が使用される。
上記絶対値dのヒストグラムH(d)は、dの各値に対して、テスト中の領域における微分エントリの絶対値として該値dを持つピクセルの数を含む。
絶対値dは、零から最大範囲値まで変化し得る。該最大範囲値は、前記パラメータ行列Yにおける2つの隣接するエントリが最大の差(例えば、零輝度から最大輝度値への又はその逆の遷移により)を有する場合に発生するような最大の微分エントリに対応する。
上記ヒストグラムH(d)におけるピークは、下記の規準に基づいて定義される:
1)H(d)は極大(relative maximum)である。即ち、H(d)>H(d-1)且つH(d)>H(d+1);
2)H(d)は当該範囲(d,最大範囲値)内の絶対最大値である。
1)H(d)は極大(relative maximum)である。即ち、H(d)>H(d-1)且つH(d)>H(d+1);
2)H(d)は当該範囲(d,最大範囲値)内の絶対最大値である。
ビデオ画像のような自然画像コンテンツNATの画像のヒストグラムにおいては、全てのピーク(2以上なら)は低勾配で現れ、ピーク間の距離は非常に小さい。テキスト及びグラフィックス画像のヒストグラムにおいては、ピーク間の距離はビデオ画像に対するものより著しく大きく、最初のピークは、しばしば、ビデオ画像におけるよりも大幅に大きな絶対値で現れる。広範囲の数の入力画像を処理した後、最も小さな値dを持つ第1ピークに対するdの絶対値である第1閾距離及び隣接するピークの間の第2閾距離に関する適切な閾値が見付かった。
上述した2つの閾値に基づけば、自然画像コンテンツNATの領域に関し該分類を維持するために満たされるべき2つの規準は:
1)最初のピークは上記第1閾距離より小さい絶対値で現れなければならず、
2)2つの連続するピークの間の距離は、上記第2閾距離よりも小さくなければならない、
となる。
1)最初のピークは上記第1閾距離より小さい絶対値で現れなければならず、
2)2つの連続するピークの間の距離は、上記第2閾距離よりも小さくなければならない、
となる。
有利な実施例においては、上記規準を適用する分類は下記のように実行される:
− 自然画像コンテンツ(NAT)として分類された画像の領域におけるピクセルの微分エントリの絶対値dが発生される、
− 下記のようなヒストグラムH(d)が発生される、
− 零と最大範囲値との間の絶対値の範囲を有する、
− 絶対値dの範囲の関数として、当該領域における同じ絶対値dを持つピクセルの数のカウントを含む、
− 下記の場合に、絶対値dにピークを有する、
− 隣接するヒストグラム値H(d-1)、H(d+1)はH(d)より小さい、且つ
− H(d)は当該絶対値dと最大範囲値との間の絶対値dの範囲における最大の値である、
− 下記の場合に、当該領域におけるピクセルは合成画像コンテンツ(SYNT)と分類される、
− H(d)がピークを持つような絶対値dの最小の値が、第1閾距離を超える、又は
− ヒストグラムH(d)の2つの隣接するピークに属する絶対値(d)の間の差が、第2閾距離を超える。
− 自然画像コンテンツ(NAT)として分類された画像の領域におけるピクセルの微分エントリの絶対値dが発生される、
− 下記のようなヒストグラムH(d)が発生される、
− 零と最大範囲値との間の絶対値の範囲を有する、
− 絶対値dの範囲の関数として、当該領域における同じ絶対値dを持つピクセルの数のカウントを含む、
− 下記の場合に、絶対値dにピークを有する、
− 隣接するヒストグラム値H(d-1)、H(d+1)はH(d)より小さい、且つ
− H(d)は当該絶対値dと最大範囲値との間の絶対値dの範囲における最大の値である、
− 下記の場合に、当該領域におけるピクセルは合成画像コンテンツ(SYNT)と分類される、
− H(d)がピークを持つような絶対値dの最小の値が、第1閾距離を超える、又は
− ヒストグラムH(d)の2つの隣接するピークに属する絶対値(d)の間の差が、第2閾距離を超える。
図3に示す最終マスクM、即ち上記2つのテストT1、T2の後に自然コンテンツNATの分類を維持したNATとラベル付けされたピクセルを持つ領域、は良好なレベルの信頼性で当該画像内の自然領域を表す。
尚、上述した実施例は本発明を限定するというよりは解説するものであり、当業者であれば添付請求項の範囲から逸脱すること無しに多数の代替実施例を設計することができることに注意すべきである。また、請求項において、括弧内に配された如何なる符号も当該請求項を限定するものと見なしてはならない。また、“有する”なる動詞及びその活用形の使用は、請求項に記載されたもの以外の構成要素又はステップの存在を排除するものではない。また、単数形の構成要素は複数の斯様な構成要素の存在を排除するものではない。また、本発明は、幾つかの別個の構成要素を有するハードウェアにより、及び適切にプログラムされたコンピュータにより実施化することができる。また、幾つかの手段を列挙する装置の請求項において、これら手段の幾つかはハードウェアの1つの同一のものにより実施化することができる。また、特定の手段が相互に異なる従属請求項において引用されているという事実だけで、これら手段の組合せを有利に使用することができないということを示すものではない。
Claims (14)
- 各ピクセルがパラメータ行列に配列された少なくとも1つのパラメータ値により規定されるようなピクセルの行列からなる画像を解析する方法において、
− 前記パラメータ行列に微分演算を実行して、行列に配列された複数の微分エントリを設けるステップと、
− 所定の最大差分値以下しか相互にずれていない隣接する微分エントリの集合を決定するステップと、
− 各集合に対して該集合における前記隣接する微分エントリの数を示す経路長を決定すると共に、該経路長を当該集合における各ピクセルに割り当てるステップと、
− ピクセルを、
− 該ピクセルに割り当てられた前記経路長と該ピクセルに関する前記微分エントリとの組合せが閾関数を超えた場合は、合成画像コンテンツとして、
− 該ピクセルに割り当てられた前記経路長と該ピクセルに関する前記微分エントリとの組合せが前記閾関数より低い場合には、自然画像コンテンツとして、
分類するステップと、
を有していることを特徴とする方法。 - 請求項1に記載の方法において、ピクセルが、前記部分エントリにおける該ピクセルに関する微分エントリが最小エントリ値以下である場合に、背景画像コンテンツとして分類されることを特徴とする方法。
- 請求項1に記載の方法において、前記所定の最大差分値が零であることを特徴とする方法。
- 請求項1に記載の方法において、前記少なくとも1つのパラメータ値が前記ピクセルの輝度に対応することを特徴とする方法。
- 請求項4に記載の方法において、ピクセルに関する前記微分エントリが、
− 前記行列におけるピクセルの行に沿う第1方向における該行列内のピクセルの位置の関数としての前記輝度の第1勾配、及び
− 前記行列における前記第1方向とは垂直のピクセルの他の行に沿う第2方向における該行列内の位置の関数としての前記輝度の第2勾配、
なる2つの勾配のうちの最大値を選択することにより決定されることを特徴とする方法。 - 請求項2に記載の方法において、前記最小エントリ値が零であることを特徴とする方法。
- 請求項2に記載の方法において、背景画像コンテンツとして分類されたピクセルを持つ背景集合におけるピクセルが、
− 前記背景集合が、合成画像コンテンツとして分類されたピクセルを持つ所定数未満の隣接する集合を有し、及び
− 前記背景集合が、自然画像コンテンツとして分類されたピクセルを持つ最小数の隣接する集合を有する、
場合に自然画像コンテンツとして分類され、それ以外の場合には合成画像コンテンツとして分類されることを特徴とする方法。 - 請求項7に記載の方法において、集合における自然画像コンテンツとして分類されたピクセルが、
− 隣接する集合が合成画像コンテンツとして分類されたピクセルを有し、及び
− 当該集合の前記経路長が閾長より短い、
場合に合成画像コンテンツとして分類されることを特徴とする方法。 - 請求項1に記載の方法において、合成画像コンテンツとして分類された隣接するピクセルの系列が、該系列の長さが最大長より短い場合に自然画像コンテンツとして分類されることを特徴とする方法。
- 請求項1に記載の方法において、当該画像の自然画像コンテンツとして分類されたピクセルを持つ領域において、
− 各ピクセルに対して飽和パラメータ値がチェックされ、
− 飽和閾値より大きな飽和パラメータ値を有するピクセルの割合が閾割合を超えた場合に、前記領域におけるピクセルが合成画像コンテンツとして分類される、
ことを特徴とする方法。 - 請求項1に記載の方法において、
− 当該画像における自然画像コンテンツとして分類された領域内のピクセルの微分エントリの絶対値dが発生され、
− 下記のようなヒストグラムH(d)が発生され、
− 零と最大範囲値との間の絶対値dの範囲を有し、
− 前記絶対値dの範囲の関数として、当該領域内の同じ絶対値dを持つピクセルの数のカウントを含み、
− 下記の場合に絶対値dにおいてピークを有し、
− 隣接するヒストグラム値H(d-1)、H(d+1)がH(d)より小さく、及び
− H(d)が、当該絶対値dと前記最大範囲値との間の絶対値dの範囲における最大値である、
− 下記の場合に、当該領域内のピクセルが合成画像コンテンツとして分類される、
− H(d)がピークを持つような絶対値dのうちの最小値が、第1閾距離を超える、又は
− 前記ヒストグラムH(d)の2つの隣接するピークに属する絶対値(d)間の差が、第2閾距離を超える、
ことを特徴とする方法。 - 請求項1に記載の方法を実行するソフトウェア手段を有するような、コンピュータ読み取り可能な媒体上に記憶することが可能なコンピュータプログラム。
- 各ピクセルが少なくとも1つのパラメータ値により規定されるようなピクセルの行列からなる画像を解析する装置であって、各ピクセルに対する前記少なくとも1つのパラメータ値の値がパラメータ行列に配列されるような装置において、請求項1に記載の方法を実行する処理手段を有することを特徴とする装置。
- 請求項1に記載の方法を実行するために記憶されたコンピュータプログラムを有するプロセッサデバイスシステム及び/又はコンピュータ読み取り可能な媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02076184 | 2002-03-26 | ||
PCT/IB2003/001100 WO2003081533A2 (en) | 2002-03-26 | 2003-03-12 | Classifying pixels as natural or synthetic image content |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005521169A true JP2005521169A (ja) | 2005-07-14 |
Family
ID=28051811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003579177A Pending JP2005521169A (ja) | 2002-03-26 | 2003-03-12 | ピクセルの行列からなる画像の解析 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP1490834A2 (ja) |
JP (1) | JP2005521169A (ja) |
CN (1) | CN1656516A (ja) |
AU (1) | AU2003212574A1 (ja) |
TW (1) | TW200404268A (ja) |
WO (1) | WO2003081533A2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006087666A1 (en) * | 2005-02-16 | 2006-08-24 | Koninklijke Philips Electronics N.V. | Method for natural content detection and natural content detector |
JP4683294B2 (ja) * | 2006-03-16 | 2011-05-18 | ソニー株式会社 | 画像処理装置および方法、プログラム記録媒体、並びにプログラム |
EP2442238A1 (en) | 2010-09-29 | 2012-04-18 | Accenture Global Services Limited | Processing a reusable graphic in a document |
US11521378B2 (en) | 2020-01-06 | 2022-12-06 | International Business Machines Corporation | Refined searching based on detected object configurations |
US11366624B2 (en) | 2020-03-30 | 2022-06-21 | Kyocera Document Solutions Inc. | Super-resolution convolutional neural network with gradient image detection |
CN117390600B (zh) * | 2023-12-08 | 2024-02-13 | 中国信息通信研究院 | 用于深度合成信息的检测方法 |
-
2003
- 2003-03-12 CN CNA038120356A patent/CN1656516A/zh active Pending
- 2003-03-12 WO PCT/IB2003/001100 patent/WO2003081533A2/en not_active Application Discontinuation
- 2003-03-12 JP JP2003579177A patent/JP2005521169A/ja active Pending
- 2003-03-12 EP EP03708399A patent/EP1490834A2/en not_active Withdrawn
- 2003-03-12 AU AU2003212574A patent/AU2003212574A1/en not_active Abandoned
- 2003-03-26 TW TW092106794A patent/TW200404268A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
AU2003212574A1 (en) | 2003-10-08 |
TW200404268A (en) | 2004-03-16 |
EP1490834A2 (en) | 2004-12-29 |
WO2003081533A3 (en) | 2004-08-26 |
CN1656516A (zh) | 2005-08-17 |
AU2003212574A8 (en) | 2003-10-08 |
WO2003081533A2 (en) | 2003-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112990191B (zh) | 一种基于字幕视频的镜头边界检测与关键帧提取方法 | |
JP4626886B2 (ja) | デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置 | |
US10169655B2 (en) | Detection of logos in a sequence of video frames | |
US8787690B2 (en) | Binarizing an image | |
US11836958B2 (en) | Automatically detecting and isolating objects in images | |
JP2000132690A (ja) | ト―クン化によるイメ―ジ分割を用いたイメ―ジ処理方法および装置 | |
US7330592B2 (en) | Method and apparatus for detecting the location and luminance transition range of slant image edges | |
US8170361B2 (en) | Video window detector | |
US6625308B1 (en) | Fuzzy distinction based thresholding technique for image segmentation | |
US6658399B1 (en) | Fuzzy based thresholding technique for image segmentation | |
JP5847062B2 (ja) | 画像処理装置 | |
US7873226B2 (en) | Image encoding apparatus | |
JP2005521169A (ja) | ピクセルの行列からなる画像の解析 | |
US20040161152A1 (en) | Automatic natural content detection in video information | |
US7263229B2 (en) | Method and apparatus for detecting the location and luminance transition range of slant image edges | |
CN110211085B (zh) | 一种图像融合质量评价方法和*** | |
JP4409713B2 (ja) | 文書画像認識装置及び記録媒体 | |
US11900643B2 (en) | Object detection method and object detection system | |
RU2607415C2 (ru) | Способ идентификации кадров потока мультимедийных данных на основе корреляционного анализа гистограмм изображений кадров | |
US11295452B1 (en) | Automated method and apparatus for detecting black borders in an image frame | |
US20240153050A1 (en) | Method and a device for reducing a dynamic range of an image | |
JP3634248B2 (ja) | 文字領域抽出方法、文字領域抽出装置及び記録媒体 | |
JP4282512B2 (ja) | 画像処理装置、画像処理装置における2値化閾値管理方法及び画像処理プログラム | |
WO2003049036A2 (en) | Discriminating between synthetic and natural image regions | |
Basu et al. | Ty PROCESSING (CIRCUIT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080826 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090210 |