JP4964798B2 - Image dictionary generating device, image dictionary generating method, image dictionary generating program and recording medium thereof - Google Patents
Image dictionary generating device, image dictionary generating method, image dictionary generating program and recording medium thereof Download PDFInfo
- Publication number
- JP4964798B2 JP4964798B2 JP2008031210A JP2008031210A JP4964798B2 JP 4964798 B2 JP4964798 B2 JP 4964798B2 JP 2008031210 A JP2008031210 A JP 2008031210A JP 2008031210 A JP2008031210 A JP 2008031210A JP 4964798 B2 JP4964798 B2 JP 4964798B2
- Authority
- JP
- Japan
- Prior art keywords
- representative
- image
- cluster
- region
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は,画像に対して自動的に画像の意味を示すラベルを付与するようなときに用いる画像辞書を生成する技術に係り,特に,画像の領域情報を用いて画像辞書を生成する装置,方法,プログラムおよびそのプログラムの記録媒体に関する。 The present invention relates to a technique for generating an image dictionary used when automatically giving a label indicating the meaning of an image to an image, and in particular, an apparatus for generating an image dictionary using image area information, The present invention relates to a method, a program, and a recording medium for the program.
従来の画像辞書生成方法として,次のような方法がある。 As a conventional image dictionary generation method, there are the following methods.
(1)まず,ある意味に関する画像群を学習データとして収集する。次に,学習データから色,テクスチャ,形状などの特徴量(L個)を別々に抽出する。最後に,学習手法を用いて,個々の特徴空間において特徴識別モデル(L個)を構築する。以上の処理により,学習データから求めた特徴識別モデル(L個)と各モデルの重み付け係数で構成した画像辞書を生成することができる(非特許文献1参照)。 (1) First, an image group related to a certain meaning is collected as learning data. Next, feature quantities (L) such as color, texture, and shape are separately extracted from the learning data. Finally, a feature identification model (L pieces) is constructed in each feature space using a learning method. By the above processing, an image dictionary composed of feature identification models (L) obtained from learning data and the weighting coefficients of each model can be generated (see Non-Patent Document 1).
(2)画像における画像の意味を表す基本単位は領域と考えられるので,まず,収集した学習データに対して領域分割を行う。次に,学習データの領域群におけるクラスタリングをし,領域数が最大となる領域クラスタを画像の意味を表す最大領域クラスタとして抽出する。最後に,最大領域クラスタから求めた領域モデルを学習することで画像辞書を生成することができる(非特許文献2参照)。 (2) Since the basic unit representing the meaning of an image in an image is considered to be a region, first, region collection is performed on the collected learning data. Next, clustering is performed on the learning data area group, and the area cluster having the maximum number of areas is extracted as the maximum area cluster representing the meaning of the image. Finally, an image dictionary can be generated by learning a region model obtained from the maximum region cluster (see Non-Patent Document 2).
なお,非特許文献3には,本発明の実施例で用いることができる画像を領域分割する方法の一例が記載されている。
上記の非特許文献1に示されるような画像辞書生成方法は,学習データの画像全体に対する色,テクスチャ,形状などの物理特徴量を用いて画像辞書を求めるので,画像の物理的な特徴と画像の意味との対応関係を明確に規定できない。そのため,精度が低いという問題がある。
In the image dictionary generation method as shown in Non-Patent
また,上記の非特許文献2にされるような画像辞書生成方法は,一つの領域クラスタだけで画像をモデル化しているので,複数の領域で構成される画像に対して,精度が悪くなる。例えば,“ビーチ”という画像の意味は,“海”,“太陽”,“砂”などの複数の代表オブジェクトを表した複数の代表領域の集合で表現されるので,一つのオブジェクト(例えば,海)に対応する領域モデルだけで“ビーチ”の意味を表現することは不十分である。 In addition, the image dictionary generation method as described in Non-Patent Document 2 models an image with only one area cluster, so that the accuracy is deteriorated for an image composed of a plurality of areas. For example, the meaning of the image “beach” is expressed by a set of a plurality of representative areas representing a plurality of representative objects such as “sea”, “sun”, “sand”, and so on. It is not sufficient to express the meaning of “beach” only with the area model corresponding to).
本発明は上記問題点の解決を図り,精度のよい画像辞書を生成する手段を提供することを目的とする。 It is an object of the present invention to provide means for solving the above problems and generating an accurate image dictionary.
画像の意味の表現には,以下の二つの観点がある。
(1)画像の意味を表した基本的な単位は画像の領域と考えられる。ここで,画像の領域は,実世界のオブジェクト(例:芝生,人,山など)に対応する。
(2)画像の意味は,画像における代表オブジェクトを表した複数の代表領域で表現される。
There are the following two viewpoints for expressing the meaning of images.
(1) A basic unit representing the meaning of an image is considered to be an image area. Here, the image area corresponds to a real-world object (eg, lawn, person, mountain, etc.).
(2) The meaning of an image is expressed by a plurality of representative areas representing representative objects in the image.
上記の点を踏まえて,本発明は,画像辞書の精度が低いという従来技術の問題を解決するために,学習データから意味をよく表現できる代表オブジェクトに対応する代表領域クラスタを抽出し,個々の代表領域クラスタに対して代表領域クラスタモデルを構築して,各代表領域クラスタモデルに適切な重み付け係数を求めることにより,複数の代表領域クラスタモデルとそれに対応する重み付け係数で構成した画像辞書を生成する手段を設ける。これにより,画像辞書の精度を向上させる。ここで,オブジェクトとは,画像中の意味的にまとまりのある撮像対象のことをいう。 Based on the above points, the present invention extracts representative area clusters corresponding to representative objects that can express their meaning well from learning data in order to solve the problem of the prior art that the accuracy of the image dictionary is low. Generate an image dictionary composed of multiple representative area cluster models and corresponding weighting coefficients by constructing a representative area cluster model for the representative area cluster and finding an appropriate weighting coefficient for each representative area cluster model Means are provided. This improves the accuracy of the image dictionary. Here, an object refers to an imaging target that is semantically organized in an image.
具体的には,本発明は,ある意味に関する画像群を学習データとして取得する学習データ取得手段と,前記収集した学習データに対して領域を分割する領域分割手段と,前記領域分割手段で得られた学習データの領域群に対してクラスタリングを行って,意味をよく表現できる複数オブジェクトに対応する複数個の代表領域クラスタを抽出する代表領域クラスタ抽出手段と,前記抽出した各代表領域クラスタに対し,代表領域クラスタに含まれる画像サンプルを学習データとして代表領域クラスタモデルを構築する代表領域クラスタモデル学習手段と,前記複数の代表領域クラスタモデルの意味に対する重要度を表す重み付け係数を,代表領域クラスモデル毎に算出する重み付け係数算出手段とを用い,これらにより算出した情報から画像辞書を生成する。
Specifically, the present invention is obtained by learning data acquisition means for acquiring an image group relating to a certain meaning as learning data, area dividing means for dividing an area for the collected learning data, and the area dividing means. Clustering is performed on a group of learning data, and representative area cluster extracting means for extracting a plurality of representative area clusters corresponding to a plurality of objects whose meaning can be well expressed, and for each of the extracted representative area clusters, A representative region cluster model learning means for constructing a representative region cluster model using image samples included in the representative region cluster as learning data, and a weighting coefficient indicating the importance of the meanings of the plurality of representative region cluster models for each representative region class model using the weighting coefficient calculating means for calculating the image dictionary from the calculated information by these To generate.
本発明において,前記重み付け係数算出手段では,各代表領域クラスタに属する,代表領域クラスタの領域数と代表領域クラスタにおける分布のばらつきに基づいて,重み付け係数を算出することができる。 In the present invention, the weighting coefficient calculating means can calculate the weighting coefficient based on the number of representative area clusters belonging to each representative area cluster and the variation in distribution in the representative area cluster.
本発明では,学習データから画像の意味を表すオブジェクトに対応する複数の代表領域クラスタを抽出し,個々の代表領域クラスタに対して代表領域クラスタモデルを構築して,各代表領域クラスタに適切な重み付け係数を求めることにより,複数の代表領域クラスタモデルとそれに対応する重み付け係数で構成した画像辞書を生成する手段を設けることで,高精度な画像辞書を生成することができる。 In the present invention, a plurality of representative area clusters corresponding to objects representing the meaning of an image are extracted from the learning data, a representative area cluster model is constructed for each representative area cluster, and an appropriate weight is assigned to each representative area cluster. By obtaining a coefficient, it is possible to generate a highly accurate image dictionary by providing means for generating an image dictionary composed of a plurality of representative area cluster models and corresponding weighting coefficients.
本発明の実施の形態を以下に説明する。本発明の一実施形態に係る画像辞書生成装置の構成例を図1に示す。同図における画像辞書生成装置10は,学習データ記憶部100と,学習データ取得部101と,領域分割部102と,代表領域クラスタ抽出部103と,代表領域クラスタモデル学習部104と,重み付け係数算出部105と,画像辞書記憶部106とから構成される。各部の処理内容について,以下に説明する。
Embodiments of the present invention will be described below. FIG. 1 shows a configuration example of an image dictionary generation apparatus according to an embodiment of the present invention. The image
学習データ記憶部100は,あらかじめ意味ラベルとそれに関連する画像を手動で収集し,それらを格納する。すなわち,学習データ記憶部100には,多数の画像と各画像に対して人間が付与した意味ラベルとの対応情報が格納されている。学習データ記憶部100は,学習データ取得部101から意味ラベルを指定した学習データ取得要求に対し,格納している画像群の中から,指定された意味ラベルを持つ画像を収集して,学習データとして学習データ取得部101へ出力する。
The learning
学習データ取得部101は,学習データ記憶部100に意味ラベルを指定して学習データ取得要求を出すことにより,学習データ記憶部100から同じ意味ラベルを持つ代表画像を学習データとして取得する。取得した学習データを領域分割部102へ出力する。
The learning
領域分割部102は,学習データ取得部101から意味に関する学習データを受け取ると,個々の画像に対して,領域分割を行う。全部の学習データから得られた領域で構成した領域群を代表領域クラスタ抽出部103へ出力する。
When the
代表領域クラスタ抽出部103は,領域分割部102から学習データの領域群を受け取ると,領域群に対してクラスタリングを行い,画像の意味をよく表現できる代表的なオブジェクトに対応する複数の領域クラスタを代表領域クラスタとして抽出する。抽出した複数の代表領域クラスタを代表領域クラスタモデル学習部104へ出力する。この処理の詳細については,図3を用いて後述する。
When the representative region
代表領域クラスタモデル学習部104は,代表領域クラスタ抽出部103から複数の代表領域クラスタを受け取ると,学習手法により個々の代表領域クラスタに対して,代表領域クラスタモデルを求める。代表領域クラスタと求めた代表領域クラスタモデルを重み付け係数算出部105へ出力する。
When the representative region cluster
重み付け係数算出部105は,代表領域クラスタモデル学習部104から代表領域クラスタと求めた代表領域クラスタモデルを受け取る。複数の代表領域クラスタを用いて,各代表領域クラスタの重要度に応じた重み付け係数を算出する。代表領域クラスタモデルと算出した重み付け係数を画像辞書記憶部106に出力する。この処理の詳細については,図4を用いて後述する。
The weighting
画像辞書記憶部106は,重み付け係数算出部105より受け取った複数の代表領域クラスタモデルとそれらに対応付ける重み付け係数を画像辞書として記憶する。以上の構成により,画像辞書が生成できる。
The image dictionary storage unit 106 stores a plurality of representative area cluster models received from the weighting
次に,上記の構成における基本動作を説明する。図2は,本発明の一実施形態に係る画像辞書生成装置10の基本動作を示すフローチャートである。
Next, the basic operation in the above configuration will be described. FIG. 2 is a flowchart showing the basic operation of the image
(1)ステップS201:学習データ取得部101は,ある意味に関する学習データを学習データ記憶部100から取得する。
(1) Step S201: The learning
(2)ステップS202:次に,領域分割部102は,ステップS201で学習データ取得部101が取得した学習データに対して,領域分割を行う。領域分割の手法については,例えば非特許文献3に記載されているような従来の技術を用いればよい。領域分割の手法については種々の方法が知られているので,ここでの詳細な説明は省略する。
(2) Step S202: Next, the
(3)ステップS203:代表領域クラスタ抽象部103は,ステップS202で得られた学習データの領域群において,意味をよく表現できる複数の代表的なオブジェクトに対応する代表領域クラスタを抽出する(図3により後述)。抽出された代表領域クラスタの個数をMとする。また,抽出された各代表領域クラスタの番号(インデックス)をm(m=1,2,…,M)とする。
(3) Step S203: The representative region
(4)ステップS204:代表領域クラスタモデル学習部104は,まずm=1として,最初の代表領域クラスタを処理対象として選択する。
(4) Step S204: The representative region cluster
(5)ステップS205:代表領域クラスタモデル学習部104は,代表領域クラスタ毎に,クラスタに属する領域の特徴空間での分布をモデル化する。モデル化の実施例として,学習手法は“Gassian Bayes Classifier”を用いればよい。Gassian Bayes Classifierで求めた代表領域クラスタモデルに関するモデルパラメータは,
・特徴空間における学習データの平均ベクトルυ,
・特徴空間における学習データの分散共分散行列Σ,
であり,次のように算出される。
(5) Step S205: The representative area cluster
・ Average vector υ of learning data in feature space,
・ Distribution covariance matrix Σ of learning data in feature space,
And is calculated as follows.
m番目の代表領域クラスタに属する領域の個数をL個とする。これらの各領域の学習データから得られた特徴量をXj とする(j=1,2,…,L)。特徴量Xj は,n次元の特徴空間におけるベクトルデータとして表されるものである。 Let L be the number of regions belonging to the mth representative region cluster. A feature amount obtained from the learning data of each of these areas is assumed to be X j (j = 1, 2,..., L). The feature amount X j is expressed as vector data in an n-dimensional feature space.
平均ベクトルυ:
υ=Σj=1 L (Xj )/L
分散共分散行列Σ:
Σ={Σj=1 L (Xj −υ)(Xj −υ)T }/L
ここで,Σj=1 L f(j)は,j=1からj=Lまでのf(j)の総和を表す。
Average vector υ:
υ = Σ j = 1 L (X j ) / L
Variance covariance matrix Σ:
Σ = {Σ j = 1 L (X j −υ) (X j −υ) T } / L
Here, Σ j = 1 L f (j) represents the total sum of f (j) from j = 1 to j = L.
(6)ステップS206:すべてのM個の代表領域クラスタにおいて,ステップS205の処理を行ったかを判定する。行っていなければ,m=m+1とし,次の代表領域クラスタについて,ステップS205の処理を繰り返す。M個の代表領域クラスタについて処理を終えたならば,ステップS207へ移行する。 (6) Step S206: It is determined whether or not the process of step S205 has been performed for all M representative area clusters. If not, m = m + 1 is set, and the process of step S205 is repeated for the next representative area cluster. When the process is completed for M representative area clusters, the process proceeds to step S207.
(7)ステップS207:重み付け係数算出部105は,代表領域クラスタモデル学習部104がステップS205で求めた複数の代表領域クラスタモデルに対して,各代表領域クラスタモデルに対応付ける重み付け係数を算出する。具体的な算出方法の例は,図4を参照して後述する。
(7) Step S207: The weighting
(8)ステップS208:ステップS207で得られたM個の代表領域クラスタモデルとそれらに各々対応付ける重み付け係数を,ある意味に関する画像辞書のデータベースとして画像辞書記憶部106に格納する。 (8) Step S208: The M representative area cluster models obtained in step S207 and the weighting coefficients corresponding to them are stored in the image dictionary storage unit 106 as an image dictionary database relating to a certain meaning.
図3は,代表領域クラスタ抽出部103の処理フローチャートであり,図2のステップS203の詳細な処理を示している。
FIG. 3 is a process flowchart of the representative area
(1)ステップS301:領域分割部102で検出した学習データの領域群を読み込む。
(1) Step S301: A region group of learning data detected by the
(2)ステップS302:領域毎に特徴量を抽出する。例えば,色ヒストグラムを領域の特徴量として抽出すればよい。 (2) Step S302: A feature amount is extracted for each region. For example, a color histogram may be extracted as a region feature amount.
(3)ステップS303:クラスタリングを精度よく行うために,学習データの各領域から抽出した特徴量の正規化を行う。ここで,正規化は以下の手法で行えばよい。特徴空間はn次元であるとする。 (3) Step S303: In order to perform clustering with high accuracy, the feature quantity extracted from each area of the learning data is normalized. Here, normalization may be performed by the following method. It is assumed that the feature space is n-dimensional.
学習データの画像を領域分割して得られたR個の各領域i(i=1,2,…,R)の特徴量を(xi1,…,xis,…,xin),s=1,2,…,nとすると,それを正規化した特徴量(x′i1,…,x′is…,x′in)は,次式で求められる。 The feature quantities of R regions i (i = 1, 2,..., R) obtained by dividing the learning data image into regions (x i1 ,..., X is ,..., X in ), s = Assuming that 1, 2,..., N, the feature values (x ′ i1 ,..., X ′ is ..., X ′ in ) normalized thereto are obtained by the following equations.
x′is={xis−xmin (s)}/{xmax (s)−xmin (s)}
ここで,xmax (s)は,R個の領域iの中でのs番目の特徴量の最大値,xmin (s)はR個の領域iの中でのs番目の特徴量の最小値である。
x ′ is = {x is −x min (s)} / {x max (s) −x min (s)}
Here, x max (s) is the maximum value of the s-th feature quantity in the R areas i, and x min (s) is the minimum value of the s-th feature quantity in the R areas i. Value.
(4)ステップS304:正規化後の特徴空間において学習データの領域群に対して,適当なクラスタリング手法を用いてN個の領域クラスタに分類する。クラスタリング手法の一例として,従来技術のFuzzy K−meansというアルゴリズムを用いることができる。クラスタリング手法としては,この他にも周知の種々の方法を用いることができる。クラスタリングは,基本的には特徴量が類似する領域群を反覆的または階層的に統合する処理である。 (4) Step S304: The region group of the learning data is classified into N region clusters using an appropriate clustering method in the normalized feature space. As an example of the clustering method, a conventional algorithm called Fuzzy K-means can be used. As the clustering technique, various other well-known methods can be used. Clustering is basically processing for recursively or hierarchically integrating regions having similar feature quantities.
(5)ステップS305:次に,ステップS306からS309までを,各領域クラスタに対して繰り返すことにより,N個の領域クラスタから代表領域クラスタを選定する。このため,まず,n=1として,最初の領域クラスタを処理対象として選択する。 (5) Step S305: Next, steps S306 to S309 are repeated for each area cluster to select a representative area cluster from the N area clusters. Therefore, first, n = 1 is set and the first area cluster is selected as a processing target.
(6)ステップS306:n番目の領域クラスタにおける領域の数が予め設定しておいた一定の閾値以上になっているかを判定し,閾値以上になっている場合には,ステップS307へ移行する。そうでなければ,ステップS309に移行する。 (6) Step S306: It is determined whether or not the number of areas in the nth area cluster is equal to or greater than a predetermined threshold value. If it is equal to or greater than the threshold value, the process proceeds to step S307. Otherwise, the process proceeds to step S309.
(7)ステップS307:領域クラスタにおける領域の平均面積が予め設定しておいた一定の閾値以上になるかを判定し,閾値以上になる場合,ステップS308へ移行する。そうでなければ,ステップS309へ移行する。 (7) Step S307: It is determined whether the average area of the regions in the region cluster is equal to or greater than a predetermined threshold value. If the average area is greater than the threshold value, the process proceeds to step S308. Otherwise, the process proceeds to step S309.
(8)ステップS308:現在処理対象となっているn番目の領域クラスタを,代表領域クラスタとして選定する。 (8) Step S308: The nth area cluster currently being processed is selected as a representative area cluster.
(9)ステップS309:すべてのN個の領域クラスタにおいて上記ステップS306からS308までの処理を行ったかを判定する。未処理の領域クラスタがあれば,n=n+1として,ステップS306へ移行し,次の領域クラスタについて同様に処理を繰り返す。すべての領域クラスタに対して処理を行ったならば代表領域クラスタの抽出処理を終了する。 (9) Step S309: It is determined whether or not the processing from steps S306 to S308 has been performed for all N area clusters. If there is an unprocessed area cluster, n = n + 1 is set, the process proceeds to step S306, and the same process is repeated for the next area cluster. If the processing is performed for all the region clusters, the representative region cluster extraction processing is terminated.
以上のステップS301からS309に至る処理により,N個の領域クラスタに対して領域クラスタの領域数と領域平均面積が予め設定した閾値以上になるM個の領域クラスタを代表領域クラスタとして抽出することができる。なお,ステップS307においては,領域平均面積ではなく,領域クラスタにおける全領域の面積を所定の閾値との比較対象としてもよい。また,領域の面積は,領域の画素数を単位とした値でもよく,また画像の全面積に対する領域の面積の割合として算出した値でもよい。 By the processing from step S301 to step S309 described above, M region clusters in which the number of region clusters and the region average area are greater than or equal to a preset threshold value for N region clusters can be extracted as representative region clusters. it can. In step S307, the area of all regions in the region cluster may be compared with a predetermined threshold instead of the region average area. Further, the area area may be a value in units of the number of pixels in the area, or may be a value calculated as a ratio of the area of the area to the total area of the image.
ここでは,代表領域クラスタを選定する条件として,領域クラスタにおける領域の数および領域の面積を用いたが,意味をよく表現できる複数オブジェクトに対応する領域クラスタを代表領域クラスタとするための条件として,さらに他の条件を用いてもよい。 Here, the number of regions and the area of the regions in the region cluster are used as the conditions for selecting the representative region cluster. However, as the conditions for making the region cluster corresponding to multiple objects that can express the meaning well as the representative region cluster, Still other conditions may be used.
図4は,重み付け係数算出部105の処理フローチャートであり,図2のステップS207の詳細な処理を示している。
FIG. 4 is a processing flowchart of the weighting
(1)ステップS401:重み付け係数算出部105は,代表領域クラスタ(M個)を読み込む。
(1) Step S401: The weighting
(2)ステップS402:M個の各代表領域クラスタに対する重み付け係数を算出するため,まずm=1として,最初の代表領域クラスタを処理対象として選択する。 (2) Step S402: In order to calculate a weighting coefficient for each of the M representative area clusters, first, m = 1 is set and the first representative area cluster is selected as a processing target.
(3)ステップS403:代表領域クラスタにおける特徴量の分布のばらつきδm を求める。ばらつきδm の値の算出例としては,例えば以下の方法が挙げられる。 (3) Step S403: The distribution δ m of the distribution of the feature amount in the representative area cluster is obtained. The calculation example of the values of variation [delta] m, for example, the following method.
m番目(m=1,2,…,M)の代表領域クラスタにおける各領域j(j=1,2,…,L)の特徴量Xj を,(xj1,…,xjs,…,xjn),s=1,2,…,nとする。 The feature quantity X j of each region j (j = 1, 2,..., L) in the m-th (m = 1, 2,..., M) representative region cluster is expressed as (x j1 ,..., x js,. x jn ), s = 1, 2 ,.
m番目の代表領域クラスタのばらつきδm は,次式により算出される。 The variation δ m of the m-th representative region cluster is calculated by the following equation.
δm ={Σs=1 n Σj=1 L (xjs−μs )2 }/(n×L)
μs =Σj=1 L (xjs)/L
(ただし,Σs=1 n はs=1からnまでの総和,Σj=1 L はj=1からLまでの総和を表す。)
なお,このばらつきδm の算出方法は一例であり,他に分散や標準偏差値等を用いることもできる。ばらつきδm は,代表領域クラスタに含まれる各領域の特徴量の平均値からのズレの量を表しているものであればよい。
δ m = {Σ s = 1 n Σ j = 1 L (x js −μ s ) 2 } / (n × L)
μ s = Σ j = 1 L (x js ) / L
(Where Σ s = 1 n represents the sum from s = 1 to n, and Σ j = 1 L represents the sum from j = 1 to L.)
Note that the method of calculating the variation δ m is an example, and other variations, standard deviation values, and the like can also be used. The variation δ m only needs to represent the amount of deviation from the average value of the feature values of each region included in the representative region cluster.
(4)ステップS404:代表領域クラスタモデルの重み付け係数を算出する。代表領域クラスタの重み付けを算出するときに,二つの観点がある。
〔観点1〕代表領域クラスタに属する領域数が多ければ,画像の意味を表現するのに重要となる再現性の高いオブジェクトに対応するクラスタであると考えられる。
〔観点2〕ばらつきが小さい代表領域クラスタは,画像の意味の表現に重要となる代表的なオブジェクトに対応するクラスタと考えられる。例えば,“tiger”という意味に関する画像群において,虎の頭,体というオブジェクトは再現性が高く,画像間の類似性が高いと考えられる。
(4) Step S404: The weighting coefficient of the representative area cluster model is calculated. There are two viewpoints when calculating the weight of the representative area cluster.
[Viewpoint 1] If the number of regions belonging to the representative region cluster is large, it is considered that the cluster corresponds to an object with high reproducibility that is important for expressing the meaning of the image.
[Viewpoint 2] A representative region cluster with small variation is considered to be a cluster corresponding to a representative object that is important for expressing the meaning of an image. For example, in an image group related to the meaning of “tiger”, an object such as a tiger's head or body is considered to have high reproducibility and high similarity between images.
以上の観点を鑑みると,m番目(m=1,2,…,M)の代表領域クラスタに対応付ける重み付け係数wm は,m番目の代表領域クラスタの領域数Lm とばらつきδm を用いて次式で算出できる。 In view of the above viewpoint, the weighting coefficient w m associated with the m-th (m = 1, 2,..., M) representative region cluster is determined using the number L m of regions of the m-th representative region cluster and the variation δ m. It can be calculated by the following formula.
wm =(Lm /Σm=1 M Lm )×(eの−δm 乗)
(5)ステップS405:すべてのM個の代表領域クラスタに対して,ステップS403,S404の処理を行ったかを判定する。行っていなければ,m=m+1として,ステップS403へ戻り,次の代表領域クラスタに対して同様に処理を繰り返す。すべて行ったならば,重み付け係数の算出処理を終了する。
w m = (L m / Σ m = 1 M L m ) × (e to the power of −δ m )
(5) Step S405: It is determined whether or not the processes in steps S403 and S404 have been performed on all M representative area clusters. If not, m = m + 1 is set, the process returns to step S403, and the same processing is repeated for the next representative area cluster. If all the processes have been performed, the weighting coefficient calculation process is terminated.
図5は,学習データ記憶部100に格納されている学習データの例を示している。学習データ記憶部100には,予め収集されたある意味に関する画像データが多数格納されている。例えば,「虎」を表す意味ラベル“tiger”毎に,図5(A),(B)に示されるような種々の虎の画像データ(通常はカラー画像)が学習データ記憶部100に多数格納されている。
FIG. 5 shows an example of learning data stored in the learning
図6は,図5(A),(B)の意味ラベル“tiger”を持つ画像データから,学習データ取得部101,領域分割部102,代表領域クラスタ抽出部103の処理によって得られた代表領域クラスタの例を示している。
FIG. 6 shows representative regions obtained by processing of the learning
図6(A)は,図5(A)の画像から得られた代表領域クラスタであり,黒で塗りつぶした部分以外の領域が,代表領域クラスタである。また,図6(B1),(B2)は,図5(B)の画像から得られた代表領域クラスタである。図5(B)の学習データでは,1枚の画像から複数の代表領域クラスタが得られている。 FIG. 6A shows a representative area cluster obtained from the image of FIG. 5A, and an area other than the blacked-out area is a representative area cluster. FIGS. 6B1 and 6B2 are representative area clusters obtained from the image of FIG. In the learning data of FIG. 5B, a plurality of representative area clusters are obtained from one image.
この代表領域クラスタの例から明らかなように,本発明では,代表領域クラスタを用い,画像の意味を“画像の中で広い領域を占め,かつ,頻繁に出てくる画像の構成要素の組み合わせ”で表現することを主要な特徴としている。 As is clear from the example of the representative area cluster, the present invention uses the representative area cluster, and the meaning of the image is “a combination of image components that occupy a wide area in the image and appear frequently”. The main feature is to express in
図7は,画像辞書記憶部106に記憶される画像辞書のデータ構造の例を示している。図7(A)のように,画像辞書記憶部106には,代表オブジェクト数:Mと,M個の代表オブジェクトモデルi(i=1,2,…,M)のデータが格納される。各代表オブジェクトモデルiのデータは,代表領域クラスタモデル学習部104で算出された平均ベクトルυi と分散共分散行列Σi のモデルパラメータである。また,重み付け係数wi は,重み付け係数算出部105で算出された重み付け係数である。
FIG. 7 shows an example of the data structure of the image dictionary stored in the image dictionary storage unit 106. As shown in FIG. 7A, the image dictionary storage unit 106 stores data of the number of representative objects: M and M representative object models i (i = 1, 2,..., M). The data of each representative object model i is a model parameter of the average vector υ i and the variance-covariance matrix Σ i calculated by the representative region cluster
代表オブジェクト数は,ある意味に関する画像群から得られた代表領域クラスタの数である。代表領域クラスタは,画像中の特徴的な領域のかたまりであり,画像中に撮影されている何らかの意味のある対象(オブジェクト)に対応していると考えられる。そこで,ここでは代表領域クラスタの画像情報を代表オブジェクトと称している。 The number of representative objects is the number of representative area clusters obtained from an image group related to a certain meaning. The representative region cluster is a group of characteristic regions in the image, and is considered to correspond to some meaningful object (object) captured in the image. Therefore, here, the image information of the representative area cluster is referred to as a representative object.
図6に示した代表領域クラスタの例では,“tiger”に関する画像辞書として,画像辞書記憶部106には,図7(B)に示すような代表オブジェクト数(代表領域クラスタ数)と,図6(A)の代表領域クラスタのモデルパラメータυ1 ,Σ1 および重み付け係数w1 と,図6(B1)の代表領域クラスタのモデルパラメータυ2 ,Σ2 および重み付け係数w2 と,図6(B2)の代表領域クラスタのモデルパラメータυ3 ,Σ3 および重み付け係数w3 などの情報が格納されることになる。 In the example of the representative area cluster shown in FIG. 6, the image dictionary storage unit 106 stores the number of representative objects (representative area cluster number) as shown in FIG. The model parameters υ 1 and Σ 1 and the weighting coefficient w 1 of the representative area cluster in (A), the model parameters υ 2 and Σ 2 and the weighting coefficient w 2 of the representative area cluster in FIG. 6 (B1), and FIG. ), Such as model parameters υ 3 and Σ 3 and weighting coefficient w 3 of the representative area cluster are stored.
画像辞書生成装置10で生成した画像辞書は,未知画像に対する意味ラベルの付与などに用いることができる。図8に,画像辞書を用いて未知画像に対して意味ラベルを付与する処理のフローチャートを示す。以下,図8に従って未知画像への意味ラベル付与の処理の流れを説明する。
The image dictionary generated by the image
(1)ステップS501:意味ラベル付与の対象となる新しい画像(未知画像という)を入力する。 (1) Step S501: A new image (referred to as an unknown image) to which a semantic label is attached is input.
(2)ステップS502:入力した未知画像を,画像辞書生成時における領域分割部102と同じ手法により領域分割する(図2のステップS202の説明を参照)。
(2) Step S502: The input unknown image is divided into regions by the same method as the
(3)ステップS503:未知画像をT個の領域に分割したとする。その分割した各領域のn次元特徴空間における特徴量Rt (t=1,2,…,T)を抽出する。 (3) Step S503: It is assumed that the unknown image is divided into T areas. A feature value R t (t = 1, 2,..., T) in the n-dimensional feature space of each divided region is extracted.
(4)ステップS504:意味ラベルに応じて図7(A)に示されるような情報が格納された,ある意味に関する画像辞書から代表オブジェクトモデルのモデルパラメータである平均ベクトルυm ,分散共分散行列Σm および重み付け係数wm (m=1,2,…,M)を読み出す。 (4) Step S504: The average vector υ m , which is the model parameter of the representative object model, from the image dictionary relating to a certain meaning in which information as shown in FIG. 7A is stored according to the meaning label, the variance-covariance matrix Read out Σ m and weighting coefficient w m (m = 1, 2,..., M).
(5)ステップS505:読み出した代表オブジェクトモデルと未知画像との類似度Simを,次式に従って算出する。未知画像における各領域の特徴量を,R1 ,R2 ,…,Rt ,…,RT とする。また,ある意味に関する画像辞書から読み出されたモデル情報が,(υ1 ,Σ1 ,w1 ),(υ2 ,Σ2 ,w3 ),…,(υm ,Σm ,wm ),…,(υM ,ΣM ,wM )であったとする。 (5) Step S505: The similarity Sim between the read representative object model and the unknown image is calculated according to the following equation. The feature amount of each region in the unknown image, R 1, R 2, ... , R t, ..., and R T. Also, model information read from the image dictionary related to a certain meaning is (υ 1 , Σ 1 , w 1 ), (υ 2 , Σ 2 , w 3 ),..., (Υ m , Σ m , w m ). , ..., (υ M , Σ M , w M ).
(6)ステップS506:算出した類似度Simと予め設定された閾値とを比較し,類似度Simが閾値より大きければ,現在の画像辞書が持つ意味ラベルを未知画像に付与する。類似度Simが閾値より小さければ,意味ラベルは付与しない。 (6) Step S506: The calculated similarity Sim is compared with a preset threshold value. If the similarity Sim is larger than the threshold value, the semantic label of the current image dictionary is assigned to the unknown image. If the similarity Sim is smaller than the threshold value, no semantic label is assigned.
(7)ステップS507:他の意味ラベルを持つ画像辞書がある場合,ステップS504へ戻り,その画像辞書について同様に処理を繰り返す。 (7) Step S507: If there is an image dictionary having another meaning label, the process returns to step S504, and the processing is repeated in the same manner for the image dictionary.
なお,上記処理において,意味ラベルに関連付けられたすべての画像辞書について類似度Simを算出し,その中で最大の類似度Simとなる画像辞書の意味ラベルを未知画像に付与するようにしてもよいし,最大の類似度Simがある閾値以上である場合にだけ,その意味ラベルを付与するような実施も可能である。 In the above process, the similarity Sim may be calculated for all image dictionaries associated with the semantic label, and the semantic label of the image dictionary having the maximum similarity Sim among them may be assigned to the unknown image. However, it is also possible to implement the meaning label only when the maximum similarity Sim is equal to or greater than a certain threshold value.
ここでは,画像辞書を未知画像への意味ラベル付与に用いる例を説明したが,例えば大量な画像群の中から「虎」の画像を検索するというような画像検索に,本発明により生成した画像辞書を用いることもできる。このときにも上記類似度Simの算出を行い,目的とする画像であるかどうかの判定を行う。 Here, an example in which an image dictionary is used for assigning a semantic label to an unknown image has been described. For example, an image generated by the present invention is used for an image search such as searching for a “tiger” image from a large group of images. A dictionary can also be used. Also at this time, the similarity Sim is calculated to determine whether the image is the target image.
以上の画像辞書の生成処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも,ネットワークを通して提供することも可能である。 The above image dictionary generation processing can be realized by a computer and a software program, and the program can be provided by being recorded on a computer-readable recording medium or provided through a network.
10 画像辞書生成装置
100 学習データ記憶部
101 学習データ取得部
102 領域分割部
103 代表領域クラスタ抽出部
104 代表領域クラスタモデル学習部
105 重み付け係数算出部
106 画像辞書記憶部
DESCRIPTION OF
Claims (6)
ある意味に関する意味ラベルが付与された画像群を学習データとして取得する学習データ取得手段と,
取得した学習データの画像を,画像の特徴量に基づいて複数の領域に分割する領域分割手段と,
前記領域分割手段で得られた学習データの領域群に対して類似する特徴量を持つ領域を統合することによりクラスタリングを行い,クラスタリング結果の領域クラスタの中から,少なくとも領域クラスタにおける領域の数または領域の面積を条件として含む所定の代表領域クラスタの選定条件に基づき,複数個の代表領域クラスタを抽出する代表領域クラスタ抽出手段と,
抽出した各代表領域クラスタに対し,代表領域クラスタに含まれる画像サンプルを学習データとして代表領域クラスタモデルを構築し,構築した代表領域クラスタモデルを表すモデルパラメータを出力する代表領域クラスタモデル学習手段と,
前記各代表領域クラスタモデルの意味に対する重要度を表す重み付け係数を,前記代表領域クラスタに属する領域群の特徴量に基づいて,代表領域クラスモデル毎に算出する重み付け係数算出手段とを備え,
前記学習データの画像群に付与された意味ラベル毎に,前記各代表領域クラスタモデルのモデルパラメータと前記重み付け係数とを画像辞書として格納する
ことを特徴とする画像辞書生成装置。 An image dictionary generation device for generating an image dictionary used for analyzing the meaning of an image,
Learning data acquisition means for acquiring, as learning data, an image group to which a semantic label relating to a certain meaning is attached;
Area dividing means for dividing the acquired learning data image into a plurality of areas based on the feature amount of the image;
Clustering is performed by integrating regions having similar feature quantities with respect to the region group of the learning data obtained by the region dividing means, and at least the number of regions or regions in the region cluster are selected from the region clusters of the clustering result. Representative region cluster extracting means for extracting a plurality of representative region clusters based on a selection condition of a predetermined representative region cluster including the area of
For each extracted representative region cluster, a representative region cluster model learning means for constructing a representative region cluster model using the image samples included in the representative region cluster as learning data and outputting model parameters representing the constructed representative region cluster model;
A weighting coefficient calculating means for calculating a weighting coefficient representing the importance of the meaning of each representative area cluster model for each representative area class model based on a feature amount of an area group belonging to the representative area cluster;
The image dictionary generation device, wherein the model parameter and the weighting coefficient of each representative region cluster model are stored as an image dictionary for each semantic label assigned to the learning data image group.
前記各代表領域クラスタに属する領域群の領域の数と,該代表領域クラスタに属する領域群の特徴量の分布のばらつきに基づいて,前記領域の数が多いほど重み付け係数の値が大きく,前記ばらつきが大きいほど重み付け係数の値が小さくなるように重み付け係数を算出する
ことを特徴とする請求項1記載の画像辞書生成装置。 The weighting coefficient calculating means includes
Based on the number of regions of the group of regions belonging to each representative region cluster and the variation in the distribution of feature values of the region group belonging to the representative region cluster, the larger the number of regions, the larger the value of the weighting coefficient. The image dictionary generation device according to claim 1, wherein the weighting coefficient is calculated so that the value of the weighting coefficient becomes smaller as the value becomes larger.
ある意味に関する意味ラベルが付与された画像群を学習データとして取得する学習データ取得過程と,
取得した学習データの画像を,画像の特徴量に基づいて複数の領域に分割する領域分割過程と,
前記領域分割過程で得られた学習データの領域群に対して類似する特徴量を持つ領域を統合することによりクラスタリングを行い,クラスタリング結果の領域クラスタの中から,少なくとも領域クラスタにおける領域の数または領域の面積を条件として含む所定の代表領域クラスタの選定条件に基づき,複数個の代表領域クラスタを抽出する代表領域クラスタ抽出過程と,
抽出した各代表領域クラスタに対し,代表領域クラスタに含まれる画像サンプルを学習データとして代表領域クラスタモデルを構築し,構築した代表領域クラスタモデルを表すモデルパラメータを出力する代表領域クラスタモデル学習過程と,
前記各代表領域クラスタモデルの意味に対する重要度を表す重み付け係数を,前記代表領域クラスタに属する領域群の特徴量に基づいて,代表領域クラスモデル毎に算出する重み付け係数算出過程とを有し,
前記学習データの画像群に付与された意味ラベル毎に,前記各代表領域クラスタモデルのモデルパラメータと前記重み付け係数とを画像辞書として格納する
ことを特徴とする画像辞書生成方法。 An image dictionary generation method for generating an image dictionary used by an image dictionary generation device for analyzing the meaning of an image,
A learning data acquisition process for acquiring, as learning data, a group of images with a semantic label related to a certain meaning,
A region dividing process for dividing the acquired learning data image into a plurality of regions based on the feature amount of the image;
Clustering is performed by integrating regions having similar feature quantities with respect to the region group of the learning data obtained in the region dividing process, and at least the number of regions or regions in the region cluster are selected from the region clusters of the clustering result. A representative region cluster extraction process for extracting a plurality of representative region clusters based on a predetermined representative region cluster selection condition including the area of
For each extracted representative region cluster, a representative region cluster model learning process for constructing a representative region cluster model using the image samples included in the representative region cluster as learning data and outputting model parameters representing the constructed representative region cluster model;
A weighting coefficient calculation step for calculating a weighting coefficient representing importance for the meaning of each representative area cluster model for each representative area class model based on a feature amount of the area group belonging to the representative area cluster,
A method for generating an image dictionary, comprising storing, as an image dictionary, model parameters and weighting factors of each representative area cluster model for each semantic label assigned to an image group of the learning data.
前記各代表領域クラスタに属する領域群の領域の数と,該代表領域クラスタに属する領域群の特徴量の分布のばらつきに基づいて,前記領域の数が多いほど重み付け係数の値が大きく,前記ばらつきが大きいほど重み付け係数の値が小さくなるように重み付け係数を算出する
ことを特徴とする請求項3記載の画像辞書生成方法。 In the weighting coefficient calculation process,
Based on the number of regions of the group of regions belonging to each representative region cluster and the variation in the distribution of feature values of the region group belonging to the representative region cluster, the larger the number of regions, the larger the value of the weighting coefficient. The image dictionary generation method according to claim 3, wherein the weighting coefficient is calculated so that the value of the weighting coefficient becomes smaller as the value becomes larger.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008031210A JP4964798B2 (en) | 2008-02-13 | 2008-02-13 | Image dictionary generating device, image dictionary generating method, image dictionary generating program and recording medium thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008031210A JP4964798B2 (en) | 2008-02-13 | 2008-02-13 | Image dictionary generating device, image dictionary generating method, image dictionary generating program and recording medium thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009193183A JP2009193183A (en) | 2009-08-27 |
JP4964798B2 true JP4964798B2 (en) | 2012-07-04 |
Family
ID=41075158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008031210A Expired - Fee Related JP4964798B2 (en) | 2008-02-13 | 2008-02-13 | Image dictionary generating device, image dictionary generating method, image dictionary generating program and recording medium thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4964798B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5650628B2 (en) * | 2011-11-17 | 2015-01-07 | 日本電信電話株式会社 | Image dictionary generation device, image dictionary generation method, and image dictionary generation program |
JP5870014B2 (en) * | 2012-12-06 | 2016-02-24 | 日本電信電話株式会社 | Image dictionary generating apparatus, image dictionary generating method, and computer program |
JP6039518B2 (en) * | 2013-08-21 | 2016-12-07 | 日本電信電話株式会社 | Information processing apparatus, information extraction apparatus, and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003087772A (en) * | 2001-09-10 | 2003-03-20 | Fujitsu Ltd | Image controller |
-
2008
- 2008-02-13 JP JP2008031210A patent/JP4964798B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009193183A (en) | 2009-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8391618B1 (en) | Semantic image classification and search | |
US8126274B2 (en) | Visual language modeling for image classification | |
CN109189991A (en) | Repeat video frequency identifying method, device, terminal and computer readable storage medium | |
US9323886B2 (en) | Performance predicting apparatus, performance predicting method, and program | |
US9563822B2 (en) | Learning apparatus, density measuring apparatus, learning method, computer program product, and density measuring system | |
JP2011154687A (en) | Method and apparatus for navigating image data set, and program | |
JP6888484B2 (en) | A search program, a search method, and an information processing device on which the search program operates. | |
JP5333589B2 (en) | Representative feature extraction system and method | |
US20190205331A1 (en) | Image search system, image search method, and program | |
US20130063468A1 (en) | Image processing apparatus, image processing method, and program | |
WO2019167784A1 (en) | Position specifying device, position specifying method, and computer program | |
JP4926266B2 (en) | Learning data creation device, learning data creation method and program | |
CN110334628B (en) | Outdoor monocular image depth estimation method based on structured random forest | |
JP2004362314A (en) | Retrieval information registration device, information retrieval device, and retrieval information registration method | |
JP4964798B2 (en) | Image dictionary generating device, image dictionary generating method, image dictionary generating program and recording medium thereof | |
Indu et al. | Survey on sketch based image retrieval methods | |
Shetty et al. | Content-based medical image retrieval using deep learning-based features and hybrid meta-heuristic optimization | |
JP5382786B2 (en) | Feature quantity generation device, feature quantity generation method and feature quantity generation program, class discrimination device, class discrimination method, and class discrimination program | |
JP4477439B2 (en) | Image segmentation system | |
CN115115923B (en) | Model training method, instance segmentation method, device, equipment and medium | |
Fan et al. | Pulmonary nodule detection using improved faster R-CNN and 3D Resnet | |
CN116089639A (en) | Auxiliary three-dimensional modeling method, system, device and medium | |
Chalup et al. | A computational approach to fractal analysis of a cityscape's skyline | |
CN107909091A (en) | A kind of iconic memory degree Forecasting Methodology based on sparse low-rank regression model | |
JP5391876B2 (en) | Representative feature extraction system, method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100114 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100331 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110909 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110927 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120327 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120328 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150406 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |