JP4964798B2 - Image dictionary generating device, image dictionary generating method, image dictionary generating program and recording medium thereof - Google Patents

Image dictionary generating device, image dictionary generating method, image dictionary generating program and recording medium thereof Download PDF

Info

Publication number
JP4964798B2
JP4964798B2 JP2008031210A JP2008031210A JP4964798B2 JP 4964798 B2 JP4964798 B2 JP 4964798B2 JP 2008031210 A JP2008031210 A JP 2008031210A JP 2008031210 A JP2008031210 A JP 2008031210A JP 4964798 B2 JP4964798 B2 JP 4964798B2
Authority
JP
Japan
Prior art keywords
representative
image
cluster
region
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008031210A
Other languages
Japanese (ja)
Other versions
JP2009193183A (en
Inventor
泳青 孫
聡 嶌田
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008031210A priority Critical patent/JP4964798B2/en
Publication of JP2009193183A publication Critical patent/JP2009193183A/en
Application granted granted Critical
Publication of JP4964798B2 publication Critical patent/JP4964798B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は,画像に対して自動的に画像の意味を示すラベルを付与するようなときに用いる画像辞書を生成する技術に係り,特に,画像の領域情報を用いて画像辞書を生成する装置,方法,プログラムおよびそのプログラムの記録媒体に関する。   The present invention relates to a technique for generating an image dictionary used when automatically giving a label indicating the meaning of an image to an image, and in particular, an apparatus for generating an image dictionary using image area information, The present invention relates to a method, a program, and a recording medium for the program.

従来の画像辞書生成方法として,次のような方法がある。   As a conventional image dictionary generation method, there are the following methods.

(1)まず,ある意味に関する画像群を学習データとして収集する。次に,学習データから色,テクスチャ,形状などの特徴量(L個)を別々に抽出する。最後に,学習手法を用いて,個々の特徴空間において特徴識別モデル(L個)を構築する。以上の処理により,学習データから求めた特徴識別モデル(L個)と各モデルの重み付け係数で構成した画像辞書を生成することができる(非特許文献1参照)。   (1) First, an image group related to a certain meaning is collected as learning data. Next, feature quantities (L) such as color, texture, and shape are separately extracted from the learning data. Finally, a feature identification model (L pieces) is constructed in each feature space using a learning method. By the above processing, an image dictionary composed of feature identification models (L) obtained from learning data and the weighting coefficients of each model can be generated (see Non-Patent Document 1).

(2)画像における画像の意味を表す基本単位は領域と考えられるので,まず,収集した学習データに対して領域分割を行う。次に,学習データの領域群におけるクラスタリングをし,領域数が最大となる領域クラスタを画像の意味を表す最大領域クラスタとして抽出する。最後に,最大領域クラスタから求めた領域モデルを学習することで画像辞書を生成することができる(非特許文献2参照)。   (2) Since the basic unit representing the meaning of an image in an image is considered to be a region, first, region collection is performed on the collected learning data. Next, clustering is performed on the learning data area group, and the area cluster having the maximum number of areas is extracted as the maximum area cluster representing the meaning of the image. Finally, an image dictionary can be generated by learning a region model obtained from the maximum region cluster (see Non-Patent Document 2).

なお,非特許文献3には,本発明の実施例で用いることができる画像を領域分割する方法の一例が記載されている。
A.Yanagawa,S.-F.Chang,L.Kennedy ,and W.Hsu ,“Columbia University's Baseline detectors for 374 LSCOM Semantic Visual Concepts ”,Columbia University ADVENT Technical Report #222-2006-8 ,March 20,2007. Yongqing Sun,Satoshi Shimada ,Masashi Morimoto,“Visual pattern discovery using web images ”,ACM MIR workshop,2006. Yongqing Sun,Shinji Ozawa ,“HIRBIR: A Hierarchical Approach for Region-based Image Retrieval”,ACM Multimedia Systems Journal,10(6): 559-569 (2005) .
Non-Patent Document 3 describes an example of a method for dividing an image that can be used in an embodiment of the present invention.
A.Yanagawa, S.-F.Chang, L.Kennedy, and W.Hsu, “Columbia University's Baseline detectors for 374 LSCOM Semantic Visual Concepts”, Columbia University ADVENT Technical Report # 222-2006-8, March 20, 2007. Yongqing Sun, Satoshi Shimada, Masashi Morimoto, “Visual pattern discovery using web images”, ACM MIR workshop, 2006. Yongqing Sun, Shinji Ozawa, “HIRBIR: A Hierarchical Approach for Region-based Image Retrieval”, ACM Multimedia Systems Journal, 10 (6): 559-569 (2005).

上記の非特許文献1に示されるような画像辞書生成方法は,学習データの画像全体に対する色,テクスチャ,形状などの物理特徴量を用いて画像辞書を求めるので,画像の物理的な特徴と画像の意味との対応関係を明確に規定できない。そのため,精度が低いという問題がある。   In the image dictionary generation method as shown in Non-Patent Document 1 described above, an image dictionary is obtained using physical features such as color, texture, and shape for the entire learning data image. The correspondence with the meaning of cannot be clearly defined. Therefore, there is a problem that accuracy is low.

また,上記の非特許文献2にされるような画像辞書生成方法は,一つの領域クラスタだけで画像をモデル化しているので,複数の領域で構成される画像に対して,精度が悪くなる。例えば,“ビーチ”という画像の意味は,“海”,“太陽”,“砂”などの複数の代表オブジェクトを表した複数の代表領域の集合で表現されるので,一つのオブジェクト(例えば,海)に対応する領域モデルだけで“ビーチ”の意味を表現することは不十分である。   In addition, the image dictionary generation method as described in Non-Patent Document 2 models an image with only one area cluster, so that the accuracy is deteriorated for an image composed of a plurality of areas. For example, the meaning of the image “beach” is expressed by a set of a plurality of representative areas representing a plurality of representative objects such as “sea”, “sun”, “sand”, and so on. It is not sufficient to express the meaning of “beach” only with the area model corresponding to).

本発明は上記問題点の解決を図り,精度のよい画像辞書を生成する手段を提供することを目的とする。   It is an object of the present invention to provide means for solving the above problems and generating an accurate image dictionary.

画像の意味の表現には,以下の二つの観点がある。
(1)画像の意味を表した基本的な単位は画像の領域と考えられる。ここで,画像の領域は,実世界のオブジェクト(例:芝生,人,山など)に対応する。
(2)画像の意味は,画像における代表オブジェクトを表した複数の代表領域で表現される。
There are the following two viewpoints for expressing the meaning of images.
(1) A basic unit representing the meaning of an image is considered to be an image area. Here, the image area corresponds to a real-world object (eg, lawn, person, mountain, etc.).
(2) The meaning of an image is expressed by a plurality of representative areas representing representative objects in the image.

上記の点を踏まえて,本発明は,画像辞書の精度が低いという従来技術の問題を解決するために,学習データから意味をよく表現できる代表オブジェクトに対応する代表領域クラスタを抽出し,個々の代表領域クラスタに対して代表領域クラスタモデルを構築して,各代表領域クラスタモデルに適切な重み付け係数を求めることにより,複数の代表領域クラスタモデルとそれに対応する重み付け係数で構成した画像辞書を生成する手段を設ける。これにより,画像辞書の精度を向上させる。ここで,オブジェクトとは,画像中の意味的にまとまりのある撮像対象のことをいう。   Based on the above points, the present invention extracts representative area clusters corresponding to representative objects that can express their meaning well from learning data in order to solve the problem of the prior art that the accuracy of the image dictionary is low. Generate an image dictionary composed of multiple representative area cluster models and corresponding weighting coefficients by constructing a representative area cluster model for the representative area cluster and finding an appropriate weighting coefficient for each representative area cluster model Means are provided. This improves the accuracy of the image dictionary. Here, an object refers to an imaging target that is semantically organized in an image.

具体的には,本発明は,ある意味に関する画像群を学習データとして取得する学習データ取得手段と,前記収集した学習データに対して領域を分割する領域分割手段と,前記領域分割手段で得られた学習データの領域群に対してクラスタリングを行って,意味をよく表現できる複数オブジェクトに対応する複数個の代表領域クラスタを抽出する代表領域クラスタ抽出手段と,前記抽出した各代表領域クラスタに対し,代表領域クラスタに含まれる画像サンプルを学習データとして代表領域クラスタモデルを構築する代表領域クラスタモデル学習手段と,前記複数の代表領域クラスタモデルの意味に対する重要度を表す重み付け係数を,代表領域クラスモデル毎に算出する重み付け係数算出手段とを用い,これらにより算出した情報から画像辞書を生成する。
Specifically, the present invention is obtained by learning data acquisition means for acquiring an image group relating to a certain meaning as learning data, area dividing means for dividing an area for the collected learning data, and the area dividing means. Clustering is performed on a group of learning data, and representative area cluster extracting means for extracting a plurality of representative area clusters corresponding to a plurality of objects whose meaning can be well expressed, and for each of the extracted representative area clusters, A representative region cluster model learning means for constructing a representative region cluster model using image samples included in the representative region cluster as learning data, and a weighting coefficient indicating the importance of the meanings of the plurality of representative region cluster models for each representative region class model using the weighting coefficient calculating means for calculating the image dictionary from the calculated information by these To generate.

本発明において,前記重み付け係数算出手段では,各代表領域クラスタに属する,代表領域クラスタの領域数と代表領域クラスタにおける分布のばらつきに基づいて,重み付け係数を算出することができる。   In the present invention, the weighting coefficient calculating means can calculate the weighting coefficient based on the number of representative area clusters belonging to each representative area cluster and the variation in distribution in the representative area cluster.

本発明では,学習データから画像の意味を表すオブジェクトに対応する複数の代表領域クラスタを抽出し,個々の代表領域クラスタに対して代表領域クラスタモデルを構築して,各代表領域クラスタに適切な重み付け係数を求めることにより,複数の代表領域クラスタモデルとそれに対応する重み付け係数で構成した画像辞書を生成する手段を設けることで,高精度な画像辞書を生成することができる。   In the present invention, a plurality of representative area clusters corresponding to objects representing the meaning of an image are extracted from the learning data, a representative area cluster model is constructed for each representative area cluster, and an appropriate weight is assigned to each representative area cluster. By obtaining a coefficient, it is possible to generate a highly accurate image dictionary by providing means for generating an image dictionary composed of a plurality of representative area cluster models and corresponding weighting coefficients.

本発明の実施の形態を以下に説明する。本発明の一実施形態に係る画像辞書生成装置の構成例を図1に示す。同図における画像辞書生成装置10は,学習データ記憶部100と,学習データ取得部101と,領域分割部102と,代表領域クラスタ抽出部103と,代表領域クラスタモデル学習部104と,重み付け係数算出部105と,画像辞書記憶部106とから構成される。各部の処理内容について,以下に説明する。   Embodiments of the present invention will be described below. FIG. 1 shows a configuration example of an image dictionary generation apparatus according to an embodiment of the present invention. The image dictionary generating apparatus 10 in FIG. 1 includes a learning data storage unit 100, a learning data acquisition unit 101, a region dividing unit 102, a representative region cluster extracting unit 103, a representative region cluster model learning unit 104, and weighting coefficient calculation. Section 105 and an image dictionary storage section 106. The processing contents of each part will be described below.

学習データ記憶部100は,あらかじめ意味ラベルとそれに関連する画像を手動で収集し,それらを格納する。すなわち,学習データ記憶部100には,多数の画像と各画像に対して人間が付与した意味ラベルとの対応情報が格納されている。学習データ記憶部100は,学習データ取得部101から意味ラベルを指定した学習データ取得要求に対し,格納している画像群の中から,指定された意味ラベルを持つ画像を収集して,学習データとして学習データ取得部101へ出力する。   The learning data storage unit 100 manually collects a semantic label and an image associated therewith in advance and stores them. In other words, the learning data storage unit 100 stores correspondence information between a large number of images and semantic labels assigned by humans to the images. The learning data storage unit 100 collects images having the specified semantic label from the stored image group in response to the learning data acquisition request specifying the semantic label from the learning data acquisition unit 101, and acquires the learning data To the learning data acquisition unit 101.

学習データ取得部101は,学習データ記憶部100に意味ラベルを指定して学習データ取得要求を出すことにより,学習データ記憶部100から同じ意味ラベルを持つ代表画像を学習データとして取得する。取得した学習データを領域分割部102へ出力する。   The learning data acquisition unit 101 acquires a representative image having the same meaning label from the learning data storage unit 100 as learning data by specifying a semantic label in the learning data storage unit 100 and issuing a learning data acquisition request. The acquired learning data is output to the region dividing unit 102.

領域分割部102は,学習データ取得部101から意味に関する学習データを受け取ると,個々の画像に対して,領域分割を行う。全部の学習データから得られた領域で構成した領域群を代表領域クラスタ抽出部103へ出力する。   When the region dividing unit 102 receives learning data about meaning from the learning data acquisition unit 101, the region dividing unit 102 performs region division on each image. A region group composed of regions obtained from all learning data is output to the representative region cluster extraction unit 103.

代表領域クラスタ抽出部103は,領域分割部102から学習データの領域群を受け取ると,領域群に対してクラスタリングを行い,画像の意味をよく表現できる代表的なオブジェクトに対応する複数の領域クラスタを代表領域クラスタとして抽出する。抽出した複数の代表領域クラスタを代表領域クラスタモデル学習部104へ出力する。この処理の詳細については,図3を用いて後述する。   When the representative region cluster extracting unit 103 receives the region group of the learning data from the region dividing unit 102, the representative region cluster extracting unit 103 performs clustering on the region group, and selects a plurality of region clusters corresponding to representative objects that can express the meaning of the image well. Extract as a representative region cluster. The extracted representative region clusters are output to the representative region cluster model learning unit 104. Details of this processing will be described later with reference to FIG.

代表領域クラスタモデル学習部104は,代表領域クラスタ抽出部103から複数の代表領域クラスタを受け取ると,学習手法により個々の代表領域クラスタに対して,代表領域クラスタモデルを求める。代表領域クラスタと求めた代表領域クラスタモデルを重み付け係数算出部105へ出力する。   When the representative region cluster model learning unit 104 receives a plurality of representative region clusters from the representative region cluster extraction unit 103, the representative region cluster model learning unit 104 obtains a representative region cluster model for each representative region cluster by a learning method. The representative area cluster and the obtained representative area cluster model are output to the weighting coefficient calculation unit 105.

重み付け係数算出部105は,代表領域クラスタモデル学習部104から代表領域クラスタと求めた代表領域クラスタモデルを受け取る。複数の代表領域クラスタを用いて,各代表領域クラスタの重要度に応じた重み付け係数を算出する。代表領域クラスタモデルと算出した重み付け係数を画像辞書記憶部106に出力する。この処理の詳細については,図4を用いて後述する。   The weighting coefficient calculation unit 105 receives the representative region cluster model obtained as the representative region cluster from the representative region cluster model learning unit 104. Using a plurality of representative area clusters, a weighting coefficient corresponding to the importance of each representative area cluster is calculated. The representative area cluster model and the calculated weighting coefficient are output to the image dictionary storage unit 106. Details of this processing will be described later with reference to FIG.

画像辞書記憶部106は,重み付け係数算出部105より受け取った複数の代表領域クラスタモデルとそれらに対応付ける重み付け係数を画像辞書として記憶する。以上の構成により,画像辞書が生成できる。   The image dictionary storage unit 106 stores a plurality of representative area cluster models received from the weighting factor calculation unit 105 and weighting factors associated with them as an image dictionary. With the above configuration, an image dictionary can be generated.

次に,上記の構成における基本動作を説明する。図2は,本発明の一実施形態に係る画像辞書生成装置10の基本動作を示すフローチャートである。   Next, the basic operation in the above configuration will be described. FIG. 2 is a flowchart showing the basic operation of the image dictionary generation apparatus 10 according to an embodiment of the present invention.

(1)ステップS201:学習データ取得部101は,ある意味に関する学習データを学習データ記憶部100から取得する。   (1) Step S201: The learning data acquisition unit 101 acquires learning data related to a certain meaning from the learning data storage unit 100.

(2)ステップS202:次に,領域分割部102は,ステップS201で学習データ取得部101が取得した学習データに対して,領域分割を行う。領域分割の手法については,例えば非特許文献3に記載されているような従来の技術を用いればよい。領域分割の手法については種々の方法が知られているので,ここでの詳細な説明は省略する。   (2) Step S202: Next, the area dividing unit 102 performs area division on the learning data acquired by the learning data acquiring unit 101 in step S201. As a method of area division, for example, a conventional technique as described in Non-Patent Document 3 may be used. Since various methods are known for the region division method, a detailed description thereof is omitted here.

(3)ステップS203:代表領域クラスタ抽象部103は,ステップS202で得られた学習データの領域群において,意味をよく表現できる複数の代表的なオブジェクトに対応する代表領域クラスタを抽出する(図3により後述)。抽出された代表領域クラスタの個数をMとする。また,抽出された各代表領域クラスタの番号(インデックス)をm(m=1,2,…,M)とする。   (3) Step S203: The representative region cluster abstraction unit 103 extracts representative region clusters corresponding to a plurality of representative objects that can express the meaning well in the learning data region group obtained in step S202 (FIG. 3). Later). Let M be the number of representative region clusters extracted. Also, the number (index) of each extracted representative area cluster is m (m = 1, 2,..., M).

(4)ステップS204:代表領域クラスタモデル学習部104は,まずm=1として,最初の代表領域クラスタを処理対象として選択する。   (4) Step S204: The representative region cluster model learning unit 104 first sets m = 1 and selects the first representative region cluster as a processing target.

(5)ステップS205:代表領域クラスタモデル学習部104は,代表領域クラスタ毎に,クラスタに属する領域の特徴空間での分布をモデル化する。モデル化の実施例として,学習手法は“Gassian Bayes Classifier”を用いればよい。Gassian Bayes Classifierで求めた代表領域クラスタモデルに関するモデルパラメータは,
・特徴空間における学習データの平均ベクトルυ,
・特徴空間における学習データの分散共分散行列Σ,
であり,次のように算出される。
(5) Step S205: The representative area cluster model learning unit 104 models the distribution in the feature space of the area belonging to the cluster for each representative area cluster. As an example of modeling, “Gassian Bayes Classifier” may be used as a learning method. The model parameters for the representative region cluster model obtained by Gassian Bayes Classifier are
・ Average vector υ of learning data in feature space,
・ Distribution covariance matrix Σ of learning data in feature space,
And is calculated as follows.

m番目の代表領域クラスタに属する領域の個数をL個とする。これらの各領域の学習データから得られた特徴量をXj とする(j=1,2,…,L)。特徴量Xj は,n次元の特徴空間におけるベクトルデータとして表されるものである。 Let L be the number of regions belonging to the mth representative region cluster. A feature amount obtained from the learning data of each of these areas is assumed to be X j (j = 1, 2,..., L). The feature amount X j is expressed as vector data in an n-dimensional feature space.

平均ベクトルυ:
υ=Σj=1 L (Xj )/L
分散共分散行列Σ:
Σ={Σj=1 L (Xj −υ)(Xj −υ)T }/L
ここで,Σj=1 L f(j)は,j=1からj=Lまでのf(j)の総和を表す。
Average vector υ:
υ = Σ j = 1 L (X j ) / L
Variance covariance matrix Σ:
Σ = {Σ j = 1 L (X j −υ) (X j −υ) T } / L
Here, Σ j = 1 L f (j) represents the total sum of f (j) from j = 1 to j = L.

(6)ステップS206:すべてのM個の代表領域クラスタにおいて,ステップS205の処理を行ったかを判定する。行っていなければ,m=m+1とし,次の代表領域クラスタについて,ステップS205の処理を繰り返す。M個の代表領域クラスタについて処理を終えたならば,ステップS207へ移行する。   (6) Step S206: It is determined whether or not the process of step S205 has been performed for all M representative area clusters. If not, m = m + 1 is set, and the process of step S205 is repeated for the next representative area cluster. When the process is completed for M representative area clusters, the process proceeds to step S207.

(7)ステップS207:重み付け係数算出部105は,代表領域クラスタモデル学習部104がステップS205で求めた複数の代表領域クラスタモデルに対して,各代表領域クラスタモデルに対応付ける重み付け係数を算出する。具体的な算出方法の例は,図4を参照して後述する。   (7) Step S207: The weighting coefficient calculation unit 105 calculates a weighting coefficient associated with each representative area cluster model for the plurality of representative area cluster models obtained by the representative area cluster model learning unit 104 in step S205. An example of a specific calculation method will be described later with reference to FIG.

(8)ステップS208:ステップS207で得られたM個の代表領域クラスタモデルとそれらに各々対応付ける重み付け係数を,ある意味に関する画像辞書のデータベースとして画像辞書記憶部106に格納する。   (8) Step S208: The M representative area cluster models obtained in step S207 and the weighting coefficients corresponding to them are stored in the image dictionary storage unit 106 as an image dictionary database relating to a certain meaning.

図3は,代表領域クラスタ抽出部103の処理フローチャートであり,図2のステップS203の詳細な処理を示している。   FIG. 3 is a process flowchart of the representative area cluster extraction unit 103, and shows the detailed process of step S203 of FIG.

(1)ステップS301:領域分割部102で検出した学習データの領域群を読み込む。   (1) Step S301: A region group of learning data detected by the region dividing unit 102 is read.

(2)ステップS302:領域毎に特徴量を抽出する。例えば,色ヒストグラムを領域の特徴量として抽出すればよい。   (2) Step S302: A feature amount is extracted for each region. For example, a color histogram may be extracted as a region feature amount.

(3)ステップS303:クラスタリングを精度よく行うために,学習データの各領域から抽出した特徴量の正規化を行う。ここで,正規化は以下の手法で行えばよい。特徴空間はn次元であるとする。   (3) Step S303: In order to perform clustering with high accuracy, the feature quantity extracted from each area of the learning data is normalized. Here, normalization may be performed by the following method. It is assumed that the feature space is n-dimensional.

学習データの画像を領域分割して得られたR個の各領域i(i=1,2,…,R)の特徴量を(xi1,…,xis,…,xin),s=1,2,…,nとすると,それを正規化した特徴量(x′i1,…,x′is…,x′in)は,次式で求められる。 The feature quantities of R regions i (i = 1, 2,..., R) obtained by dividing the learning data image into regions (x i1 ,..., X is ,..., X in ), s = Assuming that 1, 2,..., N, the feature values (x ′ i1 ,..., X ′ is ..., X ′ in ) normalized thereto are obtained by the following equations.

x′is={xis−xmin (s)}/{xmax (s)−xmin (s)}
ここで,xmax (s)は,R個の領域iの中でのs番目の特徴量の最大値,xmin (s)はR個の領域iの中でのs番目の特徴量の最小値である。
x ′ is = {x is −x min (s)} / {x max (s) −x min (s)}
Here, x max (s) is the maximum value of the s-th feature quantity in the R areas i, and x min (s) is the minimum value of the s-th feature quantity in the R areas i. Value.

(4)ステップS304:正規化後の特徴空間において学習データの領域群に対して,適当なクラスタリング手法を用いてN個の領域クラスタに分類する。クラスタリング手法の一例として,従来技術のFuzzy K−meansというアルゴリズムを用いることができる。クラスタリング手法としては,この他にも周知の種々の方法を用いることができる。クラスタリングは,基本的には特徴量が類似する領域群を反覆的または階層的に統合する処理である。   (4) Step S304: The region group of the learning data is classified into N region clusters using an appropriate clustering method in the normalized feature space. As an example of the clustering method, a conventional algorithm called Fuzzy K-means can be used. As the clustering technique, various other well-known methods can be used. Clustering is basically processing for recursively or hierarchically integrating regions having similar feature quantities.

(5)ステップS305:次に,ステップS306からS309までを,各領域クラスタに対して繰り返すことにより,N個の領域クラスタから代表領域クラスタを選定する。このため,まず,n=1として,最初の領域クラスタを処理対象として選択する。   (5) Step S305: Next, steps S306 to S309 are repeated for each area cluster to select a representative area cluster from the N area clusters. Therefore, first, n = 1 is set and the first area cluster is selected as a processing target.

(6)ステップS306:n番目の領域クラスタにおける領域の数が予め設定しておいた一定の閾値以上になっているかを判定し,閾値以上になっている場合には,ステップS307へ移行する。そうでなければ,ステップS309に移行する。   (6) Step S306: It is determined whether or not the number of areas in the nth area cluster is equal to or greater than a predetermined threshold value. If it is equal to or greater than the threshold value, the process proceeds to step S307. Otherwise, the process proceeds to step S309.

(7)ステップS307:領域クラスタにおける領域の平均面積が予め設定しておいた一定の閾値以上になるかを判定し,閾値以上になる場合,ステップS308へ移行する。そうでなければ,ステップS309へ移行する。   (7) Step S307: It is determined whether the average area of the regions in the region cluster is equal to or greater than a predetermined threshold value. If the average area is greater than the threshold value, the process proceeds to step S308. Otherwise, the process proceeds to step S309.

(8)ステップS308:現在処理対象となっているn番目の領域クラスタを,代表領域クラスタとして選定する。   (8) Step S308: The nth area cluster currently being processed is selected as a representative area cluster.

(9)ステップS309:すべてのN個の領域クラスタにおいて上記ステップS306からS308までの処理を行ったかを判定する。未処理の領域クラスタがあれば,n=n+1として,ステップS306へ移行し,次の領域クラスタについて同様に処理を繰り返す。すべての領域クラスタに対して処理を行ったならば代表領域クラスタの抽出処理を終了する。   (9) Step S309: It is determined whether or not the processing from steps S306 to S308 has been performed for all N area clusters. If there is an unprocessed area cluster, n = n + 1 is set, the process proceeds to step S306, and the same process is repeated for the next area cluster. If the processing is performed for all the region clusters, the representative region cluster extraction processing is terminated.

以上のステップS301からS309に至る処理により,N個の領域クラスタに対して領域クラスタの領域数と領域平均面積が予め設定した閾値以上になるM個の領域クラスタを代表領域クラスタとして抽出することができる。なお,ステップS307においては,領域平均面積ではなく,領域クラスタにおける全領域の面積を所定の閾値との比較対象としてもよい。また,領域の面積は,領域の画素数を単位とした値でもよく,また画像の全面積に対する領域の面積の割合として算出した値でもよい。   By the processing from step S301 to step S309 described above, M region clusters in which the number of region clusters and the region average area are greater than or equal to a preset threshold value for N region clusters can be extracted as representative region clusters. it can. In step S307, the area of all regions in the region cluster may be compared with a predetermined threshold instead of the region average area. Further, the area area may be a value in units of the number of pixels in the area, or may be a value calculated as a ratio of the area of the area to the total area of the image.

ここでは,代表領域クラスタを選定する条件として,領域クラスタにおける領域の数および領域の面積を用いたが,意味をよく表現できる複数オブジェクトに対応する領域クラスタを代表領域クラスタとするための条件として,さらに他の条件を用いてもよい。   Here, the number of regions and the area of the regions in the region cluster are used as the conditions for selecting the representative region cluster. However, as the conditions for making the region cluster corresponding to multiple objects that can express the meaning well as the representative region cluster, Still other conditions may be used.

図4は,重み付け係数算出部105の処理フローチャートであり,図2のステップS207の詳細な処理を示している。   FIG. 4 is a processing flowchart of the weighting coefficient calculation unit 105, and shows detailed processing in step S207 of FIG.

(1)ステップS401:重み付け係数算出部105は,代表領域クラスタ(M個)を読み込む。   (1) Step S401: The weighting coefficient calculation unit 105 reads representative area clusters (M).

(2)ステップS402:M個の各代表領域クラスタに対する重み付け係数を算出するため,まずm=1として,最初の代表領域クラスタを処理対象として選択する。   (2) Step S402: In order to calculate a weighting coefficient for each of the M representative area clusters, first, m = 1 is set and the first representative area cluster is selected as a processing target.

(3)ステップS403:代表領域クラスタにおける特徴量の分布のばらつきδm を求める。ばらつきδm の値の算出例としては,例えば以下の方法が挙げられる。 (3) Step S403: The distribution δ m of the distribution of the feature amount in the representative area cluster is obtained. The calculation example of the values of variation [delta] m, for example, the following method.

m番目(m=1,2,…,M)の代表領域クラスタにおける各領域j(j=1,2,…,L)の特徴量Xj を,(xj1,…,xjs,…,xjn),s=1,2,…,nとする。 The feature quantity X j of each region j (j = 1, 2,..., L) in the m-th (m = 1, 2,..., M) representative region cluster is expressed as (x j1 ,..., x js,. x jn ), s = 1, 2 ,.

m番目の代表領域クラスタのばらつきδm は,次式により算出される。 The variation δ m of the m-th representative region cluster is calculated by the following equation.

δm ={Σs=1 n Σj=1 L (xjs−μs 2 }/(n×L)
μs =Σj=1 L (xjs)/L
(ただし,Σs=1 n はs=1からnまでの総和,Σj=1 L はj=1からLまでの総和を表す。)
なお,このばらつきδm の算出方法は一例であり,他に分散や標準偏差値等を用いることもできる。ばらつきδm は,代表領域クラスタに含まれる各領域の特徴量の平均値からのズレの量を表しているものであればよい。
δ m = {Σ s = 1 n Σ j = 1 L (x js −μ s ) 2 } / (n × L)
μ s = Σ j = 1 L (x js ) / L
(Where Σ s = 1 n represents the sum from s = 1 to n, and Σ j = 1 L represents the sum from j = 1 to L.)
Note that the method of calculating the variation δ m is an example, and other variations, standard deviation values, and the like can also be used. The variation δ m only needs to represent the amount of deviation from the average value of the feature values of each region included in the representative region cluster.

(4)ステップS404:代表領域クラスタモデルの重み付け係数を算出する。代表領域クラスタの重み付けを算出するときに,二つの観点がある。
〔観点1〕代表領域クラスタに属する領域数が多ければ,画像の意味を表現するのに重要となる再現性の高いオブジェクトに対応するクラスタであると考えられる。
〔観点2〕ばらつきが小さい代表領域クラスタは,画像の意味の表現に重要となる代表的なオブジェクトに対応するクラスタと考えられる。例えば,“tiger”という意味に関する画像群において,虎の頭,体というオブジェクトは再現性が高く,画像間の類似性が高いと考えられる。
(4) Step S404: The weighting coefficient of the representative area cluster model is calculated. There are two viewpoints when calculating the weight of the representative area cluster.
[Viewpoint 1] If the number of regions belonging to the representative region cluster is large, it is considered that the cluster corresponds to an object with high reproducibility that is important for expressing the meaning of the image.
[Viewpoint 2] A representative region cluster with small variation is considered to be a cluster corresponding to a representative object that is important for expressing the meaning of an image. For example, in an image group related to the meaning of “tiger”, an object such as a tiger's head or body is considered to have high reproducibility and high similarity between images.

以上の観点を鑑みると,m番目(m=1,2,…,M)の代表領域クラスタに対応付ける重み付け係数wm は,m番目の代表領域クラスタの領域数Lm とばらつきδm を用いて次式で算出できる。 In view of the above viewpoint, the weighting coefficient w m associated with the m-th (m = 1, 2,..., M) representative region cluster is determined using the number L m of regions of the m-th representative region cluster and the variation δ m. It can be calculated by the following formula.

m =(Lm /Σm=1 M m )×(eの−δm 乗)
(5)ステップS405:すべてのM個の代表領域クラスタに対して,ステップS403,S404の処理を行ったかを判定する。行っていなければ,m=m+1として,ステップS403へ戻り,次の代表領域クラスタに対して同様に処理を繰り返す。すべて行ったならば,重み付け係数の算出処理を終了する。
w m = (L m / Σ m = 1 M L m ) × (e to the power of −δ m )
(5) Step S405: It is determined whether or not the processes in steps S403 and S404 have been performed on all M representative area clusters. If not, m = m + 1 is set, the process returns to step S403, and the same processing is repeated for the next representative area cluster. If all the processes have been performed, the weighting coefficient calculation process is terminated.

図5は,学習データ記憶部100に格納されている学習データの例を示している。学習データ記憶部100には,予め収集されたある意味に関する画像データが多数格納されている。例えば,「虎」を表す意味ラベル“tiger”毎に,図5(A),(B)に示されるような種々の虎の画像データ(通常はカラー画像)が学習データ記憶部100に多数格納されている。   FIG. 5 shows an example of learning data stored in the learning data storage unit 100. The learning data storage unit 100 stores a large number of image data relating to a certain meaning collected in advance. For example, a large number of various tiger image data (usually color images) as shown in FIGS. 5A and 5B are stored in the learning data storage unit 100 for each semantic label “tiger” representing “tiger”. Has been.

図6は,図5(A),(B)の意味ラベル“tiger”を持つ画像データから,学習データ取得部101,領域分割部102,代表領域クラスタ抽出部103の処理によって得られた代表領域クラスタの例を示している。   FIG. 6 shows representative regions obtained by processing of the learning data acquisition unit 101, region dividing unit 102, and representative region cluster extraction unit 103 from the image data having the meaning label “tiger” shown in FIGS. An example of a cluster is shown.

図6(A)は,図5(A)の画像から得られた代表領域クラスタであり,黒で塗りつぶした部分以外の領域が,代表領域クラスタである。また,図6(B1),(B2)は,図5(B)の画像から得られた代表領域クラスタである。図5(B)の学習データでは,1枚の画像から複数の代表領域クラスタが得られている。   FIG. 6A shows a representative area cluster obtained from the image of FIG. 5A, and an area other than the blacked-out area is a representative area cluster. FIGS. 6B1 and 6B2 are representative area clusters obtained from the image of FIG. In the learning data of FIG. 5B, a plurality of representative area clusters are obtained from one image.

この代表領域クラスタの例から明らかなように,本発明では,代表領域クラスタを用い,画像の意味を“画像の中で広い領域を占め,かつ,頻繁に出てくる画像の構成要素の組み合わせ”で表現することを主要な特徴としている。   As is clear from the example of the representative area cluster, the present invention uses the representative area cluster, and the meaning of the image is “a combination of image components that occupy a wide area in the image and appear frequently”. The main feature is to express in

図7は,画像辞書記憶部106に記憶される画像辞書のデータ構造の例を示している。図7(A)のように,画像辞書記憶部106には,代表オブジェクト数:Mと,M個の代表オブジェクトモデルi(i=1,2,…,M)のデータが格納される。各代表オブジェクトモデルiのデータは,代表領域クラスタモデル学習部104で算出された平均ベクトルυi と分散共分散行列Σi のモデルパラメータである。また,重み付け係数wi は,重み付け係数算出部105で算出された重み付け係数である。 FIG. 7 shows an example of the data structure of the image dictionary stored in the image dictionary storage unit 106. As shown in FIG. 7A, the image dictionary storage unit 106 stores data of the number of representative objects: M and M representative object models i (i = 1, 2,..., M). The data of each representative object model i is a model parameter of the average vector υ i and the variance-covariance matrix Σ i calculated by the representative region cluster model learning unit 104. The weighting coefficient w i is a weighting coefficient calculated by the weighting coefficient calculation unit 105.

代表オブジェクト数は,ある意味に関する画像群から得られた代表領域クラスタの数である。代表領域クラスタは,画像中の特徴的な領域のかたまりであり,画像中に撮影されている何らかの意味のある対象(オブジェクト)に対応していると考えられる。そこで,ここでは代表領域クラスタの画像情報を代表オブジェクトと称している。   The number of representative objects is the number of representative area clusters obtained from an image group related to a certain meaning. The representative region cluster is a group of characteristic regions in the image, and is considered to correspond to some meaningful object (object) captured in the image. Therefore, here, the image information of the representative area cluster is referred to as a representative object.

図6に示した代表領域クラスタの例では,“tiger”に関する画像辞書として,画像辞書記憶部106には,図7(B)に示すような代表オブジェクト数(代表領域クラスタ数)と,図6(A)の代表領域クラスタのモデルパラメータυ1 ,Σ1 および重み付け係数w1 と,図6(B1)の代表領域クラスタのモデルパラメータυ2 ,Σ2 および重み付け係数w2 と,図6(B2)の代表領域クラスタのモデルパラメータυ3 ,Σ3 および重み付け係数w3 などの情報が格納されることになる。 In the example of the representative area cluster shown in FIG. 6, the image dictionary storage unit 106 stores the number of representative objects (representative area cluster number) as shown in FIG. The model parameters υ 1 and Σ 1 and the weighting coefficient w 1 of the representative area cluster in (A), the model parameters υ 2 and Σ 2 and the weighting coefficient w 2 of the representative area cluster in FIG. 6 (B1), and FIG. ), Such as model parameters υ 3 and Σ 3 and weighting coefficient w 3 of the representative area cluster are stored.

画像辞書生成装置10で生成した画像辞書は,未知画像に対する意味ラベルの付与などに用いることができる。図8に,画像辞書を用いて未知画像に対して意味ラベルを付与する処理のフローチャートを示す。以下,図8に従って未知画像への意味ラベル付与の処理の流れを説明する。   The image dictionary generated by the image dictionary generating apparatus 10 can be used for giving a semantic label to an unknown image. FIG. 8 shows a flowchart of processing for assigning a semantic label to an unknown image using an image dictionary. Hereinafter, the flow of the process of assigning a semantic label to an unknown image will be described with reference to FIG.

(1)ステップS501:意味ラベル付与の対象となる新しい画像(未知画像という)を入力する。   (1) Step S501: A new image (referred to as an unknown image) to which a semantic label is attached is input.

(2)ステップS502:入力した未知画像を,画像辞書生成時における領域分割部102と同じ手法により領域分割する(図2のステップS202の説明を参照)。   (2) Step S502: The input unknown image is divided into regions by the same method as the region dividing unit 102 at the time of image dictionary generation (refer to the description of step S202 in FIG. 2).

(3)ステップS503:未知画像をT個の領域に分割したとする。その分割した各領域のn次元特徴空間における特徴量Rt (t=1,2,…,T)を抽出する。 (3) Step S503: It is assumed that the unknown image is divided into T areas. A feature value R t (t = 1, 2,..., T) in the n-dimensional feature space of each divided region is extracted.

(4)ステップS504:意味ラベルに応じて図7(A)に示されるような情報が格納された,ある意味に関する画像辞書から代表オブジェクトモデルのモデルパラメータである平均ベクトルυm ,分散共分散行列Σm および重み付け係数wm (m=1,2,…,M)を読み出す。 (4) Step S504: The average vector υ m , which is the model parameter of the representative object model, from the image dictionary relating to a certain meaning in which information as shown in FIG. 7A is stored according to the meaning label, the variance-covariance matrix Read out Σ m and weighting coefficient w m (m = 1, 2,..., M).

(5)ステップS505:読み出した代表オブジェクトモデルと未知画像との類似度Simを,次式に従って算出する。未知画像における各領域の特徴量を,R1 ,R2 ,…,Rt ,…,RT とする。また,ある意味に関する画像辞書から読み出されたモデル情報が,(υ1 ,Σ1 ,w1 ),(υ2 ,Σ2 ,w3 ),…,(υm ,Σm ,wm ),…,(υM ,ΣM ,wM )であったとする。 (5) Step S505: The similarity Sim between the read representative object model and the unknown image is calculated according to the following equation. The feature amount of each region in the unknown image, R 1, R 2, ... , R t, ..., and R T. Also, model information read from the image dictionary related to a certain meaning is (υ 1 , Σ 1 , w 1 ), (υ 2 , Σ 2 , w 3 ),..., (Υ m , Σ m , w m ). , ..., (υ M , Σ M , w M ).

Figure 0004964798
式中,‖Σm ‖はΣm のノルム,(Rt −υm T は(Rt −υm )の転置行列,Σm -1はΣm の逆行列を表している。
Figure 0004964798
In the equation, ‖Σ m ‖ represents the norm of Σ m , (R t −υ m ) T represents the transposed matrix of (R t −υ m ), and Σ m −1 represents the inverse matrix of Σ m .

(6)ステップS506:算出した類似度Simと予め設定された閾値とを比較し,類似度Simが閾値より大きければ,現在の画像辞書が持つ意味ラベルを未知画像に付与する。類似度Simが閾値より小さければ,意味ラベルは付与しない。   (6) Step S506: The calculated similarity Sim is compared with a preset threshold value. If the similarity Sim is larger than the threshold value, the semantic label of the current image dictionary is assigned to the unknown image. If the similarity Sim is smaller than the threshold value, no semantic label is assigned.

(7)ステップS507:他の意味ラベルを持つ画像辞書がある場合,ステップS504へ戻り,その画像辞書について同様に処理を繰り返す。   (7) Step S507: If there is an image dictionary having another meaning label, the process returns to step S504, and the processing is repeated in the same manner for the image dictionary.

なお,上記処理において,意味ラベルに関連付けられたすべての画像辞書について類似度Simを算出し,その中で最大の類似度Simとなる画像辞書の意味ラベルを未知画像に付与するようにしてもよいし,最大の類似度Simがある閾値以上である場合にだけ,その意味ラベルを付与するような実施も可能である。   In the above process, the similarity Sim may be calculated for all image dictionaries associated with the semantic label, and the semantic label of the image dictionary having the maximum similarity Sim among them may be assigned to the unknown image. However, it is also possible to implement the meaning label only when the maximum similarity Sim is equal to or greater than a certain threshold value.

ここでは,画像辞書を未知画像への意味ラベル付与に用いる例を説明したが,例えば大量な画像群の中から「虎」の画像を検索するというような画像検索に,本発明により生成した画像辞書を用いることもできる。このときにも上記類似度Simの算出を行い,目的とする画像であるかどうかの判定を行う。   Here, an example in which an image dictionary is used for assigning a semantic label to an unknown image has been described. For example, an image generated by the present invention is used for an image search such as searching for a “tiger” image from a large group of images. A dictionary can also be used. Also at this time, the similarity Sim is calculated to determine whether the image is the target image.

以上の画像辞書の生成処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも,ネットワークを通して提供することも可能である。   The above image dictionary generation processing can be realized by a computer and a software program, and the program can be provided by being recorded on a computer-readable recording medium or provided through a network.

本発明の一実施形態に係る画像辞書生成装置の構成例を示す図である。It is a figure which shows the structural example of the image dictionary production | generation apparatus which concerns on one Embodiment of this invention. 画像辞書生成装置の基本動作を示すフローチャートである。It is a flowchart which shows the basic operation | movement of an image dictionary production | generation apparatus. 代表領域クラスタ抽出部の処理フローチャートである。It is a process flowchart of a representative area cluster extraction part. 重み付け係数算出部の処理フローチャートである。It is a process flowchart of a weighting coefficient calculation part. 学習データの例を示す図である。It is a figure which shows the example of learning data. 代表領域クラスタの例を示す図である。It is a figure which shows the example of a representative area cluster. 画像辞書のデータ構造の例を示す図である。It is a figure which shows the example of the data structure of an image dictionary. 画像辞書の利用例を示すフローチャートである。It is a flowchart which shows the usage example of an image dictionary.

符号の説明Explanation of symbols

10 画像辞書生成装置
100 学習データ記憶部
101 学習データ取得部
102 領域分割部
103 代表領域クラスタ抽出部
104 代表領域クラスタモデル学習部
105 重み付け係数算出部
106 画像辞書記憶部
DESCRIPTION OF SYMBOLS 10 Image dictionary production | generation apparatus 100 Learning data memory | storage part 101 Learning data acquisition part 102 Area division part 103 Representative area cluster extraction part 104 Representative area cluster model learning part 105 Weighting coefficient calculation part 106 Image dictionary memory | storage part

Claims (6)

画像の意味の解析に用いる画像辞書を生成する画像辞書生成装置であって,
ある意味に関する意味ラベルが付与された画像群を学習データとして取得する学習データ取得手段と,
取得した学習データの画像を,画像の特徴量に基づいて複数の領域に分割する領域分割手段と,
前記領域分割手段で得られた学習データの領域群に対して類似する特徴量を持つ領域を統合することによりクラスタリングを行い,クラスタリング結果の領域クラスタの中から,少なくとも領域クラスタにおける領域の数または領域の面積を条件として含む所定の代表領域クラスタの選定条件に基づき,複数個の代表領域クラスタを抽出する代表領域クラスタ抽出手段と,
抽出した各代表領域クラスタに対し,代表領域クラスタに含まれる画像サンプルを学習データとして代表領域クラスタモデルを構築し,構築した代表領域クラスタモデルを表すモデルパラメータを出力する代表領域クラスタモデル学習手段と,
前記各代表領域クラスタモデルの意味に対する重要度を表す重み付け係数を,前記代表領域クラスタに属する領域群の特徴量に基づいて,代表領域クラスモデル毎に算出する重み付け係数算出手段とを備え,
前記学習データの画像群に付与された意味ラベル毎に,前記各代表領域クラスタモデルのモデルパラメータと前記重み付け係数とを画像辞書として格納する
ことを特徴とする画像辞書生成装置。
An image dictionary generation device for generating an image dictionary used for analyzing the meaning of an image,
Learning data acquisition means for acquiring, as learning data, an image group to which a semantic label relating to a certain meaning is attached;
Area dividing means for dividing the acquired learning data image into a plurality of areas based on the feature amount of the image;
Clustering is performed by integrating regions having similar feature quantities with respect to the region group of the learning data obtained by the region dividing means, and at least the number of regions or regions in the region cluster are selected from the region clusters of the clustering result. Representative region cluster extracting means for extracting a plurality of representative region clusters based on a selection condition of a predetermined representative region cluster including the area of
For each extracted representative region cluster, a representative region cluster model learning means for constructing a representative region cluster model using the image samples included in the representative region cluster as learning data and outputting model parameters representing the constructed representative region cluster model;
A weighting coefficient calculating means for calculating a weighting coefficient representing the importance of the meaning of each representative area cluster model for each representative area class model based on a feature amount of an area group belonging to the representative area cluster;
The image dictionary generation device, wherein the model parameter and the weighting coefficient of each representative region cluster model are stored as an image dictionary for each semantic label assigned to the learning data image group.
前記重み付け係数算出手段は,
前記各代表領域クラスタに属する領域群の領域の数と,該代表領域クラスタに属する領域群の特徴量の分布のばらつきに基づいて,前記領域の数が多いほど重み付け係数の値が大きく,前記ばらつきが大きいほど重み付け係数の値が小さくなるように重み付け係数を算出する
ことを特徴とする請求項1記載の画像辞書生成装置。
The weighting coefficient calculating means includes
Based on the number of regions of the group of regions belonging to each representative region cluster and the variation in the distribution of feature values of the region group belonging to the representative region cluster, the larger the number of regions, the larger the value of the weighting coefficient. The image dictionary generation device according to claim 1, wherein the weighting coefficient is calculated so that the value of the weighting coefficient becomes smaller as the value becomes larger.
画像辞書生成装置が画像の意味の解析に用いる画像辞書を生成する画像辞書生成方法であって,
ある意味に関する意味ラベルが付与された画像群を学習データとして取得する学習データ取得過程と,
取得した学習データの画像を,画像の特徴量に基づいて複数の領域に分割する領域分割過程と,
前記領域分割過程で得られた学習データの領域群に対して類似する特徴量を持つ領域を統合することによりクラスタリングを行い,クラスタリング結果の領域クラスタの中から,少なくとも領域クラスタにおける領域の数または領域の面積を条件として含む所定の代表領域クラスタの選定条件に基づき,複数個の代表領域クラスタを抽出する代表領域クラスタ抽出過程と,
抽出した各代表領域クラスタに対し,代表領域クラスタに含まれる画像サンプルを学習データとして代表領域クラスタモデルを構築し,構築した代表領域クラスタモデルを表すモデルパラメータを出力する代表領域クラスタモデル学習過程と,
前記各代表領域クラスタモデルの意味に対する重要度を表す重み付け係数を,前記代表領域クラスタに属する領域群の特徴量に基づいて,代表領域クラスモデル毎に算出する重み付け係数算出過程とを有し,
前記学習データの画像群に付与された意味ラベル毎に,前記各代表領域クラスタモデルのモデルパラメータと前記重み付け係数とを画像辞書として格納する
ことを特徴とする画像辞書生成方法。
An image dictionary generation method for generating an image dictionary used by an image dictionary generation device for analyzing the meaning of an image,
A learning data acquisition process for acquiring, as learning data, a group of images with a semantic label related to a certain meaning,
A region dividing process for dividing the acquired learning data image into a plurality of regions based on the feature amount of the image;
Clustering is performed by integrating regions having similar feature quantities with respect to the region group of the learning data obtained in the region dividing process, and at least the number of regions or regions in the region cluster are selected from the region clusters of the clustering result. A representative region cluster extraction process for extracting a plurality of representative region clusters based on a predetermined representative region cluster selection condition including the area of
For each extracted representative region cluster, a representative region cluster model learning process for constructing a representative region cluster model using the image samples included in the representative region cluster as learning data and outputting model parameters representing the constructed representative region cluster model;
A weighting coefficient calculation step for calculating a weighting coefficient representing importance for the meaning of each representative area cluster model for each representative area class model based on a feature amount of the area group belonging to the representative area cluster,
A method for generating an image dictionary, comprising storing, as an image dictionary, model parameters and weighting factors of each representative area cluster model for each semantic label assigned to an image group of the learning data.
前記重み付け係数算出過程では,
前記各代表領域クラスタに属する領域群の領域の数と,該代表領域クラスタに属する領域群の特徴量の分布のばらつきに基づいて,前記領域の数が多いほど重み付け係数の値が大きく,前記ばらつきが大きいほど重み付け係数の値が小さくなるように重み付け係数を算出する
ことを特徴とする請求項3記載の画像辞書生成方法。
In the weighting coefficient calculation process,
Based on the number of regions of the group of regions belonging to each representative region cluster and the variation in the distribution of feature values of the region group belonging to the representative region cluster, the larger the number of regions, the larger the value of the weighting coefficient. The image dictionary generation method according to claim 3, wherein the weighting coefficient is calculated so that the value of the weighting coefficient becomes smaller as the value becomes larger.
請求項3または請求項4記載の画像辞書生成方法を,コンピュータに実行させるための画像辞書生成プログラム。   An image dictionary generation program for causing a computer to execute the image dictionary generation method according to claim 3 or 4. 請求項5記載の画像辞書生成プログラムを記録したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium on which the image dictionary generation program according to claim 5 is recorded.
JP2008031210A 2008-02-13 2008-02-13 Image dictionary generating device, image dictionary generating method, image dictionary generating program and recording medium thereof Expired - Fee Related JP4964798B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008031210A JP4964798B2 (en) 2008-02-13 2008-02-13 Image dictionary generating device, image dictionary generating method, image dictionary generating program and recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008031210A JP4964798B2 (en) 2008-02-13 2008-02-13 Image dictionary generating device, image dictionary generating method, image dictionary generating program and recording medium thereof

Publications (2)

Publication Number Publication Date
JP2009193183A JP2009193183A (en) 2009-08-27
JP4964798B2 true JP4964798B2 (en) 2012-07-04

Family

ID=41075158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008031210A Expired - Fee Related JP4964798B2 (en) 2008-02-13 2008-02-13 Image dictionary generating device, image dictionary generating method, image dictionary generating program and recording medium thereof

Country Status (1)

Country Link
JP (1) JP4964798B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5650628B2 (en) * 2011-11-17 2015-01-07 日本電信電話株式会社 Image dictionary generation device, image dictionary generation method, and image dictionary generation program
JP5870014B2 (en) * 2012-12-06 2016-02-24 日本電信電話株式会社 Image dictionary generating apparatus, image dictionary generating method, and computer program
JP6039518B2 (en) * 2013-08-21 2016-12-07 日本電信電話株式会社 Information processing apparatus, information extraction apparatus, and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003087772A (en) * 2001-09-10 2003-03-20 Fujitsu Ltd Image controller

Also Published As

Publication number Publication date
JP2009193183A (en) 2009-08-27

Similar Documents

Publication Publication Date Title
US8391618B1 (en) Semantic image classification and search
US8126274B2 (en) Visual language modeling for image classification
CN109189991A (en) Repeat video frequency identifying method, device, terminal and computer readable storage medium
US9323886B2 (en) Performance predicting apparatus, performance predicting method, and program
US9563822B2 (en) Learning apparatus, density measuring apparatus, learning method, computer program product, and density measuring system
JP2011154687A (en) Method and apparatus for navigating image data set, and program
JP6888484B2 (en) A search program, a search method, and an information processing device on which the search program operates.
JP5333589B2 (en) Representative feature extraction system and method
US20190205331A1 (en) Image search system, image search method, and program
US20130063468A1 (en) Image processing apparatus, image processing method, and program
WO2019167784A1 (en) Position specifying device, position specifying method, and computer program
JP4926266B2 (en) Learning data creation device, learning data creation method and program
CN110334628B (en) Outdoor monocular image depth estimation method based on structured random forest
JP2004362314A (en) Retrieval information registration device, information retrieval device, and retrieval information registration method
JP4964798B2 (en) Image dictionary generating device, image dictionary generating method, image dictionary generating program and recording medium thereof
Indu et al. Survey on sketch based image retrieval methods
Shetty et al. Content-based medical image retrieval using deep learning-based features and hybrid meta-heuristic optimization
JP5382786B2 (en) Feature quantity generation device, feature quantity generation method and feature quantity generation program, class discrimination device, class discrimination method, and class discrimination program
JP4477439B2 (en) Image segmentation system
CN115115923B (en) Model training method, instance segmentation method, device, equipment and medium
Fan et al. Pulmonary nodule detection using improved faster R-CNN and 3D Resnet
CN116089639A (en) Auxiliary three-dimensional modeling method, system, device and medium
Chalup et al. A computational approach to fractal analysis of a cityscape's skyline
CN107909091A (en) A kind of iconic memory degree Forecasting Methodology based on sparse low-rank regression model
JP5391876B2 (en) Representative feature extraction system, method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100114

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120328

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees