JPH10254902A - Object similarity calculation method and similar object retrieval device - Google Patents

Object similarity calculation method and similar object retrieval device

Info

Publication number
JPH10254902A
JPH10254902A JP9060999A JP6099997A JPH10254902A JP H10254902 A JPH10254902 A JP H10254902A JP 9060999 A JP9060999 A JP 9060999A JP 6099997 A JP6099997 A JP 6099997A JP H10254902 A JPH10254902 A JP H10254902A
Authority
JP
Japan
Prior art keywords
similarity
dimension value
vector
objects
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9060999A
Other languages
Japanese (ja)
Other versions
JP3489957B2 (en
Inventor
Hiroki Akama
浩樹 赤間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP06099997A priority Critical patent/JP3489957B2/en
Publication of JPH10254902A publication Critical patent/JPH10254902A/en
Application granted granted Critical
Publication of JP3489957B2 publication Critical patent/JP3489957B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To retrieve the object similarity with sense approximate to the human sense by comparing the dimension value of a key object with that of an object included in a DB and calculating the similarity of both objects based on the comparison result and by means of different distance calculation methods. SOLUTION: A storing object input device 1 inputs the objects to be stored, and a retrieval key object input device 2 inputs a retrieval key object to be used as a retrieval key of similar objects. A feature extraction device 3 extracts the feature value vector of an inputted object and stores the extracted vector in a feature value storage/management device 4 in conformity with the object. A retrieval result production device 5 selects the object to be compared out of the device 4, and a similarity calculation device 7 repetitively calculates the similarity of the object to a key object and also the inter-dimension value distance by using the different distance calculation methods according to the cases where the dimension value of the object is larger and smaller than that of the vector respectively. Then a similarity decision device 8 decides a sequence in order of higher similarity, and the decided similarity is outputted via a result output device 6.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、与えられた検索キ
ーオブジェクト(テキスト、画像、映像、音声など)と
DB(データベース)内のオブジェクトの間の類似度
を、キーオブジェクトおよび個々のDB内オブジェクト
から抽出した特徴量のベクトル間の類似度によって判定
する類似度オブジェクト検索装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for determining the similarity between a given search key object (text, image, video, audio, etc.) and an object in a DB (database) by using a key object and individual DB objects. The present invention relates to a similarity object search device that determines based on the similarity between the vectors of the feature amounts extracted from.

【0002】[0002]

【従来の技術】テキスト、画像、映像、音声などを扱う
従来の類似オブジェクト検索装置においては、特徴量を
ベクトル化し、そのベクトル間の類似性を使って類似オ
ブジェクトの検索を実現することが広く行われている。
2. Description of the Related Art In a conventional similar object search apparatus that handles text, images, video, audio, and the like, it is widely practiced to vectorize a feature amount and implement a search for a similar object using the similarity between the vectors. Have been done.

【0003】これまで、多くの類似オブジェクト装置で
用いられている類似度の算出方法としてはユークリッド
距離がある。これは、各次元軸の差の総和の平方根をと
るという操作である。
Heretofore, there is a Euclidean distance as a similarity calculation method used in many similar object devices. This is the operation of taking the square root of the sum of the differences of each dimension axis.

【0004】例えば、キーのベクトルが(k1,k2,
k3)、比較するデータのベクトルが(d11,d1
2,d13)とし、平方根の関数をsqrt(x)、x
のy乗を
For example, if the key vector is (k1, k2,
k3), the vector of data to be compared is (d11, d1)
2, d13) and the square root function is sqrt (x), x
To the y-th power

【0005】[0005]

【外1】 とするとき、ユークリッド距離Euは次の式で計算でき
る。
[Outside 1] Then, the Euclidean distance Eu can be calculated by the following equation.

【0006】[0006]

【数1】 同様に、数学的にはマンハッタン距離など多くの距離基
準が存在する。
(Equation 1) Similarly, there are mathematically many distance criteria, such as the Manhattan distance.

【0007】[0007]

【発明が解決しようとする課題】距離dは以下の公理を
常に満たす。
The distance d always satisfies the following axiom.

【0008】距離の公理 d(x,x)=0 d(x,y)=0ならばx=y d(x,y)>=0 d(x,y)=d(y,x) (対称律) d(x,z)<=d(x,y)+d(y,z)(三角不
等式) よって、対称律を常に満たすため、直線上の点aとbに
対して、距離d(a,b)とd(b,a)が同じであ
る。また、別の言い方をすれば、直線上に点0,a,2
aがあって、d(a,0)とd(a,2a)が同一の距
離になる。
The axiom of distance d (x, x) = 0 If d (x, y) = 0, then x = yd (x, y)> = 0 d (x, y) = d (y, x) ( D (x, z) <= d (x, y) + d (y, z) (triangular inequality) Therefore, to always satisfy the symmetry rule, the distance d ( a, b) and d (b, a) are the same. In other words, on a straight line, points 0, a, 2
There is a, and d (a, 0) and d (a, 2a) have the same distance.

【0009】しかし、これをそのままオブジェクトの類
似度に適用すると、あるオブジェクトの特徴量の次元値
aに対し特徴が存在しない(つまり次元値が0である)
オブジェクトも、より強い特徴をもつ(つまり次元値が
2aである)オブジェクトも同様に類似していると判定
していることになる。これは人間のもつ直感とは著しく
異なる。
However, if this is directly applied to the similarity of an object, no feature exists for the dimension value a of the feature amount of an object (that is, the dimension value is 0).
This means that objects having stronger characteristics (that is, the dimension value is 2a) are also determined to be similar. This is very different from human intuition.

【0010】通常の感覚では、キーオブジェクトの次元
値がaならば、次元値0のデータオブジェクトより次元
値2aのデータオブジェクトの方を似ているとしたい。
これを人間感覚基準Aと呼ぶことにする。
In a normal sense, if the dimension value of the key object is a, it is desired that the data object having the dimension value 2a is more similar to the data object having the dimension value 0.
This will be referred to as human sense criterion A.

【0011】上記の人間の感覚に近い類似の判定方法を
実現するには対称律を満たす距離では不可能であること
がわかる。つまり、従来の類似の判定方法は数学的な距
離にこだわりすぎていたことが問題である。
It can be seen that it is not possible to realize a similar judgment method similar to the above-mentioned human sense with a distance satisfying the symmetry rule. That is, the problem is that the conventional similar determination method is too particular about the mathematical distance.

【0012】本発明の目的は、より人間の感覚に近い類
似検索を可能にするオブジェクトの類似度算出方法およ
び類似オブジェクト検索装置を提供することにある。
An object of the present invention is to provide an object similarity calculation method and a similar object search apparatus which enable a similarity search closer to human senses.

【0013】[0013]

【課題を解決するための手段】本発明の類似度算出方法
は、キーオブジェクトとDB内オブジェクトの個々の次
元値間の比較において、キーオブジェクトの次元値とD
B内オブジェクトの次元値の大小関係を比較し、キーオ
ブジェクトの次元値がDB内オブジェクトの次元値より
大きい場合と小さい場合とで異なる距離算出法を用いて
オブジェクトの類似度を算出する。
A similarity calculation method according to the present invention compares a dimension value of a key object with a dimension value of a key object in comparison between individual dimension values of a key object and a DB object.
The magnitude relation between the dimension values of the objects in B is compared, and the similarity between the objects is calculated using a different distance calculation method depending on whether the dimension value of the key object is larger or smaller than the dimension value of the object in DB.

【0014】本発明の実施態様によれば、DB内オブジ
ェクトの次元値がキーオブジェクトの次元値より小さい
場合の距離を、DB内オブジェクトの次元値がキーオブ
ジェクトの次元値より大きい場合の距離のn倍(ただ
し、nは0より大きい実数)する。
According to the embodiment of the present invention, the distance when the dimension value of the object in the DB is smaller than the dimension value of the key object is the distance n when the dimension value of the object in the DB is larger than the dimension value of the key object. (Where n is a real number greater than 0).

【0015】本発明の実施態様によれば、DB内オブジ
ェクトの次元値がキーオブジェクトの次元値より小さい
場合の距離を、DB内オブジェクトの次元値がキーオブ
ジェクトの次元値より大きい場合の距離のn乗(ただ
し、nは0より大きい実数)する。
According to the embodiment of the present invention, the distance when the dimension value of the object in the DB is smaller than the dimension value of the key object is the distance n when the dimension value of the object in the DB is larger than the dimension value of the key object. Raised to the power (where n is a real number greater than 0).

【0016】ここで、距離関数1をユークリッド距離、
距離関数2をマンハッタン距離とするように、それぞれ
の場合について全く異なる距離を利用しても構わない。
Here, the distance function 1 is represented by the Euclidean distance,
A completely different distance may be used in each case so that the distance function 2 is the Manhattan distance.

【0017】図4は、ベクトルをヒストグラムとみなし
た場合の本発明の説明図である。
FIG. 4 is an explanatory diagram of the present invention when a vector is regarded as a histogram.

【0018】この図では、キーオブジェクトのベクトル
が領域AとC、DB内から選ばれた比較対象オブジェク
トのベクトルが領域AとBによって表してある。従来の
方法は図中のBの領域とCの領域を同一の距離基準で表
現していた。それに対し、本発明では、比較対象オブジ
ェクトのベクトルがキーオブジェクトのベクトルより大
きい部分(領域B)と小さい部分(領域C)とにそれぞ
れ異なる距離基準を用いる。例えば、領域Bはその面
積、領域Cはその面積の2倍とすることで実現する。
In this figure, the vector of the key object is represented by regions A and C, and the vector of the comparison object selected from the DB is represented by regions A and B. In the conventional method, the area B and the area C in the figure are represented by the same distance standard. On the other hand, in the present invention, different distance references are used for a portion (region B) and a portion (region C) where the vector of the comparison object is larger than the vector of the key object (region B). For example, the area is realized by setting the area B to be twice the area and the area C to be twice the area.

【0019】このように、キーオブジェクトとデータオ
ブジェクトの大小によってその距離基準を切り替えるこ
とで、全体として人間感覚基準Aに近づける。なお、こ
の切り替えを含んだ処理を関数として見た場合には、全
体として対称律を満たさないため数学的には距離ではな
い。
As described above, by switching the distance reference depending on the size of the key object and the data object, it is possible to approach the human sense standard A as a whole. When the processing including this switching is viewed as a function, the processing does not satisfy the symmetry rule as a whole, and is not mathematically a distance.

【0020】本発明の他のオブジェクトの類似度算出方
法は、0に近い値ほど傾きが大きくなるような値をとる
関数を用意し、キーオブジェクトとDB内オブジェクト
の双方の個々のベクトル値をその関数によって変換し、
その変換後のベクトル値に対して類似度算出法を適用す
ることでオブジェクトの類似度を算出する。
According to another object similarity calculation method of the present invention, a function is provided which takes a value such that a value closer to 0 has a larger gradient, and the individual vector values of both the key object and the DB object are converted to the values. Converted by a function,
The similarity of the object is calculated by applying the similarity calculation method to the vector value after the conversion.

【0021】ベクトルの個々の次元値自体を事前に変換
することで、従来の距離関数を用いながら同様の効果を
得ることもできる。つまり、類似度の算出の処理とし
て、0に近い値ほど傾きが大きくなるような値をとる関
数を用意し、キーオブジェクトとDB内オブジェクトの
双方の個々のベクトル値をその関数によって変換し、そ
の変換後のベクトル値に対して、従来の類似度算出方法
を適用することでに距離に関する非対称性を実質的に実
現し、類似性に対する精度の改善を行う。このときの関
数としては、次元値が0にしたがって座標のスケールが
細かくなるようなものであればよく、対数や累乗、ベキ
乗を用いいれば容易に実現できる。
By converting the individual dimension values of the vector in advance, a similar effect can be obtained using a conventional distance function. In other words, as a process of calculating the similarity, a function that takes a value such that a value closer to 0 has a larger slope is prepared, and the respective vector values of both the key object and the DB object are converted by the function. By applying the conventional similarity calculation method to the vector value after the conversion, asymmetry regarding the distance is substantially realized, and the accuracy of the similarity is improved. The function at this time may be any function as long as the coordinate scale becomes finer as the dimension value becomes 0, and can be easily realized by using a logarithm, a power, or a power.

【0022】さらに、先ほどの人間感覚基準Aで特に重
要な点は、次元値が0の場合にはより特別な類似性が存
在するところと考えることもできる。よって、次元値が
0の場合に距離基準を切り替えることで、類似検索をよ
り効果的に人間感覚基準Aに近づけることができる。
Further, a point that is particularly important in the human sensation criterion A described above can be considered to be that there is more special similarity when the dimension value is 0. Therefore, by switching the distance criterion when the dimension value is 0, the similarity search can be more effectively brought close to the human sense criterion A.

【0023】本発明の類似オブジェクト検索装置は、格
納されるオブジェクトを入力する格納オブジェクト入力
手段と、類似オブジェクトの検索時、検索キーとなる検
索キーオブジェクトを入力する検索キーオブジェクト入
力手段と、前記各オブジェクトの特徴量のベクトルが格
納され、これを管理する特徴量格納・管理手段と、前記
格納オブジェクト入力手段によって入力された複数のオ
ブジェクトの特徴量のベクトルを抽出し、該特徴量のベ
クトルをオブジェクトと対応づけて前記特徴量格納・管
理手段に格納し、前記検索キーオブジェクト入力手段に
よって入力された検索キーオブジェクトから特徴量のベ
クトルを抽出する特徴抽出手段と、検索キーオブジェク
トと前記特徴量格納・管理手段内オブジェクトの個々の
次元値間の比較において、検索キーオブジェクトの次元
値と前記特徴量格納・管理手段内オブジェクトの次元値
の大小関係を比較し、キーオブジェクトの次元値が前記
特徴量格納・管理手段内オブジェクトの次元値より大き
い場合と小さい場合とで異なる距離算出法を用いてオブ
ジェクトの類似度を算出する類似度算出手段と、前記特
徴量格納・管理手段内のオブジェクトについてその類似
度の大きさにしたがって順序付けを行う類似度判定手段
と、順序付けが行われたオブジェクトを順序にしたがっ
て出力する検索結果出力手段を有する。
A similar object search apparatus according to the present invention comprises: a storage object input unit for inputting an object to be stored; a search key object input unit for inputting a search key object serving as a search key when searching for a similar object; A feature amount vector of an object is stored, and a feature amount storage / management unit that manages the feature amount is extracted, and a feature amount vector of a plurality of objects input by the stored object input unit is extracted. A feature extraction unit for storing a feature amount vector from the search key object input by the search key object input unit, and storing the search key object and the feature amount storage / management. For comparison between individual dimension values of objects in the control means Comparing the dimension value of the search key object with the dimension value of the object in the feature quantity storage / management means, and determining whether the dimension value of the key object is greater than the dimension value of the object in the feature quantity storage / management means. Similarity calculating means for calculating the similarity of an object by using a different distance calculating method when the distance is small, and similarity determining means for ordering the objects in the feature amount storing / managing means according to the magnitude of the similarity And a search result output means for outputting the ordered objects according to the order.

【0024】本発明の他の類似オブジェクト検索装置
は、格納されるオブジェクトを入力する格納オブジェク
ト入力手段と、類似オブジェクトの検索時、検索キーと
なる検索キーオブジェクトを入力する検索キーオブジェ
クト入力手段と、前記各オブジェクトの特徴量のベクト
ルが格納され、これを管理する特徴量格納・管理手段
と、前記格納オブジェクト入力手段によって入力された
複数のオブジェクトの特徴量のベクトルを抽出し、該特
徴量のベクトルをオブジェクトと対応づけて前記特徴量
格納・管理手段に格納し、前記検索キーオブジェクト入
力手段によって入力された検索キーオブジェクトから特
徴量のベクトルを抽出する特徴抽出手段と、0に近い値
ほど傾きが大きくなるような値をとる関数を用意し、キ
ーオブジェクトと前記特徴量格納・管理手段内オブジェ
クトの双方の個々のベクトル値をその関数によって変換
し、その変換後のベクトル値に対して類似度算出法を適
用することでオブジェクトの類似度を算出する類似度算
出手段と、前記特徴量格納・管理手段内のオブジェクト
についてその類似度の大きさにしたがって順序付けを行
う類似判定手段と、順序付けが行われたオブジェクトを
順序にしたがって出力する検索結果出力手段を有する。
Another similar object search device of the present invention includes a storage object input means for inputting an object to be stored, a search key object input means for inputting a search key object serving as a search key when searching for a similar object, The feature amount vector of each object is stored, and a feature amount storage / management unit that manages the feature amount vector and a feature amount vector of a plurality of objects input by the stored object input unit are extracted. Is stored in the feature amount storage / management unit in association with the object, and a feature extraction unit that extracts a feature amount vector from the search key object input by the search key object input unit. Prepare a function that takes a value that increases A similarity calculation that converts the individual vector values of both objects in the collection / management means using the function, and calculates the similarity of the objects by applying a similarity calculation method to the converted vector values. Means, similarity judging means for ordering objects in the feature amount storage / management means in accordance with the degree of similarity, and search result output means for outputting the ordered objects in order.

【0025】[0025]

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
Next, embodiments of the present invention will be described with reference to the drawings.

【0026】図1は本発明の一実施形態の類似オブジェ
クト検索装置の構成図、図2、図3は検索結果作成装置
5の動作を示すフローチャートである。
FIG. 1 is a block diagram of a similar object search apparatus according to an embodiment of the present invention, and FIGS. 2 and 3 are flowcharts showing the operation of the search result creation apparatus 5.

【0027】本実施形態の類似オブジェクト検索装置は
格納オブジェクト入力装置1と検索キーオブジェクト入
力装置2と特徴抽出装置3と特徴量格納・管理装置4と
検索結果作成装置5と検索結果出力装置6で構成されて
いる。
The similar object search apparatus of the present embodiment includes a storage object input device 1, a search key object input device 2, a feature extraction device 3, a feature storage / management device 4, a search result creation device 5, and a search result output device 6. It is configured.

【0028】格納オブジェクト入力装置1は、格納され
るオブジェクトを入力する。検索キーオブジェクト入力
装置2は、類似オブジェクト検索時、検索キーとなる検
索キーオブジェクトを入力する。特徴抽出装置3は、格
納オブジェクト入力装置1によって入力された複数のオ
ブジェクトの特徴量のベクトルを抽出し、オブジェクト
と対応づけて特徴量格納・管理装置4に格納する。
The storage object input device 1 inputs a stored object. The search key object input device 2 inputs a search key object serving as a search key when searching for a similar object. The feature extraction device 3 extracts feature amount vectors of a plurality of objects input by the storage object input device 1 and stores them in the feature amount storage / management device 4 in association with the objects.

【0029】検索結果作成装置5は類似度算出装置7と
類似度判定装置8を有し、図2または図3のフローチャ
ートで示す処理により類似度を算出する。
The search result creation device 5 has a similarity calculation device 7 and a similarity determination device 8, and calculates the similarity by the processing shown in the flowchart of FIG. 2 or FIG.

【0030】まず、キーオブジェクトのベクトルを特徴
量抽出装置3から入力する(ステップ11)。次に、D
Bである特徴量格納管理装置4から比較対象オブジェク
トを選択し(ステップ12)、比較対象オブジェクトが
なくなるまで、以下の処理を繰り返す(ステップ2
1)。まず、ベクトルの次元値が0かどうか判定し(ス
テップ13)、0ならば距離関数F3で次元値間距離を
算出する(ステップ14)。ベクトルの次元値が0でな
いならば、比較対象オブジェクトの次の次元値がキーオ
ブジェクトの次元値より大きいかどうか判定し(ステッ
プ15)、大きければ距離関数F2で次元値間距離を算
出し(ステップ17)、大きくなければ、距離関数F1
で次元値間距離を算出する(ステップ16)。全ての次
元についてステップ13から17までの処理が終ったか
どうか判定し(ステップ18)、終了していなければ、
ステップ13に戻る。終了したならば、類似度算出装置
7により各次元の距離を統合して比較対象オブジェクト
とキーオブジェクトの類似度を算出し(ステップ1
9)、該類似度を出力する(ステップ20)。
First, a vector of a key object is input from the feature quantity extracting device 3 (step 11). Next, D
A comparison target object is selected from the feature storage management device 4 which is B (step 12), and the following processing is repeated until there is no more comparison target object (step 2).
1). First, it is determined whether or not the dimension value of the vector is 0 (step 13). If it is 0, the distance between dimension values is calculated by the distance function F3 (step 14). If the dimension value of the vector is not 0, it is determined whether the next dimension value of the object to be compared is greater than the dimension value of the key object (step 15). If it is larger, the distance between dimension values is calculated by the distance function F2 (step 15). 17) If not large, distance function F1
Is used to calculate the distance between the dimension values (step 16). It is determined whether or not the processing of steps 13 to 17 has been completed for all dimensions (step 18).
Return to step 13. When the processing is completed, the similarity calculating device 7 integrates the distances in each dimension to calculate the similarity between the comparison target object and the key object (step 1).
9), and output the similarity (step 20).

【0031】図3の処理例では、図2のステップ15〜
17の代りに、0に近くなる程に傾きが大きくなるよう
な関数値で次元値を変換し(ステップ22)、距離関数
で次元値間距離を算出する(ステップ23)。
In the processing example of FIG. 3, steps 15 to 15 of FIG.
Instead of 17, the dimensional value is converted by a function value such that the inclination increases as it approaches 0 (step 22), and the distance between dimensional values is calculated by a distance function (step 23).

【0032】類似度の算出が終ると、類似度判定装置8
によってオブジェクトが類似度の高い順にならべられ、
結果出力装置6によって出力される。
When the calculation of the similarity is completed, the similarity determination device 8
Sorts objects in order of similarity,
It is output by the result output device 6.

【0033】画像DB(特徴量格納・管理装置4)内の
1300点の画像に対して、各画像毎の正規化した特徴
ベクトル、検索キー画像に対して、その画像の正規化し
た特徴ベクトル、その検索キー画像で画像DBに検索を
行った場合に正解となる検索結果を準備し、テキスト検
索で用いられる適合率−再現率のグラフで評価を行っ
た。
For 1300 images in the image DB (feature storage / management device 4), a normalized feature vector for each image, for a search key image, a normalized feature vector of the image, When a search was performed on the image DB using the search key image, a search result that was a correct answer was prepared, and evaluation was performed using a graph of the relevance ratio-recall ratio used in text search.

【0034】再現率は、正解がどれだけ出現したか、つ
まり 再現率=(検索結果中の正解数)/(DB全体の正解
数) 適合率は、検索結果の中に正解がどれだけの割合で存在
したか、つまり 適合率=(検索結果中の正解数)/(検索結果の総数) を示している。
The recall is the number of correct answers that have appeared, that is, recall = (the number of correct answers in the search result) / (the number of correct answers in the entire DB) The precision is the ratio of the number of correct answers in the search result. , That is, precision = (the number of correct answers in the search result) / (total number of search results).

【0035】直感的に言うと、再現率が検索漏れの少な
さを、適合率が検索結果中のゴミの割合の少なさを、そ
れぞれ示している。
Intuitively, the recall indicates the small number of search omissions, and the relevance indicates the small percentage of dust in the search results.

【0036】図5〜図8のグラフはx軸が再現率、y軸
が適合率を表し、折れ線が右上にあるほど検索精度がよ
いことを表す。
In the graphs of FIGS. 5 to 8, the x-axis represents the recall rate, the y-axis represents the precision, and the higher the polygonal line, the higher the search precision.

【0037】図5のグラフは、従来のユークリッド距離
を使った検索の精度(euclid-A)、請求項1および2に対
応する類似度算出方法(DB内オブジェクトの次元値が
キーオブジェクトの次元値より大きい場合の距離がユー
クリッド距離、DB内オブジェクトの次元値がキーオブ
ジェクトの次元値より小さい場合の距離がユークリッド
距離の2倍)を使った検索の精度(septime2-A)、請求項
1および3に対応する類似度算出法(DB内オブジェク
トの次元値がキーオブジェクトの次元値より大きい場合
の距離がユークリッド距離、DB内オブジェクトの次元
値がキーオブジェクトの次元値より小さい場合の距離が
ユークリッド距離の1/2乗)を使った検索精度(sepsq
rt-A)、を示している。
FIG. 5 is a graph showing a conventional retrieval accuracy (euclid-A) using the Euclidean distance, a similarity calculation method corresponding to claims 1 and 2, wherein the dimension value of the object in the DB is the dimension value of the key object. The accuracy (septime2-A) of the search using the distance when the distance is larger than the Euclidean distance, and the distance when the dimension value of the DB object is smaller than the key object is twice the Euclidean distance. (The distance when the dimension value of the DB object is greater than the dimension value of the key object is the Euclidean distance, and the distance when the dimension value of the DB object is smaller than the dimension value of the key object is the Euclidean distance.) Search precision using (1/2) power (sepsq
rt-A).

【0038】図6のグラフは、従来のユークリッド距離
を使った検索の精度(euclid−A)、請求項4に
対応する類似度算出法(DB内オブジェクトの次元値が
キーオブジェクトの次元値より大きい場合の距離がユー
クリッド距離、DB内オブジェクトの次元値がキーオブ
ジェクトの次元値より小さい場合の距離がユークリッド
距離をxとしたときx/exp(x))を使った検索の
精度(euclid-exp-A)、請求項4に対応する類似度算出法
(DB内オブジェクトの次元値がキーオブジェクトの次
元値より大きい場合の距離がユークリッド距離、DB内
オブジェクトの次元値がキーオブジェクトの次元値より
小さい場合の距離がユークリッド距離の1/2乗)を使
った検索の精度(euclid-sqrt-A) 、を示している。
FIG. 6 is a graph showing a conventional retrieval accuracy (euclid-A) using the Euclidean distance, a similarity calculation method according to claim 4, wherein the dimension value of the DB object is larger than the key object dimension value. In the case where the distance is the Euclidean distance, and the distance when the dimension value of the DB object is smaller than the key object is x / exp (x) where the distance is x, the Euclidean distance is x / exp (x). A), a similarity calculation method according to claim 4, wherein the distance when the dimension value of the DB object is larger than the dimension value of the key object is the Euclidean distance, and the dimension value of the DB object is smaller than the dimension value of the key object Indicates the accuracy (euclid-sqrt-A) of the search using the Euclidean distance of 1/2 power.

【0039】図5と図6は、複数の人がある検索キー画
像で検索を行い、1人でも正解がいればその検索キー画
像での検索は正解とする場合を示している。
FIGS. 5 and 6 show a case in which a plurality of persons perform a search using a certain search key image, and if even one person has a correct answer, the search using the search key image is determined to be a correct answer.

【0040】同様に、図5、図6とは異なる正解集合
(過半数の人が正解であれば、その検索キー画像での検
索は正解とする)に対する検索の精度の例が図7と図8
である。
Similarly, FIGS. 7 and 8 show examples of the accuracy of the search for the correct answer set different from those in FIGS. 5 and 6 (if the majority of the answers are correct, the search using the search key image is the correct answer).
It is.

【0041】これらの図により、本発明の方法が従来の
方法(euclid-A)に比べ性能の向上、特に、検索結果の上
位における適合率の向上に有効であることがわかる。
From these figures, it can be seen that the method of the present invention is effective in improving the performance as compared with the conventional method (euclid-A), and in particular, in improving the relevance in the higher rank of the search result.

【0042】なお、累乗、ベキ乗は(ベクトルの正規化
などの操作によって)ベクトルの値が0〜1の場合には
累乗根、対数になる。例えば、xの2乗は通常(x>1
のとき)xより大きくなることを表すが、0<x<1の
ときはxより小さくなる。
When the value of a vector is 0 to 1 (by an operation such as vector normalization), the power and the power become a power root and a logarithm. For example, the square of x is usually (x> 1
), It is larger than x, but when 0 <x <1, it is smaller than x.

【0043】[0043]

【発明の効果】以上説明したように、本発明によれば、
ユークリッド距離を用いた方法に比べ検索の精度(適合
率および再現率)が向上し、これにより人間の感覚に近
い類似検索が可能になる効果がある。
As described above, according to the present invention,
Compared with the method using the Euclidean distance, the accuracy of search (accuracy and recall) is improved, and this has the effect of enabling similarity search close to human sense.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態の類似オブジェクト検索装
置の構成図である。
FIG. 1 is a configuration diagram of a similar object search device according to an embodiment of the present invention.

【図2】請求項1,2,3,5に対応する処理のフロー
チャートである。
FIG. 2 is a flowchart of a process corresponding to claims 1, 2, 3, and 5;

【図3】請求項4,5に対応する処理のフローチャート
である。
FIG. 3 is a flowchart of a process corresponding to claims 4 and 5;

【図4】請求項1の本発明の説明図である。FIG. 4 is an explanatory diagram of the present invention of claim 1;

【図5】請求項1,2,3,5に対応する類似度算出方
法を使ったときの検索精度をユークリッド距離を使った
検索精度と比較して示す図である。
FIG. 5 is a diagram showing a search accuracy when using a similarity calculation method corresponding to claims 1, 2, 3, and 5 in comparison with a search accuracy using a Euclidean distance.

【図6】請求項4,5に対応する類似度算出方法を使っ
たときの検索精度をユークリッド距離を使った検索精度
と比較して示す図である。
FIG. 6 is a diagram showing a comparison of search accuracy when a similarity calculation method according to claims 4 and 5 is used with search accuracy using a Euclidean distance.

【図7】異なる正解集合に対して請求項1,2,3,5
に対応する類似度算出方法を使ったときの検索精度を示
す図である。
FIG. 7 is a block diagram of claim 1, 2, 3, 5 for different correct answer sets.
FIG. 9 is a diagram showing search accuracy when a similarity calculation method corresponding to is used.

【図8】異なる正解集合に対して請求項4,5に対応す
る類似度算出方法を使ったときの検索精度を示す図であ
る。
FIG. 8 is a diagram showing search accuracy when a similarity calculation method according to claims 4 and 5 is used for different correct answer sets.

【符号の説明】[Explanation of symbols]

1 格納オブジェクト入力装置 2 検索キーオブジェクト入力装置 3 特徴抽出装置 4 特徴量格納管理装置 5 検索結果作成装置 6 検索結果出力装置 7 類似度算出装置 8 類似度判定装置 11〜23 ステップ REFERENCE SIGNS LIST 1 stored object input device 2 search key object input device 3 feature extraction device 4 feature storage management device 5 search result creation device 6 search result output device 7 similarity calculation device 8 similarity determination device 11 to 23 steps

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 与えられた検索キーオブジェクトとDB
内のオブジェクトの間の類似度を、キーオブジェクトお
よび個々のDB内オブジェクトから抽出した特徴量のベ
クトル間の類似度によって判定する類似オブジェクト検
索装置におけるオブジェクトの類似度算出方法であっ
て、 キーオブジェクトとDB内オブジェクトの個々の次元値
間の比較において、キーオブジェクトの次元値とDB内
オブジェクトの次元値の大小関係を比較し、キーオブジ
ェクトの次元値がDB内オブジェクトの次元値より大き
い場合と小さい場合とで異なる距離算出法を用いてオブ
ジェクトの類似度を算出する、オブジェクトの類似度の
算出方法。
1. Given search key object and DB
A similarity calculation method for a similar object search device in which a similarity between objects in a similar object is determined based on a similarity between a vector of a feature amount extracted from a key object and an individual DB object. In the comparison between the individual dimension values of the objects in the DB, the magnitude relationship between the dimension value of the key object and the dimension value of the object in the DB is compared, and when the dimension value of the key object is larger than or smaller than the dimension value of the object in the DB And a method of calculating the similarity of objects by using a different distance calculation method.
【請求項2】 DB内オブジェクトの次元値がキーオブ
ジェクトの次元値より小さい場合の距離を、DB内オブ
ジェクトの次元値がキーオブジェクトの次元値より大き
い場合の距離のn倍(ただし、nは0より大きい実数)
する、請求項1記載のオブジェクトの類似度の算出方
法。
2. The distance when the dimension value of the DB object is smaller than the key object dimension value is n times the distance when the DB object dimension value is greater than the key object dimension value (where n is 0). Greater real number)
The method for calculating the degree of similarity between objects according to claim 1.
【請求項3】 DB内オブジェクトの次元値がキーオブ
ジェクトの次元値より小さい場合の距離を、DB内オブ
ジェクトの次元値がキーオブジェクトの次元値より大き
い場合の距離のn乗(ただし、nは0より大きい実数)
する、請求項1記載のオブジェクトの類似度の算出方
法。
3. The distance when the dimension value of the object in the DB is smaller than the dimension value of the key object is the nth power of the distance when the dimension value of the object in the DB is larger than the dimension value of the key object (where n is 0). Greater real number)
The method for calculating the degree of similarity between objects according to claim 1.
【請求項4】 与えられた検索キーオブジェクトと、D
B内のオブジェクトの間の類似度を、キーオブジェクト
および個々のDB内オブジェクトから抽出した特徴量の
ベクトル間の類似度によって判定する類似オブジェクト
検索装置におけるオブジェクトの類似度算出方法であっ
て、 0に近い値ほど傾きが大きくなるような値をとる関数を
用意し、キーオブジェクトとDB内オブジェクトの双方
の個々のベクトル値をその関数によって変換し、その変
換後のベクトル値に対して類似度算出法を適用すること
でオブジェクトの類似度を算出する、オブジェクトの類
似度の算出方法。
4. A search key object provided, and
B. A similarity calculation method for an object in a similar object search device which determines the similarity between objects in B based on the similarity between a vector of a feature amount extracted from a key object and an individual DB object. A function is prepared that takes a value such that the closer the value is, the greater the slope is, and the respective vector values of both the key object and the DB object are converted by the function, and a similarity calculation method is performed on the converted vector value. A method of calculating the similarity of an object by calculating the similarity of an object by applying.
【請求項5】 ベクトルの次元値が0の場合には、さら
に別の距離算出法を用いる、請求項1から4のいずれか
1項記載のオブジェクト類似度の算出方法。
5. The method for calculating an object similarity according to claim 1, wherein when the dimension value of the vector is 0, another distance calculation method is used.
【請求項6】 格納されるオブジェクトを入力する格納
オブジェクト入力手段と、 類似オブジェクトの検索時、検索キーとなる検索キーオ
ブジェクトを入力する検索キーオブジェクト入力手段
と、 前記各オブジェクトの特徴量のベクトルが格納され、こ
れを管理する特徴量格納・管理手段と、 前記格納オブジェクト入力手段によって入力された複数
のオブジェクトの特徴量のベクトルを抽出し、該特徴量
のベクトルをオブジェクトと対応づけて前記特徴量格納
・管理手段に格納し、前記検索キーオブジェクト入力手
段によって入力された検索キーオブジェクトから特徴量
のベクトルを抽出する特徴抽出手段と、 前記検索キーオブジェクトと前記特徴量格納・管理手段
内オブジェクトの個々の次元値間の比較において、検索
キーオブジェクトの次元値と前記特徴量格納・管理手段
内オブジェクトの次元値の大小関係を比較し、キーオブ
ジェクトの次元値が前記特徴量格納・管理手段内オブジ
ェクトの次元値より大きい場合と小さい場合とで異なる
距離算出法を用いてオブジェクトの類似度を算出する類
似度算出手段と、 前記特徴量格納・管理装置内のオブジェクトについてそ
の類似度の大きさにしたがって順序付けを行う類似度判
定手段と、 順序付けが行われたオブジェクトを順序にしたがって出
力する検索結果出力手段を有する類似オブジェクト検索
装置。
6. A storage object input means for inputting an object to be stored, a search key object input means for inputting a search key object serving as a search key at the time of searching for a similar object, A feature storage / management means for storing and managing the feature; extracting a feature vector of the plurality of objects input by the storage object input means; associating the feature vector with the object; A feature extraction unit for storing a vector of a feature amount from a search key object input by the search key object input unit, stored in a storage / management unit, and an individual one of the search key object and the object in the feature amount storage / management unit Key object in the comparison between the dimension values of The magnitude relationship between the dimension value and the dimension value of the object in the feature quantity storage / management means is compared, and the distance differs depending on whether the dimension value of the key object is larger or smaller than the dimension value of the object in the feature quantity storage / management means. A similarity calculating means for calculating the similarity of the objects by using a calculating method; a similarity determining means for performing an ordering of the objects in the feature amount storage / management apparatus according to the magnitude of the similarity; and the ordering is performed. A similar object search device having search result output means for outputting searched objects in order.
【請求項7】 格納されるオブジェクトを入力する格納
オブジェクト入力手段と、 類似オブジェクトの検索時、検索キーとなる検索キーオ
ブジェクトを入力する検索キーオブジェクト入力手段
と、 前記各オブジェクトの特徴量のベクトルが格納され、こ
れを管理する特徴量格納・管理手段と、 前記格納オブジェクト入力手段によって入力された複数
のオブジェクトの特徴量のベクトルを抽出し、該特徴量
のベクトルをオブジェクトと対応づけて前記特徴量格納
・管理手段に格納し、前記検索キーオブジェクト入力手
段によって入力された検索キーオブジェクトから特徴量
のベクトルを抽出する特徴抽出手段と、 0に近い値ほど傾きが大きくなるような値をとる関数を
用意し、キーオブジェクトと前記特徴量格納・管理手段
内オブジェクトの双方の個々のベクトル値をその関数に
よって変換し、その変換後のベクトル値に対して類似度
算出法を適用することでオブジェクトの類似度を算出す
る類似度算出手段と、 前記特徴量格納・管理手段内のオブジェクトについてそ
の類似度の大きさにしたがって順序付けを行う類似度判
定手段と、 順序付けが行われたオブジェクトを順序にしたがって出
力する検索結果出力手段を有する類似オブジェクト検索
装置。
7. A storage object input unit for inputting an object to be stored, a search key object input unit for inputting a search key object serving as a search key when searching for a similar object, and a vector of a feature amount of each object is A feature storage / management means for storing and managing the feature; extracting a feature vector of the plurality of objects input by the storage object input means; associating the feature vector with the object; A feature extracting means for storing a vector of a feature amount from the search key object input by the search key object input means, stored in the storage / management means, and a function for taking a value such that a value closer to 0 has a larger gradient. Prepare the key object and the object in the feature quantity storage / management means. A similarity calculating means for converting the respective vector values by the function and applying a similarity calculating method to the converted vector values to calculate the similarity of the objects; and the feature amount storage / management. A similar object search device having similarity determination means for ordering objects in the means according to the magnitude of the similarity, and search result output means for outputting the ordered objects in order.
JP06099997A 1997-03-14 1997-03-14 Object similarity calculation method and similar object search device Expired - Fee Related JP3489957B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06099997A JP3489957B2 (en) 1997-03-14 1997-03-14 Object similarity calculation method and similar object search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06099997A JP3489957B2 (en) 1997-03-14 1997-03-14 Object similarity calculation method and similar object search device

Publications (2)

Publication Number Publication Date
JPH10254902A true JPH10254902A (en) 1998-09-25
JP3489957B2 JP3489957B2 (en) 2004-01-26

Family

ID=13158643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06099997A Expired - Fee Related JP3489957B2 (en) 1997-03-14 1997-03-14 Object similarity calculation method and similar object search device

Country Status (1)

Country Link
JP (1) JP3489957B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001265349A (en) * 2000-03-21 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> Music processing device and recording medium recorded with music processing program
KR20030032499A (en) * 2001-10-18 2003-04-26 한국전자통신연구원 A method for matching subsequence based on time-warping in sequence databases
KR101081459B1 (en) * 2010-02-16 2011-11-08 한국과학기술원 Apparatus and Method for high-dimensional binary data search

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07192020A (en) * 1993-03-12 1995-07-28 Toshiba Corp Document information retrieval device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07192020A (en) * 1993-03-12 1995-07-28 Toshiba Corp Document information retrieval device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001265349A (en) * 2000-03-21 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> Music processing device and recording medium recorded with music processing program
KR20030032499A (en) * 2001-10-18 2003-04-26 한국전자통신연구원 A method for matching subsequence based on time-warping in sequence databases
KR101081459B1 (en) * 2010-02-16 2011-11-08 한국과학기술원 Apparatus and Method for high-dimensional binary data search

Also Published As

Publication number Publication date
JP3489957B2 (en) 2004-01-26

Similar Documents

Publication Publication Date Title
US11567989B2 (en) Media unit retrieval and related processes
US6915295B2 (en) Information searching method of profile information, program, recording medium, and apparatus
US7933452B2 (en) System and methods of image retrieval
US20020168117A1 (en) Image search method and apparatus
CN108460114B (en) Image retrieval method based on hierarchical attention model
US20190114711A1 (en) Financial analysis system and method for unstructured text data
JP3143532B2 (en) Image retrieval apparatus and method
CN106980900A (en) A kind of characteristic processing method and equipment
CN113222149A (en) Model training method, device, equipment and storage medium
Ko et al. Region-based image retrieval using probabilistic feature relevance learning
KR100318512B1 (en) How to calculate similarity between two groups
CN117171331A (en) Professional field information interaction method, device and equipment based on large language model
JPH11250106A (en) Method for automatically retrieving registered trademark through the use of video information of content substrate
CN111931256B (en) Color matching recommendation method, device, equipment and storage medium
JP3489957B2 (en) Object similarity calculation method and similar object search device
CN115617978A (en) Index name retrieval method and device, electronic equipment and storage medium
Eler et al. Using otsu's threshold selection method for eliminating terms in vector space model computation
CN115797795A (en) Remote sensing image question-answering type retrieval system and method based on reinforcement learning
JP2004086262A (en) Visual information classification method, visual information classification device, visual information classification program, and recording medium storing the program
CN116226526A (en) Intellectual property intelligent retrieval platform and method
JP2004341948A (en) Concept extraction system, concept extraction method, program therefor, and storing medium thereof
JP4125951B2 (en) Text automatic classification method and apparatus, program, and recording medium
EP3139281A1 (en) Media unit retrieval and related processes
EP3139284A1 (en) Media unit retrieval and related processes
EP3139282A1 (en) Media unit retrieval and related processes

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081107

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091107

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees