JP2012078930A - コンテンツ検索装置及びコンテンツ検索方法 - Google Patents

コンテンツ検索装置及びコンテンツ検索方法 Download PDF

Info

Publication number
JP2012078930A
JP2012078930A JP2010221458A JP2010221458A JP2012078930A JP 2012078930 A JP2012078930 A JP 2012078930A JP 2010221458 A JP2010221458 A JP 2010221458A JP 2010221458 A JP2010221458 A JP 2010221458A JP 2012078930 A JP2012078930 A JP 2012078930A
Authority
JP
Japan
Prior art keywords
content
feature
search
similar
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010221458A
Other languages
English (en)
Inventor
Yusuke Fukazawa
佑介 深澤
Satoshi Miyagawa
聡 宮川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2010221458A priority Critical patent/JP2012078930A/ja
Publication of JP2012078930A publication Critical patent/JP2012078930A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】類似コンテンツの検索を高精度かつ高速に行うことができるコンテンツ検索装置及びコンテンツ検索方法を提供することを目的とする。
【解決手段】コンテンツ検索装置1は、クエリ情報と検索対象コンテンツとを取得する取得部11と、クエリ情報と検索対象コンテンツとから特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出する特徴ベクトル抽出部12と、それぞれの特徴ベクトルを特定の特徴種別ごとに分解する特徴ベクトル分解部13と、分解されたそれぞれの特徴ベクトル間で近似最近傍探索を適用して特定の特徴種別ごとに特徴種別類似コンテンツを検索する特徴種別検索部14と、クエリ情報と特徴種別類似コンテンツとの特徴ベクトル間で距離に基づく類似度計算を適用して類似コンテンツを検索する類似コンテンツ検索部15と、類似コンテンツを出力する出力部16と、を備える。
【選択図】図1

Description

本発明は、類似するコンテンツを検索するコンテンツ検索装置及びコンテンツ検索方法に関する。
従来、クエリ情報と類似する類似コンテンツを複数の検索対象コンテンツから検索する検索方法として、クエリ情報と検索対象コンテンツとを複数の特徴量を要素に持つ特徴ベクトルとして表現し、特徴ベクトル間の類似度を計算することで類似コンテンツを検索する方法が知られている。しかしながら、クエリ情報と全検索対象コンテンツとのペアにおける類似度を厳密に計算する場合、全組み合わせを計算する必要があり、検索対象コンテンツの数が多ければ計算量が膨大となる。特に、2次元を超える高次元ベクトル空間における高速なアルゴリズムは知られていない。
そこで近年、厳密に計算する検索方法ではなく、検索における計算量を削減する近似的な検索方法が研究されている。近似的な検索方法の一例として、特徴ベクトルを絞り込むことによって検索における計算量を削減することができる近似最近傍探索が挙げられる。非特許文献1には、近似最近傍探索の一つであるLocality Sensitive Hashingが開示されている。
Aristides Gionis, Piotr Indyk, and Rajeev Motwani. Similarity Search in High Dimensions via Hashing. Proceedings of the 25th International Conference on Very Large Data Bases, p.518-529. 1999.
しかしながら、例えばジャンル、タイトル、監督、出演俳優、説明文、及び再生時間等の特徴種別から構成される動画等のように、複数の特徴種別を有するコンテンツに対して近似的な検索方法を適用する場合、検索する際に複数の特徴種別が一体として絞り込まれる。そのため、検索における計算対象から一部の特徴種別が漏れて、当該一部の特徴種別の類似度が検索結果において反映されないおそれがある。例えば、アクション、ホラー、スポーツ等の少数の特徴しか含まない「ジャンル」のような特徴種別がクエリ情報と検索対象コンテンツとに含まれる場合を想定する。その場合、クエリ情報に含まれる当該特徴種別と、ある検索対象コンテンツに含まれる当該特徴種別との類似度が高い場合でも、当該検索対象コンテンツが類似コンテンツに含まれないおそれがある。
そこで、上述の課題を解決するために、本発明は、類似コンテンツの検索を高精度かつ高速に行うことができるコンテンツ検索装置及びコンテンツ検索方法を提供することを目的とする。
上述の課題を解決するために、本発明のコンテンツ検索装置は、クエリ情報と類似する類似コンテンツを複数の検索対象コンテンツから検索するコンテンツ検索装置であって、クエリ情報と複数の検索対象コンテンツとを取得する取得手段と、取得手段によって取得されたクエリ情報から当該クエリ情報の特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出し、取得手段によって取得された検索対象コンテンツから当該検索対象コンテンツの特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出する特徴ベクトル抽出手段と、特徴ベクトル抽出手段によって抽出されたクエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとを、特定の特徴種別ごとに分解する特徴ベクトル分解手段と、特徴ベクトル分解手段によって特定の特徴種別ごとに分解されたクエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとの間で近似最近傍探索を適用して、特定の特徴種別ごとにクエリ情報と類似する検索対象コンテンツを特徴種別類似コンテンツとして検索する特徴種別検索手段と、取得手段によって取得されたクエリ情報の特徴ベクトルと、特徴種別検索手段によって検索された特徴種別類似コンテンツの特徴ベクトルとの間で距離に基づく類似度計算を適用して、クエリ情報と類似する特徴種別類似コンテンツを類似コンテンツとして検索する類似コンテンツ検索手段と、類似コンテンツ検索手段によって検索された類似コンテンツを出力する出力手段と、を備えている。
また、本発明のコンテンツ検索方法は、クエリ情報と類似する類似コンテンツを複数の検索対象コンテンツから検索するコンテンツ検索装置により実行されるコンテンツ検索方法であって、コンテンツ検索装置が、クエリ情報と複数の検索対象コンテンツとを取得する取得ステップと、コンテンツ検索装置が、取得ステップにおいて取得されたクエリ情報から当該クエリ情報の特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出し、取得ステップにおいて取得された検索対象コンテンツから当該検索対象コンテンツの特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出する特徴ベクトル抽出ステップと、コンテンツ検索装置が、特徴ベクトル抽出ステップにおいて抽出されたクエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとを、特定の特徴種別ごとに分解する特徴ベクトル分解ステップと、コンテンツ検索装置が、特徴ベクトル分解ステップにおいて特定の特徴種別ごとに分解されたクエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとの間で近似最近傍探索を適用して、特定の特徴種別ごとにクエリ情報と類似する検索対象コンテンツを特徴種別類似コンテンツとして検索する特徴種別検索ステップと、コンテンツ検索装置が、取得ステップにおいて取得されたクエリ情報の特徴ベクトルと、特徴種別検索ステップにおいて検索された特徴種別類似コンテンツの特徴ベクトルとの間で距離に基づく類似度計算を適用して、クエリ情報と類似する特徴種別類似コンテンツを類似コンテンツとして検索する類似コンテンツ検索ステップと、コンテンツ検索装置が、類似コンテンツ検索ステップにおいて検索された類似コンテンツを出力する出力ステップと、を含んでいる。
この発明によれば、クエリ情報と類似する類似コンテンツを複数の検索対象コンテンツから検索するコンテンツ検索装置であって、取得したクエリ情報の特徴種別ごとの特徴量を要素に含む特徴ベクトルと、取得した検索対象コンテンツの特徴種別ごとの特徴量を要素に含む特徴ベクトルとを抽出し、抽出したそれぞれの特徴ベクトルを特定の特徴種別ごとに分解する。そして、特定の特徴種別ごとに分解したクエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとの間で近似最近傍探索を適用して、特定の特徴種別ごとにクエリ情報と類似する検索対象コンテンツを特徴種別類似コンテンツとして検索する。このように、特徴ベクトルを特定の特徴種別ごとに分解して検索を行うことで、当該特定の特徴種別が検索における計算対象から漏れることなく、検索結果に確実に反映され、高精度な検索を行うことができる。また、検索方法として近似最近傍探索を適用することで、検索対象コンテンツの数が多い場合でも高速な検索を行うことができる。
続いて、本発明のコンテンツ検索装置は、取得したクエリ情報の特徴ベクトルと、検索した特徴種別類似コンテンツの特徴ベクトルとの間で距離に基づく類似度計算を適用して、クエリ情報と類似する特徴種別類似コンテンツを類似コンテンツとして検索し、出力する。このように、近似最近傍探索を適用して特定の特徴種別ごとに検索された特徴種別類似コンテンツに対して、さらに距離に基づいて類似度計算を行うことで、さらに検索精度を向上することができる。また、検索対象コンテンツの数が多い場合でも、特徴種別類似コンテンツが検索された段階でコンテンツの数が絞り込まれているため、特徴種別類似コンテンツに対して距離に基づく類似度計算を適用しても、高速に検索を行うことができる。
また、本発明のコンテンツ検索装置において、近似最近傍探索は、Locality Sensitive Hashingであることが好ましい。
この発明によれば、類似検索においてLocality Sensitive Hashingを適用することで、特徴ベクトルが高次元ベクトルであっても高速に検索することができる。また、特定の特徴種別ごとに分解した特徴ベクトルに対してLocality Sensitive Hashingにおけるハッシュ化を行うため、当該特定の特徴種別が検索における計算対象から漏れることなく、検索結果に確実に反映され、高精度な検索を行うことができる。
本発明によれば、類似コンテンツの検索を高精度かつ高速に行うことができる。
本実施形態のコンテンツ検索装置を含むシステム構成を示す構成図である。 本実施形態のコンテンツ検索装置のハードウェア構成図である。 本実施形態の検索対象コンテンツ及び特徴辞書を示す図である。 本実施形態の検索対象コンテンツの特徴ベクトルを示す図である。 本実施形態の特徴種別ごとに分解された検索対象コンテンツの特徴ベクトルを示す図である。 本実施形態における特徴種別類似コンテンツを検索する手順を示す図である(その1)。 本実施形態における特徴種別類似コンテンツを検索する手順を示す図である(その2)。 本実施形態における特徴種別類似コンテンツを検索する手順を示す図である(その3)。 本実施形態における特徴種別類似コンテンツを検索する手順を示す図である(その4)。 本実施形態における特徴種別類似コンテンツを検索する手順を示す図である(その5)。 本実施形態における類似コンテンツを検索する手順を示す図である。 本実施形態のコンテンツ検索装置の処理を示すフローチャート図である。
以降、添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
図1は、本実施形態のコンテンツ検索装置1を含むシステム構成を示す構成図である。図1に示される通り、コンテンツ検索装置1は、携帯端末2から公衆通信網3を介して接続される。携帯端末2は、例えば、携帯電話、及びPDA(Personal Digital Assistant)等である。また、図1に示されるコンテンツ検索装置1の機能ブロックの通り、このコンテンツ検索装置1は、機能構成として、取得部11(取得手段)、特徴ベクトル抽出部12(特徴ベクトル抽出手段)、特徴ベクトル分解部13(特徴ベクトル分解手段)、特徴種別検索部14(特徴種別検索手段)、類似コンテンツ検索部15(類似コンテンツ検索手段)及び出力部16(出力手段)を含んで構成されている。
このコンテンツ検索装置1は、CPU等のハードウェアから構成されているものである。図2は、コンテンツ検索装置1のハードウェア構成図である。図1に示されるコンテンツ検索装置1は、物理的には、図2に示すように、CPU41、主記憶装置であるRAM42及びROM43、入力デバイスであるテンキー等の入力装置44、ディスプレイ等の出力装置45、データ送受信デバイスである通信モジュール46、及びハードディスク等の補助記憶装置47等を含むコンピュータシステムとして構成されている。図1に示す各機能ブロックの機能は、図2に示すCPU41、RAM42等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU41の制御のもとで入力装置44、出力装置45、通信モジュール46を動作させるとともに、RAM42や補助記憶装置47におけるデータの読み出し及び書き込みを行うことで実現される。
以下、図1に示すコンテンツ検索装置1の機能ブロックに基づいて、コンテンツ検索装置1の各機能ブロックを説明する。
コンテンツ検索装置1は、クエリ情報と類似する類似コンテンツを複数の検索対象コンテンツから検索する装置である。クエリ情報とは、検索する際のクエリとなる情報である。また、検索対象コンテンツとは、検索する際の検索対象となるコンテンツである。例えば、コンテンツ検索装置1が動画検索システムであり、コンテンツ検索装置1が、ユーザが携帯端末2で閲覧中の動画ファイルと内容が類似した(動画ファイルに紐付く、キーワードを含むタグの内容同士が類似した)動画ファイルをコンテンツ検索装置1内に格納された複数の動画ファイルから検索して携帯端末2に提供する場合、クエリ情報は閲覧中の動画ファイルであり、検索対象コンテンツは格納された動画ファイルである。
コンテンツ検索装置1の実施形態は動画検索システムに限るものではない。例えば、コンテンツ検索装置1はWEBサイト検索システムであってもよい。その場合、コンテンツ検索装置1が、携帯端末2からクエリ情報であるキーワードテキストを取得し、コンテンツ検索装置1が予めWWW(World Wide Web)より収集した検索対象コンテンツである複数のWEBサイトから、キーワードテキストそのもの、あるいはキーワードテキストと類似するテキストをその内容に含むWEBサイトを検索し、携帯端末2に提供する。
取得部11は、クエリ情報と複数の検索対象コンテンツとを取得する。クエリ情報と検索対象コンテンツとの取得元は限定されない。例えば、取得部11は、通信モジュール46を介して携帯端末2からクエリ情報を取得し、予め補助記憶装置47に格納された検索対象コンテンツを取得してもよい。取得部11は、取得したクエリ情報と複数の検索対象コンテンツとを補助記憶装置47に格納してもよいし、RAM42のような一時的な記憶領域に格納してもよい。
特徴ベクトル抽出部12は、取得部11によって取得されたクエリ情報から当該クエリ情報の特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出する。また、特徴ベクトル抽出部12は、取得部11によって取得された検索対象コンテンツから当該検索対象コンテンツの特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出する。特徴種別とは、情報やコンテンツ等の特徴の種別である。図3(a)は、検索対象コンテンツの例を示す図である。図3(a)に示す検索対象コンテンツでは、3つの検索対象コンテンツが含まれており、表の各行が1つの検索対象コンテンツを表し、それぞれのコンテンツIDは上から順にC1、C2及びC3である。図3(a)に示す検索対象コンテンツは、エンターテイメント業界におけるコンテンツであり、表の内容がコンテンツの特徴であり、表の見出し行に含まれる“カテゴリ”、“出演者”及び“説明文”がそれぞれ特徴種別である。
続いて、特徴ベクトル抽出部12が、図3(b)に示す特徴辞書を利用して、図3(a)に示す検索対象コンテンツから当該検索対象コンテンツの特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出する手順を説明する。特徴辞書では、抽出する特徴ベクトルの要素である特徴量を算出する際に必要となる主特徴を定義する。主特徴にマッチングする内容が、特徴ベクトルの抽出対象である情報またはコンテンツ等に含まれる頻度等に基づいて特徴量が算出される。図3(b)に示す特徴辞書において、“主特徴ID”は主特徴のIDを示し、“特徴種別”は主特徴の特徴種別を示し、“主特徴名”は主特徴である単語名を示す。本実施形態においては、検索対象コンテンツ内の“主特徴名”の単語の出現回数を特徴量とする。
まず、特徴ベクトル抽出部12が、図3(a)においてコンテンツIDがC1の検索対象コンテンツ(以降“検索対象コンテンツC1”と表記する。他の検索対象コンテンツも同様に表記する)から正規化前特徴ベクトルを抽出する手順を説明する。特徴辞書において、主特徴IDがF1の主特徴(以降“主特徴F1”と表記する。他の主特徴も同様に表記する)は、特徴種別が“カテゴリ”、主特徴名が“音楽”である。検索対象コンテンツC1の特徴種別が“カテゴリ”である内容には、“音楽”という単語は含まれていないので、特徴ベクトル抽出部12は、検索対象コンテンツC1の主特徴F1の特徴量を0とする。次に、主特徴F2において、検索対象コンテンツC1の特徴種別が“カテゴリ”である内容には、“アイドル”という単語が1つ含まれているので、特徴ベクトル抽出部12は、検索対象コンテンツC1の主特徴F2の特徴量を1とする。特徴ベクトル抽出部12は、残りの各主特徴の特徴量を同様に算出し、検索対象コンテンツC1の主特徴F3の特徴量を1、主特徴F4の特徴量を0、主特徴F5の特徴量を0、主特徴F6の特徴量を1とする。このようにして、特徴ベクトル抽出部12は、検索対象コンテンツC1と主特徴F1〜F6より、正規化前特徴ベクトル(0,1,1,0,0,1)を抽出する。
同様にして、特徴ベクトル抽出部12は、検索対象コンテンツC2と主特徴F1〜F6より、正規化前特徴ベクトル(1,0,0,0,1,0)を抽出し、検索対象コンテンツC3と主特徴F1〜F6より、正規化前特徴ベクトル(1,0,0,1,1,0)を抽出する。このように、特徴ベクトル抽出部12が、図3(a)に示す検索対象コンテンツと図3(b)に示す特徴辞書とを利用して抽出した検索対象コンテンツC1〜C3のそれぞれの正規化前特徴ベクトルを図4(a)に示す。
続いて、特徴ベクトル抽出部12は、各検索対象コンテンツC1〜C3の正規化前特徴ベクトルを正規化する。正規化前特徴ベクトルの正規化は、特徴ベクトルに含まれる各主特徴の特徴量を、各主特徴の特徴量の2乗の和の平方根で割ることで行う。例えば、検索対象コンテンツC1の正規化前特徴ベクトルの正規化において、主特徴F1〜F6の特徴量の2乗の和の平方根は(0+1+1+0+0+11/2=1.73であり(小数点以下3位は切り捨て。以下同様)、1/1.73=0.57であるため、特徴ベクトル抽出部12により正規化された正規化前特徴ベクトルである特徴ベクトルは(0,0.57,0.57,0,0,0.57)となる。特徴ベクトル抽出部12は、同様の計算により、検索対象コンテンツC1及びC2の正規化された特徴ベクトルをそれぞれ(0.70,0,0,0,0.70,0)及び(0.57,0,0,0.57,0.57,0)と抽出する。
図4(b)は、特徴ベクトル抽出部12によって抽出された検索対象コンテンツC1〜C3の正規化された特徴ベクトルを示す。なお、図4(a)及び(b)に示す通り、各特徴ベクトルは、検索対象コンテンツの特徴種別である“カテゴリ”、“説明文”及び“出演者”の特徴量を要素に含んでいる。
図3及び図4を利用して、検索対象コンテンツから当該検索対象コンテンツの特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出する手順を説明したが、クエリ情報から当該クエリ情報の特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出する手順も同様のため、説明を省略する。なお、特徴ベクトル抽出部12は、正規化を省略し、正規化前特徴ベクトルを特徴ベクトルとして抽出してもよい。
特徴ベクトル分解部13は、特徴ベクトル抽出部12によって抽出されたクエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとを、特定の特徴種別ごとに分解する。
特徴ベクトル分解部13が、図4(b)に示す検索対象コンテンツC1〜C3の特徴ベクトルを、特徴種別“カテゴリ”、“説明文”及び“出演者”ごとに分解したものを図5に示す。図5(a)は、検索対象コンテンツC1〜C3の特徴ベクトルを、特徴種別“カテゴリ”に分解したもの、図5(b)は、特徴種別“説明文”に分解したもの、図5(c)は、特徴種別“出演者”に分解したものを示す。
特徴種別検索部14は、特徴ベクトル分解部13によって特定の特徴種別ごとに分解されたクエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとの間で近似最近傍探索を適用して、特定の特徴種別ごとにクエリ情報と類似する検索対象コンテンツを特徴種別類似コンテンツとして検索する。近似最近傍探索は、非特許文献1で開示されているLocality Sensitive Hashingであってもよい。
特徴種別検索部14は、図5(a)に示す、特徴種別“カテゴリ”に分解された検索対象コンテンツC1〜C3の特徴ベクトルと、同様にして特徴種別“カテゴリ”に分解されたクエリ情報の特徴ベクトルとの間で近似最近傍探索を適用して、特徴種別“カテゴリ”における特徴種別類似コンテンツを抽出する。同様に、特徴種別検索部14は、特徴種別“説明文”及び特徴種別“出演者”における特徴種別類似コンテンツを抽出する。
以降、図6〜図9を用いて、特徴種別検索部14によるLocality Sensitive Hashingを適用した類似検索の具体例を説明する。なお、以降の説明で用いる特徴ベクトルは、説明の便宜上、図5に示す特徴量を含む特徴ベクトルを用いず、簡略化した値を特徴量として含む特徴ベクトルを用いる。
本実施形態では、特徴種別検索部14は、Locality Sensitive Hashingにより、クエリ情報iと類似する類似コンテンツをn個の検索対象コンテンツi〜i(クエリ情報iを含む)から検索する。図6(a)はm個の特徴量である要素から構成される特徴ベクトルにより表現されるn個の検索対象コンテンツi〜iを示す。例えば、検索対象コンテンツiは、V〜V列によって示される(1,0,0,1,1,1)の特徴ベクトルにより表現される。
まず、特徴種別検索部14は、図6(b)に示すように、m個の特徴量である要素から構成される特徴ベクトルにより表現されるk個のダミーコンテンツd〜dを作成する。ダミーコンテンツの特徴ベクトルの要素である特徴量はランダムに生成する。なお、検索対象コンテンツi〜iとダミーコンテンツd〜dとの特徴ベクトルの要素である特徴量は、本実施形態に示すような2ビット値に限定されず、任意の値をとってもよい。
次に、特徴種別検索部14は、検索対象コンテンツi〜iとダミーコンテンツd〜dとの特徴ベクトルの類似度に基づき、図6(c)に示すハッシュ表を作成する。具体的には、特徴種別検索部14は、検索対象コンテンツiとダミーコンテンツdとの特徴ベクトルの類似度を、例えば、両特徴ベクトルの内積の値が、所定の値未満の場合は類似していないとして0を、所定の値以上の場合は類似しているとして1を、ハッシュ表のi行h列に出力する。同様に、特徴種別検索部14は、検索対象コンテンツiとダミーコンテンツdとの特徴ベクトルの類似度をハッシュ表のi行h列に出力し、最終的に検索対象コンテンツiとダミーコンテンツdとの特徴ベクトルの類似度をハッシュ表のi行h列に出力する。
同様に、特徴種別検索部14は、検索対象コンテンツi〜iとダミーコンテンツdとの特徴ベクトルの類似度をハッシュ表のi〜i行h列に出力する。同様にして、特徴種別検索部14は、最終的に、検索対象コンテンツi〜iとダミーコンテンツdとの特徴ベクトルの類似度をハッシュ表のi〜i行h列に出力する。以上により、図6(c)に示すハッシュ表が完成する。以降、図6(c)に示すハッシュ表の各行であるi〜iを、それぞれハッシュ化検索対象コンテンツと呼ぶ。
次に、特徴種別検索部14は、ハッシュ表の各行を辞書順にソートする。例えば、特徴種別検索部14は、図7(a)に示すハッシュ表の各行を辞書順にソートすることで、図7(b)に示すソート済みのハッシュ表を生成する。図7(b)に示すソート済みのハッシュ表では、ベクトル(0,0,0)を示すハッシュ化検索対象コンテンツiがハッシュ表の先頭に移動し、ベクトル(1,1,1)を示すハッシュ化検索対象コンテンツiがハッシュ表の末尾に移動している。このソート済みの状態が、隣り合う行のハッシュ化検索対象コンテンツに対応する検索対象コンテンツが似ている、あるいは似ている可能性が高い状態となる。
次に、特徴種別検索部14は、ソート済みのハッシュ表の各行に対応する検索対象コンテンツi〜iのうち、クエリ情報iと類似しているコンテンツを抽出する。具体的には、特徴種別検索部14は、ソート済みのハッシュ表の検索対象コンテンツiの近くの行に位置するコンテンツを抽出する。例えば、図8(b)に示すソート済みのハッシュ表のうち、図8(a)に示すクエリ情報iと類似しているコンテンツとして、図8(b)の検索対象コンテンツiの近くの行に位置する検索対象コンテンツi、i、i及びiを抽出する。
次に、特徴種別検索部14は、以下の動作をj回繰り返す。すなわち、図6(c)に示すハッシュ表の列をシャッフルし、当該シャッフル済みのハッシュ表の各行を辞書順にソートし、当該ソート済みのハッシュ表の各行に対応する検索対象コンテンツi〜iのうち、クエリ情報iと類似しているコンテンツを抽出する。図9はこの動作の各繰り返し内容の例を示している。図9(a)は、図6(c)に示すハッシュ表と同じハッシュ表を示す。図9(b)は、図9(a)に示すハッシュ表の列をシャッフルした後のシャッフル済みのハッシュ表を示す。図9(a)に示すハッシュ表の1列目が図9(b)に示すハッシュ表の3列目に移動し、2列目が1列目に移動し、3列目が2列目に移動している。図9(c)は、図9(b)に示すシャッフル済みのハッシュ表の各行を辞書順にソートしたソート済みのハッシュ表を示している。
図10(a)は、特徴種別検索部14が上記動作をj回繰り返した際の、各回で抽出した、クエリ情報iと類似しているコンテンツを示している。特徴種別検索部14は、j回の繰り返し動作の中における抽出したコンテンツの抽出頻度順に、コンテンツを並べ替える。図10(b)は、特徴種別検索部14が、図10(a)のコンテンツを抽出頻度順に並べ替えたものである。例えば、検索対象コンテンツiは図10(a)の中で最多の3回抽出されているので、特徴種別検索部14は、検索対象コンテンツiを図10(b)の抽出頻度順のコンテンツの先頭に配置する。次に、特徴種別検索部14は、図10(b)の抽出頻度順のコンテンツのうち、先頭から所定の数のコンテンツを、特徴種別類似コンテンツとして抽出する。
このように、特徴種別検索部14は、j回の繰り返し動作の中で抽出された抽出頻度の高いコンテンツを特徴種別類似コンテンツとして抽出することで、高精度な検索を行うことができる。
類似コンテンツ検索部15は、取得部11によって取得されたクエリ情報の特徴ベクトルと、特徴種別検索部14によって検索された特徴種別類似コンテンツの特徴ベクトルとの間で距離に基づく類似度計算を適用して、クエリ情報と類似する特徴種別類似コンテンツを類似コンテンツとして検索する。距離に基づく類似度計算は、コサイン類似度に基づく計算であってもよい。類似コンテンツ検索部15は、コサイン類似度に基づく計算を適用することで、高精度な検索を行うことができる。
図11(a)は、特徴種別検索部14によって検索された、特定の特徴種別である“カテゴリ”、“説明文”及び“出演者”ごとの特徴種別類似コンテンツを示している。類似コンテンツ検索部15は、図11(a)における各特徴種別類似コンテンツの抽出頻度順に、図11(b)に示すように特徴種別類似コンテンツを並べ替える。例えば、特徴種別類似コンテンツi及びiは図11(a)の中で最多の3回抽出されているので、類似コンテンツ検索部15は、特徴種別類似コンテンツi及びiを図11(b)の抽出頻度順の特徴種別類似コンテンツの先頭に配置する。類似コンテンツ検索部15は、抽出頻度順の特徴種別類似コンテンツのうち、先頭から所定の数の特徴種別類似コンテンツを抽出する。例えば、類似コンテンツ検索部15は、図11(b)の特徴種別類似コンテンツのうち、上位9個分の特徴種別コンテンツを抽出する。抽出後の特徴種別コンテンツを図11(c)に示す。
次に、類似コンテンツ検索部15は、取得部11によって取得されたクエリ情報iの特徴ベクトルと、図11(c)に示す特徴種別類似コンテンツの特徴ベクトルとの間でコサイン類似度に基づく検索を適用して、類似コンテンツを検索する。一般的に、クエリ情報の特徴ベクトルをx、特徴種別類似コンテンツをxとした際、両特徴ベクトルのコサイン類似度は、xとxとの内積を、xの長さとxの長さとの積で割った値となる。式で表すと(x・x)/(|x||x|)である。類似コンテンツ検索部15は、コサイン類似度が高い順に特徴種別類似コンテンツを並べ、これらのうち先頭から所定の数の特徴種別類似コンテンツを類似コンテンツとして検索する。類似コンテンツ検索部15が検索した類似コンテンツを図11(d)に示す。
出力部16は、類似コンテンツ検索部15によって検索された類似コンテンツを出力する。出力先は限定されない。例えば、出力部16は、通信モジュール46を介して携帯端末2に類似コンテンツを出力してもよい。また、例えば、出力部16は、出力装置45に類似コンテンツを出力してもよい。また、例えば、出力部16は、補助記憶装置47に類似コンテンツを出力(格納)してもよい。
次に、このように構成されたコンテンツ検索装置1の処理について説明する。図12は、コンテンツ検索装置1の処理を示すフローチャートである。まず、取得部11が、クエリ情報と複数の検索対象コンテンツとを取得する(S31、取得ステップ)。次に、特徴ベクトル抽出部12が、クエリ情報から当該クエリ情報の特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出し、検索対象コンテンツから当該検索対象コンテンツの特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出する(S32、特徴ベクトル抽出ステップ)。
次に、特徴ベクトル分解部13が、クエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとを、特定の特徴種別ごとに分解する(S33、特徴ベクトル分解ステップ)。次に、特徴種別検索部14が、特定の特徴種別ごとに分解されたクエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとの間で近似最近傍探索を適用して、特定の特徴種別ごとにクエリ情報と類似する検索対象コンテンツを特徴種別類似コンテンツとして検索する(S34、特徴種別検索ステップ)。次に、類似コンテンツ検索部15が、クエリ情報の特徴ベクトルと、特徴種別類似コンテンツの特徴ベクトルとの間で距離に基づく類似度計算を適用して、クエリ情報と類似する特徴種別類似コンテンツを類似コンテンツとして検索する(S35、類似コンテンツ検索ステップ)。次に、出力部16が、類似コンテンツを出力する(S36、出力ステップ)。
上記の実施形態では、クエリ情報と検索対象コンテンツとの取得、分解及び検索などを同時に行うように説明したが、これに限るものではない。より具体的には、取得部11、特徴ベクトル抽出部12、特徴ベクトル分解部13及び特徴種別検索部14は、クエリ情報と検索対象コンテンツとの処理を同時に行わなくてもよい。例えば、取得部11は、クエリ情報と複数の検索対象コンテンツとをそれぞれ別々のタイミングで取得してもよい。また、例えば、特徴ベクトル抽出部12は、クエリ情報と複数の検索対象コンテンツとの特徴ベクトルをそれぞれ別々のタイミングで抽出してもよい。また、例えば、特徴ベクトル分解部13は、クエリ情報と複数の検索対象コンテンツとの特徴ベクトルを、それぞれ別々のタイミングで特定の特徴種別ごとに分解してもよい。また、例えば、特徴種別検索部14は、検索対象コンテンツに対して、検索における計算においてクエリ情報がない状態でも計算できる部分を予め計算しておいてよい。
また、上記の実施形態では、コンテンツ検索装置1と携帯端末2とが接続されたシステムとして説明したが、これに限るものではない。例えば、携帯端末2の代わりにPCや外部システムが接続されていてもよい。また、例えば、他のシステムと接続されずに、コンテンツ検索装置1が単体で動作してもよい。
次に、このように構成されたコンテンツ検索装置1の作用効果について説明する。クエリ情報と類似する類似コンテンツを複数の検索対象コンテンツから検索するコンテンツ検索装置1において、特徴ベクトル抽出部12により、取得したクエリ情報の特徴種別ごとの特徴量を要素に含む特徴ベクトルと、取得した検索対象コンテンツの特徴種別ごとの特徴量を要素に含む特徴ベクトルとを抽出し、特徴ベクトル分解部13により、抽出したそれぞれの特徴ベクトルを特定の特徴種別ごとに分解する。そして、特徴種別検索部14により、特定の特徴種別ごとに分解したクエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとの間で近似最近傍探索を適用して、特定の特徴種別ごとにクエリ情報と類似する検索対象コンテンツを特徴種別類似コンテンツとして検索する。このように、特徴ベクトルを特定の特徴種別ごとに分解して検索を行うことで、当該特定の特徴種別が検索における計算対象から漏れることなく、検索結果に確実に反映され、高精度な検索を行うことができる。また、検索方法として近似最近傍探索を適用することで、検索対象コンテンツの数が多い場合でも高速な検索を行うことができる。
続いて、類似コンテンツ検索部15により、取得したクエリ情報の特徴ベクトルと、検索した特徴種別類似コンテンツの特徴ベクトルとの間で距離に基づく類似度計算を適用して、クエリ情報と類似する特徴種別類似コンテンツを類似コンテンツとして検索し、出力部16により、類似コンテンツを出力する。このように、近似最近傍探索を適用して特定の特徴種別ごとに検索された特徴種別類似コンテンツに対して、さらに距離に基づいて類似度計算を行うことで、さらに検索精度を向上することができる。また、当初の検索対象コンテンツの数が多い場合でも、特徴種別類似コンテンツが検索された段階でコンテンツの数が絞り込まれているため、例えば、厳密に全コンテンツのペアにおける類似度を計算する距離に基づく類似度計算を適用しても、高速に検索を行うことができる。
また、類似検索においてLocality Sensitive Hashingを適用することで、特徴ベクトルが高次元ベクトルであっても高速に検索することができる。また、特定の特徴種別ごとに分解した特徴ベクトルに対してLocality Sensitive Hashingにおけるハッシュ化を行うため、当該特定の特徴種別が検索における計算対象から漏れることなく、検索結果に確実に反映され、高精度な検索を行うことができる。
1…コンテンツ検索装置、2…携帯端末、11…取得部、12…特徴ベクトル抽出部、13…特徴ベクトル分解部、14…特徴種別検索部、15…類似コンテンツ検索部、16…出力部。

Claims (3)

  1. クエリ情報と類似する類似コンテンツを複数の検索対象コンテンツから検索するコンテンツ検索装置であって、
    クエリ情報と複数の検索対象コンテンツとを取得する取得手段と、
    前記取得手段によって取得されたクエリ情報から当該クエリ情報の特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出し、前記取得手段によって取得された検索対象コンテンツから当該検索対象コンテンツの特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出する特徴ベクトル抽出手段と、
    前記特徴ベクトル抽出手段によって抽出されたクエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとを、特定の特徴種別ごとに分解する特徴ベクトル分解手段と、
    前記特徴ベクトル分解手段によって特定の特徴種別ごとに分解されたクエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとの間で近似最近傍探索を適用して、特定の特徴種別ごとにクエリ情報と類似する検索対象コンテンツを特徴種別類似コンテンツとして検索する特徴種別検索手段と、
    前記取得手段によって取得されたクエリ情報の特徴ベクトルと、前記特徴種別検索手段によって検索された特徴種別類似コンテンツの特徴ベクトルとの間で距離に基づく類似度計算を適用して、クエリ情報と類似する特徴種別類似コンテンツを類似コンテンツとして検索する類似コンテンツ検索手段と、
    前記類似コンテンツ検索手段によって検索された類似コンテンツを出力する出力手段と、
    を備えることを特徴とするコンテンツ検索装置。
  2. 前記近似最近傍探索は、Locality Sensitive Hashingである、
    ことを特徴とする請求項1に記載のコンテンツ検索装置。
  3. クエリ情報と類似する類似コンテンツを複数の検索対象コンテンツから検索するコンテンツ検索装置により実行されるコンテンツ検索方法であって、
    前記コンテンツ検索装置が、クエリ情報と複数の検索対象コンテンツとを取得する取得ステップと、
    前記コンテンツ検索装置が、前記取得ステップにおいて取得されたクエリ情報から当該クエリ情報の特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出し、前記取得ステップにおいて取得された検索対象コンテンツから当該検索対象コンテンツの特徴種別ごとの特徴量を要素に含む特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
    前記コンテンツ検索装置が、前記特徴ベクトル抽出ステップにおいて抽出されたクエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとを、特定の特徴種別ごとに分解する特徴ベクトル分解ステップと、
    前記コンテンツ検索装置が、前記特徴ベクトル分解ステップにおいて特定の特徴種別ごとに分解されたクエリ情報の特徴ベクトルと検索対象コンテンツの特徴ベクトルとの間で近似最近傍探索を適用して、特定の特徴種別ごとにクエリ情報と類似する検索対象コンテンツを特徴種別類似コンテンツとして検索する特徴種別検索ステップと、
    前記コンテンツ検索装置が、前記取得ステップにおいて取得されたクエリ情報の特徴ベクトルと、前記特徴種別検索ステップにおいて検索された特徴種別類似コンテンツの特徴ベクトルとの間で距離に基づく類似度計算を適用して、クエリ情報と類似する特徴種別類似コンテンツを類似コンテンツとして検索する類似コンテンツ検索ステップと、
    前記コンテンツ検索装置が、前記類似コンテンツ検索ステップにおいて検索された類似コンテンツを出力する出力ステップと、
    を含むことを特徴とするコンテンツ検索方法。
JP2010221458A 2010-09-30 2010-09-30 コンテンツ検索装置及びコンテンツ検索方法 Pending JP2012078930A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010221458A JP2012078930A (ja) 2010-09-30 2010-09-30 コンテンツ検索装置及びコンテンツ検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010221458A JP2012078930A (ja) 2010-09-30 2010-09-30 コンテンツ検索装置及びコンテンツ検索方法

Publications (1)

Publication Number Publication Date
JP2012078930A true JP2012078930A (ja) 2012-04-19

Family

ID=46239143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010221458A Pending JP2012078930A (ja) 2010-09-30 2010-09-30 コンテンツ検索装置及びコンテンツ検索方法

Country Status (1)

Country Link
JP (1) JP2012078930A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014142808A (ja) * 2013-01-24 2014-08-07 Nippon Telegr & Teleph Corp <Ntt> アドレス解決システム及び方法
CN117251641A (zh) * 2023-11-20 2023-12-19 上海爱可生信息技术股份有限公司 向量数据库检索方法、***、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010989A (ja) * 1998-06-19 2000-01-14 Nippon Telegr & Teleph Corp <Ntt> 類似オブジェクト検索方法、装置、および類似オブジェクト検索プログラムを記録した記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010989A (ja) * 1998-06-19 2000-01-14 Nippon Telegr & Teleph Corp <Ntt> 類似オブジェクト検索方法、装置、および類似オブジェクト検索プログラムを記録した記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG201000538083; 多田匡志、外3名: '近さの多段階表現に基づく近似最近傍探索の一般的な分布への拡張' 第2回データ工学と情報マネジメントに関するフォーラム-DEIM 2010-論文集 [online] , 20100609, 電子情報通信学会データ工学研究専門委員会 *
JPN6013052437; 多田匡志、外3名: '近さの多段階表現に基づく近似最近傍探索の一般的な分布への拡張' 第2回データ工学と情報マネジメントに関するフォーラム-DEIM 2010-論文集 [online] , 20100609, 電子情報通信学会データ工学研究専門委員会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014142808A (ja) * 2013-01-24 2014-08-07 Nippon Telegr & Teleph Corp <Ntt> アドレス解決システム及び方法
CN117251641A (zh) * 2023-11-20 2023-12-19 上海爱可生信息技术股份有限公司 向量数据库检索方法、***、电子设备及存储介质

Similar Documents

Publication Publication Date Title
EP3752930B1 (en) Random draw forest index structure for searching large scale unstructured data
JP2010067175A (ja) ハイブリッド型コンテンツ推薦サーバ、推薦システムおよび推薦方法
US11106708B2 (en) Layered locality sensitive hashing (LSH) partition indexing for big data applications
JP2008520122A (ja) 削減されたテキスト入力を用いてテレビジョンコンテンツの検索を行うための方法およびシステム
CN102819592B (zh) 一种基于Lucene的桌面搜索***及方法
US20140122509A1 (en) System, method, and computer program product for performing a string search
WO2020056977A1 (zh) 知识点推送方法、装置及计算机可读存储介质
US20190087453A1 (en) Data search system, data search method, and program product
RU2568276C2 (ru) Способ извлечения полезного контента из установочных файлов мобильных приложений для дальнейшей машинной обработки данных, в частности поиска
CN109408777A (zh) 基于快速浏览的文档处理方法、装置和文档服务器
CN111143400B (zh) 一种全栈式检索方法、***、引擎及电子设备
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
US20070294211A1 (en) Apparatus and method for browsing contents
JP5366212B2 (ja) 多数の参照用映像の中から検索キー用映像を用いて検索する映像検索装置、プログラム及び方法
JP2013041385A (ja) 文献検索方法、文献検索装置及び文献検索プログラム
Ilic et al. Inverted index search in data mining
CN113934869A (zh) 一种数据库构建方法、多媒体文件的检索方法及装置
CN113254665A (zh) 一种知识图谱扩充方法、装置、电子设备及存储介质
US20140358522A1 (en) Information search apparatus and information search method
JP2012078930A (ja) コンテンツ検索装置及びコンテンツ検索方法
CN105426490A (zh) 一种基于树形结构的索引方法
CN111597379B (zh) 音频搜索方法、装置、计算机设备和计算机可读存储介质
KR102062139B1 (ko) 지능형 자료구조 기반의 데이터 처리 방법 및 그를 위한 장치
JP2000322416A (ja) 文書検索装置
Tischler Low space external memory construction of the succinct permuted longest common prefix array

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131022

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140304