JP2004213626A

JP2004213626A - 情報の格納及び検索

Info

Publication number: JP2004213626A
Application number: JP2003398038A
Authority: JP
Inventors: David William Trepess; トレペス、デヴィッド　ウィリアム; Jonathan Richard Thorpe; ソープ、ジョナサン　リチャード
Original assignee: Sony United Kingdom Ltd
Current assignee: Sony Europe BV United Kingdom Branch
Priority date: 2002-11-27
Filing date: 2003-11-27
Publication date: 2004-07-29
Also published as: GB0227658D0; JP2008276768A; EP1426881A2; GB2395805A; US7668853B2; EP1426881A3; US20040139105A1

Abstract

【課題】検索結果情報をユーザにわかりやすく表示し、検索を支援する。
【解決手段】異なる性質の情報アイテムの組内の各情報アイテムが情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索装置は、情報アイテムを選択するための検索条件を定義するユーザ操作手段と、ノードのアレー内で、選択された情報アイテムに対応する位置を検出する検出手段と、選択された情報アイテムに対応するノードのアレー内の位置を代表する表示点を表示するグラフィックユーザインタフェースと、検索条件によって定義された選択された情報アイテムに応じて、選択された情報アイテムの情報コンテンツを代表する１以上の表現を提供するプロセッサとを備える。
【選択図】図７

Description

本発明は、情報の格納及び検索に関する。

キーワードに基づいて情報（例えば文書、画像、電子メール、特許情報、例えばオーディオ／ビデオコンテンツ等のインターネットコンテンツやメディアコンテンツ等）を検索するための多くの方式が確立されている。この検索の具体例としては、「グーグル（Google：商標）」、「ヤフー（Yahoo：商標）」等から提供されるインターネット検索「エンジン」も含まれ、これらにおいては、キーワードに基づく検索が実行され、検索エンジンによって適合度の順にランク付けされた検索結果のリストが得られる。

しかしながら、多くの場合大量のコンテンツコレクション（massive content collection）と呼ばれる大量のコンテンツを含むシステムにおいては、比較的短い「ヒット」した結果のリストが得られる有効な検索クエリを定式化することは困難となることがある。例えば、本出願を準備している時点では、グーグルにおいて、キーワード「massive document collection」を用いた検索を行うと、ヒット数は、２４３０００件となる。インターネット全体に蓄積されているコンテンツの量は、通常、時間と共に増加すると考えられるので、後に同じ検索を行った場合には、このヒット数は更に増加すると予想される。このようなヒットリストに基づいて、ヒットした全てのコンテンツに目を通す（Reviewing）ことは、現実的には殆ど不可能な程に時間がかかる作業である。

大量のコンテンツコレクションを活用することが困難である理由は、一般的には、以下のようなものがある。
・ユーザは、関連するコンテンツが存在することを知らない。
・ユーザは、関連するコンテンツが存在することを知っているが、そのコンテンツがどこにあるかを知らない。
・ユーザは、コンテンツが存在していることを知っているが、そのコンテンツが関連するコンテンツであることを知らない。
・ユーザは、関連するコンテンツが存在し、そのコンテンツを見つけ出す手法も知っているが、コンテンツを見つけ出すには時間がかかる。

「大量のドキュメントコレクションの自己組織化（Self Organisation of a Massive Document Collection）」、コホネン（Kohonen）他、ニューラルネットワークに関するＩＥＥＥトランザクション（IEEE Transactions on Neural Networks）、Ｖｏｌ１１、Ｎｏ．３、２０００年５月、５７４〜５８５頁には、所謂「自己組織化マップ（self-organising maps：以下、ＳＯＭという。）」を用いた技術が開示されている。ＳＯＭは、各ドキュメントのプロパティを表す「特徴ベクトル（feature vector）」をＳＯＭのノードにマッピングする、所謂教師なき自己学習ニューラルネットワークアルゴリズム（unsupervised self-learning neural network algorithm）を利用する。

コホネン他の論文に開示されている手法では、まず、文書テキストを前処理し、前処理された各文書から特徴ベクトルが導かれる。この特徴ベクトルは、大きな単語の辞書における各単語の出現頻度を示すヒストグラムの形式で表してもよい。ヒストグラム内の各データ値（すなわち、辞書中のそれぞれの単語の各出現頻度）は、辞書内の候補となる単語の総数（この論文に記述されている具体例では、４３２２２個）をｎとして、ｎ値のベクトルにおける値となる。例えば、ある単語の適合度を増加させ又は特異性を強調するために、ｎ個のベクトル値に重み付けを適用してもよい。

ｎ値のベクトルは、次元がより小さいベクトル（すなわちｎに比べてかなり小さな値の数ｍ（論文内の具体例では５００）の値を有するベクトル）にマッピングされる。これは、乱数配列により構成されるｎ×ｍの「プロジェクション行列（projection matrix）」をベクトルに乗算することによって実現される。この手法により、次元が小さくされたどの２つのベクトルをとっても、それぞれ対応する２つの入力ベクトルと略同じ内積を有する、次元がより小さいベクトルが生成される。このベクトルマッピング処理は、論文「ランダムマッピングによる次元縮退：クラスタリングのための高速類似性演算（Dimensionality Reduction by Random Mapping; Fast Similarity Computation for Clustering）」、カスキ（Kaski）、ＰｒｏｃＩＪＣＮＮ、４１３〜４１８頁、１９９８年に記載されている。

次元が低減されたベクトルは、各ベクトルを１つの「モデル（他のベクトル）」に乗算する処理によって、ＳＯＭ上のノード（ニューロンともいう）にマッピングされる。これらのモデルは、学習プロセスによって生成される。この学習プロセスでは、モデルを相互の類似性に基づいてＳＯＭ上に順序付けし、ＳＯＭは、通常、ノードの２次元グリッドとして表される。これは、膨大な演算を必要とする処理であり、コホネン他は、この処理のために、７００万の文書に満たない文書データベースに対して、８００ＭＢのメモリを有する６プロセッサのコンピュータで６週間を費やしている。最終的には、ＳＯＭを構成するノードのグリッドが表示され、ユーザはマップの領域をズームしてノードを選択することができ、これにより、ユーザインタフェースは、そのノードにリンクされた文書が含まれるインターネットページへのリンクを提供する。

コホネンの論文には、マップ内の情報を検索するためのガイダンスとなるラベルを用いる手法が開示されている。これらのラベルは、キーワードを選択することによって自動的に生成される。この手法は、ケー・ラグス（K.Lagus）及びエス・ラスキ（S.Laski）著、テキスト文書マップを特徴付けるキーワード選択法（Keyword selection method for characterising text document maps）、ＰｒｏｃＩＣＡＮＮ９９、ＮｉｎｔｈＩｎｔ．Ｃｏｎｆ．ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ｖｏｌ．１、１９９９年、ｐｐ．３７１〜３７６に開示されている。

本発明の一側面として、本発明は、ユーザによる検索に関係する情報アイテムの表現を提供し、これによりユーザを補助する。

本発明に係る情報検索装置は、異なる性質の情報アイテムの組内の各情報アイテムが情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索装置において、情報アイテムを選択するための検索条件を定義するユーザ操作手段と、ノードのアレー内で、選択された情報アイテムに対応する位置を検出する検出手段と、選択された情報アイテムに対応するノードのアレー内の位置を代表する表示点を表示するグラフィックユーザインタフェースと、検索条件によって定義された選択された情報アイテムに応じて、選択された情報アイテムの情報コンテンツを代表する１以上の表現を提供するプロセッサとを備える。

これにより、情報検索装置は、ユーザによって定義された検索に関連する表示点と、検索によって定義された情報アイテムを代表する表現の両方を表示し、ユーザを補助する。

一具体例においては、ユーザ操作手段は、情報アイテムの単語に関する検索を実行する検索手段を有し、検索手段及びグラフィックユーザインタフェースは、協働して、検索によって選択された情報アイテムに対応する表示点のみが表示されるように動作する。

一具体例においては、プロセッサは、表現又は各表現をユーザディスプレイに、表現が代表している情報アイテムに対応する表示点のラベルとして表示する。一具体例においては、ラベルは、単語又は単語の組である。

他の具体例においては、情報アイテムは、少なくとも画像アイテムに関連し、プロセッサは、検索条件によって定義された選択された情報アイテムの情報コンテンツを代表する１以上の画像を提供する。好ましくは、プロセッサは、画像アイテムの組から、所定の選択条件に基づいて、画像アイテムの組を代表する画像アイテムを選択する。更に、プロセッサは、画像アイテムの組における同じプロパティの平均に最も近いプロパティを有する画像アイテムを選択してもよい。選択された画像は、この画像によって代表される情報アイテムに対応する表示点のラベルとして適用できる。

グラフィックユーザインタフェースは、好ましくは、表示点の２次元表示アレーを表示する。但し、表示される表示アレーは、１次元表示アレーであっても、３次元表示アレーであってもよい。３次元表示アレーの第３の次元は、時間であってもよい。

また、本発明に係る情報検索方法は、異なる性質の情報アイテムの組内の各情報アイテムが情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索方法において、情報アイテムを選択するための検索条件を定義するステップと、ノードのアレー内で、選択された情報アイテムに対応する位置を検出するステップと、選択された情報アイテムに対応するノードのアレー内の位置を代表する表示点を表示するステップと、検索条件によって定義された選択された情報アイテムに応じて、選択された情報アイテムの情報コンテンツを代表する１以上の表現を提供するステップとを有する。

本発明の更なる側面及び特徴は、添付の請求の範囲において定義されている。

図１は、情報格納及び検索システム（information storage and retrieval system）を概略的に示す図であり、この情報格納及び検索システムは、汎用コンピュータ１０によって実現されており、汎用コンピュータ１０は、プログラム及びデータを格納するディスク記憶装置３０を含むプロセッサユニット２０と、イーサネット（Ethernet network）（登録商標）又はインターネット等のネットワーク５０に接続されたネットワークインタフェースカード４０と、例えば陰極線管等の表示装置６０と、キーボード７０及びマウス８０等のユーザ入力装置とを備える。このシステムは、プログラム制御の下に動作し、このプログラムは、ディスク記憶装置３０に格納され、及び、例えばネットワーク５０又はリムーバブルディスク（図示せず）から、若しくはディスク記憶装置３０にプレインストールされて提供される。

情報格納及び検索システムは、２つの通常の動作モードで動作する。第１のモードでは、第１の情報アイテム（例えば、テキスト情報アイテム）の組がディスク記憶装置３０に又はネットワーク５０を介して接続されたネットワークディスクドライブに集められ（assembled）、検索動作のために予めソートされるとともに、インデックスが付けられる。第２のモードの動作では、ソートされ、インデックスが付されたデータに対して実際の検索が行われる。

この具体例は、多くの種類の情報アイテムに適用できる。適用される情報アイテムとしては、以下に限定されるものではないが、例えば、特許情報、ビデオマテリアル、電子メール、プレゼンテーション、インターネットコンテンツ、放送コンテンツ、営業報告書、オーディオマテリアル、グラフィクス及びクリップアート、写真、これらの組合せ又は混合された情報等がある。ここでは、テキスト情報アイテム、又は少なくともテキストコンテンツを含む又は関連した情報について説明する。例えば、オーディオ及び／又はビデオマテリアル等の放送コンテンツは、そのマテリアルをテキスト用語（textual terms）で定義する関連したメタデータを有することができる。テキスト情報アイテムは、非テキスト情報アイテムに関連付けられ、又はリンクされていてもよい。例えば、オーディオ及び／又はビデオマテリアルは、そのマテリアルを言葉により定義するテキスト情報であり「メタデータ」に関連付けられていてもよい。

情報アイテムは、従来の方法でディスク記憶装置３０にロードされる。好ましくは、情報アイテムは、アイテムに索引を付けてより容易に検索できるようにデータベース構造の一部として格納されるが、このことは必ずしも必要なわけではない。情報及びアイテムが一旦格納されると、検索のために格納された情報を整理する、図２に示す処理が行われる。

なお、インデックスが付されたデータは、必ずしもローカルのディスクドライブであるディスク記憶装置３０に格納する必要はない。情報アイテムは、ネットワーク５０を介して汎用コンピュータ１０に接続されたリモートのドライブに格納することもできる。これに代えて、情報は、分散方式で、例えばインターネット全域の様々サイトに格納することもできる。情報が異なるインターネットサイト又はネットワークサイトに格納されている場合、リモートの情報への「リンク」（例えば、汎用リソース識別子：universal resource identifier：ＵＲＩ）を、例えば関連した要約（summary）、概要（abstract）、又はこのリンク関するメタデータと共に格納する第２のレベルの情報格納を用いることができる。リモートに格納された情報は、ユーザが（例えば、後述する結果リスト２６０から）関連するリンクを選択しない限り、アクセスされないが、以下に記述する技術的な説明においては、リモートに格納された情報、又は要約、概要、メタデータ、若しくはリンク／ＵＲＩも「情報アイテム」とみなすことができる。

換言すると、「情報アイテム」とは、（後述のように）特徴ベクトルを導出及び処理して、ＳＯＭへのマッピングを行うことができるアイテムと形式的に定義することができる。後述する結果リスト２６０内のデータは、（情報アイテムがローカルに格納され、容易に表示できる程に十分短い場合）ユーザが検索する実際の情報アイテム自体であってもよく、及び／又は、例えばメタデータ、ＵＲＩ、概要、キーワードのセット、代表的なキースタンプ画像等のうちの１つ以上である、情報アイテムを表現及び／又は指示するデータであってもよい。これは、必ずではないが、多くの場合、１組のアイテムを表すデータを一覧化する「リスト」動作に特有なものである。

更なる具体例においては、情報アイテムは、例えば研究チームや法律事務所等のネットワーク化されたワークグループ全体に格納してもよい。また、ハイブリッド法は、ローカルに格納された情報アイテム及び／又はローカルエリアネットワーク全体に格納された情報アイテム及び／又はワイドエリアネットワーク全体に格納された情報アイテムを含んでいてもよい。この場合、本発明に基づくシステムは、他者による類似した業績を検索するのに有用であり、例えば、後述するように、複数の国に亘る大規模な研究開発組織において、類似した研究業績をＳＯＭにおける類似した出力ノードにマッピングすることができる。または、新たなテレビジョン番組を企画する場合、本発明に基づく技術を用いて、類似するコンテンツを有する以前の番組を検索することにより、企画中の番組の独創性を確認することもできる。

図１に示すシステム１０は、インデックスが付された情報アイテムを用いる可能なシステムの一例にすぎない。初期の（インデックス付与）段階は、相当の演算能力を有するコンピュータ、可能性としては携帯型ではないコンピュータによって実行されるが、後の段階では、例えば、携帯情報端末（personal digital assistant：ＰＤＡ）（ディスプレイとユーザ入力装置とを備えた、通常片手で持てる程度の寸法のデータ処理装置を指す）、ラップトップコンピュータ等の携帯型コンピュータによって、情報のアクセスを実行してもよく、更に携帯電話、ビデオ編集装置、ビデオカメラ等の機器で行ってもよい。包括的に言えば、情報にアクセスする動作段階では、ディスプレイを有するあらゆる機器を用いることができる。

この処理は、特定の数の情報アイテムに対する処理に限定されるものではない。

情報アイテムの自己組織化マップ（ＳＯＭ）表現を生成する処理について、図２〜図６を用いて説明する。図２は、ＳＯＭマッピング処理の前に行われる、所謂「特徴抽出（feature extraction）」を説明するフローチャートである。

特徴抽出は、生のデータ（raw data）を抽象表現（abstract representation）に変換する処理である。そして、この抽象表現は、パターン分類、クラスタリング、認識等の処理に用いることができる。この処理により、所謂「特徴ベクトル」が生成される。特徴ベクトルは、文書内で使用される用語の頻度の抽象表現である。

特徴ベクトルを生成することにより、ビジュアライゼーション（visualisation）を形成する処理は、以下のステップを含む。
・用語の「文書データベース辞書（document database dictionary）」を作成する。
・「文書データベース辞書」に基づいて、個々の各文書について、「用語頻度ヒストグラム（term frequency histogram）」を作成する。
・ランダムマッピングを用いて、「用語頻度ヒストグラム」の次元を低減する。
・情報空間の２次元ビジュアライゼーションを作成する。

以下、これらのステップをより詳細に説明する。各文書（情報アイテム）１００は、順番に開かれる。ステップ１１０において、文書から全ての「ストップワード（stop word）」を取り除く。ストップワードとは、例えば「ａ」、「ｔｈｅ」、「ｈｏｗｅｖｅｒ」、「ａｂｏｕｔ」、「ａｎｄ」等、予め準備されたリストに挙げられている極めてありふれた単語である。これらの単語は、極めてありふれており、平均的に、十分な長さを有するあらゆる文書において、同様の頻度で出現する可能性が高い。したがって、これらの単語は、特定の文書のコンテンツを特徴付ける目的には殆ど貢献せず、このため、これらのストップワードを削除する。

ストップワードを削除した後、ステップ１２０において、残っている単語の語幹を調べる。これは、単語の活用形に対する共通の原形を見出す処理を含む。例えば「ｔｈｒｏｗｅｒ」、「ｔｈｒｏｗｓ」、「ｔｈｒｏｗｉｎｇ」は、共通の語幹又は原形「ｔｈｒｏｗ」を有している。

文書内に出現する（ストップワードを除く）単語の語幹又は原形の辞書は、保守される。すなわち、新たな単語が出現すると、この単語は辞書に追加され、文書コレクション（情報アイテム）全体の中でその単語が出現した回数も記録される。

この結果、その組内の全ての文書内で使用された用語が、その出現頻度とともに登録されたリストが作成される。出現頻度が高すぎる又は低すぎる単語は除外（discount）され、すなわち、これらの単語は辞書から削除され、後の分析には使用しない。出現頻度が低すぎる単語は、綴り間違いのある単語や、造語（made up）、又はその文書の組によって表されている分野に関係がない単語である可能性がある。一方、出現頻度が高すぎる単語は、その組内の文書を区別するために用いるには不適切である。例えば、「Ｎｅｗｓ」という単語が試験的な放送関連の文書の組全体の内、３分の１の文書において使用されており、一方、「ｆｏｏｔｂａｌｌ」という単語がこの試験的な文書の組全体の内、約２％しか使用されていないとする。この場合、「ｆｏｏｔｂａｌｌ」は、「Ｎｅｗｓ」より、文書のコンテンツを特徴付けるために適切な用語であると考えることができる。一方、「ｆｏｔｔｂａｌｌ（ｆｏｏｔｂａｌｌの綴り間違い）」が文書の組全体の内、１回しか出現していないとすると、この単語は、出現頻度が低すぎるとして除外される。これらの単語は、平均出現頻度に対して２標準偏差小さい出現頻度を有する単語、又は平均出現頻度に対して２標準偏差大きな出現頻度を有する単語と定義してもよい。

そして、ステップ１３０において、特徴ベクトルを生成する。

特徴ベクトルを生成するために、組内の各文書に対して用語頻度ヒストグラムを作成する。用語頻度ヒストグラムは、辞書（文書の組に関連付けられている）内に存在する単語が、個々の文書内で出現する頻度を計数することによって作成される。辞書内の大半の用語は、単一の文書内には存在せず、したがって、これらの用語の出現頻度は０である。図３ａ及び図３ｂは、２つの異なる文書についての用語頻度ヒストグラムの具体例を示している。

この具体例から、用語頻度ヒストグラムが、どのようにして文書のコンテンツを特徴付けているかがわかる。この具体例の場合、文書１は、文書２に比べて、「ＭＰＥＧ」、「Ｖｉｄｅｏ」という用語の出現頻度が高く、一方、文書２は、文書１に比べて、「ＭｅｔａＤａｔａ」という用語の出現頻度が高い。用語頻度ヒストグラム内の多くの項目（entry）は、対応する単語がその文書内に存在しないため、値が０となっている。

現実的には、実際の用語頻度ヒストグラムは、この具体例に示す用語頻度ヒストグラムより更に多数の用語を含んでいる。多くの場合、用語頻度ヒストグラムは、５００００個以上の異なる用語の頻度をプロットし、したがって、用語頻度ヒストグラムの次元は、５００００以上となる。この用語頻度ヒストグラムの次元は、ＳＯＭ情報空間の構築に使用するためには、かなり低減する必要がある。

用語頻度ヒストグラム内の各項目は、その文書を表現する特徴ベクトルにおける対応する値として使用される。この処理の結果、文書コレクション内の各文書について、辞書によって特定された全ての用語の頻度を含む（５００００×１）ベクトルが生成される。このベクトルでは、殆どの値が０であり、更にこの他の値の大半が１程度の非常に低い値を取るため、このベクトルは、「スパース（sparse）」ベクトルと呼ばれる。

ステップ１４０において、特徴ベクトルのサイズ、したがって用語頻度ヒストグラムの次元を小さくする。用語頻度ヒストグラムの次元を小さくする手法としては、例えば以下のような２つの手法がある。
１）ランダムマッピング法：用語頻度ヒストグラムに乱数の行列を乗算する手法。これは、計算機的には安い処理である。
２）潜在的意味抽出法（Latent Semantic Indexing）：文書内で同時に出現する可能性が高い用語のグループを調べることによって用語頻度ヒストグラムの次元を小さくする手法。これにより得られた単語のグループは、単一のパラメータにすることができる。これは、計算機的には高価な処理である。

ここで説明する具体例においては、用語頻度ヒストグラムの次元を低減するために、上述したカスキ（Kaski）の論文に開示されているランダムマッピング法を用いる。ランダムマッピング法では、用語頻度ヒストグラムに乱数の行列を乗算することによって、用語頻度ヒストグラムの次元を低減する。

上述のように、「生の」特徴ベクトル（図４ａに示す）は、５００００個もの値を有するスパースベクトル（sparse vector）である。このベクトルは、約２００個の値を有するサイズ（図４ｂに示す）にまで縮小されるが、それでもなお、特徴ベクトルの相対的特徴を保持しており、すなわち、同様に処理された他の特徴ベクトルに対する相対角（ベクトル内積）等の関係を保っている。これは、特定の次元の直交ベクトルの数が限られていても、略直交するベクトルの数が非常に多いので、有効である。

実際、ベクトルの次元が増加すると、ランダムに生成されたあらゆるベクトルの組が、互いに略直交するようになる。このような性質は、ベクトルの相対的な向きは、そのベクトルに乱数の行列を乗算しても保たれることを意味する。この性質は、ランダムマッピングの前後のベクトルの内積の類似性によって示される。

スパースベクトルの値を５００００個から２００個に低減しても、これらのベクトルの相対的な類似性が保たれることが経験的に確認されている。このマッピングは、完全ではないが、文書のコンテンツを簡潔に特徴付ける目的としては十分である。

文書コレクションについて、特徴ベクトルを作成し、文書コレクションの情報空間を定義した後、ステップ１５０において、意味論的なマップを生成するために、特徴ベクトルを２次元ＳＯＭに射影する。以下、図５を参照して、コホネン（Kohonen）の自己組織化マップを用いて、特徴ベクトルをクラスタリングすることによって２次元にマッピングする処理を説明する。

コホネンの自己組織化マップは、各文書に対して作成された特徴ベクトルをクラスタ化し、組織化するために使用される。

自己組織化マップは、入力ノード１７０と、２次元平面１８５として示されるノードの２次元アレー又はグリッド内の出力ノード１８０とを含む。自己組織化マップをトレーニングするために使用される特徴ベクトル内の値と同じ数の入力ノード１７０が存在する。自己組織化マップ上の各出力ノード１８０は、重み付けされたコネクション（weighted connection）１９０（１つのコネクションにつき、１つの重み）によって入力ノード１７０に関連付けられている。

まず、各重みは、ランダムな値に設定され、繰り返し処理により、これらの重みが「トレーニング」される。自己組織化マップは、このマップの入力ノード１７０に各特徴ベクトルを供給することによってトレーニングされる。各出力ノードの入力ベクトルと重みとの間のユークリッド距離を算出することにより、「最も近い」出力ノードが算出される。

最も近い出力ノードは、「勝者（winner）」と呼ばれ、このノードの重みは、このノードが入力ベクトルにより近づくように重みの値を若干変更することによってトレーニングされる。勝者のノードに加えて、この勝者のノードに隣接するノードもトレーニングされ、入力ベクトルに若干近づけられる。

単一のノードを重み付けするだけではなく、マップ上のノードの領域を重み付けするこの処理によって、マップは、一旦トレーニングされれば、ノードの２次元マップ内に入力空間のトポロジの大部分を保存することができる。

マップが一旦トレーニングされると、各文書をマップにマッピングし、どの出力ノードが、その文書について入力された特徴ベクトルに最も近いかを確認することができる。重みが特徴ベクトルと等しいことは希であり、特徴ベクトルとこの特徴ベクトルに最も近いノードとの間のユークリッド距離は、「量子化誤差」として知られる。

各文書についての特徴ベクトルをマップに与えて、この特徴ベクトルがどこに存在するかを確かめることにより、各文書について、（ｘ，ｙ）座標で表されるマップ上の位置が得られる。これらの（ｘ，ｙ）座標で表されるマップ上の位置は、文書ＩＤとともにルックアップテーブルで照合することにより、文書間の関係を視覚化するために使用することができる。

更に、ステップ１６０においてディザ成分（dither component）を加算する。ディザ成分については、図６を用いて後に説明する。

上述の手法では、２つの同一の又は実質的に同一の情報アイテムが、ＳＯＭのノードアレー内の同じノードにマッピングされてしまうことがある。これは、データを取り扱う上では問題にならないが、表示画面（後に説明する）上にデータを視覚化して表示する際に問題となる。特に、データを表示画面上に視覚化して表示する場合、多数の非常に似ているアイテムを特定のノードにおいて単一のアイテム上で区別できることが有用であると認められる。したがって、各情報アイテムがマッピングされるノード位置にディザ成分を加算する。ディザ成分は、ノード間隔の±１／２をランダムに加算するものである。例えば、図６に示すように、マッピング処理により出力ノード２００が選択された情報アイテムにはディザ成分が加算され、この情報アイテムは、実際には、図６に点線枠で示す領域２１０内の任意のノード位置にマッピングされる。

このように、情報アイテムは、図６の面上において、ＳＯＭ処理の「出力ノード」とは異なるノード位置にマッピングされることもある。

いかなる時点においても、ＳＯＭに新たな情報アイテムを追加することができる。この処理は、上述したステップ（すなわち、ステップ１１０〜ステップ１４０）を実行し、これにより得られた縮小された特徴ベクトルを「先にトレーニングされている」ＳＯＭモデル、すなわち、マップの自己組織化処理によって得られたＳＯＭモデルの組に適用することによって行われる。したがって、新たに追加された情報アイテムについては、マップは、通常、「再トレーニング」されない。これに代えて、変更されていない全てのＳＯＭモデルとともに、ステップ１５０及びステップ１６０を実行する。新たな情報アイテムが追加される毎にＳＯＭを再トレーニングすると、演算コストが高くなり、また、ユーザは、マップ内においてよくアクセスする情報アイテムの相対的位置に慣れてくるので、再トレーニングは、ユーザを困惑させる場合もある。

しかしながら、再トレーニング処理を行う方が望ましい場合もある。例えば、最初にＳＯＭが作成された後に、新たな用語（例えば、ニュース又は新たな技術分野における新たな用語）が辞書に追加されたとすると、これらの新たな用語は、既存の出力ノードの組には、うまくマッピングできない場合がある。これは、新たに受け取った情報アイテムの既存のＳＯＭへのマッピングの際に検出される所謂「量子化誤差」の増大によって検出される。この具体例では、量子化誤差を誤差量の閾値と比較する。量子化誤差が閾値を超えている場合、（ａ）ＳＯＭに元から含まれる情報アイテム及びＳＯＭの作成後に加えられたあらゆる情報アイテムを用いてＳＯＭを自動的に再トレーニングし、又は（ｂ）適切なときに再トレーニング処理を開始するようユーザに促す。再トレーニング処理は、関連する全ての情報アイテムの特徴ベクトルを用いて、ステップ１５０及びステップ１６０を全ての特徴アイテムを用いて再び実行することによって行われる。

図７は、検索作業のために、ＳＯＭに格納されたデータを視覚的に表示する表示装置６０に表示される画面を示している。この画面には、検索文字列入力枠２５０、結果リスト２６０、ＳＯＭ表示領域２７０が表示されている。

実際の作業では、表示領域２７０は、最初はブランクになっている。ユーザは、検索文字列入力枠２５０にキーワード検索文字列を入力する。次にユーザは、キーボード７０のエンターボタンを押圧操作し、又はマウス８０を用いて画面上の検索開始ボタンを選択することにより検索を開始する。キーワード検索文字列入力枠２５０に入力されたキーワードは、標準的なキーワード検索技術を用いて、データベース内の情報アイテムと比較される。この検索の結果は、結果リスト２６０内の各エントリ２８０として表示される。ＳＯＭ表示領域２７０は、検索の結果として得られたアイテムに対応する表示点を表示する。

ＳＯＭ表現を作成するために用いたソート処理により、互いに類似する情報アイテムがＳＯＭ内でグループ化されるため、文字列の検索結果は、例えばクラスタ２９０のように、クラスタ内に集中しやすい。ここで、ＳＯＭ表示領域２７０内の各点は、結果リスト２６０内の関連する結果の１つに対応しており、ＳＯＭ表示領域２７０内の各点が表示されている位置は、ノードアレー内におけるこれらのノードのアレー位置に対応している。

ヒット（結果リスト内の結果）の数を少なくする手法を図８を用いて説明する。この具体例では、ユーザは、マウス８０を用いて、興味があるノードに対応する表示点の組の周辺を長方形状のボックス（境界線）３００で囲む。結果リスト２６０内には、ボックス３００内の点に対応する結果のみが表示される。これらの結果が、ユーザの求めるものと違うことが判明した場合、ユーザは、新たなボックスで他の表示点の組を囲む。

なお、結果リスト２６０は、検索文字列入力枠２５０に入力されたキーワードによる検索条件を満たし、且つ、表示点がボックス３００内にある結果に対応するエントリを表示している。ボックス３００は、ノードアレー内に含まれる（populated）ノードに対応する他の表示点を囲むこともできるが、これらのノードが検索条件を満たしていない場合、これらのノードは表示されず、したがって、結果リスト２６０内の結果には含まれない。

本発明の具体例を図９を用いて説明する。まず、図９におけるステップ９２０において、ラベルを有していない（この点がコホネンのＳＯＭと異なる）自己組織化マップＳＯＭを生成する。ユーザは、自己組織化マップ内を検索するためのガイダンスとなるラベルを要求する。本発明の具体例においては、ユーザの特定の要求（ニーズ）に合わせて、ラベルが自動的に生成される。ユーザは、図７及び／又は図８を用いて説明したように、検索の結果を示すリストを作成する。ラベルは、この結果に基づいて自動的且つ動的に生成され、表示領域２７０の表示点のクラスタ（clusters）を区別するために用いられる。

ステップ９２１において、ユーザは、検索操作を行う。検索操作は、この具体例では、図７を用いて説明したように、キーワード検索文字列を用いて行われる。この検索の結果得られた例えば文書等の多くのアイテムは、ステップ９２２において、マップ上の個々の（ｘ，ｙ）座標によって示される。ステップ９２１及びステップ９２２に続いて、ステップ９２３において、Ｋ−ｍｅａｎｓ法に基づくクラスタリング及び枝刈り（"k-means clustering and pruning"）が実行される。ステップ９２３における処理は、ステップ９２１における検索操作の結果として得られたアイテムの組に対応するマップ上の（ｘ，ｙ）座標に対して実行される。このステップ９２３においては、周知のＫ−ｍｅａｎｓクラスタリング法により、類似するアイテムを示すアイテムのグループが識別される。この処理は、検索結果のアイテムに対応する隣接する（ｘ，ｙ）座標のサブクラスタ（sub-cluster）が同じメインクラスタ（main cluster）の一部であるか否かを判定する処理（ステップ９２３における枝刈り（pruning）処理）を含む。２つのサブクラスタの中心間の距離が閾値より小さい場合、２つのサブクラスタは、同じメインクラスタの一部であるとみなされる。この枝刈り処理は、ステップ９２４において、クラスタ処理が安定する（stable）まで、周知の手法に基づいて繰り返し行われる。
Ｐ１５
ステップ９２６において、クラスタ内のアイテム及びキーワードが特定される。各アイテムについて、上位２０個のキーワード及びその出現頻度が予め算出される。クラスタラベルを算出する処理は、各アイテムについて予め導出された全てのキーワードの出現頻度の合計を算出し、最も出現頻度が高いキーワードを選択する処理を含む。選択されたキーワードは、クラスタのラベルとして適用される。このように、キーワードを予め算出することにより、クラスタのラベルを作成するために必要な時間を著しく短縮することができる。

クラスタ内に１つのアイテムしかない場合、そのアイテムの「タイトル」をラベルとして用いる。

このように、クラスタの決定及びクラスタに対するラベルの付与は、ユーザによる検索に基づいて行われる。

上述したサブクラスタの中心間の距離に関する閾値は、ユーザが選択してもよい。これに代えて、閾値を「拡大率（zoom）」に基づいて定めてもよい。ＳＯＭの一部のスケールを拡大して捉えてもよい。マップを小さなスケールで捉えると、隣接するクラスタは、より大きな１つのクラスタに見えるが、マップをより大きなスケールで捉えると、これらのクラスタは、それぞれ独立して見える。したがって、閾値は、拡大率に基づいて決定される。

アイテムは、文書でも画像でも映像でもよい。アイテムが画像や映像等のメディアアイテムである場合、キーワードは、画像や映像に関連するメタデータにおいて用いられているキーワードであってもよい。タイトルもメタデータの一例である。メタデータのこの他の例については、当分野について周知である。

更に、映像等のメディアアイテムを表すために、代表キースタンプ（Representative Key Stamp：ＲＫＳ）を作成する手法も知られている。本発明の他の具体例においては、図７、又は図７及び図８、並びに上述したステップ９２０〜ステップ９２４に基づいて検索を実行し、表示領域２７０における表示点に対応する検索結果のリストを作成し、安定したクラスタを特定する。そして、ステップ９２８〜ステップ９３１として示すように、クラスタ２９０のラベルとして、ＲＫＳが選択される。例えば、本発明の一具体例においては、ステップ９２８において、クラスタ２０のメディアアイテムのＲＫＳが選択され、ステップ９２９において、これらのＲＫＳの全てのカラーヒストグラムが算出される。ステップ９３０において、カラーヒストグラムの平均値が算出され、ステップ９３１において、この平均値に最も近いカラーヒストグラムを有するＲＫＳが選択される。このように平均に近いＲＫＳがクラスタを代表するＲＫＳとなる。これにより、クラスタに対して、そのクラスタを代表するＲＫＳをラベルとして付すことができる。個々のＲＫＳは、そのクラスタ又は各クラスタ内の個々のメディアアイテムを代表している。

検索結果のリスト全体を代表するＲＫＳと、各クラスタを代表するＲＫＳと、検索リストの結果における個々のアイテムを代表する個々のＲＫＳとからなるＲＫＳの階層構造を生成してもよい。

単一のメディアアイテムのＲＫＳは、周知のいかなる手法で選択してもよい。以下に、ＲＫＳを選択する手法の一例を説明する。

１）単一のメディアアイテムのＲＫＳを判定するために、メディアアイテム内の各フレームについてメトリックを算出し、フレーム画像内に顔があるか、その顔が誰の顔であるか、及び音声チャンネルに人間の声が含まれているかを判定する。そして、メディアアイテム内に最も多く登場する個人の顔を含み、更にその個人の声を含むフレームを、代表フレームとして選択することができる。例えば、「パーキンソン（Parkinson）：英国で有名なテレビジョン番組司会者」は、ゲストの登場するフレームより、パーキンソン自身がカメラに向かって話しているフレームを好む。

メディアアイテムのグループのＲＫＳ（例えば、リスト又はクラスタ）は、周知のいかなる手法で選択してもよい。この幾つかの具体例を以下に示す。

２）メディアアイテムのグループのＲＫＳを決定するために、全てのメディアアイテム内の全てのフレームに対して、１）と同様の処理を行ってもよい。例えば、５分のアイテムが１０個ある場合、これを単一の５０分のアイテムとみなして、１）と同様の処理を行ってもよい。

３）これに代えて、メディアアイテムのグループについて、１）と同様の手法で、各アイテムのＲＫＳを判定することもできる。次に、検索結果リストが、検索問い合わせ文字列への関連性に基づいて各検索結果をランク付けする関係メトリック（relevancy metric）を含んでいると仮定する。これにより、メディアアイテムのグループにおいて最も関連性が高いアイテムのＲＫＳをメディアアイテムのグループのＲＫＳとすることができる。

４）上述した３）の手法の拡張例として、任意の手法を用いて検索結果をランク付けし、検索結果のクラスタのうち、最も高いランクが高いアイテムを判定し、そのアイテムのＲＫＳによってグループを代表させてもよい。

５）ＲＫＳを決定する単純な手法として、グループ内の全てのメディアアイテムを構成する全てのフレームの組から、自動的にランダムにフレームを選択し、又は、単純に、アイテムのグループのうち、最初に処理することになったフレームを自動的に選択してもよく、ユーザが最も適当と考えるフレームを代表的フレームとして選択してもよい。

図１０は、ビデオ取得及び／又は処理装置（video acquisition and/or processing apparatus）の具体例として、カムコーダ５００の構成を示す図である。カムコーダ５００は、撮像装置５１０と、撮像装置５１０に取り付けられたレンズ５２０と、データ／信号プロセッサ５３０と、テープ状記録媒体５４０と、ディスク状又はランダムアクセス記録媒体５５０と、ユーザ操作子５６０と、表示装置５７０と、表示装置５７０に取り付けられた接眼レンズ５８０とを備える。周知のカムコーダ又は他の代替物におけるこの他の特徴（例えば、異なる記録媒体又は異なる表示画面構成）は、当業者にとって明らかである。実際の使用時には、捕捉されたビデオマテリアルに関連するメタデータがディスク状又はランダムアクセス記録媒体５５０に保存され、この保存されたデータに関連するＳＯＭが表示装置５７０に表示され、ユーザ操作子５６０を用いて、上述のように制御される。

図１１は、携帯可能なデータ表示装置の具体例として、携帯情報端末（personal digital assistant：以下、ＰＤＡという。）６００の構成を示す図である。ＰＤＡ６００は、表示領域６２０及びユーザ操作子として機能するタッチセンサ領域６３０を有する表示画面６１０と、データ処理部及びデータ記録部（図示せず）とを備える。ここでも、この分野における当業者は、変形例を容易に想到できる。ＰＤＡ６００は、図１を用いて説明したシステムと同様に使用することができる。

添付の図面を参照して本発明を詳細に説明したが、本発明は上述の実施の形態の詳細に限定されるものではなく、当業者は、添付の請求の範囲に定義された本発明の思想及び範囲から逸脱することなく、上述の実施の形態を様々に変更及び修正することができる。

情報保存及び検索システムの構成を示す図である。自己組織化マップ（ＳＯＭ）の作成の手順を説明するフローチャートである。ａ及びｂは、用語頻度ヒストグラムを示す図である。ａは、生の特徴ベクトルを示し、ｂは、縮小された特徴ベクトルを示す図である。ＳＯＭの構造を示す図である。ディザ処理を説明する図である。ＳＯＭによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。ＳＯＭによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。ラベルの自動的な生成処理を説明するフローチャートである。ビデオ取得及び／又は処理装置の具体例として、カムコーダの構成を示す図である。携帯型データ処理装置の具体例として、携帯情報端末の構成を示す図である。

Claims

異なる性質の情報アイテムの組内の各情報アイテムが該情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、該ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索装置において、
上記情報アイテムを選択するための検索条件を定義するユーザ操作手段と、
上記ノードのアレー内で、上記選択された情報アイテムに対応する位置を検出する検出手段と、
選択された情報アイテムに対応するノードのアレー内の位置を代表する表示点を表示するグラフィックユーザインタフェースと、
上記検索条件によって定義された選択された情報アイテムに応じて、該選択された情報アイテムの情報コンテンツを代表する１以上の表現を提供するプロセッサとを備える情報検索装置。
上記グラフィックユーザインタフェースは、上記表示点の２次元表示アレーを表示することを特徴とする請求項１記載の情報検索装置。
上記情報アイテムとノードの間のマッピングにディザ成分が適用され、実質的に同一の情報アイテムが、上記アレーにおいて、近接しているが異なるノードにマッピングされるようにする請求項２記載の情報検索装置。
上記情報アイテムは、各情報アイテムから導かれた特徴ベクトルに基づいて、上記アレー内のノードにマッピングされることを特徴とする請求項２記載の情報検索装置。
上記情報アイテムから導かれた特徴ベクトルは、該情報アイテム内における、情報の特徴のグループ内の各特徴の出現頻度の組を表すことを特徴とする請求項４記載の情報検索装置。
上記情報アイテムは、テキスト情報を含み、上記情報アイテムから導かれた特徴ベクトルは、該情報アイテム内における、単語のグループ内の各単語の出現頻度の組を表すことを特徴とする請求項５記載の情報検索装置。
上記情報アイテムは、テキスト情報を含み、上記ノードは、上記テキスト情報の少なくとも一部の相互の類似性に基づいてマッピングされることを特徴とする請求項１記載の情報検索装置。
上記情報アイテムは、上記情報アイテムの組における頻度の閾値を超える頻度で出現する単語を除外することによって、マッピングのための前処理が施されることを特徴とする請求項６記載の情報検索装置。
上記情報アイテムは、上記情報アイテムの組における頻度の閾値を下回る頻度で出現する単語を除外することによって、マッピングのための前処理が施されることを特徴とする請求項６記載の情報検索装置。
上記ユーザ操作手段は、上記情報アイテムの単語に関する検索を実行する検索手段を有し、
上記検索手段及び上記グラフィックユーザインタフェースは、協働して、上記検索によって選択された情報アイテムに対応する表示点のみが表示されるように動作することを特徴とする請求項１記載の情報検索装置。
上記プロセッサは、類似する情報アイテムのクラスタを検出し、各クラスタの情報アイテムの代表的な表現を提供することを特徴とする請求項１記載の情報検索装置。
上記プロセッサは、上記表現又は各表現をユーザディスプレイに、該表現が代表している情報アイテムに対応する表示点のラベルとして表示することを特徴とする請求項１記載の情報検索装置。
上記ラベルは、単語又は単語の組であることを特徴とする請求項１２記載の情報検索装置。
上記プロセッサは、ラベルを付すべき情報アイテムの組に関して、上記選択された情報アイテムに対応する情報アイテム内で最も頻繁に用いられている単語又は単語の組を判定し、該単語又は単語の組をラベルとして適用することを特徴とする請求項１１記載の情報検索装置。
上記情報アイテムは、少なくとも画像アイテムに関連し、上記プロセッサは、上記検索条件によって定義された選択された情報アイテムの情報コンテンツを代表する１以上の画像を提供することを特徴とする請求項１記載の情報検索装置。
上記プロセッサは、上記画像アイテムの組から、所定の選択条件に基づいて、該画像アイテムの組を代表する画像アイテムを選択することを特徴とする請求項１５記載の情報検索装置。
上記プロセッサは、該画像アイテムの組における同じプロパティの平均に最も近いプロパティを有する画像アイテムを選択することを特徴とする請求項１５記載の情報検索装置。
上記１以上の代表する画像は、該画像によって代表される情報アイテムに対応する表示点のラベルとして適用されることを特徴とする請求項１５記載の情報検索装置。
請求項１記載の情報検索装置を備える携帯型データ処理装置。
請求項１記載の情報検索装置を備えるビデオ取得及び／又は処理装置。
異なる性質の情報アイテムの組内の各情報アイテムが該情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、該ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索方法において、
上記情報アイテムを選択するための検索条件を定義するステップと、
ノードのアレー内で、上記選択された情報アイテムに対応する位置を検出するステップと、
選択された情報アイテムに対応するノードのアレー内の位置を代表する表示点を表示するステップと、
上記検索条件によって定義された選択された情報アイテムに応じて、該選択された情報アイテムの情報コンテンツを代表する１以上の表現を提供するステップとを有する情報検索方法。
上記表示点を表示するステップは、上記表示点の２次元表示アレーを表示するステップを有することを特徴とする請求項２１記載の情報検索方法。
情報アイテムの検索を実行するステップと、
上記検索によって選択された情報アイテムに対応する表示点のみをユーザディスプレイに表示するステップとを有する請求項２１記載の情報検索方法。
類似する情報アイテムのクラスタを検出し、各クラスタの情報アイテムの代表的な表現を提供するステップを有する請求項２１記載の情報検索方法。
上記表現又は各表現をユーザディスプレイに、該表現が代表している情報アイテムに対応する表示点のラベルとして表示するステップを有する請求項２１記載の情報検索方法。
上記ラベルは、単語又は単語の組であることを特徴とする請求項２５記載の情報検索方法。
上記情報アイテムは、少なくとも画像アイテムに関連し、上記検索条件によって定義された選択された情報アイテムの情報コンテンツを代表する１以上の画像を提供するステップを有することを特徴とする請求項２１記載の情報検索方法。
上記画像アイテムの組から、所定の選択条件に基づいて、該画像アイテムの組を代表する画像アイテムを選択するステップを有する請求項２７記載の情報検索方法。
該画像アイテムの組における同じプロパティの平均に最も近いプロパティを有する画像アイテムを選択するステップを有する請求項２８記載の情報検索方法。
請求項２１に示す情報検索方法を実行するプログラムコードを有するコンピュータソフトウェア。
請求項３０記載のコンピュータソフトウェアを提供する提供媒体。
当該提供媒体は、記録媒体であることを特徴とする請求項３１記載の提供媒体。
当該提供媒体は、伝送媒体であることを特徴とする請求項３１記載の提供媒体。
異なる性質の情報アイテムの組内の各情報アイテムが該情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、該ノードのアレー内の類似する位置におけるノードにマッピングされるユーザインタフェースにおいて、
上記情報アイテムを選択するための検索条件を定義するユーザ操作手段と、
選択された情報アイテムに対応するノードのアレー内の位置を代表する表示点を表示するとともに、上記検索によって選択された情報アイテムの情報コンテンツを代表する１以上の表現を表示するグラフィックユーザインタフェースとを備えるユーザインタフェース。
上記ユーザ操作手段は、上記情報アイテムの単語に関する検索を実行する検索手段を有し、
上記検索手段及び上記グラフィックユーザインタフェースは、協働して、上記検索によって選択された情報アイテムに対応する表示点のみが表示されるように動作することを特徴とする請求項３４記載のユーザインタフェース。
上記グラフィックユーザインタフェースは、類似する情報アイテムを含む各クラスタの情報アイテムの代表的な表現を提供することを特徴とする請求項３４記載のユーザインタフェース。
上記グラフィックユーザインタフェースは、上記表現又は各表現をユーザディスプレイに、該表現が代表している情報アイテムに対応する表示点のラベルとして表示することを特徴とする請求項３４記載のユーザインタフェース。
上記ラベルは、単語又は単語の組であることを特徴とする請求項３７記載のユーザインタフェース。
上記表現は、画像アイテムであり、該画像アイテムは、該画像アイテムによって代表される情報アイテムに対応する表示点に表示されるラベルとして適用されることを特徴とする請求項３４記載のユーザインタフェース。