JP2004213626A - 情報の格納及び検索 - Google Patents

情報の格納及び検索 Download PDF

Info

Publication number
JP2004213626A
JP2004213626A JP2003398038A JP2003398038A JP2004213626A JP 2004213626 A JP2004213626 A JP 2004213626A JP 2003398038 A JP2003398038 A JP 2003398038A JP 2003398038 A JP2003398038 A JP 2003398038A JP 2004213626 A JP2004213626 A JP 2004213626A
Authority
JP
Japan
Prior art keywords
information
item
information item
items
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003398038A
Other languages
English (en)
Other versions
JP2004213626A5 (ja
Inventor
David William Trepess
トレペス、デヴィッド ウィリアム
Jonathan Richard Thorpe
ソープ、ジョナサン リチャード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Europe BV United Kingdom Branch
Original Assignee
Sony United Kingdom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony United Kingdom Ltd filed Critical Sony United Kingdom Ltd
Publication of JP2004213626A publication Critical patent/JP2004213626A/ja
Publication of JP2004213626A5 publication Critical patent/JP2004213626A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】検索結果情報をユーザにわかりやすく表示し、検索を支援する。
【解決手段】異なる性質の情報アイテムの組内の各情報アイテムが情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索装置は、情報アイテムを選択するための検索条件を定義するユーザ操作手段と、ノードのアレー内で、選択された情報アイテムに対応する位置を検出する検出手段と、選択された情報アイテムに対応するノードのアレー内の位置を代表する表示点を表示するグラフィックユーザインタフェースと、検索条件によって定義された選択された情報アイテムに応じて、選択された情報アイテムの情報コンテンツを代表する1以上の表現を提供するプロセッサとを備える。
【選択図】図7

Description

本発明は、情報の格納及び検索に関する。
キーワードに基づいて情報(例えば文書、画像、電子メール、特許情報、例えばオーディオ/ビデオコンテンツ等のインターネットコンテンツやメディアコンテンツ等)を検索するための多くの方式が確立されている。この検索の具体例としては、「グーグル(Google:商標)」、「ヤフー(Yahoo:商標)」等から提供されるインターネット検索「エンジン」も含まれ、これらにおいては、キーワードに基づく検索が実行され、検索エンジンによって適合度の順にランク付けされた検索結果のリストが得られる。
しかしながら、多くの場合大量のコンテンツコレクション(massive content collection)と呼ばれる大量のコンテンツを含むシステムにおいては、比較的短い「ヒット」した結果のリストが得られる有効な検索クエリを定式化することは困難となることがある。例えば、本出願を準備している時点では、グーグルにおいて、キーワード「massive document collection」を用いた検索を行うと、ヒット数は、243000件となる。インターネット全体に蓄積されているコンテンツの量は、通常、時間と共に増加すると考えられるので、後に同じ検索を行った場合には、このヒット数は更に増加すると予想される。このようなヒットリストに基づいて、ヒットした全てのコンテンツに目を通す(Reviewing)ことは、現実的には殆ど不可能な程に時間がかかる作業である。
大量のコンテンツコレクションを活用することが困難である理由は、一般的には、以下のようなものがある。
・ユーザは、関連するコンテンツが存在することを知らない。
・ユーザは、関連するコンテンツが存在することを知っているが、そのコンテンツがどこにあるかを知らない。
・ユーザは、コンテンツが存在していることを知っているが、そのコンテンツが関連するコンテンツであることを知らない。
・ユーザは、関連するコンテンツが存在し、そのコンテンツを見つけ出す手法も知っているが、コンテンツを見つけ出すには時間がかかる。
「大量のドキュメントコレクションの自己組織化(Self Organisation of a Massive Document Collection)」、コホネン(Kohonen)他、ニューラルネットワークに関するIEEEトランザクション(IEEE Transactions on Neural Networks)、Vol11、No.3、2000年5月、574〜585頁には、所謂「自己組織化マップ(self-organising maps:以下、SOMという。)」を用いた技術が開示されている。SOMは、各ドキュメントのプロパティを表す「特徴ベクトル(feature vector)」をSOMのノードにマッピングする、所謂教師なき自己学習ニューラルネットワークアルゴリズム(unsupervised self-learning neural network algorithm)を利用する。
コホネン他の論文に開示されている手法では、まず、文書テキストを前処理し、前処理された各文書から特徴ベクトルが導かれる。この特徴ベクトルは、大きな単語の辞書における各単語の出現頻度を示すヒストグラムの形式で表してもよい。ヒストグラム内の各データ値(すなわち、辞書中のそれぞれの単語の各出現頻度)は、辞書内の候補となる単語の総数(この論文に記述されている具体例では、43222個)をnとして、n値のベクトルにおける値となる。例えば、ある単語の適合度を増加させ又は特異性を強調するために、n個のベクトル値に重み付けを適用してもよい。
n値のベクトルは、次元がより小さいベクトル(すなわちnに比べてかなり小さな値の数m(論文内の具体例では500)の値を有するベクトル)にマッピングされる。これは、乱数配列により構成されるn×mの「プロジェクション行列(projection matrix)」をベクトルに乗算することによって実現される。この手法により、次元が小さくされたどの2つのベクトルをとっても、それぞれ対応する2つの入力ベクトルと略同じ内積を有する、次元がより小さいベクトルが生成される。このベクトルマッピング処理は、論文「ランダムマッピングによる次元縮退:クラスタリングのための高速類似性演算(Dimensionality Reduction by Random Mapping; Fast Similarity Computation for Clustering)」、カスキ(Kaski)、ProcIJCNN、413〜418頁、1998年に記載されている。
次元が低減されたベクトルは、各ベクトルを1つの「モデル(他のベクトル)」に乗算する処理によって、SOM上のノード(ニューロンともいう)にマッピングされる。これらのモデルは、学習プロセスによって生成される。この学習プロセスでは、モデルを相互の類似性に基づいてSOM上に順序付けし、SOMは、通常、ノードの2次元グリッドとして表される。これは、膨大な演算を必要とする処理であり、コホネン他は、この処理のために、700万の文書に満たない文書データベースに対して、800MBのメモリを有する6プロセッサのコンピュータで6週間を費やしている。最終的には、SOMを構成するノードのグリッドが表示され、ユーザはマップの領域をズームしてノードを選択することができ、これにより、ユーザインタフェースは、そのノードにリンクされた文書が含まれるインターネットページへのリンクを提供する。
コホネンの論文には、マップ内の情報を検索するためのガイダンスとなるラベルを用いる手法が開示されている。これらのラベルは、キーワードを選択することによって自動的に生成される。この手法は、ケー・ラグス(K.Lagus)及びエス・ラスキ(S.Laski)著、テキスト文書マップを特徴付けるキーワード選択法(Keyword selection method for characterising text document maps)、Proc ICANN99、Ninth Int.Conf.Artificial Neural Networks,vol.1、1999年、pp.371〜376に開示されている。
本発明の一側面として、本発明は、ユーザによる検索に関係する情報アイテムの表現を提供し、これによりユーザを補助する。
本発明に係る情報検索装置は、異なる性質の情報アイテムの組内の各情報アイテムが情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索装置において、情報アイテムを選択するための検索条件を定義するユーザ操作手段と、ノードのアレー内で、選択された情報アイテムに対応する位置を検出する検出手段と、選択された情報アイテムに対応するノードのアレー内の位置を代表する表示点を表示するグラフィックユーザインタフェースと、検索条件によって定義された選択された情報アイテムに応じて、選択された情報アイテムの情報コンテンツを代表する1以上の表現を提供するプロセッサとを備える。
これにより、情報検索装置は、ユーザによって定義された検索に関連する表示点と、検索によって定義された情報アイテムを代表する表現の両方を表示し、ユーザを補助する。
一具体例においては、ユーザ操作手段は、情報アイテムの単語に関する検索を実行する検索手段を有し、検索手段及びグラフィックユーザインタフェースは、協働して、検索によって選択された情報アイテムに対応する表示点のみが表示されるように動作する。
一具体例においては、プロセッサは、表現又は各表現をユーザディスプレイに、表現が代表している情報アイテムに対応する表示点のラベルとして表示する。一具体例においては、ラベルは、単語又は単語の組である。
他の具体例においては、情報アイテムは、少なくとも画像アイテムに関連し、プロセッサは、検索条件によって定義された選択された情報アイテムの情報コンテンツを代表する1以上の画像を提供する。好ましくは、プロセッサは、画像アイテムの組から、所定の選択条件に基づいて、画像アイテムの組を代表する画像アイテムを選択する。更に、プロセッサは、画像アイテムの組における同じプロパティの平均に最も近いプロパティを有する画像アイテムを選択してもよい。選択された画像は、この画像によって代表される情報アイテムに対応する表示点のラベルとして適用できる。
グラフィックユーザインタフェースは、好ましくは、表示点の2次元表示アレーを表示する。但し、表示される表示アレーは、1次元表示アレーであっても、3次元表示アレーであってもよい。3次元表示アレーの第3の次元は、時間であってもよい。
また、本発明に係る情報検索方法は、異なる性質の情報アイテムの組内の各情報アイテムが情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索方法において、情報アイテムを選択するための検索条件を定義するステップと、ノードのアレー内で、選択された情報アイテムに対応する位置を検出するステップと、選択された情報アイテムに対応するノードのアレー内の位置を代表する表示点を表示するステップと、検索条件によって定義された選択された情報アイテムに応じて、選択された情報アイテムの情報コンテンツを代表する1以上の表現を提供するステップとを有する。
本発明の更なる側面及び特徴は、添付の請求の範囲において定義されている。
図1は、情報格納及び検索システム(information storage and retrieval system)を概略的に示す図であり、この情報格納及び検索システムは、汎用コンピュータ10によって実現されており、汎用コンピュータ10は、プログラム及びデータを格納するディスク記憶装置30を含むプロセッサユニット20と、イーサネット(Ethernet network)(登録商標)又はインターネット等のネットワーク50に接続されたネットワークインタフェースカード40と、例えば陰極線管等の表示装置60と、キーボード70及びマウス80等のユーザ入力装置とを備える。このシステムは、プログラム制御の下に動作し、このプログラムは、ディスク記憶装置30に格納され、及び、例えばネットワーク50又はリムーバブルディスク(図示せず)から、若しくはディスク記憶装置30にプレインストールされて提供される。
情報格納及び検索システムは、2つの通常の動作モードで動作する。第1のモードでは、第1の情報アイテム(例えば、テキスト情報アイテム)の組がディスク記憶装置30に又はネットワーク50を介して接続されたネットワークディスクドライブに集められ(assembled)、検索動作のために予めソートされるとともに、インデックスが付けられる。第2のモードの動作では、ソートされ、インデックスが付されたデータに対して実際の検索が行われる。
この具体例は、多くの種類の情報アイテムに適用できる。適用される情報アイテムとしては、以下に限定されるものではないが、例えば、特許情報、ビデオマテリアル、電子メール、プレゼンテーション、インターネットコンテンツ、放送コンテンツ、営業報告書、オーディオマテリアル、グラフィクス及びクリップアート、写真、これらの組合せ又は混合された情報等がある。ここでは、テキスト情報アイテム、又は少なくともテキストコンテンツを含む又は関連した情報について説明する。例えば、オーディオ及び/又はビデオマテリアル等の放送コンテンツは、そのマテリアルをテキスト用語(textual terms)で定義する関連したメタデータを有することができる。テキスト情報アイテムは、非テキスト情報アイテムに関連付けられ、又はリンクされていてもよい。例えば、オーディオ及び/又はビデオマテリアルは、そのマテリアルを言葉により定義するテキスト情報であり「メタデータ」に関連付けられていてもよい。
情報アイテムは、従来の方法でディスク記憶装置30にロードされる。好ましくは、情報アイテムは、アイテムに索引を付けてより容易に検索できるようにデータベース構造の一部として格納されるが、このことは必ずしも必要なわけではない。情報及びアイテムが一旦格納されると、検索のために格納された情報を整理する、図2に示す処理が行われる。
なお、インデックスが付されたデータは、必ずしもローカルのディスクドライブであるディスク記憶装置30に格納する必要はない。情報アイテムは、ネットワーク50を介して汎用コンピュータ10に接続されたリモートのドライブに格納することもできる。これに代えて、情報は、分散方式で、例えばインターネット全域の様々サイトに格納することもできる。情報が異なるインターネットサイト又はネットワークサイトに格納されている場合、リモートの情報への「リンク」(例えば、汎用リソース識別子:universal resource identifier:URI)を、例えば関連した要約(summary)、概要(abstract)、又はこのリンク関するメタデータと共に格納する第2のレベルの情報格納を用いることができる。リモートに格納された情報は、ユーザが(例えば、後述する結果リスト260から)関連するリンクを選択しない限り、アクセスされないが、以下に記述する技術的な説明においては、リモートに格納された情報、又は要約、概要、メタデータ、若しくはリンク/URIも「情報アイテム」とみなすことができる。
換言すると、「情報アイテム」とは、(後述のように)特徴ベクトルを導出及び処理して、SOMへのマッピングを行うことができるアイテムと形式的に定義することができる。後述する結果リスト260内のデータは、(情報アイテムがローカルに格納され、容易に表示できる程に十分短い場合)ユーザが検索する実際の情報アイテム自体であってもよく、及び/又は、例えばメタデータ、URI、概要、キーワードのセット、代表的なキースタンプ画像等のうちの1つ以上である、情報アイテムを表現及び/又は指示するデータであってもよい。これは、必ずではないが、多くの場合、1組のアイテムを表すデータを一覧化する「リスト」動作に特有なものである。
更なる具体例においては、情報アイテムは、例えば研究チームや法律事務所等のネットワーク化されたワークグループ全体に格納してもよい。また、ハイブリッド法は、ローカルに格納された情報アイテム及び/又はローカルエリアネットワーク全体に格納された情報アイテム及び/又はワイドエリアネットワーク全体に格納された情報アイテムを含んでいてもよい。この場合、本発明に基づくシステムは、他者による類似した業績を検索するのに有用であり、例えば、後述するように、複数の国に亘る大規模な研究開発組織において、類似した研究業績をSOMにおける類似した出力ノードにマッピングすることができる。または、新たなテレビジョン番組を企画する場合、本発明に基づく技術を用いて、類似するコンテンツを有する以前の番組を検索することにより、企画中の番組の独創性を確認することもできる。
図1に示すシステム10は、インデックスが付された情報アイテムを用いる可能なシステムの一例にすぎない。初期の(インデックス付与)段階は、相当の演算能力を有するコンピュータ、可能性としては携帯型ではないコンピュータによって実行されるが、後の段階では、例えば、携帯情報端末(personal digital assistant:PDA)(ディスプレイとユーザ入力装置とを備えた、通常片手で持てる程度の寸法のデータ処理装置を指す)、ラップトップコンピュータ等の携帯型コンピュータによって、情報のアクセスを実行してもよく、更に携帯電話、ビデオ編集装置、ビデオカメラ等の機器で行ってもよい。包括的に言えば、情報にアクセスする動作段階では、ディスプレイを有するあらゆる機器を用いることができる。
この処理は、特定の数の情報アイテムに対する処理に限定されるものではない。
情報アイテムの自己組織化マップ(SOM)表現を生成する処理について、図2〜図6を用いて説明する。図2は、SOMマッピング処理の前に行われる、所謂「特徴抽出(feature extraction)」を説明するフローチャートである。
特徴抽出は、生のデータ(raw data)を抽象表現(abstract representation)に変換する処理である。そして、この抽象表現は、パターン分類、クラスタリング、認識等の処理に用いることができる。この処理により、所謂「特徴ベクトル」が生成される。特徴ベクトルは、文書内で使用される用語の頻度の抽象表現である。
特徴ベクトルを生成することにより、ビジュアライゼーション(visualisation)を形成する処理は、以下のステップを含む。
・用語の「文書データベース辞書(document database dictionary)」を作成する。
・「文書データベース辞書」に基づいて、個々の各文書について、「用語頻度ヒストグラム(term frequency histogram)」を作成する。
・ランダムマッピングを用いて、「用語頻度ヒストグラム」の次元を低減する。
・情報空間の2次元ビジュアライゼーションを作成する。
以下、これらのステップをより詳細に説明する。各文書(情報アイテム)100は、順番に開かれる。ステップ110において、文書から全ての「ストップワード(stop word)」を取り除く。ストップワードとは、例えば「a」、「the」、「however」、「about」、「and」等、予め準備されたリストに挙げられている極めてありふれた単語である。これらの単語は、極めてありふれており、平均的に、十分な長さを有するあらゆる文書において、同様の頻度で出現する可能性が高い。したがって、これらの単語は、特定の文書のコンテンツを特徴付ける目的には殆ど貢献せず、このため、これらのストップワードを削除する。
ストップワードを削除した後、ステップ120において、残っている単語の語幹を調べる。これは、単語の活用形に対する共通の原形を見出す処理を含む。例えば「thrower」、「throws」、「throwing」は、共通の語幹又は原形「throw」を有している。
文書内に出現する(ストップワードを除く)単語の語幹又は原形の辞書は、保守される。すなわち、新たな単語が出現すると、この単語は辞書に追加され、文書コレクション(情報アイテム)全体の中でその単語が出現した回数も記録される。
この結果、その組内の全ての文書内で使用された用語が、その出現頻度とともに登録されたリストが作成される。出現頻度が高すぎる又は低すぎる単語は除外(discount)され、すなわち、これらの単語は辞書から削除され、後の分析には使用しない。出現頻度が低すぎる単語は、綴り間違いのある単語や、造語(made up)、又はその文書の組によって表されている分野に関係がない単語である可能性がある。一方、出現頻度が高すぎる単語は、その組内の文書を区別するために用いるには不適切である。例えば、「News」という単語が試験的な放送関連の文書の組全体の内、3分の1の文書において使用されており、一方、「football」という単語がこの試験的な文書の組全体の内、約2%しか使用されていないとする。この場合、「football」は、「News」より、文書のコンテンツを特徴付けるために適切な用語であると考えることができる。一方、「fottball(footballの綴り間違い)」が文書の組全体の内、1回しか出現していないとすると、この単語は、出現頻度が低すぎるとして除外される。これらの単語は、平均出現頻度に対して2標準偏差小さい出現頻度を有する単語、又は平均出現頻度に対して2標準偏差大きな出現頻度を有する単語と定義してもよい。
そして、ステップ130において、特徴ベクトルを生成する。
特徴ベクトルを生成するために、組内の各文書に対して用語頻度ヒストグラムを作成する。用語頻度ヒストグラムは、辞書(文書の組に関連付けられている)内に存在する単語が、個々の文書内で出現する頻度を計数することによって作成される。辞書内の大半の用語は、単一の文書内には存在せず、したがって、これらの用語の出現頻度は0である。図3a及び図3bは、2つの異なる文書についての用語頻度ヒストグラムの具体例を示している。
この具体例から、用語頻度ヒストグラムが、どのようにして文書のコンテンツを特徴付けているかがわかる。この具体例の場合、文書1は、文書2に比べて、「MPEG」、「Video」という用語の出現頻度が高く、一方、文書2は、文書1に比べて、「MetaData」という用語の出現頻度が高い。用語頻度ヒストグラム内の多くの項目(entry)は、対応する単語がその文書内に存在しないため、値が0となっている。
現実的には、実際の用語頻度ヒストグラムは、この具体例に示す用語頻度ヒストグラムより更に多数の用語を含んでいる。多くの場合、用語頻度ヒストグラムは、50000個以上の異なる用語の頻度をプロットし、したがって、用語頻度ヒストグラムの次元は、50000以上となる。この用語頻度ヒストグラムの次元は、SOM情報空間の構築に使用するためには、かなり低減する必要がある。
用語頻度ヒストグラム内の各項目は、その文書を表現する特徴ベクトルにおける対応する値として使用される。この処理の結果、文書コレクション内の各文書について、辞書によって特定された全ての用語の頻度を含む(50000×1)ベクトルが生成される。このベクトルでは、殆どの値が0であり、更にこの他の値の大半が1程度の非常に低い値を取るため、このベクトルは、「スパース(sparse)」ベクトルと呼ばれる。
ステップ140において、特徴ベクトルのサイズ、したがって用語頻度ヒストグラムの次元を小さくする。用語頻度ヒストグラムの次元を小さくする手法としては、例えば以下のような2つの手法がある。
1)ランダムマッピング法:用語頻度ヒストグラムに乱数の行列を乗算する手法。これは、計算機的には安い処理である。
2)潜在的意味抽出法(Latent Semantic Indexing):文書内で同時に出現する可能性が高い用語のグループを調べることによって用語頻度ヒストグラムの次元を小さくする手法。これにより得られた単語のグループは、単一のパラメータにすることができる。これは、計算機的には高価な処理である。
ここで説明する具体例においては、用語頻度ヒストグラムの次元を低減するために、上述したカスキ(Kaski)の論文に開示されているランダムマッピング法を用いる。ランダムマッピング法では、用語頻度ヒストグラムに乱数の行列を乗算することによって、用語頻度ヒストグラムの次元を低減する。
上述のように、「生の」特徴ベクトル(図4aに示す)は、50000個もの値を有するスパースベクトル(sparse vector)である。このベクトルは、約200個の値を有するサイズ(図4bに示す)にまで縮小されるが、それでもなお、特徴ベクトルの相対的特徴を保持しており、すなわち、同様に処理された他の特徴ベクトルに対する相対角(ベクトル内積)等の関係を保っている。これは、特定の次元の直交ベクトルの数が限られていても、略直交するベクトルの数が非常に多いので、有効である。
実際、ベクトルの次元が増加すると、ランダムに生成されたあらゆるベクトルの組が、互いに略直交するようになる。このような性質は、ベクトルの相対的な向きは、そのベクトルに乱数の行列を乗算しても保たれることを意味する。この性質は、ランダムマッピングの前後のベクトルの内積の類似性によって示される。
スパースベクトルの値を50000個から200個に低減しても、これらのベクトルの相対的な類似性が保たれることが経験的に確認されている。このマッピングは、完全ではないが、文書のコンテンツを簡潔に特徴付ける目的としては十分である。
文書コレクションについて、特徴ベクトルを作成し、文書コレクションの情報空間を定義した後、ステップ150において、意味論的なマップを生成するために、特徴ベクトルを2次元SOMに射影する。以下、図5を参照して、コホネン(Kohonen)の自己組織化マップを用いて、特徴ベクトルをクラスタリングすることによって2次元にマッピングする処理を説明する。
コホネンの自己組織化マップは、各文書に対して作成された特徴ベクトルをクラスタ化し、組織化するために使用される。
自己組織化マップは、入力ノード170と、2次元平面185として示されるノードの2次元アレー又はグリッド内の出力ノード180とを含む。自己組織化マップをトレーニングするために使用される特徴ベクトル内の値と同じ数の入力ノード170が存在する。自己組織化マップ上の各出力ノード180は、重み付けされたコネクション(weighted connection)190(1つのコネクションにつき、1つの重み)によって入力ノード170に関連付けられている。
まず、各重みは、ランダムな値に設定され、繰り返し処理により、これらの重みが「トレーニング」される。自己組織化マップは、このマップの入力ノード170に各特徴ベクトルを供給することによってトレーニングされる。各出力ノードの入力ベクトルと重みとの間のユークリッド距離を算出することにより、「最も近い」出力ノードが算出される。
最も近い出力ノードは、「勝者(winner)」と呼ばれ、このノードの重みは、このノードが入力ベクトルにより近づくように重みの値を若干変更することによってトレーニングされる。勝者のノードに加えて、この勝者のノードに隣接するノードもトレーニングされ、入力ベクトルに若干近づけられる。
単一のノードを重み付けするだけではなく、マップ上のノードの領域を重み付けするこの処理によって、マップは、一旦トレーニングされれば、ノードの2次元マップ内に入力空間のトポロジの大部分を保存することができる。
マップが一旦トレーニングされると、各文書をマップにマッピングし、どの出力ノードが、その文書について入力された特徴ベクトルに最も近いかを確認することができる。重みが特徴ベクトルと等しいことは希であり、特徴ベクトルとこの特徴ベクトルに最も近いノードとの間のユークリッド距離は、「量子化誤差」として知られる。
各文書についての特徴ベクトルをマップに与えて、この特徴ベクトルがどこに存在するかを確かめることにより、各文書について、(x,y)座標で表されるマップ上の位置が得られる。これらの(x,y)座標で表されるマップ上の位置は、文書IDとともにルックアップテーブルで照合することにより、文書間の関係を視覚化するために使用することができる。
更に、ステップ160においてディザ成分(dither component)を加算する。ディザ成分については、図6を用いて後に説明する。
上述の手法では、2つの同一の又は実質的に同一の情報アイテムが、SOMのノードアレー内の同じノードにマッピングされてしまうことがある。これは、データを取り扱う上では問題にならないが、表示画面(後に説明する)上にデータを視覚化して表示する際に問題となる。特に、データを表示画面上に視覚化して表示する場合、多数の非常に似ているアイテムを特定のノードにおいて単一のアイテム上で区別できることが有用であると認められる。したがって、各情報アイテムがマッピングされるノード位置にディザ成分を加算する。ディザ成分は、ノード間隔の±1/2をランダムに加算するものである。例えば、図6に示すように、マッピング処理により出力ノード200が選択された情報アイテムにはディザ成分が加算され、この情報アイテムは、実際には、図6に点線枠で示す領域210内の任意のノード位置にマッピングされる。
このように、情報アイテムは、図6の面上において、SOM処理の「出力ノード」とは異なるノード位置にマッピングされることもある。
いかなる時点においても、SOMに新たな情報アイテムを追加することができる。この処理は、上述したステップ(すなわち、ステップ110〜ステップ140)を実行し、これにより得られた縮小された特徴ベクトルを「先にトレーニングされている」SOMモデル、すなわち、マップの自己組織化処理によって得られたSOMモデルの組に適用することによって行われる。したがって、新たに追加された情報アイテムについては、マップは、通常、「再トレーニング」されない。これに代えて、変更されていない全てのSOMモデルとともに、ステップ150及びステップ160を実行する。新たな情報アイテムが追加される毎にSOMを再トレーニングすると、演算コストが高くなり、また、ユーザは、マップ内においてよくアクセスする情報アイテムの相対的位置に慣れてくるので、再トレーニングは、ユーザを困惑させる場合もある。
しかしながら、再トレーニング処理を行う方が望ましい場合もある。例えば、最初にSOMが作成された後に、新たな用語(例えば、ニュース又は新たな技術分野における新たな用語)が辞書に追加されたとすると、これらの新たな用語は、既存の出力ノードの組には、うまくマッピングできない場合がある。これは、新たに受け取った情報アイテムの既存のSOMへのマッピングの際に検出される所謂「量子化誤差」の増大によって検出される。この具体例では、量子化誤差を誤差量の閾値と比較する。量子化誤差が閾値を超えている場合、(a)SOMに元から含まれる情報アイテム及びSOMの作成後に加えられたあらゆる情報アイテムを用いてSOMを自動的に再トレーニングし、又は(b)適切なときに再トレーニング処理を開始するようユーザに促す。再トレーニング処理は、関連する全ての情報アイテムの特徴ベクトルを用いて、ステップ150及びステップ160を全ての特徴アイテムを用いて再び実行することによって行われる。
図7は、検索作業のために、SOMに格納されたデータを視覚的に表示する表示装置60に表示される画面を示している。この画面には、検索文字列入力枠250、結果リスト260、SOM表示領域270が表示されている。
実際の作業では、表示領域270は、最初はブランクになっている。ユーザは、検索文字列入力枠250にキーワード検索文字列を入力する。次にユーザは、キーボード70のエンターボタンを押圧操作し、又はマウス80を用いて画面上の検索開始ボタンを選択することにより検索を開始する。キーワード検索文字列入力枠250に入力されたキーワードは、標準的なキーワード検索技術を用いて、データベース内の情報アイテムと比較される。この検索の結果は、結果リスト260内の各エントリ280として表示される。SOM表示領域270は、検索の結果として得られたアイテムに対応する表示点を表示する。
SOM表現を作成するために用いたソート処理により、互いに類似する情報アイテムがSOM内でグループ化されるため、文字列の検索結果は、例えばクラスタ290のように、クラスタ内に集中しやすい。ここで、SOM表示領域270内の各点は、結果リスト260内の関連する結果の1つに対応しており、SOM表示領域270内の各点が表示されている位置は、ノードアレー内におけるこれらのノードのアレー位置に対応している。
ヒット(結果リスト内の結果)の数を少なくする手法を図8を用いて説明する。この具体例では、ユーザは、マウス80を用いて、興味があるノードに対応する表示点の組の周辺を長方形状のボックス(境界線)300で囲む。結果リスト260内には、ボックス300内の点に対応する結果のみが表示される。これらの結果が、ユーザの求めるものと違うことが判明した場合、ユーザは、新たなボックスで他の表示点の組を囲む。
なお、結果リスト260は、検索文字列入力枠250に入力されたキーワードによる検索条件を満たし、且つ、表示点がボックス300内にある結果に対応するエントリを表示している。ボックス300は、ノードアレー内に含まれる(populated)ノードに対応する他の表示点を囲むこともできるが、これらのノードが検索条件を満たしていない場合、これらのノードは表示されず、したがって、結果リスト260内の結果には含まれない。
本発明の具体例を図9を用いて説明する。まず、図9におけるステップ920において、ラベルを有していない(この点がコホネンのSOMと異なる)自己組織化マップSOMを生成する。ユーザは、自己組織化マップ内を検索するためのガイダンスとなるラベルを要求する。本発明の具体例においては、ユーザの特定の要求(ニーズ)に合わせて、ラベルが自動的に生成される。ユーザは、図7及び/又は図8を用いて説明したように、検索の結果を示すリストを作成する。ラベルは、この結果に基づいて自動的且つ動的に生成され、表示領域270の表示点のクラスタ(clusters)を区別するために用いられる。
ステップ921において、ユーザは、検索操作を行う。検索操作は、この具体例では、図7を用いて説明したように、キーワード検索文字列を用いて行われる。この検索の結果得られた例えば文書等の多くのアイテムは、ステップ922において、マップ上の個々の(x,y)座標によって示される。ステップ921及びステップ922に続いて、ステップ923において、K−means法に基づくクラスタリング及び枝刈り("k-means clustering and pruning")が実行される。ステップ923における処理は、ステップ921における検索操作の結果として得られたアイテムの組に対応するマップ上の(x,y)座標に対して実行される。このステップ923においては、周知のK−meansクラスタリング法により、類似するアイテムを示すアイテムのグループが識別される。この処理は、検索結果のアイテムに対応する隣接する(x,y)座標のサブクラスタ(sub-cluster)が同じメインクラスタ(main cluster)の一部であるか否かを判定する処理(ステップ923における枝刈り(pruning)処理)を含む。2つのサブクラスタの中心間の距離が閾値より小さい場合、2つのサブクラスタは、同じメインクラスタの一部であるとみなされる。この枝刈り処理は、ステップ924において、クラスタ処理が安定する(stable)まで、周知の手法に基づいて繰り返し行われる。
P15
ステップ926において、クラスタ内のアイテム及びキーワードが特定される。各アイテムについて、上位20個のキーワード及びその出現頻度が予め算出される。クラスタラベルを算出する処理は、各アイテムについて予め導出された全てのキーワードの出現頻度の合計を算出し、最も出現頻度が高いキーワードを選択する処理を含む。選択されたキーワードは、クラスタのラベルとして適用される。このように、キーワードを予め算出することにより、クラスタのラベルを作成するために必要な時間を著しく短縮することができる。
クラスタ内に1つのアイテムしかない場合、そのアイテムの「タイトル」をラベルとして用いる。
このように、クラスタの決定及びクラスタに対するラベルの付与は、ユーザによる検索に基づいて行われる。
上述したサブクラスタの中心間の距離に関する閾値は、ユーザが選択してもよい。これに代えて、閾値を「拡大率(zoom)」に基づいて定めてもよい。SOMの一部のスケールを拡大して捉えてもよい。マップを小さなスケールで捉えると、隣接するクラスタは、より大きな1つのクラスタに見えるが、マップをより大きなスケールで捉えると、これらのクラスタは、それぞれ独立して見える。したがって、閾値は、拡大率に基づいて決定される。
アイテムは、文書でも画像でも映像でもよい。アイテムが画像や映像等のメディアアイテムである場合、キーワードは、画像や映像に関連するメタデータにおいて用いられているキーワードであってもよい。タイトルもメタデータの一例である。メタデータのこの他の例については、当分野について周知である。
更に、映像等のメディアアイテムを表すために、代表キースタンプ(Representative Key Stamp:RKS)を作成する手法も知られている。本発明の他の具体例においては、図7、又は図7及び図8、並びに上述したステップ920〜ステップ924に基づいて検索を実行し、表示領域270における表示点に対応する検索結果のリストを作成し、安定したクラスタを特定する。そして、ステップ928〜ステップ931として示すように、クラスタ290のラベルとして、RKSが選択される。例えば、本発明の一具体例においては、ステップ928において、クラスタ20のメディアアイテムのRKSが選択され、ステップ929において、これらのRKSの全てのカラーヒストグラムが算出される。ステップ930において、カラーヒストグラムの平均値が算出され、ステップ931において、この平均値に最も近いカラーヒストグラムを有するRKSが選択される。このように平均に近いRKSがクラスタを代表するRKSとなる。これにより、クラスタに対して、そのクラスタを代表するRKSをラベルとして付すことができる。個々のRKSは、そのクラスタ又は各クラスタ内の個々のメディアアイテムを代表している。
検索結果のリスト全体を代表するRKSと、各クラスタを代表するRKSと、検索リストの結果における個々のアイテムを代表する個々のRKSとからなるRKSの階層構造を生成してもよい。
単一のメディアアイテムのRKSは、周知のいかなる手法で選択してもよい。以下に、RKSを選択する手法の一例を説明する。
1)単一のメディアアイテムのRKSを判定するために、メディアアイテム内の各フレームについてメトリックを算出し、フレーム画像内に顔があるか、その顔が誰の顔であるか、及び音声チャンネルに人間の声が含まれているかを判定する。そして、メディアアイテム内に最も多く登場する個人の顔を含み、更にその個人の声を含むフレームを、代表フレームとして選択することができる。例えば、「パーキンソン(Parkinson):英国で有名なテレビジョン番組司会者」は、ゲストの登場するフレームより、パーキンソン自身がカメラに向かって話しているフレームを好む。
メディアアイテムのグループのRKS(例えば、リスト又はクラスタ)は、周知のいかなる手法で選択してもよい。この幾つかの具体例を以下に示す。
2)メディアアイテムのグループのRKSを決定するために、全てのメディアアイテム内の全てのフレームに対して、1)と同様の処理を行ってもよい。例えば、5分のアイテムが10個ある場合、これを単一の50分のアイテムとみなして、1)と同様の処理を行ってもよい。
3)これに代えて、メディアアイテムのグループについて、1)と同様の手法で、各アイテムのRKSを判定することもできる。次に、検索結果リストが、検索問い合わせ文字列への関連性に基づいて各検索結果をランク付けする関係メトリック(relevancy metric)を含んでいると仮定する。これにより、メディアアイテムのグループにおいて最も関連性が高いアイテムのRKSをメディアアイテムのグループのRKSとすることができる。
4)上述した3)の手法の拡張例として、任意の手法を用いて検索結果をランク付けし、検索結果のクラスタのうち、最も高いランクが高いアイテムを判定し、そのアイテムのRKSによってグループを代表させてもよい。
5)RKSを決定する単純な手法として、グループ内の全てのメディアアイテムを構成する全てのフレームの組から、自動的にランダムにフレームを選択し、又は、単純に、アイテムのグループのうち、最初に処理することになったフレームを自動的に選択してもよく、ユーザが最も適当と考えるフレームを代表的フレームとして選択してもよい。
図10は、ビデオ取得及び/又は処理装置(video acquisition and/or processing apparatus)の具体例として、カムコーダ500の構成を示す図である。カムコーダ500は、撮像装置510と、撮像装置510に取り付けられたレンズ520と、データ/信号プロセッサ530と、テープ状記録媒体540と、ディスク状又はランダムアクセス記録媒体550と、ユーザ操作子560と、表示装置570と、表示装置570に取り付けられた接眼レンズ580とを備える。周知のカムコーダ又は他の代替物におけるこの他の特徴(例えば、異なる記録媒体又は異なる表示画面構成)は、当業者にとって明らかである。実際の使用時には、捕捉されたビデオマテリアルに関連するメタデータがディスク状又はランダムアクセス記録媒体550に保存され、この保存されたデータに関連するSOMが表示装置570に表示され、ユーザ操作子560を用いて、上述のように制御される。
図11は、携帯可能なデータ表示装置の具体例として、携帯情報端末(personal digital assistant:以下、PDAという。)600の構成を示す図である。PDA600は、表示領域620及びユーザ操作子として機能するタッチセンサ領域630を有する表示画面610と、データ処理部及びデータ記録部(図示せず)とを備える。ここでも、この分野における当業者は、変形例を容易に想到できる。PDA600は、図1を用いて説明したシステムと同様に使用することができる。
添付の図面を参照して本発明を詳細に説明したが、本発明は上述の実施の形態の詳細に限定されるものではなく、当業者は、添付の請求の範囲に定義された本発明の思想及び範囲から逸脱することなく、上述の実施の形態を様々に変更及び修正することができる。
情報保存及び検索システムの構成を示す図である。 自己組織化マップ(SOM)の作成の手順を説明するフローチャートである。 a及びbは、用語頻度ヒストグラムを示す図である。 aは、生の特徴ベクトルを示し、bは、縮小された特徴ベクトルを示す図である。 SOMの構造を示す図である。 ディザ処理を説明する図である。 SOMによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。 SOMによって表現された情報にアクセスするためのユーザインタフェースを提供する表示画面を示す図である。 ラベルの自動的な生成処理を説明するフローチャートである。 ビデオ取得及び/又は処理装置の具体例として、カムコーダの構成を示す図である。 携帯型データ処理装置の具体例として、携帯情報端末の構成を示す図である。

Claims (39)

  1. 異なる性質の情報アイテムの組内の各情報アイテムが該情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、該ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索装置において、
    上記情報アイテムを選択するための検索条件を定義するユーザ操作手段と、
    上記ノードのアレー内で、上記選択された情報アイテムに対応する位置を検出する検出手段と、
    選択された情報アイテムに対応するノードのアレー内の位置を代表する表示点を表示するグラフィックユーザインタフェースと、
    上記検索条件によって定義された選択された情報アイテムに応じて、該選択された情報アイテムの情報コンテンツを代表する1以上の表現を提供するプロセッサとを備える情報検索装置。
  2. 上記グラフィックユーザインタフェースは、上記表示点の2次元表示アレーを表示することを特徴とする請求項1記載の情報検索装置。
  3. 上記情報アイテムとノードの間のマッピングにディザ成分が適用され、実質的に同一の情報アイテムが、上記アレーにおいて、近接しているが異なるノードにマッピングされるようにする請求項2記載の情報検索装置。
  4. 上記情報アイテムは、各情報アイテムから導かれた特徴ベクトルに基づいて、上記アレー内のノードにマッピングされることを特徴とする請求項2記載の情報検索装置。
  5. 上記情報アイテムから導かれた特徴ベクトルは、該情報アイテム内における、情報の特徴のグループ内の各特徴の出現頻度の組を表すことを特徴とする請求項4記載の情報検索装置。
  6. 上記情報アイテムは、テキスト情報を含み、上記情報アイテムから導かれた特徴ベクトルは、該情報アイテム内における、単語のグループ内の各単語の出現頻度の組を表すことを特徴とする請求項5記載の情報検索装置。
  7. 上記情報アイテムは、テキスト情報を含み、上記ノードは、上記テキスト情報の少なくとも一部の相互の類似性に基づいてマッピングされることを特徴とする請求項1記載の情報検索装置。
  8. 上記情報アイテムは、上記情報アイテムの組における頻度の閾値を超える頻度で出現する単語を除外することによって、マッピングのための前処理が施されることを特徴とする請求項6記載の情報検索装置。
  9. 上記情報アイテムは、上記情報アイテムの組における頻度の閾値を下回る頻度で出現する単語を除外することによって、マッピングのための前処理が施されることを特徴とする請求項6記載の情報検索装置。
  10. 上記ユーザ操作手段は、上記情報アイテムの単語に関する検索を実行する検索手段を有し、
    上記検索手段及び上記グラフィックユーザインタフェースは、協働して、上記検索によって選択された情報アイテムに対応する表示点のみが表示されるように動作することを特徴とする請求項1記載の情報検索装置。
  11. 上記プロセッサは、類似する情報アイテムのクラスタを検出し、各クラスタの情報アイテムの代表的な表現を提供することを特徴とする請求項1記載の情報検索装置。
  12. 上記プロセッサは、上記表現又は各表現をユーザディスプレイに、該表現が代表している情報アイテムに対応する表示点のラベルとして表示することを特徴とする請求項1記載の情報検索装置。
  13. 上記ラベルは、単語又は単語の組であることを特徴とする請求項12記載の情報検索装置。
  14. 上記プロセッサは、ラベルを付すべき情報アイテムの組に関して、上記選択された情報アイテムに対応する情報アイテム内で最も頻繁に用いられている単語又は単語の組を判定し、該単語又は単語の組をラベルとして適用することを特徴とする請求項11記載の情報検索装置。
  15. 上記情報アイテムは、少なくとも画像アイテムに関連し、上記プロセッサは、上記検索条件によって定義された選択された情報アイテムの情報コンテンツを代表する1以上の画像を提供することを特徴とする請求項1記載の情報検索装置。
  16. 上記プロセッサは、上記画像アイテムの組から、所定の選択条件に基づいて、該画像アイテムの組を代表する画像アイテムを選択することを特徴とする請求項15記載の情報検索装置。
  17. 上記プロセッサは、該画像アイテムの組における同じプロパティの平均に最も近いプロパティを有する画像アイテムを選択することを特徴とする請求項15記載の情報検索装置。
  18. 上記1以上の代表する画像は、該画像によって代表される情報アイテムに対応する表示点のラベルとして適用されることを特徴とする請求項15記載の情報検索装置。
  19. 請求項1記載の情報検索装置を備える携帯型データ処理装置。
  20. 請求項1記載の情報検索装置を備えるビデオ取得及び/又は処理装置。
  21. 異なる性質の情報アイテムの組内の各情報アイテムが該情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、該ノードのアレー内の類似する位置におけるノードにマッピングされる情報検索方法において、
    上記情報アイテムを選択するための検索条件を定義するステップと、
    ノードのアレー内で、上記選択された情報アイテムに対応する位置を検出するステップと、
    選択された情報アイテムに対応するノードのアレー内の位置を代表する表示点を表示するステップと、
    上記検索条件によって定義された選択された情報アイテムに応じて、該選択された情報アイテムの情報コンテンツを代表する1以上の表現を提供するステップとを有する情報検索方法。
  22. 上記表示点を表示するステップは、上記表示点の2次元表示アレーを表示するステップを有することを特徴とする請求項21記載の情報検索方法。
  23. 情報アイテムの検索を実行するステップと、
    上記検索によって選択された情報アイテムに対応する表示点のみをユーザディスプレイに表示するステップとを有する請求項21記載の情報検索方法。
  24. 類似する情報アイテムのクラスタを検出し、各クラスタの情報アイテムの代表的な表現を提供するステップを有する請求項21記載の情報検索方法。
  25. 上記表現又は各表現をユーザディスプレイに、該表現が代表している情報アイテムに対応する表示点のラベルとして表示するステップを有する請求項21記載の情報検索方法。
  26. 上記ラベルは、単語又は単語の組であることを特徴とする請求項25記載の情報検索方法。
  27. 上記情報アイテムは、少なくとも画像アイテムに関連し、上記検索条件によって定義された選択された情報アイテムの情報コンテンツを代表する1以上の画像を提供するステップを有することを特徴とする請求項21記載の情報検索方法。
  28. 上記画像アイテムの組から、所定の選択条件に基づいて、該画像アイテムの組を代表する画像アイテムを選択するステップを有する請求項27記載の情報検索方法。
  29. 該画像アイテムの組における同じプロパティの平均に最も近いプロパティを有する画像アイテムを選択するステップを有する請求項28記載の情報検索方法。
  30. 請求項21に示す情報検索方法を実行するプログラムコードを有するコンピュータソフトウェア。
  31. 請求項30記載のコンピュータソフトウェアを提供する提供媒体。
  32. 当該提供媒体は、記録媒体であることを特徴とする請求項31記載の提供媒体。
  33. 当該提供媒体は、伝送媒体であることを特徴とする請求項31記載の提供媒体。
  34. 異なる性質の情報アイテムの組内の各情報アイテムが該情報アイテムの相互の類似性に基づいてノードのアレー内の各ノードにマッピングされ、類似する情報アイテムが、該ノードのアレー内の類似する位置におけるノードにマッピングされるユーザインタフェースにおいて、
    上記情報アイテムを選択するための検索条件を定義するユーザ操作手段と、
    選択された情報アイテムに対応するノードのアレー内の位置を代表する表示点を表示するとともに、上記検索によって選択された情報アイテムの情報コンテンツを代表する1以上の表現を表示するグラフィックユーザインタフェースとを備えるユーザインタフェース。
  35. 上記ユーザ操作手段は、上記情報アイテムの単語に関する検索を実行する検索手段を有し、
    上記検索手段及び上記グラフィックユーザインタフェースは、協働して、上記検索によって選択された情報アイテムに対応する表示点のみが表示されるように動作することを特徴とする請求項34記載のユーザインタフェース。
  36. 上記グラフィックユーザインタフェースは、類似する情報アイテムを含む各クラスタの情報アイテムの代表的な表現を提供することを特徴とする請求項34記載のユーザインタフェース。
  37. 上記グラフィックユーザインタフェースは、上記表現又は各表現をユーザディスプレイに、該表現が代表している情報アイテムに対応する表示点のラベルとして表示することを特徴とする請求項34記載のユーザインタフェース。
  38. 上記ラベルは、単語又は単語の組であることを特徴とする請求項37記載のユーザインタフェース。
  39. 上記表現は、画像アイテムであり、該画像アイテムは、該画像アイテムによって代表される情報アイテムに対応する表示点に表示されるラベルとして適用されることを特徴とする請求項34記載のユーザインタフェース。
JP2003398038A 2002-11-27 2003-11-27 情報の格納及び検索 Pending JP2004213626A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB0227658A GB2395805A (en) 2002-11-27 2002-11-27 Information retrieval

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2008110736A Division JP2008276768A (ja) 2002-11-27 2008-04-21 情報検索装置及び方法

Publications (2)

Publication Number Publication Date
JP2004213626A true JP2004213626A (ja) 2004-07-29
JP2004213626A5 JP2004213626A5 (ja) 2007-01-18

Family

ID=9948606

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2003398038A Pending JP2004213626A (ja) 2002-11-27 2003-11-27 情報の格納及び検索
JP2008110736A Pending JP2008276768A (ja) 2002-11-27 2008-04-21 情報検索装置及び方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2008110736A Pending JP2008276768A (ja) 2002-11-27 2008-04-21 情報検索装置及び方法

Country Status (4)

Country Link
US (1) US7668853B2 (ja)
EP (1) EP1426881A3 (ja)
JP (2) JP2004213626A (ja)
GB (1) GB2395805A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006236311A (ja) * 2004-12-09 2006-09-07 Sony United Kingdom Ltd 情報処理方法
JP2009069909A (ja) * 2007-09-10 2009-04-02 Chugoku Electric Power Co Inc:The 情報処理装置、情報処理装置の制御方法、及びプログラム
JP2012168668A (ja) * 2011-02-14 2012-09-06 Fujitsu Ltd データ表示プログラム,データ表示装置およびデータ表示方法
WO2015072085A1 (ja) * 2013-11-12 2015-05-21 日本電気株式会社 ログ分析システム、ログ分析方法、および、記憶媒体
WO2015159702A1 (ja) * 2014-04-14 2015-10-22 株式会社toor 部分情報抽出システム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2395804A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
US7975035B2 (en) * 2003-12-01 2011-07-05 International Business Machines Corporation Method and apparatus to support application and network awareness of collaborative applications using multi-attribute clustering
CA2463006A1 (en) * 2004-01-27 2005-07-27 Wrapped Apps Corporation On demand provisioning of web applications
GB2444535A (en) 2006-12-06 2008-06-11 Sony Uk Ltd Generating textual metadata for an information item in a database from metadata associated with similar information items
US8180713B1 (en) 2007-04-13 2012-05-15 Standard & Poor's Financial Services Llc System and method for searching and identifying potential financial risks disclosed within a document
WO2009140639A1 (en) * 2008-05-15 2009-11-19 Unicorn Media, Inc. Relevancy search method for media objects in a database
US8868550B2 (en) * 2009-04-27 2014-10-21 Citysearch, LLC Method and system for providing an answer
JP5757213B2 (ja) * 2011-09-30 2015-07-29 大日本印刷株式会社 サーバ装置、プログラム及び通信システム
PT2639749T (pt) * 2012-03-15 2017-01-18 Cortical Io Gmbh Métodos, aparelhos e produtos para processamento semântico de texto
US9141882B1 (en) 2012-10-19 2015-09-22 Networked Insights, Llc Clustering of text units using dimensionality reduction of multi-dimensional arrays
CN107341152B (zh) * 2016-04-28 2020-05-08 创新先进技术有限公司 一种参数输入的方法及装置
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
JP7078126B2 (ja) * 2018-10-16 2022-05-31 株式会社島津製作所 事例検索方法
KR20200112386A (ko) * 2019-03-22 2020-10-05 삼성전자주식회사 전자 장치 및 그 제어 방법

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544352A (en) * 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
JPH07121568A (ja) 1993-10-26 1995-05-12 Fuji Xerox Co Ltd 情報提示装置
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5983237A (en) * 1996-03-29 1999-11-09 Virage, Inc. Visual dictionary
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US5963965A (en) * 1997-02-18 1999-10-05 Semio Corporation Text processing and retrieval system and method
US5877766A (en) * 1997-08-15 1999-03-02 International Business Machines Corporation Multi-node user interface component and method thereof for use in accessing a plurality of linked records
US5995978A (en) * 1997-09-24 1999-11-30 Ricoh Company, Ltd. Navigation system for document image database
US6088804A (en) * 1998-01-12 2000-07-11 Motorola, Inc. Adaptive system and method for responding to computer network security attacks
US6211876B1 (en) 1998-06-22 2001-04-03 Mitsubishi Electric Research Laboratories, Inc. Method and system for displaying icons representing information items stored in a database
US6493705B1 (en) * 1998-09-30 2002-12-10 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
US6629097B1 (en) * 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
US6782395B2 (en) * 1999-12-03 2004-08-24 Canon Kabushiki Kaisha Method and devices for indexing and seeking digital images taking into account the definition of regions of interest
KR20040041082A (ko) * 2000-07-24 2004-05-13 비브콤 인코포레이티드 멀티미디어 북마크와 비디오의 가상 편집을 위한 시스템및 방법
JP2002132831A (ja) 2000-10-23 2002-05-10 Olympus Optical Co Ltd 画像表示方法および画像表示装置
US7099860B1 (en) * 2000-10-30 2006-08-29 Microsoft Corporation Image retrieval systems and methods with semantic and feature based relevance feedback
WO2002065339A1 (fr) 2001-01-09 2002-08-22 Fujitsu Limited Dispositif de tri/reorganisation de donnees multimedia et procede de tri/reorganisation
US6959303B2 (en) * 2001-01-17 2005-10-25 Arcot Systems, Inc. Efficient searching techniques
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US7085753B2 (en) * 2001-03-22 2006-08-01 E-Nvent Usa Inc. Method and system for mapping and searching the Internet and displaying the results in a visual form
US6735578B2 (en) * 2001-05-10 2004-05-11 Honeywell International Inc. Indexing of knowledge base in multilayer self-organizing maps with hessian and perturbation induced fast learning
WO2003012713A1 (en) * 2001-07-30 2003-02-13 Compudigm International Limited Data visualisation system and method
US7031909B2 (en) * 2002-03-12 2006-04-18 Verity, Inc. Method and system for naming a cluster of words and phrases
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006236311A (ja) * 2004-12-09 2006-09-07 Sony United Kingdom Ltd 情報処理方法
JP2009069909A (ja) * 2007-09-10 2009-04-02 Chugoku Electric Power Co Inc:The 情報処理装置、情報処理装置の制御方法、及びプログラム
JP2012168668A (ja) * 2011-02-14 2012-09-06 Fujitsu Ltd データ表示プログラム,データ表示装置およびデータ表示方法
WO2015072085A1 (ja) * 2013-11-12 2015-05-21 日本電気株式会社 ログ分析システム、ログ分析方法、および、記憶媒体
JPWO2015072085A1 (ja) * 2013-11-12 2017-03-16 日本電気株式会社 ログ分析システム、ログ分析方法、および、プログラム
WO2015159702A1 (ja) * 2014-04-14 2015-10-22 株式会社toor 部分情報抽出システム
JP2015203960A (ja) * 2014-04-14 2015-11-16 株式会社toor 部分情報抽出システム

Also Published As

Publication number Publication date
GB0227658D0 (en) 2003-01-08
JP2008276768A (ja) 2008-11-13
EP1426881A2 (en) 2004-06-09
GB2395805A (en) 2004-06-02
US7668853B2 (en) 2010-02-23
EP1426881A3 (en) 2005-08-31
US20040139105A1 (en) 2004-07-15

Similar Documents

Publication Publication Date Title
JP4569955B2 (ja) 情報格納及び検索方法
JP2008276768A (ja) 情報検索装置及び方法
US7502780B2 (en) Information storage and retrieval
JP4776894B2 (ja) 情報検索方法
JP4711385B2 (ja) 情報処理
JP5309155B2 (ja) イメージ検索における対話型概念学習
KR101377389B1 (ko) 다차원 검색 시스템, 다차원 검색을 수행하는 컴퓨터 구현 방법 및 컴퓨터 실행가능 시스템
EP1426882A2 (en) Information storage and retrieval
JP2006127484A (ja) 情報処理方法
JP2004164608A (ja) 情報検索装置
US8527564B2 (en) Image object retrieval based on aggregation of visual annotations
US20040107195A1 (en) Information storage and retrieval
US20040130569A1 (en) Information storage and retrieval
Ye et al. A visualised software library: nested self-organising maps for retrieving and browsing reusable software assets
Tsikrika et al. Discovery of environmental web resources based on the combination of multimedia evidence
Magalhães et al. Searching Semantic-Multimedia Spaces

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061122

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070522

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070822

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070827

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070928

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20071022

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071025

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071122

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080421

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080515