JP2009093649A - オントロジー空間を規定するタームの推奨 - Google Patents

オントロジー空間を規定するタームの推奨 Download PDF

Info

Publication number
JP2009093649A
JP2009093649A JP2008259629A JP2008259629A JP2009093649A JP 2009093649 A JP2009093649 A JP 2009093649A JP 2008259629 A JP2008259629 A JP 2008259629A JP 2008259629 A JP2008259629 A JP 2008259629A JP 2009093649 A JP2009093649 A JP 2009093649A
Authority
JP
Japan
Prior art keywords
terms
similarity
document
tag
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008259629A
Other languages
English (en)
Other versions
JP5391633B2 (ja
Inventor
David L Marvit
エル マーヴィット デイヴィド
Jawahar Jain
ジャイン ジャワハー
Stergios Stergiou
ステルギオウ ステリオス
Alex Gilman
ギルマン アレックス
B Thomas Adler
トマス アドラー ビー
John J Sidorowich
ジェイ シドロヴィッチ ジョン
Yannis Labrou
ラブロウ ヤニス
Albert Reinhardt
レインハート アルバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2009093649A publication Critical patent/JP2009093649A/ja
Application granted granted Critical
Publication of JP5391633B2 publication Critical patent/JP5391633B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】今までの文書タグ付け方法は情報を見つける際に効果的でないことがある。同様に、今までの検索方法は関連情報を見つける際に効果的でないことがある。
【解決手段】一実施形態では、検索のための一組の目標検索タームを受け取る段階を含む。候補タームを選択する。候補タームは前記検索のオントロジー空間を減縮するように選択される。前記候補タームを検索タームとして推奨するコンピュータに前記候補タームを送る。他の実施形態では、有体媒体に記憶された文書にアクセスする。前記文書に対する一組の目標タグを受け取る。タームを選択する。タームは前記文書のオントロジー空間を減縮するように選択される。前記タームをタグとして推奨するコンピュータに前記タームを送る。
【選択図】図1

Description

本発明は辞書分析に関し、より具体的にはオントロジー空間を規定するタームの推奨に関する。
データのコーパス(corpus)は大量の情報を保持し、関連する情報を見つけるのは困難である。文書にはタグを付けて関連情報の検索を容易にすることができる。しかし、場合によっては、今までの文書タグ付け方法は情報を見つける際に効果的でないことがある。同様に、今までの検索方法は関連情報を見つける際に効果的でないことがある。
[関連出願]
本願は、デイビッド・マービットらにより2007年10月5日に出願された米国仮出願第60/977,934号、発明の名称「改善されたタグ付け方法」、代理人管理番号第073338.0554号の米国特許法第119条(e)項の利益を主張するものである。
一実施形態による方法は、有体媒体に記憶された文書にアクセスする段階と、前記文書に対する一組の目標タグを受け取る段階と、複数のタームを選択する段階であって、前記文書のオントロジー空間を減縮するようにタームを選択する段階と、前記タームをタグとして推奨するコンピュータに前記タームを送る段階とを含む。
他の実施形態によるコンピュータ読み取り可能有体媒体は、実行したとき、有体媒体に記憶された文書にアクセスする段階と、前記文書に対する一組の目標タグを受け取る段階と、複数のタームを選択する段階であって、前記文書のオントロジー空間を減縮するようにタームを選択する段階と、前記タームをタグとして推奨するコンピュータに前記タームを送る段階とを実行するソフトウェアをエンコードしたものである。
また、他の実施形態による方法は、検索のための一組の目標検索タームを受け取る段階と、複数の候補タームを選択する段階であって、前記検索のオントロジー空間を減縮するように候補タームを選択する段階と、前記候補タームを検索タームとして推奨するコンピュータに前記候補タームを送る段階とを含む。
さらに他の実施形態によるコンピュータ読み取り可能有体媒体は、実行したとき、検索のための一組の目標検索タームを受け取る段階と、複数の候補タームを選択する段階であって、前記検索のオントロジー空間を減縮するように候補タームを選択する段階と、前記候補タームを検索タームとして推奨するコンピュータに前記候補タームを送る段階とを実行するソフトウェアをエンコードしたものである。
図1は、文書のタグを選択するシステム10の一実施形態を示す図である。タグ(tag)は文書に割り当てられたワード(words)であり、例えばメタデータとして割り当てられたものである。タグは電子的文書の検索プロセスを容易にするために用いることができる。ある実施形態では、文書が属するオントロジー空間を減縮するタグをその文書に付ける。こうしたタグを用いるとその文書をもっと容易に検索できる。ある実施形態では、文書にタグが付けられたときに、その文書が属するオントロジー空間を減縮する他のタグを推奨する。
ある実施形態では、システム10は、例えばユーザが目標タグ(target tags)を選択すると、複数のタグを割り当てる。上記の実施形態において、システム10は文書に対する複数のタグを推奨する。推奨される複数のタグは、目標タグとの類似性(affinity)が高いが、文書のオントロジー空間を減縮するために、推奨される他のタグとの類似性は低い。システム10は推奨されたタグの選択を受けて、その選択に応じてより多くのタグを推奨する。システム10は、最終的にタグを選択すると、その最終的なタグをその文書に付与する。上記の実施形態は、テキストを含む文書のみならず、テキストを含まない文書にもタグを付与するために用いることができる。
ある実施形態では、ワードのサブセット(subset)と辞書Dとが与えられた時に、その逆インデックスIIから有向類似性を計算することができる。ここで、インデックスIIは例えばワードwとwのエントリーI(w)とI(w)を含む。一般的に、逆インデックス(inverted index)は、ターム(term)からその位置へのマッピング、すなわちそのタームが現れる共起コンテキスト(co-occurrence contexts)へのマッピングを格納したインデックスデータ構造である。D中のワードwとwの各ペアに対して、II中のエントリーI(w)、I(w)の結合部分中の値を、I(w)中の値の数で割った値としてDA(i,j)を定義する。一般的に、DA(i,j)はDA(j,i)と必ずしも等しくはない。その結果は任意の適切な方法で格納する。例えば、行ごとに、すなわちD(1,i)を格納し、次にD(2,j)を格納し、以下同様に格納する。各行iに対して、|I(w)|を格納し、その後にwとの結合部分(conjunction)の濃度を格納する。
ある実施形態では、有向類似性を3段階で計算する。上記の実施形態では、各辞書タームには一意的な整数の識別子を付与する。逆インデックスのエントリーはその整数識別子に対応する。段階0では、Dに対応するIIのエントリーを読み出す。パラメータ(s,o)に対して、ks+oの形である要素識別子を保存する。値ks+oにより、逆インデックスII中の調べるべきエントリーのサブセットが決まる。このようにして、有向類似性を並行して計算できる。一例として、パラメータs,o(1,0)から得られる結果は、パラメータ(3,0)、(3,1)、(3,2)の計算を合わせたものから得られる結果と同じである。この段階により非常に大きな逆インデックスに対してDAテーブルを計算することができる。
段階1では、DA(i,j)のみに対して行ごとに結合を計算する。段階2では、計算された上部三角領域のUT DA配列を読み出す。下部三角領域は、上記三角領域からその転置として求められる。ある実施形態では、同じ次元の複数のDA配列をひとつの配列に結合してもよい。大きな逆インデックスIIのDA配列を、パラメータを(s,i)としてi=0..(s−1)にわたるDAの和として計算できる。有向類似性(directional affinities)を算出できるように、計算した結合(conjunctions)とともに付加的な情報を格納してもよい。ある実施形態では、IIエントリーの濃度を格納してもよい。
ある実施形態では、DAを行ごとに格納し、DAエントリーの計算と並行してAAエントリーの計算を進めることができる。具体的に、DAの行をディスクから読み出しつつ加算し、最後に辞書エントリーの数で規格化することによってAAを生成する。
図示した実施形態において、システム10はクライアント20、サーバ22、及びメモリ24を含む。ユーザは、クライアント20によりサーバ22と通信して、言語のオントロジーを生成する。クライアント20は、ユーザ入力をサーバ22に送信し、サーバ出力をユーザに提供(例えば、表示や印刷)する。サーバシステム24は言語のオントロジーを生成するアプリケーションを管理する。メモリ24はサーバシステム24が使うデータを記憶する。
図示した実施形態において、メモリ24はページ50とレコード54とを記憶している。ページ50(すなわち文書または共起コンテキスト)はワード(word)の集まりである。ページ50の例としては、文書のページや、文書や、ブックや、ウェブページや、通信(例えば電子メールやインスタントメッセージ)その他がある。ページ50はページ識別子により識別できる。ページ50は有体のコンピュータ読み取り可能媒体に電子的に記憶されていてもよい。ページ50には任意の適切なコンテンツが含まれる。例えば、テキスト(文字、ワード、数字等)、画像(グラフィックス、写真、ビデオ等)、オーディオ(録音、コンピュータ生成サウンド等)、ソフトウェアプログラムが含まれる。ある実施形態では、一組のページ50がコーパス(corpus)に属している。コーパスは特定の主題、コミュニティ、組織、エンティティ(entity)に関連している。
レコード54はページ50を記述する。本実施形態では、レコード54は、インデックス58、逆インデックス62、オントロジー66、クラスター67を含む。インデックス58はインデックスリストを含み、ページ50のインデックスリストはページ50のワードを示す。逆インデックス62は逆インデックスリストを含み、あるワード(または一組のワード)の逆インデックスリストはそのワード(または一組のワード)を含むページ50を示す。一実施例では、リストWはワードwを含むページ50のページ識別子を含む。リストW&Wはワードwとwを両方とも含む連言ページ(conjunction pages)50のページ識別子を含む。リストW+Wはワードwまたはwのいずれかを含む選言ページ(disjunction pages)50のページ識別子を含む。P(W)はWのページ50の数、すなわちワードwを含むページ50の数である。
一実施形態では、リスト(インデックスリスト、逆インデックスリスト等)はバイナリ・ディシジョン・ダイアグラム(BDD)として記憶される。一実施例では、集合Wのバイナリ・ディシジョン・ダイアグラムBDD(W)はワードwを有するページ50を表す。BDD(W)の十分割当カウント(satisfying assignment count)Satisf(BDD(W))によりワードwを有するページ50の数P(W)が求まる。
Figure 2009093649
したがって、
Figure 2009093649
オントロジー66は言語のワードとそのワード間の関係を表すものである。一実施形態では、オントロジー66はワード間の類似性(affinities)を表す。図示した実施例では、オントロジー66は類似性マトリックスと類似性グラフを含む。類似性マトリックスの例を図3乃至図5を参照して説明する。類似性グラフの例を図6を参照して説明する。クラスター67は互いに関係するワードのクラスターを記録している。クラスターは図7を参照してより詳細に説明する。
図示した実施形態では、サーバ22は類似性モジュール30、クラスターリングモジュール31、及びオントロジー特性モジュール32、及びタギングモジュール35を含む。類似性モジュール30はワードのペアの類似性を計算し、その類似性を類似性マトリックスに記録し、及び/または類似性マトリックスをレポートする。類似性モジュール30は類似性グラフも生成できる。類似性モジュール30は図2を参照してより詳細に説明する。
実施形態では、クラスターリングモジュール31は、データセット中の関係する要素のクラスターを特定することにより、そのデータセット中のパターンを発見する。実施形態では、クラスターリングモジュール31は一組のワード(例えば、言語や一組のページ50等)のクラスターを特定できる。一般的に、クラスターのワードは互いに強く関係しているが、クラスター外のワードとは関係していない。ワードのクラスターはその一組のワードのテーマ(すなわちトピック)を指定する。ある実施形態では、クラスターリングモジュール31は、関係するワード間の類似性によりそのクラスターを特定する。その実施形態では、クラスターのワードは互いに強く類似しているが、クラスター外のワードとは類似していない。クラスターリングモジュール31は図7を参照してより詳細に説明する。
実施形態では、オントロジー特性モジュール32は一組のワード(例えば、ワードやそのワードを含む文書)のオントロジー特性(ontology features)を決定し、そのオントロジー特性を様々な場合に適用する。オントロジー特性はワードセットの特徴であり、言語のオントロジー空間にそのワードセットを配置するものである。オントロジー特性の例としては深さ(depth)と具体性(specificity)がある。実施形態では、深さ(depth)はワードセットのテキストとしての精巧さ(textual sophistication)を示す。深さがより大きい(深い)ワードセットは、より技術的かつ専門的であり、深さがより小さい(浅い)ワードセットは、より一般的なものである。実施形態では、ワードセットの具体性はそのワードセットのテーマの数に関係する。具体性が高いワードセットが有するテーマはより少なく、具体性が低いワードセットが有するテーマはより多い。
オントロジー特性モジュール32はオントロジー特性を任意の適切な場合に適用する。適切な場合とは、例えば、オントロジー特性による文書の検索、ソート、選択や、文書のオントロジー特性のレポートや、ユーザの文書のオントロジー特性の決定などである。オントロジー特性モジュール32は図8を参照してより詳細に説明する。
ある実施形態では、タギングモジュール(tagging module)35は、文書にタグ付けするタグを選択する。タグは任意の適切な方法で選択することができる。ある実施形態では、タギングモジュール35はトピックスをそれに関係するワードの統計的分布としてモデル化する。タギングモジュール35は統計的分布を用いて、文書から選択されたワードが出現する確率が最も高いトピックスを特定し、そのトピックスに応じてその文書のタグを選択する。他の実施形態では、タギングモジュール35は文書のパラグラフのタグ候補を特定する。タギングモジュール35はタグ候補の、その文書の他のタグ候補との関係性を決定して、その決定に応じてその文書のタグを選択する。さらに別の実施形態では、タギングモジュール35は文書のタグを推奨する。タグは、ユーザまたはコンピュータが入力または選択した目標タグ(target tags)との類似性(例えば、有向類似性や差分類似性)に基づいて推奨する。タグ部314は、最終的にタグを選択すると、選択したタグを文書に付与する。タギングモジュール35は図9を参照してより詳細に説明する。
システム10の構成要素は、インターフェース、ロジック、メモリ、その他の適切な要素を含む。インターフェースは入力を受信し、出力を送信し、入力や出力を処理し、その他の適当な動作を行う。インターフェースはハードウェア及び/またはソフトウェアを含む。
ロジックは、これらの構成要素の動作を行い、例えば、入力から出力を生成する命令を実行する。ロジックはハードウェア、ソフトウェア及び/またはその他のロジックを含む。ロジックは有体媒体にエンコードされ、コンピュータにより実行された時に動作するものであってもよい。プロセッサ等のある種のロジックが構成要素の動作を管理してもよい。プロセッサの例としては、例えば、コンピュータ、マイクロプロセッサ、アプリケーションその他のロジックがある。
メモリは情報を記憶する。メモリは有体の、コンピュータ読み取り可能な、及び/またはコンピュータ実行可能な記憶媒体である。メモリの例には、コンピュータのメモリ(RAM、ROM等)、大規模記憶媒体(ハードディスク等)、リムーバブル記憶媒体(CD、DVD等)、データベースやネットワーク記憶装置(サーバ等)、その他のコンピュータ読み取り可能な媒体が含まれる。
本発明の範囲から逸脱することなく、システム10に修正、追加、または削除をすることができる。システム10の構成要素は一体であっても分かれていてもよい。さらに、システム10の動作を実行する構成要素は、これより多くても少なくてもよいし、他の構成要素であってもよい。例えば、生成器42、46の動作を1つの構成要素により行ってもよいし、類似性計算器34の動作を2つ以上の構成要素で行ってもよい。また、システム10の動作の実行は、ソフトウェア、ハードウェア、及び/またはその他のロジックを含む任意の適切なロジックを用いて行ってもよい。本明細書では、「各」とは、集合の各要素、または集合の部分集合の各要素を指す。
本発明の範囲から逸脱することなく、マトリックスの例に修正、追加、または削除をすることができる。マトリックスに含まれる値はこれより多くても少なくてもよく、他の値が含まれてもよい。また、マトリックスの値を任意の適切な順序で構成してもよい。
図2は、図1のシステム10で使用できる類似性モジュール30の一実施形態を示す図である。類似性モジュール30はワードのペアの類似性を計算し、その類似性を類似性マトリックスに記録し、及び/またはその類似性マトリックスをレポートする。類似性モジュール30は類似性グラフも生成できる。
図示した実施形態では、類似性モジュール30は類似性計算器34、オントロジー生成器38、及びワード推奨器48を含む。類似性計算器34は、ワードwの、または第1のワードwと第2のワードwを含むワードペアの任意の適切なタイプの類似性を計算する。類似性の例には基本類似性、有向類似性、平均類似性、差分類似性、その他の類似性が含まれる。
一実施形態では、ワード推奨器48は、シード・ワード(seed word)を受け取り、そのシード・ワードとの類似性が閾値より高いワードを特定する。類似性閾値は任意の適切な値であり、0.25、0.5、0.75、0.95やこれらより大きな値であってもよい。類似性閾値は予めプログラムしても、ユーザが指定してもよい。
基本類似性はワードw及び/またはwを含むページ50の量(例えば数)に基づき計算できる。連言ページ量(conjunction page amount)はワードwとwを両方とも含むページ50の量を表し、選言ページ量(disjunction page amount)はワードwまたはwのいずれか一方を含むページ50の量を表す。基本類似性は連言ページ量を選言ページ量で割って求められる。一実施例では、連言ページ数はワードwとワードwを含むページ数を示し、選言ページ数はワードwまたはワードwのいずれかを含むページ数を示す。基本類似性は連言(conjunction)ページ数を選言(disjunction)ページ数で割って求めることができる。
Figure 2009093649
図3は、基本類似性を記録した類似性マトリックス110の一例を示す図である。図示した例では、類似性マトリックス110はワードw,...,wのペアごとの類似性を記録している。類似性マトリックス110によると、ワードwとwの間の類似性は0.003であり、ワードwとwの間の類似性は0.005であり、以下同様である。
図1に戻り、類似性グループは相互に類似性が高いワードのペアを含み、この類似性グループを用いてページのコンテンツに対するワードw、w間の関係を捉える。類似性が類似性グループ閾値よりも高いことを、類似性が高いという。閾値は任意の適切な値であり、0.50、0.60、0.75、0.90、0.95より大きな値であってもよい。1つのワードは2つ以上の類似性グループに属してもよい。一実施形態では、類似性グループはBDDとして表すことができる。逆インデックス62に、BDDのポインタをそのグループの各ワードとともに格納してもよい。
有向類似性を用いてワードwに対するワードwの重要性を測ることができる。類似性計算器34は、ワードwが与えられたときのワードwの有向類似性を、ワードwとwを含むページ50の量(例えば数)から計算する。ワードwページ量は、ワードwを含むページ50の量を表す。ワードwが与えられたときのワードwの有向類似性は、連言ページ量をワードwページ量で割ったものである。例えば、ワードwページの数はワードwを含むページ50の数を示す。ワードwが与えられたときのワードwの有向類似性は、結合ページ50の数をワードwページ50の数で割ったものである。
Figure 2009093649
DAffinity(w,w)はDAffinity(w,w)と同じではない。ワードwとwの間の有向類似性DAffinity(w,w)が高いということは、ページ50がワードwを含むときにそのページ50がワードwを含む確率が高いということを示す。一例では、ページ[1 2 3 4 5 6]がワードwを含み、ページ[4 2]がワードwを含む。ワードwを含むページがワードwも含むということは、ワードwの観点からは、ワードwの重要性が高いということである。ワードwを含むページの1/3のみがワードwを含むということは、ワードwの観点からは、ワードwの重要性が低いということである。
図4は、ワードw,...wの基本類似性を記録した類似性マトリックス120の一例を示す図である。上記の例では、ワード124はAワード、ワード128はBワードである。マトリックス120の行はAワードが与えられたときのBワードの類似性を記録し、類似性マトリックス120の列はBワードが与えられたときの類似性を記録する。
図1に戻り、他のワードwに対するワードwの平均類似性を計算する。一実施形態では、平均類似性は、ワードwとその他のすべてのワードwとの間の類似性の平均である。N個のワードに対するワードwの平均類似性は次式で表される。
Figure 2009093649
図5は、平均類似性を記録した類似性マトリックス140の一例を示す図である。行142はワード1乃至ワード50,000の基本類似性を記録している。行144はワード1乃至ワード50,000の平均類似性を記録している。
図1に戻り、ワードの平均類似性はそのワードの深さを示す。平均類似性が低いワードは深いワードであると考えられ、平均類似性が高いワードは浅いワードであると考えられる。深いワードは技術的であり、具体的であり、精密であるという傾向がある。深いワードの割合が高いページ50は深いページであると考えられ、深いワードの割合が低いページ50は浅いページであると考えられる。一実施形態では、ユーザは検索するワード及び/またはページ50の深さを指定することができる。
ページ50の深いワードは関係性が高いワードのクラスターを形成する。クラスターは共通のアイデアやテーマを表す。ページ50のテーマ数はそのページ50の具体性(specificity)を示す。テーマが少ないページ50はより具体的であると考えられ、テーマが多いページ50はあまり具体的でないと考えられる。
ワードwに対するワードwの差分類似性は、ワードwとwの間の有向類似性からワードwのその他すべてのワードとの平均類似性を引いたものである。差分類似性は次式で表せる:
Figure 2009093649
差分類似性は、ページ50にワードwが出現する一般的な傾向によるバイアスを除去したものである。場合によっては、差分類似性は、ページがワードwを含むときにそのページがワードwを含む確率をより正確に示すものである。
差分類似性は様々な応用ができる。一例では、人の名前の間の差分類似性を用いて社会的ネットワークを研究できる。他の例では、言語要素間の差分類似性を用いて自然言語処理を研究できる。他の例では、製品間の差分類似性を用いてマーケティングを研究できる。
類似性計算器34は、任意の適切な方法を用いて逆インデックスリストを検索し類似性を計算する。例えば、ワードwとワードwを両方とも含むページを特定するため、類似性計算器34は、ワードwのリストWとワードwのリストWを検索して共通の要素(すなわち共通のページ識別子)を探す。
実施形態では、オントロジー生成器38は、類似性マトリックスや類似性グラフなどの、言語のオントロジー66を生成する。オントロジーは、基本類似性、有向類似性、平均類似性、差分類似性その他の任意の適切な類似性から生成できる。オントロジー66は、任意の適切な方法で、言語から選択されたワードから生成できる。例えば、その言語の一般的に使用されている部分のワードや、主題領域に関係するワードを選択する。
図示した実施例では、オントロジー生成器38は類似性マトリックス生成器42と類似性グラフ生成器46を含む。類似性マトリックス生成器42は、ワード間の類似性を記録する類似性マトリックスを生成する。類似性グラフ生成器46は、ワード間の類似性を表す類似性グラフを生成する。類似性グラフでは、ノードはワードを表し、ノード間の有向エッジの重みはそのノードが表すワード間の類似性を表す。類似性グラフは任意の適切な次元数を有する。
図6は、類似性グラフ150の一例を示す図である。類似性グラフ150はノード154とリンク158を含む。ノード154はワードを表す。この例では、ノード154aはワード「バイナリ(binary)」を表している。ノード154間の有向エッジの重みは、ノード154が表すワード間の類似性を表す。例えば、重みが大きければ類似性が大きい。ノード間のリンク158は、そのノード154が表すワード間の類似性がある類似性閾値より大きいことを示している。類似性閾値は任意の適切な値であり、例えば、0.25、0.5、0.75、0.95であっても、これらより大きな値であってもよい。
図7は、図1のシステム10で使用できるクラスターリングモジュール31の一実施形態を示す図である。実施形態では、クラスターリングモジュール31は、データセット中の関係のある要素のクラスターを特定することにより、そのデータセット中のパターンを発見する。実施形態では、クラスターリングモジュール31は一組のワード(例えば、言語や一組のページ50等)のクラスターを特定できる。一般的に、クラスターのワードは互いに強く関係しているが、クラスター外のワードとは関係していない。ワードのクラスターはその一組のワードのテーマ(すなわちトピック)を指定する。
ある実施形態では、クラスターリングモジュール31は、関係するワード間の類似性によりそのクラスターを特定する。その実施形態では、クラスターのワードは互いに強く類似しているが、クラスター外のワードとは類似していない。一実施形態では、ワードは、かなり類似(sufficiently affine)していれば類似性が高い(highly affine)と考える。ワードは、類似性規準(例えば閾値)を満たせば十分類似している。以下に類似性規準の例を示す。
任意の適切な類似性を用いてクラスターを特定できる。実施形態では、クラスターリングモジュール31は有向類似性を用いる。あるワードの他のワードに対する有向類似性はそのワードの共起性(co-occurrence)を特徴づける。クラスターは同様の共起性を有するワードを含んでいる。実施形態では、クラスターリングモジュール31は差分類似性を用いる。差分類似性は、ページ50にあるワードが出現する一般的な傾向によるバイアスを除去する傾向がある。
図示した実施形態では、クラスターリングモジュール31はクラスターリングエンジン210とクラスターリング分析器214とを含む。クラスターリングエンジン210は類似性によりワードのクラスターを特定し、クラスターリング分析器214は類似性によるクラスターリングを用いて様々な分析を行う。
クラスターリングエンジン210は任意の適切な方法で、類似性によるワードのクラスターを特定する。クラスターの特定方法の3つの例を説明する。一組のワードからのクラスターの構成と、ワードのクラスターへのソーティングと、ワードの類似性ベクトルの比較である。一実施形態では、クラスターリングエンジン210は一組のワードからクラスターを構成する。一例では、クラスターリングエンジン210は、類似性*Aff(w,w)を有するワード{w}の集合WからクラスターSを構成する。類似性値*Aff(w,w)はワードwのワードwに対する、有向類似性DAffinity(w,w)や差分類似性DiffAff(w,w)等の任意の適切な類似性を表す。ここで挙げる類似性値の例は規格化した値であってもよい。上記の例では、Afffor(w,w)は前方類似性を表し、Affback(w,w)は後方類似性を表す。
上記の例では、クラスターSはシード・ワードwで始まる。カレント・ワード(current word)wは、カレント・アイテレーション(current iteration)において集合Wのワードと比較される、クラスターSのワードを表す。カレント・ワードは、最初にシード・ワードwに設定される。
1回の繰り返しにおいて、カレント・ワードwはクラスターSのワードに設定される。集合Wのワードwは、カレント・ワードwとの前方類似性Afffor(w,w)に応じてソートされる。ソートされた集合Wの始めから開始して、類似性規準を満たす候補ワードwを特定する。類似性規準はカレント・ワードwとの前方類似性規準(a forward affinity with the current word wx criterion)を含む:
Figure 2009093649
及び、シード・ワードwとの後方類似性規準(a backward affinity with the seed word wq criterion):
Figure 2009093649
ここで、Thcfは候補ワードの前方閾値を表し、Thcbは後方ワードの後方閾値を表す。候補ワード{w}の順序付き集合の最初のワードをクラスターSに加える。加えたワードの数はパラメータSizeで与えられる。閾値ThcfとThcbは、最小値と最大値の間にある任意の適切な値を有する浮動小数点パラメータである。例としては、ThcfとThcbの適切な値は実際の類似性の序列リスト(rank-ordered list)から決定される。例えば、リストの200番目の値を使用する。パラメータSizeは任意の適切な値を有する整数パラメータである。適切な値の例として、デフォルト値を1,2,3または4にしてもよい。実施形態では、上記のパラメータは繰り返しによって変化してもよい。
繰り返し回数は任意の適切なものであればよい。一例では、繰り返し回数をこの方法の開始前に指定できる。他の例では、回数をこの方法の実行中に計算できる。例えば、その回数をクラスターSの大きさの増大率から計算できる。
他の実施形態では、クラスターリングエンジン210は、一組のワードをクラスターにソーティングすることにより、クラスターを特定する。一例では、集合Wのワード{w}を、差分類似性や有向類似性などの類似性*Aff(w,w)に応じてソートする。他の例では、ワード{w}を、別のワード集合Qの各メンバーに対するワードwの類似性の累積関数(合計等)によりソートする。集合Wは任意の適切な方法で選択することができる。例えば、集合Wはクエリーに最も関係するX個のワードである。Xは任意の適切な値である。例えば、10乃至100、100乃至200、または200以上の値である。
上記の例ではクラスターは最初、空である。集合Wの最初のワードwをクラスターに入れる。各繰り返しにおいて、集合Wからカレント・ワードwを選択する。*Aff(w,w)が類似性閾値Thにより与えられる類似性規準を満たせば、カレント・ワードwをクラスターに入れる。ここで、wはそのクラスターに入れられた最初のワードを表す。閾値Thの値は任意の適切なものである。例えば、最小値が0.0で最大値が1.0のとき、0.1乃至0.5の範囲にある値である。*Aff(w,w)が閾値Thを満たさないとき、カレント・ワードwは空のクラスターに入れられる。集合Wの各ワードに対して繰り返す。
集合Wのワードを処理してから、小さいクラスターを削除してもよい。例えば、ワード数がYに満たないクラスターを削除してもよい。Yは任意の適切な値であり、例えば、3乃至5、5乃至10、10乃至25、25乃至50、または50以上の範囲の値である。
クラスター数が満足のいく範囲になければ、閾値Thを変えて上記プロセスを繰り返す。閾値Thを変えることによりクラスターに入れる規準が厳しくなったりゆるくなったりする。上記の満足のいく範囲は、任意の適切な値であるクラスター数の最小値と最大値により決めてもよい。適切な値の例としては、最小値については1乃至5、5乃至10、または10以上の範囲の値であり、最大値については10乃至15、15乃至20、または20以上の範囲の値である。閾値Thを大きくしてクラスター数を大きくしてもよいし、小さくしてクラスター数を小さくしてもよい。
他の実施形態では、クラスターリングエンジン210は、ワードの類似性ベクトルを比較することによりクラスターを特定する。実施形態では、類似性マトリックスの行と列により類似性ベクトル<w,*Aff(w,w),...,*Aff(w,w),...,*Aff(w,w)>ができる。これはワードwのワードw(j=1,...,n)に対する類似性を表す。類似性値*Aff(w,w)はワードwのワードwに対する、有向類似性や差分類似性等の任意の適切な類似性を表す。
実施形態では、類似性値が同様である類似性ベクトルはクラスターを示す。説明のためだけに、類似性ベクトルを類似性空間におけるワードの類似性の座標とみなしてもよい。すなわち、各類似性値*Aff(w,w)をある次元の座標とみなす。類似性値が近い(similar)類似性ベクトルは、そのベクトルが付随するワードが類似性空間において互いに近いことを示している。すなわち、そのベクトルは、そのワードが他のワードと有する類似性関係が近いことを示し、同じクラスターに含めることが適当であることを示す。
類似性ベクトルは、適切な距離関数により、1つの類似性ベクトルが他の類似性ベクトルの近傍にあるとき、類似性ベクトルは近い。距離関数は、類似性ベクトルに対して、その大きさのベクトルの標準的なユークリッド距離として、またはその大きさのベクトルの余弦として定義することができる。距離関数は、クラスターリングエンジン210やユーザによって指定することもできる。
実施形態では、クラスターリングエンジン210はクラスターリング・アルゴリズムを用いて、互いに近い値を有する類似性ベクトルを特定する。クラスターリング・アルゴリズムの例には、ダイレクト(direct)・アルゴリズム、反復二分(repeated bisection)・アルゴリズム、集積(agglomerative)・アルゴリズム、バイアス集積(biased agglomerative)・アルゴリズムその他の適切なアルゴリズムなどがある。一例では、クラスターリングエンジン210は「CLUTO」などのクラスターリングソフトウェアを含む。
クラスターリング分析器214は、任意の適切なアプリケーションにおいて分析のために類似性クラスターリングを用いる。一実施形態では、クラスターリング分析器214は類似性クラスターリングを用いてページをカテゴリー分けする。カテゴリーはクラスター識別子またはクラスターのメンバーと関連する。一例では、ページ50のクラスターを特定し、そのページ50をそのクラスターに応じてカテゴリー分けする。他の例では、ページ50の重要なワードを選択し、そのワードを含むクラスターを見つける。ページ50を見つけたクラスターに応じてカテゴリー分けしてもよい。
一実施形態では、クラスターリング分析器214は類似性クラスターリングを用いてページ50のコーパスを分析する。コーパスは特定の主題、個人のコミュニティ、組織、その他のエンティティ(entity)に関連している。一例では、クラスターリング分析器214はコーパスのクラスターを特定し、そのクラスターからそのコーパスのコーパスキャラクタ(corpus character)を決定する。コーパスキャラクタはそのコーパスに付随するエンティティ(entity)に関連するワードを示す。ページ50は、コーパスキャラクタのクラスターを有するとき、そのエンティティに関連している。
一実施形態では、クラスターリング分析器214は類似性クラスターリングを用いて、検索クエリーの曖昧性を除去し拡張する(query disambiguation and expansion)。上記の実施形態では、クラスターリング分析器214は、検索クエリーの検索タームを含むクラスターを特定する。クラスターにより、与えられた検索クエリーに関連する代替的なワードやカテゴリーが提供される。一例では、クラスターからのワードを検索者にレポートして、次の検索クエリーを支援する。他の例では、クラスターリング分析器214は、クラスターからワードを選択して、新しい検索クエリーを自動的に形成する。クラスターリング分析器214はその新しいクエリーを順番に、または並行して実行する。
一実施形態では、クラスターリング分析器214は類似性クラスターリングを用いてソーシャルネットワークを調査(study)する。一例では、ページ50はソーシャルネットワークに関する情報(insight)を提供する。かかるページの例としては、通信(手紙、電子メール、インスタントメッセージなど)、メモ、記事、議事録などがある。こうしたページ50は、ソーシャルネットワークを形成する人々のユーザ識別子(名前など)であるワードを含む。名前のクラスターを特定して、そのネットワークを形成する人々の間の関係を分析する。一例では、別の類似性クラスターリングを用いて、システム管理者の名前など、情報を提供しないがほとんどのページ50に現れる名前をフィルタ除去する。
実施形態では、クラスターリング分析器214は、データセットのクラスターを結合及び/または比較することにより、そのデータセットを分析する。一実施形態では、オーバーラップするデータセットのクラスターを比較する。1つのデータセットのクラスターを他のデータセットのクラスターにマッピングすると、そのデータセット間の関係についての情報(insight)が得られる。例えば、データセットは、職場のグループの文書の分析や、そのグループのソーシャルネットワークの調査(study)によるものである。ソーシャルネットワークのクラスターを文書の主題のクラスターにマッピングして、ソーシャルネットワークと主題の間の関係を分析する。
図8はオントロジー特性モジュール32の一実施形態を示す図である。オントロジー特性モジュール32は、一組のワード(例えば、ワードそのものやワードを含む文書)のオントロジー特性(ontology features)を決定し、そのオントロジー特性を様々な場合に適用する。その一組のワードには文書の基本的ターム(essential terms)が含まれているかも知れない。タームtは、それに類似したk個のタームの少なくとも1つも文書に現れる場合、基本的タームである。そうでなければ、そのタームtはその文書にとっては基本的ではない。
オントロジー特性は、ある分野においてある文書を他の文書から意味的に区別する特性(feature)軸に沿って、その文書を特徴づける数量化可能な尺度である。例えば、文書の深さは理解可能性に関してその文書を区別し、文書の具体性はフォーカスに関してその文書を区別し、文書のテーマは記載されたトピックスの範囲(addressed range of topics)に関してその文書を区別する。オントロジー特性は任意の適切な方法で定義することができる。例えば、計算言語学における独立したアルゴリズムを用いて文書の可読性(readability)または深さ(depth)を特徴づけることができる。
図示した実施形態では、オントロジー特性モジュール32は、深さエンジン230、テーマエンジン240、具体性エンジン244、オントロジー特性(OF)アプリケーションエンジン250を含む。深さエンジン230はワード(例えばワードそのものやワードを含む文書)の深さ(depth)を決定する。一般的に、深さはワードのテキスト的な精巧さ(textual sophistication)を示す。深さがより大きい(深い)ワードは、より技術的かつ専門的であり、深さがより小さい(浅い)ワードは、より一般的なものである。実施形態では、深さモジュール32は文書のワードの深さを計算し、そのワードの深さに基づきその文書の深さを計算する。実施形態では、深さエンジン230は深さ値及び/または深さランキングを文書及び/またはワードに割り当てる。より深い文書またはワードにはより高い深さ値または深さランキングが割り当てられ、より浅い文書またはワードにはより低い深さ値または深さランキングが割り当てられる。
深さエンジン230はワードの深さを任意の適切な方法で計算する。実施形態では、深さエンジン230は平均類似性によりワードの深さを計算する。上記の実施形態では、ワードの深さはそのワードの平均類似性の関数である。より深いワードはより低い平均類似性を有し、より浅いワードはより高い平均類似性を有する。具体例では、深さエンジン230はワードをその平均類似性によりランキングすることによりそのワードの深さを計算する。平均類似性が低いワードには高い深さランキングが与えられ、平均類似性が高いワードには低い深さランキングが与えられる。
実施形態では、深さエンジン230はクラスターリング分析を用いてワードの深さを計算する。上記の実施形態では、クラスター内のワードは互いに強く類似しているが、クラスター外のワードとはそれほど類似していない。クラスター空間における距離を類似性により測るが、これは深さのインジケータである。実施形態では、属するクラスター数が少ないワード、小さいクラスターに属するワード、及び/または他のクラスターから遠いクラスターに属するワードは深いものとみなされる。一方、属するクラスター数が多いワード、大きいクラスターに属するワード、及び/または他のクラスターに近いクラスターに属するワードは浅いものとみなされる。
他の実施形態では、深さエンジン230は類似性グラフ150のリンク分析をしてワードの深さを計算する。リンク分析は、PAGERANKなどの任意の適切なリンク分析アルゴリズムで行うことができる。便宜的に、図6の類似性グラフ150を利用してワードの深さを計算することもできる。類似性グラフ150はノード154とリンク158を含む。ノード154はワードを表す。ノード154間のリンク158は、そのノード154が表すワード間の類似性が、ある類似性閾値より大きいこと、すなわちそのワードが十分類似していることを示している。
実施形態では、深さエンジン230はノード154の人気度(popularity)を計算する。人気のあるノード154は浅いワードを表し、人気のないノード154は深いワードを表す。第1のノード154から第2のノード154へのリンク136は、第1のノード154による第2のノード154への人気度投票であると考えられる。また、人気のあるノード154からの投票(vote)は人気のないノード154からの投票よりも重みが大きい。さらに、第1のノード154の第2のノード154に対する類似性はその投票に重みづけする。深さエンジン230はノード154への重みつき投票から、そのノード154の人気度を計算する。人気のないワードは深いものと考えられ、人気のあるワードは浅いものと考えられる。
深さエンジン230は文書の深さを任意の適切な方法で計算する。実施形態では、深さエンジン230は文書の少なくとも1つのワード、一部のワード、またはすべてのワードの深さにより、その文書の深さを計算する。実施形態では、ワードの深さは平均類似性で与えられ、文書の深さをその文書のワードの平均類似性から計算してもよい。例えば、文書の浅さ(shallowness)はその文書のワードの平均類似性の平均、すなわち、その文書中の各ワードの平均類似性の合計をその文書中のワードの総数で割ったものである。文書の深さは、その文書の浅さの逆数として計算できる。
実施形態では、深さは文書中の選択された一組のワードの平均的深さから計算できる。選択された一組のワードには、その文書の基本的ワードが含まれる。例えば、(深さが)トップX%のワードが含まれる。ここで、Xは10より小さくても、10乃至20でも、20乃至30でも、30乃至40でも、40乃至50でも、50乃至60でも、60乃至70で、70より大きくてもよい。選択された一組のワードには、P%の標準的な文法ワードや、Q%のストップワードが含まれない。ここで、PとQは任意の適切な値であり、10より小さくても、10乃至20でも、20乃至30でも、30乃至40でも、40乃至50でも、50乃至60でも、60乃至70で、70より大きくてもよい。
実施形態では、深さエンジン230は文書におけるワードの深さの分布により、その文書の深さを計算する。実施形態では、深い文書は、深いワードを有する割合が高い。
ある実施形態では、深さエンジン230は文書の類似性(affinity)によりその文書の深さを計算する。文書間の類似性はその文書間の関係を示す。実施形態では、ワードの平均類似性がそのワードの深さを示すのと同様に、文書の平均類似性はその文書の深さを示す。文書の類似性は任意の適切な方法で定義することができる。一例では、共通ワード数P(D1&D2)は文書D1とD2の両方にあるワードの数を示し、個別ワード数P(D1+D2)は文書D1またはD2のいずれかにあるワードの数を示す。文書D1とD2の間の文書類似性DocAffは次式で定義できる:
Figure 2009093649
深さエンジン230は、平均ワード類似性の計算と同様に平均文書類似性を計算する。平均類似性が低い文書は深いものであると考えられ、平均類似性が高い文書は浅いものであると考えられる。
実施形態では、深さエンジン230は、文書類似性グラフのリンク分析をして文書の深さを計算する。文書類似性グラフは類似性グラフ150と同様だが、文書類似性グラフのノードはワードではなく文書を表す。深さエンジン230は第1の文書を表す第1のノードから第2の文書を表す第2のノードへのリンクを、第1の文書が与えられたときの第2の文書の文書類似性で重み付けする。出て行くリンクの重みを規格化してもよい。
実施形態では、深さグラフをユーザインターフェースに表示して文書の深さを表示する。深さレベルを選択できる深さスライダーを併せて表示してもよい。実施形態では、文書がより大きな文書のセクションであるとき、深さグラフはそのセクションを示す。
実施形態では、深さエンジン230は文書深さを任意の適切な方法で計算できる。例えば、文書の類似性のヒストグラムを処理し、及び/または深さに基づき異なるワードの割合をトランケート(truncate)してからヒストグラムを処理することができる。他の方法には、Gunning−Fog法、Flesch法、またはFry法がある。
実施形態では、深さエンジン230は深さ値をある深さレベルにマッピングして、深さを較正してもよい。実施形態では、範囲Rの深さ値をレベルLにマッピングする。例えば、R={r:r<c}をレベルL0にマッピングし、R={r:c<r<c}をレベルLにマッピングし、...,Rn={r:c<r}をレベルLnにマッピングする。これらの範囲は任意の適切な深さ値を含み、同じ大きさである必要はない。レベルの数は任意の適切なものであればよく、5より少なくても、5から7であっても、7または8であっても、8から10であっても、10から20であっても、20から50であっても、50から100であっても、100より多くてもよい。
テーマエンジン240は文書のテーマ(すなわちトピックス)を決定する。実施形態では、クラスターリングモジュール31が特定した文書中のワードのクラスターから、テーマエンジン240がテーマを決定する。上記の通り、ワードのクラスターはその一組のワードのテーマ(すなわちトピック)を指定する。文書のテーマはその文書の内容に関して有用な情報を提供する。例えば、クラスター{腎臓、肝臓、タンパク質、問題}を含む文書は、おそらく腎臓の機能低下による肝臓からのタンパク質のもれに関するものであり、インゲン豆のタンパク質成分に関するものではない。
実施形態では、テーマエンジン240はテーママップからテーマを決定する。上記の実施形態では、例えば、ターム頻度−逆文書頻度(TF−IDF)(term frequency-inverse document frequency)法など任意の適切な方法を用いて文書からキーワードを抽出する。キーワードを用いてテーママップからテーマの候補を選択する。テーマ候補を文書と比較して、そのテーマがその文書に合致するか決定する。例として、テーマ候補のヒストグラムを文書のヒストグラムと比較する。テーマ候補が文書と合致したら、そのテーマにより、その文書のテーマのタイプや数を推定する。
具体性エンジン244は文書の具体性(specificity)を計算する。実施形態では、具体性エンジン244は、具体性値及び/または具体性ランキングを文書に割り当てる。より具体的な文書にはより高い具体性値または具体性ランキングが割り当てられ、より具体的でない文書にはより低い具体性値または具体性ランキングが割り当てられる。
実施形態では、具体性エンジン240は文書のテーマの数から具体性を計算する。例として、具体的な文書のテーマは少なく、具体的でない文書のテーマは多い。実施形態では、具体性エンジン240は文書のテーマの数と、そのテーマ間の類似性から具体性を計算する。例として、具体的な文書のテーマは、テーマ間の類似性が高くて少ない。一方、具体的でない文書のテーマは、テーマ間の類似性が低くて多い。
実施形態では、テーマの数は深さ(すなわちレベル)に依存する。例えば、深さが小さい1つのテーマは深さが大きい複数のテーマを表す。実施形態では、深さはユーザが深さスライダーを用いて選択するか、予め決まっている。実施形態では、レベルはユーザが選択するか、予め決まっている。例えば、任意の適切な数のレベルを決めて、そのレベルに対して深さを計算する。例えば、レベルは、ドメインベース(例えば、エンジニアリング、医療、ニュース、スポーツ、金融などのドメイン)、専門ベース(例えば、心臓科、眼科、腎臓科などの専門)、トピックベース(例えば、高血圧、コレステロール、バイパス手術、動脈硬化などのトピックス)、詳細ベース(例えば、立ちくらみ、慢性高血圧、急性高血圧などの詳細)、解決策ベース(例えば、老人性病因、医薬、遺伝子などの解決策)、人ベース(例えば、ユーザクエリーレベルなど)などがある。
オントロジー特性アプリケーションエンジン250は、(深さ、テーマ、具体性などの)オントロジー特性を用いて、任意の適切な状況でオントロジー特性分析を行う。適切な場合とは、例えば、オントロジー特性による文書の検索、ソート、推奨、選択や、文書のオントロジー特性のレポートや、ユーザの文書(または複数組みの文書)のオントロジー特性の決定などである。実施形態では、オントロジー特性アプリケーションエンジン250はオントロジー特性に関する情報を含むインデックスを使用する。一例では、オントロジー特性アプリケーションエンジン250は、深さランキングにより生成及び/または維持された文書深さ(DD)逆インデックス62を使用する。DD逆インデックス62は、DD逆インデックスリストを含む。ワードのDD逆インデックスリストは、そのワードを含む文書(またはページ50)の文書識別子をリストする。文書の文書識別子はその文書の深さを示す。例えば、文書識別子のエンコードに用いるバイナリエンコーディングは、深さを示す。場合によっては、DD逆インデックスリストは十分な深さを有する文書のみをリストしたものである。他の例では、オントロジー特性アプリケーションエンジン250は、逆インデックス62に加えてランキングテーブルと深さテーブルを利用する。深さテーブルは文書の深さを示すものである。
実施形態では、オントロジー特性アプリケーションエンジン250は、指定された文書深さや具体性の値などの指定されたオントロジー特性値を有する文書を検索する。指定地は予め決められていても、計算してもユーザが選択してもよい。実施形態では、深さスライダーや具体性スライダーなどのグラフィカルな要素を用いて値を選択してもよい。
実施形態では、オントロジー特性アプリケーションエンジン250は、文書をソートするソート規準としてオントロジー特性を利用する。例えば、オントロジー特性アプリケーションエンジン250は、ソート規準だけでなく、テーマに関して文書深さ及び/または具体性により文書をソートする。例として、オントロジー特性アプリケーションエンジン250は、DD逆インデックス62を検索して、文書深さによりソートされた文書を求める。例として、オントロジー特性アプリケーションエンジン250は、非DD逆インデックス62を用いて文書を検索して、深さにより文書をソートする。
実施形態では、オントロジー特性アプリケーションエンジン250は、オントロジー特性の値をクライアント20にグラフィカルに表示する。例えば、検索結果のトップX%の文書など、文書の一部または全部をグラフィカルに表示してもよい。オントロジー特性値を任意の適切な方法で表示できる。例として、数字、言葉、アイコンなどのグラフィカルインジケータにより値を示すことができる。例えば、検索結果のリスト中のアイテムや、オンラインニュースペーパーのヘッドラインや、文書アイコンなどの隣にグラフィカルインジケータを配置してもよい。例として、既存の図象(iconography)を修正して値を表示できる。例えば、テキストのサイズ、フォント、スタイル、カラーやグラフィカルインジケータにより値を示すことができる。他の例では、グラフにより値を示すことができる。オントロジー特性ヒストグラムは、文書量軸とオントロジー特性軸を含み、あるオントロジー特性値を有する文書の量を示す。例えば、文書量軸と文書深さ軸とを含む文書深さヒストグラムは、文書深さごとの文書量を示している。
実施形態では、ユーザは、オントロジー特性アプリケーションエンジン250により、特定のオントロジー特性値を有する文書の検索をすることができる。ユーザは、クエリーで用いる複数のワードのそれぞれにオントロジー特性値を指定することができる。例として、ユーザは、オントロジー特性アプリケーションエンジン250により深さを選択するオプションを提供され、深さを選択して入力することができる。そのオプションは任意の適切な方法で提供することができる。例えば:(i)絶対的ターム(深さを表す数字や数字の範囲など);(ii)相対的ターム(深さに関する検索結果の一部で、例えば「最も深いX%」など);(iii)意味的ターム(「入門的」、「浅い」、「深い」、「極めて深い」、「非常に技術的」など);(iv)グラフィカルターム(スライダー、ボタン、その他のグラフィカル要素など);(v)任意の適切なタームの組み合わせ(意味的ラベルを伴うスライダーなど)である。場合によっては、スライダーの端は「浅い」と「深い」である。ユーザはスライダーを一端または他端に向けて動かして深さを選択できる。検索結果が求まると、スライダーの横に文書深さヒストグラムが表示され、スライダーを文書深さの軸として使用できる。
実施形態では、オントロジー特性アプリケーションエンジン250はユーザのオントロジー特性キャラクタを計算できる。オントロジー特性キャラクタには、テーマとの関連でユーザ深さとユーザ具体性が含まれる。オントロジー特性キャラクタはそのユーザの文書のオントロジー特性を記述する。例えば、科学者は、第三者である評価者(third grader)が使う文書より深い文書を使う。オントロジー特性キャラクタはテーマに対して与えられる。例えば、遺伝学者は、詩の分野で使うものよりも深い文書を遺伝学の分野では使う。オントロジー特性キャラクタを用いてユーザの専門を決定し、その人の経歴を構成し、またはソーシャルネットワークを分析してもよい。
ユーザの通信(電子メールやインスタントメッセージなど)や、ウェブページや、検索履歴(検索クエリーや選択したページなど)などの任意の適切な文書を分析してオントロジー特性キャラクタを推定する。実施形態では、オントロジー特性アプリケーションエンジン250はオントロジー特性キャラクタ(ontology feature character)を時間的に追跡して、過去のキャラクタを使って将来のキャラクタを予測できる。例として、オントロジー特性アプリケーションエンジン250では、一般的にユーザ深さ及び/または具体性は時間及び/またはある分野における活動とともに増大することを仮定してもよい。
実施形態では、オントロジー特性アプリケーションエンジン250では複数の動作を組み合わせてもよい。例えば、オントロジー特性アプリケーションエンジン250はユーザの深さをモニターし、そのユーザ深さに応じた文書を検索する。一例では、ユーザ深さをモニターし、ニュースをその深さに応じて提供する。将来のユーザ深さを予測して、予測されたユーザ深さに合ったニュースを提供する。
図9は、文書に付与するタグを選択するタギングモジュール35の一実施形態を示す図である。タグは任意の適切な方法で選択することができる。ある実施形態では、タギングモジュール35はトピックス(またはテーマ)をそれに関係するワードの統計的分布としてモデル化する。タギングモジュール35は統計的分布を用いて、文書のランキングが高いワードが出現する確率が最も高いトピックスを特定し、そのトピックスに応じてその文書のタグを選択する。図示した実施形態では、タギングモジュール35はトピックモデル部310と文書タグ部314とを含む。ある実施形態では、トピックモデル部310はトピックスをモデル化する統計的分布を生成し、文書タグ部314はその統計的分布に基づきタグを選択する。トピックモデル部310と文書タグ部314は任意の適切な方法を用いてトピックのモデル化とタグの選択を行う。図10を参照して方法の例を説明する。
他の実施形態では、タギングモジュール35は文書のパラグラフを分析してタグを付与する。上記の実施形態では、タギングモジュール35は文書のパラグラフのタグ候補を特定する。タギングモジュール35はタグ候補の、その文書の他のタグ候補との関係性を決定して、その関係性に応じてその文書のタグを選択する。文書のパラグラフを分析してタグを付与する方法の一例を、図1を参照してより詳しく説明する。
さらに別の実施形態では、タギングモジュール35はユーザまたはコンピュータが選択した推奨タグに基づきタグを付与する。上記の実施形態では、タギングモジュール35は文書に対するタグを推奨する。推奨される複数のタグは、目標タグとの類似性(affinity)が高いが、文書のオントロジー空間を減縮するために、推奨される他のタグとの類似性は低い。タギングモジュール35はタグの選択に応じてタグの推奨を継続できる。タギングモジュール35は、タグを選択し終わると、選択したタグを文書に付与する。タグの付与方法の一例を、図12を参照して詳しく説明する。
図10は、トピックスの統計的分布に応じてタグを付与する方法の一例を示す図である。統計的分布は多数のワードから生成されてもよい。任意の適切なワードの集合(universe)、例えばある言語またはコーパスのワードを用いる。あるトピックスに適したワードはその他のワードよりも相対的出現確率が高い。例えば、「自転車」というトピックについては、「タイヤ」、「チェーン」、「乗る」などのワードが、「レンガ」、「バケツ」、「ピザ」などのワードよりも相対的出現確率が高い。
上記方法はステップ410で開始し、コーパスの文書のタームを任意の適切なランキング方法を用いてランク付けする。ランキング方法の一例では、タームを頻度(例えば、TF(term frequency)またはTF−IDF(term frequency-inverse document frequency))によりランク付けする。頻度が高いとランキングが高くなる。ランキング方法の別の例では、タームの他のタームとの共起(co-occurrence)がランダムな場合より高い標準偏差によりタームをランク付けする。標準偏差が高いとランキングが高くなる。
ステップ414において、ランキングの高いタームをその文書のキーワードとして選択する。例としては、ランキングがトップN個のタームを用いる。Nは1乃至5、5乃至10、または10以上でもよい。他の例では、文書の平均ランキングより所定量(例えば標準偏差)上のタームを用いる。
ステップ418において、キーワードに応じて文書をクラスター化する。クラスターはそのキーワードに関連付けられる。クラスターと関連するキーワードはそのクラスターのトピックである。文書がN個のキーワードを有するとき、その文書はN個のクラスターで表される。ステップ422において小さいクラスターを削除する。小さいクラスターは大きさの閾値を満たさない、例えば文書がM個未満のクラスターである。ここで、Mは0乃至50、50乃至100、または200以上であってもよい。ある例では、Mはコーパスの大きさから計算する。例えば、Mは0%乃至3%、3%乃至5%、または5%以上の範囲の値である。
ステップ426においてクラスターの統計を集め、ステップ428においてその統計からクラスターの統計分布を作成する。任意の適切な統計を集めて任意の適切な統計分布(周波数分布や確率分布)を生成することができる。ある例では、クラスター中の各ワードについて、その頻度を示すTF(term frequency)を計算する。クラスター中のワードの出現数から、またはそのワードを含むクラスター中の文書数からTFを計算する。TFからターム分布を作成する。他の例では、クラスターのトピックの他のクラスターのトピックスとの共起(co-occurrence)を示す共起値を他のクラスターのそれぞれに対して計算する。その共起値から共起分布を作成する。ステップ430において次のクラスターがあれば、ステップ426に戻り、次のクラスターの統計を収集する。ステップ430において次のクラスターが無ければ、ステップ434に進む。
ステップ434において、統計的分布が類似するクラスターを統合する。統計的分布を比較して、類似するものは1つの頻度分布に統合する。例えば、「車」がトピックのクラスターと「自動車」がトピックのクラスターは統計分布が類似していれば、1つのクラスターに統合する。分布の差が閾値より小さいとき、統計的分布は類似するとみなす。差の閾値は任意の適切な値を有し、例えば、1%以下、5%乃至10%、または10%以上の範囲の値である。大きなクラスターのトピックを統合クラスターのトピックとして選択してもよい。
ステップ438において、文書に、クラスターに基づきタグとしてトピックスを付与する。複数のクラスターを統合し、他のクラスターを削除するので、文書に付与するトピックスは変わっている可能性もある。トピックスを付与し直すことにより、その文書の情報をより表すが重複が少ないタグとなる。そして、本方法は終了する。コーパスの文書が更新された時に上記の方法を実行してもよい。
ステップ442において文書にタグを付与する。文書タグ部314は任意の適切な方法で統計分布に応じて文書にタグを付与する。ある例では、ステップ438において、文書タグ部314はトピックスの再付与に応じてコーパス中の文書にタグを付与する。
他の例では、文書タグ部314は必ずしもコーパス中にない文書にタグを付与してもよい。統計分布を用いて文書の選択されたワードが高い出現確率を有するトピックスを特定し、特定したトピックスをタグとして選択する。上記の例では、文書タグ部314は、上で説明したように、任意の適切なランキング方法により文書のワードをランク付けする。ランキングが最も高いワードから始めて、文書タグ部314は各トピックスのワードの頻度をそのトピックスの統計分布から決定する。文書タグ部314は、そのワードが最も頻出率の高いトピックから、最も頻出率が低いトピックスまで、トピックスをランク付けする。トピックスに関するワードの統計的分布を作成する。
上記の例では、文書タグ部314は、同様に、文書のその他のランキングが高いワードの統計的分布を作成する。ある例では、ワードの統計的分布を、例えば一様に、またはワードのランキングに応じて重み付けしてもよい。例えば、ランキングが高いワードの統計的分布は重みを大きくする。統計的分布を統合して統合した統計的分布を作成してもよい。ある実施形態では重み付けした統計的分布を合計する。例えば、トピックに関連する値を合計して、文書のランキングが高いワードが与えられたときにそのトピックの尤度(likelihood)を示す値を求める。文書タグ部314は文書のタグとして尤度の高い(likely)トピックスを付与する。
図11は、文書のパラグラフを分析してその文書にタグを付与する方法の一例を示す図である。この方法はマイクロ・アイデア、アイデア、及び仮説を含む文書に利用できる。ある実施形態では、マイクロ・アイデアは独立した自己完結的な表現単位である。関係する1つまたは複数のマイクロ・アイデアによりアイデアが形成される。関係する1つまたは複数のアイデアにより仮説が形成される。ある例では、文がマイクロ・アイデアを表し、段落がアイデアを表し、一連の関連する段落が仮説を表す。この例では、複数の段落が関連しており、その段落のコア・タームの有向類似性は比較的高い。コア・タームの共通集合をタグとして利用する。
ステップ506でこの方法は始まり、分析するテキスト単位として文書の段落Piを特定する。段落は、任意の適切な一組の文字、ワード、または文である。文は、一定数または可変数のワード、段落マーク、またはクラスター化など任意の適切な方法で指定されたものである。段落は、大変複雑な多数のワードを含めて画成してもよい。
ステップ510において段落Pを選択する。ステップ514において、段落Pに対してタグtのタグ候補集合S=<t,t...t>を決定(establish)する。ある実施形態では、ランキングが高いワードをタグ候補として選択する。(ワードは任意の適切なランキング方法でランク付けできる。)ある実施形態では、結果として望ましいタグ候補数に応じて、最初のタグ候補数を選択する。例えば、結果として望ましい数をkとすると、最初の数はc*k(c>1)である。パラメータcはc=2,3,4または5など任意の適切な値でよい。ランキングが高いタグ候補を選択し、集合Sのルートriとする。
ステップ518において、タグ候補同士の関係性(relatedness)を任意の適切な関係性決定法により決定する。一般的に、関係性は任意の適切な方法で測定でき、例えば任意の適切な類似性を用いて測定してもよい。例えば、目標タグとの類似性が高い(more affine)タグは関係性が高い(more related)とし、目標タグとの類似性が低いタグは関係性が低いとする。ある実施形態では、タグを(例えば、有向類似性及び/または差分類似性を用いて)クラスター化し、クラスターとなったタグを関係性がある(related)とみなす。
ステップ520において、タグ候補に優先重み(preference weights)を付与する。優先重みは任意の適切なランキング方法により付与できる。例えば、段落中で頻度が高いタグ候補、及び/または文書中の平均類似性の逆数が大きいタグ候補に大きな優先重みをつける。ステップ524において、他のタグ候補との関係性が大きくないタグ候補をタグ候補集合から削除する。任意の適切な関係性閾値により、タグの他のタグとの関係性が大きいかどうかを指定できる。ステップ530において次の段落があるか判断する。次の段落があれば、ステップ510に戻って次の段落を選択する。次の段落が無ければ、ステップ534に進む。
ステップ534において、別の段落のタグ候補集合の関係性を決定する。関係性(relatedness)は任意の適切な関係性決定法により決定できる。段落内分析の場合と同様に、ある実施形態では、タグ候補をクラスター化して、クラスターを形成するタグ候補は関係性が高い(sufficiently related)と考える。他の実施形態では、各タグ候補に対して相関プロファイルを生成する。相関プロファイルはタグ候補の他のタグ候補(例えば、他のタグ候補集合のタグ)に対する相関性を示す。相関性が高いことは、関係性が高いことを表す。
相関プロファイルは任意の適切な方法で算出することができる。ある例では、タグ候補の相関プロファイルをタグ候補を含むタグ候補集合の数から生成し、そのタグ候補集合におけるそのタグ候補の頻度を考慮に入れる。頻度が高く多くのタグ候補集合に出現するタグ候補の相関性は高い。
他の例では、(ルートrを有する)他の集合Sに対する(ルートrを有する)集合Sのタグ候補の相関性プロファイルは、ルートrとrの有向類似性から決定できる。これらの例では、集合Sと集合Sのタグ候補の相関性の値は、そのタグ候補の優先重みに、集合Sにおけるルートr→rの有向類似性を乗ずることにより計算できる。タグ候補集合Sの相関性(co-relatedness)は、その集合の相関性値を結合(例えば、合計)することにより計算できる。
さらに他の例では、(タグtを有する)他の集合Sに対する集合Sのタグ候補tの相関性プロファイルは、タグtとtの有向類似性から決定できる。これらの例では、集合Sと集合Sのタグ候補の相関性値は、集合Sについてタグt→tの有向類似性を決定して、その有向類似性を合計することにより計算される。タグ候補と集合Sの相関性(co-relatedness)は、その集合の相関性値を結合することにより計算できる。
ステップ538において、タグ候補からタグを選択する。ある実施形態では、他のタグ候補と関連性が最も高いタグ候補を選択する。ある例では、クラスターのランキングが最も高いタグ候補を選択する。他の例では、相関性プロファイル(co-relation profiles)により相関性が最も高いタグ候補を選択する。選択したタグ数kは所定の定数でもよく、クエリータームの深さにより決まる値であってもよい。例えば、タームが深いクエリーでは、タグ数kを大きく、または小さくする。そして、本方法は終了する。
図12は、タグの選択に応じてタグを付与する方法の一例を示す図である。この方法はステップ450の最初の段階で開始する。最初の段階において、文書タグ部314は文書の目標タグとして最初のタグを受け取る。最初のタグは任意の適切なソース(source)から得られる。例えば、最初のタグはユーザまたはロジック(コンピュータなど)により入力される。ロジックは、その文書、ユーザに関連するその他の文書、その文書に対して選択されたその他のタグの分析結果から得られたタグを入力する。文書タグ部314はタグのソースを記録する。
ある実施形態では、クライアント20にグラフィカルユーザインターフェースを表示する。これにより、ユーザはその文書タグ部314とインターラクト(interact)できる。ある例では、ユーザはインターフェースによりタグの追加または削除を要求できる。他の例では、そのインターフェースは、タグが特定のタームを有すべき望ましい関係性の程度をユーザが示すことができるグラフィカル要素を含む。例えば、そのインターフェースはスライダーを含み、程度が高いことを示すためにそのスライダーをタームに近づけたり、程度が低いことを示すためにそのスライダーをそのタームから遠ざけたりできる。
ステップ454の候補段階において、文書タグ部314はタグの入力に応じてタームを推奨する。推奨されるタームは、文書をオントロジー空間の最小値に関連づけるように選択される。例えば、推奨される複数のタームは、入力されたタグとの類似性は高いが、互いの類似性は低い。例えば、入力されたタグが「木」であれば、推奨されるタグは「植物」、「家族」、または「コンピュータサイエンス」である。
推奨されるタームはオーバースペック(over specification)やアンダースペック(under specification)とならないものである。オーバースペックは、追加的な情報をあまり提供しないオントロジー的に冗長なタグを提供した結果である。例えば、文書のタグが「tree」と「woods」であるとき、「forest」を加えても追加的な情報をあまり提供できない。アンダースペックは文書を明確にしないタグを提供する結果生じる。例えば、文書のタグ「bank」では、その文書が金融機関を扱っているのか、川を扱っているのか、それともビルボードテーブルの列を扱っているのか分からない。
ステップ458のテスト段階において、文書タグ部314は(例えばユーザによって)選択された推奨タームや選択または拒絶されていないタームをモニターする。例えば、文書タグ部314は「fluid」を受け取り、「adaptable」、「flexible」、「liquid」、「solution」及び「melted」を推奨する。文書タグ部314は「liquid」と「melted」が拒絶されたことを記録(note)するので、「solution」は推奨しない。選択されたタームを目標タグの集合に追加する。
ある実施形態では、文書タグ部314は、ユーザやロジック(コンピュータ等)などであるタグのソースを記録する。ソースは任意の適切なアプリケーションを有する。例えば、ソースは検索結果のランク付けに用いられる。一例では、ユーザが選択したタグを含む検索結果はロジックが生成したタグを含む結果よりも高くランク付けされる。
ステップ462における発展段階では、文書タグ部314は推奨されたタームと選択されたタームとの差を評価して、新しいタームを推奨する。文書タグ部314は、選択されたタームとの類似性(例えば有向類似性や差分類似性)が高いターム、または拒絶されたタームとの類似性が低いタームを推奨し、拒絶されたタームとの類似性が高いタームや選択されたタームとの類似性が低いタームは推奨しない。ある実施形態では、文書タグ部314はオントロジー的に冗長なタグは削除する。タグは、任意の適切な繰り返し回数(例えば、1回乃至5回、6回乃至10回、10回以上)で推奨及び選択される。
ステップ466の付与段階で、文書タグ部314は文書にタグを付与(assign)する。ある実施形態では、文書タグ部314はテスト段階に応じて、またはテスト段階とは関わりなく最初のタグに応じて、タグを付与する。そして、本方法は終了する。
本発明の範囲から逸脱することなく、本方法に修正、追加、または削除をすることができる。本方法に含まれるステップはこれより多くても少なくてもよく、他のステップが含まれてもよい。また、ステップを好適な任意の順序で実行してもよい。
ある実施形態では、上記の方法を実行して、タグではなく検索タームを選択してもよい。この明細書に含まれる説明、特にタグの付与方法の説明において、「タグ」を「検索ターム」で置き換えて上記の実施形態を説明することもできる。
例えば、一方法は最初の段階で開始する。その最初の段階では、最初の検索タームを受け取り、検索の目標検索タームとする。この最初の検索タームはユーザまたはロジック(コンピュータなど)である任意の適切なソースから入力される。候補段階において、入力された検索タームに応じてタームを推奨する。推奨されるタームは、検索をオントロジー空間の最小値に関連づけるように選択される。テスト段階において、(例えばユーザによって)選択された推奨タームや選択または拒絶されていないタームをモニターする。発展段階において、推奨タームと、新しいタームを推奨するために選択されたタームとの間の差異を評価する。検索タームは、任意の適切な繰り返し回数(例えば、1回乃至5回、6回乃至10回、10回以上)で推奨及び選択される。検索タームを、選択された検索タームに応じて選択してもよい。
本発明の範囲から逸脱することなく、本方法に修正、追加、または削除をすることができる。本方法に含まれるステップはこれより多くても少なくてもよく、他のステップが含まれてもよい。また、ステップを好適な任意の順序で実行してもよい。
本発明の実施形態により以下の技術的有利性がもたらされる。一実施形態の技術的優位性は、例えばユーザによりなされた選択に応じてタグを付与することである。文書のオントロジー空間を減縮するタグをユーザに推奨する。ユーザは推奨されたタグから選択でき、その選択に基づいて、より多くのタグを推奨してもよい。テキストを含む文書のみならず、テキストを含まない文書にもタグを付与することができる。
本開示を実施形態に関して説明したが、これらの実施形態の変形や置き換えは当業者には明らかであろう。従って、上記の実施形態の説明は本開示を限定するものではない。特許請求の範囲に記載した本開示の精神と範囲から逸脱せずに、その他の変更、置き換え、改変も可能である。
上記の実施形態に関して以下の付記を記載する。
(付記1) 有体媒体に記憶された文書にアクセスする段階と、
前記文書に対する一組の目標タグを受け取る段階と、
複数のタームを選択する段階であって、前記文書のオントロジー空間を減縮するようにタームを選択する段階と、
前記タームをタグとして推奨するコンピュータに前記タームを送る段階とを含む方法。
(付記2) 前記複数のタームを選択する段階は、類似性に応じて前記複数のタームを選択する段階であって、目標タグとの類似性が高く、その他のタームとの類似性が低いタームを選択する段階を含む、付記1に記載の方法。
(付記3) 前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームを前記目標タグの集合に追加する段階と、
前記目標タグの集合により次の複数のタームを選択する段階とをさらに含む、付記1に記載の方法。
(付記4) 前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームとの類似度が高い次の複数のタームを選択する段階とをさらに含む、付記1に記載の方法。
(付記5) 前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
拒絶された1つ以上のタームを特定する段階と、
前記拒絶された1つ以上のタームとの類似度が低い次の複数のタームを選択する段階とをさらに含む、付記1に記載の方法。
(付記6) 前記文書の前記目標タグの集合にアクセスする段階は、
ユーザ入力とコンピュータ分析とよりなるグループから選択されたソースから前記目標タグの集合の一目標タグを受け取る段階と、
前記目標タグの前記ソースを記録する段階とをさらに含む、
付記1に記載の方法。
(付記7) 前記目標タグの集合の各目標タグのソースを決定(establish)する段階と、
目標タグと関連する複数の検索結果を検索する段階と、
前記目標タグのソースに応じて前記検索結果をランク付けする段階とをさらに含む、
付記1に記載の方法。
(付記8) 前記目標タグの集合から冗長タームを削除する段階をさらに含む、
付記1に記載の方法。
(付記9) タグが特定のタームに対して有すべき要求される関係性の程度を受け取るグラフィカル要素を表示する段階をさらに含む、付記1に記載の方法。
(付記10) 前記目標タグに対応するクラスターから目標タグとの類似性が高いタームを特定することにより、類似性に応じて前記複数のタームを選択する段階をさらに含む、
付記1に記載の方法。
(付記11) 類似性に応じて前記複数のタームを選択する段階であって、前記類似性は、類似性、平均類似性、有向類似性、及び差分類似性よりなるグループから選択した1つ以上の類似性を含む段階を含む、付記1に記載の方法。
(付記12) 実行したとき、
有体媒体に記憶された文書にアクセスする段階と、
前記文書に対する一組の目標タグを受け取る段階と、
複数のタームを選択する段階であって、前記文書のオントロジー空間を減縮するようにタームを選択する段階と、
前記タームをタグとして推奨するコンピュータに前記タームを送る段階と
を実行するソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体。
(付記13) 前記ソフトウェアは、類似性に応じて前記複数のタームを選択する段階であって、目標タグとの類似性が高く、その他のタームとの類似性が低いタームを選択する段階により複数のタームを選択する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記14) 前記ソフトウェアは実行されたとき、
前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームを前記目標タグの集合に追加する段階と、
前記目標タグの集合により次の複数のタームを選択する段階と
を実行する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記15) 前記ソフトウェアは実行されたとき、
前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームとの類似度が高い次の複数のタームを選択する段階と
を実行する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記16) 前記ソフトウェアは実行されたとき、
前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
拒絶された1つ以上のタームを特定する段階と、
前記拒絶された1つ以上のタームとの類似度が低い次の複数のタームを選択する段階と
をさらに実行する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記17) 前記ソフトウェアは
ユーザ入力とコンピュータ分析とよりなるグループから選択されたソースから前記目標タグの集合の一目標タグを受け取る段階と、
前記目標タグの前記ソースを記録する段階と
により前記文書の前記目標タグの集合にアクセスする、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記18) 前記ソフトウェアは実行されたとき、
前記目標タグの集合の各目標タグのソースを決定(establish)する段階と、
目標タグと関連する複数の検索結果を検索する段階と、
前記目標タグのソースに応じて前記検索結果をランク付けする段階と
をさらに実行する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記19) 前記ソフトウェアは実行されたとき、前記目標タグの集合から冗長タームを削除する段階をさらに実行する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記20) 前記ソフトウェアは実行されたとき、タグが特定のタームに対して有すべき要求される関係性の程度を受け取るグラフィカル要素を表示する段階をさらに実行する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記21) 前記ソフトウェアは、実行されたとき、前記目標タグに対応するクラスターから目標タグとの類似性が高いタームを特定する段階により類似性に応じて前記複数のタームを選択する、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記22) 前記ソフトウェアは、実行されたとき、類似性に応じて前記複数のタームを選択し、前記類似性は、類似性、平均類似性、有向類似性、及び差分類似性よりなるグループから選択した1つ以上の類似性をさらに含む、付記12に記載のコンピュータ読み取り可能有体媒体。
(付記23) 検索のための一組の目標検索タームを受け取る段階と、
複数の候補タームを選択する段階であって、前記検索のオントロジー空間を減縮するように候補タームを選択する段階と、
前記候補タームを検索タームとして推奨するコンピュータに前記候補タームを送る段階とを含む方法。
(付記24) 前記複数の候補タームを選択する段階は、類似性に応じて前記複数の候補タームを選択する段階であって、目標検索タームとの類似性が高く、その他のタームとの類似性が低い候補タームを選択する段階を含む、付記23に記載の方法。
(付記25) 前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームを前記目標検索タームの集合に追加する段階と、
前記目標検索タームの集合により次の複数のタームを選択する段階と
を含む、付記23に記載の方法。
(付記26) 前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームとの類似度が高い次の複数のタームを選択する段階とをさらに含む、付記23に記載の方法。
(付記27) 前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
拒絶された1つ以上のタームを特定する段階と、
前記拒絶された1つ以上のタームとの類似度が低い次の複数のタームを選択する段階とをさらに含む、付記23に記載の方法。
(付記28) 前記検索のための前記目標検索タームの集合を受け取る段階は、
ユーザ入力とコンピュータ分析とよりなるグループから選択されたソースから前記目標検索タームの集合の一目標検索タームを受け取る段階と、
前記目標検索タームの前記ソースを記録する段階と、
をさらに含む、付記23に記載の方法。
(付記29) 前記目標検索タームの集合の各目標検索タームのソースを決定(establish)する段階と、
目標検索タームと関連する複数の検索結果を検索する段階と、
前記目標検索タームのソースに応じて前記検索結果をランク付けする段階とをさらに含む、付記23に記載の方法。
(付記30) 前記目標検索タームの集合から冗長タームを削除する段階をさらに含む、付記23に記載の方法。
(付記31) 候補タームが検索タームに対して有すべき要求される関係性の程度を受け取るグラフィカル要素を表示する段階をさらに含む、付記23に記載の方法。
(付記32) 前記目標検索タームに対応するクラスターから目標検索タームとの類似性が高い候補タームを特定する段階により、前記複数の候補タームを選択する段階をさらに含む、付記23に記載の方法。
(付記33) 類似性に応じて前記複数の候補タームを選択する段階であって、前記類似性は、類似性、平均類似性、有向類似性、及び差分類似性よりなるグループから選択した1つ以上の類似性をさらに含む段階を含む、付記23に記載の方法。
(付記34) 実行したとき
検索のための一組の目標検索タームを受け取る段階と、
複数の候補タームを選択する段階であって、前記検索のオントロジー空間を減縮するように候補タームを選択する段階と、
前記候補タームを検索タームとして推奨するコンピュータに前記候補タームを送る段階と
を実行するソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体。
(付記35) 前記ソフトウェアは、
類似性に応じて前記複数の候補タームを選択する段階であって、目標検索タームとの類似性が高く、その他のタームとの類似性が低い候補タームを選択する段階により複数の候補タームを選択する、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記36) 前記ソフトウェアは実行されたとき、
前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームを前記目標検索タームの集合に追加する段階と、
前記目標検索タームの集合により次の複数のタームを選択する段階とを含む、
付記34に記載のコンピュータ読み取り可能有体媒体。
(付記37) 前記ソフトウェアは実行されたとき、
前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
前記選択された1つ以上のタームとの類似度が高い次の複数のタームを選択する段階とを実行する、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記38) 前記ソフトウェアは実行されたとき、
前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
拒絶された1つ以上のタームを特定する段階と、
前記拒絶された1つ以上のタームとの類似度が低い次の複数のタームを選択する段階とをさらに実行する、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記39) 前記ソフトウェアは
ユーザ入力とコンピュータ分析とよりなるグループから選択されたソースから前記目標検索タームの集合の一目標検索タームを受け取る段階と、
前記目標検索タームの前記ソースを記録する段階と
により前記検索の前記目標検索タームの集合を受け取る、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記40) 前記ソフトウェアは実行されたとき、
前記目標検索タームの集合の各目標検索タームのソースを決定(establish)する段階と、
目標検索タームと関連する複数の検索結果を検索する段階と、
前記目標検索タームのソースに応じて前記検索結果をランク付けする段階とをさらに実行する、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記41) 前記ソフトウェアは実行されたとき、
前記目標検索タームの集合から冗長タームを削除する段階をさらに実行する、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記42) 前記ソフトウェアは実行されたとき、
候補タームが検索タームに対して有すべき要求される関係性の程度を受け取るグラフィカル要素を表示する段階をさらに含む、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記43) 前記ソフトウェアは、実行されたとき、
前記目標検索タームに対応するクラスターから目標検索タームとの類似性が高い候補タームを特定する段階により類似性に応じて前記複数の候補タームを選択する、付記34に記載のコンピュータ読み取り可能有体媒体。
(付記44) 前記ソフトウェアは、実行されたとき、類似性に応じて前記複数の候補タームを選択し、前記類似性は、類似性、平均類似性、有向類似性、及び差分類似性よりなるグループから選択した1つ以上の類似性をさらに含む、付記34に記載のコンピュータ読み取り可能有体媒体。
文書のタグを選択するシステムの一実施形態を示す図である。 図1のシステムで利用できる類似性モジュールの一実施形態を示すブロック図である。 基本類似性を記録する類似性マトリックスの一例を示す図である。 基本類似性を記録する類似性マトリックスの一例を示す図である。 平均類似性を記録する類似性マトリックスの一例を示す図である。 類似性グラフの一例を示す図である。 図1のシステムで使用できるクラスターリングモジュールの一実施形態を示す図である。 図1のシステムで利用できるオントロジー特性モジュールの一実施形態を示すブロック図である。 図1のシステムで使用できるタギングモジュールの一実施形態を示す図である。 トピックの統計的分布の決定方法の一例を示す図である。 文書のパラグラフを分析してその文書にタグを割り当てる方法の一例を示す図である。 タグの選択に応じてタグを割り当てる方法の一例を示す図である。
符号の説明
20 クライアント
22 サーバ
24 メモリ
26 ディシジョン・ダイアグラム・エンジン
30 類似性モジュール
31 クラスタリングモジュール
32 オントロジー特性モジュール
34 類似性計算器
35 タギングモジュール
38 オントロジー生成器
42 類似性マトリックス生成器
46 類似性グラフ生成器
48 ワード推奨器
50 ページ
54 レコード
58 インデックス
62 逆インデックス
66 オントロジー
67 クラスター
210 クラスタリングエンジン
214 クラスタ分析器
230 深さエンジン
240 テーマエンジン
244 具体性エンジン
250 オントロジー特性アプリケーションモジュール
310 トピックモデル部
314 タグ部

Claims (16)

  1. 有体媒体に記憶された文書にアクセスする段階と、
    前記文書に対する一組の目標タグを受け取る段階と、
    複数のタームを選択する段階であって、前記文書のオントロジー空間を減縮するようにタームを選択する段階と、
    前記タームをタグとして推奨するコンピュータに前記タームを送る段階とを含む方法。
  2. 前記複数のタームを選択する段階は、類似性に応じて前記複数のタームを選択する段階であって、目標タグとの類似性が高く、その他のタームとの類似性が低いタームを選択する段階を含む、請求項1に記載の方法。
  3. 前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
    前記選択された1つ以上のタームを前記目標タグの集合に追加する段階と、
    前記目標タグの集合により次の複数のタームを選択する段階とをさらに含む、請求項1に記載の方法。
  4. 前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
    前記選択された1つ以上のタームとの類似度が高い次の複数のタームを選択する段階とをさらに含む、請求項1に記載の方法。
  5. 前記推奨されたタームのうちの1つ以上のタームの選択を受け取る段階と、
    拒絶された1つ以上のタームを特定する段階と、
    前記拒絶された1つ以上のタームとの類似度が低い次の複数のタームを選択する段階とをさらに含む、請求項1に記載の方法。
  6. 前記文書の前記目標タグの集合にアクセスする段階は、
    ユーザ入力とコンピュータ分析とよりなるグループから選択されたソースから前記目標タグの集合の一目標タグを受け取る段階と、
    前記目標タグの前記ソースを記録する段階とをさらに含む、
    請求項1に記載の方法。
  7. 前記目標タグの集合の各目標タグのソースを決定する段階と、
    目標タグと関連する複数の検索結果を検索する段階と、
    前記目標タグのソースに応じて前記検索結果をランク付けする段階とをさらに含む、
    請求項1に記載の方法。
  8. 実行したとき、
    有体媒体に記憶された文書にアクセスする段階と、
    前記文書に対する一組の目標タグを受け取る段階と、
    複数のタームを選択する段階であって、前記文書のオントロジー空間を減縮するようにタームを選択する段階と、
    前記タームをタグとして推奨するコンピュータに前記タームを送る段階と
    を実行するソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体。
  9. 検索のための一組の目標検索タームを受け取る段階と、
    複数の候補タームを選択する段階であって、前記検索のオントロジー空間を減縮するように候補タームを選択する段階と、
    前記候補タームを検索タームとして推奨するコンピュータに前記候補タームを送る段階とを含む方法。
  10. 前記複数の候補タームを選択する段階は、類似性に応じて前記複数の候補タームを選択する段階であって、目標検索タームとの類似性が高く、その他のタームとの類似性が低い候補タームを選択する段階を含む、請求項9に記載の方法。
  11. 前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
    前記選択された1つ以上のタームを前記目標検索タームの集合に追加する段階と、
    前記目標検索タームの集合により次の複数のタームを選択する段階と
    を含む、請求項9に記載の方法。
  12. 前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
    前記選択された1つ以上のタームとの類似度が高い次の複数のタームを選択する段階とをさらに含む、請求項9に記載の方法。
  13. 前記候補タームのうちの1つ以上のタームの選択を受け取る段階と、
    拒絶された1つ以上のタームを特定する段階と、
    前記拒絶された1つ以上のタームとの類似度が低い次の複数のタームを選択する段階とをさらに含む、請求項9に記載の方法。
  14. 前記検索のための前記目標検索タームの集合を受け取る段階は、
    ユーザ入力とコンピュータ分析とよりなるグループから選択されたソースから前記目標検索タームの集合の一目標検索タームを受け取る段階と、
    前記目標検索タームの前記ソースを記録する段階と、
    をさらに含む、請求項9に記載の方法。
  15. 前記目標検索タームの集合の各目標検索タームのソースを決定する段階と、
    目標検索タームと関連する複数の検索結果を検索する段階と、
    前記目標検索タームのソースに応じて前記検索結果をランク付けする段階とをさらに含む、請求項9に記載の方法。
  16. 実行したとき
    検索のための一組の目標検索タームを受け取る段階と、
    複数の候補タームを選択する段階であって、前記検索のオントロジー空間を減縮するように候補タームを選択する段階と、
    前記候補タームを検索タームとして推奨するコンピュータに前記候補タームを送る段階と
    を実行するソフトウェアをエンコードしたコンピュータ読み取り可能有体媒体。
JP2008259629A 2007-10-05 2008-10-06 オントロジー空間を規定するタームの推奨 Active JP5391633B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US97793407P 2007-10-05 2007-10-05
US60/977,934 2007-10-05
US12/243,050 US9081852B2 (en) 2007-10-05 2008-10-01 Recommending terms to specify ontology space
US12/243,050 2008-10-01

Publications (2)

Publication Number Publication Date
JP2009093649A true JP2009093649A (ja) 2009-04-30
JP5391633B2 JP5391633B2 (ja) 2014-01-15

Family

ID=40139943

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008259629A Active JP5391633B2 (ja) 2007-10-05 2008-10-06 オントロジー空間を規定するタームの推奨

Country Status (4)

Country Link
US (1) US9081852B2 (ja)
EP (1) EP2045740A1 (ja)
JP (1) JP5391633B2 (ja)
CN (1) CN101408887B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170699A (ja) * 2010-02-19 2011-09-01 Nippon Telegr & Teleph Corp <Ntt> 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
JP2014506702A (ja) * 2011-02-25 2014-03-17 エンパイア テクノロジー ディベロップメント エルエルシー オントロジ拡張
JP2016126567A (ja) * 2015-01-05 2016-07-11 日本放送協会 コンテンツ推薦装置、及びプログラム
CN111316259A (zh) * 2017-08-10 2020-06-19 邓白氏公司 用于反馈和裁定的语义属性的动态合成和瞬时聚簇的***和方法

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452725B2 (en) * 2008-09-03 2013-05-28 Hamid Hatami-Hanza System and method of ontological subject mapping for knowledge processing applications
US8606796B2 (en) * 2008-09-15 2013-12-10 Kilac, LLC Method and system for creating a data profile engine, tool creation engines and product interfaces for identifying and analyzing files and sections of files
US10318603B2 (en) * 2008-12-04 2019-06-11 International Business Machines Corporation Reciprocal tags in social tagging
RU2598328C2 (ru) * 2010-09-30 2016-09-20 Конинклейке Филипс Электроникс Н.В. Система уточнения медицинских запросов
CN102541921A (zh) * 2010-12-24 2012-07-04 华东师范大学 一种通过扩展标签推荐资源的控制方法及装置
CN102637173B (zh) * 2011-02-10 2015-09-02 北京百度网讯科技有限公司 网络百科内容形成方法、网络服务器和客户端
CN102768661B (zh) * 2011-05-05 2014-12-17 株式会社理光 从多个网页中抽取对象和网页的方法和设备
US8843497B2 (en) * 2012-02-09 2014-09-23 Linkshare Corporation System and method for association extraction for surf-shopping
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
CN102831185A (zh) * 2012-08-01 2012-12-19 北京百度网讯科技有限公司 一种词条推荐方法及装置
US20140250376A1 (en) * 2013-03-04 2014-09-04 Microsoft Corporation Summarizing and navigating data using counting grids
US9262510B2 (en) 2013-05-10 2016-02-16 International Business Machines Corporation Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
CN103218458B (zh) * 2013-05-13 2016-12-28 百度在线网络技术(北京)有限公司 推荐方法及推荐服务器
CN104252487B (zh) * 2013-06-28 2019-05-03 百度在线网络技术(北京)有限公司 一种用于生成词条信息的方法和装置
US9251136B2 (en) 2013-10-16 2016-02-02 International Business Machines Corporation Document tagging and retrieval using entity specifiers
US9235638B2 (en) 2013-11-12 2016-01-12 International Business Machines Corporation Document retrieval using internal dictionary-hierarchies to adjust per-subject match results
US9444819B2 (en) * 2014-01-16 2016-09-13 International Business Machines Corporation Providing context-based visibility of cloud resources in a multi-tenant environment
US9390196B2 (en) 2014-06-03 2016-07-12 International Business Machines Corporation Adjusting ranges of directed graph ontologies across multiple dimensions
CN104317867B (zh) * 2014-10-17 2018-02-09 上海交通大学 对搜索引擎返回的网页图片进行实体聚类的***
JP2016157290A (ja) * 2015-02-25 2016-09-01 富士通株式会社 文書検索装置、文書検索方法、および文書検索プログラム
US10248718B2 (en) 2015-07-04 2019-04-02 Accenture Global Solutions Limited Generating a domain ontology using word embeddings
US10496691B1 (en) 2015-09-08 2019-12-03 Google Llc Clustering search results
US10650305B2 (en) * 2016-07-08 2020-05-12 Baidu Usa Llc Systems and methods for relation inference
CN106452855B (zh) * 2016-09-28 2020-03-17 网易(杭州)网络有限公司 一种文章标签添加方法和装置
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10402491B2 (en) 2016-12-21 2019-09-03 Wipro Limited System and method for creating and building a domain dictionary
CN110019656A (zh) * 2017-07-26 2019-07-16 上海颐为网络科技有限公司 一种新建词条相关内容智能推送方法和***
US10747756B2 (en) * 2017-09-28 2020-08-18 Oracle International Corporation Recommending fields for a query based on prior queries
JP2019153056A (ja) * 2018-03-02 2019-09-12 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
WO2019228065A1 (en) * 2018-06-01 2019-12-05 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for processing queries
US11416562B1 (en) 2021-04-23 2022-08-16 International Business Machines Corporation Corpus expansion using lexical signatures

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174247A1 (en) * 2006-01-25 2007-07-26 Zhichen Xu Systems and methods for collaborative tag suggestions

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907836A (en) * 1995-07-31 1999-05-25 Kabushiki Kaisha Toshiba Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
US6484168B1 (en) * 1996-09-13 2002-11-19 Battelle Memorial Institute System for information discovery
US6023676A (en) * 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
US6038560A (en) * 1997-05-21 2000-03-14 Oracle Corporation Concept knowledge base search and retrieval system
US6175829B1 (en) 1998-04-22 2001-01-16 Nec Usa, Inc. Method and apparatus for facilitating query reformulation
US6832350B1 (en) * 1998-09-30 2004-12-14 International Business Machines Corporation Organizing and categorizing hypertext document bookmarks by mutual affinity based on predetermined affinity criteria
US6397205B1 (en) * 1998-11-24 2002-05-28 Duquesne University Of The Holy Ghost Document categorization and evaluation via cross-entrophy
US6665681B1 (en) 1999-04-09 2003-12-16 Entrieva, Inc. System and method for generating a taxonomy from a plurality of documents
US7225182B2 (en) 1999-05-28 2007-05-29 Overture Services, Inc. Recommending search terms using collaborative filtering and web spidering
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US6519586B2 (en) 1999-08-06 2003-02-11 Compaq Computer Corporation Method and apparatus for automatic construction of faceted terminological feedback for document retrieval
US6587848B1 (en) * 2000-03-08 2003-07-01 International Business Machines Corporation Methods and apparatus for performing an affinity based similarity search
JP2001256253A (ja) * 2000-03-13 2001-09-21 Kddi Corp 文書フィルタリング方法および装置
WO2001090921A2 (en) * 2000-05-25 2001-11-29 Kanisa, Inc. System and method for automatically classifying text
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US6895406B2 (en) * 2000-08-25 2005-05-17 Seaseer R&D, Llc Dynamic personalization method of creating personalized user profiles for searching a database of information
AUPR033800A0 (en) * 2000-09-25 2000-10-19 Telstra R & D Management Pty Ltd A document categorisation system
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
US7096218B2 (en) 2002-01-14 2006-08-22 International Business Machines Corporation Search refinement graphical user interface
JP2003241790A (ja) * 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
US20030182168A1 (en) * 2002-03-22 2003-09-25 Martha Lyons Systems and methods for virtual, real-time affinity diagramming collaboration by remotely distributed teams
US7139695B2 (en) * 2002-06-20 2006-11-21 Hewlett-Packard Development Company, L.P. Method for categorizing documents by multilevel feature selection and hierarchical clustering based on parts of speech tagging
JP4093012B2 (ja) * 2002-10-17 2008-05-28 日本電気株式会社 ハイパーテキスト検査装置および方法並びにプログラム
US7426509B2 (en) * 2002-11-15 2008-09-16 Justsystems Evans Research, Inc. Method and apparatus for document filtering using ensemble filters
US6873996B2 (en) 2003-04-16 2005-03-29 Yahoo! Inc. Affinity analysis method and article of manufacture
US7734627B1 (en) * 2003-06-17 2010-06-08 Google Inc. Document similarity detection
GB2403636A (en) 2003-07-02 2005-01-05 Sony Uk Ltd Information retrieval using an array of nodes
US7634482B2 (en) * 2003-07-11 2009-12-15 Global Ids Inc. System and method for data integration using multi-dimensional, associative unique identifiers
US8014997B2 (en) * 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US8676830B2 (en) 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
US8788492B2 (en) * 2004-03-15 2014-07-22 Yahoo!, Inc. Search system and methods with integration of user annotations from a trust network
US20060155751A1 (en) * 2004-06-23 2006-07-13 Frank Geshwind System and method for document analysis, processing and information extraction
US7266548B2 (en) * 2004-06-30 2007-09-04 Microsoft Corporation Automated taxonomy generation
US7496593B2 (en) * 2004-09-03 2009-02-24 Biowisdom Limited Creating a multi-relational ontology having a predetermined structure
US20060074836A1 (en) * 2004-09-03 2006-04-06 Biowisdom Limited System and method for graphically displaying ontology data
US20060053382A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for facilitating user interaction with multi-relational ontologies
US20060080315A1 (en) * 2004-10-08 2006-04-13 The Greentree Group Statistical natural language processing algorithm for use with massively parallel relational database management system
US7805300B2 (en) 2005-03-21 2010-09-28 At&T Intellectual Property Ii, L.P. Apparatus and method for analysis of language model changes
US8346757B1 (en) * 2005-03-28 2013-01-01 Google Inc. Determining query terms of little significance
US7870147B2 (en) 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US7636714B1 (en) * 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
US7844566B2 (en) 2005-04-26 2010-11-30 Content Analyst Company, Llc Latent semantic clustering
US7912701B1 (en) * 2005-05-04 2011-03-22 IgniteIP Capital IA Special Management LLC Method and apparatus for semiotic correlation
US20060259475A1 (en) * 2005-05-10 2006-11-16 Dehlinger Peter J Database system and method for retrieving records from a record library
WO2007002412A2 (en) * 2005-06-22 2007-01-04 Affiniti, Inc. Systems and methods for retrieving data
US20080005064A1 (en) * 2005-06-28 2008-01-03 Yahoo! Inc. Apparatus and method for content annotation and conditional annotation retrieval in a search context
US9715542B2 (en) 2005-08-03 2017-07-25 Search Engine Technologies, Llc Systems for and methods of finding relevant documents by analyzing tags
US8312021B2 (en) * 2005-09-16 2012-11-13 Palo Alto Research Center Incorporated Generalized latent semantic analysis
US8688673B2 (en) * 2005-09-27 2014-04-01 Sarkar Pte Ltd System for communication and collaboration
US7792858B2 (en) * 2005-12-21 2010-09-07 Ebay Inc. Computer-implemented method and system for combining keywords into logical clusters that share similar behavior with respect to a considered dimension
US8630627B2 (en) * 2006-02-14 2014-01-14 Sri International Method and apparatus for processing messages in a social network
US20070282684A1 (en) * 2006-05-12 2007-12-06 Prosser Steven H System and Method for Determining Affinity Profiles for Research, Marketing, and Recommendation Systems
KR20090028713A (ko) * 2006-05-19 2009-03-19 마이 버추얼 모델 아이엔씨. 시뮬레이션 보조형 검색
US8196039B2 (en) * 2006-07-07 2012-06-05 International Business Machines Corporation Relevant term extraction and classification for Wiki content
JP5115741B2 (ja) * 2006-09-14 2013-01-09 日本電気株式会社 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム
US7895210B2 (en) 2006-09-29 2011-02-22 Battelle Memorial Institute Methods and apparatuses for information analysis on shared and distributed computing systems
US7974976B2 (en) * 2006-11-09 2011-07-05 Yahoo! Inc. Deriving user intent from a user query
US20080201632A1 (en) * 2007-02-16 2008-08-21 Palo Alto Research Center Incorporated System and method for annotating documents
US7685200B2 (en) * 2007-03-01 2010-03-23 Microsoft Corp Ranking and suggesting candidate objects
WO2008118884A1 (en) * 2007-03-23 2008-10-02 Ruttenberg Steven E Method of prediciting affinity between entities
US8019707B2 (en) * 2007-09-20 2011-09-13 Deutsche Telekom Ag Interactive hybrid recommender system
US7536637B1 (en) * 2008-02-07 2009-05-19 International Business Machines Corporation Method and system for the utilization of collaborative and social tagging for adaptation in web portals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174247A1 (en) * 2006-01-25 2007-07-26 Zhichen Xu Systems and methods for collaborative tag suggestions

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170699A (ja) * 2010-02-19 2011-09-01 Nippon Telegr & Teleph Corp <Ntt> 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
JP2014506702A (ja) * 2011-02-25 2014-03-17 エンパイア テクノロジー ディベロップメント エルエルシー オントロジ拡張
JP2016126567A (ja) * 2015-01-05 2016-07-11 日本放送協会 コンテンツ推薦装置、及びプログラム
CN111316259A (zh) * 2017-08-10 2020-06-19 邓白氏公司 用于反馈和裁定的语义属性的动态合成和瞬时聚簇的***和方法
JP2020530620A (ja) * 2017-08-10 2020-10-22 ザ ダン アンド ブラッドストリート コーポレーションThe Dun And Bradstreet Corporation フィードバック及び判定用のセマンティック属性の動的合成及び一時的クラスタリングのためのシステム及び方法
JP7407105B2 (ja) 2017-08-10 2023-12-28 ザ ダン アンド ブラッドストリート コーポレーション フィードバック及び判定用のセマンティック属性の動的合成及び一時的クラスタリングのためのシステム及び方法

Also Published As

Publication number Publication date
CN101408887A (zh) 2009-04-15
US20090094020A1 (en) 2009-04-09
EP2045740A1 (en) 2009-04-08
CN101408887B (zh) 2015-06-17
JP5391633B2 (ja) 2014-01-15
US9081852B2 (en) 2015-07-14

Similar Documents

Publication Publication Date Title
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
JP5391634B2 (ja) 文書の段落分析によるその文書のタグの選択
US9317593B2 (en) Modeling topics using statistical distributions
JP5423030B2 (ja) ワードセットに関係するワードの決定
JP5353173B2 (ja) 文書の具体性の決定
JP5332477B2 (ja) ターム階層の自動生成
US8108405B2 (en) Refining a search space in response to user input
JP5391632B2 (ja) ワードと文書の深さの決定
Lin et al. Knowledge map creation and maintenance for virtual communities of practice
Kaptein et al. Exploiting the category structure of Wikipedia for entity ranking
Zaware et al. Text summarization using tf-idf and textrank algorithm
Wang et al. Answer selection and expert finding in community question answering services: A question answering promoter
WO2016009321A1 (en) System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices
Irshad et al. SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data.
Alagarsamy et al. A fuzzy content recommendation system using similarity analysis, content ranking and clustering
EP2090992A2 (en) Determining words related to a given set of words
Dhokar et al. Cliques detection vs maximum spanning tree for tweet contextualization
Basili et al. Automatic text categorization
Huang et al. Solving the “Who’s Mark Johnson Puzzle”: Information Extraction Based Cross Document Coreference

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130305

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130625

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130930

R150 Certificate of patent or registration of utility model

Ref document number: 5391633

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150