JP2011529600A - 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置 - Google Patents

意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置 Download PDF

Info

Publication number
JP2011529600A
JP2011529600A JP2011521074A JP2011521074A JP2011529600A JP 2011529600 A JP2011529600 A JP 2011529600A JP 2011521074 A JP2011521074 A JP 2011521074A JP 2011521074 A JP2011521074 A JP 2011521074A JP 2011529600 A JP2011529600 A JP 2011529600A
Authority
JP
Japan
Prior art keywords
data set
group
keyword
target data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011521074A
Other languages
English (en)
Inventor
リュアン,ウエン
マハ,クリント・プレンティス
ヒーリー,ジェラルド・フランシス,ザ・サード
ファリス,アンドリュー・ロレンス
スタインバーグ,ガブリエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TEXTWISE LLC
Original Assignee
TEXTWISE LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TEXTWISE LLC filed Critical TEXTWISE LLC
Publication of JP2011529600A publication Critical patent/JP2011529600A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示は、ウェブページおよび広告を表すトレーナブル意味ベクトル(TSV)などの一意的意味ベクトルおよび、広告およびウェブページの代表キーワードの情報を含む意味表現の解析に基づいて、ユーザによりレビューされているウェブページなどの対象データセットに文脈的に関係付けられた、広告などの1つ以上のデータセットを識別するためのシステムおよび方法を記載する。

Description

開示の分野
本開示は文書、ウェブページ、eメール、検索クエリ、広告などの文脈的に関係付けられたデータセットを識別するための方法およびシステムに関し、より詳細には、データセットの一意的意味ベクトルおよび、データセットの代表キーワードの情報を含むキーワード意味表現を解析することにより対象データセットに文脈的に関係付けられたデータセットを識別するための方法およびシステムに関する。
本開示の背景および要約
Microsoft Corporation,Google Inc.、Vibrant MediaまたはYahoo!Inc.により開発されたものなど、検索エンジンまたは広告配置システムが広く使用されて、ユーザによる検索クエリ入力に潜在的に関連する文書またはファイルを識別するか、あるいは文書、eメールメッセージ、RSSフィード、ウェブページのなどの、ユーザによって見られたもしくは操作された、または見られているもしくは操作されている1つ以上のデータセットに文脈的に関連付けられた広告を選択して表示する。
しかしながら、既存の検索エンジンまたは広告配置システムは、開発および修正されてから数年経つが、いまだに満足行くものとは程遠い。検索結果または識別クエリは、ユーザにより入力された検索クエリ、あるいはユーザにより見られているもしくは見られた文書またはウェブページに対する十分な関連性が欠けていることが多い。
本開示は、データセットを表す一意的意味ベクトルおよびデータセットの代表キーワードの情報を含む意味表現を解析することにより、検索クエリまたはユーザにより見られているウェブページなどの対象データセットに文脈的に関係し得る、文書、ウェブページ、eメールなどの1つ以上のデータセットを効率的に識別する、種々の実施形態を記載する。
本開示による例示的方法は、1グループのデータセットからの少なくとも1つのデータセットを対象データセットに関係付けるためのデータ処理システムを制御する。各データセットまたは対象データセットは少なくとも1つのキーワードを含む。当該方法は、対象データセットを表す意味ベクトルと、グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスする。グループにおける各それぞれのデータセットを表す各意味ベクトルは、それぞれのデータセットにおける各少なくとも1つのキーワードと、それぞれのデータセットにおける各少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含む。対象データセットを表す意味ベクトルは、対象データセットにおける各少なくとも1つのキーワードと、対象データセットにおける各少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、対象データセットまたはグループにおける各それぞれのデータセットを表す意味ベクトルは、所定カテゴリの数に等しい次元を有する。グループにおける各データセットについて、対象データセットに関連付けられた意味ベクトルを、グループにおける各データセットに関連付けられた意味ベクトルと比較することにより、対象データセットとグループに
おける各データセットとの間の第1の類似性を決定するステップを含む。例示的方法はさらに、対象データセットのキーワード意味表現とグループにおける各それぞれのデータセットのキーワード意味表現とにアクセスする。対象データセットのキーワード意味表現または、グループにおける各それぞれのデータセットのキーワード意味表現は、対象データセットまたはグループにおける各それぞれデータセットの代表キーワードを表す情報を含み、対象データセットのキーワード意味表現またはグループにおける各それぞれのデータセットのキーワード意味表現は、対象データセットの意味ベクトルまたはグループにおける各それぞれのデータセットの意味ベクトルとは異なるように構築される。グループにおける各データセットに対して、対象データセットのキーワード意味表現とグループにおける各データセットのキーワード意味表現とを比較することにより、対象データセットとグループにおける各データセットとの間の第2の類似性を決定するステップを含む。グループにおけるデータセットの少なくとも1つが対象データセットとグループにおける各データセットとの間の第1の類似性および対象データセットとグループにおける各データセットとの間の第2の類似性に従って選択される。当該方法は、グループにおける少なくとも1つの選択されたデータセットを対象データセットに関係付ける。データセットの少なくとも1つは、対象データセットと同時にユーザに提示され得るか、または対象データセットをユーザに提示した後に提示され得る。データセットの少なくとも1つまたは対象データセットは、聴覚形態、視覚形態、ビデオ形態、触覚形態またはこれらの任意の組み合わせでユーザに提示され得る。
1つの実施形態では、グループにおけるデータセットの少なくとも1つは広告であり、対象データセットは文書、ウェブページ、eメール、RSSニュースフィード、データストリーム、放送データもしくはユーザに関する情報または1つ以上の文書、ウェブページ、eメール、RSSニュースフィード、データストリーム、放送データもしくはユーザに関する情報の一部である。さらに別の実施形態によると、例示的方法は、少なくとも1つの選択されたデータセットまたは、対象データに関して選択されたデータセットに関連付けられたファイルもしくは対象データセットに関連付けられたファイルを、ユーザに伝達し得る。少なくとも1つの選択されたデータセットを表示するか、少なくとも1つの選択されたデータセットに従って音響信号を再生するか、または少なくとも1つの選択されたデータセットへのリンクを提供することにより、少なくとも1つの選択されたデータセットはユーザに伝達され得る。
1つの実施形態では、少なくとも1つのキーワードは、単語、フレーズ、文字列、予め割り当てられたキーワード、サブデータセット、メタ情報、およびそれぞれのデータセットに含まれるリンクに基づいて取り出された情報のうちの少なくとも1つを含み得る。別の実施形態では、各データセットに対する意味ベクトルは予め計算されて、それぞれのデータセットに含まれる。意味ベクトルは動的にオンザフライで生成され得る。
1つの実施形態によると、グループにおける各それぞれのデータセットを表す意味ベクトルは、グループにおける各それぞれのデータセットの少なくとも1つのキーワードおよび、既知のキーワードと既知のキーワードが関係し得る所定カテゴリとの間の既知の関係に基づいて構築され、対象データセットを表す意味ベクトルは、対象データセットの少なくとも1つのキーワードと、既知のキーワードと既知のキーワードが関係し得る所定カテゴリとの間の既知の関係に基づいて構築される。別の実施形態によると、それぞれのデータセットに関連付けられた意味ベクトルは、さらに、少なくとも一人のユーザに関する情報またはそれぞれのデータセットにリンクされた少なくとも1つのデータセットに基づいて生成される。少なくとも一人のユーザに関する情報は、以前に見られた文書、以前の検索要求、ユーザの好みおよび個人情報のうちの少なくとも1つを含み得る。
1つの実施形態によると、対象データセットとグループにおける各データセットとの間
の第1の類似性および対象データセットとグループにおける各データセットとの間の第2の類似性に従って、グループにおけるデータセットの少なくとも1つを選択するステップは、第1の類似性と第2の類似性のうちの一方を一次類似性として、また他方を二次類似性として指定するステップと、一次類似性に対する複数の事前設定関連レベルの情報にアクセスするステップと、グループにおける各データセットについて、一次類似性を一次類似性に従った事前設定関連レベルのうちの1つにマップするステップと、グループにおけるデータセットのマップされたそれぞれの事前設定関連レベルに従って、グループにおけるデータセットを格付けするステップと、各関連レベル内で、データセットの二次類似性に従って各関連レベルにデータセットを格付けするステップと、各関連レベルにデータセットを格付けした結果に従って、グループにおけるデータセットの少なくとも1つを選択するステップとを含む。
別の実施形態によると、対象データセットとグループにおける各データセットとの間の第1の類似性および対象データセットとグループにおける各データセットとの間の第2の類似性に従って、グループにおけるデータセットの少なくとも1つを選択するステップは、第1の類似性と第2の類似性の一方を一次類似性として、また他方を二次類似性として指定するステップと、一次類似性に従って、グループにおけるデータセットを格付けするステップと、事前設定基準に従って、格付けされたデータセットから少なくとも1つの候補データセットを選択するステップと、二次類似性に従って、少なくとも1つの候補データセットを格付けするステップと、少なくとも1つの候補データセットを格付けした結果に従って、グループにおけるデータセットの少なくとも1つを選択するステップとを含む。
さらに別の実施形態によると、対象データセットとグループにおける各データセットとの間の第1の類似性および対象データセットとグループにおける各データセットとの間の第2の類似性に従って、グループにおけるデータセットの少なくとも1つを選択するステップは、グループにおける各データセットについて、データセットのそれぞれの第1の類似性およびデータセットのそれぞれの第2の類似性に基づいて、事前設定公式に従って複合類似性を計算するステップと、データセットのそれぞれの複合類似性に従って、グループにおけるデータセットの少なくとも1つを選択するステップとを含む。
本発明の別の態様は、1グループのデータセットからの少なくとも1つのデータセットを対象データセットに関係付けるための例示的データ処理システムである。各データセットまたは対象データセットは、少なくとも1つのキーワードを含む。システムはデータを処理するように構成されるデータプロセッサと、データプロセッサによる実行時に、規定のステップを実行するようにデータプロセッサを制御する命令を記憶するように構成されるデータ記憶システムとを含む。そのステップは、対象データセットを表す意味ベクトルと、グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み:グループにおける各それぞれのデータセットを表す各意味ベクトルは、それぞれのデータセットにおける各少なくとも1つのキーワードと、それぞれのデータセットにおける各少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、対象データセットを表す意味ベクトルは、対象データセットにおける少なくとも1つのキーワードと、対象データセットにおける各少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、対象データセットまたはグループにおける各それぞれのデータセットを表す意味ベクトルは、所定カテゴリの数に等しい次元を有しており、グループにおける各データセットについて、対象データセットに関連付けられた意味ベクトルを、グループにおける各データセットに関連付けられた意味ベクトルと比較することにより、対象データセットとグループにおける各データセットとの間の第1の類似性を決定するステップと、対象データセットのキーワード意味表現とグループにおける各それぞれのデータセットのキーワード意味表現とにアクセスす
るステップとを含み、対象データセットのキーワード意味表現または、グループにおける各それぞれのデータセットのキーワード意味表現は、対象データセットまたはグループにおけるそれぞれのデータセットの代表キーワードを表す情報を含み、対象データセットのキーワード意味表現またはグループにおける各それぞれのデータセットのキーワード意味表現は、対象データセットの意味ベクトルまたはグループにおける各それぞれのデータセットの意味ベクトルとは異なるように構築されており、グループにおける各データセットについて、対象データセットのキーワード意味表現とグループにおける各データセットのキーワード意味表現とを比較することにより、対象データセットとグループにおける各データセットとの間の第2の類似性を決定するステップと、対象データセットとグループにおける各データセットとの間の第1の類似性と対象データセットとグループにおける各データセットとの間の第2の類似性とに従って、グループにおけるデータセットのうちの少なくとも1つを選択するステップと、グループにおける少なくとも1つの選択されたデータセットを対象データセットに関係付けるステップとを含む。
本明細書に説明される例示的システムは、1つ以上のコンピュータシステムおよび/または適切なソフトウェアを使用して実装され得る。
本明細書の実施形態は、データ処理システムの実行時に、機械実行されるステップを行って1グループのデータセットからの少なくとも1つのデータセットを対象データセットに関係付けるようにデータ処理システムを制御する命令を運ぶ機械読み取り可能媒体を含む。各データセットまたは対象データセットは少なくとも1つのキーワードを含む。そのステップは、対象データセットを表す意味ベクトルと、グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み、グループにおける各それぞれのデータセットを表す各意味ベクトルは、それぞれのデータセットにおける各少なくとも1つのキーワードと、それぞれのデータセットにおける各少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、対象データセットを表す意味ベクトルは、対象データセットにおける各少なくとも1つのキーワードと、対象データセットにおける各少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、対象データセットまたはグループにおける各それぞれのデータセットを表す意味ベクトルは、所定カテゴリの数に等しい次元を有するステップと、グループにおける各データセットに対して、対象データセットに関連付けられた意味ベクトルを、グループにおける各データセットに関連付けられた意味ベクトルと比較することにより、対象データセットとグループにおける各データセットとの間の第1の類似性を決定するステップと、対象データセットのキーワード意味表現とグループにおける各それぞれのデータセットのキーワード意味表現とにアクセスするステップとを含み、対象データセットのキーワード意味表現または、グループにおける各それぞれのデータセットのキーワード意味表現は、対象データセットまたはグループにおけるそれぞれのデータセットの代表キーワードを表す情報を含み、対象データセットのキーワード意味表現またはグループにおける各それぞれのデータセットのキーワード意味表現は、対象データセットの意味ベクトルまたはグループにおける各それぞれのデータセットの意味ベクトルとは異なるように構築されており、グループにおける各データセットについて、対象データセットのキーワード意味表現とグループにおける各データセットのキーワード意味表現とを比較することにより、対象データセットとグループにおける各データセットとの間の第2の類似性を決定するステップと、対象データセットとグループにおける各データセットとの間の第1の類似性および対象データセットとグループにおける各データセットとの間の第2の類似性に従って、グループにおけるデータセットのうちの少なくとも1つを選択するステップと、グループにおける少なくとも1つの選択されたデータセットを対象データセットに関係付けるステップとを含む。
本開示の追加の利点および新規特徴は、下に続く説明で部分的に述べられるか、以下の
検討で当業者には部分的に明らかとなるか、または本開示の実施により分かり得る。図示され説明される実施形態は、本開示を実施するために熟考された最良の形態の例示を提供する。本明細書に記載される各特長および実施形態は、単独または他の特徴もしくは実施形態と組み合わされて実行され得る。本開示は、その精神及び範囲からまったく逸脱することなく、種々の自明な観点からの修正が可能である。図面および説明は本質的に例示的とみなされるべきであり、限定的とみなすべきでない。本開示の利点は、添付請求項において詳細に指摘される手段および組み合わせにより実現および達成され得る。
例示的広告配置システムのブロック図である。 本開示による例示的広告配置システムの実施形態を示す。 本開示による広告配置システムの別の実施形態の動作を図示する。 単語とカテゴリの間の関係を示す例示的テーブルである。 図4からの単語の重要性に対応した値を図示する例示的テーブルである。 意味空間における、図4からの単語の表現を図示する例示的テーブルである。 例示的広告配置システムが実装される、例示的コンピュータシステムのブロック図である。
例示的実施形態の詳細な説明
本開示は、添付図面において一例として例示され、限定として図示されない。図面では、同じ参照番号表現を有する要素は、全図面を通して同じ要素を表す。
以下の説明では、説明目的のために、本開示の完全な理解を提供するように多くの具体的詳細が述べられる。但し、これらの具体的詳細なしで開示の概念が実践または実施され得ることは当業者には明らかであろう。他の例では、本開示を不必要に曖昧にするのを避けるために周知の構造およびデバイスはブロック図形態で示される。
本明細書の説明で使用されるように、用語「データセット」は人および/または機械により読み取り可能および/または理解可能である表現の集まりを示し、用語「キーワード」は、データセットのテキストまたは記号的要素、数などの1つ以上の要素を示す。例えば、データセットが文書の場合は、キーワードは、文書に含まれる1つ以上の単語、フレーズ、句読点、記号および/またはセンテンスであり得る。データセットは、複数の異なるタイプのデータセットの集まりまたはより大きいデータセットの一部であることが可能である。データセットは、別のデータセットのコンテンツを要約または記述するサマリおよび/またはタグであり得る。キーワードは、ユーザにとって直接見ることが可能であり得るか、またはそうであり得ない。例えば、キーワードは、ビデオファイルの字幕もしくは隠されたサブタイトル、オーディオファイルの歌詞、またはWord文書に関連付けられたメタデータの要素の一部であり得る。キーワードが人または機械により確定または処理されることができる前に、追加の処理が行われ得る。例えば、光学的文字認識または音声認識は、人または機械によるより簡単な処理および/または認識のために、第1の形式における一定要素を第2の形式に変換するために用いられてもよい。
データセットの例は、ウェブページ、ビデオ、オーディオもしくはマルチメディアファイル、広告、eメール、文書、RSSフィード、マルチメディアファイル、写真、図、図面、電子コンピュータ文書、録音、放送、ビデオファイル、メタデータなど、または上記の1つ以上の集まりを含む。
キーワードの例は、データセットに含まれる、または関連付けられる、単語、フレーズ
、記号、用語、ハイパーリンク、メタデータ情報および/または任意の表示もしくは未表示項目を含む。本開示のコンテキストでは、「ウェブページ」は、Microsoft Internet Explorer(このコンテンツはHTMLページ、Java(登録商標)Scriptページ、XMLページ、eメールメッセージおよびRSSニュースフィードを含み得るが、これらに限定しない)のようなウェブブラウザにおいて表示可能な情報の任意の組み合わせまたは集まりを示すと理解される。
本開示で使用されるように、用語「対象データセット」は、それに対して例示的システムは対象データセットに文脈的に関係付けられた1つ以上のデータセットを、1グループのデータセットから識別しようとする、1つ以上のデータセットを示す。例えば、対象データセットは、検索クエリに関連する文書を見つけることを意図してユーザが入力する検索クエリ、または、本開示による例示的システムがウェブパージと共に表示するのに適切な広告を見つけようとする1つ以上のウェブページであり得る。
例示目的のため、以下の例は、ウェブページおよび広告を表す、トレーナブル意味ベクトル(trainable semantic vector)(TSV)などの一意的意味ベクトルならびに、広告およびウェブページの代表キーワードの情報を含む意味表現の解析に基づいて、ユーザによりレビューされているウェブページのような対象データセットに文脈的に関係付けられた広告など1つ以上のデータセットを識別する実施形態の動作を説明する。種々の公式および統計的操作を行って、重要または代表キーワードが他より重視されることができるようにそれらを識別することが可能である。
同様のアプローチおよび方法論が、異なるタイプのデータセットおよび/または対象データセットに適用し得ることが理解される。例えば、同様のアプローチを使用して、ユーザにより入力された1つ以上の検察クエリ(対象データセット)に文脈的に関係付けられた文書もしくはウェブページを識別する、または1つ以上の広告に潜在的に関係し得るウェブページを識別することが可能である。
トレーナブル意味ベクトル(TSV)は、データセットの固有タイプの意味表現であり、データセットに含まれるデータポイントおよび既知のデータポイントと所定カテゴリとの間の既知の関係に基づいて生成される。トレーナブル意味ベクトルの構築および特性の詳細は、その開示が全体において参照により本明細書に組み込まれる、2000年5月2日に出願され、“CONSTRUCTION OF TRAINABLE SEMANTIC VECTORS AND CLUSTERING”と題された米国特許第6,751,621号、および2005年5月11日に出願され、ADVERTISEMENT PLACEMENT METHOD AND SYSTEM USING SEMANTIC ANALYSISと題された米国特許出願第11/126,184号(代理人整理番号55653−019)に記載されている。
図1は、1グループの広告12とウェブページ11の少なくとも2つのタイプの意味表現、つまり、TSVと広告12およびウェブページ11の代表キーワードの情報を含む意味表現の解析に基づいて、1グループの広告12から、ユーザによって見られているウェブページ11に文脈的に関係付けられた1つ以上の広告を識別するように構成された例示的広告配置システム10の図である。広告12は、テキスト、音またはアニメーションなどのメディアの任意の組み合わせからなり得る。解析の結果に基づいて、システム10は、ウェブページ12に文脈的に関係付けられた、選択された広告を識別する整合結果を生成する。
特定データセットまたはウェブページに対する1つ以上の広告の選択が、データセットが提示されたとき、またはデータセットがユーザに提示された後、または前に発生可能で
ある。別の実施形態では、広告配置システム10を使用して、ウェブページ11がその1つ以上の選択された広告と共に表示されるか、それにリンクされるように、ウェブページに文脈的に関連した1つ以上の広告12を選択する。対象データセットに関連するように識別されたデータセットは、対象データセットと共にユーザに伝達または提示されたり、対象データセットの提示または伝達とは異なる時間に伝達または提示されたりする。データセットは、聴覚形態、ビデオ形態、視覚形態、触覚形態、機械読み取り可能形式またはこれらの任意の組み合わせなどの種々の形態または形式でユーザに伝達または提示され得る。
各広告12またはウェブページ11に関連付けられたTSVは、事前に計算されるか、またはオンザフライで計算され得る。1つの実施形態では、各ウェブページまたは広告は、それらのそれぞれの事前に計算されたTSVの、組み込みまたは関連付けられた情報を含む。別の実施形態では、ウェブページ11に関連付けられたTSVはシステム10により動的に計算される。
図2は、広告配置システム10の実施形態の詳細ブロック図である。図2に示すように、広告配置システム10は、広告12またはウェブページ11からキーワードを識別および取り出すための用語抽出器102、112を含む。用語抽出器102、112は、広告12またはウェブページ11のコンテンツに関する言語学解析を行い、広告12またはウェブページ11からのセンテンスを、単語、フレーズなどのより小さい単位に分割する。“the”“a”などのような文法的単語など頻繁に使用される用語は、事前設定のストップリストを使用して除去され得る。広告12またはウェブページ11が実際のコンテンツ(例えば、HTMLマークアップタグまたはJava(登録商標)Scripting)以外の情報を含む場合、その情報は除去され得る。用語抽出を実行するためのソフトウェアは、広く入手可能であり、当業者にとっては既知である。
広告配置システム10はさらに、用語抽出器102、112からの出力に基づいて、ウェブパージ11または広告12に対するTSVを計算するためのTSV生成器103、113を含む。システム10は、広告12およびウェブページ11の両方に共通のTSV生成器を使用し得る。代替的には、ウェブページ11および広告12からの出力をそれぞれ処理するために、別個のTSV生成器を使用し得る。
広告配置システム10は、効率的な検索のために生成されたTSVを組織化して記憶するのに使用される、TSVインデクサ114およびTSVインデックスデータベース118を含む。TSVインデクサ114は、フルデータベース管理システム(DBMS)または、単に大規模データ記録管理用のソフトウェアパッケージを使用して実装され得、TSVインデックスデータベース118は、そのリンクを備えた広告12のTSVを含むTSVインデックスファイルを記憶するデータベースを備えて実装され得る。異なるインデックススキームが適用されて、検索のスピードアップを図り得る。例えば、TSVの1つの共通インデックススキームは、TSVが参照する個々の意味カテゴリの元でそれらをリストアップするものである。
各広告12に関連付けられたTSVおよびウェブページ11に関連付けられたTSVはTSV整合器104に入力されて、ウェブページ11と各広告との間のそれぞれのTSV類似性を決定する。類似性は関連スコアの形態であり得る。1つの実施形態では、TSV間の類似性または関連は、TSV間のN次元ユークリッド距離を決定するなどの、意味ベクトル(TSV)間の距離に基づいて決定される。尚、Nは意味空間または所定カテゴリの次元数である。ウェブページ11のTSVと広告のTSVとの間の距離が短ければ短いほど、ウェブページ11と広告との間はより類似している。余弦測度、ハミング距離、ミンコフスキ距離またはマハラノビス距離など他の比較方法も使用可能である。比較に先立
ってTSVの次元を低減したり、比較の前後に一定の広告を排除するようにファイルタを適用したりすることを含む、種々の最適化が行われて比較時間が改善可能である。
TSV比較結果に基づいて、TSV整合器104は、ウェブページ11とのそれぞれのTSV類似性に従って広告12から選択された整合広告の格付けリストを含む、TSV整合リスト105を生成する。事前設定閾値が適用されて、事前設定閾値を越えた類似度を有するような広告のみを選択し得る。
広告配置システム10はさらに、ウェブページ11および広告12に対してTSVとは異なるタイプを有する、文脈表現を決定し比較するためのメカニズムを含む。1つの実施形態では、広告配置システム10は、ウェブページ11および広告12の代表キーワードの情報を含む意味表現を生成する。
図2に示すように、キーワード選択器115、106は用語抽出器102、112により取り出される用語を入力し、用語頻度(どの位しばしば用語がページに発生するか)、逆文献頻度(1つの集まりにおけるページの何割が用語を含むか)または当業者には周知の他のアプローチなど1つ以上のメトリクスに従って、ウェブページ11または各広告12を表すために、ウェブページ11または広告12のコンテンツからサブセットのキーワードを選択する。例えば、キーワード選択器115、106は、ウェブページ11または各広告の各テキストの出現頻度または出現数を計算して、各テキストの計算された出現頻度または出現数に基づいて代表キーワードを選択し得る。
別の例は、ストップリストを使用してウェブページ11または広告12の対象に関する情報をあまり提供しないキーワードを除去するものである。用語抽出器102、112は、対象に関する情報をあまり提供しない、最も一般的に発生する単語を含むストップリストを保有またはそれにアクセスする。ストップリストに含まれるキーワードは、良好な検索用語ではない。ストップリストは、言語専門家により、自動解析(統計的など)より、もしくはユーザにより、またはこれら3つすべての組み合わせにより作成され得る。当業者に既知の他のアプローチを使用して、ウェブページ11または広告12を表すために、ウェブページ11または広告12からキーワードを選択し得ることは理解される。
各広告の代表キーワードがキーワード選択器115により識別された後、代表キーワードを記憶するためにキーワードインデックスデータベース117が設けられ、それぞれの広告12にリンクする。
図2に図示されるように、キーワード整合器107が設けられて、各それぞれの広告およびウェブページ11を表す選択されたキーワードの情報に基づいて、ウェブページ11と各広告12の間のキーワード類似性を決定する。1つの実施形態では、キーワード整合器107は、キーワードインデックスデータベース117におけるウェブページ11に対する選択されたキーワードのセットを調べて、1つ以上の既知のアルゴリズムに従って、各広告およびウェブページ11に対してキーワード関連スコアを生成する。例えば、広告およびウェブページに含まれる整合または共通キーワード(1つの用語、1つの得票)の数に基づいて2セットの代表キーワード間の関連スコアが計算される。別の実施形態では、キーワード整合器107はより巧妙な得票スキーム(選挙人団、加重シェア(weighted shared)、絶対拒否権を有する貴族(aristocracy with absolute veto)、支持の大きさ(loundness of support)を採用して、各広告およびウェブページ11間の類似度を決定する。ベクトル空間モデルなどの他のタイプの計算は、直線類似性測度または修正余弦類似性測度(straight or modified cosine similarlity measure)を使用して、関連スコアを計算し得る。
キーワード整合器107は、ウェブページ11と各それぞれの広告との間のそれぞれの類似性を計算した後、ウェブページ11とのそれぞれの類似性とそれぞれの関連スコアとに基づいて、広告12を格付けするキーワード整合リスト108を生成する。
TSV整合リスト105およびキーワード整合リスト108は、キーワード整合リスト108とTSV整合リスト105に含まれる情報に従って最終整合リスト110を生成する結合器109に送信される。1つの実施形態では、TSV整合リスト105またはキーワード整合リスト110における各広告に対して、結合器109はTSV整合リスト105とキーワード整合リスト110におけるその関連スコアに基づいて、複合関連スコアを計算する。その後、最終整合リスト110が各広告のそれぞれの複合関連スコアに従って生成される。
1つの実施形態では、複合関連スコアが以下のように計算される。
広告がTSV整合リスト105およびキーワード整合リスト108両方に含まれる場合、
複合スコア=a*TSVスコア+b*キーワードスコア+c (1)
広告がTSV整合リスト105だけに含まれる場合は、
複合スコア=a*TSVスコア+c (2)
広告がキーワード整合リスト108だけに含まれる場合は、
複合スコア=b*キーワードスコア+c (3)
係数a、a、b、b、c、c、c、は、式2および式3が式1の特別なケースとなるように選択され得る。整合リストのいずれかまたはすべてにおける関連スコアは[0,1]に正規化され得る。条件付または無条件閾値をいずれかまたはすべての整合リストにおける関連スコアに適合してリストを短縮し得る。最終整合リスト110は、広告の複合スコアに従ってコンパイルされる。
別の実施形態では、TSV整合リスト105およびキーワード整合リスト108における広告は、一意的公式を使用して、再配置されて例示的最終整合リスト110を形成する。TSV整合リスト105とキーワード整合リスト108における各広告は、それぞれのTSV関連スコアとキーワード関連スコアに関連付けられる。TSV整合リスト105は、そのそれぞれのTSV関連スコアに従って広告を格付けし、キーワード整合リスト108はそれぞれのキーワード関連スコアに基づいて広告を格付けする。TSV関連スコアおよびキーワード関連スコアのうちの一方は一次関連スコアとして指定され、もう一方は二次関連スコアとして指定される。
表1は、一次関連スコアとしてのTSV関連スコアと、二次関連スコアとしてのキーワード関連スコアを有する例示的格付けリストを示す。例示目的のため、関連スコアは[0,1]に正規化される。
Figure 2011529600
各広告に対する一次関連スコアは、関連スコアの特定範囲に対応する事前設定関連レベルにマップされる。その後、広告はそれらのマップされた関連レベルに従って格付けされる。各それぞれの広告に対する二次関連スコアを使用して、各関連レベル内の広告を格付けする。
例えば、表1に示す例では、TSV関連スコアは3つの異なる関連レベルにマップされる。
関連スコア<0.4であれば、
関連レベル=1である。
0.4<=関連スコア<0.7であれば、
関連レベル=2である。
関連スコア>=0.7であれば、
関連レベル=3である。
変換後、広告はそれらのそれぞれの関連レベルに従って再格付けされる。各それぞれの関連レベル内の広告はその後、それらの各二次関連スコアに従って再格付けされる。再格付け結果は表2に示される。表2の列1は広告の最終関連格付けである。
Figure 2011529600
広告配置システム10はその後、最終整合リスト110の格付けに従って、ウェブページ11に関係付けるために、最終整合リスト110から1つ以上の広告を選択する。1つの実施形態では、選択された広告はウェブページ11と共に表示されるか、それにリンクされる。
他の実施形態では、キーワード関連スコアは一次関連スコアとして指定され得、TSV関連スコアは二次関連スコアとして指定され得ることが理解される。また、設計の選好に依存して、異なる数の範囲レベルが使用されて、関連スコアを変換し得ることも理解される。また、条件付または無条件閾値をいずれかまたはすべての整合リストにおける関連スコアに適用して、リストを短縮し得ることも理解される。
別の実施形態では、システム10はTSV整合リスト105とキーワード整合リスト108のうち一方だけに主として依存することにより最終整合リスト100を生成し得る。例えば、システム10は、それらのそれぞれのキーワード関連スコアに従って事前設定数の広告を選択するキーワード整合リスト108に依存する。各広告に対するTSV関連スコアもやはり計算される。キーワード格付けリスト108上の広告はその後、それらのそれぞれのTSV関連スコアに基づいて再格付けされる。システム10は、最終整合リスト110として再格付けされた整合リストを出力する。
図3は、文脈的関連に基づいて1つ以上の広告12をウェブページ11に関係付けるための別の例示的広告配置システム20を示す。考察の簡潔さのために、同じ参照番号表示を有する素子はすでに論じた同様の素子を表す。
システム20では、広告12に対するTSTおよびキーワード意味表現はデータベース212内に記憶される。各広告に対して、データベース212は、2つのデータフィールド、すなわちTSVに対して1つ、キーワード意味表現に対して1つを提供する。広告配置システム20はさらに、TSVおよびキーワード意味表現を組織および管理するためのTSVおよびキーワードインデクサ211を含む。TSVおよびキーワードインデクサ211は完全なデータベース管理システム(DBMS)または、単に大規模データ記録管理のためのソフトウェアパッケージを使用して実装され得、データベース212は、データ
ベースを備えて実装され得る。異なるインデックススキームを適用して検索をスピードアップし得る。
システム20は用語抽出器102および112と、TSV生成器103および113と、キーワード選択器106および115とを含み、すべて、図2に関してすでに説明したものと同じ機能性を備える。各広告に対して、TSVおよびキーワード結合器210がそのTSVおよびキーワード意味表現を広告と適切に関連付ける。同様に、ウェブページ11に対しては、TSVはTSV生成器103により生成され、キーワード意味表現はキーワード選択器106に生成される。TSVおよびキーワード結合器205がそのTSVおよびキーワード意味表現をウェブページ11に関連付け、またはリンクさせる。ウェブページ11および広告12に対するTSVおよびキーワード意味表現に関する情報は、TSVおよびキーワード整合器206により処理され、TSVおよびキーワード整合器107は、図2に関してすでに論じたTSV整合器104およびキーワード整合器206と同様の機能を実行する。TSVおよびキーワード意味表現に対する関連スコアは、図2に関して説明されたのと同様に計算され得る。最終整合リスト213は図2に関してすでに論じたようにTSVおよびキーワード整合器206により生成される。
別の実施形態では、同じベクトル空間におけるデータセットのキーワード意味表現および意味ベクトル表現を組み合わせることにより、各広告または各候補もしくはターゲットデータセットに対する結合関連スコアが計算され得る。例えば、広告のキーワード表現および意味ベクトル表現の両方が、同じベクトル空間のベクトルとして処理されて、組み合わされて、広告の単一結合意味ベクトル表現を形成する。
結合ベクトル意味表現を計算する際に、意味ベクトル表現およびキーワード意味表現が異なる重みが割り当てられ得る。各広告に対して、関連スコアは、広告の結合意味ベクトル表現およびターゲットデータセットの結合意味ベクトル表現に基づいて計算される。最終整合リスト213は、広告のそれぞれの結合関連スコアに従って、TSVおよびキーワード整合器206により生成される。
キーワードまたはTSV比較に基づいて生成される整合リストはさらに、他の既知の方法により絞り込まれるか、再格付け可能であることが理解される。例えば、格付けリストにおけるデータセットまたはウェブページは、全体的開示が参照により本明細書に組み込まれる、“METHOD FOR NODE RANKING IN A LINKED
DATABASE”と題された、米国特許第6,285,999号に記載されるGoogle,Inc.により開発されたPageRankアルゴリズムなどの、最終格付けにおけるウェブページ間のリンク情報に従ったアルゴリズムを使用して再配置され得る。
TSVの構築
これよりデータセットに対するTSVの構成について説明する。TSVの一層の詳細は、その開示がすでに参照により組み込まれる、米国特許第6,751,621号および米国特許出願第11/126,184号に記載される。
データセットに対するTSVの生成に備えて、意味辞書を使用して、データセットに含まれるデータポイントに対応するTSVを見つける。意味辞書は、複数の既知のデータポイントと複数の所定カテゴリとの間の既知の関係を含む。言い換えると、意味辞書は、「定義」、すなわち対応する単語またはフレーズのTSVを含む。
これより、TSV生成器を使用してデータセットに対するTSVを生成するための例示的プロセスについて説明する。データセットは、広告、ウェブページあるいは任意のタイプのデータセットが可能である。例示目的で、「単語」は文書に含まれるキーワードに対
する例として使用される。単語、フレーズ、記号、用語、ハイパーリンク、メタデータ情報、グラフィックおよび/または任意の表示もしくは未表示項目あるいはこれらの任意の組み合わせなど、他の多くのタイプのデータポイントまたはキーワードが文書に含まれ得ることが理解される。
文書の入力キーワードに基づいて、TSV生成器は、意味辞書における対応するキーワードを識別して、意味辞書により与えられる定義に基づいて、文書に含まれる各キーワードのそれぞれのTSVを取り出す。TSV生成器103は、文書に含まれるキーワードのそれぞれのTSVを組み合わせることにより文書のTSVを生成する。例えば、文書のTSVは、文書に含まれるすべてのキーワードのそれぞれのTSVのベクトル加法として定義され得る。
意味辞書作成のためのプロセスについてこれより説明する。1つの実施形態では、複数の既知のデータセットのそれぞれがどの所定カテゴリに入るかを適切に決定することにより、意味辞書が生成される。サンプルデータセットは、1つ以上の所定カテゴリに入り得るか、またはサンプルデータセットは単一カテゴリに関連するように制限され得る。例えば、コンピュータ会社に関わる特許権侵害訴訟に関するニュースレポートは、レポートの内容に依存して、また所定カテゴリに依存して、「知的財産法」「ビジネス論争」「オペレーティングシステム」「経済問題」などを含むカテゴリに入り得る。サンプルデータセットが一定の所定カテゴリに関係付けられていると決定されると、サンプルデータセットに含まれるすべてのキーワードが同一の予め定められたカテゴリに関連付けられる。同じプロセスがすべてのサンプルデータセットに関して行われる。
1つの実施形態では、サンプル文書とカテゴリの間の関係は、オープンディレクトリプロジェクト(ODP)を解析することにより決定可能であり、オープンディレクトリプロジェクトは、専門の編集者により何10万のウェブページを豊富なトピック階層に割り当てたものである。割り当てられたカテゴリを有するこれらのサンプルウェブページは、キーワードと所定カテゴリとの間の関係を決定するためのトレーニング文書(training document)と呼ばれる。他のオンライントピック階層、分類スキームおよびオントロジを同様に使用して、サンプルトレーニング文書をカテゴリに関係付けることができることは当業者には明白なはずである。
以下のステップは、ODP階層がTSV意味辞書を生成する目的でどのように変形されるかを説明する。
1.ODPウェブページをダウンロードする。各ウェブページと、それが属するODPカテゴリとの間の関連付けが保持される。適切にダウンロードしなかったいかなるウェブページも除去して、URLSを内部パス名に翻訳する。
2.オプションで、上記ODPウェブページのいずれかにより参照されるすべてのウェブページをダウンロードして、各新しいウェブページと元のODPウェブページが属するODPカテゴリとの間の関連付けを作成する。オプションでウェブページをフィルタに掛けて、それが引き出された元のODPウェブページと同じカテゴリを有するような新しいウェブページのみを維持する。適切にダウンロードしなかったいかなるウェブページも除去し、URLを内部パス名に翻訳する。
3.オプションで所望しないカテゴリを除去する。一定タイプのODPカテゴリは処理前に除去される。これらの除去されたカテゴリは、空のカテゴリ(対応する文書がないカテゴリ)、レターバーカテゴリ(有用な意味的差異がない「A、B・・・で始まる映画タイトル」)、および意味コンテンツを識別するのに有用な情報を含まない(例えば、空の
カテゴリ、所望しない外国語の地域的なページ)、または誤解を与えるもしくは不適切な情報(例えばアダルトコンテンツページ)を含む、他のカテゴリを含み得る。
4.トレーニングに適切でないページを除去する。1つの実施形態では、少なくとも最少量のコンテンツを有するページのみトレーニングに使用される。別の実施形態では、トレーニングページは、少なくとも1000バイトの変換されたテキストおよび最大5000の空白区切り単語を有さなければならない。
5.オプションで、英語で書かれていないいかなるページも除去する。これは、HTMLメタタグ、自動言語検出、URLドメイン名に関するフィルタリング、文字範囲に関するフィルタリングまたは当業者にはよく知られる他の技術などの標準方法により行うことができる。
6.オプションで重複を除去する。ページが2つ以上のODPカテゴリに現れる場合、それはあいまいに分類され、トレーニングの良好な候補でないことがあり得る。
7.候補TSV次元を識別する。以下で説明するように崩壊−切り取り(collapse−trim)アルゴリズムを起動して自動的にODP階層を平らにして候補TSV次元を識別する。
8.オプションでTSV次元を調節する。自動的に生成されたTSV次元を調べて、それらの次元の予想される意味特性に基づいて、特定次元を手動で崩壊、分割または除去する。調節のタイプは以下を含むことが可能だが、それらに限定されない。まず、一定の単語が元のカテゴリ名に頻繁に発生したら、それらのカテゴリはそれらの親ノードまで崩壊されることが可能である(それらはすべて同じことを論じているか、または意味論的に意味がないのいずれかであるので)。第2に、一定の特定カテゴリはその親まで崩壊可能である(通常、それらがあまりにも特定すぎるので)。第3に、ODP階層において分離された一定グループのカテゴリは、統合可能である(例えば、“Arts/Magazines and E−Zines/E−Zines”は“Arts/Online Writing/E−zines”と統合可能である)。
9.TSVトレーニングファイルを作成する。各潜在的トレーニングページに対して、そのページを、ページのカテゴリが崩壊したTSV次元に関連付ける。その後、過剰トレーンまたは過小評価(undersample)にならないように注意しながら、その次元をトレーンする(train)のに使用されることになる各TSV次元からページを選択する。1つの実施形態では、我々は、少なくとも1000バイトの変換されたテキストを有する300ページをランダムに選択する(該当ページが300未満の場合は、それらすべて選択する)。その後、5000の空白区切り単語より長いいかなるページも除去して、最小ページから開始して、累積単号カウントが200,000に達すると停止しながら、その次元全体に対して最大200,000空白区切り単語を保持する。
10.オプションで次元に対してラベル付けし直す。各次元は、それが引き出されたODPカテゴリのオントロジパスと同じラベルを有して開始する。1つの実施形態では、ラベルの一部は、短縮して、より読みやすくし、それらが組み合わされるか、除去された様々なサブカテゴリを確実に反映するように、手動で調節される。例えば、“Top/Shopping/Vehicles/Motorcycles/Parts_and_Accessaries/Harley_Davidson”という元のラベルは“Harley Davidson,Parts and Accessaries”に書き換えられるかもしれない。
1つの実施形態では、崩壊−切り取りアルゴリズムは、各カテゴリノードで直接有用なページ数を見ながら、ODP階層中を下から上へ進む。そのノードに少なくとも100ページが記憶されている場合、TSV次元としてそのノードを保持する。そうでなければ、親ノードにそれを崩壊する。
サンプルデータセットの所定カテゴリ(次元)への割り当てが行われた後、1つ以上のサンプルデータセットに含まれるキーワードと所定カテゴリとの間の関係を表す情報を記憶するデータテーブルが、割り当て結果に基づいて作成される。データテーブルにエントリするたびに、キーワードと所定カテゴリの1つとの間の関係が確立する。例えば、データテーブルのエントリは、特定キーワードを含む、カテゴリ内のサンプルデータセットの数に対応可能である。キーワードは、サンプルデータセットのコンテンツに対応し、一方所定カテゴリは、意味空間の次元に対応する。データテーブルを使用して、トレーン可能意味ベクトルを構築するのに用いる、所定カテゴリにより形成された特定意味空間内の各単語、フレーズまたは他のキーワードの「定義」を含む意味辞書を生成し得る。
図4は、意味辞書を構築するための例示的データテーブルを示す。簡潔さおよび理解を容易にするために、図4の単語数および所定カテゴリ数は5つに低減される。実際には、何10万の用語と所定カテゴリが可能である。
図4に図示されるように、テーブル200は、所定カテゴリCat、Cat、Cat、CatおよびCatに対応する行410ならびに代表単語W、W、W、WおよびWに対応する列412を含む。テーブル200内の各エントリ414は、1つ以上の単語W、W、W、WおよびWなど、対応するカテゴリに発生する特定単語を有するドキュメント数に対応する。
各行410に亘る列412の総数の合計は、その行410毎に表される単語を含む文書の総数を与える。これらの値は列416に表される。図4を参照すると、単語Wは、カテゴリCatに20回、カテゴリCatに8回現れる。単語Wは、カテゴリCat、CatおよびCatには現れない。
列416を参照すると、単語Wはすべてのカテゴリに亘って合計28回現れる。言い換えると、28の分類された文書がWを含む。Catなどの例示的列412を調べると、単語WがカテゴリCatで1回現れ、単語WがカテゴリCatで8回現れ、単語WがカテゴリCatで2回現れる。単語WはカテゴリCatではまったく現れない。すでに述べたように、単語Wはカテゴリ1では現れない。行418を参照すると、カテゴリCatに対応するエントリは、カテゴリCatに分類された文書が11個あることを示す。
1つの実施形態によると、データテーブルが構築された後、データテーブルの各エントリの重要性が決定される。一定の状況下におけるエントリの重要性は、単語が特定カテゴリまたは特定カテゴリに対するその関連性において発生する相対強度であるとみなすことができる。但し、かかる関係は限定的にみなすべきではない。各エントリの重要性は実際のデータセットおよびカテゴリ(すなわち、カテゴリを表し記述するのに重要であるとみなされる特徴)にのみ限定される。本開示の1つの実施形態によると、各単語の重要性は、すべてのカテゴリに亘る単語の統計的動作に基づいて決定される。これは、以下の公式に従って各カテゴリに発生するキーワードの割合を最初に計算することにより達成可能である:
μ=Prob(エントリ|カテゴリ)=(エントリ,カテゴリ)/カテゴリm_total
次に、全カテゴリに亘るキーワード発生の確率分布を以下の公式に従って計算する。
ν=Prob(エントリ|カテゴリ)=(エントリ,カテゴリ)/エントリn_total
μもνも共に、単語が特定カテゴリに関連付けられた強度を表す。例えば、単語があるカテゴリからの少数のデータセットしか発生せず、他のどのカテゴリでも現れない場合、それはそのカテゴリに関しては、高いν値および低いμ値を有することになろう。エントリがあるカテゴリからのほとんどのデータセットに現れるが、他のいくつかのカテゴリにも現れる場合、それはそのカテゴリに対して高いμ値および低いν値を有することになろう。
表されている情報の質およびタイプに依存して、各単語の決定された重要性を高めるために追加のデータ操作が実行可能である。例えば、あるキーワードに対する全値の合計により各カテゴリに対するμの値が正規化(すなわち、除算)されて、その結果確率分布としての解釈が可能となる。
以下の公式に従って、キーワードの重要性を決定するのにμおよびνの加重平均も使用可能である:
α(ν)+(1−α)(μ)
可変αは、表されて解析されている情報に基づいて決定可能である加重因数である。本開示の1つの実施形態によると、加重因数は約0.75の値を有する。情報のタイプ及び質または情報を表すのに必要な詳細レベルなどの種々の要素に依存して、他の値が選択可能である。実験から収集される経験的証拠を通して、本発明者は、μおよびνベクトルの加重平均が、μのみ、νのみを使用またはμとνの加重されない組み合わせを使用して達成可能な結果より優れた結果を生じることができると判断した。
図5は、図4からのデータに基づいて、上述の操作処理の動作を図示する。図5では、テーブル230はカテゴリに関する各単語の相対強度を示す値を記憶する。具体的には、各カテゴリに発生するキーワードの割合(すなわちμ)が、各単語に対するベクトルの形態で提示される。μベクトルにおける各エントリに対する値は、以下の公式に従って計算される:
μ=Prob(単語|カテゴリ)=(単語,カテゴリ)/カテゴリm_total
テーブル230もまた、各単語に対するベクトルの形態ですべてのカテゴリに亘るキーワードの発生確率分布(すなわちν)を提示する。νベクトルにおける各エントリに対する値は以下の公式に従って計算される:
ν=Prob(カテゴリ|エントリ)=(単語,カテゴリ)/単語n_total
図6を参照すると、図4からの単語の意味表現または「定義」を例示するためにテーブル250が示される。テーブル250は、意味空間に亘る各単語の意味表現に対応する5つのTSVの組み合わせである。例えば、第1行は、単語WのTSVに対応する。各TSVは所定カテゴリに対応する次元を有する。加えて、単語W、W、W、WおよびWに対するTSVは、その特定カテゴリに関して単語の重要性を最適化するようにエントリがスケールされる開示の実施形態により計算される。より詳細には、以下の公式を使用して値が計算される。
α(ν)+(1−α)(μ)
各TSVに対するエントリは、テーブル230に記憶された実際の値に基づいて計算される。従って、テーブル250に示されるTSVは、所定カテゴリにより形成される意味空間に対して意味辞書を集合的に構成する、各所定カテゴリまたはベクトル次元に対して図4に表される例示的単語W、W、W、WおよびWの「定義」に対応する。
ときには、広告されている製品の市場に対してローカルな文書に広告を載せることが望ましいことがある。これは広告に地理的情報(郵便番号、市/州名など)を組み込むことにより、またはユーザのIPアドレスにアクセスしてそれを地理的領域に関連付けること
により達成され得る。しかしながら、すべての文書が適切な形態の地理的情報を含むとは限らず、またすべてのユーザが、自分のローカル地域に対応するIPアドレスを有するとは限らない。この場合、上述のような意味辞書の形成時に、地理的領域に関係付けられたさらなるカテゴリが所定カテゴリに含まれることが可能である。各地理的領域は意味空間における次元となり、意味辞書を作成するのに地理的情報でタグ付けされたサンプルデータセットが使用される。その後その意味辞書を使用して、データセットおよび広告が異なる地理的領域に関連付けられる強度を反映する、データセットおよび広告に対するTSVを生成する。
TSVの適用は単に1つの言語に限定されない。適切なサンプルデータセットが有用である限り、様々な言語に対する意味辞書を構築することが可能である。例えば、オープンディレクトリプロジェクトからの英語サンプルデータセットは、意味辞書を生成する際に別の言語の適切なサンプルデータセットと置き換えることが可能である。各言語に対して別個の意味辞書が存在可能である。代替的には、すべての言語に対するキーワードが単一の共通意味辞書に常駐することが可能である。様々な言語は、同一の意味辞書を共有するかどうか、また言語に亘って意味ベクトルを比較することが所望されるかどうかに依存して、同一所定カテゴリまたは意味次元を共有し得るか、または完全に異なる所定カテゴリまたは意味次元を有し得る。
意味辞書が作成された後、意味辞書はTSV生成器103によりアクセスされて、ターゲット文書に含まれるキーワードに対して対応するTSVを見つけることができる。1つの実施形態では、ターゲット文書に含まれるキーワードのTSVは組み合わされてターゲット文書のTSVを生成する。TSVが組み合わされる方法は、具体的実装に依存する。例えば、TSVはベクトル加法演算を使用して組み合わされ得る。この場合、文書に対するTSVは以下のように表すことができる:
TSV(文書)=TSV(W1)+TSV(W2)+TSV(W3)...+TSV(WN)
尚、W1、W2、W3、...WNは文書に含まれる単語である。
データセットに対するTSVの生成は、データセットにおけるキーワードを含む多くのタイプの情報、広告およびデータセットに含まれるキーワードに基づいて取り出された情報およびデータセットに割り当てられた追加の情報を利用し得る。例えば、広告に表示される単語、各広告に関連付けられた1セットのキーワード、広告のタイトル、広告の簡単な説明、広告されている品目を説明する広告に関連付けられた市場文献、またはそれが販売されている視聴者を含むが、これらに限定されない情報、および広告により参照され得るウェブサイトからの情報に基づいて、広告に対するTSVの生成が行われ得る。ウェブページに対するTSVの生成は、ウェブページに現れる実際のテキストまたは、タイトル、キーワードおよび説明などのウェブページに関連付けられたメタテキストフィールド、またはそのウェブページにリンクされた、もしくはそのウェブページによりリンクされた他のウェブページからのテキストなどの一部またはすべてを含むが、これらに限定されない情報に基づいて行われ得る。
動作速度をより速くするために、広告に対するTSVはオフラインで生成可能であり、広告が修正、追加または除去されると更新可能である。しかし、TSVはまたオプションで広告配置時に生成可能でもある。同様に、ウェブページまたは他のデータセットに対するTSVはオフラインまたはオンザフライのいずれかで生成可能である。
実施形態によると、本明細書で開示される例示的システムは、ウェブページまたは表示される文書などの種々のセクションを解析して、自動的に1つ以上の説明の各セクションを、バックグランド項目の最終整合リストに基づいて、Wikipedia(http:
//www.wikipedia.org)からの百科辞典的項目などの1セットのバックグランド項目にリンクする。
本明細書に開示される方法およびシステムは、1つ以上の広告を1つ以上のウェブページまたは文書に関連付ける、またはその反対、ユーザの検索クエリに基づいて関連文書を取り出す、データセットの異なる部分に対してバックグランド情報を見つけるなど、種々の目的に適用可能であることは当業者には理解される。また、本明細書で使用されるようなデータセットは、ウェブページもしくは文書などの単一タイプのデータセットのみ、またはeメールとウェブページ、文書および放送データとの組み合わせなど、異なるタイプのデータセットの集まりを含み得ることも理解される。
本開示による別の実施形態は、「タグ付きキー」と称される精密な表現を利用して、広告12およびウェブページ11などのデータセットを表したり、インデックスを付けたりする。タグ付きキーは、データセットで見つけられたキーワードを、データセットに適用可能な1つ以上の特定意味カテゴリに関連付ける。例えば、用語“bank”は多くの異なる意味を持ち得るが、Financial Institutionなどの意味カテゴリでタグ付けされると、Geological Structureなどの意味カテゴリでタグ付けされた“bank”を整合させることはもはやない。
ウェブページ11または広告12などのデータセットを解析する場合、図3に対してすでに論じたようにキーワード選択器115または106により、ウェブページまたは広告を表しているとみなされる候補キーワードが、各広告またはウェブページ11から選択される。1つの実施形態では、候補キーワードは、特定データセットまたは文書に現れる各キーワードの頻度に基づいて選択され得る。本開示による例示的システムは、所定意味カテゴリとそれらの候補キーワードとの関係に関する情報の意味辞書にアクセスする。例えば、N個の候補キーワードとM個の所定カテゴリを有するデータセットに関しては、M×N対のキーワードとカテゴリ(可能性のあるタグ付きキー)が有効である。フィルタを使用して、キーワードにあまり関連のないカテゴリを取り除き得る。関連の最低必要条件を特定する閾値を使用して、キーワードに十分関連するカテゴリを識別し得る。キーワードに対してカテゴリを選択する1つの例示的方法は、単に上記で論じたように意味辞書を引くことであり、この辞書には、与えられた意味カテゴリに関してどの位強力に特定用語が選択するかを特定する情報を含む。1つの実施形態では、キーワードに対して最も強力に選択されるカテゴリは、タグ付けの主要候補となるであろう。
例えば、文書が2つのキーワードK1およびK2を含むと仮定する。そのとき、もしあるとしたらどのカテゴリがどのキーワードにつながってしているかを見るために、意味辞書でK1とK2を調べるであろう。キーワードが、カテゴリC1、C2、C3およびC4などの2つ以上のカテゴリに関係付けられている場合、いくつかのオプションがある。すなわち、(1)キーワードに対して最も強力なつながりを有するカテゴリを選ぶ、(2)最小閾値を越えるつながりを有するすべてのカテゴリを選ぶ、または(3)つながりの強度に関係なくすべてのカテゴリを選ぶ。結果は、データセットを表すための、K1+C1,K2+C2およびK2+C4などの対になったカテゴリとキーワード、タグ付きキーのリストになる。各タグ付きキーはキーワードに対応する意味ベクトルとみなされ得、候補キーワードの意味ベクトルは、ベクトル加法などにより組み合わされて、データセットの意味ベクトル表現を形成し得る。意味ベクトル表現は、本開示で説明されるのと同様に使用され得る。
図7は本開示の例示的システムが実装され得るコンピュータシステム100を図示するブロック図である。コンピュータシステム100は、バス702または情報を通信するための他の通信メカニズムと、情報を処理するためのバス702に連結されたプロセッサ7
04とを含む。コンピュータシステム100はまた、プロセッサ704により実行される情報および命令を記憶するためにバス702に連結された、ランダムアクセスメモリ(RAM)または他の動的記憶デバイスなどのメインメモリ706も含む。メインメモリ706はまた、プロセッサ704により実行される命令の実行時に一時的可変または他の中間情報を記憶するのにも使用され得る。コンピュータシステム100はさらに、プロセッサ704用の静的情報および命令を記憶するために、バス702に連結された読み出し専用メモリ(ROM)708または他の静的記憶デバイスを含む。情報および命令を記憶するために、磁気ディスクまたは光学ディスクなどの記憶デバイス710が設けられて、バス702に連結される。
コンピュータシステム100は、コンピュータユーザに情報を表示するために、バス702を介して、陰極線管(CRT)などのディスプレイ712に連結され得る。情報およびコマンド選択をプロセッサ704に伝えるために、英数字および他のキーを含む入力デバイス714がバス702に連結される。別のタイプのユーザ入力デバイスは、方向情報および命令選択をプロセッサ704に伝えるための、またディスプレイ712上のカーソルの移動を制御するための、マウス、トラックボールまたはカーソル方向キーなどのカーソル制御716である。この入力デバイスは典型的には、デバイスが平面の位置を指定するのを可能とする、第1の軸(例えば、x)および第2の軸(例えば、y)の2つの軸において2つの自由度を有する。
本開示の1つの実施形態によると、TSVおよび意味演算の構築は、メインメモリ706または記憶デバイス710に含まれるか、またはネットワークリンク120から受信される1つ以上の命令の1つ以上のシーケンスを実行するプロセッサ704に応答して、コンピュータシステム100により提供される。かかる命令は、記憶デバイス710などの別のコンピュータ読み取り可能媒体からメインメモリ706に読み取られ得る。メインメモリ706に含まれる命令のシーケンスの実行により、プロセッサ704は本明細書で説明される処理ステップを行う。メインメモリ706に含まれる命令のシーケンスを実行するのにマルチ処理配置における1つ以上のプロセッサも採用され得る。代替の実施形態では、ソフトウェア命令の代わりに、またはそれと併せて有線回路を使用して開示を実施し得る。従って、開示の実施形態はハードウェア回路およびソフトウェアの任意の特定組み合わせに限定されない。
本明細書で使用される用語「コンピュータ読み取り可能媒体」は、実行のためにプロセッサ704に命令を与えるのに参与する任意の媒体を示す。かかる媒体は、不揮発性媒体、揮発性媒体および伝達媒体を含むが、これらに限定されない、多くの形態を取り得る。不揮発性媒体は、例えば記録デバイス710などの光学または磁気ディスクを含む。揮発性媒体は、メインメモリ706などの動的メモリを含む。伝達媒体は、バス702を構成するワイヤを含む、同軸ケーブル、銅線、および光ファイバを含む。コンピュータ読み取り可能媒体の一般的な形態は、例えばフロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD−ROM、DVD、任意の他の光学媒体、パンチカード、ペーパーテープ、孔のパターンを有する任意の他の物理的媒体、RAM、PROM,およびEPROM、FLASH−EPROM、任意の他のメモリチップもしくはカートリッジ、またはコンピュータが読み取ることができる任意の他の媒体を含む。
コンピュータ読み取り可能媒体の種々の形態が、実行のために1つ以上の命令の1つ以上のシーケンスをプロセッサ704に運ぶのに携わり得る。例えば、命令は最初は遠隔コンピュータの磁気ディスク上にあり得る。遠隔コンピュータは命令をその動的メモリ内にロードして、モデムを使用して電話回線で命令を送信することができる。コンピュータシステム100に対してローカルなモデムは、電話回線でデータを受信して、赤外線送信機
を使用してデータを赤外線信号に変換することができる。バス702に連結された赤外線検出器は、赤外線信号で運ばれたデータを受信して、データをバス702上に配置することができる。バス702はデータを、プロセッサ704がそこから命令を取り出して実行するメインメモリ706に運ぶ。メインメモリ706により受信された命令は、プロセッサ704による実行の前または後のいずれかに、オプションで記憶デバイス710上に記憶され得る。
コンピュータシステム100はまた、バス702に連結された通信インタフェース718を含む。通信インタフェース718は、ローカルネットワーク722に接続されたネットワークリンク120に連結する2方向データ通信を提供する。例えば、通信インタフェース718は、統合サービスデジタルネットワーク(ISDN)カードまたはモデムであり、対応するタイプの電話回線へのデータ通信接続を提供し得る。別の例としては、通信インタフェース718は、ローカルエリアネットワーク(LAN)カードであり、互換性のあるLANへのデータ通信接続を提供し得る。無線リンクも実行され得る。任意のかかる実行では、通信インタフェース718は、種々のタイプの情報を表すデジタルデータストリームを運ぶ電気、電磁または光学信号を送受信する。
ネットワークリンク120は典型的には、1つ以上のネットワークを介する他のデータデバイスへのデータ通信を提供する。例えば、ネットワークリンク120は、ローカルネットワーク722を介したホストコンピュータ724への、またはインターネットサービスプロバイダ(ISP)726によって運営されるデータ機器への接続を提供し得る。ISP726は今度は、現在では一般的に「インターネット」728と称される世界規模パケットデータ通信ネットワークを介してデータ通信サービスを提供する。ローカルネットワーク722およびインターネット728は共に、デジタルデータストリームを運ぶ電機、電磁または光学信号を使用する。コンピュータシステム100に、およびコンピュータシステム100からデジタルデータを運ぶ、種々のネットワークを介した信号およびネットワークリンク120上で通信インタフェース718を介した信号は、情報を運搬する搬送波の例示的形態である。
コンピュータシステム100は、メッセージを送信したり、ネットワーク、ネットワークリンク120および通信インタフェース718を介して、プログラムコードを含むデータを受信したりできる。インターネットの例では、サーバ130がインターネット728、ISP726、ローカルネットワーク722および通信インタフェース718を介して、アプリケーションプログラムに対する要求コードを送信し得る。開示によると、1つのかかるダウンロードされたアプリケーションは、本明細書に説明されるように、TSVの構築と種々の意味演算の実行を提供する。受信コードは、それが受信されたようにプロセッサ704により実行され、かつ/または後の実行のために記憶デバイス710もしくは他の不揮発性記憶部に記憶され得る。このように、コンピュータシステム100は、搬送波の形態のアプリケーションコードを取得し得る。
前述の説明では、本開示の完全な理解を提供するために、具体的材料、構造、処理など多くの具体的詳細が述べられている。しかしながら、当該技術分野において通常の技術を有する人なら認識するように、本開示は具体的に述べられた詳細に頼らずに実践可能である。他の例では、不必要に本開示を曖昧にしないように、周知の処理構造は詳細に説明されていない。
本開示では開示の例示的実施形態およびそれらの多用途の例のみが示され、説明される。本開示は種々の他の組み合わせおよび環境での使用が可能であり、本明細書で表される発明概念の範囲内の変更または変形が可能であることは理解されるべきである。

Claims (25)

  1. 1グループのデータセットからの少なくとも1つのデータセットを対象データセットに関係付けるためのデータ処理システムを制御する、機械実行される方法であって、各データセットまたは前記対象データセットは少なくとも1つのキーワードを含み、該方法は、機械実行されるステップ:
    前記対象データセットを表す前記意味ベクトルと、前記グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み、
    前記グループにおける各それぞれのデータセットを表す各意味ベクトルは、前記それぞれのデータセットにおける各前記少なくとも1つのキーワードと、前記それぞれのデータセットにおける各前記少なくとも1つのキーワードに関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記対象データセットを表す前記意味ベクトルは、前記対象データセットにおける前記少なくとも1つのキーワードと、前記対象データセットにおける各前記少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記対象データセットまたは前記グループにおける各それぞれのデータセットを表す前記意味ベクトルは、前記所定カテゴリの数に等しい次元を有しており、
    前記グループにおける各データセットについて、前記対象データセットに関連付けられた前記意味ベクトルを、前記グループにおける各データセットに関連付けられた前記意味ベクトルと比較することにより、前記対象データセットと前記グループにおける各データセットとの間の第1の類似性を決定するステップと、
    前記対象データセットのキーワード意味表現と前記グループにおける各それぞれのデータセットのキーワード意味表現とにアクセスするステップとを含み、
    前記対象データセットの前記キーワード意味表現または、前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットまたは前記グループにおけるそれぞれのデータセットの代表キーワードを表す情報を含み、
    前記対象データセットの前記キーワード意味表現または前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットの前記意味ベクトルまたは前記グループにおける各それぞれのデータセットの前記意味ベクトルとは異なるように構築されており、
    前記グループにおける各データセットについて、前記対象データセットの前記キーワード意味表現と前記グループにおける各データセットの前記キーワード意味表現とを比較することにより、前記対象データセットと前記グループにおける各データセットとの間の第2の類似性を決定するステップと、
    前記対象データセットと前記グループにおける各データセットとの間の前記第1の類似性および前記対象データセットと前記グループにおける各データセットとの間の第2の類似性に従って、前記グループにおける前記データセットのうちの少なくとも1つを選択するステップと、
    前記グループにおける前記少なくとも1つの選択されたデータセットを前記対象データセットに関係付けるステップと、
    を含む、方法。
  2. 前記グループにおける前記データセットの少なくとも1つは広告であり、前記対象データセットは文書、ウェブページ、eメール、RSSニュースフィード、データストリーム、放送データもしくはユーザに関する情報、または1つ以上の文書、ウェブページ、eメール、RSSニュースフィード、データストリーム、放送データもしくはユーザに関する情報の一部である、請求項1に記載の方法。
  3. 前記対象データセットは文書、ウェブページ、eメール、RSSニュースフィード、データストリーム、放送データもしくはユーザに関する情報の一部である、請求項1に記載
    の方法。
  4. 前記少なくとも1つの選択されたデータセットまたは、前記対象データに関して前記選択されたデータセットに関連付けられたファイルもしくは前記対象データセットに関連付けられたファイルを、ユーザに伝達するステップをさらに含む、請求項1に記載の方法。
  5. 前記少なくとも1つの選択されたデータセットは、前記少なくとも1つの選択されたデータセットを表示するか、前記少なくとも1つの選択されたデータセットに従って音響信号を再生する、または前記少なくとも1つの選択されたデータセットへのリンクを提供することにより、前記ユーザに伝達される、請求項4に記載の方法。
  6. 前記少なくとも1つのキーワードは、単語、フレーズ、文字列、予め割り当てられたキーワード、サブデータセット、メタ情報、および前記それぞれのデータセットに含まれるリンクに基づいて取り出された情報のうちの少なくとも1つを含む、請求項1に記載の方法。
  7. 各データセットに対する前記意味ベクトルは、予め計算されて、前記それぞれのデータセットに含まれる、請求項1に記載の方法。
  8. 前記意味ベクトルは動的に生成される、請求項1に記載の方法。
  9. 前記グループにおける各それぞれのデータセットを表す前記意味ベクトルは、前記グループにおける各それぞれのデータセットの少なくとも1つのキーワードおよび、既知のキーワードと前記既知のキーワードが関係し得る所定カテゴリとの間の既知の関係に基づいて構築され、
    前記対象データセットを表す前記意味ベクトルは、前記対象データセットの少なくとも1つのキーワードと、既知のキーワードと前記既知のキーワードが関係し得る所定カテゴリとの間の前記既知の関係に基づいて構築される、請求項1に記載の方法。
  10. 前記それぞれのデータセットに関連付けられた前記意味ベクトルは、さらに、少なくとも一人のユーザに関する情報または前記それぞれのデータセットにリンクされた少なくとも1つのデータセットに基づいて生成される、請求項1に記載の方法。
  11. 前記少なくとも一人のユーザに関する前記情報は、以前に見られた文書、以前の検索要求、ユーザの好みおよび個人情報のうちの少なくとも1つを含む、請求項10に記載の方法。
  12. 前記対象データセットと前記グループにおける各データセットとの間の第1の類似性および前記対象データセットと前記グループにおける各データセットとの間の第2の類似性に従って、前記グループにおけるデータセットの少なくとも1つを選択するステップは、
    前記第1の類似性と前記第2の類似性のうちの一方を一次類似性として、また他方を二次類似性として指定するステップと、
    前記一次類似性に対する複数の事前設定関連レベルの情報にアクセスするステップと、
    前記グループにおける各データセットに対して、前記一次類似性を、前記一次類似性に従った前記事前設定関連レベルのうちの1つにマップするステップと、
    前記グループにおける前記データセットのそれぞれのマップされた事前設定関連レベルに従って、前記グループにおけるデータセットを格付けするステップと、
    各関連レベル内で、前記データセットの前記二次類似性に従って各関連レベルに前記データセットを格付けするステップと、
    各関連レベルに前記データセットを格付けした結果に従って、前記グループにおける前
    記データセットの前記少なくとも1つを選択するステップと、
    を含む、請求項1に記載の方法。
  13. 前記対象データセットと前記グループにおける各データセットとの間の前記第1の類似性および前記対象データセットと前記グループにおける各データセットとの間の前記第2の類似性に従って、前記グループにおける前記データセットの少なくとも1つを選択するステップは、
    前記第1の類似性と前記第2の類似性の一方を一次類似性として、また他方を二次類似性として指定するステップと、
    前記一次類似性に従って、前記グループにおける前記データセットを格付けするステップと、
    事前設定基準に従って、前記格付けされたデータセットから少なくとも1つの候補データセットを選択するステップと、
    前記二次類似性に従って、前記少なくとも1つの候補データセットを格付けするステップと、
    前記少なくとも1つの候補データセットを格付けした結果に従って、前記グループにおける前記データセットの前記少なくとも1つを選択するステップと、
    を含む、請求項1に記載の方法。
  14. 前記対象データセットと前記グループにおける各データセットとの間の第1の類似性および前記対象データセットと前記グループにおける各データセットとの間の前記第2の類似性に従って、前記グループにおける前記データセットの少なくとも1つを選択するステップは、
    前記グループにおける各データセットに対して、前記データセットのそれぞれの第1の類似性および前記データセットのそれぞれの第2の類似性に基づいて、事前設定公式に従って複合類似性を計算するステップと、
    事前設定基準に基づいて前記データセットのそれぞれの複合類似性に従って、前記グループにおける前記データセットの前記少なくとも1つを選択するステップと、
    を含む、請求項1に記載の方法。
  15. 前記対象データセットと同時に、前記データセットの前記少なくとも1つをユーザに提示するステップをさらに含む、請求項1に記載の方法。
  16. 前記対象データセットをユーザに提示した後引き続いて、前記ユーザに前記データセットの前記少なくとも1つを提示するステップをさらに含む、請求項1に記載の方法。
  17. 前記データセットの前記少なくとも1つまたは対象データセットは、聴覚形態、視覚形態、ビデオ形態、触覚形態またはそれらの任意の組み合わせで、前記ユーザに提示される請求項1に記載の方法。
  18. 1グループのデータセットからの少なくとも1つのデータセットを対象データセットに関係付けるためのデータ処理システムであって、各データセットまたは前記対象データセットは、少なくとも1つのキーワードを含み、前記システムは
    データを処理するように構成されるデータプロセッサと、
    前記データプロセッサによる実行時に、以下のステップを実行するように前記データプロセッサを制御する命令を記憶するように構成されるデータ記憶システムと、
    を含み、
    前記ステップは、
    前記対象データセットを表す前記意味ベクトルと、前記グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み、
    前記グループにおける各それぞれのデータセットを表す各意味ベクトルは、前記それぞれのデータセットにおける各前記少なくとも1つのキーワードと、前記それぞれのデータセットにおける各前記少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記対象データセットを表す前記意味ベクトルは、対象データセットにおける前記少なくとも1つのキーワードと、前記対象データセットにおける各前記少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記対象データセットまたは前記グループにおける各それぞれのデータセットを表す前記意味ベクトルは、前記所定カテゴリの数に等しい次元を有しており、
    前記グループにおける各データセットについて、前記対象データセットに関連付けられた前記意味ベクトルを、前記グループにおける各データセットに関連付けられた前記意味ベクトルと比較することにより、前記対象データセットと前記グループにおける各データセットとの間の第1の類似性を決定するステップと、
    前記対象データセットのキーワード意味表現と前記グループにおける各それぞれのデータセットのキーワード意味表現とにアクセスするステップとを含み、
    前記対象データセットの前記キーワード意味表現または、前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットまたは前記グループにおける前記それぞれのデータセットの代表キーワードを表す情報を含み、
    前記対象データセットの前記キーワード意味表現または前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットの前記意味ベクトルまたは前記グループにおける各それぞれのデータセットの前記意味ベクトルとは異なるように構築されており、
    前記グループにおける各データセットについて、前記対象データセットの前記キーワード意味表現と前記グループにおける各データセットの前記キーワード意味表現とを比較することにより、前記対象データセットと前記グループにおける各データセットとの間の第2の類似性を決定するステップと、
    前記対象データセットと前記グループにおける各データセットとの間の前記第1の類似性および前記対象データセットと前記グループにおける各データセットとの間の第2の類似性に従って、前記グループにおける前記データセットのうちの少なくとも1つを選択するステップと、
    前記グループにおける前記少なくとも1つの選択されたデータセットを前記対象データセットに関係付けるステップと、
    を含む、システム。
  19. データ処理システムの実行時に、機械実行されるステップを行って1グループのデータセットからの少なくとも1つのデータセットを対象データセットに関係付けるようにデータ処理システムを制御する命令を運ぶ機械読み取り可能媒体であって、各データセットまたは前記対象データセットは少なくとも1つのキーワードを含み、前記ステップは、
    前記対象データセットを表す前記意味ベクトルと、前記グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み、
    前記グループにおける各それぞれのデータセットを表す各意味ベクトルは、前記それぞれのデータセットにおける各前記少なくとも1つのキーワードと、前記それぞれのデータセットにおける各前記少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記対象データセットを表す前記意味ベクトルは、前記対象データセットにおける各前記少なくとも1つのキーワードと、前記対象データセットにおける各前記少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記対象データセットまたは前記グループにおける各それぞれのデータセットを表す前記意味ベクトルは、前記所定カテゴリの数に等しい次元を有しており、
    前記グループにおける各データセットについて、前記対象データセットに関連付けられ
    た前記意味ベクトルを、前記グループにおける各データセットに関連付けられた前記意味ベクトルと比較することにより、前記対象データセットと前記グループにおける各データセットとの間の第1の類似性を決定するステップと、
    前記対象データセットのキーワード意味表現と前記グループにおける各それぞれのデータセットのキーワード意味表現とにアクセスするステップとを含み、
    前記対象データセットの前記キーワード意味表現または、前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットまたは前記グループにおけるそれぞれのデータセットの代表キーワードを表す情報を含み、
    前記対象データセットの前記キーワード意味表現または前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットの前記意味ベクトルまたは前記グループにおける各それぞれのデータセットの前記意味ベクトルとは異なるように構築されており、
    前記グループにおける各データセットについて、前記対象データセットの前記キーワード意味表現と前記グループにおける各データセットの前記キーワード意味表現とを比較することにより、前記対象データセットと前記グループにおける各データセットとの間の第2の類似性を決定するステップと、
    前記対象データセットと前記グループにおける各データセットとの間の前記第1の類似性および前記対象データセットと前記グループにおける各データセットとの間の第2の類似性に従って、前記グループにおける前記データセットのうちの少なくとも1つを選択するステップと、
    前記グループにおける前記少なくとも1つの選択されたデータセットを前記対象データセットに関係付けるステップと、
    を含む、媒体。
  20. 1グループのデータセットからの少なくとも1つのデータセットを対象データセットに関係付けるためのデータ処理システムを制御するための、機械実行される方法であって、各データセットまたは前記対象データセットは少なくとも1つのキーワードを含み、前記機械実行されるステップは、
    前記対象データセットを表す前記意味ベクトルと、前記グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み、
    前記グループにおける各それぞれのデータセットを表す各意味ベクトルは、前記それぞれのデータセットにおける各前記少なくとも1つのキーワードと、前記それぞれのデータセットにおける各前記少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記対象データセットを表す前記意味ベクトルは、前記対象データセットにおける各前記少なくとも1つのキーワードと、前記対象データセットにおける各前記少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記対象データセットまたは前記グループにおける各それぞれのデータセットを表す前記意味ベクトルは、前記所定カテゴリの数に等しい次元を有しており、
    前記対象データセットのキーワード意味表現と前記グループにおける各それぞれのデータセットのキーワード意味表現とにアクセスするステップを含み、
    前記対象データセットの前記キーワード意味表現または前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットまたは前記グループにおける前記それぞれのデータセットの代表キーワードを表す情報を含み、
    前記対象データセットの前記キーワード意味表現または前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットの前記意味ベクトルまたは前記グループにおける各それぞれのデータセットの前記意味ベクトルとは異なるように構築されており、
    各データセットについて、各データセットに関連付けられた前記意味ベクトルと各データセットの前記キーワード意味表現とに従った前記データセットの結合ベクトル表現を生
    成するステップと、
    前記対象データセットについて、前記対象データセットに関連付けられた前記意味ベクトルと前記対象データセットの前記キーワード意味表現とに従った前記対象データセットの結合ベクトル表現を生成するステップと、
    前記対象データセットの前記結合ベクトル表現と、前記グループにおける各データセットの前記結合ベクトル表現を比較することにより、前記対象データセットと前記グループにおける各データセットとの間の類似性を決定するステップと、
    前記決定された類似性に従って前記グループにおける前記データセットの少なくとも1つを選択するステップと、
    前記グループにおける前記少なくとも1つの選択されたデータセットを前記対象データセットに関係付けるステップと、
    を含む、方法。
  21. データ処理システムの実行時に、機械実行されるステップを行って1グループのデータセットからの少なくとも1つのデータセットを対象データセットに関係付けるようにデータ処理システムを制御する命令を運ぶ機械読み取り可能媒体であって、各データセットまたは前記対象データセットは少なくとも1つのキーワードを含み、前記ステップは、
    前記対象データセットを表す前記意味ベクトルと、前記グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み、
    前記グループにおける各それぞれのデータセットを表す各意味ベクトルは、前記それぞれのデータセットにおける各前記少なくとも1つのキーワードと、前記それぞれのデータセットにおける各前記少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記対象データセットを表す前記意味ベクトルは、前記対象データセットにおける各前記少なくとも1つのキーワードと、前記対象データセットにおける各前記少なくとも1つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記対象データセットまたは前記グループにおける各それぞれのデータセットを表す前記意味ベクトルは、前記所定カテゴリの数に等しい次元を有しており、
    前記対象データセットのキーワード意味表現と前記グループにおける各それぞれのデータセットのキーワード意味表現とにアクセスするステップを含み、
    前記対象データセットの前記キーワード意味表現または、前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットまたは前記グループにおけるそれぞれのデータセットの代表キーワードを表す情報を含み、
    前記対象データセットの前記キーワード意味表現または前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットの前記意味ベクトルまたは前記グループにおける各それぞれのデータセットの前記意味ベクトルとは異なるように構築されており、
    各データセットについて、各データセットに関連付けられた前記意味ベクトルと各データセットの前記キーワード意味表現とに従った前記データセットの結合ベクトル表現を生成するステップと、
    前記対象データセットについて、前記対象データセットに関連付けられた前記意味ベクトルと前記対象データセットの前記キーワード意味表現とに従った前記対象データセットの結合ベクトル表現を生成するステップと、
    前記対象データセットの前記結合ベクトル表現と、前記グループにおける各データセットの前記結合ベクトル表現を比較することにより、前記対象データセットと前記グループにおける各データセットとの間の類似性を決定するステップと、
    前記決定された類似性に従って前記グループにおける前記データセットの少なくとも1つを選択するステップと、
    前記グループにおける前記少なくとも1つの選択されたデータセットを前記対象データセットに関係付けるステップと、
    を含む、媒体。
  22. 1グループのデータセットからの少なくとも1つのデータセットを対象データセットに関係付けるためのデータ処理システムを制御する、機械実行される方法であって、各データセットまたは前記対象データセットは少なくとも1つのキーワードを含み、前記機械実行されるステップは、
    前記対象データセットを表すタグ付きキー表現と、前記グループにおける各それぞれのデータセットを表すそれぞれのタグ付きキー表現とにアクセスするステップを含み、
    前記グループにおける各それぞれのデータセットを表す各タグ付きキー表現は、各それぞれのデータセットの各代表キーワードと、各それぞれのデータセットにおける各前記代表キーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記対象データセットを表す前記タグ付きキー表現は、前記対象データセットにおける各代表キーワードと、前記対象データセットにおける各前記代表キーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記グループにおける各データセットについて、前記対象データセットに関連付けられた前記タグ付きキー表現を、前記グループにおける各データセットに関連付けられた前記タグ付きキー表現と比較することにより、前記対象データセットと前記グループにおける各データセットとの間の類似度を決定するステップと、
    前記対象データセットと前記グループにおける各データセットとの間の前記決定された類似度に従って、前記グループにおける前記データセットの少なくとも1つを選択するステップと、
    前記グループにおける前記少なくとも1つの選択されたデータセットを前記対象データセットに関係付けるステップと、
    を含む、方法。
  23. データ処理システムの実行時に、機械実行されるステップを行って1グループのデータセットからの少なくとも1つのデータセットを対象データセットに関係付けるように前記データ処理システムを制御する命令を運ぶ、機械読み取り可能媒体であって、各データセットまたは前記対象データセットは少なくとも1つのキーワードを含み、前記ステップは、
    前記対象データセットを表すタグ付きキー表現と、前記グループにおける各それぞれのデータセットを表すそれぞれのタグ付きキー表現とにアクセスするステップを含み、
    前記グループにおける各それぞれのデータセットを表す各タグ付きキー表現は、各それぞれのデータセットの各代表キーワードと、各それぞれのデータセットにおける各前記代表キーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記対象データセットを表す前記タグ付きキー表現は、前記対象データセットにおける各代表キーワードと、前記対象データセットにおける各前記代表キーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
    前記グループにおける各データセットについて、前記対象データセットに関連付けられた前記タグ付きキー表現を、前記グループにおける各データセットに関連付けられた前記タグ付きキー表現と比較することにより、前記対象データセットと前記グループにおける各データセットとの間の類似度を決定するステップと、
    前記対象データセットと前記グループにおける各データセットとの間の前記決定された類似度に従って、前記グループにおける前記データセットの少なくとも1つを選択するステップと、
    前記グループにおける前記少なくとも1つの選択されたデータセットを前記対象データセットに関係付けるステップと、
    を含む、媒体。
  24. 少なくとも1つのキーワードを含むデータセットのタグ付き表現を生成するためにデー
    タ処理システムを制御する、機械実行される方法であって、前記方法は、
    前記データセットを表現するために、前記少なくとも1つのキーワードから代表キーワードを識別するステップと、
    各既知のキーワードと所定カテゴリとの間の既知の関係を識別するデータにアクセスするステップと、
    前記アクセスされたデータを参照することにより、各代表キーワードと前記所定カテゴリとの間の関係を決定するステップと、
    各代表キーワードと前記所定カテゴリとの間の前記決定された関係に従って、前記データセットのタグ付きキー表現を構築するステップと、
    前記構築されたタグ付きキー表現を使用して前記データセットを表現するステップと、
    を含む、方法。
  25. データ処理システムの実行時に、機械実行されるステップを行って1グループのデータセットからの少なくとも1つのデータセットを対象データセットに関係付けるように前記データ処理システムを制御する命令を運ぶ、機械読み取り可能媒体であって、各データセットまたは前記対象データセットは少なくとも1つのキーワードを含み、前記ステップは、
    前記データセットを表現するために、前記少なくとも1つのキーワードから代表キーワードを識別するステップと、
    各既知のキーワードと所定カテゴリとの間の既知の関係を識別するデータにアクセスするステップと、
    前記アクセスされたデータを参照することにより、各代表キーワードと前記所定カテゴリとの間の関係を決定するステップと、
    各代表キーワードと前記所定カテゴリとの間の前記決定された関係に従って、前記データセットのタグ付きキー表現を構築するステップと、
    前記構築されたタグ付きキー表現を使用して前記データセットを表現するステップと、
    を含む、媒体。
JP2011521074A 2008-07-29 2008-07-29 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置 Pending JP2011529600A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2008/071505 WO2010014082A1 (en) 2008-07-29 2008-07-29 Method and apparatus for relating datasets by using semantic vectors and keyword analyses

Publications (1)

Publication Number Publication Date
JP2011529600A true JP2011529600A (ja) 2011-12-08

Family

ID=41610613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011521074A Pending JP2011529600A (ja) 2008-07-29 2008-07-29 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置

Country Status (4)

Country Link
EP (1) EP2307951A4 (ja)
JP (1) JP2011529600A (ja)
CN (1) CN101802776A (ja)
WO (1) WO2010014082A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093863A (ja) * 2010-10-26 2012-05-17 Yahoo Japan Corp 広告選択装置、方法及びプログラム
JP2015084178A (ja) * 2013-10-25 2015-04-30 株式会社Nttドコモ 広告生成装置および広告生成方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8548951B2 (en) * 2011-03-10 2013-10-01 Textwise Llc Method and system for unified information representation and applications thereof
US9558185B2 (en) * 2012-01-10 2017-01-31 Ut-Battelle Llc Method and system to discover and recommend interesting documents
JP5701324B2 (ja) * 2013-01-15 2015-04-15 ヤフー株式会社 情報配信装置、及び、情報配信方法
US9195470B2 (en) 2013-07-22 2015-11-24 Globalfoundries Inc. Dynamic data dimensioning by partial reconfiguration of single or multiple field-programmable gate arrays using bootstraps
CN105022754B (zh) 2014-04-29 2020-05-12 腾讯科技(深圳)有限公司 基于社交网络的对象分类方法及装置
US10360520B2 (en) 2015-01-06 2019-07-23 International Business Machines Corporation Operational data rationalization
JP6583686B2 (ja) * 2015-06-17 2019-10-02 パナソニックIpマネジメント株式会社 意味情報生成方法、意味情報生成装置、およびプログラム
US10643031B2 (en) 2016-03-11 2020-05-05 Ut-Battelle, Llc System and method of content based recommendation using hypernym expansion
EP3506160B1 (en) * 2017-12-28 2022-06-01 Dassault Systèmes Semantic segmentation of 2d floor plans with a pixel-wise classifier
CN109558586B (zh) * 2018-11-02 2023-04-18 中国科学院自动化研究所 一种资讯的言据自证评分方法、设备和存储介质
CN111199259B (zh) * 2018-11-19 2023-06-20 中国电信股份有限公司 标识转换方法、装置和计算机可读存储介质
WO2020263246A1 (en) * 2019-06-26 2020-12-30 Google Llc Systems and methods for providing content candidates
CN113609264B (zh) * 2021-06-28 2022-09-02 国网北京市电力公司 电力***节点的数据查询方法、装置
CN113449111B (zh) * 2021-08-31 2021-12-07 苏州工业园区测绘地理信息有限公司 基于时空语义知识迁移的社会治理热点话题自动识别方法
CN114187605B (zh) * 2021-12-13 2023-02-28 苏州方兴信息技术有限公司 一种数据集成方法、装置和可读存储介质
WO2024074760A1 (en) * 2022-10-04 2024-04-11 Thirdpresence Oy Content management arrangement

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005173795A (ja) * 2003-12-09 2005-06-30 Canon Inc 文書検索装置、およびその検索方法、並びに記憶媒体
US20050216516A1 (en) * 2000-05-02 2005-09-29 Textwise Llc Advertisement placement method and system using semantic analysis
JP2005326970A (ja) * 2004-05-12 2005-11-24 Mitsubishi Electric Corp 構造化文書曖昧検索装置及びそのプログラム
JP2007188134A (ja) * 2006-01-11 2007-07-26 Yafoo Japan Corp 索引ファイルを用いた文書検索の方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3195752B2 (ja) * 1997-02-28 2001-08-06 シャープ株式会社 検索装置
US6134532A (en) * 1997-11-14 2000-10-17 Aptex Software, Inc. System and method for optimal adaptive matching of users to most relevant entity and information in real-time
US7089194B1 (en) * 1999-06-17 2006-08-08 International Business Machines Corporation Method and apparatus for providing reduced cost online service and adaptive targeting of advertisements
CN100517330C (zh) * 2007-06-06 2009-07-22 华东师范大学 一种基于语义的本地文档检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216516A1 (en) * 2000-05-02 2005-09-29 Textwise Llc Advertisement placement method and system using semantic analysis
JP2005173795A (ja) * 2003-12-09 2005-06-30 Canon Inc 文書検索装置、およびその検索方法、並びに記憶媒体
JP2005326970A (ja) * 2004-05-12 2005-11-24 Mitsubishi Electric Corp 構造化文書曖昧検索装置及びそのプログラム
JP2007188134A (ja) * 2006-01-11 2007-07-26 Yafoo Japan Corp 索引ファイルを用いた文書検索の方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012093863A (ja) * 2010-10-26 2012-05-17 Yahoo Japan Corp 広告選択装置、方法及びプログラム
JP2015084178A (ja) * 2013-10-25 2015-04-30 株式会社Nttドコモ 広告生成装置および広告生成方法

Also Published As

Publication number Publication date
EP2307951A1 (en) 2011-04-13
CN101802776A (zh) 2010-08-11
EP2307951A4 (en) 2012-12-19
WO2010014082A1 (en) 2010-02-04

Similar Documents

Publication Publication Date Title
US11978439B2 (en) Generating topic-specific language models
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
US7912868B2 (en) Advertisement placement method and system using semantic analysis
US8051080B2 (en) Contextual ranking of keywords using click data
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US20090240674A1 (en) Search Engine Optimization
US20160335234A1 (en) Systems and Methods for Generating Summaries of Documents
US20070250501A1 (en) Search result delivery engine
US20100274667A1 (en) Multimedia access
US20100235343A1 (en) Predicting Interestingness of Questions in Community Question Answering
US20090254540A1 (en) Method and apparatus for automated tag generation for digital content
US20090144240A1 (en) Method and systems for using community bookmark data to supplement internet search results
US20130110839A1 (en) Constructing an analysis of a document
US20180004838A1 (en) System and method for language sensitive contextual searching
JP6429382B2 (ja) コンテンツ推薦装置、及びプログラム
JPH09101990A (ja) 情報フィルタリング装置
JP2009043156A (ja) 番組検索装置および番組検索方法
JP2015525929A (ja) 検索品質を改善するための重みベースのステミング
KR20160007040A (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
US9015172B2 (en) Method and subsystem for searching media content within a content-search service system
KR20080037413A (ko) 온라인 문맥기반 광고 장치 및 방법
US20050283470A1 (en) Content categorization
KR100455439B1 (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
WO2012091541A1 (en) A semantic web constructor system and a method thereof
JP2004362121A (ja) 情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130716