JP2011529600A

JP2011529600A - 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置

Info

Publication number: JP2011529600A
Application number: JP2011521074A
Authority: JP
Inventors: リュアン，ウエン; マハ，クリント・プレンティス; ヒーリー，ジェラルド・フランシス，ザ・サード; ファリス，アンドリュー・ロレンス; スタインバーグ，ガブリエル
Original assignee: TEXTWISE LLC
Current assignee: TEXTWISE LLC
Priority date: 2008-07-29
Filing date: 2008-07-29
Publication date: 2011-12-08
Also published as: EP2307951A1; CN101802776A; EP2307951A4; WO2010014082A1

Abstract

本開示は、ウェブページおよび広告を表すトレーナブル意味ベクトル（ＴＳＶ）などの一意的意味ベクトルおよび、広告およびウェブページの代表キーワードの情報を含む意味表現の解析に基づいて、ユーザによりレビューされているウェブページなどの対象データセットに文脈的に関係付けられた、広告などの１つ以上のデータセットを識別するためのシステムおよび方法を記載する。

Description

開示の分野
本開示は文書、ウェブページ、ｅメール、検索クエリ、広告などの文脈的に関係付けられたデータセットを識別するための方法およびシステムに関し、より詳細には、データセットの一意的意味ベクトルおよび、データセットの代表キーワードの情報を含むキーワード意味表現を解析することにより対象データセットに文脈的に関係付けられたデータセットを識別するための方法およびシステムに関する。

本開示の背景および要約
ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎ，ＧｏｏｇｌｅＩｎｃ．、ＶｉｂｒａｎｔＭｅｄｉａまたはＹａｈｏｏ！Ｉｎｃ．により開発されたものなど、検索エンジンまたは広告配置システムが広く使用されて、ユーザによる検索クエリ入力に潜在的に関連する文書またはファイルを識別するか、あるいは文書、ｅメールメッセージ、ＲＳＳフィード、ウェブページのなどの、ユーザによって見られたもしくは操作された、または見られているもしくは操作されている１つ以上のデータセットに文脈的に関連付けられた広告を選択して表示する。

しかしながら、既存の検索エンジンまたは広告配置システムは、開発および修正されてから数年経つが、いまだに満足行くものとは程遠い。検索結果または識別クエリは、ユーザにより入力された検索クエリ、あるいはユーザにより見られているもしくは見られた文書またはウェブページに対する十分な関連性が欠けていることが多い。

本開示は、データセットを表す一意的意味ベクトルおよびデータセットの代表キーワードの情報を含む意味表現を解析することにより、検索クエリまたはユーザにより見られているウェブページなどの対象データセットに文脈的に関係し得る、文書、ウェブページ、ｅメールなどの１つ以上のデータセットを効率的に識別する、種々の実施形態を記載する。

本開示による例示的方法は、１グループのデータセットからの少なくとも１つのデータセットを対象データセットに関係付けるためのデータ処理システムを制御する。各データセットまたは対象データセットは少なくとも１つのキーワードを含む。当該方法は、対象データセットを表す意味ベクトルと、グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスする。グループにおける各それぞれのデータセットを表す各意味ベクトルは、それぞれのデータセットにおける各少なくとも１つのキーワードと、それぞれのデータセットにおける各少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含む。対象データセットを表す意味ベクトルは、対象データセットにおける各少なくとも１つのキーワードと、対象データセットにおける各少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、対象データセットまたはグループにおける各それぞれのデータセットを表す意味ベクトルは、所定カテゴリの数に等しい次元を有する。グループにおける各データセットについて、対象データセットに関連付けられた意味ベクトルを、グループにおける各データセットに関連付けられた意味ベクトルと比較することにより、対象データセットとグループに
おける各データセットとの間の第１の類似性を決定するステップを含む。例示的方法はさらに、対象データセットのキーワード意味表現とグループにおける各それぞれのデータセットのキーワード意味表現とにアクセスする。対象データセットのキーワード意味表現または、グループにおける各それぞれのデータセットのキーワード意味表現は、対象データセットまたはグループにおける各それぞれデータセットの代表キーワードを表す情報を含み、対象データセットのキーワード意味表現またはグループにおける各それぞれのデータセットのキーワード意味表現は、対象データセットの意味ベクトルまたはグループにおける各それぞれのデータセットの意味ベクトルとは異なるように構築される。グループにおける各データセットに対して、対象データセットのキーワード意味表現とグループにおける各データセットのキーワード意味表現とを比較することにより、対象データセットとグループにおける各データセットとの間の第２の類似性を決定するステップを含む。グループにおけるデータセットの少なくとも１つが対象データセットとグループにおける各データセットとの間の第１の類似性および対象データセットとグループにおける各データセットとの間の第２の類似性に従って選択される。当該方法は、グループにおける少なくとも１つの選択されたデータセットを対象データセットに関係付ける。データセットの少なくとも１つは、対象データセットと同時にユーザに提示され得るか、または対象データセットをユーザに提示した後に提示され得る。データセットの少なくとも１つまたは対象データセットは、聴覚形態、視覚形態、ビデオ形態、触覚形態またはこれらの任意の組み合わせでユーザに提示され得る。

１つの実施形態では、グループにおけるデータセットの少なくとも１つは広告であり、対象データセットは文書、ウェブページ、ｅメール、ＲＳＳニュースフィード、データストリーム、放送データもしくはユーザに関する情報または１つ以上の文書、ウェブページ、ｅメール、ＲＳＳニュースフィード、データストリーム、放送データもしくはユーザに関する情報の一部である。さらに別の実施形態によると、例示的方法は、少なくとも１つの選択されたデータセットまたは、対象データに関して選択されたデータセットに関連付けられたファイルもしくは対象データセットに関連付けられたファイルを、ユーザに伝達し得る。少なくとも１つの選択されたデータセットを表示するか、少なくとも１つの選択されたデータセットに従って音響信号を再生するか、または少なくとも１つの選択されたデータセットへのリンクを提供することにより、少なくとも１つの選択されたデータセットはユーザに伝達され得る。

１つの実施形態では、少なくとも１つのキーワードは、単語、フレーズ、文字列、予め割り当てられたキーワード、サブデータセット、メタ情報、およびそれぞれのデータセットに含まれるリンクに基づいて取り出された情報のうちの少なくとも１つを含み得る。別の実施形態では、各データセットに対する意味ベクトルは予め計算されて、それぞれのデータセットに含まれる。意味ベクトルは動的にオンザフライで生成され得る。

１つの実施形態によると、グループにおける各それぞれのデータセットを表す意味ベクトルは、グループにおける各それぞれのデータセットの少なくとも１つのキーワードおよび、既知のキーワードと既知のキーワードが関係し得る所定カテゴリとの間の既知の関係に基づいて構築され、対象データセットを表す意味ベクトルは、対象データセットの少なくとも１つのキーワードと、既知のキーワードと既知のキーワードが関係し得る所定カテゴリとの間の既知の関係に基づいて構築される。別の実施形態によると、それぞれのデータセットに関連付けられた意味ベクトルは、さらに、少なくとも一人のユーザに関する情報またはそれぞれのデータセットにリンクされた少なくとも１つのデータセットに基づいて生成される。少なくとも一人のユーザに関する情報は、以前に見られた文書、以前の検索要求、ユーザの好みおよび個人情報のうちの少なくとも１つを含み得る。

１つの実施形態によると、対象データセットとグループにおける各データセットとの間
の第１の類似性および対象データセットとグループにおける各データセットとの間の第２の類似性に従って、グループにおけるデータセットの少なくとも１つを選択するステップは、第１の類似性と第２の類似性のうちの一方を一次類似性として、また他方を二次類似性として指定するステップと、一次類似性に対する複数の事前設定関連レベルの情報にアクセスするステップと、グループにおける各データセットについて、一次類似性を一次類似性に従った事前設定関連レベルのうちの１つにマップするステップと、グループにおけるデータセットのマップされたそれぞれの事前設定関連レベルに従って、グループにおけるデータセットを格付けするステップと、各関連レベル内で、データセットの二次類似性に従って各関連レベルにデータセットを格付けするステップと、各関連レベルにデータセットを格付けした結果に従って、グループにおけるデータセットの少なくとも１つを選択するステップとを含む。

別の実施形態によると、対象データセットとグループにおける各データセットとの間の第１の類似性および対象データセットとグループにおける各データセットとの間の第２の類似性に従って、グループにおけるデータセットの少なくとも１つを選択するステップは、第１の類似性と第２の類似性の一方を一次類似性として、また他方を二次類似性として指定するステップと、一次類似性に従って、グループにおけるデータセットを格付けするステップと、事前設定基準に従って、格付けされたデータセットから少なくとも１つの候補データセットを選択するステップと、二次類似性に従って、少なくとも１つの候補データセットを格付けするステップと、少なくとも１つの候補データセットを格付けした結果に従って、グループにおけるデータセットの少なくとも１つを選択するステップとを含む。

さらに別の実施形態によると、対象データセットとグループにおける各データセットとの間の第１の類似性および対象データセットとグループにおける各データセットとの間の第２の類似性に従って、グループにおけるデータセットの少なくとも１つを選択するステップは、グループにおける各データセットについて、データセットのそれぞれの第１の類似性およびデータセットのそれぞれの第２の類似性に基づいて、事前設定公式に従って複合類似性を計算するステップと、データセットのそれぞれの複合類似性に従って、グループにおけるデータセットの少なくとも１つを選択するステップとを含む。

本発明の別の態様は、１グループのデータセットからの少なくとも１つのデータセットを対象データセットに関係付けるための例示的データ処理システムである。各データセットまたは対象データセットは、少なくとも１つのキーワードを含む。システムはデータを処理するように構成されるデータプロセッサと、データプロセッサによる実行時に、規定のステップを実行するようにデータプロセッサを制御する命令を記憶するように構成されるデータ記憶システムとを含む。そのステップは、対象データセットを表す意味ベクトルと、グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み：グループにおける各それぞれのデータセットを表す各意味ベクトルは、それぞれのデータセットにおける各少なくとも１つのキーワードと、それぞれのデータセットにおける各少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、対象データセットを表す意味ベクトルは、対象データセットにおける少なくとも１つのキーワードと、対象データセットにおける各少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、対象データセットまたはグループにおける各それぞれのデータセットを表す意味ベクトルは、所定カテゴリの数に等しい次元を有しており、グループにおける各データセットについて、対象データセットに関連付けられた意味ベクトルを、グループにおける各データセットに関連付けられた意味ベクトルと比較することにより、対象データセットとグループにおける各データセットとの間の第１の類似性を決定するステップと、対象データセットのキーワード意味表現とグループにおける各それぞれのデータセットのキーワード意味表現とにアクセスす
るステップとを含み、対象データセットのキーワード意味表現または、グループにおける各それぞれのデータセットのキーワード意味表現は、対象データセットまたはグループにおけるそれぞれのデータセットの代表キーワードを表す情報を含み、対象データセットのキーワード意味表現またはグループにおける各それぞれのデータセットのキーワード意味表現は、対象データセットの意味ベクトルまたはグループにおける各それぞれのデータセットの意味ベクトルとは異なるように構築されており、グループにおける各データセットについて、対象データセットのキーワード意味表現とグループにおける各データセットのキーワード意味表現とを比較することにより、対象データセットとグループにおける各データセットとの間の第２の類似性を決定するステップと、対象データセットとグループにおける各データセットとの間の第１の類似性と対象データセットとグループにおける各データセットとの間の第２の類似性とに従って、グループにおけるデータセットのうちの少なくとも１つを選択するステップと、グループにおける少なくとも１つの選択されたデータセットを対象データセットに関係付けるステップとを含む。

本明細書に説明される例示的システムは、１つ以上のコンピュータシステムおよび／または適切なソフトウェアを使用して実装され得る。

本明細書の実施形態は、データ処理システムの実行時に、機械実行されるステップを行って１グループのデータセットからの少なくとも１つのデータセットを対象データセットに関係付けるようにデータ処理システムを制御する命令を運ぶ機械読み取り可能媒体を含む。各データセットまたは対象データセットは少なくとも１つのキーワードを含む。そのステップは、対象データセットを表す意味ベクトルと、グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み、グループにおける各それぞれのデータセットを表す各意味ベクトルは、それぞれのデータセットにおける各少なくとも１つのキーワードと、それぞれのデータセットにおける各少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、対象データセットを表す意味ベクトルは、対象データセットにおける各少なくとも１つのキーワードと、対象データセットにおける各少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、対象データセットまたはグループにおける各それぞれのデータセットを表す意味ベクトルは、所定カテゴリの数に等しい次元を有するステップと、グループにおける各データセットに対して、対象データセットに関連付けられた意味ベクトルを、グループにおける各データセットに関連付けられた意味ベクトルと比較することにより、対象データセットとグループにおける各データセットとの間の第１の類似性を決定するステップと、対象データセットのキーワード意味表現とグループにおける各それぞれのデータセットのキーワード意味表現とにアクセスするステップとを含み、対象データセットのキーワード意味表現または、グループにおける各それぞれのデータセットのキーワード意味表現は、対象データセットまたはグループにおけるそれぞれのデータセットの代表キーワードを表す情報を含み、対象データセットのキーワード意味表現またはグループにおける各それぞれのデータセットのキーワード意味表現は、対象データセットの意味ベクトルまたはグループにおける各それぞれのデータセットの意味ベクトルとは異なるように構築されており、グループにおける各データセットについて、対象データセットのキーワード意味表現とグループにおける各データセットのキーワード意味表現とを比較することにより、対象データセットとグループにおける各データセットとの間の第２の類似性を決定するステップと、対象データセットとグループにおける各データセットとの間の第１の類似性および対象データセットとグループにおける各データセットとの間の第２の類似性に従って、グループにおけるデータセットのうちの少なくとも１つを選択するステップと、グループにおける少なくとも１つの選択されたデータセットを対象データセットに関係付けるステップとを含む。

本開示の追加の利点および新規特徴は、下に続く説明で部分的に述べられるか、以下の
検討で当業者には部分的に明らかとなるか、または本開示の実施により分かり得る。図示され説明される実施形態は、本開示を実施するために熟考された最良の形態の例示を提供する。本明細書に記載される各特長および実施形態は、単独または他の特徴もしくは実施形態と組み合わされて実行され得る。本開示は、その精神及び範囲からまったく逸脱することなく、種々の自明な観点からの修正が可能である。図面および説明は本質的に例示的とみなされるべきであり、限定的とみなすべきでない。本開示の利点は、添付請求項において詳細に指摘される手段および組み合わせにより実現および達成され得る。

例示的広告配置システムのブロック図である。本開示による例示的広告配置システムの実施形態を示す。本開示による広告配置システムの別の実施形態の動作を図示する。単語とカテゴリの間の関係を示す例示的テーブルである。図４からの単語の重要性に対応した値を図示する例示的テーブルである。意味空間における、図４からの単語の表現を図示する例示的テーブルである。例示的広告配置システムが実装される、例示的コンピュータシステムのブロック図である。

例示的実施形態の詳細な説明
本開示は、添付図面において一例として例示され、限定として図示されない。図面では、同じ参照番号表現を有する要素は、全図面を通して同じ要素を表す。

以下の説明では、説明目的のために、本開示の完全な理解を提供するように多くの具体的詳細が述べられる。但し、これらの具体的詳細なしで開示の概念が実践または実施され得ることは当業者には明らかであろう。他の例では、本開示を不必要に曖昧にするのを避けるために周知の構造およびデバイスはブロック図形態で示される。

本明細書の説明で使用されるように、用語「データセット」は人および／または機械により読み取り可能および／または理解可能である表現の集まりを示し、用語「キーワード」は、データセットのテキストまたは記号的要素、数などの１つ以上の要素を示す。例えば、データセットが文書の場合は、キーワードは、文書に含まれる１つ以上の単語、フレーズ、句読点、記号および／またはセンテンスであり得る。データセットは、複数の異なるタイプのデータセットの集まりまたはより大きいデータセットの一部であることが可能である。データセットは、別のデータセットのコンテンツを要約または記述するサマリおよび／またはタグであり得る。キーワードは、ユーザにとって直接見ることが可能であり得るか、またはそうであり得ない。例えば、キーワードは、ビデオファイルの字幕もしくは隠されたサブタイトル、オーディオファイルの歌詞、またはＷｏｒｄ文書に関連付けられたメタデータの要素の一部であり得る。キーワードが人または機械により確定または処理されることができる前に、追加の処理が行われ得る。例えば、光学的文字認識または音声認識は、人または機械によるより簡単な処理および／または認識のために、第１の形式における一定要素を第２の形式に変換するために用いられてもよい。

データセットの例は、ウェブページ、ビデオ、オーディオもしくはマルチメディアファイル、広告、ｅメール、文書、ＲＳＳフィード、マルチメディアファイル、写真、図、図面、電子コンピュータ文書、録音、放送、ビデオファイル、メタデータなど、または上記の１つ以上の集まりを含む。

キーワードの例は、データセットに含まれる、または関連付けられる、単語、フレーズ
、記号、用語、ハイパーリンク、メタデータ情報および／または任意の表示もしくは未表示項目を含む。本開示のコンテキストでは、「ウェブページ」は、ＭｉｃｒｏｓｏｆｔＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ（このコンテンツはＨＴＭＬページ、Ｊａｖａ（登録商標）Ｓｃｒｉｐｔページ、ＸＭＬページ、ｅメールメッセージおよびＲＳＳニュースフィードを含み得るが、これらに限定しない）のようなウェブブラウザにおいて表示可能な情報の任意の組み合わせまたは集まりを示すと理解される。

本開示で使用されるように、用語「対象データセット」は、それに対して例示的システムは対象データセットに文脈的に関係付けられた１つ以上のデータセットを、１グループのデータセットから識別しようとする、１つ以上のデータセットを示す。例えば、対象データセットは、検索クエリに関連する文書を見つけることを意図してユーザが入力する検索クエリ、または、本開示による例示的システムがウェブパージと共に表示するのに適切な広告を見つけようとする１つ以上のウェブページであり得る。

例示目的のため、以下の例は、ウェブページおよび広告を表す、トレーナブル意味ベクトル（ｔｒａｉｎａｂｌｅｓｅｍａｎｔｉｃｖｅｃｔｏｒ）（ＴＳＶ）などの一意的意味ベクトルならびに、広告およびウェブページの代表キーワードの情報を含む意味表現の解析に基づいて、ユーザによりレビューされているウェブページのような対象データセットに文脈的に関係付けられた広告など１つ以上のデータセットを識別する実施形態の動作を説明する。種々の公式および統計的操作を行って、重要または代表キーワードが他より重視されることができるようにそれらを識別することが可能である。

同様のアプローチおよび方法論が、異なるタイプのデータセットおよび／または対象データセットに適用し得ることが理解される。例えば、同様のアプローチを使用して、ユーザにより入力された１つ以上の検察クエリ（対象データセット）に文脈的に関係付けられた文書もしくはウェブページを識別する、または１つ以上の広告に潜在的に関係し得るウェブページを識別することが可能である。

トレーナブル意味ベクトル（ＴＳＶ）は、データセットの固有タイプの意味表現であり、データセットに含まれるデータポイントおよび既知のデータポイントと所定カテゴリとの間の既知の関係に基づいて生成される。トレーナブル意味ベクトルの構築および特性の詳細は、その開示が全体において参照により本明細書に組み込まれる、２０００年５月２日に出願され、“ＣＯＮＳＴＲＵＣＴＩＯＮＯＦＴＲＡＩＮＡＢＬＥＳＥＭＡＮＴＩＣＶＥＣＴＯＲＳＡＮＤＣＬＵＳＴＥＲＩＮＧ”と題された米国特許第６，７５１，６２１号、および２００５年５月１１日に出願され、ＡＤＶＥＲＴＩＳＥＭＥＮＴＰＬＡＣＥＭＥＮＴＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＵＳＩＮＧＳＥＭＡＮＴＩＣＡＮＡＬＹＳＩＳと題された米国特許出願第１１／１２６，１８４号（代理人整理番号５５６５３−０１９）に記載されている。

図１は、１グループの広告１２とウェブページ１１の少なくとも２つのタイプの意味表現、つまり、ＴＳＶと広告１２およびウェブページ１１の代表キーワードの情報を含む意味表現の解析に基づいて、１グループの広告１２から、ユーザによって見られているウェブページ１１に文脈的に関係付けられた１つ以上の広告を識別するように構成された例示的広告配置システム１０の図である。広告１２は、テキスト、音またはアニメーションなどのメディアの任意の組み合わせからなり得る。解析の結果に基づいて、システム１０は、ウェブページ１２に文脈的に関係付けられた、選択された広告を識別する整合結果を生成する。

特定データセットまたはウェブページに対する１つ以上の広告の選択が、データセットが提示されたとき、またはデータセットがユーザに提示された後、または前に発生可能で
ある。別の実施形態では、広告配置システム１０を使用して、ウェブページ１１がその１つ以上の選択された広告と共に表示されるか、それにリンクされるように、ウェブページに文脈的に関連した１つ以上の広告１２を選択する。対象データセットに関連するように識別されたデータセットは、対象データセットと共にユーザに伝達または提示されたり、対象データセットの提示または伝達とは異なる時間に伝達または提示されたりする。データセットは、聴覚形態、ビデオ形態、視覚形態、触覚形態、機械読み取り可能形式またはこれらの任意の組み合わせなどの種々の形態または形式でユーザに伝達または提示され得る。

各広告１２またはウェブページ１１に関連付けられたＴＳＶは、事前に計算されるか、またはオンザフライで計算され得る。１つの実施形態では、各ウェブページまたは広告は、それらのそれぞれの事前に計算されたＴＳＶの、組み込みまたは関連付けられた情報を含む。別の実施形態では、ウェブページ１１に関連付けられたＴＳＶはシステム１０により動的に計算される。

図２は、広告配置システム１０の実施形態の詳細ブロック図である。図２に示すように、広告配置システム１０は、広告１２またはウェブページ１１からキーワードを識別および取り出すための用語抽出器１０２、１１２を含む。用語抽出器１０２、１１２は、広告１２またはウェブページ１１のコンテンツに関する言語学解析を行い、広告１２またはウェブページ１１からのセンテンスを、単語、フレーズなどのより小さい単位に分割する。“ｔｈｅ”“ａ”などのような文法的単語など頻繁に使用される用語は、事前設定のストップリストを使用して除去され得る。広告１２またはウェブページ１１が実際のコンテンツ（例えば、ＨＴＭＬマークアップタグまたはＪａｖａ（登録商標）Ｓｃｒｉｐｔｉｎｇ）以外の情報を含む場合、その情報は除去され得る。用語抽出を実行するためのソフトウェアは、広く入手可能であり、当業者にとっては既知である。

広告配置システム１０はさらに、用語抽出器１０２、１１２からの出力に基づいて、ウェブパージ１１または広告１２に対するＴＳＶを計算するためのＴＳＶ生成器１０３、１１３を含む。システム１０は、広告１２およびウェブページ１１の両方に共通のＴＳＶ生成器を使用し得る。代替的には、ウェブページ１１および広告１２からの出力をそれぞれ処理するために、別個のＴＳＶ生成器を使用し得る。

広告配置システム１０は、効率的な検索のために生成されたＴＳＶを組織化して記憶するのに使用される、ＴＳＶインデクサ１１４およびＴＳＶインデックスデータベース１１８を含む。ＴＳＶインデクサ１１４は、フルデータベース管理システム（ＤＢＭＳ）または、単に大規模データ記録管理用のソフトウェアパッケージを使用して実装され得、ＴＳＶインデックスデータベース１１８は、そのリンクを備えた広告１２のＴＳＶを含むＴＳＶインデックスファイルを記憶するデータベースを備えて実装され得る。異なるインデックススキームが適用されて、検索のスピードアップを図り得る。例えば、ＴＳＶの１つの共通インデックススキームは、ＴＳＶが参照する個々の意味カテゴリの元でそれらをリストアップするものである。

各広告１２に関連付けられたＴＳＶおよびウェブページ１１に関連付けられたＴＳＶはＴＳＶ整合器１０４に入力されて、ウェブページ１１と各広告との間のそれぞれのＴＳＶ類似性を決定する。類似性は関連スコアの形態であり得る。１つの実施形態では、ＴＳＶ間の類似性または関連は、ＴＳＶ間のＮ次元ユークリッド距離を決定するなどの、意味ベクトル（ＴＳＶ）間の距離に基づいて決定される。尚、Ｎは意味空間または所定カテゴリの次元数である。ウェブページ１１のＴＳＶと広告のＴＳＶとの間の距離が短ければ短いほど、ウェブページ１１と広告との間はより類似している。余弦測度、ハミング距離、ミンコフスキ距離またはマハラノビス距離など他の比較方法も使用可能である。比較に先立
ってＴＳＶの次元を低減したり、比較の前後に一定の広告を排除するようにファイルタを適用したりすることを含む、種々の最適化が行われて比較時間が改善可能である。

ＴＳＶ比較結果に基づいて、ＴＳＶ整合器１０４は、ウェブページ１１とのそれぞれのＴＳＶ類似性に従って広告１２から選択された整合広告の格付けリストを含む、ＴＳＶ整合リスト１０５を生成する。事前設定閾値が適用されて、事前設定閾値を越えた類似度を有するような広告のみを選択し得る。

広告配置システム１０はさらに、ウェブページ１１および広告１２に対してＴＳＶとは異なるタイプを有する、文脈表現を決定し比較するためのメカニズムを含む。１つの実施形態では、広告配置システム１０は、ウェブページ１１および広告１２の代表キーワードの情報を含む意味表現を生成する。

図２に示すように、キーワード選択器１１５、１０６は用語抽出器１０２、１１２により取り出される用語を入力し、用語頻度（どの位しばしば用語がページに発生するか）、逆文献頻度（１つの集まりにおけるページの何割が用語を含むか）または当業者には周知の他のアプローチなど１つ以上のメトリクスに従って、ウェブページ１１または各広告１２を表すために、ウェブページ１１または広告１２のコンテンツからサブセットのキーワードを選択する。例えば、キーワード選択器１１５、１０６は、ウェブページ１１または各広告の各テキストの出現頻度または出現数を計算して、各テキストの計算された出現頻度または出現数に基づいて代表キーワードを選択し得る。

別の例は、ストップリストを使用してウェブページ１１または広告１２の対象に関する情報をあまり提供しないキーワードを除去するものである。用語抽出器１０２、１１２は、対象に関する情報をあまり提供しない、最も一般的に発生する単語を含むストップリストを保有またはそれにアクセスする。ストップリストに含まれるキーワードは、良好な検索用語ではない。ストップリストは、言語専門家により、自動解析（統計的など）より、もしくはユーザにより、またはこれら３つすべての組み合わせにより作成され得る。当業者に既知の他のアプローチを使用して、ウェブページ１１または広告１２を表すために、ウェブページ１１または広告１２からキーワードを選択し得ることは理解される。

各広告の代表キーワードがキーワード選択器１１５により識別された後、代表キーワードを記憶するためにキーワードインデックスデータベース１１７が設けられ、それぞれの広告１２にリンクする。

図２に図示されるように、キーワード整合器１０７が設けられて、各それぞれの広告およびウェブページ１１を表す選択されたキーワードの情報に基づいて、ウェブページ１１と各広告１２の間のキーワード類似性を決定する。１つの実施形態では、キーワード整合器１０７は、キーワードインデックスデータベース１１７におけるウェブページ１１に対する選択されたキーワードのセットを調べて、１つ以上の既知のアルゴリズムに従って、各広告およびウェブページ１１に対してキーワード関連スコアを生成する。例えば、広告およびウェブページに含まれる整合または共通キーワード（１つの用語、１つの得票）の数に基づいて２セットの代表キーワード間の関連スコアが計算される。別の実施形態では、キーワード整合器１０７はより巧妙な得票スキーム（選挙人団、加重シェア（ｗｅｉｇｈｔｅｄｓｈａｒｅｄ）、絶対拒否権を有する貴族（ａｒｉｓｔｏｃｒａｃｙｗｉｔｈａｂｓｏｌｕｔｅｖｅｔｏ）、支持の大きさ（ｌｏｕｎｄｎｅｓｓｏｆｓｕｐｐｏｒｔ）を採用して、各広告およびウェブページ１１間の類似度を決定する。ベクトル空間モデルなどの他のタイプの計算は、直線類似性測度または修正余弦類似性測度（ｓｔｒａｉｇｈｔｏｒｍｏｄｉｆｉｅｄｃｏｓｉｎｅｓｉｍｉｌａｒｌｉｔｙｍｅａｓｕｒｅ）を使用して、関連スコアを計算し得る。

キーワード整合器１０７は、ウェブページ１１と各それぞれの広告との間のそれぞれの類似性を計算した後、ウェブページ１１とのそれぞれの類似性とそれぞれの関連スコアとに基づいて、広告１２を格付けするキーワード整合リスト１０８を生成する。

ＴＳＶ整合リスト１０５およびキーワード整合リスト１０８は、キーワード整合リスト１０８とＴＳＶ整合リスト１０５に含まれる情報に従って最終整合リスト１１０を生成する結合器１０９に送信される。１つの実施形態では、ＴＳＶ整合リスト１０５またはキーワード整合リスト１１０における各広告に対して、結合器１０９はＴＳＶ整合リスト１０５とキーワード整合リスト１１０におけるその関連スコアに基づいて、複合関連スコアを計算する。その後、最終整合リスト１１０が各広告のそれぞれの複合関連スコアに従って生成される。

１つの実施形態では、複合関連スコアが以下のように計算される。
広告がＴＳＶ整合リスト１０５およびキーワード整合リスト１０８両方に含まれる場合、
複合スコア＝ａ_１＊ＴＳＶスコア＋ｂ_１＊キーワードスコア＋ｃ_１（１）
広告がＴＳＶ整合リスト１０５だけに含まれる場合は、
複合スコア＝ａ_２＊ＴＳＶスコア＋ｃ_２（２）
広告がキーワード整合リスト１０８だけに含まれる場合は、
複合スコア＝ｂ_３＊キーワードスコア＋ｃ_３（３）
係数ａ_１、ａ_２、ｂ_１、ｂ_３、ｃ_１、ｃ_２、ｃ_３、は、式２および式３が式１の特別なケースとなるように選択され得る。整合リストのいずれかまたはすべてにおける関連スコアは［０，１］に正規化され得る。条件付または無条件閾値をいずれかまたはすべての整合リストにおける関連スコアに適合してリストを短縮し得る。最終整合リスト１１０は、広告の複合スコアに従ってコンパイルされる。

別の実施形態では、ＴＳＶ整合リスト１０５およびキーワード整合リスト１０８における広告は、一意的公式を使用して、再配置されて例示的最終整合リスト１１０を形成する。ＴＳＶ整合リスト１０５とキーワード整合リスト１０８における各広告は、それぞれのＴＳＶ関連スコアとキーワード関連スコアに関連付けられる。ＴＳＶ整合リスト１０５は、そのそれぞれのＴＳＶ関連スコアに従って広告を格付けし、キーワード整合リスト１０８はそれぞれのキーワード関連スコアに基づいて広告を格付けする。ＴＳＶ関連スコアおよびキーワード関連スコアのうちの一方は一次関連スコアとして指定され、もう一方は二次関連スコアとして指定される。

表１は、一次関連スコアとしてのＴＳＶ関連スコアと、二次関連スコアとしてのキーワード関連スコアを有する例示的格付けリストを示す。例示目的のため、関連スコアは［０，１］に正規化される。

各広告に対する一次関連スコアは、関連スコアの特定範囲に対応する事前設定関連レベルにマップされる。その後、広告はそれらのマップされた関連レベルに従って格付けされる。各それぞれの広告に対する二次関連スコアを使用して、各関連レベル内の広告を格付けする。

例えば、表１に示す例では、ＴＳＶ関連スコアは３つの異なる関連レベルにマップされる。

関連スコア＜０．４であれば、
関連レベル＝１である。

０．４＜＝関連スコア＜０．７であれば、
関連レベル＝２である。

関連スコア＞＝０．７であれば、
関連レベル＝３である。

変換後、広告はそれらのそれぞれの関連レベルに従って再格付けされる。各それぞれの関連レベル内の広告はその後、それらの各二次関連スコアに従って再格付けされる。再格付け結果は表２に示される。表２の列１は広告の最終関連格付けである。

広告配置システム１０はその後、最終整合リスト１１０の格付けに従って、ウェブページ１１に関係付けるために、最終整合リスト１１０から１つ以上の広告を選択する。１つの実施形態では、選択された広告はウェブページ１１と共に表示されるか、それにリンクされる。

他の実施形態では、キーワード関連スコアは一次関連スコアとして指定され得、ＴＳＶ関連スコアは二次関連スコアとして指定され得ることが理解される。また、設計の選好に依存して、異なる数の範囲レベルが使用されて、関連スコアを変換し得ることも理解される。また、条件付または無条件閾値をいずれかまたはすべての整合リストにおける関連スコアに適用して、リストを短縮し得ることも理解される。

別の実施形態では、システム１０はＴＳＶ整合リスト１０５とキーワード整合リスト１０８のうち一方だけに主として依存することにより最終整合リスト１００を生成し得る。例えば、システム１０は、それらのそれぞれのキーワード関連スコアに従って事前設定数の広告を選択するキーワード整合リスト１０８に依存する。各広告に対するＴＳＶ関連スコアもやはり計算される。キーワード格付けリスト１０８上の広告はその後、それらのそれぞれのＴＳＶ関連スコアに基づいて再格付けされる。システム１０は、最終整合リスト１１０として再格付けされた整合リストを出力する。

図３は、文脈的関連に基づいて１つ以上の広告１２をウェブページ１１に関係付けるための別の例示的広告配置システム２０を示す。考察の簡潔さのために、同じ参照番号表示を有する素子はすでに論じた同様の素子を表す。

システム２０では、広告１２に対するＴＳＴおよびキーワード意味表現はデータベース２１２内に記憶される。各広告に対して、データベース２１２は、２つのデータフィールド、すなわちＴＳＶに対して１つ、キーワード意味表現に対して１つを提供する。広告配置システム２０はさらに、ＴＳＶおよびキーワード意味表現を組織および管理するためのＴＳＶおよびキーワードインデクサ２１１を含む。ＴＳＶおよびキーワードインデクサ２１１は完全なデータベース管理システム（ＤＢＭＳ）または、単に大規模データ記録管理のためのソフトウェアパッケージを使用して実装され得、データベース２１２は、データ
ベースを備えて実装され得る。異なるインデックススキームを適用して検索をスピードアップし得る。

システム２０は用語抽出器１０２および１１２と、ＴＳＶ生成器１０３および１１３と、キーワード選択器１０６および１１５とを含み、すべて、図２に関してすでに説明したものと同じ機能性を備える。各広告に対して、ＴＳＶおよびキーワード結合器２１０がそのＴＳＶおよびキーワード意味表現を広告と適切に関連付ける。同様に、ウェブページ１１に対しては、ＴＳＶはＴＳＶ生成器１０３により生成され、キーワード意味表現はキーワード選択器１０６に生成される。ＴＳＶおよびキーワード結合器２０５がそのＴＳＶおよびキーワード意味表現をウェブページ１１に関連付け、またはリンクさせる。ウェブページ１１および広告１２に対するＴＳＶおよびキーワード意味表現に関する情報は、ＴＳＶおよびキーワード整合器２０６により処理され、ＴＳＶおよびキーワード整合器１０７は、図２に関してすでに論じたＴＳＶ整合器１０４およびキーワード整合器２０６と同様の機能を実行する。ＴＳＶおよびキーワード意味表現に対する関連スコアは、図２に関して説明されたのと同様に計算され得る。最終整合リスト２１３は図２に関してすでに論じたようにＴＳＶおよびキーワード整合器２０６により生成される。

別の実施形態では、同じベクトル空間におけるデータセットのキーワード意味表現および意味ベクトル表現を組み合わせることにより、各広告または各候補もしくはターゲットデータセットに対する結合関連スコアが計算され得る。例えば、広告のキーワード表現および意味ベクトル表現の両方が、同じベクトル空間のベクトルとして処理されて、組み合わされて、広告の単一結合意味ベクトル表現を形成する。

結合ベクトル意味表現を計算する際に、意味ベクトル表現およびキーワード意味表現が異なる重みが割り当てられ得る。各広告に対して、関連スコアは、広告の結合意味ベクトル表現およびターゲットデータセットの結合意味ベクトル表現に基づいて計算される。最終整合リスト２１３は、広告のそれぞれの結合関連スコアに従って、ＴＳＶおよびキーワード整合器２０６により生成される。

キーワードまたはＴＳＶ比較に基づいて生成される整合リストはさらに、他の既知の方法により絞り込まれるか、再格付け可能であることが理解される。例えば、格付けリストにおけるデータセットまたはウェブページは、全体的開示が参照により本明細書に組み込まれる、“ＭＥＴＨＯＤＦＯＲＮＯＤＥＲＡＮＫＩＮＧＩＮＡＬＩＮＫＥＤ
ＤＡＴＡＢＡＳＥ”と題された、米国特許第６，２８５，９９９号に記載されるＧｏｏｇｌｅ，Ｉｎｃ．により開発されたＰａｇｅＲａｎｋアルゴリズムなどの、最終格付けにおけるウェブページ間のリンク情報に従ったアルゴリズムを使用して再配置され得る。

ＴＳＶの構築
これよりデータセットに対するＴＳＶの構成について説明する。ＴＳＶの一層の詳細は、その開示がすでに参照により組み込まれる、米国特許第６，７５１，６２１号および米国特許出願第１１／１２６，１８４号に記載される。

データセットに対するＴＳＶの生成に備えて、意味辞書を使用して、データセットに含まれるデータポイントに対応するＴＳＶを見つける。意味辞書は、複数の既知のデータポイントと複数の所定カテゴリとの間の既知の関係を含む。言い換えると、意味辞書は、「定義」、すなわち対応する単語またはフレーズのＴＳＶを含む。

これより、ＴＳＶ生成器を使用してデータセットに対するＴＳＶを生成するための例示的プロセスについて説明する。データセットは、広告、ウェブページあるいは任意のタイプのデータセットが可能である。例示目的で、「単語」は文書に含まれるキーワードに対
する例として使用される。単語、フレーズ、記号、用語、ハイパーリンク、メタデータ情報、グラフィックおよび／または任意の表示もしくは未表示項目あるいはこれらの任意の組み合わせなど、他の多くのタイプのデータポイントまたはキーワードが文書に含まれ得ることが理解される。

文書の入力キーワードに基づいて、ＴＳＶ生成器は、意味辞書における対応するキーワードを識別して、意味辞書により与えられる定義に基づいて、文書に含まれる各キーワードのそれぞれのＴＳＶを取り出す。ＴＳＶ生成器１０３は、文書に含まれるキーワードのそれぞれのＴＳＶを組み合わせることにより文書のＴＳＶを生成する。例えば、文書のＴＳＶは、文書に含まれるすべてのキーワードのそれぞれのＴＳＶのベクトル加法として定義され得る。

意味辞書作成のためのプロセスについてこれより説明する。１つの実施形態では、複数の既知のデータセットのそれぞれがどの所定カテゴリに入るかを適切に決定することにより、意味辞書が生成される。サンプルデータセットは、１つ以上の所定カテゴリに入り得るか、またはサンプルデータセットは単一カテゴリに関連するように制限され得る。例えば、コンピュータ会社に関わる特許権侵害訴訟に関するニュースレポートは、レポートの内容に依存して、また所定カテゴリに依存して、「知的財産法」「ビジネス論争」「オペレーティングシステム」「経済問題」などを含むカテゴリに入り得る。サンプルデータセットが一定の所定カテゴリに関係付けられていると決定されると、サンプルデータセットに含まれるすべてのキーワードが同一の予め定められたカテゴリに関連付けられる。同じプロセスがすべてのサンプルデータセットに関して行われる。

１つの実施形態では、サンプル文書とカテゴリの間の関係は、オープンディレクトリプロジェクト（ＯＤＰ）を解析することにより決定可能であり、オープンディレクトリプロジェクトは、専門の編集者により何１０万のウェブページを豊富なトピック階層に割り当てたものである。割り当てられたカテゴリを有するこれらのサンプルウェブページは、キーワードと所定カテゴリとの間の関係を決定するためのトレーニング文書（ｔｒａｉｎｉｎｇｄｏｃｕｍｅｎｔ）と呼ばれる。他のオンライントピック階層、分類スキームおよびオントロジを同様に使用して、サンプルトレーニング文書をカテゴリに関係付けることができることは当業者には明白なはずである。

以下のステップは、ＯＤＰ階層がＴＳＶ意味辞書を生成する目的でどのように変形されるかを説明する。

１．ＯＤＰウェブページをダウンロードする。各ウェブページと、それが属するＯＤＰカテゴリとの間の関連付けが保持される。適切にダウンロードしなかったいかなるウェブページも除去して、ＵＲＬＳを内部パス名に翻訳する。

２．オプションで、上記ＯＤＰウェブページのいずれかにより参照されるすべてのウェブページをダウンロードして、各新しいウェブページと元のＯＤＰウェブページが属するＯＤＰカテゴリとの間の関連付けを作成する。オプションでウェブページをフィルタに掛けて、それが引き出された元のＯＤＰウェブページと同じカテゴリを有するような新しいウェブページのみを維持する。適切にダウンロードしなかったいかなるウェブページも除去し、ＵＲＬを内部パス名に翻訳する。

３．オプションで所望しないカテゴリを除去する。一定タイプのＯＤＰカテゴリは処理前に除去される。これらの除去されたカテゴリは、空のカテゴリ（対応する文書がないカテゴリ）、レターバーカテゴリ（有用な意味的差異がない「Ａ、Ｂ・・・で始まる映画タイトル」）、および意味コンテンツを識別するのに有用な情報を含まない（例えば、空の
カテゴリ、所望しない外国語の地域的なページ）、または誤解を与えるもしくは不適切な情報（例えばアダルトコンテンツページ）を含む、他のカテゴリを含み得る。

４．トレーニングに適切でないページを除去する。１つの実施形態では、少なくとも最少量のコンテンツを有するページのみトレーニングに使用される。別の実施形態では、トレーニングページは、少なくとも１０００バイトの変換されたテキストおよび最大５０００の空白区切り単語を有さなければならない。

５．オプションで、英語で書かれていないいかなるページも除去する。これは、ＨＴＭＬメタタグ、自動言語検出、ＵＲＬドメイン名に関するフィルタリング、文字範囲に関するフィルタリングまたは当業者にはよく知られる他の技術などの標準方法により行うことができる。

６．オプションで重複を除去する。ページが２つ以上のＯＤＰカテゴリに現れる場合、それはあいまいに分類され、トレーニングの良好な候補でないことがあり得る。

７．候補ＴＳＶ次元を識別する。以下で説明するように崩壊−切り取り（ｃｏｌｌａｐｓｅ−ｔｒｉｍ）アルゴリズムを起動して自動的にＯＤＰ階層を平らにして候補ＴＳＶ次元を識別する。

８．オプションでＴＳＶ次元を調節する。自動的に生成されたＴＳＶ次元を調べて、それらの次元の予想される意味特性に基づいて、特定次元を手動で崩壊、分割または除去する。調節のタイプは以下を含むことが可能だが、それらに限定されない。まず、一定の単語が元のカテゴリ名に頻繁に発生したら、それらのカテゴリはそれらの親ノードまで崩壊されることが可能である（それらはすべて同じことを論じているか、または意味論的に意味がないのいずれかであるので）。第２に、一定の特定カテゴリはその親まで崩壊可能である（通常、それらがあまりにも特定すぎるので）。第３に、ＯＤＰ階層において分離された一定グループのカテゴリは、統合可能である（例えば、“Ａｒｔｓ／ＭａｇａｚｉｎｅｓａｎｄＥ−Ｚｉｎｅｓ／Ｅ−Ｚｉｎｅｓ”は“Ａｒｔｓ／ＯｎｌｉｎｅＷｒｉｔｉｎｇ／Ｅ−ｚｉｎｅｓ”と統合可能である）。

９．ＴＳＶトレーニングファイルを作成する。各潜在的トレーニングページに対して、そのページを、ページのカテゴリが崩壊したＴＳＶ次元に関連付ける。その後、過剰トレーンまたは過小評価（ｕｎｄｅｒｓａｍｐｌｅ）にならないように注意しながら、その次元をトレーンする（ｔｒａｉｎ）のに使用されることになる各ＴＳＶ次元からページを選択する。１つの実施形態では、我々は、少なくとも１０００バイトの変換されたテキストを有する３００ページをランダムに選択する（該当ページが３００未満の場合は、それらすべて選択する）。その後、５０００の空白区切り単語より長いいかなるページも除去して、最小ページから開始して、累積単号カウントが２００，０００に達すると停止しながら、その次元全体に対して最大２００，０００空白区切り単語を保持する。

１０．オプションで次元に対してラベル付けし直す。各次元は、それが引き出されたＯＤＰカテゴリのオントロジパスと同じラベルを有して開始する。１つの実施形態では、ラベルの一部は、短縮して、より読みやすくし、それらが組み合わされるか、除去された様々なサブカテゴリを確実に反映するように、手動で調節される。例えば、“Ｔｏｐ／Ｓｈｏｐｐｉｎｇ／Ｖｅｈｉｃｌｅｓ／Ｍｏｔｏｒｃｙｃｌｅｓ／Ｐａｒｔｓ＿ａｎｄ＿Ａｃｃｅｓｓａｒｉｅｓ／Ｈａｒｌｅｙ＿Ｄａｖｉｄｓｏｎ”という元のラベルは“ＨａｒｌｅｙＤａｖｉｄｓｏｎ，ＰａｒｔｓａｎｄＡｃｃｅｓｓａｒｉｅｓ”に書き換えられるかもしれない。

１つの実施形態では、崩壊−切り取りアルゴリズムは、各カテゴリノードで直接有用なページ数を見ながら、ＯＤＰ階層中を下から上へ進む。そのノードに少なくとも１００ページが記憶されている場合、ＴＳＶ次元としてそのノードを保持する。そうでなければ、親ノードにそれを崩壊する。

サンプルデータセットの所定カテゴリ（次元）への割り当てが行われた後、１つ以上のサンプルデータセットに含まれるキーワードと所定カテゴリとの間の関係を表す情報を記憶するデータテーブルが、割り当て結果に基づいて作成される。データテーブルにエントリするたびに、キーワードと所定カテゴリの１つとの間の関係が確立する。例えば、データテーブルのエントリは、特定キーワードを含む、カテゴリ内のサンプルデータセットの数に対応可能である。キーワードは、サンプルデータセットのコンテンツに対応し、一方所定カテゴリは、意味空間の次元に対応する。データテーブルを使用して、トレーン可能意味ベクトルを構築するのに用いる、所定カテゴリにより形成された特定意味空間内の各単語、フレーズまたは他のキーワードの「定義」を含む意味辞書を生成し得る。

図４は、意味辞書を構築するための例示的データテーブルを示す。簡潔さおよび理解を容易にするために、図４の単語数および所定カテゴリ数は５つに低減される。実際には、何１０万の用語と所定カテゴリが可能である。

図４に図示されるように、テーブル２００は、所定カテゴリＣａｔ_１、Ｃａｔ_２、Ｃａｔ_３、Ｃａｔ_４およびＣａｔ_５に対応する行４１０ならびに代表単語Ｗ_１、Ｗ_２、Ｗ_３、Ｗ_４およびＷ_５に対応する列４１２を含む。テーブル２００内の各エントリ４１４は、１つ以上の単語Ｗ_１、Ｗ_２、Ｗ_３、Ｗ_４およびＷ_５など、対応するカテゴリに発生する特定単語を有するドキュメント数に対応する。

各行４１０に亘る列４１２の総数の合計は、その行４１０毎に表される単語を含む文書の総数を与える。これらの値は列４１６に表される。図４を参照すると、単語Ｗ_１は、カテゴリＣａｔ_２に２０回、カテゴリＣａｔ_５に８回現れる。単語Ｗ_１は、カテゴリＣａｔ_１、Ｃａｔ_３およびＣａｔ_４には現れない。

列４１６を参照すると、単語Ｗ_１はすべてのカテゴリに亘って合計２８回現れる。言い換えると、２８の分類された文書がＷ_１を含む。Ｃａｔ_１などの例示的列４１２を調べると、単語Ｗ_２がカテゴリＣａｔ_１で１回現れ、単語Ｗ_３がカテゴリＣａｔ_１で８回現れ、単語Ｗ_５がカテゴリＣａｔ_１で２回現れる。単語Ｗ_４はカテゴリＣａｔ_１ではまったく現れない。すでに述べたように、単語Ｗ_１はカテゴリ１では現れない。行４１８を参照すると、カテゴリＣａｔ_１に対応するエントリは、カテゴリＣａｔ_１に分類された文書が１１個あることを示す。

１つの実施形態によると、データテーブルが構築された後、データテーブルの各エントリの重要性が決定される。一定の状況下におけるエントリの重要性は、単語が特定カテゴリまたは特定カテゴリに対するその関連性において発生する相対強度であるとみなすことができる。但し、かかる関係は限定的にみなすべきではない。各エントリの重要性は実際のデータセットおよびカテゴリ（すなわち、カテゴリを表し記述するのに重要であるとみなされる特徴）にのみ限定される。本開示の１つの実施形態によると、各単語の重要性は、すべてのカテゴリに亘る単語の統計的動作に基づいて決定される。これは、以下の公式に従って各カテゴリに発生するキーワードの割合を最初に計算することにより達成可能である：
μ＝Ｐｒｏｂ（エントリ｜カテゴリ）＝（エントリ_ｎ，カテゴリ_ｍ）／カテゴリ_{ｍ＿ｔｏｔａｌ}
次に、全カテゴリに亘るキーワード発生の確率分布を以下の公式に従って計算する。
ν＝Ｐｒｏｂ（エントリ｜カテゴリ）＝（エントリ，カテゴリ_ｍ）／エントリ_{ｎ＿ｔｏｔａｌ}
μもνも共に、単語が特定カテゴリに関連付けられた強度を表す。例えば、単語があるカテゴリからの少数のデータセットしか発生せず、他のどのカテゴリでも現れない場合、それはそのカテゴリに関しては、高いν値および低いμ値を有することになろう。エントリがあるカテゴリからのほとんどのデータセットに現れるが、他のいくつかのカテゴリにも現れる場合、それはそのカテゴリに対して高いμ値および低いν値を有することになろう。

表されている情報の質およびタイプに依存して、各単語の決定された重要性を高めるために追加のデータ操作が実行可能である。例えば、あるキーワードに対する全値の合計により各カテゴリに対するμの値が正規化（すなわち、除算）されて、その結果確率分布としての解釈が可能となる。

以下の公式に従って、キーワードの重要性を決定するのにμおよびνの加重平均も使用可能である：
α（ν）＋（１−α）（μ）
可変αは、表されて解析されている情報に基づいて決定可能である加重因数である。本開示の１つの実施形態によると、加重因数は約０．７５の値を有する。情報のタイプ及び質または情報を表すのに必要な詳細レベルなどの種々の要素に依存して、他の値が選択可能である。実験から収集される経験的証拠を通して、本発明者は、μおよびνベクトルの加重平均が、μのみ、νのみを使用またはμとνの加重されない組み合わせを使用して達成可能な結果より優れた結果を生じることができると判断した。

図５は、図４からのデータに基づいて、上述の操作処理の動作を図示する。図５では、テーブル２３０はカテゴリに関する各単語の相対強度を示す値を記憶する。具体的には、各カテゴリに発生するキーワードの割合（すなわちμ）が、各単語に対するベクトルの形態で提示される。μベクトルにおける各エントリに対する値は、以下の公式に従って計算される：
μ＝Ｐｒｏｂ（単語｜カテゴリ）＝（単語_ｎ，カテゴリ_ｍ）／カテゴリ_{ｍ＿ｔｏｔａｌ}
テーブル２３０もまた、各単語に対するベクトルの形態ですべてのカテゴリに亘るキーワードの発生確率分布（すなわちν）を提示する。νベクトルにおける各エントリに対する値は以下の公式に従って計算される：
ν＝Ｐｒｏｂ（カテゴリ｜エントリ）＝（単語_ｎ，カテゴリ_ｍ）／単語_{ｎ＿ｔｏｔａｌ}
図６を参照すると、図４からの単語の意味表現または「定義」を例示するためにテーブル２５０が示される。テーブル２５０は、意味空間に亘る各単語の意味表現に対応する５つのＴＳＶの組み合わせである。例えば、第１行は、単語Ｗ_１のＴＳＶに対応する。各ＴＳＶは所定カテゴリに対応する次元を有する。加えて、単語Ｗ_１、Ｗ_２、Ｗ_３、Ｗ_４およびＷ_５に対するＴＳＶは、その特定カテゴリに関して単語の重要性を最適化するようにエントリがスケールされる開示の実施形態により計算される。より詳細には、以下の公式を使用して値が計算される。
α（ν）＋（１−α）（μ）
各ＴＳＶに対するエントリは、テーブル２３０に記憶された実際の値に基づいて計算される。従って、テーブル２５０に示されるＴＳＶは、所定カテゴリにより形成される意味空間に対して意味辞書を集合的に構成する、各所定カテゴリまたはベクトル次元に対して図４に表される例示的単語Ｗ_１、Ｗ_２、Ｗ_３、Ｗ_４およびＷ_５の「定義」に対応する。

ときには、広告されている製品の市場に対してローカルな文書に広告を載せることが望ましいことがある。これは広告に地理的情報（郵便番号、市／州名など）を組み込むことにより、またはユーザのＩＰアドレスにアクセスしてそれを地理的領域に関連付けること
により達成され得る。しかしながら、すべての文書が適切な形態の地理的情報を含むとは限らず、またすべてのユーザが、自分のローカル地域に対応するＩＰアドレスを有するとは限らない。この場合、上述のような意味辞書の形成時に、地理的領域に関係付けられたさらなるカテゴリが所定カテゴリに含まれることが可能である。各地理的領域は意味空間における次元となり、意味辞書を作成するのに地理的情報でタグ付けされたサンプルデータセットが使用される。その後その意味辞書を使用して、データセットおよび広告が異なる地理的領域に関連付けられる強度を反映する、データセットおよび広告に対するＴＳＶを生成する。

ＴＳＶの適用は単に１つの言語に限定されない。適切なサンプルデータセットが有用である限り、様々な言語に対する意味辞書を構築することが可能である。例えば、オープンディレクトリプロジェクトからの英語サンプルデータセットは、意味辞書を生成する際に別の言語の適切なサンプルデータセットと置き換えることが可能である。各言語に対して別個の意味辞書が存在可能である。代替的には、すべての言語に対するキーワードが単一の共通意味辞書に常駐することが可能である。様々な言語は、同一の意味辞書を共有するかどうか、また言語に亘って意味ベクトルを比較することが所望されるかどうかに依存して、同一所定カテゴリまたは意味次元を共有し得るか、または完全に異なる所定カテゴリまたは意味次元を有し得る。

意味辞書が作成された後、意味辞書はＴＳＶ生成器１０３によりアクセスされて、ターゲット文書に含まれるキーワードに対して対応するＴＳＶを見つけることができる。１つの実施形態では、ターゲット文書に含まれるキーワードのＴＳＶは組み合わされてターゲット文書のＴＳＶを生成する。ＴＳＶが組み合わされる方法は、具体的実装に依存する。例えば、ＴＳＶはベクトル加法演算を使用して組み合わされ得る。この場合、文書に対するＴＳＶは以下のように表すことができる：
ＴＳＶ（文書）＝ＴＳＶ（Ｗ１）＋ＴＳＶ（Ｗ２）＋ＴＳＶ（Ｗ３）．．．＋ＴＳＶ（ＷＮ）
尚、Ｗ１、Ｗ２、Ｗ３、．．．ＷＮは文書に含まれる単語である。

データセットに対するＴＳＶの生成は、データセットにおけるキーワードを含む多くのタイプの情報、広告およびデータセットに含まれるキーワードに基づいて取り出された情報およびデータセットに割り当てられた追加の情報を利用し得る。例えば、広告に表示される単語、各広告に関連付けられた１セットのキーワード、広告のタイトル、広告の簡単な説明、広告されている品目を説明する広告に関連付けられた市場文献、またはそれが販売されている視聴者を含むが、これらに限定されない情報、および広告により参照され得るウェブサイトからの情報に基づいて、広告に対するＴＳＶの生成が行われ得る。ウェブページに対するＴＳＶの生成は、ウェブページに現れる実際のテキストまたは、タイトル、キーワードおよび説明などのウェブページに関連付けられたメタテキストフィールド、またはそのウェブページにリンクされた、もしくはそのウェブページによりリンクされた他のウェブページからのテキストなどの一部またはすべてを含むが、これらに限定されない情報に基づいて行われ得る。

動作速度をより速くするために、広告に対するＴＳＶはオフラインで生成可能であり、広告が修正、追加または除去されると更新可能である。しかし、ＴＳＶはまたオプションで広告配置時に生成可能でもある。同様に、ウェブページまたは他のデータセットに対するＴＳＶはオフラインまたはオンザフライのいずれかで生成可能である。

実施形態によると、本明細書で開示される例示的システムは、ウェブページまたは表示される文書などの種々のセクションを解析して、自動的に１つ以上の説明の各セクションを、バックグランド項目の最終整合リストに基づいて、Ｗｉｋｉｐｅｄｉａ（ｈｔｔｐ：
／／ｗｗｗ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ）からの百科辞典的項目などの１セットのバックグランド項目にリンクする。

本明細書に開示される方法およびシステムは、１つ以上の広告を１つ以上のウェブページまたは文書に関連付ける、またはその反対、ユーザの検索クエリに基づいて関連文書を取り出す、データセットの異なる部分に対してバックグランド情報を見つけるなど、種々の目的に適用可能であることは当業者には理解される。また、本明細書で使用されるようなデータセットは、ウェブページもしくは文書などの単一タイプのデータセットのみ、またはｅメールとウェブページ、文書および放送データとの組み合わせなど、異なるタイプのデータセットの集まりを含み得ることも理解される。

本開示による別の実施形態は、「タグ付きキー」と称される精密な表現を利用して、広告１２およびウェブページ１１などのデータセットを表したり、インデックスを付けたりする。タグ付きキーは、データセットで見つけられたキーワードを、データセットに適用可能な１つ以上の特定意味カテゴリに関連付ける。例えば、用語“ｂａｎｋ”は多くの異なる意味を持ち得るが、ＦｉｎａｎｃｉａｌＩｎｓｔｉｔｕｔｉｏｎなどの意味カテゴリでタグ付けされると、ＧｅｏｌｏｇｉｃａｌＳｔｒｕｃｔｕｒｅなどの意味カテゴリでタグ付けされた“ｂａｎｋ”を整合させることはもはやない。

ウェブページ１１または広告１２などのデータセットを解析する場合、図３に対してすでに論じたようにキーワード選択器１１５または１０６により、ウェブページまたは広告を表しているとみなされる候補キーワードが、各広告またはウェブページ１１から選択される。１つの実施形態では、候補キーワードは、特定データセットまたは文書に現れる各キーワードの頻度に基づいて選択され得る。本開示による例示的システムは、所定意味カテゴリとそれらの候補キーワードとの関係に関する情報の意味辞書にアクセスする。例えば、Ｎ個の候補キーワードとＭ個の所定カテゴリを有するデータセットに関しては、Ｍ×Ｎ対のキーワードとカテゴリ（可能性のあるタグ付きキー）が有効である。フィルタを使用して、キーワードにあまり関連のないカテゴリを取り除き得る。関連の最低必要条件を特定する閾値を使用して、キーワードに十分関連するカテゴリを識別し得る。キーワードに対してカテゴリを選択する１つの例示的方法は、単に上記で論じたように意味辞書を引くことであり、この辞書には、与えられた意味カテゴリに関してどの位強力に特定用語が選択するかを特定する情報を含む。１つの実施形態では、キーワードに対して最も強力に選択されるカテゴリは、タグ付けの主要候補となるであろう。

例えば、文書が２つのキーワードＫ１およびＫ２を含むと仮定する。そのとき、もしあるとしたらどのカテゴリがどのキーワードにつながってしているかを見るために、意味辞書でＫ１とＫ２を調べるであろう。キーワードが、カテゴリＣ１、Ｃ２、Ｃ３およびＣ４などの２つ以上のカテゴリに関係付けられている場合、いくつかのオプションがある。すなわち、（１）キーワードに対して最も強力なつながりを有するカテゴリを選ぶ、（２）最小閾値を越えるつながりを有するすべてのカテゴリを選ぶ、または（３）つながりの強度に関係なくすべてのカテゴリを選ぶ。結果は、データセットを表すための、Ｋ１＋Ｃ１，Ｋ２＋Ｃ２およびＫ２＋Ｃ４などの対になったカテゴリとキーワード、タグ付きキーのリストになる。各タグ付きキーはキーワードに対応する意味ベクトルとみなされ得、候補キーワードの意味ベクトルは、ベクトル加法などにより組み合わされて、データセットの意味ベクトル表現を形成し得る。意味ベクトル表現は、本開示で説明されるのと同様に使用され得る。

図７は本開示の例示的システムが実装され得るコンピュータシステム１００を図示するブロック図である。コンピュータシステム１００は、バス７０２または情報を通信するための他の通信メカニズムと、情報を処理するためのバス７０２に連結されたプロセッサ７
０４とを含む。コンピュータシステム１００はまた、プロセッサ７０４により実行される情報および命令を記憶するためにバス７０２に連結された、ランダムアクセスメモリ（ＲＡＭ）または他の動的記憶デバイスなどのメインメモリ７０６も含む。メインメモリ７０６はまた、プロセッサ７０４により実行される命令の実行時に一時的可変または他の中間情報を記憶するのにも使用され得る。コンピュータシステム１００はさらに、プロセッサ７０４用の静的情報および命令を記憶するために、バス７０２に連結された読み出し専用メモリ（ＲＯＭ）７０８または他の静的記憶デバイスを含む。情報および命令を記憶するために、磁気ディスクまたは光学ディスクなどの記憶デバイス７１０が設けられて、バス７０２に連結される。

コンピュータシステム１００は、コンピュータユーザに情報を表示するために、バス７０２を介して、陰極線管（ＣＲＴ）などのディスプレイ７１２に連結され得る。情報およびコマンド選択をプロセッサ７０４に伝えるために、英数字および他のキーを含む入力デバイス７１４がバス７０２に連結される。別のタイプのユーザ入力デバイスは、方向情報および命令選択をプロセッサ７０４に伝えるための、またディスプレイ７１２上のカーソルの移動を制御するための、マウス、トラックボールまたはカーソル方向キーなどのカーソル制御７１６である。この入力デバイスは典型的には、デバイスが平面の位置を指定するのを可能とする、第１の軸（例えば、ｘ）および第２の軸（例えば、ｙ）の２つの軸において２つの自由度を有する。

本開示の１つの実施形態によると、ＴＳＶおよび意味演算の構築は、メインメモリ７０６または記憶デバイス７１０に含まれるか、またはネットワークリンク１２０から受信される１つ以上の命令の１つ以上のシーケンスを実行するプロセッサ７０４に応答して、コンピュータシステム１００により提供される。かかる命令は、記憶デバイス７１０などの別のコンピュータ読み取り可能媒体からメインメモリ７０６に読み取られ得る。メインメモリ７０６に含まれる命令のシーケンスの実行により、プロセッサ７０４は本明細書で説明される処理ステップを行う。メインメモリ７０６に含まれる命令のシーケンスを実行するのにマルチ処理配置における１つ以上のプロセッサも採用され得る。代替の実施形態では、ソフトウェア命令の代わりに、またはそれと併せて有線回路を使用して開示を実施し得る。従って、開示の実施形態はハードウェア回路およびソフトウェアの任意の特定組み合わせに限定されない。

本明細書で使用される用語「コンピュータ読み取り可能媒体」は、実行のためにプロセッサ７０４に命令を与えるのに参与する任意の媒体を示す。かかる媒体は、不揮発性媒体、揮発性媒体および伝達媒体を含むが、これらに限定されない、多くの形態を取り得る。不揮発性媒体は、例えば記録デバイス７１０などの光学または磁気ディスクを含む。揮発性媒体は、メインメモリ７０６などの動的メモリを含む。伝達媒体は、バス７０２を構成するワイヤを含む、同軸ケーブル、銅線、および光ファイバを含む。コンピュータ読み取り可能媒体の一般的な形態は、例えばフロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤ、任意の他の光学媒体、パンチカード、ペーパーテープ、孔のパターンを有する任意の他の物理的媒体、ＲＡＭ、ＰＲＯＭ，およびＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、またはコンピュータが読み取ることができる任意の他の媒体を含む。

コンピュータ読み取り可能媒体の種々の形態が、実行のために１つ以上の命令の１つ以上のシーケンスをプロセッサ７０４に運ぶのに携わり得る。例えば、命令は最初は遠隔コンピュータの磁気ディスク上にあり得る。遠隔コンピュータは命令をその動的メモリ内にロードして、モデムを使用して電話回線で命令を送信することができる。コンピュータシステム１００に対してローカルなモデムは、電話回線でデータを受信して、赤外線送信機
を使用してデータを赤外線信号に変換することができる。バス７０２に連結された赤外線検出器は、赤外線信号で運ばれたデータを受信して、データをバス７０２上に配置することができる。バス７０２はデータを、プロセッサ７０４がそこから命令を取り出して実行するメインメモリ７０６に運ぶ。メインメモリ７０６により受信された命令は、プロセッサ７０４による実行の前または後のいずれかに、オプションで記憶デバイス７１０上に記憶され得る。

コンピュータシステム１００はまた、バス７０２に連結された通信インタフェース７１８を含む。通信インタフェース７１８は、ローカルネットワーク７２２に接続されたネットワークリンク１２０に連結する２方向データ通信を提供する。例えば、通信インタフェース７１８は、統合サービスデジタルネットワーク（ＩＳＤＮ）カードまたはモデムであり、対応するタイプの電話回線へのデータ通信接続を提供し得る。別の例としては、通信インタフェース７１８は、ローカルエリアネットワーク（ＬＡＮ）カードであり、互換性のあるＬＡＮへのデータ通信接続を提供し得る。無線リンクも実行され得る。任意のかかる実行では、通信インタフェース７１８は、種々のタイプの情報を表すデジタルデータストリームを運ぶ電気、電磁または光学信号を送受信する。

ネットワークリンク１２０は典型的には、１つ以上のネットワークを介する他のデータデバイスへのデータ通信を提供する。例えば、ネットワークリンク１２０は、ローカルネットワーク７２２を介したホストコンピュータ７２４への、またはインターネットサービスプロバイダ（ＩＳＰ）７２６によって運営されるデータ機器への接続を提供し得る。ＩＳＰ７２６は今度は、現在では一般的に「インターネット」７２８と称される世界規模パケットデータ通信ネットワークを介してデータ通信サービスを提供する。ローカルネットワーク７２２およびインターネット７２８は共に、デジタルデータストリームを運ぶ電機、電磁または光学信号を使用する。コンピュータシステム１００に、およびコンピュータシステム１００からデジタルデータを運ぶ、種々のネットワークを介した信号およびネットワークリンク１２０上で通信インタフェース７１８を介した信号は、情報を運搬する搬送波の例示的形態である。

コンピュータシステム１００は、メッセージを送信したり、ネットワーク、ネットワークリンク１２０および通信インタフェース７１８を介して、プログラムコードを含むデータを受信したりできる。インターネットの例では、サーバ１３０がインターネット７２８、ＩＳＰ７２６、ローカルネットワーク７２２および通信インタフェース７１８を介して、アプリケーションプログラムに対する要求コードを送信し得る。開示によると、１つのかかるダウンロードされたアプリケーションは、本明細書に説明されるように、ＴＳＶの構築と種々の意味演算の実行を提供する。受信コードは、それが受信されたようにプロセッサ７０４により実行され、かつ／または後の実行のために記憶デバイス７１０もしくは他の不揮発性記憶部に記憶され得る。このように、コンピュータシステム１００は、搬送波の形態のアプリケーションコードを取得し得る。

前述の説明では、本開示の完全な理解を提供するために、具体的材料、構造、処理など多くの具体的詳細が述べられている。しかしながら、当該技術分野において通常の技術を有する人なら認識するように、本開示は具体的に述べられた詳細に頼らずに実践可能である。他の例では、不必要に本開示を曖昧にしないように、周知の処理構造は詳細に説明されていない。

本開示では開示の例示的実施形態およびそれらの多用途の例のみが示され、説明される。本開示は種々の他の組み合わせおよび環境での使用が可能であり、本明細書で表される発明概念の範囲内の変更または変形が可能であることは理解されるべきである。

Claims

１グループのデータセットからの少なくとも１つのデータセットを対象データセットに関係付けるためのデータ処理システムを制御する、機械実行される方法であって、各データセットまたは前記対象データセットは少なくとも１つのキーワードを含み、該方法は、機械実行されるステップ：
前記対象データセットを表す前記意味ベクトルと、前記グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み、
前記グループにおける各それぞれのデータセットを表す各意味ベクトルは、前記それぞれのデータセットにおける各前記少なくとも１つのキーワードと、前記それぞれのデータセットにおける各前記少なくとも１つのキーワードに関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記対象データセットを表す前記意味ベクトルは、前記対象データセットにおける前記少なくとも１つのキーワードと、前記対象データセットにおける各前記少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記対象データセットまたは前記グループにおける各それぞれのデータセットを表す前記意味ベクトルは、前記所定カテゴリの数に等しい次元を有しており、
前記グループにおける各データセットについて、前記対象データセットに関連付けられた前記意味ベクトルを、前記グループにおける各データセットに関連付けられた前記意味ベクトルと比較することにより、前記対象データセットと前記グループにおける各データセットとの間の第１の類似性を決定するステップと、
前記対象データセットのキーワード意味表現と前記グループにおける各それぞれのデータセットのキーワード意味表現とにアクセスするステップとを含み、
前記対象データセットの前記キーワード意味表現または、前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットまたは前記グループにおけるそれぞれのデータセットの代表キーワードを表す情報を含み、
前記対象データセットの前記キーワード意味表現または前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットの前記意味ベクトルまたは前記グループにおける各それぞれのデータセットの前記意味ベクトルとは異なるように構築されており、
前記グループにおける各データセットについて、前記対象データセットの前記キーワード意味表現と前記グループにおける各データセットの前記キーワード意味表現とを比較することにより、前記対象データセットと前記グループにおける各データセットとの間の第２の類似性を決定するステップと、
前記対象データセットと前記グループにおける各データセットとの間の前記第１の類似性および前記対象データセットと前記グループにおける各データセットとの間の第２の類似性に従って、前記グループにおける前記データセットのうちの少なくとも１つを選択するステップと、
前記グループにおける前記少なくとも１つの選択されたデータセットを前記対象データセットに関係付けるステップと、
を含む、方法。
前記グループにおける前記データセットの少なくとも１つは広告であり、前記対象データセットは文書、ウェブページ、ｅメール、ＲＳＳニュースフィード、データストリーム、放送データもしくはユーザに関する情報、または１つ以上の文書、ウェブページ、ｅメール、ＲＳＳニュースフィード、データストリーム、放送データもしくはユーザに関する情報の一部である、請求項１に記載の方法。
前記対象データセットは文書、ウェブページ、ｅメール、ＲＳＳニュースフィード、データストリーム、放送データもしくはユーザに関する情報の一部である、請求項１に記載
の方法。
前記少なくとも１つの選択されたデータセットまたは、前記対象データに関して前記選択されたデータセットに関連付けられたファイルもしくは前記対象データセットに関連付けられたファイルを、ユーザに伝達するステップをさらに含む、請求項１に記載の方法。
前記少なくとも１つの選択されたデータセットは、前記少なくとも１つの選択されたデータセットを表示するか、前記少なくとも１つの選択されたデータセットに従って音響信号を再生する、または前記少なくとも１つの選択されたデータセットへのリンクを提供することにより、前記ユーザに伝達される、請求項４に記載の方法。
前記少なくとも１つのキーワードは、単語、フレーズ、文字列、予め割り当てられたキーワード、サブデータセット、メタ情報、および前記それぞれのデータセットに含まれるリンクに基づいて取り出された情報のうちの少なくとも１つを含む、請求項１に記載の方法。
各データセットに対する前記意味ベクトルは、予め計算されて、前記それぞれのデータセットに含まれる、請求項１に記載の方法。
前記意味ベクトルは動的に生成される、請求項１に記載の方法。
前記グループにおける各それぞれのデータセットを表す前記意味ベクトルは、前記グループにおける各それぞれのデータセットの少なくとも１つのキーワードおよび、既知のキーワードと前記既知のキーワードが関係し得る所定カテゴリとの間の既知の関係に基づいて構築され、
前記対象データセットを表す前記意味ベクトルは、前記対象データセットの少なくとも１つのキーワードと、既知のキーワードと前記既知のキーワードが関係し得る所定カテゴリとの間の前記既知の関係に基づいて構築される、請求項１に記載の方法。
前記それぞれのデータセットに関連付けられた前記意味ベクトルは、さらに、少なくとも一人のユーザに関する情報または前記それぞれのデータセットにリンクされた少なくとも１つのデータセットに基づいて生成される、請求項１に記載の方法。
前記少なくとも一人のユーザに関する前記情報は、以前に見られた文書、以前の検索要求、ユーザの好みおよび個人情報のうちの少なくとも１つを含む、請求項１０に記載の方法。
前記対象データセットと前記グループにおける各データセットとの間の第１の類似性および前記対象データセットと前記グループにおける各データセットとの間の第２の類似性に従って、前記グループにおけるデータセットの少なくとも１つを選択するステップは、
前記第１の類似性と前記第２の類似性のうちの一方を一次類似性として、また他方を二次類似性として指定するステップと、
前記一次類似性に対する複数の事前設定関連レベルの情報にアクセスするステップと、
前記グループにおける各データセットに対して、前記一次類似性を、前記一次類似性に従った前記事前設定関連レベルのうちの１つにマップするステップと、
前記グループにおける前記データセットのそれぞれのマップされた事前設定関連レベルに従って、前記グループにおけるデータセットを格付けするステップと、
各関連レベル内で、前記データセットの前記二次類似性に従って各関連レベルに前記データセットを格付けするステップと、
各関連レベルに前記データセットを格付けした結果に従って、前記グループにおける前
記データセットの前記少なくとも１つを選択するステップと、
を含む、請求項１に記載の方法。
前記対象データセットと前記グループにおける各データセットとの間の前記第１の類似性および前記対象データセットと前記グループにおける各データセットとの間の前記第２の類似性に従って、前記グループにおける前記データセットの少なくとも１つを選択するステップは、
前記第１の類似性と前記第２の類似性の一方を一次類似性として、また他方を二次類似性として指定するステップと、
前記一次類似性に従って、前記グループにおける前記データセットを格付けするステップと、
事前設定基準に従って、前記格付けされたデータセットから少なくとも１つの候補データセットを選択するステップと、
前記二次類似性に従って、前記少なくとも１つの候補データセットを格付けするステップと、
前記少なくとも１つの候補データセットを格付けした結果に従って、前記グループにおける前記データセットの前記少なくとも１つを選択するステップと、
を含む、請求項１に記載の方法。
前記対象データセットと前記グループにおける各データセットとの間の第１の類似性および前記対象データセットと前記グループにおける各データセットとの間の前記第２の類似性に従って、前記グループにおける前記データセットの少なくとも１つを選択するステップは、
前記グループにおける各データセットに対して、前記データセットのそれぞれの第１の類似性および前記データセットのそれぞれの第２の類似性に基づいて、事前設定公式に従って複合類似性を計算するステップと、
事前設定基準に基づいて前記データセットのそれぞれの複合類似性に従って、前記グループにおける前記データセットの前記少なくとも１つを選択するステップと、
を含む、請求項１に記載の方法。
前記対象データセットと同時に、前記データセットの前記少なくとも１つをユーザに提示するステップをさらに含む、請求項１に記載の方法。
前記対象データセットをユーザに提示した後引き続いて、前記ユーザに前記データセットの前記少なくとも１つを提示するステップをさらに含む、請求項１に記載の方法。
前記データセットの前記少なくとも１つまたは対象データセットは、聴覚形態、視覚形態、ビデオ形態、触覚形態またはそれらの任意の組み合わせで、前記ユーザに提示される請求項１に記載の方法。
１グループのデータセットからの少なくとも１つのデータセットを対象データセットに関係付けるためのデータ処理システムであって、各データセットまたは前記対象データセットは、少なくとも１つのキーワードを含み、前記システムは
データを処理するように構成されるデータプロセッサと、
前記データプロセッサによる実行時に、以下のステップを実行するように前記データプロセッサを制御する命令を記憶するように構成されるデータ記憶システムと、
を含み、
前記ステップは、
前記対象データセットを表す前記意味ベクトルと、前記グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み、
前記グループにおける各それぞれのデータセットを表す各意味ベクトルは、前記それぞれのデータセットにおける各前記少なくとも１つのキーワードと、前記それぞれのデータセットにおける各前記少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記対象データセットを表す前記意味ベクトルは、対象データセットにおける前記少なくとも１つのキーワードと、前記対象データセットにおける各前記少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記対象データセットまたは前記グループにおける各それぞれのデータセットを表す前記意味ベクトルは、前記所定カテゴリの数に等しい次元を有しており、
前記グループにおける各データセットについて、前記対象データセットに関連付けられた前記意味ベクトルを、前記グループにおける各データセットに関連付けられた前記意味ベクトルと比較することにより、前記対象データセットと前記グループにおける各データセットとの間の第１の類似性を決定するステップと、
前記対象データセットのキーワード意味表現と前記グループにおける各それぞれのデータセットのキーワード意味表現とにアクセスするステップとを含み、
前記対象データセットの前記キーワード意味表現または、前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットまたは前記グループにおける前記それぞれのデータセットの代表キーワードを表す情報を含み、
前記対象データセットの前記キーワード意味表現または前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットの前記意味ベクトルまたは前記グループにおける各それぞれのデータセットの前記意味ベクトルとは異なるように構築されており、
前記グループにおける各データセットについて、前記対象データセットの前記キーワード意味表現と前記グループにおける各データセットの前記キーワード意味表現とを比較することにより、前記対象データセットと前記グループにおける各データセットとの間の第２の類似性を決定するステップと、
前記対象データセットと前記グループにおける各データセットとの間の前記第１の類似性および前記対象データセットと前記グループにおける各データセットとの間の第２の類似性に従って、前記グループにおける前記データセットのうちの少なくとも１つを選択するステップと、
前記グループにおける前記少なくとも１つの選択されたデータセットを前記対象データセットに関係付けるステップと、
を含む、システム。
データ処理システムの実行時に、機械実行されるステップを行って１グループのデータセットからの少なくとも１つのデータセットを対象データセットに関係付けるようにデータ処理システムを制御する命令を運ぶ機械読み取り可能媒体であって、各データセットまたは前記対象データセットは少なくとも１つのキーワードを含み、前記ステップは、
前記対象データセットを表す前記意味ベクトルと、前記グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み、
前記グループにおける各それぞれのデータセットを表す各意味ベクトルは、前記それぞれのデータセットにおける各前記少なくとも１つのキーワードと、前記それぞれのデータセットにおける各前記少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記対象データセットを表す前記意味ベクトルは、前記対象データセットにおける各前記少なくとも１つのキーワードと、前記対象データセットにおける各前記少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記対象データセットまたは前記グループにおける各それぞれのデータセットを表す前記意味ベクトルは、前記所定カテゴリの数に等しい次元を有しており、
前記グループにおける各データセットについて、前記対象データセットに関連付けられ
た前記意味ベクトルを、前記グループにおける各データセットに関連付けられた前記意味ベクトルと比較することにより、前記対象データセットと前記グループにおける各データセットとの間の第１の類似性を決定するステップと、
前記対象データセットのキーワード意味表現と前記グループにおける各それぞれのデータセットのキーワード意味表現とにアクセスするステップとを含み、
前記対象データセットの前記キーワード意味表現または、前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットまたは前記グループにおけるそれぞれのデータセットの代表キーワードを表す情報を含み、
前記対象データセットの前記キーワード意味表現または前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットの前記意味ベクトルまたは前記グループにおける各それぞれのデータセットの前記意味ベクトルとは異なるように構築されており、
前記グループにおける各データセットについて、前記対象データセットの前記キーワード意味表現と前記グループにおける各データセットの前記キーワード意味表現とを比較することにより、前記対象データセットと前記グループにおける各データセットとの間の第２の類似性を決定するステップと、
前記対象データセットと前記グループにおける各データセットとの間の前記第１の類似性および前記対象データセットと前記グループにおける各データセットとの間の第２の類似性に従って、前記グループにおける前記データセットのうちの少なくとも１つを選択するステップと、
前記グループにおける前記少なくとも１つの選択されたデータセットを前記対象データセットに関係付けるステップと、
を含む、媒体。
１グループのデータセットからの少なくとも１つのデータセットを対象データセットに関係付けるためのデータ処理システムを制御するための、機械実行される方法であって、各データセットまたは前記対象データセットは少なくとも１つのキーワードを含み、前記機械実行されるステップは、
前記対象データセットを表す前記意味ベクトルと、前記グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み、
前記グループにおける各それぞれのデータセットを表す各意味ベクトルは、前記それぞれのデータセットにおける各前記少なくとも１つのキーワードと、前記それぞれのデータセットにおける各前記少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記対象データセットを表す前記意味ベクトルは、前記対象データセットにおける各前記少なくとも１つのキーワードと、前記対象データセットにおける各前記少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記対象データセットまたは前記グループにおける各それぞれのデータセットを表す前記意味ベクトルは、前記所定カテゴリの数に等しい次元を有しており、
前記対象データセットのキーワード意味表現と前記グループにおける各それぞれのデータセットのキーワード意味表現とにアクセスするステップを含み、
前記対象データセットの前記キーワード意味表現または前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットまたは前記グループにおける前記それぞれのデータセットの代表キーワードを表す情報を含み、
前記対象データセットの前記キーワード意味表現または前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットの前記意味ベクトルまたは前記グループにおける各それぞれのデータセットの前記意味ベクトルとは異なるように構築されており、
各データセットについて、各データセットに関連付けられた前記意味ベクトルと各データセットの前記キーワード意味表現とに従った前記データセットの結合ベクトル表現を生
成するステップと、
前記対象データセットについて、前記対象データセットに関連付けられた前記意味ベクトルと前記対象データセットの前記キーワード意味表現とに従った前記対象データセットの結合ベクトル表現を生成するステップと、
前記対象データセットの前記結合ベクトル表現と、前記グループにおける各データセットの前記結合ベクトル表現を比較することにより、前記対象データセットと前記グループにおける各データセットとの間の類似性を決定するステップと、
前記決定された類似性に従って前記グループにおける前記データセットの少なくとも１つを選択するステップと、
前記グループにおける前記少なくとも１つの選択されたデータセットを前記対象データセットに関係付けるステップと、
を含む、方法。
データ処理システムの実行時に、機械実行されるステップを行って１グループのデータセットからの少なくとも１つのデータセットを対象データセットに関係付けるようにデータ処理システムを制御する命令を運ぶ機械読み取り可能媒体であって、各データセットまたは前記対象データセットは少なくとも１つのキーワードを含み、前記ステップは、
前記対象データセットを表す前記意味ベクトルと、前記グループにおける各それぞれのデータセットを表すそれぞれの意味ベクトルとにアクセスするステップを含み、
前記グループにおける各それぞれのデータセットを表す各意味ベクトルは、前記それぞれのデータセットにおける各前記少なくとも１つのキーワードと、前記それぞれのデータセットにおける各前記少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記対象データセットを表す前記意味ベクトルは、前記対象データセットにおける各前記少なくとも１つのキーワードと、前記対象データセットにおける各前記少なくとも１つのキーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記対象データセットまたは前記グループにおける各それぞれのデータセットを表す前記意味ベクトルは、前記所定カテゴリの数に等しい次元を有しており、
前記対象データセットのキーワード意味表現と前記グループにおける各それぞれのデータセットのキーワード意味表現とにアクセスするステップを含み、
前記対象データセットの前記キーワード意味表現または、前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットまたは前記グループにおけるそれぞれのデータセットの代表キーワードを表す情報を含み、
前記対象データセットの前記キーワード意味表現または前記グループにおける各それぞれのデータセットの前記キーワード意味表現は、前記対象データセットの前記意味ベクトルまたは前記グループにおける各それぞれのデータセットの前記意味ベクトルとは異なるように構築されており、
各データセットについて、各データセットに関連付けられた前記意味ベクトルと各データセットの前記キーワード意味表現とに従った前記データセットの結合ベクトル表現を生成するステップと、
前記対象データセットについて、前記対象データセットに関連付けられた前記意味ベクトルと前記対象データセットの前記キーワード意味表現とに従った前記対象データセットの結合ベクトル表現を生成するステップと、
前記対象データセットの前記結合ベクトル表現と、前記グループにおける各データセットの前記結合ベクトル表現を比較することにより、前記対象データセットと前記グループにおける各データセットとの間の類似性を決定するステップと、
前記決定された類似性に従って前記グループにおける前記データセットの少なくとも１つを選択するステップと、
前記グループにおける前記少なくとも１つの選択されたデータセットを前記対象データセットに関係付けるステップと、
を含む、媒体。
１グループのデータセットからの少なくとも１つのデータセットを対象データセットに関係付けるためのデータ処理システムを制御する、機械実行される方法であって、各データセットまたは前記対象データセットは少なくとも１つのキーワードを含み、前記機械実行されるステップは、
前記対象データセットを表すタグ付きキー表現と、前記グループにおける各それぞれのデータセットを表すそれぞれのタグ付きキー表現とにアクセスするステップを含み、
前記グループにおける各それぞれのデータセットを表す各タグ付きキー表現は、各それぞれのデータセットの各代表キーワードと、各それぞれのデータセットにおける各前記代表キーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記対象データセットを表す前記タグ付きキー表現は、前記対象データセットにおける各代表キーワードと、前記対象データセットにおける各前記代表キーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記グループにおける各データセットについて、前記対象データセットに関連付けられた前記タグ付きキー表現を、前記グループにおける各データセットに関連付けられた前記タグ付きキー表現と比較することにより、前記対象データセットと前記グループにおける各データセットとの間の類似度を決定するステップと、
前記対象データセットと前記グループにおける各データセットとの間の前記決定された類似度に従って、前記グループにおける前記データセットの少なくとも１つを選択するステップと、
前記グループにおける前記少なくとも１つの選択されたデータセットを前記対象データセットに関係付けるステップと、
を含む、方法。
データ処理システムの実行時に、機械実行されるステップを行って１グループのデータセットからの少なくとも１つのデータセットを対象データセットに関係付けるように前記データ処理システムを制御する命令を運ぶ、機械読み取り可能媒体であって、各データセットまたは前記対象データセットは少なくとも１つのキーワードを含み、前記ステップは、
前記対象データセットを表すタグ付きキー表現と、前記グループにおける各それぞれのデータセットを表すそれぞれのタグ付きキー表現とにアクセスするステップを含み、
前記グループにおける各それぞれのデータセットを表す各タグ付きキー表現は、各それぞれのデータセットの各代表キーワードと、各それぞれのデータセットにおける各前記代表キーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記対象データセットを表す前記タグ付きキー表現は、前記対象データセットにおける各代表キーワードと、前記対象データセットにおける各前記代表キーワードが関係し得る所定カテゴリとの間の関係の集合的情報を含み、
前記グループにおける各データセットについて、前記対象データセットに関連付けられた前記タグ付きキー表現を、前記グループにおける各データセットに関連付けられた前記タグ付きキー表現と比較することにより、前記対象データセットと前記グループにおける各データセットとの間の類似度を決定するステップと、
前記対象データセットと前記グループにおける各データセットとの間の前記決定された類似度に従って、前記グループにおける前記データセットの少なくとも１つを選択するステップと、
前記グループにおける前記少なくとも１つの選択されたデータセットを前記対象データセットに関係付けるステップと、
を含む、媒体。
少なくとも１つのキーワードを含むデータセットのタグ付き表現を生成するためにデー
タ処理システムを制御する、機械実行される方法であって、前記方法は、
前記データセットを表現するために、前記少なくとも１つのキーワードから代表キーワードを識別するステップと、
各既知のキーワードと所定カテゴリとの間の既知の関係を識別するデータにアクセスするステップと、
前記アクセスされたデータを参照することにより、各代表キーワードと前記所定カテゴリとの間の関係を決定するステップと、
各代表キーワードと前記所定カテゴリとの間の前記決定された関係に従って、前記データセットのタグ付きキー表現を構築するステップと、
前記構築されたタグ付きキー表現を使用して前記データセットを表現するステップと、
を含む、方法。
データ処理システムの実行時に、機械実行されるステップを行って１グループのデータセットからの少なくとも１つのデータセットを対象データセットに関係付けるように前記データ処理システムを制御する命令を運ぶ、機械読み取り可能媒体であって、各データセットまたは前記対象データセットは少なくとも１つのキーワードを含み、前記ステップは、
前記データセットを表現するために、前記少なくとも１つのキーワードから代表キーワードを識別するステップと、
各既知のキーワードと所定カテゴリとの間の既知の関係を識別するデータにアクセスするステップと、
前記アクセスされたデータを参照することにより、各代表キーワードと前記所定カテゴリとの間の関係を決定するステップと、
各代表キーワードと前記所定カテゴリとの間の前記決定された関係に従って、前記データセットのタグ付きキー表現を構築するステップと、
前記構築されたタグ付きキー表現を使用して前記データセットを表現するステップと、
を含む、媒体。