JP5057474B2

JP5057474B2 - オブジェクト間の競合指標計算方法およびシステム

Info

Publication number: JP5057474B2
Application number: JP2008240624A
Authority: JP
Inventors: ジェンチャンリイ; ユウジャオ; トシカズフクシマ
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2007-09-19
Filing date: 2008-09-19
Publication date: 2012-10-24
Anticipated expiration: 2028-09-19
Also published as: CN101393550A; JP2009110508A; US20090077126A1

Description

本発明は情報処理に関し、特に、競合相手の自動マイニング／発見を行うための、２オブジェクト（製品／企業等）間における競合指標の計算方法およびシステムに関する。

近年、人々が取得できる情報量は急激に増大している。原情報は外部には不可視なため、まず原情報を処理して、そこから有用な情報を取り出すことが必要とされる。しかし、特にネットワークと通信技術の急速な発達を背景に、情報量と処理時間に対する要求は年々高まっていることから、大量化、多種多様化、分散化といった情報特性がますます顕著となってきている。情報を手動で処理することは多数の用途で不可能なので、情報の抽出、マイニング、比較、測定、評価といったネットワーク技術とコンピュータ技術を利用して情報処理を行うことが不可欠である。これらのコンピュータ技術のうち、オブジェクト（製品／企業など）間の競合指標を自動的に解析・計算する情報処理技術は特に重要視されている。

現代の競合環境では、ほぼすべての企業が特に経営判断上、競合相手は誰で、どこにいて、何をしているかを知りたがっている。しかし、競合相手が世界中に散在し、市場のプレーヤーと製品が常に変化しているグローバル環境では特に、競合相手を見つけて監視することは時間と労力がかかる困難な作業となる。

「ビジネスインテリジェンス（ＢＩ）」は、生データを情報／知識に変換して、エンタプライズユーザのビジネス決定を支援することを目的とする、広範な技術とアプリケーションを包括する用語である。「競合インテリジェンス（ＣＩ）」は、ＢＩよりも狭義な用語であり、特に、外部ビジネス環境に関する情報の収集、分析、管理を示すために使用される。これらの研究／ビジネス分野は確立されてから何年も経つが、現在のところ競合情報を取得する方法は３つしかない。これらの方法とは、１）競合企業の社員や顧客とのインタビューや交流を通した実地調査、２）Ｇｏｏｇｌｅなどのウェブ検索エンジンを利用して必要な情報を収集し、人手を介して結果を閲覧して要約する方法、３）ＹａｈｏｏＦｉｎａｎｃｅ、Ｄ＆Ｂ、ｉｎｆｏＵＳＡ、Ｈｏｏｖｅｒｓ、ＯｎｅＳｏｕｒｃｅなどの公開ソースや購読ソースを利用する方法、である。１）と２）は人間の活動／労力に全面的に頼るため、困難で時間がかかり、しかも収集できる情報の範囲は限られている。３）については、企業情報を蓄積した商用データベースはいくつかあるが、データの規模が小さすぎるという難点がある。例えば、ほとんどのデータベースは単一言語で、コンテンツは金融情報のみ（ＹａｈｏｏＦｉｎａｎｃｅ、Ｄ＆Ｂなど）か国内企業のみ（ｉｎｆｏＵＳＡなど）にとどまっている。また、これらの商用データベースに蓄積される情報は人手を介して更新されるため、特に世界規模のビジネス環境では、購読者／ユーザが競合に関連する情報をリアルタイムでかつ大規模に収集することは非常に困難であり、ときには不可能でさえある。

競合相手を発見して監視する作業は人手で行うにはきわめて困難であることを考慮すると、何らかの意図的な基準に基づいて競合相手（企業／製品など）間の競合指標を計算するための高効率な競合分析が強く求められていることは明らかである。

本発明で提案される競合指標計算の解決策は、２つのオブジェクト（ドキュメント／レコード）間の類似度指標計算からアイデアを得ているので、関連の類似度指標計算の手法と解決策を以下に要約する。

２つのドキュメントまたはデータベースレコード間の類似度計算を目的として現在までに開発された方法およびシステムは、ベクトル空間モデル（ＶＳＭ）ベースの方法と属性値ベースの方法の２種類に分類することができる。

ＶＳＭベースの方法は、主に、２つのフルテキストドキュメント間の類似度指標を計算する用途に応用されている。その基本的な概念とは、１）各ドキュメントを単語頻度ベクトルに分割し、２）全ドキュメントに含まれる全単語を集めた語彙をシステム内に構築し、３）各ドキュメントを、その語彙に対するベクトルとして表現し、４）特定の類似度測定指標（類似度の測定方法は多数あるが、そのうち最も多用されているのは、高次元仮想空間内のベクトル間の角度を計算する余弦測定方法である）を適用して、２つのドキュメント間の類似度を測定する、というものである。

属性値ベースの類似度測定方法は、主に、固定の共通スキーマを有する構造的ドキュメント／レコードを対象とする。この類似度測定方法は、ＶＳＭベースの方法と同様に、１）ドキュメントを属性値（各属性はドキュメント／レコードの１つの側面を記述する）のベクトルとして表現し、２）各属性値に関して類似度距離を計算し（このプロセスでは、多種多様な類似度測定指標を利用することができる）、３）類似度指標への貢献度に基づいて属性を分類し、４）分類した属性に重み付け和方針を適用して、ドキュメント／レコードの類似度をその属性値の類似度の重み付け和として算出する、というステップで構成される。

さらに、異言語ドキュメントの検索で直面する言語障壁の克服を目的として、異なる言語で書かれた２つのドキュメント間の類似度計算を行うための翻訳ベースの手法やコーパスベースの手法も提案されている。

翻訳ベースの手法は、シソーラスや多言語辞書を利用して類似度計算を行うものである。この手法は、１）多言語辞書または機械翻訳を利用して、クエリーや対象となるドキュメント集合の翻訳を行い、２）ＶＳＭ／属性値ベースの方法を利用して、異言語間のドキュメント検索を実行する、とう２つの主要ステップで構成される。基本的には、これはＶＳＭや属性値ベースのスコアリングの異言語対応用の拡張である。

コーパスベースの手法は、テキスト翻訳用辞書の代わりにコーパスを使用する手法であり、並列コーパスから選別収集した用語の使用に関する統計情報を直接利用する。この手法は、１）異言語発見用の並列コーパスの並列テキストを収集し、２）統計的翻訳モデルを構築し、３）その翻訳モデルを利用して異言語情報検索を行う（類似度計算は中に組み込まれている）、というステップで構成される。

米国特許出願Ｎｏ．５３０１１０９「ＣｏｍｐｕｔｅｒｉｚｅｄＣｒｏｓｓ−ＬａｎｇｕａｇｅＤｏｃｕｍｅｎｔＲｅｔｒｉｅｖａｌＵｓｉｎｇＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ（潜在的意味指標付けを使用した、コンピュータによる異言語ドキュメント検索）」では、ＬＳＡベースの方法が提案されている。この方法ではクエリーの翻訳は実行されず、特異値分解（ＳＶＤ）を使ってソース用語とターゲットドキュメント間の関連が発見される。ここに、この米国特許出願の開示を、あらゆる趣旨においてその全体を援用する。

類似度計算のための一般的な解決策に加えて、下記特許の特定モジュールも本発明に関連しているので、ここに、あらゆる趣旨においてその全体を援用する。
（１）米国特許Ｎｏ．５７３１９９１，
（２）米国特許Ｎｏ．２００５０００４８８０Ａ１
（３）米国特許Ｎｏ．２００５０１９２９３０Ａ１、および
（４）米国特許Ｎｏ．２００４０６８４１３

ただし、競合指標計算に適用する場合には、これらの既存の解決策は以下のような短所を抱える。

第一に、既存の解決策は、２つのドキュメント／レコード間の類似度計算に特化して提案されたものである。競合計算の目的（問題）と類似度計算のそれは直感的には似通っているが、この２つは異なる。概念上は、競合関係は類似度関係の部分集合であり、換言すれば、類似度は競合の十分にして不必要な条件だと言うことができる。２つの対象が類似していることは、必ずしも相競合することを意味しない。これは、具体的には次のように説明することができる。すなわち、１）ターゲットとするオブジェクトが異なる。上記の関連技術は主に２つの自由形式テキストまたは構造的ドキュメント／オブジェクトの間の類似度計算に取り組んでいるのに対し、競合計算は相競合すると思われる２つの対象に関連する。２）ターゲットとする関係が異なる。競合度と類似度の定義は異なっており、競合関係は「１つのオブジェクトの存在／発展が別のオブジェクトにマイナスの影響を及ぼす関係」と定義される。そのため、２つの対象間の競合上の力関係を測定するためには、競合度に関する具体的な方針が必要とされる。

第二に、類似度計算用の現在の解決策はすべて、ターゲットとなるオブジェクト（ドキュメント／製品）は同じスキーマを有する（すなわち、すべてフルテキスト形式か特定のデータ構造を有する）と想定している。ＶＳＭベースの方法は、比較対象の一方が構造的もしくは半構造的プロファイルを有する状況に対応しておらず、属性値ベースの方法は、比較対象の一方がフルテキストプロファイルを有するか、双方が異種の構造的プロファイルを有する状況に対応していない。しかし、現実の用途においては、比較対象のオブジェクトが異なる情報ソース（異種データベースや異なるウェブサイト等）から取得される可能性は高く、その場合は既存の解決策を適用することはできない。

さらに、翻訳ベースの異言語間類似度計算は、管理語彙または多言語辞書の品質と機械翻訳技術によって大きく左右される。しかし、現在の機械翻訳の精度はさほど高くなく、特に未知の用語の翻訳は困難だという問題がある。また、言語の組み合わせによっては、複雑性が大幅に増大する可能性がある。

コーパスベースの手法とＬＳＡベースの手法の最大の短所は、十分な並列コーパスがないことである。そのため、限定的な並列テキスト（ＬＳＡの場合は、最初に選択されたドキュメント集合）によって、得られる類似度指標に歪みが生じてしまう。

さらに、上記の特許は、共通した固定的な属性／特徴構造を有する特定の製品カテゴリにしか適用できない。これらの特許で採用される方法は、カテゴリ間の類似度計算には適用できない。また、２製品間の比較は、競争力を特定できるほどに包括的ではない。
米国特許５７３１９９１米国特許２００５０００４８８０Ａ１米国特許２００５０１９２９３０Ａ１米国特許２００４０６８４１３

本発明は、従来技術で提案される既存の方法が抱える上記および他の不備と短所を鑑みて取り組まれたものである。本発明の目的は、２オブジェクト（製品／企業等）間の競合指標を得るための方法およびシステムを提供することを目的とする。

本発明の一つの態様によれば、オブジェクト間の競合指標計算方法であって、複数の属性から成る第１および第２のプロファイルを各々有する第１のオブジェクトと第２のオブジェクトとを取得するステップと、オントロジ情報を参照して第１および第２のプロファイルを正規化するステップと、正規化された第１および第２のプロファイルに基づいて、第１および第２のオブジェクト間の競合指標を計算するステップとを備えることを特徴とする競合指標計算方法が提供される。

本発明の一実施例においては、オントロジ情報は共通属性名語彙であり、異なるオブジェクトのプロファイルは競合指標を得るために直接的に比較される。まず、第１および第２のプロファイルは、対応するオントロジ情報を使用して正規化される。この正規化は、共通属性名語彙を参照して統一プロファイル構造を生成し、第１および第２のプロファイルに含まれる属性を、前記統一プロファイル内の対応する属性に整合させることによって実行される。その後、整合化された第１および第２のプロファイル内の対応属性の対について競合部分指標を計算し、その競合部分指標の重み付け和を計算することによって、最終競合指標が得られる。

本発明の他の実施例によれば、オントロジ情報はオブジェクトカテゴリツリーであり、ツリー内の各ノードは１つのオブジェクトカテゴリを表す。オブジェクトカテゴリツリーには、１つ以上の代表的プロファイルが含まれる。この実施例においては、異なるオブジェクトのプロファイルは、競合指標を得るために間接的に比較される。まず、第１および第２のプロファイルは、対応するオントロジ情報を使用して正規化される。この正規化は、第１および第２のプロファイルをオブジェクトカテゴリツリーの１つ以上のノードにそれぞれマッピングすることで実行される。その後、オブジェクトカテゴリツリーのノード対における意味的距離と、プロファイルが対応ノード対にマッピングされる確率とを参照して、最終競合指標が得られる。

本発明の他の態様によれば、オブジェクト間の競合指標計算システムであって、複数の属性から成る第１および第２のプロファイルを各々有する第１のオブジェクトと第２のオブジェクトとを取得するオブジェクト取得手段と、オントロジ情報を格納するオントロジ情報ベースと、オントロジ情報ベースのオントロジ情報を使用して第１および第２のプロファイルを正規化する正規化手段と、正規化された第１および第２のプロファイルに基づいて、第１および第２のオブジェクト間の競合指標を計算する競合指標計算器とを備えることを特徴とする競合指標計算システムが提供される。

本発明の方法と同様に、当該システムは、様々な実施例において、オブジェクト間の競合指標を直接的または間接的に計算するために使用できる。

直接的方法による競合指標計算においては、異なるオブジェクトを表すプロファイルは、対応属性を整合化することにより直接的に比較される。そのため、類似度計算領域の単語ベース（ＶＳＭベース）の方法と属性ベースの方法を結合するための柔軟なメカニズムが提供される。このメカニズムは、構造的（属性値）および非構造的（プレーンテキスト）プロファイルを有する異種対象を処理できる本発明の競合指標計算アルゴリズムを実現する。さらに、直接的なプロファイル比較方法では、プロファイルのデータ品質を最大限に利用して最終競合指標の精度を高めることができる。

さらに、間接的な競合指標計算によって、グローバル環境の競合相手発見に伴う言語障壁が克服される。また、競合指標スコアリングのための媒体として共通の分類階層（オブジェクトカテゴリツリー）が使用されるため、プロファイルを１対１で比較する場合に比較して効率が大幅に高まる。間接的方法による競合指標計算においては、異言語情報検索の領域で広く採用されている直接的なクエリー／ドキュメント翻訳が行われないため、それに起因する関連技術の短所（翻訳ベースの方法の場合は、未知の用語の翻訳が必要になることと処理が複雑なこと、コーパスベースの方法の場合は、十分な並列コーパスを入手できないこと、等）が回避される。

本発明の上記および他の特徴と利点は、図面を参照しながら下記の詳細な説明を読むことによりさらに明白となるであろう。ただし、本発明の範囲は、本書で説明する特定の具体例または実施例に限定されないことに留意されたい。

前述したように、競合関係は、既知の類似度関係とは異なる、まったく新たに定義された関係である。関連技術で提案される類似度計算のための現在の解決策では、ごく少数の例外を除いて、ターゲットとする対象（ドキュメント／製品）は同じスキーマを有すると想定される。例えば、ＶＳＭベースの方法は、比較対象の一方が構造的もしくは半構造的プロファイルを有する状況に対応しておらず、属性値ベースの方法は、比較対象の一方がフルテキストプロファイルを有するか、双方が異種の構造的プロファイルを有する状況に対応していないため、既存の解決策を適用することはできない。

図１は、本発明の全体的な概念を示すための、競合指標計算システム１００の概念ブロック図である。図１に示すように、システム１００の主要部分は競合解析モジュール１０であり、このモジュールは、オブジェクト取得手段１０１と、正規化手段１０２と、競合指標計算器１０３とを含む。システム１００はさらに、オントロジ情報ベース１０４と、オブジェクトデータベース１０５と、競合指標データベース１０６とを含み、このうちオブジェクトデータベース１０５は、競合解析モジュール１０の解析と処理のためにウェブ等の情報ソースからアプリケーションによって収集されたオブジェクト（ドキュメントなど）を格納する。オントロジ情報ベース１０４は、競合指標計算のために、競合解析モジュール１０によって参照されるオントロジ情報（背景知識）を格納するように構成されている。オントロジ情報は、関心ドメイン内の対象の分類に関する当該ドメインの共通の理解であり、手動または（半）自動的な方法で予め設定することができる。例えば、オントロジ情報には共通属性名語彙１０４１とオブジェクトカテゴリツリー１０４２を含めることができるが、これについては後述する。競合指標データベース１０６は、計算された競合指標を格納するために使用される。

図２は、図１に示すシステム１００の動作の一例を示すフローチャート図である。このプロセスは、比較対象の第１および第２のオブジェクトがオブジェクトデータベース１０５から取得されるステップ２０１から始まる。第１および第２のオブジェクトは、第１のプロファイルＡおよび第２のプロファイルＢに基づいてそれぞれ特徴づけられる。これらのオブジェクトは、たとえ同じカテゴリのオブジェクトでも、複数のソースから収集された可能性がある。その場合は、これらのオブジェクトに対応する第１のプロファイルＡと第２のプロファイルＢは、フルテキスト構造と異種構造のような異なる構造を有することになる。ここでは、これらのプロファイルを、Ａ＝（Ａｌ−Ｖ_Ａ１，Ａ２−Ｖ_Ａ２，．．．，Ａｍ−Ｖ_Ａｍ）およびＢ＝（Ｂｌ−Ｖ_Ｂ１，Ｂ２−Ｖ_Ｂ２，．．．，Ｂｎ−Ｖ_Ｂｎ）の属性値集合を使用して指定する。ここで、ＡｉはプロファイルＡ内のｉ番目の属性、Ｖ_ＡｉはプロファイルＡ内のｉ番目の属性の値である。同様に、ＢｉはプロファイルＢ内のｉ番目の属性、Ｖ_ＢｉはプロファイルＢ内のｉ番目の属性の値である。基本的には、値は属性を記述する目的で使用され、デジタル数字、デジタル数字とアルファベット（場合によっては、漢字や句読点）を組み合わせた混合文字列、テキスト等から成る。フルテキストプロファイルは、１対の属性値のみを有する特殊ケースの構造的プロファイルとして扱われる。次に、ステップ２０２において、競合指標計算をスムーズに行えるように、オントロジ情報ベース１０４から取り出したオントロジ情報（共通属性名語彙１０４１、オブジェクトカテゴリツリー１０４２等）を参照して第１のプロファイルＡと第２のプロファイルＢが正規化される。正規化ステップ（詳細は後述する）は、（１）共通属性名語彙１０４１を参照して統一プロファイル構造を決定し、第１のプロファイルＡおよび第２のプロファイルＢの構造を統一プロファイルのそれに整合させる（以下、「直接方式」という）、または（２）第１のプロファイルＡおよび第２のプロファイルＢをオブジェクトカテゴリツリー１０４２にマッピングする（以下「間接方式」という）、のうちいずれかによって実行できる。その後、ステップ２０３において、正規化された第１および第２のプロファイルＡ、Ｂを使用して、第１および第２のオブジェクト間の競合指標を計算する。

以下では、添付図面を参照して、本発明の例示的実施例を説明する。ただし、ここで説明する実施例は例示を唯一の目的とするものであり、本発明はこれら特定の実施例に限定されるものではない。
（第１の実施例）

まず、図３〜７を参照して、本発明の第１の実施例について説明する。図３は、本発明の第１の実施例による競合指標計算システム３００のブロック図を示す。この図に示すように、プロファイルは、共通属性名語彙に基づいてプロファイルの属性を整合化する方法、すなわち直接方式で正規化される。

図３に示すように、本実施例においては、共通属性名語彙１０４１はオントロジ情報とみなされる。正規化手段１０２は、判定部３０１と、統一プロファイル構造生成部３０２と、整合化部３０３とを含む。競合指標計算器１０３は、競合部分指標計算部３０４と競合指標計算部３０５とを含む。さらに、システム３００は、ドメインに固有な競合重み付け方法を提供するための競合重み付けポリシーベース３０６も含む（詳細は後述する）。

以下では、まず、図４を参照してシステム３００の動作について説明する。

図２と同様に、このプロセスは、オブジェクト取得手段１０１が比較対象の第１および第２のオブジェクトをオブジェクトデータベース１０５から取得するステップ４０１から始まる。第１および第２のオブジェクトはそれぞれ、第１のプロファイルＡ＝（Ａｌ−Ｖ_Ａ１，Ａ２−Ｖ_Ａ２，．．．，Ａｍ−Ｖ_Ａｍ）と第２のプロファイルＢ＝（Ｂｌ−Ｖ_Ｂ１，Ｂ２−Ｖ_Ｂ２，．．．，Ｂｎ−Ｖ_Ｂｎ）を有する。次に、ステップ４０２において、判定部３０１は、第１および第２のプロファイルＡ、Ｂのタイプを判定する。この動作により、第１および第２のプロファイルＡ、Ｂの構造が解析され、そのスキーマがフルテキストプロファイルか構造的プロファイルかが判定される。その後、ステップ４０３において、統一プロファイル構造生成部３０２は判定部３０１から構造解析の結果を受け取り、共通属性名語彙１０４１を参照して、統一プロファイル構造（Ｃｌ，Ｃ２，．．．Ｃｓ）、すなわちＡ＝（Ｃ１−Ｖ_Ａ１，Ｃ２−Ｖ_Ａ２，．．．，Ｃｓ−Ｖ_Ａｓ）およびＢ＝（Ｃ１−Ｖ_Ｂ１，Ｃ２−Ｖ_Ｂ２，．．．，Ｃｓ−Ｖ_Ｂｓ）を決定する。この決定された統一プロファイル構造と、共通属性名語彙１０４１とに基づいて、整合化部３０３は第１および第２のプロファイルＡ、Ｂの構造を認識して、第１および第２のプロファイルＡ、Ｂ内の属性の構造を統一プロファイル内の対応する属性の構造に整合させる（ステップ４０４）。図５は、属性整合化プロセスの一例である。この例では、比較対象のプロファイルは２種類のプリンタに関連し、「印刷速度」、「用紙サイズ」、「ＯＳ」、および「ノイズレベル」という属性を含む。図に示すように、第１のプロファイルＡと第２のプロファイルＢの属性構造は、統一プロファイルの構造に基づいて整合化される。

その後、ステップ４０５において、整合化された第１および第２のプロファイルＡ、Ｂが競合部分指標計算部３０４に送られ、各属性の部分指標が計算される。図６に、競合部分指標計算部３０４の構造を示す。競合部分指標計算部３０４は、属性タイプ判定部６０１と、部分指標測定方法セレクタ６０２と、部分指標計算器６０３とを含む。図に示すように、最初に、Ａ_ｉ＝Ｃｉ−Ｖ_ＡｉおよびＢ_ｉ＝Ｃｉ−Ｖ_Ｂｉという２つの属性（値）が属性タイプ判定部６０１に入力される。ここで、属性Ａ_ｉと属性Ｂ_ｉはそれぞれ第１のプロファイルＡと第２のプロファイルＢに属し、その構造が整合化される。前述したように、各属性値はオブジェクト（製品等）の１つの側面に関する指定であり、そのうち、属性名はオブジェクトのどの側面が記述されているかを示し、値は属性を説明するコンテンツを含む。属性のコンテンツは単一の値でも複数の値でもよく、属性値は単純なデータタイプでも複雑なデータタイプでもよい。競合部分指標計算の方法は、データタイプによって異なるのが一般的である。通常、単一値の属性はさらに、１）値が記号属性（例：列挙データタイプまたはプレーンテキスト）の場合、および２）値が数値属性（例：浮動）の場合、という２つのケースに分けられる。記号属性（例：フルテキスト）のケースでは、競合部分指標の計算にはＶＳＭベースの方法がよく使用され、数値の属性のケースでは、競合部分指標の計算に属性値ベースの方法が使用される。複数値属性は、値の集合を有する属性を処理する際に採用されるが、これもやはり、１）複数値がシーケンス属性の場合、および２）複数値が非シーケンス属性の場合、という２つのケースに分けられる。現実の実装では、複数値属性のための競合指標計算方法が、単一値属性が備える単一値属性用の関数にアクセスして利用することもできる。属性のコンテンツとデータタイプの判定については、関連技術で提案される多数の類似度測定方法を利用できるので、ここでは詳細な説明を省略する。また、上記のケースはあくまで例示であり、本発明は様々なデータタイプ定義を利用して異なる方法で実装することが可能である。

次に、部分指標測定方法セレクタ６０２が選択した測定方法に基づき、部分指標計算器６０３を使用して、属性Ａ_ｉ、Ｂ_ｉ間の競合部分指標ｃ_ｉ（Ａ_ｉ，Ｂ_ｉ）が計算される。

前述したように、属性の値がフルテキストコンテンツのケースでは、属性間の競合部分指標計算としてＶＳＭベースの類似度計算方法を採用することができる。以下では、これについて、図７を参照しながら詳細に説明する。基本的には、ＶＳＭは、全ドキュメントの集合に出現する用語（単語）の特徴ベクトルとしてドキュメントを表現する。例えば、いくつかの実施例では、中国語または日本語のドキュメントを処理する際には、対応する特徴ベクトルを生成する前に、まずドキュメントに含まれる用語（単語）に対してドメインおよび品詞（ＰＯＳ）解析を実行して、解析結果に基づいて重み付け和方法を適用する必要がある。ドキュメント間の類似度は、こうした特徴ベクトルをベースとするいくつかの類似度測定方法（例：余弦測定方法、ジャカール測定方法）の１つを使用して測定される。

図７は、属性タイプがフルテキストと判定されたケースにおいて、属性Ａ_ｉ、Ｂ_ｉの部分指標を計算する方法としてＶＳＭベースの方法が選択された場合を例にとって、競合部分指標計算器のブロック図を示したものである。図７に示すように、この例では、部分指標計算器６０３は、ベクトル生成部７０１と、ＶＳＭベース部分指標計算器７０２と、前処理部７０４とを含む。まず、フルテキスト属性Ａ_ｉ、Ｂ_ｉが前処理部７０４に入力され、そこで、競合の評価には不要な、固有名詞、製品／企業名等の名前エンティティが最初に削除される。これにより、競合指標計算の精度を向上させることができる。続いて、前処理された属性Ａ_ｉ、Ｂ_ｉはベクトル生成部７０１に入力され、フルテキスト属性Ａ_ｉ、Ｂ_ｉを表す単語ベースのベクトルが生成される。ここでは、競合指標計算の精度をさらに向上させるために、ドメイン／ＰＯＳ解析モジュール７０３と競合重み付けポリシーベース３０６とを組み込むこともできる。また、フルテキスト属性Ａ_ｉ、Ｂ_ｉに含まれる各単語の関連するドメインおよびＰＯＳに対するドメイン／ＰＯＳ解析モジュール７０３の解析結果に基づき、競合重み付けポリシーベース３０６に格納される競合重み付け係数（重み）のルールテーブルを使用して、異なる競合重み付け係数（重み）を異なる単語に割り当てることができる。フルテキスト（構造的）プロファイルにおいては、競合係数は各単語（属性）に関連づけられる。この関連づけは、競合指標計算における単語（属性）の重要性を表す際に使用される。これにより、コンテキストを意識した競合重み付け方針を適用して最終的な精度を高めることが可能になる。例えば、セキュリティソフトウェアドメインにある２つの製品を比較する際には、「ファイアウォール、スパム、侵入、ウィルス」の各単語の係数値（重み付け値）はドメインに関連のない単語よりも高くなる。ドメイン／ＰＯＳ解析モジュール７０３の解析では、前置詞、接続詞、補助的単語、句読点、代名詞、感嘆詞、様式語、擬音語は最終指標に寄与しないので、競合係数はゼロに設定される。現実の実装では、競合重み付けポリシーベース３０６に格納される競合重み付け係数のルールテーブルは、手動で構築することも、あるいは、サードパーティウェブサイトから入手したオントロジ的製品情報（構造的プロファイル内の重みの大きい属性値に出現した単語）に基づいて、キーワード抽出等の自動的な方法で構築することも可能である。ただし、本発明はこれらの具体例には限定されず、競合重み付け係数のルールテーブルを生成するための他の方法も同様に使用できる。

その後、ベクトル生成部７０１によって生成されたフルテキスト属性Ａ_ｉ、Ｂ_ｉを表す単語ベースのベクトルは、ＶＳＭベース部分指標計算器７０２に入力され、既存のＶＳＭベースの方法を使用して、属性Ａ_ｉおよびＢ_ｉ間の部分指標ｃ_ｉ（Ａ_ｉ，Ｂ_ｉ）が生成される。

次に、図４に戻ると、ステップ４０６において、整合化済みの第１および第２のプロファイルＡ、Ｂに含まれるすべての属性の部分指標が、競合指標計算部３０５に入力され、第１および第２のオブジェクト間の最終競合指標が計算される。計算された競合指標は、図３に示すように、競合指標データベース１０６に格納される。競合指標計算部３０５は、個々の属性の部分指標に基づき、任意の既知の方法を用いて最終競合指標を得ることができる。本実施例の競合指標計算部３０５は、部分指標の重み付け和を計算することにより、最終競合指標を取得する。また、本実施例においては、共通属性名語彙１０４１に基づいて、異なる重みが個々の属性に予め割り当てられ、競合重み付けポリシーベース３０６に格納される。したがって、第１および第２のオブジェクトの競合指標は、以下のような形で実現される。

ここで、ＡとＢは、ｓ個の属性を含んだ共通構造を有する２つのプロファイルである。また、Ａ＝（Ａ_１，．．．，Ａ_ｓ）およびＢ＝（Ｂ_１，．．，Ｂ_ｓ）であり、ｃ_ｉ（Ａ_ｉ，Ｂ_ｉ）は２つのプロファイルに含まれるｉ番目の属性の競合部分指標であり、ｗ_ｉはｉ番目の属性に割り当てられた重みである。前述したように、競合重み付け方針は競合重み付けポリシーベース３０６から取り込まれる。図４のプロセスはこれで終了する。

（第２の実施例）

次に、図８〜１１を参照して、本発明の第２の実施例について説明する。図８は、本発明の第２の実施例による、プロファイルをオブジェクトカテゴリツリー内のノードにマッピングすることによりプロファイルの正規化（間接的方法）を行う競合指標計算システム８００の詳細なブロック図である。本実施例では、第１の実施例とは異なり、図８に示すようにオブジェクトカテゴリツリー１０４２がプロファイルを正規化するためのオントロジ情報として使用される。正規化手段１０２は、マッピング部８０１のみを含む。このマッピング部８０１は、オブジェクト取得手段１０１から第１のオブジェクトと第２のオブジェクトを受け取り、対応する第１および第２のプロファイルＡ、Ｂをオブジェクトカテゴリツリー１０４２内の１つ以上のノードにマッピングする。本実施例においては、競合指標計算器１０３は、マッピング確率計算部８０２と、意味的距離取得部８０３と、競合指標計算部８０４とを含み（各要素については後述）、第１および第２のオブジェクト間の競合指標計算を行えるように構成される。

図９に、図８に示すシステム８００の動作を示すフローチャート図を示す。図４に示す第１の実施例と同様に、プロセス９００は、第１および第２のプロファイルＡ、Ｂを有する第１および第２のオブジェクトがオブジェクトデータベース１０５から取得されるステップ９０１から始まる。続いてステップ９０２において、第１および第２のプロファイルＡ、Ｂがオブジェクトカテゴリツリー１０４２内の１つ以上のノードにマッピングされる。

図１０は、オブジェクトカテゴリツリー１０２と、オブジェクトカテゴリツリー１０２内のノード構造に対応する代表的プロファイルの階層１００２を示す概略図である。図１１は、第２の実施例による競合指標計算の一例を示す。前述したように、オブジェクトカテゴリツリー１０２は、関心ドメイン内のオブジェクト（ドキュメント等）の分類に関する当該ドメインの共通の理解であり、各ノードは１つのカテゴリを表す。図１０に示すように、ドメインのルートカテゴリはＣ_０であり、Ｃ_０１およびＣ_０２という２つのサブカテゴリを含む。サブカテゴリＣ_０１はサブカテゴリＣ_０１１をさらに含み、サブカテゴリＣ_０２は２つのサブカテゴリＣ_０２１およびＣ_０２２をさらに含む。実際の用途では、オブジェクトカテゴリツリー１０２は、予め自動的または半自動的な既知の方法で取得することができる。例えば、図１１に示すように、セキュリティソフトウェアドメインにおいては、オブジェクトカテゴリツリー１０２のルートノードは「セキュリティソフトウェア」カテゴリに対応し、「セキュリティソフトウェア」カテゴリは、「ファイアウォール」カテゴリ、「アンチスパム」カテゴリ、「アンチウィルス」カテゴリという３つの葉ノードをさらに含む。当然ながら、オブジェクトカテゴリツリー１０２の構造は図示した例に限定されず、異なるドメインのユーザは、個々の要件に応じて異なるオブジェクトカテゴリツリーを設定することができる。図１０に戻ると、この図には、オブジェクトカテゴリツリー１０２の構造に対応する代表的プロファイルの階層１００２が示されている。代表的プロファイルの階層１００２の各ノードは、オブジェクトカテゴリツリー１０２内の対応するノードに含まれる１つ以上の代表的プロファイルを含む。代表的プロファイルには、対応ノードにあるオブジェクトカテゴリを記述するための関連のキーワードのすべてが含まれる。各ノードの代表的プロファイルは言語依存であり、１つの特定言語に対応する各ノードには１つの代表的プロファイルが存在する。代表的プロファイルから成る代表的プロファイル階層１００２は、予め自動的または半自動的な既知の方法で取得することができる。

その後、図９のステップ９０２に戻り、取得された第１および第２のプロファイルＡ、Ｂがオブジェクトカテゴリツリー１０２内の１つ以上のノードにマッピングされる。これは既存のＶＳＭベースの方法によって実行できる。本発明の一実施例では、このマッピングプロセスは、代表的プロファイル階層１００２内の代表的プロファイルを媒体として利用することで実行される。すなわち、従来のＶＳＭベースの方法を使用して、第１および第２のプロファイルＡ、Ｂの各々のコンテンツを代表的プロファイル階層１００２内の代表的プロファイルと比較して、対応するオブジェクトが属する１つ以上（実装により異なる）のカテゴリを判定することにより、プロファイル（ＡまたはＢ）と、オブジェクトカテゴリツリー１０２内の対応する位置にあるノード／カテゴリとの類似度が計算される。

比較対象のプロファイルＡ、Ｂのカテゴリ判定後、そのマッピング結果は競合指標計算器１０３に送られ、そこで第１および第２のオブジェクト間の競合指標が計算される。図９に示すように、競合指標計算のプロセスには３つの主要ステップ（ステップ９０３、９０４、９０５）が含まれる。まず、ステップ９０３において、第１および第２のプロファイルＡ、Ｂが異なるノードにマッピングされる確率が計算される。図１１に示すように、製品Ａが「ファイアウォール」カテゴリのノードにマッピングされる確率は０．７、製品Ｂが「アンチウィルス」カテゴリのノードにマッピングされる確率は０．６、製品Ｃが「アンチウィルス」カテゴリのノードにマッピングされる確率は０．７である。続いて、ステップ９０４において、オブジェクトカテゴリツリー１０２内のノード間の意味的距離が取得される。意味的距離は、対応するノードのオブジェクトカテゴリー間の類似度を特徴づけるために使用される。意味的距離は、既存の類似度指標計算方法を用いて予め計算し、オントロジ情報ベース１０４に格納しておくことができる。ここで、カテゴリｃ１、ｃ２間の距離をｄｃ（ｃｌ，ｃ２）とすると、この２つのカテゴリ間の類似度はｃｏｍ（ｃｌ，ｃ２）＝１−ｄｃ（ｃｌ，ｃ２）として定義される。この２つのカテゴリ間の意味的距離は、オブジェクトカテゴリツリー１０２上の個々の位置に基づいて計算される。一般に、ここでは「上位階層のカテゴリ間の距離は下位階層のカテゴリ間の距離よりも大きいため、上位階層カテゴリ間の類似度は下位階層カテゴリ間の類似度よりも低い」という基本概念が使用される。また、「兄弟」間の距離は「父と息子」間の距離よりも大きいとみなされる。次に、ステップ９０５において、ステップ９０３、９０４で取得された、第１および第２のプロファイルＡ、Ｂが対応するノード、および取得されたこれらノード間の意味的距離にマッピングされる確率を参照することにより、第１および第２のオブジェクト間の競合指標が計算される。ここで、（１）第１および第２のプロファイルＡ、Ｂがそれぞれ１つのノード（カテゴリ）にマッピングされる、および（２）第１および第２のプロファイルＡ、Ｂが複数のノードにマッピングされる、という２つの典型的なケースについて考察する。第１および第２のプロファイルＡ、Ｂがそれぞれ１つのノード（カテゴリ）にマッピングされるケースでは、第１および第２のプロファイルＡ、Ｂが対応するノードにマッピングされる確率は１である。そのため、予め計算された２カテゴリ間の意味的距離は、各カテゴリに属する第１および第２のオブジェクト間の競合指標の計算に直接利用される。すなわち、製品ＡはカテゴリＣ_０１１にのみ、製品ＢはカテゴリＣ_０２１にのみマッピングされ、カテゴリＣ_０１１、Ｃ_０２１間の意味的距離は０．１とすると、製品Ａと製品Ｂ間の競合指標は０．１となる。プロファイルＡ、Ｂが複数のカテゴリにマッピングされるケースでは、競合指標は、第１および第２のプロファイルＡ、Ｂが対応するノードにマッピングされる確率に基づき、余弦測定方法を利用して計算することができる。この場合は、プロファイルＡ、Ｂに対して２つのカテゴリベクトルｄ_Ａ、ｄ_Ｂを設定し、各カテゴリベクトルが、対応するカテゴリにプロファイルがマッピングされる確率を表すようにする。そして、余弦測定方法

を使用して、第１および第２のプロファイルＡ、Ｂを有する第１および第２のオブジェクト間の競合指標を計算する。ここで注意を要するのは、異なるノード間の意味的距離が省略されていることである。しかし、競合指標計算の精度を高めるために、異なるノード間の意味的距離も適切な方法を使用して統合できることは、当業者には容易に理解されるであろう。

例えば、図１１に示す例においては、製品Ａが「ファイアウォール」カテゴリのノードにマッピングされる確率は０．７、製品Ｂが「アンチウィルス」カテゴリのノードにマッピングされる確率は０．６、製品Ｃが「アンチウィルス」カテゴリのノードにマッピングされる確率は０．７である。「ファイアウォール」ノードと「アンチウィルス」ノード間の意味的距離の事前計算により０．１が得られたとすると、（異なるカテゴリに属する）製品Ａ、Ｂ間の競合指標は０．７×０．６×０．１＝０．０４２となり、（同じカテゴリに属する）製品Ｂ、Ｃ間の競合指標は０．７×０．６＝０．４２となる。ただし、競合指標の計算方法はこの例に限定されないことに留意されたい。図９のプロセスはこれで終了する。

前述したように、代表的プロファイル階層１００２の異なるノードに位置する代表的プロファイルは各言語に依存するため、異なるオブジェクトに関するプロファイルＡ、Ｂの言語は異なる可能性がある。

図１２は、本発明の実装に使用されるコンピュータシステム１２００の概略ブロック図である。この図に示すように、コンピュータシステム１２００は、ＣＰＵ１２０１と、ユーザインターフェース１２０２と、周辺機器１２０３と、メモリ１２０５と、恒久的記憶部１２０６と、これらの構成要素を相互に接続する内部バス１２０４とを含む。メモリ１２０５は、ドメイン／ＰＯＳ解析モジュール、競合解析モジュール、オブジェクト収集モジュール、オペレーティングシステム（ＯＳ）等をさらに含む。本発明は、主に、図１に示す競合解析モジュール１０のような競合解析モジュールに関連する。オブジェクト収集モジュールは、異なるソースからオブジェクトを収集し、それをオブジェクトデータベースに格納することができる。ドメイン／ＰＯＳ解析モジュールは、フルテキストプロファイルのケースで属性を処理するために使用され、例えば図７に示すドメイン／ＰＯＳ解析モジュール７０３のように配置される。恒久的記憶部１２０６は、オントロジ情報ベース１０４、競合重み付けポリシーベース３０６、オブジェクトデータベース１０５、競合指標データベース１０６等の、本発明に関連する各種データベースを格納する。

本発明の第１の実施例（直接的方法を使用した競合指標計算）および第２の実施例（間接的方法を使用した競合指標計算）については、添付図面を参照してすでに説明した。上記の説明から明らかなように、本発明の効果は以下のとおりである。

さらに、間接的な競合指標計算によって、グローバル環境の競合相手発見に伴う言語障壁が克服される。また、競合スコアリングのための媒体として共通の分類階層（オブジェクトカテゴリツリー）が使用されるため、プロファイルを１対１で比較する場合に比較して効率が大幅に高まる。間接的方法による競合指標計算方法においては、異言語情報検索の領域で広く採用されている直接的なクエリー／ドキュメント翻訳が行われないため、それに起因する関連技術の短所（翻訳ベースの方法の場合は、未知の用語の翻訳が必要になることと処理が複雑なこと、コーパスベースの方法の場合は、十分な並列コーパスを入手できないこと、等）が回避される。

本発明の競合指標計算方法は、現在の類似度指標計算技術の精度を高めるために類似度計算にも適用できることに留意する必要がある。

上記では、添付図面を参照して本発明の特定の実施例について説明してきたが、本発明は添付図面に示した特定の構成およびプロセスに限定されるものではない。例えば、異なる属性間の競合部分指標計算プロセスにおいては、ＶＳＭベースの方法および属性値ベースの方法に加えて、当該技術分野で既知の類似度測定技術も使用できる。これらの既存の方法に関する説明は、文書の簡素化のため省略されている。

また、上記の実施例では、いくつかの具体的なステップを例示したが、本発明の方法のプロセスはこれらのステップに限定されるものではない。これらのステップは、本発明の精神と実質的な特性から逸脱することなく変更、修正、補完が可能であり、また一部ステップについては順序の入れ替えも可能なことは、当業者には理解されるであろう。

本発明の各要素は、ハードウェア、ソフトウェア、ファームウェア、またはその組み合わせで実装され、システム、サブシステム、そのコンポーネントもしくはサブコンポーネント内で利用される。ソフトウェアで実装された場合、本発明の各要素はプログラムもしくはコードセグメントとして必要なタスクを実行するために使用される。プログラムまたはコードセグメントは、機械読取り可能な媒体に格納することも、あるいは、伝送媒体もしくは通信リンクを介して搬送波内に具現化されたデータ信号により伝送することもできる。「機械読取り可能な媒体」には、情報を格納または伝送できるあらゆる媒体が含まれる。機械読取り可能な媒体の例としては、電子回路、半導体記憶装置、ＲＯＭ、フラッシュメモリ、消去可能ＲＯＭ（ＥＲＯＭ）、フロッピーディスク、ＣＤ−ＲＯＭ、光ディスク、ハードディスク、光ファイバー媒体、無線周波数（ＲＦ）リンク等が挙げられる。コードセグメントは、インターネット、イントラネット等のコンピュータネットワークを介してダウンロードすることもできる。

上記では本発明を特定の実施例を参照して説明したが、本発明は上記の特定の実施例や、図面に示した特定の構成に限定されるものではない。例えば、図示した一部のコンポーネントは、互いに組み合わせて１つのコンポーネントとしたり、１つのコンポーネントを複数のサブコンポーネントに分割したり、他の既知のコンポーネントを追加したりすることもできる。また、動作プロセスも同様に、例に示されたものに限定されない。本発明はその精神と主要な特徴から逸脱することなく他の様々な形態で実装できることは、当該技術に精通した当業者により理解されるであろう。したがって、本発明の実施例はあらゆる点において例示的であり、限定的なものではない。本発明の範囲は前述の説明よりむしろ付記した特許請求の範囲に示されており、各請求項と等価な意味と範囲に含まれるあらゆる変更がそれに包含される。

本発明の上記および他の特徴と利点は、図面を参照しながら下記の詳細な説明を読むことにより、より完全に理解することができる。

本発明の全体的な概念を示すための、競合指標計算システム１００の概念ブロック図である。図１に示す競合指標計算システムの動作の一例を示すフローチャート図である。本発明の第１の実施例による、共通属性名語彙に基づいて属性を整合化すること（直接的方法）によりプロファイルの正規化を行う競合指標計算システム３００の詳細なブロック図である。図３に示すシステム３００の動作を示すフローチャート図である。本発明の第１の実施例の競合指標計算における属性整合化プロセスの一例を示す。図３に示す競合部分指標計算部を詳細に示すブロック図である。属性部分指標計算の方法としてＶＳＭベースの方法を選択した場合の競合部分指標計算部のブロック図である。本発明の第２の実施例による、プロファイルをオブジェクトカテゴリツリー内のノードにマッピングすること（間接的方法）によりプロファイルの正規化を行う競合指標計算システム８００の詳細なブロック図である。図８に示すシステム８００の動作を示すフローチャート図である。オブジェクトカテゴリツリーと、オブジェクトカテゴリツリー内のノード構造に対応する代表的プロファイルの階層を示す概略図である。第２の実施例による、プロファイルをオブジェクトカテゴリツリー内のノードにマッピングすることにより競合指標を計算するプロセスの一例である。本発明の実装に使用されるコンピュータシステムの概略ブロック図である。

符号の説明

１０：競合解析モジュール
１０１：オブジェクト取得手段
１０２：正規化手段
１０３：競合指標計算器
１０４：オントロジ情報ベース
１０５：オブジェクトデータベース
１０６：競合指標データベース
１０４１：共通属性名語彙
１０４２：オブジェクトカテゴリツリー
３０１：判定部
３０２：統一プロファイル構造生成部
３０３：整合化部
３０４：競合部分指標計算部
３０５：競合指標計算部
３０６：競合重み付けポリシーベース
６０１：属性タイプ判定部
６０２：部分指標測定方法セレクタ
６０３：部分指標計算器
７０１：ベクトル生成部
７０２：ＶＳＭベース部分指標計算器
７０３：ドメイン／ＰＯＳ解析モジュール
７０４：前処理部
８０１：マッピング手段
８０２：マッピング確率計算部
８０３：意味的距離取得部
８０４：競合指標計算部
１２０１：ＣＰＵ
１２０２：ユーザインターフェース
１２０３：周辺機器
１２０４：内部バス
１２０５：メモリ
１２０６：恒久的記憶部

Claims

コンピュータを競合指標計算システムとして動作させるためのオブジェクト間の競合指標計算方法であって、
複数の属性から成る第１および第２のプロファイルを各々有する第１のオブジェクトと第２のオブジェクトを取得するステップと、
オントロジ情報を参照して前記第１および第２のプロファイルを正規化するステップと、
正規化された前記第１および第２のプロファイルに基づいて、前記第１および第２のオブジェクト間の競合指標を計算するステップとを有し、
前記オントロジ情報が、前記属性の競合に対する重要性によって選択されたオブジェクトの属性名を含む共通属性名語彙であり、
前記第１と第２プロファイルの正規化ステップは、
前記第１と第２プロファイルのプロファイルタイプを判定するステップと、
判定したプロファイルタイプに従って、前記共通属性名語彙を参照して統一プロファイル構造を生成するステップと、
前記第１と第２プロファイル内の各属性を統一されたプロファイル内の対応する属性と整合させるステップを有し、
前記競合指標の計算ステップは、
整合化された前記第１および第２のプロファイル内の対応属性の対について競合部分指標を計算するステップと、
前記第１と第２プロファイル内の全ての属性の競合部分指標の重み付け和を計算することにより、前記第１と第２のオブジェクト間の競合指標を取得するステップを有し、
前記プロファイルは、属性名と、属性値とから構成され、
前記属性値は、テキスト形式のデータ、若しくは数値の何れかである
ことを特徴とする競合指標計算方法。
コンピュータを競合指標計算システムとして動作させるためのオブジェクト間の競合指標計算方法であって、
複数の属性から成る第１および第２のプロファイルを各々有する第１のオブジェクトと第２のオブジェクトを取得するステップと、
オントロジ情報を参照して前記第１および第２のプロファイルを正規化するステップと、
正規化された前記第１および第２のプロファイルに基づいて、前記第１および第２のオブジェクト間の競合指標を計算するステップとを有し、
前記オントロジ情報が、ツリー内の各ノードが１つのオブジェクトカテゴリを表し、１つ以上の代表的プロファイルを含むオブジェクトカテゴリツリーであり、
前記第１と第２プロファイルの正規化ステップは、
前記第１と第２プロファイルをそれぞれ前記オブジェクトカテゴリツリーの１つ以上のノードにマッピングするステップを有し、
前記競合指標の計算ステップは、
前記オブジェクトカテゴリツリーのノード対における意味的距離を取得するステップと、
取得した意味的距離に基づいて前記第１及び第２のオブジェクト間の競合指標を計算するステップと、
前記第１と第２プロファイルの各々について、前記オブジェクトカテゴリツリーの対応するノードにマッピングされる確率を計算するステップとを有し、
前記プロファイルは、属性名と、属性値とから構成され、
前記属性値は、テキスト形式のデータ、若しくは数値の何れかであり、
前記第１及び第２のオブジェクトの間の競合指標は、前記第１と第２プロファイルの計算されたマッピング確率と、前記第１と第２プロファイルがマッピングされるノードの間の取得された意味的距離に基づいて計算される
ことを特徴とする競合指標計算方法。
前記競合部分指標の計算ステップは、
前記第１と第２プロファイル内の対応属性の対、すなわち、前記第１のプロファイルからの第１の属性と前記第２のプロファイルからの第２の属性について、
前記共通属性名語彙を参照して前記第１と第２属性のタイプを判定するステップと、
判定した属性タイプに従って競合部分指標測定方法を選択するステップと、
選択された競合部分指標測定方法で前記第１と第２属性の間の競合部分指標を計算するステップを有することを特徴とする請求項１に記載の競合指標計算方法。
前記競合部分指標測定方法が、ベクトル空間モデル（ＶＳＭ）ベースの測定方法或いは属性値ベースの測定方法であることを特徴とする請求項３に記載の競合指標計算方法。
前記競合部分指標を計算するために前記ＶＳＭベースの測定方法を用いる場合、
前記競合部分指標の計算ステップは、
前記第１と第２属性をそれぞれ表す、単語ベースの第１のベクトルと第２のベクトルを生成するステップと、
前記第１と第２属性の間の競合部分指標として前記第１と第２ベクトルの間の競合指標を計算するために前記ＶＳＭベースの測定方法を用いるステップを有することを特徴とする請求項４に記載の競合指標計算方法。
前記第１と第２ベクトルを生成する前に、各属性値のテキストから名前エンティティを削除するために第１と第２属性の前処理を行うステップをさらに含むことを特徴とする請求項５に記載の競合指標計算方法。
前記名前エンティティが、固有名詞、企業名及び製品名を含むことを特徴とする請求項６に記載の競合指標計算方法。
前記第１と第２属性内の単語についてドメインおよび品詞（ＰＯＳ）解析を行なうステップと、
前記第１と第２ベクトルを生成する前に、前記ドメインおよびＰＯＳ解析の結果に従って、競合に関して予め格納された競合重み係数ルールテーブルを参照して前記第１と第２属性内の単語に重みを加えるステップをさらに含むことを特徴とする請求項５に記載の競合指標計算方法。
前記競合重み係数ルールテーブルは、ユーザによって手動で構築されることを特徴とする請求項８に記載の競合指標計算方法。
前記競合重み係数ルールテーブルは、サードパーティウェブサイトから入手したオントロジ的製品情報に基づいてキーワード抽出を実行する自動的な方法で構築されることを特徴とする請求項８に記載の競合指標計算方法。
前記競合重み係数ルールテーブルは、競合指標を計算する際に単語の重要性を表わす、各単語に関連した競合重み係数を格納することを特徴とする請求項８に記載の競合指標計算方法。
前記競合重み係数ルールテーブルにおいて、比較されるオブジェクトが属するドメインと関連のない単語については、ドメインに関連する単語より低い競合重み係数が付与され、
競合指標の計算に寄与しない品詞を有する単語については、それらの競合重み係数が０に設定されることを特徴とする請求項１１に記載の競合指標計算方法。
各ノードの１つ以上の前記代表的プロファイルは、異なる言語に対応することを特徴とする請求項２に記載の競合指標計算方法。
ＶＳＭベースの測定方法を用いた前記オブジェクトカテゴリツリーのノードへの前記第１と第２プロファイルのマッピングを行なうために、前記オブジェクトカテゴリツリーの各ノードの１つ以上の代表的プロファイルを媒体として利用することを特徴とする請求項２に記載の競合指標計算方法。
前記第１と第２プロファイルの各々が単一のノードにマッピングされる場合、マッピングされたノードの間の意味的距離が、前記第１及び第２のオブジェクト間の競合指標として直接利用されることを特徴とする請求項２に記載の競合指標計算方法。
前記第１と第２プロファイルの各々が複数ノードにマッピングされる場合、前記オブジェクトカテゴリツリーのそれぞれのノードに前記第１と第２プロファイルがマッピングされる確率に基づいて、第１のカテゴリ・ベクトルおよび第２のカテゴリ・ベクトルが生成され、
前記第１及び第２のオブジェクト間の競合指標が、前記第１と第２のカテゴリ・ベクトルの余弦測定方法を用いることによって計算されることを特徴とする請求項２に記載の競合指標計算方法。
前記第１と第２プロファイルがマッピングされるノードの間の意味的距離は、前記第１及び第２のオブジェクトの間の競合指標を計算する余弦測定方法に統合されることを特徴とする請求項１６に記載の競合指標計算方法。
前記オブジェクトカテゴリツリーのそれぞれのノード間の意味的距離は、前もって計算され、前記オブジェクトカテゴリツリーと共に格納されることを特徴とする請求項１６に記載の競合指標計算方法。
前記オブジェクトカテゴリツリーにおいて、上位階層におけるノード間の意味的距離が、下位階層におけるノード間の意味的距離より大きく、「兄弟」ノードの間の意味的な距離が、「親」ノードと「子供」ノードの間の意味的距離より大きいことを特徴とする請求項２に記載の競合指標計算方法。
オブジェクト間の競合指標計算システムであって、
複数の属性から成る第１および第２のプロファイルを各々有する第１のオブジェクトと第２のオブジェクトとを取得するオブジェクト取得手段と、
オントロジ情報を格納するオントロジ情報ベースと、
オントロジ情報ベースのオントロジ情報を使用して第１および第２のプロファイルを正規化する正規化手段と、
正規化された第１および第２のプロファイルに基づいて、第１および第２のオブジェクト間の競合指標を計算する競合指標計算器と備え、
前記オントロジ情報が、前記属性の競合に対する重要性によって選択されたオブジェクトの属性名を含む共通属性名語彙であり、
前記正規化手段は、
前記第１と第２プロファイルのプロファイルタイプを判定する判定部と、
判定したプロファイルタイプに従って、前記共通属性名語彙を参照して統一プロファイル構造を生成する統一プロファイル構造生成部と、
前記第１と第２プロファイル内の各属性を統一されたプロファイル内の対応する属性と整合させる整合部を備え、
前記競合指標計算器は、
整合化された前記第１および第２のプロファイル内の対応属性の対について競合部分指標を計算する競合部分指標計算部と、
前記第１と第２プロファイル内の全ての属性の競合部分指標の重み付け和を計算することにより、前記第１と第２のオブジェクト間の競合指標を取得する競合指標計算部を備え、
前記システムは、重み付けに必要な重み係数を格納する競合重み付けポリシーベースをさらに含み、
前記プロファイルは、属性名と、属性値とから構成され、
前記属性値は、テキスト形式のデータ、若しくは数値の何れかである
ことを特徴とする競合指標計算システム。
オブジェクト間の競合指標計算システムであって、
複数の属性から成る第１および第２のプロファイルを各々有する第１のオブジェクトと第２のオブジェクトとを取得するオブジェクト取得手段と、
オントロジ情報を格納するオントロジ情報ベースと、
オントロジ情報ベースのオントロジ情報を使用して第１および第２のプロファイルを正規化する正規化手段と、
正規化された第１および第２のプロファイルに基づいて、第１および第２のオブジェクト間の競合指標を計算する競合指標計算器とを備え、
前記オントロジ情報が、ツリー内の各ノードが１つのオブジェクトカテゴリを表し、１つ以上の代表的プロファイルを含むオブジェクトカテゴリツリーであり、
前記正規化手段は、
前記第１と第２プロファイルをそれぞれ前記オブジェクトカテゴリツリーの１つ以上のノードにマッピングするマッピング部を備え、
前記競合指標計算器は、
前記オブジェクトカテゴリツリーのノード対における意味的距離を取得する意味的距離取得部と、
取得した意味的距離に基づいて前記第１及び第２のオブジェクト間の競合指標を計算する競合指標計算部と、
前記第１と第２プロファイルの各々について、前記オブジェクトカテゴリツリーの対応するノードにマッピングされる確率を計算するマッピング確率計算部とを備え、
前記プロファイルは、属性名と、属性値とから構成され、
前記属性値は、テキスト形式のデータ、若しくは数値の何れかであり、
前記第１及び第２のオブジェクトの間の競合指標は、前記第１と第２プロファイルの計算されたマッピング確率と、前記第１と第２プロファイルがマッピングされるノードの間の取得された意味的距離に基づいて計算される
ことを特徴とする競合指標計算システム。
前記競合部分指標計算部は、
前記第１と第２プロファイル内の１対の対応する属性である前記第１のプロファイルからの第１の属性と前記第２のプロファイルからの第２の属性のタイプを、前記共通属性名語彙を参照して判定する属性タイプ判定部と、
判定した属性タイプに従って競合部分指標測定方法を選択する部分指標測定方法セレクタと、
選択された競合部分指標測定方法で前記第１と第２属性の間の競合部分指標を計算する部分指標計算器を備えることを特徴とする請求項２０に記載の競合指標計算システム。
前記部分指標計算器が、ベクトル空間モデル（ＶＳＭ）ベースの測定方法或いは属性値ベースの測定方法を用いることを特徴とする請求項２２に記載の競合指標計算システム。
前記競合部分指標を計算するために前記ＶＳＭベースの測定方法を用いる場合、
前記部分指標計算器は、
前記第１と第２属性をそれぞれ表す、単語ベースの第１のベクトルと第２のベクトルを生成するベクトル生成部と、
前記第１と第２属性の間の競合部分指標として前記第１と第２ベクトルの間の競合指標を計算するために前記ＶＳＭベースの測定方法を用いるＶＳＭベース部分指標計算器を備えることを特徴とする請求項２３に記載の競合指標計算システム。
前記部分指標計算器は、
前記第１と第２ベクトルを生成する前に、各属性値のテキストから名前エンティティを削除するために第１と第２属性の前処理を行う前処理部をさらに含むことを特徴とする請求項２４に記載の競合指標計算システム。
前記名前エンティティが、固有名詞、企業名及び製品名を含むことを特徴とする請求項２５に記載の競合指標計算システム。
前記部分指標計算器は、
前記第１と第２属性内の単語についてドメインおよび品詞（ＰＯＳ）解析を行なうドメインおよびＰＯＳ解析モジュールを備え、
前記ベクトル生成部が、前記第１と第２ベクトルを生成する前に、前記ドメインおよびＰＯＳ解析の結果に従って、競合に関して予め格納された競合重み係数ルールテーブルを参照して前記第１と第２属性内の単語に重みを加えることを特徴とする請求項２４に記載の競合指標計算システム。
前記競合重み係数ルールテーブルは、前記競合重み付けポリシーベースに格納されることを特徴とする請求項２７に記載の競合指標計算システム。
前記競合重み係数ルールテーブルは、ユーザによって手動で構築されることを特徴とする請求項２７に記載の競合指標計算システム。
前記競合重み係数ルールテーブルは、サードパーティウェブサイトから入手したオントロジ的製品情報に基づいてキーワード抽出を実行する自動的な方法で構築されることを特徴とする請求項２７に記載の競合指標計算システム。
前記競合重み係数ルールテーブルは、競合指標を計算する際に単語の重要性を表わす、各単語に関連した競合重み係数を格納することを特徴とする請求項２７に記載の競合指標計算システム。
前記競合重み係数ルールテーブルにおいて、比較されるオブジェクトが属するドメインと関連のない単語については、ドメインに関連する単語より低い競合重み係数が付与され、
競合指標の計算に寄与しない品詞を有する単語については、それらの競合重み係数が０に設定されることを特徴とする請求項３１に記載の競合指標計算システム。
各ノードの１つ以上の前記代表的プロファイルは、異なる言語に対応することを特徴とする請求項２１に記載の競合指標計算システム。
前記マッピング部は、ＶＳＭベースの測定方法を用いた前記オブジェクトカテゴリツリーのノードへの前記第１と第２プロファイルのマッピングを行なうために、前記オブジェクトカテゴリツリーの各ノードの１つ以上の代表的プロファイルを媒体として利用することを特徴とする請求項２１に記載の競合指標計算システム。
前記第１と第２プロファイルの各々が単一のノードにマッピングされる場合、前記競合指標計算部が、マッピングされたノードの間の意味的距離を、前記第１及び第２のオブジェクト間の競合指標として直接利用することを特徴とする請求項２１に記載の競合指標計算システム。
前記第１と第２プロファイルの各々が複数ノードにマッピングされる場合、前記競合指標計算部が、前記オブジェクトカテゴリツリーのそれぞれのノードに前記第１と第２プロファイルがマッピングされる確率に基づいて、第１のカテゴリ・ベクトルおよび第２のカテゴリ・ベクトルを生成し、
前記第１及び第２のオブジェクト間の競合指標を、前記第１と第２のカテゴリ・ベクトルの余弦測定方法を用いることによって計算することを特徴とする請求項２１に記載の競合指標計算システム。
前記第１と第２プロファイルがマッピングされるノードの間の意味的距離は、前記第１及び第２のオブジェクトの間の競合指標を計算する余弦測定方法に統合されることを特徴とする請求項３６に記載の競合指標計算システム。
前記オブジェクトカテゴリツリーのそれぞれのノード間の意味的距離は、前もって計算され、前記競合重み付けポリシーベースに前記オブジェクトカテゴリツリーと共に格納されることを特徴とする請求項２１に記載の競合指標計算システム。
前記オブジェクトカテゴリツリーにおいて、上位階層におけるノード間の意味的距離が、下位階層におけるノード間の意味的距離より大きく、「兄弟」ノードの間の意味的な距離が、「親」ノードと「子供」ノードの間の意味的距離より大きいことを特徴とする請求項２１に記載の競合指標計算システム。