JP5057474B2 - オブジェクト間の競合指標計算方法およびシステム - Google Patents

オブジェクト間の競合指標計算方法およびシステム Download PDF

Info

Publication number
JP5057474B2
JP5057474B2 JP2008240624A JP2008240624A JP5057474B2 JP 5057474 B2 JP5057474 B2 JP 5057474B2 JP 2008240624 A JP2008240624 A JP 2008240624A JP 2008240624 A JP2008240624 A JP 2008240624A JP 5057474 B2 JP5057474 B2 JP 5057474B2
Authority
JP
Japan
Prior art keywords
index
profiles
competitive
competition
index calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008240624A
Other languages
English (en)
Other versions
JP2009110508A (ja
Inventor
ジェンチャン リイ
ユウ ジャオ
トシカズ フクシマ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Publication of JP2009110508A publication Critical patent/JP2009110508A/ja
Application granted granted Critical
Publication of JP5057474B2 publication Critical patent/JP5057474B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Description

本発明は情報処理に関し、特に、競合相手の自動マイニング/発見を行うための、2オブジェクト(製品/企業等)間における競合指標の計算方法およびシステムに関する。
近年、人々が取得できる情報量は急激に増大している。原情報は外部には不可視なため、まず原情報を処理して、そこから有用な情報を取り出すことが必要とされる。しかし、特にネットワークと通信技術の急速な発達を背景に、情報量と処理時間に対する要求は年々高まっていることから、大量化、多種多様化、分散化といった情報特性がますます顕著となってきている。情報を手動で処理することは多数の用途で不可能なので、情報の抽出、マイニング、比較、測定、評価といったネットワーク技術とコンピュータ技術を利用して情報処理を行うことが不可欠である。これらのコンピュータ技術のうち、オブジェクト(製品/企業など)間の競合指標を自動的に解析・計算する情報処理技術は特に重要視されている。
現代の競合環境では、ほぼすべての企業が特に経営判断上、競合相手は誰で、どこにいて、何をしているかを知りたがっている。しかし、競合相手が世界中に散在し、市場のプレーヤーと製品が常に変化しているグローバル環境では特に、競合相手を見つけて監視することは時間と労力がかかる困難な作業となる。
「ビジネスインテリジェンス(BI)」は、生データを情報/知識に変換して、エンタプライズユーザのビジネス決定を支援することを目的とする、広範な技術とアプリケーションを包括する用語である。「競合インテリジェンス(CI)」は、BIよりも狭義な用語であり、特に、外部ビジネス環境に関する情報の収集、分析、管理を示すために使用される。これらの研究/ビジネス分野は確立されてから何年も経つが、現在のところ競合情報を取得する方法は3つしかない。これらの方法とは、1)競合企業の社員や顧客とのインタビューや交流を通した実地調査、2)Googleなどのウェブ検索エンジンを利用して必要な情報を収集し、人手を介して結果を閲覧して要約する方法、3)Yahoo Finance、D&B、infoUSA、Hoovers、OneSourceなどの公開ソースや購読ソースを利用する方法、である。1)と2)は人間の活動/労力に全面的に頼るため、困難で時間がかかり、しかも収集できる情報の範囲は限られている。3)については、企業情報を蓄積した商用データベースはいくつかあるが、データの規模が小さすぎるという難点がある。例えば、ほとんどのデータベースは単一言語で、コンテンツは金融情報のみ(Yahoo Finance、D&Bなど)か国内企業のみ(infoUSAなど)にとどまっている。また、これらの商用データベースに蓄積される情報は人手を介して更新されるため、特に世界規模のビジネス環境では、購読者/ユーザが競合に関連する情報をリアルタイムでかつ大規模に収集することは非常に困難であり、ときには不可能でさえある。
競合相手を発見して監視する作業は人手で行うにはきわめて困難であることを考慮すると、何らかの意図的な基準に基づいて競合相手(企業/製品など)間の競合指標を計算するための高効率な競合分析が強く求められていることは明らかである。
本発明で提案される競合指標計算の解決策は、2つのオブジェクト(ドキュメント/レコード)間の類似度指標計算からアイデアを得ているので、関連の類似度指標計算の手法と解決策を以下に要約する。
2つのドキュメントまたはデータベースレコード間の類似度計算を目的として現在までに開発された方法およびシステムは、ベクトル空間モデル(VSM)ベースの方法と属性値ベースの方法の2種類に分類することができる。
VSMベースの方法は、主に、2つのフルテキストドキュメント間の類似度指標を計算する用途に応用されている。その基本的な概念とは、1)各ドキュメントを単語頻度ベクトルに分割し、2)全ドキュメントに含まれる全単語を集めた語彙をシステム内に構築し、3)各ドキュメントを、その語彙に対するベクトルとして表現し、4)特定の類似度測定指標(類似度の測定方法は多数あるが、そのうち最も多用されているのは、高次元仮想空間内のベクトル間の角度を計算する余弦測定方法である)を適用して、2つのドキュメント間の類似度を測定する、というものである。
属性値ベースの類似度測定方法は、主に、固定の共通スキーマを有する構造的ドキュメント/レコードを対象とする。この類似度測定方法は、VSMベースの方法と同様に、1)ドキュメントを属性値(各属性はドキュメント/レコードの1つの側面を記述する)のベクトルとして表現し、2)各属性値に関して類似度距離を計算し(このプロセスでは、多種多様な類似度測定指標を利用することができる)、3)類似度指標への貢献度に基づいて属性を分類し、4)分類した属性に重み付け和方針を適用して、ドキュメント/レコードの類似度をその属性値の類似度の重み付け和として算出する、というステップで構成される。
さらに、異言語ドキュメントの検索で直面する言語障壁の克服を目的として、異なる言語で書かれた2つのドキュメント間の類似度計算を行うための翻訳ベースの手法やコーパスベースの手法も提案されている。
翻訳ベースの手法は、シソーラスや多言語辞書を利用して類似度計算を行うものである。この手法は、1)多言語辞書または機械翻訳を利用して、クエリーや対象となるドキュメント集合の翻訳を行い、2)VSM/属性値ベースの方法を利用して、異言語間のドキュメント検索を実行する、とう2つの主要ステップで構成される。基本的には、これはVSMや属性値ベースのスコアリングの異言語対応用の拡張である。
コーパスベースの手法は、テキスト翻訳用辞書の代わりにコーパスを使用する手法であり、並列コーパスから選別収集した用語の使用に関する統計情報を直接利用する。この手法は、1)異言語発見用の並列コーパスの並列テキストを収集し、2)統計的翻訳モデルを構築し、3)その翻訳モデルを利用して異言語情報検索を行う(類似度計算は中に組み込まれている)、というステップで構成される。
米国特許出願No.5301109「Computerized Cross−Language Document Retrieval Using Latent Semantic Indexing(潜在的意味指標付けを使用した、コンピュータによる異言語ドキュメント検索)」では、LSAベースの方法が提案されている。この方法ではクエリーの翻訳は実行されず、特異値分解(SVD)を使ってソース用語とターゲットドキュメント間の関連が発見される。ここに、この米国特許出願の開示を、あらゆる趣旨においてその全体を援用する。
類似度計算のための一般的な解決策に加えて、下記特許の特定モジュールも本発明に関連しているので、ここに、あらゆる趣旨においてその全体を援用する。
(1)米国特許No.5731991,
(2)米国特許No.20050004880A1
(3)米国特許No.20050192930A1、および
(4)米国特許No.2004068413
ただし、競合指標計算に適用する場合には、これらの既存の解決策は以下のような短所を抱える。
第一に、既存の解決策は、2つのドキュメント/レコード間の類似度計算に特化して提案されたものである。競合計算の目的(問題)と類似度計算のそれは直感的には似通っているが、この2つは異なる。概念上は、競合関係は類似度関係の部分集合であり、換言すれば、類似度は競合の十分にして不必要な条件だと言うことができる。2つの対象が類似していることは、必ずしも相競合することを意味しない。これは、具体的には次のように説明することができる。すなわち、1)ターゲットとするオブジェクトが異なる。上記の関連技術は主に2つの自由形式テキストまたは構造的ドキュメント/オブジェクトの間の類似度計算に取り組んでいるのに対し、競合計算は相競合すると思われる2つの対象に関連する。2)ターゲットとする関係が異なる。競合度と類似度の定義は異なっており、競合関係は「1つのオブジェクトの存在/発展が別のオブジェクトにマイナスの影響を及ぼす関係」と定義される。そのため、2つの対象間の競合上の力関係を測定するためには、競合度に関する具体的な方針が必要とされる。
第二に、類似度計算用の現在の解決策はすべて、ターゲットとなるオブジェクト(ドキュメント/製品)は同じスキーマを有する(すなわち、すべてフルテキスト形式か特定のデータ構造を有する)と想定している。VSMベースの方法は、比較対象の一方が構造的もしくは半構造的プロファイルを有する状況に対応しておらず、属性値ベースの方法は、比較対象の一方がフルテキストプロファイルを有するか、双方が異種の構造的プロファイルを有する状況に対応していない。しかし、現実の用途においては、比較対象のオブジェクトが異なる情報ソース(異種データベースや異なるウェブサイト等)から取得される可能性は高く、その場合は既存の解決策を適用することはできない。
さらに、翻訳ベースの異言語間類似度計算は、管理語彙または多言語辞書の品質と機械翻訳技術によって大きく左右される。しかし、現在の機械翻訳の精度はさほど高くなく、特に未知の用語の翻訳は困難だという問題がある。また、言語の組み合わせによっては、複雑性が大幅に増大する可能性がある。
コーパスベースの手法とLSAベースの手法の最大の短所は、十分な並列コーパスがないことである。そのため、限定的な並列テキスト(LSAの場合は、最初に選択されたドキュメント集合)によって、得られる類似度指標に歪みが生じてしまう。
さらに、上記の特許は、共通した固定的な属性/特徴構造を有する特定の製品カテゴリにしか適用できない。これらの特許で採用される方法は、カテゴリ間の類似度計算には適用できない。また、2製品間の比較は、競争力を特定できるほどに包括的ではない。
米国特許5731991 米国特許20050004880A1 米国特許20050192930A1 米国特許2004068413
本発明は、従来技術で提案される既存の方法が抱える上記および他の不備と短所を鑑みて取り組まれたものである。本発明の目的は、2オブジェクト(製品/企業等)間の競合指標を得るための方法およびシステムを提供することを目的とする。
本発明の一つの態様によれば、オブジェクト間の競合指標計算方法であって、複数の属性から成る第1および第2のプロファイルを各々有する第1のオブジェクトと第2のオブジェクトとを取得するステップと、オントロジ情報を参照して第1および第2のプロファイルを正規化するステップと、正規化された第1および第2のプロファイルに基づいて、第1および第2のオブジェクト間の競合指標を計算するステップとを備えることを特徴とする競合指標計算方法が提供される。
本発明の一実施例においては、オントロジ情報は共通属性名語彙であり、異なるオブジェクトのプロファイルは競合指標を得るために直接的に比較される。まず、第1および第2のプロファイルは、対応するオントロジ情報を使用して正規化される。この正規化は、共通属性名語彙を参照して統一プロファイル構造を生成し、第1および第2のプロファイルに含まれる属性を、前記統一プロファイル内の対応する属性に整合させることによって実行される。その後、整合化された第1および第2のプロファイル内の対応属性の対について競合部分指標を計算し、その競合部分指標の重み付け和を計算することによって、最終競合指標が得られる。
本発明の他の実施例によれば、オントロジ情報はオブジェクトカテゴリツリーであり、ツリー内の各ノードは1つのオブジェクトカテゴリを表す。オブジェクトカテゴリツリーには、1つ以上の代表的プロファイルが含まれる。この実施例においては、異なるオブジェクトのプロファイルは、競合指標を得るために間接的に比較される。まず、第1および第2のプロファイルは、対応するオントロジ情報を使用して正規化される。この正規化は、第1および第2のプロファイルをオブジェクトカテゴリツリーの1つ以上のノードにそれぞれマッピングすることで実行される。その後、オブジェクトカテゴリツリーのノード対における意味的距離と、プロファイルが対応ノード対にマッピングされる確率とを参照して、最終競合指標が得られる。
本発明の他の態様によれば、オブジェクト間の競合指標計算システムであって、複数の属性から成る第1および第2のプロファイルを各々有する第1のオブジェクトと第2のオブジェクトとを取得するオブジェクト取得手段と、オントロジ情報を格納するオントロジ情報ベースと、オントロジ情報ベースのオントロジ情報を使用して第1および第2のプロファイルを正規化する正規化手段と、正規化された第1および第2のプロファイルに基づいて、第1および第2のオブジェクト間の競合指標を計算する競合指標計算器とを備えることを特徴とする競合指標計算システムが提供される。
本発明の方法と同様に、当該システムは、様々な実施例において、オブジェクト間の競合指標を直接的または間接的に計算するために使用できる。
直接的方法による競合指標計算においては、異なるオブジェクトを表すプロファイルは、対応属性を整合化することにより直接的に比較される。そのため、類似度計算領域の単語ベース(VSMベース)の方法と属性ベースの方法を結合するための柔軟なメカニズムが提供される。このメカニズムは、構造的(属性値)および非構造的(プレーンテキスト)プロファイルを有する異種対象を処理できる本発明の競合指標計算アルゴリズムを実現する。さらに、直接的なプロファイル比較方法では、プロファイルのデータ品質を最大限に利用して最終競合指標の精度を高めることができる。
さらに、間接的な競合指標計算によって、グローバル環境の競合相手発見に伴う言語障壁が克服される。また、競合指標スコアリングのための媒体として共通の分類階層(オブジェクトカテゴリツリー)が使用されるため、プロファイルを1対1で比較する場合に比較して効率が大幅に高まる。間接的方法による競合指標計算においては、異言語情報検索の領域で広く採用されている直接的なクエリー/ドキュメント翻訳が行われないため、それに起因する関連技術の短所(翻訳ベースの方法の場合は、未知の用語の翻訳が必要になることと処理が複雑なこと、コーパスベースの方法の場合は、十分な並列コーパスを入手できないこと、等)が回避される。
本発明の上記および他の特徴と利点は、図面を参照しながら下記の詳細な説明を読むことによりさらに明白となるであろう。ただし、本発明の範囲は、本書で説明する特定の具体例または実施例に限定されないことに留意されたい。
前述したように、競合関係は、既知の類似度関係とは異なる、まったく新たに定義された関係である。関連技術で提案される類似度計算のための現在の解決策では、ごく少数の例外を除いて、ターゲットとする対象(ドキュメント/製品)は同じスキーマを有すると想定される。例えば、VSMベースの方法は、比較対象の一方が構造的もしくは半構造的プロファイルを有する状況に対応しておらず、属性値ベースの方法は、比較対象の一方がフルテキストプロファイルを有するか、双方が異種の構造的プロファイルを有する状況に対応していないため、既存の解決策を適用することはできない。
図1は、本発明の全体的な概念を示すための、競合指標計算システム100の概念ブロック図である。図1に示すように、システム100の主要部分は競合解析モジュール10であり、このモジュールは、オブジェクト取得手段101と、正規化手段102と、競合指標計算器103とを含む。システム100はさらに、オントロジ情報ベース104と、オブジェクトデータベース105と、競合指標データベース106とを含み、このうちオブジェクトデータベース105は、競合解析モジュール10の解析と処理のためにウェブ等の情報ソースからアプリケーションによって収集されたオブジェクト(ドキュメントなど)を格納する。オントロジ情報ベース104は、競合指標計算のために、競合解析モジュール10によって参照されるオントロジ情報(背景知識)を格納するように構成されている。オントロジ情報は、関心ドメイン内の対象の分類に関する当該ドメインの共通の理解であり、手動または(半)自動的な方法で予め設定することができる。例えば、オントロジ情報には共通属性名語彙1041とオブジェクトカテゴリツリー1042を含めることができるが、これについては後述する。競合指標データベース106は、計算された競合指標を格納するために使用される。
図2は、図1に示すシステム100の動作の一例を示すフローチャート図である。このプロセスは、比較対象の第1および第2のオブジェクトがオブジェクトデータベース105から取得されるステップ201から始まる。第1および第2のオブジェクトは、第1のプロファイルAおよび第2のプロファイルBに基づいてそれぞれ特徴づけられる。これらのオブジェクトは、たとえ同じカテゴリのオブジェクトでも、複数のソースから収集された可能性がある。その場合は、これらのオブジェクトに対応する第1のプロファイルAと第2のプロファイルBは、フルテキスト構造と異種構造のような異なる構造を有することになる。ここでは、これらのプロファイルを、A=(Al−V1,A2−V2,...,Am−Vm)およびB=(Bl−V1,B2−V2,...,Bn−Vn)の属性値集合を使用して指定する。ここで、AiはプロファイルA内のi番目の属性、ViはプロファイルA内のi番目の属性の値である。同様に、BiはプロファイルB内のi番目の属性、ViはプロファイルB内のi番目の属性の値である。基本的には、値は属性を記述する目的で使用され、デジタル数字、デジタル数字とアルファベット(場合によっては、漢字や句読点)を組み合わせた混合文字列、テキスト等から成る。フルテキストプロファイルは、1対の属性値のみを有する特殊ケースの構造的プロファイルとして扱われる。次に、ステップ202において、競合指標計算をスムーズに行えるように、オントロジ情報ベース104から取り出したオントロジ情報(共通属性名語彙1041、オブジェクトカテゴリツリー1042等)を参照して第1のプロファイルAと第2のプロファイルBが正規化される。正規化ステップ(詳細は後述する)は、(1)共通属性名語彙1041を参照して統一プロファイル構造を決定し、第1のプロファイルAおよび第2のプロファイルBの構造を統一プロファイルのそれに整合させる(以下、「直接方式」という)、または(2)第1のプロファイルAおよび第2のプロファイルBをオブジェクトカテゴリツリー1042にマッピングする(以下「間接方式」という)、のうちいずれかによって実行できる。その後、ステップ203において、正規化された第1および第2のプロファイルA、Bを使用して、第1および第2のオブジェクト間の競合指標を計算する。
以下では、添付図面を参照して、本発明の例示的実施例を説明する。ただし、ここで説明する実施例は例示を唯一の目的とするものであり、本発明はこれら特定の実施例に限定されるものではない。
(第1の実施例)
まず、図3〜7を参照して、本発明の第1の実施例について説明する。図3は、本発明の第1の実施例による競合指標計算システム300のブロック図を示す。この図に示すように、プロファイルは、共通属性名語彙に基づいてプロファイルの属性を整合化する方法、すなわち直接方式で正規化される。
図3に示すように、本実施例においては、共通属性名語彙1041はオントロジ情報とみなされる。正規化手段102は、判定部301と、統一プロファイル構造生成部302と、整合化部303とを含む。競合指標計算器103は、競合部分指標計算部304と競合指標計算部305とを含む。さらに、システム300は、ドメインに固有な競合重み付け方法を提供するための競合重み付けポリシーベース306も含む(詳細は後述する)。
以下では、まず、図4を参照してシステム300の動作について説明する。
図2と同様に、このプロセスは、オブジェクト取得手段101が比較対象の第1および第2のオブジェクトをオブジェクトデータベース105から取得するステップ401から始まる。第1および第2のオブジェクトはそれぞれ、第1のプロファイルA=(Al−V1,A2−V2,...,Am−Vm)と第2のプロファイルB=(Bl−V1,B2−V2,...,Bn−Vn)を有する。次に、ステップ402において、判定部301は、第1および第2のプロファイルA、Bのタイプを判定する。この動作により、第1および第2のプロファイルA、Bの構造が解析され、そのスキーマがフルテキストプロファイルか構造的プロファイルかが判定される。その後、ステップ403において、統一プロファイル構造生成部302は判定部301から構造解析の結果を受け取り、共通属性名語彙1041を参照して、統一プロファイル構造(Cl,C2,...Cs)、すなわちA=(C1−V1,C2−V2,...,Cs−Vs)およびB=(C1−V1,C2−V2,...,Cs−Vs)を決定する。この決定された統一プロファイル構造と、共通属性名語彙1041とに基づいて、整合化部303は第1および第2のプロファイルA、Bの構造を認識して、第1および第2のプロファイルA、B内の属性の構造を統一プロファイル内の対応する属性の構造に整合させる(ステップ404)。図5は、属性整合化プロセスの一例である。この例では、比較対象のプロファイルは2種類のプリンタに関連し、「印刷速度」、「用紙サイズ」、「OS」、および「ノイズレベル」という属性を含む。図に示すように、第1のプロファイルAと第2のプロファイルBの属性構造は、統一プロファイルの構造に基づいて整合化される。
その後、ステップ405において、整合化された第1および第2のプロファイルA、Bが競合部分指標計算部304に送られ、各属性の部分指標が計算される。図6に、競合部分指標計算部304の構造を示す。競合部分指標計算部304は、属性タイプ判定部601と、部分指標測定方法セレクタ602と、部分指標計算器603とを含む。図に示すように、最初に、A=Ci−ViおよびB=Ci−Viという2つの属性(値)が属性タイプ判定部601に入力される。ここで、属性Aと属性Bはそれぞれ第1のプロファイルAと第2のプロファイルBに属し、その構造が整合化される。前述したように、各属性値はオブジェクト(製品等)の1つの側面に関する指定であり、そのうち、属性名はオブジェクトのどの側面が記述されているかを示し、値は属性を説明するコンテンツを含む。属性のコンテンツは単一の値でも複数の値でもよく、属性値は単純なデータタイプでも複雑なデータタイプでもよい。競合部分指標計算の方法は、データタイプによって異なるのが一般的である。通常、単一値の属性はさらに、1)値が記号属性(例:列挙データタイプまたはプレーンテキスト)の場合、および2)値が数値属性(例:浮動)の場合、という2つのケースに分けられる。記号属性(例:フルテキスト)のケースでは、競合部分指標の計算にはVSMベースの方法がよく使用され、数値の属性のケースでは、競合部分指標の計算に属性値ベースの方法が使用される。複数値属性は、値の集合を有する属性を処理する際に採用されるが、これもやはり、1)複数値がシーケンス属性の場合、および2)複数値が非シーケンス属性の場合、という2つのケースに分けられる。現実の実装では、複数値属性のための競合指標計算方法が、単一値属性が備える単一値属性用の関数にアクセスして利用することもできる。属性のコンテンツとデータタイプの判定については、関連技術で提案される多数の類似度測定方法を利用できるので、ここでは詳細な説明を省略する。また、上記のケースはあくまで例示であり、本発明は様々なデータタイプ定義を利用して異なる方法で実装することが可能である。
次に、部分指標測定方法セレクタ602が選択した測定方法に基づき、部分指標計算器603を使用して、属性A、B間の競合部分指標c(A,B)が計算される。
前述したように、属性の値がフルテキストコンテンツのケースでは、属性間の競合部分指標計算としてVSMベースの類似度計算方法を採用することができる。以下では、これについて、図7を参照しながら詳細に説明する。基本的には、VSMは、全ドキュメントの集合に出現する用語(単語)の特徴ベクトルとしてドキュメントを表現する。例えば、いくつかの実施例では、中国語または日本語のドキュメントを処理する際には、対応する特徴ベクトルを生成する前に、まずドキュメントに含まれる用語(単語)に対してドメインおよび品詞(POS)解析を実行して、解析結果に基づいて重み付け和方法を適用する必要がある。ドキュメント間の類似度は、こうした特徴ベクトルをベースとするいくつかの類似度測定方法(例:余弦測定方法、ジャカール測定方法)の1つを使用して測定される。
図7は、属性タイプがフルテキストと判定されたケースにおいて、属性A、Bの部分指標を計算する方法としてVSMベースの方法が選択された場合を例にとって、競合部分指標計算器のブロック図を示したものである。図7に示すように、この例では、部分指標計算器603は、ベクトル生成部701と、VSMベース部分指標計算器702と、前処理部704とを含む。まず、フルテキスト属性A、Bが前処理部704に入力され、そこで、競合の評価には不要な、固有名詞、製品/企業名等の名前エンティティが最初に削除される。これにより、競合指標計算の精度を向上させることができる。続いて、前処理された属性A、Bはベクトル生成部701に入力され、フルテキスト属性A、Bを表す単語ベースのベクトルが生成される。ここでは、競合指標計算の精度をさらに向上させるために、ドメイン/POS解析モジュール703と競合重み付けポリシーベース306とを組み込むこともできる。また、フルテキスト属性A、Bに含まれる各単語の関連するドメインおよびPOSに対するドメイン/POS解析モジュール703の解析結果に基づき、競合重み付けポリシーベース306に格納される競合重み付け係数(重み)のルールテーブルを使用して、異なる競合重み付け係数(重み)を異なる単語に割り当てることができる。フルテキスト(構造的)プロファイルにおいては、競合係数は各単語(属性)に関連づけられる。この関連づけは、競合指標計算における単語(属性)の重要性を表す際に使用される。これにより、コンテキストを意識した競合重み付け方針を適用して最終的な精度を高めることが可能になる。例えば、セキュリティソフトウェアドメインにある2つの製品を比較する際には、「ファイアウォール、スパム、侵入、ウィルス」の各単語の係数値(重み付け値)はドメインに関連のない単語よりも高くなる。ドメイン/POS解析モジュール703の解析では、前置詞、接続詞、補助的単語、句読点、代名詞、感嘆詞、様式語、擬音語は最終指標に寄与しないので、競合係数はゼロに設定される。現実の実装では、競合重み付けポリシーベース306に格納される競合重み付け係数のルールテーブルは、手動で構築することも、あるいは、サードパーティウェブサイトから入手したオントロジ的製品情報(構造的プロファイル内の重みの大きい属性値に出現した単語)に基づいて、キーワード抽出等の自動的な方法で構築することも可能である。ただし、本発明はこれらの具体例には限定されず、競合重み付け係数のルールテーブルを生成するための他の方法も同様に使用できる。
その後、ベクトル生成部701によって生成されたフルテキスト属性A、Bを表す単語ベースのベクトルは、VSMベース部分指標計算器702に入力され、既存のVSMベースの方法を使用して、属性AおよびB間の部分指標c(A,B)が生成される。
次に、図4に戻ると、ステップ406において、整合化済みの第1および第2のプロファイルA、Bに含まれるすべての属性の部分指標が、競合指標計算部305に入力され、第1および第2のオブジェクト間の最終競合指標が計算される。計算された競合指標は、図3に示すように、競合指標データベース106に格納される。競合指標計算部305は、個々の属性の部分指標に基づき、任意の既知の方法を用いて最終競合指標を得ることができる。本実施例の競合指標計算部305は、部分指標の重み付け和を計算することにより、最終競合指標を取得する。また、本実施例においては、共通属性名語彙1041に基づいて、異なる重みが個々の属性に予め割り当てられ、競合重み付けポリシーベース306に格納される。したがって、第1および第2のオブジェクトの競合指標は、以下のような形で実現される。

Figure 0005057474

ここで、AとBは、s個の属性を含んだ共通構造を有する2つのプロファイルである。また、A=(A,...,A)およびB=(B,..,B)であり、c(A,B)は2つのプロファイルに含まれるi番目の属性の競合部分指標であり、wはi番目の属性に割り当てられた重みである。前述したように、競合重み付け方針は競合重み付けポリシーベース306から取り込まれる。図4のプロセスはこれで終了する。

(第2の実施例)
次に、図8〜11を参照して、本発明の第2の実施例について説明する。図8は、本発明の第2の実施例による、プロファイルをオブジェクトカテゴリツリー内のノードにマッピングすることによりプロファイルの正規化(間接的方法)を行う競合指標計算システム800の詳細なブロック図である。本実施例では、第1の実施例とは異なり、図8に示すようにオブジェクトカテゴリツリー1042がプロファイルを正規化するためのオントロジ情報として使用される。正規化手段102は、マッピング部801のみを含む。このマッピング部801は、オブジェクト取得手段101から第1のオブジェクトと第2のオブジェクトを受け取り、対応する第1および第2のプロファイルA、Bをオブジェクトカテゴリツリー1042内の1つ以上のノードにマッピングする。本実施例においては、競合指標計算器103は、マッピング確率計算部802と、意味的距離取得部803と、競合指標計算部804とを含み(各要素については後述)、第1および第2のオブジェクト間の競合指標計算を行えるように構成される。
図9に、図8に示すシステム800の動作を示すフローチャート図を示す。図4に示す第1の実施例と同様に、プロセス900は、第1および第2のプロファイルA、Bを有する第1および第2のオブジェクトがオブジェクトデータベース105から取得されるステップ901から始まる。続いてステップ902において、第1および第2のプロファイルA、Bがオブジェクトカテゴリツリー1042内の1つ以上のノードにマッピングされる。
図10は、オブジェクトカテゴリツリー102と、オブジェクトカテゴリツリー102内のノード構造に対応する代表的プロファイルの階層1002を示す概略図である。図11は、第2の実施例による競合指標計算の一例を示す。前述したように、オブジェクトカテゴリツリー102は、関心ドメイン内のオブジェクト(ドキュメント等)の分類に関する当該ドメインの共通の理解であり、各ノードは1つのカテゴリを表す。図10に示すように、ドメインのルートカテゴリはCであり、C01およびC02という2つのサブカテゴリを含む。サブカテゴリC01はサブカテゴリC011をさらに含み、サブカテゴリC02は2つのサブカテゴリC021およびC022をさらに含む。実際の用途では、オブジェクトカテゴリツリー102は、予め自動的または半自動的な既知の方法で取得することができる。例えば、図11に示すように、セキュリティソフトウェアドメインにおいては、オブジェクトカテゴリツリー102のルートノードは「セキュリティソフトウェア」カテゴリに対応し、「セキュリティソフトウェア」カテゴリは、「ファイアウォール」カテゴリ、「アンチスパム」カテゴリ、「アンチウィルス」カテゴリという3つの葉ノードをさらに含む。当然ながら、オブジェクトカテゴリツリー102の構造は図示した例に限定されず、異なるドメインのユーザは、個々の要件に応じて異なるオブジェクトカテゴリツリーを設定することができる。図10に戻ると、この図には、オブジェクトカテゴリツリー102の構造に対応する代表的プロファイルの階層1002が示されている。代表的プロファイルの階層1002の各ノードは、オブジェクトカテゴリツリー102内の対応するノードに含まれる1つ以上の代表的プロファイルを含む。代表的プロファイルには、対応ノードにあるオブジェクトカテゴリを記述するための関連のキーワードのすべてが含まれる。各ノードの代表的プロファイルは言語依存であり、1つの特定言語に対応する各ノードには1つの代表的プロファイルが存在する。代表的プロファイルから成る代表的プロファイル階層1002は、予め自動的または半自動的な既知の方法で取得することができる。
その後、図9のステップ902に戻り、取得された第1および第2のプロファイルA、Bがオブジェクトカテゴリツリー102内の1つ以上のノードにマッピングされる。これは既存のVSMベースの方法によって実行できる。本発明の一実施例では、このマッピングプロセスは、代表的プロファイル階層1002内の代表的プロファイルを媒体として利用することで実行される。すなわち、従来のVSMベースの方法を使用して、第1および第2のプロファイルA、Bの各々のコンテンツを代表的プロファイル階層1002内の代表的プロファイルと比較して、対応するオブジェクトが属する1つ以上(実装により異なる)のカテゴリを判定することにより、プロファイル(AまたはB)と、オブジェクトカテゴリツリー102内の対応する位置にあるノード/カテゴリとの類似度が計算される。
比較対象のプロファイルA、Bのカテゴリ判定後、そのマッピング結果は競合指標計算器103に送られ、そこで第1および第2のオブジェクト間の競合指標が計算される。図9に示すように、競合指標計算のプロセスには3つの主要ステップ(ステップ903、904、905)が含まれる。まず、ステップ903において、第1および第2のプロファイルA、Bが異なるノードにマッピングされる確率が計算される。図11に示すように、製品Aが「ファイアウォール」カテゴリのノードにマッピングされる確率は0.7、製品Bが「アンチウィルス」カテゴリのノードにマッピングされる確率は0.6、製品Cが「アンチウィルス」カテゴリのノードにマッピングされる確率は0.7である。続いて、ステップ904において、オブジェクトカテゴリツリー102内のノード間の意味的距離が取得される。意味的距離は、対応するノードのオブジェクトカテゴリー間の類似度を特徴づけるために使用される。意味的距離は、既存の類似度指標計算方法を用いて予め計算し、オントロジ情報ベース104に格納しておくことができる。ここで、カテゴリc1、c2間の距離をdc(cl,c2)とすると、この2つのカテゴリ間の類似度はcom(cl,c2)=1−dc(cl,c2)として定義される。この2つのカテゴリ間の意味的距離は、オブジェクトカテゴリツリー102上の個々の位置に基づいて計算される。一般に、ここでは「上位階層のカテゴリ間の距離は下位階層のカテゴリ間の距離よりも大きいため、上位階層カテゴリ間の類似度は下位階層カテゴリ間の類似度よりも低い」という基本概念が使用される。また、「兄弟」間の距離は「父と息子」間の距離よりも大きいとみなされる。次に、ステップ905において、ステップ903、904で取得された、第1および第2のプロファイルA、Bが対応するノード、および取得されたこれらノード間の意味的距離にマッピングされる確率を参照することにより、第1および第2のオブジェクト間の競合指標が計算される。ここで、(1)第1および第2のプロファイルA、Bがそれぞれ1つのノード(カテゴリ)にマッピングされる、および(2)第1および第2のプロファイルA、Bが複数のノードにマッピングされる、という2つの典型的なケースについて考察する。第1および第2のプロファイルA、Bがそれぞれ1つのノード(カテゴリ)にマッピングされるケースでは、第1および第2のプロファイルA、Bが対応するノードにマッピングされる確率は1である。そのため、予め計算された2カテゴリ間の意味的距離は、各カテゴリに属する第1および第2のオブジェクト間の競合指標の計算に直接利用される。すなわち、製品AはカテゴリC011にのみ、製品BはカテゴリC021にのみマッピングされ、カテゴリC011、C021間の意味的距離は0.1とすると、製品Aと製品B間の競合指標は0.1となる。プロファイルA、Bが複数のカテゴリにマッピングされるケースでは、競合指標は、第1および第2のプロファイルA、Bが対応するノードにマッピングされる確率に基づき、余弦測定方法を利用して計算することができる。この場合は、プロファイルA、Bに対して2つのカテゴリベクトルd、dを設定し、各カテゴリベクトルが、対応するカテゴリにプロファイルがマッピングされる確率を表すようにする。そして、余弦測定方法

Figure 0005057474

を使用して、第1および第2のプロファイルA、Bを有する第1および第2のオブジェクト間の競合指標を計算する。ここで注意を要するのは、異なるノード間の意味的距離が省略されていることである。しかし、競合指標計算の精度を高めるために、異なるノード間の意味的距離も適切な方法を使用して統合できることは、当業者には容易に理解されるであろう。
例えば、図11に示す例においては、製品Aが「ファイアウォール」カテゴリのノードにマッピングされる確率は0.7、製品Bが「アンチウィルス」カテゴリのノードにマッピングされる確率は0.6、製品Cが「アンチウィルス」カテゴリのノードにマッピングされる確率は0.7である。「ファイアウォール」ノードと「アンチウィルス」ノード間の意味的距離の事前計算により0.1が得られたとすると、(異なるカテゴリに属する)製品A、B間の競合指標は0.7×0.6×0.1=0.042となり、(同じカテゴリに属する)製品B、C間の競合指標は0.7×0.6=0.42となる。ただし、競合指標の計算方法はこの例に限定されないことに留意されたい。図9のプロセスはこれで終了する。
前述したように、代表的プロファイル階層1002の異なるノードに位置する代表的プロファイルは各言語に依存するため、異なるオブジェクトに関するプロファイルA、Bの言語は異なる可能性がある。
図12は、本発明の実装に使用されるコンピュータシステム1200の概略ブロック図である。この図に示すように、コンピュータシステム1200は、CPU1201と、ユーザインターフェース1202と、周辺機器1203と、メモリ1205と、恒久的記憶部1206と、これらの構成要素を相互に接続する内部バス1204とを含む。メモリ1205は、ドメイン/POS解析モジュール、競合解析モジュール、オブジェクト収集モジュール、オペレーティングシステム(OS)等をさらに含む。本発明は、主に、図1に示す競合解析モジュール10のような競合解析モジュールに関連する。オブジェクト収集モジュールは、異なるソースからオブジェクトを収集し、それをオブジェクトデータベースに格納することができる。ドメイン/POS解析モジュールは、フルテキストプロファイルのケースで属性を処理するために使用され、例えば図7に示すドメイン/POS解析モジュール703のように配置される。恒久的記憶部1206は、オントロジ情報ベース104、競合重み付けポリシーベース306、オブジェクトデータベース105、競合指標データベース106等の、本発明に関連する各種データベースを格納する。
本発明の第1の実施例(直接的方法を使用した競合指標計算)および第2の実施例(間接的方法を使用した競合指標計算)については、添付図面を参照してすでに説明した。上記の説明から明らかなように、本発明の効果は以下のとおりである。
直接的方法による競合指標計算においては、異なるオブジェクトを表すプロファイルは、対応属性を整合化することにより直接的に比較される。そのため、類似度計算領域の単語ベース(VSMベース)の方法と属性ベースの方法を結合するための柔軟なメカニズムが提供される。このメカニズムは、構造的(属性値)および非構造的(プレーンテキスト)プロファイルを有する異種対象を処理できる本発明の競合指標計算アルゴリズムを実現する。さらに、直接的なプロファイル比較方法では、プロファイルのデータ品質を最大限に利用して最終競合指標の精度を高めることができる。
さらに、間接的な競合指標計算によって、グローバル環境の競合相手発見に伴う言語障壁が克服される。また、競合スコアリングのための媒体として共通の分類階層(オブジェクトカテゴリツリー)が使用されるため、プロファイルを1対1で比較する場合に比較して効率が大幅に高まる。間接的方法による競合指標計算方法においては、異言語情報検索の領域で広く採用されている直接的なクエリー/ドキュメント翻訳が行われないため、それに起因する関連技術の短所(翻訳ベースの方法の場合は、未知の用語の翻訳が必要になることと処理が複雑なこと、コーパスベースの方法の場合は、十分な並列コーパスを入手できないこと、等)が回避される。
本発明の競合指標計算方法は、現在の類似度指標計算技術の精度を高めるために類似度計算にも適用できることに留意する必要がある。
上記では、添付図面を参照して本発明の特定の実施例について説明してきたが、本発明は添付図面に示した特定の構成およびプロセスに限定されるものではない。例えば、異なる属性間の競合部分指標計算プロセスにおいては、VSMベースの方法および属性値ベースの方法に加えて、当該技術分野で既知の類似度測定技術も使用できる。これらの既存の方法に関する説明は、文書の簡素化のため省略されている。
また、上記の実施例では、いくつかの具体的なステップを例示したが、本発明の方法のプロセスはこれらのステップに限定されるものではない。これらのステップは、本発明の精神と実質的な特性から逸脱することなく変更、修正、補完が可能であり、また一部ステップについては順序の入れ替えも可能なことは、当業者には理解されるであろう。
本発明の各要素は、ハードウェア、ソフトウェア、ファームウェア、またはその組み合わせで実装され、システム、サブシステム、そのコンポーネントもしくはサブコンポーネント内で利用される。ソフトウェアで実装された場合、本発明の各要素はプログラムもしくはコードセグメントとして必要なタスクを実行するために使用される。プログラムまたはコードセグメントは、機械読取り可能な媒体に格納することも、あるいは、伝送媒体もしくは通信リンクを介して搬送波内に具現化されたデータ信号により伝送することもできる。「機械読取り可能な媒体」には、情報を格納または伝送できるあらゆる媒体が含まれる。機械読取り可能な媒体の例としては、電子回路、半導体記憶装置、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピーディスク、CD−ROM、光ディスク、ハードディスク、光ファイバー媒体、無線周波数(RF)リンク等が挙げられる。コードセグメントは、インターネット、イントラネット等のコンピュータネットワークを介してダウンロードすることもできる。
上記では本発明を特定の実施例を参照して説明したが、本発明は上記の特定の実施例や、図面に示した特定の構成に限定されるものではない。例えば、図示した一部のコンポーネントは、互いに組み合わせて1つのコンポーネントとしたり、1つのコンポーネントを複数のサブコンポーネントに分割したり、他の既知のコンポーネントを追加したりすることもできる。また、動作プロセスも同様に、例に示されたものに限定されない。本発明はその精神と主要な特徴から逸脱することなく他の様々な形態で実装できることは、当該技術に精通した当業者により理解されるであろう。したがって、本発明の実施例はあらゆる点において例示的であり、限定的なものではない。本発明の範囲は前述の説明よりむしろ付記した特許請求の範囲に示されており、各請求項と等価な意味と範囲に含まれるあらゆる変更がそれに包含される。
本発明の上記および他の特徴と利点は、図面を参照しながら下記の詳細な説明を読むことにより、より完全に理解することができる。
本発明の全体的な概念を示すための、競合指標計算システム100の概念ブロック図である。 図1に示す競合指標計算システムの動作の一例を示すフローチャート図である。 本発明の第1の実施例による、共通属性名語彙に基づいて属性を整合化すること(直接的方法)によりプロファイルの正規化を行う競合指標計算システム300の詳細なブロック図である。 図3に示すシステム300の動作を示すフローチャート図である。 本発明の第1の実施例の競合指標計算における属性整合化プロセスの一例を示す。 図3に示す競合部分指標計算部を詳細に示すブロック図である。 属性部分指標計算の方法としてVSMベースの方法を選択した場合の競合部分指標計算部のブロック図である。 本発明の第2の実施例による、プロファイルをオブジェクトカテゴリツリー内のノードにマッピングすること(間接的方法)によりプロファイルの正規化を行う競合指標計算システム800の詳細なブロック図である。 図8に示すシステム800の動作を示すフローチャート図である。 オブジェクトカテゴリツリーと、オブジェクトカテゴリツリー内のノード構造に対応する代表的プロファイルの階層を示す概略図である。 第2の実施例による、プロファイルをオブジェクトカテゴリツリー内のノードにマッピングすることにより競合指標を計算するプロセスの一例である。 本発明の実装に使用されるコンピュータシステムの概略ブロック図である。
符号の説明
10:競合解析モジュール
101:オブジェクト取得手段
102:正規化手段
103:競合指標計算器
104:オントロジ情報ベース
105:オブジェクトデータベース
106:競合指標データベース
1041:共通属性名語彙
1042:オブジェクトカテゴリツリー
301:判定部
302:統一プロファイル構造生成部
303:整合化部
304:競合部分指標計算部
305:競合指標計算部
306:競合重み付けポリシーベース
601:属性タイプ判定部
602:部分指標測定方法セレクタ
603:部分指標計算器
701:ベクトル生成部
702:VSMベース部分指標計算器
703:ドメイン/POS解析モジュール
704:前処理部
801:マッピング手段
802:マッピング確率計算部
803:意味的距離取得部
804:競合指標計算部
1201:CPU
1202:ユーザインターフェース
1203:周辺機器
1204:内部バス
1205:メモリ
1206:恒久的記憶部

Claims (39)

  1. コンピュータを競合指標計算システムとして動作させるためのオブジェクト間の競合指標計算方法であって、
    複数の属性から成る第1および第2のプロファイルを各々有する第1のオブジェクトと第2のオブジェクトを取得するステップと、
    オントロジ情報を参照して前記第1および第2のプロファイルを正規化するステップと、
    正規化された前記第1および第2のプロファイルに基づいて、前記第1および第2のオブジェクト間の競合指標を計算するステップとを有し、
    前記オントロジ情報が、前記属性の競合に対する重要性によって選択されたオブジェクトの属性名を含む共通属性名語彙であり、
    前記第1と第2プロファイルの正規化ステップは、
    前記第1と第2プロファイルのプロファイルタイプを判定するステップと、
    判定したプロファイルタイプに従って、前記共通属性名語彙を参照して統一プロファイル構造を生成するステップと、
    前記第1と第2プロファイル内の各属性を統一されたプロファイル内の対応する属性と整合させるステップを有し、
    前記競合指標の計算ステップは、
    整合化された前記第1および第2のプロファイル内の対応属性の対について競合部分指標を計算するステップと、
    前記第1と第2プロファイル内の全ての属性の競合部分指標の重み付け和を計算することにより、前記第1と第2のオブジェクト間の競合指標を取得するステップを有し、
    前記プロファイルは、属性名と、属性値とから構成され、
    前記属性値は、テキスト形式のデータ、若しくは数値の何れかである
    ことを特徴とする競合指標計算方法。
  2. コンピュータを競合指標計算システムとして動作させるためのオブジェクト間の競合指標計算方法であって、
    複数の属性から成る第1および第2のプロファイルを各々有する第1のオブジェクトと第2のオブジェクトを取得するステップと、
    オントロジ情報を参照して前記第1および第2のプロファイルを正規化するステップと、
    正規化された前記第1および第2のプロファイルに基づいて、前記第1および第2のオブジェクト間の競合指標を計算するステップとを有し、
    前記オントロジ情報が、ツリー内の各ノードが1つのオブジェクトカテゴリを表し、1つ以上の代表的プロファイルを含むオブジェクトカテゴリツリーであり、
    前記第1と第2プロファイルの正規化ステップは、
    前記第1と第2プロファイルをそれぞれ前記オブジェクトカテゴリツリーの1つ以上のノードにマッピングするステップを有し、
    前記競合指標の計算ステップは、
    前記オブジェクトカテゴリツリーのノード対における意味的距離を取得するステップと、
    取得した意味的距離に基づいて前記第1及び第2のオブジェクト間の競合指標を計算するステップと、
    前記第1と第2プロファイルの各々について、前記オブジェクトカテゴリツリーの対応するノードにマッピングされる確率を計算するステップとを有し、
    前記プロファイルは、属性名と、属性値とから構成され、
    前記属性値は、テキスト形式のデータ、若しくは数値の何れかであり、
    前記第1及び第2のオブジェクトの間の競合指標は、前記第1と第2プロファイルの計算されたマッピング確率と、前記第1と第2プロファイルがマッピングされるノードの間の取得された意味的距離に基づいて計算される
    ことを特徴とする競合指標計算方法。
  3. 前記競合部分指標の計算ステップは、
    前記第1と第2プロファイル内の対応属性の対、すなわち、前記第1のプロファイルからの第1の属性と前記第2のプロファイルからの第2の属性について、
    前記共通属性名語彙を参照して前記第1と第2属性のタイプを判定するステップと、
    判定した属性タイプに従って競合部分指標測定方法を選択するステップと、
    選択された競合部分指標測定方法で前記第1と第2属性の間の競合部分指標を計算するステップを有することを特徴とする請求項1に記載の競合指標計算方法
  4. 前記競合部分指標測定方法が、ベクトル空間モデル(VSM)ベースの測定方法或いは属性値ベースの測定方法であることを特徴とする請求項3に記載の競合指標計算方法
  5. 前記競合部分指標を計算するために前記VSMベースの測定方法を用いる場合、
    前記競合部分指標の計算ステップは、
    前記第1と第2属性をそれぞれ表す、単語ベースの第1のベクトルと第2のベクトルを生成するステップと、
    前記第1と第2属性の間の競合部分指標として前記第1と第2ベクトルの間の競合指標を計算するために前記VSMベースの測定方法を用いるステップを有することを特徴とする請求項4に記載の競合指標計算方法
  6. 前記第1と第2ベクトルを生成する前に、各属性値のテキストから名前エンティティを削除するために第1と第2属性の前処理を行うステップをさらに含むことを特徴とする請求項5に記載の競合指標計算方法
  7. 前記名前エンティティが、固有名詞、企業名及び製品名を含むことを特徴とする請求項6に記載の競合指標計算方法
  8. 前記第1と第2属性内の単語についてドメインおよび品詞(POS)解析を行なうステップと、
    前記第1と第2ベクトルを生成する前に、前記ドメインおよびPOS解析の結果に従って、競合に関して予め格納された競合重み係数ルールテーブルを参照して前記第1と第2属性内の単語に重みを加えるステップをさらに含むことを特徴とする請求項5に記載の競合指標計算方法
  9. 前記競合重み係数ルールテーブルは、ユーザによって手動で構築されることを特徴とする請求項8に記載の競合指標計算方法
  10. 前記競合重み係数ルールテーブルは、サードパーティウェブサイトから入手したオントロジ的製品情報に基づいてキーワード抽出を実行する自動的な方法で構築されることを特徴とする請求項8に記載の競合指標計算方法
  11. 前記競合重み係数ルールテーブルは、競合指標を計算する際に単語の重要性を表わす、各単語に関連した競合重み係数を格納することを特徴とする請求項8に記載の競合指標計算方法
  12. 前記競合重み係数ルールテーブルにおいて、比較されるオブジェクトが属するドメインと関連のない単語については、ドメインに関連する単語より低い競合重み係数が付与され、
    競合指標の計算に寄与しない品詞を有する単語については、それらの競合重み係数が0に設定されることを特徴とする請求項11に記載の競合指標計算方法
  13. 各ノードの1つ以上の前記代表的プロファイルは、異なる言語に対応することを特徴とする請求項2に記載の競合指標計算方法
  14. VSMベースの測定方法を用いた前記オブジェクトカテゴリツリーのノードへの前記第1と第2プロファイルのマッピングを行なうために、前記オブジェクトカテゴリツリーの各ノードの1つ以上の代表的プロファイルを媒体として利用することを特徴とする請求項2に記載の競合指標計算方法
  15. 前記第1と第2プロファイルの各々が単一のノードにマッピングされる場合、マッピングされたノードの間の意味的距離が、前記第1及び第2のオブジェクト間の競合指標として直接利用されることを特徴とする請求項2に記載の競合指標計算方法
  16. 前記第1と第2プロファイルの各々が複数ノードにマッピングされる場合、前記オブジェクトカテゴリツリーのそれぞれのノードに前記第1と第2プロファイルがマッピングされる確率に基づいて、第1のカテゴリ・ベクトルおよび第2のカテゴリ・ベクトルが生成され、
    前記第1及び第2のオブジェクト間の競合指標が、前記第1と第2のカテゴリ・ベクトルの余弦測定方法を用いることによって計算されることを特徴とする請求項2に記載の競合指標計算方法
  17. 前記第1と第2プロファイルがマッピングされるノードの間の意味的距離は、前記第1及び第2のオブジェクトの間の競合指標を計算する余弦測定方法に統合されることを特徴とする請求項16に記載の競合指標計算方法
  18. 前記オブジェクトカテゴリツリーのそれぞれのノード間の意味的距離は、前もって計算され、前記オブジェクトカテゴリツリーと共に格納されることを特徴とする請求項16に記載の競合指標計算方法
  19. 前記オブジェクトカテゴリツリーにおいて、上位階層におけるノード間の意味的距離が、下位階層におけるノード間の意味的距離より大きく、「兄弟」ノードの間の意味的な距離が、「親」ノードと「子供」ノードの間の意味的距離より大きいことを特徴とする請求項2に記載の競合指標計算方法
  20. オブジェクト間の競合指標計算システムであって、
    複数の属性から成る第1および第2のプロファイルを各々有する第1のオブジェクトと第2のオブジェクトとを取得するオブジェクト取得手段と、
    オントロジ情報を格納するオントロジ情報ベースと、
    オントロジ情報ベースのオントロジ情報を使用して第1および第2のプロファイルを正規化する正規化手段と、
    正規化された第1および第2のプロファイルに基づいて、第1および第2のオブジェクト間の競合指標を計算する競合指標計算器と備え、
    前記オントロジ情報が、前記属性の競合に対する重要性によって選択されたオブジェクトの属性名を含む共通属性名語彙であり、
    前記正規化手段は、
    前記第1と第2プロファイルのプロファイルタイプを判定する判定部と、
    判定したプロファイルタイプに従って、前記共通属性名語彙を参照して統一プロファイル構造を生成する統一プロファイル構造生成部と、
    前記第1と第2プロファイル内の各属性を統一されたプロファイル内の対応する属性と整合させる整合部を備え、
    前記競合指標計算器は、
    整合化された前記第1および第2のプロファイル内の対応属性の対について競合部分指標を計算する競合部分指標計算部と、
    前記第1と第2プロファイル内の全ての属性の競合部分指標の重み付け和を計算することにより、前記第1と第2のオブジェクト間の競合指標を取得する競合指標計算部を備え、
    前記システムは、重み付けに必要な重み係数を格納する競合重み付けポリシーベースをさらに含み、
    前記プロファイルは、属性名と、属性値とから構成され、
    前記属性値は、テキスト形式のデータ、若しくは数値の何れかである
    ことを特徴とする競合指標計算システム
  21. オブジェクト間の競合指標計算システムであって、
    複数の属性から成る第1および第2のプロファイルを各々有する第1のオブジェクトと第2のオブジェクトとを取得するオブジェクト取得手段と、
    オントロジ情報を格納するオントロジ情報ベースと、
    オントロジ情報ベースのオントロジ情報を使用して第1および第2のプロファイルを正規化する正規化手段と、
    正規化された第1および第2のプロファイルに基づいて、第1および第2のオブジェクト間の競合指標を計算する競合指標計算器とを備え、
    前記オントロジ情報が、ツリー内の各ノードが1つのオブジェクトカテゴリを表し、1つ以上の代表的プロファイルを含むオブジェクトカテゴリツリーであり、
    前記正規化手段は、
    前記第1と第2プロファイルをそれぞれ前記オブジェクトカテゴリツリーの1つ以上のノードにマッピングするマッピング部を備え、
    前記競合指標計算器は、
    前記オブジェクトカテゴリツリーのノード対における意味的距離を取得する意味的距離取得部と、
    取得した意味的距離に基づいて前記第1及び第2のオブジェクト間の競合指標を計算する競合指標計算部と、
    前記第1と第2プロファイルの各々について、前記オブジェクトカテゴリツリーの対応するノードにマッピングされる確率を計算するマッピング確率計算部とを備え、
    前記プロファイルは、属性名と、属性値とから構成され、
    前記属性値は、テキスト形式のデータ、若しくは数値の何れかであり、
    前記第1及び第2のオブジェクトの間の競合指標は、前記第1と第2プロファイルの計算されたマッピング確率と、前記第1と第2プロファイルがマッピングされるノードの間の取得された意味的距離に基づいて計算される
    ことを特徴とする競合指標計算システム
  22. 前記競合部分指標計算部は、
    前記第1と第2プロファイル内の1対の対応する属性である前記第1のプロファイルからの第1の属性と前記第2のプロファイルからの第2の属性のタイプを、前記共通属性名語彙を参照して判定する属性タイプ判定部と、
    判定した属性タイプに従って競合部分指標測定方法を選択する部分指標測定方法セレクタと、
    選択された競合部分指標測定方法で前記第1と第2属性の間の競合部分指標を計算する部分指標計算器を備えることを特徴とする請求項20に記載の競合指標計算システム
  23. 前記部分指標計算器が、ベクトル空間モデル(VSM)ベースの測定方法或いは属性値ベースの測定方法を用いることを特徴とする請求項22に記載の競合指標計算システム
  24. 前記競合部分指標を計算するために前記VSMベースの測定方法を用いる場合、
    前記部分指標計算器は、
    前記第1と第2属性をそれぞれ表す、単語ベースの第1のベクトルと第2のベクトルを生成するベクトル生成部と、
    前記第1と第2属性の間の競合部分指標として前記第1と第2ベクトルの間の競合指標を計算するために前記VSMベースの測定方法を用いるVSMベース部分指標計算器を備えることを特徴とする請求項23に記載の競合指標計算システム
  25. 前記部分指標計算器は、
    前記第1と第2ベクトルを生成する前に、各属性値のテキストから名前エンティティを削除するために第1と第2属性の前処理を行う前処理部をさらに含むことを特徴とする請求項24に記載の競合指標計算システム
  26. 前記名前エンティティが、固有名詞、企業名及び製品名を含むことを特徴とする請求項25に記載の競合指標計算システム
  27. 前記部分指標計算器は、
    前記第1と第2属性内の単語についてドメインおよび品詞(POS)解析を行なうドメインおよびPOS解析モジュールを備え、
    前記ベクトル生成部が、前記第1と第2ベクトルを生成する前に、前記ドメインおよびPOS解析の結果に従って、競合に関して予め格納された競合重み係数ルールテーブルを参照して前記第1と第2属性内の単語に重みを加えることを特徴とする請求項24に記載の競合指標計算システム
  28. 前記競合重み係数ルールテーブルは、前記競合重み付けポリシーベースに格納されることを特徴とする請求項27に記載の競合指標計算システム
  29. 前記競合重み係数ルールテーブルは、ユーザによって手動で構築されることを特徴とする請求項27に記載の競合指標計算システム
  30. 前記競合重み係数ルールテーブルは、サードパーティウェブサイトから入手したオントロジ的製品情報に基づいてキーワード抽出を実行する自動的な方法で構築されることを特徴とする請求項27に記載の競合指標計算システム
  31. 前記競合重み係数ルールテーブルは、競合指標を計算する際に単語の重要性を表わす、各単語に関連した競合重み係数を格納することを特徴とする請求項27に記載の競合指標計算システム
  32. 前記競合重み係数ルールテーブルにおいて、比較されるオブジェクトが属するドメインと関連のない単語については、ドメインに関連する単語より低い競合重み係数が付与され、
    競合指標の計算に寄与しない品詞を有する単語については、それらの競合重み係数が0に設定されることを特徴とする請求項31に記載の競合指標計算システム
  33. 各ノードの1つ以上の前記代表的プロファイルは、異なる言語に対応することを特徴とする請求項21に記載の競合指標計算システム
  34. 前記マッピング部は、VSMベースの測定方法を用いた前記オブジェクトカテゴリツリーのノードへの前記第1と第2プロファイルのマッピングを行なうために、前記オブジェクトカテゴリツリーの各ノードの1つ以上の代表的プロファイルを媒体として利用することを特徴とする請求項21に記載の競合指標計算システム
  35. 前記第1と第2プロファイルの各々が単一のノードにマッピングされる場合、前記競合指標計算部が、マッピングされたノードの間の意味的距離を、前記第1及び第2のオブジェクト間の競合指標として直接利用することを特徴とする請求項21に記載の競合指標計算システム
  36. 前記第1と第2プロファイルの各々が複数ノードにマッピングされる場合、前記競合指標計算部が、前記オブジェクトカテゴリツリーのそれぞれのノードに前記第1と第2プロファイルがマッピングされる確率に基づいて、第1のカテゴリ・ベクトルおよび第2のカテゴリ・ベクトルを生成し、
    前記第1及び第2のオブジェクト間の競合指標を、前記第1と第2のカテゴリ・ベクトルの余弦測定方法を用いることによって計算することを特徴とする請求項21に記載の競合指標計算システム
  37. 前記第1と第2プロファイルがマッピングされるノードの間の意味的距離は、前記第1及び第2のオブジェクトの間の競合指標を計算する余弦測定方法に統合されることを特徴とする請求項36に記載の競合指標計算システム
  38. 前記オブジェクトカテゴリツリーのそれぞれのノード間の意味的距離は、前もって計算され、前記競合重み付けポリシーベースに前記オブジェクトカテゴリツリーと共に格納されることを特徴とする請求項21に記載の競合指標計算システム
  39. 前記オブジェクトカテゴリツリーにおいて、上位階層におけるノード間の意味的距離が、下位階層におけるノード間の意味的距離より大きく、「兄弟」ノードの間の意味的な距離が、「親」ノードと「子供」ノードの間の意味的距離より大きいことを特徴とする請求項21に記載の競合指標計算システム
JP2008240624A 2007-09-19 2008-09-19 オブジェクト間の競合指標計算方法およびシステム Expired - Fee Related JP5057474B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200710153592.0 2007-09-19
CN200710153592.0A CN101393550A (zh) 2007-09-19 2007-09-19 用于计算对象之间竞争性度量的方法与***

Publications (2)

Publication Number Publication Date
JP2009110508A JP2009110508A (ja) 2009-05-21
JP5057474B2 true JP5057474B2 (ja) 2012-10-24

Family

ID=40455711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008240624A Expired - Fee Related JP5057474B2 (ja) 2007-09-19 2008-09-19 オブジェクト間の競合指標計算方法およびシステム

Country Status (3)

Country Link
US (1) US20090077126A1 (ja)
JP (1) JP5057474B2 (ja)
CN (1) CN101393550A (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011044865A1 (de) * 2009-10-12 2011-04-21 Beel Joeran Verfahren zum bestimmen einer ähnlichkeit von objekten
US9794268B2 (en) * 2009-10-16 2017-10-17 Nokia Solutions And Networks Oy Privacy policy management method for a user device
WO2012178152A1 (en) * 2011-06-23 2012-12-27 I3 Analytics Methods and systems for retrieval of experts based on user customizable search and ranking parameters
CN105808611B (zh) * 2014-12-31 2019-12-06 华为技术有限公司 数据挖掘方法和装置
RU2626555C2 (ru) * 2015-12-02 2017-07-28 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение сущностей из текстов на естественном языке
US10242002B2 (en) * 2016-08-01 2019-03-26 International Business Machines Corporation Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
US10229184B2 (en) * 2016-08-01 2019-03-12 International Business Machines Corporation Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
CN108229999B (zh) * 2016-12-21 2022-01-21 百度在线网络技术(北京)有限公司 竞品评估方法及装置
CN111125911B (zh) * 2019-12-25 2022-08-09 昆明理工大学 一种基于分区双层网络的语言竞争微观仿真模型的建模仿真方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5301109A (en) * 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
US5835905A (en) * 1997-04-09 1998-11-10 Xerox Corporation System for predicting documents relevant to focus documents by spreading activation through network representations of a linked collection of documents
US6629097B1 (en) * 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
JP3996470B2 (ja) * 2002-08-23 2007-10-24 日本電信電話株式会社 視覚的情報分類方法、視覚的情報分類装置、視覚的情報分類プログラムおよびそのプログラムを記録した記録媒体
US7627486B2 (en) * 2002-10-07 2009-12-01 Cbs Interactive, Inc. System and method for rating plural products
JP2005165736A (ja) * 2003-12-03 2005-06-23 Toyota Motor Corp 新規製品に競合する既存製品グループの抽出装置と新規製品の属性別の開発目標水準の決定過程支援装置
US7451124B2 (en) * 2005-05-12 2008-11-11 Xerox Corporation Method of analyzing documents
US8024329B1 (en) * 2006-06-01 2011-09-20 Monster Worldwide, Inc. Using inverted indexes for contextual personalized information retrieval

Also Published As

Publication number Publication date
CN101393550A (zh) 2009-03-25
JP2009110508A (ja) 2009-05-21
US20090077126A1 (en) 2009-03-19

Similar Documents

Publication Publication Date Title
JP4920023B2 (ja) オブジェクト間競合指標計算方法およびシステム
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
US8370129B2 (en) System and methods for quantitative assessment of information in natural language contents
US20180232443A1 (en) Intelligent matching system with ontology-aided relation extraction
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
JP5078173B2 (ja) 多義性解消方法とそのシステム
CN102918532B (zh) 在搜索结果排序中对垃圾的检测
US20080147642A1 (en) System for discovering data artifacts in an on-line data object
US20110112995A1 (en) Systems and methods for organizing collective social intelligence information using an organic object data model
US20130110839A1 (en) Constructing an analysis of a document
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
CN113268569B (zh) 基于语义的关联词查找方法及装置、电子设备、存储介质
JP5391632B2 (ja) ワードと文書の深さの決定
US20080147641A1 (en) Method for prioritizing search results retrieved in response to a computerized search query
US20080147588A1 (en) Method for discovering data artifacts in an on-line data object
Sleeman et al. Entity type recognition for heterogeneous semantic graphs
Lan Research on Text Similarity Measurement Hybrid Algorithm with Term Semantic Information and TF‐IDF Method
Nesi et al. Ge (o) Lo (cator): Geographic information extraction from unstructured text data and Web documents
JPWO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
Nasser et al. n-Gram based language processing using Twitter dataset to identify COVID-19 patients
Anam et al. Review of ontology matching approaches and challenges
Zhang et al. Document keyword extraction based on semantic hierarchical graph model
Garrido et al. GEO-NASS: A semantic tagging experience from geographical data on the media
JP2013502012A (ja) 人的資本労働雇用の地位/職務を製品化するためのシステムおよび方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120726

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120726

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees