JP2021508113A

JP2021508113A - ２ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム

Info

Publication number: JP2021508113A
Application number: JP2020533829A
Authority: JP
Inventors: 福田　剛志; 剛志福田; 弘晶菊地; 晋平四倉
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-12-18
Filing date: 2018-12-12
Publication date: 2021-02-25
Anticipated expiration: 2038-12-12
Also published as: CN111512304B; WO2019123113A1; US10657145B2; GB2582730A; US20190188304A1; CN111512304A; DE112018006438T5; GB202010822D0; JP7496774B2

Abstract

【課題】テキスト・マイニングのために２ディメンション・ファセット・キューブ上のファセットをクラスタ化するためのコンピュータ実施方法及びシステムを提供する。【解決手段】方法及びシステムは、１つ又は複数の文書における非構造化データを分析するために、１つ又は複数の文書のセットと関連付けられた１つ又は複数のファセットについての相関マトリックスである２ディメンション・ファセット・キューブを生成することと、相関マトリックにおける１つ又は複数のファセットを少なくとも１つのクラスタにグループ化することと、クラスタの中心を計算することと、クラスタの計算された中心付近に位置するファセットを、クラスタを代表するものとして識別することとによって、ファセットに基づいたテキスト・マイニングを行う。【選択図】図１

Description

多数の検索方法がある。ナビゲーション検索は、階層構造又はタクソノミ（taxonomy）を用いて、ユーザが情報を閲覧するのを可能にする。直接検索（direct search）は、ユーザが、１つ又は複数のキーワードを用いて情報を照会するのを可能にする。ファセット検索（faceted search）は、多くの場合、複数のフィルタ及び／又はキーワードをファセット階層に適用してユーザが情報を探索するのを可能にすることにより、ナビゲーション検索及び直接検索の両方の要素を組み合わせる。

ファセット階層は、ファセット（facet）と呼ばれるディメンション（dimension）に沿って情報を分類する。ファセットは、情報のプロパティに対応し、種々の抽出技術を用いてテキスト又は文書の分析により、又は情報と関連付けられたメタデータから、導出されることが多い。例えば、オンライン小売業者は、タイプ、ブランド、価格等のような製品属性を反映するファセット階層を用いることが多い。ファセット値をファセット階層に手作業で付加すること、又はテキスト・マイニング・ソフトウェアを用いて自動的に抽出することが可能である。

ファセットを用いて、ｎディメンション・ファセット・キューブを生成することができ、ファセット・キューブにより、データへのマルチ・ディメンションのアクセスが可能になる。各ファセットは、ファセット・キューブの別個のディメンションであり、所定期間に販売された特定のタイプ、ブランド及び価格の全ての製品などの、２又はそれより多いディメンションの交点を計算し、表示することができる。これは、ユーザが、ファセット値における複雑な関係を照会し、ファセット値における以前は未知であった関係を発見することを可能にする。

しかしながら、本技術分野において、ファセット値を導出する改善された技術に対する必要性がある。

本明細書で与えられる本発明は、例えば、テキスト・マイニングのために２ディメンション・ファセット・キューブ上のファセットをクラスタ化するためのコンピュータ実施方法及びシステムを実装するのに有用な多数の実施形態を有する。

方法及びシステムは、１つ又は複数の文書内の非構造化データを分析するために、ファセットに基づいたテキスト・マイニングを実行する。１つ又は複数の文書のセットと関連付けられた１つ又は複数のファセットについての相関マトリックスである２ディメンション・ファセット・キューブが生成される。相関マトリックスにおいて、１つ又は複数のファセットが少なくとも１つのクラスタにグループ化される。クラスタの中心が計算される。クラスタの計算された中心付近に位置するファセットが、クラスタを代表するものとして識別される。

相関マトリックスは、自己相関マトリックスを含むことができる。相関マトリックスの指定された行と列との交点は、指定された行と列とにより表されるファセットについての相関値を有する。

相関マトリックスにおいてファセットをクラスタにグループ化することは、相関マトリックスの行又は列についての相関ベクトルを生成することと、相関ベクトルにおいてファセットをクラスタにグループ化することとをさらに含む。

方法及びシステムは、クラスタ内のファセットについての距離相関を計算すること、及び、距離相関に基づいて、クラスタの中心を計算し、クラスタの中心に最も近いクラスタ内のファセットの少なくとも１つを識別することをさらに含むことができる。

方法及びシステムは、セット内の文書と関連付けられたファセットを判断するために、ファセット統計量を繰り返し計算すること、及びファセット統計量に基づいてセットを絞り込む（refine）ことをさらに含むことができる。

結果として、本発明は、非構造化テキストの文章を分析するための改善された技術を提供する。具体的には、本発明は、文書をテキスト・マイニングすることにより、ファセット値を自動的に導出する。ファセット値の動的クラスタ化は、相関マトリックスであるｎディメンション・ファセット・キューブを用いて自動的に実行される。結果は、ファセット値の間、並びに文書自体の間の関係の発見を含む。

ここで図面を参照し、そこでは、全体を通して同様の参照番号が対応する部分を表す。

１つの実施形態による、コンテンツ分析システムの実施形態を示す。ファセットの統計量の計算からの結果を示すユーザ・インターフェースを示す。テキスト・マイナ（text miner）が、文書のセットについてのファセット統計量を繰り返し計算し、ファセットの統計量に基づいて文書のセットを絞り込むことを示す。テキスト・マイナが、各ファセットの頻度を計算することを含む、文書のセットに関するファセット統計量の計算を実行することを示す。テキスト・マイナを用いて作業負荷を低減させるための１つの手法を示す。テキスト・マイナが、相関マトリックスを用いて、クラスタ化を実行する方法を示す。相関マトリックスの行及び／又は列において、テキスト・マイナにより、ファセットのクラスタ化を実行する方法を示す。ファセットのリアルタイムの動的クラスタ化を実行するために相関マトリックスを用いることにより得られる利点を示す。１つの実施形態による、テキスト・マイナにより実行されるステップを示すフローチャートである。ファセットのリアルタイムの動的クラスタ化を文書のコーパスに適用することにより生じる経験的結果を示すユーザ・インターフェースを示す。

以下の説明において、本明細書の一部を形成する添付図面を参照し、図面には、本発明を実施できる１つ又は複数の特定の実施形態が実例として示される。他の実施形態を利用することもでき、本発明の範囲から逸脱することなく、構造的及び機能的変更を行い得ることを理解されたい。

概要
文書内に見出されるテキストなどの非構造化データを分析する改善された技術に対する必要性が増大している。ファセットに基づいたテキスト・マイニングは、非構造化データを分析するためのより効果的な方法の１つである。

この文脈において、ファセットは、１つ又は複数の文書のセットと関連付けられた「タグ」である。具体的には、ファセットは、１つ又は複数の特定条件を満たす文書と関連付けられる。特定条件の例として、特定のキーワードが文書内に現れる、文書が特定の日付範囲で作成された、文書が特定のトピックを含む等を挙げることができる。

本発明は、文書又は他の非構造化テキストのテキスト・マイニングにより、ファセット値を自動的に導出し、次に、ｎディメンション・ファセット・キューブを生成し、ファセットをクラスタ化する。これにより、ファセットの間並びに文書自体の間の関係の発見が可能になる。

ファセット処理
図１は、ネットワーク１０６上で１又は複数のクライアント・コンピュータ１０４から受け取った要求を処理する１又は複数のサーバ・コンピュータ１０２を含むコンテンツ分析システム１００の実施形態を示す。サーバ１０２は、テキスト・データ及び他のデータから構成されるデータ・ストア１０８を維持する。以下により詳細に説明されるように、サーバ１０２は、１つ又は複数の文書１１２を分析し、文書１１２のためのファセット１１４を生成するテキスト・マイナ１１０を実行する。具体的には、テキスト・マイナ１１０は、テキスト分析を文書１１２に適用し、ファセット１１４についての値を求める。テキスト分析は、文書１１２から、例えばコンテンツ、トピック等のような情報及び知識を抽出し、その情報をファセット１１４の値として分類する技術である。

ファセット１１４の値は、１つ又は複数の文書１１２から判断されるべき特定のタイプの情報を含むことができる。例えば、ファセット１１４の値は、文書１１２のトピックを含むことができ、これは、そのコンテンツに関して文書１１２をテキスト・マイニングすることによって判断される。

図２に示されるように、ファセット１１４についての統計量を計算することにより、文書１１２についての概要を生成することができる。具体的には、図２は、例えば、１つ又は複数の文書１１２についての、ファセット１１４の相関２０２、傾向２０４、偏差２０６、及びファセット・ペアの間の関係２０８を示す４つの象限２０２〜２０８を有する、クライアント１０４上に表示されるユーザ・インターフェース２００を示す。具体的には、第１の象限２０２は、ファセット１１４のサイズが１つ又は複数の文書１１２との相関を示すワード・クラウド（word cloud）を表示し（例えば、ファセット１１４が大きいほど、文書１１２との相関が大きくなる）、第２の象限２０４は、１つ又は複数の文書１１２における各ファセット１１４の発生の傾向を日付順に示す傾向グラフを表示し、第３の象限２０６は、１つ又は複数の文書１１２における各ファセット１１４の発生の時間バイアスを日付順に示す偏差のグラフを表示し、第４の象限２０８は、１つ又は複数の文書１１２におけるファセット１１４の間の関係を示すファセット・ペアのグラフを表示する（円が大きいほど、文書１１２においてファセット１１４が一緒により多く現れる）。象限２０４及び２０６は、類似しているように見えるが、第２の象限２０４における傾向のグラフは、傾向を計算するために、過去数ヵ月間のデルタ（すなわち、差）を使用し、第３の象限２０６における偏差のグラフは、バイアスを計算するために特定期間のファセット１１４の絶対カウントを使用するという点で、計算がわずかに異なっている。

図３は、テキスト・マイナ１１０が、ファセット１１４の統計量を繰り返し計算し、ファセット１１４の統計量に基づいて文書１１２のセットを絞り込み、概念、トピック、又は文書１１２によって述べられる他の事実など、文書１１２と関連付けられたファセットを求めることを示す。

この例において、テキスト・マイナ１１０は、文書１１２のセット３０２ａについてのファセット１１４の統計量の計算３００ａを実行する。これらの計算３００ａに基づいて、初期絞り込み３０４ａのために、文書１１２の１つ又は複数の別のセット３０２ｂ、すなわちセット３０２ａのサブセット３０２ｂが選択される。

この初期絞り込み３０４ａにおいて、テキスト・マイナ１１０は、文書１１２のサブセット３０２ｂについてのファセット１１４の統計量の計算３００ｂを再び実行する。これらの計算３００ｂに基づいて、反復絞り込み３０４ｂのために、文書１１２の１つ又は複数の別のセット３０２ｃ、すなわちサブセット３０２ｂのサブセット３０２ｃが選択される。

この反復絞り込み３０４ｂにおいて、テキスト・マイナ１１０は、選択された文書１１２のサブセット３０２ｃに関するファセット１１４の統計量の計算３００ｃを再び実行する。これらの計算３００ｃに基づいて、選択された文書１１２のサブセット３０２ｃについて、特定の情報及び知識、この例では１つ又は複数のトピック３０６を含むファセット１１４が取得される。文書１１２と関連付けられたファセット１１４を識別するために、必要に応じて、さらなる反復絞り込み３０４及び計算３００を実行することができる。

ファセット１１４の統計量の計算３００は、絞り込み３０４に適した少なくとも１つのファセット１１４を見つけるために、各ファセット１１４の頻度、相関、時系列等を計算し、文書１１２のセット３０２から情報及び知識を取得することを含むことができる。文書１１２のセット３０２の絞り込み３０４は、ファセット１１４の統計量の計算３００に基づいて、１つ又は複数のファセット１１４を含む文書１１２のサブセット３０２を抽出することを含む。

例えば、ファセット１１４の統計量の計算３００を繰り返し、文書１１２のセット３０２の絞り込み３０４を繰り返すことは、トピック３０６について述べる文書１１２のセット３０２など、ファセット１１４の１つ又は複数と関連付けられた文書１１２のセット３０２を抽出するための主要な操作である。

図４は、テキスト・マイナ１１０が、各ファセット１１４の頻度を計算することを含む、文書１１２のセット３０２についてのファセット１１４の統計量の計算３００を実行することを示す。これらの計算３００に基づいて、高頻度のファセット１１４（すなわち、ファセット１１１４ａ、ファセット２１１４ｂ、ファセット３１１４ｃ、ファセット４１１４ｄ、ファセット５１１４ｅ、．．．）のリスト４００が生成される。

ユーザが、リスト４００から高い相関のファセット１１４の値を発見したいと仮定する。リスト４００内の高頻度のファセット１１４の数が大きい場合、高頻度のファセット１１４を手作業で相関させる作業負荷４０２は大きすぎることがある。

作業負荷４０２は、一般的には、成功又はプロセスの停止まで継続される様々な試みの繰り返しにより特徴付けられる試行錯誤（trial-and-error）プロセスを要するであろう。その結果として、文書１１２の現在のセット３０２から知識を取得できない場合には、テキスト・マイナ１１０は、絞り込み３０４をする前の文書１１２のセット３０２に戻り、別のファセット１１４で絞り込み３０４を試みることができる。その目的は、試行錯誤プロセスの試行数を減らすことである。

図５は、テキスト・マイナ１１０を用いて作業負荷４０２を減らすための１つの手法を示す。この例において、テキスト・マイナ１１０は、リスト４００内の高頻度のファセット１１４に対してクラスタ化５００を実行し、そこで、ファセット１１４は、トピック３０６に基づいて、クラスタ５０２にグループ化される。

具体的には、同じトピック３０６に属するファセット１１４は、１つのクラスタ５０２にグループ化され、ファセット１１１４ａ及びファセット３１１４ｃは、トピックＡ３０６ａと関連付けられたクラスタ５０２ａにグループ化され、ファセット２１１４ｂ及びファセット７１１４ｇは、トピックＢ３０６ｂと関連付けられたクラスタ５０２ｂにグループ化され、ファセット４１１４ｄ及びファセット５１１４ｅは、トピックＣ３０６ｃと関連付けられたクラスタ５０２ｃにグループ化され、ファセット６１１４ｆは、トピックＤ３０６ｄと関連付けられたクラスタ５０２ｄにグループ化される。ファセット１１４をトピック３０６に基づいて適切にクラスタ化５００することにより、試行錯誤プロセスに関与する時間が低減される。

図６は、テキスト・マイナ１１０が、クラスタ化５００を用いて、相関マトリックス６００を生成する方法を示す。相関マトリックス６００は、ｎ＝２である、ｎディメンション・ファセット・キューブであり、そこで、各ファセット１１４は、別個のディメンションであり、２つのディメンションの交点を計算し、表示することができる。この例では、相関マトリックス６００は、同じファセット１１４の値を有する交点を含む自己相関マトリックス６００である。

相関マトリックス６００において、同じファセット１１４の値（「ｅｎｇｉｎｅ（エンジン）」、「ｄａｙ（日）」、「ｓｕｎ（太陽）」、「ｈｅａｒ（聞く）」、「ｎｏｉｓｅ（ノイズ）」、「ｍｅｔｅｒ（メーター）」）は、マトリックス６００の行及び列の両方にラベルとして配置される。指定された行及び列の交点における各セルは、指定された列及び行により表されるファセット１１４の値についての相関値（又は絶対頻度）を有する。

さらに、相関マトリックス６００の行及び／又は列について、相関ベクトル６０２を生成することができる。この例では、相関ベクトル６０２は、ファセット１１４の値「ｎｏｉｓｅ」を表す行に対して生成され、そこで、相関ベクトル６０２は、「ｎｏｉｓｅ」行と「ｅｎｇｉｎｅ」列の交点におけるセルについての「高」相関値、「ｎｏｉｓｅ」行と「ｈｅａｒ」列の交点におけるセルについての「高」相関値、「ｎｏｉｓｅ」行と「ｎｏｉｓｅ」列の交点におけるセルについての「高」相関値、並びに「ｎｏｉｓｅ」行と「ｄａｙ」列の交点、「ｎｏｉｓｅ」行と「ｓｕｎ」列の交点、及び「ｎｏｉｓｅ」行と「ｍｅｔｅｒ」列の交点における残りのセルにおけるヌル（空白）の相関値から構成される。従って、「ｎｏｉｓｅ」のファセット１１４の値は、「ｅｎｇｉｎｅ」及び「ｈｅａｒ」のファセット１１４の値と大きく相関するが、「ｄａｙ」、「ｓｕｎ」及び「ｍｅｔｅｒ」のファセット１１４の値とはそれほど相関しない。

図７は、ファセット１１４のクラスタ化５００が、トピック３０６を含むファセット１１４を用いて、相関マトリックス６００の行又は列においてテキスト・マイナ１１０により実行される方法を示す。

この例では、文書１１２は、自動車に関連したコーパスからのものである。トピックＡ３０６ａは、「ｅｎｇｉｎｅ」、「ｈｅａｒ」及び「ｎｏｉｓｅ」の高相関のファセット１１４の値を含み、例えば、ノイズはエンジンから聞こえ、一方、トピックＢ３０６ｂは、「ｄａｙ」、「ｓｕｎ」及び「ｍｅｔｅｒ」の高相関のファセット１１４の値を含み、例えば、晴れた日に速度メーターを確認するのは困難である。

具体的には、クラスタ化５００は、相関ベクトル６０２に基づき、そこでは、同じトピック３０６に属する相関ベクトル６０２内の高関連のファセット１１４の値が、クラスタ５０２にグループ化される、又は一緒に集約される。テキスト・マイナ１１０はまた、クラスタ５０２の各々におけるファセット１１４の値の距離相関、すなわち統計的依存、並びに、クラスタ５０２の中心付近のファセット１１４の値を識別するために用いられる距離相関に基づいたクラスタ５０２の各々の中心も計算する。

図８は、リアルタイムの動的クラスタ化５００を実行するために相関マトリックス６００を用いることにより得られる利点を示す。具体的には、相関マトリックス６００を用いて、テキスト・マイナ１１０により、クラスタ化５００を動的に実行することができる。さらに、コンテンツ分析システム１００は、大規模分散システムにおいてさえ、ｎディメンションのキューブ構造を計算するためのインデックス構造を提供し、これを適用して、相関マトリックス６００を用いてリアルタイムでクラスタ化５００を実行することができる。

例えば、図８において、相関マトリックス６００の列ファセット１１４の値は、行ファセット１１４の値の時系列分析を実行するために動的に変更されている。具体的には、相関マトリックス６００の列についてのファセット１１４の値は、「Ｊａｎ」（１月）、「Ｆｅｂ」（２月）、「Ｍａｒ」（３月）、「Ａｐｒ」（４月）、「Ｍａｙ」（５月）及び「Ｊｕｎｅ」（６月）に変更されている。相関マトリックス６００から、「ｅｎｇｉｎｅ」、「ｈｅａｒ」、及び「ｎｏｉｓｅ」のファセット１１４の値を含むトピックＡ３０６ａは、１月及び２月においてクラスタ５０２と高く相関し、一方、「ｄａｙ」、「ｓｕｎ」及び「ｍｅｔｅｒ」のファセット１１４の値を含むトピックＢ３０６ｂは、４月及び５月においてクラスタ５０２と高く相関する。

最終結果は、テキスト・マイナ１１０により実行されるリアルタイムの動的クラスタ化５００である。リアルタイムの動的クラスタ化５００を用いて、エンドユーザは、ファセット１１４の値の分析をリアルタイムで動的に変更することができる。

フローチャート
図９は、１つの実施形態による、１つ又は複数の文書１１２における非構造化データを分析するための、ファセット１１４に基づいたテキスト・マイニング１１０を示すフローチャートである。

ブロック９００は、テキスト・マイナ１１０が、１つ又は複数の文書１１２のセット（Ｄ）３０２に対するファセット・クラスタ化要求を受け取ることを表す。

ブロック９０２は、テキスト・マイナ１１０が、セット（Ｄ）３０２と関連付けられた１つ又は複数のファセットについての相関マトリックス６００である２ディメンション・ファセット・キューブを生成することを示す。

ブロック９０４は、テキスト・マイナ１１０が、相関マトリックス６００内の相関ベクトル６０２において１つ又は複数のファセット１１４を少なくとも１つのクラスタ５０２にグループ化することを含む、相関マトリックス６００の１つ又は複数の行をクラスタ化すること５００を表す。

ブロック９０６は、テキスト・マイナ１１０が、クラスタ５０２の各々についての中心を計算することを表す。

ブロック９０８は、テキスト・マイナ１１０が、クラスタ５０２の各々の計算された中心付近に位置するファセット１１４を、そのクラスタ５０２を代表するものとして識別することにより、受け取った要求に応答することを表す。

経験的結果
図１０は、例えば、車の問題報告書を含む文書１１２のコーパスに本発明を適用することにより生じる経験的結果を示す、クライアント１０４上に表示されたユーザ・インターフェース１０００を示す。この例において、ユーザ・インターフェース１０００は、相関ベクトル空間上に選択及びプロットされた、各ファセット１１４についての２ディメンション相関ベクトルのグラフを含み、そこで、ｘ軸及びｙ軸は、主成分分析（ＰＣＡ）により低減又は圧縮された相関ベクトル・ディメンションである。

例えば、１００２は、リコールの根拠を形成し得る下部ボール・ジョイントの問題を報告する多くの文書１１２があることを示す「下部（ｌｏｗ）」、「ボール（ｂａｌｌ）」及び「ジョイント（ｊｏｉｎｔ）」のファセット１１４の値の相関を表す。

コンピュータ・プログラム製品
本発明は、システム、方法、及び／又はコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体（単数又は複数）を含むことができる。

コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの：すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、パンチカード若しくは命令がそこに記録された溝内の***構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバ・ケーブルを通る光パルス）、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング／処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び／又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び／又はエッジ・サーバを含むことができる。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体に格納する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、及び、「Ｃ」プログラミング言語若しくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む１つ又は複数のプログラミング言語の任意の組み合わせで記述されるソース・コード又はオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）若しくは広域ネットワーク（ＷＡＮ）を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある（例えば、インターネットサービスプロバイダを用いたインターネットを通じて）。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、又はプログラム可能論理アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行して、電子回路を個別化することができる。

本発明の態様は、本発明の実施形態による方法、装置（システム）及びコンピュータ・プログラム製品のフローチャート図及び／又はブロック図を参照して説明される。フローチャート図及び／又はブロック図の各ブロック、並びにフローチャート図及び／又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。

これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えて機械を製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び／又はブロック図の１つ又は複数のブロック内で指定された機能／動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、及び／又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて指定された機能／動作の態様を実施する命令を含む製品を含むようにすることもできる。

コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生産し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて指定された機能／動作を実行するためのプロセスを提供するようにすることもできる。

図面内のフローチャート及びブロック図は、本発明の様々な実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための１つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される２つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び／又はフローチャート図の各ブロック、及びブロック図及び／又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。

結論
本発明の種々の実施形態の説明は、例証の目的のために提示されたが、これらは、網羅的であること、又は本発明を開示した実施形態に限定することを意図するものではない。当業者には、説明される実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が明らかであろう。本明細書で用いられる用語は、実施形態の原理、実際の適用、又は市場に見られる技術に優る技術的改善を最もよく説明するため、又は、当業者が、本明細書に開示される実施形態を理解するのを可能にするために選択された。

１０２：サーバ・コンピュータ
１０４：クライアント・コンピュータ
１０６：ネットワーク
１０８：データ・ストア
１００：コンテンツ分析システム
１２０：テキスト・マイナ
１１２：文書
１１４：ファセット
２００：ユーザ・インターフェース
２０２、２０４、２０６、２０８：象限
３００、３００ａ、３００ｂ：計算
３０４、３０４ａ、３０４ｂ：反復絞り込み
３０６：トピック
４００：リスト
４０２：作業負荷
５００：クラスタ化
５０２：クラスタ
６００：相関マトリックス
６０２：相関ベクトル

本発明は、テキスト・マイニングに関し、より具体的には、２ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラムに関する。

Claims

コンピュータ実施方法であって、
１つ又は複数の文書における非構造化データを分析するために、
前記１つ又は複数の文書のセットと関連付けられた１つ又は複数のファセットについての相関マトリックスである２ディメンション・ファセット・キューブを生成することと、
前記相関マトリックにおいて、前記１つ又は複数のファセットを少なくとも１つのクラスタにグループ化することと、
前記クラスタについての中心を計算することと、
前記クラスタの前記計算された中心付近に位置するファセットを、前記クラスタを代表するものとして識別することと、
によって、ファセットに基づいたテキスト・マイニングを行うことを含む、方法。
前記相関マトリックスは、自己相関マトリックスを含む、請求項１に記載の方法。
前記相関マトリックスの指定された行と列との交点は、前記指定された行と列とにより表される前記ファセットについての相関値を有する、請求項１に記載の方法。
前記１つ又は複数のファセットをグループ化することは、
前記相関マトリックスの行又は列についての相関ベクトルを生成することと、
前記相関ベクトルにおいて前記ファセットを前記クラスタにグループ化することと、
をさらに含む、請求項３に記載の方法。
前記クラスタ内の前記ファセットについての距離相関を計算することをさらに含む、請求項４に記載の方法。
前記距離相関に基づいて、前記クラスタの中心を計算し、前記クラスタの前記中心に最も近い前記クラスタ内の前記ファセットの少なくとも１つを識別することをさらに含む、請求項５に記載の方法。
前記セット内の前記文書と関連付けられた前記ファセットを判断するために、ファセット統計量を繰り返し計算すること、及び前記ファセット統計量に基づいて前記セットを絞り込むことをさらに含む、請求項１に記載の方法。
コンピュータ実施システムであって、
１つ又は複数の文書における非構造化データを分析するために、
前記１つ又は複数の文書のセットと関連付けられた１つ又は複数のファセットについての相関マトリックスである２ディメンション・ファセット・キューブを生成することと、
前記相関マトリックにおいて、前記１つ又は複数のファセットを少なくとも１つのクラスタにグループ化することと、
前記クラスタについての中心を計算することと、
前記クラスタの前記計算された中心付近に位置するファセットを、前記クラスタを代表するものとして識別することと、
によって、ファセットに基づいたテキスト・マイニングを行うようにプログラムされた１つ又は複数のコンピュータを含む、システム。
前記相関マトリックスは、自己相関マトリックスを含む、請求項８に記載のシステム。
前記相関マトリックスの指定された行と列との交点は、前記指定された行と列とにより表される前記ファセットについての相関値を有する、請求項８に記載のシステム。
前記１つ又は複数のファセットをグループ化することは、
前記相関マトリックスの行又は列についての相関ベクトルを生成することと、
前記相関ベクトルにおいて前記ファセットを前記クラスタにグループ化することと、
をさらに含む、請求項１０に記載のシステム。
前記クラスタ内の前記ファセットについての距離相関を計算することをさらに含む、請求項１１に記載のシステム。
前記距離相関に基づいて、前記クラスタの中心を計算し、前記クラスタの前記中心に最も近い前記クラスタ内の前記ファセットの少なくとも１つを識別することをさらに含む、請求項１２に記載のシステム。
前記セット内の前記文書と関連付けられた前記ファセットを判断するために、ファセット統計量を繰り返し計算すること、及び前記ファセット統計量に基づいて前記セットを絞り込むことをさらに含む、請求項８に記載のシステム。
プログラム命令がそこに具体化されたコンピュータ可読ストレージ媒体を含むコンピュータ・プログラム製品であって、前記プログラム命令は、前記コンピュータに、方法を実行させるように、１つ又は複数のコンピュータにより実行可能であり、前記方法は、
１つ又は複数の文書における非構造化データを分析するために、
前記１つ又は複数の文書のセットと関連付けられた１つ又は複数のファセットについての相関マトリックスである２ディメンション・ファセット・キューブを生成することと、
前記相関マトリックにおける前記１つ又は複数のファセットを少なくとも１つのクラスタにグループ化することと、
前記クラスタについての中心を計算することと、
前記クラスタの前記計算された中心付近に位置するファセットを、前記クラスタを代表するものとして識別することと、
によって、ファセットに基づいたテキスト・マイニングを行うことを含む、コンピュータ・プログラム製品。
前記相関マトリックスは、自己相関マトリックスを含む、請求項１５に記載のコンピュータ・プログラム製品。
前記相関マトリックスの指定された行と列との交点は、前記指定された行と列とにより表される前記ファセットについての相関値を有する、請求項１５に記載のコンピュータ・プログラム製品。
前記１つ又は複数のファセットをグループ化することは、
前記相関マトリックスの行又は列についての相関ベクトルを生成することと、
前記相関ベクトルにおいて前記ファセットを前記クラスタにグループ化することと、
をさらに含む、請求項１５に記載のコンピュータ・プログラム製品。
前記クラスタ内の前記ファセットについての距離相関を計算することをさらに含む、請求項１８に記載のコンピュータ・プログラム製品。
前記距離相関に基づいて、前記クラスタの中心を計算し、前記クラスタの前記中心に最も近い前記クラスタ内の前記ファセットの少なくとも１つを識別することをさらに含む、請求項１９に記載のコンピュータ・プログラム製品。
前記セット内の前記文書と関連付けられた前記ファセットを判断するために、ファセット統計量を繰り返し計算すること、及び前記ファセット統計量に基づいて前記セットを絞り込むことをさらに含む、請求項１５に記載のコンピュータ・プログラム製品。