JP2021508113A - 2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム - Google Patents

2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム Download PDF

Info

Publication number
JP2021508113A
JP2021508113A JP2020533829A JP2020533829A JP2021508113A JP 2021508113 A JP2021508113 A JP 2021508113A JP 2020533829 A JP2020533829 A JP 2020533829A JP 2020533829 A JP2020533829 A JP 2020533829A JP 2021508113 A JP2021508113 A JP 2021508113A
Authority
JP
Japan
Prior art keywords
cluster
facets
facet
correlation
correlation matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020533829A
Other languages
English (en)
Other versions
JP7496774B2 (ja
Inventor
福田 剛志
剛志 福田
弘晶 菊地
弘晶 菊地
晋平 四倉
晋平 四倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021508113A publication Critical patent/JP2021508113A/ja
Application granted granted Critical
Publication of JP7496774B2 publication Critical patent/JP7496774B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 テキスト・マイニングのために2ディメンション・ファセット・キューブ上のファセットをクラスタ化するためのコンピュータ実施方法及びシステムを提供する。【解決手段】 方法及びシステムは、1つ又は複数の文書における非構造化データを分析するために、1つ又は複数の文書のセットと関連付けられた1つ又は複数のファセットについての相関マトリックスである2ディメンション・ファセット・キューブを生成することと、相関マトリックにおける1つ又は複数のファセットを少なくとも1つのクラスタにグループ化することと、クラスタの中心を計算することと、クラスタの計算された中心付近に位置するファセットを、クラスタを代表するものとして識別することとによって、ファセットに基づいたテキスト・マイニングを行う。【選択図】 図1

Description

多数の検索方法がある。ナビゲーション検索は、階層構造又はタクソノミ(taxonomy)を用いて、ユーザが情報を閲覧するのを可能にする。直接検索(direct search)は、ユーザが、1つ又は複数のキーワードを用いて情報を照会するのを可能にする。ファセット検索(faceted search)は、多くの場合、複数のフィルタ及び/又はキーワードをファセット階層に適用してユーザが情報を探索するのを可能にすることにより、ナビゲーション検索及び直接検索の両方の要素を組み合わせる。
ファセット階層は、ファセット(facet)と呼ばれるディメンション(dimension)に沿って情報を分類する。ファセットは、情報のプロパティに対応し、種々の抽出技術を用いてテキスト又は文書の分析により、又は情報と関連付けられたメタデータから、導出されることが多い。例えば、オンライン小売業者は、タイプ、ブランド、価格等のような製品属性を反映するファセット階層を用いることが多い。ファセット値をファセット階層に手作業で付加すること、又はテキスト・マイニング・ソフトウェアを用いて自動的に抽出することが可能である。
ファセットを用いて、nディメンション・ファセット・キューブを生成することができ、ファセット・キューブにより、データへのマルチ・ディメンションのアクセスが可能になる。各ファセットは、ファセット・キューブの別個のディメンションであり、所定期間に販売された特定のタイプ、ブランド及び価格の全ての製品などの、2又はそれより多いディメンションの交点を計算し、表示することができる。これは、ユーザが、ファセット値における複雑な関係を照会し、ファセット値における以前は未知であった関係を発見することを可能にする。
しかしながら、本技術分野において、ファセット値を導出する改善された技術に対する必要性がある。
本明細書で与えられる本発明は、例えば、テキスト・マイニングのために2ディメンション・ファセット・キューブ上のファセットをクラスタ化するためのコンピュータ実施方法及びシステムを実装するのに有用な多数の実施形態を有する。
方法及びシステムは、1つ又は複数の文書内の非構造化データを分析するために、ファセットに基づいたテキスト・マイニングを実行する。1つ又は複数の文書のセットと関連付けられた1つ又は複数のファセットについての相関マトリックスである2ディメンション・ファセット・キューブが生成される。相関マトリックスにおいて、1つ又は複数のファセットが少なくとも1つのクラスタにグループ化される。クラスタの中心が計算される。クラスタの計算された中心付近に位置するファセットが、クラスタを代表するものとして識別される。
相関マトリックスは、自己相関マトリックスを含むことができる。相関マトリックスの指定された行と列との交点は、指定された行と列とにより表されるファセットについての相関値を有する。
相関マトリックスにおいてファセットをクラスタにグループ化することは、相関マトリックスの行又は列についての相関ベクトルを生成することと、相関ベクトルにおいてファセットをクラスタにグループ化することとをさらに含む。
方法及びシステムは、クラスタ内のファセットについての距離相関を計算すること、及び、距離相関に基づいて、クラスタの中心を計算し、クラスタの中心に最も近いクラスタ内のファセットの少なくとも1つを識別することをさらに含むことができる。
方法及びシステムは、セット内の文書と関連付けられたファセットを判断するために、ファセット統計量を繰り返し計算すること、及びファセット統計量に基づいてセットを絞り込む(refine)ことをさらに含むことができる。
結果として、本発明は、非構造化テキストの文章を分析するための改善された技術を提供する。具体的には、本発明は、文書をテキスト・マイニングすることにより、ファセット値を自動的に導出する。ファセット値の動的クラスタ化は、相関マトリックスであるnディメンション・ファセット・キューブを用いて自動的に実行される。結果は、ファセット値の間、並びに文書自体の間の関係の発見を含む。
ここで図面を参照し、そこでは、全体を通して同様の参照番号が対応する部分を表す。
1つの実施形態による、コンテンツ分析システムの実施形態を示す。 ファセットの統計量の計算からの結果を示すユーザ・インターフェースを示す。 テキスト・マイナ(text miner)が、文書のセットについてのファセット統計量を繰り返し計算し、ファセットの統計量に基づいて文書のセットを絞り込むことを示す。 テキスト・マイナが、各ファセットの頻度を計算することを含む、文書のセットに関するファセット統計量の計算を実行することを示す。 テキスト・マイナを用いて作業負荷を低減させるための1つの手法を示す。 テキスト・マイナが、相関マトリックスを用いて、クラスタ化を実行する方法を示す。 相関マトリックスの行及び/又は列において、テキスト・マイナにより、ファセットのクラスタ化を実行する方法を示す。 ファセットのリアルタイムの動的クラスタ化を実行するために相関マトリックスを用いることにより得られる利点を示す。 1つの実施形態による、テキスト・マイナにより実行されるステップを示すフローチャートである。 ファセットのリアルタイムの動的クラスタ化を文書のコーパスに適用することにより生じる経験的結果を示すユーザ・インターフェースを示す。
以下の説明において、本明細書の一部を形成する添付図面を参照し、図面には、本発明を実施できる1つ又は複数の特定の実施形態が実例として示される。他の実施形態を利用することもでき、本発明の範囲から逸脱することなく、構造的及び機能的変更を行い得ることを理解されたい。
概要
文書内に見出されるテキストなどの非構造化データを分析する改善された技術に対する必要性が増大している。ファセットに基づいたテキスト・マイニングは、非構造化データを分析するためのより効果的な方法の1つである。
この文脈において、ファセットは、1つ又は複数の文書のセットと関連付けられた「タグ」である。具体的には、ファセットは、1つ又は複数の特定条件を満たす文書と関連付けられる。特定条件の例として、特定のキーワードが文書内に現れる、文書が特定の日付範囲で作成された、文書が特定のトピックを含む等を挙げることができる。
本発明は、文書又は他の非構造化テキストのテキスト・マイニングにより、ファセット値を自動的に導出し、次に、nディメンション・ファセット・キューブを生成し、ファセットをクラスタ化する。これにより、ファセットの間並びに文書自体の間の関係の発見が可能になる。
ファセット処理
図1は、ネットワーク106上で1又は複数のクライアント・コンピュータ104から受け取った要求を処理する1又は複数のサーバ・コンピュータ102を含むコンテンツ分析システム100の実施形態を示す。サーバ102は、テキスト・データ及び他のデータから構成されるデータ・ストア108を維持する。以下により詳細に説明されるように、サーバ102は、1つ又は複数の文書112を分析し、文書112のためのファセット114を生成するテキスト・マイナ110を実行する。具体的には、テキスト・マイナ110は、テキスト分析を文書112に適用し、ファセット114についての値を求める。テキスト分析は、文書112から、例えばコンテンツ、トピック等のような情報及び知識を抽出し、その情報をファセット114の値として分類する技術である。
ファセット114の値は、1つ又は複数の文書112から判断されるべき特定のタイプの情報を含むことができる。例えば、ファセット114の値は、文書112のトピックを含むことができ、これは、そのコンテンツに関して文書112をテキスト・マイニングすることによって判断される。
図2に示されるように、ファセット114についての統計量を計算することにより、文書112についての概要を生成することができる。具体的には、図2は、例えば、1つ又は複数の文書112についての、ファセット114の相関202、傾向204、偏差206、及びファセット・ペアの間の関係208を示す4つの象限202〜208を有する、クライアント104上に表示されるユーザ・インターフェース200を示す。具体的には、第1の象限202は、ファセット114のサイズが1つ又は複数の文書112との相関を示すワード・クラウド(word cloud)を表示し(例えば、ファセット114が大きいほど、文書112との相関が大きくなる)、第2の象限204は、1つ又は複数の文書112における各ファセット114の発生の傾向を日付順に示す傾向グラフを表示し、第3の象限206は、1つ又は複数の文書112における各ファセット114の発生の時間バイアスを日付順に示す偏差のグラフを表示し、第4の象限208は、1つ又は複数の文書112におけるファセット114の間の関係を示すファセット・ペアのグラフを表示する(円が大きいほど、文書112においてファセット114が一緒により多く現れる)。象限204及び206は、類似しているように見えるが、第2の象限204における傾向のグラフは、傾向を計算するために、過去数ヵ月間のデルタ(すなわち、差)を使用し、第3の象限206における偏差のグラフは、バイアスを計算するために特定期間のファセット114の絶対カウントを使用するという点で、計算がわずかに異なっている。
図3は、テキスト・マイナ110が、ファセット114の統計量を繰り返し計算し、ファセット114の統計量に基づいて文書112のセットを絞り込み、概念、トピック、又は文書112によって述べられる他の事実など、文書112と関連付けられたファセットを求めることを示す。
この例において、テキスト・マイナ110は、文書112のセット302aについてのファセット114の統計量の計算300aを実行する。これらの計算300aに基づいて、初期絞り込み304aのために、文書112の1つ又は複数の別のセット302b、すなわちセット302aのサブセット302bが選択される。
この初期絞り込み304aにおいて、テキスト・マイナ110は、文書112のサブセット302bについてのファセット114の統計量の計算300bを再び実行する。これらの計算300bに基づいて、反復絞り込み304bのために、文書112の1つ又は複数の別のセット302c、すなわちサブセット302bのサブセット302cが選択される。
この反復絞り込み304bにおいて、テキスト・マイナ110は、選択された文書112のサブセット302cに関するファセット114の統計量の計算300cを再び実行する。これらの計算300cに基づいて、選択された文書112のサブセット302cについて、特定の情報及び知識、この例では1つ又は複数のトピック306を含むファセット114が取得される。文書112と関連付けられたファセット114を識別するために、必要に応じて、さらなる反復絞り込み304及び計算300を実行することができる。
ファセット114の統計量の計算300は、絞り込み304に適した少なくとも1つのファセット114を見つけるために、各ファセット114の頻度、相関、時系列等を計算し、文書112のセット302から情報及び知識を取得することを含むことができる。文書112のセット302の絞り込み304は、ファセット114の統計量の計算300に基づいて、1つ又は複数のファセット114を含む文書112のサブセット302を抽出することを含む。
例えば、ファセット114の統計量の計算300を繰り返し、文書112のセット302の絞り込み304を繰り返すことは、トピック306について述べる文書112のセット302など、ファセット114の1つ又は複数と関連付けられた文書112のセット302を抽出するための主要な操作である。
図4は、テキスト・マイナ110が、各ファセット114の頻度を計算することを含む、文書112のセット302についてのファセット114の統計量の計算300を実行することを示す。これらの計算300に基づいて、高頻度のファセット114(すなわち、ファセット1 114a、ファセット2 114b、ファセット3 114c、ファセット4 114d、ファセット5 114e、...)のリスト400が生成される。
ユーザが、リスト400から高い相関のファセット114の値を発見したいと仮定する。リスト400内の高頻度のファセット114の数が大きい場合、高頻度のファセット114を手作業で相関させる作業負荷402は大きすぎることがある。
作業負荷402は、一般的には、成功又はプロセスの停止まで継続される様々な試みの繰り返しにより特徴付けられる試行錯誤(trial-and-error)プロセスを要するであろう。その結果として、文書112の現在のセット302から知識を取得できない場合には、テキスト・マイナ110は、絞り込み304をする前の文書112のセット302に戻り、別のファセット114で絞り込み304を試みることができる。その目的は、試行錯誤プロセスの試行数を減らすことである。
図5は、テキスト・マイナ110を用いて作業負荷402を減らすための1つの手法を示す。この例において、テキスト・マイナ110は、リスト400内の高頻度のファセット114に対してクラスタ化500を実行し、そこで、ファセット114は、トピック306に基づいて、クラスタ502にグループ化される。
具体的には、同じトピック306に属するファセット114は、1つのクラスタ502にグループ化され、ファセット1 114a及びファセット3 114cは、トピックA 306aと関連付けられたクラスタ502aにグループ化され、ファセット2 114b及びファセット7 114gは、トピックB 306bと関連付けられたクラスタ502bにグループ化され、ファセット4 114d及びファセット5 114eは、トピックC 306cと関連付けられたクラスタ502cにグループ化され、ファセット6 114fは、トピックD 306dと関連付けられたクラスタ502dにグループ化される。ファセット114をトピック306に基づいて適切にクラスタ化500することにより、試行錯誤プロセスに関与する時間が低減される。
図6は、テキスト・マイナ110が、クラスタ化500を用いて、相関マトリックス600を生成する方法を示す。相関マトリックス600は、n=2である、nディメンション・ファセット・キューブであり、そこで、各ファセット114は、別個のディメンションであり、2つのディメンションの交点を計算し、表示することができる。この例では、相関マトリックス600は、同じファセット114の値を有する交点を含む自己相関マトリックス600である。
相関マトリックス600において、同じファセット114の値(「engine(エンジン)」、「day(日)」、「sun(太陽)」、「hear(聞く)」、「noise(ノイズ)」、「meter(メーター)」)は、マトリックス600の行及び列の両方にラベルとして配置される。指定された行及び列の交点における各セルは、指定された列及び行により表されるファセット114の値についての相関値(又は絶対頻度)を有する。
さらに、相関マトリックス600の行及び/又は列について、相関ベクトル602を生成することができる。この例では、相関ベクトル602は、ファセット114の値「noise」を表す行に対して生成され、そこで、相関ベクトル602は、「noise」行と「engine」列の交点におけるセルについての「高」相関値、「noise」行と「hear」列の交点におけるセルについての「高」相関値、「noise」行と「noise」列の交点におけるセルについての「高」相関値、並びに「noise」行と「day」列の交点、「noise」行と「sun」列の交点、及び「noise」行と「meter」列の交点における残りのセルにおけるヌル(空白)の相関値から構成される。従って、「noise」のファセット114の値は、「engine」及び「hear」のファセット114の値と大きく相関するが、「day」、「sun」及び「meter」のファセット114の値とはそれほど相関しない。
図7は、ファセット114のクラスタ化500が、トピック306を含むファセット114を用いて、相関マトリックス600の行又は列においてテキスト・マイナ110により実行される方法を示す。
この例では、文書112は、自動車に関連したコーパスからのものである。トピックA 306aは、「engine」、「hear」及び「noise」の高相関のファセット114の値を含み、例えば、ノイズはエンジンから聞こえ、一方、トピックB 306bは、「day」、「sun」及び「meter」の高相関のファセット114の値を含み、例えば、晴れた日に速度メーターを確認するのは困難である。
具体的には、クラスタ化500は、相関ベクトル602に基づき、そこでは、同じトピック306に属する相関ベクトル602内の高関連のファセット114の値が、クラスタ502にグループ化される、又は一緒に集約される。テキスト・マイナ110はまた、クラスタ502の各々におけるファセット114の値の距離相関、すなわち統計的依存、並びに、クラスタ502の中心付近のファセット114の値を識別するために用いられる距離相関に基づいたクラスタ502の各々の中心も計算する。
図8は、リアルタイムの動的クラスタ化500を実行するために相関マトリックス600を用いることにより得られる利点を示す。具体的には、相関マトリックス600を用いて、テキスト・マイナ110により、クラスタ化500を動的に実行することができる。さらに、コンテンツ分析システム100は、大規模分散システムにおいてさえ、nディメンションのキューブ構造を計算するためのインデックス構造を提供し、これを適用して、相関マトリックス600を用いてリアルタイムでクラスタ化500を実行することができる。
例えば、図8において、相関マトリックス600の列ファセット114の値は、行ファセット114の値の時系列分析を実行するために動的に変更されている。具体的には、相関マトリックス600の列についてのファセット114の値は、「Jan」(1月)、「Feb」(2月)、「Mar」(3月)、「Apr」(4月)、「May」(5月)及び「June」(6月)に変更されている。相関マトリックス600から、「engine」、「hear」、及び「noise」のファセット114の値を含むトピックA 306aは、1月及び2月においてクラスタ502と高く相関し、一方、「day」、「sun」及び「meter」のファセット114の値を含むトピックB 306bは、4月及び5月においてクラスタ502と高く相関する。
最終結果は、テキスト・マイナ110により実行されるリアルタイムの動的クラスタ化500である。リアルタイムの動的クラスタ化500を用いて、エンドユーザは、ファセット114の値の分析をリアルタイムで動的に変更することができる。
フローチャート
図9は、1つの実施形態による、1つ又は複数の文書112における非構造化データを分析するための、ファセット114に基づいたテキスト・マイニング110を示すフローチャートである。
ブロック900は、テキスト・マイナ110が、1つ又は複数の文書112のセット(D)302に対するファセット・クラスタ化要求を受け取ることを表す。
ブロック902は、テキスト・マイナ110が、セット(D)302と関連付けられた1つ又は複数のファセットについての相関マトリックス600である2ディメンション・ファセット・キューブを生成することを示す。
ブロック904は、テキスト・マイナ110が、相関マトリックス600内の相関ベクトル602において1つ又は複数のファセット114を少なくとも1つのクラスタ502にグループ化することを含む、相関マトリックス600の1つ又は複数の行をクラスタ化すること500を表す。
ブロック906は、テキスト・マイナ110が、クラスタ502の各々についての中心を計算することを表す。
ブロック908は、テキスト・マイナ110が、クラスタ502の各々の計算された中心付近に位置するファセット114を、そのクラスタ502を代表するものとして識別することにより、受け取った要求に応答することを表す。
経験的結果
図10は、例えば、車の問題報告書を含む文書112のコーパスに本発明を適用することにより生じる経験的結果を示す、クライアント104上に表示されたユーザ・インターフェース1000を示す。この例において、ユーザ・インターフェース1000は、相関ベクトル空間上に選択及びプロットされた、各ファセット114についての2ディメンション相関ベクトルのグラフを含み、そこで、x軸及びy軸は、主成分分析(PCA)により低減又は圧縮された相関ベクトル・ディメンションである。
例えば、1002は、リコールの根拠を形成し得る下部ボール・ジョイントの問題を報告する多くの文書112があることを示す「下部(low)」、「ボール(ball)」及び「ジョイント(joint)」のファセット114の値の相関を表す。
コンピュータ・プログラム製品
本発明は、システム、方法、及び/又はコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの:すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、パンチカード若しくは命令がそこに記録された溝内の***構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び/又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び/又はエッジ・サーバを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語若しくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述されるソース・コード又はオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行して、電子回路を個別化することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/又はブロック図を参照して説明される。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えて機械を製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロック内で指定された機能/動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、及び/又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作の態様を実施する命令を含む製品を含むようにすることもできる。
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生産し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実行するためのプロセスを提供するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の様々な実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び/又はフローチャート図の各ブロック、及びブロック図及び/又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
結論
本発明の種々の実施形態の説明は、例証の目的のために提示されたが、これらは、網羅的であること、又は本発明を開示した実施形態に限定することを意図するものではない。当業者には、説明される実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が明らかであろう。本明細書で用いられる用語は、実施形態の原理、実際の適用、又は市場に見られる技術に優る技術的改善を最もよく説明するため、又は、当業者が、本明細書に開示される実施形態を理解するのを可能にするために選択された。
102:サーバ・コンピュータ
104:クライアント・コンピュータ
106:ネットワーク
108:データ・ストア
100:コンテンツ分析システム
120:テキスト・マイナ
112:文書
114:ファセット
200:ユーザ・インターフェース
202、204、206、208:象限
300、300a、300b:計算
304、304a、304b:反復絞り込み
306:トピック
400:リスト
402:作業負荷
500:クラスタ化
502:クラスタ
600:相関マトリックス
602:相関ベクトル
本発明は、テキスト・マイニングに関し、より具体的には、2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラムに関する。

Claims (21)

  1. コンピュータ実施方法であって、
    1つ又は複数の文書における非構造化データを分析するために、
    前記1つ又は複数の文書のセットと関連付けられた1つ又は複数のファセットについての相関マトリックスである2ディメンション・ファセット・キューブを生成することと、
    前記相関マトリックにおいて、前記1つ又は複数のファセットを少なくとも1つのクラスタにグループ化することと、
    前記クラスタについての中心を計算することと、
    前記クラスタの前記計算された中心付近に位置するファセットを、前記クラスタを代表するものとして識別することと、
    によって、ファセットに基づいたテキスト・マイニングを行うことを含む、方法。
  2. 前記相関マトリックスは、自己相関マトリックスを含む、請求項1に記載の方法。
  3. 前記相関マトリックスの指定された行と列との交点は、前記指定された行と列とにより表される前記ファセットについての相関値を有する、請求項1に記載の方法。
  4. 前記1つ又は複数のファセットをグループ化することは、
    前記相関マトリックスの行又は列についての相関ベクトルを生成することと、
    前記相関ベクトルにおいて前記ファセットを前記クラスタにグループ化することと、
    をさらに含む、請求項3に記載の方法。
  5. 前記クラスタ内の前記ファセットについての距離相関を計算することをさらに含む、請求項4に記載の方法。
  6. 前記距離相関に基づいて、前記クラスタの中心を計算し、前記クラスタの前記中心に最も近い前記クラスタ内の前記ファセットの少なくとも1つを識別することをさらに含む、請求項5に記載の方法。
  7. 前記セット内の前記文書と関連付けられた前記ファセットを判断するために、ファセット統計量を繰り返し計算すること、及び前記ファセット統計量に基づいて前記セットを絞り込むことをさらに含む、請求項1に記載の方法。
  8. コンピュータ実施システムであって、
    1つ又は複数の文書における非構造化データを分析するために、
    前記1つ又は複数の文書のセットと関連付けられた1つ又は複数のファセットについての相関マトリックスである2ディメンション・ファセット・キューブを生成することと、
    前記相関マトリックにおいて、前記1つ又は複数のファセットを少なくとも1つのクラスタにグループ化することと、
    前記クラスタについての中心を計算することと、
    前記クラスタの前記計算された中心付近に位置するファセットを、前記クラスタを代表するものとして識別することと、
    によって、ファセットに基づいたテキスト・マイニングを行うようにプログラムされた1つ又は複数のコンピュータを含む、システム。
  9. 前記相関マトリックスは、自己相関マトリックスを含む、請求項8に記載のシステム。
  10. 前記相関マトリックスの指定された行と列との交点は、前記指定された行と列とにより表される前記ファセットについての相関値を有する、請求項8に記載のシステム。
  11. 前記1つ又は複数のファセットをグループ化することは、
    前記相関マトリックスの行又は列についての相関ベクトルを生成することと、
    前記相関ベクトルにおいて前記ファセットを前記クラスタにグループ化することと、
    をさらに含む、請求項10に記載のシステム。
  12. 前記クラスタ内の前記ファセットについての距離相関を計算することをさらに含む、請求項11に記載のシステム。
  13. 前記距離相関に基づいて、前記クラスタの中心を計算し、前記クラスタの前記中心に最も近い前記クラスタ内の前記ファセットの少なくとも1つを識別することをさらに含む、請求項12に記載のシステム。
  14. 前記セット内の前記文書と関連付けられた前記ファセットを判断するために、ファセット統計量を繰り返し計算すること、及び前記ファセット統計量に基づいて前記セットを絞り込むことをさらに含む、請求項8に記載のシステム。
  15. プログラム命令がそこに具体化されたコンピュータ可読ストレージ媒体を含むコンピュータ・プログラム製品であって、前記プログラム命令は、前記コンピュータに、方法を実行させるように、1つ又は複数のコンピュータにより実行可能であり、前記方法は、
    1つ又は複数の文書における非構造化データを分析するために、
    前記1つ又は複数の文書のセットと関連付けられた1つ又は複数のファセットについての相関マトリックスである2ディメンション・ファセット・キューブを生成することと、
    前記相関マトリックにおける前記1つ又は複数のファセットを少なくとも1つのクラスタにグループ化することと、
    前記クラスタについての中心を計算することと、
    前記クラスタの前記計算された中心付近に位置するファセットを、前記クラスタを代表するものとして識別することと、
    によって、ファセットに基づいたテキスト・マイニングを行うことを含む、コンピュータ・プログラム製品。
  16. 前記相関マトリックスは、自己相関マトリックスを含む、請求項15に記載のコンピュータ・プログラム製品。
  17. 前記相関マトリックスの指定された行と列との交点は、前記指定された行と列とにより表される前記ファセットについての相関値を有する、請求項15に記載のコンピュータ・プログラム製品。
  18. 前記1つ又は複数のファセットをグループ化することは、
    前記相関マトリックスの行又は列についての相関ベクトルを生成することと、
    前記相関ベクトルにおいて前記ファセットを前記クラスタにグループ化することと、
    をさらに含む、請求項15に記載のコンピュータ・プログラム製品。
  19. 前記クラスタ内の前記ファセットについての距離相関を計算することをさらに含む、請求項18に記載のコンピュータ・プログラム製品。
  20. 前記距離相関に基づいて、前記クラスタの中心を計算し、前記クラスタの前記中心に最も近い前記クラスタ内の前記ファセットの少なくとも1つを識別することをさらに含む、請求項19に記載のコンピュータ・プログラム製品。
  21. 前記セット内の前記文書と関連付けられた前記ファセットを判断するために、ファセット統計量を繰り返し計算すること、及び前記ファセット統計量に基づいて前記セットを絞り込むことをさらに含む、請求項15に記載のコンピュータ・プログラム製品。
JP2020533829A 2017-12-18 2018-12-12 2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム Active JP7496774B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/845,023 US10657145B2 (en) 2017-12-18 2017-12-18 Clustering facets on a two-dimensional facet cube for text mining
US15/845,023 2017-12-18
PCT/IB2018/059906 WO2019123113A1 (en) 2017-12-18 2018-12-12 Clustering facets on a two-dimensional facet cube for text mining

Publications (2)

Publication Number Publication Date
JP2021508113A true JP2021508113A (ja) 2021-02-25
JP7496774B2 JP7496774B2 (ja) 2024-06-07

Family

ID=66816030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020533829A Active JP7496774B2 (ja) 2017-12-18 2018-12-12 2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム

Country Status (6)

Country Link
US (1) US10657145B2 (ja)
JP (1) JP7496774B2 (ja)
CN (1) CN111512304B (ja)
DE (1) DE112018006438T5 (ja)
GB (1) GB2582730A (ja)
WO (1) WO2019123113A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10657145B2 (en) 2017-12-18 2020-05-19 International Business Machines Corporation Clustering facets on a two-dimensional facet cube for text mining
US11361030B2 (en) 2019-11-27 2022-06-14 International Business Machines Corporation Positive/negative facet identification in similar documents to search context
US11841909B2 (en) 2022-02-11 2023-12-12 International Business Machines Corporation Text analytics views for web site sources

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093650A (ja) * 2007-10-05 2009-04-30 Fujitsu Ltd 文書の段落分析によるその文書のタグの選択
WO2015140492A1 (en) * 2014-03-21 2015-09-24 The Secretary Of State For Defence Recognition of objects within a video
US20170004208A1 (en) * 2015-07-04 2017-01-05 Accenture Global Solutions Limited Generating a domain ontology using word embeddings

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778995B1 (en) 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US8285719B1 (en) 2008-08-08 2012-10-09 The Research Foundation Of State University Of New York System and method for probabilistic relational clustering
US9360982B2 (en) 2012-05-01 2016-06-07 International Business Machines Corporation Generating visualizations of facet values for facets defined over a collection of objects
CN103514183B (zh) * 2012-06-19 2017-04-12 北京大学 基于交互式文档聚类的信息检索方法及***
US9378065B2 (en) * 2013-03-15 2016-06-28 Advanced Elemental Technologies, Inc. Purposeful computing
US9483580B2 (en) 2013-06-11 2016-11-01 International Business Machines Corporation Estimation of closeness of topics based on graph analytics
CN103678599B (zh) * 2013-12-13 2016-10-26 北京奇虎科技有限公司 基于plsa算法判断文档相关性的方法及装置
CN105205052B (zh) 2014-05-30 2019-01-25 华为技术有限公司 一种数据挖掘方法及装置
US10657145B2 (en) 2017-12-18 2020-05-19 International Business Machines Corporation Clustering facets on a two-dimensional facet cube for text mining

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093650A (ja) * 2007-10-05 2009-04-30 Fujitsu Ltd 文書の段落分析によるその文書のタグの選択
WO2015140492A1 (en) * 2014-03-21 2015-09-24 The Secretary Of State For Defence Recognition of objects within a video
US20170004208A1 (en) * 2015-07-04 2017-01-05 Accenture Global Solutions Limited Generating a domain ontology using word embeddings

Also Published As

Publication number Publication date
CN111512304B (zh) 2023-09-19
WO2019123113A1 (en) 2019-06-27
US10657145B2 (en) 2020-05-19
GB2582730A (en) 2020-09-30
US20190188304A1 (en) 2019-06-20
CN111512304A (zh) 2020-08-07
DE112018006438T5 (de) 2020-09-03
GB202010822D0 (en) 2020-08-26
JP7496774B2 (ja) 2024-06-07

Similar Documents

Publication Publication Date Title
US11354365B1 (en) Using aggregate compatibility indices to identify query results for queries having qualitative search terms
US11314733B2 (en) Identification of relevant data events by use of clustering
US20210042306A1 (en) Querying an archive for a data store
US11614856B2 (en) Row-based event subset display based on field metrics
US11989707B1 (en) Assigning raw data size of source data to storage consumption of an account
US11748351B2 (en) Class specific query processing
Chebbi et al. Big data: Concepts, challenges and applications
JP7496774B2 (ja) 2ディメンション・ファセット・キューブ上のファセットのクラスタ化を用いたテキスト・マイニングのための方法、システム及びコンピュータ・プログラム
US11687219B2 (en) Statistics chart row mode drill down
WO2019142052A2 (en) Elastic distribution queuing of mass data for the use in director driven company assessment
US20170147652A1 (en) Search servers, end devices, and search methods for use in a distributed network
US9984108B2 (en) Database joins using uncertain criteria
CN111931034A (zh) 数据搜索方法、装置、设备及存储介质
US9286349B2 (en) Dynamic search system
US20160055424A1 (en) Intelligent horizon scanning
US20170316012A1 (en) Systems and methods for ranking electronic content using topic modeling and correlation
US11500933B2 (en) Techniques to generate and store graph models from structured and unstructured data in a cloud-based graph database system
Velinov et al. Analysis of Apache Logs Using Hadoop and Hive
Hameed et al. Big data: mathematical topology video data analytics using superimposed learning
CN115269785A (zh) 搜索方法、装置、计算机设备和存储介质
Garg et al. Dynamic System for Performance Analysis of Information Interchange

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200819

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210525

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221012

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240327

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20240514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240528

R150 Certificate of patent or registration of utility model

Ref document number: 7496774

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150