JP7038136B2 - 自然言語ダイアログを用いる対話型テキスト・マイニング方法、装置、プログラム - Google Patents

自然言語ダイアログを用いる対話型テキスト・マイニング方法、装置、プログラム Download PDF

Info

Publication number
JP7038136B2
JP7038136B2 JP2019551606A JP2019551606A JP7038136B2 JP 7038136 B2 JP7038136 B2 JP 7038136B2 JP 2019551606 A JP2019551606 A JP 2019551606A JP 2019551606 A JP2019551606 A JP 2019551606A JP 7038136 B2 JP7038136 B2 JP 7038136B2
Authority
JP
Japan
Prior art keywords
facet
analysis
statistical analysis
natural language
language sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019551606A
Other languages
English (en)
Other versions
JP2020516985A (ja
Inventor
隼輔 石川
雅樹 米谷
豊 守屋
弘晶 菊地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2020516985A publication Critical patent/JP2020516985A/ja
Application granted granted Critical
Publication of JP7038136B2 publication Critical patent/JP7038136B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本出願は、一般に、改善されたデータ処理システム及び方法に関し、より具体的には、ファセットに対する文書の統計分析のための機構に関する。
テキスト・マイニング(text mining)は、必ずしも文書のコンテンツ全体を読み取ることなく、文書の大量の非構造化テキスト・データから知識を取得する技術である。テキスト・マイニング・システムは、非構造化テキスト・データを分析し、文書の特徴を表す語又は句のセットであるファセット(facet)を抽出することができる。さらに、テキスト・マイニング・システムは、クエリ(例えば、自然言語文検索でのクエリ、ファセット検索でのクエリ)を用いて文書を絞り込み(narrow down)、ファセットに関する現在の文書(絞りこまれた文書)の種々の統計分析を実行することができる。
テキスト・マイニングの有意な結果を取得するためには、1つの分析プロセスでは不十分であり、2つの分析プロセスを実行する必要がある。2つの分析プロセスは、文書を興味ある文書に絞り込み、興味ある文書に特有の語(word)を識別する第1の分析プロセスと、その語の出現の理由を識別する第2の分析プロセスとを含むことができる。
しかしながら、通常、第1の分析プロセスしか実行されないと考えられるので、ユーザが、テキスト・マイニングの有意な結果を取得する可能性が低いという問題が生じる。
従って、本発明が解決しようとする課題は自然言語ダイアログを用いる対話型テキスト・マイニング方法、装置、プログラムを提供することである。
第1の態様から見ると、本発明は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサにより実行され、かつ、少なくとも1つのプロセッサに、ファセットに対する文書の統計分析を実行するための文書分析デバイスを実装させる命令を含む少なくとも1つのメモリと、を含むデータ処理システムにおける方法を提供し、この方法は、文書分析デバイス内で実行される受入モジュールにより、自然言語文を受け入れることと;文書分析デバイス内で実行される抽出モジュールにより、自然言語文から第1のファセットを抽出することと;文書分析デバイス内で実行される統計分析モジュールにより、第1のファセットに対する文書のセットの第1の統計分析を実行することと;統計分析モジュールにより、第2の統計分析を要求している情報が自然言語文から抽出されることに応答して、第1の統計分析の結果に基づいて第1のファセットの値を判断することと;統計分析モジュールにより、第1のファセットの値を用いて文書のセットの第2の統計分析を実行することと;データ処理システムにより実行されるユーザ・インターフェースにより、第2の統計分析の結果に基づいて判断した第2のファセットを提示することと、を含む。
さらに別の態様によると、本発明は、ファセットに対する文書の統計分析を実行するための装置を提供し、この装置は、プロセッサと、プロセッサに結合されたメモリであって、プロセッサにより実行されるとき、プロセッサに、ファセットに対する文書の統計分析を実行するための文書分析デバイスを実装させる命令を含むメモリとを含み、命令は、プロセッサに:文書分析デバイス内で実行される受入モジュールにより、自然言語文を受け入れることと;文書分析デバイス内で実行される抽出モジュールにより、自然言語文から第1のファセットを抽出することと;文書分析デバイス内で実行される統計分析モジュールにより、第1のファセットに対する文書のセットの第1の統計分析を実行することと;統計分析モジュールにより、第2の統計分析を要求している情報が自然言語文から抽出されることに応答して、第1の統計分析の結果に基づいて第1のファセットの値を判断することと;統計分析モジュールにより、第1のファセットの値を用いて文書のセットの第2の統計分析を実行することと;データ処理システムにより実行されるユーザ・インターフェースにより、第2の統計分析の結果に基づいて判断した第2のファセットを提示することと、を行わせる。
さらに別の態様から見ると、本発明は、ファセットに対する文書の統計分析を実行するためのコンピュータ・プログラム製品であって、処理回路により可読であり、かつ、本発明のステップを実行するための、処理回路により実行される命令を格納するコンピュータ可読ストレージ媒体を含むコンピュータ・プログラム製品を提供する。
さらに別の態様から見ると、本発明は、コンピュータ可読媒体上に格納され、デジタル・コンピュータの内部メモリ内にロード可能なコンピュータ・プログラムであって、プログラムがコンピュータ上で実行されるとき、本発明のステップを実行するための、ソフトウェア・コード部分を含む、コンピュータ・プログラムを提供する。
1つの例示的な実施形態において、少なくとも1つのプロセッサと、少なくとも1つのプロセッサにより実行され、かつ、少なくとも1つのプロセッサに、ファセットに対する文書の統計分析を実行するための文書分析デバイスを実装させる命令を含む少なくとも1つのメモリとを含むデータ処理システムにおける方法が提供される。この方法は、文書分析デバイス内で実行される受入モジュールにより、自然言語文を受け入れることを含む。方法は、文書分析デバイス内で実行される抽出モジュールにより、自然言語文から第1のファセットを抽出することをさらに含む。方法は、文書分析デバイス内で実行される統計分析モジュールにより、第1のファセットに対する文書のセットの第1の統計分析を実行することをさらに含む。方法は、統計分析モジュールにより、第2の統計分析を要求している情報が自然言語文から抽出されることに応答して、第1の統計分析の結果に基づいて第1のファセットの値を判断することをさらに含む。方法は、統計分析モジュールにより、第1のファセットの値を用いて文書のセットの第2の統計分析を実行することをさらに含む。方法は、データ処理システムにより実行されるユーザ・インターフェースにより、第2の統計分析の結果に基づいて判断した第2のファセットを提示することをさらに含む。
他の例示的な実施形態において、コンピュータ可読プログラムを有するコンピュータ使用可能媒体又はコンピュータ可読媒体を含むコンピュータ・プログラム製品が提供される。コンピュータ可読プログラムは、コンピューティング・デバイス上で実行されるとき、そのコンピューティング・デバイスに、方法の例示的な実施形態に関して上で概説した動作のうちの様々な動作、及び動作の組み合わせを実行させる。
さらに別の例示的な実施形態において、システム/装置が提供される。このシステム/装置は、1つ又は複数のプロセッサと、その1つまたは複数のプロセッサに結合されたメモリとを含み得る。そのメモリは、1つまたは複数のプロセッサによって実行されると、その1つ又は複数のプロセッサに、方法の例示的な実施形態に関して上で概説した動作のうちの様々な動作、及び動作の組み合わせを実行させる命令を含み得る。
本発明のこれら、並びに他の特徴及び利点は、以下の本発明の例示的な実施形態の詳細な説明において説明され、又はその詳細な説明に鑑みて当業者には明白となるであろう。
本発明、並びに本発明の好ましい使用形態、及びさらなる目的及び利点は、以下の例示的な実施形態の詳細な説明を参照し、添付図面と併せて読むことで、最もよく理解されるであろう。
従来技術による、本発明の好ましい実施形態を実施できる、実際の分析プロセスの例を示す。 例示的な実施形態による、文書分析システムのブロック図を示す。 例示的な実施形態による、入力画面の例を示す。 例示的な実施形態による、マイニング・グラフ画面の例を示す。 例示的な実施形態による、自動分析指定が自然言語文内に含まれるときに表示されるマイニング・グラフ画面の例を示す。 例示的な実施形態による、マイニング・グラフ画面に加えて表示されるファセット画面の例を示す。 例示的な実施形態による、詳細分析画面が呼び出される直前に表示されるマイニング・グラフ画面の例を示す。 例示的な実施形態による、詳細分析画面の例を示す。 例示的な実施形態による、文書分析の動作の例を表すフローチャートを示す。 例示的な実施形態による、文書分析の動作の例を表すフローチャートを示す。 従来技術による、本発明の好ましい実施形態を実施できる、例示的な分散型データ処理システムの図形的表現を示す。 従来技術による、本発明の好ましい実施形態を実施できる、一例にすぎないデータ処理システムのブロック図である。
例示的な実施形態は、自然言語ダイアログを用いる対話型テキスト・マイニングのサポートのためのシステム及びユーザ・インターフェースを提供する。このシステムは、ユーザの分析を認識し、自動分析と支援を実行する。ユーザが実行したいと思う分析を、自然言語文で記述することができる。システムは、自然言語文からの分析のステップを理解し、分析を支援する。より具体的には、システムは、ユーザとの対話を通じて必要な情報を適切に格納しながら、分析ステップを自動的に実行し、分析画面を表示する。
ユーザ・インターフェースは、自然言語文の入力及び自然言語文のサンプルを表示するための分析入力画面及び実際のマイニングのためのマイニング画面を用いて、分析状況、語の間の関係、及び分析したコンテンツを直観的に理解することを可能にする。マイニング画面は、対話型マイニング・プロセスを視覚化するためのマイニング・グラフ画面、現在の文書のセット及び分析されるファセットからの最適な分析ダッシュボードを表示するための分析画面、及び利用可能なファセットを列挙するためのファセット画面で構成される。
例示的な実施形態の種々の態様の議論を始める前に、最初に、本説明全体を通じて、「機構」という用語は、種々の動作、機能等を実行する本発明の要素を指すために用いられることを理解されたい。本明細書でこの用語が用いられる場合、「機構」は、装置、手順、又はコンピュータ・プログラム製品の形態の、例示的な実施形態の機能又は態様の実装とすることができる。手順の場合、その手順は、1つ又は複数のデバイス、装置、コンピュータ、データ処理システム等により実施される。コンピュータ・プログラム製品の場合、コンピュータ・プログラム製品内又はその上に具体化されたコンピュータ・コード又は命令により表される論理が、1つ又は複数のハードウェア・デバイスにより実行され、機能を実施する又は特定の「機構」と関連付けられた動作を実行する。従って、本明細書で説明される機構は、専用ハードウェア、汎用ハードウェア上で実行されるソフトウェア、媒体上に格納されるソフトウェア命令として実装することができ、命令は、専用又は汎用ハードウェア、機能を実行するための手順若しくは方法、又は上記のいずれかの組み合わせにより容易に実行可能である。
本説明及び特許請求の範囲は、例示的な実施形態の特定の特徴及び要素に関して、「1つの(a)」、「~の少なくとも1つ(at least one of)」及び「~の1つ又は複数(one or more of)」という用語を利用することがある。これらの用語及び句は、特定の例示的な実施形態内に存在する特定の特徴又は要素の少なくとも1つが存在するが、1つより多くが存在し得ることを述べるように意図されることを理解されたい。つまり、これらの用語/句は、説明又は特許請求の範囲を存在する単一の特徴/要素に限定することも、又は複数のこうした特徴/要素が存在することを必要とすることも意図しない。逆に、これらの用語/句は、説明及び特許請求の範囲内にある複数のこうした特徴/要素の可能性を有する少なくとも単一の特徴/要素のみを必要とする。
さらに、以下の説明は、例示的な実施形態の種々の要素についての複数の種々の例を用いて、例示的な実施形態の例示的実装をさらに示し、例示的な実施形態の機構の理解を助けることを理解されたい。これらの例は、限定ではなく、例示的な実施形態の機構を実装するための種々の可能性を網羅するものでもない。本発明の趣旨及び範囲から逸脱することなく、本明細書で与えられる例に加えて又はその代わりに利用することができるこれらの種々の要素の多くの他の代替的な実装があることは、本説明に鑑みて当業者には明らかであろう。
図1は、実際の分析プロセスの例を示す。この例において、ユーザは、車両型式(vehicle model)(以下、単に「型式(model)」と呼ぶ)内で頻繁に発生する問題及び問題の原因を見つけ出すために、車両故障について文書を分析すると考えられる。
プロセス#1において、ユーザは、最初に、ノード31で示されるように、分析される型式(この例では「ABC」)をクエリ語(query word)として用いて文書を絞り込むことができる。つまり、ユーザは、ファセット「型式」の値「ABC」を用いて、ファセット検索を実行することができる。以下、ファセットの値を「ファセット値」と呼ぶ。次に、ユーザは、分析されるファセット「部品(Component)」を選択し、ファセットに対する現在の文書の相関分析を実行することができる。図1において、相関分析の結果は、ノード32で示されるように、ファセット値「ブレーキ(Brake)」が、ファセット「部品」のファセット値の中で型式「ABC」に大きく関連していることを明らかにすると考えられる。従って、ユーザは、ファセット値「ブレーキ」を用いて現在の文書をさらに絞り込み、ブレーキが問題を有する理由を見つけ出すことができる。つまり、ユーザは、ファセット「部品」のファセット値「ブレーキ」を用いてファセット検索を実行することができる。
プロセス#2において、プロセス#1の最後の分析ステップに関して上述したように、ユーザは、ファセット値「ブレーキ」を用いて現在の文書を絞り込むことができる。次に、ユーザは、種々のファセット(例えば、名詞、州等)に対して現在の文書の相関分析を実行することができる。図1において、相関分析の結果は、ノード33で示されるように、ファセット値「さび(Rust)」が、ファセット「名詞(Noun)」のファセット値の中でファセット値「ブレーキ」に大きく関連していることを明らかにすると考えられる。さらに、ノード34で示されるように、相関分析の結果は、ファセット値「北部(Northern)」が、ファセット「州(State)」のファセット値の中でファセット値「ブレーキ」に大きく関連していることを明らかにすると考えられる。これは、北部の州では、路面の凍結を防止するために塩をまくためであり、これによりブレーキが錆びる。
しかしながら、上述のテキスト・マイニング・システムがこうした分析プロセスに適用されると仮定すると、様々な点での改善が必要である。例えば、上述のテキスト・マイニング・システムは、統計分析がファセットに対して実行される場合に有用であると考え得るファセットを提案することが望ましい。さらに、絞り込みと統計分析により得られる語と句との間の関係は重要であるので、上述のテキスト・マイニング・システムは、ユーザが関係を理解するのを可能にすることが望ましい。
この点に鑑みて、例示的な実施形態は、文書を分析するユーザの意図を認識し、文書を自動的に分析し、文書を分析する際にユーザを支援するシステムを提供することができる。システムは、ユーザが、分析状況、分析される語又は句の間の関係、及び分析結果を直観的に理解するのを可能にするユーザ・インターフェースをさらに含むことができる。
図2は、例示的な実施形態による、文書分析システムのブロック図を示す。図に示されるように、文書分析システムは、文書分析デバイス10及びユーザ・インターフェース20を含むことができる。文書分析デバイス10は、文書を分析するユーザの意図を認識し、文書を自動的に分析し、文書を分析する際にユーザを支援することができる。
つまり、文書分析デバイス10は、ユーザが自然言語文で実行することを望む分析を、ユーザが記述するのを可能にする。文書分析システム10は、自然言語文から分析ステップを理解し、分析においてユーザを支援することができる。より具体的には、文書分析デバイス10は、ユーザとの対話を通じて必要な情報を適切に補足しながら、分析ステップを自動的に実行し、分析画面を表示することができる。
例えば、上述の例において、ユーザは、自然言語文「どの部品が型式ABCと高い相関を有するか、それは何故か?(What Component is highly correlated to Model ABC and Why?)」を文書分析デバイス10に入力することができる。文書分析デバイス10は、自然言語文を理解し、プロセス#1を自動的に実行することができる。さらに、文書分析デバイス10は、処理をプロセス#2に進め、ファセットに対して高い相関が検出される可能性が高い場合、分析軸の候補をファセットとして提案し、ファセットを分析画面上に表示することができる。
図2に示されるように、文書分析デバイス10は、受入モジュール11、抽出モジュール12、絞り込みモジュール13、統計分析モジュール14、選択モジュール15、提案モジュール16、及び詳細分析モジュール17を含むことができる。
受入モジュール11は、所定のパターンの理解可能な自然言語文を有することができ、パターン照合を通じて、所定の自然言語文の意味を理解することができる。自然言語文は、基本的には、対話型テキスト・マイニングの1つの分析プロセスを表すことができる。従って、自然言語文は、分析されるファセット(以下、「分析ファセット」と呼ぶ)、使用される統計分析のタイプ(以下、「統計分析タイプ」と呼ぶ)、及び必要に応じて、文書を絞り込むためのクエリ語又は句(以下、「クエリ」と呼ぶ)を含むことができる。分析ファセットは、分析ファセット名の形で自然言語文内に含まれ得る。分析ファセット名のリストは、あらかじめユーザによりシステムに与えられると考えられる。自然言語文内に含まれる分析ファセットは、第1のファセットの一例となることに留意されたい。統計分析タイプも、統計分析名の形で自然言語文内に含まれ得る。自然言語文内に含まれるタイプの統計分析は、第1の統計分析の一例となることに留意されたい。
自然言語文が曖昧なクエリを含む場合、受入モジュール11は、ユーザが曖昧さを解決するのを可能にするための画面を表示することができる。例えば、自然言語文がクエリ「ABC」を含む場合、受入モジュール11は、ユーザが、ファセット「型式」のクエリ、ファセット「名詞」のクエリ、及び簡単なテキスト検索のためのクエリのどれが、自然言語文内に含まれるクエリ「ABC」であるかを判断するための画面をユーザに対して表示することができる。
多くの分析において、1つの分析プロセスでは、対話型テキスト・マイニングには不十分であり、典型的には、2つの分析プロセスが実行される。2つの分析プロセスは、文書を興味ある文書に絞りこみ、興味ある文書に特有の語を識別する第1の分析プロセス(図1のプロセス#1に対応する)と、語の出現の理由を識別する第2の分析プロセス(図1のプロセス#2に対応する)とを含むことができる。従って、好ましい例示的な実施形態において、自然言語文は、自動分析を指定するための特定の語又は句を含むことができる。以下、自動分析を指定するための特定の語又は句を「自動分析指定」と呼ぶ。自動分析指定は、第1の分析プロセスを実行し、統計分析が第2の分析プロセスのファセットに対して実行される場合に有用であると考え得る分析ファセットを提示するよう、システムに指定することができる。例えば、「それは何故?」のような句を、自動分析指定として用いることができる。
抽出モジュール12は、分析ファセット、統計分析タイプ、及びクエリを抽出することができる。さらに、抽出モジュール12は、それが自然言語文内に含まれる場合、自然言語文から自動分析指定を抽出することができる。例えば、抽出モジュール12は、自然言語文「どの部品が型式ABCと高い相関を有するか?」から、分析ファセット「部品」、統計分析タイプ「相関分析(Correlation analysis)」、ファセット「型式」のクエリ「ABC」を抽出することができる。抽出モジュール12は、自然言語文「どの部品が型式ABCと高い相関を有するか、それは何故か?」から、分析ファセット「部品」、統計分析タイプ「相関分析」、ファセット「型式」のクエリ「ABC」、及び自動分析指定「それは何故か?」を抽出することができる。抽出モジュール12は、自然言語文「最も良い心象を受ける製品はどれか?(What Product has the best sentiment?)」から、分析ファセット「製品(Product)」及び統計分析タイプ「感情分析(sentiment analysis)」を抽出することができる。
絞り込みモジュール13は、自然言語文から抽出したクエリを用いて文書を絞り込み、絞り込んだ文書を現在の文書として扱うことができる。いずれのクエリも自然言語文から抽出されなかった場合、絞り込みモジュール13は、全ての文書を現在の文書として扱うことができる。
統計分析モジュール14は、統計分析タイプ、及び統計分析タイプと関連付けられた語又は句のリストを保持するように考えられる。例えば、統計分析モジュール14は、語「相関(correlation)」又はその派生語が自然言語文内に含まれる場合、相関分析を認識し、「感情」を表す語が自然言語文内に含まれる場合、感情分析を認識することができる。自動分析指定が自然言語文から抽出されない場合、統計分析モジュール14は、自然言語文から抽出した分析ファセットに対する統計分析を実行し、統計分析の結果を分析画面上に表示することができる。自動分析指定が自然言語文から抽出された場合、統計分析モジュール14は、自然言語文から抽出した分析ファセットに対する統計分析を実行し、次の分析プロセスに自動的に進むことができる。
選択モジュール15は、所定のアルゴリズムを用いた統計分析の結果に基づいて、ファセット値を選択し、選択したファセット値を用いて現在の文書を絞り込むことができる。一部のアルゴリズムは、ファセット値に対する複数の候補を見出すことがあり、選択モジュール15は、ユーザにそれらの1つを選択するように指示する画面を表示することができる。選択モジュール15は、自然言語文内の情報を用いて、アルゴリズムを選択することができる。具体的には、選択モジュール15は、形容詞の語又は句、副詞の語又は句等を使用することができ、それらは、統計分析タイプと関連付けられた語又は句を修正する。例えば、句「最も高い相関(the highest correlation)」が自然言語文内に含まれる場合、選択モジュール15は、相関分析の結果に基づいて最も高い相関インジケータを有するファセット値を選択することができる。句「高い相関がある(highly correlated)」が自然言語文内に含まれる場合、選択モジュール15は、上位3つの相関インジケータを有するファセット値を取得し、該ファセット値をユーザに提示することができる。句「経験的に相関がある(empirically correlated)」が自然言語文内に含まれる場合、選択モジュール15は、ソフトウェア処理(例えば、過去の統計分析に機械学習)の結果に基づいて、経験的に有意のファセット値を選択することができる。
提案モジュール16は、ファセットに対する現在の文書の統計分析を実行することができる。統計分析は、システムにより定められるデフォルトの統計分析とすることができる。さらに、統計分析は、システムにより定められるファセットの各々に対して実行することができる。提案モジュール16は、分析ファセットを提示することができ、その各々は、高い統計インジケータを有する多くのファセット値を分析軸として含む。単純なブルート・フォース・アルゴリズム(simple brute force algorithm)を通じて、すなわち、システムにより定められる全てのファセットの各々に対して統計分析を実行すると考えられるが、提案モジュール16は、別のアルゴリズムを使用することができる。提案モジュール16により実行される統計分析は、第2の統計分析の一例となり、提案モジュール16により提示される分析ファセットは、第2のファセットの一例となることに留意されたい。
詳細分析モジュール17は、統計分析の詳細な結果を詳細分析画面上に表示することができる。分析プロセスは、詳細分析画面上で選択されるファセット値を用いて現在の文書をさらに絞り込むことによって、第3の分析プロセス、第4の分析プロセス等に進むことができる。この場合、詳細分析モジュール17は、選択モジュール15及び提案モジュール16に、第2の分析プロセスにおけるものと同じ処理を実行させることができる。
ユーザ・インターフェース20は、ユーザが、分析状況、分析された語又は句の間の関係、及び分析結果を直観的に理解するのを可能にする。図2に示されるように、ユーザ・インターフェース20は、入力画面21及びマイニング画面22を含むことができる。入力画面21は、ユーザにより入力された自然言語文、及びあらかじめシステム内に格納された自然文のサンプルを表示することができる。入力画面21は、初期画面として表示し、自然言語文を通じた分析の指定に応答して、マイニング画面22に変更することができる。
マイニング画面22は、実際のマイニングのために動作し得る。マイニング画面22は、マイニング・グラフ画面23、ファセット画面24、及び詳細分析画面25を含むことができる。マイニング・グラフ画面23は、対話型テキスト・マイニング・プロセスを視覚化するためにマイニング・グラフを表示することができる。ファセット画面24は、利用可能なファセットのリストを表示することができる。詳細分析画面25は、現在の文書及び分析ファセットから得られたダッシュボードを表示することができる。マイニング画面22は、最初に、例えば図2に示されるレイアウトを有するが、レイアウトを変更してもよい。
図3は、例示的な実施形態による、入力画面21の例を示す。図に示されるように、入力画面21は、入力領域211、及びサンプル表示領域212a乃至212cを含むことができる。ユーザは、自然言語文を入力領域211に入力することによって、又はサンプル表示領域212a乃至212cのいずれか1つに表示される自然言語文サンプルを選択することによって、分析を開始することができる。ユーザが自然言語文を入力領域211に入力すると、システムが保持する文のパターンに対して、自然言語文を検証することができ、合致した文のパターンに対応する自然言語文サンプルを、自然言語文の候補としてサンプル表示領域212a乃至212cに表示することができる。ユーザは、候補の中から1つの自然言語文サンプルを選択することができる。入力領域211が空になると、自然言語文サンプルの初期リストが、サンプル表示領域212a乃至212cに表示され得る。自然言語文は、基本的に、入力画面21上でテキストの形で表示されると考えられるが、ファセットの名前のような特定のキーワードが視覚的に強調表示されることもある。さらに、ユーザ・インターフェースを提供し、それで、単にファセットの名前又は統計分析の名前を表す語を別の語に変更することができる。
図4は、例示的な実施形態による、マイニング・グラフ画面23の例を示す。図に示されるように、マイニング・グラフ画面23は、コンソール231及びマイニング・ツリー232を含むことができる。コンソール231は、システムの現在の処理状況に関する通知を発行することができる。マイニング・ツリー232は、現在の分析状況を視覚化することができる。図3の入力画面211の自然言語文サンプルの1つを選択すると、このマイニング・グラフ画面23が表示され得る。コンソール231及びマイニング・ツリー232のコンテンツは、分析プロセスが変更するたびに変更され得る。
例えば、自然言語文「どの部品が型式ABCと高い相関を有するか、それは何故か?」が選択されると、図4のマイニング・ツリー232が表示されると考えられる。マイニング・ツリー232は、各々がステップにおいて用いられるクエリを用いる分析ステップを示すノード233a及び233bと、各々がステップにおいて提案されるファセット値を用いる分析ステップを示すノード233c乃至233eとを含むことができる。文書の数、統計インジケータ、統計分析タイプ等のような付加的な情報を、ノード233a乃至233eの各々と関連して表示することもできる。
マイニング・ツリー232は、ノード233aと233bとの間のリンク234bを含むことができる。このリンク234bは、文書が、ノード233bに対応するクエリを用いて既に絞りこまれたことを示すように、実線で示される。マイニング・ツリー232は、それぞれ、ノード233bとノード233c乃至233eとの間のリンク234c乃至234eをさらに含むことができる。これらのリンク234c乃至234eは、現在の文書がファセットに対して分析されていることを示すように、破線で示され、ファセットは、各々が高い統計インジケータを有するファセット値を有する分析ファセットとして提示される。デフォルトの場合、システムにより提案されると考えられるが、分析ファセットは、ユーザにより指定されてもよく、又は既存のものと置き換えてもよい。
図4のマイニング・ツリー232は、ユーザが、ファセット「型式」のクエリ「ABC」を用いて文書を絞り込み、ファセット「部品」のファセット値「フレーム(Frame)」を用いて現在の文書をさらに絞り込んだことを示す。図4のマイニング・ツリー232は、現在の文書が分析されており、分析ファセット「ネガティブ(Negative)」、「州(State)」及び「型式年度(Model Year)」が提案される。図4のノード233bで示される分析ステップにおいて1つのファセットだけが選択されると考えられるが、ステップにおいて、複数のファセットを選択できることにも留意されたい。さらに、図4のノード233bで示される分析ステップにおいて、1つのファセット値だけが選択されると考えられるが、ステップにおいて複数のファセット値が選択されることもある。
分析のコンテンツは、マイニング・グラフ画面23上で変更することができる。ユーザは、ノードを選択することにより、ノードの別の値を容易に識別することが可能である。ポップアップ・ウィンドウなどのユーザ・インターフェースを用いて、ノードの別の値を識別することもできる。文書を絞り込むために既に使用されたクエリを変更することにより、処理を新しい分析プロセスに分岐させることができる。例えば、ファセット「部品」のファセット値「フレーム」をファセット「部品」のファセット値「ブレーキ」に変更し、新しい分析プロセスを開始することができる。この場合、ファセット「型式」のファセット値「ABC」から、新しいリンクを確立することができ、リンクに対応する分析プロセスを、新しい分析プロセスとして扱うことができる。
図5は、自動分析指定が自然言語文内に含まれるときに表示されるマイニング・グラフ画面23の例を示す。第1の分析プロセスは、自動的に実行することができる。自動分析指定が自然言語文内に含まれるとき、基本的に、第2の分析プロセスが自動的に実行され得る。しかしながら、システムが用いる幾つかのアルゴリズムは、ユーザが、複数のファセット値の1つを選択することを要求する。こうした場合、分析結果の簡単な表示をノードの周りに提示し、ユーザの選択を可能にすることができる。例えば、図5は、自然言語文「どの部品が型式ABCと高い相関を有するか、それは何故か?」が選択された状況において、上位3つのファセット値から1つのファセット値を選択するよう指示するためのツールチップ235を示す。
図6は、例示的な実施形態による、マイニング・グラフ画面23に加えて表示されるファセット画面24の例を示す。ファセット画面24上に、ファセットのリストを表示することができる。ファセットがツリー構造を構成する場合、ツリー構造を表示することができる。ファセット画面24は、ドラッグ・アンド・ドロップ動作により、マイニング・グラフ画面23上に既に表示されている分析ファセットに付加されるべき新しいファセットを提供することができる。例えば、図6において、矢印236で示されるように、分析ファセット233fが、ドラッグ・アンド・ドロップ動作により、分析ファセット233c乃至233eに付加される。代替的に、ファセット画面24は、マイニング・グラフ画面23上の既に表示されている分析ファセットと置き換えられる新しいファセットを提供することができる。ドラッグ・アンド・ドロップ動作により、既に表示されている分析ファセット上に新しいファセットを重ねることにより、既に表示されている分析ファセットを新しいファセットと置き換えることができる。こうした動作は、ユーザが、提案される分析ファセットが有用でないと感じたとき、又は自由に選択したファセットを分析したいと望むときに実行できることに留意されたい。従って、既に表示されている分析ファセットと同様に、新しいファセットを表すノードを、高い統計インジケータを有する新しいファセットのファセット値と共に、マイニング・グラフ画面23上に表示することができる。
図7を参照すると、例示的な実施形態による、詳細分析画面25が呼び出される直前に表示されるマイニング・グラフ画面23の例が示される。詳細分析画面25は、ユーザが、クリック動作により、詳細に分析される1つ又複数の分析ファセットを表す1つ又は複数のノードを選択するときに表示し、1つ又は複数の分析ファセットの詳細分析に移行するためのトリガを作動させることができる。図7において、丸い太線で示されるように、詳細分析画面25を開くためのボタン237が、ノード233c乃至233fを選択する際の状態で表示されると考えられる。自然言語文に応答した文書の分析の直後、マイニング・ツリー232の一番右のノードにより表される分析ファセットを自動的に選択し、詳細分析画面25上に表示できることに留意されたい。
代替的に、クリック動作により、ユーザが、1つ又は複数の分析ファセットの1つ又は複数のファセット値を選択すると、詳細分析画面25が表示できるが、この場合は、図示されていない。この場合、現在の文書は、詳細分析画面25の表示より前に、選択された1つ又は複数のファセット値を用いて絞り込むことができる。例えば、分析ファセット「ネガティブ」のファセット値「穴(hole)」が選択されたと仮定すると、ファセット値「穴」を用いて現在の文書を絞り込み、その後、詳細分析画面25を表示することができる。
図8は、例示的な実施形態による、詳細分析画面25の例を示す。詳細分析画面25は、選択された分析ファセットに関する統計分析の結果を表示するダッシュボードとすることができる。図8において、語のセット251、棒グラフ252、円グラフ253及び地図254が表示される。例えば、地図254を用いて、場所の名前を示す分析ファセットに関する統計分析の結果を表示することができる。システムは、分析ファセットを、該分析ファセットに関する統計分析の結果の表示モードと関連付ける特定の規則を提供すると考えられることに留意されたい
分析ファセットは、ファセット画面24からこの詳細分析画面25まで、ファセットをドラッグ及びドロップすることにより、変更することができる。さらに、任意のユーザ・インターフェースを通じて、統計分析タイプを随意的に変更することができる。
ユーザが、詳細分析画面25上に表示されるファセット値に対して現在の文書をさらに分析したいと望む場合、ユーザは、ファセット値を選択し、現在の文書を絞り込むことによって、次の分析ステップに進むことができる。従って、システムは、マイニング・ツリー232を更新し、1つ又は複数のファセットを次の分析軸として表示することができる。
図2において、マイニング画面22は、マイニング・グラフ画面23と共に詳細分析画面25を示すように分割されると考えられる。しかしながら、詳細分析画面25は、種々の表示モードで表示できる。例えば、詳細分析画面25は、ダイアログ・ボックスとしてマイニング・グラフ画面23上に表示することができる。代替的に、マイニング・グラフ画面23が詳細分析画面25に変更されるように、詳細分析画面25を表示することができる。
本発明は、システム、方法、及び/又はコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの:すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピーディスク、パンチカード若しくは命令がそこに記録された溝内の***構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び/又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び/又はエッジ・サーバを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は、Smalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語若しくは類似のプログラミング言語などの手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述されるソース・コード又はオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行して、電子回路を個人化することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/又はブロック図を参照して説明される。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えて機械を製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロック内で指定された機能/動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、及び/又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作の態様を実施する命令を含む製品を含むようにすることもできる。
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生産し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実行するためのプロセスを提供するようにすることもできる。
図9及び図10は、例示的な実施形態による、文書分析デバイス10の動作の例を表すフローチャートを示す。分析される文書は、文書分析デバイス10のストレージ内に格納されるものと仮定されるが、文書は、例示的な実施形態の実装に応じて、文書分析デバイス10から遠隔に格納されてもよい。
図9に示されるように、受入モジュール11は、入力画面21のサンプル表示領域212a乃至212c内に、自然言語文サンプルを表示することができる(ステップ101)。次に、受入モジュール11は、自然言語文が、入力画面21の入力領域211内に新しく入力されたかどうかを判断することができる(ステップ102)。自然言語文が、入力領域211内に新しく入力された場合、受入モジュール11は、自然言語文が曖昧さを有するかどうかをさらに判断することができる(ステップ103)。特に、受入モジュール11は、自然言語文におけるクエリが曖昧さを有するかどうかを判断することができる。自然言語文が曖昧さを有する場合、受入モジュール11は、対話型画面上で曖昧さを解決することができ(ステップ104)、処理をステップ101に戻し、入力された自然言語文に基づいて、自然言語文サンプルを更新する。他方、ステップ103において、自然言語文が曖昧さを有さない場合、受入モジュール11は、処理をステップ101に戻し、いずれの曖昧さも解決することなく、入力された自然言語文に基づいて、自然言語文サンプルを更新する。
一方で、ステップ102において、自然言語文が、入力領域211内に新しく入力されていない場合、受入モジュール11は、自然言語文が、入力画面21のサンプル表示領域212a乃至212c内に表示される複数の自然言語文サンプルから選択されたかどうかを判断することができる(ステップ105)。自然言語文が選択されていない場合、受入モジュール11は、処理をステップ101に戻すことができる。
他方、ステップ105において、自然言語文が選択されている場合、受入モジュール11は、自然言語文から、分析ファセット、統計分析タイプ、クエリ、及び自動分析指定を抽出することができる(ステップ106)。抽出モジュール11は、それが自然言語文内に含まれる場合、自動分析指定を抽出できることに留意されたい。次に、抽出モジュール11は、入力画面21をマイニング画面22に変更することができる(ステップ107)。
次に、文書分析デバイス10は、第1の分析プロセスを実行することができる(ステップ108)。具体的には、絞り込みモジュール13は、自然言語文から抽出されたクエリを用いて文書を絞り込むことができる。次に、統計分析モジュール14が、自然言語文から抽出されたタイプの統計分析を実行し、第1の分析プロセスに対応するマイニング・ツリー232の一部を、マイニング・グラフ画面23上に表示することができる。
次に、図10に示されるように、選択モジュール15が、自動分析指定が自然言語文から抽出されたかどうかを判断することができる(ステップ151)。自動分析指定が自然言語文から抽出された場合、選択モジュール15は、自動分析アルゴリズムを実行することができる(ステップ152)。この自動分析アルゴリズムは、自然言語文内の統計分析タイプを修正する特定の語又は句に基づいて決定することができる。次に、選択モジュール15は、自動分析アルゴリズムがユーザ選択を必要とするかどうかを判断することができる(ステップ153)。自動分析アルゴリズムがユーザ選択を必要とする場合、選択モジュール15は、ユーザ選択のための付加的な画面を表示することができる(ステップ154)。例えば、付加的な画面は、自然言語文から抽出された分析ファセットの複数のファセット値を含むことができる。ユーザによるファセット値の選択に応答して、選択モジュール15は、選択されたファセット値を用いて現在の文書を絞り込むことができる(ステップ155)。ステップ153において、自動分析アルゴリズムがユーザ選択を必要としない場合、選択モジュール15は、ステップ155においてユーザ選択を必要とせずに、それ自体により選択されたファセット値を用いて現在の文書を絞り込むことができる。
次に、提案モジュール16が、提案される少なくとも1つの分析ファセットを選択することができる(ステップ156)。具体的には、提案モジュール16は、文書分析デバイス10が準備するファセットの各々に対して現在の文書の所定の統計分析を実行することができる。次に、提案モジュール16は、その各々が、高い統計インジケータを有する多くのファセット値を含む少なくとも1つのファセットを選択することができる。その後、提案モジュール16は、マイニング・グラフ画面23上のマイニング・ツリー232を更新することができる(ステップ157)。ステップ151に戻ると、自動分析指定が自然言語文から抽出されなかった場合、動作はステップ157に進み、そこで、提案モジュール16は、マイニング・グラフ画面23上のマイニング・ツリー232を更新することができる。
この状態において、種々の動作がマイニング・ツリー232に行われる。従って、受入モジュール11は、選択された分析ファセットが変更されたかどうかを判断することができる(ステップ158)。具体的には、受入モジュール11は、ステップ156において選択された分析ファセットの代わりに、ファセット画面24上で新しい分析ファセットが選択されたかどうかをユーザにより判断することができる。選択された分析ファセットが変更されている場合、受入モジュール11は、処理をステップ157に戻す。ステップ158において、選択された分析ファセットが変更されていない場合、受入モジュール11は、選択されたファセット値が変更されたかどうかをさらに判断することができる(ステップ159)。具体的には、受入モジュール11は、ステップ154において選択されたファセット値の代わりに、マイニング・ツリー232上で新しいファセット値が選択されたかどうかをユーザにより判断することができる。選択されたファセット値が変更されている場合、受入モジュール11は、処理をステップ155に戻すことができる。ステップ159において、選択されたファセット値が変更されていない場合、受入モジュール11は、処理をステップ160に進めることができる。
つまり、詳細分析モジュール17は、詳細分析結果を詳細分析画面25上に表示することができる(ステップ160)。例えば、詳細分析モジュール17は、詳細分析画面25上のボタンのクリック動作に応答して、詳細分析結果を表示することができる。代替的に、詳細分析モジュール17は、提案される1つ又は複数の分析ファセットの1つ又は複数のファセット値のクリック動作に応答して、詳細分析結果を表示することができる。この場合、現在の文書は、詳細分析画面25上に詳細分析結果を表示する前に、1つ又は複数のファセット値を用いて絞り込むことができる。
同じくこの状態において、種々の動作が詳細分析結果に行われる。従って、受入モジュール11は、ファセット値が選択されたかどうかを判断することができる(ステップ161)。具体的には、受入モジュール11は、ステップ154において選択されたファセット値の代わりに、詳細分析画面25上で新しいファセット値が選択されたかどうかをユーザにより判断することができる。ファセット値が選択されている場合、受入モジュール11は、処理をステップ155に戻すことができる。ステップ161において、ファセット値が選択されていない場合、受入モジュール11は、処理を終了することができる。
第1の代替的な例示的実施形態において、自然言語文は、統計分析タイプを修正する特定の語又は句を含まないと考えられる。この場合、選択モジュール15は、システムが定めるデフォルトの自動分析アルゴリズムを実行することができる。例えば、選択モジュール15は、相関分析の結果に基づいて最も高い相関インジケータを有するファセット値を選択することができる。代替的に、選択モジュール15は、上位3つの相関インジケータを有するファセット値を取得し、そのファセット値をユーザに提示することができる。さらに、選択モジュール15は、ソフトウェア処理(例えば、過去の統計分析の機械学習)の結果に基づいて経験的に重要なファセット値を選択することができる。
次に、第2の代替的な例示的実施形態を説明する。第2の代替的な例示的実施形態において、提案モジュール16は、システムが定めるデフォルトの統計分析以外の統計分析を実行するものと考えられる。例えば、提案モジュール16は、複数のタイプの統計分析の結果に基づいて、複数のタイプから選択されるタイプの統計分析を実行することができる。代替的に、提案モジュール16は、自然言語文から抽出された統計分析タイプと同じタイプの統計分析を実行することができる。
図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び/又はフローチャート図の各ブロック、及びブロック図及び/又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
例示的な実施形態は、多くの異なるタイプのデータ処理環境において用いることができる。例示的な実施形態の特定の要素及び機能の説明についての文脈を提供するために、例示的な実施形態の態様を実施することができる例示的な環境として、図11及び図12が以下に与えられる。図11及び図12は、単なる例に過ぎず、本発明の態様又は実施形態を実施することができる環境に関するいずれかの制限を主張又は意味することを意図するものではないことを理解されたい。本発明の範囲から逸脱することなく、示される実施形態への多くの修正を行うことができる。
図11は、例示的な実施形態の態様を実施することができる例示的な分散型データ処理システムの図形的表現を示す。分散型データ処理システム1000は、例示的な実施形態の態様を実施することができるコンピュータのネットワークを含むことができる。分散型データ処理システム1000は、ネットワーク1002は、分散型データ処理システム1000内で互いに接続される種々のデバイスとコンピュータとの間の通信リンクを与えるために使用される媒体である、少なくとも1つのネットワーク1002を含む。ネットワーク1002は、有線、無線通信リンク、又は光ファイバ・ケーブルのような接続を含むことができる。
示される例において、サーバ1004及びサーバ1006は、ストレージ・ユニット1008と共にネットワーク1002に接続される。さらに、クライアント1010、1012及び1014もネットワーク1002に接続される。これらのクライアント1010、1012及び1014は、例えば、パーソナル・コンピュータ、ネットワーク・コンピュータ等とすることができる。示される例において、サーバ1004は、ブート・ファイル、オペレーティング・システム画像及びアプリケーションなどのデータをクライアント1010、1012及び1014に提供する。クライアント1010、1012及び1014は、示される例においてサーバ1004に対するクライアントである。分散型データ処理システム1000は、図示されていない付加的なサーバ、クライアント、及び他のデバイスを含むことができる。
示される例において、分散型データ処理システム1000は、互いに通信するためにプロトコルの伝送制御プロトコル/インターネット・プロトコル(TCP/IP)スイートを使用するネットワーク及びゲートウェイの世界規模の集合体を表すネットワーク1002を伴うインターネットである。インターネットの中心には、データ及びメッセージを送る何千もの商業系、政府系、教育系、及びその他のコンピュータ・システムから成る主要なノード又はホスト・コンピュータ間の高速データ通信回線のバックボーンがある。もちろん、分散型データ処理システム1000は、例えば、イントラネット、ローカル・エリア・ネットワーク(LAN)、広域ネットワーク(WAN)等のような、多数の異なるタイプのネットワークを含むように実装することもできる。上述のように、図11は、本発明の異なる実施形態に対するアーキテクチャ上の限定としてではなく、一例として意図され、従って、図11に示される特定の要素は、本発明の例示的な実施形態を実施することができる環境に関する限定と考えるべきではない。
図11に示されるように、例えばサーバ1004などのコンピューティング・デバイスの1つ又は複数を、自然言語文を用いる対話型テキスト・マイニングをサポートするためのシステム及びユーザ・インターフェースを実装するように特別に構成することができる。コンピューティング・デバイスの構成は、例示的な実施形態に関して本明細書に説明される動作の性能及び出力の生成を容易にするために、特定用途向けのハードウェア、ファームウェア等を提供することを含むことができる。コンピューティング・デバイスの構成は同様に又は代替的に、コンピューティング・デバイスの1つ又は複数のハードウェア・プロセッサに、例示的な実施形態に関して本明細書に説明される動作を実行し、出力を生成するようにプロセッサを構成するソフトウェア・アプリケーションを実行させるために、1つ又は複数のストレージ・デバイス内に格納され、サーバ104のようなコンピューティング・デバイスのメモリ内にロードされたソフトウェア・アプリケーションを提供することを含むことができる。さらに、例示的な実施形態の範囲から逸脱することなく、ハードウェア等の上で実行される特定用途向けのハードウェア、ファームウェア、ソフトウェア・アプリケーションのいずれかの組み合わせを用いることができる。
ひとたびコンピューティング・デバイスがこれらの方法の1つで構成されると、コンピューティング・デバイスは、汎用コンピューティング・デバイスではなく、例示的な実施形態の機構を実装するように特別に構成された専用コンピューティング・デバイスになることを理解されたい。さらに、後述のように、例示的な実施形態の機構の実装により、コンピューティング・デバイスの機能が改善され、自然言語文を用いる対話型テキスト・マイニングを容易にする有用かつ明確な結果が提供される。
上述のように、例示的な実施形態の機構は、自然言語ダイアログを用いる対話型テキスト・マイニング・プロセスをサポートするための動作を実行するために、特別に構成されたコンピューティング・デバイス又はデータ処理システムを用いる。これらのコンピューティング・デバイス又はデータ処理システムは、本明細書で説明されるシステム/サブシステムの1つ又は複数を実装するために、ハードウェア構成、ソフトウェア構成、又はハードウェア構成とソフトウェア構成の組み合わせのいずれかを通じて特別に構成された種々のハードウェア要素を含むことができる。図12は、例示的な実施形態の態様を実施することができるデータ処理システムのほんの一例のブロック図である。データ処理システム1100は、図11のサーバ1004のようなコンピュータの一例であり、その中に、本発明の例示的な実施形態のプロセス及び態様を実施するコンピュータ使用可能コード又は命令を配置及び/又は実行し、本明細書で説明されるような例示的な実施形態の動作、出力及び外部効果を達成することができる。
示される例において、データ処理システム1100は、ノース・ブリッジ及びメモリ・コントローラ・ハブ(NB/MCH)1102と、サウス・ブリッジ及び入力/出力(I/O)コントローラ・ハブ(SB/ICH)1104とを使用する。処理ユニット1106、メイン・メモリ1108、及びグラフィックス・プロセッサ1110は、NB/MCH1102に接続される。グラフィックス・プロセッサ1110は、加速グラフィックス・ポート(AGP)を通じて、NB/MCH1102に接続することができる。
示される例において、ローカル・エリア・ネットワーク(LAN)アダプタ1112が、SB/ICH1104に接続される。音声アダプタ1116、キーボード及びマウス・アダプタ1120、モデム1122、読み出し専用メモリ(ROM)1124、ハードディスク・ドライブ(HDD)1126、CD-ROMドライブ1130、ユニバーサル・シリアル・バス(USB)ポート及び他の通信ポート1132、並びにPCI/PCIeデバイス1134が、バス1138及びバス1140を通じて、SB/ICH1104に接続される。PCI/PCIeデバイスは、例えば、イーサネット・アダプタ、アドイン・カード、及びノートブック型コンピュータ用のPCカードを含むことができる。PCIは、カード・バス・コントローラを使用するが、PCIeは使用しない。ROM1124は、例えば、フラッシュ基本入力/出力システム(BIOS)とすることができる。
HDD1126及びCD-ROMドライブ1130は、バス1140を通じて、SB/ICH1104に接続される。HDD1126及びCD-ROMドライブ1130は、例えば、integrated drive electronics(IDE)又はserial advanced technology attachment(SATA)インターフェースを使用することができる。スーパーI/O(SIO)デバイス1136は、SB/ICH1104に接続することができる。
オペレーティング・システムは、処理ユニット1106上で実行される。オペレーティング・システムは、連携して図12のデータ処理システム1100内の様々なコンポーネントの制御を提供する。クライアントとして、オペレーティング・システムは、Microsoft(登録商標)Windows7(登録商標)などの市販のオペレーティング・システムとすることができる。Java(商標)プログラミング・システムなどのオブジェクト指向プログラミング・システムは、オペレーティング・システムと共に実行することができ、データ処理システム1100上で実行されるJava(商標)プログラム又はアプリケーションからのオペレーティング・システムに対する呼び出しを提供する。
サーバとして、データ処理システム1100は、例えば、Advanced Interactive Executive(AIX(登録商標))オペレーティング・システム又はLINUX(登録商標)オペレーティング・システムを実行するIBM eServer(商標)System p(登録商標)コンピュータ・システム、Power(商標)プロセッサ・ベースのコンピュータ・システム等とすることができる。データ処理システム1100は、処理ユニット1106内に複数のプロセッサを含む対称型マルチプロセッサ(SMP)システムとすることができる。代替的に、シングル・プロセッサ・システムを用いることもできる。
オペレーティング・システム、オブジェクト指向プログラミング・システム及びアプリケーション又はプログラムに対する命令は、HDD1126などのストレージ・デバイス上に配置され、メイン・メモリ1108内にロードし、処理ユニット1106により実行することができる。本発明の例示的な実施形態のためのプロセスは、コンピュータ使用可能プログラム・コードを用いて処理ユニット1106により実行することができ、コンピュータ使用可能プログラム・コードは、例えば、メイン・メモリ1108、ROM1124などのメモリ内、又は1つ又は複数の周辺機器1126及び1130内に配置することができる。
図12に示されるようなバス1138又はバス1140などのバス・システムは、1つ又は複数のバスから成ることができる。もちろん、バス・システムは、ファブリック又はアーキテクチャに取り付けられた異なるコンポーネント又はデバイス間のデータ転送を提供する任意のタイプの通信ファブリック又はアーキテクチャを用いて実装することができる。図12のモデム1122又はネットワーク・アダプタ1112などの通信ユニットは、データを送受信するのに用いられる1つ又は複数のデバイスを含むことができる。メモリは、例えば、メイン・メモリ1108、ROM1124、又は図12のNB/MCH1102内に見られるようなキャッシュとすることができる。
上述のように、幾つかの例示的な実施形態において、例示的な実施形態の機構は、特定用途向けハードウェア、ファームウェア等、HDD1126のようなストレージ・デバイス内に格納され、処理ユニット1106等のような1つ又は複数のハードウェア・プロセッサにより実行されるメイン・メモリ1108のようなメモリ内にロードされるアプリケーション・ソフトウェアとして実装することができる。従って、図12に示されるコンピューティング・デバイスは、例示的な実施形態の機構を実装するように特別に構成され、自然言語ダイアログを用いた対話型テキスト・マイニングをサポートするための機構に関して後述される動作を実行し、出力を生成するように特別に構成されるようになる。
当業者であれば、図11及び図12のハードウェアは、実装によって異なり得ることを認識するであろう。図11及び図12に示されるハードウェアに加えて又はその代わりに、他の内部ハードウェア、フラッシュ・メモリ、同等の不揮発性メモリ、若しくは光ディスク・ドライブ等のような周辺機器を使用することができる。また、本発明の範囲から逸脱することなく、例示的な実施形態のプロセスを、前述のSMPシステム以外のマルチプロセッサ・データ処理システムに適用することもできる。
さらに、データ処理システム1100は、クライアント・コンピューティング・デバイス、サーバ・コンピューティング・デバイス、タブレット・コンピュータ、ラップトップ・コンピュータ、電話又は他の通信機器、携帯情報端末(PDA)等を含む多数の異なるデータ処理システムのいずれかの形をとることができる。幾つかの説明に役立つ実例において、データ処理システム1100は、例えば、オペレーティング・システム・ファイル及び/又はユーザ生成データを格納するための不揮発性メモリを提供するフラッシュ・メモリを有するように構成された携帯型コンピューティング・デバイスとすることができる。本質的に、データ処理システム1100は、アーキテクチャ上の制限なしに、いずれかの周知の又は後で開発されるデータ処理システムとすることができる。
上述のように、例示的な実施形態は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、又はハードウェア要素及びソフトウェア要素の両方を含む実施形態の形をとることができる。1つの例示的な実施形態において、例示的な実施形態の機構は、これらに限定されるものではないが、ファームウェア、常駐ソフトウェア、マイクロコード等を含むソフトウェア又はプログラム・コードの形で実装される。
プログラム・コードを格納及び/又は実行するのに適したデータ処理システムは、例えばシステム・バスなどの通信バスを介してメモリ要素に直接又は間接的に結合された少なくとも1つのプロセッサを含む。メモリ要素は、例えば、プログラム・コードの実際の実行中に用いられるローカル・メモリ、大容量記憶装置、及び実行中に大容量記憶装置からコードを取り出さなければならない回数を減らすために少なくとも幾つかのプログラム・コードの一時的なストレージを提供するキャッシュ・メモリを含むことができる。メモリは、これらに限定されるものではないが、ROM、PROM、EPROM、EEPROM、DRAM、SRAM、フラッシュ・メモリ、ソリッド・ステート・メモリ等を含む種々のタイプのものとすることができる。
入力/出力すなわちI/Oデバイス(これらに限定されるものではないが、キーボード、ディスプレイ、ポインティング・デバイス等)は、直接システムに結合することもでき、又は介在する有線若しくは無線のI/Oインターフェース及び/又はコントローラ等を介してシステムに結合することができる。I/Oデバイスは、例えば、これらに限定されるものではないが、スマートフォン、タブレット・コンピュータ、タッチスクリーン・デバイス、音声認識デバイス等を通じて結合される通信デバイスのような、従来のキーボード、ディスプレイ、ポインティング・デバイス等以外の多くの異なる形をとることができる。いずれの周知の又は後で開発されるI/Oデバイスも、例示的な実施形態の範囲内にあることが意図される。
ネットワーク・アダプタをシステムに結合させて、データ処理システムが、介在する私的ネットワーク又は公衆ネットワークを通じて他のデータ処理システム又は遠隔プリンタ若しくはストレージ・デバイスに結合できるようにすることもできる。モデム、ケーブル・モデム及びイーサネット・カードは、有線通信のためのネットワーク・アダプタの利用可能なタイプのうちのほんの数例である。無線通信ベースのネットワーク・アダプタは、これらに限定されるものではないが、802.11のa/b/g/n無線通信アダプタ、Bluetooth(登録商標)無線アダプタ等を含む、無線通信ベースのネットワーク・アダプタを用いることもできる。いずれの周知の又は後で開発されるネットワーク・アダプタも、本発明の趣旨及び範囲にあることが意図される。

本発明の説明は、例証及び説明の目的で提示したものであるが、網羅的であることも、又は本発明を開示された形に限定することも意図しない。説明される実施形態の範囲から逸脱することなく、当業者には、多くの修正及び変形が明らかであろう。実施形態は、本発明の原理、及び実際的な用途を最も良く説明するため、及び、当業者が、企図される特定の使用に適するような様々な変更を伴う様々な実施形態のために、本発明を理解することを可能にするために、選択され、説明されたものである。本明細書で用いられる用語は、実施形態の原理、実際的な用途、若しくは市場において見いだされる技術に優る技術的改善を最も良く説明するように、又は当業者が本明細書で開示される実施形態を理解することを可能にするように、選択されたものである。
10:文書分析システム
11:受入モジュール
12:抽出モジュール
13:絞り込みモジュール
14:統計分析モジュール
15:選択モジュール
16:提案モジュール
17:詳細分析モジュール
20:ユーザ・インターフェース
22:マイニング画面
23:マイニング・グラフ画面
24:ファセット画面
25:詳細分析画面
232:マイニング・ツリー

Claims (13)

  1. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサにより実行され、かつ、前記少なくとも1つのプロセッサに、ファセットに対する文書の統計分析を実行するための文書分析デバイスを実装させる命令を含む少なくとも1つのメモリとを含むデータ処理システムにおける方法であって、前記方法は、
    前記文書分析デバイス内で実行される受入モジュールにより、自然言語文を受け入れることと、
    前記文書分析デバイス内で実行される抽出モジュールにより、前記自然言語文から第1のファセットを抽出することと、
    前記文書分析デバイス内で実行される統計分析モジュールにより、前記第1のファセットに対する文書のセットの第1の統計分析を実行することと、
    前記統計分析モジュールにより、第2の統計分析を要求している情報が前記自然言語文から抽出されることに応答して、前記第1の統計分析の結果に基づいて前記第1のファセットの値を判断することと、
    前記統計分析モジュールにより、前記第1のファセットの前記値を用いて前記文書のセットの前記第2の統計分析を実行することと、
    前記データ処理システムにより実行されるユーザ・インターフェースにより、前記第2
    の統計分析の結果に基づいて判断した第2のファセットを提示することと、
    を含む、方法。
  2. 前記自然言語文から第1のファセットを抽出することは、前記自然言語文からクエリ語又は句を抽出することを含み、前記第1の統計分析を実行することは、前記自然言語文から抽出された前記クエリ語又は句を用いて前記文書のセットを絞り込むことを含む、請求項1に記載の方法。
  3. 前記自然言語文から第1のファセットを抽出することは、前記自然言語文から前記第1の統計分析のタイプを抽出することを含み、前記第1の統計分析を実行することは、前記自然言語文から抽出された前記タイプの前記第1の統計分析を実行することを含む、請求項1~2のいずれか1項に記載の方法。
  4. 前記自然言語文から第1のファセットを抽出することは、前記第1のファセットの前記値を判断するためのアルゴリズムを抽出することを含み、前記第1のファセットの前記値を判断することは、前記自然言語文から抽出された前記アルゴリズムを用いて前記第1のファセットの前記値を判断することを含む、請求項1~3のいずれか1項に記載の方法。
  5. 前記第1のファセットの前記値を判断することは、前記第1のファセットの複数の値から前記第1のファセットの前記値を選択することを含み、前記選択された値は、前記第1の統計分析の前記結果を最も高くする、請求項1~4のいずれか1項に記載の方法。
  6. 前記第1のファセットの前記値を判断することは、前記ユーザ・インターフェースを介して、前記第1のファセットの複数の値からの前記第1のファセットの前記値の選択をユーザから受け取ることを含む、請求項1~5のいずれか1項に記載の方法。
  7. 前記第1のファセットの前記値を判断することは、前記文書分析デバイス内で実行される提案モジュールにより、前記第1のファセットの複数の値から前記第1のファセットの前記値を選択することを含む、請求項1~6のいずれか1項に記載の方法。
  8. 前記第2の統計分析は、所定のタイプの統計分析である、請求項1~7のいずれか1項に記載の方法。
  9. 前記第2の統計分析は、複数のタイプの統計分析の結果に基づいて前記複数のタイプから選択されるタイプの統計分析である、請求項1~8のいずれか1項に記載の方法。
  10. 前記第2の統計分析は、前記第1の統計分析のタイプと同じタイプの統計分析である、請求項1~9のいずれか1項に記載の方法。
  11. 請求項1~10の何れか1項に記載の方法の各ステップをコンピュータ・ハードウェアによる手段として構成した、装置。
  12. 請求項1~10の何れか1項に記載の方法の各ステップをコンピュータに実行させる、コンピュータ・プログラム。
  13. 請求項12に記載のコンピュータ・プログラムをコンピュータ可読ストレージ媒体に記録した、コンピュータ可読ストレージ媒体。
JP2019551606A 2017-03-30 2017-12-13 自然言語ダイアログを用いる対話型テキスト・マイニング方法、装置、プログラム Active JP7038136B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US15/473,949 2017-03-30
US15/473,949 US9996527B1 (en) 2017-03-30 2017-03-30 Supporting interactive text mining process with natural language and dialog
US15/626,838 US10282418B2 (en) 2017-03-30 2017-06-19 Supporting interactive text mining process with natural language and dialog
US15/626,838 2017-06-19
PCT/IB2017/057876 WO2018178760A1 (en) 2017-03-30 2017-12-13 Supporting interactive text mining process with natural language dialog

Publications (2)

Publication Number Publication Date
JP2020516985A JP2020516985A (ja) 2020-06-11
JP7038136B2 true JP7038136B2 (ja) 2022-03-17

Family

ID=62455041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019551606A Active JP7038136B2 (ja) 2017-03-30 2017-12-13 自然言語ダイアログを用いる対話型テキスト・マイニング方法、装置、プログラム

Country Status (6)

Country Link
US (2) US9996527B1 (ja)
JP (1) JP7038136B2 (ja)
CN (1) CN110291520B (ja)
DE (1) DE112017007361T5 (ja)
GB (1) GB2575580A (ja)
WO (1) WO2018178760A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7013334B2 (ja) * 2018-06-25 2022-01-31 株式会社東芝 表示システム、プログラム、及び記憶媒体
US10956470B2 (en) * 2018-06-26 2021-03-23 International Business Machines Corporation Facet-based query refinement based on multiple query interpretations
US10740381B2 (en) 2018-07-18 2020-08-11 International Business Machines Corporation Dictionary editing system integrated with text mining
US11361030B2 (en) 2019-11-27 2022-06-14 International Business Machines Corporation Positive/negative facet identification in similar documents to search context
JP7412307B2 (ja) * 2020-08-28 2024-01-12 株式会社日立製作所 作成支援装置、作成支援方法、および作成支援プログラム
CN114118026B (zh) * 2020-08-28 2022-07-19 北京仝睿科技有限公司 文档自动化生成方法、装置及计算机存储介质、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115468A (ja) 2003-10-03 2005-04-28 Mitsubishi Electric Corp テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP2006171931A (ja) 2004-12-14 2006-06-29 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニングプログラム
JP2014130498A (ja) 2012-12-28 2014-07-10 International Business Maschines Corporation ファセットを提示する装置及び方法
CN104123298A (zh) 2013-04-26 2014-10-29 华为技术有限公司 产品缺陷的分析方法和设备
US20160180557A1 (en) 2014-12-22 2016-06-23 Palantir Technologies Inc. Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US6532469B1 (en) * 1999-09-20 2003-03-11 Clearforest Corp. Determining trends using text mining
JP2001318939A (ja) 2000-05-09 2001-11-16 Hitachi Ltd 文書処理方法及び装置並びにその処理プログラムを記憶した媒体
US7003517B1 (en) * 2000-05-24 2006-02-21 Inetprofit, Inc. Web-based system and method for archiving and searching participant-based internet text sources for customer lead data
US6714893B2 (en) * 2002-02-15 2004-03-30 International Business Machines Corporation Enhanced concern indicator failure prediction system
US7287025B2 (en) * 2003-02-12 2007-10-23 Microsoft Corporation Systems and methods for query expansion
US20060106793A1 (en) * 2003-12-29 2006-05-18 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
JP2005208782A (ja) * 2004-01-21 2005-08-04 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
US7788087B2 (en) * 2005-03-01 2010-08-31 Microsoft Corporation System for processing sentiment-bearing text
US20080033587A1 (en) * 2006-08-03 2008-02-07 Keiko Kurita A system and method for mining data from high-volume text streams and an associated system and method for analyzing mined data
US7660783B2 (en) * 2006-09-27 2010-02-09 Buzzmetrics, Inc. System and method of ad-hoc analysis of data
US20090119156A1 (en) * 2007-11-02 2009-05-07 Wise Window Inc. Systems and methods of providing market analytics for a brand
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
DK2285350T3 (en) 2008-06-16 2017-12-11 Pfizer PROCEDURES FOR THE PREPARATION OF DIBLOCK COPOLYMERS FUNCTIONALIZED WITH TARGETING AGENT FOR USE IN THE MANUFACTURE OF THERAPEUTIC NANOPARTICLES
US8280838B2 (en) 2009-09-17 2012-10-02 International Business Machines Corporation Evidence evaluation system and method based on question answering
US20110125734A1 (en) 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
JP2011192059A (ja) * 2010-03-15 2011-09-29 Omron Corp テキスト解析システムおよびテキスト解析方法
CN103229168B (zh) 2010-09-28 2016-10-19 国际商业机器公司 在问答期间在多个候选答案之间证据扩散的方法和***
WO2012047541A1 (en) 2010-09-28 2012-04-12 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
US9208217B2 (en) 2010-10-06 2015-12-08 Linguamatics Ltd. Providing users with a preview of text mining results from queries over unstructured or semi-structured text
US8601030B2 (en) 2011-09-09 2013-12-03 International Business Machines Corporation Method for a natural language question-answering system to complement decision-support in a real-time command center
US8738363B2 (en) * 2011-10-13 2014-05-27 Xerox Corporation System and method for suggestion mining
SG11201402943WA (en) 2011-12-06 2014-07-30 Perception Partners Inc Text mining analysis and output system
GB201217334D0 (en) 2012-09-27 2012-11-14 Univ Swansea System and method for data extraction and storage
JP6229665B2 (ja) 2013-01-11 2017-11-15 日本電気株式会社 テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及びプログラム
US20150302084A1 (en) * 2014-04-17 2015-10-22 Robert Stewart Data mining apparatus and method
US9424344B2 (en) 2014-05-07 2016-08-23 Bank Of America Corporation Method and apparatus for natural language search for variables
CN104915793A (zh) * 2015-06-30 2015-09-16 北京西塔网络科技股份有限公司 基于大数据分析挖掘的公共信息智能分析平台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115468A (ja) 2003-10-03 2005-04-28 Mitsubishi Electric Corp テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP2006171931A (ja) 2004-12-14 2006-06-29 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニングプログラム
JP2014130498A (ja) 2012-12-28 2014-07-10 International Business Maschines Corporation ファセットを提示する装置及び方法
CN104123298A (zh) 2013-04-26 2014-10-29 华为技术有限公司 产品缺陷的分析方法和设备
US20160180557A1 (en) 2014-12-22 2016-06-23 Palantir Technologies Inc. Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items

Also Published As

Publication number Publication date
US10282418B2 (en) 2019-05-07
WO2018178760A1 (en) 2018-10-04
JP2020516985A (ja) 2020-06-11
DE112017007361T5 (de) 2019-12-19
GB201915103D0 (en) 2019-12-04
CN110291520B (zh) 2023-05-23
CN110291520A (zh) 2019-09-27
GB2575580A (en) 2020-01-15
US9996527B1 (en) 2018-06-12
US20180285341A1 (en) 2018-10-04

Similar Documents

Publication Publication Date Title
JP7038136B2 (ja) 自然言語ダイアログを用いる対話型テキスト・マイニング方法、装置、プログラム
US10650356B2 (en) Intelligent self-service delivery advisor
US9671956B2 (en) Presenting search term suggestions on graphical user interfaces
JP6279153B2 (ja) 言語入力データからnグラムおよび概念関係の自動生成
US10019512B2 (en) Automated self-service user support based on ontology analysis
US11188308B2 (en) Interactive code editing
US20210241893A1 (en) Dashboard Usage Tracking and Generation of Dashboard Recommendations
US20200160231A1 (en) Method and System for Using a Multi-Factorial Analysis to Identify Optimal Annotators for Building a Supervised Machine Learning Model
US9189565B2 (en) Managing tag clouds
US9081765B2 (en) Displaying examples from texts in dictionaries
US10796071B2 (en) Analyzing document content and generating an appendix
US10360280B2 (en) Self-building smart encyclopedia
JP2020537228A (ja) 意図認識のための抽象化および移植性
JP2022008207A (ja) トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体
JP2024507902A (ja) 情報検索方法、装置、電子機器および記憶媒体
AU2022313873A1 (en) Ai platform for processing speech and video information collected during a medical procedure
US11562827B2 (en) Negative inferences in machine learning treatment selection
US11188716B2 (en) Text display with visual distinctions per class
Mamta A real-time twitter sentiment analysis and visualization system: TwiSent
JP4607671B2 (ja) 翻訳支援プログラム、方法及び装置
CN112181429A (zh) 信息处理方法、装置以及电子设备
US11500940B2 (en) Expanding or abridging content based on user device activity
EP4328764A1 (en) Artificial intelligence-based system and method for improving speed and quality of work on literature reviews
Sullivan GAIA: An “eEcosystem” of Aggregated Information for Plant Biology

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200420

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220307

R150 Certificate of patent or registration of utility model

Ref document number: 7038136

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150