JPWO2014034557A1 - テキストマイニング装置、テキストマイニング方法及びプログラム - Google Patents
テキストマイニング装置、テキストマイニング方法及びプログラム Download PDFInfo
- Publication number
- JPWO2014034557A1 JPWO2014034557A1 JP2014532977A JP2014532977A JPWO2014034557A1 JP WO2014034557 A1 JPWO2014034557 A1 JP WO2014034557A1 JP 2014532977 A JP2014532977 A JP 2014532977A JP 2014532977 A JP2014532977 A JP 2014532977A JP WO2014034557 A1 JPWO2014034557 A1 JP WO2014034557A1
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- record
- attribute value
- text
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明の目的は、上記問題を解消し、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定し得る、テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、分析観点候補生成部と、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、特徴度計算部と、
を備えることを特徴とする。
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を有することを特徴とする。
前記コンピュータに、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とする。
以下、本発明の実施の形態1におけるテキストマイニング装置、テキストマイニング方法、及びプログラムについて、図1〜図3を参照しながら説明する。
最初に、図1を用いて、本実施の形態1におけるテキストマイニング装置の構成について説明する。図1は、本発明の実施の形態1におけるテキストマイニング装置の構成を示すブロック図である。
次に、本発明の実施の形態1におけるテキストマイニング装置2の動作について図3を用いて説明する。図3は、本発明の実施の形態1におけるテキストマイニング装置の動作を示す流れ図である。以下の説明においては、適宜図1及び図2を参酌する。また、本実施の形態1では、テキストマイニング装置2を動作させることによって、テキストマイニング方法が実施される。よって、本実施の形態1におけるテキストマイニング方法の説明は、以下のテキストマイニング装置2の動作説明に代える。
特徴度=1/(x・y/|x||y|)
本発明の実施の形態1におけるプログラムは、コンピュータに、図3に示すステップS1〜S4を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態1におけるテキストマイニング装置2とテキストマイニング方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、分析観点候補生成部20、及び特徴度計算部21として機能し、処理を行なう。
以上のように本実施の形態1では、分析観点候補は、分析者の経験及び感覚に依存することなく、分析対象データから、自動的に設定される。このため、本実施の形態1によれば、分析者にとって想定外の分析観点も含む、特徴的な結果が得られる可能性が高い、分析観点が効率良く設定されることになる。
次に、本発明の実施の形態2におけるテキストマイニング装置、テキストマイニング方法、及びプログラムについて、図4を参照しながら説明する。
本発明の実施の形態2におけるプログラムは、コンピュータに、図4に示すステップS11〜S15を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2におけるテキストマイニング装置とテキストマイニング方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、分析観点候補生成部20、及び特徴度計算部21として機能し、処理を行なう。
以上のように、本実施の形態2では、分析観点候補の数が制限されるので、属性及びその属性値の種類が膨大であり、計算時間及び記憶容量の関係で、事前の分析観点候補を列挙することが困難な場合に、有用となる。本実施の形態2によれば、計算時間及び必要となる記憶容量の削減を図ることができる。また、本実施の形態2を用いた場合も、実施の形態1と同様の効果を得ることができる。
次に、本発明の実施の形態3におけるテキストマイニング装置、テキストマイニング方法、及びプログラムについて、図5及び図6を参照しながら説明する。
最初に、図5を用いて、本実施の形態3におけるテキストマイニング装置の構成について説明する。図5は、本発明の実施の形態3におけるテキストマイニング装置の構成を示すブロック図である。
次に、本発明の実施の形態3におけるテキストマイニング装置23の動作について図6を用いて説明する。図6は、本発明の実施の形態1におけるテキストマイニング装置の動作を示す流れ図である。以下の説明においては、適宜図5を参酌する。また、本実施の形態3でも、テキストマイニング装置23を動作させることによって、テキストマイニング方法が実施される。よって、本実施の形態3におけるテキストマイニング方法の説明は、以下のテキストマイニング装置23の動作説明に代える。
本発明の実施の形態3におけるプログラムは、コンピュータに、図6に示すステップS21〜S26を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2におけるテキストマイニング装置とテキストマイニング方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、分析観点候補生成部20、特徴度計算部21、及び検証用情報抽出部22として機能し、処理を行なう。
以上のように、本実施の形態3では、分析観点候補が有望そうであるかを検証するための情報(検証用情報)が提供され、分析者は、提示された分析観点候補の特徴を容易に把握できる。言い換えると、分析者は、提供された情報により、分析観点候補を用いて分析した場合に、意味を見出せそうな結果を得ることができるか否かを、予想できる。従って、本実施の形態3によれば、分析者にとって想定外の分析観点も含む、特徴的な結果が得られる可能性が高い、分析観点がより効率良く設定されることになる。
ここで、実施の形態1〜3におけるプログラムを実行することによって、テキストマイニング装置を実現するコンピュータについて図7を用いて説明する。図7は、本発明の実施の形態1〜3におけるテキストマイニング装置を実現するコンピュータの一例を示すブロック図である。
属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置であって、
前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、分析観点候補生成部と、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、特徴度計算部と、
を備えることを特徴とするテキストマイニング装置。
前記分析観点候補生成部が、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記1に記載のテキストマイニング装置。
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記1から3のいずれかに記載のテキストマイニング装置。
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
前記分析観点候補生成部が、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記1から6のいずれかに記載のテキストマイニング装置。
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、検証用情報抽出部を更に備えている、
付記1から7のいずれかに記載のテキストマイニング装置。
前記特徴度計算部が、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
前記特徴度計算部が、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング方法であって、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を有することを特徴とするテキストマイニング方法。
前記(a)のステップにおいて、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記11に記載のテキストマイニング方法。
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記11から13のいずれかに記載のテキストマイニング方法。
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
前記(a)のステップにおいて、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記11から16のいずれかに記載のテキストマイニング方法。
(c)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、ステップを更に有する、付記11から17のいずれかに記載のテキストマイニング方法。
前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、命令を含むプログラムを記録している、コンピュータ読み取り可能な記録媒体。
前記(a)のステップにおいて、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記21に記載のコンピュータ読み取り可能な記録媒体。
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記21から23のいずれかに記載のコンピュータ読み取り可能な記録媒体。
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
前記(a)のステップにおいて、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記21から26のいずれかに記載のコンピュータ読み取り可能な記録媒体。
前記プログラムが、
(c)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、ステップを前記コンピュータに実行させる、命令を更に含む、付記21から27のいずれかに記載のコンピュータ読み取り可能な記録媒体ム。
前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
2 テキストマイニング装置
3 テキストマイニングシステム
10 分析対象データ記憶部
11 分析観点データ記憶部
20 分析観点候補生成部
21 特徴度計算部
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
本発明の目的は、上記問題を解消し、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定し得る、テキストマイニング装置、テキストマイニング方法、及びプログラムを提供することにある。
前記コンピュータに、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、ことを特徴とする。
次に、本発明の実施の形態3におけるテキストマイニング装置23の動作について図6を用いて説明する。図6は、本発明の実施の形態3におけるテキストマイニング装置の動作を示す流れ図である。以下の説明においては、適宜図5を参酌する。また、本実施の形態3でも、テキストマイニング装置23を動作させることによって、テキストマイニング方法が実施される。よって、本実施の形態3におけるテキストマイニング方法の説明は、以下のテキストマイニング装置23の動作説明に代える。
本発明の実施の形態3におけるプログラムは、コンピュータに、図6に示すステップS21〜S26を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態3におけるテキストマイニング装置とテキストマイニング方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、分析観点候補生成部20、特徴度計算部21、及び検証用情報抽出部22として機能し、処理を行なう。
コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムであって、
前記コンピュータに、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、プログラム。
前記(a)のステップにおいて、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記21に記載のプログラム。
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のプログラム。
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記21から23のいずれかに記載のプログラム。
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記21または22に記載のプログラム。
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記21または22に記載のプログラム。
前記(a)のステップにおいて、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記21から26のいずれかに記載のプログラム。
(c)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、ステップを更に前記コンピュータに実行させる、付記21から27のいずれかに記載のプログラム。
前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のプログラム。
前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のプログラム。
Claims (10)
- 属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置であって、
前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、分析観点候補生成部と、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、特徴度計算部と、
を備えることを特徴とするテキストマイニング装置。 - 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
請求項1に記載のテキストマイニング装置。 - 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の出現比率を求め、求めた前記話題の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、請求項1または2に記載のテキストマイニング装置。 - 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
請求項1または2に記載のテキストマイニング装置。 - 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
請求項1または2に記載のテキストマイニング装置。 - 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
請求項1または2に記載のテキストマイニング装置。 - 前記分析観点候補生成部が、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
請求項1から6のいずれかに記載のテキストマイニング装置。 - 前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、検証用情報抽出部を更に備えている、
請求項1から7のいずれかに記載のテキストマイニング装置。 - 属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング方法であって、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を有することを特徴とするテキストマイニング方法。 - コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、命令を含むプログラムを記録している、コンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012191067 | 2012-08-31 | ||
JP2012191067 | 2012-08-31 | ||
PCT/JP2013/072548 WO2014034557A1 (ja) | 2012-08-31 | 2013-08-23 | テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2014034557A1 true JPWO2014034557A1 (ja) | 2016-08-08 |
JP6281491B2 JP6281491B2 (ja) | 2018-02-21 |
Family
ID=50183370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014532977A Active JP6281491B2 (ja) | 2012-08-31 | 2013-08-23 | テキストマイニング装置、テキストマイニング方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US10140361B2 (ja) |
JP (1) | JP6281491B2 (ja) |
CN (1) | CN104603779A (ja) |
WO (1) | WO2014034557A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6642429B2 (ja) * | 2014-07-23 | 2020-02-05 | 日本電気株式会社 | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム |
JP6472573B2 (ja) * | 2016-03-28 | 2019-02-20 | 三菱電機株式会社 | データ分析手法候補決定装置 |
JP7048891B2 (ja) * | 2018-05-28 | 2022-04-06 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理システム、制御方法、及びプログラム |
CN110619535B (zh) * | 2018-06-19 | 2023-07-14 | 华为技术有限公司 | 一种数据处理方法及其装置 |
CN112906728B (zh) * | 2019-12-04 | 2023-08-25 | 杭州海康威视数字技术股份有限公司 | 一种特征比对方法、装置及设备 |
CN116662556B (zh) * | 2023-08-02 | 2023-10-20 | 天河超级计算淮海分中心 | 一种融合用户属性的文本数据处理方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001075966A (ja) * | 1999-07-07 | 2001-03-23 | Internatl Business Mach Corp <Ibm> | データ分析システム |
JP2004246491A (ja) * | 2003-02-12 | 2004-09-02 | Mitsubishi Electric Corp | テキストマイニング装置及びテキストマイニングプログラム |
WO2007069663A1 (ja) * | 2005-12-13 | 2007-06-21 | Intellectual Property Bank Corp. | 技術文書属性の関連性分析支援装置 |
JP2010061176A (ja) * | 2006-11-22 | 2010-03-18 | Nec Corp | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
WO2010035455A1 (ja) * | 2008-09-24 | 2010-04-01 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
JP2011034457A (ja) * | 2009-08-04 | 2011-02-17 | Nec Corp | データマイニングシステム、データマイニング方法及びデータマイニング用プログラム |
JP2011198111A (ja) * | 2010-03-19 | 2011-10-06 | Toshiba Corp | 特徴語抽出装置及びプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004164137A (ja) | 2002-11-11 | 2004-06-10 | Ricoh Co Ltd | テキスト分類結果表示装置、テキスト分類結果表示方法、及び記録媒体 |
JP4735726B2 (ja) | 2009-02-18 | 2011-07-27 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
JP5135412B2 (ja) | 2010-10-27 | 2013-02-06 | 株式会社東芝 | 文書分析装置およびプログラム |
US8965848B2 (en) * | 2011-08-24 | 2015-02-24 | International Business Machines Corporation | Entity resolution based on relationships to a common entity |
US8930339B2 (en) * | 2012-01-03 | 2015-01-06 | Microsoft Corporation | Search engine performance evaluation using a task-based assessment metric |
US9367633B2 (en) * | 2012-06-29 | 2016-06-14 | Yahoo! Inc. | Method or system for ranking related news predictions |
-
2013
- 2013-08-23 US US14/419,705 patent/US10140361B2/en active Active
- 2013-08-23 WO PCT/JP2013/072548 patent/WO2014034557A1/ja active Application Filing
- 2013-08-23 CN CN201380045560.2A patent/CN104603779A/zh active Pending
- 2013-08-23 JP JP2014532977A patent/JP6281491B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001075966A (ja) * | 1999-07-07 | 2001-03-23 | Internatl Business Mach Corp <Ibm> | データ分析システム |
JP2004246491A (ja) * | 2003-02-12 | 2004-09-02 | Mitsubishi Electric Corp | テキストマイニング装置及びテキストマイニングプログラム |
WO2007069663A1 (ja) * | 2005-12-13 | 2007-06-21 | Intellectual Property Bank Corp. | 技術文書属性の関連性分析支援装置 |
JP2010061176A (ja) * | 2006-11-22 | 2010-03-18 | Nec Corp | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
WO2010035455A1 (ja) * | 2008-09-24 | 2010-04-01 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
JP2011034457A (ja) * | 2009-08-04 | 2011-02-17 | Nec Corp | データマイニングシステム、データマイニング方法及びデータマイニング用プログラム |
JP2011198111A (ja) * | 2010-03-19 | 2011-10-06 | Toshiba Corp | 特徴語抽出装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2014034557A1 (ja) | 2014-03-06 |
JP6281491B2 (ja) | 2018-02-21 |
US10140361B2 (en) | 2018-11-27 |
US20150205859A1 (en) | 2015-07-23 |
CN104603779A (zh) | 2015-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6281491B2 (ja) | テキストマイニング装置、テキストマイニング方法及びプログラム | |
TW202029079A (zh) | 異常群體識別方法及裝置 | |
JP6111543B2 (ja) | 類似サブ時系列の抽出方法及び装置 | |
US8290925B1 (en) | Locating product references in content pages | |
JP5194818B2 (ja) | データ分類方法およびデータ処理装置 | |
JP6936014B2 (ja) | 教師データ収集装置、教師データ収集方法、及びプログラム | |
JP2016009344A (ja) | テストケース生成プログラム、テストケース生成方法、及びテストケース生成装置 | |
US10346450B2 (en) | Automatic datacenter state summarization | |
JPWO2018021163A1 (ja) | シグネチャ作成装置、シグネチャ作成方法、シグネチャ作成プログラムが記録された記録媒体、及び、ソフトウェア判定システム | |
JP2017045080A (ja) | 業務フロー仕様再生方法 | |
Zhu et al. | A cluster-based sequential feature selection algorithm | |
WO2013157603A1 (ja) | 検索クエリ分析装置、検索クエリ分析方法、及びコンピュータ読み取り可能な記録媒体 | |
JP6191440B2 (ja) | スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法 | |
US9286349B2 (en) | Dynamic search system | |
JP5516925B2 (ja) | 信頼度計算装置、信頼度計算方法、及びプログラム | |
US9292704B2 (en) | Information processing device for detecting an illegal stored document, illegal stored document detection method and recording medium | |
JP2019148859A (ja) | フローダイアグラムを用いたモデル開発環境におけるデザインパターンの発見を支援する装置および方法 | |
US7933853B2 (en) | Computer-readable recording medium, apparatus and method for calculating scale-parameter | |
JP2022061689A (ja) | 妥当性確認方法、妥当性確認システム及びプログラム | |
JP2017111553A (ja) | 画像認識装置及び画像認識装置の動作方法 | |
JP7327468B2 (ja) | 文書解析装置及び文書解析方法 | |
KR20190123369A (ko) | 머신러닝 기반 악성코드 탐지를 위한 특성선정 방법 및 이를 수행하기 위한 기록매체 및 장치 | |
US11960541B2 (en) | Name data matching apparatus, and name data matching method and program | |
KR102289411B1 (ko) | 가중치 기반의 피처 벡터 생성 장치 및 방법 | |
JP7156376B2 (ja) | 観測事象判定装置、観測事象判定方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170706 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6281491 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |