JPWO2014034557A1 - テキストマイニング装置、テキストマイニング方法及びプログラム - Google Patents

テキストマイニング装置、テキストマイニング方法及びプログラム Download PDF

Info

Publication number
JPWO2014034557A1
JPWO2014034557A1 JP2014532977A JP2014532977A JPWO2014034557A1 JP WO2014034557 A1 JPWO2014034557 A1 JP WO2014034557A1 JP 2014532977 A JP2014532977 A JP 2014532977A JP 2014532977 A JP2014532977 A JP 2014532977A JP WO2014034557 A1 JPWO2014034557 A1 JP WO2014034557A1
Authority
JP
Japan
Prior art keywords
analysis
record
attribute value
text
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014532977A
Other languages
English (en)
Other versions
JP6281491B2 (ja
Inventor
正明 土田
正明 土田
石川 開
開 石川
貴士 大西
貴士 大西
シルバ ダニエル ゲオルグ アンドラーデ
シルバ ダニエル ゲオルグ アンドラーデ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014034557A1 publication Critical patent/JPWO2014034557A1/ja
Application granted granted Critical
Publication of JP6281491B2 publication Critical patent/JP6281491B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置2を用いる。テキストマイニング装置2は、分析対象データから属性値を抽出し、抽出した属性値を用いて分析観点候補を生成する、分析観点候補生成部20と、分析観点候補として抽出された属性値を含むレコードのテキストデータと、分析対象データの属性値を含むレコード以外のレコードを少なくとも含むレコード集合のテキストデータとを比較し、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する、特徴度計算部21と、を備えている。

Description

本発明は、テキストデータの分析によって分析者に有用な知見を提供し得る、テキストマイニングシステムに関し、特には、有用な知見として分析者に分析の観点を推薦する、テキストマイニング装置、テキストマイニング方法、及びこれらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
一般に、テキストマイニングで有用な知見を得るためには、様々な観点で分析することが肝要である。例えば、テキストマイニングでは、対象となるテキストデータに対して、ある観点に基づいて、クラスタリングが実行され、クラスタリングによって分割された部分のテキスト内容が特徴的であるかどうかが判定される。判定の結果、特徴的な部分が存在すれば、有用な知見の発見につながる。
特許文献1は、このようなテキストマイニングを実行するための、従来からのテキストマイニングシステムを開示している。特許文献1に開示されたテキストマイニングシステムは、複数のレコードで構成されたデータを分析対象データとしている。また、分析対象データの各レコードには、属性値とテキストデータとが含まれている。
そして、特許文献1に開示されたテキストマイニングシステムは、まず、分析者がある属性(例えば、職種)を指定すると、指定された属性の属性値(例えば、学生,会社員、etc)を用いて、属性値毎に、分析対象データから、該当するレコードを抽出する。また、ここでは、抽出されたレコードを「部分集合」と表記する。
続いて、特許文献1に開示されたテキストマイニングシステムは、分析対象データのテキストデータを対象にしてテキスト分類を行なって、複数のテキストグループを生成する。その後、特許文献1に開示されたテキストマイニングシステムは、属性値毎に、部分集合とテキストグループとの関連性を指標化し、部分集合とテキストグループとの関連性を表わす情報を表示する。
すなわち、特許文献1に開示されたテキストマイニングシステムによれば、分析者は、分析の観点として属性を指定することで、その属性値毎のテキストグループとの関連性を概観することができる。言い換えると、分析者は、このようなテキストマイニングシステムを用いることで、一般的に知られている観点、分析者の経験又は感覚から推察した観点を設定でき、設定した観点に基づいて分析を行なうことができる。
特開2004−164137号公報
しかしながら、特許文献1に開示されたテキストマイニングシステムにおいては、分析者は経験又は感覚等に基づいて観点を自身で設定する必要があることから、分析は分析者の先入観の範囲で行なわれる傾向にある。このため、分析者が試行錯誤を行なって分析観点を設定しない限り、分析者にとって想定外でありながら、有用な知見の発見につながる、分析観点を効率良く設定することは困難となる。
[発明の目的]
本発明の目的は、上記問題を解消し、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定し得る、テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
上記目的を達成するため、本発明の一側面におけるテキストマイニング装置は、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置であって、
前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、分析観点候補生成部と、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、特徴度計算部と、
を備えることを特徴とする。
また、上記目的を達成するため、本発明の一側面におけるテキストマイニング方法は、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング方法であって、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を有することを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とする。
以上のように、本発明によれば、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定することができる。
図1は、本発明の実施の形態1におけるテキストマイニング装置の構成を示すブロック図である。 図2は、本発明の実施の形態1で用いられる分析対象データの一例を示す図である。 図3は、本発明の実施の形態1におけるテキストマイニング装置の動作を示す流れ図である。 図4は、本発明の実施の形態2におけるテキストマイニング装置の動作を示す流れ図である。 図5は、本発明の実施の形態3におけるテキストマイニング装置の構成を示すブロック図である。 図6は、本発明の実施の形態3におけるテキストマイニング装置の動作を示す流れ図である。 図7は、本発明の実施の形態1〜3におけるテキストマイニング装置を実現するコンピュータの一例を示すブロック図である。
(実施の形態1)
以下、本発明の実施の形態1におけるテキストマイニング装置、テキストマイニング方法、及びプログラムについて、図1〜図3を参照しながら説明する。
[装置構成]
最初に、図1を用いて、本実施の形態1におけるテキストマイニング装置の構成について説明する。図1は、本発明の実施の形態1におけるテキストマイニング装置の構成を示すブロック図である。
図1に示すように、本実施の形態1におけるテキストマイニング装置2は、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとして、テキストマイニングを実行する装置である。
また、図1に示すように、テキストマイニング装置2は、分析観点候補生成部20と、特徴度計算部21とを備えている。このうち、分析観点候補生成部20は、分析対象データから属性値を抽出し、抽出した属性値を用いて分析観点候補を生成する。
特徴度計算部21は、まず、分析観点候補として抽出された属性値を含むレコードのテキストデータと、分析対象データにおける属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較する。そして、特徴度計算部21は、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する。
このように、本実施の形態1におけるテキストマイニング装置2は、分析者の意志とは関係無く、機械的に、分析観点候補となる属性値を抽出し、そして、この属性値についての特徴度を計算する。このため、分析者は、想定していないが、特徴度の高い分析観点候補、即ち、有用な知見を発見できる可能生が高い分析観点候補を特定することができる。従って、テキストマイニング装置2によれば、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定することができる。
ここで、本実施の形態1におけるテキストマイニング装置2の構成について、図2を用いて、更に具体的に説明する。図2は、本発明の実施の形態1で用いられる分析対象データの一例を示す図である。
図1に示すように、本実施の形態1では、テキストマイニング装置2は、データ記憶装置1に接続されており、データ記憶装置1と共にテキストマイニングシステム3を構築している。データ記憶装置1は、分析対象データ記憶部10と、分析観点データ記憶部11とを備えている。
分析対象データ記憶部10は、分析対象データを記憶している。図2の例では、分析対象データは、パーソナルコンピュータについてのアンケート結果である。また、図2の例では、分析対象データを構成する各レコードは、7種類の属性(性別、年代、既婚、主な利用目的、メーカ、製品、万度)についての属性値と、テキスト属性(自由記述(1)、自由記述(2))の異なる2種類のテキストデータとを含んでいる。なお、本実施の形態において、分析対象データにおける属性の種類の数と、テキストデータの種類の数とは、特に限定されるものではない。
また、分析観点データ記憶部11は、テキストマイニング装置2によって出力された分析観点データを記憶している。本実施の形態において、分析観点データは、分析観点候補毎に計算された特徴度で構成されている。
また、分析観点候補生成部20は、本実施の形態1では、分析対象データから1つの属性値を抽出し、これのみを用いて分析観点候補を生成しても良いし、複数の属性値を抽出し、この複数の属性値を用いて分析観点候補を生成しても良い。具体的には、図3の例において、分析観点候補生成部20は、「男性」のみを含む分析観点候補を生成しても良いし、「男性、20代」の組合せを含む分析観点候補を生成しても良い。
更に、分析観点候補生成部20は、本実施の形態1では、分析観点候補を生成すると、分析観点候補として抽出された属性値を含むレコードを特定し、特定したレコードの集合(以下、「レコード部分集合」と表記する。)を作成する。なお、分析観点候補として抽出される属性値は、それを含むレコードが一つであっても良く、この場合、レコード部分集合は、一つのレコードのみで構成されることになる。
また、本実施の形態1において、「分析対象データにおける属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、属性値を含むレコード以外のレコードを少なくとも1つ含めば良く、分析対象データの全レコードであっても良いし、分析対象データの全レコードからランダムに選択されたレコードの集合であっても良い。更に、「分析対象データにおける属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、予め設定された分析観点に基づいて選択されたレコードの集合であっても良い。
[装置動作]
次に、本発明の実施の形態1におけるテキストマイニング装置2の動作について図3を用いて説明する。図3は、本発明の実施の形態1におけるテキストマイニング装置の動作を示す流れ図である。以下の説明においては、適宜図1及び図2を参酌する。また、本実施の形態1では、テキストマイニング装置2を動作させることによって、テキストマイニング方法が実施される。よって、本実施の形態1におけるテキストマイニング方法の説明は、以下のテキストマイニング装置2の動作説明に代える。
図3に示すように、最初に、分析観点候補生成部20は、分析対象データ記憶部10から分析対象データを読み出し、読み出した分析対象データから、分析観点候補となる属性値を取得し、分析観点候補を生成する(ステップS1)。このとき、1つの分析観点候補として取得される属性値は、単一の属性値であっても良いし、2以上の属性値の組み合せであっても良い。
また、本実施の形態1では、ステップS1において、分析観点候補生成部20は、分析対象データを構成する全てのレコードを対象にして、レコード毎に、各レコードで想定される全ての属性値の組み合せを取り出し、取り出した各組み合せを分析観点候補とする。この場合、少なくとも1つのレコードが含まれるレコード部分集合を生成可能な、分析観点候補が列挙されることになる。
例えば、図2の例において、分析観点候補生成部20は、「性別、年代」の属性の組み合わせを元に、ID=1のレコードから「男性、20代」という分析観点候補を生成し、ID=2のレコードから「女性、30代」という分析観点候補を生成する。このようにして生成された各分析観点候補は、後述のステップS2で生成されるレコード部分集合の要素となる。
また、ステップS1では、分析観点候補生成部20は、列挙される分析観点候補の量を絞るため、組み合わせる属性値の数を制限しても良いし、該当するレコードの数が一定数以上とならない分析観点候補を除去しても良い。
次に、分析観点候補生成部20は、ステップS1で取得した分析観点候補を用い、分析観点候補毎に、各分析観点候補を要素として含むレコードを特定し、更に、分析観点候補毎に、特定したレコードの集合(レコード部分集合)を作成する(ステップS2)。また、分析観点候補生成部20は、各レコード部分集合を、特徴度計算部11に出力する。
ステップS2では、分析観点候補生成部20は、更に、一の分析観点候補について特定したレコード(レコード部分集合)と、他の分析観点候補について特定したレコード(レコード部分集合)との間に、一定の類似関係が存在するかどうかを判定することができる。そして、分析観点候補生成部20は、判定の結果、一定の類似関係が存在する場合に、一の分析観点候補と他の分析観点候補とを統合することができる。
このとき、複数の分析観点候補を統合する手法としては、統合対象となった各分析観点候補に含まれる属性値の和集合又は積集合を求め、求めた和集合又は積集合を新たな分析観点候補とする手法が挙げられる。更に、複数の分析観点候補を統合する別の手法としては、統合対象となった分析観点候補のうちの一つのみを残し、他を削除する手法も挙げられる。なお、削除による手法を採用する場合は、分析観点候補作成部20は、後述するステップS3の実行後に、最も特徴度の高い分析観点候補のみを残し、他を削除しても良い。
レコード部分集合が類似している場合は、テキストデータの内容の傾向もほぼ変わらないことが多いことから、このように、分析観点候補の統合を行なうことは、分析観点候補を分析者に提示する際の冗長性の削減に効果的である。また、レコード部分集合が類似する分析観点候補同士が、同じ傾向が得られる分析観点としてまとめて提示されると、分析者における分析効率が向上する。
次に、特徴度計算部21は、分析観点候補毎に、ステップS2で作成したレコード部分集合のテキストデータと、ステップS2で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合と、を比較し、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する(ステップS3)。なお、図3の説明においては、「ステップS2で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、「分析対象データの全レコード」であるとし、以下、「分析対象データの全レコード」が用いられた例について説明する。
ステップS3では、特徴度計算部21は、例えば、レコード部分集合のテキストデータと全レコードのテキストデータとのそれぞれの内容の傾向が異なるほど、値が高くなるように、特徴度を計算する。
本実施の形態1においては、まず、特徴度計算部21は、分析対象データの各レコードのテキストデータ全体に対して、既存技術であるテキストクラスタリングを実行し、テキストデータ全体を話題毎に分割する。そして、特徴度計算部21は、各分析観点候補のレコード部分集合のテキストデータと、分析対象データの全レコードのテキストデータとについて、話題の分布を求め、求めた話題の分布の非類似性に基づいて、特徴度を計算することができる。このようにして特徴度を計算した場合は、全体の話題の分布と、特定の分析観点候補の話題の分布とが比較されるので、特徴度として、全体的な傾向の違いが計算されることになる。
具体的には、例えば、テキストクラスタリングによって、テキストデータ全体が、3つの話題T1、T2、T3に分割され、分析観点候補Aのレコード部分集合における各話題の頻度分布xが「T1:10%,T2:30%,T3:60%」であり、レコード全体における各話題の頻度分布yが「T1:20%,T2:20%,T3:60%))」であるとする。
そして、特徴度として、コサイン類似度の逆数が用いられる場合は、特徴度は、下記の数1により、1.02と計算される。なお、コサイン類似度は、値が大きいほど、同じ傾向にあって類似していることを表わすため、特徴度としては、逆数が用いられる。
(数1)
特徴度=1/(x・y/|x||y|)
また、一方、分析観点候補Bのレコード部分集合における各話題の頻度分布が「T1:60%,T2:20%,T3:30%」である場合は、特徴度は、上記の数1により、1.57と計算される。この場合、分析観点候補Bの特徴度は、分析観点候補Aの特徴度と比べて高くなることから、分析観点候補Bの方が分析観点候補Aよりも有用な知見の発見につながり易いと考えられる。
更に、特徴度としては、コサイン類似度以外にも、頻度分布のベクトルから計算可能な任意の類似度の逆数、又は同じく頻度分布のベクトルから計算可能な距離を用いることもできる。
また、特徴度計算部21は、分析観点候補Aと全レコードとの話題の出現比率が同じであることを帰無仮説とした統計的検定を行い、そのP値が低いほど高い値となるように、特徴度を計算することもできる。統計的検定としては、カイ二乗検定、尤度非検定の一種であるG検定、などを用いることができる。
また、別の例では、ステップS3において、特徴度計算部21は、テキストクラスタリング後に、レコード全体から、話題毎に、その話題を含むレコードの集合を特定する。そして、特徴度計算部21は、特定した話題毎の集合と、各分析観点候補のレコード部分集合との間の類似度を計算し、この類似度を用いて特徴度を計算することができる。この例では、特徴度は、レコード全体と分析観点候補のレコード部分集合との、特定の話題に関する比較結果を表わしている。
具体的には、例えば、レコード全体において、話題T1を含むレコードの数が1000個であり、2つの分析観点候補C及びDのレコード部分集合におけるレコードの数がそれぞれ、500個、700個であるとする。また、分析観点候補C及びDのレコード部分集合において、話題T1を含むレコードの数と共通のレコードの数とは、それぞれ400個、200個であるとする。
この場合において、ダイス係数を用いると、分析観点候補Cの話題T1についての特徴度は0.53(=2×400/(1000+500))となる。また、分析観点候補Dの話題T1に対する特徴度は0.24(=2×200/(1000+700))となる。なお、この場合において、特徴度の計算には、ダイス係数以外にも、レコードの集合間における任意の類似度の計算方法を用いることもできる。
また、特徴度計算部21は、分析観点候補のレコード部分集合から特徴語を抽出し、特徴語抽出の結果、例えば、抽出した特徴語のスコア(出現頻度等)を用いて、特徴度を計算することもできる。具体的には、特徴度計算部21は、抽出した特徴語の中から、スコアの値が大きい順にN個の特徴語を特定し、特定した特徴語のスコアの和を特徴度とすることができる。
更に、特徴度計算部21は、分析観点候補のレコード部分集合と、分析対象データの全レコードとの、それぞれから、特徴語を抽出し、そして、抽出した両者の特徴語の類似度を計算し、この類似度を用いて、特徴度を計算することもできる。
具体的には、特徴度計算部21は、まず、分析観点候補のレコード部分集合と、分析対象データの全レコードとの、それぞれから、スコアの値が大きい順にN個の特徴語を抽出する。続いて、特徴度計算部21は、それぞれから抽出したN個の特徴語同士について、類度を計算し、この類似度を用いて、当該類似度が低いほど値が高くなるようにして、特徴度を計算することができる。
なお、特徴度の計算に特徴語抽出を用いる2例を説明したが、これらの例には、テキストクラスタリングに必要なパラメタの設定が不要になるという利点はあるが、これらの例では、話題毎に傾向を捉えることが難しくなる。
更に、上述した話題の出現比率に基づく方法と同様に、特徴度計算部21は、分析観点候補Aと全レコードとの特徴語の出現比率が同じであることを帰無仮説とした統計的検定を行い、そのP値が低いほど高い値となるように、特徴度を計算することもできる。
次に、特徴度計算部21は、ステップS3で計算した分析観点候補毎の特徴度を、分析観点データとして、分析観点データ記憶部11に出力する(ステップS4)。ステップS4が実行されると、分析観点データ記憶部11は、分析観点データを記憶する。ステップS4の実行後、テキストマイニング装置2における処理は終了する。なお、本実施の形態1では、分析観点データは、分析観点候補と、その特徴度との組み合せデータである。
[プログラム]
本発明の実施の形態1におけるプログラムは、コンピュータに、図3に示すステップS1〜S4を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態1におけるテキストマイニング装置2とテキストマイニング方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、分析観点候補生成部20、及び特徴度計算部21として機能し、処理を行なう。
また、本実施の形態1では、データ記憶装置1は、本実施の形態1におけるプログラムがインストールされるコンピュータに備えられた、ハードディスク等の記憶装置によって実現できる。更に、データ記憶装置1は、本実施の形態1におけるプログラムがインストールされるコンピュータに、ネットワーク等を介して接続された別のコンピュータの記憶装置によって実現されていても良い。
[実施の形態1の効果]
以上のように本実施の形態1では、分析観点候補は、分析者の経験及び感覚に依存することなく、分析対象データから、自動的に設定される。このため、本実施の形態1によれば、分析者にとって想定外の分析観点も含む、特徴的な結果が得られる可能性が高い、分析観点が効率良く設定されることになる。
(実施の形態2)
次に、本発明の実施の形態2におけるテキストマイニング装置、テキストマイニング方法、及びプログラムについて、図4を参照しながら説明する。
本実施の形態2におけるテキストマイニング装置は、図1に示した実施の形態1におけるテキストマイニング装置1と同様の構成を備えているが、分析観点候補及び特徴度計算部の動作の点で異なっている。以下、図4を用いて、本実施の形態2におけるテキストマイニング装置の動作を説明しながら、実施の形態1との相違点を説明する。
図4は、本発明の実施の形態2におけるテキストマイニング装置の動作を示す流れ図である。なお、以下の説明においては、実施の形態1で用いた図1及び図2を適宜参酌すると共に、図1で用いられている符号を使用する。また、本実施の形態2においても、テキストマイニング装置を動作させることによって、テキストマイニング方法が実施される。
図4に示すように、最初に、分析観点候補生成部20は、分析対象データ記憶部10から分析対象データを読み出し、読み出した分析対象データから、分析観点候補となる属性値を取得して、分析観点候補を生成する(ステップS11)。但し、ステップS11においては、実施の形態1で図3に示したステップS1のように分析観点候補が網羅的に列挙されることはない。ステップS11では、複数個の分析観点候補がランダムに生成される。
次に、分析観点候補生成部20は、ステップS11で取得した分析観点候補を用い、分析観点候補毎に、各分析観点候補を要素として含むレコードを特定し、更に、分析観点候補毎に、特定したレコードの集合(レコード部分集合)を作成する(ステップS12)。ステップS12は、図3に示したステップS2と同様のステップである。また、分析観点候補生成部20は、各レコード部分集合を、特徴度計算部に出力する。
次に、特徴度計算部21は、分析観点候補毎に、ステップS12で作成したレコード部分集合のテキストデータと、ステップS12で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合と、を比較し、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する(ステップS13)。ステップS13は、図3に示したステップS3と同様のステップである。また、本実施の形態2においても、「ステップS12で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、「分析対象データの全レコード」であるとし、以下、「分析対象データの全レコード」が用いられた例について説明する。
次に、特徴度計算部21は、ステップS13で計算された特徴度が予め設定された閾値以上となっている分析観点候補の個数をカウントし、その個数が目標数に到達したかどうかを判定する(ステップS14)。
ステップS14の判定の結果、個数が目標数に到達していない場合は、特徴度計算部21は、分析観点候補生成部20に、再度、ステップS11を実行させる。すなわち、ステップS14の判定により、一定以上の特徴的と見なせる分析観点候補が一定個数以上発見されるまで、分析観点候補の生成と特徴度の計算とが繰り返えされる。
一方、ステップS14の判定の結果、個数が目標数に到達している場合は、特徴度計算部21は、ステップS13で計算した分析観点候補毎の特徴度を、分析観点データとして、分析観点データ記憶部11に出力する(ステップS15)。ステップS15の実行後、テキストマイニング装置における処理は終了する。ステップS15は、図3に示したステップS4と同様のステップである。
[プログラム]
本発明の実施の形態2におけるプログラムは、コンピュータに、図4に示すステップS11〜S15を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2におけるテキストマイニング装置とテキストマイニング方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、分析観点候補生成部20、及び特徴度計算部21として機能し、処理を行なう。
また、本実施の形態2でも、データ記憶装置1は、本実施の形態2におけるプログラムがインストールされるコンピュータに備えられた、ハードディスク等の記憶装置によって実現できる。更に、データ記憶装置は、本実施の形態2におけるプログラムがインストールされるコンピュータに、ネットワーク等を介して接続された別のコンピュータの記憶装置によって実現されていても良い。
[実施の形態2の効果]
以上のように、本実施の形態2では、分析観点候補の数が制限されるので、属性及びその属性値の種類が膨大であり、計算時間及び記憶容量の関係で、事前の分析観点候補を列挙することが困難な場合に、有用となる。本実施の形態2によれば、計算時間及び必要となる記憶容量の削減を図ることができる。また、本実施の形態2を用いた場合も、実施の形態1と同様の効果を得ることができる。
(実施の形態3)
次に、本発明の実施の形態3におけるテキストマイニング装置、テキストマイニング方法、及びプログラムについて、図5及び図6を参照しながら説明する。
[装置構成]
最初に、図5を用いて、本実施の形態3におけるテキストマイニング装置の構成について説明する。図5は、本発明の実施の形態3におけるテキストマイニング装置の構成を示すブロック図である。
図5に示すように、本実施の形態3におけるテキストマイニング装置23は、分析観点候補20及び特徴度計算部21に加えて、検証用情報抽出部22を備えており、この点で、実施の形態1において図1に示したテキストマイニング装置2と異なっている。
なお、これ以外の点では、テキストマイニング装置23は、実施の形態1において図1に示したテキストマイニング装置2と同様に構成されており、図5に示した分析観点候補20及び特徴度計算部21は、図1に示した分析観点候補20及び特徴度計算部21と同一の機能ブロックである。以下、実施の形態1との相違点を中心に説明する。
検証用情報抽出部22は、まず、分析観点候補として抽出された属性値を含むレコード(レコード部分集合)のテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出する。なお、本実施の形態1において、テキストデータから特徴語又は代表的なテキストを抽出する技術としては、既に開示されている任意の技術が用いられる。
続いて、検証用情報抽出部22は、抽出した検証用情報を、分析観点候補に付加する。また、検証用情報抽出部22は、検証用情報が付加された分析観点候補を、分析観点データ記憶部11に記憶させる。
[装置動作]
次に、本発明の実施の形態3におけるテキストマイニング装置23の動作について図6を用いて説明する。図6は、本発明の実施の形態1におけるテキストマイニング装置の動作を示す流れ図である。以下の説明においては、適宜図5を参酌する。また、本実施の形態3でも、テキストマイニング装置23を動作させることによって、テキストマイニング方法が実施される。よって、本実施の形態3におけるテキストマイニング方法の説明は、以下のテキストマイニング装置23の動作説明に代える。
図6に示すように、最初に、分析観点候補生成部20は、分析対象データ記憶部10から分析対象データを読み出し、読み出した分析対象データから、分析観点候補となる属性値を取得し、分析観点候補を生成する(ステップS21)。
次に、分析観点候補生成部20は、ステップS21で取得した分析観点候補を用い、分析観点候補毎に、各分析観点候補を要素として含むレコードを特定し、更に、分析観点候補毎に、特定したレコードの集合(レコード部分集合)を作成する(ステップS22)。
次に、特徴度計算部21は、分析観点候補毎に、ステップS22で作成したレコード部分集合のテキストデータと、ステップS22で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合と、を比較し、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する(ステップS23)。なお、本実施の形態3においても、「ステップS22で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、「分析対象データの全レコード」であるとし、以下、「分析対象データの全レコード」が用いられた例について説明する。
以上のステップS21〜S23は、図3に示したステップS1〜S3と同様のステップである。ステップS21〜S23が実行されると、検証用情報抽出部22は、各レコード部分集合のテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出する(ステップS24)。
次に、検証用情報抽出部22は、ステップS24で抽出した検証用情報を分析観点候補に付加する(ステップS25)。そして、検証用情報抽出部22は、検証用情報を付加した分析観点候補を、ステップS23で計算した特徴度と共に、分析観点データとして、分析観点データ記憶部11に出力する(ステップS26)。
ステップS26が実行されると、分析観点データ記憶部11は、分析観点データを記憶する。ステップS26の実行後、テキストマイニング装置23における処理は終了する。なお、ステップS24及びS25の実行タイミングは、分析観点候補が生成された後であれば良く、特に限定されることはない。
[プログラム]
本発明の実施の形態3におけるプログラムは、コンピュータに、図6に示すステップS21〜S26を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2におけるテキストマイニング装置とテキストマイニング方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、分析観点候補生成部20、特徴度計算部21、及び検証用情報抽出部22として機能し、処理を行なう。
また、本実施の形態3でも、データ記憶装置1は、本実施の形態3におけるプログラムがインストールされるコンピュータに備えられた、ハードディスク等の記憶装置によって実現できる。更に、データ記憶装置1は、本実施の形態3におけるプログラムがインストールされるコンピュータに、ネットワーク等を介して接続された別のコンピュータの記憶装置によって実現されていても良い。
[実施の形態3の効果]
以上のように、本実施の形態3では、分析観点候補が有望そうであるかを検証するための情報(検証用情報)が提供され、分析者は、提示された分析観点候補の特徴を容易に把握できる。言い換えると、分析者は、提供された情報により、分析観点候補を用いて分析した場合に、意味を見出せそうな結果を得ることができるか否かを、予想できる。従って、本実施の形態3によれば、分析者にとって想定外の分析観点も含む、特徴的な結果が得られる可能性が高い、分析観点がより効率良く設定されることになる。
[具体的構成]
ここで、実施の形態1〜3におけるプログラムを実行することによって、テキストマイニング装置を実現するコンピュータについて図7を用いて説明する。図7は、本発明の実施の形態1〜3におけるテキストマイニング装置を実現するコンピュータの一例を示すブロック図である。
図7に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、プログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。プログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
上述した実施の形態の一部又は全部は、以下に記載する(付記1)〜(付記30)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置であって、
前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、分析観点候補生成部と、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、特徴度計算部と、
を備えることを特徴とするテキストマイニング装置。
(付記2)
前記分析観点候補生成部が、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記1に記載のテキストマイニング装置。
(付記3)
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
(付記4)
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記1から3のいずれかに記載のテキストマイニング装置。
(付記5)
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
(付記6)
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
(付記7)
前記分析観点候補生成部が、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記1から6のいずれかに記載のテキストマイニング装置。
(付記8)
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、検証用情報抽出部を更に備えている、
付記1から7のいずれかに記載のテキストマイニング装置。
(付記9)
前記特徴度計算部が、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
(付記10)
前記特徴度計算部が、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記1または2に記載のテキストマイニング装置。
(付記11)
属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング方法であって、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を有することを特徴とするテキストマイニング方法。
(付記12)
前記(a)のステップにおいて、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記11に記載のテキストマイニング方法。
(付記13)
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
(付記14)
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記11から13のいずれかに記載のテキストマイニング方法。
(付記15)
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
(付記16)
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
(付記17)
前記(a)のステップにおいて、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記11から16のいずれかに記載のテキストマイニング方法。
(付記18)
(c)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、ステップを更に有する、付記11から17のいずれかに記載のテキストマイニング方法。
(付記19)
前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
(付記20)
前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記11または12に記載のテキストマイニング方法。
(付記21)
コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、命令を含むプログラムを記録している、コンピュータ読み取り可能な記録媒体。
(付記22)
前記(a)のステップにおいて、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記21に記載のコンピュータ読み取り可能な記録媒体。
(付記23)
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
(付記24)
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記21から23のいずれかに記載のコンピュータ読み取り可能な記録媒体。
(付記25)
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
(付記26)
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
(付記27)
前記(a)のステップにおいて、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記21から26のいずれかに記載のコンピュータ読み取り可能な記録媒体。
(付記28)
前記プログラムが、
(c)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、ステップを前記コンピュータに実行させる、命令を更に含む、付記21から27のいずれかに記載のコンピュータ読み取り可能な記録媒体ム。
(付記29)
前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
(付記30)
前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のコンピュータ読み取り可能な記録媒体。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2012年8月31日に出願された日本出願特願2012−191067を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上のように、本発明によれば、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定することができる。本発明は、テキストマイニングが必要とされる様々な分野、例えば、マーケティング分野等に有用である。
1 データ記憶装置
2 テキストマイニング装置
3 テキストマイニングシステム
10 分析対象データ記憶部
11 分析観点データ記憶部
20 分析観点候補生成部
21 特徴度計算部
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
本発明は、テキストデータの分析によって分析者に有用な知見を提供し得る、テキストマイニングシステムに関し、特には、有用な知見として分析者に分析の観点を推薦する、テキストマイニング装置、テキストマイニング方法、及びこれらを実現するためのプログラムに関する。
[発明の目的]
本発明の目的は、上記問題を解消し、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定し得る、テキストマイニング装置、テキストマイニング方法、及びプログラムを提供することにある。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムであって、
前記コンピュータに、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、ことを特徴とする。
分析対象データ記憶部10は、分析対象データを記憶している。図2の例では、分析対象データは、パーソナルコンピュータについてのアンケート結果である。また、図2の例では、分析対象データを構成する各レコードは、7種類の属性(性別、年代、既婚、主な利用目的、メーカ、製品、満足度)についての属性値と、テキスト属性(自由記述(1)、自由記述(2))の異なる2種類のテキストデータとを含んでいる。なお、本実施の形態において、分析対象データにおける属性の種類の数と、テキストデータの種類の数とは、特に限定されるものではない。
次に、分析観点候補生成部20は、ステップS1で取得した分析観点候補を用い、分析観点候補毎に、各分析観点候補を要素として含むレコードを特定し、更に、分析観点候補毎に、特定したレコードの集合(レコード部分集合)を作成する(ステップS2)。また、分析観点候補生成部20は、各レコード部分集合を、特徴度計算部1に出力する。
図5に示すように、本実施の形態3におけるテキストマイニング装置23は、分析観点候補生成部20及び特徴度計算部21に加えて、検証用情報抽出部22を備えており、この点で、実施の形態1において図1に示したテキストマイニング装置2と異なっている。
なお、これ以外の点では、テキストマイニング装置23は、実施の形態1において図1に示したテキストマイニング装置2と同様に構成されており、図5に示した分析観点候補生成部20及び特徴度計算部21は、図1に示した分析観点候補生成部20及び特徴度計算部21と同一の機能ブロックである。以下、実施の形態1との相違点を中心に説明する。
検証用情報抽出部22は、まず、分析観点候補として抽出された属性値を含むレコード(レコード部分集合)のテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出する。なお、本実施の形態において、テキストデータから特徴語又は代表的なテキストを抽出する技術としては、既に開示されている任意の技術が用いられる。
[装置動作]
次に、本発明の実施の形態3におけるテキストマイニング装置23の動作について図6を用いて説明する。図6は、本発明の実施の形態におけるテキストマイニング装置の動作を示す流れ図である。以下の説明においては、適宜図5を参酌する。また、本実施の形態3でも、テキストマイニング装置23を動作させることによって、テキストマイニング方法が実施される。よって、本実施の形態3におけるテキストマイニング方法の説明は、以下のテキストマイニング装置23の動作説明に代える。
[プログラム]
本発明の実施の形態3におけるプログラムは、コンピュータに、図6に示すステップS21〜S26を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態におけるテキストマイニング装置とテキストマイニング方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、分析観点候補生成部20、特徴度計算部21、及び検証用情報抽出部22として機能し、処理を行なう。
(付記21)
コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムであって、
前記コンピュータに、
(a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
(b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、プログラム。
(付記22)
前記(a)のステップにおいて、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記21に記載のプログラム
(付記23)
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のプログラム
(付記24)
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記21から23のいずれかに記載のプログラム
(付記25)
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記21または22に記載のプログラム
(付記26)
前記(b)のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記21または22に記載のプログラム
(付記27)
前記(a)のステップにおいて、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記21から26のいずれかに記載のプログラム
(付記28)
c)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、ステップを更に前記コンピュータに実行させる、付記21から27のいずれかに記載のプログラム
(付記29)
前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のプログラム
(付記30)
前記(b)のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、
付記21または22に記載のプログラム

Claims (10)

  1. 属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置であって、
    前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、分析観点候補生成部と、
    前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、特徴度計算部と、
    を備えることを特徴とするテキストマイニング装置。
  2. 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
    請求項1に記載のテキストマイニング装置。
  3. 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の出現比率を求め、求めた前記話題の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
    前記統計的検定によって得られるP値が低いほど、値が高くなるように、前記特徴度を計算する、請求項1または2に記載のテキストマイニング装置。
  4. 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
    請求項1または2に記載のテキストマイニング装置。
  5. 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
    請求項1または2に記載のテキストマイニング装置。
  6. 前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
    請求項1または2に記載のテキストマイニング装置。
  7. 前記分析観点候補生成部が、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
    請求項1から6のいずれかに記載のテキストマイニング装置。
  8. 前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、検証用情報抽出部を更に備えている、
    請求項1から7のいずれかに記載のテキストマイニング装置。
  9. 属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング方法であって、
    (a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
    (b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
    を有することを特徴とするテキストマイニング方法。
  10. コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    前記コンピュータに、
    (a)前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
    (b)前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
    を実行させる、命令を含むプログラムを記録している、コンピュータ読み取り可能な記録媒体。
JP2014532977A 2012-08-31 2013-08-23 テキストマイニング装置、テキストマイニング方法及びプログラム Active JP6281491B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012191067 2012-08-31
JP2012191067 2012-08-31
PCT/JP2013/072548 WO2014034557A1 (ja) 2012-08-31 2013-08-23 テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPWO2014034557A1 true JPWO2014034557A1 (ja) 2016-08-08
JP6281491B2 JP6281491B2 (ja) 2018-02-21

Family

ID=50183370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014532977A Active JP6281491B2 (ja) 2012-08-31 2013-08-23 テキストマイニング装置、テキストマイニング方法及びプログラム

Country Status (4)

Country Link
US (1) US10140361B2 (ja)
JP (1) JP6281491B2 (ja)
CN (1) CN104603779A (ja)
WO (1) WO2014034557A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6642429B2 (ja) * 2014-07-23 2020-02-05 日本電気株式会社 テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
JP6472573B2 (ja) * 2016-03-28 2019-02-20 三菱電機株式会社 データ分析手法候補決定装置
JP7048891B2 (ja) * 2018-05-28 2022-04-06 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、制御方法、及びプログラム
CN110619535B (zh) * 2018-06-19 2023-07-14 华为技术有限公司 一种数据处理方法及其装置
CN112906728B (zh) * 2019-12-04 2023-08-25 杭州海康威视数字技术股份有限公司 一种特征比对方法、装置及设备
CN116662556B (zh) * 2023-08-02 2023-10-20 天河超级计算淮海分中心 一种融合用户属性的文本数据处理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075966A (ja) * 1999-07-07 2001-03-23 Internatl Business Mach Corp <Ibm> データ分析システム
JP2004246491A (ja) * 2003-02-12 2004-09-02 Mitsubishi Electric Corp テキストマイニング装置及びテキストマイニングプログラム
WO2007069663A1 (ja) * 2005-12-13 2007-06-21 Intellectual Property Bank Corp. 技術文書属性の関連性分析支援装置
JP2010061176A (ja) * 2006-11-22 2010-03-18 Nec Corp テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
WO2010035455A1 (ja) * 2008-09-24 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP2011034457A (ja) * 2009-08-04 2011-02-17 Nec Corp データマイニングシステム、データマイニング方法及びデータマイニング用プログラム
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004164137A (ja) 2002-11-11 2004-06-10 Ricoh Co Ltd テキスト分類結果表示装置、テキスト分類結果表示方法、及び記録媒体
JP4735726B2 (ja) 2009-02-18 2011-07-27 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP5135412B2 (ja) 2010-10-27 2013-02-06 株式会社東芝 文書分析装置およびプログラム
US8965848B2 (en) * 2011-08-24 2015-02-24 International Business Machines Corporation Entity resolution based on relationships to a common entity
US8930339B2 (en) * 2012-01-03 2015-01-06 Microsoft Corporation Search engine performance evaluation using a task-based assessment metric
US9367633B2 (en) * 2012-06-29 2016-06-14 Yahoo! Inc. Method or system for ranking related news predictions

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075966A (ja) * 1999-07-07 2001-03-23 Internatl Business Mach Corp <Ibm> データ分析システム
JP2004246491A (ja) * 2003-02-12 2004-09-02 Mitsubishi Electric Corp テキストマイニング装置及びテキストマイニングプログラム
WO2007069663A1 (ja) * 2005-12-13 2007-06-21 Intellectual Property Bank Corp. 技術文書属性の関連性分析支援装置
JP2010061176A (ja) * 2006-11-22 2010-03-18 Nec Corp テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
WO2010035455A1 (ja) * 2008-09-24 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP2011034457A (ja) * 2009-08-04 2011-02-17 Nec Corp データマイニングシステム、データマイニング方法及びデータマイニング用プログラム
JP2011198111A (ja) * 2010-03-19 2011-10-06 Toshiba Corp 特徴語抽出装置及びプログラム

Also Published As

Publication number Publication date
WO2014034557A1 (ja) 2014-03-06
JP6281491B2 (ja) 2018-02-21
US10140361B2 (en) 2018-11-27
US20150205859A1 (en) 2015-07-23
CN104603779A (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
JP6281491B2 (ja) テキストマイニング装置、テキストマイニング方法及びプログラム
TW202029079A (zh) 異常群體識別方法及裝置
JP6111543B2 (ja) 類似サブ時系列の抽出方法及び装置
US8290925B1 (en) Locating product references in content pages
JP5194818B2 (ja) データ分類方法およびデータ処理装置
JP6936014B2 (ja) 教師データ収集装置、教師データ収集方法、及びプログラム
JP2016009344A (ja) テストケース生成プログラム、テストケース生成方法、及びテストケース生成装置
US10346450B2 (en) Automatic datacenter state summarization
JPWO2018021163A1 (ja) シグネチャ作成装置、シグネチャ作成方法、シグネチャ作成プログラムが記録された記録媒体、及び、ソフトウェア判定システム
JP2017045080A (ja) 業務フロー仕様再生方法
Zhu et al. A cluster-based sequential feature selection algorithm
WO2013157603A1 (ja) 検索クエリ分析装置、検索クエリ分析方法、及びコンピュータ読み取り可能な記録媒体
JP6191440B2 (ja) スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法
US9286349B2 (en) Dynamic search system
JP5516925B2 (ja) 信頼度計算装置、信頼度計算方法、及びプログラム
US9292704B2 (en) Information processing device for detecting an illegal stored document, illegal stored document detection method and recording medium
JP2019148859A (ja) フローダイアグラムを用いたモデル開発環境におけるデザインパターンの発見を支援する装置および方法
US7933853B2 (en) Computer-readable recording medium, apparatus and method for calculating scale-parameter
JP2022061689A (ja) 妥当性確認方法、妥当性確認システム及びプログラム
JP2017111553A (ja) 画像認識装置及び画像認識装置の動作方法
JP7327468B2 (ja) 文書解析装置及び文書解析方法
KR20190123369A (ko) 머신러닝 기반 악성코드 탐지를 위한 특성선정 방법 및 이를 수행하기 위한 기록매체 및 장치
US11960541B2 (en) Name data matching apparatus, and name data matching method and program
KR102289411B1 (ko) 가중치 기반의 피처 벡터 생성 장치 및 방법
JP7156376B2 (ja) 観測事象判定装置、観測事象判定方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180108

R150 Certificate of patent or registration of utility model

Ref document number: 6281491

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150