JPWO2014034557A1

JPWO2014034557A1 - テキストマイニング装置、テキストマイニング方法及びプログラム

Info

Publication number: JPWO2014034557A1
Application number: JP2014532977A
Authority: JP
Inventors: 正明土田; 石川　開; 開石川; 貴士大西; シルバダニエルゲオルグアンドラーデ
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-08-31
Filing date: 2013-08-23
Publication date: 2016-08-08
Anticipated expiration: 2033-08-23
Also published as: WO2014034557A1; JP6281491B2; US10140361B2; US20150205859A1; CN104603779A

Abstract

属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置２を用いる。テキストマイニング装置２は、分析対象データから属性値を抽出し、抽出した属性値を用いて分析観点候補を生成する、分析観点候補生成部２０と、分析観点候補として抽出された属性値を含むレコードのテキストデータと、分析対象データの属性値を含むレコード以外のレコードを少なくとも含むレコード集合のテキストデータとを比較し、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する、特徴度計算部２１と、を備えている。

Description

本発明は、テキストデータの分析によって分析者に有用な知見を提供し得る、テキストマイニングシステムに関し、特には、有用な知見として分析者に分析の観点を推薦する、テキストマイニング装置、テキストマイニング方法、及びこれらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。

一般に、テキストマイニングで有用な知見を得るためには、様々な観点で分析することが肝要である。例えば、テキストマイニングでは、対象となるテキストデータに対して、ある観点に基づいて、クラスタリングが実行され、クラスタリングによって分割された部分のテキスト内容が特徴的であるかどうかが判定される。判定の結果、特徴的な部分が存在すれば、有用な知見の発見につながる。

特許文献１は、このようなテキストマイニングを実行するための、従来からのテキストマイニングシステムを開示している。特許文献１に開示されたテキストマイニングシステムは、複数のレコードで構成されたデータを分析対象データとしている。また、分析対象データの各レコードには、属性値とテキストデータとが含まれている。

そして、特許文献１に開示されたテキストマイニングシステムは、まず、分析者がある属性（例えば、職種）を指定すると、指定された属性の属性値（例えば、学生，会社員、ｅｔｃ）を用いて、属性値毎に、分析対象データから、該当するレコードを抽出する。また、ここでは、抽出されたレコードを「部分集合」と表記する。

続いて、特許文献１に開示されたテキストマイニングシステムは、分析対象データのテキストデータを対象にしてテキスト分類を行なって、複数のテキストグループを生成する。その後、特許文献１に開示されたテキストマイニングシステムは、属性値毎に、部分集合とテキストグループとの関連性を指標化し、部分集合とテキストグループとの関連性を表わす情報を表示する。

すなわち、特許文献１に開示されたテキストマイニングシステムによれば、分析者は、分析の観点として属性を指定することで、その属性値毎のテキストグループとの関連性を概観することができる。言い換えると、分析者は、このようなテキストマイニングシステムを用いることで、一般的に知られている観点、分析者の経験又は感覚から推察した観点を設定でき、設定した観点に基づいて分析を行なうことができる。

特開２００４−１６４１３７号公報

しかしながら、特許文献１に開示されたテキストマイニングシステムにおいては、分析者は経験又は感覚等に基づいて観点を自身で設定する必要があることから、分析は分析者の先入観の範囲で行なわれる傾向にある。このため、分析者が試行錯誤を行なって分析観点を設定しない限り、分析者にとって想定外でありながら、有用な知見の発見につながる、分析観点を効率良く設定することは困難となる。

［発明の目的］
本発明の目的は、上記問題を解消し、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定し得る、テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。

上記目的を達成するため、本発明の一側面におけるテキストマイニング装置は、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置であって、
前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、分析観点候補生成部と、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、特徴度計算部と、
を備えることを特徴とする。

また、上記目的を達成するため、本発明の一側面におけるテキストマイニング方法は、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング方法であって、
（ａ）前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
（ｂ）前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を有することを特徴とする。

更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
（ｂ）前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とする。

以上のように、本発明によれば、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定することができる。

図１は、本発明の実施の形態１におけるテキストマイニング装置の構成を示すブロック図である。図２は、本発明の実施の形態１で用いられる分析対象データの一例を示す図である。図３は、本発明の実施の形態１におけるテキストマイニング装置の動作を示す流れ図である。図４は、本発明の実施の形態２におけるテキストマイニング装置の動作を示す流れ図である。図５は、本発明の実施の形態３におけるテキストマイニング装置の構成を示すブロック図である。図６は、本発明の実施の形態３におけるテキストマイニング装置の動作を示す流れ図である。図７は、本発明の実施の形態１〜３におけるテキストマイニング装置を実現するコンピュータの一例を示すブロック図である。

（実施の形態１）
以下、本発明の実施の形態１におけるテキストマイニング装置、テキストマイニング方法、及びプログラムについて、図１〜図３を参照しながら説明する。

［装置構成］
最初に、図１を用いて、本実施の形態１におけるテキストマイニング装置の構成について説明する。図１は、本発明の実施の形態１におけるテキストマイニング装置の構成を示すブロック図である。

図１に示すように、本実施の形態１におけるテキストマイニング装置２は、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとして、テキストマイニングを実行する装置である。

また、図１に示すように、テキストマイニング装置２は、分析観点候補生成部２０と、特徴度計算部２１とを備えている。このうち、分析観点候補生成部２０は、分析対象データから属性値を抽出し、抽出した属性値を用いて分析観点候補を生成する。

特徴度計算部２１は、まず、分析観点候補として抽出された属性値を含むレコードのテキストデータと、分析対象データにおける属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較する。そして、特徴度計算部２１は、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する。

このように、本実施の形態１におけるテキストマイニング装置２は、分析者の意志とは関係無く、機械的に、分析観点候補となる属性値を抽出し、そして、この属性値についての特徴度を計算する。このため、分析者は、想定していないが、特徴度の高い分析観点候補、即ち、有用な知見を発見できる可能生が高い分析観点候補を特定することができる。従って、テキストマイニング装置２によれば、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定することができる。

ここで、本実施の形態１におけるテキストマイニング装置２の構成について、図２を用いて、更に具体的に説明する。図２は、本発明の実施の形態１で用いられる分析対象データの一例を示す図である。

図１に示すように、本実施の形態１では、テキストマイニング装置２は、データ記憶装置１に接続されており、データ記憶装置１と共にテキストマイニングシステム３を構築している。データ記憶装置１は、分析対象データ記憶部１０と、分析観点データ記憶部１１とを備えている。

分析対象データ記憶部１０は、分析対象データを記憶している。図２の例では、分析対象データは、パーソナルコンピュータについてのアンケート結果である。また、図２の例では、分析対象データを構成する各レコードは、７種類の属性（性別、年代、既婚、主な利用目的、メーカ、製品、万度）についての属性値と、テキスト属性（自由記述（１）、自由記述（２））の異なる２種類のテキストデータとを含んでいる。なお、本実施の形態において、分析対象データにおける属性の種類の数と、テキストデータの種類の数とは、特に限定されるものではない。

また、分析観点データ記憶部１１は、テキストマイニング装置２によって出力された分析観点データを記憶している。本実施の形態において、分析観点データは、分析観点候補毎に計算された特徴度で構成されている。

また、分析観点候補生成部２０は、本実施の形態１では、分析対象データから１つの属性値を抽出し、これのみを用いて分析観点候補を生成しても良いし、複数の属性値を抽出し、この複数の属性値を用いて分析観点候補を生成しても良い。具体的には、図３の例において、分析観点候補生成部２０は、「男性」のみを含む分析観点候補を生成しても良いし、「男性、２０代」の組合せを含む分析観点候補を生成しても良い。

更に、分析観点候補生成部２０は、本実施の形態１では、分析観点候補を生成すると、分析観点候補として抽出された属性値を含むレコードを特定し、特定したレコードの集合（以下、「レコード部分集合」と表記する。）を作成する。なお、分析観点候補として抽出される属性値は、それを含むレコードが一つであっても良く、この場合、レコード部分集合は、一つのレコードのみで構成されることになる。

また、本実施の形態１において、「分析対象データにおける属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、属性値を含むレコード以外のレコードを少なくとも１つ含めば良く、分析対象データの全レコードであっても良いし、分析対象データの全レコードからランダムに選択されたレコードの集合であっても良い。更に、「分析対象データにおける属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、予め設定された分析観点に基づいて選択されたレコードの集合であっても良い。

［装置動作］
次に、本発明の実施の形態１におけるテキストマイニング装置２の動作について図３を用いて説明する。図３は、本発明の実施の形態１におけるテキストマイニング装置の動作を示す流れ図である。以下の説明においては、適宜図１及び図２を参酌する。また、本実施の形態１では、テキストマイニング装置２を動作させることによって、テキストマイニング方法が実施される。よって、本実施の形態１におけるテキストマイニング方法の説明は、以下のテキストマイニング装置２の動作説明に代える。

図３に示すように、最初に、分析観点候補生成部２０は、分析対象データ記憶部１０から分析対象データを読み出し、読み出した分析対象データから、分析観点候補となる属性値を取得し、分析観点候補を生成する（ステップＳ１）。このとき、１つの分析観点候補として取得される属性値は、単一の属性値であっても良いし、２以上の属性値の組み合せであっても良い。

また、本実施の形態１では、ステップＳ１において、分析観点候補生成部２０は、分析対象データを構成する全てのレコードを対象にして、レコード毎に、各レコードで想定される全ての属性値の組み合せを取り出し、取り出した各組み合せを分析観点候補とする。この場合、少なくとも１つのレコードが含まれるレコード部分集合を生成可能な、分析観点候補が列挙されることになる。

例えば、図２の例において、分析観点候補生成部２０は、「性別、年代」の属性の組み合わせを元に、ＩＤ＝１のレコードから「男性、２０代」という分析観点候補を生成し、ＩＤ＝２のレコードから「女性、３０代」という分析観点候補を生成する。このようにして生成された各分析観点候補は、後述のステップＳ２で生成されるレコード部分集合の要素となる。

また、ステップＳ１では、分析観点候補生成部２０は、列挙される分析観点候補の量を絞るため、組み合わせる属性値の数を制限しても良いし、該当するレコードの数が一定数以上とならない分析観点候補を除去しても良い。

次に、分析観点候補生成部２０は、ステップＳ１で取得した分析観点候補を用い、分析観点候補毎に、各分析観点候補を要素として含むレコードを特定し、更に、分析観点候補毎に、特定したレコードの集合（レコード部分集合）を作成する（ステップＳ２）。また、分析観点候補生成部２０は、各レコード部分集合を、特徴度計算部１１に出力する。

ステップＳ２では、分析観点候補生成部２０は、更に、一の分析観点候補について特定したレコード（レコード部分集合）と、他の分析観点候補について特定したレコード（レコード部分集合）との間に、一定の類似関係が存在するかどうかを判定することができる。そして、分析観点候補生成部２０は、判定の結果、一定の類似関係が存在する場合に、一の分析観点候補と他の分析観点候補とを統合することができる。

このとき、複数の分析観点候補を統合する手法としては、統合対象となった各分析観点候補に含まれる属性値の和集合又は積集合を求め、求めた和集合又は積集合を新たな分析観点候補とする手法が挙げられる。更に、複数の分析観点候補を統合する別の手法としては、統合対象となった分析観点候補のうちの一つのみを残し、他を削除する手法も挙げられる。なお、削除による手法を採用する場合は、分析観点候補作成部２０は、後述するステップＳ３の実行後に、最も特徴度の高い分析観点候補のみを残し、他を削除しても良い。

レコード部分集合が類似している場合は、テキストデータの内容の傾向もほぼ変わらないことが多いことから、このように、分析観点候補の統合を行なうことは、分析観点候補を分析者に提示する際の冗長性の削減に効果的である。また、レコード部分集合が類似する分析観点候補同士が、同じ傾向が得られる分析観点としてまとめて提示されると、分析者における分析効率が向上する。

次に、特徴度計算部２１は、分析観点候補毎に、ステップＳ２で作成したレコード部分集合のテキストデータと、ステップＳ２で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合と、を比較し、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する（ステップＳ３）。なお、図３の説明においては、「ステップＳ２で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、「分析対象データの全レコード」であるとし、以下、「分析対象データの全レコード」が用いられた例について説明する。

ステップＳ３では、特徴度計算部２１は、例えば、レコード部分集合のテキストデータと全レコードのテキストデータとのそれぞれの内容の傾向が異なるほど、値が高くなるように、特徴度を計算する。

本実施の形態１においては、まず、特徴度計算部２１は、分析対象データの各レコードのテキストデータ全体に対して、既存技術であるテキストクラスタリングを実行し、テキストデータ全体を話題毎に分割する。そして、特徴度計算部２１は、各分析観点候補のレコード部分集合のテキストデータと、分析対象データの全レコードのテキストデータとについて、話題の分布を求め、求めた話題の分布の非類似性に基づいて、特徴度を計算することができる。このようにして特徴度を計算した場合は、全体の話題の分布と、特定の分析観点候補の話題の分布とが比較されるので、特徴度として、全体的な傾向の違いが計算されることになる。

具体的には、例えば、テキストクラスタリングによって、テキストデータ全体が、３つの話題Ｔ１、Ｔ２、Ｔ３に分割され、分析観点候補Ａのレコード部分集合における各話題の頻度分布ｘが「Ｔ１：１０％，Ｔ２：３０％，Ｔ３：６０％」であり、レコード全体における各話題の頻度分布ｙが「Ｔ１：２０％，Ｔ２：２０％，Ｔ３：６０％）)」であるとする。

そして、特徴度として、コサイン類似度の逆数が用いられる場合は、特徴度は、下記の数１により、１．０２と計算される。なお、コサイン類似度は、値が大きいほど、同じ傾向にあって類似していることを表わすため、特徴度としては、逆数が用いられる。

（数１）
特徴度＝１／（ｘ・ｙ／｜ｘ｜｜ｙ｜）

また、一方、分析観点候補Ｂのレコード部分集合における各話題の頻度分布が「Ｔ１：６０％，Ｔ２：２０％，Ｔ３：３０％」である場合は、特徴度は、上記の数１により、１．５７と計算される。この場合、分析観点候補Ｂの特徴度は、分析観点候補Ａの特徴度と比べて高くなることから、分析観点候補Ｂの方が分析観点候補Ａよりも有用な知見の発見につながり易いと考えられる。

更に、特徴度としては、コサイン類似度以外にも、頻度分布のベクトルから計算可能な任意の類似度の逆数、又は同じく頻度分布のベクトルから計算可能な距離を用いることもできる。

また、特徴度計算部２１は、分析観点候補Ａと全レコードとの話題の出現比率が同じであることを帰無仮説とした統計的検定を行い、そのＰ値が低いほど高い値となるように、特徴度を計算することもできる。統計的検定としては、カイ二乗検定、尤度非検定の一種であるＧ検定、などを用いることができる。

また、別の例では、ステップＳ３において、特徴度計算部２１は、テキストクラスタリング後に、レコード全体から、話題毎に、その話題を含むレコードの集合を特定する。そして、特徴度計算部２１は、特定した話題毎の集合と、各分析観点候補のレコード部分集合との間の類似度を計算し、この類似度を用いて特徴度を計算することができる。この例では、特徴度は、レコード全体と分析観点候補のレコード部分集合との、特定の話題に関する比較結果を表わしている。

具体的には、例えば、レコード全体において、話題Ｔ１を含むレコードの数が１０００個であり、２つの分析観点候補Ｃ及びＤのレコード部分集合におけるレコードの数がそれぞれ、５００個、７００個であるとする。また、分析観点候補Ｃ及びＤのレコード部分集合において、話題Ｔ１を含むレコードの数と共通のレコードの数とは、それぞれ４００個、２００個であるとする。

この場合において、ダイス係数を用いると、分析観点候補Ｃの話題Ｔ１についての特徴度は０．５３（＝２×４００／（１０００＋５００））となる。また、分析観点候補Ｄの話題Ｔ１に対する特徴度は０.２４（＝２×２００／（１０００＋７００））となる。なお、この場合において、特徴度の計算には、ダイス係数以外にも、レコードの集合間における任意の類似度の計算方法を用いることもできる。

また、特徴度計算部２１は、分析観点候補のレコード部分集合から特徴語を抽出し、特徴語抽出の結果、例えば、抽出した特徴語のスコア（出現頻度等）を用いて、特徴度を計算することもできる。具体的には、特徴度計算部２１は、抽出した特徴語の中から、スコアの値が大きい順にＮ個の特徴語を特定し、特定した特徴語のスコアの和を特徴度とすることができる。

更に、特徴度計算部２１は、分析観点候補のレコード部分集合と、分析対象データの全レコードとの、それぞれから、特徴語を抽出し、そして、抽出した両者の特徴語の類似度を計算し、この類似度を用いて、特徴度を計算することもできる。

具体的には、特徴度計算部２１は、まず、分析観点候補のレコード部分集合と、分析対象データの全レコードとの、それぞれから、スコアの値が大きい順にＮ個の特徴語を抽出する。続いて、特徴度計算部２１は、それぞれから抽出したＮ個の特徴語同士について、類度を計算し、この類似度を用いて、当該類似度が低いほど値が高くなるようにして、特徴度を計算することができる。

なお、特徴度の計算に特徴語抽出を用いる２例を説明したが、これらの例には、テキストクラスタリングに必要なパラメタの設定が不要になるという利点はあるが、これらの例では、話題毎に傾向を捉えることが難しくなる。

更に、上述した話題の出現比率に基づく方法と同様に、特徴度計算部２１は、分析観点候補Ａと全レコードとの特徴語の出現比率が同じであることを帰無仮説とした統計的検定を行い、そのＰ値が低いほど高い値となるように、特徴度を計算することもできる。

次に、特徴度計算部２１は、ステップＳ３で計算した分析観点候補毎の特徴度を、分析観点データとして、分析観点データ記憶部１１に出力する（ステップＳ４）。ステップＳ４が実行されると、分析観点データ記憶部１１は、分析観点データを記憶する。ステップＳ４の実行後、テキストマイニング装置２における処理は終了する。なお、本実施の形態１では、分析観点データは、分析観点候補と、その特徴度との組み合せデータである。

［プログラム］
本発明の実施の形態１におけるプログラムは、コンピュータに、図３に示すステップＳ１〜Ｓ４を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態１におけるテキストマイニング装置２とテキストマイニング方法とを実現することができる。この場合、コンピュータのＣＰＵ（Central Processing Unit）は、分析観点候補生成部２０、及び特徴度計算部２１として機能し、処理を行なう。

また、本実施の形態１では、データ記憶装置１は、本実施の形態１におけるプログラムがインストールされるコンピュータに備えられた、ハードディスク等の記憶装置によって実現できる。更に、データ記憶装置１は、本実施の形態１におけるプログラムがインストールされるコンピュータに、ネットワーク等を介して接続された別のコンピュータの記憶装置によって実現されていても良い。

［実施の形態１の効果］
以上のように本実施の形態１では、分析観点候補は、分析者の経験及び感覚に依存することなく、分析対象データから、自動的に設定される。このため、本実施の形態１によれば、分析者にとって想定外の分析観点も含む、特徴的な結果が得られる可能性が高い、分析観点が効率良く設定されることになる。

（実施の形態２）
次に、本発明の実施の形態２におけるテキストマイニング装置、テキストマイニング方法、及びプログラムについて、図４を参照しながら説明する。

本実施の形態２におけるテキストマイニング装置は、図１に示した実施の形態１におけるテキストマイニング装置１と同様の構成を備えているが、分析観点候補及び特徴度計算部の動作の点で異なっている。以下、図４を用いて、本実施の形態２におけるテキストマイニング装置の動作を説明しながら、実施の形態１との相違点を説明する。

図４は、本発明の実施の形態２におけるテキストマイニング装置の動作を示す流れ図である。なお、以下の説明においては、実施の形態１で用いた図１及び図２を適宜参酌すると共に、図１で用いられている符号を使用する。また、本実施の形態２においても、テキストマイニング装置を動作させることによって、テキストマイニング方法が実施される。

図４に示すように、最初に、分析観点候補生成部２０は、分析対象データ記憶部１０から分析対象データを読み出し、読み出した分析対象データから、分析観点候補となる属性値を取得して、分析観点候補を生成する（ステップＳ１１）。但し、ステップＳ１１においては、実施の形態１で図３に示したステップＳ１のように分析観点候補が網羅的に列挙されることはない。ステップＳ１１では、複数個の分析観点候補がランダムに生成される。

次に、分析観点候補生成部２０は、ステップＳ１１で取得した分析観点候補を用い、分析観点候補毎に、各分析観点候補を要素として含むレコードを特定し、更に、分析観点候補毎に、特定したレコードの集合（レコード部分集合）を作成する（ステップＳ１２）。ステップＳ１２は、図３に示したステップＳ２と同様のステップである。また、分析観点候補生成部２０は、各レコード部分集合を、特徴度計算部に出力する。

次に、特徴度計算部２１は、分析観点候補毎に、ステップＳ１２で作成したレコード部分集合のテキストデータと、ステップＳ１２で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合と、を比較し、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する（ステップＳ１３）。ステップＳ１３は、図３に示したステップＳ３と同様のステップである。また、本実施の形態２においても、「ステップＳ１２で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、「分析対象データの全レコード」であるとし、以下、「分析対象データの全レコード」が用いられた例について説明する。

次に、特徴度計算部２１は、ステップＳ１３で計算された特徴度が予め設定された閾値以上となっている分析観点候補の個数をカウントし、その個数が目標数に到達したかどうかを判定する（ステップＳ１４）。

ステップＳ１４の判定の結果、個数が目標数に到達していない場合は、特徴度計算部２１は、分析観点候補生成部２０に、再度、ステップＳ１１を実行させる。すなわち、ステップＳ１４の判定により、一定以上の特徴的と見なせる分析観点候補が一定個数以上発見されるまで、分析観点候補の生成と特徴度の計算とが繰り返えされる。

一方、ステップＳ１４の判定の結果、個数が目標数に到達している場合は、特徴度計算部２１は、ステップＳ１３で計算した分析観点候補毎の特徴度を、分析観点データとして、分析観点データ記憶部１１に出力する（ステップＳ１５）。ステップＳ１５の実行後、テキストマイニング装置における処理は終了する。ステップＳ１５は、図３に示したステップＳ４と同様のステップである。

［プログラム］
本発明の実施の形態２におけるプログラムは、コンピュータに、図４に示すステップＳ１１〜Ｓ１５を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態２におけるテキストマイニング装置とテキストマイニング方法とを実現することができる。この場合、コンピュータのＣＰＵ（Central Processing Unit）は、分析観点候補生成部２０、及び特徴度計算部２１として機能し、処理を行なう。

また、本実施の形態２でも、データ記憶装置１は、本実施の形態２におけるプログラムがインストールされるコンピュータに備えられた、ハードディスク等の記憶装置によって実現できる。更に、データ記憶装置は、本実施の形態２におけるプログラムがインストールされるコンピュータに、ネットワーク等を介して接続された別のコンピュータの記憶装置によって実現されていても良い。

［実施の形態２の効果］
以上のように、本実施の形態２では、分析観点候補の数が制限されるので、属性及びその属性値の種類が膨大であり、計算時間及び記憶容量の関係で、事前の分析観点候補を列挙することが困難な場合に、有用となる。本実施の形態２によれば、計算時間及び必要となる記憶容量の削減を図ることができる。また、本実施の形態２を用いた場合も、実施の形態１と同様の効果を得ることができる。

（実施の形態３）
次に、本発明の実施の形態３におけるテキストマイニング装置、テキストマイニング方法、及びプログラムについて、図５及び図６を参照しながら説明する。

［装置構成］
最初に、図５を用いて、本実施の形態３におけるテキストマイニング装置の構成について説明する。図５は、本発明の実施の形態３におけるテキストマイニング装置の構成を示すブロック図である。

図５に示すように、本実施の形態３におけるテキストマイニング装置２３は、分析観点候補２０及び特徴度計算部２１に加えて、検証用情報抽出部２２を備えており、この点で、実施の形態１において図１に示したテキストマイニング装置２と異なっている。

なお、これ以外の点では、テキストマイニング装置２３は、実施の形態１において図１に示したテキストマイニング装置２と同様に構成されており、図５に示した分析観点候補２０及び特徴度計算部２１は、図１に示した分析観点候補２０及び特徴度計算部２１と同一の機能ブロックである。以下、実施の形態１との相違点を中心に説明する。

検証用情報抽出部２２は、まず、分析観点候補として抽出された属性値を含むレコード（レコード部分集合）のテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出する。なお、本実施の形態１において、テキストデータから特徴語又は代表的なテキストを抽出する技術としては、既に開示されている任意の技術が用いられる。

続いて、検証用情報抽出部２２は、抽出した検証用情報を、分析観点候補に付加する。また、検証用情報抽出部２２は、検証用情報が付加された分析観点候補を、分析観点データ記憶部１１に記憶させる。

［装置動作］
次に、本発明の実施の形態３におけるテキストマイニング装置２３の動作について図６を用いて説明する。図６は、本発明の実施の形態１におけるテキストマイニング装置の動作を示す流れ図である。以下の説明においては、適宜図５を参酌する。また、本実施の形態３でも、テキストマイニング装置２３を動作させることによって、テキストマイニング方法が実施される。よって、本実施の形態３におけるテキストマイニング方法の説明は、以下のテキストマイニング装置２３の動作説明に代える。

図６に示すように、最初に、分析観点候補生成部２０は、分析対象データ記憶部１０から分析対象データを読み出し、読み出した分析対象データから、分析観点候補となる属性値を取得し、分析観点候補を生成する（ステップＳ２１）。

次に、分析観点候補生成部２０は、ステップＳ２１で取得した分析観点候補を用い、分析観点候補毎に、各分析観点候補を要素として含むレコードを特定し、更に、分析観点候補毎に、特定したレコードの集合（レコード部分集合）を作成する（ステップＳ２２）。

次に、特徴度計算部２１は、分析観点候補毎に、ステップＳ２２で作成したレコード部分集合のテキストデータと、ステップＳ２２で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合と、を比較し、比較結果に基づいて、分析観点候補と分析対象データとの関係を示す特徴度を計算する（ステップＳ２３）。なお、本実施の形態３においても、「ステップＳ２２で特定した属性値を含むレコード以外のレコードを少なくとも含む、レコード集合」は、「分析対象データの全レコード」であるとし、以下、「分析対象データの全レコード」が用いられた例について説明する。

以上のステップＳ２１〜Ｓ２３は、図３に示したステップＳ１〜Ｓ３と同様のステップである。ステップＳ２１〜Ｓ２３が実行されると、検証用情報抽出部２２は、各レコード部分集合のテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出する（ステップＳ２４）。

次に、検証用情報抽出部２２は、ステップＳ２４で抽出した検証用情報を分析観点候補に付加する（ステップＳ２５）。そして、検証用情報抽出部２２は、検証用情報を付加した分析観点候補を、ステップＳ２３で計算した特徴度と共に、分析観点データとして、分析観点データ記憶部１１に出力する（ステップＳ２６）。

ステップＳ２６が実行されると、分析観点データ記憶部１１は、分析観点データを記憶する。ステップＳ２６の実行後、テキストマイニング装置２３における処理は終了する。なお、ステップＳ２４及びＳ２５の実行タイミングは、分析観点候補が生成された後であれば良く、特に限定されることはない。

［プログラム］
本発明の実施の形態３におけるプログラムは、コンピュータに、図６に示すステップＳ２１〜Ｓ２６を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態２におけるテキストマイニング装置とテキストマイニング方法とを実現することができる。この場合、コンピュータのＣＰＵ（Central Processing Unit）は、分析観点候補生成部２０、特徴度計算部２１、及び検証用情報抽出部２２として機能し、処理を行なう。

また、本実施の形態３でも、データ記憶装置１は、本実施の形態３におけるプログラムがインストールされるコンピュータに備えられた、ハードディスク等の記憶装置によって実現できる。更に、データ記憶装置１は、本実施の形態３におけるプログラムがインストールされるコンピュータに、ネットワーク等を介して接続された別のコンピュータの記憶装置によって実現されていても良い。

［実施の形態３の効果］
以上のように、本実施の形態３では、分析観点候補が有望そうであるかを検証するための情報（検証用情報）が提供され、分析者は、提示された分析観点候補の特徴を容易に把握できる。言い換えると、分析者は、提供された情報により、分析観点候補を用いて分析した場合に、意味を見出せそうな結果を得ることができるか否かを、予想できる。従って、本実施の形態３によれば、分析者にとって想定外の分析観点も含む、特徴的な結果が得られる可能性が高い、分析観点がより効率良く設定されることになる。

［具体的構成］
ここで、実施の形態１〜３におけるプログラムを実行することによって、テキストマイニング装置を実現するコンピュータについて図７を用いて説明する。図７は、本発明の実施の形態１〜３におけるテキストマイニング装置を実現するコンピュータの一例を示すブロック図である。

図７に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、プログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。プログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記憶媒体、又はＣＤ−ＲＯＭ（Compact Disk Read Only Memory）などの光学記憶媒体が挙げられる。

上述した実施の形態の一部又は全部は、以下に記載する（付記１）〜（付記３０）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置であって、
前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、分析観点候補生成部と、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、特徴度計算部と、
を備えることを特徴とするテキストマイニング装置。

（付記２）
前記分析観点候補生成部が、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記１に記載のテキストマイニング装置。

（付記３）
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記１または２に記載のテキストマイニング装置。

（付記４）
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記１から３のいずれかに記載のテキストマイニング装置。

（付記５）
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記１または２に記載のテキストマイニング装置。

（付記６）
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記１または２に記載のテキストマイニング装置。

（付記７）
前記分析観点候補生成部が、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記１から６のいずれかに記載のテキストマイニング装置。

（付記８）
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、検証用情報抽出部を更に備えている、
付記１から７のいずれかに記載のテキストマイニング装置。

（付記９）
前記特徴度計算部が、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるＰ値が低いほど、値が高くなるように、前記特徴度を計算する、
付記１または２に記載のテキストマイニング装置。

（付記１０）
前記特徴度計算部が、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるＰ値が低いほど、値が高くなるように、前記特徴度を計算する、
付記１または２に記載のテキストマイニング装置。

（付記１１）
属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング方法であって、
（ａ）前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
（ｂ）前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を有することを特徴とするテキストマイニング方法。

（付記１２）
前記（ａ）のステップにおいて、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記１１に記載のテキストマイニング方法。

（付記１３）
前記（ｂ）のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記１１または１２に記載のテキストマイニング方法。

（付記１４）
前記（ｂ）のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記１１から１３のいずれかに記載のテキストマイニング方法。

（付記１５）
前記（ｂ）のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記１１または１２に記載のテキストマイニング方法。

（付記１６）
前記（ｂ）のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記１１または１２に記載のテキストマイニング方法。

（付記１７）
前記（ａ）のステップにおいて、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記１１から１６のいずれかに記載のテキストマイニング方法。

（付記１８）
（ｃ）前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、ステップを更に有する、付記１１から１７のいずれかに記載のテキストマイニング方法。

（付記１９）
前記（ｂ）のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるＰ値が低いほど、値が高くなるように、前記特徴度を計算する、
付記１１または１２に記載のテキストマイニング方法。

（付記２０）
前記（ｂ）のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるＰ値が低いほど、値が高くなるように、前記特徴度を計算する、
付記１１または１２に記載のテキストマイニング方法。

（付記２１）
コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
（ｂ）前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、命令を含むプログラムを記録している、コンピュータ読み取り可能な記録媒体。

（付記２２）
前記（ａ）のステップにおいて、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記２１に記載のコンピュータ読み取り可能な記録媒体。

（付記２３）
前記（ｂ）のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記２１または２２に記載のコンピュータ読み取り可能な記録媒体。

（付記２４）
前記（ｂ）のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記２１から２３のいずれかに記載のコンピュータ読み取り可能な記録媒体。

（付記２５）
前記（ｂ）のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記２１または２２に記載のコンピュータ読み取り可能な記録媒体。

（付記２６）
前記（ｂ）のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記２１または２２に記載のコンピュータ読み取り可能な記録媒体。

（付記２７）
前記（ａ）のステップにおいて、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記２１から２６のいずれかに記載のコンピュータ読み取り可能な記録媒体。

（付記２８）
前記プログラムが、
（ｃ）前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、ステップを前記コンピュータに実行させる、命令を更に含む、付記２１から２７のいずれかに記載のコンピュータ読み取り可能な記録媒体ム。

（付記２９）
前記（ｂ）のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるＰ値が低いほど、値が高くなるように、前記特徴度を計算する、
付記２１または２２に記載のコンピュータ読み取り可能な記録媒体。

（付記３０）
前記（ｂ）のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるＰ値が低いほど、値が高くなるように、前記特徴度を計算する、
付記２１または２２に記載のコンピュータ読み取り可能な記録媒体。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１２年８月３１日に出願された日本出願特願２０１２−１９１０６７を基礎とする優先権を主張し、その開示の全てをここに取り込む。

以上のように、本発明によれば、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定することができる。本発明は、テキストマイニングが必要とされる様々な分野、例えば、マーケティング分野等に有用である。

１データ記憶装置
２テキストマイニング装置
３テキストマイニングシステム
１０分析対象データ記憶部
１１分析観点データ記憶部
２０分析観点候補生成部
２１特徴度計算部
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

本発明は、テキストデータの分析によって分析者に有用な知見を提供し得る、テキストマイニングシステムに関し、特には、有用な知見として分析者に分析の観点を推薦する、テキストマイニング装置、テキストマイニング方法、及びこれらを実現するためのプログラムに関する。

［発明の目的］
本発明の目的は、上記問題を解消し、テキストマイニングにおいて、分析者にとって想定外でありながら、有用な知見の発見につながる分析観点を効率良く設定し得る、テキストマイニング装置、テキストマイニング方法、及びプログラムを提供することにある。

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムであって、
前記コンピュータに、
（ａ）前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
（ｂ）前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、ことを特徴とする。

分析対象データ記憶部１０は、分析対象データを記憶している。図２の例では、分析対象データは、パーソナルコンピュータについてのアンケート結果である。また、図２の例では、分析対象データを構成する各レコードは、７種類の属性（性別、年代、既婚、主な利用目的、メーカ、製品、満足度）についての属性値と、テキスト属性（自由記述（１）、自由記述（２））の異なる２種類のテキストデータとを含んでいる。なお、本実施の形態において、分析対象データにおける属性の種類の数と、テキストデータの種類の数とは、特に限定されるものではない。

次に、分析観点候補生成部２０は、ステップＳ１で取得した分析観点候補を用い、分析観点候補毎に、各分析観点候補を要素として含むレコードを特定し、更に、分析観点候補毎に、特定したレコードの集合（レコード部分集合）を作成する（ステップＳ２）。また、分析観点候補生成部２０は、各レコード部分集合を、特徴度計算部２１に出力する。

図５に示すように、本実施の形態３におけるテキストマイニング装置２３は、分析観点候補生成部２０及び特徴度計算部２１に加えて、検証用情報抽出部２２を備えており、この点で、実施の形態１において図１に示したテキストマイニング装置２と異なっている。

なお、これ以外の点では、テキストマイニング装置２３は、実施の形態１において図１に示したテキストマイニング装置２と同様に構成されており、図５に示した分析観点候補生成部２０及び特徴度計算部２１は、図１に示した分析観点候補生成部２０及び特徴度計算部２１と同一の機能ブロックである。以下、実施の形態１との相違点を中心に説明する。

検証用情報抽出部２２は、まず、分析観点候補として抽出された属性値を含むレコード（レコード部分集合）のテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出する。なお、本実施の形態３において、テキストデータから特徴語又は代表的なテキストを抽出する技術としては、既に開示されている任意の技術が用いられる。

［装置動作］
次に、本発明の実施の形態３におけるテキストマイニング装置２３の動作について図６を用いて説明する。図６は、本発明の実施の形態３におけるテキストマイニング装置の動作を示す流れ図である。以下の説明においては、適宜図５を参酌する。また、本実施の形態３でも、テキストマイニング装置２３を動作させることによって、テキストマイニング方法が実施される。よって、本実施の形態３におけるテキストマイニング方法の説明は、以下のテキストマイニング装置２３の動作説明に代える。

［プログラム］
本発明の実施の形態３におけるプログラムは、コンピュータに、図６に示すステップＳ２１〜Ｓ２６を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態３におけるテキストマイニング装置とテキストマイニング方法とを実現することができる。この場合、コンピュータのＣＰＵ（Central Processing Unit）は、分析観点候補生成部２０、特徴度計算部２１、及び検証用情報抽出部２２として機能し、処理を行なう。

（付記２１）
コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムであって、
前記コンピュータに、
（ａ）前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
（ｂ）前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、プログラム。

（付記２２）
前記（ａ）のステップにおいて、前記分析対象データから複数の属性値を抽出し、抽出した複数の属性値を用いて前記分析観点候補を生成する、
付記２１に記載のプログラム。

（付記２３）
前記（ｂ）のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
付記２１または２２に記載のプログラム。

（付記２４）
前記（ｂ）のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記２１から２３のいずれかに記載のプログラム。

（付記２５）
前記（ｂ）のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
付記２１または２２に記載のプログラム。

（付記２６）
前記（ｂ）のステップにおいて、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
付記２１または２２に記載のプログラム。

（付記２７）
前記（ａ）のステップにおいて、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
付記２１から２６のいずれかに記載のプログラム。

（付記２８）
（ｃ）前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、ステップを更に前記コンピュータに実行させる、付記２１から２７のいずれかに記載のプログラム。

（付記２９）
前記（ｂ）のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する話題と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する話題と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるＰ値が低いほど、値が高くなるように、前記特徴度を計算する、
付記２１または２２に記載のプログラム。

（付記３０）
前記（ｂ）のステップにおいて、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータに出現する特徴語と、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータに出現する特徴語と、の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるＰ値が低いほど、値が高くなるように、前記特徴度を計算する、
付記２１または２２に記載のプログラム。

Claims

属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング装置であって、
前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、分析観点候補生成部と、
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、特徴度計算部と、
を備えることを特徴とするテキストマイニング装置。
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の分布を求め、求めた前記話題の分布が互いに異なるほど、値が高くなるように、前記特徴度を計算する、
請求項１に記載のテキストマイニング装置。
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとについて、話題の出現比率を求め、求めた前記話題の出現比率が同じであることを帰無仮説とした統計的検定を実行し、
前記統計的検定によって得られるＰ値が低いほど、値が高くなるように、前記特徴度を計算する、請求項１または２に記載のテキストマイニング装置。
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとの、類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
請求項１または２に記載のテキストマイニング装置。
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードから特徴語を抽出し、抽出した前記特徴語のスコアを用いて、前記特徴度を計算する、
請求項１または２に記載のテキストマイニング装置。
前記特徴度計算部が、前記分析観点候補として抽出された前記属性値を含むレコードと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合との、それぞれから、特徴語を抽出し、更に、抽出した両者の特徴語の類似度を計算し、前記類似度を用いて、前記特徴度を計算する、
請求項１または２に記載のテキストマイニング装置。
前記分析観点候補生成部が、複数の前記分析観点候補を生成し、複数の前記分析観点候補それぞれ毎に、当該分析観点候補として抽出された前記属性値を含むレコードを特定し、更に、一の分析観点候補について特定したレコードと、他の分析観点候補について特定したレコードとの間に、一定の類似関係が存在するかどうかを判定し、判定の結果、一定の類似関係が存在する場合に、前記一の分析観点候補と前記他の分析観点候補とを統合する、
請求項１から６のいずれかに記載のテキストマイニング装置。
前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータから、特徴語及び代表的なテキストの一方又は両方を、分析観点候補の検証用情報として抽出し、抽出した前記検証用情報を、前記分析観点候補に付加する、検証用情報抽出部を更に備えている、
請求項１から７のいずれかに記載のテキストマイニング装置。
属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニング方法であって、
（ａ）前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
（ｂ）前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を有することを特徴とするテキストマイニング方法。
コンピュータによって、属性値とテキストデータとを含むレコードの集合で構築されたデータを分析対象データとするテキストマイニングを実行するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記分析対象データから属性値を抽出し、抽出した前記属性値を用いて分析観点候補を生成する、ステップと、
（ｂ）前記分析観点候補として抽出された前記属性値を含むレコードのテキストデータと、前記分析対象データにおける前記属性値を含むレコード以外のレコードを少なくとも含む、レコード集合のテキストデータとを比較し、比較結果に基づいて、前記分析観点候補と前記分析対象データとの関係を示す特徴度を計算する、ステップと、
を実行させる、命令を含むプログラムを記録している、コンピュータ読み取り可能な記録媒体。