JP5708496B2

JP5708496B2 - テキストマイニングシステム、テキストマイニング方法およびプログラム

Info

Publication number: JP5708496B2
Application number: JP2011546195A
Authority: JP
Inventors: 石川　開; 開石川; 安藤　真一; 真一安藤; 晃裕田村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-12-17
Filing date: 2010-12-15
Publication date: 2015-04-30
Anticipated expiration: 2030-12-15
Also published as: US20120254071A1; JPWO2011074698A1; WO2011074698A1

Description

本発明は、テキストマイニングシステム、テキストマイニング方法およびプログラムに関する。

複数の分析対象データを対象とする分析を目的とした、テキストマイニングシステムの一例が、特許文献1に記載されている。

このテキストマイニングシステムが分析の対象とするデータとは、具体的には、以下に挙げるデータを含んでいる。そのデータとは、“2000年から2009年までの4月のデータ”などといった、異なる期間に取得された複数の分析対象データである。また例えばそのデータとは、コールセンターの通話テキスト、応対履歴、電子メール、Web (World Wide Web)上の様々な電子掲示板（以下、掲示板とも記される）、アンケートなど、様々な異なる手段によって取得された複数の分析対象データである。

このテキストマイニングシステムは、図１に示すように、入力装置10と、出力装置20と、データ処理装置30と、記憶装置40とから構成されている。

また、記憶装置40は、分析対象データ記憶手段41と、特徴表現リスト記憶手段42とから構成される。分析対象データ記憶手段41は、二つ以上のテキストデータ集合を分析対象データとして記憶する。特徴表現リスト記憶手段42は、特徴表現抽出手段によって得られた特徴表現及びその特徴度の集合を特徴表現リストとして記憶する。

また、データ処理装置30は、特徴表現抽出手段31と、比較設定手段32と、比較一覧表示手段33と、比較特徴抽出手段34とから構成される。特徴表現抽出手段31は、各分析対象データから特徴表現及びその特徴度の集合を特徴表現リストとして抽出する。比較設定手段32は、分析者の入力情報に基づき比較条件を設定する。比較一覧表示手段33は、比較分析の対象とする分析対象データの特徴表現リストを比較一覧として表示する。比較特徴抽出手段34は、設定された比較条件にしたがって比較一覧から比較分析を実行し、比較特徴を抽出する。

このような構成を有するテキストマイニングシステムは、次のように動作する。すなわち、特徴表現抽出手段31は、二つ以上の分析対象データから特徴表現を抽出する処理を実行し、抽出した特徴表現及びその特徴度の集合を特徴表現リストとして特徴表現リスト記憶手段42に記憶させる。次に、比較設定手段32が分析者の入力情報に基づき比較条件を設定すると、比較一覧表示手段33は、分析対象とする分析対象データの特徴表現リストを比較一覧として表示するように制御する。また、比較特徴抽出手段34は、比較条件にしたがって同比較一覧から比較分析を行い、比較特徴を抽出して出力するように動作する。

特開２００５−１６５７５４号公報

上記の特許文献１で示したシステムの問題点は、複数の分析対象データを分析する場合には、これら複数のデータを統合的に分析する必要があり、分析者の分析コストが著しく大きくなるということである。

その理由は、以下のとおりである。第一の理由は、分析者が複数の分析対象データを統合的に分析するために、分析対象データの組み合わせについて比較分析を行わなくてはならないことである。さらに、分析者が分析軸を試行錯誤しながら変更することによって分析を行う場合、分析軸の変更に伴って特徴表現リストも更新されるため、分析者は、分析軸の変更の度に上記の分析データの組み合わせに対する比較分析を行う必要がある。第二の理由は、分析軸の試行錯誤を含めた全体での分析にかかる時間や手間など（分析コストとも記される）が著しく増加することとなることである。

そこで、本発明は、複数の分析対象データを分析する場合に、これらを統合的に分析する場合でも、分析者の分析コストの増大を抑えることができるテキストマイニングシステム、テキストマイニング方法及びプログラムを提供することを目的とする。

本発明の一態様によるテキストマイニングシステムは、テキストデータを含む分析対象データを含む分析対象データセットを生成するデータセット生成部と、前記データセット生成部が生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、または、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない、分析対象データセットを探索するデータセット探索部とを含む。

本発明の一態様におけるテキストマイニング方法は、テキストデータを含む分析対象データを含む分析対象データセットを生成し、生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、または、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない分析対象データセットを探索する。

本発明の一態様におけるプログラムは、コンピュータに、テキストデータを含む分析対象データを含む分析対象データセットを生成する処理と、生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、または、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない分析対象データセットを探索する処理とを実行させる。

本発明によれば、複数の分析対象データを分析する場合に、これらを統合的に分析する場合でも、分析者の分析コストの増大を抑えることができる。

図１は、テキストマイニングシステムの構成例を示すブロック図である。図２は、テキストマイニングシステムの構成例を示すブロック図である。図３は、本発明によるテキストマイニングシステムの構成例を示すブロック図である。図４は、テキストマイニングシステムが実行する動作例を示す流れ図である。図５は、Web上の掲示板Aから取得された分析対象データの例を示す説明図である。図６は、異なる手段で取得された複数の分析対象データセットの例を示す説明図である。図７は、分析対象データごとの「特徴表現リストの表現数」と「1表現あたりの分析コスト」との例を示す説明図である。図８は、可能な分析対象データセットとその特徴表現網羅率および分析コストとの例を示す説明図である。図９は、テキストマイニングシステムの最小の機能構成例を示す機能ブロック図である。

次に、本発明によるテキストマイニングシステムの実施形態について図面を参照して説明する。図３は、本実施形態におけるテキストマイニングシステムの構成の一例を示すブロック図である。

図３を参照すると、本実施形態におけるテキストマイニングシステムは、プログラム制御により動作するデータ処理装置100（例えば、中央処理装置やプロセッサ）と、入力装置110と、出力装置120とを含む。

データ処理装置100は、正例集合特定部101と、特徴量計算部102と、特徴表現抽出部103と、分析対象データセット探索部104と、特徴表現網羅率計算部105と、分析コスト推定部106とを含む。これらの各部はそれぞれつぎのように動作する。

正例集合特定部101は、具体的には、プログラムに従って動作する情報処理装置のCPU (Central Processing Unit)によって実現される。正例集合特定部101は、入力装置110から分析軸と、複数の分析対象データとを入力し、各分析対象データから、分析軸に対する正例のテキスト集合を特定する機能を備えている。正例集合特定部101は、各分析対象データの全テキスト集合と特定した正例のテキスト集合とを特徴量計算部102に出力する機能を備えている。なお、分析軸とは、分析するための観点を示す。また、正例のテキスト集合とは、分析軸で示される観点に合致するテキストの集合である。

特徴量計算部102は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。特徴量計算部102は、正例集合特定部101から、各分析対象データの全テキスト集合と分析軸に対する正例のテキスト集合とを入力し、テキスト中の各表現に対して、全テキスト集合と正例のテキスト集合とでの出現の統計的差異から、表現に対する特徴量を計算する機能を備えている。特徴量計算部102は、分析対象データごとの表現と計算した特徴量との対の集合を特徴表現抽出部103に出力する機能を備えている。

特徴表現抽出部103は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。特徴表現抽出部103は、特徴量計算部102から分析対象データごとの表現と特徴量との対の集合を入力し、分析対象データごとに、特徴量の値の大きな表現を特徴表現として抽出する機能を備えている。例えば、特徴表現抽出部103は、特徴量の値の大きな表現として、特徴量が所定の閾値以上である表現や、特徴量の値が上位一定の割合以内となる表現などを抽出する。特徴表現抽出部103は、抽出した各分析対象データの特徴表現のリストを分析対象データセット探索部104、特徴表現網羅率計算部105、および、分析コスト推定部106に出力する機能を備えている。

分析対象データセット探索部104は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。分析対象データセット探索部104は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力し、分析対象の候補となる複数の分析対象データから、1以上の分析対象データを含む分析対象データセットを複数生成する機能を備えている。分析対象データセット探索部104は、生成した分析対象データセットを、特徴表現網羅率計算部105および分析コスト推定部106に出力する機能を備えている。

分析対象データセット探索部104は、特徴表現網羅率計算部105から分析対象データセットに対する特徴表現網羅率を入力し、分析コスト推定部106から分析対象データセットに対する分析コストを入力する機能を備えている。なお、特徴表現網羅率とは、具体的には、分析対象データセット中の特徴表現集合における全分析対象データ中の特徴表現集合の網羅の度合いを示す。分析対象データセット探索部104は、特徴表現網羅率が高く、かつ、分析コストが低くなるような、最適な分析対象データセットを探索し、探索した分析対象データセットから抽出する特徴表現をマイニング結果として、出力装置120に出力する機能を備えている。

特徴表現網羅率計算部105は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。特徴表現網羅率計算部105は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力し、分析対象データセット探索部104から、分析対象データセットを入力する機能を備えている。特徴表現網羅率計算部105は、分析対象データセットに対する特徴表現網羅率を、全分析対象データに対する特徴表現のリストと分析対象データセットに対する特徴表現のリストとから計算し、その値を分析対象データセット探索部104に出力する機能を備えている。

分析コスト推定部106は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。分析コスト推定部106は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力し、分析対象データセット探索部104から、分析対象データセットの候補を入力する機能を備えている。分析コスト推定部106は、分析対象データセットに対する分析コストを、分析対象データセットに含まれる各分析対象データに対する特徴表現のリストの分析コストの和から計算し、その値を分析対象データセット探索部104に出力する機能を備えている。分析コスト推定部106は、特徴表現のリストの分析コストを、例えば、特徴表現のリストに含まれる特徴表現の数に比例すると仮定して計算することができる。

入力装置110は、具体的には、キーボードやマウス等の装置によって実現される。入力装置110は、分析者の操作に従って分析の観点（分析軸）を示すデータや分析対象データを入力する機能を備えている。

出力装置120は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力装置120は、分析対象データセット探索部104が出力したデータを表示部に表示する機能を備えている。なお、本実施形態では、出力装置120は、データを表示部に表示するが、例えば、データをファイル出力するものであってもよい。

次に、図３及び図４を参照して本発明の実施形態の全体の動作について説明する。図４は、本実施形態におけるテキストマイニングシステムが実行する処理例を示すフローチャートである。

所定のデータを所定の観点に基づいて分析するために、分析者が入力装置110を用いて入力操作をすると、入力装置110は、分析者の操作に従って、分析の観点（分析軸）を示すデータと複数の分析対象データとを入力する。正例集合特定部101は、入力装置110から分析の観点（分析軸）を示すデータと、複数の分析対象データとを入力し、各分析対象データから、分析軸に対する正例のテキスト集合（以下、正例集合とも記される）を特定する。そして、正例集合特定部101は、各分析対象データの全テキスト集合と特定した正例のテキスト集合とを、特徴量計算部102に出力する（図４のステップA1）。

次に、特徴量計算部102は、正例集合特定部101から、各分析対象データの全テキスト集合と分析軸に対する正例のテキスト集合とを入力し、テキスト中の各表現に対して、全テキスト集合と正例のテキスト集合とでの出現の統計的差異から、表現に対する特徴量を計算する。そして、特徴量計算部102は、分析対象データごとの表現と計算した特徴量との対の集合を、特徴表現抽出部103に出力する（ステップA2）。

次に、特徴表現抽出部103は、特徴量計算部102から分析対象データごとの表現と特徴量との対の集合を入力し、分析対象データごとに、特徴量の値の大きな表現を特徴表現として抽出する。例えば、特徴表現抽出部103は、特徴量の値の大きな表現として、特徴量が所定の閾値以上である表現や、特徴量の値が上位一定の割合以内となる表現などを抽出する。そして、特徴表現抽出部103は、抽出した各分析対象データの特徴表現のリストを分析対象データセット探索部104、特徴表現網羅率計算部105、および、分析コスト推定部106に出力する（ステップA3）。

次に、分析対象データセット探索部104は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力し、分析対象の候補となる複数の分析対象データから、１つ以上の分析対象データを含む分析対象データセットを複数生成する。そして、分析対象データセット探索部104は、生成した分析対象データセットを、特徴表現網羅率計算部105および分析コスト推定部106に出力する。

続いて、特徴表現網羅率計算部105は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力し、分析対象データセット探索部104から、分析対象データセットを入力する。そして、特徴表現網羅率計算部105は、分析対象データセットに対する特徴表現網羅率を、全分析対象データに対する特徴表現のリストと分析対象データセットに対する特徴表現のリストとから計算し、その値を分析対象データセット探索部104に出力する。

また、分析コスト推定部106は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力し、分析対象データセット探索部104から、分析対象データセットの候補を入力する。そして、分析コスト推定部106は、分析対象データセットに対する分析コストを、分析対象データセットに含まれる各分析対象データに対する特徴表現のリストの分析コストの和から計算し、その値を分析対象データセット探索部104に出力する（ステップA4）。分析コスト推定部106は、特徴表現のリストの分析コストを、例えば、特徴表現のリストに含まれる特徴表現の数に比例すると仮定して計算することができる。

次に、分析対象データセット探索部104は、特徴表現網羅率計算部105から分析対象データセットに対する特徴表現網羅率を入力し、分析コスト推定部106から分析対象データセットに対する分析コストを入力する。そして、分析対象データセット探索部104は、生成した分析対象データセットから、特徴表現網羅率が高く、かつ、分析コストが低くなるような、最適な分析対象データセットを探索する（ステップA5）。

最後に、分析対象データセット探索部104は、ステップA5で得られた最適な分析対象データセットから抽出する特徴表現を、マイニング結果として、出力装置120に出力する（ステップA6）。その後出力装置120は、例えば、分析対象データセット探索部104が出力したマイニング結果を表示部に表示する。

次に、本実施形態の効果について説明する。本実施形態では、データ処理装置と、入力装置と、出力装置とを備えている。さらにデータ処理装置は、正例集合特定部と、特徴量計算部と、特徴表現抽出部と、分析対象データセット探索部と、特徴表現網羅率計算部と、分析コスト推定部とを備えている。データ処理装置は、分析の観点から抽出される特徴表現の特徴表現網羅率が高く、かつ、分析コストが低くなるような、最適な分析対象データセットを探索する。そしてデータ処理装置は、探索する分析対象データセットから抽出される特徴表現をマイニング結果として出力装置に出力する。

分析対象の候補となる分析対象データが複数存在し、その中の一つまたは一部の分析対象データに予め分析対象を絞ったとすると、分析者が動的に選択する分析の観点に対して特徴表現を十分に網羅できないような場合について考える。このような場合であっても、本実施形態では、分析の観点に対して、特徴表現の網羅性を十分に満たすようにすることができ、かつ、分析コストに無駄が極力生じないようにすることができる。

次に、具体的な例を用いて本実施形態におけるテキストマイニングシステムの動作を説明する。まず、図４のステップA1における動作を説明する。

正例集合特定部101は、入力装置110から分析軸と、複数の分析対象データとを入力する。ここでは、各分析対象データの個々のテキストに属性値が付与されている場合を考える。この場合、分析者は、分析軸を、この属性値について特定の値を指定することで設定することができる。なお、属性値が付与されていない場合でも、分析者は、テキストから属性値を生成することにより、分析軸の設定が可能である。例えば、分析者が入力装置110を用いて属性値について特定の値を指定する操作を行うと、入力装置110は、分析者の操作に従って、指定された値に基づく分析軸を正例集合特定部101に出力する。なお、以下の説明において、“分析者が所定の値等を指定する”との表現は、具体的には、“入力装置110が分析者の操作に従って所定の値を入力し、指定する”ことを意味する。

具体例として、ある化粧品販売会社が、各種化粧品に関する顧客の声を収集する目的で、分析対象データを取得し、これらを統合的に分析する場合を考える。この化粧品販売会社は、コールセンターの通話、応対履歴、電子メール、Web上の掲示板、あるいは、アンケートなどといった異なる手段を用いて複数の分析対象データを取得する。ここで、分析者が、“30歳代の顧客から低い評価が与えられている化粧水関連商品への記述における特徴”、という分析軸において分析を行う場合について考える。

例えば、複数の分析対象データのうち、掲示板Aから取得された分析対象データが図５に示すような属性値付きのテキスト集合として得られている場合について考える。この場合、分析者の指定する分析軸に対する正例は、具体的には、属性値が「種別=化粧水、年齢=30-39、評価=1-3」を満たすような事例を抽出することで得られる。したがって、図５に示した事例の中では、正例集合特定部101は、条件を満たすID=2を正例として抽出する。正例集合特定部101は、こうして抽出した分析対象データごとのテキスト集合全体と正例集合とを、特徴量計算部102に出力する。

次に、ステップA2における動作を説明する。特徴量計算部102は、正例集合特定部101から、各分析対象データのテキスト集合全体と分析の観点に対する正例集合とを入力し、テキスト中から表現を抽出する。

具体例として、特徴量計算部102は、形態素解析結果から得られる自立語を表現として抽出する場合、例えば、「香さえ良ければ使っていたかな。」という文からは、「香」、「良い」、「使う」を表現として抽出する。

例えば、掲示板Aから取得された分析対象データのテキスト集合1,452件において、表現「香」が51回出現し、分析の観点「種別=化粧水、年齢=30-39、評価=1-3」に対する正例集合305件において、表現「香」が34回出現した場合について考える。この場合、特徴量計算部102は、特徴量をこれらの出現の統計的差異から計算する。

例えば、特徴量としてカイ２乗分布が用いられる場合、特徴量計算部102は、以下に示す式（１）〜（３）を用いて特徴量を計算することができる。なお、特徴量計算部102は、特徴量として、カイ２乗分布の他に、Stochastic Complexity、Extended Stochastic Complexityなど、相関性に関する様々な尺度を用いても計算することができる。

上記の、掲示板Aから取得された分析対象データ中の表現「香」の例では、N=1452、O₁₁=34、O₁₂=51-34=17、O₂₁=305-34=271、O₂₂=1452-305-51+34=1130となる。よって、特徴量計算部102は、カイ２乗の値を、式（４）〜（６）に示すように計算する。

特徴量計算部102は、同様に、それぞれの手段で取得された分析対象データにおいて、テキスト集合から抽出されるすべての表現に対して特徴量を求める。そして特徴量計算部102は、分析対象データごとの表現と特徴量との組のリストを特徴表現抽出部103に出力する。

次に、ステップA3における動作を説明する。特徴表現抽出部103は、特徴量計算部102から分析対象データごとの表現と特徴量との組のリストを入力し、分析対象データごとに、特徴量の値の大きな表現を特徴表現として抽出する。

特徴量の値が大きいかどうかを判断する具体的な方法として、以下の方法がある。例えば、テキストマイニングシステムは、分析者が指定する閾値を全分析対象データに共通の特徴量の閾値として設定してもよい。これにより、特徴表現抽出部103は、特徴量の値がこの閾値を超える表現を特徴表現として抽出することができる。または、分析者が特徴表現の抽出率を指定するようにしても良い。この場合、特徴表現抽出部103は、全分析対象データに含まれる表現の総数に対して、抽出される特徴表現の総数の比が指定された抽出率となるように、全分析対象データに共通の特徴量の閾値を調整することで、抽出処理を実施することができる。

特徴表現抽出部103は、このようにして抽出した各分析対象データの特徴表現のリストを分析対象データセット探索部104に出力する。

次に、ステップA4における動作を説明する。分析対象データセット探索部104は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力する。そして、分析対象データセット探索部104は、分析対象の候補となる全分析対象データから、１つ以上の分析対象データの組を含む分析対象データセットを、可能な組み合わせについて全て生成する。

具体例として、コールセンターの通話、応対履歴、電子メール、Web上の口コミサイト、掲示板、アンケートといった異なる手段で取得された全１０の分析対象データが、それぞれ、「通話」、「履歴」、「mail」、「サイト」、「板A」、「板B」、「板C」、「板D」、「板E」、「板F」と表記されているとする。なお、板Aは掲示板Aを意味する。板B、板C、板D、板E、および、板Fについても同様に、掲示板B、掲示板C、掲示板D、掲示板E、および、掲示板Fをそれぞれ意味する。すると、分析対象データセット探索部104は、分析対象データの可能な組み合わせとして、図６に示すような分析対象データセットを生成する。

例えば、「通話＋履歴＋mail」は、「通話」、「履歴」及び「mail」の３つの分析対象データを含む分析対象データセットであることを表す。さらに、同分析対象データセットは、別の「通話＋履歴」、「通話＋mail」、「履歴＋mail」の３つの分析対象データセットからリンクされている（矢印で結ばれている）。これは、同分析対象データセットが３つの分析対象データセットに含まれる３つの分析対象データ「通話」、「履歴」及び「mail」をすべて内包する関係にあることを示す。

続いて、特徴表現網羅率計算部105は、分析対象データセットに対する特徴表現網羅率を、全分析対象データに対する特徴表現のリストと分析対象データセットに対する特徴表現のリストとから計算する。

特徴表現網羅率計算部105は、例えば、分析対象データセット「通話＋履歴＋mail」に対する特徴表現網羅率を、同分析対象データセットに含まれる「通話」、「履歴」及び「mail」の３つの分析対象データから抽出される特徴表現の異なり数を全１０の分析対象データから抽出される特徴表現の異なり数で割った値として計算することができる。なお、異なり数とは、特徴表現が何種類あるかを表すものである。

また、分析コスト推定部106は、同様に、分析対象データセットに対する分析コストを、分析対象データセットに含まれる各分析対象データに対する特徴表現のリストの分析コストの和から計算する。

分析コスト推定部106は、例えば、分析対象データセット「通話＋履歴＋mail」に対する分析コストを、同分析対象データセットに含まれる「通話」、「履歴」及び「mail」の３つの分析対象データから抽出される特徴表現リストの分析コストの和として計算できる。各分析対象データから抽出される特徴表現リストの分析コストを、分析コスト推定部106は、たとえば分析対象データごとの「特徴表現リストの表現数」と、「１表現あたりの分析コスト」との積で計算することができる。ここで、各分析対象データの「特徴表現リストの表現数」と、「１表現あたりの分析コスト」とが、図７に示すとおりであった場合について考える。この場合、分析コスト推定部106は、分析対象データセット「通話＋履歴＋mail」に対する分析コストを、分析対象データ「通話」、「履歴」及び「mail」のそれぞれにおける「特徴表現リストの表現数」と「１表現あたりの分析コスト」との積の和、すなわち、182×10+224×1+336×3=3102と計算することができる。なお、「１表現あたりの分析コスト」は、例えば、予め分析者によって分析対象データの取得部に応じて設定される。

特徴表現網羅率計算部105と分析コスト推定部106とは、このように計算した、分析対象データセットの網羅率と分析コストとを、それぞれ分析対象データセット探索部104に出力する。

次に、ステップA5における動作を説明する。分析対象データセット探索部104は、特徴表現網羅率計算部105および分析コスト推定部106が計算した、各分析対象データセットに対する特徴表現網羅率および分析コストに基づいて、特徴表現網羅率が高く、かつ、分析コストが低くなるような、最適な分析対象データセットの探索を行う。

例えば、特徴表現網羅率が70%以上で、かつ、分析コストが最小となるような分析対象データセットを、分析者が最適な分析対象データセットとして指定した場合について考える。この場合、分析対象データセット探索部104は、最適な分析対象データセットを、図８に示すような、分析対象データセットのネットワークを探索することによって求めることができる。

図８に示す例において、各分析対象データセットの下に記載されているデータは、その分析対象データセットの特徴表現網羅率と分析コストとである。分析対象データセット探索部104は、このようなネットワークにおいて、最適な分析対象データセットを、図８中の最左の丸印を基点として、矢印を順次辿ることにより探索することができる。

分析対象データセット探索部104が順次探索していく中で、例えば図８中の「通話＋履歴＋mail」のように、特徴表現網羅率が所定の70%を超える分析対象データセットを分析対象データセット探索部104が検出する場合について考える。この場合、「通話＋履歴＋mail」より右側にリンクされている分析対象データセット（たとえば「通話＋履歴＋mail＋サイト」など）は、すべて「通話＋履歴＋mail」に含まれる分析対象データを内包する。そのため、分析対象データセット探索部104は、「通話＋履歴＋mail」より右側にリンクされている分析対象データセットの特徴表現網羅率を、「通話＋履歴＋mail」の特徴表現網羅率よりも大きく、したがって、所定の70%を超えると判断できる。

また、「通話＋履歴＋mail」より右側にリンクされている分析対象データセットは、分析コストも、「通話＋履歴＋mail」の分析コストを超える。したがって、これらの分析対象データセットの右側にリンクされている全ての分析対象データセットは、特徴表現網羅率の条件を満たすが、分析コストがより大きいため、分析対象データセット探索部104は、最適な分析対象データセットとはならないと判断できる。そのため、分析対象データセット探索部104は、簡単に順次リンクを辿ることにより最適な分析対象データセットに該当しないと判断することが出来る。（なお、探索処理と同期して、特徴表現網羅率と分析コストとの評価を行う実装においては、上記のような最適な分析対象データセットに該当しない分析対象データセットに関する特徴表現網羅率と分析コストとの計算が不要となる）。上記処理の結果、分析対象データセット探索部104は、図８に示す範囲では、特徴表現網羅率が70%を超える「通話＋履歴＋mail」、「通話＋履歴＋板B」、「通話＋履歴＋板E」、「履歴＋mail＋サイト」及び「履歴＋mail＋板A」を候補として残す。

このようにして、分析対象データセット探索部104は、全てのリンクを辿った後、得られた特徴表現網羅率の条件を満たす候補のうち、最も分析コストの値が低い分析対象データセットを最適な分析対象データセットとして求める。たとえば、「通話＋履歴＋mail」、「通話＋履歴＋板B」、「通話＋履歴＋板E」、「履歴＋mail＋サイト」、「履歴＋mail＋板A」の中では、分析対象データセット探索部104は、「通話＋履歴＋板E」の分析コストが2,692で、最も低く、最適な分析対象データセットであると判断する。

最後に、ステップA6の動作を説明する。分析対象データセット探索部104は、ステップA5で得られた最適な分析対象データセットから抽出する特徴表現をマイニング結果として、出力装置120に出力する。

例えば、最適な分析対象データセットが「通話＋履歴＋板E」であった場合、分析対象データセット探索部104は、同分析対象データセットに含まれる「通話」、「履歴」、「板E」の３つの分析対象データから特徴表現リストを抽出する。そして分析対象データセット探索部104は、抽出した特徴表現リストをマイニング結果として出力装置120に出力する。その後、出力装置120は、例えば、マイニング結果を表示部に表示する。

以上の説明によれば、ある化粧品販売会社が、各種化粧品に関する顧客の声を収集する目的で、コールセンターの通話、応対履歴、電子メール、Web上の掲示板、アンケートといった異なる手段で複数の分析対象データを取得し、これらを統合的に分析することができる。具体的には、分析者が、30歳代の顧客から低い評価が与えられている化粧水関連商品への記述における特徴、という分析軸において分析を行う場合に、分析対象データセット探索部104は以下のように実行すればよい。すなわち分析対象データセット探索部104は、この分析軸に対する各分析対象データからの特徴表現を70%以上網羅する、分析コスト最小の分析対象データセット「通話＋履歴＋板E」を選択し、その特徴表現リストをマイニング結果として出力する。そのため本実施形態のテキストマイニングシステムは、所定の特徴表現網羅率を満たし、かつ、分析コストを、全ての分析対象データを分析対象とした場合と比較しておよそ2692/(1870+224+1008+240+268+608+428+310+598+170)=47%に縮小することが可能となる。

また、他の例として、例えば、分析者は、分析コストが3,000以下で、かつ、特徴表現網羅率が最大となるような分析対象データセットを最適な分析対象データセットとして指定することも出来る。この場合でも、分析対象データセット探索部104は、最適な分析対象データセットを、前述の例と同様に、図８に示す分析対象データセットのネットワークを探索することによって求めることができる。

分析対象データセット探索部104は、探索方法として、同様に、図８中の最左の丸印を基点として、矢印を順次辿ることにより探索する方法を用いることができる。例えば、分析対象データセット探索部104が、分析コストが3,000を超える分析対象データセットを、最適な分析対象データセットに該当しないと判断する対象とする場合について考える。この場合、この分析対象データセットと、その右側にリンクされている全ての分析対象データセットとが、すべて分析コストが3,000を超え、条件を満たさない。よって、分析対象データセット探索部104は、最適な分析対象データセットに該当しないと判断することができる。

分析対象データセット探索部104は、このようにして、全てのリンクを辿ったら、残った分析コストが3,000を下回る分析対象データセットの候補のうち、最も特徴表現網羅率の値が大きい分析対象データセットを最適な分析対象データセットとして求める。分析対象データセット探索部104は、図８に示す範囲では、「通話＋履歴＋板B」が、分析コストが3,000を下回る分析対象データセットの中で、特徴表現網羅率が78.6%と最大のため、最適な分析対象データセットとして選択する。

以上の方法により、本実施形態では、分析者が、分析コストの上限を設定した場合でも、特徴表現網羅率が最大となるような分析対象データセットを選択し、その分析対象データセットに対応する特徴表現リストをマイニング結果として出力する。したがって、分析コストが限られている場合でも、その中で分析の効率を最大化するようなマイニング結果を出力することができる。

以上のことから、本発明は、以下のような課題を解決するための手段を備えているといえる。本発明によるテキストマイニングシステムは、データ処理装置と、出力装置と、入力装置とを備えている。また、データ処理装置は、正例集合特定部と、特徴量計算部と、特徴表現抽出部と、分析対象データセット探索部と、特徴表現網羅率計算部と、分析コスト推定部とを備えている。データ処理装置は、与えられた分析の観点に対して、特徴表現の網羅率と分析コストに関する条件から最適な分析対象データセットを探索し、最適な分析対象データセットから抽出する特徴表現をマイニング結果として出力する。

テキストマイニングシステムは、このような構成を採用し、分析対象データセットに対する特徴表現リストの特徴表現網羅率が高く、かつ、分析コストが低くなるような分析対象データセットを最適な分析対象データセットして探索する。そして、テキストマイニングシステムは、同分析対象データセットから抽出する特徴表現をマイニング結果として出力することにより本発明の目的を達成することができる。

本発明の効果は、複数の分析対象データを分析する場合に、これらを統合的に分析する場合でも、分析者の分析コストの増大を抑えることができるということである。

その理由は、以下のとおりである。すなわち、テキストマイニングシステムは、複数の分析対象データから、特徴表現の網羅率が高く、かつ、分析コストが低くなるような分析対象データセットを最適な分析対象データセットして探索し、同分析対象データセットに対するマイニング結果を出力する。従って、テキストマイニングシステムは、統合的なマイニング結果の大勢に影響を与えずに、分析コストを削減することができる。

関連技術において、テキストマイニングを行う場合に、最初にテキスト集合から分析の観点に対する正例集合を特定して、その特定した正例集合を用いてテキストマイニングを行うように構成されたシステムが用いられる場合があった。以下、正例集合を特定してテキストマイニングを行うテキストマイニングシステムの一例について説明する。図２に示すように、このテキストマイニングシステムは、入力手段11と、出力手段12と、正例集合特定手段13と、特徴量計算手段14と、特徴表現抽出手段15とから構成されている。

このような構成を有するテキストマイニングシステムは、次のように動作する。すなわち、入力手段11があるチャネルから取得されたテキスト集合と、分析の観点とを入力すると、正例集合特定手段13は、テキスト集合の中で、分析の観点に対する正例集合を特定する。次に、特徴量計算手段14は、テキスト中の各表現に対して、テキスト集合全体と正例集合とでの出現の統計的差異から、表現に対する特徴量を計算する。次に、特徴表現抽出手段15は、特徴量の大きい表現を特徴表現として抽出する。そして、出力手段は、特徴表現抽出手段が抽出した特徴表現を出力する。

上記の図２で示したシステムの問題点は、複数の分析対象データを分析する場合には、これら複数のデータを統合的に分析する必要があり、分析者の分析コストが著しく大きくなるということである。

その理由は、以下のとおりである。第一の理由は、分析者が複数の分析対象データを統合的に分析するために、分析対象データの組み合わせについて比較分析を行わなくてはならないことである。さらに、分析者が分析軸を試行錯誤しながら変更することによって分析を行う場合、分析軸の変更に伴って特徴表現リストも更新されるため、分析者は、分析軸の変更の度に上記の分析データの組み合わせに対する比較分析を行う必要がある。第二の理由は、分析軸の試行錯誤を含めた全体での分析にかかる時間や手間など（以下、分析コスト）が著しく増加することとなることである。

一方、本発明によれば、複数の分析対象データを分析する場合に、これらを統合的に分析する場合でも、分析者の分析コストの増大を抑えることができる。

次に、本発明によるテキストマイニングシステムの最小構成について説明する。図９は、テキストマイニングシステムの最小の構成例を示すブロック図である。図９に示すように、テキストマイニングシステムは、最小の構成要素として、データセット生成部1と、データセット探索部2とを含む。

図９に示す最小構成のテキストマイニングシステムでは、データセット生成部1は、異なる手段で収集された複数の分析対象データから、１つ以上の分析対象データを抽出して構成される分析対象データセットを複数生成する。そして、データセット探索部2は、データセット生成部1が生成した複数の分析対象データセットのうち、分析対象データセット中の特徴表現集合における全分析対象データ中の特徴表現集合の網羅の度合いである特徴表現網羅率が高く、かつ、分析コストが低い分析対象データセットを、最適な分析対象データセットとして探索する。

従って、最小構成のテキストマイニングシステムは、複数の分析対象データを統合的に分析する場合でも、分析コストの増大を抑えることができる。

なお、本実施形態では、以下の（1）〜（8）に示すようなテキストマイニングシステムの特徴的構成が示されている。

（1）テキストマイニングシステムは、異なる手段（例えば、通話や履歴など）で収集された複数の分析対象データから、分析対象データを抽出して構成される分析対象データセット（例えば、「通話」＋「履歴」＋「mail」など）を複数生成するデータセット生成部（例えば、分析対象データセット探索部１０４によって実現される）と、データセット生成部が生成した複数の分析対象データセットのうち、分析対象データセット中の特徴表現集合における全分析対象データ中の特徴表現集合の網羅の度合いである特徴表現網羅率が高く、かつ、分析コストが低い分析対象データセットを、最適な分析対象データセットとして探索するデータセット探索部（例えば、分析対象データセット探索部１０４によって実現される）とを含むことを特徴とする。

（2）テキストマイニングシステムにおいて、分析対象データの分析コストを、分析対象データに対する特徴表現リスト中の特徴表現の数に比例する値として計算し、分析対象データセットの分析コストを、分析対象データセットに含まれる各分析対象データの分析コストの和によって計算する分析コスト計算部（例えば、分析コスト推定部１０６によって実現される）を含むように構成されていてもよい。

（3）テキストマイニングシステムにおいて、分析コスト計算部は、分析対象データに対する特徴表現リストの分析コストを、特徴表現リストに含まれる特徴表現数と、分析対象データにおける特徴表現あたりの分析コストとの積によって計算するように構成されていてもよい。

（4）テキストマイニングシステムにおいて、特徴表現網羅率を、複数の分析対象データの全てから抽出される特徴表現集合の異なり数に対する、分析対象データセット中の特徴表現集合の異なり数の比として計算する特徴表現網羅率計算部（例えば、特徴表現網羅率計算部１０５によって実現される）を含むように構成されていてもよい。

（5）テキストマイニングシステムにおいて、データセット探索部は、分析コストが予め与えられた値（例えば、3,000）を越えない分析対象データセットの中で、特徴表現網羅率が最も高い分析対象データセット（例えば、図８に示す範囲では、「通話＋履歴＋板B」）を最適な分析対象データセットとして探索するように構成されていてもよい。

（6）テキストマイニングシステムにおいて、データセット探索部は、最適な分析対象データセットの探索において、分析コストが予め与えられた値を超える分析対象データセットが得られたとき、分析対象データセットの構成要素である分析対象データをすべて内包する任意の分析対象データセットに対しても、分析コストが予め与えられた値を超えると判断するように構成されていてもよい。

（7）テキストマイニングシステムにおいて、データセット探索部は、特徴表現網羅率が予め与えられた値（例えば、70％）を超える分析対象データセットの中で、分析コストが最も低い分析対象データセット（例えば、図８に示す範囲では、「通話＋履歴＋板E」）を最適な分析対象データセットとして探索するように構成されていてもよい。

（8）テキストマイニングシステムにおいて、データセット探索部は、最適な分析対象データセットの探索において、特徴表現網羅率が予め与えられた値を超える分析対象データセットが得られたとき、分析対象データセットの構成要素である分析対象データをすべて内包する任意の分析対象データセットに対しても、特徴表現網羅率が予め与えられた値を超えると判断するように構成されていてもよい。

以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、2009年12月17日に出願された日本出願特願2009-286318を基礎とする優先権を主張し、その開示のすべてをここに取り込む。

本発明は、企業のコンタクトセンターにおける通話、電子メールや、製品サービスに関する消費者の掲示板サイト(Web)、アンケートなどの異なる手段によって取得された複数の分析対象データを対象に、テキストマイニングを用いて統合的に分析することにより顧客要求や製品サービスの問題等の分析を行うといった用途に適用できる。

１データセット生成部
２データセット探索部
１００データ処理装置
１０１正例集合特定部
１０２特徴量計算部
１０３特徴表現抽出部
１０４分析対象データセット探索部
１０５特徴表現網羅率計算部
１０６分析コスト推定部
１１０入力装置
１２０出力装置

Claims

テキストデータを含む分析対象データを含む分析対象データセットを生成するデータセット生成部と、
前記データセット生成部が生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、かつ、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない、分析対象データセットを探索するデータセット探索部とを
含むテキストマイニングシステム。
分析対象データの分析コストを、分析対象データに対する特徴表現リスト中の特徴表現の数に比例する値として計算し、分析対象データセットの分析コストを、分析対象データセットに含まれる各分析対象データの分析コストの和によって計算する分析コスト計算部を含む
請求項１記載のテキストマイニングシステム。
分析コスト計算部は、分析対象データの分析コストを、前記分析対象データに対する特徴表現リスト中の特徴表現の数と、前記分析対象データにおける特徴表現あたりの分析コストとの積によって計算する
請求項２記載のテキストマイニングシステム。
特徴表現網羅率を、全分析対象データから抽出される特徴表現リストの異なり数に対する、分析対象データセット中の特徴表現リストの異なり数の比として計算する特徴表現網羅率計算部を含む
請求項１から請求項３のうちのいずれか１項に記載のテキストマイニングシステム。
データセット探索部は、分析コストが予め与えられた値を越えない分析対象データセットの中で、特徴表現網羅率が最も高い分析対象データセットを探索する
請求項１から請求項４のうちのいずれか１項に記載のテキストマイニングシステム。
データセット探索部は、分析コストが予め与えられた値を超える分析対象データセットが含む分析対象データをすべて内包する任意の分析対象データセットに対しても、分析コストが前記予め与えられた値を超えると判断する
請求項５記載のテキストマイニングシステム。
データセット探索部は、特徴表現網羅率が予め与えられた値を超える分析対象データセットの中で、分析コストが最も低い分析対象データセットを探索する
請求項１から請求項６のうちのいずれか１項に記載のテキストマイニングシステム。
データセット探索部は、特徴表現網羅率が予め与えられた値を超える分析対象データセットが含む分析対象データをすべて内包する任意の分析対象データセットに対しても、特徴表現網羅率が前記予め与えられた値を超えると判断する
請求項７記載のテキストマイニングシステム。
情報処理装置が、
テキストデータを含む分析対象データを含む分析対象データセットを生成し、
生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、かつ、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない分析対象データセットを探索する
テキストマイニング方法。
コンピュータに、
テキストデータを含む分析対象データを含む分析対象データセットを生成する処理と、
生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、かつ、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない分析対象データセットを探索する処理とを
実行させるためのプログラム。