JP4423004B2

JP4423004B2 - テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム

Info

Publication number: JP4423004B2
Application number: JP2003345961A
Authority: JP
Inventors: 勇之相川; 泰博高山; 明人永井; 誠今村
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-10-03
Filing date: 2003-10-03
Publication date: 2010-03-03
Anticipated expiration: 2023-10-03
Also published as: JP2005115468A

Description

本発明は、製品企画や品質管理などの業務で必要とされる重要な情報を蓄積された大量のテキストから抽出して、業務改善のために活用することを可能とするテキストマイニング装置およびテキストマイニング方法並びにテキストマイニングプログラムに関するものである。

文書の電子化が進み、製品企画や品質管理などで必要とされる重要な情報を蓄積文書から抽出するためのテキストマイニング装置の重要性が増している。このようなテキストマイニング装置のうち、入力文書とは異なる表現であっても類似する内容をもつ文書を検索可能なテキストマイニング装置として、文献１（顧客の声を眠らせないためのテキストマイニング、三室克哉、知的資産創造2002年9月号）に記載のものがある。また、これと関連する内容をもつ文献２（“顧客の声”を分析するテキストマイニングツール「TRUE TELLER（トゥルーテラー）Ver.2.0」を発表、NRI野村総合研究所ニュースリリース、2002年2月18日）、および、文献３（“顧客の声”を分析するテキストマイニングツール「TRUE TELLER（トゥルーテラー）Ver.3.0」を発表、NRI野村総合研究所ニュースリリース、2002年12月19日）に記載のものがある。上記の文献１、文献２、および、文献３により開示されたテキストマイニング方式について図１８により説明する。

図において、単語分割手段1801は、分析対象文書1821に含まれるテキストを解析し、単語に分割する。単語統一手段1802は、同義語辞書1803を参照して、単語分割手段1801による単語分割結果の表記ゆれを吸収する。構文解析手段1804は、単語分割手段1801による単語分割結果から単語間の係り受け関係を抽出して、分析用データベース1806に格納する。このとき、どの文書にどの単語が出現したかという情報もあわせて分析用データベース1806に格納する。また、係り受け同義辞書1805により係り受けの同義性も処理して分析用データベース1806に格納する。

構文解析手段1804は、さらに単語に対して不満の度合いや要望の度合いを定義するスコア定義情報1808を参照して、各文書に対して計算されるスコアの情報もあわせて分析用データベース1806に格納する（文献２の「スコアリング機能」）。分析手段1809は、分析用データベース1806および顧客属性データベース1807を参照して分析入力1822に対する分析結果1823を生成する。このようなテキストマイニング装置により、たとえば、化粧品に関するアンケートの自由記述文などに対して図１９のような分析支援が可能である（文献１）。

三室克哉「顧客の声を眠らせないためのテキストマイニング」知的資産創造、2002年9月号pp４４〜pp５３「"顧客の声"を分析するテキストマイニングツール「TRUE TELLER（トゥルーテラー）Ver.2.0」を発表」、ニュースリリース、NRI野村総合研究所、2002年2月18日「"顧客の声"を分析するテキストマイニングツール「TRUE TELLER（トゥルーテラー）Ver. 3.0」を発表」、ニュースリリース、NRI野村総合研究所、2002年12月19日

しかし、文献１、文献２、および、文献３で開示された技術には、以下のような課題がある。

まず、好評、不評、要望などの抽出したい情報ごとに、単語に対するスコアを定義することはできるが、これだけでは十分な情報を抽出することができないという課題がある。たとえば、製品アンケートに対する自由記述回答において「高い」という単語を考えると、「価格が高い」のであれば否定的意見であるし、「信頼性が高い」のであれば好意的意見である。したがって、単語に対してスコアを定義するだけでは、好意的意見と否定的意見を判別できないことがある。

また、自由に記述されたテキストの多様な表現に対応した分析支援を行なうためには、大量の同義語辞書を人手で作成する必要があり、手間が大きいという課題がある。文献４（テキストマイニング活用法、石井哲、リックテレコム、2002年11月）では学習用文書の単語を統計的に処理することにより、自動的に類義性を計算可能な方法が開示されているが、自由記述テキストの分析において重要な機能表現、例えば、「良い」、「悪い」などの形容詞、「〜したい」などの要望表現については考慮されていないため、十分な分析支援機能が提供されていなかった。

本発明は上記課題に鑑みてなされたものであり、分析対象テキスト中の情報と抽出すべき情報との対応関係を定義する照合パタンと、分析で必要とする情報を照合パタンと照合してテキストから抽出するための情報抽出手段と、抽出した情報を格納するための抽出情報格納手段を設けることにより、複数の単語を考慮して自由記述回答を判別し、分析支援に活用できることを目的とする。

本発明に係るテキストマイニング装置は、
登録手段、テキスト解析手段、属性データベース、概念辞書作成手段、概念辞書、照合パタン記憶手段、情報抽出手段、抽出情報索引記憶手段、文書索引記憶手段、分析手段を備え、
登録手段は、分析対象文書を読み込み、
テキスト解析手段は、登録手段により、読み込まれた分析対象文書のテキストを解析して、単語に分割し、単語の共起頻度と単語間の係り受け関係を抽出し、
属性データベースは、アンケート文書に付与された年齢や性別などの顧客情報や、故障事例文書に付与された機種名や故障派生日時などの分析処理内容により分析対象文書が絞り込み可能な項目からなる属性情報が格納され、
概念辞書作成手段は、テキスト解析手段により分割された単語の共起頻度から特異値分解により各単語の概念ベクトルを計算して概念辞書データを作成し、
概念辞書は、概念辞書作成手段により作成された概念辞書データを格納し、
上記登録手段はさらに、テキスト解析手段により分割された各単語に対応する概念ベクトルを概念辞書から読み出し、これらの概念ベクトルを文章毎に合成して文書索引情報の１つである文書ベクトルを生成し
文書索引記憶手段は、登録手段が生成した文書ベクトルが格納され、
照合パタン記憶手段は、予め作成され、分析条件である分析種別と、その分析種別に関連する単語と、その単語の分析種別に対する評価値を有する照合パタンが記憶され、
情報抽出手段は、分析対象文書をテキスト解析手段で解析した結果の単語が照合パタン記憶手段に記憶された照合パタンにある場合は、その単語と分析種別と分析種別に対する評価値を抽出し、
抽出情報索引記憶手段は、情報抽出手段が抽出した単語と分析種別と分析種別に対する評価値と該当文書の文書idが格納され、
分析手段は、
分析作業者が分析条件を入力する分析条件入力手段と、
分析条件入力手段により入力された分析条件に合致する単語と、その単語と共起しやすい単語を属性データベースと概念辞書を参照して、文書索引記憶手段から取得する頻度集計手段と、
頻度集計手段で取得した分析条件に合致する単語と、その単語と共起しやすい単語について抽出情報索引記憶手段から各単語の評価値を抽出し、合計する関連度計算手段と、
関連度計算手段で得られた情報を、グラフまたは表の形式に整形し出力する出力手段を有するものである。

また、本発明に係るテキストマイニング方法は、
登録手段により分析対象文書を読み込む登録ステップと、
登録ステップにより、読み込まれた分析対象文書のテキストをテキスト解析手段で解析して、単語に分割し、単語の共起頻度と単語間の係り受け関係を抽出するテキスト解析ステップと、
テキスト解析ステップにより分割された単語の共起頻度から概念辞書作成手段で特異値分解により各単語の概念ベクトルを計算して概念辞書データを作成して、概念辞書に格納する概念辞書作成ステップと、
文書ベクトル生成手段でテキスト解析ステップにより分割された各単語に対応する概念ベクトルを概念辞書から読み出し、これらの概念ベクトルを文章毎に合成して文書索引情報の１つである文書ベクトルを生成し文書索引に格納する文書ベクトル生成ステップと、
予め作成され、分析条件である分析種別と、その分析種別に関連する単語と、その単語の分析種別に対する評価値を有する照合パタンが記憶された照合パタンを用いて分析対象文書をテキスト解析ステップで解析した結果の単語が照合パタンにある場合、その単語と分析種別と分析種別に対する評価値を情報抽出手段で抽出し、これらを該当文書の文書idとともに抽出情報索引記憶手段に格納する情報抽出ステップと、
アンケート文書における顧客情報や、故障事例文書における機種名や故障派生日時の分析対象文書に付与された属性情報が格納された属性データベースと文書索引記憶手段に記憶された文書ベクトルに加え情報抽出ステップの抽出情報を参照して分析手段により分析結果を得る分析ステップを備え、
分析ステップは、分析作業者により分析条件入力手段を用いて入力された分析条件に合致する単語と、その単語と共起しやすい単語を属性データベースと概念辞書を参照して、文書索引記憶手段から取得する頻度集計ステップと、
頻度集計ステップで取得した分析条件に合致する単語と、その単語と共起しやすい単語について抽出情報索引記憶手段から各単語の評価値を抽出し、合計する関連度計算ステップと、
関連度計算ステップで得られた情報を、グラフまたは表の形式に整形し出力する出力ステップを有するものである。

また、本発明に係るテキストマイニングプログラムは、
登録手段により分析対象文書を読み込む登録ステップと、
登録ステップにより、読み込まれた分析対象文書のテキストをテキスト解析手段で解析して、単語に分割し、単語の共起頻度と単語間の係り受け関係を抽出するテキスト解析ステップと、
テキスト解析ステップにより分割された単語の共起頻度から概念辞書作成手段で特異値分解により各単語の概念ベクトルを計算して概念辞書データを作成して、概念辞書に格納する概念辞書作成ステップと、
文書ベクトル生成手段でテキスト解析ステップにより分割された各単語に対応する概念ベクトルを概念辞書から読み出し、これらの概念ベクトルを文章毎に合成して文書索引情報の１つである文書ベクトルを生成し文書索引に格納する文書ベクトル生成ステップと、
予め作成され、分析条件である分析種別と、その分析種別に関連する単語と、その単語の分析種別に対する評価値を有する照合パタンが記憶された照合パタンを用いて分析対象文書をテキスト解析ステップで解析した結果の単語が照合パタンにある場合、その単語と分析種別と分析種別に対する評価値を情報抽出手段で抽出し、これらを該当文書の文書idとともに抽出情報索引記憶手段に格納する情報抽出ステップと、
アンケート文書における顧客情報や、故障事例文書における機種名や故障派生日時の分析対象文書に付与された属性情報が格納された属性データベースと文書索引記憶手段に記憶された文書ベクトルに加え情報抽出ステップの抽出情報を参照して分析手段により分析結果を得る分析ステップを備え、
分析ステップは、分析作業者により分析条件入力手段を用いて入力された分析条件に合致する単語と、その単語と共起しやすい単語を属性データベースと概念辞書を参照して、文書索引記憶手段から取得する頻度集計ステップと、
頻度集計ステップで取得した分析条件に合致する単語と、その単語と共起しやすい単語について抽出情報索引記憶手段から各単語の評価値を抽出し、合計する関連度計算ステップと、
関連度計算ステップで得られた情報を、グラフまたは表の形式に整形し出力する出力ステップの各ステップをコンピュータに実行させるものである。

本発明は、抽出すべき情報を定義する照合パタンと、分析対象文書中のテキストをテキスト解析手段で解析した結果を照合し、照合結果から分析で必要な情報を抽出して抽出情報索引に格納する情報抽出手段を備え、分析手段は、属性情報を格納する属性データベースと分析対象文書から文書ベクトルを生成して登録された文書索引と情報抽出手段の抽出情報を参照して分析結果を得ることにより、複数の単語を考慮して自由記述回答を判別し、分析支援への活用ができる。
また多数の類似表現をカバーすることができ、分析作業に際して同義語辞書構築の手間を削減することが出来るという利点がある。

実施の形態１.
図１に本発明によるテキストマイニング装置の実施の形態１における構成図を示す。テキスト解析手段101は、文書121に含まれるテキストを解析し、単語に分割して単語間の関係を抽出する。概念辞書作成手段102は、テキスト解析手段101が分割した単語の出現傾向から各単語の概念ベクトルを計算して概念辞書103に格納する。登録手段104は、概念辞書103に登録された概念ベクトルをもとに文書121に含まれるテキストをベクトル情報に変換して文書索引105に登録する。情報抽出手段106は、事前に定義された照合パタン107を参照して、テキスト解析手段101がテキスト解析した結果から分析に必要な情報を抽出して、登録手段104を介して抽出情報索引108に登録する。属性データベース109は、アンケート分析においては性別や年齢などの顧客情報を格納し、また、故障事例分析においては機種名や故障派生日時などの属性情報を格納する。分析手段110は、ユーザの入力した分析入力122を読み込んで、概念辞書103、文書索引105、抽出情報索引108、および、属性データベース109を参照して分析入力122に対応する分析支援のための分析情報123を出力する。

図２は、文書分析処理の概要を示す処理フローである。以下、図１から図４までを適宜参照しつつ分析処理の概要について説明する。
まずステップS201の概念辞書作成処理について説明する。ステップS201においては、まず登録手段104により文書121を読み込み、文書121に含まれるテキストをテキスト解析手段101により単語に分割する。ついで、登録手段104は概念辞書作成手段102を呼び出してテキスト解析手段101により分割した単語の出現傾向（同時に出現する（共起する）単語の頻度）から特異値分解という代数的演算により各単語の概念ベクトルを計算して図３に示すような概念辞書データを作成し、概念辞書103に格納する。
概念ベクトルの計算には、たとえば文献５（「単語の連想関係に基づく情報検索システムInfoMAP、高山他、情報学基礎53-1、1999-3」）に開示された方法を用いる。
また、単語を分割し、単語間の係り受け関係を抽出する方法については多数の公知文献があるので、説明を省略する。

なお、図１では煩雑さを避けるために概念辞書103は１つだけ示しているが、分析対象文書の分野ごとにそれぞれ概念辞書103を作成する。例えば、携帯電話のアンケート結果を分析するためには携帯電話アンケート分析用概念辞書を作成する。また、洗濯機に関する問合せメールを分析するのであれば洗濯機用概念辞書を作成する。これらの概念辞書は、登録対象文書と似通った内容のテキストから学習されたものであれば良い。従って、あるアンケート結果から学習した概念辞書103を、内容が類似する別アンケート結果の分析に用いることもできる。

つぎにステップS202で文書索引作成処理を行う。この文書索引作成処理は、登録手段104により読み込んだ文書121をテキスト解析手段101により単語に分割し、分割した各単語に対応する概念ベクトルを概念辞書103から読み出し、これらの概念ベクトルを合成して文書索引情報の１つである文書ベクトルを生成し文書索引105に格納する。図４に文書索引105に格納される文書ベクトルの例を示す。
なお、上記では文書索引情報として文書ベクトルの例を述べたが、文書索引情報としては概念辞書103を用いずに、文書中に出現した単語と、その文書とを対応づける対照表であってもよい。

つぎにステップS203において、パタン抽出処理を行う。パタン抽出処理は、登録手段104により読み込んだ文書をテキスト解析手段101により解析し、解析した結果が照合パタン107に合致するかどうかを情報抽出手段106により照合し、照合結果から必要な情報を抽出して抽出情報索引108に格納する。このパタン抽出処理の詳細に関しては後述する。

最後にステップS204において、テキスト分析処理を行う。テキスト分析処理は分析手段110により分析作業者の入力した分析入力122を読み込み、概念辞書103、文書索引105、抽出情報索引108、および、属性データベース109を参照して分析支援のための分析入力122に対する分析情報123を出力する。このテキスト分析処理の詳細に関しても後述する。

以下、図１、および、図５から図１３までを適宜参照しつつステップS203のパタン抽出処理（照合処理）の詳細について説明する。なお、以下では、分析対象データがエアコンに関するアンケート結果であると仮定して説明する。

図５は、情報抽出手段106の詳細構成図である。文節内パタン照合手段501は、登録手段104により読み込まれ、テキスト解析手段101により解析されたテキスト解析結果中の各文節に対して照合可能なパタンを抽出し、照合パタン107の文節照合パタンと照合する。文内パタン照合手段502は、同じく登録手段104により読み込まれ、テキスト解析手段101により解析されたテキスト解析結果中の各文に対して照合可能なパタンを抽出し、照合パタン107の複数の単語を含む文内照合パタンと照合する。係り受けパタン照合手段503は、登録手段104により読み込まれ、テキスト解析手段101により解析された単語間の各係り受け（２つの文節間の関係）に対して照合可能なパタンを抽出し、照合パタン107の複数の単語間の係り受けを規定した係り受け照合パタンと照合する。

図６は、情報抽出手段106におけるパタン抽出処理（情報抽出処理）の処理フローである。まずステップS601において、文節内パタン照合手段501により文節内パタン照合処理を行なう。文節内パタン照合手段501では、照合パタン107の文節照合パタンを参照して、登録手段104より入力されるテキスト解析手段101によるテキスト解析結果から照合可能なパタンを抽出する。テキスト解析結果の例を図８に示す。解析結果は文(sentence)のリストからなり、各文は文節（pp）のリストからなる。各文節は形態素リスト(morph-list)をもち、形態素リストは形態素(morph)のリストからなる。また、各文節間の係り受け関係をpp-relタグにより示すものとする。このテキスト解析結果と、以下で説明する照合パタンとで合致する場合に、照合パタン中に記述されている内容に従って必要な情報を抽出し、抽出情報索引108に格納する。

図７は、文節パタン照合処理において使用する照合パタンの例である。本実施の形態ではxml形式で記述するものとする。なお、以下で説明する情報を保持できる形式であれば、xml形式以外の記述形式でもよい。図７では、２つのパタンを示している。各パタンは<pattern>〜</pattern>により境界が示される。

つぎに、図７の各パタンの内部に記述された情報について説明する。最初にある<extract-object>タグは抽出すべき情報を示す。ここでは、属性名が「好感度」で、その値が「３」である情報を抽出する。つぎの<co-region>タグは、照合範囲を指定するタグである。ここでは文節内を示す"pp"が指定される。<pp id="0" negative="false">から</pp>までが、テキスト解析結果との照合に使用されるパタン情報である。

<pp>タグは２つの属性値をもつ。id属性は、文章中に当該文節が出現した位置を示す整数値である。negative属性は、当該文節が否定表現を含んでいるかどうかを示すフラグ情報であり、否定情報を含んでいれば"true"が、含んでいなければ"false"が指定される。二重否定を含む文節については"false"が指定される。このnegative属性によって、図７に示した２番目のパタンで、「うるさくない」という否定表現に対する照合により、好感度３という値を抽出することが可能となる。

<pp>タグの子要素は<morph-list>タグである。<morph-list>タグはorder属性をもち、値が"false"の場合には順序を考慮せずに照合する。また、照合パタンに記述されていない形態素については、照合の際に無視する。order属性が"true"の場合には順序を考慮して照合する。また、照合パタンに記述されていない形態素が出現した場合には照合に失敗する。通常は順序を考慮せずに照合することにより、記述を簡易化する。たとえば、図７に示した１番目のパタンでは、<morph-list>内に「静か」という形容動詞が出現するということが照合条件になるので、「静かかもしれない」「静かだと」「静かならば」など、多様な表現に対して照合がなされる。

<morph-list>タグの子要素は<morph>タグである。これは単語分割の最小単位（形態素）に対応する。<morph>タグは子要素として、各形態素の見出し表記を示す<hyouki>タグおよび品詞を示す<pos>タグをもつ。また、属性としてmatchをもち、"strict"が指定されている場合は表記および品詞が厳密に一致する照合を行い、"ambiguous"が指定されている場合には概念辞書103を参照して、「静か」と類似する「静音」や「低騒音」といった表現とも照合を試み、類似度が所定の値以上であれば照合成功として「静か」と同様に必要な情報（この場合は好感度３）を抽出する。

以上をまとめると、図７に示した１つめのパタンは、自由記述中に「静か」および「静か」に類似する単語が含まれていて、かつ、その単語が「静かではない」のように否定されていない場合には、エアコンに関する好意的な意見として、好感度３を与えるということを意味する。同様に、図７に示した２つめのパタンは、「うるさい」という単語が含まれていて、かつ、「うるさくはない」のように否定的な表現であれば、エアコンに関する好意的な意見として好感度２を与えるということを意味する。

文節内パタン照合手段501では、テキスト解析結果（図８）中の各文節（pp）に対して、図７の照合パタンを順次適用し、照合に成功した場合には、各照合パタンのextra-objectに記述された情報を抽出して登録手段104を介して抽出情報索引108に格納する。図９に、文節内パタン照合処理により抽出されて抽出情報索引108に格納される抽出情報の例を示す。この抽出情報を用いた分析結果については後述する。

つぎに、図６のステップS602において、文内パタン照合手段502により文内パタン照合処理を行なう。文内パタン照合手段502では、照合パタン107の文内照合パタンを参照して、登録手段104より入力されるテキスト解析手段101によるテキスト解析結果から照合可能なパタンを抽出する。

図１０は、文内パタン照合処理において使用する照合パタンの例である。図７と同様、xml形式で記述するものとする。以下では、図７とは異なる部分を中心に説明する。extract-objectについては図７と同様なので説明を省略する。まず、co-regionタグの内容はsentenceとする。co-regionタグの次の要素は照合対象となるsentenceタグである。sentenceタグは、図８に示したテキスト解析結果と同様、文節のリストからなる。sentenceタグはorder属性をもち、"true"が指定されている場合には要素の文節リストの順序一致まで考慮した照合を行なう。"false"が指定されている場合には文節の順序関係を無視し、文中の要素が合致すれば照合成功とする。

図１０には２つのパタンを例として示している。１つめのパタンは「音」および「小さい」という単語が文内に出現したときに照合に成功する。「音」および「小さい」のそれぞれの文節の照合に関しては、上記で説明した文節内照合と同様の処理を行なう。図１０に示した２つめのパタンは、「表示」および「小さい」という単語が文内に出現したときに照合に成功する。

文内パタン照合手段502では、図８に示すテキスト解析結果中の各文（sentence）に対して、図１０の照合パタンを順次適用し、照合に成功した場合には、各パタンのextra-objectに記述された情報を抽出して登録手段104を介して抽出情報索引108に格納する。図１１に、文内パタン照合処理により抽出されて抽出情報索引108に格納される抽出情報の例を示す。この抽出情報を用いた分析結果については後述する。

つぎに、図６のステップS603において、係り受けパタン照合手段503により係り受けパタン照合処理を行なう。係り受けパタン照合手段503では、照合パタン107の係り受け照合パタンを参照して、登録手段104より入力されるテキスト解析手段101によるテキスト解析結果から照合可能なパタンを抽出する。

図１２は、係り受けパタン照合処理において使用する照合パタンの例である。図１０と同様、xml形式で記述するものとする。図１２で図１０と異なるのは、sentenceタグ内部の<pp-rel>タグである。これは、id="0"である文節（「腹が」または「腹の」を含む文節）が、id="1"である文節（「立つ」を含む文節）に係るということを示している。照合の際には、この係り受け関係まで考慮して照合する。すなわち、「側に立つと腹が冷える」という文は「腹」および「立つ」という単語を文中に含んでいるが、「腹」と「立つ」の間に係り受け関係がないので、図１２に示したパタンでは照合に失敗する。

係り受けパタン照合手段503では、テキスト解析結果（図８）中の各文（sentence）に対して、図１２の照合パタンを順次適用し、照合に成功した場合には、各パタンのextra-objectに記述された情報を抽出して抽出情報索引108に格納する。図１３に、係り受けパタン照合処理により抽出されて抽出情報索引108に格納される抽出情報の例を示す。この抽出情報を用いた分析結果については後述する。

以上で、情報抽出手段106による図６のステップS601からS603までのパタン照合処理の詳細についての説明を終了する。

つぎに、図２のステップS204のテキスト分析処理の詳細について、図１４から図１７までを参照しながら説明する。
図１４は、分析手段110の詳細構成図である。分析条件入力手段1401は、分析作業者が分析入力122の条件を対話的に入力するためのＧＵＩ(Graphical User Interface)である。頻度集計手段1402は、分析条件入力手段1401で入力された分析条件に合致する文書や単語の頻度を、概念辞書103、文書索引105、抽出情報索引108、および、属性データベース109を参照して取得する。関連度計算手段1403は、概念辞書103、文書索引105、抽出情報索引108、および、属性データベース109を参照して、分析条件入力手段1401で入力された分析条件の指定により分類された文書集合から合成される概念ベクトルと、分析条件入力手段1401で入力された分析条件で指定されたテキストなどの概念ベクトルとの類似性を計算する。出力手段1404は、上記で得られた頻度および関連度を、分析作業者が傾向を把握しやすい形で整形して、表ないしはグラフの形式で分析情報123を出力する。

図１５は、テキスト分析処理の詳細を示す処理フローである。まずステップS1501において、分析作業者が分析条件入力手段1401により分析条件を入力する。図１６に分析条件入力画面の例を示す。分析対象を50才から80才の高年齢者層に限定し、注目話題として「音」および「表示」を選択し、これらの話題に対する評判を把握するため分析種別の好評／不評を指定する。

つぎにステップS1502において、頻度集計手段1402で、注目話題として指定した「音」および「表示」と共起しやすい単語を、文書索引105に記録されている単語と文書との関係表を参照して取得する。その際、属性データベース109を参照し、年齢が50才から80才までの顧客からの回答に絞り込んだうえで、以下の処理を行なう。ここでは、「音」に対する共起単語として「小さい」「静か」「うるさい」などが得られ、「表示」に対する共起単語として「見やすい」「小さい」「見にくい」などが得られるものとする。

つぎにステップS1503において、関連度計算手段1403で、上記で取得した各表現「音−小さい」「音−静か」「表示−小さい」などについて、図９、図１１、および図１３に示した情報抽出結果の文書idの情報をもとに、各表現を含む文書の好感度および不満度を合計する。

さらにステップS1504において、出力手段1404により、上記で取得した好感度および不満度を図１７に示すような形でグラフ化する。このグラフにより、高齢者の意見として、音に関しては好評だが、表示については不評であることがわかる。

ここで、図１０に示した照合パタンを用いた文内パタン照合処理により、図１１に示した情報が抽出されるので、同じ「小さい」という形容詞に対して、好評と不評のそれぞれに振り分けて分析することが可能となる。（図１７の「音−小さい」と「表示−小さい」）

また、図７に示した照合パタンを用いた文節内パタン照合処理により、否定形を含む表現からも図９に示したような正確な情報が抽出されるので、「うるさい」という否定的な意味を含む形容詞を含んでいても、好評と認識して分析することが可能となる。

上記で説明した各ステップはプログラムにより、コンピュータを動作させて処理することもできる。

以上、説明したように、本実施の形態によれば、文内パタン照合手段および係り受けパタン照合手段を備えているので、複数の単語を考慮して必要な情報を抽出できるという効果が得られる。

また本実施の形態によれば、自動生成される概念辞書103を文節内パタン照合処理において利用することにより、ひとつのパタン記述で多数の類似表現をカバーすることができるので、分析作業に際して同義語辞書構築の手間を削減することが出来るという利点がある。

さらに、文節内パタン照合手段を備えているので、否定表現を含むテキストからも正確に情報を抽出できる。

さらに、自由な語順で照合可能な文内パタン照合手段を備えているので、パタン記述量を少なくすることができる。

さらに、厳密な係り受け関係を指定して照合可能な係り受けパタン照合手段を備えているので、語順が重要な意味をもつ慣用表現を正確に分析することができる。

曖昧表現の照合が可能で、好評、不評、要望などの情報をテキストから抽出できるので、アンケート分析作業を支援し、アンケート分析サービス事業への適用が可能である。

本発明の実施の形態１における構成図である。分析処理の概要を示す処理フロー図である。概念辞書作成手段により作成された概念辞書データの説明図である。文書索引に格納される文書ベクトルの説明図である。情報抽出手段の詳細構成図である。情報抽出処理の詳細を示す処理フロー図である。文節パタン照合処理で使用する照合パタンの説明図である。テキスト解析手段によるテキスト解析結果の説明図である。文節内パタン照合処理により抽出される抽出情報の説明図である。文内パタン照合処理で使用する照合パタンの説明図である。文内パタン照合処理により抽出される抽出情報の説明図である。係り受けパタン照合処理で使用する照合パタンの説明図である。係り受けパタン照合処理により抽出される抽出情報の説明図である。分析手段の詳細構成図である。テキスト分析処理の詳細を示す処理フロー図である。分析条件入力画面の例の説明図である。出力手段により処理される出力グラフ例の説明図である。従来のテキストマイニング装置の構成図である。従来装置による分析支援機能例の説明図である。

符号の説明

101：テキスト解析手段、
102：概念辞書作成手段、
103：概念辞書、
104：登録手段、
105：文書索引、
106：情報抽出手段、
107：照合パタン、
108：抽出情報索引、
109：属性データベース、
110：分析手段、
121：文書、
122：分析入力、
123：分析情報、
501：文節内パタン照合手段、
502：文内パタン照合手段、
503：係り受けパタン照合手段、
1401：分析条件入力手段、
1402：頻度集計手段、
1403：関連度計算手段、
1404：出力手段。

Claims

登録手段、テキスト解析手段、属性データベース、概念辞書作成手段、概念辞書、照合パタン記憶手段、情報抽出手段、抽出情報索引記憶手段、文書索引記憶手段、分析手段を備え、
登録手段は、分析対象文書を読み込み、
テキスト解析手段は、登録手段により、読み込まれた分析対象文書のテキストを解析して、単語に分割し、単語の共起頻度と単語間の係り受け関係を抽出し、
属性データベースは、アンケート文書に付与された年齢や性別などの顧客情報や、故障事例文書に付与された機種名や故障派生日時などの分析処理内容により分析対象文書が絞り込み可能な項目からなる属性情報が格納され、
概念辞書作成手段は、テキスト解析手段により分割された単語の共起頻度から特異値分解により各単語の概念ベクトルを計算して概念辞書データを作成し、
概念辞書は、概念辞書作成手段により作成された概念辞書データを格納し、
上記登録手段はさらに、テキスト解析手段により分割された各単語に対応する概念ベクトルを概念辞書から読み出し、これらの概念ベクトルを文章毎に合成して文書索引情報の１つである文書ベクトルを生成し
文書索引記憶手段は、登録手段が生成した文書ベクトルが格納され、
照合パタン記憶手段は、予め作成され、分析条件である分析種別と、その分析種別に関連する単語と、その単語の分析種別に対する評価値を有する照合パタンが記憶され、
情報抽出手段は、分析対象文書をテキスト解析手段で解析した結果の単語が照合パタン記憶手段に記憶された照合パタンにある場合は、その単語と分析種別と分析種別に対する評価値を抽出し、
抽出情報索引記憶手段は、情報抽出手段が抽出した単語と分析種別と分析種別に対する評価値と該当文書の文書idが格納され、
分析手段は、
分析作業者が分析条件を入力する分析条件入力手段と、
分析条件入力手段により入力された分析条件に合致する単語と、その単語と共起しやすい単語を属性データベースと概念辞書を参照して、文書索引記憶手段から取得する頻度集計手段と、
頻度集計手段で取得した分析条件に合致する単語と、その単語と共起しやすい単語について抽出情報索引記憶手段から各単語の評価値を抽出し、合計する関連度計算手段と、
関連度計算手段で得られた情報を、グラフまたは表の形式に整形し出力する出力手段を有することを特徴とするテキストマイニング装置。
上記照合パタン記憶手段に記憶される予め作成された照合パタンは、分析条件である分析種別と、その分析種別に関連する単語と、その単語の分析種別に対する評価値と、検索対象範囲が文節内であることを有する文節内照合パタンであり、
上記情報抽出手段が、照合パタン記憶手段に記憶された文節内照合パタンを用い、テキスト解析手段によるテキスト解析結果の文節内の単語を用いて分析条件である分析種別と、その分析種別に関連する単語と、その単語の分析種別に対する評価値を抽出する文節内パタン照合手段を有することを特徴とする請求項１記載のテキストマイニング装置。
上記照合パタン記憶手段に記憶される予め作成された照合パタンは、分析条件である分析種別と、その分析種別に関連する複数の単語と、その複数の単語による分析種別に対する評価値と、検索対象範囲が文内であることを有する文内照合パタンであり、
上記情報抽出手段が、照合パタン記憶手段に記憶された文内照合パタンを用い、テキスト解析手段によるテキスト解析結果の文内の単語を用いて分析条件である分析種別と、その分析種別に関連する単語と、その単語の分析種別に対する評価値を抽出する文内パタン照合手段を有することを特徴とする請求項１または請求項２記載のテキストマイニング装置。
上記照合パタン記憶手段に記憶される予め作成された照合パタンは、分析条件である分析種別と、その分析種別に関連する複数の単語と、その複数の単語間の係り受け関係と、複数の単語間の係り受け関係による分析種別に対する評価値と、検索対象範囲が文内であることを有する係り受け照合パタンであり、
上記情報抽出手段が、照合パタン記憶手段に記憶された係り受け照合パタンを用い、テキスト解析手段によるテキスト解析結果の文内の単語を用いて分析条件である分析種別と、その分析種別に関連する単語間の係り受け関係と、その単語間の係り受け関係による分析種別に対する評価値を抽出する係り受けパタン照合手段を有することを特徴とする請求項１乃至請求項３の何れか１項に記載のテキストマイニング装置。
登録手段により分析対象文書を読み込む登録ステップと、
登録ステップにより、読み込まれた分析対象文書のテキストをテキスト解析手段で解析して、単語に分割し、単語の共起頻度と単語間の係り受け関係を抽出するテキスト解析ステップと、
テキスト解析ステップにより分割された単語の共起頻度から概念辞書作成手段で特異値分解により各単語の概念ベクトルを計算して概念辞書データを作成して、概念辞書に格納する概念辞書作成ステップと、
文書ベクトル生成手段でテキスト解析ステップにより分割された各単語に対応する概念ベクトルを概念辞書から読み出し、これらの概念ベクトルを文章毎に合成して文書索引情報の１つである文書ベクトルを生成し文書索引に格納する文書ベクトル生成ステップと、
予め作成され、分析条件である分析種別と、その分析種別に関連する単語と、その単語の分析種別に対する評価値を有する照合パタンが記憶された照合パタンを用いて分析対象文書をテキスト解析ステップで解析した結果の単語が照合パタンにある場合、その単語と分析種別と分析種別に対する評価値を情報抽出手段で抽出し、これらを該当文書の文書idとともに抽出情報索引記憶手段に格納する情報抽出ステップと、
アンケート文書における顧客情報や、故障事例文書における機種名や故障派生日時の分析対象文書に付与された属性情報が格納された属性データベースと文書索引記憶手段に記憶された文書ベクトルに加え情報抽出ステップの抽出情報を参照して分析手段により分析結果を得る分析ステップを備え、
分析ステップは、分析作業者により分析条件入力手段を用いて入力された分析条件に合致する単語と、その単語と共起しやすい単語を属性データベースと概念辞書を参照して、文書索引記憶手段から取得する頻度集計ステップと、
頻度集計ステップで取得した分析条件に合致する単語と、その単語と共起しやすい単語について抽出情報索引記憶手段から各単語の評価値を抽出し、合計する関連度計算ステップと、
関連度計算ステップで得られた情報を、グラフまたは表の形式に整形し出力する出力ステップを有することを特徴とするテキストマイニング方法。
登録手段により分析対象文書を読み込む登録ステップと、
登録ステップにより、読み込まれた分析対象文書のテキストをテキスト解析手段で解析して、単語に分割し、単語の共起頻度と単語間の係り受け関係を抽出するテキスト解析ステップと、
テキスト解析ステップにより分割された単語の共起頻度から概念辞書作成手段で特異値分解により各単語の概念ベクトルを計算して概念辞書データを作成して、概念辞書に格納する概念辞書作成ステップと、
文書ベクトル生成手段でテキスト解析ステップにより分割された各単語に対応する概念ベクトルを概念辞書から読み出し、これらの概念ベクトルを文章毎に合成して文書索引情報の１つである文書ベクトルを生成し文書索引に格納する文書ベクトル生成ステップと、
予め作成され、分析条件である分析種別と、その分析種別に関連する単語と、その単語の分析種別に対する評価値を有する照合パタンが記憶された照合パタンを用いて分析対象文書をテキスト解析ステップで解析した結果の単語が照合パタンにある場合、その単語と分析種別と分析種別に対する評価値を情報抽出手段で抽出し、これらを該当文書の文書idとともに抽出情報索引記憶手段に格納する情報抽出ステップと、
アンケート文書における顧客情報や、故障事例文書における機種名や故障派生日時の分析対象文書に付与された属性情報が格納された属性データベースと文書索引記憶手段に記憶された文書ベクトルに加え情報抽出ステップの抽出情報を参照して分析手段により分析結果を得る分析ステップを備え、
分析ステップは、分析作業者により分析条件入力手段を用いて入力された分析条件に合致する単語と、その単語と共起しやすい単語を属性データベースと概念辞書を参照して、文書索引記憶手段から取得する頻度集計ステップと、
頻度集計ステップで取得した分析条件に合致する単語と、その単語と共起しやすい単語について抽出情報索引記憶手段から各単語の評価値を抽出し、合計する関連度計算ステップと、
関連度計算ステップで得られた情報を、グラフまたは表の形式に整形し出力する出力ステップの各ステップをコンピュータに実行させることを特徴とするテキストマイニングプログラム。