JP4073459B2

JP4073459B2 - 文解析装置

Info

Publication number: JP4073459B2
Application number: JP2006113674A
Authority: JP
Inventors: 光芳塚原
Original assignee: 光芳塚原
Priority date: 2006-04-17
Filing date: 2006-04-17
Publication date: 2008-04-09
Anticipated expiration: 2026-04-17
Also published as: JP2007286901A

Description

本発明は、自由記述形式のアンケートやコールセンターによせられる顧客のクレームや意見等、インターネット等を通じて日本語テキストデータとして寄せられる大量の文章群を所定のアルゴリズムによって解析し分類するための文解析装置に関する。

自由記述形式のアンケートやコールセンターによせられる顧客のクレームや意見等、インターネット等を通じて日本語テキストデータとして寄せられる大量の文章群をこのような文書データの内容を人手によって分析するのは非常に手間がかかるため、文書データをコンピュータによって自動的に分析し、全体傾向を知りたいというニーズが大きい。

商品の売上金額のような、数値データの分析に関しては、データマイニングと呼ばれる技術によってすでに活用が進んでいる。しかし、日本語テキストデータは明確な構造をもたず分析が困難なため、日本語テキストデータの活用技術は最近まで情報検索による文書の絞り込みのレベルにとどまっていた。
そこで、日本語テキストデータのより高度な活用を実現するために、いわゆる「テキストマイニング」と呼ばれる技術の開発が進んでいる。インターネットや企業などに蓄積されている大量のテキストデータを活用する手段としてここ数年注目されている（例えば特許文献１参照）。

テキストマイニングは、テキスト処理技術やデータ解析技術を利用してテキストデータを分析し、新しい有益な情報を見つけ出すための技術である。
テキストマイニングには様々な手法が提案されているが、手続きの大きな流れとして、(1)情報の抽出、(2)情報の分析、(3)分析結果の視覚化、の３つの段階に分かれている。

(1)情報の抽出では、テキストデータを形態素解析や構文解析などのテキスト処理技術を用いて解析し、単語や語句などの要素（情報）を抽出する。形態素解析とは、「意味のある最小の単位である『形態素』に分割し、どの品詞に対応するかを求める処理」のことである。その中でも特に、意味のある最小の単位に分割する工程は「分かち書き」と呼ばれている。例えば、「象は、鼻が長いよね。」という文を分かち書きすると、「象は、鼻が長いよ
ね。」となる。この分かち書き処理により形態素という単位に分解したあと、キーワードの取捨選択、言わばリストラクチャリングを行なう。例えば、「は」や「が」といった助詞を削除し、「象」や「鼻」といったキーワードを抽出する。

(2)情報の分析では、データ解析技術を用いてテキストデータ全体の傾向や特徴、あるいは(1)で抽出されたキーワード間の相関関係などを分析する。例えば、頻出するキーワードを求めることによってテキストデータの内容の傾向を推定したり、キーワード間の共起性や関連性を分析することによって、今まで気づかなかった関係を発見したりできるようになる。

(3)分析結果の視覚化では、様々な可視化技術を利用し、ネットワーク図や散布図など、人間にとって理解しやすい形で分析結果を提示する。
特開２００６−３１１４３特開２００５−８４８０８

しかしながら、これまでのテキストマイニングの手法は、データマイニングの手法を踏襲しただけのものが多かった。ここでは、文章の中に含まれる言葉をキーワードとして一義的、具体的なデータとして捉え、データマイニングと同じような手法でしか分析を行っておらず、その言葉の背後にある顧客の主観的意図等がほとんど分析されていなかった。

これを図１を参照して具体的に説明する。
日本語の特質はものごとを指し示すよりも、ものごとの漂わす情緒や、ものごとのまわりに漂う雰囲気を取り出して見せるのに秀でていると言われているが、図１の（Ａ）及び（Ｂ）は文章から受ける雰囲気や情緒が全く異なるにもかかわらず、従来のテキストマイニングの手法によって「名詞、動詞、形容詞」（図中四角で囲われた単語）を抽出すると、両者は全く同じものになってしまう。
すなわち、助詞、助動詞、接続詞、終助詞などの違いによって文章の雰囲気や情緒は異なってくるので、従来の「名詞、動詞、形容詞」だけを抽出して分析する手法ではこの違いを示すことはできなかった。

また、その文章が肯定的（ポジティブ）なものか、否定的（ネガティブ）なものかを、人が文章を読まずに判断することができれば、ランクを分けて分類することが可能となる。
このように、ある文章が、事柄を「どのように」（判断を述べているのか、もしくは状態を述べているのか、又は、主観的か客観的か）述べようとしているのかをタイプ別に分類することによって、その文章が伝えようとしていることの全体傾向を判断することができるので、このような分類が可能な文解析装置が求められている。
本発明は、かかる要請に鑑み為されたものであり、文章の全体傾向の分類が可能な文解析装置を提供することを目的とする。

本発明は、文章の全体傾向の分類が可能な文解析装置に関し、本発明の上記目的は、
日本語テキストデータを文単位に分割し、文単位で切り出すための文切り出し手段と、該切り出された一つの文について形態素に分割し、該分割された各形態素の品詞を決定する形態素解析手段と、前記文の性格タイプを判定する性格タイプ判定手段とを備え、該性格タイプ判定手段は、前記文の中に少なくとも係り助詞又は格助詞「が」のいずれかが含まれており、かつ主観因子が含まれている場合に前記文の性格タイプを「主観的判断文」であると判定し、前記文の中に少なくとも係り助詞又は格助詞「が」のいずれかが含まれており、かつ主観因子が含まれていない場合に前記文の性格タイプを「客観的判断文」であると判定するとともに、
前記文の中に係り助詞及び格助詞「が」のいずれも含まれておらず、かつ主観因子が含まれている場合に前記文の性格タイプを「主観的状態文」であると判定し、前記文の中に係り助詞及び格助詞「が」のいずれも含まれておらず、かつ主観因子も含まれていない場合に前記文の性格タイプを「客観的状態文」であると判定することを特徴とする文解析装置によって達成される。

また、本発明の上記目的は、さらに表情評価手段を備え、該表情評価手段は、前記文の文末から起算して４つの語に対して所定の表情評点を割り当てるとともに、該割り当てられた評点のうち最大の評点を前記文の表情評価として決定することを特徴とする前記文解析装置によって達成される。

さらに、本発明の上記目的は、前記文切り出し手段によって切り出された文を文型パターンとして抽出するための文型パターン抽出手段と、該文型パターン抽出手段によって抽出された文型パターンに基づいて組み合わせパターンごとに分類するためのテキスト分類手段とをさらに備え、前記文を、助詞「は」に導かれる第１パートと、助詞「が」に導かれる第２パートと、前記第１及び第２パート以外の文要素から成る第３パートとに分割してパターン化することを特徴とする前記文解析装置によって効果的に達成される。

本発明に係る文解析装置によれば、人間が文章を読まなくても、日本語テキストデータが「何」を「どのように」伝えようとしているかの全体傾向を知ることができ、コールセンタによせられるユーザの声や、ブログ、メール等の分類が容易となる。

本発明に係る文解析装置を実施するための最良の形態について、図面を参照しつつ詳細に説明する。
図２は本発明に係る文解析装置の概略構成を示すブロック図である。図２において、文解析装置は、インターネット等を介して日本語テキストデータを入力することができるインタフェース機能を備えた入力手段１、入力された文章の中から所定のルールで一文を切り出す文切り出し手段２、切り出された文を形態素解析する、形態素辞書４を備えた形態素解析手段３、切り出された一文の性格タイプを判定する性格タイプ判定手段５、性格タイプを判定するための基礎データ（係り助詞、格助詞Ａ、主観因子）が格納されたデータベース６、その文が肯定的内容（ポジティブ）を表すものか、否定的内容（ネガティブ）を表すものかを判定する表情評価手段７、表情評価を行うための表情評点が格納された評点データベース８、前記切り出された文、性格タイプの判定結果及び表情評価結果などが格納される記憶手段９、切り出された文をパターン化する文型パターン抽出手段１０、文型パターン抽出手段１０によってパターン化された文を文の構造ごとに分類するテキスト分類手段１１、テキスト分類手段１１によって分類された文を読み替え辞書１３に基づいて分類の変更を行う分類変更手段１２、ディスプレイやプリンタなどに文章の解析結果を所定の形式で出力する出力手段１４、及び以上の各手段を所定のプログラムを用いて制御する制御手段１５を備えている。

次に、上記構成の文解析装置を用いた文の分類方法の手順を、図３のフローチャートに基づいて説明する。
複数の文から成る文章を入力手段１から入力すると、文切り出し手段２が所定のルールに従って、入力された文章を文単位に分割し（ステップＳ１）、そこから一文を切り出す（ステップＳ２）。文単位への分割のルールは、例えば、句点「。」で区切られた単位を一つの文としてもよいし、句点「。」で区切られた文の途中に接続詞が含まれていれば、そこを境として分割するようにしてもよい。

このようにして切り出された一文を形態素解析手段３によって形態素に分割し、形態素辞書４を参照して各語の品詞を決定する（ステップＳ３）。次に、性格タイプ判定手段５がデータベース６を検索して、切り出された文の中に係り助詞又は格助詞Ａが含まれているかどうかをチェックする（ステップＳ４）。なお、「係り助詞」とは、文末の述語を除く種々の語について、強調や疑問・反語などの機能を表す助詞のことであり、図４に代表的な係り助詞の一覧を示す。また、「格助詞」とは、文中の体言（相当句）が他の言葉とかかわりあう統語的（意味的）な関係を示す助詞のことであり、「の・が・を・に・と・へ・より・から・で・にて」等である。格助詞Ａとは、その中の「が」のことを指している。

もし、当該文が「係り助詞」または「格助詞Ａ」のうち少なくとも一方を含んでいれば、この文は「判断を述べる文（判断文）」と判定され、さらに、判断文のうち、主観因子を含む文を主観的判断文（ステップＳ６）、主観因子を含まない文を客観的判断文（ステップＳ７）と分類する。なお、主観因子とは図５に示すものである。
一方、係り助詞も格助詞Ａも含まない文は「状態を述べる文（状態文）」と判定され、さらに、状態文のうち、主観因子を含む文を主観的状態文（ステップＳ９）、主観因子を含まない文を客観的状態文と分類する（ステップＳ１０）。

次に、表情評価手段７が、当該文に含まれる文末語のうち、文末から起算して４つの語に対してそれぞれ表情評点を割り振る（ステップＳ１１）。具体的には、各語に対する表情評点が予め割り当てられており、これが表情評点データベース８に格納されている。図６はその一部を示すものである。このようにして割り振られた４つの文末語の評点のうち、最大の評点を、その文全体の表情評点とし、表情評価のランク付けを行う（ステップＳ１２）。図７は表情評価のランク付けの一例を示すものであり、評点４がニュートラルで、それよりも評点が小さいものをポジティブ（肯定的）、評点が大きいものをネガティブ（否定的）と評価する。この評価の程度によって採るべき対応の内容、緊急度等が変わってくる。
なお、上記説明において、肯定的（ポジティブ）や否定的（ネガティブ）というのは必ずしも文の形態が肯定文か否定文かを意味しているものではなく、感情表現の仕方がストレートであるか、遠回し的であるかの度合いを示すものである。すなわち、日本語の場合は、ある感情を表現するのに、その感情を表す言葉を直接使用しないで、文の形によってその感情を表現することがある。このため、同じ「ダメ」でも、「本当にダメ」から、「やんわりダメ」まで、いくつかの段階があるので、それを本発明では７段階に分けている。
以上のステップ（Ｓ２〜Ｓ１２）までを、その文章に含まれるすべての文について行う。

以上の処理によって、その文は事柄を「どのように」伝えようとしているかを、人がその文を読まなくても判定することができる。

次に、その文が「何」を伝えようとしているか、すなわち、文のテーマや文脈を予測するために、文型パターン抽出手段１０によって文をパターン化し、パターン化された文をテキスト分類手段１１によって文の構造ごとに分類したり、分類された文を読み替え辞書１３に基づいて分類変更手段１２によって分類の変更を行ったりするが、この処理内容については同じ出願人の出願による特許文献２に詳細に記載されており、その技術を利用することが可能であるので、説明は省略する。

実際の文章について本発明に係る文解析装置を用いて解析した場合の例を述べる。文章は、「冷房は入れないで欲しい。車内アナウンスで換気をよびかけることもしない。いまいちどサービスを見直してください。」を題材とする。
まず、文章を文単位に分割すると、「冷房は入れないで欲しい。」（第１文）と、「車内アナウンスで換気をよびかけることもしない。」（第２文）と、「いまいちどサービスを見直してください。」（第３文）との３文に分けられる。
そこで、第１文について形態素解析を行い、形態素に分割する。すなわち、
「冷房は入れないで欲しい。」となる。
第１文には係り助詞「は」が含まれており、かつ、主観因子「欲しい」（図５）が含まれているので、「主観的判断文（Type1）」に分類され、４つの文末語（入れ、ない、で、欲しい）の表情評点は図６より、「ない＝７、で＝１」と割り当てられるから、この第１文の表情評価は全体として評点７、すなわちネガティブ度が一番高い文と分かる。
次に、第２文について形態素解析を行い、形態素に分割する。すなわち、
「車内アナウンスで換気をよびかけることもしない。」となる。
第２文には係り助詞「も」が含まれているが、主観因子（図５）は含まれていないので、「客観的判断文（Type2）」に分類され、４つの文末語（こと、も、し、ない）の表情評点は図６より、「も＝１、ない＝７」と割り当てられるから、この第２文の表情評価は全体として評点７、すなわちネガティブ度が一番高い文と分かる。
次に、第３文について形態素解析を行い、形態素に分割する。すなわち、
「いまいちどサービスを見直してください。」となる。
第３文には係り助詞も格助詞Ａも含まれておらず、かつ、主観因子（図５）も含まれていないので、「客観的状態文（Type3）」に分類され、４つの文末語（を、見直し、て、ください）の表情評点は図６より、「を＝１、て＝１」と割り当てられるから、この第３文の表情評価は全体として評点１、すなわちポジティブ度が一番高い文と分かる。
この実施例の分析結果を一覧表にしたのが図８である。

本発明に係る文解析装置を、例えばコールセンタ等における顧客からの声（日本語テキストデータ）の分析に用い、何万件という文を人間が読むことなく、顧客の傾向を探ることが可能となる。性格タイプごとの対応を、例えば表１のように決めておくことにより、無駄なく迅速な対応をとることができる。

従来技術の問題点を説明するための図である。本発明に係る文解析装置の概略構成を示すブロック図である。本発明の文解析装置を用いた文の分類方法の手順を示すフローチャートである。代表的な係り助詞の一覧を示す図である。主観因子の一覧を示す図である。語ごとの表情評点の配点一覧を示す図である。表情評価のランク付けの一例を示すものである。実施例の分析結果を一覧表にしたものである。

符号の説明

１入力手段
２文切り出し手段
３形態素解析手段
４形態素辞書
５性格タイプ判定手段
６データベース
７表情評価手段
８データベース
９記憶手段
１０文型パターン抽出手段
１１テキスト分類手段
１２分類変更手段
１３読み替え辞書
１４出力手段
１５制御手段

Claims

日本語テキストデータを文単位に分割し、文単位で切り出すための文切り出し手段と、
該切り出された一つの文について形態素に分割し、該分割された各形態素の品詞を決定する形態素解析手段と、
前記文の性格タイプを判定する性格タイプ判定手段とを備え、該性格タイプ判定手段は、
前記文の中に少なくとも係り助詞又は格助詞「が」のいずれかが含まれており、かつ主観因子が含まれている場合に前記文の性格タイプを「主観的判断文」であると判定し、
前記文の中に少なくとも係り助詞又は格助詞「が」のいずれかが含まれており、かつ主観因子が含まれていない場合に前記文の性格タイプを「客観的判断文」であると判定するとともに、
前記文の中に係り助詞及び格助詞「が」のいずれも含まれておらず、かつ主観因子が含まれている場合に前記文の性格タイプを「主観的状態文」であると判定し、
前記文の中に係り助詞及び格助詞「が」のいずれも含まれておらず、かつ主観因子も含まれていない場合に前記文の性格タイプを「客観的状態文」であると判定することを特徴とする文解析装置。
さらに表情評価手段を備え、該表情評価手段は、前記文の文末から起算して４つの語に対して所定の表情評点を割り当てるとともに、該割り当てられた評点のうち最大の評点を前記文の表情評価として決定することを特徴とする請求項１に記載の文解析装置。
前記文切り出し手段によって切り出された文を文型パターンとして抽出するための文型パターン抽出手段と、該文型パターン抽出手段によって抽出された文型パターンに基づいて組み合わせパターンごとに分類するためのテキスト分類手段とをさらに備え、
前記文を、助詞「は」に導かれる第１パートと、助詞「が」に導かれる第２パートと、前記第１及び第２パート以外の文要素から成る第３パートとに分割してパターン化することを特徴とする請求項２に記載の文解析装置。