JP2004021445A

JP2004021445A - テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム

Info

Publication number: JP2004021445A
Application number: JP2002173641A
Authority: JP
Inventors: Katsuya Mimuro; 三室　克哉; Norio Hori; 堀　宣男; Eisuke Sudo; 須藤　英介; Noriyuki Royama; 蝋山　敬之
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2002-06-14
Filing date: 2002-06-14
Publication date: 2004-01-22

Abstract

【課題】曖昧さの多い日本語テキストデータの内容に対して、自動分析機能に優れたテキストデータ分析手法を提供する。
【解決手段】多数のテキストデータを蓄積するテキストデータベース内のテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手段と、ツリー構造として表示されたグループまたは各グループの階層の中から選択した対象を分析する選択対象分析手段と、その選択対象分析手段が分析した分析結果を出力する出力手段とを備える。前記の選択対象分析手段には、単語間の係り受け関係を抽出する構文分析機能を備える。
【選択図】　　図１

Description

【０００１】
【発明が属する技術分野】
本発明は、デキストデータとして蓄積された大量のデータを分析したり、分析を支援したりすることができる情報処理技術に関する。
【０００２】
【先行技術】
消費者のニーズや、消費者からのクレームをテキストデータとして収集する仕組みは、情報の電子化技術、インターネットの発達とともに、様々なツールや製品が提供されるようになった。たとえば、コールセンターにかかってくる電話の音声をテキストデータへ自動変換したり、インターネット上に開設された意見コーナーや電子掲示板へ書き込まれたテキストデータを収集したりする技術である。
【０００３】
収集されたテキストデータを活用するツールは、「テキストマイニング・ツール」と総称され、「検索系」と「分析系」とに大別される。
「検索系」とは、テキストデータの中から特定の言葉を探し出す機能を中心とする。例えば、アンケート群の中から、「楽しい」という言葉を探し出したり、探し出した言葉の出現頻度をカウントする、などを行う。
「分析系」とは、「楽しい」という言葉をアンケートへ書き込んだのは、男性が多いのか女性が多いのか、若い世代が多いのか年輩の世代が多いのか、といった単語の関連性分析や、「楽しい」という言葉が時間経過と共に増加傾向にあるのか減少しているのかといった時系列分析を行う、などである。
【０００４】
【発明が解決しようとする課題】
さて、現在提供されているテキストマイニング・ツールのほとんどは、曖昧な表現が多用される日本語の特徴が壁になり、自動分析することが困難であった。そのため、収集したテキストデータを、属性毎にグループ化するなどの形式的な分析のみを自動化し、テキストデータの内容についての傾向分析は、人手に頼っているのが現状であった。
【０００５】
そこで、本発明が解決しようとする課題は、現在提供されているテキストマイニング・ツールよりも自動分析の機能を高めた技術を提供することにある。
ここで、請求項１から請求項５に記載の発明の目的は、日本語テキストデータの内容に対して自動分析機能に優れたテキストデータ分析システムを提供することにある。
また、請求項６から請求項８に記載の発明の目的は、日本語テキストデータの内容に対して自動分析機能に優れたテキストデータ分析方法を提供することにある。
さらに、請求項９から請求項１１に記載の発明の目的は、日本語テキストデータの内容に対して自動分析機能に優れたテキストデータ分析方法をコンピュータに実行させるためのコンピュータプログラムを提供することにある。
【０００６】
【課題を解決するための手段】
本発明は、上記した課題を解決するため、大量のデータを分析可能な情報処理技術、および一文中における複数の単語の係り受け関係を分析する技術を用いる。
【０００７】
（請求項１）
請求項１記載の発明は、多数のテキストデータを蓄積するテキストデータベース内における分析対象となるテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手段と、ツリー構造として表示されたグループまたは各グループの階層の中から選択された対象を分析する選択対象分析手段と、その選択対象分析手段が分析した分析結果をツリー構造とともに出力する出力手段とを備え、選択対象分析手段には、単語間の係り受け関係を抽出する構文分析手段を備えたテキストデータ分析システムに係る。
【０００８】
（用語説明）
「構文分析手段」とは、単語間の係り受け関係を捉えて構文分析をすることにより、何に対して何と言っているのかを正確に把握することが可能な手段である。この手段による機能は、否定形の文章、疑問の文章、要望の文章といった表現までをふるい分けることが可能である。例えば、複数の意味の抽出が可能である。すなわち、「液晶は良いが、メモリが悪い。」という文章からは、「液晶」と「良い」、「メモリ」と「悪い」の二つの組合せを抽出可能である。また、表現の抽出も可能である。すなわち、「商品Ａは、もっと軽くしたほうが良いと思うのですが。」という文章からは、「商品Ａ」と「軽い」の「要望」として抽出可能である。また、「商品Ａの価格は、一般モデルよりも安いですか？」という文章からは、「商品Ａ」と「安い」の「疑問」として抽出可能である。
なお、「選択対象分析手段」には、「構文分析機能」のほか、「単語ランキング」、「特徴的な単語」、「マッピング」、「テキスト詳細」、「グループ属性」、「時系列モニタ」、「スコアリング」などの機能を用意することが可能であり、実施の形態にて詳述する。これら機能を効率的に画面出力させるには、いわゆるタブを採用する。
【０００９】
（作用）
ツリー構造化手段は、多数のテキストデータを蓄積するテキストデータベースから分析対象となるテキストデータをグループ化し、且つ階層化して表示可能であるように、ツリー構造を自動的に形成する。
ツリー構造として表示されたグループまたは各グループの階層の中から、本システムのユーザが選択した対象を選択対象分析手段が分析する。そして、その選択対象分析手段が分析した分析結果をツリー構造とともに出力手段が出力する。ツリー構造をインタフェイスとして採用することにより、分析の切り口が表示されるためにわかりやすい分析環境、分析結果の出力結果を提供できる。
選択対象分析手段は、構文分析手段を用いて単語間の係り受け関係を抽出することができ、分析結果には、その構文分析機能による係り受け関係を生かした分析とすることができる。係り受け関係を用いた分析を行った場合、日本語独特の曖昧な表現に対しても、踏み込んだ分析や分類が可能となる。
【００１０】
（請求項２）
請求項２記載の発明は、請求項１記載のシステムを限定したものであり、
分析テーマに基づいたプロジェクトファイルを形成するプロジェクトファイル作成手段を備えたテキストデータ分析システムに係る。
【００１１】
（作用）
ひとつのテキストデータベースに蓄積されたデータを複数の者が利用したり、様々な角度から分析したりする場合に、混乱が生じるおそれがある。一方、ある分析結果を流用したいような場合もある。そこで、プロジェクトファイル作成手段を用いて、分析テーマに基づいたプロジェクトファイルを形成する。このことにより、既に作成されたプロジェクトファイルをいったん呼び出し、プロジェクトファイルをリネームすることによって、データや分析結果を流用できる。
また、ＡＳＰ事業を展開する場合、プロジェクトファイル単位で課金する、といった活用もありえる。
【００１２】
（請求項３）
請求項３記載の発明は、請求項２に記載のテキストデータ分析システムを限定したものであり、
既に形成されたプロジェクトファイルに対して、分析対象となるテキストデータ群を追加または変更したい場合に、追加または変更したいテキストデータ群を指定して追加または変更させるデータインポート手段を備えたテキストデータ分析システムに係る。
【００１３】
（作用）
既に形成されたプロジェクトファイルに対して、分析対象となるテキストデータ群を追加または変更したい場合がある。例えばテキストデータが新たに収集されてそれを追加したい場合や、古いデータを削除して新しいデータを追加したいような場合などである。そのような場合に、既に形成されたプロジェクトファイルに対して、データインポート手段が追加または変更したいテキストデータ群を指定して追加または変更させる。すると、ツリー構造化手段は、多数のテキストデータを蓄積するテキストデータベースから、追加または変更された分析対象を含めてテキストデータをグループ化し、且つ階層化して表示可能であるように、ツリー構造を形成する。
また、新たにツリー構造として表示されたグループまたは各グループの階層の中から、本システムのユーザが選択したら、その対象を選択対象分析手段が新たに分析する。そして、その新たな分析結果を出力手段が新たに出力する。その出力は、追加または変更された分析対象を含んでいる。
【００１４】
（請求項４）
請求項４記載の発明は、請求項１から請求項３のいずれかに記載のテキストデータ分析システムを限定したものであり、
選択対象分析手段には、ツリー構造化手段によって形成されたグループと選択された単語との関連性を平面的にプロットするマッピング機能を備えたテキストデータ分析システムに係る。
ここで、「平面的にプロットする」とは、Ｘ、Ｙの二軸での表示におけるプロットのみならず、Ｘ、Ｙ、Ｚの三軸での画面出力用の表示におけるプロットを含む。
【００１５】
（作用）
本システムのユーザが、選択対象を選択し、分析手段としてマッピング機能を選択した場合には、ツリー構造化手段によって形成されたグループと選択された単語との関連性を平面的にプロットされる。出力手段には、選択された所定のグループとそのグループに特徴的な単語の関係を二次元的な位置関係を用いて視覚的に表現される。このため、分析結果をイメージとしてとらえやすい。
【００１６】
（請求項５）
請求項５記載の発明は、請求項４記載のテキストデータ分析システムを限定したものであり、
選択された単語に対しての係り受け関係を抽出する係り受け抽出手段を備え、マッピング手段は、前記係り受け抽出手段によって抽出された係り受け関係を平面的にプロットすることとしたテキストデータ分析システムに係る。
ここで、「係り受け抽出手段」は、請求項１にいう「構文分析手段」と同じく、単語間の係り受け関係を抽出する機能を実現する手段であるが、マッピング手段と組み合わせて使用される。
【００１７】
（作用）
本システムのユーザがある単語を選択すると、係り受け抽出手段がその単語に対しての係り受け関係を抽出する。そしてマッピング手段が、別途選択された所定のグループと抽出された係り受け関係とを平面的にプロットする。このため、グループおよび抽出された係り受け関係を同時に、二次元的な位置関係で把握できる。
【００１８】
（請求項６）
請求項５記載の発明は、多数のテキストデータを蓄積するテキストデータベース内における分析対象となるテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手順と、ツリー構造として表示されたグループまたは各グループの階層の中から選択された対象を分析する選択対象分析手順と、その選択対象分析手順にて分析した分析結果をツリー構造とともに出力する出力手順とを備え、選択対象分析手順には、単語間の係り受け関係を抽出する構文分析手順を含むこととしたテキストデータ分析方法テキストデータ分析方法に係る。
「構文分析手順」は、ユーザが選択する「選択対象分析手順」の種類に応じて自動的に実行される場合、ユーザが選択した場合にのみ実行される場合の両方を含む。
【００１９】
（請求項７）
請求項７記載の発明は、分析テーマに基づいたプロジェクトファイルを形成するプロジェクトファイル作成手順と、そのプロジェクトファイル作成手順によって形成されたプロジェクトファイルに基づいたテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手順と、ツリー構造として表示されたグループまたは各グループの階層の中から選択された対象を分析する選択対象分析手順と、その選択対象分析手順にて分析した分析結果をツリー構造とともに出力する出力手順とを備え、選択対象分析手順には、単語間の係り受け関係を抽出する構文分析手順を含むこととしたテキストデータ分析方法に係る。
前記プロジェクトファイルは、必要に応じて、更に階層ファイルを作成する。例えば、テキストデータベースの中から分析対象となるテキストデータ群を抽出して作成したデータファイル、ツリー構造化手順にて形成するツリー構造を保存するためのプロジェクトツリーファイル、選択対象分析手順において分析するための分析準備データを保存するためのデータ定義ファイルなどである。
【００２０】
（請求項８）
請求項８記載の発明は、多数のテキストデータを蓄積するテキストデータベース内における分析対象となるテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手順と、選択された単語に対しての係り受け関係を抽出する係り受け抽出手順と、ツリー構造化手順によって形成されたグループおよび係り受け抽出手順によって抽出された係り受け関係を平面的にプロットする係り受けマッピング手順とを備えたテキストデータ分析方法に係る。
【００２１】
（請求項９）
請求項９記載の発明は、コンピュータに対し、多数のテキストデータを分析させるためのプログラムに係る。
そのプログラムは、多数のテキストデータを蓄積するテキストデータベース内における分析対象となるテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手順と、ツリー構造として表示されたグループまたは各グループの階層の中から選択された対象を分析する選択対象分析手順と、その選択対象分析手順にて分析した分析結果をツリー構造とともに出力する出力手順とを備え、選択対象分析手順には、単語間の係り受け関係を抽出する構文分析手順を含むこととしたコンピュータプログラムである。
【００２２】
上記プログラムを、記録媒体へ記憶させて提供することもできる。ここで、「記録媒体」とは、それ自身では空間を占有し得ないプログラムを担持することができる媒体であり、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ（光磁気ディスク）、ＤＶＤ−ＲＯＭ、ＰＤなどである。
【００２３】
また、請求項９、１０および１１に係るプログラムを格納したコンピュータから、通信回線を通じて他のコンピュータへ伝送することも可能である。
なお、汎用的なサーバ装置に対して、上記のような各手段を達成可能であるようなプログラムをプリインストール、あるいはダウンロードすることで、請求項１に係るシステムサーバを形成することが可能である。
【００２４】
（請求項１０）
請求項１０記載の発明もまた、コンピュータに対し、多数のテキストデータを分析させるためのプログラムである。
そのプログラムは、分析テーマに基づいたプロジェクトファイルを形成するプロジェクトファイル作成手順と、そのプロジェクトファイル作成手順によって形成されたプロジェクトファイルに基づいたテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手順と、ツリー構造として表示されたグループまたは各グループの階層の中から選択された対象を分析する選択対象分析手順と、その選択対象分析手順にて分析した分析結果をツリー構造とともに出力する出力手順とを備え、選択対象分析手順には、単語間の係り受け関係を抽出する構文分析手順を含むこととしたコンピュータプログラムである。
【００２５】
（請求項１１）
請求項１１記載の発明もまた、コンピュータに対し、多数のテキストデータを分析させるためのプログラムである。
そのプログラムは、多数のテキストデータを蓄積するテキストデータベース内における分析対象となるテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手順と、選択された単語に対しての係り受け関係を抽出する係り受け抽出手順と、ツリー構造化手順によって形成されたグループおよび係り受け抽出手順によって抽出された係り受け関係を平面的にプロットする係り受けマッピング手順とを備えたコンピュータプログラムである。
【００２６】
【発明の実施の形態】
以下、本発明を実施の形態及び図面に基づいて、テキストデータ分析システム（以下、「本システム」と略記する場合あり）を更に詳しく説明する。ここで使用する図面は、図１から図１７である。図１から図３は、本願発明の実施形態に係るテキストデータ分析システムの主要機能を示す概念図である。図４から図１１は、出力画面に現れる構成を示した図である。図１２および図１３は、図８に用いるテキストデータの件数を表出力させたものである。図１４から図１７は、具体的な分析の結果について出力したものである。
本システムは、イントラネットサーバへ本願発明に係るコンピュータプログラムをインストールし、クライアントコンピュータにて利用可能としている。これにより、一つの組織において情報の共有を図ることができる。
【００２７】
（画面構成）
図４に示すように、メイン画面は、左側の「グループツリー」と右側の「分析画面」で構成されている。
「グループツリー」は、テキストをグループ化した階層状態を表示する。また、「分析画面」は、複数のタブが用意されており、各種の分析機能のページで構成されている。すべての分析機能は、「グループツリー」にて選択したグループに対して機能する。ここで「グループ」とは、テキストを各種の条件で分類したものであり、通常グループのほか、整理用グループ、ＥＴＣグループ、自動分類グループなどがある。後に詳述する。
図１は、テキストデータベースに蓄積されたテキストデータ群がツリー構造化手段によってグループ化および階層化され、選択対象分析手段において「主な話題」という機能を選択した場合に、どのような分析結果が出力されたかを図示すると共に、「係り受け」、「疑問」、「要望」について例示している。これらの分析には、形態素・構文解析の機能を用いているが、詳しい説明は省略する。
【００２８】
（分析機能の種類）
図４などに示されるように、「分析画面」に用意されたタブ、すなわち各種の分析機能には、本システムでは、以下のようなものが用意されている。すなわち、「単語ランキング」、「主な話題」、「特徴的な単語」、「マッピング」、「テキスト詳細」、「グループ属性」、「時系列モニタ」、「スコアリング」である。以下、簡単に説明する。
【００２９】
「単語ランキング」とは、多数のテキストの中で使用されている単語についての出現頻度順にランキングを作成する機能である。
「主な話題」とは、テキストの中から、数多く存在する２つの単語の組合せを主な話題として抽出する機能である。この機能を選択すると、自動的に「係り受け」の分析が行われる。
「特徴的な単語」とは、テキスト文章の中で、選択された所定のグループに固有な特徴的単語をランキング形式で表示する機能である。
「マッピング」とは、選択された所定のグループとそのグループに特徴的な単語の関係を二次元的な位置関係を用いて視覚的に表現する機能である。
「テキスト詳細」とは、選択された所定のグループに含まれる実際のテキスト文章を抽出してきて表示させる機能である。
「グループ属性」とは、選択された所定のグループ内のテキストに紐づけられる顧客属性やテキスト属性について分析表示する機能である。
「時系列モニタ」とは、選択された所定のグループに含まれるテキストの件数と、その時系列推移を分析表示する機能である。テキスト内に出現する上位単語の件数推移を分析表示させることもできる。
「スコアリング」とは、本システムのユーザが注目している単語を入力し、その単語について一回出現したら何点といったスコアを定義し、テキスト毎に点数付けを行わせる機能である。
なお、最右欄にある「レポート」とは、選択された所定のグループについて、各種のレポートを表計算出力形式にて出力可能であるように作成する機能である。これについては、図１０を用いて後述する。
【００３０】
（プロジェクト）
分析結果のデータを管理するため、「プロジェクト」というまとまりの概念を導入している。すなわち、分析対象となるテキスト群に対して、新規にプロジェクトファイルを作成してから分析作業に入る。新規にプロジェクトファイルを作成するには、プロジェクト名をつけ、分析対象となるテキストデータ群を指定し、テキストデータに関連した顧客データを指定する。
図２に示すように、プロジェクトを新たに作成すると、以下の３つのファイルが自動作成される。すなわち、テキストデータベースの中から分析対象となるテキストデータ群を抽出して作成したデータファイルと、ツリー構造化手段が形成するツリー構造を保存するためのプロジェクトツリーファイルと、選択対象分析手段が分析するための分析準備データ等を保存するためのデータ定義ファイルである。
なお、所定のプロジェクトの分析結果を引き継いで新たに分析したい場合などにおいては、既に作成されたプロジェクトを選択して呼び出した後に、プロジェクトファイル名を新たに決定して「別名保存」を行えばよい。辞書管理機能については、図１１を用いて後述する。
【００３１】
（データインポート）
既に形成されたプロジェクトファイルに対して、分析対象となるテキストデータ群を追加または変更したい場合がある。その場合、追加または変更したいテキストデータ群を指定して追加または変更させることが可能な「データインポート」というメニューを用意している。
データインポートとはどういう機能であるかを、図３を用いて説明する。
まず、テキストデータベース内の一部であるテキストデータ群（Ａ）を用いてデータ分析を行う。すなわち、プロジェクトファイル作成手段によってプロジェクトファイル（Ａ）を作成し、ツリー構造化手段によってグループ化、階層化し、選択対象分析手段によって分析結果（Ａ）を得たとする。そこで、テキストデータ群（Ｂ）が追加され、テキストデータ群（Ａ）および（Ｂ）を用いて新たに分析結果を得たいとする。
その場合、データインポート手段は、プロジェクトファイル作成手段、ツリー構造化手段、選択対象分析手段へと機能する。すなわち、プロジェクトファイル作成手段によってプロジェクトファイル（Ａ＋Ｂ）を作成し、ツリー構造化手段によってグループ化、階層化し、選択対象分析手段によって分析結果（Ａ＋Ｂ）を得るのである。
【００３２】
（グループツリー）
図４などに示されるように、メイン画面の左側にあるグループツリーとは、膨大なテキストデータの中から、形態素解析などの手法を用いて特定の条件に当てはまるテキストデータについてのグループを作成し、更に階層的なツリー構造でテキストを分類するために使用する。グループツリーからグループを選択することで、選択されたグループを対象にして各種の分析が可能となる。グループには、前述したように、通常グループ、整理用グループ、ＥＴＣグループ、自動分類グループという４種類がある。
【００３３】
「通常グループ」とは、テキストを抽出する条件を指定して作成するグループである。抽出する条件には、単語の有無（指定した単語がテキストに含まれているか否か）、係り受けによる条件、テキスト属性による条件、顧客属性による条件、時系列（テキストの記述された日付での抽出）、ユーザスコアによる条件、がある。
「整理用グループ」とは、親グループに含まれる全テキストを引き継いで作成するグループである。これは、種類の異なる分析をする場合に見出しとして整理する目的で使用する。
「ＥＴＣグループ」とは、選択されたグループ内のどの子グループにも含まれないテキストを抽出するグループである。主なグループを作成した後に、どれにも含まれない「ＥＴＣグループ」に入るテキストを抽出できるので、新たな話題や少数派の意見などを把握することができる。
「自動分類グループ」とは、類似しているテキストを単語の出現傾向から集めて自動的に作成するグループである。作成するグループ数を指定するだけで、テキストの類似性に関するグループが自動的に作成できる。
【００３４】
なお、グループについての再編集機能も備えている。操作メニューから「グループの再構築」を選択すると、最新の辞書内容（例えば、本システムのユーザが新たに登録した内容）を取り込んで形態素解析を再度実行し、各分析、全グループの内容を作成し直す。例えば、ユーザが同義語として辞書へ新たに登録したら、分析結果が大きく異なってくる場合がある。
【００３５】
（係り受け分析機能）
分析画面のタブから「主な話題」を選択すると、テキストにおける構文を分析し、単語間の係り受け関係を捉えることにより、何に対して何を行っているのかを把握する機能が自動的に働く。この機能を「係り受け分析機能」という。複数の意味を抽出したり、否定形の文章、疑問の文章、要望の文章といった表現までをふるい分けることが可能である。この「係り受け分析機能」は、図１に示すように、「主な話題」分析機能の中において、係り受けの有無を出力している。
「複数の意味の抽出」とは、「液晶は良いが、メモリが悪い。」という文章からは、「液晶」と「良い」、「メモリ」と「悪い」の二つの組合せを抽出可能である。
また、「商品Ａは、もっと軽くしたほうが良いと思うのですが。」という文章からは、「商品Ａ」と「軽い」の「要望」として抽出可能である。また、「商品Ａの価格は、一般モデルよりも安いですか？」という文章からは、「商品Ａ」と「安い」の「疑問」として抽出可能である。
【００３６】
（マッピング機能）
マッピング機能とは、任意の切り口であるグループと、単語の関連性とを視覚的に表現する機能であり、図４にその例を示している。マッピング機能による分析結果の出力、すなわち画面表現は、コレスポンデンス分析によって得た結果を平面的にプロットした表現である。ここで、「コレスポンデンス分析」とは、集計済みのクロス集計結果を用いて、単語の要素とグループの要素を使い、それらの相関関係が最大となるように数値化して、その単語の要素とグループの要素とを多次元空間（散布図）に表現するものである。複数の単語における類似度、関係の深さを把握する場合に適した統計的な手法である。具体的には、セグメントや商品と、テキスト中の単語の関連性とを把握することが可能である。また例えば、年代別にどのような反応の言葉となっているのか、商品毎に使われるキーワードは何か、といった分析や、ブランドのイメージ調査などに活用可能である。
【００３７】
マッピング機能を活用するには、以下のような手順を踏む。
まず、軸の設定を行う。関連性が高い順に、第一、第二、・・、第ｎ軸というように設定するが、一般的には視覚的にわかりやすい第一軸および第二軸を用いる。続いて、「上位単語」を選択し、マッピングする単語の件数および品詞を選択する。そして実行ボタンを押すと、軸に設定されたグループから、指定された単語ランキングの上位件数の単語として選択されているグループ名がマッピング表示される。
出力されたマップについて、ポインタをドラッグして範囲指定すると、指定された範囲についてズームアップしたマップが出力される。この機能は、「ズームイン」と名付けている。なお、出力画面を元（ズームアップ前のマップ）に戻すためには、操作メニューの中から「ズームアウト」を選択する。
【００３８】
（単語ランキング分析）
図５は、その画面右側において単語ランキング分析の機能に基づく出力がなされている。更に、右端には、ランキングをグラフ化して表している。
さて、単語ランキングに表示されている単語を選択してダブルクリックすると、その単語に関連する単語をリスト表示する。これを「関連度ランキングウィンドウ」という。関連度ランキングウィンドウは、選択された単語と同時に使用されることが多い単語（関連単語）をリスト表示するものであり、「関連度」とは同時に使用される頻度を数値化したものである。関連度ランキングウィンドウには、関連単語、その関連度、およびその関連単語を含む実際のテキスト件数が表示される。
【００３９】
関連度ランキングウィンドウに表示された関連単語のひとつを選択してダブルクリックすると、その関連単語を含んだ実際のテキストを表示させることができる。この機能を「ドリルダウン」と名付けている。
本システムのユーザからの「関連度の強い順に出力させたい」といった要求などに応じることができるようにするため、表計算の出力形式も出力可能としている。ユーザは表計算の出力形式を用いて、ソートさせればよい。
また、本システムのユーザが辞書を充実させるための機能も備えている。操作メニューから「ユーザ辞書に登録」を選択し、登録したい単語をユーザ単語として登録できる。
【００４０】
（特徴的な単語）
図６は、分析手段として「特徴的な単語」のタブを選択して分析した場合における分析画面の出力表示の一例である。コンピュータユーザからクレーム系のテキストデータを抽出している。
特徴的な単語のいずれかを選んでダブルクリックすると、図示は省略するが関連度ランキングウィンドウを表示することができる。更に、関連単語のひとつを選択してダブルクリックすると、その関連単語を含んだ実際のテキストを表示させることもできる（ドリルダウン機能）。
【００４１】
（グループ属性分析）
図７は、分析画面において「グループ属性分析」を選択して分析した出力表示の一例である。
「グループ属性分析」とは、選択されたグループの顧客属性、テキスト属性について分析することである。換言すれば、テキストデータ以外のデータと、テキスト中から抽出される所定の言葉とのクロス集計を行う機能である。グループの属性には、テキストの話者である顧客の属性（性別、年代、地域、購買履歴など）、アンケートであれば、他の設問の回答種別（興味がある、ややある、あまりない、全くない、など）といった属性がある。
グループ属性分析を用いれば、複数の話題別グループの間で、各種の属性を比較することが可能である。そして、顧客属性、アンケート回答の比較を行い、話題別に話者やアンケート回答の違いを把握することが可能である。すなわち、テキストデータに紐づけられた話者の属性を絡めて分析することで、「どういう人が何と言っているのか」ということを把握することができる。
【００４２】
このグループ属性分析を行うには、まずグループの顧客属性、テキスト属性についてグラフや表を用いた出力を行う。すなわち、選択メニューから、分析対象となる属性データを選択してグラフや表にて集計結果を表示させる。表示させることができる属性データの種類は、テキスト件数、テキスト属性、ユーザスコアがある。
属性データの欄で「テキスト件数」を選択すると、グループに含まれるテキスト件数が表示される。テキスト件数を表示させている際には、テキストの詳細について、前述した「ドリルダウン機能」は利用できない。
属性データの欄で「テキスト属性」を選択すると、テキストに対応する属性データが表示される。属性データがとびとびの値をなすデータ（性別、地域など）は離散データとして、属性データが数値をなすデータ（年齢、価格など）は連続データとして、それぞれ扱われる。
「ユーザスコア」をグラフの軸として選択すると、選択されたグループに含まれるテキストに対し、ユーザ定義スコアにて設定されている、選択されたスコア軸のスコアに基づいて、スコアリングした結果を連続データとして表示する。
【００４３】
（時系列モニタ）
図８は、「時系列モニタ」のタブを選択した場合における分析画面の出力表示の一例である。選択したグループに関するテキストデータの中から、コンピュータユーザによるクレーム系のテキストデータを抽出している。グラフ化される前のデータは、図１２や図１３に示されるようなデータである。時間経過とともに、ある切り口の分析結果の推移を視覚的に捉えたり、傾向の変化を捉えたりするのに便利である。
【００４４】
（ユーザ定義スコア）
図９には、その画面右側においてユーザ定義スコアの機能に基づく出力がなされている。
この機能は、テキストデータに対して、本システムのユーザによる任意の点数付けを行うための機能である。単語の出現情報を基に、「悪い」が含まれれば２点、「ひどい」が含まれれば３点、といったような採点表をユーザが自由に作成し、不満度、緊急度などの指標を作成することができる。点数の高い順に見ることで、効率的、且つ発見的な分析が可能となる。この指標は、他の分析機能でも利用可能であり、例えば不満度が１０以上のクレームを集めて新たにグループを作成したり、各商品別に不満度の平均を比較するといった分析にも活用可能である。
【００４５】
（レポート）
図１０は、「レポート」のタブを選択した後に、出力されるレポートを重ねて示し、レポート出力を概念的に表している。タブを選択すると、レポートの出力形式を設定でき、設定した出力形式にて選択すると、図中の右下のようなレポートが出力される。
【００４６】
（辞書管理機能）
図１１には、辞書管理機能についての出力画面を示している。
本システムに予め備えられた辞書は、標準にてシソーラスを組み込んである。例えば、「モーター」と「モータ」と「原動機」とは、同義語である。しかし、分析対象によっては、標準のシソーラスよりも重要な同義語が必要となる。そこで、プロジェクト単位でユーザ辞書を管理可能としている。
また、ユーザ辞書へ登録した単語を、メニューからの選択により表計算形式で出力させることも可能である。また本システムでは、「ユーザ単語登録」の機能も備えている。この機能は、下部のボックスに表示されているテキストの全文中の単語をユーザ単語として登録し、辞書登録するものである。単語を選択して右クリックメニューから「ユーザ辞書に登録」を選択すると選択された単語が、ユーザ単語として辞書登録される。
【００４７】
プロジェクト間で辞書登録データを引き継ぐことも可能である。辞書登録データを引き継ぐには、プロジェクトファイルの作成段階において、プロジェクト名につき「別名で保存」を選択する場合と、本画面において「他プロジェクトからのインポート」のボタンをクリックした後に、辞書登録データを引き継ぎたいプロジェクト名を選択する場合とがある。後者の場合、分析作業の途中で行えるというメリットがある。
【００４８】
（応用例）
本システムの分析対象を営業日報とする。たいていの営業日報は、営業マンが一人一人に入力しているが、他の営業マンや他の部署に役立つ情報の抽出が行いにくかった。曖昧な表現や親しい仲間内でしか通用しない表現が多いなどが原因であったと考えられる。そこで、営業日報を本システムによって分析するとともに、営業成績データとドッキングさせる。すると、他の営業マンや他の部署にも役立つ客観的な情報を抽出することができた。
【００４９】
（図１４）
図１４には、評価別のグループツリーと、年代別のグループツリーとが示されている。本システムは、アンケート結果がＣＳＶ形式で「評価」が７段階（非常に良い〜非常に悪い）で表示され、年齢も５歳刻み（２０代未満、２０〜２４歳、・・４０代以上）で６段階表示されており、自動的にグループツリーを作成することが可能である。
ただし、ＣＳＶ形式で電子化された以外の分類形式、例えば年齢を３歳ごとに表示させる場合には、グループツリーを自動作成することはできず、手動で作成することとなる。
【００５０】
（図１５）
図１５では、「話題の種類」を選択し、名詞と形容詞における係り受け関係を出力した様子を示している。ここでは、表示グループとして「非常によい」という評価をしたグループを選択表示させている。
図示例では、「香り」に対しては、「ほのかだ」という評価が２件存在したこととが、「香り」という単語を選択して係り受け関係を抽出したことによって確認できる。従来であれば、予め用意している「好き、普通、嫌い」といった評価を選択してもらうことによってデジタル化処理する手法か、「香り」という言葉を検索した後に前後をサーチャーが読むという機械化できない手法であったが、この分析手法によれば、まず、「非常に良い」と評価した人は、香りについてどのような評価をするのか、ということを抽出することができ、一歩踏み込んだ分析が行える。すなわち、アンケート対象者に対して自由な記載をしてもらっても、係り受け関係の抽出によって機械的に処理できる。
【００５１】
（図１６）
スコア化して頻度を数値化した形容詞を、評価グループごとに出力させた例を示す図である。
例えば、非常に悪いという評価グループでは、どのような形容詞が「非常に悪い」という評価と関係しているか、ということがおおまかに把握できるのである。具体的には、「赤い」、「痛い」、「強い」といった形容詞によって表現されるイメージが「非常に悪い」という評価と関係しているらしい、というように把握できる。また、「かなり良い」という評価をしたグループからは、「きれいだ」、「白い」といった形容詞によって表現されるイメージが「かなり良い」という評価と関係しているらしい、というように把握できる。
【００５２】
（図１７）
年代グループと「値段」という単語による係り受け関係をマッピングにて出力させた例を示す図である。
「値段」という言葉に着目してみても、高いまたは安い、といった正反対の評価や、手頃だ、といった中間的あるいは微妙な評価が存在しうる。また、年代によって「値段」に対する評価に傾向があると予想できる場合がある。そのような場合に、分析画面において「マッピング」を選択し、年代グループを指定し、更に「値段」という単語を選択して係り受け関係を抽出させると、図１７のような出力を得ることができる。図を見ると、値段に対して「手頃だ」、「安い」という評価をしているのは、３０〜３４歳のグループが多いということが分かる。また、値段に対して「高い」という評価をしているのは、２０代未満のグループが多く、２０〜２４歳のグループもそのように評価する傾向があるということが分かる。一方、３５〜３９歳、４０代以上といったグループは、「値段」に対するコメントがほとんど存在しなかった、ということも分かる。
【００５３】
【発明の効果】
請求項１から請求項５に記載の発明によれば、日本語テキストデータの内容に対して自動分析機能に優れたテキストデータ分析システムを提供することができた。
また、請求項６から請求項８に記載の発明によれば、日本語テキストデータの内容に対して自動分析機能に優れたテキストデータ分析方法を提供することができた。
さらに、請求項９から請求項１１に記載の発明によれば、日本語テキストデータの内容に対して自動分析機能に優れたテキストデータ分析方法をコンピュータに実行させるためのコンピュータプログラムを提供することができた。
【図面の簡単な説明】
【図１】本システムの主要機能を示す概念図である。
【図２】本システムの主要機能を示す概念図である。
【図３】本システムの主要機能を示す概念図である。
【図４】分析手段として「マッピング」のタブを選択して分析した場合における分析画面の出力表示の一例である。
【図５】分析画面において「単語ランキング」を選択して分析した出力表示の一例である。
【図６】分析手段として「特徴的な単語」のタブを選択して分析した場合における分析画面の出力表示の一例である。
【図７】分析画面において「グループ属性分析」を選択して分析した出力表示の一例である。
【図８】分析画面において「時系列モニタ」のタブを選択した場合における分析画面の出力表示の一例である。
【図９】画面右側においてユーザ定義スコアの機能に基づく出力表示の一例である。
【図１０】レポートのタブを選択した後に、出力されるレポートを重ねて示し、レポート出力を概念的に表している。
【図１１】辞書管理機能についての出力画面を示している。
【図１２】コンピュータユーザからクレーム系のテキストデータの件数を表出力させたものである。
【図１３】コンピュータユーザからクレーム系のテキストデータの件数およびその細目を表出力させたものである。
【図１４】ツリー構造の作成について説明するための図である。
【図１５】分析手段として「特徴的な単語」による係り受け関係を出力した例を示す図である。
【図１６】頻度の高い形容詞を評価グループごとに出力させた例を示す図である。
【図１７】年代グループと「値段」という単語による係り受け関係をマッピングにて出力させた例を示す図である。

Claims

多数のテキストデータを分析するためのシステムであって、
多数のテキストデータを蓄積するテキストデータベース内における分析対象となるテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手段と、
ツリー構造として表示されたグループまたは各グループの階層の中から選択された対象を分析する選択対象分析手段と、
その選択対象分析手段が分析した分析結果をツリー構造とともに出力する出力手段とを備え、
選択対象分析手段には、単語間の係り受け関係を抽出する構文分析手段を備えたテキストデータ分析システム。
分析テーマに基づいたプロジェクトファイルを形成するプロジェクトファイル作成手段を備えた請求項１に記載のテキストデータ分析システム。
既に形成されたプロジェクトファイルに対して、分析対象となるテキストデータ群を追加または変更したい場合に、追加または変更したいテキストデータ群を指定して追加または変更させるデータインポート手段を備えた請求項２に記載のテキストデータ分析システム。
選択対象分析手段には、ツリー構造化手段によって形成されたグループと選択された単語との関連性を平面的にプロットするマッピング手段を備えた請求項１から請求項３のいずれかに記載のテキストデータ分析システム。
選択された単語に対しての係り受け関係を抽出する係り受け抽出手段を備え、マッピング手段は、前記係り受け抽出手段によって抽出された係り受け関係を平面的にプロットすることとした請求項４記載のテキストデータ分析システム。
多数のテキストデータを蓄積するテキストデータベース内における分析対象となるテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手順と、
ツリー構造として表示されたグループまたは各グループの階層の中から選択された対象を分析する選択対象分析手順と、
その選択対象分析手順にて分析した分析結果をツリー構造とともに出力する出力手順とを備え、
選択対象分析手順には、単語間の係り受け関係を抽出する構文分析手順を含むこととしたテキストデータ分析方法。
分析テーマに基づいたプロジェクトファイルを形成するプロジェクトファイル作成手順と、
そのプロジェクトファイル作成手順によって形成されたプロジェクトファイルに基づいたテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手順と、
ツリー構造として表示されたグループまたは各グループの階層の中から選択された対象を分析する選択対象分析手順と、
その選択対象分析手順にて分析した分析結果をツリー構造とともに出力する出力手順とを備え、
選択対象分析手順には、単語間の係り受け関係を抽出する構文分析手順を含むこととしたテキストデータ分析方法。
多数のテキストデータを蓄積するテキストデータベース内における分析対象となるテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手順と、
選択された単語に対しての係り受け関係を抽出する係り受け抽出手順と、
ツリー構造化手順によって形成されたグループおよび係り受け抽出手順によって抽出された係り受け関係を平面的にプロットする係り受けマッピング手順とを備えたテキストデータ分析方法。
コンピュータに対し、多数のテキストデータを分析させるためのプログラムであって、
そのプログラムは、多数のテキストデータを蓄積するテキストデータベース内における分析対象となるテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手順と、
ツリー構造として表示されたグループまたは各グループの階層の中から選択された対象を分析する選択対象分析手順と、
その選択対象分析手順にて分析した分析結果をツリー構造とともに出力する出力手順とを備え、
選択対象分析手順には、単語間の係り受け関係を抽出する構文分析手順を含むこととしたコンピュータプログラム。
コンピュータに対し、多数のテキストデータを分析させるためのプログラムであって、
そのプログラムは、分析テーマに基づいたプロジェクトファイルを形成するプロジェクトファイル作成手順と、
そのプロジェクトファイル作成手順によって形成されたプロジェクトファイルに基づいたテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手順と、
ツリー構造として表示されたグループまたは各グループの階層の中から選択された対象を分析する選択対象分析手順と、
その選択対象分析手順にて分析した分析結果をツリー構造とともに出力する出力手順とを備え、
選択対象分析手順には、単語間の係り受け関係を抽出する構文分析手順を含むこととしたコンピュータプログラム。
コンピュータに対し、多数のテキストデータを分析させるためのプログラムであって、
そのプログラムは、多数のテキストデータを蓄積するテキストデータベース内における分析対象となるテキストデータをグループ化し、且つ階層化して表示可能であるようにツリー構造を形成するツリー構造化手順と、
選択された単語に対しての係り受け関係を抽出する係り受け抽出手順と、
ツリー構造化手順によって形成されたグループおよび係り受け抽出手順によって抽出された係り受け関係を平面的にプロットする係り受けマッピング手順とを備えたコンピュータプログラム。