JP2013190988A - 文書分析装置および文書分析プログラム - Google Patents

文書分析装置および文書分析プログラム Download PDF

Info

Publication number
JP2013190988A
JP2013190988A JP2012056518A JP2012056518A JP2013190988A JP 2013190988 A JP2013190988 A JP 2013190988A JP 2012056518 A JP2012056518 A JP 2012056518A JP 2012056518 A JP2012056518 A JP 2012056518A JP 2013190988 A JP2013190988 A JP 2013190988A
Authority
JP
Japan
Prior art keywords
category
word
document
factor
categories
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012056518A
Other languages
English (en)
Other versions
JP5450699B2 (ja
Inventor
Yasunari Miyabe
泰成 宮部
Shigeru Matsumoto
茂 松本
Kazuyuki Goto
和之 後藤
Hideki Iwasaki
秀樹 岩崎
Mikito Kobayashi
幹門 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2012056518A priority Critical patent/JP5450699B2/ja
Publication of JP2013190988A publication Critical patent/JP2013190988A/ja
Application granted granted Critical
Publication of JP5450699B2 publication Critical patent/JP5450699B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】
カテゴリの順位関係に基づいて、順位の上昇もしくは下降の原因となる単語を抽出する文書分析装置およびプログラムを提供する。
【解決手段】
実施形態の文書分析装置は、文書データを記憶する文書記憶部と、文書データを分類する順位付きの複数のカテゴリおよびカテゴリの階層構造を記憶するカテゴリ記憶部と、複数のカテゴリのうちの1つのカテゴリにおいて、当該カテゴリに分類される文書データに含まれる単語群から、当該カテゴリにおける単語の出現頻度が、当該カテゴリと同じ階層にある他のカテゴリにおける当該単語の出現頻度よりも多く、かつ、前記他のカテゴリにおける当該単語の出現頻度が当該カテゴリから順位が遠くなるに従って減少する単語を抽出する要因語抽出部と、を備える。
【選択図】 図2

Description

本発明の実施形態は、文書分析装置および文書分析プログラムに関する
近年の情報システムの高度化に伴い、特許文献や新聞記事、ウェブページ、書籍といった文書を大量に記録し蓄積することが可能になっている。ここで、これらの蓄積された文書群を分類・分析して日々の業務などに有効活用していくための技術が求められている。例えば、過去の膨大な量の新聞記事をカテゴリ別に分類して、多くの人が利用しやすいように整理する、あるいは、現在に研究開発をしている技術に関係のある自他社の特許群の傾向を分析し、新しい研究開発分野を発見する、などである。
このように、大量の文書を分類したカテゴリにおいて、カテゴリ内の文書内容を把握するために、カテゴリの特徴を知りたいというニーズがある。
カテゴリの特徴を調べる技術として、例えば、文書集合間の違いを表す特徴語を統計的に抽出する方法がある。
しかしながら、この方法はカテゴリにつけられた順位を考慮して抽出していない。例えば、自動車の不具合情報において、不具合の危険度順に「極めて危険」、「やや危険」、「危険」、「安全」と順位付けされたカテゴリに分類された文書集合がある。このとき、危険度1位のカテゴリが「極めて危険」であり、危険度2位のカテゴリが「やや危険」であり、危険度3位のカテゴリが「危険」であり、危険度4位のカテゴリが「安全」であるとする。
このとき文書データが「危険」という順位のカテゴリに分類された要因、すなわち文書データに「危険」という順位が付与された要因を知りたいとき、上記のように統計的な方法では、必ずしも順位付けの要因となる単語を抽出できるとは限らないという問題がある。
例えば、上述した自動車の不具合情報において、不具合の危険度別に「極めて危険」、「危険」、「安全」という順位付きカテゴリに分類された文書集合において、「極めて危険」カテゴリに分類された要因が、「燃料」、「漏れ」や「タイヤ」、「脱落」といった単語にあるとき、上記のような統計的な方法でカテゴリの特徴語を抽出すると、「ポンプ」、「パイプ」のような、カテゴリ内で出現回数が多い単語が抽出され、「極めて危険」とはいえない単語が抽出されることがある。
特開2007−265068号公報 特開2007−241905号公報
本発明が解決しようとする課題は、カテゴリの順位の上昇もしくは下降の要因となる単語を抽出する文書分析装置およびプログラムを提供することである。
実施形態の文書分析装置は、文書データを記憶する文書記憶部と、文書データを分類する順位付きの複数のカテゴリおよびカテゴリの階層構造を記憶するカテゴリ記憶部と、複数のカテゴリのうちの1つのカテゴリにおいて、当該カテゴリに分類される文書データに含まれる単語群から、当該カテゴリにおける単語の出現頻度が当該カテゴリと同じ階層にある他のカテゴリにおける当該単語の出現頻度よりも多く、かつ、前記他のカテゴリにおける当該単語の出現頻度が当該カテゴリから順位が遠くなるに従って減少する単語を抽出する要因語抽出部と、を備える。
実施形態に係る文書分析装置のハードウェア構成を示すブロック図。 実施形態に係る文書分析装置の機能構成を示すブロック図。 実施形態に係る文書分析装置の文書記憶部に記憶される文書データの一例を示すブロック図。 実施形態に係る文書分析装置の分類結果記憶部に記憶されるカテゴリの一例を示すブロック図。 実施形態に係る文書分析装置の動作の一例を示すフローチャート。 実施形態に係る文書分析装置の分類結果の表示例を示す図。 実施形態に係る文書分析装置の順位付きカテゴリの集合を入力するときの表示例を示す図。 実施形態に係る文書分析装置の要因語抽出部の処理の一例を示すフローチャート。 実施形態に係る文書分析装置の要因語抽出部が要因語抽出処理の概念図。 実施形態に係る文書分析装置の要因語抽出部の要因語抽出処理の概念図。 実施形態に係る文書分析装置の要因語抽出部の抽出結果例を示す図。 実施形態に係る文書分析装置の複合要因語抽出部の処理の一例を示すフローチャート。 実施形態に係る文書分析装置の複合要因語抽出部の処理の一例を示すフローチャート。 実施形態に係る文書分析装置の複合要因語抽出部の抽出結果例を示す図。 実施形態に係る文書分析装置の要因カテゴリ生成部の処理の一例を示すフローチャート。 実施形態に係る文書分析装置の要因カテゴリ生成部の処理結果の一例を示す図。 実施形態に係る文書分析装置の2軸マップ可視化部の処理の一例を示すフローチャート。 実施形態に係る文書分析装置の2軸マップ可視化部の処理の結果の表示例を示す図。
(第1の実施形態)
以下、実施形態の文書分析装置について図1乃至図18を参照して説明する。なお、以下の装置は、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を実現させるためのプログラムが用いられる。
図1は、本実施形態に係る文書分析装置10の構成を示す模式図である。この計算機10は、主記憶装置11、キーボード12、マウス13、中央演算装置14およびディスプレイ装置15を備えている。なお、文書分析装置10は例えば、本実施形態に係る文書分析プログラムが適用された計算機によって実現される。
記憶装置11は、中央演算装置14から読出/書込み可能な記憶装置であり、例えばRAMである。記憶装置11は、あらかじめ本実施形態の文書分析プログラムが記憶されている。
キーボード12およびマウス13は、通常の入力装置であり、例えば、操作者の操作により、データ又は命令からなる各種情報を中央演算装置15に入力する。
中央演算装置14は、通常のCPUであり、例えば、記憶装置11に記憶された文書分析プログラムを実行する機能と、キーボード12又はマウス13から入力される情報に基づいて各プログラムの実行を制御する機能と、実行結果等をディスプレイ装置15に出力する機能をもつ。
ディスプレイ装置15は、通常の表示装置であり、例えば、編集中の各アーキテクチャモデルやフィーチャモデル等を表示して可視化し、他にも中央演算装置14から出力された情報を表示する機能をもっている。
図2を参照して、以上のように構成された文書分析装置10の機能構成について説明する。
文書分析装置10は、文書記憶部1、分類結果記憶部2、ユーザインタフェース部3、および要因生成部4を備える。
文書記憶部1は、文書分析装置10が分析の対象とする複数の文書のデータ(以下、文書データという)を記憶する。本実施形態では、文書記憶部1に記憶された文書データは、自動車の不具合情報に関する文書データであり、階層構造で構成された複数のカテゴリによって分類されている。
ここで、図3を参照して、文書記憶部1に記憶される文書データの一例について説明する。文書記憶部1に記憶される文書データ20は、自動車の不具合情報を報告する文書データであり、文書番号21、タイトル22、本文23、不具合の危険度24、開発社25、および購入日26を項目としてもち、各項目に対応した文書データの内容が記憶されている。
文書番号21はこの文書データ固有のIDを示す。タイトル22は、文書データ20のタイトルである。本文23は、文書データ20の本文である。不具合の危険度24は、この文書データが報告する不具合情報の危険度を示す。開発社25は不具合が起きた自動車の開発社であり、購入日26不具合が起きた自動車が購入された日である。
なお、文書データ20の項目名は上記の項目名すべてでなくてもよいし、他の項目名を追加してもよい。また、ここでは一例として文書データを1つ示したが、文書記憶部1には複数の文書データが記憶されていてよい。
分類結果記憶部2は、文書記憶部1に記憶された文書データにおけるカテゴリと、このカテゴリの階層構造とを記憶する。本実施形態では、分類結果記憶部2に記憶されたカテゴリはあらかじめ作成され、文書データが分類されているとする。なお、カテゴリの作成は、文書データをクラスタリングすることによって作成してもよい。
図4を参照して、分類結果記憶部2に記憶されるカテゴリとこのカテゴリの階層構造とについて説明する。この図4に示すカテゴリ(a)〜(f)は、カテゴリ番号301、親カテゴリ302、カテゴリ名303、文書304を項目として備える。
カテゴリ番号301は、文書分析装置10がカテゴリを特定するためのユニークなデータを格納する。
親カテゴリ302は、このカテゴリの親カテゴリを示すデータを格納する。すなわち、親カテゴリ302は、当該カテゴリの親カテゴリのカテゴリ番号である。例えば、カテゴリ(a)の親カテゴリは、カテゴリ(a)がカテゴリ(a)〜(f)における階層構造の最上位(ルート)に位置するため「(なし)」となる。
また、カテゴリ(b)(カテゴリ番号「c02」)の親カテゴリ302はカテゴリ番号「c01」のカテゴリ(カテゴリ(a))である。すなわち、カテゴリ(a)の子カテゴリの1つが、カテゴリ(b)であるといえる。カテゴリ(c)〜(f)についても同様に親カテゴリ302が設定されている。
以下、本実施形態では、あるカテゴリの直接の親に位置するカテゴリを親カテゴリ、直接の子に位置するカテゴリを子カテゴリと呼ぶ。あるカテゴリの直接または間接の親に位置するカテゴリを、総じて上位カテゴリと呼び、あるカテゴリの直接または間接の子(子孫)に位置するカテゴリを、総じて下位カテゴリと呼ぶ。
カテゴリ名303は、各カテゴリがその内容をユーザに示すための名称を格納する。
文書304は、当該カテゴリに含まれる文書データに文書番号を格納する。複数の文書がカテゴリに属する場合は文書番号のデータを複数列挙する。
なお、カテゴリ(c)に示すように、当該カテゴリに分類される文書が満たすべき条件305を設定し、この条件305に格納された条件を満たす文書データのみを文書304に列挙してもよい。また、カテゴリ(a)、カテゴリ(b)、カテゴリ(d)は、文書304に格納されている文書データは「なし」であり、すなわち各カテゴリに属する文書は「(なし)」となっている。これは、当該カテゴリに直接分類されている文書がないという意味であり、下位カテゴリを介して間接的に分類されている文書は存在し得る。例えばカテゴリ(a)の間接的に分類されている文書は、カテゴリ(a)の全ての下位カテゴリに分類されている文書の和集合となる。
ユーザインタフェース部3は、カテゴリ表示操作部31、2軸マップ可視化部32を備え、ユーザの入力情報や指示情報を受け付ける。
カテゴリ表示操作部31は、分類結果記憶部2に記憶されているカテゴリおよびその階層構造をユーザに示す画面(以下、カテゴリ表示画面という)を表示する。また、カテゴリ表示操作部31は、表示したカテゴリ表示画面に対するユーザの操作を受け付ける入力部としての機能も有する。カテゴリ表示画面については後述する。
2軸マップ可視化部32は、ユーザが、カテゴリ表示操作部31を用いて入力したカテゴリの子カテゴリである順位付きカテゴリ全てを第1の分類軸とし、後述する要因語抽出部41と複合要因語抽出部42の抽出結果に基づいて、要因カテゴリ生成部43によって分類された各カテゴリを第2の分類軸とし、それぞれの各カテゴリがクロスした文書数の集計結果を、2軸マップ上に表示する。
続いて要因生成部4について説明する。要因生成部4は、要因語抽出部41、複合要因語抽出部42、要因カテゴリ生成部43を備える。
要因語抽出部41は、カテゴリ表示操作部31によってユーザがカテゴリを入力すると、入力されたカテゴリに属する子カテゴリである順位付きカテゴリにおいて、カテゴリの順位の上昇・下降の原因となる単語群(第1の単語群)を抽出する。
複合要因語抽出部42は、要因語抽出部41によって抽出された第1の単語群において、第1の単語群に含まれる単語を組み合わせた場合に、カテゴリの順位の上昇・下降の原因となる単語の組み合わせを抽出する。
さらに、複合要因語抽出部42は、要因語抽出部41によって抽出されなかった単語群(第2の単語群)についても同様に、第2の単語群に含まれる単語を組み合わせた場合に、カテゴリの順位の上昇・下降の原因となる単語の組み合わせを抽出する。
要因カテゴリ生成部43は、要因語抽出部41と複合要因語抽出部42とによって抽出された単語および単語の組み合わせに基づいて新規カテゴリを作成し、分類結果記憶部2に記憶する。この新規カテゴリには、当該単語および単語の組み合わせを含んだ文書データが分類される。
文書記憶部1および分類結果記憶部2は、計算機の記憶手段である、ファイルシステムやデータベースなどを用いて実現する。ユーザインタフェース部3は、キーボード12、マウス13、およびディスプレイ15によって実現される。要因生成部430は記憶装置11に記憶されたプログラムを中央演算装置14が実行することによって実現される。
以下、図3に示す文書記憶部1に記憶された自動車の不具合情報に関する文書データであって、不具合の危険度順に「極めて危険」、「やや危険」、「危険」、「安全」という順位付きカテゴリ毎に文書データが複数格納されている場合であって、ユーザは、文書データが「危険」という順位付きカテゴリに分類された要因、すなわち危険度付与の要因を知りたい場合に、「危険」という順位付きカテゴリに属する文書データに含まれる単語から当該カテゴリに分類された要因を示す単語(以下、要因語という)を抽出する文書分析装置10の動作の一例について図5乃至図18を参照して説明する。
図5は、文書分析装置10の動作の一例を示すフローチャートである。
まず、ユーザインタフェース部3にカテゴリ表示画面が表示される(ステップS401)。
図6にステップS401で表示されるカテゴリ表示画面の一例を示す。図6に示すカテゴリ表示画面50は、当該画面左部501にカテゴリの階層構造が表示され、そのうちの1つのカテゴリを選択すると、当該画面右上部502に選択したカテゴリに属する文書のタイトル一覧が表示される。更に、一覧表示されたタイトルのうちの1つを選択すると、画面右下部503に文2書データの本文が表示される。図6では、ユーザが文書データを確認したいカテゴリとして、ドットで表示された「極めて危険」カテゴリが選択され、画面右上部502に「極めて危険」カテゴリに属する文書データのタイトル一覧が表示されている。また、画面右上部502に表示された「極めて危険」カテゴリに属する文書データのうち、ドットで表示された「燃料漏れ」が選択され、「燃料漏れ」の文書データの本文が、画面右下部503に表示されている。
続いて、ユーザがカテゴリ表示操作部31を介して、カテゴリ表示画面50の画面左部501に表示された親カテゴリのうち、当該親カテゴリに属する順位付きカテゴリの順位付けの要因を分析する(要因語を抽出する)対象の親カテゴリを入力する(ステップS402)。
図7に、ステップS402において入力される親カテゴリを入力する際のカテゴリ表示画面50の一例を示す。図7に示すように、ステップS402でユーザはユーザインタフェース部3を用いて、要因語抽出対象の親カテゴリとして「不具合の危険度別」カテゴリ601を選択する。その後、「選択したカテゴリ直下の各カテゴリの要因を抽出しますか?」というメッセージが表示されたメッセージ画面602が表示されると、ユーザは「YES」ボタン603を押下し後述する要因語抽出処理が実行される。なお、「NO」ボタン604を押下した場合、処理は終了する(図示しない)。
親カテゴリが入力されると、要因生成部4が要因生成処理を行う(ステップS403とステップS404)。要因生成処理は、分析対象の親カテゴリの直下に属する各順位付きカテゴリにおける順位の上昇もしくは下降の要因となる単語単体を抽出する要因語抽出処理と、各順位付きカテゴリにおける順位の上昇もしくは下降の要因となる単語の組み合わせを抽出する複合要因語抽出処理とを行なう。
図8および図9を参照して、ステップS403において要因語抽出部41が行なう要因語抽出処理について説明する。なお、ここでは、図6の「不具合の危険度別」カテゴリについて要因語抽出処理を行う場合について説明する。
まず、要因語抽出部41は、要因語抽出処理における抽出結果のリストであるlist1を初期化する(ステップS1101)。順位付きの各カテゴリCiについて(ステップS1102)、カテゴリCiの全ての文書内の各単語tについて繰り返し(ステップS1103)、tのCiにおける出現頻度が、統計的に有意に大きいか否かを判定する(ステップS1104)。
統計的に有意に大きいか否かの判定は、例えば、χ二乗検定で有意か否かを判定する。この場合のχ二乗検定によれば、χ二乗統計量(χ)が、自由度2の有意水準5%のχ二乗分布(3.84)や自由度2の有意水準1%のχ二乗分布(6.63)よりも小さい場合には統計的に有意となる。一方、χ二乗統計量(χ)が、自由度2の有意水準5%のχ二乗分布(3.84)や自由度2の有意水準1%のχ二乗分布(6.63)よりも大きい場合には統計的に有意とならない。なお、χ二乗統計量(χ)は、図9に示す式(1)により算出される。
式(1)において、x11は、カテゴリCiにおける単語tが出現する文書の数である。a1は、全ての文書における単語tが出現する文書の数である。b1は、カテゴリCiの文書の数である。nは、全ての文書の数である。また、x12はa1−x11であり、x21はb1−x11であり、x22はn−a1−x21である。
このχ二乗検定により、有意であると判定されなければ(ステップS1104がNo)、他の単語について繰り返しを行う。有意と判定されれば(ステップS1104がYes)、単語tのスコアであるscore(Ci,t)を求め、list1にtとそのスコアを代入する(ステップS1105)。score(Ci,t)については後述する。なお、score(Ci,t))は、図9の式(2)により算出される。ただし、順位付きカテゴリは、(C1,C2,…Ci,…,Cm)とする。
式(2)において、df(Ci,t)は、カテゴリCiにおける単語tが出現する文書数とし、Dは全文書集合とする。flag(i,j)は、i<jのとき−1を、i>jのとき+1を取る関数(変数)とする。
ここで、図9に示す式(2)の考え方について説明する。順位付きの各カテゴリで、要因となる単語は、そのカテゴリでの単語の出現頻度が多く、そのカテゴリから順位が上昇・下降する(順位が遠くなる)に従って出現頻度が減少していくような単語とし、そのような考えに基づいて、上記の式(2)を定義する。
まず、式(2)のdf(Ci,t)/df(D,t)で、単語tのカテゴリCiでの出現頻度を求める。そして、df(Cj+1,t)−df(Cj,t)で隣り合ったカテゴリの出現頻度の減少具合を計算し、その減少具合が、要因となるカテゴリの近くの順位のカテゴリでの重みを大きくするように、log(m−|j+1−i|)をかける。flag(i,j)は、要因となるカテゴリより手前の順位に関しては、出現頻度が上昇しているときにスコアを加点するために+1を、要因となるカテゴリより後の順位に関しては、出現頻度が下降しているときにスコアを加点するために−1を用いる。
図10に、親カテゴリ「不具合の危険度別」に属する全ての文書データに含まれる単語と、各単語のステップS402で入力されたカテゴリの子カテゴリごとの出現頻度の一例を示す。図10に示す表の縦方向の項目が文書データに含まれる単語であり、横方向の項目がステップS402で入力されたカテゴリの子カテゴリである。
図10に示すように、「シートベルト」は、「やや危険」カテゴリで出現頻度が39で他の順位付きカテゴリより頻度が多い。更に、「やや危険」カテゴリと「極めて危険」カテゴリでは、頻度の減少具合が、39から14に減っており、「やや危険」カテゴリから「危険」カテゴリへの減少具合も、39から12、「危険」カテゴリから「極めて危険」カテゴリへの減少具合も12から5という結果であり、単語「シートベルト」は、「やや危険」カテゴリでの単語の出現頻度が多く、「やや危険」カテゴリから順位が離れるに従って出現頻度が減少していくような単語である。
しかしながら、単語「燃料」は、「やや危険」カテゴリでの出現頻度が、他の順位付きカテゴリの出現頻度と比べて一番多いが、「やや危険」カテゴリから「極めて危険」カテゴリへの減少具合は32から14で、「やや危険」カテゴリから「危険」カテゴリへの減少具合は32から26で、「危険」カテゴリから「極めて危険」カテゴリへは、26から28と増加している。すなわち、単語「シートベルト」と比べ、単語「燃料」は減少具合が少ないため、「やや危険」カテゴリのスコアが低くなり易く、要因として抽出され難い。
なお、本実施形態では、式(2)を例としてあげたが、式(2)だけに限らなくても良く、要因となる単語は、そのカテゴリでの単語の出現頻度が多く、更にそのカテゴリから順位が離れるに従って出現頻度が減少していくような単語とする考え方に基づいていればよい。例えば、df(D,t)で割る計算を実行しなくてもよいし、log(m−|j+1−i|)のlogを除いてもよい。
全ての単語の繰り返しの終了後(ステップS1103の繰り返し終了)、カテゴリCiにおけるlist1(Ci)をscore(Ci,t)順でソートし、上位K個(ユーザが任意に指定、ここでは3個とする)の単語を抽出し、list1(Ci)に残す(ステップS1106)。すなわち、上位K個の単語以外を削除する。
全てのCiについて繰り返し終了後(ステップS1102の繰り返し終了)、要因語抽出部41はlist1を複合要因語抽出部42に出力する(ステップS1107)。これにより、要因語抽出処理が終了する。
図11にステップS1107で出力されるlist1の一例を示す。図11に示すように、list1には「極めて危険」カテゴリでは、要因語として「タイヤ」、「脱落」、「アクセル」が抽出されている。「危険」カテゴリでは「ホース」、「ハブ」、「ハンドル」が抽出されている。「やや危険」カテゴリでは「シートベルト」、「表示灯」が抽出されている。「安全」カテゴリでは、「冷房」、「スピーカー」、「効かない」が抽出されている。このようにそれぞれの順位付きカテゴリにおける要因として、単体の単語が抽出されている。
図5の説明に戻る。ステップS403において要因生成部41による要因語生成処理が終了すると、複合要因語抽出部42が複合要因語抽出処理を行う(ステップS404)。
図12および図13を参照して、図5のステップ404において複合要因語抽出部42によって実行される複合要因語抽出処理の一例について説明する。
複合要因語抽出処理はステップS403で抽出された単語のうち、単語を組み合わせた場合に、カテゴリの順位の上昇・下降の原因となる単語の組み合わせを抽出する。更に、前記要因語抽出部41によって抽出されなかった単語集合についても、同様に単語を組み合わせた場合に、カテゴリの順位の上昇・下降の原因となる単語の組み合わせを抽出する。
まず、複合要因語抽出部42は、複合要因語抽出処理における抽出結果のリストであるlist2を初期化する(ステップS1301)。続いて、順位付きの各カテゴリCiについて繰り返し(ステップS1302)、ステップS1303〜ステップS1318の処理を行う。
複合要因語抽出部42は、ステップS1302において順位付きの各カテゴリから1つのカテゴリを選択すると、単語の組み合わせを数える変数conbCntの初期値に2を、組み合わせ対象の単語の集合を表すtermSetに要因語抽出部41の出力値(複合要因語抽出部42の入力値)を、組み合わせた単語の集合を保持する変数termConbの初期値nullを、それぞれ代入する(ステップS1303)。そして、termSetの各単語に対して、conbCnt個組み合わせる(ステップS1304)。
ここで、ステップS1304で組み合わせる単語は、カテゴリCiでその単語が出現する文書数(以下、出現文書数という)が所定の閾値以上の単語に限定する。そうすることで組み合わせの処理速度を効率化する。
例えば、出現文書数の閾値が3で、conbCnt=2で、termSetが単語A、単語B、単語C、単語Dとする。単語A、単語B、単語C、単語D、それぞれの単語を含んだカテゴリCiでの出現文書数が、それぞれ3、4、2、4のとき、単語Cはある一定の値よりも少ないので、単語Cを含んだ組み合わせは対象とせず、「単語Aと単語B」、「単語Aと単語D」、「単語Bと単語D」がtermConbになる。
また、conbCnt=3のときも同様に、termSetが「単語Aと単語B」、「単語Aと単語D」、「単語Bと単語D」となり、termConbは「単語Aと単語Bと単語D」が考えられる。ここで、それぞれの単語を含んだカテゴリCiでの出現文書数がそれぞれ、2、3、4のとき、「単語Aと単語B」は満たしていない。よって、「単語Aと単語B」を含んだ、組み合わせ、即ち「単語Aと単語Bと単語D」は組み合わせ対象とならない。なお、このような組み合わせの考えを、アプリオリアルゴリズムという。
アプリオリアルゴリズムの考え方によって、ステップS1304で抽出したtermConbがnullでなければ(ステップS1305)、termConbの各単語tで繰り返し(ステップS1306)、単語tを含んだCiにおける出現文書数が統計的に有意に大きいか否かを判定する(ステップS1307)。この有意に大きいかの判定は、図8のステップS1104の方法と同様である。
単語tを含んだCiにおける出現文書数が統計的に有意に大きい場合(ステップS1307がYes)、複合要因語抽出部42はscore(Ci,t)を求め、list2にtとそのスコアとを代入する(ステップS1308)。
単語tを含んだCiにおける出現文書数が統計的に有意に大きくない場合(ステップS1307がNo)、ステップS1306に戻り、他の単語tで処理を繰り返す。なお、ここでのscore(Ci,t)の算出は、図8のS1105と同様の方法で行なう。
全ての単語の繰り返しの終了後(ステップS1306の繰り返し終了)、複合要因語抽出部42は、conbCntを1つ増やし、termSetにtermConbを代入する(ステップS1309)。その後、複合要因語抽出部42は、ステップS1304〜S1309の処理をS1305でtermConbがnullと判定されるまで繰り返す。
termConbがnullと判定された後(ステップS1305がNo)、複合要因語抽出部42は、当該カテゴリCiにおけるlist2(Ci)をscore(Ci,t)順でソートし、上位K個の単語ペア(ここでは2個)を抽出し、抽出した単語ペアをlist2(Ci)に入れ、抽出されなかった単語のみ、単体の要因語として、list(Ci)に残す(ステップS1310)。すなわち、複合要因語抽出処理で単語の組み合わせが抽出された場合、これらの単語を要因語抽出処理の結果、出力されるlist1から削除する。なお、上位K個分の単語ペアが抽出されない場合、抽出された全ての単語ペアlist2(Ci)に入れる。
以上のステップS1301〜S1310の処理によって、要因語抽出部41で抽出した単体の単語を組み合わせた場合にカテゴリの順位の上昇・下降の原因となる単語を抽出する。続くステップS1311〜ステップS1318の処理が、要因語抽出部41で抽出されなかった単語を対象に、それらを組み合わせた場合に、カテゴリの順位の上昇・下降の要因となる単語の組み合わせを抽出する処理である。
まず、複合要因語抽出部42は単語の組み合わせを数える変数conbCntの初期値に2を、出力するlist3にnullを、組み合わせ対象の単語の集合を表すtermSetにCiの全ての単語のうち、要因語抽出部41の出力されなかった単語、すなわち複合要因語抽出部42に入力されなかった単語を、組み合わせた単語の集合を保持する変数termConbの初期値にnullを代入する(ステップS1311)。
そして、以降のステップS1312〜ステップS1316では、S1304〜S1308と同様の方法で行う。
すなわち、複合要因語抽出部42は、termSetの各単語に対して、アプリオリアルゴリズムの考え方により、単語をconbCnt個組み合わせる(ステップS1312)。そして、アプリオリアルゴリズムの考え方によって抽出したtermConbに対し値があれば(ステップS1313がYes)、termConbの各単語tで繰り返し(ステップS1314)、単語tを含んだCiにおける出現文書数が統計的に有意に大きいか判定する(ステップS1315)。
単語tを含んだCiにおける出現文書数が統計的に有意に大きい場合(ステップS1315がYes)、複合要因語抽出部42はscore(Ci,t)を求め、list3にtとそのスコアを代入する(ステップS1316)。
単語tを含んだCiにおける出現文書数が統計的に有意に大きくない場合(ステップS1315がNo)、ステップS1314に戻り他の単語で繰り返す。
termConbの各単語tにおいて全ての単語の繰り返しが終了した後(ステップS1314の繰り返し終了)、複合要因語抽出部42は、conbCntを1つ増やし、termSetにtermConbを代入する(ステップS1317)その後、複合要因語抽出部42は、ステップS1312〜ステップS1317の処理を、S1313でtermConbがnullになるまで繰り返す。
termConbがnullである場合(ステップS1313がNo)、複合要因語抽出部42はlist3(Ci)をソートし、上位K個を抽出し(ここでは2つ)、list2(Ci)に入れる。全てのカテゴリCiの繰り返し終了後(ステップS1302の繰り返し終了)、複合要因語抽出部42はlist2を出力する(ステップS1319)。これにより複合要因語抽出処理が終了する。
図14に、複合要因語抽出部42がステップS1319で出力したlist2の一例を示す。図14に示すように、list2には、「極めて危険」カテゴリでは、「タイヤ」と「脱落」を組み合わせた単語が抽出されている。「危険」カテゴリでは「ハンドル」、「重くなる」を組み合わせた単語が抽出されている。「やや危険」カテゴリでは「表示灯」と「つかない」を組み合わせた単語が抽出されている。「安全」カテゴリでは、「冷房」と「効かない」を組み合わせた単語が抽出されている。
これら複合的な要因である単語の組み合わせをユーザに提示することにより、ユーザは順位付けの要因を把握しやすくなる。
図14のlist3には、「極めて危険」カテゴリでは、「燃料」と「漏れ」」を組み合わせた単語と、「ブレーキ」と「効かない」を組み合わせた単語が抽出されている。「危険」カテゴリでは「燃料」と「残量」を組み合わせた単語と、「ブレーキ」と「効き辛い」を組み合わせた単語が抽出されている。「やや危険」カテゴリでは「ドア」と「ロック」と「できない」を組み合わせた単語が抽出されている。「安全」カテゴリでは、「ドア」と「開かない」を組み合わせた単語が抽出されている。
list3に示すように、要因語抽出処理で抽出されなかった単語の集合から、組み合わせて要因となる単語を抽出した場合、「燃料」、「ブレーキ」のように、「極めて危険」、「危険」両方のカテゴリでも出現している単語が抽出されることがある。すなわち、「燃料」、「ブレーキ」のように、単語単体では、各カテゴリの要因とならないが、「漏れ」や「残量」、「効かない」や「効き辛い」と組み合わせることで、「極めて危険」や「危険」の要因となるような単語の組み合わせを抽出することが可能となる。
図5の説明に戻る。複合要因語抽出処理が終了すると、要因生成部4の要因カテゴリ性セブ43が、ステップS403とステップS404とにおける要因抽出処理の結果、抽出された単語および単語の組み合わせから新規のカテゴリを生成する要因カテゴリ生成処理を行う(ステップS405)。
図15乃至図16を参照して要因カテゴリ生成部43による要因カテゴリ生成処理について説明する。
図15は、要因カテゴリ生成部43によって実行される、要因カテゴリ生成処理の一例を示すフローチャートである。要因カテゴリ生成処理が、要因カテゴリ生成部43が、各順位付きカテゴリCiにおいてステップS403とステップS404で抽出された単語に基づいて新規カテゴリを生成し、生成した新規カテゴリに、当該順位付きカテゴリに属する文書データを分類する処理である。
要因カテゴリ生成部43、各順位付きカテゴリCiについて繰り返し(ステップS1401)、要因語抽出部41と複合要因語抽出部42によって出力されたlist1とlist2に格納された、当該カテゴリに対する各単語および単語の組み合わせについて繰り返し(ステップS1402)、当該単語および単語の組み合わせを含む文書データを集めてカテゴリを生成する(ステップS1403)。このとき生成するカテゴリの名称は、文書データを集める対象の単語もしくは単語の組み合わせとする。
全てのカテゴリCiについて繰り返し終了後(ステップS1401の繰り返し終了)、生成したカテゴリを分類結果記憶部3に登録する(ステップS1404)。これにより、要因カテゴリ生成処理は終了する。
要因カテゴリ生成処理後、ユーザインタフェース部3に新規に生成されたカテゴリが表示される。
図16に、要因カテゴリ生成処理後に、ユーザインタフェース部3に表示されるカテゴリ画面の一例を示す。図16に示すカテゴリ表示画面51は、「極めて危険」、「危険」、「やや危険」、「安全」それぞれのカテゴリ直下に、ステップS403、ステップS404で抽出された単語および単語の組み合わせを含む文書を分類したカテゴリ901〜915が生成されている。
続いて、図5のステップS406について説明する。2軸マップ可視化部32が、ステップS405で生成されたカテゴリと、ステップS401で入力された順位付きカテゴリの集合を軸とした、2軸マップを作成し表示する(ステップS406)。
ここで、図17および図18を参照して、2軸マップ可視化処理について説明する。
2軸マップ可視化部32は、2軸マップに表示するデータを格納するリストであるviewListを初期化する(ステップS1501)。次に、2軸マップ可視化部32は、順位付きの各カテゴリCiについて繰り返し(ステップS1502)、要因カテゴリ生成部43で生成された新規のカテゴリCfについて繰り返し(ステップS1503)、CiとCfの両方に出現する文書データを取得し、取得した文書データの件数と、順位付きカテゴリCiのカテゴリ名と、新規カテゴリCfのカテゴリ名と関連付けてviewListに記憶する(ステップS1504)。
全ての新規カテゴリCfについて繰り返し後(ステップS1503の繰り返し終了)、他の順位付きカテゴリについても繰り返し、全ての順位付きカテゴリCiについて繰り返し後(ステップS1502の繰り返し終了)、2軸マップ可視化部32は、viewListを出力する(ステップS1505)。これにより、2軸マップ可視化処理は終了する。
図18に2軸マップ可視化部32が出力したviewListを表示する2軸マップ画面の一例を示す。図18に示すように、2軸マップ画面60は、要因カテゴリ生成部43で生成した新規カテゴリが縦軸であり、要因語抽出部41に入力された順位付きカテゴリが横軸であり、縦軸と横軸とがクロスした欄に、縦軸と横軸の両方のカテゴリ名が含まれる文書データ数が示される。このとき、各順位付きカテゴリにおいて要因抽出処理で抽出された単語および単語の組み合わせであるカテゴリについては、文書データ数を表示する欄を強調表示する。ここでは斜線を表示している。
上述のように、本実施形態の文書分析装置10によると、あらかじめ順位が設定された順位付きカテゴリに対し、カテゴリの順位関係に基づいて、順位の上昇・下降の要因となる単語を抽出することにより、ユーザはカテゴリにつけられた順位の要因を把握できる。これによりユーザは、文書データの内容の把握を容易に行なうことが可能となる。
また、本実施形態の文書分析装置10によると、要因となる単語単体の抽出だけでなく、要因が複合的な場合、即ち単語を組み合わせた場合であっても抽出することが可能である。このとき、文書分析装置10は、単語単体が要因とならない場合であっても、組み合わせると要因となるような単語の組み合わせを抽出することも可能である。これにより、ユーザは文書データの内容の把握が容易になる。
また、本実施形態の文書分析装置10は、要因カテゴリ生成部43が生成したカテゴリを分類軸1とし、あらかじめ設定された順位付きの各カテゴリを分類軸2とし、分類軸1の分類項目のカテゴリと、分類軸2の分類項目のカテゴリとの、両方に分類されている文書データの個数を、当該複数のカテゴリの全ての組み合わせについて求めることでクロス集計を実行し2軸マップを作成する。これにより、ユーザは文書データの内容の把握が容易になる。
なお、本実施形態の文書分析装置10によって分析を行なうその他の例としては、商品情報を分析したい場合などがあげられる。商品情報が、年齢層別の売り上げカテゴリに分類されている場合に、所定の年齢層の売り上げ要因を抽出することが可能となる。
以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
例えば、本実施形態の文書分析装置10は、ユーザが所定のカテゴリを選択すると、当該カテゴリに属する子カテゴリである順位付きカテゴリ全てについて、要因語を抽出するが、ユーザが順位付きカテゴリを選択し、当該順位付きカテゴリのみについて要因語を抽出することも可能である。
1…文書記憶部、2…分類結果記憶部、3…ユーザインタフェース部、31…カテゴリ表示操作部、32…2軸マップ可視化部、4…要因生成部、41…要因語抽出部、42…複合要因語抽出部、43…要因カテゴリ生成部

Claims (6)

  1. 文書データを記憶する文書記憶部を備え、前記文書データを分析する文書分析装置であって、
    前記文書データを分類する順位付きの複数のカテゴリ、および前記カテゴリの階層構造を記憶するカテゴリ記憶部と、
    前記複数のカテゴリのうちの1つのカテゴリにおいて、当該カテゴリに分類される前記文書データに含まれる単語群から、当該カテゴリにおける単語の出現頻度が当該カテゴリと同じ階層にある他のカテゴリにおける当該単語の出現頻度よりも多く、かつ、前記他のカテゴリにおける当該単語の出現頻度が当該カテゴリから順位が遠くなるに従って減少する単語を抽出する要因語抽出部と、
    を備える文書分析装置。
  2. 前記要因語抽出部は、抽出結果の単語の組み合わせを作成し、作成した前記単語の組み合わせから、前記複数のカテゴリのうちの1つのカテゴリにおいて、当該カテゴリにおける出現頻度が他のカテゴリにおける出現頻度よりも多く、かつ、前記他のカテゴリにおける出現頻度が当該カテゴリから順位が遠くなるに従って減少する前記単語の組み合わせを抽出する請求項1に記載の文書分析装置。
  3. 前記要因語抽出部は、抽出結果の前記単語以外の当該カテゴリに分類される前記文書データに含まれる単語の組み合わせを作成し、前記単語の組み合わせから、前記複数のカテゴリのうちの1つのカテゴリにおいて、当該カテゴリにおける出現頻度が他のカテゴリにおける出現頻度よりも多く、かつ、前記他のカテゴリにおける出現頻度が当該カテゴリから順位が遠くなるに従って減少する前記単語の組み合わせを抽出する請求項1および請求項2のいずれか1項に記載の文書分析装置。
  4. 前記要因語抽出部によって抽出された前記単語もしくは単語の組み合わせを含む文書データを分類するための、前記要因語抽出部による抽出対象のカテゴリの下位階層のカテゴリを生成する要因カテゴリ生成部を備える請求項1乃至請求項3のいずれか1項に記載の文書分析装置。
  5. 前記要因カテゴリ生成部が生成したカテゴリを第1の分類軸とし、前記分類記憶部が記憶している順位付きの分類カテゴリを第2の分類軸として、両軸に分類されている文書データ数を表示する2軸マップ作成部を備える請求項1乃至請求項5のいずれか1項に記載の文書分析装置。
  6. 文書データを記憶する文書記憶部を備え、前記文書データを分析する文書分析装置の文書分析プログラムであって、
    前記文書分析装置のコンピュータに、
    前記文書データを分類する順位付きの複数のカテゴリ、および前記カテゴリの階層構造を記憶する機能と、
    前記複数のカテゴリのうちの1つのカテゴリにおいて、当該カテゴリに分類される前記文書データに含まれる単語群から、当該カテゴリにおける単語の出現頻度が当該カテゴリと同じ階層にある他のカテゴリにおける当該単語の出現頻度よりも多く、かつ、前記他のカテゴリにおける当該単語の出現頻度が当該カテゴリから順位が遠くなるに従って減少する単語を抽出する機能と、
    を実現させる文書分析プログラム。
JP2012056518A 2012-03-13 2012-03-13 文書分析装置および文書分析プログラム Active JP5450699B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012056518A JP5450699B2 (ja) 2012-03-13 2012-03-13 文書分析装置および文書分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012056518A JP5450699B2 (ja) 2012-03-13 2012-03-13 文書分析装置および文書分析プログラム

Publications (2)

Publication Number Publication Date
JP2013190988A true JP2013190988A (ja) 2013-09-26
JP5450699B2 JP5450699B2 (ja) 2014-03-26

Family

ID=49391167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012056518A Active JP5450699B2 (ja) 2012-03-13 2012-03-13 文書分析装置および文書分析プログラム

Country Status (1)

Country Link
JP (1) JP5450699B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017010395A (ja) * 2015-06-24 2017-01-12 富士ゼロックス株式会社 オブジェクト分類装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1083400A (ja) * 1996-07-18 1998-03-31 Matsushita Electric Ind Co Ltd データ検索支援装置、データ検索支援方法及びプログラムを記憶した媒体
JPH10254883A (ja) * 1997-03-10 1998-09-25 Mitsubishi Electric Corp 文書自動分類方法
JP2000163437A (ja) * 1998-11-27 2000-06-16 Seiko Epson Corp 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
JP2000285140A (ja) * 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1083400A (ja) * 1996-07-18 1998-03-31 Matsushita Electric Ind Co Ltd データ検索支援装置、データ検索支援方法及びプログラムを記憶した媒体
JPH10254883A (ja) * 1997-03-10 1998-09-25 Mitsubishi Electric Corp 文書自動分類方法
JP2000163437A (ja) * 1998-11-27 2000-06-16 Seiko Epson Corp 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
JP2000285140A (ja) * 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017010395A (ja) * 2015-06-24 2017-01-12 富士ゼロックス株式会社 オブジェクト分類装置及びプログラム

Also Published As

Publication number Publication date
JP5450699B2 (ja) 2014-03-26

Similar Documents

Publication Publication Date Title
Kalmegh Analysis of weka data mining algorithm reptree, simple cart and randomtree for classification of indian news
US20120221553A1 (en) Methods for electronic document searching and graphically representing electronic document searches
WO2014094332A1 (zh) 一种突发事件应急管理的知识库引擎构建及其查询方法
US20130124958A1 (en) Enrichment of data using a semantic auto-discovery of reference and visual data
JPH0991314A (ja) 情報探索装置
JP6173848B2 (ja) 文書分類装置
KR20130037976A (ko) 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치
JP2012528375A (ja) 観点別特許マップの提供方法
US11436278B2 (en) Database creation apparatus and search system
CN101853298A (zh) 一种面向事件的查询扩展方法
TW201807597A (zh) 文字探勘方法、記錄有文字探勘程式之電腦可讀取之記錄媒體及文字探勘裝置
Laurell et al. Social media analytics as an enabler for external search and open foresight—The case of Tesla's autopilot and regulatory scrutiny of autonomous driving
Ma et al. Tag-latent dirichlet allocation: Understanding hashtags and their relationships
JP6536671B2 (ja) テキスト可視化システム、テキスト可視化方法、及び、プログラム
JP5450699B2 (ja) 文書分析装置および文書分析プログラム
Ku et al. TASC-Crime report visualization for investigative analysis: A case study
KR102025813B1 (ko) 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법
JP2016162357A (ja) 商品に対するユーザの感情分析装置及びプログラム
Zaman et al. Knowledge Mapping for Research Papers
Dave et al. Identifying big data dimensions and structure
JP2018005554A (ja) 故障木作成装置
Deligiannis et al. Visualising scientific topic evolution
De et al. Unsupervised clustering technique to harness ideas from an Ideas Portal
Verma et al. Topic modeling of E-news in Punjabi
Nguyen et al. IoTNegViz: An interactive tool for visualizing negative aspects of IoT

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131225

R150 Certificate of patent or registration of utility model

Ref document number: 5450699

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350