JP2014056516A

JP2014056516A - 文書集合からの知識構造の抽出装置、方法、およびプログラム

Info

Publication number: JP2014056516A
Application number: JP2012202037A
Authority: JP
Inventors: Yasudai Tanaka; 靖大田中
Original assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc; Canon MJ IT Group Holdings Inc
Current assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc; Canon MJ IT Group Holdings Inc
Priority date: 2012-09-13
Filing date: 2012-09-13
Publication date: 2014-03-27
Anticipated expiration: 2032-09-13
Also published as: JP5700007B2

Abstract

【課題】文書集合における抽出キーワード間の関係に基づき、関連が深い抽出キーワードを、柔軟に、近くに配置可能な仕組みを提供する。
【解決手段】分野分類された文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出し、この算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させて表示した後、当該ユニットにおける前記文書に含まれるキーワードの出現頻度から当該キーワードの配置情報を算出して、ユニットに合わせて表示する。
【選択図】図３

Description

本発明は、電子化された文書集合から知識構造の抽出を行う情報処理装置及び制御に関する。

近年、ビッグデータの活用に取り組む企業が増えている。今まで記録として保存していた膨大なデータを分析することにより、隠れた知見を見つけ出し、企業活動に役立てていこうという取り組みである。

現在は、販売データのような構造化されたデータを分析するデータマイニングが主流であるが、自然言語処理技術を用いて、ビジネス文書のような構造化されていないデータを分析するテキストマイニングについても注目が高まってきている。

テキストマイニングには、ユーザによって入力された検索条件に対して、文書あるいは文に存在するキーワードや共起の頻度を集計して表やグラフで見せる単純な機能や、文書集合の概要を表現するため、特徴的なキーワードとその関係を１つの図にまとめて示すキーワードマップのような機能がある。

例えば、検索語を含めた関連語間の関係をマップ上に表示し、検索語に関連性の高い語を近傍に配置すると共に、マップ上の高い語のフォントサイズを大きく示すことで、関連性の強いことが一目でユーザに知らしめる技術が開示されている（例えば、特許文献１参照）。

また、文書検索を行うにあたり、検索キーワードを持つ文書に含まれる単語の出現頻度に限らず、全体の文書に含まれる当該単語の出現頻度を用いてクラス化を行い、当該クラス毎に、特徴的な単語を特定して、特徴的な単語同士の共起強度等を用いることで、グラフ形式で特徴後間の関係を表示することで、バランスのとれた文書の検索を行う技術が開示されている（例えば、特許文献２参照）。

特開２００８−２５０６２５号公報特開平１０−７４２１０号公報

しかしながら、上記特許文献１のシステムでは、抽出されたキーワードは、検索キーワードとの関連度合いに依存して配置され、抽出キーワード間の関係を表現することができない。

また、上記特許文献２のシステムでは、抽出されたキーワードの共起関係に基づいて生成されたリンクが生成されるので、抽出キーワード間の関係を表現することができる。

しかしながら、実施例にあるように１つの抽出キーワードが親へのリンクを１つしか持たない場合、リンクの末端になるキーワードは関係が深くても異なるリンクに接続されてしまう可能性がある。また、２つ以上のリンクを可能とする場合、現実的なリンクや配置が困難になると考えられる。

そこで、本発明の目的は、文書集合における抽出キーワード間の関係に基づき、関連が深い抽出キーワードを、柔軟に、近くに配置可能な仕組みを提供することである。

上記目的を達成するための第１の発明は、文書内容に基づいて当該文書を分野分類する分野分類手段と、前記文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出するための寄与度算出手段と、前記寄与度算出手段により算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させるユニット分類手段と、前記ユニット分類手段によって分類されたユニットを表示する表示手段と、前記ユニット分類手段によってユニット分類された各ユニットに基づいて階層的クラスタリングを用いて、前記各ユニットのクラスタを生成するクラスタ生成手段と、前記ユニットにおける前記文書に含まれるキーワードの出現頻度から特定されたユニットから前記表示手段に対する前記キーワードの配置情報を算出する配置情報算出手段と、前記特定されたユニットと前記クラスタとの合致度を求めることで、前記特定されたユニットが属する前記クラスタと他クラスタとの関連からリンクを生成して前記表示手段に表示するリンク生成表示手段と、を備えたことを特徴とする知識構造抽出装置である。

上記目的を達成するための第２の発明は、知識構造抽出装置において文書から関連するキーワードを抽出して表示する知識構造抽出方法であって、前記知識構造抽出装置の分野分類手段は、文書内容に基づいて当該文書を分野分類しする分野分類ステップと、前記知識構造抽出装置の寄与度算出手段は、前記文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出するための寄与度算出ステップと、前記知識構造抽出装置のユニット分類手段は、前記寄与度算出ステップにより算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させるユニット分類ステップと、前記知識構造抽出装置の表示手段は、前記ユニット分類ステップによって分類されたユニットを表示する表示ステップと、前記知識構造抽出装置のクラスタ生成手段は、前記ユニット分類ステップによってユニット分類された各ユニットに基づいて階層的クラスタリングを用いて、前記各ユニットのクラスタを生成するクラスタ生成ステップと、前記知識構造抽出装置の配置情報算出手段は、前記ユニットにおける前記文書に含まれるキーワードの出現頻度から特定されたユニットから前記表示ステップに対する前記キーワードの配置情報を算出する配置情報算出ステップと、前記知識構造抽出装置のリンク生成手段は、前記特定されたユニットと前記クラスタとの合致度を求めることで、前記特定されたユニットが属する前記クラスタと他クラスタとの関連からリンクを生成して表示するリンク生成表示ステップと、を実行することを特徴とする知識構造抽出方法である。

上記目的を達成するための第３の発明は、文書から関連するキーワードを抽出して表示する知識構造抽出装置において実行されるプログラムであって、前記知識構造抽出装置を、文書内容に基づいて当該文書を分野分類する分野分類手段と、前記文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出するための寄与度算出手段と、前記寄与度算出手段により算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させるユニット分類手段と、前記ユニット分類手段によって分類されたユニットを表示する表示手段と、前記ユニット分類手段によってユニット分類された各ユニットに基づいて階層的クラスタリングを用いて、前記各ユニットのクラスタを生成するクラスタ生成手段と、前記ユニットにおける前記文書に含まれるキーワードの出現頻度から特定されたユニットから前記表示手段に対する前記キーワードの配置情報を算出する配置情報算出手段と、前記特定されたユニットと前記クラスタとの合致度を求めることで、前記特定されたユニットが属する前記クラスタと他クラスタとの関連からリンクを生成して前記表示手段に表示するリンク生成表示手段と、して機能させることと特徴とするプログラムである。

本発明によれば、指定された文書集合から特徴的なキーワードを抽出し、抽出キーワード間の関係に基づき、関連が深い抽出キーワードを近くに配置することが可能となり、より直観的で理解しやすい図を作成することができるようになる。

本発明の知識構造抽出システムの構成の一例を示すシステム構成図である。本発明の知識構造抽出装置、及び利用者端末に適用可能な情報処理装置のハードウェア構成を示すブロック図である。本発明における知識構造抽出装置における知識構造抽出処理の一例を示すフローチャートである。本発明の知識構造抽出処理における文書収集処理の一例を示すフローチャートである。本発明における利用端末から取得するＵＲＬ履歴の一例を示す図である。本発明の知識構造抽出処理における分野分析処理の一例を示すフローチャートである。本発明の分野分析処理における重み付き分野情報取得処理の概要を示す図である。本発明の知識構造抽出処理におけるキーワード抽出処理の一例を示すフローチャートである。本発明における文書情報保存領域における文書情報テーブルの一例を示す図である。本発明の知識構造抽出処理における文書配置処理の一例を示すフローチャートである。本発明の文書配置処理において使用される自己組織化マップと表示位置の一例を示す図である。本発明のユニット情報の一例を示す図である。本発明の文書配置処理における自己組織化マップユニットのクラスタリング結果の概要を示す図である。本発明の文書配置処理において生成される自己組織化マップユニットのクラスタリングテーブルの一例を示す図である。本発明における文書情報保存領域における文書情報テーブルの一例を示す図である。本発明の知識構造抽出処理におけるキーワード配置処理の一例を示すフローチャートである。本発明のキーワード配置処理において生成されるキーワード配置テーブルの一例を示す図である。本発明のキーワード配置処理において生成されたキーワード配置情報に基づき、自己組織化マップ上にキーワードを配置した様子の一例を示す図である。本発明の知識構造抽出処理におけるリンク生成処理の一例を示すフローチャートである。本発明のリンク生成処理において生成されたリンク情報に基づき、自己組織化マップ上に配置されたキーワードにリンクを付与した様子の一例を示す図である。本発明の分野分析処理における重み付き分野情報取得処理の概要を示す図である。

以下、図面を参照して、本発明の実施形態を詳細に説明する。

図１は、本発明の知識構造抽出システムの構成の一例を示すシステム構成図である。

図１は、知識構造抽出装置１００、および１又は複数の利用者端末１３０がローカルエリアネットワークを介して接続される構成となっている。また利用者端末１３０は外部ネットワーク１４０に接続可能な構成となっている。

知識構造抽出装置１００は、利用者端末１３０から取得したウェブページの閲覧履歴から、ウェブページの内容を取得・分析し、ウェブページ閲覧内容の概要を示す図を作成し、利用者端末１３０に返す。

利用者端末１３０は、外部ネットワーク１４０を介して閲覧したウェブページの閲覧履歴を、知識構造抽出装置１００に送り、知識構造抽出装置１００により生成された閲覧内容の概要を図示したものを取得する。

また、本実施形態の知識構造抽出システム、利用者端末１３０から取得する文書がウェブの閲覧履歴以外であってもよい。

以下、図２を用いて、図１に示した知識構造抽出装置１００、利用者端末１３０に適用可能な情報処理装置のハードウェア構成について説明する。

図２は、図１に示した知識構造抽出装置１００、利用者端末１３０に適用可能な情報処理装置のハードウェア構成を示すブロック図である。

図２において、２０１はＣＰＵで、システムバス２０４に接続される各デバイスやコントローラを統括的に制御する。また、ＲＯＭ２０２あるいは外部メモリ２１１には、ＣＰＵ２０１の制御プログラムであるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）やオペレーティングシステムプログラム（以下、ＯＳ）や、各サーバ或いは各ＰＣの実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。

２０３はＲＡＭで、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。ＣＰＵ２０１は、処理の実行に際して必要なプログラム等をＲＯＭ２０２あるいは外部メモリ２１１からＲＡＭ２０３にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。

また、２０５は入力コントローラで、キーボード（ＫＢ）２０９や不図示のマウス等のポインティングデバイス等からの入力を制御する。２０６はビデオコントローラで、ＣＲＴディスプレイ（ＣＲＴ）２１０等の表示器への表示を制御する。なお、図２では、ＣＲＴ２１０と記載しているが、表示器はＣＲＴだけでなく、液晶ディスプレイ等の他の表示器であってもよい。これらは必要に応じて管理者が使用するものである。

２０７はメモリコントローラで、ブートプログラム，各種のアプリケーション，フォントデータ，ユーザファイル，編集ファイル，各種データ等を記憶する外部記憶装置（ハードディスク（ＨＤ））や、フレキシブルディスク（ＦＤ）、或いはＰＣＭＣＩＡカードスロットにアダプタを介して接続されるコンパクトフラッシュ（登録商標）メモリ等の外部メモリ２１１へのアクセスを制御する。

２０８は通信Ｉ／Ｆコントローラで、ネットワーク（例えば、図１に示したＬＡＮ４００）を介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、ＴＣＰ／ＩＰを用いた通信等が可能である。

なお、ＣＰＵ２０１は、例えばＲＡＭ２０３内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ＣＲＴ２１０上での表示を可能としている。また、ＣＰＵ２０１は、ＣＲＴ２１０上の不図示のマウスカーソル等でのユーザ指示を可能とする。

本発明を実現するための後述する各種プログラムは、外部メモリ２１１に記録されており、必要に応じてＲＡＭ２０３にロードされることによりＣＰＵ２０１によって実行されるものである。さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報テーブル等も、外部メモリ２１１に格納されており、これらについての詳細な説明も後述する。

以下、本実施形態における知識構造抽出システムの全体の流れを説明する。

利用者端末１３０は、利用者の指示により、特定期間におけるウェブページの閲覧履歴の全てまたは一部を知識構造抽出装置１００に送信する。送信するウェブページの閲覧履歴を利用者が選択する構成にしてもよい。

知識構造抽出装置１００は、利用者端末１３０よりウェブページの閲覧履歴を受信すると、ウェブページの内容を分析し、抽出した知識構造を利用者端末１３０において表示可能な形式で返信する。

利用者端末１３０は、知識構造抽出装置１００から抽出した知識構造を受信すると、受信した知識構造をブラウザ１２１に図示する。

本実施形態においてウェブページの分類および二次元平面上への配置において、自己組織化マップを用いる。また、自己組織化マップにより分類されたユニットのクラスタリングにウォード法を用いる。

「参考文献」
(1)T.Kohonen,“The self-organizing map”,Proceeding of IEEE, vol.78, no.9,Sept.1990
(2)JoeH.Ward,Jr.,Hierarchical Grouping to Optimize an Objective Function, Journal of the American Statistical Association,Vol.58,1963

以下、図３を参照して、本実施形態の知識構造抽出システムにおける知識構造抽出処理について説明する。

ステップＳ３０１において文書収集部１０１は、利用者端末１３０より受信したウェブページの閲覧履歴から、知識構造抽出対象となるウェブページを選別し、ウェブページの本文テキストを取得し、文書情報保存領域１０２に保存する。

ステップＳ３０２おいて分野分析部１０３は、文書情報保存領域１０２に保存されたウェブページの本文テキストを解析し、分野情報１０４を抽出する。

ステップＳ３０３においてキーワード抽出部１０５は、文書情報保存領域１０２に保存されたウェブページの本文テキストを解析し、キーワード情報１０６を抽出する。

ステップＳ３０２およびＳ３０３は並列に処理を実行するように構成してもよいし、同一の処理において、分野情報１０４およびキーワード情報１０６の両方を抽出するように構成してもよい。

ステップＳ３０４において文書配置部１０７は、分野情報１０４に対し自己組織化マップを用いて、各ウェブページに対し、内容の近いウェブページが二次元平面上でも近くなるような位置を決定し、文書配置情報１０８として生成する。

ステップＳ３０５においてキーワード配置部１０９は、ステップＳ３０３において抽出されたキーワード情報１０６のキーワードに対し、ステップＳ３０４で生成した文書配置情報１０８を参照して、キーワードの二次元平面上での位置を決定し、キーワード配置情報１１０として生成する。また、キーワードの属する文書と、文書が属する自己組織化マップのユニットの情報から、キーワードと関連が高いクラスタを特定する。

ステップＳ３０６においてリンク生成部１１１は、キーワードを、ステップＳ３０５で関連付けたクラスタの情報の階層関係に応じて、キーワード間のリンク情報を生成する。リンク情報を含め生成された各種情報を知識構造情報として知識構造情報保存領域１１２に保存する。

ステップＳ３０７において表示・編集部１１３は、知識構造情報保存領域１１２に保存された知識構造情報から、図２０に示すような文書集合全体を概括するような図を生成し、利用者端末に送信する。

図４では文書収集処理Ｓ３０１の詳細について記載する。

ステップＳ４０１において文書収集部１０１は、利用者端末からウェブページの閲覧履歴をＵＲＬ一覧として受信する。図５にＵＲＬ一覧の例を示す。

ステップＳ４０２において文書収集部１０１は、受信したURL一覧に対し、ステップＳ４０７までの繰り返し処理を開始する。

ステップＳ４０３において文書収集部１０１は、処理中のＵＲＬが処理の対象であるか否かを判定する。ＵＲＬが処理対象である場合はステップＳ４０４に処理を移す。ＵＲＬが処理対象でない場合は、ステップＳ４０７に処理を移す。

処理の対象であるか否かの判定は、例えば閲覧時刻が直近１日以内であるとか特定のユーザのみを対象にするとか、定期的に閲覧している特定のＵＲＬを除外する等、任意の条件に基づいてよい。

ステップＳ４０４において文書収集部１０１は、処理中のＵＲＬで示された文書を、ネットワークを介して取得する。

ステップＳ４０５において文書収集部１０１は、取得した文書から本文テキストを抽出する。広告などの不要部分を除去する処理を行ってもよい。

ステップＳ４０６において文書収集部１０１は、本文テキストをＵＲＬ情報とともに文書情報保存領域１０２の文書情報テーブル９０１に保存する。図９に文書情報テーブル９０１の一例を示す。

ステップＳ４０７において文書収集部１０１は、次のＵＲＬがある場合、ステップＳ４０２からの処理を実施する。次のＵＲＬがない場合、処理を終了する。

文書収集処理Ｓ３０１の具体例について記載する。

ステップＳ４０１において文書収集部１０１は、利用者端末から図５に示すウェブページの閲覧履歴をＵＲＬ一覧として受信する。

ステップＳ４０２において文書収集部１０１は、ＵＲＬ５０１に対し、ステップＳ４０７までの繰り返し処理を開始する。

ステップＳ４０３において文書収集部１０１は、ＵＲＬ５０１が処理の対象であるか否かを判定する。ここではアクセスしたユーザが「nagai」であるＵＲＬを処理対象とする。ＵＲＬ５０１のユーザが「sakai」であるので、ステップＳ４０７に処理を移す。

ステップＳ４０７において文書収集部１０１は、次のＵＲＬ５０２があるので、ステップＳ４０２に処理を移す。

以降、文書収集部１０１は、ＵＲＬ５０２以降のＵＲＬに対し、ＵＲＬ５０３の直前まで同様の処理を行う。

ステップＳ４０２において文書収集部１０１は、ＵＲＬ５０３に対し、ステップＳ４０７までの繰り返し処理を開始する。

ステップＳ４０３において文書収集部１０１は、ＵＲＬ５０３のユーザが「nagai」であるので、ステップＳ４０４に処理を移す。

ステップＳ４０４において文書収集部１０１は、ＵＲＬ５０３で示された文書を、ネットワークを介して取得する。

ステップＳ４０６において文書収集部１０１は、抽出した本文テキストとＵＲＬ情報を文書情報９０７として図９に示す文書情報テーブル９０１に保存する。この時点では文書情報９０７の分野カラム９０５およびキーワードカラム９０６は空である。

ステップＳ４０７において文書収集部１０１は、次のＵＲＬ５０４があるので、ステップＳ４０２からの処理を実施する。

以下、同様の処理を繰り返す。

図６では分野分析処理Ｓ３０２の詳細について記載する。

ステップＳ６０１において分野分析部１０３は、文書情報保存領域１０２の文書情報テーブル９０１に保存された文書情報に対して、ステップＳ６０４までの繰り返し処理を開始する。

ステップＳ６０２において分野分析部１０３は、文書情報のテキストを解析して、文書が属する分野を特定する。本発明の分野分類では、文書が属する分野を１つに決めるのではなく、図７に示すように、複数の、特定した分野と分野に属する度合いの組として表現する。以降、文書に対する複数の分野と度合いの組を、重み付き分野情報と呼ぶ。文書の分野分類は、単純ベイズ分類器などの既存の方法を用いて実現することが可能である。

単純ベイズ分類器では、文書を構成する単語がある分野に属する文書群において出現する頻度から、その文書が文書群に属する確率を求めることができる。この確率に基づき、分野に属する度合いを数値化し、重み付き分野情報として取得する。重み付き分野情報の取得は、単純ベイズ以外の方法で行ってもよい。

ステップＳ６０３において分野分析部１０３は、ステップＳ６０２で取得した重み付き分野情報を文書情報保存領域１０２の文書情報テーブル９０１に追加する。

ステップＳ６０４において分野分析部１０３は、次の文書情報がある場合、ステップＳ６０１からの処理を実施する。次の文書情報がない場合、処理を終了する。

分野分析処理Ｓ３０２の具体例について記載する。

ステップＳ６０１において分野分析部１０３は、文書情報テーブル９０１に保存された文書情報９０７に対して、ステップＳ６０４までの繰り返し処理を開始する。

ステップＳ６０２において分野分析部１０３は、文書情報９０７のテキストカラム９０４のテキスト７０１を解析して、重み付き分野情報７０２を取得する。

ステップＳ６０３において分野分析部１０３は、ステップＳ６０２で取得した重み付き分野情報７０２を文書情報テーブル９０１の文書情報９０７の分野カラム９０５に追加する。

ステップＳ６０４において分野分析部１０３は、次の文書情報９０８があるので、ステップＳ６０１からの処理を実施する。

以下同様の処理を繰り返す。

図８ではキーワード抽出処理Ｓ３０３の詳細について記載する。

ステップＳ８０１においてキーワード抽出部１０５は、文書情報保存領域１０２の文書情報テーブル９０１に保存された文書情報に対して、ステップＳ６０４までの繰り返し処理を開始する。

ステップＳ８０２において、キーワード抽出部１０５は、文書情報のテキストを解析して、文書に含まれるキーワードを抽出する。

本発明のキーワード抽出では、文書を構成するキーワードごとに他の文書と弁別するのに寄与する度合いを数値化し、弁別に寄与する度合いの高いものを、度合いの数値とともにキーワードとして抽出する。以降、キーワードと弁別に寄与する度合いの組を、重み付きキーワード情報と呼ぶ。

キーワードの文書弁別に寄与する度合いはtf・idf値を用いることができる。キーワードの文書弁別に寄与する度合いはtf・idf値以外の値を用いてもよい。tf・idf値を求めるためには、文書集合におけるキーワードの出現頻度などの統計情報が必要となる。

文書集合としては分析の対象とした文書全体とする場合が多いが、本発明においては、各種文書を集めた大規模な文書集合から予め抽出した統計情報を用いる。これは分析対象全体を表現し、分析対象全体でよく出現するキーワードが抽出対象外となるのを防ぐためである。

ステップＳ８０３においてキーワード抽出部１０５は、ステップＳ８０２で取得した重み付きキーワード情報を文書情報保存領域１０２の文書情報テーブル９０１に追加する。

ステップＳ８０４においてキーワード抽出部１０５は、次の文書情報がある場合、ステップＳ８０１からの処理を実施する。次の文書情報がない場合、処理を終了する。

キーワード抽出処理Ｓ３０３の具体例について記載する。

ステップＳ８０１においてキーワード抽出部１０５は、文書情報テーブル９０１に保存された文書情報９０７に対して、ステップＳ６０４までの繰り返し処理を開始する。

ステップＳ８０２において、キーワード抽出部１０５は、文書情報９０７のテキストカラム９０４のテキスト７０１を解析して、重み付きキーワード情報２１０１（図２１参照）を取得する

ステップＳ８０３においてキーワード抽出部１０５は、ステップＳ８０２で取得した重み付きキーワード情報２１０１を文書情報テーブル９０１の文書情報９０７のキーワードカラム９０６に追加する。

ステップＳ８０４においてキーワード抽出部１０５は、次の文書情報９０８があるので、ステップＳ８０１からの処理を実施する。

以下同様の処理を繰り返す。

図１０では文書配置処理Ｓ３０４の詳細について記載する。

本実施形態の文書配置処理においては、重み付き分野情報をベクトルと見做し、自己組織化マップを適用することで二次元平面上に文書を配置する。

ステップＳ１００１において文書配置部１０７は、文書情報保存領域１０２の文書情報テーブル９０１に保存された文書情報に対して自己組織化マップの学習を行う。自己組織化マップの学習および分類、ウォード法によるクラスタリングに必要な、重み付き分野（ベクトル）どうしの距離の算出式の一例を図２４に示す。これ以外の方法により距離を定義してもよい。
「式１」

図１１に可視化した自己組織化マップの一例を示す。図の六角形はユニットと呼ばれ、自己組織化マップは学習が終了すると、分類対象をいずれかのユニットに分類することができるようになる。図１１におけるユニット内の番号はユニットの識別番号であり、図１２に示すユニット情報テーブルに各ユニットの情報が格納される。

各ユニットは重み付きの分野カラム１２０７に分野情報を持つ。yカラム１２０３は左上を起点としてユニットの縦方向の位置を、xカラム１２０４は左上を起点としてユニットの横方向の位置を意味する。

ステップＳ１００２において文書配置部１０７は、学習が終わった自己組織化マップのユニットに対して、ウォード法などの階層的クラスタリングを実施する。階層的クラスタリングにより各ユニットは重み付き分野情報が近い順にまとめられる。

図１３に階層的クラスリングの結果の一例を示す。一番末端の番号はユニットの識別番号であり、途中の番号はクラスタの識別番号を示す。

ステップＳ１００３において文書配置部１０７は、クラスタの情報を保存する。

図１４にクラスタ情報を保存するテーブルの一例を示す。

ステップＳ１００４において文書配置部１０７は、文書情報保存領域１０２の文書情報テーブル９０１に保存された文書に対して、ステップＳ１００７までの繰り返し処理を開始する。

ステップＳ１００５において文書配置部１０７は、処理中の文書情報が属するユニットを特定する。処理中の文書は、抽出した重み付き分野情報に最も近い重み付き分野情報を持つユニットに属すると判定される。

ステップＳ１００６において文書配置部１０７は、ユニットの情報を文書情報保存領域１０２の文書情報テーブル９０１に保存する。

図１５にユニット情報を含んだ文書情報テーブル９０１の一例を示す。

ステップＳ１００７において文書配置部１０７は、次の文書情報がある場合、ステップＳ１００４からの処理を実施する。次の文書情報がない場合、処理を終了する。

文書配置処理Ｓ３０４の具体例について記載する。

ステップＳ１００１において文書配置部１０７は、文書情報テーブル９０１に保存された文書情報に対して自己組織化マップの学習を行い、ユニット情報テーブル１２０１を得る。

ステップＳ１００２において文書配置部１０７は、ユニット情報テーブル１２０１に含まれる各ユニットに対し、分野カラム１２０７から求めたお互いの距離により階層的クラスタリングを実施して図１３の樹形図で示されるクラスタリング結果を得る。

ステップＳ１００３において文書配置部１０７は、図１３の樹形図で示されたクラスタリング結果を保存して、クラスタ情報テーブル１４０１を得る。

ステップＳ１００４において文書配置部１０７は、文書情報９０７に対して、ステップＳ１０１２までの繰り返し処理を開始する。

ステップＳ１００５において文書配置部１０７は、文書情報９０７の重み付き分野情報とユニット情報テーブル１２０１における各ユニットの分野カラム１２０７との距離を算出し、最も距離の小さいユニット情報１２０８を文書情報９０７が属するユニットとして特定する。

ステップＳ１００６において文書配置部１０７は、図１５に示すように、文書情報テーブル９０１の文書情報９０７のuidカラム１５０１にユニット情報１４１１の識別番号を追加する。

ステップＳ１００７において文書配置部１０７は、次の文書情報９０８があるのでステップＳ１００４からの処理を実施する。

以下、同様の処理を繰り返すことで、全ての文書の自己組織化マップ上での配置位置が定まる。

図１６ではキーワード配置処理Ｓ３０５の詳細について記載する。

ステップＳ１６０１においてキーワード配置部１０９は、文書情報保存領域１０２の文書情報テーブル９０１の文書情報に対して、ステップＳ１６０７までの繰り返し処理を開始する。

ステップＳ１６０２においてキーワード配置部１０９は、ステップＳ１６０１で取得された文書情報に含まれるキーワードに対し、ステップＳ１６０６までの繰り返し処理を開始する。

ステップＳ１６０３においてキーワード配置部１０９は、処理中のキーワードがキーワード配置情報テーブル１７０１に登録されているか否かを判定する。キーワードがキーワード配置情報テーブル１７０１に登録済みであれば、ステップＳ１６０５に処理を移す。キーワードがキーワード配置情報テーブル１７０１に登録されていなければ、ステップＳ１６０４に処理を移す。

ステップＳ１６０４においてキーワード配置部１０９は、処理中のキーワードをキーワード配置情報テーブル１７０１に登録する。

ステップＳ１６０５においてキーワード配置部１０９は、キーワード配置情報テーブル１７０１における処理中のキーワードに対し、処理中の文書情報が属するユニットの識別番号を追加する。

既にユニットの識別番号が登録されている場合は、出現頻度を１増やす。

ステップＳ１６０６においてキーワード配置部１０９は、次のキーワードがある場合、ステップＳ１６０２からの処理を実施する。次のキーワードがない場合、ステップＳ１６０７に処理を移す。

ステップＳ１６０７においてキーワード配置部１０９は、次の文書情報がある場合、ステップＳ１６０１からの処理を実施する。次のキーワードがない場合、ステップＳ１６０８に処理を移す。

ステップＳ１６０８においてキーワード配置部１０９は、キーワード配置情報テーブル１７０１におけるキーワード配置情報に対し、ステップＳ１６１３までの繰り返し処理を開始する。

ステップＳ１６０９においてキーワード配置部１０９は、処理中のキーワード配置情報のユニット識別番号と対応するユニット情報と出現頻度から位置を算出し、処理中のキーワードの位置情報とする。位置を算出する式の一例を式２に示すが、別の方法により算出してもよい。
「式２」

ステップＳ１６１０においてキーワード配置部１０９は、ステップＳ１６０４で算出したキーワード配置情報の位置情報に追加する。

ステップＳ１６１１においてキーワード配置部１０９は、処理中のキーワードを含むユニットの集合に対し、ステップＳ１００８において取得したクラスタ情報を参照し、最もユニットの集合が合致するクラスタを取得する。合致の度合いの判定には式３に示す式により算出する。
「式３」

ステップＳ１６１２においてキーワード配置部１０９は、ステップＳ１６１１において取得したクラスタ情報の識別番号をキーワード配置情報に追加する。

ステップＳ１６１３においてキーワード配置部１０９は、次のキーワード配置情報がある場合、ステップＳ１６０８からの処理を実施する。次のキーワード配置情報がない場合、処理を終了する。

キーワード配置処理Ｓ３０５の具体例について記載する。

ステップＳ１６０１においてキーワード配置部１０９は、文書情報テーブル９０１の文書情報９０７に対して、ステップＳ１６０７までの繰り返し処理を開始する。

ステップＳ１６０２においてキーワード配置部１０９は、文書情報９０７に含まれるキーワード「高感度」に対し、ステップＳ１６０６までの繰り返し処理を開始する。

ステップＳ１６０３においてキーワード配置部１０９は、処理中のキーワード「高感度」がキーワード配置情報テーブル１７０１に登録されていないので、ステップＳ１６０４に処理を移す。

ステップＳ１６０４においてキーワード配置部１０９は、処理中のキーワード「高感度」をキーワード配置情報テーブル１７０１に登録する。

ステップＳ１６０５においてキーワード配置部１０９は、キーワード配置情報テーブル１７０１における処理中のキーワード「高感度」に対し、文書情報９０７が属するユニットの識別番号「１４」を追加する。

ステップＳ１６０６においてキーワード配置部１０９は、次のキーワード「カメラ」があるので、ステップＳ１６０２からの処理を実施する。

以下、ステップＳ１６０２〜Ｓ１６０６までの処理を繰り返し、文書情報９０７のキーワードを全て処理して、ステップＳ１６０７に処理を移す。

ステップＳ１６０７においてキーワード配置部１０９は、次の文書情報９０８があるので、ステップＳ１６０１からの処理を実施する。

以下、ステップＳ１６０１〜Ｓ１６０７までの処理を繰り返し、キーワード配置情報テーブル１７０１を得る。

ステップＳ１６０８においてキーワード配置部１０９は、キーワード配置情報テーブル１７０１におけるキーワード配置情報１７０９に対し、ステップＳ１６１３までの繰り返し処理を開始する。

ステップＳ１６０９においてキーワード配置部１０９は、キーワード配置情報１７０９のユニット識別番号と対応するユニット情報と出現頻度から位置を算出する。ユニット情報テーブルから、ユニット識別番号7のユニットの位置は(1, 2)を得る。他のユニット識別番号についても同様に位置を取得して、式２の式よりキーワードの位置（3.15, 2.55）を算出する。
y=(1*2+1*2+2*3+4*3+5*3+2*3+1*4+3*4+1*4)/20=3.15
x=(1*1+1*2+2*1+4*2+5*3+2*4+1*2+3*3+1*4)/20=2.55

ステップＳ１６１０においてキーワード配置部１０９は、ステップＳ１６０４で算出した位置情報（3.15, 2.55）をキーワード配置情報１７０９のyカラム１７０４およびxカラム１７０５に追加する。

ステップＳ１６１１においてキーワード配置部１０９は、キーワード配置情報１７０９が含むユニット集合に対し、クラスタ情報テーブル１４０１を参照し、最もユニットの集合が合致するクラスタを取得する。

クラスタ情報１４０２は全てのユニットを含む最上位のクラスタである。キーワード配置情報１７０９のユニット集合とクラスタ情報１４０２のユニット集合の合致度を式３より算出する。

合致するユニットの数は{7, 8, 13, 14, 15, 16, 20, 21, 22}の９であり、キーワード配置情報１７０９のユニット数も９である。クラスタ情報１４０２のユニット数は36である。

（クラスタ情報１４０２との合致度）=(2*9)/(9+36)=0.4

キーワード配置情報１７０９のユニット集合とクラスタ情報１４０３のユニット集合の合致度を式３より算出する。合致するユニットの数は{7,8,14,15,16,21,22}の７であり、キーワード配置情報１７０９のユニット数は{7,8,13,14,15,16,20,21,22}の９である。クラスタ情報１４０７のユニット数は{7,8,14,15,16,21,22}の７である。

（クラスタ情報１４０７との合致度）=(2*7)/(7+9)=0.875

このような計算を全てのクラスタについて算出し、最も合致度の高いクラスタを選択する。キーワード配置情報１７０９に対してはクラスタ情報１４０７が最も合致する。

ステップＳ１６１２においてキーワード配置部１０９は、クラスタ情報１４０７の識別番号64をキーワード配置情報１７０９のクラスタ識別番号１７０７に追加する。

ステップＳ１６１３においてキーワード配置部１０９は、次のキーワード配置情報１７１０があるので、ステップＳ１６０８からの処理を実施する。

以下、同様の処理を繰り返す。

図１９ではリンク生成処理Ｓ３０６の詳細について記載する。

ステップＳ１９０１においてリンク生成部１１１は、ステップＳ１００８で取得したクラスタ情報に対し、ステップＳ１９１２までの繰り返し処理を開始する。

ステップＳ１９０２においてリンク生成部１１１は、処理中のクラスタに対応付けられたキーワードをキーワード配置情報から取得する。

ステップＳ１９０３においてリンク生成部１１１は、処理中のクラスタに対応付けられたキーワードに対し、ステップＳ１９１０までの繰り返し処理を開始する。

ステップＳ１９０４においてリンク生成部１１１は、処理中のクラスタの上位のクラスタを取得する。

ステップＳ１９０５においてリンク生成部１１１は、ステップＳ１９０４で取得したクラスタに対応付けられたキーワードを上位キーワードとして取得する。

ステップＳ１９０６においてリンク生成部１１１は、上位キーワードがあるか否かを判定する。上位キーワードがある場合、ステップＳ１９０７に移す。上位キーワードがない場合、ステップＳ１９０９に処理を移す。

ステップＳ１９０７においてリンク生成部１１１は、処理中のキーワードに最も関連する上位キーワードを選択する。選択の基準としては、処理中のキーワード配置情報のユニット集合のうち、上位のキーワード配置情報のユニット集合に含まれている割合や、キーワード配置情報の位置(y, x)から算出した距離を用いることができる。他の選択基準を用いてもよい。

ステップＳ１９０８においてリンク生成部１１１は、キーワード配置情報のリンク情報に上位キーワードを設定する。

ステップＳ１９０９においてリンク生成部１１１は、ステップＳ１９０４で取得した上位のクラスタが最上位であるか否かを判定する。上位のクラスタが最上位である場合、ステップＳ１９１０に処理を移す。上位のクラスタが最上位でない場合、ステップＳ１９０４に処理を移す。

ステップＳ１９１０においてリンク生成部１１１は、処理中のクラスタに対応付けられた次のキーワードがある場合、ステップＳ１９０３からの処理を実施する。次のキーワードがない場合、ステップＳ１９１１に処理を移す。

ステップＳ１９１１においてリンク生成部１１１は、次のクラスタがある場合、ステップＳ１９０１からの処理を実施する。次のクラスタがない場合、処理を終了する。

リンク生成処理Ｓ３０６の具体例について記載する。

ステップＳ１９０１においてリンク生成部１１１は、クラスタ情報１４０２に対し、ステップＳ１９１２までの繰り返し処理を開始する。

ステップＳ１９０２においてリンク生成部１１１は、クラスタ情報１４０２（クラスタ識別番号７２）に対応付けられたキーワード配置情報１７１１（「高画質」）を取得する。

ステップＳ１９０３においてリンク生成部１１１は、クラスタ情報１４０２に対応付けられたキーワード配置情報１７１１に対し、ステップＳ１９１０までの繰り返し処理を開始する。

ステップＳ１９０４においてリンク生成部１１１は、クラスタ情報１４０２の上位のクラスタ情報を取得しようとするが存在しないため。上位のクラスタ情報を取得できない。

ステップＳ１９０５においてリンク生成部１１１は、ステップＳ１９０４で上位のクラスタ情報を取得できなかったので、上位のキーワードも取得できない。

ステップＳ１９０６においてリンク生成部１１１は、上位キーワードがないので、ステップＳ１９０９に処理を移す。

ステップＳ１９０９においてリンク生成部１１１は、ステップＳ１９０４で取得した上位のクラスタ情報１４０２が最上位であるので、ステップＳ１９１０に処理を移す。

ステップＳ１９１０においてリンク生成部１１１は、クラスタ情報１４０２に対応付けられた次のキーワード配置情報がないので、ステップＳ１９１１に処理を移す。

ステップＳ１９１１においてリンク生成部１１１は、次のクラスタ情報１４０３があるので、ステップＳ１９０１からの処理を実施する。

ステップＳ１９０１においてリンク生成部１１１は、クラスタ情報１４０３に対し、ステップＳ１９１２までの繰り返し処理を開始する。

ステップＳ１９０２においてリンク生成部１１１は、クラスタ情報１４０３（クラスタ識別番号７１）に対応付けられたキーワード配置情報１７１２（「非球面レンズ」）を取得する。

ステップＳ１９０３においてリンク生成部１１１は、クラスタ情報１４０３に対応付けられたキーワード配置情報１７１２に対し、ステップＳ１９１０までの繰り返し処理を開始する。

ステップＳ１９０４においてリンク生成部１１１は、クラスタ情報１４０３の上位のクラスタ情報１４０２を取得する。

ステップＳ１９０５においてリンク生成部１１１は、ステップＳ１９０４で上位のクラスタ情報１４０２に（クラスタ識別番号７２）に対応付けられたキーワード配置情報１７１１を取得する。

ステップＳ１９０６においてリンク生成部１１１は、上位のキーワード配置情報があるので、ステップＳ１９０７に処理を移す。

ステップＳ１９０７においてリンク生成部１１１は、キーワード配置情報１７１２に最も関連する上位のキーワード配置情報としてキーワード配置情報１７１１を選択する。

ステップＳ１９０８においてリンク生成部１１１は、キーワード配置情報１７１２の上位キーワードカラム１７０８に上位キーワードの識別番号「２５」を設定する。

ステップＳ１９１０においてリンク生成部１１１は、クラスタ情報１４０３に対応付けられた次のキーワード配置情報がないので、ステップＳ１９１１に処理を移す。

ステップＳ１９１１においてリンク生成部１１１は、次のクラスタ情報１４０４があるので、ステップＳ１９０１からの処理を実施する。

以下、同様の処理を繰り返す。

キーワード配置情報を用いることで図２０のようなマインドマップ用の図を作成することができる。

以上、本発明によれば、指定された文書集合から特徴的なキーワードを抽出し、抽出キーワード間の関係に基づき、関連が深い抽出キーワードを近くに配置することが可能となり、より直観的で理解しやすい図を作成することができるようになる。

以上、実施形態例を詳述したが、本発明は、例えば、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。また、本発明におけるプログラムは、各処理方法をコンピュータが実行可能（読み取り可能）なプログラムであり、本発明の記憶媒体は、各処理方法をコンピュータが実行可能なプログラムが記憶されている。

なお、本発明におけるプログラムは、各装置の処理方法ごとのプログラムであってもよい。

以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムを読取り実行することによっても、本発明の目的が達成されることは言うまでもない。

この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記憶した記録媒体は本発明を構成することになる。

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク，ハードディスク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ−Ｒ，ＤＶＤ−ＲＯＭ，磁気テープ，不揮発性のメモリカード，ＲＯＭ，ＥＥＰＲＯＭ，シリコンディスク等を用いることができる。

また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータで稼働しているＯＳ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

さらに、本発明を達成するためのプログラムをネットワーク上のサーバ，データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステム、あるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。

１００知識構造抽出装置
１３０利用者端末
１４０外部ネットワーク
２０１ＣＰＵ
２０２ＲＯＭ
２０３ＲＡＭ
２０４システムバス
２０５入力コントローラ
２０６ビデオコントローラ
２０７メモリコントローラ
２０８通信Ｉ／Ｆコントローラ
２０９入力部
２１０ディスプレイ
２１１外部メモリ

Claims

文書内容に基づいて当該文書を分野分類する分野分類手段と、
前記文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出するための寄与度算出手段と、
前記寄与度算出手段により算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させるユニット分類手段と、
前記ユニット分類手段によって分類されたユニットを表示する表示手段と、
前記ユニット分類手段によってユニット分類された各ユニットに基づいて階層的クラスタリングを用いて、前記各ユニットのクラスタを生成するクラスタ生成手段と、
前記ユニットにおける前記文書に含まれるキーワードの出現頻度から特定されたユニットから前記表示手段に対する前記キーワードの配置情報を算出する配置情報算出手段と、
前記特定されたユニットと前記クラスタとの合致度を求めることで、前記特定されたユニットが属する前記クラスタと他クラスタとの関連からリンクを生成して前記表示手段に表示するリンク生成表示手段と、
を備えたことを特徴とする知識構造抽出装置。
知識構造抽出装置において文書から関連するキーワードを抽出して表示する知識構造抽出方法であって、
前記知識構造抽出装置の分野分類手段は、文書内容に基づいて当該文書を分野分類しする分野分類ステップと、
前記知識構造抽出装置の寄与度算出手段は、前記文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出するための寄与度算出ステップと、
前記知識構造抽出装置のユニット分類手段は、前記寄与度算出ステップにより算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させるユニット分類ステップと、
前記知識構造抽出装置の表示手段は、前記ユニット分類ステップによって分類されたユニットを表示する表示ステップと、
前記知識構造抽出装置のクラスタ生成手段は、前記ユニット分類ステップによってユニット分類された各ユニットに基づいて階層的クラスタリングを用いて、前記各ユニットのクラスタを生成するクラスタ生成ステップと、
前記知識構造抽出装置の配置情報算出手段は、前記ユニットにおける前記文書に含まれるキーワードの出現頻度から特定されたユニットから前記表示ステップに対する前記キーワードの配置情報を算出する配置情報算出ステップと、
前記知識構造抽出装置のリンク生成手段は、前記特定されたユニットと前記クラスタとの合致度を求めることで、前記特定されたユニットが属する前記クラスタと他クラスタとの関連からリンクを生成して表示するリンク生成表示ステップと、
を実行することを特徴とする知識構造抽出方法。
文書から関連するキーワードを抽出して表示する知識構造抽出装置において実行されるプログラムであって、
前記知識構造抽出装置を、
文書内容に基づいて当該文書を分野分類する分野分類手段と、
前記文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出するための寄与度算出手段と、
前記寄与度算出手段により算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させるユニット分類手段と、
前記ユニット分類手段によって分類されたユニットを表示する表示手段と、
前記ユニット分類手段によってユニット分類された各ユニットに基づいて階層的クラスタリングを用いて、前記各ユニットのクラスタを生成するクラスタ生成手段と、
前記ユニットにおける前記文書に含まれるキーワードの出現頻度から特定されたユニットから前記表示手段に対する前記キーワードの配置情報を算出する配置情報算出手段と、
前記特定されたユニットと前記クラスタとの合致度を求めることで、前記特定されたユニットが属する前記クラスタと他クラスタとの関連からリンクを生成して前記表示手段に表示するリンク生成表示手段と、
して機能させることと特徴とするプログラム。