JP5075953B2

JP5075953B2 - 代表文抽出装置およびプログラム

Info

Publication number: JP5075953B2
Application number: JP2010172009A
Authority: JP
Inventors: 早織新田; 敏行加納; 佳美齋藤
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2009-10-30
Filing date: 2010-07-30
Publication date: 2012-11-21
Anticipated expiration: 2030-07-30
Also published as: JP2011118869A

Description

本発明は、クラスタに属する文書群の内容を適切に表す代表文を当該文書群から抽出する代表文抽出装置およびプログラムに関する。

近年、情報の有効活用や共有の促進を図るために、大量の文書を内容または用途に応じて分類（整理）しておく技術が知られている。

このような文書を分類する技術（以下、クラスタリングと表記）においては、内容等において“共通点または類似性のある文書群”（即ち、クラスタ）が自動的に作成される。

ところで、クラスタリングによって作成されたクラスタに属する文書群の特徴を表す特徴語を当該クラスタに付与することによって、当該文書群の内容を容易に把握することができる技術（以下、第１の先行技術と表記）が開示されている（例えば、特許文献１を参照）。この特徴語は、例えばクラスタに属する文書群における単語の出現頻度に基づいて選択された単語である。

この第１の先行技術によれば、クラスタに付与された特徴語から当該クラスタに属する文書群の内容を推測することが可能となる。

しかしながら、クラスタに付与された特徴語だけでは当該クラスタに属する文書群の内容を間違って解釈する場合がある。

具体的には、クラスタに特徴語として「燃料」および「亀裂」が付与されている場合には、実際には、当該クラスタに属する文書群（の内容）は「燃料が漏れる」および「パイプに亀裂が発生する」の２つの異なる内容で構成されている場合がある。

このような場合には、クラスタに付与された特徴語のみでは、当該クラスタに属する文書群の内容を一目で把握することは困難である。

そこで、例えば比較的多様な内容の文書群に対して適用しても分かり易い要約を生成することができる技術（以下、第２の先行技術と表記）が開示されている（例えば、特許文献２を参照）。この第２の先行技術によれば、クラスタに属する文書群に対して、当該文書群の文書内に含まれる文間で共通する解析木の統合、当該解析木のスコアの累積および当該スコアの高い解析木の選択を行い、当該選択された解析木から要約文が生成される。

このような第２の先行技術において生成された要約文を例えば文書群に付与することによって、上記した特徴語のみから文書群の内容を把握する場合と比較して、より容易に当該文書群の内容を把握できる。

特開２０００−２３１５６０号公報特開２０００−２３５５８４号公報

ところで、上記した第２の先行技術では、文間で共通する解析木の統合において、当該解析木同士の比較が行われる。

ここで、解析木は木構造形式の表現であるため、当該解析木の統合の処理における計算量は多く、要約文の作成には時間がかかる。

また、第２の先行技術においては、統合前の各解析木に対してスコアが付与された後、統合後の解析木のスコアが算出される。このため、第２の先行技術では、扱われるデータ容量が比較的多くなる。

そこで、本発明の目的は、クラスタに属する文書群の内容を適切に表す代表文の抽出において必要となる処理時間およびデータ容量を削減することが可能な代表文抽出装置およびプログラムを提供することにある。

本発明の１つの態様によれば、クラスタに属する複数の文書の内容を適切に表す代表文を抽出する代表文抽出装置が提供される。この代表文抽出装置は、ユーザの操作に応じて、複数の自立語を含む第１の文によって構成される複数の文書であって、前記クラスタに属する複数の文書を入力する入力手段と、前記入力された複数の文書の各々を構成する第１の文を解析することによって、当該第１の文に含まれる複数の自立語および当該自立語間の係り受け関係が表された構造木を、当該第１の文毎に生成する解析手段と、少なくとも２つの自立語および当該自立語間の係り受け関係が表される部分構造木である代表文候補を、前記第１の文毎に生成された構造木の各々から抽出するルールを予め格納する抽出ルール格納手段と、前記抽出ルール格納手段に格納されている抽出ルールを用いて代表文候補を抽出する代表文候補抽出手段と、前記構造木の各々から抽出された代表文候補毎に第２の文を生成する文生成手段と、前記代表文候補毎に生成された第２の文のうちの同一の第２の文を１つに集約することによって、集約代表文候補文を生成する集約手段と、前記集約手段によって生成された集約代表文候補文に集約された第２の文の数に基づいて当該集約代表文候補文を代表文として決定する決定手段とを具備する。

本発明は、クラスタに属する文書群の内容を適切に表す代表文の抽出において必要となる処理時間およびデータ容量を削減することを可能とする。

本発明の第１の実施形態に係る代表文抽出装置のハードウェア構成を示すブロック図。図１に示す代表文抽出装置３０の主として機能構成を示すブロック図。本実施形態に係る代表文抽出装置３０の処理手順を示すフローチャート。入力部３１によって入力された文書群の一例を示す図。２つのノードおよび当該ノード間の係り受け関係を表すアークを用いて表現される依存構造木を示す図。「一郎が早いボールを軽々投げた」という文の依存構造木の一例を示す図。「タンクの強度不足により燃料タンクの底板形状の成形不良が当該接着部から生じるため、燃料が漏れて火災に至る。」という文の依存構造木の一例を示す図。代表文候補抽出部３３による代表文候補を抽出処理について概念的に説明するための図。図７に示す依存構造木に対して第１の抽出ルールが適用された場合について具体的に説明するための図。図７に示す依存構造木に対して第１の抽出ルールが適用された場合について具体的に説明するための図。図７に示す依存構造木に対して第１の抽出ルールが適用された場合について具体的に説明するための図。図７に示す依存構造木に対して第１の抽出ルールが適用された場合について具体的に説明するための図。ノードの取込み処理について具体的に説明するための図。図１０に示す部分依存構造木に対して不要リーフノードの削除処理が行われた結果を示す図。図１１に示す部分依存構造木に対して不要リーフノードの削除処理が行われた結果を示す図。依存構造木に対して第２の抽出ルールが適用されることによって抽出される部分構造木について説明するための図。図７に示す依存構造木に対して第２の抽出ルールが適用された場合に抽出される分岐なし依存構造木の一例を示す図。図７に示す依存構造木に対して第２の抽出ルールが適用された場合に抽出される分岐なし依存構造木の一例を示す図。図７に示す依存構造木に対して第２の抽出ルールが適用された場合に抽出される分岐なし依存構造木の一例を示す図。図７に示す依存構造木に対して第２の抽出ルールが適用された場合に抽出される分岐なし依存構造木の一例を示す図。図７に示す依存構造木に対して第２の抽出ルールが適用された場合に抽出される分岐なし依存構造木の一例を示す図。図７に示す依存構造木に対して第２の抽出ルールが適用された場合に抽出される分岐なし依存構造木の一例を示す図。依存構造木に対して第３の抽出ルールが適用されることによって抽出される部分構造木について説明するための図。図７に示す依存構造木に対して第３の抽出ルールが適用された場合に抽出される１世代部分依存構造木の一例を示す図。依存構造木に対して第４の抽出ルールが適用されることによって抽出される部分構造木について説明するための図。図７に示す依存構造木に対して第４の抽出ルールが適用された場合に抽出される２語文部分依存構造木の一例を示す図。図７に示す依存構造木に対して第４の抽出ルールが適用された場合に抽出される２語文部分依存構造木の一例を示す図。依存構造木に対して第５の抽出ルールが適用されることによって抽出される部分構造木について説明するための図。アークの種類が必須格であるか否かの判定に用いられる格フレーム辞書のデータ構造の一例を示す図。図７に示す依存構造木に対して第６の抽出ルールが適用された場合に抽出される因果関係の依存構造木の一例を示す図。代表文候補抽出部３３によって抽出された代表文候補の一例を示す図。第１の文生成方法によって生成される代表文候補文について具体的に説明するための図。言い換え処理に用いられる置換ルールのデータ構造の一例を示す図。第２の文生成方法によって生成される代表文候補文について具体的に説明するための図。同義語辞書のデータ構造の一例を示す図。第３の文生成方法によって生成される代表文候補文について具体的に説明するための図。文生成集約部３４によって生成された集約代表文候補文の一例を示す図。代表文決定部３５によって決定された代表文の一例を示す図。代表文が表示された場合の表示画面の一例を示す図。集約代表文候補文の中から抽出される不要集約代表文候補文の一例を示す図。不要集約代表文候補文が除外された後の集約代表文候補文の一例を示す図。本発明の第２の実施形態に係る代表文抽出装置３０の処理手順を示すフローチャート。入力部３１によって入力されたクラスタ情報のデータ構造の一例を示す図。入力部３１によって入力された文書群の一例を示す図。文生成集約部３４によって生成された集約代表文候補文の一例を示す図。対象クラスタ内文書ＩＤおよび比較クラスタ内文書ＩＤが付与された集約代表文候補文の一例を示す図。文生成集約部３４によって生成された集約代表文候補文毎に算出された代表度の一例を示す図。代表文決定部３５によって決定された代表文の一例を示す図。集約代表文候補文の中から抽出される不要集約代表文候補文の一例を示す図。不要集約代表文候補文が除外された後の集約代表文候補文の一例を示す図。本発明の第３の実施形態に係る代表文抽出装置の主として機能構成を示すブロック図。本実施形態に係る代表文抽出装置３００の処理手順を示すフローチャート。代表文分類部３０１による分類結果の一例を示す図。階層的な代表文分類結果の一例を示す図。

以下、図面を参照して、本発明の各実施形態について説明する。

［第１の実施形態］
まず、図１および図２を参照して、本発明の第１の実施形態について説明する。図１は、本実施形態に係る代表文抽出装置のハードウェア構成を示すブロック図である。図１に示すように、コンピュータ１０は、例えばハードディスクドライブ（ＨＤＤ：Hard Disk Drive）のような外部記憶装置２０と接続されている。この外部記憶装置２０は、コンピュータ１０によって実行されるプログラム２１を格納する。コンピュータ１０および外部記憶装置２０は、代表文抽出装置３０を構成する。

代表文抽出装置３０は、例えばユーザによって指定されたクラスタに属する文書群（つまり、複数の文書）から、当該文書群の内容を適切に表す代表文を抽出する機能を有する。なお、クラスタには、例えば共通点または類似性のある文書群が属する。

図２は、図１に示す代表文抽出装置３０の主として機能構成を示すブロック図である。図２に示すように、代表文抽出装置３０は、入力部３１、構文解析部３２、代表文候補抽出部３３、文生成集約部３４、代表文決定部３５および出力部３６を含む。本実施形態において、これらの各部３１〜３６は、図１に示すコンピュータ１０が外部記憶装置２０に格納されているプログラム２１を実行することにより実現されるものとする。このプログラム２１は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム２１が、例えばネットワークを介してコンピュータ１０にダウンロードされても構わない。

また、代表文抽出装置３０は、抽出ルール格納部２２および変換情報格納部２３を含む。本実施形態において、この抽出ルール格納部２２および変換情報格納部２３は、例えば外部記憶装置２０に格納される。

入力部３１は、ユーザの操作に応じて、当該ユーザによって指定されたクラスタに属する複数の文書（文書群）を入力する（受け付ける）。入力部３１によって入力される複数の文書は、複数の自立語（の文字列）を含む文（第１の文）によって構成される。なお、入力部３１によって入力される複数の文書の各々には、当該文書を識別するための文書ＩＤが付与されている。

構文解析部３２は、入力部３１によって入力された複数の文書の各々を構成する文を構文解析する。これにより、構文解析部３２は、入力部３１によって入力された複数の文書の各々を構成する文に含まれる複数の自立語および当該自立語間の係り受け関係が表された構造木（以下、依存構造木と表記）を生成する。なお、依存構造木は、複数の文書の各々を構成する文毎に生成される。構文解析部３２によって生成される依存構造木は、後述するように自立語（見出し語）等が付与されたノードおよび自立語間の係り受け関係の種類が付与されたアークによって表現される。なお、構文解析部３２によって生成される依存構造木には、当該依存構造木の生成に用いられた文を含む文書を識別するための文書ＩＤが付与される。

抽出ルール格納部２２には、構文解析部３２によって生成された依存構造木に適用することにより当該依存構造木の部分構造木を抽出するための抽出ルールが予め格納されている。なお、抽出ルール格納部２２には、それぞれ異なる複数の抽出ルールが格納されている。

代表文候補抽出部３３は、少なくとも２つの自立語および当該自立語間の係り受け関係が表された部分構造木である代表文候補を、構文解析部３２によって生成された依存構造木から抽出する。このとき、代表文候補抽出部３３は、抽出ルール格納部２２に格納されている抽出ルールの各々を適用することによって代表文候補を抽出する。代表文候補抽出部３３によって抽出された代表文候補には、当該代表文候補が抽出された依存構造木に付与された文書ＩＤと同一の文書ＩＤが付与される。

変換情報格納部２３には、例えば複数の自立語および当該自立語間の係り受け関係を変換するために用いられる変換情報が予め格納されている。この変換情報格納部２３に格納されている変換情報は、代表文候補抽出部３３によって抽出された代表文候補によって表される複数の自立語および当該自立語間の係り受け関係を変換するために用いられる。変換情報格納部２３に格納されている変換情報には、例えば変換前の自立語（および当該自立語間の係り受け関係）と変換後の自立語（および当該自立語間の係り受け関係）とが含まれる。なお、変更情報格納部２３には、変換情報として、例えば後述する活用形辞書、置換ルールおよび同義語辞書が格納されている。

文生成集約部３４は、代表文候補抽出部３３によって抽出された代表文候補（部分構文木）を平文（以下、代表文候補文と表記）にする処理を実行する。文生成集約部３４は、変換情報格納部２３に格納されている変換情報に基づいて代表文候補抽出部３３によって抽出された代表文候補によって表される少なくとも２つの自立語および当該自立語間の係り受け関係を変換し、当該変換された少なくとも２つの自立語および当該自立語間の係り受け関係に基づいて代表文候補文（第２の文）を生成する。文生成集約部３４によって生成された代表文候補文には、当該代表文候補文の生成に用いられた代表文候補に付与された文書ＩＤが付与される。

また、文生成集約部３４は、生成された代表文候補文（代表文候補の平文）を集約することによって集約代表文候補文を生成する処理を実行する。文生成集約部３４は、代表文候補文のうちの同一の代表文候補文を１つの集約代表文候補文に集約する。文生成集約部３４が集約することによって生成された集約代表文候補文には、当該集約代表文候補文に集約された代表文候補文の各々に付与された文書ＩＤが付与される。

代表文決定部３５は、文生成集約部３４によって生成された集約代表文候補文に集約された代表文候補文の数に基づいて当該集約代表文候補文を代表文として決定（選択）する。なお、文生成集約部３４によって集約代表文候補文に集約された代表文候補文の数は、当該集約代表文候補文に付与された文書ＩＤの数により特定される。

なお、代表文決定部３５は、例えば内部パラメータにおいて予め指定された数の代表文を選択（決定）する。

出力部３６は、代表文決定部３５によって決定された代表文を出力する。これにより、代表文決定部３５によって決定された代表文（つまり、入力部３１によって入力された文書群の内容を適切に表す代表文）がユーザに対して提示される。

次に、図３のフローチャートを参照して、本実施形態に係る代表文抽出装置３０の処理手順について説明する。

まず、入力部３１は、ユーザの操作に応じて、当該ユーザによって指定されたクラスタに属する文書群を入力する（ステップＳ１）。入力部３１によって入力される文書群には、複数の文書が含まれる。ここでは、例えば自動車の不具合情報に関する文書群が入力部３１によって入力されたものとする。

図４は、入力部３１によって入力された文書群の一例を示す。なお、文書群（に含まれる文書の各々）は、平文の形式で入力部３１によって入力される。図４に示すように、入力部３１によって入力された文書群に含まれる各文書は、複数の自立語を含む複数の文によって構成される。また、入力部３１によって入力された文書群に含まれる各文書には、当該文書を識別するための文書ＩＤが付与されている。

図４に示す例では、入力部３１によって入力された文書群には、文書「燃料が漏れる。タンクの強度不足により燃料タンクの底板形状の成形不良が当該接着部から生じるため、燃料が漏れて火災に至る。」が含まれる。なお、この文書「燃料が漏れる。タンクの強度不足により燃料タンクの底板形状の成形不良が当該接着部から生じるため、燃料が漏れて火災に至る。」には、当該文書を識別するための文書ＩＤ「１」が付与されている。

ここでは、入力部３１によって入力された文書群に含まれる文書「燃料が漏れる。タンクの強度不足により燃料タンクの底板形状の成形不良が当該接着部から生じるため、燃料が漏れて火災に至る。」について説明したが、他の文書についても同様であるため、その詳しい説明を省略する。

再び図３に戻ると、構文解析部３２は、入力部３１によって入力された文書群に含まれる各文書を構成する各文（第１の文）、つまり、当該文書群に含まれる各文書中の全ての文について構文解析を行う（ステップＳ２）。構文解析部３２による構文解析の結果は、依存構造木によって表現される。なお、１つの文が構文解析された結果は、１つの依存構造木となる。換言すれば、構文解析部３２は、入力部３１によって入力された文書群に含まれる各文書を構成する各文を構文解析することによって、当該文毎に依存構造木を生成する。なお、構文解析部３２によって生成された依存構造木には、当該依存構造木の生成に用いられた文（つまり、構文解析された文）によって構成される文書を識別するため文書ＩＤが付与される。以下、文を構文解析することによって生成された依存構造木を、単に当該文の依存構造木と称する。

ここで、構文解析部３２によって生成される依存構造木について詳しく説明する。依存構造木においては、複数の自立語および当該自立語間の係り受け関係がノードおよびアークを用いて表現される。つまり、依存構造木には、ノードおよびアークが含まれる。

ノードは、依存構造木において自立語を表す。このノードには、当該自立語の見出し語、当該見出し語の品詞および当該見出し語の付属語が付与される。ノードに付与される自立語の見出し語は、当該自立語の文字列を示す。ノードに付与される見出し語の品詞は、当該見出し語（つまり、ノードによって表される自立語）の品詞を表す。

ノードに付与される品詞には、例えば名詞、サ変名詞、動詞、形容詞、副詞および連体詞等が含まれる。このような品詞の中でも、動詞、形容詞のような、活用形のある品詞を用言とするものとする。

ノードに付与される見出し語の付属語は、当該見出し語に付随する付属語を表す。ノードに付与される見出し語の付属語には、例えば「が」、「を」、「の」および「に」のような助詞等が含まれる。

アークは、依存構造木においてノード間の構文的な係り受け関係を表す。このアークには、ノード間（自立語間）の係り受け関係の種類が付与される。アークに付与される係り受け関係の種類には、例えばガ格、ヲ格、連体修飾および隣接等が含まれる。なお、依存構造木においては、アークは例えば矢印により記述される。このアークの矢印は、ノード間の係り受け関係における係り元のノードから係り先のノードに向かうものとする。

以下、１つのアークを用いて表される２つのノード間の係り受け関係において、当該アークにおける係り先のノード（つまり、１つのアークにおける終点となるノード）を親ノードと称する。一方、１つのアークを用いて表される２つのノード間の係り受け関係において、当該アークにおける係り元ノード（つまり、１つのアークにおける始点となるノード）を子ノードと称する。

図５は、２つのノードおよび当該ノード間の係り受け関係を表すアークを用いて表現される依存構造木を示す。図５に示す依存構文木においては、ノード１０１および１０２がアーク１０３によってつながれる。図５に示す例では、ノード１０１が親ノードであり、ノード１０２が子ノードである。

図５に示すような依存構造木を組み合せることにより、複数の自立語を含む文の構文解析結果（つまり、依存構造木）が表現される。

ここで、図６を参照して、より具体的な依存構造木について説明する。図６は、「一郎が早いボールを軽々投げた」という文の依存構造木（当該文を構文解析することによって生成された依存構造木）の一例を示す。図６に示す依存構造木においては、ノード１１１〜１１５およびアーク１２１〜１２４を用いて「一郎が早いボールを軽々投げた」という文の構文解析結果が表現されている。

図６に示すように、依存構造木においては、ノード１１１〜１１５には、見出し語、品詞および付属語が付与されている。例えばノード１１２には、見出し語「一郎」、品詞「名詞」および付属語「が」が付与されている。なお、例えば他のノードとの関係によっては、ノード１１１のように付属語が付与されない場合がある。

また、依存構造木においては、アーク１２１〜１２４には、ノード間の係り受け関係の種類が付与されている。例えばアーク１２１には、ノード１１１および１１２間の係り受け関係の種類としてガ格が付与されている。

なお、依存構造木に含まれるノードは、当該依存構造木におけるアークによる他のノードとのつながり方により、ルートノード、中間ノードおよびリーフノードの３種類のノードに分類される。

ルートノードとは、親ノードが存在しない（つまり、アークにより親ノードとつながっていない）ノードである。中間ノードとは、親ノードおよび子ノードが存在する（つまり、アークにより親ノードおよび子ノードとつながっている）ノードである。また、リーフノードとは、子ノードが存在しない（つまり、アークにより子ノードとつながっていない）ノードである。

図６に示す依存構造木において、ノード１１１は、ルートノードである。ノード１１３は、中間ノードである。また、ノード１１２、１１４および１１５はリーフノードである。

また、例えばルートノードと直接的に１つのアークでつながっているノードを、第１世代子ノードと称する。図６に示す依存構造木において、第１世代子ノードは、ノード１１２〜１１４である。

つまり、図６に示す依存構造木において、ノード１１２および１１４は、第１世代子ノードであり、かつ、リーフノードである。また、図６に示す依存構造木において、ノード１１３は、第１世代子ノードであり、かつ、中間ノードである。

なお、図７は、上述した図４において説明した文書ＩＤ「１」が付与されている文書を構成する文のうちの２つ目の文である「タンクの強度不足により燃料タンクの底板形状の成形不良が当該接着部から生じるため、燃料が漏れて火災に至る。」という文の依存構造木の一例を示す。図７に示す依存構造木の詳細については、上記した依存構造木について説明した通りであるため、その詳しい説明を省略する。

再び図３に戻ると、代表文候補抽出部３３は、構文解析部３２によって生成された依存構造木の一部である部分構造木である代表文候補を、当該依存構造木から抽出する（ステップＳ３）。代表文候補抽出部３３は、抽出ルール格納部２２に格納されている抽出ルールを用いて代表文候補を抽出する。なお、代表文抽出部３３によって抽出される代表文候補（部分構造木）は、少なくとも２つの自立語および当該自立語間の係り受け関係を表す構造木である。なお、代表文候補抽出部３３は、構文解析部３２によって文毎に生成された依存構造木の各々から代表文候補を抽出する。

抽出ルール格納部２２に格納されている抽出ルールは、依存構造木に適用され、当該依存構造木から代表文候補を抽出することができるルールである。抽出ルール格納部２２には、例えばそれぞれ異なる複数の抽出ルールが格納されている。

ここで、図８を参照して、代表文候補抽出部３３による代表文候補を抽出する処理（以下、代表文候補抽出処理と表記）について概念的に説明する。

図８に示すように、代表文候補抽出処理においては、１つの依存構造木に対して抽出ルール格納部２２に格納されている抽出ルールの各々が適用されることにより、当該抽出ルール毎に当該依存構造木から部分構造木が抽出される。

つまり、代表文候補抽出処理においては、抽出ルール毎に抽出された部分構造木を寄せ集めることによって、当該部分構造木が代表文候補とされる。

以下、抽出ルール格納部２２に格納されている抽出ルールについて具体的に説明する。本実施形態においては、抽出ルール格納部２２には第１〜第６の抽出ルールを含む複数の抽出ルールが格納されているものとする。

まず、第１の抽出ルールについて説明する。第１の抽出ルールにおいては、依存構造木によって表される複数の自立語のうちの動詞に着目する。第１の抽出ルールによれば、依存構造木によって表される複数の自立語のうちの動詞に基づいて当該依存構造木が分割される。より具体的には、第１の抽出ルールによれば、当該第１の抽出ルールが適用される依存構造木において、ノードに付与されている見出し語の品詞が動詞であるノード（以下、動詞ノードと表記）および当該動詞ノードの親ノード間のアークが切断されることによって当該依存構造木が分割される。つまり、第１の抽出ルールでは、分割された依存構造木の各々が部分構造木として抽出される。以下、第１の抽出ルールが適用されることによって抽出される部分構造木を部分依存構造木と称する。

ここで、図９〜図１２を参照して、上記した図７に示す依存構造木に対して第１の抽出ルールが適用された場合について具体的に説明する。以下の説明においては、図７に示す依存構造木を対象依存構造木と称する。

図９に示すように、対象依存構造木には、動詞ノードとして見出し語「至る」が付与されたノード、見出し語「生じる」が付与されたノードおよび見出し語「漏れて」が付与されたノードが含まれている。以下の説明においては、例えば見出し語「至る」が付与されたノードを「至る」ノードと称する。なお、他のノードの説明においても同様である。

ここで、「至る」ノードは、ルートノードであるため、当該「至る」ノードの親ノードは存在しない。一方、「生じる」ノードおよび「漏れて」ノードは、共に中間ノードであるため、親ノードが存在する。

したがって、対象依存構造木に対して第１の抽出ルールが適用された場合、「生じる」ノードと当該「生じる」ノードの親ノード（ここでは、「ため、」ノード）とをつなぐアーク（つまり、「生じる」ノードおよびその親ノード間のアーク）が切断される。同様に、「漏れて」ノードと当該「漏れて」ノードの親ノード（ここでは、「至る」ノード）とをつなぐアークが切断される。

上記したようにアークが切断される（つまり、分割される）ことにより、対象依存構造木から、図１０〜図１２に示す３つの部分依存構造木が抽出される。

なお、上記した第１の抽出ルールが適用されることによって抽出された部分依存構造木に対して、更にノードの取込み処理または不要リーフノードの削除処理が行われても構わない。

ノードの取込み処理とは、例えば対象依存構造木（つまり、分割前の依存構造木）において、第１の抽出ルールが適用されることにより切断されたアーク（つまり、動詞ノードおよびその親ノード間のアーク）に付与されている係り受け関係の種類（以下、単にアークの種類と表記）が連体修飾である場合に、当該アークによって表されるノード間の係り受け関係における係り先ノード（以下、単にアークの係り先ノードと表記）を係り元ノード側の部分依存構造木が取り込む処理である。

ここで、図１３を参照して、ノードの取込み処理について具体的に説明する。ここでは、例えば「亀裂から漏れた燃料により火災に至る」という文の依存構造木に対して第１の抽出ルールが適用される場合について説明する。

この場合、図１３に示すように、「亀裂から漏れた燃料により火災に至る」という文の依存構造木においては、動詞ノードとして「至る」ノードおよび「漏れた」ノードが含まれている。ここで、「至る」ノードは、ルートノードであるため、当該「至る」ノードの親ノードは存在しない。一方、「漏れた」ノードは、中間ノードであるため、親ノードが存在する。

したがって、「亀裂から漏れた燃料により火災に至る」という文の依存構造木に対して第１の抽出ルールが適用された場合、「漏れた」ノードおよびその親ノードである「燃料ノード」間のアークが切断される。これにより、「至る」ノードをルートノードとする部分構造木および「漏れた」ノードをルートノードとする２つの部分依存構造木が抽出される。

ここで、図１３に示すように、「亀裂から漏れた燃料により火災に至る」という文の依存構造木において切断されたアーク（「漏れた」ノードおよび「燃料」ノード間のアーク）の種類は連体修飾である。このため、ノードの取込み処理においては、切断されたアークの係り先ノードである「燃料」ノードが「漏れた」ノードをルートノードとする部分依存構造木に取り込まれる。この際、「漏れた」ノードと「燃料」ノードの係り受け関係は逆にされる（つまり、「漏れた」ノードを係り先ノード、「燃料」ノードを係り元ノードとする）。また、この場合、「漏れた」ノードおよび「燃料」ノード間のアークの種類は連体修飾からガ格にされ、「燃料」ノードに付与されている付属語（「燃料」ノードの付属語）を「により」から「が」に変更する。

なお、上記した第１の抽出ルールが適用されることによって抽出された「至る」ノードをルートノードとする部分依存構造木に含まれる「燃料」ノードは、上記したように「漏れた」ノードをルートノードとする部分依存構造木に取り込まれた場合であっても変更されない。

上記したように例えば「亀裂から漏れた燃料により火災に至る」という文の依存構造木に対して第１の抽出ルールが適用され、かつ、ノードの取り込み処理が行われた場合には、図１３に示すように、「燃料が亀裂から漏れた」および「燃料により火災に至る」の部分依存構造木が抽出される。

一方、不要リーフノードの削除処理とは、第１の抽出ルールが適用されることによって抽出された部分依存構造木から不要リーフノードを削除する処理である。この不要リーフノードの削除処理においては、不要リーフノードとして見出し語（または品詞）が予め設定されている。なお、不要リーフノード（の内容）は、必要に応じて、適宜、設定可能である。

ここで、図１４および図１５を参照して、不要リーフノードの削除処理について具体的に説明する。ここでは、第１の抽出ルールが適用されることによって抽出された部分依存構造木（図１０〜図１２に示す部分依存構造木）に対して不要リーフノードの削除処理が行われた場合について説明する。

なお、不要リーフノードとして見出し語「ため、」および「当該」（が付与されているノード）が予め設定されているものとする。

図１４は、図１０に示す部分依存構造木に対して不要リーフノードの削除処理が行われた結果を示す。図１０に示す部分依存構造木には、不要リーフノードである「ため、」ノードが含まれている。このため、図１４に示すように、不要リーフノードの削除処理においては、部分依存構造木に含まれる「ため、」ノードが削除される。

図１５は、図１１に示す部分依存構造木に対して不要リーフノードの削除処理が行われた結果を示す。図１１に示す部分依存構造木には、不要リーフノードである「当該」ノードが含まれている。このため、図１５に示すように、不要リーフノードの削除処理においては、部分依存構造木に含まれる「当該」ノードが削除される。

なお、図１２に示す部分依存構造木には、不要リーフノード（つまり、「ため、」ノードおよび「当該」ノード）が含まれていない。このため、図１２に示す部分依存構造木に含まれるノードは削除されない。

以上により、対象依存構造木（図７に示す依存構造木）に対して第１の抽出ルールが適用された場合、上記した図１２、図１４および図１５に示す部分依存構造木が抽出される。

次に、第２の抽出ルールについて説明する。第２の抽出ルールによれば、上記した第１の抽出ルールが適用されることによって抽出された部分依存構造木を利用して部分構造木が抽出される。

ここで、図１６を参照して、依存構造木に対して第２の抽出ルールが適用されることによって抽出される部分構造木について説明する。

第２の抽出ルールにおいては、第１の抽出ルールが適用されることによって抽出された部分依存構造木におけるルートノードおよび第１世代子ノード（つまり、ルートノードの子ノード）間の全てのアークの種類に着目する。これらのアークの中に、アークの種類がガ格、ヲ格、ニ格、カラ格、場所格および道具格であるアークが存在する場合に、第２の抽出ルールは適用される。なお、この第２の抽出ルールが適用されるべきアークの種類は予め設定されている。

第２の抽出ルールが適用される場合には、まず、依存構造木に対して第１の抽出ルールが適用されることによって部分依存構造木が抽出される。

第１の抽出ルールが適用されることによって抽出された部分依存構造木におけるルートノードおよび第１世代子ノード間の全てのアークの中から、アークの種類がガ格、ヲ格、ニ格、カラ格、場所格および道具格であるアークが探索される（ステップＳ１１）。

次に、ルートノードおよび第１世代子ノード間の全てのアークのうちアークの種類がガ格、ヲ格、ニ格、カラ格、場所格および道具格以外であるアーク（つまり、探索されたアーク以外のアーク）が切断される（ステップＳ１２）。

この後、アークが切断された後の部分依存構造木において、ルートノードおよび各リーフノード間における全てのノードおよびアークを含む部分構造木が抽出される（ステップＳ１３）。図１６に示す例では、３つの部分構造木が抽出される。

上記したように第２の抽出ルールによれば、部分依存構造木から分岐のない部分構造木が抽出される。以下、第２の抽出ルールが適用されることによって抽出される部分構造木を分岐なし依存構造木と称する。

ここで、例えば対象依存構造木（図７に示す依存構造木）に対して第２の抽出ルールが適用された場合について具体的に説明する。

まず、対象依存構造木に対して第１の抽出ルールが適用されることにより、部分依存構造木が抽出される。ここでは、上記した図１５に示す部分依存構造木が抽出されたものとする。

この場合、図１５に示す部分依存構造木におけるルートノードである「生じる」ノードおよび第１世代子ノードである「不足」ノード間のアークの種類は、道具格である。

また、図１５に示す部分依存構造木におけるルートノードである「生じる」ノードおよび第１世代子ノードである「不良」ノード間のアークの種類は、ガ格である。

また、図１５に示す部分依存構造木におけるルートノードである「生じる」ノードおよび第１世代子ノードである「接着部」ノード間のアークの種類は、カラ格である。

したがって、図１５に示す部分依存構造木においては、アークの種類がガ格、ヲ格、ニ格、カラ格、場所格および道具格以外であるアーク（ルートノードおよび第１世代子ノード間のアーク）は存在しない。このため、図１５に示す部分依存構造木においてはルートノードおよび第１世代子ノード間のアークの切断は行われない。

次に、図１５に示す部分依存構造木において、ルートノードである「生じる」ノードおよび各リーフノード間における全てのノードおよびアークを含む分岐なし依存構造木が抽出される。

具体的には、ルートノードである「生じる」ノードおよびリーフノードである「タンク」ノード間における全てのノードおよびアークを含む分岐なし依存構造木として、図１７に示す分岐なし依存構造木が抽出される。

同様に、ルートノードである「生じる」ノードおよびリーフノードである「強度」ノード間における全てのノードおよびアークを含む分岐なし依存構造木として、図１８に示す分岐なし依存構造木が抽出される。

また、ルートノードである「生じる」ノードおよびリーフノードである「成形」ノード間における全てのノードおよびアークを含む分岐なし依存構造木として、図１９に示す分岐なし依存構造木が抽出される。

また、ルートノードである「生じる」ノードおよびリーフノードである「底板」ノード間における全てのノードおよびアークを含む分岐なし依存構造木として、図２０に示す分岐なし依存構造木が抽出される。

また、ルートノードである「生じる」ノードおよびリーフノードである「燃料タンク」ノード間における全てのノードおよびアークを含む分岐なし依存構造木として、図２１に示す分岐なし依存構造木が抽出される。

また、ルートノードである「生じる」ノードおよびリーフノードである「から」ノード間における全てのノードおよびアークを含む分岐なし依存構造木として、図２２に示す分岐なし依存構造木が抽出される。

したがって、対象依存構造木に対して第２の抽出ルールが適用された場合には、上記した図１７〜図２２に示す分岐なし依存構造木が抽出される。

なお、対象依存構造木に対して第１の抽出ルールが適用されることによって例えば図１２および図１４に示す部分依存構造木が抽出された場合には、当該図１２および図１４に示す部分依存構造木と同様の分岐なし依存構造木が抽出される。

次に、第３の抽出ルールについて説明する。第３の抽出ルールによれば、上記した第２の抽出ルールと同様に、第１の抽出ルールが適用されることによって抽出される部分依存構造木を利用して部分構造木が抽出される。

ここで、図２３を参照して、依存構造木に対して第３の抽出ルールが適用されることによって抽出される部分構造木について説明する。

第３の抽出ルールにおいては、第１の抽出ルールが適用されることによって抽出された部分依存構造木におけるルートノードおよび第１世代子ノード間の全てのアークの種類に着目する。これらのアークの中に、アークの種類がガ格、ヲ格、ニ格、カラ格、場所格および道具格であるアークが存在する場合に、第３の抽出ルールは適用される。なお、この第３の抽出ルールが適用されるべきアークの種類は予め設定されている。

第３の抽出ルールが適用される場合には、まず、依存構造木に対して第１の抽出ルールが適用されることによって、部分依存構造木が抽出される。

第１の抽出ルールが適用されることによって抽出された部分依存構造木におけるルートノードおよび第１世代子ノード間の全てのアークの中から、アークの種類がガ格、ヲ格、ニ格、カラ格、場所格および道具格であるアークが探索される（ステップ２１）。

次に、ルートノードおよび第１世代子ノード間の全てのアークのうちアークの種類がガ格、ヲ格、ニ格、カラ格、場所格および道具格以外であるアーク（つまり、探索されたアーク以外のアーク）が切断される（ステップＳ２２）。

なお、ここまでの処理（ステップＳ２１およびステップＳ２２の処理）は、上述した第２の抽出ルールが適用される場合において説明した図１６に示すステップＳ１１およびステップＳ１２の処理と同様である。

この後、アークが切断された後の部分依存構造木において、ルートノードの子ノード（つまり、第１世代子ノード）をリーフノードとする部分構造木が抽出される（ステップＳ２３）。つまり、図２３に示すように、ルートノードと、当該ルートノードの子ノードと、当該ルートノードおよび第１世代子ノード間のアークを含む部分構造木が抽出される。

上記したように第３の抽出ルールによれば、部分依存構造木におけるルートノードおよび第１世代子ノードのみからなる部分構造木が抽出される。以下、第３の抽出ルールが適用されることによって抽出される部分構造木を１世代部分依存構造木と称する。

ここで、例えば対象依存構造木（図７に示す依存構造木）に対して第３の抽出ルールが適用された場合について具体的に説明する。

この場合、上記したように図１５に示す部分依存構造木においては、アークの種類がガ格、ヲ格、ニ格、カラ格、場所格、および道具格以外であるアーク（ルートノードおよび第１世代子ノード間のアーク）は存在しない。このため、図１５に示す部分依存構造木においては、ルートノードおよび第１世代子ノード間のアークの切断は行われない。

次に、図１５に示す部分依存構造木において、ルートノードの子ノード（第１世代子ノード）をリーフノードとした１世代部分依存構造木が抽出される。

図１５に示す部分依存構造木において、ルートノードである「生じる」ノードの子ノードは、「不足」ノード、「不良」ノードおよび「接着部」ノードである。このため、ルートノードである「生じる」ノードと、当該ルートノードの子ノードである「不足」ノードと、「不良」ノードと、「接着部」ノードと、当該ルートノードおよびその子ノード間のアークとを含む１世代部分依存構造木が抽出される。

したがって、対象依存構造木に対して第３の抽出ルールが適用された場合には、上記した図２４に示す１世代部分依存構造木が抽出される。

なお、対象依存構造木に対して第１の抽出ルールが適用されることによって例えば図１２および図１４に示す部分依存構造木が抽出された場合には、当該図１２および図１４に示す部分依存構造木と同様の１世代部分依存構造木が抽出される。

次に、第４の抽出ルールについて説明する。第４の抽出ルールによれば、上記した第３の抽出ルールが適用されることによって抽出された１世代部分依存構造木を利用して部分構造木が抽出される。

ここで、図２５を参照して、依存構造木に対して第４の抽出ルールが適用されることによって抽出される部分構造木について説明する。

第４の抽出ルールが適用される場合には、まず、依存構造木に対して上記した第３の抽出ルールが適用されることによって、１世代部分依存構造木が抽出される（ステップＳ３１）。

次に、第３の抽出ルールを適用することによって抽出された１世代部分依存構造木におけるルートノードおよび第１世代子ノード間のアークを用いて、当該ルートノードおよび第１世代子ノードの各々を含む部分構造木が抽出される（ステップＳ３２）。

上記したように第４の抽出ルールによれば、１世代部分依存構造木におけるルートノードおよび第１世代子ノードの２ノードを含む部分構造木が抽出される。以下、第４の抽出ルールが適用されることによって抽出される部分構造木を２語文部分依存構造木と称する。

ここで、例えば対象依存構造木（図７に示す依存構造木）に対して第４の抽出ルールが適用された場合について具体的に説明する。

まず、対象依存構造木に対して第３の抽出ルールが適用されることにより、１世代部分依存構造木が抽出される。ここでは、上記した図２４に示す１世代部分依存構造木が抽出されたものとする。

図２４に示す１世代部分依存構造木におけるルートノードは「生じる」ノードであり、第１世代子ノードは「不足」ノード、「不良」ノードおよび「接着部」ノードである。この場合、ルートノードである「生じる」ノードおよび第１世代子ノードである「不足」ノードを含む２語文部分依存構造木、ルートノードである「生じる」ノードおよび第１世代子ノードである「不良」ノードを含む２語文部分依存構造木およびルートノードである「生じる」ノードおよび第１世代子ノードである「接着部」ノードを含む２語文部分依存構造木が抽出される。

具体的には、ルートノードである「生じる」ノードおよび第１世代子ノードである「不足」ノードを含む２語文部分依存構造木として、図２６に示す２語文部分依存構造木が抽出される。

また、ルートノードである「生じる」ノードおよび第１世代子ノードである「不良」ノードを含む２語文部分依存構造木として、図２７に示す２語文部分依存構造木が抽出される。

また、ルートノードである「生じる」ノードおよび第１世代子ノードである「接着部」ノードを含む２語文部分依存構造木として、図２２に示す分岐なし依存構造木と同様の２語文部分依存構造木が抽出される。

したがって、対象依存構造木に対して第４の抽出ルールが適用された場合には、上記した図２２、図２６、図２７に示す２語文部分依存構造木が抽出される。

なお、例えば対象依存構造木に対して第３の抽出ルールが適用されることによって上記した図１２および図１４に示す部分依存構造木と同様の１世代部分依存構造木が抽出された場合には、同様に、当該１世代部分依存構造木と同様の２語文部分依存構造木が抽出される。

次に、第５の抽出ルールについて説明する。第５の抽出ルールによれば、上記した第４の抽出ルールと同様に、第３の抽出ルールが適用されることによって抽出される１世代部分依存構造木を利用して部分構造木が抽出される。

ここで、図２８を参照して、依存構造木に対して第５の抽出ルールが適用されることによって抽出される部分構造木について説明する。

第５の抽出ルールが適用される場合には、まず、依存構造木に対して上記した第３の抽出ルールが適用されることによって、１世代部分依存構造木が抽出される（ステップＳ４１）。なお、この処理は、上述した第４の抽出ルールが適用される場合において説明した図２５に示すステップＳ３１の処理と同様である。

次に、第３の抽出ルールを適用することによって抽出された１世代部分依存構造木におけるルートノードおよび第１世代子ノード間のアークのうち、当該アークの種類が必須格であるアークを用いて、当該ルートノードおよび当該第１世代子ノードの２ノードを含む部分構造木が抽出される（ステップＳ４２）。以下、第５の抽出ルールが適用されることによって抽出される部分構造木を必須格２語文部分依存構造木と称する。

なお、必須格は、ルートノード（動詞ノード）の見出し語に応じて予め定められている。アークの種類が必須格であるか否かの判定は、ルートノードの見出し語および予め用意されている格フレーム辞書を用いて行われる。

ここで、図２９は、アークの種類が必須格であるか否かの判定に用いられる格フレーム辞書のデータ構造の一例を示す。図２９に示すように、格フレーム辞書には、自立語である動詞（の見出し語）に対応づけて必須格が格納されている。

図２９に示す例では、格フレーム辞書には、動詞「生じる」に対応づけて必須格「ガ格」、「ヲ格」および「カラ格」が格納されている。これによれば、ルートノードが「生じる」ノードである場合の必須格は、「ガ格」、「ヲ格」および「カラ格」であることが示される。

ここでは、動詞「生じる」について説明したが、動詞「漏れる」および「至る」についても同様であるため、その詳しい説明を省略する。

ここで、例えば対象依存構造木（図７に示す依存構造木）に対して第５の抽出ルールが適用された場合について具体的に説明する。

図２４に示す１世代部分依存構造木におけるルートノードである「生じる」ノードの見出し語は、「生じる」である。ここで、図２９に示す格フレーム辞書においては、動詞「生じる」に対応づけて必須格「ガ格」、「ヲ格」および「カラ格」が格納されている。

したがって、図２４に示す１世代部分依存構造木において、ルートノードおよび第１世代子ノード間のアークの中から、アークの種類が必須格（ガ格、ヲ格およびカラ格）であるアークが探索される。

ここで、図２４に示す１世代部分依存構造木において、ルートノードである「生じる」ノードおよび第１世代子ノードである「不足」ノード間のアークの種類は道具格であるため必須格ではない。よって、ルートノードである「生じる」ノードおよび第１世代子ノードである「不足」ノードの２ノードを含む必須格２語文部分依存構文木は抽出されない。

一方、図２４に示す１世代部分依存構造木において、ルートノードである「生じる」ノードおよび第１世代子ノードである「不良」ノード間のアークの種類はガ格であるため必須格である。よって、ルートノードである「生じる」ノードおよび第１世代子ノードである「不良」ノードの２ノードを含む必須格２語文部分依存構文木が抽出される。なお、ここで抽出される必須格２語文部分依存構文木は、上記した図２７に示す２語文部分依存構造木と同一である。

また、図２４に示す１世代部分依存構造木において、ルートノードである「生じる」ノードおよび第１世代子ノードである「接着部」ノード間のアークの種類はカラ格であるため必須格である。よって、ルートノードである「生じる」ノードおよび第１世代子ノードである「接着部」ノードの２ノードを含む必須格２語文部分依存構文木が抽出される。なお、ここで抽出される必須格２語文部分依存構造木は、上記した図２２に示す２語文部分依存構造木（分岐なし依存構造木）と同一である。

したがって、対象依存構造木に対して第５の抽出ルールが適用された場合には、上記した図２２および図２７に示す２語文依存構造木と同様の必須格２語文部分依存構造木が抽出される。

なお、例えば対象依存構造木に対して第３の抽出ルールが適用されることによって上記した図１２および図１４に示す部分依存構造木と同様の１世代部分依存構造木が抽出された場合には、同様に、当該１世代部分依存構造木と同様の必須格２語文部分依存構造木が抽出される。

次に、第６の抽出ルールについて説明する。第６の抽出ルールにおいては、依存構造木に含まれるノードのうちの手がかり語ノードに着目する。この手がかり語ノードには、例えば見出し語として「ため」、「から」、「ので」および「場合」等が付与されたノードが含まれる。なお、手がかり語ノードは、予め定められている。

第６の抽出ルールは、依存構造木における手がかり語ノードの子ノードが動詞ノード（見出し語の品詞として「動詞」が付与されているノード）である場合に適用される。

ここで、依存構造木に対して第６の抽出ルールが適用されることによって抽出される部分構造木について説明する。

第６の抽出ルールが適用される場合には、まず、依存構造木におけるルートノードおよび第１世代子ノード間のアークの種類がガ格、ヲ格、ニ格、カラ格、場所格および道具格である場合の当該アーク、当該ルートノードおよび当該第１世代子ノードが特定される。

また、依存構造木における手がかり語ノードが特定される。このとき、依存構造木における手がかり語ノードおよび当該手がかり語ノードの子ノード（以下、第１の子ノードと表記）間のアークが特定される。更に、依存構造木における第１の子ノード（手がかり語ノードの子ノード）および当該第１の子ノードの子ノード（以下、第２の子ノードと表記）間のアークの種類がガ格、ヲ格、ニ格、カラ格、場所格および道具格である場合の当該アーク、当該第１の子ノードおよび当該第２の子ノードが特定される。なお、第１の子ノード（つまり、手がかり語ノードの子ノード）は動詞ノードであるものとする。

次に、上記特定されたアーク、ルートノード、第１世代子ノード、手がかり語ノード、第１の子ノードおよび第２の子ノードから部分構造木が生成される。

第６の抽出ルールによれば、上記したように部分構造木が生成されることによって、依存構造木から部分構造木が抽出される。以下、第６の抽出ルールが適用されることによって抽出される部分構造木を因果関係の依存構造木と称する。

ここで、例えば対象依存構造木（図７に示す依存構造木）に対して第６の抽出ルールが適用された場合について具体的に説明する。

対象依存構造木における手がかり語ノードは、「ため、」ノードである。対象依存構造木における手がかり語ノードである「ため、」ノードの子ノードは、「生じる」ノードである。この場合、手がかり語ノードの子ノードが動詞ノードであるため、対象依存構造木に対して第６の抽出ルールは適用される。

対象依存構造木におけるルートノードは、「至る」ノードである。対象依存構造木における第１世代子ノードは、「ため、」ノード、「漏れて」ノードおよび「火災」ノードである。ルートノードである「至る」ノードおよび第１世代子ノードである「ため、」ノード間のアークの種類は従属接続である。ルートノードである「至る」ノードおよび第１世代子ノードである「漏れて」ノード間のアークの種類は連用中止である。ルートノードである「至る」ノードおよび第１世代子ノードである「火災」ノード間のアークの種類はニ格である。

このため、因果関係の依存構造木を生成するためのアークおよびノードとして、ルートノードである「至る」ノードおよび第１世代子ノードである「火災」ノード間のアーク、当該「至るノード」および当該「火災」ノードが特定される。

また、上記したように対象依存構造木における手がかり語ノードは、「ため、」ノードである。このため、因果関係の依存構造木を生成するためのノードとして、手がかり語ノードである「ため、」ノードが特定される。このとき、因果関係の依存構造木を生成するためのアークとして、手がかり語ノードである「ため、」ノードおよび当該手がかり語ノードの子ノード（第１の子ノード）である「生じる」ノード間のアークが特定される。

上記したように対象依存構造木における手がかり語ノードである「ため、」ノードの子ノード（第１の子ノード）は、「生じる」ノードである。また、対象依存構造木における第１の子ノードである「生じる」ノードの子ノード（第２の子ノード）は、「不足」ノード、「不良」ノードおよび「接着部」ノードである。

ここで、第１の子ノードである「生じる」ノードおよび第２の子ノードである「不足」ノード間のアークの種類は道具格である。第１の子ノードである「生じる」ノードおよび第２の子ノードである「不良」ノード間のアークの種類はガ格である。第１の子ノードである「生じる」ノードおよび第２の子ノードである「接着部」ノード間のアークの種類はカラ格である。

このため、因果関係の依存構造木を生成するためのアークおよびノードとして、第１の子ノードである「生じる」ノードおよび第２の子ノードである「不足」ノード間のアーク、第１の子ノードである「生じる」ノードおよび第２の子ノードである「不良」ノード間のアーク、第１の子ノードである「生じる」ノードおよび第２の子ノードである「接着部」ノード間のアーク、当該「生じる」ノード、当該「不足」ノード、当該「不良」ノードおよび当該「接着部」ノードが特定される。

以上により、上記特定されたアーク、ルートノードである「至る」ノード、第１世代子ノードである「火災」ノード、手がかり語ノードである「ため、」ノード、第１の子ノードである「生じる」、第２の子ノードである「不足」ノード、「不良」ノードおよび「接着部」ノードから因果関係の依存構造木が生成される。

つまり、上記したように対象依存構造木に対して第６の抽出ルールが適用された場合には、図３０に示す因果関係の依存構造木が抽出される。

なお、ここでは抽出ルール格納部２２に格納される抽出ルールとして第１〜第６の抽出ルールについて説明したが、他の抽出ルールが用いられても構わない。

また、抽出ルール格納部２２に格納されている複数の抽出ルールのうち、例えばユーザによって選択された抽出ルールのみが適用される構成であっても構わない。

以下の説明においては、抽出ルール格納部２２に格納されている複数の抽出ルール（第１〜第６の抽出ルール）のうち、第１〜第４の抽出ルールのみが適用されたものとして説明する。

上記したように、抽出ルール格納部２２に格納されている第１〜第４の抽出ルールが例えば対象依存構造木に適用された場合には、図１２、図１４、図１５、図１７〜図２２、図２４、図２６および図２７に示す各部分構造木（部分依存構造木、分岐なし依存構造木、１世代部分依存構造木および２語文部分依存構造木）が抽出される。

なお、図１２および図１４に示す部分構造木は、上記した第１〜第４の抽出ルールが適用されることによって抽出される部分構造木である。図１５に示す部分構造木は、上記した第１の抽出ルールが適用されることによって抽出される部分構造木である。図１７〜図２１に示す部分構造木は、上記した第２の抽出ルールが適用されることによって抽出される部分構造木である。図２２に示す部分構造木は、上記した第２および第４の抽出ルールが適用されることによって抽出される部分構造木である。図２４に示す部分構造木は、上記した第３の抽出ルールが適用されることによって抽出される部分構造木である。図２６および２７に示す部分構造木は、上記した第４の抽出ルールが適用されることによって抽出される部分構造木である。

つまり、代表文候補抽出部３３は、第１〜第４の抽出ルールを用いることによって、図１２、図１４、図１５、図１７〜図２２、図２４、図２６および図２７に示す各部分構造木である代表文候補を対象依存構造木から抽出する。

なお、代表文候補抽出部３３によって抽出された代表文候補（部分構造木）には、当該代表文候補が抽出された依存構造木の生成に用いられた文によって構成される文書を識別するための文書ＩＤ（つまり、当該依存構造木に付与された文書ＩＤと同一の文書ＩＤ）が付与される。

上記した図１２、図１４、図１５、図１７〜図２２、図２４、図２６および図２７に示す代表文候補は、文書ＩＤ「１」によって識別される文書を構成する文のうちの２つ目の文である「タンクの強度不足により燃料タンクの底板形状の成形不良が当該接着部から生じるため、燃料が漏れて火災に至る。」の依存構造木（対象依存構造木）から抽出されている。したがって、これらの代表文候補には、文書ＩＤ「１」が付与される。

ここで、図３１は、代表文候補抽出部３３によって抽出された代表文候補の一例を示す。なお、代表文候補抽出部３３によって抽出された代表文候補は依存構造木の形式（つまり、部分構造木）であるが、図３１においては便宜的に平文の形式で表すものとする。

図３１に示すように、代表文候補抽出部３３によって抽出された代表文候補の各々には、当該代表文候補を識別するための代表文候補ＩＤおよび当該代表文候補（部分構造木）が抽出された依存構造木の生成に用いられた（文から構成される）文書を識別するための文書ＩＤ（当該依存構造木に付与された文書ＩＤと同一の文書ＩＤ）が付与されている。

図３１に示す例では、代表文候補「燃料が漏れる」には、代表文候補ＩＤ「１」および文書ＩＤ「１」が付与されている。これによれば、代表文候補ＩＤ「１」によって識別される代表文候補「燃料が漏れる」は、文書ＩＤ「１」によって識別される文書（を構成する文）から生成された依存構造木から抽出されたことが示される。

また、代表文候補「燃料が漏れる」には、代表文候補ＩＤ「１３０」および文書ＩＤ「１９７」が付与されている。これによれば、代表文候補ＩＤ「１３０」によって識別される代表文候補「燃料が漏れる」は、文書ＩＤ「１９７」によって識別される文書から生成された依存構造木から抽出されたことが示される。

ここでは、代表文候補「燃料が漏れる」について説明したが、他の代表文候補についても同様であるため、その詳しい説明を省略する。

なお、図３１においては、代表文候補には、代表文候補ＩＤおよび文書ＩＤのみが付与されているものとして説明したが、例えば当該文書ＩＤによって識別される文書中における当該代表文候補の出現位置を示す情報（当該代表文候補におけるルートノードに付与されている見出し語が当該文書の先頭から何文字目に出現するかを示す情報）等が付与されていても構わない。

再び図３に戻ると、文生成集約部３４は、変換情報格納部２３に格納されている変換情報に基づいて代表文候補抽出部３３によって抽出された代表文候補（部分構造木）によって表される複数の自立語および当該自立語間の係り受け関係を変換する。文生成集約部３４は、変換された代表文候補（によって表される複数の自立語および当該自立語間の係り受け関係）に基づいて、当該代表文候補から代表文候補文（つまり、平文）を生成する（ステップＳ４）。変換情報格納部２３には、変換情報として活用形辞書、置換ルールおよび同義語辞書が格納されている。

ここでは、代表文候補から代表文候補文を生成する方法として、例えば第１〜第３の方法（以下、第１〜第３の文生成方法と表記）が用いられる。以下、第１〜第３の文生成方法について説明する。

第１の文生成方法は、代表文候補におけるルートノードが動詞ノードである場合に、当該動詞ノードの見出し語を終止形とすることによって代表文候補文を生成する方法である。この第１の文生成方法では、変換情報格納部２３に格納されている活用形辞書が用いられる。この活用形辞書には、例えば動詞ノードの見出し語（の各活用形）に対する終止形を示す情報が格納されている。つまり、この活用形辞書を参考することによって、動詞ノードの見出し語を終止形に変換することができる。

第１の文生成方法においては、代表文候補に含まれるノード毎に、当該ノードの見出し語および付属語を結合することによって表層文字列が生成される。この場合において、ルートノードが動詞ノードであるときには、活用形辞書を参照することによって当該動詞ノードの見出し語（の活用形）が終止形に変換される。なお、この場合には、活用形辞書を用いなくてもよい。その後、更に、ノード毎に生成された表層文字列を、代表文候補におけるリーフノードからアークの矢印方向を辿って順に結合することによって代表文候補文（平文）が生成される。

なお、ノード間のアークの種類が隣接である場合には、当該両ノードの見出し語が当該アークの矢印方向に従って結合される。また、上記した１世代部分依存構造木のように代表文候補において第１世代子ノードが複数存在するような場合には、例えばルートノードおよび当該１世代子ノード間のアークの種類によって表層文字列を結合する順番を定めてもよいし、任意の順番であっても構わない。

ここで、図３２を参照して、第１の文生成方法によって生成される代表文候補文について具体的に説明する。

まず、第１の文生成方法によって例えば図３１に示す代表文候補ＩＤ「１」によって識別される代表文候補「燃料が漏れる（依存構造木形式）」から代表文候補文が生成される場合について説明する。

この場合、代表文候補「燃料が漏れる」におけるルートノード（「漏れる」ノード）は動詞ノードであるが、当該ルートノードの見出し語は既に終止形である。このため、文生成集約部３４は、図３２に示すように代表文候補「燃料が漏れる（依存構造木形式）」から代表文候補文「燃料が漏れる（平文形式）」を生成する。

また、第１の文生成方法によって例えば図３１に示す代表文候補ＩＤ「９」によって識別される代表文候補「燃料が漏れて（依存構造木形式）」から代表文候補文が生成される場合について説明する。

この場合、代表文候補「燃料が漏れて」におけるルートノード（「漏れて」ノード）は動詞ノードであるため、活用形辞書を参照することによって当該ルートノードの見出し語「漏れて」は終止形（つまり、「漏れる」）に変換される。このため、文生成集約部３４は、図３２に示すように代表文候補「燃料が漏れて（依存構造木形式）」から代表文候補「燃料が漏れる（平文形式）」を生成する。

また、第１の文生成方法によって例えば図３１に示す代表文候補ＩＤ「１２６」によって識別される代表文候補「燃料が漏れない（依存構造木形式）」から代表文候補文が生成される場合について説明する。

この場合、代表文候補「燃料が漏れない」におけるルートノード（「漏れない」ノード）は動詞ノードであるが、当該ルートノードの見出し語は既に終止形である。このため、文生成集約部３４は、図３２に示すように代表文候補「燃料が漏れない（依存構造木形式）」から代表文候補文「燃料が漏れない（平文形式）」を生成する。

ここでは詳しい説明を省略するが、第１の文生成方法によって図３１に示す代表文候補ＩＤ「１７」、「１２８」および「１３０」によって識別される代表文候補から代表文候補文が生成された場合には、上記した代表文候補ＩＤ「１」および「９」によって識別される代表文候補と同様に、代表文候補文「燃料が漏れる」が生成される。

なお、第１の文生成方法においては、活用形辞書を参照することによって、例えば受身形または使役形の動詞ノードの見出し語が終止形に変換されてもよい。具体的には、第１の文生成方法によれば、例えば図３１に示す代表文候補ＩＤ「１２２」によって識別される代表文候補「エンジンが停止される（依存構造木形式）」からは代表文候補文「エンジンが停止する（平文形式）」が生成される。同様に、第１の文生成方法によれば、例えば図３１に示す代表文候補ＩＤ「１２５」によって識別される代表文候補「エンジンを停止させる（依存構造木形式）」からは代表文候補文「エンジンを停止する（平文形式）」が生成される。

第２の文生成方法は、代表文候補に対して言い換え処理を実行することによって代表文候補文を生成する方法である。なお、第２の文生成方法における言い換え処理は、代表文候補におけるルートノードの見出し語が終止形とされた後に行われるものとする。

第２の文生成方法においては、変換情報格納部２３に格納されている置換ルールを用いて代表文候補の言い換え処理、即ち、部分構造木（依存構造木）の置換処理が実行され、当該置換処理後の部分構造木を用いて平文が生成される。

ここで、図３３は、言い換え処理に用いられる置換ルールのデータ構造の一例を示す。図３３に示すように、置換ルールには、ルールＩＤに対応づけて置換前依存構造木（変更前の複数の自立語および当該自立語間の係り受け関係）および置換後依存構造木（変更後の複数の自立語および当該自立語間の係り受け関係）が含まれる。

ルールＩＤは、置換ルールを識別するための識別子である。置換前依存構造木および置換後依存構造木は、それぞれパターン、アーク種類およびノード種類から構成される。以下、置換前依存構造木を構成するパターン、アーク種類およびノード種類を単に置換前依存構造木のパターン、アーク種類およびノード種類と称する。同様に、置換後依存構造木を構成するパターン、アーク種類およびノード種類を単に置換後依存構造木のパターン、アーク種類およびノード種類と称する。

置換前依存構造木のパターンは、当該置換前依存構造木における複数のノード間の係り受け関係を表す依存構造木のパターンを示す。置換前依存構造木のアーク種類は、当該置換前依存構造木によって表される係り受け関係の種類を示す。置換前依存構造木のノード種類は、当該置換前依存構造木における複数のノードの見出し語、品詞または付属語を示す。

置換後依存構造木のパターンは、当該置換後依存構造木における複数のノード間の係り受け関係を表す依存構造木のパターンを示す。置換後依存構造木のアーク種類は、当該置換後依存構造木によって表される係り受け関係の種類を示す。置換後依存構造木のノード種類は、当該置換後依存構造木における複数のノードの見出し語、品詞または付属語を示す。

第２の文生成方法における言い換え処理においては、代表文候補が置換前依存構造木（のパターン、アーク種類およびノード種類）の条件を満たす場合に、当該代表文候補が置換後依存構造木（のパターン、アーク種類およびノード種類）に置き換えられる。これにより、代表文候補が変換（置換）される。

図３３に示す例では、置換ルールには、ルールＩＤ「１」に対応づけて置換前依存構造木のパターン「Ａ→Ｂ→Ｃ」、置換前依存構造木のアーク種類「Ａ→Ｂ：＜隣接＞、Ｂ→Ｃ：＜ガ格＞」および置換前依存構造木のノード種類「Ａ（品詞）：名詞、Ｂ（品詞）：名詞、Ｃ（見出し語）：生じる」から構成される置換前依存構造木および置換後依存構造木のパターン「Ａ→Ｂ」、置換語依存構造木のアーク種類「Ａ→Ｂ：＜ガ格＞」および置換語依存構造木のノード種類「Ａ（付属語）：が、Ｂ（品詞）：動詞」から構成される置換後依存構造木が含まれる。なお、図３３に示す置換ルールにおいて、Ａ、ＢおよびＣは、ノードを表す。

ここで、図３４を参照して、第２の文生成方法によって生成される代表文候補文について具体的に説明する。ここでは、図３３に示す置換ルールを用いて、図３１に示す代表文候補ＩＤ「２０」によって識別される代表文候補「燃料漏れが生じ」および代表文候補ＩＤ「１２７」によって識別される代表文候補「燃料漏れが生じた」から代表文候補文が生成される場合について説明する。

なお、上記したように言い換え処理は、代表文候補におけるルートノードの見出し語が終止形（現在形の終止形）に変換された後に行われる。このため、代表文候補ＩＤ「２０」によって識別される代表文候補「燃料漏れが生じ」および代表文候補ＩＤ「１２７」によって識別される代表文候補「燃料漏れが生じた」に対して言い換え処理が実行される場合には、当該代表文候補におけるルートノードである動詞ノードの見出し語が終止形に変換された代表文候補「燃料漏れが生じる」に対して言い換え処理が実行される。つまり、代表文候補ＩＤ「２０」および代表文候補ＩＤ「１２７」によって識別される代表文候補に対して言い換え処理が実行された場合には、同様の言い換え処理結果が得られる。

以下、代表文候補ＩＤ「２０」および代表文候補ＩＤ「１２７」によって識別される代表文候補におけるルートノードである動詞ノードの見出し語が終止形に変換された代表文候補「燃料漏れが生じる」を単に代表文候補「燃料漏れが生じる」とする。

この場合、代表文候補「燃料漏れが生じる（依存構造木形式）」は、置換ルールＩＤ「１」に対応づけて置換ルールに含まれる置換前依存構造木のパターンを満たす。具体的には、代表文候補「燃料漏れが生じる」においては、見出し語が「燃料」であるノード（「燃料」ノード）が置換前依存構造木のパターンにおけるＡに該当し、見出し語が「漏れ」であるノード（「漏れ」ノード）が当該置換前依存構造木のパターンにおけるＢに該当し、見出し語が「生じる」であるノード（「生じる」ノード）が置換前依存構造木のパターンにおけるＣに該当する。

また、代表文候補「燃料漏れが生じる」において、置換前依存構造木のパターンにおけるＡに該当する「燃料」ノードおよびＢに該当する「漏れ」ノード間のアークの種類は隣接であり、置換前依存構造木のパターンにおけるＢに該当する「漏れ」ノードおよびＣに該当する「生じる」ノード間のアークの種類はガ格であるため、当該代表文候補「燃料漏れが生じる」は置換前依存構造木のアーク種類を満たす。

更に、代表文候補「燃料漏れが生じる」において、置換前依存構造木のパターンにおけるＡに該当する「燃料」ノードの品詞は名詞であり、Ｂに該当する「漏れ」ノードの品詞は名詞であり、Ｃに該当する「生じる」ノードの見出し語は「生じる」であり、置換前依存構造木のノード種類を満たす。

したがって、代表文候補「燃料漏れが生じる」は、置換ルールに含まれる置換前依存構造木の条件を満たす。

このように代表文候補「燃料漏れが生じる」が置換前依存構造木の条件を満たす場合、当該代表文候補「燃料漏れが生じる」は、置換後依存構造木（のパターン、アーク種類およびノード種類）に置換される。つまり、置換前依存構造木（代表文候補）のパターン「Ａ→Ｂ→Ｃ」が置換後依存構造木のパターン「Ａ→Ｂ」に置換され、置換前依存構造木のアーク種類「Ａ→Ｂ：＜隣接＞、Ｂ→Ｃ：＜ガ格＞」が置換後依存構造木のアーク種類「Ａ→Ｂ：＜ガ格＞」に置換され、また、置換前依存構造木のノード種類「Ａ（品詞）：名詞、Ｂ（品詞）：名詞、Ｃ（見出し語）：生じる」が置換後依存構造木のノード種類「Ａ（付属語）：が、Ｂ（品詞）：動詞」に置換される。これにより、代表文候補「燃料漏れが生じる（依存構造木形式）」は、代表文候補「燃料が漏れ（依存構造木形式）」に置換される。

上記したように置換された代表文候補「燃料が漏れ」から代表文候補文（平文）が生成される。この場合、上記した第１の文生成方法が用いられる。つまり、置換された代表文候補「燃料が漏れ（依存構造木形式）」のルートノード（動詞ノード）の見出し語が終止形に変換されることによって、代表文候補「燃料が漏れ（依存構造木形式）」から代表文候補文「燃料が漏れる（平文形式）」が生成される。

つまり、図３１に示す代表文候補ＩＤ「２０」によって識別される代表文候補「燃料漏れが生じ」および代表文候補ＩＤ「１２７」によって識別される代表文候補「燃料漏れが生じた」から第２の文生成方法によって代表文候補文「燃料が漏れる」が生成される。

第３の文生成方法は、変換情報格納部２３に格納されている同義語辞書を用いて代表文候補から代表文候補文を生成する方法である。

ここで、図３５は、同義語辞書のデータ構造の一例を示す。図３５に示すように、同義語辞書には、代表語および同義語が対応づけて格納されている。代表語は、同様の意味を有する語のうち代表となる語を示す。同義語は、代表語と同様の意味を有する語を示す。

図３５に示す例では、同義語辞書には、代表語「生じる」および同義語「発生する、起こる、出現する、…」が対応づけて格納されている。これによれば、代表語「生じる」と同様の意味を有する同義語が「発生する」、「起こる」および「出現する」等であることが示される。

第３の文生成方法によれば、代表文候補に含まれるノードの見出し語が同義語として同義語辞書に格納されている場合には、当該見出し語が代表語に変換（統一）される。なお、代表文候補に含まれるノードの見出し語が代表語である場合には、当該見出し語は変換されない。また、第３の文生成方法においては、同義語辞書を用いてノード（自立語）の見出し語が変更された代表文候補（つまり、依存構造木形式）から代表文候補文（つまり、平文形式）を生成する場合には第１の文生成方法が用いられる。

ここで、図３６を参照して、第３の文生成方法によって生成される代表文候補文について具体的に説明する。ここでは、図３５に示す同義語辞書が変換情報格納部２３に格納されているものとする。

まず、第３の文生成方法によって例えば図３１に示す代表文候補ＩＤ「２４」によって識別される代表文候補「亀裂が生じる（依存構造木形式）」から代表文候補文が生成される場合について説明する。

この場合、図３６に示すように、代表文候補に含まれる「生じる」ノードの見出し語「生じる」は、図３５に示す同義語辞書に代表語として格納されている。したがって、代表文候補に含まれる「生じる」ノードの見出し語「生じる」は変換されない。この場合、代表文候補「亀裂が生じる（依存構造木形式）」からは、第１の文生成方法によって代表文候補文「亀裂が生じる（平文形式）」が生成される。

次に、第３の文生成方法によって例えば図３１に示す代表文候補ＩＤ「１２９」によって識別される代表文候補「亀裂が発生する（依存構造木形式）」から代表文候補文が生成される場合について説明する。

この場合、図３６に示すように、代表文候補に含まれる「発生する」ノードの見出し語「発生する」は、図３５に示す同義語辞書に同義語として格納されている。したがって、代表文候補に含まれる「発生する」ノードの見出し語「発生する」は、同義語「発生する」に対応づけて同義語辞書に格納されている代表語「生じる」に変換される。つまり、代表文候補に含まれる「発生する」ノードは、「生じる」ノードとされる。この場合、同義語辞書を用いてノードの見出し語が変換された代表文候補「亀裂が生じる（依存構造木形式）」からは、第１の文生成方法によって代表文候補文「亀裂が生じる（平文形式）」が生成される。

上記したように文生成集約部３４は、第１〜第３の文生成方法を用いて、代表文候補から代表文候補文を生成する。

なお、ここでは第１〜第３の文生成方法が用いられるものとして説明したが、当該第１〜第３の文生成方法以外の方法が用いられても構わない。

また、第１〜第３の文生成方法の全てを用いるのではなく、当該第１〜第３の文生成方法のうち例えばユーザによって選択された方法のみが用いられても構わない。

再び図３に戻ると、文生成集約部３４は、ステップＳ４において生成された代表文候補文を集約することによって、集約代表文候補文を生成する（ステップＳ５）。文生成集約部３４は、生成された代表文候補文のうち、同一の代表文候補文を１つの集約代表文候補文に集約する。なお、文生成集約部３４によって生成された集約代表文候補文には、当該集約代表文候補文を識別するための集約代表文候補文ＩＤおよび当該集約代表文候補文に集約された代表文候補文に付与された文書ＩＤが付与される。

ここで、図３７は、文生成集約部３４によって生成された集約代表文候補文の一例を示す。図３７に示すように、文生成集約部３４によって生成された集約代表文候補文には、集約代表文候補文ＩＤおよび文書ＩＤが付与されている。

図３７に示す例では、集約代表文候補文「燃料が漏れる」には、集約代表文候補文ＩＤ「１」および文書ＩＤ「１，５，８，１９５，１９６，１９７，…」が付与されている。

なお、集約代表文候補文ＩＤ「１」は、文生成集約部３４によって生成された集約代表文候補文「燃料が漏れる」に対して代表文抽出装置３０において自動的に付与される。また、文書ＩＤ「１，５，８，１９５，１９６，１９７，…」は、集約代表文候補文「燃料が漏れる」に集約された代表文候補文の生成に用いられた代表文候補の各々に対して付与された文書ＩＤの集合である。換言すれば、集約代表文候補文「燃料が漏れる」に付与されている文書ＩＤの数は、当該集約代表文候補文「燃料が漏れる」に集約された代表文候補文の数と同一である。

ここでは、集約代表文候補文「燃料が漏れる」について説明したが、他の集約代表文候補文についても同様であるため、その詳しい説明を省略する。

再び図３に戻ると、代表文決定部３５は、文生成集約部３４によって生成された集約代表文候補文の中から代表文を決定（選択）する（ステップＳ６）。このとき、代表文決定部３５は、文生成集約部３４によって生成された集約代表文候補文に付与された文書ＩＤの数（つまり、当該集約代表文候補文に集約された代表文候補文の数）に基づいて代表文を決定する。

この場合、代表文決定部３５は、例えば集約代表文候補文に付与されている文書ＩＤの数（文書頻度）が上位ｎ位までの集約代表文が代表文として決定される。代表文として決定される集約代表文候補文の数（つまり、ｎの値）は、適宜、変更可能である。

なお、集約代表文候補文の中に文書頻度（つまり、文書ＩＤの数）が同一の集約代表文候補文が複数存在する場合には、当該集約代表文候補文に含まれる文字列の長い方が優先されるものとする。

ここで、図３８は、代表文決定部３５によって決定された代表文の一例を示す。図３８に示すように、代表文決定部３５によって決定された代表文には、代表文ＩＤおよび文書ＩＤが付与されている。代表文ＩＤは、代表文決定部３５によって決定された代表文を識別するための識別子である。また、代表文に付与される文書ＩＤは、代表文として決定された集約代表文候補文に付与された文書ＩＤと同一の文書ＩＤである。

図３８に示す例では、文書頻度の高い（つまり、文書ＩＤの数が多い）順に１０個の代表文が示されている。

ここでは、単に集約代表文候補文に付与された文書ＩＤの数（文書頻度）に基づいて代表文が決定されるものとして説明したが、代表文決定部３５は、入力部３１によって入力された文書群が属するクラスタ（以下、対象クラスタと表記）の文書群カバー率を用いて代表文を決定しても構わない。文書群カバー率は、対象クラスタに属する文書群（複数の文書）に対する集約代表文候補文の網羅性を表す。

ここで、例えば内部パラメータとして予め定められている代表文として決定される集約代表文候補文の数がＭであるものとすると、文書群カバー率は、当該Ｍを用いて、次式によって定義される。

この式（１）におけるｄ_j（ｊ＝１，２，…，Ｍ）は、代表文として決定されるＭ個の集約代表文候補文のうちの集約代表文候補文ｊに付与されている文書ＩＤの集合を示す。つまり、式（１）における｜ｄ_１∪ｄ_２…∪ｄ_ｊ…∪ｄ_Ｍ｜は、集約代表文候補文１〜Ｍの各々に付与されている文書ＩＤの集合の和集合における当該文書ＩＤの数を示す。

また、式（１）における｜ｄ_all｜は、対象クラスタに属する文書群に含まれる文書数を示す。

つまり、文書群カバー率は、「代表文として決定されるＭ個の集約代表文候補文に付与されている文書ＩＤの和集合における当該文書ＩＤの数／対象クラスタに属する文書群に含まれる文書数」によって定義される。

代表文決定部３５は、上記した式（１）を用いて、文生成集約部３４によって生成された集約代表文候補文のうちのＭ個の集約代表文候補文の集合（組）毎に文書群カバー率を算出する。この場合、代表文決定部３５は、算出された文書群カバー率が最も高いＭ個の集約代表文候補文の集合（組）を代表文として決定する。

なお、代表文決定部３５によって算出された文書群カバー率が最も高い集約代表文候補文の集合が複数存在する場合には、例えば当該複数の集合のうち、文書頻度が最も高い（付与されている文書ＩＤの数が最も多い）集約代表文候補文を含む集合（つまり、Ｍ個の集約代表文候補文）が代表文として決定される。

再び図３に戻ると、出力部３６は、ステップＳ６において決定された代表文（例えば、Ｍ個の集約代表文候補文）を表示（出力）する（ステップＳ７）。

ここで、図３９は、代表文が表示された場合の表示画面の一例（出力部３６による出力例）を示す。ここでは、上述した図３８に示す代表文が表示された場合について説明する。

図３９に示すように、表示画面２００には、対象クラスタに属する文書群（入力部３１によって入力された文書群）の内容を適切に表す代表文として「燃料が漏れる」、「エンジンが停止する」、「不良が生じる」、「火災に至る」、「亀裂が生じる」、「タンクの強度不足により燃料タンクの底板形状の成形不良が接着部から生じる」、「不足により不良が接着部から生じる」、「燃料タンクの形状の不良が生じる」、「タンクから燃料漏れが生じる」および「タンクの不足により生じる」が表示されている。

なお、表示画面２００には、文書頻度が高い（つまり、代表文に付与された文書ＩＤの数が多い）順に代表文が表示される。

図３９に示すような表示画面２００を参照することにより、ユーザは、対象クラスタに属する文書群の内容を容易に把握することができる。

上記したように本実施形態においては、対象クラスタに属する複数の文書に含まれる文を解析することによって、当該文に含まれる複数の自立語および当該自立語間の係り受け関係が表された構造木（依存構造木）が生成され、当該依存構造木の部分構造木である代表文候補が当該依存構造木から抽出される。本実施形態においては、依存構造木から抽出された代表文候補によって表される複数の自立語および当該自立語間の係り受け関係に基づいて当該代表文候補から平文（代表文候補文）が生成され、当該代表文候補文のうち同一の代表文候補文を集約することによって集約代表文候補文が生成される。また、本実施形態においては、集約代表文候補文に集約された代表文候補文の数（つまり、当該集約代表文候補文の文書頻度）に基づいて、当該集約代表文候補文の中から代表文が決定される。

つまり、本実施形態においては、依存構造木形式である代表文候補から平文形式である代表文候補文を生成した後に、当該代表文候補文を集約することによって集約代表文候補文が生成され、当該集約代表文候補文のスコア（文書頻度）に基づいて代表文が決定される。このため、本実施形態においては、例えば依存構造木形式である代表文候補を集約し、また、スコアを付与することによって代表文を決定するような場合と比較して、必要となる処理時間およびデータ容量を削減することが可能となる。

なお、本実施形態においては、全ての代表文候補（依存構造木形式）について代表文候補文（平文形式）を生成した後に同一の代表文候補文が１つの集約代表文候補文に集約されるものとして説明したが、例えば当該代表文候補から既に生成された代表文候補文を集約代表文候補とし、代表文候補から生成された代表文候補文を順次、当該代表文候補文と同一の集約代表文候補文に集約（統合）していく構成としても構わない。

また、本実施形態においては、抽出ルール格納部２２に格納されている抽出ルールを用いて依存構造木から代表文候補が抽出されるものとして説明したが、例えば当該依存構造木から代表文候補を抽出することなく、当該依存構造木をそのまま代表文候補とする構成であっても構わない。

また、本実施形態においては、上述した図３に示すステップＳ５において集約代表文候補文が生成され、ステップＳ６において当該集約代表文候補文の中から代表文が決定されるものとして説明したが、当該ステップＳ５およびステップＳ６の処理の間で当該集約代表文候補文の中から代表文として適切でない文（以下、不要集約代表文候補文と表記）を抽出し、当該不要集約代表文候補文を除外する処理（以下、不要集約代表文候補文除外処理と表記）が実行されてもよい。

この不要集約代表文候補文除外処理においては、例えば入力された文書群に含まれる文書ＩＤの数に対する集約代表文候補文に紐づいている文書ＩＤの数の割合が予め定められている範囲に該当する集約代表文候補文が不要集約代表文候補文として抽出される。

具体的には、「集約代表文候補文に紐づいている文書ＩＤの数／入力された文書群に含まれる文書ＩＤの数」の値（以下、不要判定値と表記）が予め定められている値であるＮ以下またはＭ以上の集約代表文候補文が不要集約代表文候補文として抽出される。集約代表文候補文に紐づいている文書ＩＤとは、上述した図３７において説明したように集約代表文候補文に付与されている文書ＩＤである。また、入力された文書群に含まれる文書ＩＤとは、上述した図３に示すステップＳ１において入力された文書群に含まれる文書の各々に付与されている文書ＩＤ（当該文書を識別するための文書ＩＤ）である。なお、Ｎ＜Ｍである。

つまり、不要集約代表文候補文除外処理においては、図３に示すステップＳ５において生成された集約代表文候補文の各々について不要判定値が算出され、当該不要判定値が予め定められている範囲（例えば、Ｎ以下またはＭ以上）に該当するか否かの判定が行われることによって、当該集約代表文候補文の中から不要集約代表文候補文が抽出される。

例えば不要集約代表文候補文であるか否かの判定の対象となる集約代表文候補文（以下、対象集約代表文候補文と表記）に紐づいている文書ＩＤの数が４０であって、Ｎ＝０．３およびＭ＝０．７である場合を想定する。

この場合において、入力された文書群に含まれる文書ＩＤの数が１００である場合には、対象集約代表文候補文に対する不要判定値は、０．４（４０／１００）であり、Ｎ以下でなくＭ以上でもないため、当該対象集約代表文候補文は不要集約代表文候補文として抽出されない。

一方、入力された文書群に含まれる文書ＩＤの数が１０００である場合には、対象集約代表文候補文に対する不要判定値は、０．０４（４０／１０００）であり、Ｎ以下であるため、当該対象集約代表文候補文は不要集約代表文候補文として抽出される。

更に、入力された文書群に含まれる文書ＩＤの数が５０である場合には、対象集約代表文候補文に対する不要判定値は、０．８（４０／５０）であり、Ｍ以上であるため、当該対象集約代表文候補文は不要集約代表文候補文として抽出される。

ここでは、Ｎ＝０．３およびＭ＝０．７であるものとして説明したが、このＮおよびＭの値については、ユーザが適宜設定することが可能である。

ここで、図４０は、集約代表文候補文の中から抽出される不要集約代表文候補文の一例を示す。なお、図４０は、上述した図３７に示す集約代表文候補文の中から抽出される不要集約代表文候補文を示す。

図４０に示す例では、集約代表文候補文ＩＤ「１」が付与されている集約代表文候補文「燃料が漏れる」に対する不要判定値は、Ｍ＋０．２であるため、Ｍ以上である。したがって、集約代表文候補文「燃料が漏れる」は、不要集約代表文候補文として抽出される。

また、集約代表文候補文ＩＤ「２」が付与されている集約代表文候補文「タンクの強度不足により燃料タンクの底板形状の形成不良が接着部から生じる」に対する不要判定値は、Ｎ−０．２であるため、Ｎ以下である。したがって、集約代表文候補文「タンクの強度不足により燃料タンクの底板形状の形成不良が接着部から生じる」は、不要集約代表文候補文として抽出される。

更に、集約代表文候補文ＩＤ「９」が付与されている集約代表文候補文「火災に至る」に対する不要判定値は、Ｍ＋０．１５であるため、Ｍ以上である。したがって、集約代表文候補文「火災に至る」は、不要集約代表文候補文として抽出される。

図４１は、不要集約代表文候補文が除外された後の集約代表文候補文の一例を示す。ここでは、上述した図３７に示す集約代表文候補文から図４０に示す不要集約代表文候補文（つまり、当該集約代表文候補文から抽出された不要集約代表文候補文）が除外された場合の集約代表文候補文を示す。

つまり、図４１に示す集約代表文候補文においては、図３７に示す集約代表文候補文の中から図４０に示す集約代表文候補文ＩＤ「１」、「２」および「９」が付与されている集約代表文候補文が除外されている。

上記したように不要集約代表文候補文除外処理が実行された場合には、当該不要集約代表文候補文が除外された後の集約代表文候補文（図４１に示す集約代表文候補文）に対して図３に示すステップＳ６以降の処理が実行される。なお、ステップＳ６以降の処理については上述した通りであるため、その詳しい説明は省略する。

このように、本実施形態において不要集約代表文候補文除外処理が実行されることで、代表文として適切でない不要代表文候補文が代表文として決定されることを回避することができ、文書群の内容をより適切に表す代表文を抽出することができる。更に、不要集約代表文候補文が除外されることで図３に示すステップＳ６の処理の対象となる集約代表文候補文の数を減らすことができるため、当該処理の高速化を図ることが可能となる。

［第２の実施形態］
次に、本発明の第２の実施形態について説明する。なお、本実施形態に係る代表文抽出装置の構成は、前述した第１の実施形態と同様であるため、適宜、図２を用いて説明する。

本実施形態においては、代表文を抽出する対象となる対象クラスタ（第１のクラスタ）および当該対象クラスタとは異なるクラスタ（第２のクラスタ）の各々に属する複数の文書（文書群）を用いて、当該対象クラスタと当該対象クラスタとは異なるクラスタとの差分を考慮して当該対象クラスタの内容を適切に表す代表文を抽出する点が、前述した第１の実施形態とは異なる。

ここで、本実施形態に係る文書処理装置３０に含まれる各部について説明するが、前述した第１の実施形態に係る文書処理装置３０と同様の部分についてはその詳しい説明を省略する。

入力部３１は、ユーザの操作に応じて、当該ユーザによって指定された例えば２つのクラスタに属する文書群（に含まれる複数の文書）を入力する。このとき、ユーザは、２つのクラスタのうちの一方を対象クラスタとして指定することができる。なお、入力部３１によって入力される文書群に含まれる文書の各々には、当該文書を識別するための文書ＩＤが付与されている。また、入力部３１は、ユーザによって指定された対象クラスタおよび当該対象クラスタとは異なるクラスタの各々に属する文書（群）を示すクラスタ情報を入力する。

代表文決定部３５は、入力部３１によって入力されたクラスタ情報に基づいて、文生成集約部３４によって生成された集約代表文候補文に付与されている文書ＩＤを対象クラスタ内文書ＩＤおよび比較クラスタ内文書ＩＤに分類する（分ける）。これにより、文生成集約部３４によって生成された集約代表文候補文には、対象クラスタ内文書ＩＤおよび比較クラスタ内文書ＩＤが付与される。

対象クラスタ内文書ＩＤは、集約代表文候補文に付与されている文書ＩＤのうち対象クラスタに属する文書を識別するための文書ＩＤである。一方、比較クラスタ内文書ＩＤは、集約代表文候補文に付与されている文書ＩＤのうち対象クラスタに属さない文書であって比較クラスタに属する文書を識別するための文書ＩＤ、つまり、当該集約代表文候補文に付与されている文書ＩＤのうち対象クラスタ内文書ＩＤ以外の文書ＩＤである。

代表文決定部３５は、集約代表文候補文に付与された対象クラスタ内文書ＩＤの数および比較クラスタ内文書ＩＤの数に基づいて、当該集約代表文候補文の対象クラスタにおける代表度を算出する。なお、代表度は、文生成集約部３４によって生成された集約代表文候補文毎に算出される。代表文決定部３５は、集約代表文候補文毎に算出された代表度に基づいて、代表文を決定する。

次に、図４２のフローチャートを参照して、本実施形態に係る代表文抽出装置３０の処理手順について説明する。

まず、入力部３１は、ユーザの操作に応じて、クラスタ情報、対象クラスタＩＤおよび文書群を入力する（ステップＳ１０１）。入力部３１によって入力されたクラスタ情報は、ユーザによって指定された例えば２つのクラスタ（対象クラスタおよび当該対象クラスタとは異なるクラスタ）の各々に属する文書（群）を示す。入力部３１によって入力された対象クラスタＩＤは、ユーザによって指定された２つのクラスタのうち、対象クラスタ（代表文を抽出する対象となるクラスタ）を識別するためのクラスタＩＤである。また、入力部３１によって入力された文書群は、ユーザによって指定された２つのクラスタ（対象クラスタおよび当該対象クラスタとは異なるクラスタ）に属する文書の集合（当該対象クラスタに属する文書および当該対象クラスタとは異なるクラスタに属する文書の集合）である。なお、この文書群に含まれる文書の各々には、当該文書を識別するための文書ＩＤが付与されている。

ここで、図４３は、入力部３１によって入力されたクラスタ情報のデータ構造の一例を示す。図４３に示すように、クラスタ情報には、クラスタＩＤおよび文書ＩＤが対応づけて含まれる。クラスタ情報によれば、クラスタＩＤによって識別されるクラスタに属する文書が当該クラスタＩＤに対応づけられている文書ＩＤによって識別される文書であることが示される。

図４３に示す例では、クラスタ情報には、クラスタＩＤ「１」および文書ＩＤ「１，５，８，…，１９１，１９２，１９３，１９４，１９５，１９６，１９７，…」が対応づけて含まれる。これによれば、クラスタＩＤ「１」によって識別されるクラスタには、文書ＩＤ「１，５，８，…，１９１，１９２，１９３，１９４，１９５，１９６，１９７，…」によって識別される文書（群）が属することが示される。

ここでは、クラスタＩＤ「１」について説明したが、クラスタＩＤ「２」についても同様であるため、その詳しい説明を省略する。

なお、以下の説明では、上記した対象クラスタＩＤとしてクラスタＩＤ「１」が入力部３１によって入力されたものとする。つまり、クラスタＩＤ「１」によって識別されるクラスタが対象クラスタであり、クラスタＩＤ「２」によって識別されるクラスタが当該対象クラスタとは異なるクラスタであるものとして説明する。

また、図４４は、入力部３１によって入力された文書群の一例を示す。なお、文書群に含まれる文書の各々は、平文の形式で入力部３１によって入力される。図４４に示すように、入力部３１によって入力された文書群に含まれる文書の各々には、当該文書を識別するための文書ＩＤが付与されている。

図４４に示す例では、入力部３１によって入力された文書群には、例えば文書「タンク付近で燃料が漏れた。…。」が含まれる。なお、この文書「タンク付近で燃料が漏れた。…。」には、当該文書を識別するための文書ＩＤ「１０」が付与されている。

ここでは、入力部３１によって入力された文書群に含まれる文書「タンク付近で燃料が漏れた。…。」について説明したが、他の文書についても同様であるため、その詳しい説明を省略する。

再び図４２に戻ると、前述した図３に示すステップＳ２〜ステップＳ５の処理に相当するステップＳ１０２〜ステップＳ１０５の処理が実行される。なお、ステップＳ１０２〜ステップＳ１０５の処理は、入力部３１によって入力された文書群に含まれる文書を構成する文の全てについて実行される。

ここで、図４５は、ステップＳ５において文生成集約部３４によって生成された集約代表文候補文の一例を示す。図４５に示すように、文生成集約部３４によって生成された集約代表文候補文には、集約代表文候補文ＩＤおよび文書ＩＤが付与されている。なお、集約代表文候補文に付与される集約代表文候補文ＩＤおよび文書ＩＤについては、前述した第１の実施形態と同様であるため、その詳しい説明を省略する。

図４５に示す例では、集約代表文候補文「燃料が漏れる」には、集約代表文候補文ＩＤ「１」および文書ＩＤ「１，５，８，１０，１９５，１９６，１９７，…」が付与されている。

再び図４２に戻ると、代表文決定部３５は、集約代表文候補文毎に、当該集約代表文候補文に付与されている文書ＩＤを対象クラスタ内文書ＩＤおよび比較クラスタ内文書ＩＤに分類する（ステップＳ１０６）。代表文決定部３５は、入力部３１によって入力されたクラスタ情報に基づいて、対象クラスタ内文書ＩＤおよび比較クラスタ内文書ＩＤに分類する処理を実行する。

ここで、対象クラスタ内文書ＩＤには、集約代表文候補文に付与されている文書ＩＤのうち、対象クラスタを識別するためのクラスタＩＤ（つまり、入力部３１によって入力された対象クラスタＩＤ）に対応づけてクラスタ情報に含まれている文書ＩＤが含まれる。つまり、対象クラスタ内文書ＩＤとは、集約代表文候補文に付与されている文書ＩＤのうち、対象クラスタに属する文書を識別するための文書ＩＤである。

一方、比較クラスタ内文書ＩＤには、集約代表文候補文に付与されている文書ＩＤのうち、対象クラスタ内文書ＩＤ以外の文書ＩＤが含まれる。つまり、比較クラスタ内文書ＩＤとは、集約代表文候補文に付与されている文書ＩＤのうち、対象クラスタに属さない文書であって当該対象クラスタとは異なるクラスタに属する文書を識別するための文書ＩＤである。

これにより、代表文決定部３５は、文生成集約部３４によって生成された集約代表文候補文の各々に対して、対象クラスタ内文書ＩＤおよび比較クラスタ内文書ＩＤを付与する。以下の説明では、文生成集約部３４によって生成された集約代表文候補文の各々に付与されている比較クラスタ内文書ＩＤによって識別される文書の集合（つまり、対象クラスタに属さない文書であって当該対象クラスタとは異なるクラスタに属する文書の集合）が属するクラスタを、比較クラスタと称する。

ここで、図４６は、対象クラスタ内文書ＩＤおよび比較クラスタ内文書ＩＤが付与された集約代表文候補文の一例を示す。

図４６に示す例では、集約代表文候補文ＩＤ「１」によって識別される集約代表文候補文「燃料が漏れる」には、対象クラスタ内文書ＩＤ「１，５，８，１９５，１９６，１９７，…」および比較クラスタ内文書ＩＤ「１０，…」が付与されている。これによれば、上記した図４５に示す集約代表文候補文「燃料が漏れる」に付与されている文書ＩＤ「１，５，８，１０，１９５，１９６，１９７，…」のうち、文書ＩＤ「１，５，８，１９５，１９６，１９７，…」が対象クラスタに属する文書を識別するための文書ＩＤ（つまり、対象クラスタ内文書ＩＤ）であることが示される。また、上記した図４５に示す集約代表文候補文「燃料が漏れる」に付与されている文書ＩＤ「１，５，８，１０，１９５，１９６，１９７，…」のうち、対象クラスタ内文書ＩＤ「１，５，８，１９５，１９６，１９７，…」以外の文書ＩＤ「１０，…」が比較クラスタ内文書ＩＤであることが示される。

ここでは、集約代表文候補文ＩＤ「１」によって識別される集約代表文候補文「燃料が漏れる」について説明したが、他の集約代表文候補文についても同様であるため、その詳しい説明を省略する。

再び図４２に戻ると、代表文決定部３５は、文生成集約部３４によって生成された集約代表文候補文に付与されている代表クラスタ内文書ＩＤの数および比較クラスタ内文書ＩＤの数に基づいて対象クラスタにおける当該集約代表文候補文の代表度を算出する（ステップＳ１０７）。なお、代表度は、集約代表文候補文毎に算出される。

ここでは、代表文決定部３５は、対象クラスタにおける集約代表文候補文の代表度として、例えば当該集約代表文候補文の相互情報量を算出するものとする。

具体的には、代表文決定部３５は、集約代表文候補文に付与されている対象クラスタ内文書ＩＤの数（対象クラスタにおける当該集約代表文候補文の文書頻度）および比較クラスタ内文書ＩＤの数（比較クラスタにおける当該集約代表文候補文の文書頻度）を用いて、当該集約代表文候補文の重み付き相互情報量を算出する。

この集約代表文候補文の重み付き相互情報量は、次式により定義される。

この式（２）におけるＰ（ｗ，ｔ）は、対象クラスタｔに属する文書および比較クラスタに属する文書の集合（つまり、対象クラスタｔに属する文書集合および当該対象クラスタとは異なるクラスタに属する文書集合の和集合）において、文書が集約代表文候補文ｗに付与されている対象クラスタ内文書ＩＤによって識別される文書（つまり、図４５に示す集約代表文候補文ｗに付与されている文書ＩＤによって識別される文書であって対象クラスタｔに属する文書）である確率を示す。なお、Ｐ（ｗ，ｔ）の値は、「集約代表文候補文ｗに付与されている対象クラスタ内文書ＩＤの数／対象クラスタｔに属する文書および比較クラスタに属する文書の数」により推定されるものとする。なお、対象クラスタに属する文書および比較クラスタに属する文書の数は、対象クラスタを識別するためのクラスタＩＤ（対象クラスタ）に対応づけてクラスタ情報に含まれる文書ＩＤの集合および当該対象クラスタとは異なるクラスタを識別するためのクラスタＩＤに対応づけてクラスタ情報に含まれる文書ＩＤの集合の和集合における当該文書ＩＤの数と同一である。

式（２）におけるＰ（ｗ）は、対象クラスタに属する文書および比較クラスタに属する文書の集合において、文書が集約代表文候補文ｗに付与されている対象クラスタ内文書ＩＤおよび比較クラスタ内文書ＩＤ（つまり、図４５に示す集約代表文候補文ｗに付与されている文書ＩＤ）によって識別される文書である確率を示す。なお、Ｐ（ｗ）の値は、「集約代表文候補文ｗに付与されている対象クラスタ内文書ＩＤおよび比較クラスタ内文書ＩＤの数／対象クラスタに属する文書および比較クラスタに属する文書の数」により推定されるものとする。

また、式（２）におけるＰ（ｔ）は、対象クラスタｔに属する文書および比較クラスタに属する文書の集合において、文書が対象クラスタｔに属する文書である確率を示す。なお、Ｐ（ｔ）の値は、「対象クラスタに属する文書の数／対象クラスタに属する文書および比較クラスタに属する文書の数」により推定されるものとする。なお、対象クラスタに属する文書の数は、当該対象クラスタを識別するためのクラスタＩＤ（対象クラスタＩＤ）に対応づけてクラスタ情報に含まれる文書ＩＤの数である。

上記したように、代表文決定部３５は、図４６に示すように集約代表文候補文の各々に対して付与されている対象クラスタ内文書ＩＤおよび比較クラスタ内文書ＩＤを用いて、対象クラスタにおける当該集約代表文候補文の代表度（当該集約代表文候補文の重み付き相互情報量）を上記した式（２）により算出する。

ここで、図４７は、文生成集約部３４によって生成された集約代表文候補文毎に算出された代表度の一例を示す。

図４７に示す例では、集約代表文候補文ＩＤ「１」によって識別される集約代表文候補文「燃料が漏れる」の代表度は、「−０．０１２」であることが示されている。

また、集約代表文候補文ＩＤ「２」によって識別される集約代表文候補文「タンクの強度不足により燃料タンクの底板形状の成形不良が接着部から生じる」の代表度は、「０．２１０」であることが示されている。

なお、ここでは集約代表文候補文ＩＤ「１」によって識別される「燃料が漏れる」および集約代表文候補文ＩＤ「２」によって識別される集約代表文候補文「タンクの強度不足により燃料タンクの底板形状の成形不良が接着部から生じる」について説明したが、他の集約代表文候補文についても同様であるため、その詳しい説明を省略する。

再び図４２に戻ると、代表文決定部３５は、集約代表文候補文毎に算出された代表度に基づいて、当該集約代表文候補文の中から代表文を決定（選択）する（ステップＳ１０８）。

ここで、上記したステップＳ１０７において算出された代表度が０未満である集約代表文候補文は、比較クラスタの特徴を表す度合いが大きいといえる。このため、代表文決定部３５は、ステップＳ１０７において算出された代表度が０未満である集約代表文候補文を代表文の候補から除外し、当該代表度が０以上である集約代表文候補文のみを代表文の候補とする。つまり、上記した図４７に示す例では、集約代表文候補文ＩＤ「１」によって識別される集約代表文候補文「燃料が漏れる」および集約代表文候補文ＩＤ「９」によって識別される集約代表文候補文「火災に至る」が代表文の候補から除外される。

代表文決定部３５は、算出された代表度が０以上である集約代表文候補文のうち、当該代表度（重み付き相互情報量）が高い順に集約代表文候補文を代表文として決定する。具体的には、代表文決定部３５は、例えば代表度が上位ｎ位までの集約代表文候補文を代表文として決定する。なお、代表文として決定される集約代表文候補文の数（つまり、ｎの値）は、適宜、変更可能である。

なお、集約代表文候補文の中に代表度が同一の集約代表文候補文が複数存在する場合には、文書頻度（つまり、当該集約代表文候補文に付与された対象クラスタ内文書ＩＤの数）が高い（多い）方、または、当該集約代表文候補文に含まれる文字列の長い方が優先されるものとする。

ここで、図４８は、代表文決定部３５によって決定された代表文の一例を示す。図４８に示すように、代表文決定部３５によって決定された代表文には、代表文ＩＤおよび文書ＩＤが付与されている。代表文ＩＤは、代表文決定部３５によって決定された代表文を識別するための識別子である。また、文書ＩＤは、代表文として決定された集約代表文候補文に付与された対象クラスタ内文書ＩＤと同一の文書ＩＤである。図４８に示す例では、代表度が高い順に１０個の代表文が示されている。

再び図４２に戻ると、前述した図３に示すステップＳ７の処理に相当するステップＳ１０９の処理が実行される。

上記したように本実施形態においては、複数のクラスタ（対象クラスタおよび当該対象クラスタとは異なるクラスタ）の各々に属する文書群を用いて、前述した第１の実施形態と同様に集約代表文候補文が生成される。本実施形態においては、集約代表文候補文に付与された対象クラスタ内文書ＩＤ及び比較クラスタ内文書ＩＤに基づいて集約代表文候補文毎に代表度（対象クラスタにおける重み付き相互情報量）が算出され、当該代表度に応じて代表文が決定される。

これにより、本実施形態においては、前述した第１の実施形態のように１つのクラスタ（つまり、対象クラスタ）に属する文書群のみを用いて代表文を抽出する場合と比較して、当該対象クラスタの特徴をより鮮明（適切）に表す代表文を抽出することが可能となる。

なお、本実施形態においては、対象クラスタにおける集約代表文候補文の代表度として重み付き相互情報量を算出するものとして説明したが、この代表度は、例えば文書頻度またはＴスコア等の統計量を表すものであれば構わない。

また、本実施形態においては、上述した図４２に示すステップＳ１０５において生成された集約代表文候補文の中から代表文として適切でない文（不要集約代表文候補文）を抽出し、当該不要集約代表文候補文を除外する処理（不要集約代表文候補文除外処理）が実行されても構わない。この不要集約代表文候補文除外処理は、例えば図４２に示すステップＳ１０５およびステップＳ１０６の処理の間で実行される。

不要集約代表文候補文除外処理においては、図４２に示すステップＳ１０５において生成された集約代表文候補文の各々について不要判定値が算出され、当該不要判定値が予め定められている範囲（例えば、Ｎ以下またはＭ以上）に該当するか否かの判定が行われることによって、当該集約代表文候補文の中から不要集約代表文候補文が抽出される。

なお、不要集約代表文候補文除外処理の詳細については、前述した第１の実施形態において説明した通りであるため、その詳しい説明を省略する。

ここで、図４９は、集約代表文候補文の中から抽出される不要集約代表文候補文の一例を示す。なお、図４９は、上述した図４５に示す集約代表文候補文の中から抽出される不要集約代表文候補文を示す。

図４９に示す例では、集約代表文候補文ＩＤ「１」が付与されている集約代表文候補文「燃料が漏れる」に対する不要判定値は、Ｍ＋０．２であるため、Ｍ以上である。したがって、集約代表文候補文「燃料が漏れる」は、不要集約代表文候補文として抽出される。

同様に、集約代表文候補文ＩＤ「９」が付与されている集約代表文候補文「火災に至る」に対する不要判定値は、Ｍ＋０．１５であるため、Ｍ以上である。したがって、集約代表文候補文「火災に至る」は、不要集約代表文候補文として抽出される。

更に、集約代表文候補文ＩＤ「１８」が付与されている集約代表文候補文「タンク付近で漏れる」に対する不要判定値は、Ｍ＋０．０５であるため、Ｍ以上である。したがって、集約代表文候補文「タンク付近で漏れる」は、集約代表文候補文として抽出される。

図５０は、不要集約代表文候補文が除外された後の集約代表文候補文の一例を示す。ここでは、上述した図４５に示す集約代表文候補文から図４９に示す不要集約代表文候補文（つまり、当該集約代表文候補文から抽出された不要集約代表文候補文）が除外された場合の集約代表文候補文を示す。

つまり、図５０に示す集約代表文候補文においては、図４５に示す集約代表文候補文の中から図４９に示す集約代表文候補文ＩＤ「１」、「２」、「９」および「１８」が付与されている集約代表文候補文が除外されている。

上記したように不要集約代表文候補文除外処理が実行された場合には、当該不要集約代表文候補文が除外された後の集約代表文候補文（図５０に示す集約代表文候補文）に対して図４２に示すステップＳ１０６以降の処理が実行される。なお、ステップＳ１０６以降の処理については上述したとおりであるため、その詳しい説明を省略する。

このように、本実施形態において不要集約代表文候補文除外処理が実行されることで、代表文として適切でない不要代表文候補文が代表文として決定されることを回避することができ、対象クラスタ（に属する文書群）の内容をより適切に表す代表文を抽出することができる。更に、不要集約代表文候補文が除外されることで集約代表文候補文の数を減らすことができるため、図４２に示すステップＳ１０６以降の処理の高速化を計ることが可能となる。

［第３の実施形態］
次に、図５１を参照して、本発明の第３の実施形態について説明する。図５１は、本実施形態に係る代表文抽出装置の主として機能構成を示すブロック図である。なお、前述した図２と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図２と異なる部分について主に述べる。

また、本実施形態に係る代表文抽出装置のハードウェア構成は前述した第１の実施形態と同様であるため、適宜、図１を用いて説明する。

本実施形態においては、前述した第１の実施形態において説明した処理によって文書群から抽出された代表文を用いて、当該文書群を分類する点が、前述した第１の実施形態とは異なる。

図５１に示すように、本実施形態に係る代表文抽出装置３００は、代表文分類部３０１を含む。本実施形態において、代表文分類部３０１は、図１に示すコンピュータ１０が外部記憶装置２０に格納されるプログラム２１を実行することにより実現されるものとする。

代表文分類部３０１は、代表文決定部３５によって決定された代表文を用いて、入力部３１によって入力された文書群（に含まれる文書の各々）を分類する。代表文分類部３０１は、代表文決定部３５によって代表文として決定された集約代表文候補文に集約された代表文候補文（第２の文）の生成に用いられた文書（つまり、当該代表文に付与された文書ＩＤによって識別される文書）が属するサブクラスタを作成することによって、入力部３１によって入力された文書群を分類する。

次に、図５２のフローチャートを参照して、本実施形態に係る代表文抽出装置３００の処理手順について説明する。

まず、前述した図３に示すステップＳ１〜ステップＳ６に示す処理に相当するステップＳ２０１〜ステップＳ２０６の処理が実行される。

なお、ステップＳ２０６においては、前述した図３８に示す代表文が代表文決定部３５によって決定されたものとする。つまり、ステップＳ２０６において決定された代表文には、当該代表文を識別するための代表文ＩＤおよび当該代表文として決定された集約代表文候補文に付与された文書ＩＤ（と同一の文書ＩＤ）が付与されている。

次に、代表文分類部３０１は、ステップＳ２０６において代表文決定部３５によって決定された代表文に基づいて、ステップＳ２０１において入力部３１によって入力された文書群（ユーザによって指定されたクラスタに属する文書群）を分類する（ステップＳ２０７）。

この場合、代表文分類部３０１は、代表文決定部３５によって決定された代表文を用いて、入力部３１によって入力された文書群に含まれる文書の各々が分類されるサブクラスタ（ユーザによって指定されたクラスタのサブクラスタ）を作成する。

具体的には、代表文分類部３０１は、代表文決定部３５によって決定された代表文に付与されている代表文ＩＤをサブクラスタＩＤとし、当該代表文をサブクラスタ名とするサブクラスタを作成する。なお、サブクラスタは、代表文決定部３５によって決定された代表文毎に作成される。つまり、代表文分類部３０１による文書群の分類結果には、代表文毎に作成されたサブクラスタが含まれる。

代表文分類部３０１は、代表文分類部３０１によって代表文毎に作成されたサブクラスタに、当該代表文に付与されている文書ＩＤによって識別される文書を分類する。これにより、入力部３１によって入力された文書群が分類される。なお、代表文分類部３０１による分類結果は、例えば外部記憶装置２０に含まれる記憶部（図示せず）等に記憶される。

ここで、図５３は、代表文分類部３０１による分類結果の一例を示す。なお、図５３は、前述した図３８に示す代表文のうち、例えば代表文ＩＤ「１」〜「５」によって識別される代表文を用いて分類された結果を示す。

図５３に示すように、代表文分類部３０１による分類結果には、代表文ＩＤ「１」〜「５」によって識別される代表文の各々を用いて作成されたサブクラスタ３１１〜３１５が含まれる。

なお、サブクラスタ３１１は、図３８に示す代表文「燃料が漏れる」を用いて作成されたサブクラスタである。サブクラスタ３１２は、図３８に示す代表文「エンジンが停止する」を用いて作成されたサブクラスタである。サブクラスタ３１３は、図３８に示す代表文「不良が生じる」を用いて作成されたサブクラスタである。サブクラスタ３１４は、図３８に示す代表文「火災に至る」を用いて作成されたサブクラスタである。サブクラスタ３１５は、図３８に示す代表文「亀裂が生じる」を用いて作成されたサブクラスタである。

図５３に示すサブクラスタ３１１は、代表文「燃料が漏れる」に付与されている代表文ＩＤ「１」をサブクラスタＩＤとし、当該代表文「燃料が漏れる」をサブクラスタ名とすることによって作成される。なお、サブクラスタ３１１には、代表文「燃料が漏れる」に付与されている文書ＩＤ「１，５，８，１９５，１９６，１９７，…」によって識別される文書（群）が分類されている。

また、サブクラスタ３１２は、代表文「エンジンが停止する」に付与されている代表文ＩＤ「２」をサブクラスタとし、当該代表文「エンジンが停止する」をサブクラスタ名とすることによって作成される。なお、サブクラスタ３１２には、代表文「エンジンが停止する」に付与されている文書ＩＤ「１９１，１９２，…」によって識別される文書（群）が分類されている。

ここでは、サブクラスタ３１１およびサブクラスタ３１２について説明したが、他のサブクラスタについても同様であるため、その詳しい説明を省略する。

再び図５２に戻ると、前述した図３に示すステップＳ７の処理に相当するステップＳ２０８の処理が実行される。このステップＳ２０８の処理においては、例えば図５３に示す代表文分類部３０１による分類結果が出力されても構わない。一方、ステップＳ２０８においては代表文分類部３０１による分類結果は出力されない場合であっても、例えば記憶部に記憶された当該分類結果をユーザが閲覧できる構成であってもよい。

上記したように本実施形態においては、ユーザによって指定されたクラスタに属する文書群から抽出された代表文を用いて、当該代表文をサブクラスタ名としたサブクラスタに当該文書群を分類することができる。

つまり、本実施形態においては、ユーザによって指定されたクラスタに属する文書群が分類されるサブクラスタ名はサブクラスタ（に分類された文書）の内容を表す代表文であることから、例えばユーザは当該サブクラス名を確認することによって当該サブクラスタに属する文書の内容を容易に把握することが可能となる。したがって、本実施形態においては、ユーザは、容易に所望の内容の文書を探索することが可能となる。

なお、本実施形態においては、上述した図５２に示すステップＳ２０５およびステップＳ２０６の処理の間で、当該ステップＳ２０５において生成された集約代表文候補文の中から代表文として適切でない文（不要集約代表文候補文）を抽出し、当該不要集約代表文候補文を除外する処理（不要集約代表文候補文除外処理）が実行されても構わない。

この不要集約代表文候補文除外処理の詳細については、前述した第１および第２の実施形態において説明した通りであるため、その詳しい説明を省略する。

また、本実施形態においては、ステップＳ２０７において代表文に基づいて文書群が分類され、当該文書群に含まれる文書の各々が分類されるサブクラスタ（当該代表文をサブクラスタ名とするサブクラスタ）が作成されるものとして説明したが、当該サブクラスタに分類された文書群（当該サブクラスタに属する文書群）に対して図５２に示すステップＳ２０２〜ステップＳ２０７の処理に相当する処理（以下、再分類処理と表記）が更に実行されることによって、当該サブクラスタに分類された文書群が更に分類（代表文分類）されても構わない。

サブクラスタに分類された文書群に対して再分類処理が実行されると、サブクラスタのサブクラスタ（以下、サブサブクラスタと表記）が作成され、当該サブクラスタに分類された文書群が当該作成されたサブサブクラスタに分類される。つまり、サブクラスタに分類された文書群に対して再分類処理が実行されることによって、ユーザによって指定されたクラスタに属する文書群を階層的に分類することができる。

ここで、図５４は、サブクラスタに分類された文書群に対して再分類処理が実行された結果（階層的な代表文分類結果）の一例を示す。なお、図５４は、上述した図５３に示すサブクラスタ名が「燃料が漏れる」であるサブクラスタ３１１に分類された文書群に対して再分類処理が実行された結果を示す。

ここでは、サブクラスタ３１１に分類された文書群に対する再分類処理において、当該文書群の内容を適切に表す代表文として「取付部から燃料が漏れる」、「振動により燃料が漏れる」および「タンクに亀裂が入る」が決定（抽出）されたものとする。なお、再分類処理において、代表文「取付部から燃料が漏れる」には代表文ＩＤ「１」が、代表文「振動により燃料が漏れる」には代表文ＩＤ「２」が、代表文「タンクに亀裂が入る」には代表文ＩＤ「３」が付与されたものとする。

図５４に示すように、階層的な代表文分類結果には、サブサブクラスタ３１１ａ〜３１１ｃが含まれる。

サブサブクラスタ３１１ａは、サブクラスタ３１１に分類された文書群に対する再分類処理において決定された例えば代表文「取付部から燃料が漏れる」に付与されている代表文ＩＤ「１」をサブサブクラスタＩＤとし、当該代表文「取付部から燃料が漏れる」をサブサブクラスタ名とすることによって作成される。なお、サブサブクラスタ３１１ａには、再分類処理において代表文「取付部から燃料が漏れる」に付与された文書ＩＤ（ここでは、「１，１９５，…」）によって識別される文書（群）が分類されている。

サブサブクラスタ３１１ｂは、サブクラスタ３１１に分類された文書群に対する再分類処理において決定された例えば代表文「振動により燃料が漏れる」に付与されている代表文ＩＤ「２」をサブサブクラスタＩＤとし、当該代表文「振動により燃料が漏れる」をサブサブクラスタ名とすることによって作成される。なお、サブサブクラスタ３１１ｂには、再分類処理において代表文「振動により燃料が漏れる」に付与された文書ＩＤ（ここでは、「５，１９６，…」）によって識別される文書（群）が分類されている。

また、サブサブクラスタ３１１ｃは、サブクラスタ３１１に分類された文書群に対する再分類処理において決定された例えば代表文「タンクに亀裂が入る」に付与されている代表文ＩＤ「３」をサブサブクラスタＩＤとし、当該代表文「タンクに亀裂が入る」に付与された文書ＩＤ（ここでは、「１９７，…」）によって識別される文書（群）が分類されている。

なお、サブクラスタに分類された文書群に対して上記した再分類処理（ステップＳ２０２〜ステップＳ２０７の処理）が実行される場合、上記した不要集約代表文候補文除外処理が実行されることが好ましい。

ここで、サブクラスタに分類された文書群とは、当該サブクラスタのサブクラスタ名（代表文）に付与された文書ＩＤによって識別される文書である。したがって、このようなサブクラスタに分類された文書群に対して不要集約代表文候補文除外処理を実行することなく再分類処理が実行された場合には、当該文書群の内容を適切に表す代表文として当該サブクラスタのサブクラスタ名と同一の代表文が決定（抽出）される。この場合には、サブクラスタ（サブクラスタ名）およびサブサブクラスタ（サブサブクラスタ名）が同一となり、更には、当該サブクラスタおよびサブサブクラスタに分類された文書も同一となり、階層的な分類を行うことを目的とするにもかかわらず冗長となる。

つまり、サブクラスタに分類された文書群に対して再分類処理が実行される場合には、上記した不要集約代表文候補文除外処理が実行されることによって、サブクラスタのサブクラスタ名と同一の代表文が決定（抽出）されることを回避できるため、冗長な情報を除外して階層的な分類を行うことが可能となる。

なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。

１０…コンピュータ、２０…外部記憶装置、２２…抽出ルール格納部、２３…変換情報格納部、３０…代表文抽出装置、３１…入力部、３２…構文解析部、３３…代表文候補抽出部、３４…文生成集約部、３５…代表文決定部、３６…出力部、３０１…代表文分類部。

Claims

クラスタに属する複数の文書の内容を適切に表す代表文を抽出する代表文抽出装置において、
ユーザの操作に応じて、複数の自立語を含む第１の文によって構成される複数の文書であって、前記クラスタに属する複数の文書を入力する入力手段と、
前記入力された複数の文書の各々を構成する第１の文を解析することによって、当該第１の文に含まれる複数の自立語および当該自立語間の係り受け関係が表された構造木を、当該第１の文毎に生成する解析手段と、
少なくとも２つの自立語および当該自立語間の係り受け関係が表される部分構造木である代表文候補を、前記第１の文毎に生成された構造木の各々から抽出するルールを予め格納する抽出ルール格納手段と、
前記抽出ルール格納手段に格納されている抽出ルールを用いて代表文候補を抽出する代表文候補抽出手段と、
前記構造木の各々から抽出された代表文候補毎に第２の文を生成する文生成手段と、
前記代表文候補毎に生成された第２の文のうちの同一の第２の文を１つに集約することによって、集約代表文候補文を生成する集約手段と、
前記集約手段によって生成された集約代表文候補文に集約された第２の文の数に基づいて当該集約代表文候補文を代表文として決定する決定手段と
を具備することを特徴とする代表文抽出装置。
前記抽出ルール格納手段は、用言に基づいて分割するルールを格納することを特徴とする請求項１記載の代表文抽出装置。
前記入力された複数の文書のうち、前記代表文として決定された集約代表文候補文に集約された第２の文の生成に用いられた第１の文を含む文書が属するサブクラスタを作成することによって、前記入力された複数の文書を分類する分類手段を更に具備することを特徴とする請求項１記載の代表文抽出装置。
第１のクラスタに属する複数の文書の内容を適切に表す代表文を抽出する代表文抽出装置において、
ユーザの操作に応じて、複数の自立語を含む第１の文によって構成される複数の文書であって、前記第１のクラスタおよび当該第１のクラスタとは異なる第２のクラスタに属する複数の文書を入力する入力手段と、
前記入力された複数の文書の各々を構成する第１の文を解析することによって、当該第１の文に含まれる複数の自立語および当該自立語間の係り受け関係が表された構造木を、当該第１の文毎に生成する解析手段と、
少なくとも２つの自立語および当該自立語間の係り受け関係が表された部分構造木である代表文候補を、前記第１の文毎に生成された構造木の各々から抽出する代表文候補抽出手段と、
複数の自立語および当該自立語間の係り受け関係を変換するために用いられる変換情報を予め格納する変換情報格納手段と、
前記構造木の各々から抽出された代表文候補によって表される少なくとも２つの自立語を前記変換情報格納手段に格納されている変換情報に基づいて変換し、当該変換された少なくとも２つの自立語および当該自立語間の係り受け関係に基づいて当該代表文候補毎に第２の文を生成する文生成手段と、
前記代表文候補毎に生成された第２の文のうちの同一の第２の文を１つに集約することによって、集約代表文候補文を生成する集約手段と、
前記集約手段によって生成された集約代表文候補文に集約された第２の文の生成に用いられた第１の文を含む文書のうち、前記第１のクラスタに属する文書の数および前記第１のクラスタに属さない文書であって第２のクラスタに属する文書の数に基づいて、当該集約代表文候補文の当該第１のクラスタにおける代表度を算出する算出手段と、
前記算出された代表度に基づいて前記生成された集約代表文候補文を代表文として決定する決定手段と
を具備することを特徴とする代表文抽出装置。
クラスタに属する複数の文書の内容を適切に表す代表文を抽出する代表文抽出装置であって、抽出ルール格納手段を有する代表文抽出装置に用いられるコンピュータによって実行されるプログラムであって、
前記コンピュータに、
ユーザの操作に応じて、複数の自立語を含む第１の文によって構成される複数の文書であって、前記クラスタに属する複数の文書を入力する入力ステップと、
前記入力された複数の文書の各々を構成する第１の文を解析することによって、当該第１の文に含まれる複数の自立語および当該自立語間の係り受け関係が表された構造木を、当該第１の文毎に生成する解析ステップと、
少なくとも２つの自立語および当該自立語間の係り受け関係が表される部分構造木である代表文候補を、前記第１の文毎に生成された構造木の各々から抽出するルールを前記抽出ルール格納手段に予め格納する抽出ルール格納ステップと、
前記抽出ルール格納ステップで前記抽出ルール格納手段に格納された抽出ルールを用いて代表文候補を抽出する代表文候補抽出ステップと、
前記構造木の各々から抽出された代表文候補毎に第２の文を生成する文生成ステップと、
前記代表文候補毎に生成された第２の文のうちの同一の第２の文を１つに集約することによって、集約代表文候補文を生成する集約ステップと、
前記生成された集約代表文候補文に集約された第２の文の数に基づいて当該集約代表文候補文を代表文として決定する決定ステップと
を実行させるためのプログラム。