WO2022123637A1

WO2022123637A1 - 文書処理システムおよび文書処理方法

Info

Publication number: WO2022123637A1
Application number: PCT/JP2020/045521
Authority: WO
Inventors: 雄大加藤; 紀子高谷; 孝大濱田; 純也澤崎
Original assignee: 株式会社日立製作所
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-06-16
Also published as: JPWO2022123637A1; US20220350964A1; US11861305B2

Abstract

複数の文を含む文情報をもとに、各文について階層ごとの構文木データを示す階層データを生成する第１の生成部と、第１の生成部により生成された複数の階層データから、第１の生成部により生成された第１の文の階層データと類似する第２の文の階層データを取得し、第１の文の階層データと第２の文の階層データとの差分を抽出し、第１の文における差分である第１の表現データと第２の文における差分である第２の表現データとを言い換え規則データとして生成する第２の生成部と、第２の生成部により生成された言い換え規則データを記憶装置に記憶する記憶部と、を設けるようにした。

Description

文書処理システムおよび文書処理方法

　本発明は、概して、文書を処理する技術に関する。

　近年、自然言語処理の製品である関係抽出システムが開発されている。関係抽出システムでは、関係抽出ルールに従って対象文から語句の関係が抽出される。

　関係抽出システムを利用するには、人手によるルール編集が必須となっている。ルール編集とは、関係を含む例文をもとに、様々な文に適合するように関係抽出ルールを汎用化していく作業である。ルールの編集には、ノウハウが必要であり、そのノウハウの１つに、表現の言い換えがある。例えば、影響の関係を表す言い換え表現としては、「影響する」、「影響を与える」、「影響を及ぼす」、「影響がある」等がある。

　この点、文に類似する用例を用例集から検索し、当該用例を模倣することにより当該文の言い換え文を生成する方法が開示されている（特許文献１を参照）。

特開２０１１－１６４７７２号公報

　特許文献１に記載の技術では、言い換え前後の用例集をユーザが登録する必要があり、言い換え対象は多数あることから、登録にかかるコストが大きくなってしまう。

　本発明は、以上の点を考慮してなされたもので、言い換え表現を容易に得ることができる文書処理システム等を提案しようとするものである。

　かかる課題を解決するため本発明においては、複数の文を含む文情報をもとに、各文について階層ごとの構文木を示す階層データを生成する第１の生成部と、前記第１の生成部により生成された複数の階層データから、前記第１の生成部により生成された第１の文の階層データと類似する第２の文の階層データを取得し、前記第１の文の階層データと前記第２の文の階層データとの差分を抽出し、前記第１の文における差分である第１の表現データと前記第２の文における差分である第２の表現データとを言い換え規則データとして生成する第２の生成部と、前記第２の生成部により生成された言い換え規則データを記憶装置に記憶する記憶部と、を設けるようにした。

　上記構成によれば、第１の文の階層データと第２の文の階層データとの差分、すなわち、第１の文の第１の表現データと当該第１の表現データを言い換えた表現である第２の文の第２の表現データとが言い換え規則データとして自動で生成されるので、ユーザは、言い換え表現を容易に得ることができるようになる。

　本発明によれば、利便性の高い文書処理システム等を提供することができる。

第１の実施の形態による文書処理システムに係る構成の一例を示す図である。第１の実施の形態によるコーパス情報の一例を示す図である。第１の実施の形態による階層情報の一例を示す図である。第１の実施の形態による言い換え規則情報の一例を示す図である。第１の実施の形態による関係抽出ルール情報の一例を示す図である。第１の実施の形態による文書処理装置に係る処理の一例を示す図である。第１の実施の形態による階層情報生成処理の一例を示す図である。第１の実施の形態による階層データの生成イメージを示す図である。第１の実施の形態による言い換え規則情報生成処理の一例を示す図である。第１の実施の形態による追加処理の一例を示す図である。第１の実施の形態による関係抽出ルール情報生成処理の一例を示す図である。第１の実施の形態による画面の一例を示す図である。第１の実施の形態による画面の一例を示す図である。第１の実施の形態による画面の一例を示す図である。第１の実施の形態による画面の一例を示す図である。第１の実施の形態による利用方法の一例を示す図である。

（１）第１の実施の形態
　以下、本発明の一実施の形態を詳述する。ただし、本発明は、本実施の形態に限定されるものではない。

　本実施の形態の文書処理システムは、言い換え表現（第１の表現、および第１の表現を言い換えた第２の表現）を含む言い換え規則を複数の文から自動で抽出する。ここで、第１の表現と第２の表現とは、同じ意味であるが表現が異なるものをいう。言い換え規則は、言い換え前後の表現を保持するデータである。

　例えば、文書処理システムは、コーパスから類似する階層データの組を取得し、取得した階層データの差分を言い換え規則データとして抽出する。階層データは、コーパスの各文を階層ごとに分けた構文木を示すデータ（構文木データ）である。かかる構成によれば、意味が類似する階層データの組を取得する際に、階層ごとに分けた構文木データを用いることで修飾部等の文節がなくなり、階層データの類似を適切に判定することができる。また、例えば、本文書処理システムは、ユーザが所望する言い換え規則データを選定するための条件（言い換え条件）を満たす言い換え規則データを抽出する。かかる構成によれば、コーパスを用いた場合でもユーザ所望の言い換え規則データを選定することができる。また、例えば、文書処理システムは、言い換え後の出現頻度が閾値を超える言い換え規則データを抽出する。かかる構成によれば、意味が類似していない言い換え規則データを登録してしまう事態を回避することができる。

　また、本文書処理システムは、言い換え規則データを用いて例文から複数の関係抽出ルールを生成する。ここで、関係抽出ルールは、テキスト（対象文）から語句間の関係を抽出するための文法構造を表現したルールを示すデータである。かかる構成によれば、関係抽出ルールが容易に生成されるので、ユーザは、関係抽出システムを利用し易くなる。

　次に、本発明の実施の形態を図面に基づいて説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。特に限定しない限り、各構成要素は、単数でも複数でも構わない。

　なお、以下の説明では、図面において同一要素については、同じ番号を付し、説明を適宜省略する。また、同種の要素を区別しないで説明する場合には、枝番を含む参照符号のうちの共通部分（枝番を除く部分）を使用し、同種の要素を区別して説明する場合は、枝番を含む参照符号を使用することがある。例えば、表現データを特に区別しないで説明する場合には、「表現データ４１０」と記載し、個々の表現データを区別して説明する場合には、「表現データ４１０－１」、「表現データ４１０－２」のように記載することがある。

　図１は、文書処理システム１００に係る構成の一例を示す図である。

　文書処理システム１００は、文書処理装置１０１と、入力装置１０２と、出力装置１０３とを備える。

　文書処理装置１０１は、例えばコンピュータであり、パーソナルコンピュータ、サーバ装置、タブレット端末等である。文書処理装置１０１は、プロセッサ１１０と、主記憶装置１２０と、補助記憶装置１３０と、通信装置１４０とを備える。

　プロセッサ１１０は、演算処理を行う装置である。プロセッサ１１０は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）、ＡＩ（Artificial　Intelligence）チップ等である。

　主記憶装置１２０は、プログラム、データ等を記憶する装置である。主記憶装置１２０は、例えば、ＲＯＭ（Read　Only　Memory）、ＲＡＭ（Random　Access　Memory）等である。ＲＯＭは、ＳＲＡＭ（Static　Random　Access　Memory）、ＮＶＲＡＭ（Non　Volatile　RAM）、マスクＲＯＭ（Mask　Read　Only　Memory）、ＰＲＯＭ（Programmable　ROM）等である。ＲＡＭは、ＤＲＡＭ（Dynamic　Random　Access　Memory）等である。

　補助記憶装置１３０は、ハードディスクドライブ（Hard　Disk　Drive）、フラッシュメモリ（Flash　Memory）、ＳＳＤ（Solid　State　Drive）、光学式記憶装置等である。光学式記憶装置は、ＣＤ（Compact　Disc）、ＤＶＤ(Digital　Versatile　Disc)等である。補助記憶装置１３０に格納されているプログラム、データ等は、主記憶装置１２０に随時読み込まれる。補助記憶装置１３０には、コーパス情報１３１、階層情報１３２、言い換え規則情報１３３、関係抽出ルール情報１３４等が記憶されている。

　通信装置１４０は、他の装置と通信する通信インターフェースである。通信装置１４０は、例えば、ＮＩＣ（Network　Interface　Card）、無線通信モジュール、ＵＳＢ（Universal　Serial　Interface）モジュール、シリアル通信モジュール等である。通信装置１４０は、通信可能に接続する他の装置から情報を受信する入力装置として機能することもできる。また、通信装置１４０は、通信可能に接続する他の装置に情報を送信する出力装置として機能することもできる。

　文書処理装置１０１の機能（第１の生成部１２１、第２の生成部１２２、第３の生成部１２３、第４の生成部１２４、記憶部１２５、出力部１２６等）は、例えば、プロセッサ１１０が補助記憶装置１３０に格納されたプログラムを主記憶装置１２０に読み出して実行すること（ソフトウェア）により実現されてもよいし、専用の回路等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、文書処理装置１０１は、上記の機能に加えて、例えば、オペレーティングシステム、デバイスドライバ、ファイルシステム、ＤＢＭＳ（DataBase　Management　System）等の機能を更に備えていてもよい。

　第１の生成部１２１は、コーパス情報１３１に基づいて階層情報１３２を生成する。第２の生成部１２２は、階層情報１３２に基づいて言い換え規則情報１３３を生成する。より具体的には、第２の生成部１２２は、検索部１２２Ａ、抽出部１２２Ｂ、選定部１２２Ｃ、および検証部１２２Ｄを備える。

　検索部１２２Ａは、階層情報１３２から第１の階層データに類似する第２の階層データを検索する。抽出部１２２Ｂは、第１の階層データと第２の階層データとの差分を言い換え規則データとして抽出する。選定部１２２Ｃは、抽出部１２２Ｂにより抽出された言い換え規則データから、ユーザが所望する言い換え規則データを選定する。検証部１２２Ｄは、選定部１２２Ｃにより選定された言い換え規則データを検証する。

　第３の生成部１２３は、言い換え規則情報１３３に基づいて関係抽出ルール情報１３４を生成する。より具体的には、第３の生成部１２３は、入力部１２３Ａ、形態素解析部１２３Ｂ、係り受け解析部１２３Ｃ、加工部１２３Ｄ、および変換部１２３Ｅを備える。

　入力部１２３Ａは、入力装置１０２の操作に応じて対象文（テキスト）を入力する。形態素解析部１２３Ｂは、入力部１２３Ａにより入力された対象文を意味の最小単位（形態素）に分割する。係り受け解析部１２３Ｃは、形態素解析部１２３Ｂにより分割された形態素をもとに、文節間の修飾関係を解析し、構文木データを生成する。加工部１２３Ｄは、形態素解析部１２３Ｂおよび係り受け解析部１２３Ｃにより生成された構文木データを、抽出の対象を設定した構文木データ（以下、言い換えルールと記すことがある）に加工する。変換部１２３Ｅは、加工部１２３Ｄにより加工された構文木データを用いて言い換え規則データを関係抽出ルールデータに変換する。

　第４の生成部１２４は、言い換え規則情報１３３に記憶されている言い換え規則データをもとに言い換え規則データを生成する。記憶部１２５は、第１の生成部１２１に生成された階層情報１３２、第２の生成部１２２により生成された言い換え規則情報１３３、第３の生成部１２３により生成された関係抽出ルール情報１３４、第４の生成部１２４により生成された言い換え規則情報１３３等を補助記憶装置１３０に記憶する。出力部１２６は、言い換え規則情報１３３の全部または一部の情報、関係抽出ルール情報１３４の全部または一部の情報等を出力装置１０３に出力する。

　なお、文書処理装置１０１の１つの機能は、複数の機能に分けられていてもよいし、複数の機能は、１つの機能にまとめられていてもよい。また、文書処理装置１０１の機能の一部は、別の機能として設けられてもよいし、他の機能に含められていてもよい。また、文書処理装置１０１の機能の一部は、文書処理装置１０１と通信可能な他のコンピュータにより実現されてもよい。

　入力装置１０２は、ユーザから情報を受け付けるユーザインターフェースである。入力装置１０２は、例えば、キーボード、マウス、カードリーダ、タッチパネル、タブレット端末、ノートパソコン等である。

　出力装置１０３は、各種の情報を出力（表示出力、音声出力、印字出力等）するユーザインターフェースである。出力装置１０３は、例えば、各種情報を可視化する表示装置、音声出力装置（スピーカ）、印字装置等である。表示装置は、ＬＣＤ（Liquid　Crystal　Display）、グラフィックカード等である。

　文書処理装置１０１と入力装置１０２とは、有線または無線により通信可能に接続されている。文書処理装置１０１と入力装置１０２とは、直接的に接続されていてもよいし、間接的に（例えば、ネットワークを介して）接続されていてもよい。また、文書処理装置１０１と入力装置１０２とは、一体として設けられていてもよいし、別体として設けられていてもよい。

　文書処理装置１０１と出力装置１０３とは、有線または無線により通信可能に接続されている。文書処理装置１０１と出力装置１０３とは、直接的に接続されていてもよいし、間接的に（例えば、ネットワークを介して）接続されていてもよい。また、文書処理装置１０１と出力装置１０３とは、一体として設けられていてもよいし、別体として設けられていてもよい。

　図２は、コーパス情報１３１の一例（コーパステーブル２００）を示す図である。なお、コーパス情報１３１は、入力装置１０２を介してユーザまたはシステム管理者により、文書処理システム１００の運用前（例えば、導入時）に１または複数、補助記憶装置１３０に記憶されている。

　コーパステーブル２００には、テキスト、音声、映像等で用いられている大規模な文のデータ（文データ）が記憶されている。例えば、コーパステーブル２００には、ＷＥＢ（World　Wide　Web）サイト、論文、新聞記事等から集められた様々な文データが記憶されている。

　図３は、階層情報１３２の一例（階層テーブル３００）を示す図である。

　階層テーブル３００には、コーパステーブル２００に記憶されている文データから生成される階層ごとの構文木を示すデータ（構文木データ３１０）と当該構文木を示すベクトル（構文木ベクトル３２０）とが対応付けられて記憶されている。構文木データ３１０は、ＸＭＬ（Extensible　Markup　Language）形式で階層ごとの木構造を保持している。構文木ベクトル３２０は、バイナリ形式でデータを保持している。

　ここで、文書処理システム１００における構文木においてタグ「＜ｎｏｄｅ・・・＞」は、ノードを示す。例えば、階層テーブル３００のレコード３３０では、１行目のノード「与える」が親ノードを示している。また、２行目のノード「金利が」と、３行目のノード「株価に」と、４行目のノード「影響を」とが子ノードを示している。

　また、タグ内の「＜属性＞＝＜属性値＞」は、ノードに設定できる属性および属性値の定義を示す。例えば、属性「ｌｅｍｍｍａ」は、見出し語を示す。なお、見出し語では、過去形「与えた」は、現在形「与える」とされる。また、例えば、属性「ｃａｓｅ」は、助詞を示す。

　なお、データを保持する形式は、上述した形式に限るものではなく、他の形式であってもよい。また、構文木データ３１０および構文木ベクトル３２０の生成方法については、図７Ａ、図７Ｂ等を用いて後述する。

　図４は、言い換え規則情報１３３の一例（言い換え規則テーブル４００）を示す図である。

　言い換え規則テーブル４００は、言い換え規則データとして、第１の表現（表現データ４１０－１）と当該第１の表現を言い換えた表現である第２の表現（表現データ４１０－２）とが対応付けられて記憶されている。表現データ４１０は、ＸＭＬ形式で表現データ４１０の木構造を保持している。なお、表現データ４１０の生成方法については、図８等を用いて後述する。

　図５は、関係抽出ルール情報１３４の一例（関係抽出ルールテーブル５００）を示す図である。

　関係抽出ルールテーブル５００は、ユーザにより設定された関係（関係データ５１０）と、言い換え規則テーブル４００をもとに生成された関係抽出ルール（関係抽出ルールデータ５２０）とが対応付けられて記憶されている。関係抽出ルールデータ５２０は、関係抽出ルールデータ５２０の木構造を保持している。

　ここで、関係抽出ルールデータ５２０における「（ノード１の条件(ノード２の条件)(ノード３の条件)・・・）」において、ノード１は、親ノードを示し、ノード２、ノード３、・・・は、子ノードを示す。関係抽出ルールデータ５２０における「.＜属性＞＝＜属性値＞」は、ノードに設定できる属性と属性値の定義を示す。関係抽出ルールデータ５２０における「＃ａ＜数字＞」は、関係抽出ルールがマッチした際に、抽出する対象（語句）であることを示す。

　例えば、関係抽出ルールデータ５２１は、下記の構文木にマッチすることを示している。
　・親ノードの見出し語が「及ぼす」であり、助詞がない
　・１つ目の子ノードの見出し語が任意であり、助詞が「が」である
　・２つ目の子ノードの見出し語が任意であり、助詞が「に」である
　・３つ目の子ノードの見出し語が「影響」であり、助詞が「を」である

　なお、関係抽出ルールデータ５２０の生成方法については、図１０等を用いて後述する。

　図６は、文書処理装置１０１に係る処理の一例を示す図である。

　文書処理装置１０１の第１の生成部１２１は、コーパス情報１３１から階層情報１３２を生成する階層情報生成処理６２１を行う。より具体的には、階層情報生成処理６２１では、第１の生成部１２１は、コーパス情報１３１の各文データを構文木の階層ごとに分けた階層データを生成する。階層情報生成処理６２１については、図７Ａおよび図７Ｂを用いて後述する。

　文書処理装置１０１の第２の生成部１２２は、階層情報１３２から言い換え規則情報１３３を生成する言い換え規則情報生成処理６２２を行う。言い換え規則情報生成処理６２２は、検索処理６２２Ａ、抽出処理６２２Ｂ、選定処理６２２Ｃ、および検証処理６２２Ｄを含んで構成される。

　検索処理６２２Ａは、例えば、検索部１２２Ａにより行われる処理である。検索処理６２２Ａについては、図８のＳ８０１およびＳ８０２を用いて後述する。抽出処理６２２Ｂは、例えば、抽出部１２２Ｂにより行われる処理である。抽出処理６２２Ｂについては、図８のＳ８０３およびＳ８０４を用いて後述する。選定処理６２２Ｃは、例えば、選定部１２２Ｃにより行われる処理である。選定処理６２２Ｃについては、図８のＳ８０５を用いて後述する。検証処理６２２Ｄは、例えば、検証部１２２Ｄにより行われる処理である。検証処理６２２Ｄについては、図８のＳ８０６～Ｓ８０９を用いて後述する。

　文書処理装置１０１の第３の生成部１２３は、言い換え規則情報１３３と、関係を含む例文６１０とから関係抽出ルール情報１３４を生成する関係抽出ルール情報生成処理６２３を行う。関係抽出ルール情報生成処理６２３は、入力処理６２３Ａ、形態素解析処理６２３Ｂ、係り受け解析処理６２３Ｃ、加工処理６２３Ｄ、および変換処理６２３Ｅを含んで構成される。

　入力処理６２３Ａは、例えば、入力部１２３Ａにより行われる処理である。入力処理６２３Ａについては、図１０のＳ１００１を用いて後述する。形態素解析処理６２３Ｂは、例えば、形態素解析部１２３Ｂにより行われる処理である。形態素解析処理６２３Ｂについては、図１０のＳ１００２を用いて後述する。係り受け解析処理６２３Ｃは、例えば、係り受け解析部１２３Ｃにより行われる処理である。係り受け解析処理６２３Ｃについては、図１０のＳ１００２を用いて後述する。加工処理６２３Ｄは、例えば、加工部１２３Ｄにより行われる処理である。加工処理６２３Ｄについては、図１０のＳ１００３を用いて後述する。変換処理６２３Ｅは、例えば、変換部１２３Ｅにより行われる処理である。変換処理６２３Ｅについては、図１０のＳ１００４～Ｓ１００６を用いて後述する。

　文書処理装置１０１の第４の生成部１２４は、言い換え規則情報１３３から言い換え規則情報１３３を生成する追加処理６２４を行う。追加処理６２４は、例えば、第４の生成部１２４により行われる処理である。追加処理６２４については、図９を用いて後述する。

　図７Ａは、階層情報生成処理６２１の一例を示す図である。階層情報生成処理６２１は、例えば、入力装置１０２を介してユーザにより指示されたタイミングで開始される。階層情報生成処理６２１では、コーパス情報１３１に含まれている各文データについて、Ｓ７０１～Ｓ７０５の処理が行われる。以下では、図７Ｂを適宜に参照してＳ７０１～Ｓ７０５の処理を説明する。図７Ｂは、階層データの生成イメージを示す図である。

　Ｓ７０１では、文書処理装置１０１は、コーパス情報１３１から未処理の文データを１つ取得する。例えば、文書処理装置１０１は、図７Ｂに示す文データ７１１「金利が日本の株価に影響を与える。」を取得する。

　Ｓ７０２では、文書処理装置１０１は、Ｓ７０１で取得した文データについて構文解析（形態素解析および係り受け解析）を行い、構文木データを生成する。例えば、文書処理装置１０１は、文データ７１１から構文木データ７２１を生成する。

　Ｓ７０３では、文書処理装置１０１は、階層ごとの構文木データを生成する。例えば、文書処理装置１０１は、構文木データ７２１から階層ごとの構文木データ７３１および構文木データ７３２を生成する。このように、文書処理装置１０１は、構文木を階層ごとに分けることで、修飾部等、不要な文節を取り除くことができ、類似する表現データを取得しやすくする。

　Ｓ７０４では、文書処理装置１０１は、階層ごとの構文木データのベクトルを生成する。例えば、文書処理装置１０１は、構文木データ７３１のベクトル７４１および構文木データ７３２のベクトル７４２を生成する。文書処理装置１０１は、構文木データ７３１には、文節「与える」「金利が」「株価に」「影響を」がそれぞれ１つ含まれるので、ベクトル７４１における文節の対応する位置に頻度「１」を設定する。なお、文書処理装置１０１は、全ての文節を列挙し、文節の位置を固定することで、文節を識別する情報を保持せずにベクトルを比較可能にしている。

　Ｓ７０５では、文書処理装置１０１は、階層データを記憶する。例えば、文書処理装置１０１は、構文木データ７３１および当該構文木データ７３１のベクトル７４１を階層データ７５１として階層情報１３２に記憶する。

　図８は、言い換え規則情報生成処理６２２の一例を示す図である。言い換え規則情報生成処理６２２は、階層情報生成処理６２１に続いて行われる。言い換え規則情報生成処理６２２では、階層情報１３２に含まれている各階層データについてＳ８０１～Ｓ８０９の処理が行われる。

　Ｓ８０１では、文書処理装置１０１は、階層情報１３２から未処理の階層データを１つ取得する。以下では、文書処理装置１０１がＳ８０１で取得した階層データを元データと記す。

　Ｓ８０２では、文書処理装置１０１は、階層情報１３２から元データのベクトルに類似する階層データ（以下、類似データと記す）を取得する。例えば、文書処理装置１０１は、元データと全ての階層データとの類似度を算出し、最も類似する階層データを類似データとする。類似度は、コサイン類似度であってもよいし、ユークリッド距離であってもよいし、その他の算出方法によって算出される値であってもよい。

　Ｓ８０３では、文書処理装置１０１は、元データと類似データとの構文木データを比較し、両データ（元データおよび類似データ）の差分を取得する。より具体的には、文書処理装置１０１は、両方のデータに存在する同一のノードを削除する。例えば、元データの親ノードが「Ａ」であり、子ノードが「Ｂ」「Ｃ」「Ｄ」であり、類似データの親ノードが「Ｅ」であり、子ノードが「Ｂ」「Ｃ」であるケースの場合、共通のノード「Ｂ」「Ｃ」が両データから削除される。

　Ｓ８０４では、文書処理装置１０１は、両方のデータの差分を言い換え規則データとして抽出する。例えば、上記ケースの場合、言い換え規則データとして、元データにおける差分である表現データ（元データの親ノード「Ａ」および元データの子ノード「Ｄ」）と、類似データにおける差分である表現データ（類似データの親ノード「Ｅ」）とが抽出される。

　Ｓ８０５では、文書処理装置１０１は、Ｓ８０４で抽出した言い換え規則データが言い換え条件を満たすか否かを判定する。文書処理装置１０１は、言い換え条件を満たすと判定した場合、Ｓ８０６に処理を移し、言い換え条件を満たさないと判定した場合、未処理の階層データがあるときはＳ８０１に処理を移し、未処理の階層データがないときは言い換え規則情報生成処理６２２を終了する。

　言い換え条件としては、動詞の言い換え、形容詞の言い換え等、品詞の言い換えが挙げられる。例えば、入力装置１０２を介してユーザにより動詞の言い換えが設定されているときは、文書処理装置１０１は、両データの親ノードが動詞であり、かつ、両データの親ノードが異なる場合、言い換え条件を満たすと判定する。また、例えば、入力装置１０２を介してユーザにより形容詞の言い換えが設定されているときは、文書処理装置１０１は、両データの親ノードが形容詞であり、かつ、両データの親ノードが異なる場合、言い換え条件を満たすと判定する。

　Ｓ８０６では、文書処理装置１０１は、Ｓ８０５で言い換え条件を満たすと判定した言い換え規則データの一方の表現データを使用している階層データを階層情報１３２から全て取得する。

　以下では、文書処理装置１０１は、Ｓ８０５で言い換え条件を満たすと判定した言い換え規則データが、元データの表現データが（親ノード「与える」および子ノード「影響を」）であり、類似データの表現データが（親ノード「影響する」）である言い換え規則データである場合に、一方の表現データとして元データの表現データを取得するケースを例に挙げて説明する。例えば、第１の階層データ（親ノード「与える」および子ノード「円高が」「株価に」「影響を」）、第２の階層データ（親ノード「与える」および子ノード「生活に」「影響を」）が階層情報１３２に含まれているときは、文書処理装置１０１は、元データの表現データを使用している第１の階層データおよび第２の階層データを階層情報１３２から取得する。

　なお、一方の表現データに関してＳ８０７において出現頻度が算出されるが、元データの表現データであっても、類似データの表現データであっても出現頻度は同じ値となるので、一方の表現データとしては、元データの表現データと類似データの表現データとの何れが用いられてもよい。

　Ｓ８０７では、文書処理装置１０１は、Ｓ８０６で抽出した階層データの構文木データを言い換えて出現頻度を算出する。

　例えば、文書処理装置１０１は、抽出した第１の階層データの構文木データ（親ノード「与える」および子ノード「円高が」「株価に」「影響を」）を、Ｓ８０５で言い換え条件を満たすと判定した言い換え規則データ（親ノード「与える」および子ノード「影響を」－親ノード「影響する」）を用いて言い換えた表現データ（親ノード「影響する」および子ノード「円高が」「株価に」）が階層情報１３２に含まれているかを確認する。

　また、例えば、文書処理装置１０１は、抽出した第２の階層データの構文木データ（親ノード「与える」および子ノード「生活に」「影響を」）を、Ｓ８０５で言い換え条件を満たすと判定した言い換え規則データ（親ノード「与える」および子ノード「影響を」－親ノード「影響する」）を用いて言い換えた表現データ（親ノード「影響する」および子ノード「生活に」）が階層情報１３２に含まれているかを確認する。

　そして、文書処理装置１０１は、第１の階層データの構文木データを言い換え規則データを用いて言い換えた表現データが階層情報１３２に含まれている件数と、第２の階層データの構文木データを言い換え規則データを用いて言い換えた表現データが階層情報１３２に含まれている件数とを計数して出現頻度とする。

　Ｓ８０８では、文書処理装置１０１は、出現頻度が閾値以上であるか否かを判定する。文書処理装置１０１は、出現頻度が閾値以上であると判定した場合、Ｓ８０９に処理を移し、出現頻度が閾値未満であると判定した場合、未処理の階層データがあるときはＳ８０１に処理を移し、未処理の階層データがないときは言い換え規則情報生成処理６２２を終了する。なお、閾値については、Ｓ８０８の処理が行われる前までに、入力装置１０２を介してユーザにより設定されている。

　Ｓ８０９では、文書処理装置１０１は、Ｓ８０５で言い換え条件を満たすと判定した言い換え規則データを言い換え規則情報１３３に記憶し、未処理の階層データがあるときはＳ８０１に処理を移し、未処理の階層データがないときは言い換え規則情報生成処理６２２を終了する。

　図９は、追加処理６２４の一例を示す図である。追加処理６２４は、適宜のタイミングで行われる。適宜のタイミングは、言い換え規則情報生成処理６２２が終了したタイミングであってもよいし、ユーザに指示されたタイミングであってもよいし、周期的であってもよいし、予め指定されたタイミングであってもよいし、その他のタイミングであってもよい。追加処理６２４では、階層情報１３２に含まれている各階層データについてＳ９０２～Ｓ９０７の処理が行われる。

　Ｓ９０１では、文書処理装置１０１は、言い換え規則情報１３３から未処理の言い換え規則データを１つ取得する。以下では、Ｓ９０１で言い換え規則データ「Ａ－Ｂ」が取得され、言い換え規則情報１３３に言い換え規則データ「Ａ－Ｃ」および言い換え規則データ「Ｂ－Ｄ」が既に記憶されているケースを例に挙げて説明する。

　Ｓ９０１で言い換え規則データ「Ａ－Ｂ」が取得された場合、表現データ「Ａ」と表現データ「Ｂ」とは意味が類似し、表現データ「Ａ」と表現データ「Ｃ」とは意味が類似しているため、表現データ「Ｂ」と表現データ「Ｃ」とが類似している可能性がある。Ｓ９０２～Ｓ９０４では、言い換え規則データ「Ｂ－Ｃ」について意味が類似しているかを検証し、検証で類似していると判断した場合、言い換え規則データ「Ｂ－Ｃ」を言い換え規則情報１３３に記憶する。

　Ｓ９０２では、文書処理装置１０１は、言い換え規則情報１３３から、Ｓ９０１で取得された言い換え規則データの表現データ「Ａ」を含む言い換え規則データを取得する。文書処理装置１０１は、取得した各言い換え規則データについて、Ｓ９０３およびＳ９０４の処理を行う。

　Ｓ９０３では、文書処理装置１０１は、Ｓ９０２取得した言い換え規則データの表現データ「Ａ」側でない表現データ「Ｃ」と表現データ「Ｂ」とを組み合わせた言い換え規則データ「Ｂ－Ｃ」を生成する。

　Ｓ９０４では、文書処理装置１０１は、Ｓ９０３で生成した言い換え規則データ「Ｂ－Ｃ」を検証する。より具体的には、文書処理装置１０１は、Ｓ８０６～Ｓ８０９の処理を行う。

　また、Ｓ９０１で言い換え規則データ「Ａ－Ｂ」が取得された場合、表現データ「Ａ」と表現データ「Ｂ」とは意味が類似し、表現データ「Ｂ」と表現データ「Ｄ」とは意味が類似しているため、表現データ「Ａ」と表現データ「Ｄ」とが類似している可能性がある。Ｓ９０５～Ｓ９０７では、言い換え規則データ「Ａ－Ｄ」について意味が類似しているかを検証し、検証で類似していると判断した場合、言い換え規則データ「Ａ－Ｄ」を言い換え規則情報１３３に記憶する。

　Ｓ９０５では、文書処理装置１０１は、言い換え規則情報１３３から、Ｓ９０１で取得された言い換え規則データの表現データ「Ｂ」を含む言い換え規則データを取得する。文書処理装置１０１は、取得した各言い換え規則データについて、Ｓ９０６およびＳ９０７の処理を行う。

　Ｓ９０６では、文書処理装置１０１は、Ｓ９０５取得した言い換え規則データの表現データ「Ｂ」側でない表現データ「Ｄ」と表現データ「Ａ」とを組み合わせた言い換え規則データ「Ａ－Ｄ」を生成する。

　Ｓ９０７では、文書処理装置１０１は、Ｓ９０３で生成した言い換え規則データ「Ａ－Ｄ」を検証する。より具体的には、文書処理装置１０１は、Ｓ８０６～Ｓ８０９の処理を行う。

　図１０は、関係抽出ルール情報生成処理６２３の一例を示す図である。関係抽出ルール情報生成処理６２３は、例えば、入力装置１０２を介してユーザにより指示されたタイミングで開始される。

　Ｓ１００１では、文書処理装置１０１は、ユーザから例文を受け付ける。例えば、入力装置１０２を介してユーザにより例文１０１０が入力される。例文１０１０には、ユーザが抽出したい語句にマーク（本例では、下線）が付されている。

　Ｓ１００２では、文書処理装置１０１は、構文解析を行い、Ｓ１００１で受け付けた例文の構文木データを生成する。例えば、文書処理装置１０１は、例文１０１０の構文木データ１０２０を生成する。

　Ｓ１００３では、文書処理装置１０１は、Ｓ１００２で生成した構文木データの下線部をワイルドカードに設定した構文木データ（言い換えルールデータ）を生成する。例えば、文書処理装置１０１は、構文木データ１０２０の下線部をワイルドカード「～」に設定し、言い換えルールデータ１０３０を生成する。

　Ｓ１００４では、文書処理装置１０１は、言い換え規則情報１３３から言い換え規則データを取得する。文書処理装置１０１は、例文１０１０から生成した言い換えルールデータ１０３０に適用可能な言い換え規則データ１０４０を言い換え規則情報１３３から取得する。例えば、文書処理装置１０１は、言い換えルールデータ１０３０においてワイルドカードが設定されていないノード「影響する」を含む表現データの言い換え規則データ１０４０を取得する。

　Ｓ１００５では、文書処理装置１０１は、Ｓ１００３で生成した言い換えルールデータをＳ１００４で取得した言い換え規則データに適用し、関係抽出ルールデータを生成する。例えば、文書処理装置１０１は、言い換えルールデータ１０３０を言い換え規則データ１０４０に適用し、関係抽出ルールデータ１０５０を生成する。

　Ｓ１００６では、文書処理装置１０１は、Ｓ１００５で生成した関係抽出ルールデータを関係抽出ルール情報１３４に記憶する。

　図１１は、言い換え規則データを生成するための画面の一例（画面１１００）を示す図である。画面１１００は、ユーザによる入力装置１０２の操作に応じて出力装置１０３に表示される。

　画面１１００は、選択部１１１０と、選択部１１２０と、設定部１１３０と、開始部１１４０と、キャンセル部１１５０とを含んで構成される。選択部１１１０は、複数のコーパス情報１３１から、言い換え規則データを生成する対象とするコーパス情報１３１をユーザが選択するためのユーザインターフェースの一例である。選択部１１２０は、ユーザが抽出したい言い換え規則データを限定する際に、複数の言い換え条件から、限定に用いる言い換え条件を選択するためのユーザインターフェースの一例である。

　設定部１１３０は、出現頻度の閾値を設定するためのユーザインターフェースの一例である。開始部１１４０は、言い換え規則データの生成の開始をユーザが指示するためのユーザインターフェースの一例である。開始部１１４０がユーザにより押下されると、階層情報生成処理６２１が開始される。キャンセル部１１５０は、言い換え規則データの生成のキャンセルをユーザが指示するためのユーザインターフェースの一例である。

　図１２は、言い換え規則データを表示するための画面の一例（画面１２００）を示す図である。画面１２００は、ユーザによる入力装置１０２の操作に応じて出力装置１０３に表示される。

　画面１２００は、表示部１２１０と、ファイル出力部１２２０と、終了部１２３０とを備える。表示部１２１０は、言い換え規則情報１３３に記憶されている言い換え規則データをユーザが表示するためのユーザインターフェースの一例である。ファイル出力部１２２０は、言い換え規則情報１３３に記憶されている言い換え規則データをファイルとしてユーザが出力するためのユーザインターフェースの一例である。終了部１２３０は、画面１２００をユーザが閉じるためのユーザインターフェースの一例である。

　画面１２００によれば、ユーザは、言い換え規則情報１３３に記憶されている言い換え規則データの全部または一部を確認したり、ファイルとして出力したりすることができる。

　図１３は、関係抽出ルールデータを生成するための画面の一例（画面１３００）を示す図である。画面１３００は、ユーザによる入力装置１０２の操作に応じて出力装置１０３に表示される。

　画面１３００は、入力部１３１０～入力部１３４０と、入力追加部１３５０と、開始部１３６０と、キャンセル部１３７０とを備える。入力部１３１０は、関係抽出ルールデータの分類に用いる関係をユーザが入力するためのユーザインターフェースの一例である。入力部１３２０は、例文をユーザが入力するためのユーザインターフェースの一例である。入力部１３３０は、入力部１３２０に入力した例文から抽出する第１の語句をユーザが入力するためのユーザインターフェースの一例である。入力部１３４０は、入力部１３２０に入力した例文から抽出する第２の語句をユーザが入力するためのユーザインターフェースの一例である。

　入力追加部１３５０は、抽出する語句を入力する欄をユーザが追加するためのユーザインターフェースの一例である。開始部１３６０は、関係抽出ルールデータの生成の開始をユーザが指示するためのユーザインターフェースの一例である。開始部１３６０がユーザにより押下されると、関係抽出ルール情報生成処理６２３が開始される。キャンセル部１１５０は、言い換え規則データの生成のキャンセルをユーザが指示するためのユーザインターフェースの一例である。

　図１４は、関係抽出ルールデータを表示するための画面の一例（画面１４００）を示す図である。画面１４００は、ユーザによる入力装置１０２の操作に応じて出力装置１０３に表示される。

　画面１４００は、表示部１４１０と、ファイル出力部１４２０と、終了部１４３０とを備える。表示部１４１０は、関係抽出ルール情報１３４に記憶されている関係抽出ルールデータを、ユーザが入力した関係ごとにユーザが表示するためのユーザインターフェースの一例である。ファイル出力部１４２０は、関係抽出ルール情報１３４に記憶されている関係抽出ルールデータをファイルとしてユーザが出力するためのユーザインターフェースの一例である。終了部１４３０は、画面１４００を閉じるためのユーザインターフェースの一例である。

　画面１４００によれば、ユーザは、入力した関係ごとに、関係抽出ルール情報１３４に記憶されている関係抽出ルールデータを確認したり、ファイルとして出力したりすることができる。

　図１５は、言い換え規則情報１３３および関係抽出ルール情報１３４の利用方法の一例を示す図である。

　言い換え規則情報１３３については、情報検索１５１０に利用可能である。例えば、文書処理装置１０１は、検索クエリ（例えば、「メールを送信する」）を言い換えた検索クエリ（例えば、「メールを送る」）を作成する。この構成によれば、複数の検索クエリで検索が行われるので、ユーザは、所望の情報をより容易に得ることができるようになる。

　また、言い換え規則情報１３３については、上述したように関係抽出ルール情報１３４を生成して関係抽出１５２０に利用可能である。関係抽出１５２０では、関係抽出システム１５２１は、対象文１５２２の構文木データと関係抽出ルールデータとをマッチングさせ、マッチした語句１５２３を抽出する。なお、関係抽出システム１５２１については、例えば、特開２０１９－８３０４０号公報に記載の文章生成システムを採用してもよい。また、関係抽出システム１５２１は、文書処理システム１００に含まれていてもよいし、文書処理装置１０１と通信可能に接続されていてもよい。

　また、言い換え規則情報１３３の利用方法については、上述の内容に限らない。例えば、表現データの平易化に利用されてもよい。この場合、文書処理装置１０１は、子ども向け、外国人向け等の新聞記事、ニュースといった媒体で用いられる難解な表現データ（例えば、「大臣を罷免する」）を平易な表現データ（例えば、「大臣をやめさせる」）に言い換える。この構成によれば、難解な表現データが平易な表現データに言い換えられるので、ユーザは、内容をより容易に理解できるようになる。

　本実施の形態によれば、利便性の高い文書処理システムを提供することができる。

（２）付記
　上述の実施の形態には、例えば、以下のような内容が含まれる。

　上述の実施の形態においては、本発明を文書処理システムに適用するようにした場合について述べたが、本発明はこれに限らず、この他種々のシステム、装置、方法、プログラムに広く適用することができる。

　また、上述の実施の形態においては、Ｓ７０４では、ベクトルの値を文節の頻度とする場合について述べたが、本発明はこれに限らず、ベクトルの値を文節の有無とするようにしてもよい。

　また、上述の実施の形態においては、Ｓ８０２では、最も類似するデータを類似データとする場合について述べたが、本発明はこれに限らず、所定の閾値より高いデータを類似データとするようにしてもよい。この場合、Ｓ９０１の処理（追加処理６２４）は、行われなくてもよい。なお、所定の閾値は、Ｓ８０２の処理の前までにユーザにより設定される。

　また、上述の実施の形態においては、言い換え規則情報生成処理６２２（全ての階層データについての検証処理６２２Ｄ）が終わった後に、全ての言い換え規則データについて追加処理６２４を行う場合について述べたが、本発明はこれに限らず、各階層データについての検証処理６２２Ｄ（Ｓ８０９）に続けて（記憶する言い換え規則データについて）追加処理６２４を行うようにしてもよい。

　また、上述の実施の形態において、各テーブルの構成は一例であり、１つのテーブルは、２以上のテーブルに分割されてもよいし、２以上のテーブルの全部または一部が１つのテーブルであってもよい。

　また、上述の実施の形態において、説明の便宜上、ＸＸテーブルを用いて各種のデータを説明したが、データ構造は限定されるものではなく、ＸＸ情報等と表現してもよい。

　また、上述の実施の形態において、図示および説明した画面は、一例であり、受け付ける情報が同じであるならば、どのようなデザインであってもよい。

　また、上述の実施の形態において、情報の出力は、ディスプレイへの表示に限るものではない。情報の出力は、スピーカによる音声出力であってもよいし、ファイルへの出力であってもよいし、印刷装置による紙媒体等への印刷であってもよいし、プロジェクタによるスクリーン等への投影であってもよいし、その他の態様であってもよい。

　また、上記の説明において、各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid　State　Drive）等の記憶装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

　上述した実施の形態は、例えば、以下の特徴的な構成を有する。

　文書処理システム（例えば、文書処理システム１００）は、複数の文を含む文情報（例えば、コーパス情報１３１、複数の文データ）をもとに、各文について階層ごとの構文木を示す階層データ（例えば、階層情報１３２、階層データ）を生成する第１の生成部（例えば、第１の生成部１２１、文書処理装置１０１、回路）と、上記第１の生成部により生成された複数の階層データから、上記第１の生成部により生成された第１の文の階層データと類似する第２の文の階層データを取得し（例えば、Ｓ８０２参照）、上記第１の文の階層データと上記第２の文の階層データとの差分を抽出し（例えば、Ｓ８０３参照）、上記第１の文における差分である第１の表現データと上記第２の文における差分である第２の表現データとを言い換え規則データ（例えば、言い換え規則データ）として生成する第２の生成部（例えば、第２の生成部１２２、文書処理装置１０１、回路）と、上記第２の生成部により生成された言い換え規則データを記憶装置（例えば、補助記憶装置１３０、文書処理システム１００と通信可能な外部の記憶装置）に記憶する記憶部（例えば、記憶部１２５、文書処理装置１０１、回路）と、を備える。

　上記文書処理システムは、ユーザが所望する語句にマークが付された例文（例えば、例文６１０）の構文木データを生成し（例えば、Ｓ１００２を参照）、生成した構文木データにおける語句を、全ての語句に合致することを示す記号（例えば、ワイルドカード）に設定した構文木データに加工し（例えば、Ｓ１００３参照）、加工した構文木データを表現データとして含んでいる言い換え規則データを上記記憶装置に記憶されている言い換え規則データから取得し（例えば、Ｓ１００４参照）、取得した言い換え規則データに上記加工した構文木データを適用した抽出ルールデータ（例えば、関係抽出ルール情報１３４、関係抽出ルールデータ）を生成する第３の生成部（例えば、第３の生成部１２３、文書処理装置１０１、回路）を備える。

　上記構成によれば、例えば、ユーザが所望する語句を任意の文から抽出するための抽出ルールデータを言い換え規則データから容易に生成することができる。

　上記第２の生成部は、上記第１の表現データと上記第２の表現データとが、ユーザが所望する言い換え規則データを選定するための条件（例えば、言い換え条件）を満たすか否かを判定し（例えば、Ｓ８０５参照）、満たすと判定した場合、上記第１の表現データと上記第２の表現データとを言い換え規則データとして生成する。

　上記構成では、例えば、文情報として、新聞、雑誌、本等に含まれる文が大量に集積されたコーパスが用いられたとしても、条件に合った文を手動で選定する必要がなく、ユーザが所望する言い換え規則データを適切に生成できるようになる。

　上記第２の生成部は、上記第１の表現データを使用している階層データを上記複数の階層データから取得し（例えば、Ｓ８０６参照）、取得した階層データの構文木データを上記第２の表現データで言い換え、言い換えた構文木データが、上記複数の階層データに含まれる数を計数し（例えば、Ｓ８０７参照）、計数した数が閾値を超える場合、上記第１の表現データと上記第２の表現データとを言い換え規則データとして生成する。

　上記構成によれば、例えば、２つの表現データの意味が類似していない言い換え規則データを登録してしまう事態を回避できるようになる。

　上記文書処理システムは、上記記憶装置に記憶されている言い換え規則データから、上記第１の表現データが含まれる言い換え規則データを取得し（例えば、Ｓ９０２参照）、取得した言い換え規則データにおける上記第１の表現データとは異なる側の第３の表現データと、上記第２の表現データとを言い換え規則データとし（例えば、Ｓ９０３参照）、上記第２の表現データを使用している階層データを上記複数の階層データから取得し（例えば、Ｓ８０６参照）、取得した階層データの構文木データを上記第３の表現データで言い換え、言い換えた構文木データが、上記複数の階層データに含まれる数を計数し（例えば、Ｓ８０７参照）、計数した数が閾値を超える場合、上記第２の表現データと上記第３の表現データとを言い換え規則データとして生成する第４の生成部（例えば、第４の生成部１２４、文書処理装置１０１、回路）を備える。

　上記構成では、例えば、言い換え規則データを効率的に生成することができる。

　上記文書処理システムは、上記記憶装置に記憶されている言い換え規則データの全部または一部を出力する出力部（例えば、出力部１２６、文書処理装置１０１、回路）を備える。

　上記構成では、言い換え規則データが出力されるので、例えば、ユーザは、言い換え規則データを容易に得ることができる。

　また上述した構成については、本発明の要旨を超えない範囲において、適宜に、変更したり、組み替えたり、組み合わせたり、省略したりしてもよい。

　１００……文書処理システム、１０１……文書処理装置、１２１……第１の生成部、１２２……第２の生成部。

Claims

　複数の文を含む文情報をもとに、各文について階層ごとの構文木を示す階層データを生成する第１の生成部と、
　前記第１の生成部により生成された複数の階層データから、前記第１の生成部により生成された第１の文の階層データと類似する第２の文の階層データを取得し、前記第１の文の階層データと前記第２の文の階層データとの差分を抽出し、前記第１の文における差分である第１の表現データと前記第２の文における差分である第２の表現データとを言い換え規則データとして生成する第２の生成部と、
　前記第２の生成部により生成された言い換え規則データを記憶装置に記憶する記憶部と、
　を備える文書処理システム。
　ユーザが所望する語句にマークが付された例文の構文木データを生成し、生成した構文木データにおける語句を、全ての語句に合致することを示す記号に設定した構文木データに加工し、加工した構文木データを表現データとして含んでいる言い換え規則データを前記記憶装置に記憶されている言い換え規則データから取得し、取得した言い換え規則データに前記加工した構文木データを適用した抽出ルールデータを生成する第３の生成部を備える、
　請求項１に記載の文書処理システム。
　前記第２の生成部は、前記第１の表現データと前記第２の表現データとが、ユーザが所望する言い換え規則データを選定するための条件を満たすか否かを判定し、満たすと判定した場合、前記第１の表現データと前記第２の表現データとを言い換え規則データとして生成する、
　請求項１に記載の文書処理システム。
　前記第２の生成部は、前記第１の表現データを使用している階層データを前記複数の階層データから取得し、取得した階層データの構文木データを前記第２の表現データで言い換え、言い換えた構文木データが、前記複数の階層データに含まれる数を計数し、計数した数が閾値を超える場合、前記第１の表現データと前記第２の表現データとを言い換え規則データとして生成する、
　請求項１に記載の文書処理システム。
　前記記憶装置に記憶されている言い換え規則データから、前記第１の表現データが含まれる言い換え規則データを取得し、取得した言い換え規則データにおける前記第１の表現データとは異なる側の第３の表現データと、前記第２の表現データとを言い換え規則データとし、前記第２の表現データを使用している階層データを前記複数の階層データから取得し、取得した階層データの構文木データを前記第３の表現データで言い換え、言い換えた構文木データが、前記複数の階層データに含まれる数を計数し、計数した数が閾値を超える場合、前記第２の表現データと前記第３の表現データとを言い換え規則データとして生成する第４の生成部を備える、
　請求項１に記載の文書処理システム。
　前記記憶装置に記憶されている言い換え規則データの全部または一部を出力する出力部を備える、
　請求項１に記載の文書処理システム。
　第１の生成部が、複数の文を含む文情報をもとに、各文について階層ごとの構文木を示す階層データを生成することと、
　第２の生成部が、前記第１の生成部により生成された複数の階層データから、前記第１の生成部により生成された第１の文の階層データと類似する第２の文の階層データを取得し、前記第１の文の階層データと前記第２の文の階層データとの差分を抽出し、前記第１の文における差分である第１の表現データと前記第２の文における差分である第２の表現データとを言い換え規則データとして生成することと、
　記憶部が、前記第２の生成部により生成された言い換え規則データを記憶装置に記憶することと、
　を備える文書処理方法。