JP5076575B2

JP5076575B2 - 同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラム

Info

Publication number: JP5076575B2
Application number: JP2007071128A
Authority: JP
Inventors: 康高山本
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-03-19
Filing date: 2007-03-19
Publication date: 2012-11-21
Anticipated expiration: 2027-03-19
Also published as: JP2008234175A

Description

本発明は、同義表現を抽出する同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムに関し、特に、事前に特殊な文法規則を指定することなしに少数の類似文章対から同義表現を抽出する同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムに関する。

同義表現とは、同一の事物や概念に対して異なる表現が用いられる語や句等である。電子文書内に同義表現が存在することは、文書検索や文書分類等の自然言語処理を行う際の処理効率を低下させる要因となる。例えば、「廃材」をキーワードとして文書検索を行った場合、「いらなくなった木材」という同義表現を用いて書かれた電子文書は、廃材を扱った電子文書であるにもかかわらず、「廃材」という語が用いられていないために検索できない。

また、自然言語処理が低効率になるだけでなく、例えば、製品開発プロジェクトのように多くの人々が関わり合いながら作業するような環境において同義表現を用いた電子文書が用いられると、作成される電子文書中の同義表現が意思伝達を阻害する原因となる。

例えば、ある人が作成した電子文書において「同義表現抽出機能」と表現されているものと同じものが、他の人が作成した電子文書では「パラフレーズ特定技術」と表現されている場合がある。この場合、第三者が、これら「同義表現抽出機能」と「パラフレーズ特定技術」とを同一のものとして認識することは難しい。

電子文書間に用いられる同義表現を認識できるようにするために、一般に、同義表現を予め辞書化しておくことが望ましい。しかし、専門的な表現に関する同義表現は、このような辞書化等の対応策がとりづらい。人手により逐次辞書登録していくことも考えられるが、ユーザの負担が大きく、多大な労力を要し現実的ではない。そのため、蓄積されている電子文書内から効率的に同義表現を抽出できるようにすることが望まれている。

同義表現を自動抽出できるようにするために、内容が類似する文章対（以下、類似文章対という）を用いることが多い。例えば、類似文章対として、同じニュースについて書かれた複数の記事が用いられる。また、同じ本を異なる翻訳者によって翻訳した複数の訳本が用いられる。

また、あるプロジェクトにおいては、プロジェクト内の他のメンバが作成した電子文書を参照する等して、新しい電子文書を作成することが行われている。そのため、プロジェクト等において、相互に参照関係にある電子文章群も類似文章対となる。また、そのような類似文章対においては、専門用語に関する同義表現も含まれていることが多い。

従来の技術においては、単語間の共起情報等を統計的に処理することや、係り受け解析等の構文解析を利用することにより、類似文章対から同義表現を抽出することが行われている。なお、係り受け解析とは、文章を文節に分けた際の文節間の修飾関係や被修飾関係を特定する解析処理であり、係り受け解析により文章を木構造として表現した解析結果が得られる。以下、構文解析に基礎を置く類似文章対を利用した従来の同義表現抽出技術について説明する。

例えば、特許文献１には、同義表現抽出技術の一例が記載されている。特許文献１に記載された「情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体」は、同義語データベースを生成するために用いられる。

特許文献１に記載された同義表現抽出方法では、まず、ある文章内のある所定の記号（例えば「（）」等）の前部分の文字列１と記号内の文字列２とを抽出する。次に、抽出した文字列が含まれる文章以外に文字列１又は文字列２が含まれる文章を抽出し、抽出した文章に係り受け解析を適用する。これら２つの文字列がともにに係り関係を有する所定の文節が文章内に存在している場合、それらの文字列対を同義表現として抽出する。よって、特許文献１に記載された同義語対生成方法は、類似文章対を利用して、同義表現の候補から同義表現を絞り込む技術といえる。

また、例えば、特許文献２には、別の同義表現抽出技術が記載されている。特許文献２に記載された「同義語対抽出装置及びそのためのコンピュータプログラム」は、少ないデータから同義語対を抽出するために用いられる。特許文献２に記載された同義表現抽出方法では、まず類似文章対に共通する２つの文字列と、これら２つの文字列に挟まれる互いに相違する単語列とからなる単語列対を、同義表現の候補として抽出する。次に、抽出した同義表現の候補から、比較対象の文章に含まれていない等の条件を満たすものを同義表現として抽出する。

また、例えば、非特許文献１には、さらに別の同義表現抽出技術が記載されている。非特許文献１に記載された「情報抽出のための同義表現獲得法」は、同一のニュースに関する複数の記事から同義表現を抽出するために用いられる。非特許文献１に記載された同義表現抽出方法では、類似文章対に対して係り受け解析を適用し、次の３つの条件を満たす部分木を同義表現として抽出する。すなわち、（１）係り受け解析により得られる部分木の根が用言であること、（２）対となる部分木が共通の固有表現を含んでいること、（３）各用言が要求する格が部分木に含まれていることのいずれかの条件を満たす部分木を同義表現として抽出する。なお、固有表現とは、人名や地名、組織名等の固有名詞の他、日付こと、金額等の数値表現等のことである。

図３２は、特許文献２や非特許文献１に記載された同義表現抽出方法に共通する同義表現抽出の基本原理を示す説明図である。図３２に示すように、特許文献２や非特許文献１に用いられる基本原理では、類似文章対において同一のマーカー語（７０１ａ，８０１ａ）と同義表現候補（７０１ｂ，８０１ｂ）とが存在し、それらのマーカー語と同義表現候補との関係（７０１ｃ，８０１ｃ）が類似していれば、その同義表現候補を同義表現とするものである。特許文献２や非特許文献１に記載された同義表現抽出方法では、そのような基本原理に基づいて、少数の類似文章対から同義表現を抽出する。

マーカー語（７０１ａ，８０１ａ）は、特許文献２に記載された同義表現抽出方法では類似文章対において用いられている共通の文字列であり、非特許文献１に記載された同義表現抽出方法では固有表現である。同義表現語候補（７０１ｂ，８０１ｂ）は、特許文献２に記載された同義表現抽出方法では共通する文字列に挟まれた単語列であり、非特許文献１に記載された同義表現抽出方法では同一の固有表現を含む部分木である。また、関係（７０１ｃ，８０１ｃ）は、特許文献２に記載された同義表現抽出方法では、共通する文字列に挟まれる、又は表現が比較する文章に存在しないという関係である。また、関係（７０１ｃ，８０１ｃ）は、非特許文献１に記載された同義表現抽出方法では、各用言が要求する格が部分木に含まれているという関係である。

特開２００６−２６０４０２（段落００３４−００５８、図３）特開２００６−２５１８４３（段落００２２−００４８、図６） Shinyama Y, and Sekine S, "Paraphrase acquisition for information extraction", 2nd International Workshop on Paraphrasing: Paraphrase Acquisition and Applications, pp.65-71, 2003

第１の問題点として、非特許文献１や特許文献２に記載された同義表現抽出方法では、予め決められた文法規則を満たさない類似文章対からは同義表現を抽出することができない。すなわち、非特許文献１や特許文献２に記載された同義表現抽出方法では、マーカー語を基準とする同義表現抽出において、類似文章対又はその一部の文字列の並びの規則性や文法的規則が類似していることが重要である。そのため、非特許文献１や特許文献２に記載された同義表現抽出方法では、事前に同義表現の抽出対象となる文章対に対して、文字列の並び又は文法に強い制約を課している。

また、非特許文献１に記載された同義表現抽出方法では、類似文章対において部分木内に同一の固有表現があるか、用言が要求する格が含まれている必要がある。そのため、文法規則に見合う文章からしか同義表現を抽出できない。また、文法的な制約を課すために、用言がどのような格を必要とするかについて予め登録しておく必要がある。

また、特許文献２に記載された同義表現抽出方法では、類似文章対において共通する文字列の語順が変化している場合には、同義表現を抽出できない。また、同義表現が共通する単語に挟まれているとは限らないため、同義表現が共通する単語に挟まれていない場合には多くの同義表現が抽出できない。また、特許文献２には構文解析を利用することについても触れられているが、具体的な方法については何ら示されていない。そのため、仮に構文解析を行ったとしても、得られる結果は構文解析を行わない場合と変わらない。その理由は、特許文献２に記載された同義表現抽出方法では、２つの共通の文字列に挟まれる文字列を同義表現の候補としており、構文解析しても挟まれる文字列が変わるわけではないためである。そのため、２つの共通の文字列に挟まれていなければ、同義表現を抽出することはできない。

また、第２の問題点として、非特許文献１や特許文献１に記載された同義表現抽出方法では、特別な辞書や記号表現がないと同義表現を抽出できない。その理由は、非特許文献１に記載された同義表現抽出方法では、前述したように、用言が必要とする格についても事前に登録しておく必要があるためである。また、固有表現辞書も必要となる。近年では固有表現辞書の質も高まりつつあるが、報告書や仕様書、計画書等プロジェクト内で交わされる電子文書中においては、数値情報以外の固有表現は含まれにくい。

また、組織名等においても、ある部署名等の特定の場所においてのみ通じる名称であり、一般的な辞書を用いても組織名等を固有表現と判断して抽出することはできない。そのため、特別な固有表現辞書を準備する必要がある。特許文献１に記載された同義表現抽出方法では、文章中に「（）」等の記号表現が含まれることが必要である。しかし、同義表現が「（）」等の特定の記号により明示化されていることは少ない。また、特許文献１に記載された技術では、同義表現の候補となる表現対が１つの文章中に含まれていることを前提としているため、類似文章対のみが与えられた状態から同義表現を抽出することができない。

第３の問題点として、統計的処理を基礎とする方法では、少量の類似文章対から同義表現を抽出することができない。その理由は、統計的処理が有効性を発揮するためには、多量の類似文章対が必要になるためである。すなわち、少量の文書対のみを用いて処理を行っただけでは、十分な精度を確保することができない。プロジェクト内では多量の電子文書が存在するが、例えば、ある専門用語に関する同義表現を含む類似文章対が多量にあるわけではない。すなわち、少量の類似文章対から同義表現を抽出することができない。

そこで、本発明は、事前に文法規則を指定することなしに類似文章対から同義表現を抽出することができる同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムを提供することを目的とする。また、本発明は、特別な辞書の準備や記号表現を利用することなく類似文章対を効率的に抽出することができる同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムを提供することを目的とする。さらに、本発明は、少数の類似文章からでも高精度に同義表現を抽出することができる同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムを提供することを目的とする。

本発明による同義表現抽出システムは、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定手段と、構造関係特定手段が特定した構造関係に基づいて、類似文章対に含まれる相違表現を同義表現の候補として、同義表現の候補の類似度を求める類似度算出手段と、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出手段（例えば、類似性判定手段１０４によって実現される）とを備え、同義表現抽出手段は、類似度算出手段が求めた類似度に基づいて、同義表現の候補を同義表現として抽出するか否かを判定することを特徴とする。
本発明による同義表現抽出システムの他の態様は、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、類似文章対の文章構造を特定する文章構造特定手段と、文章構造特定手段が特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出手段と、表現抽出手段が抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定手段と、位置関係特定手段が特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出手段と、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出手段とを備え、同義表現抽出手段は、類似度算出手段が算出した類似度に基づいて、同義表現を抽出することを特徴とする。
本発明による同義表現抽出システムのさらに他の態様は、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、類似文章対の文章構造を特定する文章構造特定手段と、文章構造特定手段が特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出手段と、表現抽出手段が抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定手段と、位置関係特定手段が特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出手段と、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出手段とを備え、同義表現抽出手段は、類似度算出手段が算出した類似度に基づいて、同義表現を抽出することを特徴とする。

また、同義表現抽出システムにおいて、同義表現抽出手段は、類似文章対において、相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係であることに基づいて、同義表現を抽出するものであってもよい。

また、同義表現抽出システムは、類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換手段（例えば、文章整形手段１０５によって実現される）を備えたものであってもよい。

また、同義表現抽出システムにおいて、同義表現抽出手段は、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出し、同義表現抽出システムは、同義表現抽出手段が抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、同義表現を抽出するための類似基準を補正する類似基準補正手段（例えば、類似基準補正手段１０７によって実現される）を備えたものであってもよい。

本発明による同義表現抽出方法は、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、コンピュータが、類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定ステップと、コンピュータが、特定した構造関係に基づいて、類似文章対に含まれる相違表現を同義表現の候補として、同義表現の候補の類似度を求める類似度算出ステップと、コンピュータが、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出ステップとを含み、コンピュータが、同義表現抽出ステップで、求めた類似度に基づいて、同義表現の候補を同義表現として抽出するか否かを判定することを特徴とする。
本発明による同義表現抽出方法の他の態様は、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、コンピュータが、類似文章対の文章構造を特定する文章構造特定ステップと、コンピュータが、特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出ステップと、コンピュータが、抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定ステップと、コンピュータが、特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出ステップと、コンピュータが、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出ステップとを含み、コンピュータが、同義表現抽出ステップで、算出した類似度に基づいて、同義表現を抽出することを特徴とする。
本発明による同義表現抽出方法のさらに他の態様は、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、コンピュータが、類似文章対の文章構造を特定する文章構造特定ステップと、コンピュータが、特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出ステップと、コンピュータが、抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定ステップと、コンピュータが、特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出ステップと、コンピュータが、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出ステップとを含み、コンピュータが、同義表現抽出ステップで、算出した類似度に基づいて、同義表現を抽出することを特徴とする。

また、同義表現抽出方法は、コンピュータが、類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換ステップを含むものであってもよい。

また、同義表現抽出方法は、コンピュータが、同義表現抽出ステップで、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出し、コンピュータが、抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、同義表現を抽出するための類似基準を補正する類似基準補正ステップを含むものであってもよい。

本発明による同義表現抽出用プログラムは、相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、コンピュータに、類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定処理と、特定した構造関係に基づいて、類似文章対に含まれる相違表現を同義表現の候補として、同義表現の候補の類似度を求める類似度算出処理と、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出処理とを実行させ、同義表現抽出処理で、求めた類似度に基づいて、同義表現の候補を同義表現として抽出するか否かを判定する処理を実行させるためのものである。
本発明による同義表現抽出用プログラムの他の態様は、相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、コンピュータに、類似文章対の文章構造を特定する文章構造特定処理と、特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出処理と、抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定処理と、特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出処理と、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出処理とを実行させ、同義表現抽出処理で、算出した類似度に基づいて、同義表現を抽出する処理を実行させるためのものである。
本発明による同義表現抽出用プログラムのさらに他の態様は、相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、コンピュータに、類似文章対の文章構造を特定する文章構造特定処理と、特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出処理と、抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定処理と、特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出処理と、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出処理とを実行させ、同義表現抽出処理で、算出した類似度に基づいて、同義表現を抽出する処理を実行させるためのものである。

また、同義表現抽出用プログラムは、コンピュータに、類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換処理を実行させるものであってもよい。

また、同義表現抽出用プログラムは、コンピュータに、同義表現抽出処理で、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出する処理を実行させ、抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、同義表現を抽出するための類似基準を補正する類似基準補正処理を実行させるものであってもよい。

本発明による第１の同義表現抽出システムは、類似文章対の各文章に対して係り受け解析を実行し、各文章における各文節間の係り受け関係を示す係り受け表を生成する係り受け解析手段と、類似文章対において共通して含まれる文字列である共通表現と、それぞれの文章だけに含まれる文字列であり同義表現の候補となる相違表現とを抽出する表現比較手段と、係り受け解析により求められた文章の木構造中における共通表現と相違表現との位置情報を、係り受け表の情報に基づいて、木構造中においてどの分岐、葉又は根にその表現が挟まれるかを示す構造関係特定表を生成し、生成した構造関係特定表の情報を用いて、木構造における共通表現構造である共通表現間の相対的位置関係、及び相違表現構造である共通表現と相違表現との間の相対的位置関係を、所定の規則に従って、構造関係である同列、直列、並列、前列、後列、横列又はその他の関係の７種類に分類する構造関係特定手段と、類似文章対において共通表現構造の同一性及び相違表現構造の同一性を、各構造関係の同一性を規定する同一性判定表に従って判定し、各構造関係の同一性に基づいて、類似文章対における共通表現構造の類似度及び相違表現構造の類似度を算出し、類似文章対において同義表現候補である同義表現の候補となる相違表現において、その同義表現候補対の類似度を２つの類似度の重み付き平均を求めることにより算出し、閾値処理を実行することにより同義表現を抽出する類似性判定手段とを備えたことを特徴とする。

上記のような構成によれば、類似文章対における共通表現間の構造関係の同一性から構造関係の類似度を算出でき、類似文章対の文字列の構成や文法の類似性を判断できる。そのため、事前に特殊な文法規則を設けることなく、同義表現を抽出することができる。また、上記のような構成によれば、特殊な辞書や記号等を必要とせずに、係り受け解析に必要とする辞書程度の情報のみに基づいて、類似文章対から同義表現を抽出することができる。さらに、上記のような構成によれば、同義表現抽出の原理に則り、統計的処理を用いることなく、１組の類似文章対のみであっても、高精度に同義表現を抽出することができる。

本発明による第２の同義表現抽出システムは、第１の同義表現抽出システムにおける構成要素に加えて、係り受け解析を実行する前に、類似文章対が係り受け解析によって類似する文章の木構造となるように文章を整形する文章整形手段を備えたことを特徴とする。

上記のような構成によれば、第１の同義表現抽出システムの構成により実現できる同義表現抽出システムの利点を失うことなく、さらに高精度に同義表現を抽出することができる。

本発明による第３の同義表現抽出システムは、同義表現抽出システムの抽出結果に対してシステム利用者が抽出結果の正誤を判定した情報と、抽出結果の類似度を算出する基になった共通表現間の構造関係の類似度、及び共通表現と相違表現間との構造関係の類似度とに基づいて、抽出結果を真の同義表現と真の同義表現でないものとに分類する共通表現間の構造関係の類似度、及び共通表現と相違表現との間の構造関係の類似度に対する適切な重み係数を推定する類似基準補正手段を備えたことを特徴とする。

上記のような構成によれば、第１の同義表現抽出システムの構成により実現できる同義表現抽出システムの利点を失うことなく、同義表現を抽出する類似性基準のパラメータを適切な値に補正することができ、さらに同義表現抽出の精度を向上させることができる。

本発明によれば、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対の文法的類似性を推定し、類似文章対から同義表現を抽出できる。すなわち、本発明によれば、相違表現の類似度だけに基づいて同義表現であるか否かを判断するのではなく、類似文章対に含まれる共通表現と相違表現との両方の構造関係に基づいて、同義表現であるか否かを判断できる。従って、事前に特殊な文法規則を設けることなく、類似文章対から同義表現を抽出することができる。

また、本発明によれば、共通表現及び相違表現の構造関係を示す係り受け表を用いて各表現の相対的位置関係を単純化することにより、類似文章対における修飾語の増減や、マーカー語の語順の違い等に影響を受けることなく、同義表現を抽出することができる。さらに、類似文章対における相対的位置関係の同一性を設計可能な判定基準を用いて同義表現であるか否かを判定するので、同義表現を抽出する文章対にあわせて文法的制約の強さを変更することも可能である。

また、本発明によれば、類似文章対内の文字列の関係性のみに基づいて、同義表現を抽出することができる。また、本発明によれば、形態素解析や係り受け解析において辞書を用いているものの、一般に広く用いられる辞書のみを用いればよく、特別な辞書を予め用意しなくても、同義表現を抽出することができる。従って、特別な辞書の準備や記号表現を用いなくても、類似文章対から同義表現を効率的に抽出することができる。

また、本発明によれば、同義表現抽出の原理に基づいた方法を用いて、少数の類似文章対だけであっても、同義表現の候補が真に同義表現であるか否かを高精度に判定することができ、同義表現を高精度に抽出することができる。また、クラスタリングや統計的に結論を導き出すことを必要とする処理を用いることなく、同義表現を抽出することができる。従って、少数の類似文章だけであっても、高精度に同義表現を抽出することができる。

以下、本発明を実施するための最良の形態について図面を参照して説明する。

実施の形態１．
まず、本発明の第１の実施の形態を図面を参照して説明する。図１は、本発明による同義表現抽出システムの構成の一例を示すブロック図である。図１に示すように、同義表現抽出システム１０は、係り受け解析手段１０１と、表現比較手段１０２と、構造関係特定手段１０３と、類似性算出手段１０４とを含む。また、同義表現抽出システム１０は、類似文章対データベース５０１と、出力手段５０２とを備える。

また、図２は、同義表現抽出システム１０が同義表現を抽出する処理の一例を示すフローチャートである。以下、同義表現抽出システム１０の各構成要素の機能と、同義表現抽出システム１０の動作とを、図１に示すブロック図及び図２に示すフローチャートとを参照して説明する。

なお、本実施の形態において、同義表現抽出システム１０は、具体的には、プログラムに従って動作するコンピュータ（例えば、パーソナルコンピュータ等の情報処理装置）によって実現される。また、同義表現抽出システム１０は、例えば、同義表現検索を実行する情報検索システムや、プロジェクト管理を行うプロジェクト管理システム、電子文書の管理を行う文書管理システム等の用途に適用される。

なお、図１に示す例では、同義表現抽出システム１０の外部に類似文章対データベース５０１と出力手段５０２とを設ける場合を示しているが、同義表現抽出システム１０の内部に類似文章対データベース５０１と出力手段５０２とを備えてもよい。

類似文章対データベース５０１は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。類似文章対データベース５０１は、相互に意味が類似している単一言語の２つ以上の文章を予め記憶している。例えば、類似文章対として、同じ内容に関して記載された異なるニュース記事等からそれぞれ文章を抽出して、類似文章対データベース５０１に蓄積してもよい。また、例えば、類似文章対データベース５０１は、同一の言語（外国語）で記載された文章を翻訳した複数の文章を類似文章対として記憶してもよいし、相互に参照関係のある電子文書から抽出した文章を類似文章対として記憶してもよい。

なお、本実施の形態では、類似文章対データベース５０１には、電子文書等から類似文章対を抽出する類似文章対抽出システム（図示せず）によって抽出された類似文章対が予め蓄積されている。例えば、類似文章対抽出システムは、所定時間毎に、インターネット上のＷｅｂ情報や共通サーバ等に蓄積されている電子文書から類似文章対を自動抽出し、類似文章対データベース５０１に記憶させる。また、例えば、類似文章対データベース５０１は、ユーザによって作成された類似文章対を予め蓄積してもよい。

図３は、類似文章対データベース５０１が記憶する類似文章対の例を示す説明図である。図３に示す類似文章対では、表現「ＡＢＣ機能」と表現「ＸＹＺ機能」とが同義表現であるとする。以下、図３に示す類似文章対を例にして同義表現の抽出方法を説明する。また、本実施の形態では、２つの類似文章間の同義表現を抽出する場合を例に説明する。なお、類似文章対に３つ以上の類似文章が含まれる場合には、各類似文章を２つずつ組み合わせた類似文章の組を作り、その全組み合わせに対してそれぞれ処理を実行すればよい。

同義表現抽出システム１０は、ユーザによる操作に従って、同義表現抽出の処理を開始する。例えば、同義表現抽出システム１０は、ディスプレイ装置等である出力手段５０２に、同義表現抽出用のフォームを含む表示画面を表示させる。この場合に、ユーザによって同義表現抽出用のフォームから実行ボタンがマウスクリック等されると、同義表現抽出システム１０は、同義表現抽出の処理を開始する。

係り受け解析手段１０１は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。同義表現抽出の処理を開始すると、係り受け解析手段１０１は、まず、類似文章対データベース５０１から類似文章対を抽出する。次いで、係り受け解析手段１０１は、抽出した類似文章対に含まれる各文章に対して係り受け解析を行い、その係り受け解析結果を表現比較手段１０２に出力する（ステップＳ７０４ａ）。

なお、一般に、係り受け解析を行う前には文章を形態素に分解する形態素解析処理を行う必要がある。本実施の形態では、形態素解析処理は係り受け解析手段１０１に組み込まれているものとし、係り受け解析手段１０１は、ステップＳ７０４ａにおいて、形態素解析処理を実行してから係り受け解析を実行する。なお、形態素解析処理を行う手段を、係り受け解析処理を行う係り受け解析手段１０１とは別に備えるようにしてもよい。

なお、係り受け解析手段１０１は、ＨＭＭ（Hidden Markov Model ）等の既存技術を用いて形態素解析を実行する。また、係り受け解析手段１０１は、確率モデルや構文解析等の既存技術を用いて係り受け解析を実行する。

図４は、図３に示した各文章を係り受け解析し、各文節間の係り受けの関係を図示した説明図である。図４において、ノードは文節を表し、矢印の先が文節の係り先を表している。図４に示すように、係り受け解析手段１０１は、類似文章対の各文章に対して係り受け解析を実行することにより、各文章を、文節をノードとする木構造を用いて表すことができる。ここで、図４に示すような係り受けの木構造を係り受け構造という。

なお、係り受け解析手段１０１は、形態素解析結果と各文節の対応関係の情報とを、例えば、図５に示すようなデータ形式で記録媒体に記憶させる。例えば、係り受け解析手段１０１は、記憶媒体として、情報処理装置のメモリやハードディスク装置、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、フレキシブルディスク等に、形態素解析結果や各文節の対応関係の情報を、図５に示すように表（テーブル）形式で記憶させる。

図５に示すように、形態素解析結果や各文節の対応関係の情報を示す表には、形態素解析により抽出された単語と、その単語の品詞及び係り受け解析により求められた文節ＩＤとが含まれる。文節ＩＤとは、文節を特定するための識別情報である。同じ文節に属する単語には同一の文節ＩＤが付与される。

また、係り受け解析手段１０１は、求めた係り受け構造を、例えば、図６に示すようなデータ形式により表（テーブル）形式で記憶媒体に記憶させる。以下、図６に示す係り受け構造を示す表を係り受け表という。図６に示す係り受け表において、左列の「文節ＩＤ」は、図５に示す文節ＩＤと対応している。また、中央列の「文節」は、１つの文節を形成する文字列である。右列の「係り先ＩＤ」は、その文節が係る係り先の文節の文節ＩＤを示している。

例えば、図６に示す例では、文節ＩＤ００１の文節「動画処理の」は、文節ＩＤ００２の文節「ために」に係ることがわかる。また、係る文節がない場合には、係り先がないことを判断できるように、例えば、係り先ＩＤを０００とする。

表現比較手段１０２は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。表現比較手段１０２は、係り受け解析手段１０１による解析結果を入力する。また、表現比較手段１０２は、入力した係り受け解析結果に基づいて、類似文章対における共通表現と相違表現とを特定し、共通表現と相違表現との特定結果を構造関係抽出手段１０３に出力する（ステップＳ７０４ｂ）。

表現比較手段１０２は、共通表現や相違表現として抽出する対象表現の品詞を任意に選択してよい。例えば、表現比較手段１０２は、名詞を含む文節について共通表現や相違表現を抽出してもよい。また、表現比較手段１０２は、自立語を含む文節について共通表現や相違表現を抽出してもよい。さらに、表現比較手段１０２は、文節区切りで抽出するだけではなく、名詞を含む文節とその文節を修飾する１つ以上の文節群とを１つの表現として、共通表現や相違表現を抽出してもよい。また、表現比較手段１０２は、係り受け構造の部分木を単位として、共通表現や相違表現を抽出してもよい。なお、表現比較手段１０２は、各文節に含まれる単語の品詞については、図５に示す形態素解析結果と各文節の対応関係の情報に基づいて抽出することができる。

以下、説明をわかりやすくするために、共通表現や相違表現として抽出する表現を各文節中に含まれる名詞句とした場合における同義表現の抽出過程について説明する。一般に、情報検索等を行なう場合、名詞や名詞句を入力して情報検索操作を行うことが多い。また、一般に、動詞や形容詞等の用言の同義表現はユーザが見てすぐに同義であるか否か認識できるものが多いのに対し、名詞や名詞句に同義表現が含まれる場合、その名詞や名詞句を見ただけではユーザが同義であるか否かをすぐに認識できないものが多い。従って、電子文書間等において名詞や名詞句に同義表現が含まれている場合、最も情報検索の障害となる可能性が高い。従って、本実施の形態では、類似文章対から名詞句における同義表現を抽出する場合を説明する。なお、同義表現抽出システム１０は、名詞や名詞句に限らず、動詞や形容詞等の同義表現を抽出するものであってもよい。

また、以下、各文節を表現ともいう。図４に示す例では、表現比較手段１０２は、共通表現として「高速描画」（７０６ａ，７０６ｄ）と「動画処理」（７０６ｂ，７０６ｅ）とを抽出する。また、図４において、網掛けで示した四角枠には、相違表現が含まれていることを表している。すなわち、表現比較手段１０２は、相違表現として「ＡＢＣ機能」７０６ｃ、「ＸＹＺ機能」７０６ｆ及び「可視化診断」７０６ｇを抽出する。

構造関係特定手段１０３は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。構造関係特定手段１０３は、類似文章対から抽出された共通表現と相違表現とに基づいて、各文章における共通表現間の構造関係、及び共通表現と相違表現との間の構造関係を特定し、特定した各構造関係を類似性判定手段１０４に出力する（ステップＳ７０４ｃ）。構造関係とは、係り受け構造における各表現の相対的位置関係により規定されるものである。構造関係は、係り受け構造において、基準となる表現（以下、基準表現という）が非分岐又は分岐の位置のどちらの位置に存在するかに従って２つに分けることができる。なお、基準表現に対して構造関係を特定する表現を対象表現という。また、分岐に位置する表現を分岐表現という。

図７は、共通表現間の構造関係、及び共通表現と相違表現との間の構造関係の例を示す説明図である。図７（ａ）は、基準表現（７０９ａ）が非分岐に位置する場合の構造関係を示している。また、図７（ｂ）は、基準表現（７０９ｂ）が分岐に位置する場合の構造関係を示している。また、図７において、○印は１つの表現を表しており、矢印は係り受けを表している。また、●印は基準表現を表している。

基準表現が非分岐に位置する場合、図７（ａ）に示す破線四角枠により示される対象表現の位置によって、同列、直列及び並列の３つの構造関係を規定する。この場合、構造関係特定手段１０３は、対象表現が同列、直列又は並列のいずれであるかを特定する。ここで、同列とは基準表現と直接係り受けの関係がある表現の集合であり、直列とは文章の全体的な係り受け構造からみると基準表現が「係り」又は「受け」となる表現の集合であり、並列とは共通の分岐表現に係る表現の集合である。

一方、基準表現が分岐に位置する場合、図７（ｂ）に示す破線四角枠により示される対象表現の位置によって、前列、後列及び横列の３つの構造関係を規定する。この場合、構造関係特定手段１０３は、対象表現が前列、後列及び横列のいずれであるかを特定する。ここで、前列とは基準表現に対して「係り」となる表現の集合であり、後列とは基準表現に対して「受け」となる表現の集合であり、横列とは共通の分岐表現に係る表現の集合である。

なお、係り受け構造において、構造関係を特定する表現間に２つ以上の分岐表現がある場合、構造関係特定手段１０３は、上記に示した６つの関係のいずれにも属さないと判断し、構造関係を「その他」と特定する。

次に、文章２を例にして、構造関係特定手段１０３が構造関係を特定する処理について説明する。構造関係の特定処理において、構造関係特定手段１０３は、まず、図６に示す係り受け表に基づいて、図８に示す構造関係特定表を生成する。構造関係特定表とは、構造関係を特定するために必要となる情報をまとめた情報である。図８に示すように、構造関係特定表は、文節ＩＤと、文節ＩＤに対応する表現の係り受け構造における位置（分岐／非分岐）と、それぞれ各表現の係り側及び受け側にある近接の分岐表現を特定するための文節ＩＤ（係り側近接分岐ＩＤ、受け側近接分岐ＩＤ）を含む。

図９に示すように、係り側とは係り受け構造における葉側を意味し、受け側とは係り受け構造における根側を意味する。係り側近接分岐ＩＤ及び受け側近接分岐ＩＤとは、係り受け構造において各表現がどの分岐表現に挟まれているかを把握するための識別情報である。ただし、係り受け構造において、根に相当する表現には受け側近接分岐ＩＤがなく、葉と同列の関係にある表現には係り側近接分岐ＩＤがない。そのため、図９に示すように、分岐表現の文節ＩＤの代わりに葉ＩＤと根ＩＤとを用いる。そのようにすることにより、構造関係特定手段１０３は、任意の表現の係り側近接分岐ＩＤ及び受け側近接分岐ＩＤに、分岐表現の文節ＩＤ、葉ＩＤ又は根ＩＤのいずれかを付与する。

構造関係特定手段１０３は、構造関係特定表を、以下の処理に従って生成する。構造関係特定手段１０３は、図６に示す係り受け表に基づいて、係り先ＩＤに同じ文節ＩＤが２つ以上あればその表現を分岐表現とし、同じ文節ＩＤが１つ以下であれば非分岐の表現とする。そのような処理により、構造関係特定手段１０３は、各表現の分岐／非分岐を特定する。

次に、構造関係特定手段１０３は、係り受け表において係り先ＩＤに存在しない文節ＩＤを抽出する。その抽出した文節ＩＤの表現は係り受け構造における葉に相当しており、構造関係特定手段１０３は、その抽出した文節ＩＤの表現の係り側近接分岐ＩＤには葉ＩＤを付与する。この場合、構造関係特定手段１０３は、各葉ＩＤとして異なる値を用いる。

次に、構造関係特定手段１０３は、葉に相当する表現から順に、係り先の表現が分岐表現となるまで各表現を順次参照していき、そのトレースの過程に出てくる表現をメモリ等の記憶媒体に記憶させる。また、構造関係特定手段１０３は、記憶媒体に記憶されている表現の係り側近接分岐ＩＤに、参照を開始した表現（葉に相当）の係り側近接分岐ＩＤを付与する。また、構造関係特定手段１０３は、受け側近接分岐ＩＤとして、前述した分岐表現の文節ＩＤを付与する。また、構造関係特定手段１０３は、分岐表現の係り側近接分岐ＩＤとして、その表現に直接係る表現の係り側近接分岐ＩＤを付与する。

なお、構造関係特定手段１０３は、分岐表現の係り側近接分岐ＩＤとして、２個以上のＩＤを付与することになる。もし、分岐表現が見つからず係り先係り受け構造の根となった場合には、構造関係特定手段１０３は、その表現の受け側分岐表現ＩＤを根ＩＤとし処理を終了する。そうでない場合には、構造関係特定手段１０３は、さらに分岐の表現から順に係り先の表現が分岐表現となるまで順次参照していき、そのトレースの過程に出てくる表現をメモリ等の記憶媒体に記憶させる。また、構造関係特定手段１０３は、記憶媒体に記憶されている表現の係り側近接分岐ＩＤに、参照を開始した分岐表現の文節ＩＤを付与する。

上記の処理を繰り返し実行し、参照する係り先が係り受け構造の根となると、構造関係特定手段１０３は、その表現の受け側分岐表現ＩＤに根ＩＤを付与し、処理を終了する。図８は、図６に示す係り受け表に基づいて求められる構造関係特定表の例を示す説明図である。

次に、構造関係特定手段１０３は、構造関係特定表において、共通表現又は相違表現を含む２つの表現に対して構造関係を特定する。基準表現が非分岐である場合、構造関係特定手段１０３は、（１）２つの表現において受け側近接分岐ＩＤと係り側近接分岐ＩＤとがともに同一である場合には、構造関係を「同列」と特定する。また、構造関係特定手段１０３は、（２）２つの表現において受け側近接分岐ＩＤが同一であり係り側近接分岐ＩＤが異なれば、構造関係を「並列」と特定する。また、構造関係特定手段１０３は、（３）一方の受け側近接分岐ＩＤが他方の係り側近接分岐ＩＤと同一である場合には、構造関係を「直列」と特定する。また、構造関係特定手段１０３は、（４）２つの表現の受け側近接分岐ＩＤと係り側近接分岐ＩＤとに一致するものがなければ、構造関係を「その他」と特定する。

また、基準表現が分岐表現である場合、構造関係特定手段１０３は、（１）対象表現の受け側近接分岐ＩＤが基準表現の文節ＩＤである場合には、構造関係を「前列」と特定する。また、構造関係特定手段１０３は、（２）対象表現の係り側近接分岐ＩＤが基準表現の文節ＩＤである場合には、構造関係を「後列」と特定する。また、構造関係特定手段１０３は、（３）２つの表現の受け側近接分岐ＩＤが同一であれば、構造関係を「並列」と特定する。また、構造関係特定手段１０３は、（４）２つの表現の受け側近接分岐ＩＤと係り側近接分岐ＩＤとに一致するものがなければ、構造関係を「その他」と特定する。

なお、上記に示した構造関係を特定する方法は一例であり、構造関係特定手段１０３は、所望の構造関係が特定できれば、他の方法を用いて構造関係を特定してもよい。また、以下、共通表現間の構造関係を共通表現構造といい、共通表現と相違表現との間の構造関係を相違表現構造という。

なお、構造関係を求めるための２つの表現において、片方が分岐表現であり、もう一方が分岐表現でない場合、どちらを基準表現にするかによって構造関係が変わる。そのため、本実施の形態では、構造関係特定手段１０３は、２つの表現間に対して基準表現と対象表現とを入れ替えて処理を実行することにより、２つの構造関係を特定する。そのように、基準表現と対象表現とを入れ替えた２種類の構造関係を特定して処理を行うことにより、同義表現抽出の精度をより高めることができる。なお、基準表現と対象表現との入れ替えを行わずに、いずれか一方の表現のみを基準表現とし、他方を対象表現として、同義表現抽出の処理を行ってもよい。

類似文章対に共通表現がｍ個ある場合、構造関係特定手段１０３は、各文章においてｍ×（ｍ−１）個の共通表現構造を特定することになる。また、構造関係特定手段１０３は、相違表現１個について、ｍ×２個の相違表現構造を特定することになる。例えば、文章１と文章２とを比較する場合には、ｍ＝２であるため、構造関係特定手段１０３は、共通表現構造を２個特定することになる。また、文章１及び文章２については、相違表現がそれぞれ１個及び２個であるため、構造関係特定手段１０３は、文章１において４個の相違表現構造を特定し、文章２において８個の相違表現構造を特定する。

図１０は、構造関係特定手段１０３が文章１に対して構造関係を特定した結果を示す説明図である。なお、図１０の右側に示す特定結果は、図１０の左側に示す特定結果で用いた基準表現と対象表現とを反転して（入れ替えて）処理することによって求めた構造関係である。図１０において、破線矢印の元は基準表現を示しており、波線矢印の先は対象表現を示している。また、図１０において、共通表現が含まれる表現（文節）は白抜き文字で示されており、相違表現が含まれる表現は網掛けの四角枠として示されている。

図１０に示すように、構造関係特定手段１０３による構造関係の特定結果に基づいて、文章１においては、基準表現の違いに関係なく、「高速描画」と「動画処理」との共通表現構造が「並列」（７２０ａ，８２０ａ）であることがわかる。また、「ＡＢＣ機能」と「動画処理」との相違表現構造が「並列」（７２０ｂ，８２０ｂ）であることがわかる。また、「ＡＢＣ機能」と「高速描画」との相違表現構造が「同列」（７２０ｃ，８２０ｃ）であることがわかる。

図１１は、構造関係特定手段１０３が文章２に対して構造関係を特定した結果を示す説明図である。なお、図１１の下側に示す特定結果は、図１１の上側に示す特定結果で用いた基準表現と対象表現とを反転して（入れ替えて）処理することによって求めた構造関係である。また、図１１の見方は図１０の場合と同様である。

図１１に示すように、構造関係特定手段１０３による構造関係の特定結果に基づいて、文章２においても、基準表現の違いに関係なく、「高速描画」と「動画処理」との共通表現構造が「並列」（７３０ａ，８３０ａ）であることがわかる。また、「ＸＹＺ機能」と「動画処理」との相違表現構造が「並列」（７１３ｂ，８３０ｂ）、「ＸＹＺ機能」と「高速描画」との相違表現構造が「同列」（７３０ｃ，８３０ｃ）であることがわかる。また、「可視化診断」と「高速描画」との相違表現構造及び「可視化診断」と「動画処理」との相違表現構造は、表現間に２つ以上の分岐表現（「用いており、」と「役立っている」）があるため、構造関係が「その他」（７３０ｄ，７３０ｅ，８３０ｄ，８３０ｅ）であることがわかる。

類似性判定手段１０４は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。類似性判定手段１０４は、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する機能を備える。

類似性判定手段１０４は、構造関係抽出手段１０３から類似文章対を入力し、入力した類似文章対における共通表現構造及び相違表現構造の同一性を判定する（ステップＳ７０４ｄ）。さらに、類似性判定手段１０４は、同一性の判定結果に基づいて、類似文章対における同義表現候補対の類似度を算出することにより同義表現を抽出し、同義表現の抽出結果を出力手段５０２に出力する（ステップＳ７０４ｅ）。

なお、同義表現候補対とは、類似文章対において同義表現の候補となる相違表現をペア（対）にした情報である。類似文章対である文章ｉと文章ｊとにそれぞれ相違表現がｎｉ個及びｎｊ個含まれている場合、同義表現候補対の組み合わせはｎｉ×ｎｊ通りとなる。類似性判定手段１０４は、これら全ての同義表現候補対の組み合わせに対して類似度を算出する。

まず、類似性判定手段１０４は、同義表現候補対における比較構造関係を特定する。比較構造関係とは、同義表現候補対の類似度を算出するために比較すべき共通表現構造及び相違表現構造のことである。類似性判定手段１０４は、共通表現構造について、類似文章対において基準表現及び対象表現が同一であるものを比較する。また、類似性判定手段１０４は、相違表現構造について、類似文章対において基準表現となる共通表現が同一であるもの、又は対象表現となる共通表現が同一であるものを比較する。

図１２は、類似文章対における共通表現の数（ｍ）が２である場合における比較構造関係の例を示している。図１２において、共通表現１，２は文章ｉ，ｊにおいて用いられている同一の文字列の表現であり、相違表現ａと相違表現ｂとは同義表現候補対である。また、同義表現候補対は、図１２において網掛けで示されている。図１２に示す例では、類似性判定手段１０４が比較する構造関係数は、１つの同義表現候補対について、共通表現構造に対して２個となり、相違表現構造に対して４個となり、合計６個となる。すなわち、類似性判定手段１０４は、６個の構造関係の同一性に基づいて、同義表現候補対の類似度を算出する。

図１３は、文章１と文章２とにおける同義表現候補対に対する比較構造関係を示す。文章１と文章２とにおいて、同義表現候補対は、「ＡＢＣ機能」と「ＸＹＺ機能」、及び「ＡＢＣ機能」と「可視化診断」の２つになる。類似性判定手段１０４は、各同義表現候補対の両方に対して、図１２と同様に、２つの共通表現構造と４つの相違表現構造とを比較し、構造関係の同一性を判定することにより、同義表現候補対の類似度を算出する。

なお、類似文章対において、各文章における文法構造や、共通表現及び相違表現の語順等が同等であることが保証されている場合には、類似性判定手段１０４は、相違表現構造の同一性のみを判定することによって、同義表現候補対の類似度を算出してもよい。この場合、図１３に示す例では、類似性判定手段１０４は、「ＡＢＣ機能」と「ＸＹＺ機能」及び「ＡＢＣ機能」と「可視化診断」の各同義表現候補対ともに４つの相違表現構造を比較し、構造関係の同一性を判定して、同義表現候補対の類似度を算出することになる。

次に、類似性判定手段１０４が実行する各構造関係の同一性の判定処理の判定方法について説明する。図１４は、構造関係の同一性に関する判定基準を示す表（テーブル）の一例を示す説明図である。図１４に示す表は、２つの構造関係の全ての組み合わせに対して、それらを同一とみなすか否かを設定したものである。以下、図１４に示す表を同一性判定表という。なお、図１４に示す同一性判定表は、例えば、情報処理装置が備えるハードディスク装置やメモリ等の記憶媒体に予め記憶される。また、図１４に示す同一性判定表は、対象行列であるため、下三角行列の部分には値は含まれないものとする。

図１４に示す同一性判定表では、各構造関係の組み合わせに対して「○」、「×」又は「順」の３種の同一性を判定するための判定値が設定されている。ここで、「○」は各比較構造関係を同一と判定することを意味し、「×」は相違と判定することを意味する。また、「順」は、比較構造関係において、基準表現と対象表現との各文章中における順序が等しい場合には同一と判定することを表す。

類似性判定手段１０４は、図１４に示す同一性判定表に従って、各構造関係の同一性を判定する。この場合、類似性判定手段１０４は、原則として、比較構造関係が一致している場合（図１４に示す対角要素に相当する）には、構造関係が「その他」である場合を除き、その構造関係を同一であると判断できる。ただし、同一性判定表を用いた同一性判定において、構造関係が一致していない場合においても同一と判定することを許容するものとする。

例えば、同一性判定表では、類似文章対において比較構造関係が「並列」と「横列」とである場合には、同一「○」７６０ａであるとしている。横列と並列とは、基準表現の位置に差があるものの、ともに「同じ分岐表現に係る表現間の関係」を規定するものであり、実質的には同じ構造であると判断することができる。

また、同一性判定表において判定値として「順」を設定することにより、以下の処理を実現することができる。図１５は、類似文章対の他の例である文章３及び文章４を示す説明図である。図１５に示す類似文章対において、「ＤＥＦ機能」と「ＫＬＭ機能」とが同義表現であるとする。図１５に示す例において、表現比較手段１０２は、「製品」と「新開発」とを共通表現として特定し、文章３の「ＤＥＦ機能」と文章４の「ＫＬＭ機能」及び「動画処理」とを相違表現として特定する。そのため、図１５に示す例では、「ＤＥＦ機能」及び「ＫＬＭ機能」と「ＤＥＦ機能」及び「動画処理」とが同義表現候補対となる。

図１６は、図１５に示す類似文章対の係り受け構造を示す説明図である。図１６に示す各構造関係において、矢印の元が基準表現を示しており、矢印の先が対象表現を示している。また、図１６に示す構造関係「同列」７８０ａと「直列」（７８０ｂ，７８０ｃ）とは、比較構造関係である。この場合、文章３における「同列」７８０ａと文章４における「直列」７８０ｂとは一致しない。そのため、従来の同義表現抽出方法では、文章３及び文章４から同義表現を抽出することはできない。

しかしながら、本実施の形態では、図１６に示す場合であっても、類似性判定手段１０４は、図１４に示す同一性判定表に基づいて、文章３における「同列」７８０ａと文章４における「直列」７８０ｂとの相違表現構造関係を同一であると判定できる。すなわち、図１４に示す同一性判定表では、「同列」と「直列」との同一性の判定基準が「順」と設定されており、共通表現と対象表現の順序が一致すれば、相違表現構造関係を同一と判定できる。図１６に示す例では、文章３においては、基準表現「ＤＥＦ機能」が対象表現「製品」よりも語順として前にあり、文章４においても基準表現「ＫＬＭ機能」が対象表現「製品」よりも語順として前にあり、共通表現と対象表現との順序が一致する。そのため、類似性判定手段１０４は、「同列」７８０ａと「直列」７８０ｂとの相違表現構造関係を同一であると判定することができる。

一方、図１６において、「ＫＭＬ機能」と同様に、「動画処理」も対象表現「製品」と「直列」７８０ｃの関係にあるが、類似性判定手段１０４は、「直列」７８０ｃの構造関係を、「ＤＥＦ機能」と「製品」との構造関係「同列」７８０ａとは相違と判定できる。すなわち、図１６に示す例では、文章４において基準表現「動画処理」が対象表現「製品」よりも語順として後ろにあり、文章３の基準表現「ＤＥＦ機能」と対象表現「製品」との語順とが異なるため、類似性判定手段１０４は、「直列」７８０ｃと「同列」７８０ａとの相違表現構造関係を相違と判定する。

以上の処理が実行されることにより、「ＤＥＦ機能」に対する「動画処理」と「ＫＭＬ機能」との構造関係に差をつけることができる。

なお、図１４に示した同一性判定表は一例であり、同一性判定表中の各要素をシステム利用者が変更できるようにしてもよい。例えば、図１４に示す同一性判定表において、「順」を「○」に変更することによって、語順に対する制約を緩めるようにしてもよい。

図１７及び図１８は、それぞれ、類似性判定手段１０４によって特定された同義表現候補対「ＡＢＣ機能」及び「ＸＹＺ機能」と「ＡＢＣ機能」及び「可視化診断」とにおける比較構造関係の同一性を示す説明図である。図１７及び図１８において、比較構造関係は双方向矢印で示されており、矢印に付与されている「同一」及び「相違」は図１４の同一性判定表に基づく判定結果を示している。図１７及び図１８に示す例では、「ＡＢＣ機能」及び「ＸＹＺ機能」は全ての比較構造関係が同一であることがわかる。また、「ＡＢＣ機能」及び「可視化診断」は４つの相違表現構造が相違であることがわかる。

次に、類似性判定手段１０４は、求めた構造関係の同一性に基づいて、同義表現候補対の類似度を算出する。なお、類似性判定手段１０４は、同義表現候補対の類似度を求める処理を、全ての同義表現候補対に対して実行する。この場合、類似性判定手段１０４は、類似度の算出方法として、例えば、式（１）を用いて同義表現候補対の類似度を求めるようにすればよい。

類似度＝（構造関係の同一数）÷（比較した構造関係の数）式（１）

類似性判定手段１０４は、式（１）を用いて算出した類似度が所定の閾値以上であるか否かを判定する（ステップＳ７０４ｆ）。類似度が所定の閾値以上であれば、類似性判定手段１０４は、各同義表現候補が類似であると判定し、同義表現であると判定する。そして、類似性判定手段１０４は、類似文章対から同義表現として抽出する（ステップＳ７０４ｇ）。類似度が所定の閾値以上でなければ、次の類似文章対があれば、次の類似文章対に対する同義表現抽出処理に移行する（ステップＳ７０４ｈ）。

図１７及び図１８に示す例では、「ＡＢＣ機能」及び「ＸＹＺ機能」は、比較構造関係の数が６つ（共通表現構造２つ、相違表現構造４つ）であり、それら全ての構造関係が同一であるため、類似性判定手段１０４は、類似度を６／６＝１．０と求める。また、「ＡＢＣ機能」及び「可視化診断」は、共通表現構造のみが同一であるため、類似性判定手段１０４は、類似度を２／６＝０．３３・・・と求める。例えば、閾値を０．８とすれば、類似性判定手段１０４は、「ＡＢＣ機能」と「ＸＹＺ機能」とを類似と判断し、同義表現として抽出する。

さらに、類似性判定手段１０４は、共通表現間の構造関係、及び相違表現と共通表現との間の構造関係の同一性に対して重み付けを行い、重み付き平均を求めることにより、類似度の算出を行ってもよい。この場合、例えば、類似性判定手段１０４は、式（２）を用いて、重み付き平均を求めて類似度の算出を行う。

類似度＝ｗ×（共通表現構造の類似度）＋（１−ｗ）×（相違表現構造の類似度）
式（２）

ただし、類似性判定手段１０４は、式（２）を用いて類似度を求める際に、共通表現構造及び相違表現構造の類似度を、それぞれ式（３）及び式（４）を用いて求める。

（共通表現構造の類似度）＝（共通表現構造の同一数）÷（比較した共通表現構造の数）
式（３）

（相違表現構造の類似度）＝（相違表現構造の同一数）÷（比較した相違表現構造の数）
式（４）

式（２）において、ｗは、類似文章対における共通表現間の同一性をどれだけ重視するかを示す重み係数であり、０〜１の値をとる。また、ｗ＝（ｍ−１）／（ｍ＋１）とすれば、式（２）は式（１）と同等になる。ここで、ｍは共通表現の数である。すなわち式（２）は式（１）を含む一般式として捉えることができる。また、重み係数ｗを０．２とすれば、相違表現構造を重視した同義表現抽出を行うこともできる。

図１９は、類似性判定手段１０４が求めた重み付き平均を用いた類似度の例を示す説明図である。図１９は、文章１及び文章２における共通表現構造の類似度及び相違表現構造の類似度を式（３）及び式（４）を用いて算出するとともに、ｗ＝０．２にとしたときの類似度を示している。

なお、類似性判定手段１０４は、閾値以上となる同義表現候補対が多数ある場合には、類似度が最も高かったものを同義表現として抽出してもよいし、閾値以上のもの全てを同義表現として出力してもよい。また、類似性判定手段１０４は、類似度上位の所定数の候補のみ同義表現として出力してもよい。

さらに、類似性判定手段１０４は、共通表現間の構造関係が異なる場合、類似文章対において文章の構造が大きく変化していると判断し、同義表現と判断する閾値を変更してもよい。また、類似性判定手段１０４は、複数の同義表現候補対に対する類似度が求められている場合には、類似度の値の分布によって統計的に類似度間の差が大きい箇所を検出し、閾値を決定してもよい。また、類似する同義表現候補対が存在しない場合においては、図１４に示す同一性判定表の「その他」を「○」と変化させた場合における類似度を再度計算し、該同義表現候補対を再計算してもよい。この場合においては、「その他」という構造関係で類似している同義表現の抽出が行える。

なお、類似性判定手段１０４は、一組の類似文章対において共通表現間の構造関係の類似度は一定の値となるため、類似度が最も高いものを同義表現とする場合には、共通表現間の構造関係の類似度は算出する必要はない。

また、出力手段５０２には、類似性判定手段１０４の指示に従って、抽出した同義表現だけを出力してもよいし、同義表現とともに同義表現に係る表現を出力してもよい。例えば、類似性判定手段１０４は、「ＡＢＣ機能」及び「ＸＹＺ機能」という同義表現を抽出した場合において、「ＸＹＺ機能」に相違表現「○○社の」という表現が係っていた場合、出力手段５０２に、「ＡＢＣ機能」と「○○社のＸＹＺ機能」とを同義表現として出力させてもよい。この場合、類似性判定手段１０４は、ＡＢＣ機能を含む文章において○○社という単語が存在している場合には、ＸＹＺ機能に係っている「○○社の」を同義表現から除外する処理を行って、出力手段５０２に出力させてもよい。そのようにすることにより、類似文章対において、比較する文章にない表現で、かつ同義表現に係る表現のみを抽出することができる。

出力手段５０２は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力手段５０２は、例えば、ディスプレイ装置である場合には、類似性判定手段１０４の指示に従って、同義表現抽出装置１０により抽出された同義表現を表示する。なお、出力手段５０２は、同義表現の抽出結果をファイルとして出力してもよいし、ｅ−ｍａｉｌ（電子メール）等を用いてシステム利用者の端末に通知（送信）してもよい。

図２０は、出力手段５０２が出力する同義表現の出力結果の一例を示す説明図である。出力手段５０２は、図２０に示すように、類似性判定手段１０４の指示に従って、どのような文章からどのような同義表現が抽出されたかを出力する。図２０に示す例では、出力手段５０２は、文章１と文章２とからＡＢＣ機能とＸＹＺ機能という同義表現が抽出されたことを出力（表示）している。

なお、出力手段５０２の出力態様は、図２０に例示した以外の表示態様でもよい。例えば、図２１に示すように、出力手段５０２は、同義表現の候補を表示し、それら同義表現の候補とともに算出した類似度を表示してもよい。そのように、複数の同義表現の候補を出力（表示）することにより、類似度の多少の差により抽出した同義表現が出力されない等の弊害を避けられる。

また、本実施の形態において、同義表現抽出システム１０を実現する情報処理装置の記憶装置（図示せず）は、類似文章対に含まれる各文章から同義表現を抽出するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出処理を実行させるための同義表現抽出用プログラムを記憶している。

以上のように、本実施の形態によれば、類似文章対に含まれる共通表現構造の類似度等の情報に基づいて類似文章対の文法的類似性を推定し、類似文章対から同義表現を抽出できる。すなわち、本実施の形態では、同義表現抽出システム１０は、相違表現の類似度だけに基づいて同義表現であるか否かを判断するのではなく、類似文章対に含まれる共通表現と相違表現との両方の構造関係に基づいて、同義表現であるか否かを判断する。従って、事前に特殊な文法規則を設けることなく、類似文章対から同義表現を抽出することができる。

図２２は、本発明における同義表現抽出システム１０が同義表現を抽出できる原理を示す説明図である。本実施の形態では、図３２で示した従来の同義表現抽出方法と同様に、同一のマーカー語（７０１ａ，９０１ａ）が存在し、かつ、マーカー語（７０１ａ，９０１ａ）と同義表現候補（７０１ｂ、９０１ｂ）との関係（７０１ｃ，９０１ｃ）が類似していれば、その同義表現候補を同義表現とする。また、図３２で示した従来の同義表現抽出方法との違いは、本実施の形態では、同義表現抽出システム１０は、類似文章対において共通するマーカー語間の関係（７０１ｄ，９０１ｄ）の同一性を評価する。そして、同義表現抽出システム１０は、共通するマーカー語（７０１ａ，９０１ａ）が類似する関係であれば、類似文章対の文法や語順の規則性等が類似していると判断する。

上記のようにすることにより、類似文章対において、事前に明示的な文法制約を決めておくことを必要とせずに、高精度に同義表現を抽出することができる。また、類似文章間で語順が異なる場合や、類似表現が文章中に部分的に含まれる場合、用言がとる格が異なる場合であっても、同義表現を抽出することができる。

また、本実施の形態によれば、係り受け解析等に利用する一般的な辞書以外の辞書を用いずに同義表現を抽出できる。そのため、特別な辞書を準備したり記号表現を利用することなく、類似文章対を効率的に抽出できる。

さらに、本実施の形態によれば、上記に示したように、多量の類似文章対を必要としない同義表現抽出の原理に従って、同義表現を抽出する。そのため、少数の類似文章対からであっても、高精度に同義表現を抽出することができる。

実施の形態２．
次に、本発明の第２の実施の形態を図面を参照して説明する。図２３は、第２の実施の形態における同義表現抽出システムの構成例を示すブロック図である。図２３に示すように、本実施の形態では、図１に示した構成要素に加えて、文章整形手段１０５を含む点で、第１の実施の形態と異なる。

文章整形手段１０５は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。文章整形手段１０５は、類似文章対データベース５０１から類似文章対を取得（抽出）する。また、文章整形手段１０５は、抽出した類似文章対に対して、係り受け構造が変化する表記の差異を予め整形し、整形文章を係り受け解析手段１０１に出力する。

本実施の形態では、表記の差異を事前に整形しておくことにより、類似文章対から類似する係り受け構造を特定できるようになり、同義表現の抽出精度を向上させることができる。すなわち、本実施の形態では、類似文章を予め所定の文法則に従って変換しておくことによって、文章の係り受け構造を特定しやすくし、同義表現の抽出精度を向上させている。

構造を類似させる文法規則の一例として、文章整形手段１０５は、例えば、「（名詞）を（サ変接続の名詞）する」を「（名詞）の（サ変接続の名詞）をする」に変換する処理を行う。サ変接続の名詞とは、「抽出する」や「獲得された」等、直後に「する」「される」等の単語を伴い、動詞のように扱われる単語である。

図２４は、サ変接続の名詞を含む例文を示す説明図である。図２４に示す例では、文章５に含まれるＰＱＲ機能と文章６に含まれるＳＴＵ機能とが同義表現であるとする。また、図２５は、図２４に示す文章５と文章７とに係り受け解析を適用した結果を示す説明図である。図２５（ａ），（ｂ）に示すように、文章５と文章６とは類似した文章であるが、サ変名詞の動詞化により係り受け解析の構造が変化していることがわかる。そこで、文章整形手段１０５は、文章５に対して、上記した変換規則を適用して文法側の変換を行い、図２４に示す文章５'のように変換する。そして、係り受け解析手段１０１は、文章整形手段１０５が変換した文章に対して、係り受け解析を実行し、図２５（ｃ）に示すような木構造を求める。文章整形手段１０５による文法側の変換により、文章５の係り受け構造を文章７と同等にすることができ、同義表現の抽出の精度を向上させることができる。

なお、本実施の形態で示した変換規則は一例であり、文章整形手段１０５は、係り受け解析による文章構造が類似するような変換規則を予め用意しておくほど、同義表現抽出の精度を高めることができる。

実施の形態３．
次に、本発明の第３の実施の形態を図面を参照して説明する。図２６は、第３の実施の形態における同義表現抽出システム１０の構成例を示すブロック図である。図２６に示すように、本実施の形態では、図１に示した構成要素に加えて、類似度表データベース１０６、類似基準補正手段１０７及び入力手段５０３を含む点で、第１の実施の形態と異なる。

類似度表データベース１０６は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。類似度表データベース１０６は、各同義表現候補対に対する共通表現構造の類似度と、相違表現構造の類似度と、システム利用者によって入力される同義表現の正誤判定の内容とを記憶する。

類似基準補正手段１０７は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。類似基準補正手段１０７は、類似文章対における相違表現の類似類性の判定基準を動的に変化させる機能を備える。

入力手段５０３は、具体的には、キーボードやマウス等の入力装置によって実現される。

本実施の形態では、出力手段５０２は、類似性判定手段１０４の指示に従って、抽出した同義表現を出力する際に、出力した結果が真の同義表現であるか否かをシステム利用者が入力できるような態様で同義表現を出力（表示）する。

出力手段５０２は、例えば、図２７に示すような出力の様態で同義表現を出力（表示）する。図２７に示す例では、出力手段５０２は、類似文章対において、同義表現候補対を類似度とともに表示している。また、図２７において、右下の「判定」欄７２８は、同義表現として正しいか否かを入力する欄を表している。例えば、ユーザは、図２７に示す表示画面の「判定」欄７２８から○又は×を入力操作することによって、出力された同義表現が正しいか誤っているかを入力指示する。

なお、図２７に示す例では、正誤を表現するのに○または×を入力できるフォームが用意されている場合を示しているが、本実施の形態で示したものに限らず、正しい同義表現を選択できるようにラジオボタンを含む表示画面を出力（表示）してもよい。また、例えば、表示画面から同義表現の出力結果の正誤を文字として入力できるようにしてもよい。

入力手段５０３は、システム利用者の入力操作に従って、相違表現対に対する正誤の判定内容を入力し、同義表現抽出システム１０に出力する。本実施の形態では、入力手段５０３として、例えば、キーボードやマウス等の入力デバイスを用いる。図２７に示す例では、入力手段５０３は、○又は×の情報を同義表現の判定内容として入力し、同義表現抽出システム１０に出力する。なお、入力手段５０３は、システム利用者の操作に従って、類似性に対して数値等を入力することによって、同義表現の抽出結果を評価してもよい。また、入力手段５０３は、数値を入力するときに段階評価で入力してもよいし、連続値で入力してもよい。

類似度表データベース１０６は、各同義表現候補対に対する共通表現構造の類似度と、相違表現構造の類似度と、システム利用者によって入力される同義表現の正誤判定内容とを類似度表として記憶する。図２８は、類似度表データベース１０６が記憶する類似度表の例を示す説明図である。類似度表は、類似文章対における共通表現構造の類似度、相違表現構造の類似度、及びシステム利用者により入力された同義表現の判定情報をまとめた表（テーブル）である。

類似性判定手段１０４は、ｉ番目の同義表現候補対に対する共通表現構造の類似度をａｉとし、相違表現構造の類似度をｂｉとすると、共通表現構造の類似度及び相違表現構造の類似度を、第１の実施の形態で示した式（３）及び式（４）を用いてそれぞれ算出すればよい。

類似基準補正手段１０７は、類似度表データベース１０６に記憶されている情報に基づいて、第１の実施の形態で示した類似度算出用の式（２）で用いる重み係数ｗを推定し、推定した重み係数を類似性判定手段１０４に出力する。ｗは共通表現構造の類似度（ａｉ）と相違表現構造の類似度（ｂｉ）とのどちらを重視するかを決定するための値である。

類似基準補正手段１０７が重み係数ｗを補正する処理の一例を以下に示す。判定内容が○および×の２値で与えられている場合、×を０とし、○を１として処理を行う。また、判定内容が段階評価や連続値等の数値データで与えられている場合には、それらを０〜１に規格化した値を用いて処理を行う。

類似基準補正手段１０７は、判定内容を規格化した値として、例えば、判定情報の最大値と最小値とを求めた後、式（３）を適用して、式（３）’を用いて算出すればよい。

（規格化された判定値）＝（判定−最小値）／（最大値−最小値）式（３）’

なお、式（３）’を用いた規格化済みの判定値をｔｉとする。

図２９は、図２８に示した類似度表における判定内容を数値化した表を示す説明図である。なお、図２９における同義表現候補対の個数をｎとする。この場合、類似基準補正手段１０７は、ｔｉと、式（２）を用いて算出される同義表現候補対の類似度ｗ×ａｉ＋（１−ｗ）×ｂｉとの差が小さくなるｗを推定する。具体的には、類似基準補正手段１０７は、式（２）のｗ×ａｉ＋（１−ｗ）×ｂｉとｔｉとの差をｅｉとしたときに、式（５）に示すＥを最も小さくするｗを求める。

Ｅ＝Σｅｉ×ｅｉ式（５）

なお、式（５）において、Σはｉを１〜ｎまで変更したときの総和を表す記号である。また、文章整形手段１０５は、式（５）をｗに関して微分し、微分式を０とすることにより、式（６）式を求める。

ｗ＝Σ（ｔｉ−ｂｉ）（ａｉ−ｂｉ）／Σ（ａｉ−ｂｉ）（ａｉ−ｂｉ）式（６）

文章整形手段１０５は、式（６）を用いてＥを最小にするｗを求める。

以下、ｗの補正方法について具体例を用いて説明する。図３０は、４つの同義表現候補対を含む類似度表における判定内容を数値化した表を示す説明図である。図３０において、真の同義表現は「ＡＢＣ機能」及び「ＸＹＺ機能」と「ＰＱＲ機能」及び「ＡＢＣ機能」であるとする。

また、式（２）を用いて同義表現の抽出を行う場合において、重み係数ｗを０．８と設定し、同義表現とするか否かを判定するための類似度の閾値を０．８と設定したとする。図３０に示す「類似度」は、類似性判定手段１０４が式（２）を用いて算出した各同義表現候補の類似度を示している。また、図３０に示す例において、類似性判定手段１０４は、網掛けで示した類似度に対応する「ＡＢＣ機能」及び「ＸＹＺ機能」と、「ＡＢＣ機能」及び「可視化診断」と、「ＰＱＲ機能」及び「ＡＢＣ機能」とを同義表現として抽出する。すなわち、図３０に示す例では、類似性判定手段１０４は、「ＡＢＣ機能」及び「可視化診断」の組を誤って同義表現として抽出している。

図３０に示す例において、同義表現抽出システム１０は、システム利用者の入力操作に従って、図３０の最右列に示すように、同義表現の抽出結果に対する判定内容を入力する。すると、類似基準補正手段１０７は、式（６）を用いて、重み係数ｗの補正値を約０．１７と算出する。

次に、類似性判定手段１０４は、補正後の重み係数ｗ＝０．１７を用いて、各同義表現候補の類似度を算出しなおす。図３１は、ｗ＝０．１７としたときの各同義表現候補の類似度の算出結果を示す説明図である。

上記の処理により、類似度を平均的に判定値（ｔｉ）に近づけることができ、例えば、図３１に示す例では、「ＡＢＣ機能」及び「ＸＹＺ機能」と「ＰＱＲ機能」及び「ＡＢＣ機能」のみが閾値以上の類似度を有するように重み係数ｗの値を補正できている。従って、本実施の形態によれば、上記のような処理に従って、重み係数ｗの値を推定できるので、同義表現抽出の精度を高めることができる。

なお、式（６）を用いて重み係数ｗの補正を行う場合を示したが、本実施の形態で示した補正方法は、同義表現を抽出する類似性判定の基準として式（２）を用いた場合の一例であり、重み係数ｗの補正方法として他の方法を用いてもよい。例えば、類似基準補正手段１０７は、類似性判定の基準として式（２）式以外の算出式を用いる場合には、その算出式にあわせた補正機能を設定すればよい。

又、式（６）に示したように一意に補正量を求めるのではなく、類似基準補正手段１０７は、重み係数ｗを徐々に変更していくようにしてもよい。例えば、類似基準補正手段１０７は、現在の重み係数をｗとし、新しく推定される重み係数をｗ＿ｎｅｗとする場合、設定する重み係数を（ｗ＋ｗ＿ｎｅｗ）／２として求める等の方法を用いて、重み係数ｗの値を補正してもよい。

また、本実施の形態で示した同義表現抽出システム１０の構成に、さらに、第２の実施の形態で示した文章整形手段１０５を含むように構成してもよい。そのように構成すれば、より高精度に同義表現を抽出することができる。

実施の形態４．
上記の各実施の形態に示した同義表現抽出システム１０は、例えば、電子文書の文書伝達の構造を特定する文章参照関係抽出システムや、電子文書に含まれる同義表現を統一する表現統一化システム、文書伝達を評価する文章伝達評価システムに適用することができる。以下、同義表現抽出システム１０を適用した文章参照関係システム、表現統一化システム、文書伝達評価システムについて、図面を参照して説明する。

まず、本発明の第４の実施の形態について図面を参照して説明する。図３３は、本発明による同義表現抽出システム１０を適用した文書参照関係抽出システム１００を用いた表現統一システム３００の構成の一例を示すブロック図である。この例では、本発明による同義表現抽出システム１０が同義表現抽出装置３５０として適用されている。一般に、情報共有するために作成した電子文書を他の人に伝達する（例えば、電子メール等を用いて転送する）過程において、その電子文書を参照した人が表現を修正することにより、同義表現を含む電子文書（パラレルコーパス）が発生する傾向がみられる。本実施の形態では、このような傾向を利用して、文書参照関係抽出システム１００や表現統一化システム３００は、文書伝達の階層構造を特定し、伝達された電子文書間の同義表現を統一化する処理を行う。

図３３に示すように、表現統一化システム３００は、組織情報データベース３１０と、伝達文書抽出手段３２０と、伝達文書データベース３３０と、文書参照関係抽出システム１００と、パラレルコーパス抽出手段３４０と、同義表現抽出装置３５０と、同義表現データベース３６０とを含む。また、文書参照関係抽出システム１００は、コミュニケーション計画データベース１１０と、非参照関係抽出手段１２０と、階層構造特定手段１３０とを含む。

また、本実施の形態において、表現統一化システム３００は、ユーザの操作に従って、キーボードやマウス等の入力手段５１０から各種情報を入力する。また、本実施の形態において、表現統一化システム３００は、ユーザ間で伝達された電子文書を、文書提供サーバ５２０から収集する。また、本実施の形態では、表現統一化システム３００は、各種情報を、ディスプレイ装置等の出力手段５３０に出力（例えば、表示）させる。

なお、本実施の形態では、表現統一化システム３００の外部に、入力手段５１０と、文書提供サーバ５２０と、出力手段５３０とを設ける場合を示すが、表現統一化システム３００が、入力手段５１０と、出力手段５３０とを備えてもよい。また、表現統一化システム３００が文書提供サーバ５２０の機能を備えていてもよい。

また、本実施の形態では、文書参照関係抽出システム１００の内部に、コミュニケーション計画データベース１１０を備える場合を示すが、文書参照関係抽出システム１００の外部に、コミュニケーション計画データベース１１０を設けてもよい。

また、本実施の形態において、文書参照関係抽出システム１００や表現統一化システム３００は、例えば、プログラムに従って動作するコンピュータ（例えば、パーソナルコンピュータ等の情報処理装置）によって実現される。

以下の説明では、あるプロジェクトにおいて、プロジェクト内のメンバが、ｅ−ｍａｉｌ（電子メール）を用いて、電子文書として「週報」を、コミュニケーション計画に則って提出する場合を例として説明する。ただし、本例は、本発明の説明を容易にするためのものであり、本発明の適用範囲を制限するものではない。また、以下、ユーザ間で電子メール等の転送手段を用いて電子文書を転送することを、電子文書を伝達すると表現する。また、ユーザ間で伝達された電子文書のことを伝達文書とも表現する。

本実施の形態では、文書参照関係抽出システム１００は、企業等の組織内において、予め定められた電子文書の伝達計画（コミュニケーション計画）に従って電子文書の伝達が行われる場合に、実際に行なわれた電子文書の伝達の階層構造を抽出する用途に用いられる。また、表現統一化システム３００は、文書参照関係抽出システム１００によって抽出された電子文書伝達の階層構造を利用して、伝達前後の電子文書間に含まれる同義表現を統一する用途に用いられる。

入力手段５１０は、具体的には、キーボードやマウス等の入力デバイスである。入力手段５１０は、ユーザの操作に従って、組織情報を入力する。なお、表現統一化システム３００は、入力手段５１０から入力した組織情報を組織情報データベース３１０に記憶する。また、入力手段５１０は、ユーザの操作に従って、コミュニケーション計画を入力する。なお、文書参照関係抽出システム１００は、入力手段５１０から入力したコミュニケーション計画をコミュニケーション計画データベース１１０に記憶する。

組織情報データベース３１０は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。組織情報データベース３１０は、予め組織情報を記憶している。「組織情報」とは、電子文書の伝達が行われる組織の構成を示す情報である。本実施の形態において、組織情報は、文書伝達に関わる各メンバを識別するためのメンバＩＤと、各メンバが所属する所属グループを識別するためのグループＩＤとを含むものとする。メンバＩＤは、各メンバに対して各人を識別するために付与されるものであり、例えば企業における社員番号等である。グループＩＤは、所属グループを識別するためのＩＤである。また、組織情報は、その他の情報として、分析結果を通知するためのメールアドレス等の連絡先や、氏名、年齢、役職、専門分野等の各メンバの個人情報等を含む。

なお、本実施の形態において、組織情報は、組織内の管理者等によって予め作成され、組織情報データベース３１０に登録されているものとする。例えば、組織情報は、プロジェクトや組織管理用のツール等に記録されているデータから抽出してもよいし、人が入力手段５１０を用いて入力してもよい。また、機械可読であれば、紙面等に書かれた組織情報をＯＣＲ等で読み込むようにしても構わない。

図３４は、組織情報の一例を示す説明図である。図３４に示す組織情報によれば、表現統一化システム３００が適用される組織は、メンバ数が７名であり、グループ数が３つであることが分かる。なお、１人のメンバが複数のグループに所属しても構わないし、複数の役職を兼務していてもよい。また、１人のメンバが複数のｅ−ｍａｉｌアドレスを所持していても構わない。説明の簡単化のため、本実施の形態では、各メンバが１つのグループにのみ所属しているものとする。

コミュニケーション計画データベース１１０は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。コミュニケーション計画データベース１１０は、予めコミュニケーション計画を蓄積する。「コミュニケーション計画」とは、組織内における電子文書の伝達計画を示す情報である。コミュニケーション計画は、「どの文書を（文書名）」、「いつ（伝達予定日時）」、「誰から（Ｆｍ）」、「誰に（Ｔｏ）」、「どのようにして（伝達手段）」伝達するかを示す計画情報と、各計画を識別するための計画番号（Ｎｏ）とを含む。また、コミュニケーション計画は、ある一連の文書伝達に関して作成されるものである。また、本実施の形態では、１つの一連の伝達計画には、１つの計画書番号（Ｎｏ）が与えられるものとする。なお、これらの情報は一例であり、コミュニケーション計画が含む情報は、これらに限定されるものではない。

なお、本実施の形態において、コミュニケーション計画は、組織内の管理者等によって予め作成され、コミュニケーション計画データベース１１０に登録されているものとする。例えば、コミュニケーション計画は、管理者等の操作に従って、入力手段５１０から入力される。また、例えば、所定の資料（電子文書）から、既存の情報抽出技術を用いて、電子文書の伝達予定日時や、文書名、伝達元、伝達先、伝達手段を示す情報を抽出し、コミュニケーション計画表を自動生成するようにしてもよい。

図３５は、コミュニケーション計画の一例を示す説明図である。本実施の形態では、送信者が同一である１つの文書を伝達する計画に対して、同一の計画番号（Ｎｏ）が付与される。図３５に示すコミュニケーション計画において、伝達予定日時には、各電子文書を伝達する予定日時が格納される。なお、伝達予定日時の指定は日単位に限らず、例えば、時間単位で行ってもよいし、午前や午後等の情報を含んでいてもよい。また、いつからいつまでといった期間を示す情報で指定してもよいし、毎週金曜日や月末等の言語的表現を用いて電子文書の伝達予定時を指定してもよい。

なお、コミュニケーション計画の各レコードは、伝達予定日時順に並んでコミュニケーション計画データベース１１０に格納されているものとする。また、文書名の欄には、ｅ−ｍａｉｌに含まれる件名や、ファイル名等の電子文書を特定するための情報が格納されている。

各メンバは、この文書名に合わせて、ｅ−ｍａｉｌの件名やファイル名等を付けるものとする。例えば、週報の電子文書について予め「週報」という文書名を付与することにルール決めされている場合には、組織内の各メンバは、その電子文書を電子メールを用いて伝達する場合に、電子メールの件名を「週報」として、その電子文書を電子メールに添付して送信する。また、組織内の各メンバは、作成又は編集した電子文書に「週報」というファイル名をつける。

また、図３５において、「Ｆｍ（伝達元）」及び「Ｔｏ（伝達先）」には、文書伝達における「誰から」及び「誰に」が含まれ（すなわち、伝達文書の伝達先と伝達元とが含まれ）、記載内容には個人が識別できるメンバＩＤ等が用いられる。ただし、各メンバを特定できる情報であれば、メンバＩＤ以外の情報を用いても構わない。また、システムの利用者によるコミュニケーション計画の入力の負担を軽減するため、Ｆｍ及びＴｏはグループＩＤにより指定することもできる。Ｆｍがグループで指定されており、且つ、そのグループの各メンバが異なる電子文書を作成し伝達する場合には、前述した規則に従い、各電子文書に異なる計画番号（Ｎｏ）が与えられるものとする。

また、図３５において、伝達手段の欄には、伝達に用いる手段が含まれる。例えば、コミュニケーション計画の伝達手段のランには、ｅ−ｍａｉｌ（電子メール）等の手段を示す情報が含まれる。なお、伝達手段の欄には、ｅ−ｍａｉｌに限らず、例えば、ＦＡＸ（ファクシミリ）や、印刷物の郵送、電子掲示板への書込み、指定フォルダへのファイルのアップロード等の様々な伝達方法が含まれてもよい。すなわち、伝達した電子文書の電子ファイルが特定できれば、いかなる伝達手段を用いても構わない。

また、コミュニケーション計画データは、人が入力手段５１０を用いて入力してもよいし、機械可読であれば、紙面上のコミュニケーション計画からＯＣＲ等により読み込むようにしてもよい。また、自由記述による伝達の計画書が存在する場合は、既存のテキスト処理技術を用いて、その計画書からコミュニケーション計画を抽出してもよい。

また、図３５には、「週報」に関するコミュニケーション計画の例が示されており、計画書番号（Ｎｏ）として１が付与されている。また、計画Ｎｏ（Ｐ００１，Ｐ００２，Ｐ００３）に示される各レコードによれば、２００６年９月２８日に、メンバＭ３，Ｍ４，Ｍ５が、それぞれグループＧ２の各メンバに「週報」をｅ−ｍａｉｌ（電子メール）により伝達する予定であることが分かる。また、計画Ｎｏ（Ｐ００４）に示されるレコードによれば、次の日の２００６年９月２９日に、メンバＭ２が、マネージャＭ１とグループＧ２の各メンバに「週報」を伝達する予定であることが分かる。また、計画Ｎｏ（Ｐ００５）に示されるレコードによれば、２００６年９月２９日に、メンバＭ１が、グループ３の各メンバに「週報」をｅ−ｍａｉｌにより伝達する計画になっていることが分かる。

伝達文書抽出手段３２０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵ及びネットワークインタフェース部によって実現される。伝達文書抽出手段３２０は、所定のプロジェクトにおいて作成された電子文書や、ｅ−ｍａｉｌ（電子メール）等を用いて伝達された電子文書が保存されている文書提供サーバ５２０から、各電子文書の伝達文書情報を抽出する機能を備える。また、伝達文書抽出手段３２０は、抽出した伝達文書情報を伝達文書データベース３３０に保存する機能を備える。

本実施の形態では、組織内において共有サーバ（文書提供サーバ５２０）を用いて、各電子文書が共有化されており、文書提供サーバ５２０は、各電子文書が伝達されたログ情報（伝達文書情報）を記憶している。伝達文書抽出手段３２０は、例えば、所定期間毎に（例えば、毎日１回）、文書提供サーバ５２０に自動アクセスし、ＬＡＮ等のネットワークを介して、文書提供サーバ５２０から伝達文書情報を受信して伝達文書データベース３３０に記憶させる。また、例えば、伝達文書抽出手段３２０は、文書提供サーバ５２０に新たに電子文書が格納されたことをトリガとして、文書提供サーバ５２０に自動アクセスし、ネットワークを介して、文書提供サーバ５２０から伝達文書情報を受信して伝達文書データベース３３０に記憶させる。

なお、文書提供サーバ５２０（共有サーバ）は、１台に限らず、組織内に複数台備えられていてもよい。例えば、文書提供サーバ５２０として、メールサーバやファイルサーバ等の複数種類のサーバが備えられていてもよい。また、例えば、文書提供サーバ５２０として、同じ種類の共通サーバ（例えば、ファイルサーバ）が複数台備えられていてもよい。

伝達文書情報は、電子文書の伝達状況を示すログ情報である。本実施の形態では、伝達文書情報には、「文書ＩＤ」、「伝達日時」、「文書名」、「Ｆｍ（伝達元）」、「Ｔｏ（伝達先）」及び「伝達手段」が含まれている。また、伝達文書情報は、これら伝達記録を示す情報とともに電子文書の内容を含んでいてもよい。

文書ＩＤは、各電子文書を識別するための識別情報である。本実施の形態では、同一の日時に同じ人によって伝達された同一の内容の電子文書に対しては、１つの文書ＩＤが付与される。伝達日時は、電子文書が伝達された日と時間とを示す情報である。ＦｍとＴｏとは、誰から誰に伝達文書が伝達されたか（電子文書の伝達元と伝達先）を示す情報である。伝達手段は、どのようなメディアを用いて文書伝達が行われたかを示す情報である。例えば、伝達文書情報は、メディアとして、ｅ−ｍａｉｌ（電子メール）やＦＡＸ（ファクシミリ）、印刷物の郵送等の様々な形式の伝達手段の情報を含む。

伝達文書抽出手段３２０は、例えば、ｅ−ｍａｉｌによる伝達であれば、電子メールのヘッダや、メールサーバが記憶するログ情報に基づいて、各メールのＦｍ（伝達元）とＴｏ（伝達先）とを抽出し、電子メールの件名を文書名として抽出する。そして、伝達文書抽出手段３２０は、抽出した伝達元や伝達先、文書名を含む伝達文書情報を、伝達文書データベース３３０に記憶させる。

また、共有のフォルダや文書管理ツール等にアップロードして電子文書を伝達する場合であれば、伝達文書抽出手段３２０は、アップロードしたファイルのファイル名を文書名とし、アップロードした人をＦｍ（伝達元）、そのファイルを参照した人をＴｏ（伝達先）、伝達日時をアップロードした日時として、伝達文書情報を抽出すればよい。また、電子ファイルを印刷し郵送／手渡ししたものであっても、伝達文書抽出手段３２０は、伝達過程における郵送前後の文書伝達に関する伝達記録があれば、郵送による伝達がなされたものであると判断し、伝達記録に加えることもできる。

伝達文書データベース３３０は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。伝達文書データベース３３０は、伝達文書抽出手段３２０が抽出した伝達文書情報を記憶する。

なお、伝達文書データベース３３０は、伝達文書情報を、コミュニケーション計画において伝達が計画されているものと、そうでないものとを判別できるように保存しておく。例えば、伝達文書データベース３３０は、各伝達文書情報に計画の有無のフラグを付与することや、計画の有無で伝達文書の保存先やファイルを変える等の方法によって、伝達文書情報を判別可能に記憶する。なお、伝達文書抽出手段３２０は、各電子文書と各コミュニケーション計画との対応関係を、伝達文書情報とコミュニケーション計画とのＦｍ（伝達元）とＴｏ（伝達先）とが一致していることを前提条件として、電子文書名の類似性に基づいて判定することができる。また、伝達文書抽出手段３２０は、電子文書名中の文字列が完全一致していることを絶対条件としてもよいし、表記ゆれ等に対応するために、電子文書名中の共通文字列の割合等により類似度を求めて判定してもよい。

例えば、コミュニケーション計画と伝達文書情報とにおける文書名がそれぞれ「週報20060928」、「週報2006年 9月28日」であり、同一のＦｍ（伝達元）とＴｏ（伝達先）とであるとする。この場合、両文書名の平均文字数の１１文字中、共通する文字数が１０文字あるため、文字の一致率を求めると１０／１１≒０．９１となる。この文字の一致率を類似度として用いて、類似の基準を文字の一致率が０．８以上である場合に類似であるとすれば、伝達文書抽出手段３２０は、類似度判定をすることによって、コミュニケーション計画と伝達文書情報とを対応づけることができる。また、伝達文書抽出手段３２０は、単純に文字の一致数だけではなく、オントロジ辞書等を用いて「2006-09-28」と「平成18年 9月28日」とが同じ意味であると判断する等、意味的な類似尺度を用いてもよい。

また、コミュニケーション計画の予定伝達日時と伝達文書情報の伝達日時とが離れている日時である場合には、伝達文書抽出手段３２０は、文書名が類似していても、それらコミュニケーション計画と伝達文書情報とが対応関係がないと判定することもできる。例えば、伝達文書抽出手段３２０は、文書名が「週報」である場合に、実際の伝達日時が伝達予定日時よりも７日以上遅れていれば、別の週の週報と判断して扱うこともできる。この場合、電子文書における対応関係を判定する伝達日時と伝達予定日時との差は、システムの利用者により任意に決定できるものとする。

なお、伝達文書抽出手段３２０は、コミュニケーション計画のＦｍ（伝達元）及びＴｏ（伝達先）にグループによる指定がある場合には、類似性を測る（判定する）際にコミュニケーション計画を展開しておく。「コミュニケーション計画の展開」とは、組織情報のグループとメンバとの関係を参照して、コミュニケーション計画データを各メンバ同士の伝達計画にすることである。このとき、展開時にＦｍ（伝達元）とＴｏ（伝達先）とが同じになるものは、伝達計画から除外しておく。

図３６は、伝達文書情報の一例を示す説明図である。図３６において、図中の計画書番号（Ｎｏ）は、対応するコミュニケーション計画の計画書番号（Ｎｏ）を表している。図３６において、例えば、文書ＩＤ「Ｄ１０１」の週報は、２００６年９月２８日の１７：００に、メンバＭ３からそれぞれメンバＭ２，Ｍ４，Ｍ５に文書伝達されたことが分かる。

また、図３７は、コミュニケーション計画「Ｎｏ．Ｐ００１」を展開した例を示す説明図である。図３７に示す例では、メンバＭ３からグループＧ２への文書伝達を示すコミュニケーション計画が、メンバＭ３からグループＧ２の各メンバそれぞれへの文書伝達を示すコミュニケーション計画に展開されている。ただし、図３７に示す例では、メンバＭ３もグループＧ２のメンバの１人であるため、伝達文書抽出手段３２０は、展開後のコミュニケーション計画から、メンバＭ３からメンバＭ３への文書伝達に係るレコード（図３７に示す網掛け部７０５）を削除する。

文書参照関係抽出システム１００は、伝達文書データベース３３０に記憶される伝達文書情報と、コミュニケーション計画データベース１１０に記憶されるコミュニケーション計画とに基づいて、文書伝達の階層構造を特定する機能を備える。また、文書参照関係抽出システム１００は、特定した文書伝達の階層構造を示す情報をパラレルコーパス抽出手段３４０に出力する機能を備える。

本実施の形態では、文書参照関係抽出システム１００は、ユーザ（組織内のいずれかのグループのメンバ）の指示操作に従って、文書伝達の階層構造の特定処理を実行する。例えば、ユーザが情報処理装置が備える表示装置に表示された所定の入力フォームから「実行」ボタンをマウスクリック等すると、文書参照関係抽出システム１００は、文書伝達の階層構造の特定処理を開始する。

図３８は、図３５に示すコミュニケーション計画における文書伝達を模式的にネットワークとして表した説明図である。図３８において、ノードはメンバを表し、ノード間の矢印は電子文書の伝達関係を表している。図３８に示すように、各メンバＭ３，Ｍ４，Ｍ５のノードから文書伝達のパスがネットワーク状に広がっている。そのため、このままでは、メンバＭ３，Ｍ４，Ｍ５間の文書伝達の階層構造を特定できない。文書参照関係抽出システム１００は、図３８に示すようなネットワーク状の文書伝達構造の状態から、電子文書間の参照関係を抽出するものである。

非参照関係抽出手段１２０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。非参照関係抽出手段１２０は、電子文書間に参照関係が生じない文書伝達を抽出する機能を備える。まず、非参照関係抽出手段１２０は、コミュニケーション計画に基づいて計画表を作成する。計画表とは、同一の計画番号（Ｎｏ）のコミュニケーション計画において、同じ伝達予定日時における文書伝達計画の有無を表形式にまとめて示したテーブルである。

非参照関係抽出手段１２０は、計画表を、以下の処理に従って作成する。まず、非参照関係抽出手段１２０は、コミュニケーション計画におけるＦｍ（伝達元）とＴｏ（伝達先）との和集合を求める。次いで、非参照関係抽出手段１２０は、同一の伝達予定日時毎に、対応するメンバの集合を行と列とに配置した正方行列を作成する。ここで、作成した正方行列の行方向は文書伝達におけるＦｍ（伝達元）を表し、列方向はＴｏ（伝達先）を表す。次いで、非参照関係抽出手段１２０は、計画表のＦｍ（伝達元）とＴｏ（伝達先）との間において、文書伝達の計画がある箇所には１を付与し、文書伝達の計画のない箇所には０を付与する。

以上の処理を行うことによって、非参照関係抽出手段１２０は、計画表を作成する。図３９は、非参照関係抽出手段１２０が作成する計画表の一般例を示す説明図である。図３９に示す計画表において、最左列は文書伝達におけるＦｍ（伝達元）のメンバＩＤを示し、最上段の行はＴｏ（伝達先）のメンバＩＤを示している。また、ｔ番目の計画表をＰｔと表記し、ｔの値が大きいほど伝達予定日時が遅いものとする。また、図３９に示す計画表において、丸で囲まれた部分７０７は、メンバＭ１からメンバＭ７に文書伝達の計画があることを意味する。

図４０は、非参照関係抽出手段１２０が図３５に示すコミュニケーション計画に基づいて実際に作成した計画表及び非参照関係表を示す説明図である。また、図４０（ａ）は、伝達予定日時が２００６年９月２８日である分の計画表（Ｐ１）を示している。また、図４０（ｂ）は、伝達予定日時が２００６年９月２８日である分の計画表（Ｐ２）を示している。なお、図４０では、計画表を見やすくするため、０を省略して表記している。

非参照関係抽出手段１２０は、計画表において、図４０（ａ）に示す計画表Ｐ１中の四角枠で囲まれた部分７０８のように、ｉ番目のメンバＭｉとｊ番目のメンバＭｊとが相互に電子文書を伝達している場合、メンバＭｉとメンバＭｊとの間には参照関係がないものと判断する。すなわち、一般に、２人のメンバ間で相互に電子文書のやりとりが行われる場合には、相互に電子文書の参照を行うだけで電子文書の修正／編集作業は行われない傾向が強い。そのため、このような傾向を利用して、非参照関係抽出手段１２０は、２人のメンバ間で相互に電子文書のやりとりが行われる場合には、参照関係がないものと判断する。

具体的には、図４０に示すように、非参照関係抽出手段１２０は、同一の伝達予定日時の計画表Ｐｔにおいて、Ｐｔ（ｉ，ｊ）とＰｔ（ｊ，ｉ）とがともに１となる伝達計画を非参照関係と判断する。なお、ここで、Ｐ（ｉ，ｊ）は、計画表におけるメンバＭｉからメンバＭｊへの伝達関係を表す。そして、非参照関係抽出手段１２０は、求めた非参照関係を示すテーブルである非参照関係表を生成する。図４０（ｃ）は、図４０（ａ）に示す計画表から得られる非参照関係を示している。

図４０（ｃ）に示すように、非参照関係表には、伝達計画番号（Ｎｏ）、Ｆｍ（伝達元）及びＴｏ（伝達先）が含まれる。非参照関係表に示される計画番号（Ｎｏ）のＦｍ（伝達元）とＴｏ（伝達先）とに該当する文書伝達には参照関係がないことを意味する。すなわち、図３６に示される伝達文書情報のうち、行番号がそれぞれ２、３、５、６、８及び９である伝達文書情報に示される文書伝達は、参照関係が生じない文書伝達と判断できる。

なお、非参照関係抽出手段１２０は、組織情報を用いて非参照関係表を作成するようにしてもよい。例えば、非参照関係抽出手段１２０は、組織情報に基づいて、同一の役職間においては参照がないとしてしてもよいし、同一グループ間での参照関係はないとしてもよい。また、非参照関係抽出手段１２０は、グループと役職等複数の条件とを組み合わせて非参照関係表を作成してもよいし、非参照関係表を人が入力手段５１０を用いて修正／入力／削除できるようにしてもよい。

階層構造特定手段１３０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。階層構造特定手段１３０は、コミュニケーション計画データベース１１０が記憶するコミュニケーション計画、及び伝達文書データベース３３０が記憶する伝達文書情報に基づいて、同一種類の電子文書群における「文書伝達の階層構造」を特定する機能を備える。この場合、階層構造特定手段１３０は、非参照関係抽出手段１２０が作成した非参照関係表を利用して、文書伝達の階層構造を特定する。

図４１は、階層構造特定手段１３０が文書伝達の階層構造を特定する処理のアルゴリズムの一例を示す説明図である。以下、図４１に示すアルゴリズムに従って、階層構造特定手段１３０の動作について説明する。まず、階層構造特定手段１３０は、各コミュニケーション計画に対応する伝達文書情報を伝達文書データベース３３０から抽出する（図４１のステップＡ１）。次に、階層構造特定手段１３０は、伝達文書情報に基づいて、伝達表を作成する（図４１のステップＡ２）。伝達表とは、コミュニケーション計画において同じ伝達予定日時が計画されている伝達文書情報において、文書伝達の有無を同一の伝達日時毎に表形式でまとめたテーブルである。

なお、階層構造特定手段１３０は、伝達表が複数作成される場合には、全ての伝達表について図４１に示す処理を実行する。そのため、ステップＡ２において、階層構造特定手段１３０は、何番目の伝達表について処理を実行しているかを示す係数ｔに１を代入する。

階層構造特定手段１３０は、伝達表を、以下の手順に従って作成する。まず、階層構造特定手段１３０は、指定されたコミュニケーション計画に対応する伝達文書情報からＦｍ（伝達元）とＴｏ（伝達先）との和集合を求める。次いで、階層構造特定手段１３０は、同一の伝達日時毎に、対応するメンバの集合を行と列とに配置した正方行列を作成する。ここで、作成した正方行列の行方向は文書伝達におけるＦｍ（伝達元）を表し、列方向はＴｏ（伝達先）を表す。次いで、階層構造特定手段１３０は、計画表のＦｍ（伝達元）とＴｏ（伝達先）との間において、文書伝達の計画がある箇所には１を付与し、文書伝達の計画のない箇所には０を付与する。

以上の処理を行うことによって、階層構造特定手段１３０は、伝達表を作成する。図４２は、階層構造特定手段１３０が作成する伝達表の一般例を示す説明図である。図４２に示す伝達表において、最左列は文書伝達におけるＦｍ（伝達元）のメンバＩＤを示し、最上段の行はＴｏ（伝達先）のメンバＩＤを示している。また、図４２に示す伝達表おいて、丸で囲まれた部分７１０は、メンバＭ５からメンバＭ７に文書伝達が行われたことを意味する。また、以下、ｔ番目の伝達表をＣｔと表記する。また、ｔの値が大きいほど伝達日時が遅いものとする。

図４３は、階層構造特定手段１３０が図３６に示す伝達文書情報に基づいて実際に作成した５つの伝達表、及び伝達表から階層構造を特定する例を示す説明図である。なお、図４３に示す伝達表は、文書伝達があった（行中に１が存在する）部分のみを抜粋して示したものである。

次に、階層構造特定手段１３０は、各伝達表内の文書伝達構造を特定する（図４１のステップＡ３）。この場合、階層構造特定手段１３０は、伝達表Ｃｔ内において１が付与されている箇所のＦｍ（伝達元）とＴｏ（伝達先）とをリンクすることで抽出することができる。なお、リンクとは、Ｆｍ（伝達元）のメンバからＴｏ（伝達先）のメンバに対して文書伝達が行われたことを記述することを意味し、例えば、Ｆｍ（伝達元）からＴｏ（伝達先）に向けて矢印を繋ぐ処理（例えば、リンク情報を付与する処理）に相当する。

階層構造特定手段１３０は、リンクの条件式（７）を用いてリンク付けを行う。ただし、この場合、階層構造特定手段１３０は、非参照関係表に基づいて、非参照関係については抽出しないように処理する。

式（７）において、ｉは伝達表Ｃｔにおける縦方向のメンバのインデックスを示し、ｊは横方向のメンバのインデックスを示す。また、式（７）中の後件部（すなわち、ｔｈｅｎの後ろの部分）は、メンバＭｉからメンバＭｊへの文書伝達が行われていることを意味する。図４３において、各伝達表の右側に示している模式図は、図４３に示す伝達表に式（７）を適用して階層構造特定手段１３０によって求められた文書伝達の階層構造である。

以上の処理によって、本実施の形態では、階層構造特定手段１３０は、まず、参照関係と非参照関係とを両方含んだ伝達表を作成し、さらに、作成した伝達表と非参照関係表とに基づいて、非参照関係を含まない文書伝達の階層構造を特定する。なお、階層構造特定手段１３０は、非参照関係表に基づいて予め非参照関係を含まない伝達表を作成するようにしてもよい。そのようにすれば、階層構造特定手段１３０が作成する伝達表のデータ容量を低減することができる。

次に、階層構造特定手段１３０は、各伝達表から文書伝達の開始者と末端者とを抽出する（図４１のステップＡ４）。ここで、伝達表Ｃｔ中の文書伝達の開始者をＭｓ＿ｔとし、文書伝達の末端者をＭｅ＿ｔとする。この場合、階層構造特定手段１３０は、開始者Ｍｓ＿ｔ及び末端者Ｍｅ＿ｔとを、それぞれ式（８）及び式（９）を用いて抽出することができる。

式（８）及び式（９）において、Ｎｍはメンバの数を示し、Ｍａ＿ｔは伝達表Ｃｔにおけるａ番目のメンバを示す。図４３に示すように、各伝達表において、文書伝達の開始者と末端者とが複数人いることもある。

次いで、階層構造特定手段１３０は、ステップＡ３及びステップＡ４の処理を全ての伝達表に対して適用した後、伝達表間における文書伝達の階層構造を特定する。具体的には、文書伝達の開始者及び末端者を特定すると、階層構造特定手段１３０は、全ての伝達表に対して処理を終了したか否か（ｔ＝Ｎτ（伝達表の総数）であるか否か）を確認する（ステップＡ５）。ｔ＝Ｎτでなければ、階層構造特定手段１３０は、ｔの値を１加算し（ステップＡ６）、ステップＡ３の処理に戻って、ステップＡ３，Ａ４の処理を繰り返し実行する。ｔ＝Ｎτであれば、階層構造特定手段１３０は、伝達表間における文書伝達の構造を特定する（ステップＡ７）。この場合、階層構造特定手段１３０は、伝達表Ｃｔにおける伝達の開始者に対して、文書伝達を行っている伝達表Ｃτにおける文書伝達の末端者を特定することによって、文書伝達の構造を特定することができる。ただし、ｔ＞τであるとする。

次いで、階層構造特定手段１３０は、特定した末端者から開始者をリンクすることで伝達表間の文書伝達構造を特定することができる。この場合、階層構造特定手段１３０は、リンクの条件式（１０）を用いて、文書伝達構造を特定する。

図４４は、図４１に示す処理に従って、階層構造特定手段１３０が図３６に示す伝達文書情報から特定した文書伝達の階層構造を示す説明図である。図４４において、各ノード７１２ａは各メンバを表し、各矢印７１２ｂは文書伝達の関係を表している。また、図４４に示す四角枠には、それぞれ隣接するノードが伝達した電子文書の文書ＩＤが示されている。

なお、文書伝達の参照関係を算出する処理は、Ｆｍ（伝達元）とＴｏ（伝達先）という一方向のパスの集合において、異なるパスのＴｏ（伝達先）とＦｍ（伝達元）とをある制約下において連結し有向グラブを作成する技術と位置づけられる。文書伝達の参照関係を算出する処理での制約は、連結においてＴｏ（伝達先）とＦｍ（伝達元）とが同一であり、Ｆｍ（伝達元）がＴｏ（伝達先）よりも遅い時間となることである。すなわち、この制約を満たし、かつ有向グラフを抽出できれば、階層構造特定手段１３０は、文書伝達の参照関係を算出する場合に、図４１に示すアルゴリズム以外の参照関係抽出の方法を用いてもよい。

例えば、階層構造特定手段１３０は、文書伝達の末端者と、文書伝達の末端者に対して電子文書を伝達するメンバとを抽出し、さらにそのメンバに対して電子文書を伝達するメンバを抽出するという処理を再帰的に繰り返す方法を用いて、文書伝達の参照関係を算出してもよい。この場合、階層構造特定手段１３０は、該当するメンバが存在しない場合、又は非参照関係となる文書伝達が抽出された場合を終了条件として処理を終了する。そのような処理を実行することによって、階層構造特定手段１３０は、文書伝達の末端者を根とし、文書伝達の開始者を葉とし、文書伝達の中継者を中間ノードとする伝達の木構造を特定することができる。

図４５は、図３６に示す伝達文書情報における文書伝達の末端者の一人であるメンバＭ６から文書伝達の開始者までのトレースを行う処理の過程を示す説明図である。図４５において、空欄となっている箇所は非参照関係の文書伝達を示している。階層構造特定手段１３０は、各伝達の末端者（例えば、メンバＭ６とメンバＭ７）について同様の処理を行い、最後に各末端者に関する文書伝達の木構造で共通する部分を１つと見なし、マージすることによって、図４４に示す文書伝達の階層構造と同様の階層構造を特定する。なお、階層構造について、人が入力手段５１０を用いて修正／入力／削除できるようにしてもよい。

図４５に示すような処理を実行することによって、階層構造特定手段１３０は、文書伝達の階層構造を特定する際に伝達表を作成する必要をなくすことができ、文書伝達の階層構造を特定する際に作成されるデータのデータ容量を低減することができる。

なお、本実施の形態に示すように、文書伝達の階層構造を特定する際に伝達表を作成するようにすれば、後日、その伝達表を再利用して、繰り返し文書伝達の階層構造を特定することができる。また、後日、作成した伝達表を用いた編集作業を行うことによって、文書伝達の階層構造の分析や編集を行うことができる。

パラレルコーパス抽出手段３４０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。パラレルコーパス抽出手段３４０は、階層構造特定手段１３０から出力された文書伝達の階層構造の特定結果に基づいて、パラレルコーパスを抽出する機能を備える。

一般に、文書伝達の階層構造における中継者は、伝達される電子文書を修正していることが多いという傾向がある。そのため、文書伝達過程における中継者の前後における電子文書対はパラレルコーパスとなる傾向が高い。そこで、本実施の形態では、パラレルコーパス抽出手段３４０は、一般に文書伝達に見られるこのような傾向を利用して、パラレルコーパスを抽出する。

例えば、パラレルコーパス抽出手段３４０は、図４４に示す例では、メンバＭ２が中継者であるため、メンバＭ２に対する文書伝達前後の電子文書Ｄ１０１、Ｄ１０２又はＤ１０３と、電子文書Ｄ１０４とは、パラレルコーパスであると判断する。また、例えば、パラレルコーパス抽出手段３４０は、メンバＭ１が中継者であるため、メンバＭ１に対する文書伝達前後の電子文書Ｄ１０４と電子文書Ｄ１０５とは、パラレルコーパスであると判断する。

なお、一般に、極めて短い期間（例えば同日）に文書伝達が行われる場合には、伝達対象の電子文書を修正又は編集することなく、そのまま次のメンバに転送される傾向が強い。そこで、パラレルコーパス抽出手段３４０は、そのような傾向を考慮して、コミュニケーション計画における伝達予定日時が同一である伝達計画においては、電子文書の内容が同一であると判断する処理を実行するようにしてもよい。例えば、パラレルコーパス抽出手段３４０は、メンバＭ２からメンバＭ１への伝達は同日に計画されているため、メンバＭ２を電子文書の単なる橋渡し役と判断し、電子文書Ｄ１０４と電子文書Ｄ１０５とは同様の内容であると判断してもよい。なお、実施の形態１〜３で用いられている類似文章対データベース５０１は、パラレルコーパス抽出手段３４０により得られたパラレルコーパスにおいて、類似する単語が多く含まれる文章を類似文章として記録してもよい。

同義表現抽出装置３５０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。同義表現抽出装置３５０は、パラレルコーパス抽出手段３４０が特定したパラレルコーパスのテキスト情報から同義表現を抽出する機能を備える。また、同義表現抽出装置３５０は、抽出した同義表現を同義表現データベース３６０に記憶させる機能を備える。また、同義表現抽出装置３５０は、抽出した同義表現を出力手段５３０に出力させる機能を備える。

同義表現抽出装置３５０は、同義表現の抽出技術として、既存の各種の抽出技術を用いて、パラレルコーパスから同義表現を抽出する。例えば、同義表現抽出装置３５０は、パラレルコーパスから同義表現を抽出する技術として、類似文章対に対して係り受け解析を適用し、所定の条件を満たす部分木を同義表現として抽出する方法を用いてもよい。この場合、例えば、同義表現抽出装置３５０は、所定の条件として、（１）係り受け解析により得られる部分木の根が用言であること、（２）対となる部分木が共通の固有表現を含んでいること、（３）各用言が要求する格が部分木に含まれていることの３つを用いて同義表現を抽出してもよい。

なお、上記に示した同義表現を抽出する技術は、例えば、文献「Shinyama Y, and Sekine S, "Paraphrase acquisition for information extraction", 2nd International Workshop on Paraphrasing: Paraphrase Acquisition and Applications, pp.65-71, 2003」に記載されている。

同義表現データベース３６０は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。同義表現データベース３６０は、同義表現抽出装置３５０が抽出した同義表現を記憶する。図４６は、同義表現データベース３６０が記憶する同義表現の記憶形式の一例を示す説明図である。図４６に示すように、同義表現データベース３６０は、同義表現ＩＤ及び同義表現のペアと、それら同義表現が含まれていた電子文書の文書ＩＤと、その電子文書を作成したメンバとを、対応付けて記憶する。この場合、同義表現データベース３６０は、電子文書の伝達関数（「Ｆｍ（伝達元）」と「Ｔｏ（伝達先）」）が分かるように同義表現を記憶する。

図４６において、同義表現ＩＤは、同義表現のペアを一意に識別するために付与される識別情報である。図４６に示すように、同義表現ＩＤ７００（Ｗ００１）においては、「メンバＭ３が作成した電子文書Ｄ１０１を参照して作成した電子文書ＩＤ１０４において、表現ＸＹＺが同義表現ＡＢＣに変更された」ことがわかる。すなわち、表現ＸＹＺと表現ＡＢＣとのペアが相互に同義表現であることを示している。

なお、図４６に示した記憶形式は、同義表現の記憶方法の一例であり、同義表現データベース３６０は、同義表現の情報を抽出できるものであれば、他の記憶形式で同義表現を記憶してもよい。

出力手段５３０は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力手段５３０は、例えば、ディスプレイ装置である場合には、同義表現抽出装置３５０の指示に従って、同義表現抽出装置３５０の抽出結果（抽出した同義表現）を表示する。なお、同義表現の抽出結果を表示するのではなく、表現統一化システム３００は、同義表現の抽出結果を電子ファイルとして出力してもよい。また、表現統一化システム３００は、組織情報に示されるアドレス情報を利用して、ｅ−ｍａｉｌ等を用いて、抽出結果を各メンバの端末に通知（送信）してもよい。

図４７は、出力手段５３０が出力する同義表現の抽出結果の一例を示す説明図である。図４７に示すように、出力手段５３０は、誰と誰との間で文書伝達されたどの電子文書間において、どのような同義表現が用いられたかを分かるような出力形式で、同義表現の抽出結果を出力する。なお、出力手段５３０が同義表現の抽出結果を出力する際の表示態様は、図４７に例示した表示態様に限られず、他の表示態様で出力するようにしてもよい。

図４７に示す例では、電子文書Ｄ１０１と電子文書Ｄ１０４とに、２組の同義表現（ＡＢＣ及びＸＹＺと、ＰＱＲ及びＳＴＵ）が用いられたことを示している。また、電子文書Ｄ１０２と電子文書Ｄ１０４とに、１組の同義表現（ＬＭＮ及びＳＴＵ）が使用されたことを示している。また、出力手段５３０は、図４４に示すように、文書伝達の階層構造を表示するとともに、使用された同義表現を重畳して表示してもよい。

なお、本実施の形態において、文書参照関係抽出システム１００及び表現統一化システム３００を実現する情報処理装置の記憶装置（図示せず）は、電子文書間の参照関係を抽出するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理を実行させるための文書参照関係抽出プログラムを記憶している。

また、本実施の形態において、文書参照関係抽出システム１００及び表現統一化システム３００を実現する情報処理装置の記憶装置は、相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出処理と、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理とを実行させ、階層構造特定処理で、データベースに記憶する電子文書の伝達記録を示す伝達記録情報に基づいて、予めデータベースに記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定する処理と、特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定する処理と、抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する処理とを実行させるための表現統一化プログラムを記憶している。

次に、表現統一化システム３００の全体の動作について説明する。図４８は、文書伝達の階層構造を特定し伝達文書の表現を統一する処理の一例を示すフローチャートである。

まず、表現統一化システム３００の伝達文書抽出手段３２０は、所定のタイミングで、文書提供サーバ５２０から伝達文書情報を抽出し、伝達文書データベース３３０に記憶させる（ステップＳ１１）。例えば、伝達文書抽出手段３２０は、所定期間毎に（例えば、毎日１回）、文書提供サーバ５２０に自動アクセスし、文書提供サーバ５２０から伝達文書情報を受信して伝達文書データベース３３０に記憶させる。また、例えば、伝達文書抽出手段３２０は、文書提供サーバ５２０に新たに電子文書が格納されたことをトリガとして、文書提供サーバ５２０に自動アクセスし、文書提供サーバ５２０から伝達文書情報を受信して伝達文書データベース３３０に記憶させる。

ステップＳ１１の処理が所定のタイミングで繰り返し実行されることによって、伝達文書データベース３３０に伝達文書情報が格納され、随時更新される。

次いで、ユーザ（組織内のいずれかのグループのメンバ）によって指示操作がなされると、文書参照関係抽出システム１００は、文書伝達の階層構造の特定処理を開始する。文書伝達の階層構造の特定処理において、文書参照関係抽出システム１００の非参照関係抽出手段１２０は、まず、組織情報データベース３１０が記憶する組織情報、及びコミュニケーション計画データベース１１０が記憶するコミュニケーション計画に基づいて、計画表を作成するとともに、非参照関係表を作成する（ステップＳ１２）。

次いで、階層構造特定手段１３０は、コミュニケーション計画データベース１１０が記憶するコミュニケーション計画、及び伝達文書データベース３３０が記憶する伝達文書情報に基づいて、伝達表を作成する（ステップＳ１３）。

次いで、階層構造特定手段１３０は、作成した伝達表に基づいて、文書伝達の階層構造を特定する（ステップＳ１４）。この場合、階層構造特定手段１３０は、非参照関係抽出手段１２０が作成した非参照関係表を利用して、電子文書間に参照関係が生じない文書伝達を除外した階層構造を特定する。

次いで、パラレルコーパス抽出手段３４０は、階層構造特定手段１３０が特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出する（ステップＳ１５）。次いで、同義表現抽出装置３５０は、パラレルコーパス抽出手段３４０が抽出したパラレルコーパスに基づいて、伝達文書から同義表現を抽出し、抽出結果を同義表現データベース３６０に記憶させる（ステップＳ１６）。また、同義表現抽出装置３５０は、同義表現の抽出結果を出力手段５３０に出力させる。

以上のように、本実施の形態によれば、文書参照関係抽出システム１００は、組織情報やコミュニケーション計画、伝達文書情報に基づいて、電子文書間において参照関係が生じやすい文書伝達の階層構造を特定する。そのため、電子文書の伝達が行われる場合において、電子文書の参照関係を抽出することができる。

また、本実施の形態によれば、電子文書間の参照関係を抽出でき、表現統一化システム３００は、伝達過程における他の人の伝達文書を参照して、集約や配布を行う文書伝達の中継者を効率的に発見して、パラレルコーパスを抽出する。そのため、伝達文書間のパラレルコーパスを効率的に抽出することができる。

実施の形態５．
次に、本発明の第５の実施の形態を図面を参照して説明する。図４９は、第５の実施の形態における文書参照関係抽出システム１００を用いた表現統一システム３００の構成例を示すブロック図である。図４９に示すように、本実施の形態では、図３３に示した構成要素に加えて、階層構造データベース３７０、修正案入力手段５４０及び修正手段３８０を含む点で、第４の実施の形態と異なる。

階層構造データベース３７０は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。階層構造データベース３７０は、文書参照関係抽出システム１００によって特定された階層構造を記憶する。

修正案入力手段５４０は、具体的には、キーボードやマウス等の入力デバイスによって実現される。修正案入力手段５４０は、ユーザの操作に従って、抽出された同義表現に対する修正案を入力する機能を備える。

修正手段３８０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵ及びネットワークインタフェース部によって実現される。修正手段３８０は、修正案入力手段５４０から入力した修正案に基づいて、同義表現を修正する機能を備える。また、修正手段３８０は、同義表現を修正したことを通知するメンバを特定する機能を備える。

次に、動作について説明する。図５０は、同義表現を修正する処理の一例を示すフローチャートである。なお、本実施の形態では、文書参照関係抽出システム１００は、第４の実施の形態と同様の処理に従って、文書伝達の階層構造を特定する。また、表現統一化システム３００は、第４の実施の形態と同様の処理に従って、伝達文書間の同義表現を抽出する。以下、図５０に示すフローチャートに従って、同義表現を修正する動作について説明する。なお、本実施の形態では、出力手段５３０がディスプレイ装置である場合を例に説明する。

まず、表現統一化システム３００は、同義表現データベース３６０に記憶されている同義表現を、例えば、出力手段５３０であるディスプレイ装置に一覧表示させる（図５０のステップＢ１）。また、表現統一化システム３００は、同義表現を修正するための修正入力画面をディスプレイ装置に表示させる。例えば、表現統一化システム３００は、図５１に示す修正入力画面を表示させる。図５１に示す例では、修正入力画面に、同義表現ＩＤ、抽出された同義表現、及び抽出元になった電子文書の文書ＩＤが表示されており、さらに各同義表現に対する修正案を入力する入力欄７１７が設けられている。

次に、修正案入力手段５４０は、システムの利用者又はメンバの操作に従って、表現統一のための修正案を入力する（図５０のステップＢ２）。なお、例えば、修正案入力手段５４０として、キーボードやマウス等の入力デバイスを用いる。また、図４９では、修正案入力手段５４０と入力手段５１０とを分けて表記しているが、修正案入力手段５４０及び入力手段５１０を同一の入力装置で実現してもよい。

なお、使用した同義表現のいずれかを選択する様態で修正案を入力するようにしてもよいし、自由記述形式にして新しい表現を入力できるようにしてもよい。また、同義表現は任意のシステムの利用者又はメンバにより修正可能である。

表現統一化システム３００は、システムの利用者やメンバの操作に従って、修正案入力手段５４０から、同義表現に対して入力された修正案と同義表現ＩＤとをに入力する。

次に、修正手段３８０は、伝達文書データベース３３０が記憶する伝達文書情報に基づいて、修正すべき同義表現を含む文書ＩＤの電子文書を文書提供サーバ５２０から抽出する。この場合、例えば、修正手段３８０は、伝達文書情報に基づいて、修正すべき同義表現を含む電子文書の文書ＩＤを特定する。また、修正手段３８０は、特定した文書ＩＤに対応する電子文書の抽出要求を、ネットワークを介して文書提供サーバ５２０に送信する。すると、文書提供サーバ５２０は、要求に応じて電子文書を抽出し、ネットワークを介して表現統一化システム３００に送信する。

次いで、修正手段３８０は、文書提供サーバ５２０から抽出した電子文書に基づいて、文書ＩＤと、その同義表現を含む前後の文を修正候補として出力手段５３０に出力させる（図５０のステップＢ３）。この場合、修正手段３８０は、同義表現を含む前後の文として任意の長さの文を出力手段５３０に表示させる。例えば、修正手段３８０は、同義表現を含む前後の語句を表示させてもよい。また、修正手段３８０は、文単位で表示させてもよいし、修正候補を表示させなくてもよい。

また、修正手段３８０は、出力手段５３０を用いて、例えば、図５２に示すような表示画面を表示させることによって、修正候補を出力させるは。図５２に示す例では、修正手段３８０は、修正される電子文書の文書ＩＤ、その電子文書が伝達された日時、その同義表現を使用したメンバ、及び修正候補の文を含む表示画面が表示されている。また、図５２に示す表示画面には、さらにその修正に同意するかどうかを入力する入力欄７１８が含まれる。

次に、修正案入力手段５４０は、システムの利用者又はメンバの操作に従って、修正候補の中から修正に合意した旨を入力し、表現統一化システム３００は、修正案入力手段５４０から修正に合意した旨の指示情報を入力する（図５０のステップＢ４）。

なお、合意又は非合意であることを入力するために、図５２に示す例では、○又は×の記号を用いて入力する場合を示している。ただし、修正に合意したことを表現統一化システム３００に伝えることができれば、入力方法は○や×等の記号入力を用いた選択形式である必要はない。例えば、ラジオボタンを用いて入力できるようにしてもよいし、キーボード等を用いて文字を入力することによって合意又は非合意を入力できるようにしてもよい。また、同意又は非同意であることを示す情報を入力するだけではなく、図５２において、修正する理由や修正しない理由を示す情報を入力する欄を表示画面に設けてもよい。

次に、修正手段３８０は、修正に同意する旨が入力指示された同義表現を置換して、伝達文書間の表現を統一する（図５０のステップＢ５）。なお、修正手段３８０は、例えば、既存のテキスト処理技術を用いて、同義表現を置換処理する。

次に、修正手段３８０は、いつ伝達された伝達文書のどの表現が同義表現となり、どのように修正されたかをシステムの利用者及びメンバに通知する（図５０のステップＢ６）。

ステップＢ６において、修正手段３８０は、修正された電子文書の文書ＩＤを含む階層構造を階層構造データベース３７０から特定し、特定した階層構造中に含まれる全ての文書ＩＤを抽出する。次いで、修正手段３８０は、抽出した文書ＩＤを検索キーとして伝達文書データベース３３０を検索し、伝達文書データベース３３０から伝達文書情報を特定する。また、修正手段３８０は、特定した伝達文書情報に対応する電子文書を文書提供サーバ５２０から抽出した電子文書の中から特定する。そして、修正手段３８０は、特定した電子文書中で同義表現対（図５１に示す例ではＡＢＣ又はＸＹＺ）を含む電子文書を特定する。

次に、修正手段３８０は、特定した電子文書に対してＦｍ（伝達元）又はＴｏ（伝達先）の役割を果たしたメンバを抽出する。すなわち、伝達元又は伝達先の役割を果たしたメンバは、同義表現を含む文書伝達に関わっており、その伝達文書を参照している。そして、修正手段３８０は、文書伝達に関わったメンバに対して修正に関する通知を行う。例えば、修正手段３８０は、文書伝達に関わったメンバの端末に、ネットワークを介して、同義表現を統一する修正を行った旨及び修正箇所を示すメッセージを送信する。

以上の処理が実行されることによって、同義表現の参照に関わる必要最小限のメンバに対して、同義表現の修正に関する通知が行われる。

例えば、図３６に示す伝達文書情報によれば、メンバＭ４は、メンバＭ３とメンバＭ２とから、それぞれ電子文書Ｄ１０１と電子文書Ｄ１０４とを伝達されている。また、電子文書Ｄ１０１の表現ＡＢＣと電子文書Ｄ１０４の表現ＸＹＺとが同義表現の関係にある。しかし、メンバＭ４は、その電子文書の伝達過程や同義表現の発生過程を知らないため、それらの表現が同一のものであるか否か判断するのが難しい。

本実施の形態では、修正手段３８０は、メンバＭ４に、例えば、図５３に示すメッセージを通知（送信）する。なお、修正手段３８０は、例えば、ｅ−ｍａｉｌ（電子メール）を用いて図５３に示すメッセージをメンバの端末に送信すればよい。図５３に示すメッセージを受けとり、表示されたメッセージの内容を確認することにより、メンバＭ４は、同義表現の発生原因や修正過程等を把握することができる。

以上のように、本実施の形態によれば、階層構造データベース３７０が記憶する文書伝達の階層構造の特定結果に基づいて、同義表現が抽出された電子文書に関連する文書伝達の階層構造を特定する。また、文書伝達の階層構造中で文書伝達された電子文書を特定することができる。さらに、伝達文書データベース３３０が記憶する伝達文書情報に基づいて、伝達文書のＦｍ（伝達元）とＴｏ（伝達先）とを特定することができる。そのため、同義表現を修正したことを、修正した電子文書に関与するメンバに対して通知することができる。

例えば、特許文献１〜３に記載された従来のシステムや装置、方法、プログラムでは、電子文書が修正された場合、その電子文書を参照した人々を特定できない。例えば、特許文献１及び特許文献３に記載されたシステムや装置、方法、プログラムでは、参照文書が修正された場合に対応するための処理がない。

また、例えば、特許文献２に記載された装置や方法では、文書修正の通知は、電子文書の修正者及び修正文書から参照されている電子文書の所有者に留まっており、参照関係もＨＴＭＬ等定型のフォーマットにおけるハイパーリンクとなっている。そのため、修正前／後の自由書式の電子文書に関連する人々に対して修正が行われたことを通知することができない。なお、「関連する人々」とは、特許文献２に記載された装置や方法でも通知対象としている電子文書の修正者及び修正文書から参照されている電子文書の所有者等である。また、「関連する人々」とは、さらに、それらの電子文書を伝達された人や閲覧した人や、修正文書を参照し電子文書を作成した人々、その作成された電子文書の閲覧者等である。

これに対し、本実施の形態では、上記に説明したように、電子文書の参照関係を抽出することができ、電子文書の内容と伝達構造とに基づいて、どの情報が誰にまで伝達されているかを判断することができる。そのため、ある電子文書の内容変更について、その旨を通知するべきメンバを特定することができる。

実施の形態６．
次に、本発明の第６の実施の形態を図面を参照して説明する。図５４は、第６の実施の形態における文書参照関係抽出システム１００を用いた表現統一システム３００の構成例を示すブロック図ある。図５４に示すように、本実施の形態では、図３３に示した構成要素に加えて、傾向分析手段３９０を含む点で、第４の実施の形態と異なる。また、本実施の形態では、階層構造特定手段１３０の機能が、第４の実施の形態で示した階層構造特定手段１３０の機能と異なる。

傾向分析手段３９０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。傾向分析手段３９０は、各メンバの同義表現の使用傾向を分析する機能を備える。

また、本実施の形態では、階層構造特定手段１３０は、第４の実施の形態で示した機能に加えて、コミュニケーション計画データベース１１０が記憶するコミュニケーション計画に基づいて、予め計画された文書伝達の階層構造を特定する機能を備える。なお、本実施の形態では、階層構造特定手段１３０は、第４の実施の形態と同様の処理に従って、実際に行われた文書伝達の階層構造を特定する機能も備える。

次に、動作について説明する。本実施の形態では、表現統一化システム３００は、第４の実施の形態と同様の処理に従って、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行する。また、本実施の形態では、表現統一化システム３００は、第４の実施の形態で示した処理に加えて、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行する。図５５は、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理の一例を示すフローチャートである。

非参照関係抽出手段１２０は、コミュニケーション計画データベース１１０が記憶する任意のコミュニケーション計画に対して、第４の実施の形態と同様の処理に従って、よ計画表と非参照関係表とを作成する（ステップＳ３１）。図５６は、非参照関係抽出手段１２０が図３５に示すコミュニケーション計画に基づいて作成された２つの計画表、及び計画表から文書伝達の階層構造を特定する過程の例を示す説明図である。なお、図５６に示す計画表では、文書伝達計画がある（行中に１が存在する）部分のみを抜粋して示している。

本実施の形態では、非参照関係抽出手段１２０は、第４の実施の形態と同様に、図５６に示す計画表に基づいて、図４０に示す非参照関係表と同様の非参照関係表を抽出したものとして説明する。なお、非参照関係抽出手段１２０は、コミュニケーション計画中にグループＩＤが含まれている場合には、組織情報データベース３１０が記憶する組織情報に基づいて、コミュニケーション計画を展開する。

次に、階層構造特定手段１３０は、第４の実施の形態において伝達表に対して適用したアルゴリズムと同様のアルゴリズムを計画表に対して適用することによって、コミュニケーション計画に基づいて、予め計画されている文書伝達の階層構造を特定する。この場合、階層構造特定手段１３０は、非参照関係抽出手段１２０が作成した計画表と非参照関係表とに基づいて、予め計画されている文書伝達の階層構造を特定する（ステップＳ３２）。

次に、階層構造特定手段１３０は、各計画表内の文書伝達構造を特定する。階層構造特定手段１３０は、それら各計画表内の文書伝達構造を、ｔ番目の計画表Ｐｔ内において１が付与されている箇所のＦｍ（伝達元）とＴｏ（伝達先）とをリンクすることによって特定することができる。この場合、階層構造特定手段１３０は、リンクの条件式（１１）を用いて、伝達元と伝達先とのリンク付けを行う。ただし、階層構造特定手段１３０は、非参照関係表に基づいて、非参照関係である伝達元と伝達先とについては抽出しないように処理する。なお、ここでいうリンクとは、第４の実施の形態で用いたリンクと同じ意味である。

式（１１）において、ｉは計画表Ｐｔにおける縦方向のメンバのインデックスであり、ｊは横方向のインデックスである。また、式（１１）中の後件部は、メンバＭｉからメンバＭｊへの文書伝達が行われる計画であることを意味する。図５６において、各計画表の右側に示している模式図は、図５６に示す計画表に式（１１）を適用して階層構造特定手段１３０によって特定される階層構造である。

次に、階層構造特定手段１３０は、各計画表から文書伝達の開始予定者と末端予定者とを抽出する。ここで、計画表Ｐｔ中の文書伝達の開始予定者をＭｓ＿ｔとし、文書伝達の末端予定者をＭｅ＿ｔとする。この場合、階層構造特定手段１３０は、開始予定者Ｍｓ＿ｔ及び末端予定者Ｍｅ＿ｔとを、それぞれ式（１２）及び式（１３）を用いて抽出することができる。

式（１２）及び式（１３）において、Ｎｍはメンバの数を示し、Ｍａ＿ｔは計画表Ｐｔにおけるａ番目のメンバを示す。図５６に示すように、各計画表において、文書伝達の開始予定者と末端予定者とが複数人いることもある。

次に、階層構造特定手段１３０は、全ての計画表に対してステップＳ３１，Ｓ３２と同様の処理を行った後に、計画表間における文書伝達の階層構造を特定する。この場合、階層構造特定手段１３０は、計画表Ｐｔにおける伝達の開始予定者に対して、文書伝達を行う計画である計画表Ｐτの伝達の末端予定者を抽出することによって、計画表間における文書伝達の階層構造を特定することができる。ただし、ｔ＞τであるとする。

次いで、階層構造特定手段１３０は、抽出した末端予定者から開始予定者をリンクすることによって、計画表間の文書伝達構造を特定する。この場合、階層構造特定手段１３０は、リンクの条件式（１４）を用いて、計画表間の文書伝達構造を特定する。

上記の処理を実行することによって、階層構造特定手段１３０は、図５６に示す計画表に基づいて、図５７に示す階層構造を特定する。図５７において、各ノード７２２ａはメンバを表し、各矢印７２２ｂは文書伝達の計画を表している。また、図５７に示す四角枠７２２ｃには、それぞれ隣接する矢印に対応するコミュニケーション計画の計画番号（Ｎｏ）が示されている。

以上のように、図５７に示すように、本システムにより、予め計画された文書伝達の階層構造を特定でき、計画表に基づいて伝達予定の電子文書間の参照関係を抽出できる。

なお、第４の実施の形態に示した文書参照関係抽出システム１００が伝達文書情報に基づいて参照関係を抽出する場合と同様、コミュニケーション計画から参照関係を抽出する方法は、本実施の形態で示した方法に限られない。

例えば、階層構造特定手段１３０は、文書伝達の末端予定者を抽出するとともに、文書伝達の末端予定者に対して電子文書を伝達するメンバを抽出し、さらにそのメンバに対して電子文書を伝達するメンバを抽出するという処理を再帰的に繰り返す方法を用いて、予め計画された文書伝達の参照関係を算出してもよい。この場合、階層構造特定手段１３０は、該当するメンバが存在しない場合、又は非参照関係となる文書伝達が抽出された場合を終了条件として処理を終了する。そのような処理を実行することによって、階層構造特定手段１３０は、文書伝達の末端予定者を根とし、文書伝達の開始予定者を葉とし、文書伝達の中継予定者を中間ノードとする伝達の木構造を特定することができる。

また、階層構造特定手段１３０は、各伝達の末端予定者（例えば、メンバＭ６とメンバＭ７）について同様の処理を行い、最後に各末端予定者に関する文書伝達の木構造で共通する部分を１つと見なし、マージすることによって、図５７に示す文書伝達の階層構造と同様の階層構造を特定する。

次いで、傾向分析手段３９０は、まず、同義表現データベース３６０が記憶する同義表現の抽出結果に基づいて、各メンバがどのメンバとの間にどの程度の頻度で同義表現を使用したかをカウントし、各メンバの同義表現の使用回数をまとめて示す同義表現使用回数表を生成する（ステップＳ３３）。そして、傾向分析手段３９０は、生成した同義表現使用回数表を出力手段５３０に出力させる（ステップＳ３４）。

なお、同義表現の使用とは、伝達された電子文書内の表現とは異なる表現を用いて電子文書を伝達したこと、すなわち同義表現を発生させたことである。

また、同義表現のカウント方法には様々な方法がある。例えば、傾向分析手段３９０は、同義表現が含まれている電子文書の数をカウントしてもよい。また、傾向分析手段３９０は、同義表現が含まれている文の数をカウントしてもよく、同義表現の数をカウントしてもよい。

図５８は、同義表現使用回数表の出力形式の例を示す説明図である。図５８に示す例では、７名のメンバ間の同義表現使用回数表が示されており、最左列に示すメンバから最上段の行に示すメンバに対して電子文書が伝達された際の同義表現使用回数を示している。また、図５８に示す同義表現使用回数表における縦方向のカウント値の和を求めることによって、あるメンバが他のメンバから伝達された電子文書に対して使用した同義表現の使用回数を得ることができる。また、横方向のカウント値の和を求めることによって、あるメンバの電子文書に対して他メンバが使用した同義表現の使用回数を得ることができる。

出力手段５３０は、傾向分析手段３９０の指示に従って、例えば、ディスプレイ装置等である場合には、各メンバの同義表現使用傾向が分かるように、同義表現使用回数表を表示する。なお、出力手段５３０は、傾向分析手段３９０の指示に従って、同義表現使用回数表のデータをまとめて表示してもよく、同義表現使用回数表のデータをグラフにして表示してもよい。

また、傾向分析手段３９０は、システムの利用者にとって分かりやすく同義表現使用回数を示すために、例えば、図５９に示すように、特定した文書伝達の階層構造と同義表現使用回数とを重畳させて出力手段５３０に表示させてもよい。図５９において、各ノード７２４ａはメンバを示し、各ノード間の矢印７２４ｂは文書伝達の計画を示している。また、図５９において、矢印上の四角枠７２４ｃには、対応するメンバ間の同義表現使用回数が示されている。

図５９に示す表示形式で表示することによって、今後の文書伝達において、どの程度、同義表現が利用される可能性があるかを把握しやすくすることができる。そのため、システムの利用者は、同義表現を多く使用しているメンバに対して、数値的な論拠を提示して同義表現の使用を少なくするよう依頼することができる。なお、同義表現使用回数表に付与する数値として、同義表現の使用回数だけを用いるのではなく、例えば、伝達した電子文書と同義表現が使用された電子文書との比等を用いてもよい。

以上のように、本実施の形態によれば、文書伝達前に予め入力されたコミュニケーション計画に基づいて、予め計画された文書伝達の階層構造を事前に特定することができる。そのため、今後行われる文書伝達における電子文書の参照関係を抽出することができる。

例えば、特許文献１〜３に記載された従来のシステムや装置、方法、プログラムでは、今後、伝達される電子文書間における参照関係を抽出することができない。特許文献１〜３に記載されたシステムや装置、方法、プログラムでは、電子文書間の稀な単語の出現頻度や電子文書のカテゴリ、電子文書の参照時間／頻度、参照リンク等、作成された電子文書から抽出した情報を基に参照関係を抽出している。そのため、今後、作成される電子文書が定まっている場合においても、それらの電子文書間において生じる参照関係を抽出することができない。

これに対し、本実施の形態では、上記に説明したように、コミュニケーション計画に基づいて文書伝達の階層構造を特定するので、電子文書の伝達記録を用いずに参照関係を抽出することができる。そのため、今後の伝達計画から参照関係を抽出することができる。

また、本実施の形態によれば、組織情報とコミュニケーション計画とに基づいて、予め計画された伝達文書の参照関係を抽出することができ、且つ過去のメンバ間の同義表現の使用回数等に基づいて同義表現の発生しやすさを定量化することができる。そのため、今後、同義表現が発生しパラレルコーパスとなる可能性が高い文書伝達を事前に特定することができる。

なお、本実施の形態では、文書参照関係抽出システム１００や表現統一化システム３００が、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行するとともに、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行する場合を示したが、予め計画された文書伝達の階層構造を特定して同義表現の発生傾向を提示する処理のみを実行するようにしてもよい。この場合、表現統一化システム３００は、伝達文書抽出手段３２０及び伝達文書データベース３３０を含まなくてもよい。

また、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行するシステムと、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行するシステムとを別々のシステムとして構成するようにしてもよい。

実施の形態７．
次に、本発明の第７の実施の形態を図面を参照して説明する。本実施の形態では、文書参照関係抽出システム１００を、実際に行われた文書伝達を評価する文書伝達評価システムに適用する場合を説明する。図６０は、第７の実施の形態における文書参照関係抽出システム１００を用いた文書伝達評価システム４００の構成例を示すブロック図である。図６０に示すように、本実施の形態では、図３３に示した構成要素のうち、パラレルコーパス抽出手段３４０及び同義表現抽出手段３５０を含まない点で、第４の実施の形態と異なる。また、本実施の形態では、図３３に示した構成要素に加えて、差分抽出手段５５０を含む点で、第４の実施の形態と異なる。

差分抽出手段５５０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。差分抽出手段５５０は、コミュニケーション計画データベース１１０が記憶するコミュニケーション計画と、伝達文書データベース３３０が記憶する伝達文書情報とを比較して、コミュニケーション計画通りの文書伝達がなされているか否かを明確化する機能を備える。

差分抽出手段５５０は、伝達文書情報とコミュニケーション計画との差を明確にし、その伝達文書情報とコミュニケーション計画との比較結果を出力手段５３０に出力させる。差分抽出手段５５０は、伝達文書情報とコミュニケーション計画とについて、以下の３つの事項の差分を抽出する。

まず、差分抽出手段５５０は、コミュニケーション計画において計画されているが伝達されていない文書伝達を抽出する（差分１：文書未伝達）。また、差分抽出手段５５０は、コミュニケーション計画において計画されていないにもかかわらず、伝達されている文書伝達を抽出する（差分２：伝達未計画）。また、差分抽出手段５５０は、コミュニケーション計画において計画された通り伝達されているが、計画された伝達時刻とは異なる時刻にされた文書伝達を抽出する（差分３：伝達日時差）。

差分抽出手段５５０は、まず、伝達文書情報と対応のとれなかったコミュニケーション計画を、コミュニケーション計画データベース１１０から抽出する。すなわち、差分抽出手段５５０は、文書伝達が計画されていたにもかかわらず、伝達がなされなかった文書伝達を含むコミュニケーション計画を抽出する。具体的には、差分抽出手段５５０は、伝達文書データベース３３０が記憶する伝達文書情報に示される各伝達日時の情報と合致しない伝達予定日時の情報を含むコミュニケーション計画を、コミュニケーション計画データベース１１０から抽出する。この処理を実行することにより、差分抽出手段５５０は、差分１（文書未伝達）を抽出する。

次に、階層構造特定手段１３０が特定した文書伝達の階層構造中に含まれる文書ＩＤと同一の文書ＩＤに対応する全ての電子文書を、伝達文書データベース３３０が記憶する伝達文書情報に基づいて特定する。この場合、差分抽出手段５５０は、コミュニケーション計画と対応がとれていない伝達文書情報も特定する。すなわち、差分抽出手段５５０は、文書伝達が計画されていないにもかかわらず、伝達がなされている文書伝達を含む伝達文書情報を抽出する。具体的には、差分抽出手段５５０は、コミュニケーション計画データベース１１０が記憶するコミュニケーション計画に示される各伝達予定日時の情報と合致しない伝達日時の情報を含む伝達文書情報を、伝達文書データベース３３０から抽出する。この処理を実行することにより、差分抽出手段５５０は、差分２（伝達未計画）を抽出する。

最後に、差分抽出手段５５０は、コミュニケーション計画における伝達予定日時と、そのコミュニケーション計画に対応する伝達文書情報における伝達日時との差分を計算する。この場合、差分抽出手段５５０は、差分の計算方法として、伝達日時（実際に文書伝達が行われた日時）を伝達予定日時で減算することによって、伝達日時と伝達予定日時との差分を求める。計算結果がマイナスの値であれば、伝達予定日時までに伝達されたことを意味する。また、計算結果がプラスの値であれば、伝達予定日時後に遅れて伝達されたことを意味する。なお、コミュニケーション計画の伝達予定日時が一定の幅をもった期間で指定されている場合には、差分抽出手段５５０は、その期間内に電子文書が伝達されている場合には、伝達日時と伝達予定日時との差分を０と求めればよい。

次いで、差分抽出手段５５０は、コミュニケーション計画と伝達文書情報との差を、例えば、図６１に示すような差分表としてまとめて作成し、作成した差分表を出力手段５３０に出力させる。図６１に示す例では、差分表には、各行にコミュニケーション計画による計画ＩＤ及び伝達予定日時、伝達文書情報による伝達文書ＩＤ及び伝達日時、Ｆｍ（伝達元）、Ｔｏ（伝達先）、及び伝達予定日時と伝達日時との差分の情報が含まれている。

図６１に示す差分表において、伝達文書ＩＤが空欄である行で示される文書伝達は、計画されているにもかかわらず、伝達されていない文書伝達（差分１：文書未伝達）を意味する。また、計画ＩＤが空欄である行で示される文書伝達は、計画されていないにもかかわらず、伝達された文書伝達（差分２：伝達未計画）を意味する。また、図６１に示すように、伝達文書ＩＤと計画ＩＤがともに含まれる行で示される文書伝達では、伝達予定日時と伝達日時との差を計算した結果が示されており、この伝達予定日時と伝達日時との差の計算結果が（差分３：伝達日時差）に相当する。

なお、図６１に示す例では、伝達予定日時と伝達日時との差の計算を日付単位で行っている。ただし、差分抽出手段５５０は、伝達日時差の計算を、日単位で計算する場合に限らず、例えば、時間単位等に伝達日時差の計算を行ってもよい。

図６１に示す例では、例えば、メンバＭ３はメンバＭ８に文書ＩＤ１０１の電子文書を伝達しているが、この文書伝達はコミュニケーション計画では計画されていないことがわかる。また、メンバＭ４はコミュニケーション計画Ｐ００２で計画されていたメンバＭ２への伝達を怠っていることがわかる。また、この他、メンバＭ５は、コミュニケーション計画Ｐ００３で計画されていた伝達予定日時よりも１日遅れで電子文書を伝達していることがわかる。このように差分表を用いて、コミュニケーション計画と伝達文書情報との３つの差を表現することができる。

出力手段５３０は、例えば、ディスプレイ装置である場合には、差分抽出手段５５０の指示に従って、差分抽出手段５５０が生成した差分表の情報を出力（表示）する。例えば出力手段５３０は、差分抽出手段５５０の指示に従って、図６２に示す表示画面を表示すればよい。

図６２に示すように、出力手段５３０は、差分抽出手段５５０の指示に従って、まず、コミュニケーション計画データから文書伝達の階層構造中に含まれるメンバを実線のノード７２７ａとして表示する。また、出力手段５３０は、差分抽出手段５５０の指示に従って、計画されていないものの文書伝達が行われたメンバ（差分表において計画番号（Ｎｏ）が空欄である行のＴｏ（伝達先）のメンバ）を破線のノード７２７ｃとして表示する。

また、出力手段５３０は、差分抽出手段５５０の指示に従って、伝達文書情報を参照し、階層構造関係がわかるようにノード間を矢印で結んだ表示態様で表示する。すなわち、出力手段５３０は、非参照関係であるノード間においては、文書伝達が行われていても矢印で結ばない態様で表示する。なお、この場合、出力手段５３０は、破線で示したノードに対しても、実線の矢印７２７ｃで結んだ表示態様で表示する。

また、出力手段５３０は、差分抽出手段５５０の指示に従って、コミュニケーション計画で文書伝達が計画されているものの、実際に電子文書が伝達されていないノード間を破線の矢印７２７ｄで結んだ表示態様で表示する。この場合においても、出力手段５３０は、役割が同一であるノード間を矢印で結ばない態様で表示する。

さらに、出力手段５３０は、差分抽出手段５５０の指示に従って、実線で示した矢印に対して四角枠で囲まれた伝達日時差７２７ｅを付与した態様で表示する。出力手段５３０は、図６２に示すような表示様態で表示することにより、差分表の情報を可視化し、コミュニケーション計画と実際の文書伝達との差を明確に表示する。

図６２に示すように、メンバＭ４からメンバＭ２への文書伝達と、メンバＭ１からメンバＭ７への文書伝達とは、予め計画されているものの、実際には行われていないことがわかる。また、メンバＭ３からメンバＭ８への文書伝達と、メンバＭ２からメンバＭ９への文書伝達については、予めコミュニケーション計画で計画されていないにもかかわらず、文書伝達が行われていることがわかる。

さらに、メンバＭ２からメンバＭ１への文書伝達が１日遅延しているが、メンバＭ１への伝達経路を参照すると、メンバＭ４からの伝達文書が届いておらず、また、メンバＭ４からの文書伝達が既に１日遅れていることがわかる。また、このことから、文書伝達の遅延の原因は、メンバＭ１への伝達よりも、むしろメンバＭ３及びメンバＭ４の文書伝達に問題があったことがわかる。すなわち、図６２に示す表示画面に示される状況を見れば、メンバＭ１よりも、むしろメンバＭ３及びメンバＭ４の文書伝達に問題があったことを容易に判断することができる。

なお、本実施の形態において、文書参照関係抽出システム１００や文書伝達評価システム４００を実現する情報処理装置の記憶装置は、電子文書の伝達状況を評価するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、データベースに記憶する電子文書の伝達記録を示す伝達記録情報と、予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報とに基づいて、電子文書の伝達記録と伝達計画との差分を抽出する差分抽出処理と、抽出した電子文書の伝達記録と伝達計画との差分を出力する差分出力処理とを実行させるための文書伝達評価プログラムを記憶している。

以上のように、本実施の形態によれば、差分抽出手段５５０は、階層構造特定手段１３０がコミュニケーション計画に基づいて特定した文書伝達予定の階層構造と、文書伝達情報とを比較する。また、差分抽出手段５５０は、コミュニケーション計画に含まれているが伝達文書情報に伝達記録のない文書伝達や、コミュニケーション計画には含まれていないにもかかわらず行われた文書伝達、電子文書の伝達予定日時とその計画に対応する電子文書の伝達日時との差を、文書伝達の差分として抽出する。そして、差分抽出手段５５０は、抽出した文書伝達の差分を出力手段５３０に表示させる。そのため、電子文書を参照した人、及びその電子文書伝達の時期の適切さを明確に評価することができる。

本発明は、同義表現検索を実行する情報検索システムや、情報検索システムを実現するためのプログラムに好適に適用される。また、本発明は、用語統制等を行うプロジェクト管理システムや文書管理システム、プロジェクト管理システムや文書管理システムを実現するためのプログラムに好適に適用される。

本発明による同義表現抽出システムの構成の一例を示すブロック図である。同義表現抽出システム１０が同義表現を抽出処理の一例を示すフローチャートである。類似文章対データベースが記憶する類似文章対の例を示す説明図である。係り受け解析の解析結果の例を示す説明図である。係り受け解析手段が記録媒体に記憶させる文節と形態素間の関係の情報のデータ形式の例を示す説明図である。係り受け表の例を示す説明図である。構造関係の定義の例を示す説明図である。構造関係特定表の例を示す説明図である。構造関係特定表を生成方法を示す説明図である。文章１に対して特定された構造関係の例を示す説明図である。文章２に対して特定された構造関係の例を示す説明図である。比較構造関係の例を示す説明図である。文章１と文章２とにおける比較構造関係の例を示す説明図である。類似文章対における構造関係の同一性判定表の例を示す説明図である。類似文章対の他の例を示す説明図である。文章３及び文章４に対する係り受け構造を示す説明図である。類似文章対における構造関係の同一性の例を示す説明図である。類似文章対における構造関係の同一性の例を示す説明図である。類似性判定手段１０４が求めた重み付き平均を用いた類似度計算の例を示す説明図である。同義表現の出力例を示す説明図である。同義表現の他の出力例を示す説明図である。本発明における同義表現抽出の原理を示す説明図である。第２の実施の形態における同義表現抽出システムの構成例を示すブロック図である。文章整形の例を示す説明図である。文章整形前後の係り受け構造の例を示す説明図である。第３の実施の形態における同義表現抽出システムの構成例を示すブロック図である。抽出した同義表現の正誤を入力できる出力例を示す説明図である。類似度表データベース１０６が記憶する類似基準を調整するために用いる類似度表を示す説明図である。図２８に示したシステム利用者による同義表現の正誤の判定内容を数値化にした類似度表を示す説明図である。同義表現抽出の式の重み係数、閾値及び類似度の関係を示す説明図である。同義表現抽出の式の補正後の重み係数、閾値及び類似度の関係を示す説明図である。従来技術における同義表現抽出の原理を示す説明図である。本発明による同義表現抽出システムを適用した文書参照関係抽出システムを用いた表現統一システムの構成の一例を示すブロック図である。組織情報の一例を示す説明図である。コミュニケーション計画の一例を示す説明図である。伝達文書情報の一例を示す説明図である。コミュニケーション計画を展開した例を示す説明図である。図３５に示すコミュニケーション計画における文書伝達を模式的にネットワークとして表した説明図である。非参照関係抽出手段が作成する計画表の一般例を示す説明図である。非参照関係抽出手段が図３５に示すコミュニケーション計画に基づいて実際に作成した計画表及び非参照関係表を示す説明図である。階層構造特定手段が文書伝達の階層構造を特定する処理のアルゴリズムの一例を示す説明図である。階層構造特定手段が作成する伝達表の一般例を示す説明図である。階層構造特定手段が図３６に示す伝達文書情報に基づいて実際に作成した５つの伝達表、及び伝達表から階層構造を特定する例を示す説明図である。図４１に示す処理に従って、階層構造特定手段が図３６に示す伝達文書情報から特定した文書伝達の階層構造を示す説明図である。図３６に示す伝達文書情報における文書伝達の末端者の一人であるメンバＭ６から文書伝達の開始者までのトレースを行う処理の過程を示す説明図である。同義表現データベースが記憶する同義表現の記憶形式の一例を示す説明図である。出力手段が出力する同義表現の抽出結果の一例を示す説明図である。文書伝達の階層構造を特定し伝達文書の表現を統一する処理の一例を示すフローチャートである。第５の実施の形態における文書参照関係抽出システムを用いた表現統一システムの構成例を示すブロック図である。同義表現を修正する処理の一例を示すフローチャートである。同義表現の修正案を入力するフォーム（表示画面）の例を示す説明図である。修正候補の表示と修正への同意を入力するフォーム（表示画面）の例を示す説明図である。同義表現の修正を行ったことを通知する表示方法（メッセージ）の例を示す説明図である。第６の実施の形態における文書参照関係抽出システムを用いた表現統一システムの構成例を示すブロック図である。予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理の一例を示すフローチャートである。非参照関係抽出手段が図３５に示すコミュニケーション計画に基づいて作成された２つの計画表、及び計画表から文書伝達の階層構造を特定する過程の例を示す説明図である。コミュニケーション計画から特定した文書伝達の階層構造の例を示す説明図である。同義表現使用回数表の出力形式の例を示す説明図である。同義表現の使用回数を文書伝達の階層構造とともに出力した例を示す説明図である。第７の実施の形態における文書参照関係抽出システムを用いた文書伝達評価システムの構成例を示すブロック図である。差分表の例を示す説明図である。伝達文書のコミュニケーション計画と伝達文書情報との差を出力した例を示す説明図である。

符号の説明

１０同義表現抽出システム
１０１係り受け解析手段
１０２表現比較手段
１０３構造関係特定手段
１０４類似性判定手段
１０５文章整形手段
１０６類似度表データベース
１０７類似基準補正手段
５０１類似文章対データベース
５０２出力手段
５０３入力手段

Claims

相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、
前記類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定手段と、
前記構造関係特定手段が特定した構造関係に基づいて、前記類似文章対に含まれる相違表現を同義表現の候補として、前記同義表現の候補の類似度を求める類似度算出手段と、
前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出手段とを備え、
前記同義表現抽出手段は、前記類似度算出手段が求めた類似度に基づいて、前記同義表現の候補を同義表現として抽出するか否かを判定する
ことを特徴とする同義表現抽出システム。
相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、
前記類似文章対の文章構造を特定する文章構造特定手段と、
前記文章構造特定手段が特定した文章構造に基づいて、前記類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出手段と、
前記表現抽出手段が抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定手段と、
前記位置関係特定手段が特定した相対的位置関係に基づいて、構造関係の同一性から前記類似文章対における相違表現の類似度を算出する類似度算出手段と、
前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出手段とを備え、
前記同義表現抽出手段は、前記類似度算出手段が算出した類似度に基づいて、同義表現を抽出する
ことを特徴とする同義表現抽出システム。
相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、
前記類似文章対の文章構造を特定する文章構造特定手段と、
前記文章構造特定手段が特定した文章構造に基づいて、前記類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出手段と、
前記表現抽出手段が抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定手段と、
前記位置関係特定手段が特定した相対的位置関係に基づいて、構造関係の同一性から前記類似文章対における相違表現の類似度を算出する類似度算出手段と、
前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出手段とを備え、
前記同義表現抽出手段は、前記類似度算出手段が算出した類似度に基づいて、同義表現を抽出する
ことを特徴とする同義表現抽出システム。
同義表現抽出手段は、類似文章対において、相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係であることに基づいて、同義表現を抽出する請求項１から請求項３のうちのいずれか１項に記載の同義表現抽出システム。
類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換手段を備えた請求項１から請求項４のうちのいずれか１項に記載の同義表現抽出システム。
同義表現抽出手段は、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出し、
前記同義表現抽出手段が抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、前記同義表現を抽出するための類似基準を補正する類似基準補正手段を備えた
請求項１から請求項５のうちのいずれか１項に記載の同義表現抽出システム。
相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、
コンピュータが、前記類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定ステップと、
前記コンピュータが、前記特定した構造関係に基づいて、前記類似文章対に含まれる相違表現を同義表現の候補として、前記同義表現の候補の類似度を求める類似度算出ステップと、
前記コンピュータが、前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出ステップとを含み、
前記コンピュータが、前記同義表現抽出ステップで、前記求めた類似度に基づいて、前記同義表現の候補を同義表現として抽出するか否かを判定する
ことを特徴とする同義表現抽出方法。
相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、
コンピュータが、前記類似文章対の文章構造を特定する文章構造特定ステップと、
前記コンピュータが、前記特定した文章構造に基づいて、前記類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出ステップと、
前記コンピュータが、前記抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定ステップと、
前記コンピュータが、前記特定した相対的位置関係に基づいて、構造関係の同一性から前記類似文章対における相違表現の類似度を算出する類似度算出ステップと、
コンピュータが、前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出ステップとを含み、
前記コンピュータが、前記同義表現抽出ステップで、前記算出した類似度に基づいて、同義表現を抽出する
ことを特徴とする同義表現抽出方法。
相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、
コンピュータが、前記類似文章対の文章構造を特定する文章構造特定ステップと、
前記コンピュータが、前記特定した文章構造に基づいて、前記類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出ステップと、
前記コンピュータが、前記抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定ステップと、
前記コンピュータが、前記特定した相対的位置関係に基づいて、構造関係の同一性から前記類似文章対における相違表現の類似度を算出する類似度算出ステップと、
前記コンピュータが、前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出ステップとを含み、
前記コンピュータが、前記同義表現抽出ステップで、前記算出した類似度に基づいて、同義表現を抽出する
ことを特徴とする同義表現抽出方法。
コンピュータが、類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換ステップを含む請求項７から請求項９のうちのいずれか１項に記載の同義表現抽出方法。
コンピュータが、同義表現抽出ステップで、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出し、
前記コンピュータが、前記抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、前記同義表現を抽出するための類似基準を補正する類似基準補正ステップを含む
請求項７から請求項１０のうちのいずれか１項に記載の同義表現抽出方法。
相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、
コンピュータに、
前記類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定処理と、
前記特定した構造関係に基づいて、前記類似文章対に含まれる相違表現を同義表現の候補として、前記同義表現の候補の類似度を求める類似度算出処理と、
前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出処理とを実行させ、
前記同義表現抽出処理で、前記求めた類似度に基づいて、前記同義表現の候補を同義表現として抽出するか否かを判定する処理を
実行させるための同義表現抽出用プログラム。
相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、
コンピュータに、
前記類似文章対の文章構造を特定する文章構造特定処理と、
前記特定した文章構造に基づいて、前記類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出処理と、
前記抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定処理と、
前記特定した相対的位置関係に基づいて、構造関係の同一性から前記類似文章対における相違表現の類似度を算出する類似度算出処理と、
前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出処理とを実行させ、
前記同義表現抽出処理で、前記算出した類似度に基づいて、同義表現を抽出する処理を
実行させるための同義表現抽出用プログラム。
相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、
コンピュータに、
前記類似文章対の文章構造を特定する文章構造特定処理と、
前記特定した文章構造に基づいて、前記類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出処理と、
前記抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定処理と、
前記特定した相対的位置関係に基づいて、構造関係の同一性から前記類似文章対における相違表現の類似度を算出する類似度算出処理と、
前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出処理とを実行させ、
前記同義表現抽出処理で、前記算出した類似度に基づいて、同義表現を抽出する処理を
実行させるための同義表現抽出用プログラム。
コンピュータに、
類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換処理を実行させる
請求項１２から請求項１４のうちのいずれか１項に記載の同義表現抽出用プログラム。
コンピュータに、
同義表現抽出処理で、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出する処理を実行させ、
前記抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、前記同義表現を抽出するための類似基準を補正する類似基準補正処理を実行させる
請求項１２から請求項１５のうちのいずれか１項に記載の同義表現抽出用プログラム。