WO2012153524A1

WO2012153524A1 - 同義表現判定装置、方法及びプログラム

Info

Publication number: WO2012153524A1
Application number: PCT/JP2012/003023
Authority: WO
Inventors: 立石　健二; 石川　開
Original assignee: 日本電気株式会社
Priority date: 2011-05-10
Filing date: 2012-05-09
Publication date: 2012-11-15
Also published as: SG194709A1; US9262402B2; JPWO2012153524A1; US20140343922A1; JP5234232B2; CN103562907A; CN103562907B

Abstract

　同義表現判定装置は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段と、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算手段とを備えている。

Description

同義表現判定装置、方法及びプログラム

　本発明は、同義表現であるか否かを判定する同義表現判定装置、同義表現判定方法及び同義表現判定プログラムに関する。

　同義表現辞書は、自然文のような構文構造が複雑な問い合わせに対する正確な検索を実現するために必要な言語リソースの一つである。同義表現は通常、検索対象とする文書の分野毎に構築する必要がある。しかし、専門知識のある担当者を長時間確保するためには、多くの人的コストを必要とするため、同義表現辞書を自動構築する技術が求められている。

　ここでは、特に体言と用言との組で表現される二項関係の同義表現の自動抽出に着目する。体言と用言との組で表現される二項関係の同義表現として、例えば、「電源を入れる」と「電源スイッチを投入する」とがある。以下、入力された二項関係を構成する用言を入力用言、入力された二項関係を構成する体言を入力体言と記述する。

　二項関係の同義表現を抽出する技術として、非特許文献１に記載されているように、二項関係の周辺の文脈を特徴量として文書集合から収集し、特徴量が類似する二項関係を同義表現として抽出する方法がある。周辺の文脈として、文書集合における入力用言の係り先の用言や、入力用言の格関係にある入力体言以外の体言を用いる。例えば、「大学を***で卒業し、会社に就職する」という文からは、二項関係「大学を卒業する」の特徴量として、「***で」「就職する」が得られる。

　また、二項関係の同義表現の抽出する別の技術として、入力用言組と入力体言組とを個別に同義関係か否かを判定し、両者が同義と判定された場合には同義表現として抽出する方法がある。これは、非特許文献２に記載されている体言の同義表現を抽出する技術を単純に適用すればよい。非特許文献２では、入力体言と文書集合で二項関係にある用言の出現頻度の分布を入力体言の特徴量として収集し、特徴量が類似する入力体言を同義表現として抽出する技術が記載されている。

柴田知秀, 黒橋禎夫, 文脈に依存した述語の同義関係獲得, 情報処理学会研究報告 2010-NL-199 No.13, 2010 Masato Hagiwara, Yasuhiro Ogawa, Katsuhiko Takeyama, "Supervised Synonym Acquisition Using Distributional Features and Syntactic Patterns", 自然言語処理 Vol.16, No.2, pp.59-83, 2009.

　しかしながら、非特許文献１に記載された方法では、二項関係の同義表現を抽出するための特徴量を十分に得ることが難しい。二項関係が単独で出現する文からは特徴量を取得できないからである。

　また、非特許文献２に記載された方法では、入力用言と入力体言とが多義性を持つ場合には特徴量が類似しないため、同義となる二項関係を判定できない。

　例えば、「電源スイッチを投入する」と「電源を入れる」との同義判定では、「電源スイッチ」と「電源」とが同義であるかを判定する必要がある。このとき、「電源を入れる」と「電源スイッチを投入する」とで決定される「投入する」と「入れる」との語義を語義Ａとする。「投入する」と「入れる」とが語義Ａで使われる際の特徴量（入力用言と二項関係にある体現の出現頻度の分布）は類似する。しかし「投入する」と「入れる」とが語義Ａ以外の語義で使われる場合の特徴量は必ずしも類似しない。したがって、「投入する」と「入れる」との特徴量は類似しないこととなる。「電源スイッチ」と「電源」とについても同様の問題がある。

　そこで、本発明は、入力用言または入力体言が多義性を持つ場合でも、二項関係の同義表現を正しく判定することができる同義表現判定装置、同義表現判定方法及び同義表現判定プログラムを提供することを目的とする。

　本発明による同義表現判定装置は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段と、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算手段とを備えたことを特徴とする。

　本発明による同義表現判定方法は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定し、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いて計算することを特徴とする。

　本発明による同義表現判定プログラムは、コンピュータに、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定処理と、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算処理とを実行させることを特徴とする。

　本発明によれば、入力用言または入力体言が多義性を持つ場合でも、二項関係の同義表現を正しく判定することができる。

本発明による同義表現判定装置の構成例を示す図である。同義表現判定装置が実行する処理例を示す流れ図である。出現頻度記憶部が格納するデータの一例を示す説明図である。概念クラス記憶部が格納するデータの一例を示す説明図である。補正出現頻度記憶部が格納するデータの一例を示す説明図である。用言間類似度計算手段の計算方法の一例を示す図である。体言間類似度計算手段の計算方法の一例を示す図である。同義表現判定装置の最小の構成例を示すブロック図である。

　次に、本発明の実施形態について図面を参照して説明する。図１は、本発明による同義表現判定装置の構成例を示す図である。図１を参照すると、本発明による同義表現判定装置は、プログラム制御により動作するデータ処理装置１と、情報を記憶する記憶装置２と、キーボード等の入力装置３と、ディスプレイ装置等の出力装置４とを含む。

　入力装置３は、ユーザの操作等に従って、２組の二項関係を示すデータをデータ処理装置１に入力する機能を備えている。二項関係とは、用言とその格関係にある体言との組を表す。入力装置３は、２組の二項関係として、例えば「電源‐入れる」を示すデータと、「電源スイッチ‐投入する」を示すデータとをデータ処理装置１に入力する。なお、本実施形態では、入力装置３が２組の二項関係をデータ処理装置１入力する例について説明するが、２組に限らず、３組以上であってもよい。

　出力装置４は、データ処理装置１による処理結果を出力する機能を備えている。例えば、出力装置４は、ディスプレイ装置等の表示装置によって実現され、データ処理装置１による処理結果を表示部に表示する。

　データ処理装置１は、出現頻度計算手段１０と、出現頻度補正手段１１と、用言間類似度計算手段１２と、体言間類似度計算手段１３と、同義判定手段１４とを含む。データ処理装置１は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。

　出現頻度計算手段１０は、文書記憶部２０に格納された文書データ（以下、単に文書と記述する）から二項関係を抽出し、それぞれの出現頻度を計算する機能を備えている。出現頻度計算手段１０は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。

　出現頻度補正手段１１は、文書集合に含まれる用言または体言が、入力用言または入力体言と同一の概念で使用される度合いを、概念クラス記憶部２２を参照して求める機能を備えている。また、出現頻度補正手段１１は、求めた度合いに応じて、文書集合に含まれる二項関係の出現頻度を補正する機能を備えている。出現頻度補正手段１１は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。

　用言間類似度計算手段１２は、入力用言と文書集合で二項関係にある体言の補正した出現頻度または出現頻度の分布を、入力用言の特徴量として定め、入力用言間の特徴量が類似する度合いを計算する機能を備えている。用言間類似度計算手段１２は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。

　体言間類似度計算手段１３は、入力体言と文書集合で二項関係にある用言の補正した出現頻度または出現頻度の分布を、入力体言の特徴量として定め、入力体言間の特徴量が類似する度合いを計算する機能を備えている。体言間類似度計算手段１３は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。

　同義判定手段１４は、用言間の類似度と体言間の類似度とがあらかじめ指定した条件を満たす場合に、入力された２組の二項関係を同義表現として判定し、判定結果を出力装置４に出力する機能を備えている。同義判定手段１４は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。

　記憶装置２は、文書記憶部２０と、出現頻度記憶部２１と、同一クラス所属確率記憶部２２と、補正出現頻度記憶部２３とを含む。記憶装置２は、具体的には、光ディスク装置や磁気ディスク装置等によって実現される。

　文書記憶部２０は、文書集合を格納する。出現頻度記憶部２１は、文書集合に含まれる二項関係の出現頻度を示すデータを格納する。出現頻度を示すデータは、例えば出現頻度計算手段１０によって出現頻度記憶部２１に登録される。

　概念クラス記憶部２２は、用言または体言が所属する概念クラスの種類を示すデータを格納する。これらのデータは、例えば予め人手で定めて概念クラス記憶部２２に登録される。また例えば、統計値等に基づく計算により自動的に概念クラス記憶部２２に登録される。

　補正出現頻度記憶部２３は、二項関係の補正後の出現頻度を示すデータを格納する。これらのデータは、例えば出現頻度補正手段１１によって補正出現頻度記憶部２３に登録される。

　次に、図２を参照して本実施形態の動作について説明する。図２は、同義表現判定装置が実行する処理例を示す流れ図である。ここでは、入力装置３から２組の二項関係として、「電源‐入れる」を示すデータと、「電源スイッチ‐投入する」を示すデータとがデータ処理装置１に入力された場合を例として説明する。

　上記の２組の二項関係を示すデータが入力装置３から入力されると、出現頻度計算手段１０は、文書記憶部２０に格納された文書から二項関係を抽出し、それぞれの出現頻度を計算する（図２のステップＳ１）。二項関係とは、用言とその格関係にある体言との組を表す。

　ステップＳ１において出現頻度計算手段１０は、文書に含まれる二項関係を、例えば、CaboChaのような形態素解析/構文解析ツールを用いて抽出する。CaboChaについては、文献(http://chasen.org/~taku/software/cabocha/)に記載されている。

　出現頻度計算手段１０は、形態素解析ツールを用いて、文を単語に分割し、各単語に品詞を付与する。例えば、「電源スイッチを投入する」という文を形態素解析すると、「電源[名詞-一般]/スイッチ[名詞-一般]/を[助詞-格助詞]/投入[名詞-サ変接続/する[動詞-自立]」を形態素解析結果として出力する。次いで出現頻度計算手段１０は、構文解析ツールを用いて、形態素解析結果を文節に纏め上げ、文節間の係り受け関係を付与する。上記の形態素解析結果は、(1){電源/スイッチ/を}(2){投入/する}という二つの文節に纏め上げられ、(1)の文節と(2)の文節との間に、(1)を係り元とし、(2)を係り先とする係り受け関係が付与される。

　この形態素解析/構文解析の結果を用いて、出現頻度計算手段１０は、二項関係を次のような方法で抽出する。まず、出現頻度計算手段１０は、用言の文節を検出する。用言の文節は、文節の先頭の形態素が「動詞-自立」「名詞-形容動詞語幹」「名詞-サ変接続」である文節とする。

　次に、出現頻度計算手段１０は、用言の文節の係り元の文節が、用言の文節と格関係にある体言の文節かを判定する。体言の文節は、文節の先頭の形態素が「名詞-一般」「名詞-サ変接続」「名詞-形容動詞語幹」である文節とする。用言の文節と格関係にあるかは、体言の文節の最後の形態素が「助詞-格助詞」「助詞-係助詞」であるかで判断する。

　最後に、出現頻度計算手段１０は、体言の文節の単語連続から用言と格関係にある助詞を取り除いたものを体言、用言の文節の単語連続を用言として認定する。上記の例では「電源スイッチ-投入する」が得られる。

　なお、用言と格関係にある助詞を体言に含めても良い。この場合「電源スイッチを-投入する」が得られる。助詞を含めることで、助詞の違いによる二項関係の意味の違いを区別できるようになる。その一方で、出現頻度が分散するというデメリットもある。

　出現頻度計算手段１０は、抽出した二項関係の出現頻度を計算し、計算結果を出現頻度記憶部２１に格納する。図３に出現頻度記憶部に格納するデータの一例を示す。図３に示す例では、縦軸が体言を、横軸が用言を、表の値が二項関係の出現頻度を表す。例えば、「電源スイッチ-投入する」の出現頻度は10である。

　次に、出現頻度補正手段１１は、文書集合に含まれる用言または体言が、入力用言または入力体言と同一の概念で使用される度合いを、概念クラス記憶部２２を参照して求める。そして、出現頻度補正手段１１は、求めた度合いに応じて文書集合に含まれる二項関係の出現頻度を補正する（図２のステップＳ２）。

　概念クラス記憶部２２は、用言または体言が所属する概念クラスの種類を示すデータを格納する。これらの値は事前に格納しておく。確率の値は人手で定めても良いし、または、計算により自動的に定めても良い。以下、自動的に定める一つの方法を説明する。

　体言が所属する概念クラスの種類は、例えばGMM(多次元正規分布)のような確率的クラスタリングを用いて決定する。GMMについては、例えば文献(http://convexbrain.sourceforge.jp/cgi-bin/wifky.pl?p=GMM)に記載されている。なお、確率的クラスタリングにはGMM以外も様々な方式があり、例えばPLSI(Thomas Hofmann,Probabilistic latent semantic indexing,Proceedings of the 22nd annual international ACM SIGIR conference on Reserch and development in information retrieval (SIGIR1999),pp.50-57,1999.)を用いてもよい。

　GMMを用いた確率的クラスタリングでは、事前に概念クラスの数Kを指定することを前提とし、各概念クラスa(1<=a<=K)は一つの多次元正規分布を持つ。体言Nは、用言の種類数を次元数とするベクトルデータで表現し、各次元の値には、体言Nのその係り先の用言の出現頻度を与える。したがって、多次元正規分布の次元も用言Vの種類数となる。

　図４の(a)は概念クラス記憶部２２における体言が所属する概念クラスの格納例を示す。概念クラスは、a1-a5の5つとしている。体言が所属する概念クラスは確率P(a|N)で与えられている。

　用言が所属する概念クラスの種類についても、同様の計算方法で求められる。図４の(b)に概念クラス記憶部２２における用言が所属する概念クラスの格納例を示す。概念クラスは、b1-b5の5つとしている。用言が所属する概念クラスは確率で与えられている。

　出現頻度補正手段１１は、文書集合に含まれる用言または体言が、入力用言または入力体言と同一の概念で使用される度合いを、概念クラス記憶部２２を参照して求める。まず、出現頻度補正手段１１は、文書集合に含まれる体言Nが入力体言INと同一概念で使用される度合いCS(N,IN)を、下記の式（１）を用いて求める。

CS(N,IN) = Σa min{ P(a|N), P(a|IN) }　　　式（１）

　ここでは、aは概念クラスを表す。また、P(a|N)はNがaに所属する確率を表す。ここで、入力体言がIN1とIN2との2つ存在するため、出現頻度補正手段１１は、文書集合に含まれる体言Nが入力体言IN1,IN2と同一概念で使用される度合いCS(N,IN1,IN2)を、下記の式（２）を用いて求める。

CS(N, IN1, IN2) = Max{ CN(N,IN1), CN(N,IN2) }　　　式（２）

　今回の例では、入力体言は「電源」「電源スイッチ」である。また、文書集合に含まれる体言は、図３から「電源」「電源スイッチ」「ボタン」「学校」「大学」である。これらからCSを求めると、以下に示すようになる。

CS(電源,電源,電源スイッチ) = Max{CN(電源,電源), CN(電源,電源スイッチ) }=1.0
CS(電源スイッチ,電源スイッチ) = 1.0
CS(ボタン,電源,電源スイッチ) = 0.6
CS(学校,電源,電源スイッチ) = 0.1
CS(大学,電源,電源スイッチ) = 0.1

　同様に、出現頻度補正手段１１は、文書集合に含まれる用言Pが入力用言IP1,IP2と同一概念で使用される度合いも、下記の式（３）（４）を用いて求める。

CS(P, IP1, IP2) = Max{ CN(P,IP1), CN(P,IP2) }　　　式（３）
CS(P, IP) = Σb min{ P(P,b), P(IP,b) }　　　式（４）

　今回の例では、入力用言は「入れる」「投入する」である。また、文書集合に含まれる用言は、図３から「投入する」「入れる」「付ける」「落ちる」「安定する」である。これらからCSを求めると、以下に示すようになる。

CS(投入する, 入れる, 投入する) = 1.0
CS(入れる, 入れる, 投入する) = 1.0
CS(付ける, 入れる, 投入する) = 0.7
CS(落ちる, 入れる, 投入する) = 0.2
CS(安定する, 入れる, 投入する) = 0.2

　なお、CSの計算方法は上記に限定されるものではない。例えば、2つの体言または用言で共通する概念クラスの数をCSとする方法もあれば、2つの体言または用言で最も確率値の高い概念クラスが共通する場合にはCS=1とし、それ以外の場合にはCS=0とする方法もある。

　次に、出現頻度補正手段１１は、出現頻度記憶部２１に格納されたそれぞれの二項関係の出現頻度を上記で求めたCSを用いて補正する。二項関係の用言に着目した補正と体言に着目した補正とがあり、前者には上記のCS(P, IP1, IP2)を用い、後者にはCS(N, NP1, NP2)を用いる。補正の方法としては、例えば、CSの値があらかじめ設定した閾値未満であれば0にする方法がある。図５の(a)は二項関係の体言に着目して閾値を0.6に設定し出現頻度を補正した補正出現頻度記憶部２３の格納例を示す。同様に、図５の(b)は二項関係の用言に注目して閾値を0.6に設定し出現頻度を補正した結果を示す。なお、補正の方法としては、CSの値を出現頻度に乗ずる方法もある。

　次に、用言間類似度計算手段１２は、入力用言と文書集合で二項関係にある体言の補正した出現頻度または出現頻度の分布を、入力用言の特徴量として定め、入力用言間の特徴量が類似する度合いを計算する。また、体言間類似度計算手段１３は、入力体言と文書集合で二項関係にある用言の補正した出現頻度または出現頻度の分布を、入力体言の特徴量として定め、入力体言間の特徴量が類似する度合いを計算する(図２のステップＳ３)。なお、用言間類似度計算手段１２と、体言間類似度計算手段１３とが実行する処理の順序はどちらが先でも良い。

　用言間類似度計算手段１２は、まず、入力用言と文書集合で二項関係にある体言の補正した出現頻度または出現頻度の分布を、入力用言の特徴量として定める。例えば、入力用言をV1とV2としたとき、用言間類似度計算手段１２は、入力用言の特徴量として、例えば、{P(V1|n)|n∈N}、及び、{P(n|V2)|n∈N}として定める。ここで、P(V1|n)とP(n|V2)とは、V1またはV2と二項関係にある体言の補正した出現頻度を正規化した値(ここでは確率)を表す。また、nは全体集合Nから選択した任意の体言を表す。補正した出現頻度とは、出現頻度補正手段１１において体言に着目して補正した出現頻度を表す。

　次いで用言間類似度計算手段１２は、用言間の特徴量が類似する度合いScore(V1,V2)を計算する。具体的には、下記の式（５）を用いて計算する。

Score(V1,V2) = P(V1|V2) = Σn∈N P(V1|n)×P(n|V2)　　　式（５）

　Scoreの計算方法は上記の式（５）を用いる方法に限られない。例えば、入力された二項関係の用言の特徴量を{f(V1,n)|n∈N}、及び、{f(V2,n)|n∈N}を用いて、Cosine類似度を用いてScoreを計算しても良い。ここでf(V1,n)とf(V2,n)とは、V1またはV2が一致する二項関係の補正後の出現頻度を表す。

　図６の提案方式の列は、補正後の出現頻度を用いて、Score(V1,V2)=P(投入する|入れる)を計算した結果を示す。図６に示す例では、Score(V1,V2)=0.263となる。

　体言間類似度計算手段１３も、用言間類似度計算手段１２と同様の方式で入力体言間の特徴量が類似する度合いを求める。二項関係を構成する体言をN1とN2としたとき、P(N1|v)とP(v|N2)とは、N1またはN2と二項関係にある用言の補正した出現頻度を正規化した値(ここでは確率)を表す。また、vは全体集合Vから選択した任意の用言を表す。

　体言間類似度計算手段１３は、用言間の特徴量が類似する度合いScore(N1,N2)を計算する。具体的には、下記の式（６）を用いて計算する。

Score(N1,N2) = P(N1|N2) = Σv∈V P(N1|v)×P(v|N2)　　　式（６）

　図７の提案方式の列は、補正後の出現頻度を用いて、Score(N1,N2)=P(電源スイッチ|電源)を計算した結果を示す。図７に示す例では、Score(N1,N2)=0.276となる。

　次に同義判定手段１４は、用言間の類似度と体言間の類似度とがあらかじめ指定した条件を満たす場合に、２組の入力された二項関係を同義表現として判定し、判定結果を出力装置４に出力する（図２のステップＳ４）。

　あらかじめ指定した条件とは、例えば用言間の類似度と体言間の類似度との積が指定した値以上であるとする。この場合、Score(V1,V2)×Score(N1,N2) = 0.263×0.274 = 0.072になる。その他として、類似度の積とする代わりに類似度の和や平均とする方法、用言間の類似度と体言間の類似度とのどちらもが指定した値以上であることを条件とする方法、があり、適用する方法は限定されない。

　なお、本実施の形態では、入力装置３と出力装置４とは、人間とコンピュータとのインターフェースとして用いられているが、他の装置やシステムから入力を受け取り、その装置等へ判定結果を出力するという使い方でも良い。この場合、同義判定手段１４は類似度の積等をそのまま出力しても良い。また例えば、同義判定手段１４を用いずに、用言間類似度計算手段１２と体言間類似度計算手段１３との計算結果をそのまま出力してもよい。

　次に、本実施形態の効果について説明する。本実施形態では、入力用言または入力体言が多義性を持つ場合でも、二項関係の同義表現を正しく判定できる。これは、入力用言間の類似度を計算する際に入力体言と同種の概念で用いられている用言のみの出現頻度の分布を特徴量として用いるためである。また、入力体言間の類似度を計算する際に入力用言と同種の概念で用いられている用言のみの出現頻度の分布を特徴量として用いるためである。

　入力体言との関係で決定される入力用言の語義を語義Ａとする。入力体言と同種の概念を持つ体言のみの出現頻度の分布を特徴量として用いることは、語義Ａで使われる入力用言と二項関係にある体言の出現頻度の分布を特徴量として用いることを意味する。そのため、同義表現となる入力用言間の特徴量は類似することになる。

　例えば、「電源を入れる」と「電源スイッチを投入する」とで決定される「投入する」と「入れる」との語義を語義Ａとする。入力体言と同種の概念を持つ体言のみの出現頻度を特徴量として用いることは、語義Ａで使われる「投入する」と「入れる」と二項関係にある体言の出現頻度の分布を特徴量として用いることを意味する。「［電源ｏｒ電源スイッチと同種の概念を持つ体言］を投入する」と「［電源ｏｒ電源スイッチと同種の概念を持つ体言］を入れる」とで決定される「投入する」と「入れる」との語義も語義Ａであると考えられるためである。その結果、「投入する」と「入れる」との特徴量は類似することになる。

　同様に、入力用言との関係で決定される入力体言の語義を語義Ｂとする。入力用言と同種の概念を持つ用言のみの出現頻度の分布を特徴量として用いることは、語義Ｂで使われる入力体言と二項関係にある用言の出現頻度の分布を特徴量として用いることを意味する。そのため、同義表現となる入力体言間の特徴量は類似することになる。

　図６と図７とは、それぞれ入力体言間の類似度と入力用言間の類似度とを、非特許文献２に記載された方式で計算した値と提案方式で計算した値（すなわち、本実施形態で計算した値）との比較である。非特許文献２に記載された方式を用いた場合には、入力体言間の類似度が0.192、入力用言間の類似度が0.2、両者の積が0.038である。一方、提案方式を用いた場合には、入力体言間の類似度が0.263、入力用言間の類似度が0.276、両者の積が0.072である。このことからも、多義性を持つ入力用言または入力体言においても、提案方式は正しく同義判定できることがわかる。

　以上に説明したように、本発明による同義表現判定装置は、体言と用言とから構成される二項関係の組を入力し、それらが同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義表現判定装置に関し、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いること、及び、入力体言間の類似度を、入力体言と文書集合において二項関係にある用言の出現頻度の分布に基づいて計算する際に、入力用言と同種の概念で用いられている用言のみの分布を用いることを特徴とする。

　次に、本発明による同義表現判定装置の最小構成について説明する。図８は、同義表現判定装置の最小の構成例を示すブロック図である。図８に示すように、同義表現判定装置は、最小の構成要素として、同義判定手段１４と、用言間類似度計算手段１２とを含む。

　図８に示す最小構成の同義表現判定装置では、同義判定手段１４は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する。また、用言間類似度計算手段１２は、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いる。

　従って、最小構成の同義表現判定装置によれば、入力用言または入力体言が多義性を持つ場合でも、二項関係の同義表現を正しく判定できる。

　なお、本実施形態では、以下の（１）～（５）に示すような同義表現判定装置の特徴的構成が示されている。

　（１）同義表現判定装置は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段（例えば、同義判定手段１４によって実現される）と、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算手段（例えば、用言間類似度計算手段１２によって実現される）とを備えたことを特徴とする。

　（２）同義表現判定装置は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段と（例えば、同義判定手段１４によって実現される）、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算手段（例えば、用言間類似度計算手段１２によって実現される）と、入力体言間の類似度を、入力体言と文書集合において二項関係にある用言の出現頻度の分布に基づいて計算する際に、入力用言と同種の概念で用いられている用言のみの分布を用いて計算する体言間類似度計算手段（例えば、体言間類似度計算手段１３によって実現される）とを備えたことを特徴とする。

　（３）同義表現判定装置は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段（例えば、同義判定手段１４によって実現される）と、用言または体言が所属する概念クラスの種類を格納した概念クラス記憶手段（例えば、概念クラス記憶部２２によって実現される）と、文書集合に含まれる用言または体言が、入力用言または入力体言と同一の概念で使用される度合いを概念クラス記憶手段が格納する概念クラスの種類を参照して求め、文書集合に含まれる二項関係の出現頻度を度合いに応じて補正する出現頻度補正手段（例えば、出現頻度補正手段１１によって実現される）と、入力用言と文書集合で二項関係にある体言の補正した出現頻度または出現頻度の分布を、入力用言の特徴量として定め、入力用言間の特徴量が類似する度合いを計算する用言間類似度計算手段（例えば、用言間類似度計算手段１２によって実現される）と、入力体言と文書集合で二項関係にある用言の補正した出現頻度または出現頻度の分布を、入力体言の特徴量として定め、入力体言間の特徴量が類似する度合いを計算する体言間類似度計算手段（例えば、体言間類似度計算手段１３によって実現される）とを備えたことを特徴とする。

　（４）同義表現判定装置において、二項関係を構成する体言に、用言と格関係にある助詞も含めるように構成されていてもよい。

　（５）同義表現判定装置において、同義判定手段は、入力体言間の類似度と入力用言間の類似度とがあらかじめ定められた条件を満たす場合に、入力した二項関係の組が同義であると判定するように構成されていてもよい。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。例えば、実施形態に示した全構成要素から一部の構成要素を削除してもよい。また、他の構成要素を組み合わせてもよい。

　この出願は、２０１１年５月１０日に出願された日本特許出願２０１１－１０５５８９を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、例えば、自然文のような構文構造が複雑な問い合わせに対する正確な検索を実現する用途に適用可能である。

　１　データ処理装置
　２　記憶装置
　３　入力装置
　４　出力装置
　１０　出現頻度計算手段
　１１　出現頻度補正手段
　１２　用言間類似度計算手段
　１３　体言間類似度計算手段
　１４　同義判定手段
　２０　文書記憶部
　２１　出現頻度記憶部
　２２　概念クラス記憶部
　２３　補正出現頻度記憶部

Claims

　体言と用言とから構成される二項関係の組を入力し、入力した前記二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段と、
　前記入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、前記入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算手段とを
　備えたことを特徴とする同義表現判定装置。
　体言と用言とから構成される二項関係の組を入力し、入力した前記二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段と、
　前記入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、前記入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算手段と、
　前記入力体言間の類似度を、入力体言と文書集合において二項関係にある用言の出現頻度の分布に基づいて計算する際に、前記入力用言と同種の概念で用いられている用言のみの分布を用いて計算する体言間類似度計算手段とを
　備えたことを特徴とする同義表現判定装置。
　体言と用言とから構成される二項関係の組を入力し、入力した前記二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段と、
　用言または体言が所属する概念クラスの種類を格納した概念クラス記憶手段と、
　文書集合に含まれる用言または体言が、入力用言または入力体言と同一の概念で使用される度合いを前記概念クラス記憶手段が格納する概念クラスの種類を参照して求め、前記文書集合に含まれる二項関係の出現頻度を前記度合いに応じて補正する出現頻度補正手段と、
　前記入力用言と前記文書集合で二項関係にある体言の補正した出現頻度または出現頻度の分布を、前記入力用言の特徴量として定め、前記入力用言間の特徴量が類似する度合いを計算する用言間類似度計算手段と、
　前記入力体言と前記文書集合で二項関係にある用言の補正した出現頻度または出現頻度の分布を、前記入力体言の特徴量として定め、前記入力体言間の特徴量が類似する度合いを計算する体言間類似度計算手段とを
　備えたことを特徴とする同義表現判定装置。
　二項関係を構成する体言に、用言と格関係にある助詞も含める
　請求項１から請求項３のうちのいずれか１項に記載の同義表現判定装置。
　同義判定手段は、入力体言間の類似度と入力用言間の類似度とがあらかじめ定められた条件を満たす場合に、入力した二項関係の組が同義であると判定する
　請求項１から請求項４のうちのいずれか１項に記載の同義表現判定装置。
　体言と用言とから構成される二項関係の組を入力し、入力した前記二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定し、
　前記入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、前記入力体言と同種の概念で用いられている体言のみの分布を用いて計算する
　ことを特徴とする同義表現判定方法。
　コンピュータに、
　体言と用言とから構成される二項関係の組を入力し、入力した前記二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定処理と、
　前記入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、前記入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算処理とを
　実行させるための同義表現判定プログラム。