JP5524138B2

JP5524138B2 - 同義語辞書生成装置、その方法、及びプログラム

Info

Publication number: JP5524138B2
Application number: JP2011148198A
Authority: JP
Inventors: 真詞田本; 敏高橋; 理吉岡; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-07-04
Filing date: 2011-07-04
Publication date: 2014-06-18
Anticipated expiration: 2031-07-04
Also published as: JP2013016011A

Description

本発明は、単語同士の同義性を判定し、同義関係にある単語を関連付けて登録し、同義語辞書を生成する同義語辞書生成方法、同義語辞書生成装置、及びそのプログラムに関する。

表記は異なるが同じ意味を持つ単語をまとめた辞書として同義語辞書がある。同義語辞書は、例えば、情報検索において１つの単語を検索語として入力した際に、同義語辞書を用いてその検索語を補完して検索することによって、利用者の意図する情報を簡単に検索できるようにするために使用される。

従来の同義語辞書生成方法として、特許文献１が知られている。なお、特許文献１には、特定の利用者の検索行動に基づいた単語同士の関連度を定義することにより、同義語辞書を生成する同義語辞書生成システムが開示されている。

特開平１１−３１２１６８号公報

従来の同義語辞書作成方法は、文書テキストに基づいて同義語辞書を作成しており、音声認識結果等の音声テキストに基づいて同義語辞書を作成すること想定していなかった。そのため、単語の脱落や挿入や認識誤り等を含む音声テキストに基づいて、複数の単語が同義であるかどうかを判定すると、その精度は悪くなると考えられる。なお、文書テキストとは新聞や雑誌、ｗｅｂ等の元々文書として作成されたテキスト情報を意味し、音声テキストとは、一人の話者による独話（講演やスピーチ等）、二人の話者による対話、３名以上の話者による会話を録音した音声データに対し音声認識を行った結果得られるテキスト情報等を意味し、元々音声に基づき作成されたテキスト情報を意味する。

本発明は、文書テキストだけではなく音声テキストに基づいても、精度の高い同義語辞書を作成することができる同義語辞書生成技術を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、同義語辞書を作成する際に基準となる基準語彙を含む文脈と、基準語彙に関連する関連語彙を含む文脈の類似性を算出し、基準語彙の表記と関連語彙の表記の類似性を算出し、基準語彙の読みと関連語彙の読みの類似性を算出し、基準語彙及び関連語彙が同義語である確からしさを示す同義指標は、その基準語彙の文脈及びその関連語彙の文脈が類似しているほど確からしいことを示し、その基準語彙の表記及びその関連語彙の表記が類似しているほど確からしいことを示し、その基準語彙の読み及びその関連語彙の読みが類似していないほど確からしいことを示すものとし、算出された文脈、表記及び読みの類似性を用いて基準語彙及び関連語彙についての同義指標を求め、その同義指標の大きさに基づき関連語彙が基準語彙の同義語であるか否かを判定する。

本発明に係る同義語辞書生成技術によれば、文書テキストだけではなく音声テキストに基づいても、精度の高い同義語辞書を作成することができるという効果を奏する。

同義語辞書生成装置１１の機能ブロック図。同義語辞書生成装置１１の処理フローを示す図。記憶部２２に記憶されているデータ例を示す図。図４Ａは語彙情報記憶部１６に記憶されているデータ例（基準語彙と関連語彙の組合せ）を示す図、図４Ｂは語彙情報記憶部１６に記憶されているデータ例（語彙情報）を示す図。同義語情報記憶部２１に記憶されているデータ例を示す図。語彙情報記憶部１６に記憶されているデータ例（語彙情報と概念ベクトル）を示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。

＜第一実施形態に係る同義語辞書生成装置１１＞
図１及び図２を用いて、本発明の一実施形態に係る同義語辞書生成装置１１を説明する。同義語辞書生成装置１１は、ＣＰＵ等のプログラム実行手段、メモリやハードディスク記憶装置等の記憶手段、キーボードやマウス等の入力手段、及びモニタ等の表示手段、を含む公知のコンピュータにより構成してもよいし、同様の手段を含む同義語辞書生成用の専用装置として構成してもよい。

同義語辞書生成装置１１は、機能的には、図１に示すように、関連語彙取得部１２、テキスト情報記憶部１３、文脈取得部１４、文脈類似性算出部１５、語彙情報記憶部１６、表記類似性算出部１７、読み類似性算出部１８、品詞類似性算出部１９、同義語判定部２０、同義語情報記憶部２１及び記憶部２２を含んで構成される。

＜処理フロー＞
図２を用いて同義語辞書生成装置１１の処理フローの概要を説明する。同義語辞書生成装置１１は、基準語彙を入力手段または他の装置から取得し（ｓ２０１）、記憶部２２に格納する（図３のｃ０１参照）。なお、語彙とは単語とその意味からなる概念であり、本実施形態では、単語の表記と読みと品詞で語彙を表現する。なお、単語の表記、読み及び品詞を含む情報を語彙情報と呼ぶ。基準語彙とは同義語辞書を作成する際に基準となる語彙であり、同義語辞書において同義語を検索する際の検索対象となる語彙である。言い換えると、同義語辞書を利用するシステムや利用者は、基準語彙をキーとして同義語辞書を検索し、基準語彙の同義語を取得することができる。

関連語彙取得部１２は、記憶部２２から基準語彙を受け取り、その基準語彙に関連する関連語彙を語彙情報記憶部１６から取得し、基準語彙及び関連語彙のそれぞれの表記、読み、品詞を併せて取得し（ｓ２０２）、記憶部２２に格納する（図３のｃ０２、ｃ０３、ｃ０４）。なお、関連語彙とは、基準語彙に関連する語彙であり、言い換えると、基準語彙の同義語の候補である語彙、または、基準語彙と同義語であるか否かを判定される語彙である。例えば、語彙情報記憶部１６に既存の同義語辞書を格納してもよい。その場合、基準語彙とその基準語彙に対する１以上の関連語彙が組合せて格納され（図４Ａ）、さらに、語彙情報記憶部１６には語彙情報が格納されている（図４Ｂ）。

次に、文脈取得部１４は、記憶部２２から基準語彙及び関連語彙を受け取り、テキスト情報記憶部１３から、基準語彙及び関連語彙を含む文脈を取得し（ｓ２０３）、記憶部２２に格納する（図３のｃ０５）。本実施形態において、文脈とは、単語の並びや単語の集合（以下、「単語列」ともいう）を意味し、（Ｉ）音声テキスト、（II）音声テキストから得られる単語の集合、または（III）連語データ（詳細は後述する）等からなる。以下において、基準語彙を含む文脈を基準語彙文脈と、関連語彙を含む文脈を関連語彙文脈という。

次に、文脈類似性算出部１５は、記憶部２２から基準語彙文脈と関連語彙文脈とを受け取り、基準語彙文脈と関連語彙文脈の類似性（以下「文脈類似性」という）を取得し（ｓ２０４）、記憶部２２に格納する（図３のｃ０６）。

さらに、表記類似性算出部１７、読み類似性算出部１８及び品詞類似性算出部１９は、記憶部２２からそれぞれ基準語彙と関連語彙の表記、読み及び品詞を受け取り、表記、読み及び品詞の類似性（それぞれ以下「表記類似性」、「読み類似性」及び「品詞類似性」という）を取得し（ｓ２０６）、記憶部２２に格納する（図３のｃ０７、ｃ０８、ｃ０９）。

同義語判定部２０は、記憶部２２から文脈類似性、表記類似性、読み類似性及び品詞類似性を受け取り、これらの値を用いて、基準語彙及び前記関連語彙についての同義指標を求める（ｓ２０７）。なお、同義指標は、基準語彙及び関連語彙が同義語である確からしさを示す指標であり、その基準語彙の文脈及びその関連語彙の文脈が類似しているほど確からしいことを示し、その基準語彙の表記及びその関連語彙の表記が類似しているほど確からしいことを示し、その基準語彙の読み及びその関連語彙の読みが類似していないほど確からしいことを示す指標である。

さらに同義語判定部２０は、求めた同義指標の大きさに基づき関連語彙が基準語彙の同義語であるか否かを判定する（ｓ２０８）。

同義語ではないと判定した場合、同義語判定部２０は、その処理を終了する。

同義語であると判定した場合、同義語判定部２０は、基準語彙とその関連語彙（以下、この同義語であると判定された関連語彙を「同義語」として扱う）、基準語彙と同義語の語彙情報と、文脈類似性、表記類似性、読み類似性及び品詞類似性とその同義指標を組合せて同義語情報記憶部２１に格納する（ｓ２０９、図５参照）。

同義語辞書生成装置１１は、同義語情報記憶部２１に格納されている情報、または、その一部（少なくとも基準語彙と同義語を含む情報であればよい）を同義語辞書として出力する。

以下、各部の処理内容を説明する。

＜関連語彙取得部１２及び語彙情報記憶部１６＞
関連語彙取得部１２は、基準語彙を用いて、基準語彙の関連語彙を少なくとも一つ語彙情報記憶部１６から取得する。ここで取得される関連語彙は、（１）既存の同義語辞書によるものでもよいし（図４Ａ、図４Ｂ参照）、（２）大量のテキスト情報における共起関係に基づく関連性の高い単語であってもよい。なお、大量のテキスト情報はテキスト情報記憶部１３に記憶されている音声テキストであってもよいし、他の文書テキスト等であってもよい。（２）の場合について説明する。（２）の場合、関連語彙取得部１２には、語彙情報と「概念ベース」が記憶されている（図６、参考文献１参照）。
［参考文献１］特開２００９−２７７０９９号公報

この「概念ベース」は、単語間の類似性を判定し、同概念の単語の検索を目的に、単語とその単語に対応する概念ベクトルとの組からなるデータベースであり、文書を大量に集めたコーパスから作成されるコーパス概念ベースが知られている。なお、所定の単語の「概念ベクトル」は、上記所定の単語が属する範囲（例えば、文）内で、予め決められた複数の共起語のそれぞれと共起する頻度に応じて算出される。コーパス概念ベースにおける共起語として、コーパス中に高頻度で出現する単語が用いられ、各単語を行とし、共起語を列とし、単語と共起語との共起頻度を、行列の成分とする共起行列を作成する。コーパス概念ベースにおいて、特異値分解によって、共起行列の列の次元を圧縮した行列を作成し、この圧縮した行列の各行の行ベクトルが概念ベクトルである。このようにして作成された概念ベースは、単語間の類似性が高い程、単語の概念ベクトル間の距離が近いという性質を持つので、単語間の類似性を判定する場合に有効である。つまり、２つの単語間の概念ベクトルの距離が近い程、上記２つの単語間の類似性が高いと判断できる。

従来技術を用いて、上述の概念ベースを利用に先立ち大量のテキスト情報に基づき構築しておき、語彙情報記憶部１６に記憶しておく。関連語彙取得部１２は、語彙情報記憶部１６から基準語彙の概念ベクトルを取得し、この概念ベクトルと距離が近い概念ベクトルを求める、例えば、コサイン類似度を最大とする概念ベクトルやコサイン類似度が大きい上位数個の概念ベクトルを求め、その概念ベクトルに対応する単語を関連語彙とし、語彙情報と併せて取得する。

例えば、基準語彙「セットトップボックス」の概念ベクトルに基づく類似単語検索から作成される関連語彙のリストは、｛「中断」、「チューナー」、「リモコン」、「ＳＴＢ」、「中の」、・・・｝となる。

＜文脈取得部１４及びテキスト情報記憶部１３＞
テキスト情報記憶部１３には、大量のテキスト情報が記憶されており、文脈取得部１４はテキスト情報記憶部１３から基準語彙文脈と関連語彙文脈を取得する。

テキスト情報記憶部１３は、例えばハードディスク記憶装置を含んで構成され、ネットに接続された複数の音声認識サーバ（図示せず）で生成された（Ｉ）音声テキストを文脈として複数記憶しておく。また文脈として（II）音声テキストから得られる単語の集合を複数記憶しておいてもよい。また、（III）「連語データ」を複数記憶しておいてもよい（参考文献２及び３参照）。
［参考文献２］特開２０１０−１１７７６４号公報
［参考文献３］寺田雄一郎他、「日本語連語データの整備」、福岡大学工学集報、2007年、９月、79号、p.53-57

（II）について説明する。音声テキストからキーワードを人間が抜き出し、その集合を作成してもよい。また、音声テキストに含まれる語彙に係る単語共起確率に基づいて、統計的モデルによって生成される当該語彙を含む単語列（つまり、単語共起確率が高い単語の集合）を文脈として作成してもよい。このような構成とすることで、単語概念的なまとまりを有し、かつ統計的に十分な標本数を有する単語集合を文脈として取得することができる。

（III）について説明する。「連語データ」は、意味上の単位を定義し、語彙を含む文脈の検索を目的に、単語連鎖の性質に注目して、単語見出しとその単語に続く単語列の組からなるデータベースである。所定の単語の「連語データ」は、単語とそれに連なる単語列との間の確率的束縛性（要素単語相互の確率的な共起しやすさ）、語彙的一体性（要素単語間への他の単語の割り込みにくさ）、熟語性（構成性原理の成り立ちにくさ）の程度によって性格づけされる。連語としての性質の有無は、収編者の内省に基づくほかに、統計的特徴量によって判定される。単語連鎖的なまとまりを有し、かつ統計的に十分な標本数を有する単語列を文脈として取得することができる。この態様によれば、基準語彙文脈ないし関連語彙文脈の単語連鎖的なまとまりや標本数をさらに考慮して以下の同義語判定処理において、より精度の高い同義語判定が可能となり、高品質な同義語辞書を生成できる。

また、テキスト情報記憶部１３に記憶される文脈は定期的に追加・更新されるようになっている。

文脈取得部１４は、基準語彙文脈と関連語彙文脈とをテキスト情報記憶部１３から取得する。ここで取得される語彙文脈は、（Ｉ）〜（III）の何れかであれば良い。例えば、（III）の場合は、基準語彙ないし関連語彙を含み、確率的束縛性をあらわす数値のうち、例えば、連接確率が０．９０以上、収束度が０．６０以上の、局所的な単語連鎖系列でもよいし、または、語彙的一体性をあらわす数値のうち、単語割り込み数が１以下の、語彙集合であってもよい。

＜文脈類似性算出部１５＞
文脈類似性算出部１５は、基準語彙文脈と関連語彙文脈との類似性を算出する。例えば、文脈類似性算出部１５は、文脈取得部１４により取得した文脈が音声テキストであるときに所定の形態素解析アルゴリズムを用いて形態素に分割する。また、連語データであるときは、形態素に分割されていることを前提とする。次に、基準語彙文脈と関連語彙文脈各々について類似性を算出する。例えば、基準語彙文脈における全語彙の共起関係と、関連語彙文脈における全語彙の共起関係とに基づいて、文脈類似性を算出する。具体的には、分割された形態素ごとにその概念ベクトルを語彙情報記憶部１６より取得し、各々の形態素同士の単語概念ベクトルのコサイン類似度の総和を正規化して基準語彙文脈と関連語彙文脈との類似性とする。

＜表記類似性算出部１７＞
表記類似性算出部１７は、基準語彙の表記と関連語彙の表記との類似性を算出する。例えば、表記類似性算出部１７は、語彙情報記憶部１６により取得した語彙の表記を１文字ごとに分割する。具体的には、符号化文字や文字コードなどのプログラムないし媒体上で語彙を記述するための最小単位ごとに個別の要素として抽出する。次に、基準語彙と関連語彙の表記の類似性を各々の文字の一致率に基づいて算出する。例えば、基準語彙及び関連語彙を１文字ごとに分割し、生成された符号の列を２つのパターンとみなし、符号を個別の要素とみなして、基準語彙と関連語彙の間の対応付けを行いながら効率的に類似性を計算する方法として動的計画法（Dynamic Programming）によるマッチング（ＤＰマッチング）を用い、正規化された一致率として基準語彙と関連語彙の表記の類似性を算出する。

＜読み類似性算出部１８＞
読み類似性算出部１８は、基準語彙の読みと関連語彙の読みとの類似性を算出する。例えば、読み類似性算出部１８は、語彙情報記憶部１６により取得した語彙の読みを音素単位に分割する。なお、音素は、一般的に母音、撥音、促音を１単位、それ以外を子音と母音の２単位で記述し、音素による読みの記述を音素表記とする。次に、基準語彙と関連語彙の音素表記の類似性を各々の音素の一致率に基づいて算出する。例えば、前記表記類似性算出部１７と同様にＤＰマッチングを用い、一致率を正規化して基準語彙と関連語彙の読みの類似性を算出する。

＜品詞類似性算出部１９＞
品詞類似性算出部１９は、基準語彙の品詞と関連語彙との品詞の類似性を算出する。ここで品詞は、全ての品詞を根とし、大分類から樹状に細分化される意味体系上に位置するものとする（参考文献４参照）。
［参考文献４］白井諭、大山芳史、池原悟、宮崎正弘、横尾昭男、「日本語語彙大系について」、情報処理学会研究報告．ＩＭ、1998年11月、Vol.1998 No.106、p.47-52

例えば、基準語彙と関連語彙の品詞の類似性を各々の品詞の距離に基づいて算出する。品詞体系上で基準語彙と関連語彙の双方の品詞と共通する大分類を基点とし、双方の品詞との階層差の和を品詞の距離と定義する。多義語の場合、もっとも小さな値を採用する。その逆数を正規化して基準語彙と関連語彙の品詞の類似性を算出する。

＜同義語判定部２０及び同義語情報記憶部２１＞
同義語判定部２０は、文脈類似性、表記類似性、読み類似性及び品詞類似性を用いて基準語彙及び関連語彙についての同義指標を求め、その同義指標の大きさに基づき関連語彙が基準語彙の同義語であるか否かを判定する。次に、同義語判定部２０は、基準語彙と、その基準語彙と同義語であると判定された関連語彙とを組合せて出力し、同義語情報記憶部２１に格納する。

例えば、文脈類似性、読み類似性、表記類似性及び品詞類似性は、それぞれについて基準語彙と関連語彙双方の文脈、読み、表記、及び品詞が一致するときに定数値１、全く一致しないときに値０を算出するように正規化し、各々の値に加重して結合した同義指標を求める。

具体的には、文脈類似性、表記類似性及び品詞類似性が大きければ同義指標は大きくなる。一方、読み類似性が大きな際に、表記類似性及び品詞類似性が小さければ誤認識による誤り単語とみなせる。基準語彙と関連語彙の同義指標は、一例として各々の類似性を線形結合した式で表される。
S_vocab(u,v)=S_context(u,v)＋β・S_POS(u,v)+γ・S_describe(u,v)+δ・S_pronounce(u,v)
(0≦S_context(u,v),S_POS(u,v),S_describe(u,v),S_pronounce(u,v)≦1，β≧0，γ＞0，δ＜0) (1)
ここで基準語彙ｕと関連語彙ｖに対し、Ｓ_{ｃｏｎｔｅｘｔ}、Ｓ_ＰＯＳ、Ｓ_{ｄｅｓｃｒｉｂｅ}及びＳ_{ｐｒｏｎｏｕｎｃｅ}は、それぞれ文脈類似性、品詞類似性、表記類似性及び読み類似性を表す。β、γ、δは、重み係数となる。｜β｜、｜γ｜、｜δ｜は１より小さい値が望ましい。

また、他の例として、文脈類似性及び品詞類似性に対し、表記類似性と読み類似性をより強調するために、シグモイド関数を導入した同義指標は、次の式で表される。
S_vocab(u,v)=(S_context(u,v)＋β・S_POS(u,v))×s_α(S_describe(u,v)-S_pronounce(u,v)) (α＞0) (2)
ここでｓ_αは、ゲインαのシグモイド関数である。例えば、αは３．０〜５．０程度の値を取る。

「同義指標の大きさに基づき同義語であるか否かを判定する」とは、例えば、（ｉ）求めた同義指標が閾値κを超えるとき、閾値を越える同義指標に対応する関連語彙を同義語であると判定する、または、（ｉｉ）複数の関連語彙について同義指標を求め、同義指標が最大かつ最大値を除く複数の関連語彙の同義指標に対し、有意に大きいとき、最大値に対応する関連語彙を同義語であると判定する。

式（２）におけるα、β、閾値κの求め方を例示する。βは、文脈類似性に対する品詞類似性の重みであり、同義語関係にある基準語彙と関連語彙、関係のない語彙との間の弁別性能が最大となるように文書集合及び同義関係にある少数の語彙の集まりで構成される学習セットによって値を定める。このとき、同義関係の有無により右辺第一項で定められる境界値を閾値κとする。例えば、右辺第二項を１として重み係数βを変動させ、学習セット内の同義語と同義語以外とを識別する値を精度よく分離できる重み係数βと閾値κを実験的に求める。ついで、αは、関連語彙が誤認識の結果であることが既知の学習セットを使い、誤認識による同義語判定誤りを最小にする値を定める。具体的には、既存の小規模な同義語辞書と同義語を抽出する対象文書として音声の書き起こし文書、及び該音声の音声認識結果の文書を用いる。

次に、基準語彙と、同義語と判定された関連語彙とを同義語辞書に登録する。具体的には、語彙情報記憶部１６から取得された語義情報と、文脈類似性、表記類似性、表記類似性、読み類似性、品詞類似性、及び同義指標を同義語情報記憶部２１に格納する（図５参照）。

同義語辞書生成装置１１の利用者は、必要な量の基準語彙を入力する。そうすると、同義語辞書生成装置１１は、入力された基準語彙に対する同義語を求め、同義語情報記憶部２１に格納しておく。利用者は、記憶された情報を同義語辞書として利用することができる。

＜効果＞
以上説明した同義語辞書生成装置１１によれば、類似する文脈に出現しやすいという同義語の特性と、読みの類似と相反して表記や品詞の類似性が低いという認識誤りの特性を利用することにより、文脈類似性、読み類似性、表記類似性及び品詞類似性とに基づいて、基準語彙と関連語彙が同義語であるかどうかを判定する。このため、単語の脱落や挿入や認識誤り等の影響を受けることなく、音声テキストに基づき、基準語彙と関連語彙とが同義語であるかどうかを精度よく判定し、同義語辞書を生成することができる。

＜その他の変形例＞
本実施形態において、各データのやり取りは記憶部２２を介して行われているが、記憶部２２を介さず各部間で直接データを送受信してもよい。

なお、テキスト情報記憶部１３には、音声テキストではなく、（Ｉ）文書テキスト、（II）文書テキストから得られる単語の集合、（III）文書テキストから得られる「連語データ」を記憶しておいてもよい。文書テキストに基づいても同義語辞書を作成することができる。

本実施形態において、同義語判定処理（ｓ２０８、ｓ２０９）を行う際に、品詞類似性を用いているが、必須ではない。少なくとも文脈類似性、読み類似性及び表記類似性を用いて同義語判定処理を行えばよい。この場合、語彙は、単語の表記と読みにより表現する。このとき、同義語辞書生成装置１１は品詞類似性に係る各部（品詞類似性算出部１９等）を含まずともよく、品詞類似性に係る処理（ｓ２０２、ｓ２０６、ｓ２０７、ｓ２０９において品詞や品詞類似性に係る処理）、データ（語彙情報記憶部１６、同義語情報記憶部２１、記憶部２２に格納されるデータのうち、品詞や品詞類似性に係るデータ）を省くことができる（よって、語彙情報は読み及び表記を含み、品詞を含まない情報とする）。同義語判定部２０では、以下の式により、同義指標を算出する。
S_vocab(u,v)=S_context(u,v)＋γ・S_describe(u,v)+δ・S_pronounce(u,v)
(0≦S_context(u,v),S_describe(u,v),S_pronounce(u,v)≦1，γ＞0，δ＜0) (3)
または
S_vocab(u,v)=S_context(u,v)×s_α(S_describe(u,v)-S_pronounce(u,v)) (α＞0) (4)
なお、上記式は式（１）及び（２）において、Ｓ_ＰＯＳ＝０としたものである。品詞を同義語か否かを判定する材料として用いないため、その精度は若干低下する可能性がある。しかし、表記と読みからのみでも認識誤りの特性を利用することができると考えられるので、ほとんど遜色ない精度を期待でき、演算量等を減らすことができるという効果を奏する。

本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述した同義語辞書生成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置（各種実施例で図に示した機能構成をもつ装置）として機能させるためのプログラム、またはその処理手順（各実施例で示したもの）の各過程をコンピュータに実行させるためのプログラムを、ＣＤ−ＲＯＭ、磁気ディスク、半導体記憶装置等の記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

Claims

同義語辞書を作成する際に基準となる基準語彙を含む文脈と、前記基準語彙に関連する関連語彙を含む文脈の類似性を算出する文脈類似性算出部と、
前記基準語彙の表記と前記関連語彙の表記の類似性を算出する表記類似性算出部と、
前記基準語彙の読みと前記関連語彙の読みの類似性を算出する読み類似性算出部と、
基準語彙及び関連語彙についての同義指標は、その基準語彙とその関連語彙とが同義語である確からしさを示し、その基準語彙の文脈及びその関連語彙の文脈が類似しているほど確からしいことを示し、その基準語彙の表記及びその関連語彙の表記が類似しているほど確からしいことを示し、その基準語彙の読み及びその関連語彙の読みが類似していないほど確からしいことを示すものとし、前記算出された文脈、表記及び読みの類似性を用いて前記基準語彙及び前記関連語彙についての同義指標を求め、その同義指標の大きさに基づき前記関連語彙が前記基準語彙の同義語であるか否かを判定する同義語判定部と、を含む、
同義語辞書生成装置。
請求項１記載の同義語辞書生成装置であって、
文脈、表記及び読みの類似性をそれぞれＳ_{ｃｏｎｔｅｘｔ}（ｕ，ｖ）、Ｓ_{ｄｅｓｃｒｉｂｅ}（ｕ，ｖ）及びＳ_{ｐｒｏｎｏｕｎｃｅ}（ｕ，ｖ）とし、前記同義指標をＳ_{ｖｏｃａｂ}（ｕ，ｖ）とし、ｓ_αは、ゲインαのシグモイド関数とし、前記同義語判定部において、前記同義指標を
S_vocab(u,v)=S_context(u,v)×s_α(S_describe(u,v)-S_pronounce(u,v))
として求める、
同義語辞書生成装置。
請求項１記載の同義語辞書生成装置であって、
前記基準語彙の品詞と前記関連語彙の品詞の類似性を算出する品詞類似性算出部をさらに含み、
文脈、表記、読み及び品詞の類似性をそれぞれＳ_{ｃｏｎｔｅｘｔ}（ｕ，ｖ）、Ｓ_{ｄｅｓｃｒｉｂｅ}（ｕ，ｖ）、Ｓ_{ｐｒｏｎｏｕｎｃｅ}（ｕ，ｖ）及びＳ_ＰＯＳ（ｕ，ｖ）とし、前記同義指標をＳ_{ｖｏｃａｂ}（ｕ，ｖ）とし、ｓ_αは、ゲインαのシグモイド関数とし、βを重み係数とし、前記同義語判定部において、前記同義指標を
S_vocab(u,v)=(S_context(u,v)＋β・S_POS(u,v))×s_α(S_describe(u,v)-S_pronounce(u,v))
として求める、
同義語辞書生成装置。
請求項１から３の何れかに記載の同義語辞書生成装置であって、
前記基準語彙を用いて、その基準語彙に関連する関連語彙を取得する関連語彙取得部と、
大量のテキスト情報が記憶されるテキスト情報記憶部と、
前記テキスト情報記憶部から前記基準語彙を含む文脈と前記関連語彙を含む文脈を取得する文脈取得部と、をさらに含み、
前記同義語判定部は、基準語彙と、その基準語彙と同義語であると判定された関連語彙とを組合せて出力する、
同義語辞書生成装置。
請求項４記載の同義語辞書生成装置であって、
前記基準語彙と、その基準語彙と同義語であると判定された関連語彙と、その基準語彙とその関連語彙の語彙情報と、その基準語彙とその関連語彙との各前記類似性と、前記同義指標とが記憶される同義語情報記憶部をさらに含む、
同義語辞書生成装置。
文脈類似性算出部が、同義語辞書を作成する際に基準となる基準語彙を含む文脈と、前記基準語彙に関連する関連語彙を含む文脈の類似性を算出する文脈類似性算出ステップと、
表記類似性算出部が、前記基準語彙の表記と前記関連語彙の表記の類似性を算出する表記類似性算出ステップと、
読み類似性算出部が、前記基準語彙の読みと前記関連語彙の読みの類似性を算出する読み類似性算出ステップと、
基準語彙及び関連語彙が同義語である確からしさを示す同義指標は、その基準語彙の文脈及びその関連語彙の文脈が類似しているほど確からしいことを示し、その基準語彙の表記及びその関連語彙の表記が類似しているほど確からしいことを示し、その基準語彙の読み及びその関連語彙の読みが類似していないほど確からしいことを示すものとし、同義語判定部が、前記算出された文脈、表記及び読みの類似性を用いて前記基準語彙及び前記関連語彙についての同義指標を求め、その同義指標の大きさに基づき前記関連語彙が前記基準語彙の同義語であるか否かを判定する同義語判定ステップと、を含む、
同義語辞書生成方法。
コンピュータを請求項１から５の何れかに記載の同義語辞書生成装置として機能させるためのプログラム。