JP6476638B2

JP6476638B2 - 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム

Info

Publication number: JP6476638B2
Application number: JP2014159224A
Authority: JP
Inventors: 英司平尾
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-08-05
Filing date: 2014-08-05
Publication date: 2019-03-06
Anticipated expiration: 2034-08-05
Also published as: JP2016038596A

Description

本発明は、文書に固有の用語に関する用語集の作成を支援する固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラムに関する。

近年、自然言語で記述された文書を分析して、文書に固有な用語に関する用語集の作成を支援する用語集作成支援装置が開発されている。

用語を抽出する技術の一例が、特許文献１に開示されている。

特許文献１の用語抽出装置は、文書入力部と、形態素解析部と、用語抽出部と、単語辞書と、接続表と、抽出パターンルール格納部とを有する。単語辞書は、単語の表記と品詞とを保持する。接続表は、品詞間の接続の可否を保持する。抽出パターンルール格納部は、形態素解析における誤り結果として頻出するパターンが登録された記述用語パターンルールを保持する。

特許文献１の用語抽出装置は、以下のように動作する。文書入力部は、文書を入力として受け付ける。形態素解析部は、単語辞書に格納された表記と品詞と、接続表に格納された品詞間の接続の可否とを参照して、入力した文書の形態素解析を行う。用語抽出部は、形態素解析部により形態素解析された文書中の単語の全てについて、記述用語パターンルールを参照して、用語抽出を行う。より詳細には、用語抽出部は、記述用語パターンルールと一致する、形態素解析における誤り結果中の特定の単語の並びを抽出し、同一対象文書あるいは同一対象文書集合中で同じ単語の並びが特定数以上出現したものを用語として抽出する。

上記動作の結果、特許文献１の用語抽出装置は、専門的な分野や特定の組織内でのみ使われる略称のような、辞書に未登録であるため、通常の形態素解析では正しく抽出されない用語を正しく抽出する。

用語及び用語を定義する解説データを抽出する技術の一例が、特許文献２に開示されている。特許文献２の用語集生成装置は、係り受け解析手段と、用語データ抽出手段と、概念データ抽出手段と、学習データベースと、修飾データ抽出手段と、解説データ生成手段と、を有する。学習データベースは、連体修飾節が用語を定義する説明文であるときの特徴を示す学習データを予め保持する。

特許文献２の用語集生成装置は、以下のように動作する。用語データ抽出手段は、テキストデータの形態素解析及び構文解析を行なうことにより、テキストデータ中の文節の係り受け情報を生成する。用語データ抽出手段は、テキストデータから、名詞または名詞句である文字列を用語データとして抽出する。概念データ抽出手段は、係り受け情報と、用語データを言い換える特定の言い換え表現とに基づいて、テキストデータから、用語データの上位概念を示す概念データを抽出する。修飾データ抽出手段は、係り受け情報と学習データとに基づいて、用語データに係る連体修飾節が用語データの定義であるか否かを判断し、定義であると判断した連体修飾節を修飾データとして抽出する。解説データ生成手段は、修飾データに概念データを連結することにより、用語データを定義する解説データを生成する。

上記動作の結果、特許文献２の用語集生成装置は、テキストデータから、用語及び用語を定義する解説データを抽出する。

機能名称を統一された用語に校正する技術の一例が、特許文献３に開示されている。特許文献３の機能名称校正装置は、機能定義格納部と、類似用語登録部と、新規特定用語登録部と、機能名称変換部とを有する。

特許文献３の機能名称校正装置は、以下のように動作する。機能定義格納部は、特定用語及び類似用語を保持する。新規特定用語登録部は、機能名称が特定用語を含まない場合に、機能名称を新たな特定用語として、機能定義格納部に登録する。類似用語登録部は、機能名称が特定用語又は類似用語を一部に含む場合に、機能名称を特定用語又は類似用語に対する類似用語として、機能定義格納部に登録する。機能名称変換部は、類似用語を一部に含む機能名称を、機能定義格納部に格納される対応する類似用語に変換する。

上記動作の結果、特許文献３の機能名称校正装置は、予め作成された、機能名称を含む文書における、特定用語集に登録されていない機能名称を統一された用語に校正する。

用語の同義語を抽出する技術の一例が、特許文献４に開示されている。特許文献４の表記揺れ解析装置は、文書収集手段と、類似文書発見手段と、専門用語抽出手段と、同一表記語抽出手段と、表記違い語対応抽出手段と、対応表構成手段とを有する。

特許文献４の表記揺れ解析装置は、以下のように動作する。類似文書発見手段は、文書収集手段により記憶される電子カルテのうち記述内容が類似する電子カルテを選出する。専門用語抽出手段は、選出した類似する電子カルテの記述に出現する診療に関する単語を抽出する。同一表記語抽出手段は、抽出した各単語のうち、各電子カルテに共通して出現する共通語を特定する。表記違い語対応抽出手段は、抽出された各単語のうちの共通語以外で且つ異なる電子カルテから抽出した単語の組を対象に、各単語の概念が同一であるか（同義語であるか）否かを判定する。対応表構成手段は、同義語と判定された単語の組を対応表形式で出力する。

上記動作の結果、特許文献４の表記揺れ解析装置は、表記が異なるが同義語と推定される単語の組を抽出する。

専門用語を抽出する技術の一例が、特許文献５に開示されている。特許文献５の専門用語抽出システムは、形態素解析部と、複合語抽出部と、専門用語特徴語基抽出部と、専門用語抽出部とを有する。

特許文献５の専門用語抽出システムは、以下のように動作する。形態素解析部は、入力文書の語の単位と品詞とを認定する。複合語抽出部は、文書の形態素解析の結果に含まれる単語列に対して、複合語抽出規則（例：名詞、形容動詞、接辞の連続）に一致する複合語を抽出する。専門用語特徴語基抽出部は、文書における、抽出した複合語を構成する単語である各語基の出現頻度、及び各語基に対する別の語基の平均結合数が、所定の基準に合致する語基を、用語であることを特徴づける用語特徴語基として検出する。専門用語抽出部は、用語特徴語基を主語基に有する複合語を用語として抽出する。所定の基準は、例えば、出現頻度及び平均結合数がそれぞれ所定の閾値以上であることである。

上記動作の結果、特許文献５の専門用語抽出システムは、キーワード入力等の人為的操作を要さず、専門用語を自動的に抽出する。

特開２００２−３４２３２１号公報特許第４０１４１３０号公報特開２０１０−１２２７４５号公報特開２００９−１２８９６８号公報特開平０３−１１６３７４号公報

文書に含まれる用語の２つの候補は、互いに類似する可能性がある。文書に２つの類似する用語の候補が含まれる場合に、一方の候補が他方の候補の表記揺れの語であるか、あるいは一方の候補が他方の候補とは異なる意味を持つ語であるかの判断は困難である。特に、文書が複数の著者の分担により作成された場合には、文書に表記揺れの語が含まれる可能性が高い。

特許文献１の用語抽出装置は、形態素解析における誤り結果中の特定の単語の並びを抽出し、同一対象文書あるいは同一対象文書集合中で同じ単語の並びが特定数以上出現したものを用語として抽出する。ところが、文書に固有の用語には、表記揺れの語が含まれる可能性がある。例えば、「購買リスト」と「購入リスト」の語は、それぞれが異なる意味を持つ文書に固有の用語である可能性があるのと同時に、一方の語が用語で、他方の語が用語の表記揺れの語である可能性がある。そこで、実際には同義な表記揺れなのか、あるいは異なる意味を持つが同義語と紛らわしい語なのかの判断が難しい複数の語が存在する場合に、異なる意味を持つが同義語と紛らわしい語を用語として抽出することが特に重要である。従って、特許文献１の用語抽出装置には、類似する２つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができないという問題がある。

特許文献２の用語集生成装置は、名詞または名詞句となる文字列を解析し、連体修飾節に基づいて、文書に固有の用語を抽出する。ところが、文書に固有の用語には、表記揺れの語が含まれる可能性がある。つまり、特許文献２の用語集生成装置は、用語の表記揺れの語を別の用語として誤って抽出する。従って、特許文献２の用語集生成装置には、類似する２つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができないという問題がある。

特許文献３の機能名称校正装置は、類似用語を含む機能名称を類似用語に校正する。ところが、文書に固有の用語は、別の意味を持つ別の固有の用語に含まれる可能性がある。例えば、機能名称「入力データ変換」の語は、特定用語「変換」の類似用語である「データ変換」の語を含むが、３つの語のそれぞれが異なる意味を持つ用語である可能性がある。この場合、特許文献３の機能名称校正装置は、用語「入力データ変換」を別の用語「データ変換」に誤って構成する。従って、特許文献３の機能名称校正装置には、類似する２つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができないという問題がある。

特許文献４の表記揺れ解析装置は、単語の概念が同一である、別々の電子カルテに含まれる単語の組を同義語の組として抽出する。ところが、文書に固有の用語の組には、一般的な概念が同一又は類似するが、特定の文書においては異なる概念を有する用語の組が含まれる可能性がある。例えば、「購買リスト」と「購入リスト」の語は、一般的な概念が同一又は類似するが、それぞれが異なる概念を持つ用語である可能性がある。この場合、特許文献４の表記揺れ解析装置は、「購買リスト」と「購入リスト」の語の組を同義語の組であると誤って判定する。従って、特許文献４の表記揺れ解析装置には、類似する２つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができないという問題がある。

特許文献５の専門用語抽出システムは、別の語基と結合されることが多い、頻出する用語特徴語基を含む複合語を用語として抽出する。ところが、用語特徴語基を含む異なる複合語は、それぞれが専門用語であるとは限らない。例えば、「リスト」は、別の語基と結合されることが多く、また頻出する語基であるものとする。ところが、「購買リスト」の語は専門用語である一方、「購入リスト」の語は「購買リスト」の表記揺れの語である可能性がある。この場合、特許文献５の専門用語抽出システムは、「購買リスト」と「購入リスト」の両方の語を専門用語であると誤って判定する。従って、特許文献５の専門用語抽出システムには、類似する２つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができないという問題がある。
（発明の目的）
本発明の目的は、文書に固有の用語を含む文書において、類似する２つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができる固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラムを提供することにある。

本発明の固有用語候補抽出装置は、概ね１人の著者により記述された部分に分割された文書に含まれる第１の複合語のうち、文書に固有な用語に関する用語集に未登録の第２の複合語を抽出する未登録語抽出手段と、第２の複合語のうち、用語集に登録済みの用語と文字列又は意味が類似する第３の複合語であって、且つ部分における出現分布が登録済みの用語と類似しない第４の複合語を登録済みの用語の表記揺れの語であると判定する表記揺れ判定手段と、第４の複合語を除く第２の複合語を用語集に登録されるべき用語の候補として抽出する用語候補抽出手段とを備えることを特徴とする。

本発明の固有用語候補抽出方法は、概ね１人の著者により記述された部分に分割された文書に含まれる第１の複合語のうち、文書に固有な用語に関する用語集に未登録の第２の複合語を抽出し、第２の複合語のうち、用語集に登録済みの用語と文字列又は意味が類似する第３の複合語であって、且つ部分における出現分布が登録済みの用語と類似しない第４の複合語を登録済みの用語の表記揺れの語であると判定し、第４の複合語を除く第２の複合語を用語集に登録されるべき用語の候補として抽出することを特徴とする。

本発明の固有用語候補抽出プログラムは、固有用語候補抽出装置が備えるコンピュータにおいて、概ね１人の著者により記述された部分に分割された文書に含まれる第１の複合語のうち、文書に固有な用語に関する用語集に未登録の第２の複合語を抽出する未登録語抽出処理と、第２の複合語のうち、用語集に登録済みの用語と文字列又は意味が類似する第３の複合語であって、且つ部分における出現分布が登録済みの用語と類似しない第４の複合語を登録済みの用語の表記揺れの語であると判定する表記揺れ判定処理と、第４の複合語を除く第２の複合語を用語集に登録されるべき用語の候補として抽出する用語候補抽出処理とをコンピュータに実行させることを特徴とする。

本発明によれば、文書に固有の用語を含む文書において、類似する２つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができるという効果がある。

本発明の第１の実施形態に係る固有用語候補抽出装置の構成の一例を示すブロック図である。本発明の第１の実施形態に係る固有用語候補抽出装置の動作を示すフローチャートである。本発明の第１の実施形態に係る固有用語候補抽出装置の処理の具体例を説明するための図である。本発明の第２の実施形態に係る固有用語候補抽出装置の構成の一例を示すブロック図である。本発明の第２の実施形態に係る固有用語候補抽出装置の動作を示すフローチャートである。本発明の第１の実施形態に係る固有用語候補抽出装置の構成の別の一例を示すブロック図である。文書において推測された複合語の一例を示す図である。文書に関する登録済み用語の一例を示す図である。用語候補語と、類似する登録済み用語の一例を示す図である。用語候補語と、類似する登録済み用語の出現分布の一例を示す図である。用語候補語と、類似する登録済み用語の出現分布の類似度の一例を示す図である。用語集に登録されるべき用語の候補の一例を示す図である。

以下、本発明の実施形態について、図面を参照して詳細に説明する。尚、すべての図面において、同等の構成要素には同じ符号を付し、適宜説明を省略する。
（第１の実施形態）
本実施形態に係る構成について説明する。

図１は、本発明の第１の実施形態に係る固有用語候補抽出装置１００の構成の一例を示すブロック図である。

図１を参照すると、本発明の実施形態に係る固有用語候補抽出装置１００は、未登録語抽出手段１４０、表記揺れ判定手段１５０、用語候補抽出手段１６０、及び用語集１８０を含む。

固有用語候補抽出装置１００は、自然言語で書かれた仕様書などの、文書又は文書群（以下、単に「文書」と言う。）に固有の用語を含む文書に対して、文書内での複合語の使われ方に基づいて、文書に固有の用語である複合語の候補を抽出する。

固有用語候補抽出装置１００の処理対象である複合語の情報は、予め与えられる。複合語は、文書に含まれる各文章において、助詞などを挟まずに直接隣接（以下、単に「隣接」と言う。）する、名詞又は辞書に登録されていない未知語を、全て結合した文字列である。複合語の情報は、複合語が有する文字列の情報と、文書における複合語の出現位置の情報を含む。複合語の出現位置の情報は、文書が任意に分割された際にどの部分に複合語が含まれるかという出現位置を同定可能な情報であればよい。文書は、例えば、１つの文書、ファイル、章、又は節を単位として、部分に分割される。複合語の出現位置の情報は、例えば、複合語が出現する、文書、ファイル、章、節、項、ページ、段落、又は文の識別情報である。なお、複合語の出現位置が文番号で与えられ、文書が節を単位に部分に分割される等、複合語の出現位置と文書の部分とで単位が異なる場合がある。この場合には、複合語の出現位置を文書の部分に対応付ける情報が別途与えられる。また、同一の文字列を有する複合語であっても、文書中の出現位置が異なれば、それぞれの複合語は別の複合語として扱われる。

文書は複数の著者により分担して作成され、各部分の著者が概ね１人であるように文書が部分に分割されるものとする。文書は、個々の文書、ファイル、章、節等を単位に著者毎に分担して作成されることが多い。そのため、分割の単位を分担の単位に近づけることにより、上記の条件は比較的容易に実現される。

用語集１８０は、文書において固有の意味を有し、その定義が関係者により共有されるべき用語の一部を予め保持するデータベース（以下、「用語データベース」とも言う。）である。以下、用語集１８０により保持された用語を「登録済み用語」と言う。登録済み用語は、例えば利用者により、用語集１８０に予め登録される。

未登録語抽出手段１４０は、与えられた複合語のうち、用語集１８０に登録されていない複合語を用語の候補（以下、「用語候補語」と言う。）として抽出する。

表記揺れ判定手段１５０は、登録済み用語と文字列又は意味に関して「類似」する用語候補語であって、且つ文書中の用語と用語候補語との「出現分布」が「類似」する用語候補語を用語の表記揺れの語であると判定する。

「表記揺れ」とは、共通の意味を有するが、異なる文字列を有する複数の複合語間の関係である。登録済み用語と「表記揺れ」の関係にある用語候補語は、登録済み用語の「表記揺れの語」と言う。以下では、表記揺れは、文書が、複数の著者により分担されて作成される場合に発生するものとみなす。つまり、「表記揺れ」の関係にある複合語のそれぞれは、主に１人の著者により記述されるものとみなす。ただし、１人の著者が複数の時期に文書を作成する場合には、時期毎に著者が異なるものとみなしてもよい。また、著者は、添削者、編集者、又は監修者を含んでもよい。

文字列に関する「類似」は、例えば、文字列に関する「類似度」が所定の閾値よりも大きいか否かに基づいて判定される。文字列に関する「類似度」は、２つの文字列間の類似の程度の指標である。文字列に関する「類似度」は、例えば、２つの文字列間の編集距離と負の相関を持つ指標（例えば、編集距離の逆数）である。なお、編集距離とは、一方の文字列を他方の文字列に変換するのに必要な、文字の置換、文字の挿入、又は文字の削除の各操作の最小回数である。

意味に関する「類似」は、例えば、意味に関する「類似度」が所定の閾値よりも大きいか否かに基づいて判定される。意味に関する「類似度」は、２つの単語または複合語間の意味上の類似の程度の指標である。２つの単語間の意味に関する「類似度」は、例えば、２つの単語間の「概念的な距離」と負の相関を持つ指標（例えば、「概念的な距離」の逆数）である。単語間の「概念的な距離」は、例えば、階層的なシソーラスを示す木構造における、２つの単語間を結ぶ枝の数である。２つの複合語間の意味に関する「類似度」は、例えば、２つの複合語間の「概念的な距離」と負の相関を持つ指標（例えば、「概念的な距離」の逆数）である。複合語間の「概念的な距離」は、例えば、一方の複合語に含まれる各単語との「概念的な距離」が最も近い、他方の複合語に含まれる単語との「概念的な距離」の総和である。

文書中の語の「出現分布」は、文書が分割された各部分毎の、語の出現頻度である。語の出現頻度は、例えば、文書の部分毎の語の出現頻度を列挙した「出現頻度ベクトル」により特定される。文書中の、用語候補語及び用語の「出現分布」は、複合語の情報に含まれる、複合語の出現位置の情報に基づいて算出される。

出現分布間の「類似度」は、例えば、２つの出現頻度ベクトルのコサイン類似度、相関係数、ジャッカード係数、若しくはダイス係数等の類似度指標、又は２つの出現頻度ベクトルの差の大きさなどの距離指標と、負の相関を持つ指標（例えば、逆数）などである。なお、類似度は、各出現頻度ベクトルの大きさが一定になるように正規化されてもよい。出現頻度ベクトルの大きさは、例えば、ユークリッド距離である。

多くの場合、表記揺れの関係にある各複合語は、１人の著者により記述される。そのため、著者の異なる部分においては、表記揺れの関係にある複数の複合語は共起しにくい。表記揺れ判定手段１５０による表記揺れの判定は、用語と用語の表記揺れの語との出現分布が大きく異なることを利用する。従って、文書が、各部分が概ね１人の著者により記述された部分に分割された場合に、表記揺れの判定精度は最適化される。

出現分布間の類似度は、出現分布の特徴量間の類似度であってもよい。出現分布の特徴量は、例えば、文書中における出現分布の広がり（例えば、ある複合語が最初に出現した箇所から最後に出現した箇所までの文字数）である。この場合、出現分布の特徴量間の類似度は、例えば、用語と用語候補語での出現分布の広がりの差の大きさの逆数である。この出現分布間の類似度は、表記揺れの判定に利用可能である。その理由は、用語が文書中の広範囲で使用されやすいのに対し、表記揺れの語は特定の著者が担当した部分に記述されるため、表記揺れの語の出現分布の広がりが用語の出現分布の広がりに比べて小さくなりやすいからである。

表記揺れの判定結果は、用語候補語が表記揺れの語であるか否かの判定結果である。あるいは、表記揺れの判定結果は、表記揺れの語である可能性を示す指標（以下、「表記揺れ語可能性度」と言う。）であってもよい。表記揺れの判定結果が表記揺れ語可能性度である場合には、表記揺れ語可能性度を用語候補語が表記揺れの語であるか否かの判定結果に対応付ける基準は、別途与えられる。例えば、表記揺れ語可能性度が、別途与えられた閾値以上である場合に、用語候補語は表記揺れの語であると判定される。

用語候補抽出手段１６０は、表記揺れ判定手段１５０により表記揺れの語と判定されなかった用語候補語を、用語集に登録されるべき用語の候補であると判定して、候補を抽出する。

表記揺れの判定結果が表記揺れの語であるか否かである場合には、用語候補抽出手段１６０は、表記揺れの語ではない用語候補語を用語集に登録されるべき用語の候補であると判定する。一方、表記揺れの推定結果が、表記揺れ語可能性度である場合には、用語候補抽出手段１６０は、別途定義された閾値と表記揺れ語可能性度との比較結果に基づいて、用語候補語が用語集に登録されるべき用語の候補であるか否かを判定する。なお、用語集に登録されるべき用語の候補であるか否かの判定結果は、用語集に登録されるべき用語の候補である可能性を示す指標（以下、「用語可能性度」と言う。）を更に含んでもよい。

なお、用語候補抽出手段１６０は、用語集に登録されるべき用語の候補であると判定した用語の候補を、用語集１８０に登録済み用語として追加してもよい。あるいは、用語候補抽出手段１６０は、用語集に登録されるべき用語の候補であると判定した用語の候補を利用者に提示し、利用者により用語集に登録されるべき用語として選択された用語を用語集１８０に登録済み用語として追加してもよい。

次に、本実施形態に係る固有用語候補抽出装置１００の動作について説明する。

図２は、本発明の第１の実施形態に係る固有用語候補抽出装置１００の動作を示すフローチャートである。なお、図２に示すフローチャート及び以下の説明は一例であり、適宜求める処理に応じて、処理順等を入れ替えたり、処理を戻したり、又は処理を繰り返したりしてもよい。

未登録語抽出手段１４０は、与えられた複合語のうち、用語集１８０に登録されていない複合語を用語候補語として抽出する（ステップＳ４）。

表記揺れ判定手段１５０は、未登録語抽出手段１４０により抽出された用語候補語のうち、用語集１８０に登録済みの用語と文字列又は意味が類似する用語候補語であって、且つ登録済みの用語及び用語候補語の出現分布と出現分布が類似しない用語候補語を、登録済みの用語の表記揺れの語であると判定する（ステップＳ５）。

用語候補抽出手段１６０は、未登録語抽出手段１４０により抽出された用語候補語のうち、表記揺れ判定手段１５０により表記揺れの語と判定された語を除く用語候補語を、用語集に登録されるべき用語の候補であると判定し、候補を抽出する（ステップＳ６）。

なお、固有用語候補抽出装置１００は、上記の処理の全体を繰り返し実行してもよい。

次に、本発明の第１の実施形態に係る固有用語候補抽出装置１００の処理の具体例について説明する。

図３は、本発明の第１の実施形態に係る固有用語候補抽出装置１００の処理の具体例を説明するための図である。

まず、本具体例の説明における前提について説明する。

固有用語候補抽出装置１００の処理対象である文書Ｄは、情報システム構築に関する提案書や仕様書などの、複数の解釈が発生しないように用語集を用意すべき文書である。

文書番号ｄｉ（ｉは自然数を示す。）は、文書Ｄの各部分（例えば、各文書、各ファイル、各章、各節）に対して与えられた番号（例えば、作成日時順に与えられた通し番号）である。本具体例では、予め、文書Ｄは２つの部分に分割され、それぞれに文書番号ｄ１、ｄ２が与えられる。

複合語Ｃは、文書Ｄに含まれる複合語である。複数の複合語のそれぞれを区別する際には、各複合語を「複合語Ｃｉ」（ｉは自然数を示す。）で表す。

登録済み用語Ｔは、文書Ｄに固有な用語のうち、固有用語候補抽出装置１００による処理開始時点において既に用語集に登録された用語である。複数の登録済み用語のそれぞれを区別する際には、各登録済み用語を「登録済み用語Ｔｉ」（ｉは自然数を示す。）で表す。

用語候補語Ｐは、複合語Ｃのうち、固有用語候補抽出装置１００による処理途中における中間的な用語候補語である。複数の用語候補語のそれぞれを区別する際には、各用語候補語を「用語候補語Ｐｉ」（ｉは自然数を示す。）で表す。

用語の候補Ｔａは、固有用語候補抽出装置１００による最終的な処理結果である、用語集に登録されるべき用語の候補である。複数の用語の候補のそれぞれを区別する際には、各用語の候補を「用語の候補Ｔａｉ」（ｉは自然数を示す）で表す。

以上が、本具体例の説明における前提についての説明である。

複合語“入荷金額”、“購買リスト”、“ドライバー管理票”、“システム安全性”が文書Ｄにおける複合語Ｃとして与えられる（図３（ａ））。また、ここでは図示しないが、文書Ｄにおける各複合語の出現位置の情報が別途、与えられる。

用語集１８０は、登録済み用語Ｔを予め保持する。用語集１８０は、例えば、文書Ｄに関する登録済み用語Ｔとして、“購入リスト”、“ドライバー管理簿”、“システム安全性”を予め保持する（図３（ｂ））。

未登録語抽出手段１４０は、用語集１８０に登録されていない複合語Ｃを用語候補語Ｐとして抽出する。複合語“入荷金額”、“購買リスト”、“ドライバー管理票”は、登録済み用語Ｔに含まれないので、用語候補語である。一方、複合語“システム安全性”は、登録済み用語Ｔに含まれるので、用語候補語ではない。

表記揺れ判定手段１５０は、まず、登録済み用語Ｔと文字列又は意味が類似する用語候補語Ｐを、表記揺れの可能性がある語として抽出する。なお、本具体例では、用語候補語Ｐｉと登録済み用語Ｔｉとが類似する文字列を有すると判定されるための基準は、登録済み用語Ｔｉと用語候補語Ｐｉとの編集距離が１以下であることである。つまり、表記揺れ判定手段１５０は、表記揺れの可能性がある用語候補語Ｐｉとして、“購買リスト”、“ドライバー管理票”を抽出する（図３（ｃ）の第１列）。なお、用語候補語Ｐのそれぞれに類似する登録済み用語Ｔｉは、“購入リスト”、“ドライバー管理簿”である（図３（ｄ）の第１列）。

表記揺れ判定手段１５０は、次に、表記揺れの可能性がある用語候補語Ｐｉと用語候補語Ｐｉに類似する登録済み用語Ｔｉとの組のそれぞれについて、文書Ｄに含まれる各部分を示す文書番号ｄｊのそれぞれにおける、用語候補語Ｐｉの出現頻度Ｘｉｊ、及び用語候補語Ｐｉに類似する登録済み用語Ｔｉの出現頻度Ｙｉｊを集計する。表記揺れ判定手段１５０は、出現頻度Ｘｉｊ及び出現頻度Ｙｉｊを、文書Ｄにおける各複合語の出現位置の情報に基づいて集計する。本具体例では、集計結果は以下である。用語候補語“購買リスト”は、文書番号ｄ１を有する部分において２回出現し、文書番号ｄ２を有する部分において８回出現する（図３（ｃ）の第２行）。登録済み用語“購入リスト”は、文書番号ｄ１を有する部分において３回出現し、文書番号ｄ２を有する部分において２回出現する（図３（ｄ）の第２行）。用語候補語“ドライバー管理票”は、文書番号ｄ１を有する部分において３回出現し、文書番号ｄ２を有する部分において出現しない（図３（ｃ）の第３行）。登録済み用語“ドライバー管理簿”は、文書番号ｄ１を有する部分において出現せず、文書番号ｄ２を有する部分において４回出現する（図３（ｄ）の第３行）。

表記揺れ判定手段１５０は、続いて、用語候補語Ｐｉの出現分布Ｘｉと用語候補語Ｐｉに類似する登録済み用語Ｔｉの出現分布Ｙｉとの類似度を算出する。具体的には、固有用語候補抽出装置１００は、例えば、用語候補語Ｐｉ毎、文書番号ｄｊ毎の出現頻度Ｘｉｊの並びを出現頻度ベクトル［Ｘｉ］とみなす。更に、固有用語候補抽出装置１００は、類似する登録済み用語Ｔｉ毎、文書番号ｄｊ毎の出現頻度Ｙｉｊの並びを出現頻度ベクトル［Ｙｉ］とみなす。そして、固有用語候補抽出装置１００は、出現頻度ベクトル［Ｘｉ］と出現頻度ベクトル［Ｙｉ］の類似度を算出する。本具体例では、出現頻度ベクトル間の類似度はコサイン類似度である。

表記揺れ判定手段１５０は、続いて、出現分布間の類似度の値が所定の閾値未満である用語候補語Ｐｉを表記揺れの語であると判定する。本具体例では、閾値は“０．５”である。

用語候補語“購買リスト”の出現頻度ベクトルと、類似する登録済み用語“購入リスト”の出現頻度ベクトルとの間のコサイン類似度は０．７４である（図３（ｅ）の第２行第３列）。ここで、（２×３＋８×２）／ｓｑｒｔ（（２×２＋８×８）（３×３＋２×２））≒０．７４である。なお、ｓｑｒｔ（ｘ）は実数ｘの平方根を表す。類似度“０．７４”は、閾値“０．５”よりも大きいので、用語候補語“購買リスト”は、類似する登録済み用語“購入リスト”の表記揺れの語ではないと判定される（図３（ｅ）の第２行第４列）。

また、用語候補語“ドライバー管理票”の出現頻度ベクトルと、類似する登録済み用語“ドライバー管理簿”の出現頻度ベクトルとの間のコサイン類似度は０である（図３（ｅ）の第３行第３列）。ここで、（３×０＋０×４）／ｓｑｒｔ（（３×３＋０×０）（０×０＋４×４））＝０である。類似度“０”は、閾値“０．５”よりも小さいので、用語候補語“ドライバー管理票”は、類似する登録済み用語“ドライバー管理簿”の表記揺れの語であると判定される（図３（ｅ）の第３行第４列）。

文書の部分毎の複合語の出現分布の類似度に基づいて、一方の複合語が他方の複合語の表記揺れの語であるか否かの推定が可能である理由について説明する。

まず、推定対象である２つの複合語は、文字列及び意味が類似しないならば表記揺れである可能性が低いので、表記揺れではないと推定できる。そこで、以下では、２つの複合語の文字列又は意味が類似する場合について述べる。

（１）２つの複合語が表記揺れである場合
同一の文書に含まれる部分であっても、著者が異なる部分では、同一の意味を意図して表記の揺れのうちの１つの複合語が使用される可能性が高い。そのため、２つの複合語の出現分布の類似度は低い。

（２）２つの複合語が表記揺れではない場合
この場合には、２つの複合語のそれぞれは、文書に固有の用語である。

（ａ）２つの固有の用語の出現分布の類似度が高い場合
２つの固有の用語は文書の同じ部分で共起しやすい固有の用語の対である。２つの固有の用語の文字列又は意味が類似するということは、関連性が近い内容に言及している可能性が高いので、２つの固有の用語は文書の同じ部分で共起しやすい。つまり、この場合は生起しやすい。

（ｂ）２つの固有の用語の出現分布の類似度が低い場合
２つの固有の用語は文書の同じ部分で共起しにくい固有の用語の対である。ところが、２つの固有の用語の文字列又は意味が類似するということは、関連性が近い内容に言及している可能性が高いので、２つの固有の用語は文書の同じ部分で共起しやすいことが期待される。つまり、この場合は生起しにくい。

生起しにくい（２）の（ｂ）の場合を無視することが可能ならば、文字列又は意味が類似する２つの複合語について、出現分布の類似度が低いならば表記揺れであり、出現分布の類似度が高いならば表記揺れではないと推定可能である。

例えば、図３（ｃ）の用語候補語“購買リスト”及び図３（ｄ）の類似する登録済み用語“購入リスト”は文書番号ｄ１およびｄ２において出現している。この場合には、各文書番号の部分の著者が概ね１人であるように文書が部分に分割されているのであるから、文書番号ｄ１とｄ２とで著者が異なる可能性は高く、用語候補語“購買リスト”は類似する登録済み用語“購入リスト”の表記揺れである可能性は低い。

また、例えば、図３（ｃ）の用語候補語“ドライバー管理票”は文書番号ｄ１のみにおいて出現するのに対し、図３（ｄ）の類似する登録済み用語“ドライバー管理簿”は文書番号ｄ２のみにおいて出現している。この場合には、文書番号ｄ１と文書番号ｄ２とでは、著者が異なる可能性は高く、用語候補語“ドライバー管理票”は類似する登録済み用語“ドライバー管理簿”の表記揺れである可能性は高い。

用語候補抽出手段１６０は、表記揺れと判定された用語候補語“ドライバー管理票”を除いた用語候補語を、用語集に登録されるべき用語の候補であると判定する。すなわち、用語候補抽出手段１６０は、用語候補語“入力金額”、“購買リスト”を、用語集に登録されるべき用語の候補であると判定する（図３（ｅ）の第５列）。

以上説明したように、本実施形態の固有用語候補抽出装置１００は、用語集に未登録の複合語のうち、用語集に登録済みの用語と文字列又は意味が類似する複合語であって、且つ登録済みの用語と出現分布が類似しない複合語を、登録済み用語の表記揺れの語であると判定する。固有用語候補抽出装置１００は、表記揺れの語を除いた、用語集に未登録の複合語を、用語集に登録されるべき用語の候補として抽出する。従って、本実施形態の固有用語候補抽出装置１００には、文書において類似する２つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができるという効果がある。
（第２の実施形態）
次に、上述した本発明の第１の実施形態を基本とする、本発明の第２の実施形態について、図面を参照して詳細に説明する。以下の説明において、第１の実施形態と同等の構成要素には同じ符号を付し、適宜説明を省略する。

本実施形態に係る構成について説明する。

図４は、本発明の第２の実施形態に係る固有用語候補抽出装置１０５の構成の一例を示すブロック図である。

本発明の実施形態に係る固有用語候補抽出装置１０５は、文書入力手段１１０、文書解析手段１２０、複合語抽出手段１３０、未登録語抽出手段１４０、表記揺れ判定手段１５０、用語候補抽出手段１６０、出力手段１７０、及び用語集１８０を含む。

固有用語候補抽出装置１０５は、自然言語で書かれた仕様書などの、文書に固有の用語を含む文書に対して、文書内での複合語の使われ方に基づいて、文書に固有の用語である複合語の候補を抽出する。固有用語候補抽出装置１０５は、更に、抽出結果に基づいて、用語集に登録されるべき用語の候補を出力し、ユーザに提示する。

電子機器で固有用語候補抽出装置１０５を構成する場合、固有用語候補抽出装置１０６は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置による処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを有する。そして、データ処理装置は、プログラムを記憶し、且つデータを一時的に記憶するメモリと、メモリに記憶されたプログラムに従ってメモリに記憶されたデータを処理する中央処理装置（ＣＰＵ）とを有する。

この場合、データ処理装置は、文書入力手段１１０の一部、文書解析手段１２０、複合語抽出手段１３０、未登録語抽出手段１４０、表記揺れ判定手段１５０、用語候補抽出手段１６０、用語集１８０の一部、及び出力手段１７０の一部として動作する。また、入力装置は文書入力手段１１０の一部として動作し、補助記憶装置は用語集１８０の一部として動作し、出力装置は出力手段１７０の一部として動作する。

文書入力手段１１０は、文書に固有の用語を含む可能性が有り、用語集への登録が必要な用語が抽出されるべき文書を入力する。

文書解析手段１２０は、文書に含まれる各文章に対して、形態素解析を実行することにより、各文章において使用される全単語の単語情報を抽出する。なお、単語は、名詞、動詞、形容詞など単独で意味をなす自立語に加えて、助詞などの付属語も含む。また、同一の文字列を有する単語であっても、文書中の出現位置が異なれば、それぞれの単語について単語情報の抽出が行われる。また、単語情報は、少なくとも単語が有する文字列と、単語が属する品詞（未知語を含む）と、単語の文書内での出現位置の情報を含む。単語の文書内での出現位置の情報は、単語の出現位置が同定可能な情報であればよい。単語の文書内での出現位置の情報は、例えば、単語が存在する、文書、ファイル、章、節、項、ページ、段落、又は文の識別情報である。

なお、固有用語候補抽出装置１０５は、用語集１８０の代わりに用語データベースを含んでもよい。用語データベースは、用語集１８０に登録された用語がコピーされた用語を保持するデータベースである。

出力手段１７０は、関係者に用語集への登録を促すために、用語候補抽出手段１６０により抽出された用語集に登録されるべき用語の候補を出力する。この際、出力手段１７０は、用語の候補の文書中での出現位置や、用語集に登録されるべき用語の候補と判定した根拠である文書中の用語の候補の出現例などを合わせて出力してもよい。出力形態は、例えば、用語集に登録されるべき用語の候補の表である。あるいは、出力形態は、入力文書において、用語集に登録されるべき用語の候補が色分け、太字による強調、又は文字の拡大などにより示された文書全体であってもよい。「用語可能性度」が出力される場合には、出力形態は、入力文書において、用語集に登録されるべき用語の候補が、用語可能性度に従って色分け、太字による強調、又は単語の文字の大きさなどを変化させるなどにより示された文書全体であってもよい。また、出力手段１７０は、用語の候補毎の用語可能性度を、文書の品質を表す指標として出力してもよい。また、出力手段１７０は、利用者により選択された出力形態により出力してもよい。

また、出力手段１７０は、用語候補抽出手段１６０により判定された用語集に登録されるべき用語の候補を用語集１８０に登録済み用語として追加してもよい。あるいは、出力手段１７０は、利用者により用語集に登録されるべき用語として選択された用語の候補を用語集１８０に登録済み用語として追加してもよい。

次に、本実施形態に係る固有用語候補抽出装置１０５の動作について説明する。

図５は、本発明の第２の実施形態に係る固有用語候補抽出装置１０５の動作を示すフローチャートである。なお、図５に示すフローチャート及び以下の説明は一例であり、適宜求める処理に応じて、処理順等を入れ替えたり、処理を戻したり、又は処理を繰り返したりしてもよい。

文書入力手段１１０は、文書に固有の用語を含む可能性が有り、用語集への登録が必要な用語が分析されるべき文書を入力する（ステップＡ１）。

文書解析手段１２０は、文書に含まれる各文章に対して形態素解析を実行することにより、各文章において使用される全単語の単語情報を出力する（ステップＡ２）。

複合語抽出手段１３０は、文書解析手段１２０により出力された全単語の単語情報に基づいて、隣接する名詞および未知語を全て結合した文字列を複合語として抽出する（ステップＡ３）。

本実施形態におけるステップＡ４、Ａ５、Ａ６は、第１の実施形態におけるステップＡ４、Ａ５、Ａ６と同じである。

出力手段１７０は、関係者に用語集への登録を促すために、用語候補抽出手段１６０により判定された用語集に登録されるべき用語の候補を出力する（ステップＡ７）。

次に、本発明の第２の実施形態に係る固有用語候補抽出装置を含むシステムについて説明する。

図６は、本発明の第２の実施形態に係る固有用語候補抽出装置の構成の別の一例を示すブロック図である。

固有用語候補抽出装置１０６を含む固有用語候補抽出システム３００は、以下のような構成であってもよい。

固有用語候補抽出システム３００は、ＰＣ端末１９０と、サーバ２００とを含む。

ＰＣ端末１９０は、固有用語候補抽出装置１０６、入力装置１９１、及び出力装置１９２を含む。

固有用語候補抽出装置１０６の構成は、用語集１８０、文書入力手段１１０のハードウェアにより実現される機能、及び出力手段１７０のハードウェアにより実現される機能を含まない点を除いて、固有用語候補抽出装置１０５の構成と同じである。固有用語候補抽出装置１０６は、入力装置１９１を介して、文書Ｄの入力を行う。固有用語候補抽出装置１０６は、出力装置１９２を介して、用語の候補Ｔａを利用者に提示する。

サーバ２００は、通信ネットワークを介して固有用語候補抽出装置１０６を含むＰＣ端末１９０に接続される。サーバ２００は、用語集１８０を含む。サーバ２００は、固有用語候補抽出装置１０６からの複合語に関する問い合わせに対して、問い合わせ対象の複合語と同じ用語が登録されているか否か、および複合語と類似する文字列又は意味を有する用語が登録されているか否かとその用語を応答する。入力装置１９１は、文書入力手段１１０の一部として動作する。

出力装置１９２は、出力手段１７０の一部として動作する。

次に、本発明の第２の実施形態に係る固有用語候補抽出装置１０６の処理の具体例について説明する。

固有用語候補抽出装置１０６は、以下のように動作する。

文書入力手段１１０は、入力装置１９１から、文書Ｄを入力する。

文書解析手段１２０は、文書Ｄに含まれる文章毎に形態素解析を実行することにより、文書Ｄに含まれる全ての単語Ｗｉについて、単語が有する文字列及び単語が属する品詞の情報を単語情報として出力する。さらに、文書解析手段１２０は、各単語Ｗｉが含まれる文書が分割された部分の文書番号ｄｊの情報を単語Ｗｉの単語情報に追加する。

さらに複合語抽出手段１３０は、文書Ｄに含まれる全ての単語Ｗの並びから、隣接する名詞および未知語を全て結合した文字列を複合語Ｃとして抽出する。

図７は、文書Ｄに対して生成された複合語Ｃの一例を示す図である。複合語抽出手段１３０は、例えば、文書Ｄに含まれる「期間内で収集された入荷金額を合計した値を入力データとして登録する。」という文に対して、複合語「入荷金額」と「入力データ」を複合語として抽出する。複合語抽出手段１３０は、同様に、例えば、文書Ｄにおける複合語Ｃとして、“入荷個数”、“集積地区”、“ドライバー管理票”、“データ一括選択”、“購買リスト”、“入力データ形式”、“緊急通報条件”、“システム安全性”、“連絡用情報”などの複合語を抽出する。

サーバ２００は、文書Ｄにおいて固有の意味を有する、用語集に登録された登録済み用語Ｔを保持する。登録済み用語Ｔは、例えば利用者により、登録済み用語Ｔの定義と共に用語集１８０に登録される。

図８は、文書Ｄに関する登録済み用語Ｔの一例を示す図である。用語集１８０は、文書Ｄに関する登録済み用語Ｔとして、“集積地区”、“入力データ形式”、“購入リスト”、“ドライバー管理票”、“集荷地区”、“入荷個数”、“緊急通知条件”、“システム安全性”、“システム完全性”、“連絡情報”などの用語を予め保持する。

サーバ２００は、固有用語候補抽出装置１０５からの複合語Ｃに関する問い合わせに対して、複合語Ｃと同じ文字列を有する登録済み用語Ｔが用語集１８０に登録されているか否かを応答する。

未登録語抽出手段１４０は、複合語Ｃが、用語集１８０に登録されているか否か、および複合語Ｃと類似する文字列又は意味を有する用語Ｔが登録されているか否かとその用語の情報をサーバ２００に問い合わせる。

未登録語抽出手段１４０は、用語集１８０に定義済み用語Ｔとして登録されていない複合語Ｃを用語候補語Ｐとして抽出する。例えば、複合語“入荷金額”、“入荷個数”、“入力データ”、“ドライバー管理票”、“データ一括選択”、“購買リスト”、“緊急通報条件”、“連絡用情報”は登録済み用語Ｔに含まれないので、これらの複合語は用語候補語Ｐｉである。一方、例えば、複合語“集積地区”、“入力データ形式”、“システム安全性”は登録済み用語Ｔと一致するので、用語候補語Ｐではない。

表記揺れ判定手段１５０は、まず、登録済み用語Ｔと文字列又は意味が類似する用語候補語Ｐを、表記揺れの可能性がある語として抽出する。

図９は、用語候補語Ｐｉと、類似する登録済み用語Ｔｉの一例を示す図である。なお、図９は、文書Ｄにおいて、複合語Ｃが図７に示されるとおりで、登録済み用語Ｔが図８に示される通りである場合の、用語候補語Ｐｉと、類似する登録済み用語Ｔｉの組を示す。なお、本具体例では、用語候補語Ｐｉと定義済み用語Ｔｉとが類似する文字列を有すると判定されるための基準は、定義済み用語Ｔｉと用語候補Ｐｉの編集距離が１以下であることである。例えば、表記揺れ判定手段１５０は、類似する用語候補を有する用語候補語Ｐｉとして、“入荷個数”、“ドライバー管理票”、“購買リスト”、“緊急通報条件”、“連絡用情報”を抽出する（図９の第１列）。なお、用語候補語Ｐのそれぞれに類似する登録済み用語Ｔｉは、“入庫個数”、“ドライバー管理簿”、“購入リスト”、“緊急通知条件”、“連絡情報”である（図９の第２列）。表記揺れ判定手段１５０は、次に、表記揺れの可能性がある用語候補語Ｐｉと用語候補語Ｐｉに類似する登録済み用語Ｔｉとの組のそれぞれについて、語の出現分布を算出する。ここで、語の出現分布は、文書Ｄに含まれる各部分を示す文書番号ｄｊ（ｊは１から７までの自然数）のそれぞれにおける、用語候補語Ｐｉの出現頻度Ｘｉｊ、及び用語候補語Ｐｉに類似する登録済み用語Ｔｉの出現頻度Ｙｉｊである。

図１０は、用語候補語Ｐｉと、類似する登録済み用語Ｔｉの出現分布の一例を示す図である。なお、図１０は、文書Ｄにおける用語候補語Ｐｉと、類似する類似用語Ｔｉが図９に示される場合の出現分布である。なお、図１０（ａ）は用語候補語Ｐｉの出現分布Ｘを、図１０（ｂ）は用語候補語Ｐｉに類似する登録済み用語Ｔｉの出現分布Ｙを示す。

表記揺れ判定手段１５０は、続いて、用語候補語Ｐｉの出現分布Ｘと用語候補語Ｐｉに類似する登録済み用語Ｔｉの出現分布Ｙとの類似度を算出する。具体的には、表記揺れ判定手段１５０は、例えば、用語候補語Ｐｉ毎の出現頻度Ｘｉｊの並びを出現頻度ベクトル［Ｘｉ］、類似する登録済み用語Ｔｉ毎の出現頻度Ｙｉｊの並びを出現頻度ベクトル［Ｙｉ］とみなす。そして、表記揺れ判定手段１５０は、出現頻度ベクトル［Ｘｉ］と出現頻度ベクトル［Ｙｉ］の類似度を表記揺れ判定情報Ｒｉとして算出する。なお、表記揺れ判定手段１５０は、類似度の算出に際して、各出現頻度ベクトルの大きさが同一になるように正規化を行ってもよい。

表記揺れ判定手段１５０は、用語候補語Ｐｉの出現分布Ｘｉと用語候補語Ｐｉに類似する登録済み用語Ｔｉの出現分布Ｙｉとの類似度を算出する。

図１１は、用語候補語Ｐｉと、類似する登録済み用語Ｔｉの出現分布の類似度の一例を示す図である。なお、出現分布が図１０に示される場合の、用語候補語Ｐｉの出現頻度ベクトル［Ｘｉ］と類似する登録済み用語Ｔｉの出現頻度ベクトル［Ｙｉ］とのコサイン類似度は、「表記揺れ判定情報Ｒｉ」の列に示される。また、閾値が“０．５”である場合の、用語候補語Ｐｉが類似する登録済み用語Ｔｉの表記揺れの語であるか否かの判定結果は、「表記揺れ判定結果」の列に示される。

例えば、用語候補語“購買リスト”の出現頻度ベクトルと、類似する登録済み用語“購入リスト”の出現頻度ベクトルとの間のコサイン類似度は０．６４である。ここで、（２×３＋５×２＋１×６＋６×４＋８×２＋４×３＋２×７）／ｓｑｒｔ（（２×２＋５×５＋１×１＋６×６＋８×８＋４×４＋２×２）（３×３＋２×２＋６×６＋４×４＋２×２＋３×３＋７×７））≒０．６４である。なお、ｓｑｒｔ（ｘ）はｘの平方根を表す。類似度“０．６４”は、閾値“０．５”よりも大きいので、用語候補語“購買リスト”は、類似する登録済み用語“購入リスト”の表記揺れではないことを意味する「Ｎｏ」と判定される。

また、例えば、用語候補語“ドライバー管理票”の出現頻度ベクトルと、類似する登録済み用語“ドライバー管理簿”の出現頻度ベクトルとの間のコサイン類似度は０である。ここで、（３×０＋４×０＋２×０＋８×０＋０×４＋０×５＋０×２）／ｓｑｒｔ（（３×３＋４×４＋２×２＋８×８＋０×０＋０×０＋０×０）（０×０＋０×０＋０×０＋０×０＋４×４＋５×５＋５×２））＝０である。類似度“０”は、閾値“０．５”よりも小さいので、用語候補語“ドライバー管理票”は、類似する登録済み用語“ドライバー管理簿”の表記揺れであることを意味する「Ｙｅｓ」と判定される。

同様に、用語候補語“入荷個数”は類似する登録済み用語“入庫個数”の表記揺れではないと判定される。また、用語候補語“緊急通報条件”は類似する登録済み用語“緊急通知条件”の表記揺れであると判定される。また、用語候補語“連絡用情報”は類似する登録済み用語“連絡情報”の表記揺れであると判定される。

用語候補抽出手段１６０は、表記揺れと推定された複合語を除く用語候補語Ｐｉを、用語集に登録されるべき用語の候補Ｔａｉであると判定する。

図１２は、用語集に登録されるべき用語の候補Ｔａｉの一例を示す図である。なお、用語候補語Ｐｉが表記揺れであるか否かの判定結果が図１１に示される場合の用語集に登録されるべき用語の候補Ｔａｉが示される。未登録語抽出手段１４０により用語候補語Ｐｉとして抽出された語は、“入荷金額”、“入荷個数”、“入力データ”、“ドライバー管理票”、“データ一括選択”、“購買リスト”、“緊急通報条件”、“連絡用情報”である。一方、表記揺れ判定手段１５０により表記揺れの語と判定された語は、“ドライバー管理票”、“緊急通報条件”、“連絡用情報”である。従って、用語候補抽出手段１６０は、“入荷金額”、“入荷個数”、“入力データ”、“データ一括選択”、“購買リスト”を用語集に登録されるべき用語の候補Ｔａｉであると判定する。

さらに、出力手段１７０は、判定した用語の候補Ｔａｉを、用語集に加えるべき用語として利用者に提示する。固有用語候補抽出装置１０５は、例えば、図１２に示すようなリストを提示してもよいし、文書Ｄ内における用語の候補Ｔａｉの出現箇所を特定可能な形態（着色等）で提示してもよい。

以上説明したように、本実施形態の固有用語候補抽出装置１０５は、用語集に未登録の複合語のうち、用語集に登録済みの用語と文字列又は意味が類似する複合語であって、且つ登録済みの用語と出現分布が類似しない複合語を、登録済み用語の表記揺れの語であると判定する。固有用語候補抽出装置１０５は、表記揺れの語を除いた、用語集に未登録の複合語を、用語集に登録されるべき用語の候補として抽出する。従って、本実施形態の固有用語候補抽出装置１０５には、文書において類似する２つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができるという効果がある。

なお、上述した各実施形態に係る固有用語候補抽出装置は、固有用語候補抽出方法として実現され得る。また、上述した各実施形態に係る固有用語候補抽出装置は、固有用語候補抽出プログラムによりコンピュータによって実行させるようにしてもよい。

尚、上述した各実施形態に係る固有用語候補抽出装置は、専用の装置によって実現してもよいが、コンピュータ（情報処理装置）によっても実現可能である。この場合、係るコンピュータは、メモリ（不図示）に格納されたソフトウェア・プログラムをＣＰＵ（Ｃｅｎｔｒａｌ＿Ｐｒｏｃｅｓｓｉｎｇ＿Ｕｎｉｔ、不図示）に読み出し、読み出したソフトウェア・プログラムをＣＰＵにおいて実行することにより、実行結果を、例えば、ユーザ・インタフェースに出力する。上述した各実施形態及び変形例の場合、係るソフトウェア・プログラムには、上述したところの、図１に示した固有用語候補抽出装置１００の各手段、又は図４に示した固有用語候補抽出装置１０５の各手段の機能を実現可能な記述がなされていればよい。但し、固有用語候補抽出装置１０５の場合、文書入力手段１１０、用語集１８０、及び出力手段１７０には、適宜ハードウェアを含むことも想定される。そして、このような場合、係るソフトウェア・プログラム（コンピュータ・プログラム）は、本発明を構成すると捉えることができる。更に、係るソフトウェア・プログラムを格納した、コンピュータ読み取り可能な記憶媒体も、本発明を構成すると捉えることができる。

以上、本発明を、上述した各実施形態およびその変形例によって例示的に説明した。しかしながら、本発明の技術的範囲は、上述した各実施形態およびその変形例に記載した範囲には限定されない。当業者には、係る実施形態に対して多様な変更又は改良を加えることが可能であることは明らかである。そのような場合、係る変更又は改良を加えた新たな実施形態も、本発明の技術的範囲に含まれ得る。そしてこのことは、特許請求の範囲に記載した事項から明らかである。

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
概ね１人の著者により記述された部分に分割された、文書に含まれる第１の複合語のうち、前記文書に固有な用語に関する用語集に未登録の第２の複合語を抽出する未登録語抽出手段と、
前記第２の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第３の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第４の複合語を前記登録済みの用語の表記揺れの語であると判定する表記揺れ判定手段と、
前記第４の複合語を除く前記第２の複合語を前記用語集に登録されるべき用語の候補として抽出する用語候補抽出手段と、
を備えたことを特徴とする固有用語候補抽出装置。
（付記２）
前記表記揺れ判定手段は、前記第２の複合語を表す文字列と前記登録済みの用語を表す文字列との間の第１の距離と負の相関を持つ第１の類似度が第１の閾値より大きい場合に、前記第２の複合語と前記登録済みの用語との文字列が類似すると判定する
付記１に記載の固有用語候補抽出装置。
（付記３）
前記第１の距離は、前記第２の複合語を表す文字列と前記登録済みの用語を表す文字列との間の編集距離である付記２に記載の固有用語候補抽出装置。
（付記４）
前記表記揺れ判定手段は、前記第２の複合語に含まれる第１の構成語と前記登録済みの用語に含まれる第２の構成語との間の第２の距離に基づいて、前記第２の複合語と前記登録済みの用語との第３の距離と負の相関を持つ第２の類似度が第２の閾値より大きい場合に、前記第２の複合語と前記登録済みの用語との意味が類似すると判定する
付記１乃至３のいずれか１項に記載の固有用語候補抽出装置。
（付記５）
前記第２の距離は、単語間の階層関係が木構造を有する単語分類辞書における、前記第２の複合語に含まれる単語と前記登録済みの用語に含まれる単語との間を結ぶ枝の数である付記４に記載の固有用語候補抽出装置。
（付記６）
前記第３の距離は、前記第１の構成語との前記第２の距離が最も近い前記第２の構成語と、前記第１の構成語との前記第２の距離の、前記第２の複合語における前記第１の構成語に関する総和である付記４又は５に記載の固有用語候補抽出装置。
（付記７）
前記出現分布は、前記部分毎に、前記登録済みの用語の出現頻度、または前記第３の複合語の出現頻度を前記文書における前記部分の出現順に列挙した頻度ベクトルであり、
前記登録済みの用語の前記頻度ベクトルと前記第３の複合語の前記頻度ベクトル間の、コサイン類似度、相関係数、ジャッカード係数、若しくはダイス係数である第３の類似度、又は第４の距離と負の相関を持つ第４の類似度が、第３の閾値より大きい場合に、前記出現分布が類似すると判定する付記１乃至６のいずれか１項に記載の固有用語候補抽出装置。
（付記８）
前記第４の距離は、出前記現分布における最初の出現頻度が非０である部分と最後の出現頻度が非０である部分との間の距離である付記７に記載の用語集作成支援システム。
（付記９）
前記文書から、単語辞書を用いて、前記文書中の単語を表す文字列、前記単語が属する品詞、及び前記単語の出現位置を含む単語情報を抽出する文書解析手段と、
前記単語情報に基づいて、前記文書において直接隣接する、名詞又は前記単語辞書に登録されていない未知語が全て結合された文字列を前記第１の複合語として抽出する複合語抽出手段とを更に備え、
前記表記揺れ判定手段は、前記単語情報に基づいて、前記出現分布を算出する
ことを特徴とする付記１乃至８のいずれか１項に記載の固有用語候補抽出装置。
（付記１０）
概ね１人の著者により記述された部分に分割された文書に含まれる第１の複合語のうち、前記文書に固有な用語に関する用語集に未登録の第２の複合語を抽出し、
前記第２の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第３の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第４の複合語を前記登録済みの用語の表記揺れの語であると判定し、
前記第４の複合語を除く前記第２の複合語を前記用語集に登録されるべき用語の候補として抽出する
ことを特徴とする固有用語候補抽出方法。
（付記１１）
固有用語候補抽出装置が備えるコンピュータにおいて、
概ね１人の著者により記述された部分に分割された文書に含まれる第１の複合語のうち、前記文書に固有な用語に関する用語集に未登録の第２の複合語を抽出する未登録語抽出処理と、
前記第２の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第３の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第４の複合語を前記登録済みの用語の表記揺れの語であると判定する表記揺れ判定処理と、
前記第４の複合語を除く前記第２の複合語を前記用語集に登録されるべき用語の候補として抽出する用語候補抽出処理と、
をコンピュータに実行させることを特徴とする固有用語候補抽出プログラム。

本発明は、システム開発における要件定義書や設計書といった案件に固有の定義を有する用語を含む文書に関して、用語集に登録されるべき用語の候補を自動的に抽出し提示する用途において利用できる。これにより、用語集の作成・メンテナンスの負荷が低減され、文書の解釈における誤解が起きる頻度が減少し、円滑なコミュニケーションや顧客満足の向上などのシステム開発の効率化が実現される。

１００固有用語候補抽出装置
１１０文書入力手段
１２０文書解析手段
１３０複合語抽出手段
１４０未登録語抽出手段
１５０表記揺れ判定手段
１６０用語候補抽出手段
１７０出力手段
１８０用語集
１０５、１０６固有用語候補抽出装置
１９０ＰＣ端末
２００サーバ
３００固有用語候補抽出システム

Claims

複数の著者により分担して作成された１つ以上の文書が部分に分割されている前記文書に含まれる第１の複合語のうち、前記文書に固有な用語に関する用語集に未登録な第２の複合語を抽出する未登録語抽出手段と、
前記第２の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第３の複合語であって、且つ前記文書における前記部分毎の出現頻度を表す出現分布が前記登録済みの用語と類似しない第４の複合語を前記登録済みの用語の表記揺れの語であると判定する表記揺れ判定手段と、
前記第４の複合語を除く前記第２の複合語を前記用語集に登録されるべき用語の候補として抽出する用語候補抽出手段と
を備えたことを特徴とする固有用語候補抽出装置。
前記表記揺れ判定手段は、前記第２の複合語を表す文字列と前記登録済みの用語を表す文字列との間の第１の距離と負の相関を持つ第１の類似度が第１の閾値より大きい場合に、前記第２の複合語と前記登録済みの用語との文字列が類似すると判定する
請求項１に記載の固有用語候補抽出装置。
前記第１の距離は、前記第２の複合語を表す文字列と前記登録済みの用語を表す文字列との間の編集距離である
請求項２に記載の固有用語候補抽出装置。
前記表記揺れ判定手段は、前記第２の複合語に含まれる第１の構成語と前記登録済みの用語に含まれる第２の構成語との間の第２の距離に基づいて、前記第２の複合語と前記登録済みの用語との第３の距離と負の相関を持つ第２の類似度が第２の閾値より大きい場合に、前記第２の複合語と前記登録済みの用語との意味が類似すると判定する
請求項１乃至３のいずれか１項に記載の固有用語候補抽出装置。
前記第２の距離は、単語間の階層関係が木構造を有する単語分類辞書における、前記第２の複合語に含まれる単語と前記登録済みの用語に含まれる単語との間を結ぶ枝の数である
請求項４に記載の固有用語候補抽出装置。
前記出現分布は、前記部分毎の、前記登録済みの用語の前記出現頻度、または前記第３の複合語の前記出現頻度を、前記文書における各前記部分の出現順に列挙した頻度ベクトルであり、
前記表記揺れ判定手段は、前記登録済みの用語の前記頻度ベクトルと前記第３の複合語の前記頻度ベクトルとの間の、コサイン類似度、相関係数、ジャッカード係数、若しくはダイス係数である第３の類似度、又は前記登録済みの用語の前記頻度ベクトルと前記第３の複合語の前記頻度ベクトルとの間の第４の距離と負の相関を持つ第４の類似度が、第３の閾値より大きい場合に、前記出現分布が類似すると判定する
請求項１乃至５のいずれか１項に記載の固有用語候補抽出装置。
前記文書から、単語辞書を用いて、前記文書中の単語を表す文字列、前記単語が属する品詞、及び前記単語の出現位置を含む単語情報を抽出する文書解析手段と、
前記単語情報に基づいて、前記文書において直接隣接する、名詞又は前記単語辞書に登録されていない未知語が全て結合された文字列を前記第１の複合語として抽出する複合語抽出手段とを更に備え、
前記表記揺れ判定手段は、前記単語情報に基づいて、前記出現分布を算出する
ことを特徴とする請求項１乃至６のいずれか１項に記載の固有用語候補抽出装置。
固有用語候補抽出装置を制御する方法であって、
複数の著者により分担して作成された１つ以上の文書が部分に分割されている前記文書に含まれる第１の複合語のうち、前記文書に固有な用語に関する用語集に未登録な第２の複合語を抽出し、
前記第２の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第３の複合語であって、且つ前記文書における前記部分毎の出現頻度を表す出現分布が前記登録済みの用語と類似しない第４の複合語を前記登録済みの用語の表記揺れの語であると判定し、
前記第４の複合語を除く前記第２の複合語を前記用語集に登録されるべき用語の候補として抽出する
ことを特徴とする固有用語候補抽出方法。
固有用語候補抽出装置が備えるコンピュータに、
複数の著者により分担して作成された１つ以上の文書が部分に分割されている前記文書に含まれる第１の複合語のうち、前記文書に固有な用語に関する用語集に未登録な第２の複合語を抽出する未登録語抽出処理と、
前記第２の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第３の複合語であって、且つ前記文書における前記部分毎の出現頻度を表す出現分布が前記登録済みの用語と類似しない第４の複合語を前記登録済みの用語の表記揺れの語であると判定する表記揺れ判定処理と、
前記第４の複合語を除く前記第２の複合語を前記用語集に登録されるべき用語の候補として抽出する用語候補抽出処理と
を実行させることを特徴とする固有用語候補抽出プログラム。