JP5137140B2

JP5137140B2 - 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体

Info

Publication number: JP5137140B2
Application number: JP2009024891A
Authority: JP
Inventors: のぞみ小林; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-02-05
Filing date: 2009-02-05
Publication date: 2013-02-06
Anticipated expiration: 2029-02-05
Also published as: JP2010182082A

Description

本発明は、実体を表す表記のうち、入力文章中に出現する出現表記を、実体データベースに登録されている登録表記に対応付け、当該登録表記を含むエントリ（レコード）を同定する技術に関する。本発明は、情報検索システムや情報抽出システムの前処理として利用でき、また、抽出された情報の集約にも使用できる。

まず、本発明で使用する用語の定義について説明する。

「実体」とは、実世界での実在の「モノ」を指すが、本発明では、特に実体に関するデータベースである実体データベース中の「レコード」＝「実体」と捉えるものとする。例えば、図１の例では企業の実体データベース中のレコード「名称：日本電信電話株式会社，ＩＤ：１２３４，住所：東京都....」、「名前：電々太郎，ＩＤ：００１，役職：ＮＴＴ社長」を実体とみなす。

「出現表記」とは、実体を表す表記のうち、入力文章（入力テキスト）中に出現する表記を指す。例えば、図１の例では「ＮＴＴ（株）」、「電々社長」が出現表記である。

「登録表記」とは、実体を表す表記のうち、実体データベースに登録されている表記、通常、各レコードの登録名にあたるものを指す。例えば、図１の例では「日本電信電話株式会社」、「電々太郎」が登録表記である。

「削除表記」とは、出現表記から不要部分を削除した表記を指す。例えば、図１の例では入力文章中の出現表記「ＮＴＴ（株）」、「電々社長」から不要部分「（株）」、「社長」をそれぞれ削除した「ＮＴＴ」、「電々」が削除表記である。

「登録削除表記」とは、登録表記から不要部分を削除した表記を指す。例えば（図示しないが）、登録表記「日本電信電話株式会社」から不要部分「株式会社」を削除した「日本電信電話」が登録削除表記である。

［従来技術］
従来、この種の技術としては、非特許文献１に記載されたものがある。非特許文献１では、本発明でいう「実体データベース」としてｗｉｋｉｐｅｄｉａを選び、各出現表記がｗｉｋｉｐｅｄｉａのどのページに対応するかを同定する問題を解いている。この手法では、入力文章中の出現表記を対象に、予め自動的にｗｉｋｉｐｅｄｉａから作成しておいたｓｕｒｆａｃｅ−ｅｎｔｉｔｙ（出現表記−登録表記）のリストから候補を取得し、前記出現表記の周りに出現した特徴語から対応する実体のＩＤを推定する。

なお、ｗｉｋｉｐｅｄｉａとは、インターネット上で誰でも編集できる巨大な事典であり、人物、場所、作品、会社など、多くの情報についての記述がある。

ＳｉｌｖｉｕＣｕｃｅｒｚａｎ，"Ｌａｒｇｅ−ＳｃａｌｅＮａｍｅｄＥｎｔｉｔｙＤｉｓａｍｂｉｇｕａｔｉｏｎＢａｓｅｄｏｎＷｉｋｉｐｅｄｉａＤａｔａ"，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００７ＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ，２００７，ｐｐ．７０８−７１６

前述した非特許文献１の手法では、予め登録表記と実体との対応リストを網羅的に作成しておく必要があるが、網羅的に用意することは容易でない。また、ｗｉｋｉｐｅｄｉａに載っていない店舗名などに対してその対応リストを網羅的に作成しておくことは非特許文献１の手法ではできないし、人手で作成することも容易ではない。というのは、例えば店舗名「レストランひばりｘｘｘ駅前店」という登録表記とＩＤ（例えば電話番号）「０ｘｘ−ｙｙｙ−ｚｚｚ」との場合、「ひばりｘｘｘ駅前店」→「０ｘｘ−ｙｙｙ−ｚｚｚ」、「ひばり」→「０ｘｘ−ｙｙｙ−ｚｚｚ」など、出現表記として使用される可能性のあるものを全て登録しておかなければならないためである。

＜着眼点＞
基本的に、出現表記は登録表記の一部（例えば、「みずほ銀行」では「みずほ」、「いけや食堂」では「いけや」など）、愛称、英語名であればカタカナ表記などであることが多く、愛称やカタカナ表記に関しては、予め対応表（例えば、「マック」→「マクドナルド」）を用意しておき、辞書引きで対応することができる。一方、出現表記が登録表記の一部である場合、既に良く知られている文字列検索の手法により候補を取得できるが、出現表記に修飾語が付与される（例えば、「カナ」という店舗名に「ビストロ」が付く）ことがあり、登録表記のほうが逆に出現表記の一部になることがある。

そこで、これらの修飾語を不要部分として予め削除し、当該削除された出現表記を含む登録表記を候補とする候補生成手段を導入する。

＜本装置の特徴＞
本装置は、形態素解析及び固有表現抽出処理済みの入力文章と当該処理済みの入力文章から抽出された出現表記のリストとが入力されたときに、出現表記に対して不要部分を削除した削除表記を作成し、この削除表記を含む登録表記を実体データベースから候補として取得する候補生成手段と、当該候補の信頼度を計算して閾値未満であれば棄却する曖昧性解消手段とを備えた、出現表記と実体データベースのレコードとの対応付けを行う装置である。

＜前提とする事項＞
実体データベースは、一のレコード中に登録表記とレコードＩＤとを少なくとも含むもので、予め用意されていると仮定する（例えば、タウンページ、企業データベースなど）（なお、ここでいう「レコードＩＤ」とは、データベースのレコードを一意に識別可能なものであれば何でも良く、必ずしも連番のものである必要はない。）。但し、実体データベース自体が本装置の中でそのまま使用されることはなく、この実体データベースを基に、各種のデータベースが作成されて使用される。

表記中の不要部分を削除するための所定の削除規則（もしくは削除モデル）は、入力文章から抽出された出現表記に対する削除の場合と、実体データベース中の登録表記に対する削除の場合とで同じものを使用するものとする。

入力は出現表記（ここでは固有表現）が同定された文章とする。

本発明によれば、
・候補生成手段により、出現表記−ＩＤの対応リストがなくても出現表記から可能性のある実体のＩＤ集合を生成することができ（従来技術で出来なかった点を本発明で解決した）、
・さらに、候補生成手段を導入することで、データベースに登録されている実体が、どういう表記で実際の文章中に出現するかを予め知らなくても出現表記から実体の候補を獲得でき、
・曖昧性解消手段により、より信頼できる結果を得ることができるようになり、出現表記からデータベースのレコードへの対応づけを高精度で行うことができる。

本発明で使用する用語の定義の説明図本発明の出現表記レコード同定装置の実施の形態の一例を示す構成図各データベースの作成の概要を示す説明図本発明の出現表記レコード同定装置における処理の流れ図候補生成手段の詳細を示す構成図候補生成手段における処理の流れ図曖昧性解消手段の詳細を示す構成図曖昧性解消手段における処理の流れ図本発明の削除規則生成装置の実施の形態の一例を示す構成図本発明の削除規則生成装置における処理の流れ図本発明の削除規則生成装置による具体的な処理例を示す説明図本発明の出現表記レコード同定装置による具体的な処理例を示す説明図

本装置では、形態素解析及び固有表現抽出処理済みの入力文章と、当該処理済みの入力文章から抽出された出現表記のリストを入力とし、各出現表記と対応する実体データベース中のレコードＩＤを出力する（但し、解なしと判定された場合は出現表記のみ出力する。）。

図２は本発明の出現表記レコード同定装置の実施の形態の一例、ここでは処理済み入力文章から出現表記を抽出する部分も含む例を示すもので、図中、１は削除規則データベース（ＤＢ）、２は削除表記データベース（ＤＢ）、３は削除表記−ＩＤリスト対応表、４は特徴語データベース（ＤＢ）、５は処理済み入力文章記憶部、６は出現表記抽出手段、７は抽出済み出現表記リスト、８は候補生成手段、９は候補ＩＤリスト、１０は曖昧性解消手段である。

削除規則ＤＢ１は、所定の削除規則、ここでは削除すべき文字列の集合を登録してなるもので、出現表記または登録表記中の不要部分を削除するために用いられる。

削除表記ＤＢ２は、実体データベースの各レコードの登録表記に対して前記削除規則ＤＢ１中の所定の削除規則を適用して作成した登録削除表記を登録してなるものである。

削除表記−ＩＤリスト対応表３は、実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記をそのレコードＩＤとともに登録してなるものである。

なお、実際には、削除規則ＤＢ１は、図３に示すように、実体データベースを基にして後述する如く作成される。また、削除表記−ＩＤリスト対応表３は、図３に示すように、実体データベース中の登録表記を形態素解析し、形態素単位で区切り文字の入った文字列に変換した後、削除規則ＤＢ１中の所定の削除規則を適用して登録削除表記とすることで作成され、さらに、削除表記ＤＢ２は、図３に示すように、削除表記−ＩＤリスト対応表３から登録削除表記のみ抽出することで作成される。

特徴語ＤＢ４は、実体データベース中の各レコード（実体）に対する特徴語の集合をそれぞれの重要度を表す重み値とともに各レコードＩＤに対応付けて登録してなるものである。

処理済み入力文章記憶部５は、入力文章中の各単語に対し、その読み、品詞等の単語情報と、出現した文番号等の位置情報と、人名、場所名、組織名、人工物名等の固有表現のタイプを表す固有表現タグ（固有表現識別子）とをそれぞれ付与してなる形態素解析及び固有表現抽出処理済み入力文章（以下、処理済み入力文章）を記憶する。なお、処理済み入力文章は、自然言語で記述された入力文章に対し、周知の形態素解析処理と固有表現抽出処理とを行うことによって得られる。

出現表記抽出手段６は、処理済み入力文章記憶部５に記憶された処理済み入力文章から出現表記、ここでは固有表現を抽出、具体的には固有表現タグが付与された単語のみを出現表記として抽出し、抽出済み出現表記リスト（記憶部）７に記憶する。

候補生成手段８は、抽出済み出現表記リスト７から入力文章中の出現表記を入力文章の文頭側より１つずつ取り出し、削除規則ＤＢ１中の所定の削除規則を適用して削除表記に変換し、削除表記ＤＢ２から当該削除表記を含む登録削除表記を検索して前記出現表記に対する登録削除表記の候補として取得し、当該登録削除表記の候補に対応するレコードＩＤを削除表記−ＩＤリスト対応表３から取得して登録削除表記の候補とそのレコードＩＤとの対のリストからなる前記出現表記に対する候補ＩＤリストを生成し、候補ＩＤリスト（記憶部）９に記憶する。

曖昧性解消手段１０は、処理済み入力文章記憶部５に記憶された処理済み入力文章から特徴語を抽出して出現表記特徴語リストを生成し、候補ＩＤリスト９中の各レコードＩＤをキーとして特徴語ＤＢ４を検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ求め、最も高い類似度を有する登録削除表記の候補の信頼度を前記特徴語の重み値及び前記出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードＩＤを前記出現表記とともに出力し、所定の閾値未満であれば前記出現表記のみを出力する。

図４は図２の装置全体における処理の流れの概要を示すものである。

ここで、入力文書に対して周知の形態素解析及び固有表現抽出処理が施され、処理済み入力文章が処理済み入力文章記憶部５に記憶され、さらに処理済み入力文章から出現表記抽出手段６によって抽出された出現表記が抽出済み出現表記リスト７に記憶されているものとする。

まず、候補生成手段８は、抽出済み出現表記リスト７が空かどうかを判定し（ｓ１）、空でなければ、当該リスト７から出現表記を一つ取り出す（ｓ２）。

次に、候補生成手段８は、取り出した出現表記を入力として、後述する如く登録削除表記の候補とそのレコードＩＤとの対リストからなる候補ＩＤリストを生成し、候補ＩＤリスト９に記憶する。

次に、曖昧性解消手段１０は、得られた候補ＩＤリスト９と、処理済み入力文章記憶部５に記憶された処理済み入力文章と、前記取り出された出現表記とを入力として、後述する如く曖昧性の解消を行い、前記取り出された出現表記と、対応するレコードＩＤ（解が選択された場合のみ）とを出力する（ｓ４）。

その後、ｓ１に戻り、抽出済み出現表記リスト７が空になるまで前記同様の処理が繰り返され、出現表記リストが空になった時点で終了する。

図５は候補生成手段８の詳細を示すもので、処理済み入力文章から抽出された出現表記を入力とし、削除規則ＤＢ１、削除表記ＤＢ２及び削除表記−ＩＤリスト対応表３を用いて、削除表記とＩＤの対のリストからなる候補ＩＤリストを出力する。

また候補生成手段８は、入力された出現表記に対して削除規則ＤＢ１中の所定の削除規則を適用して前記出現表記を削除表記に変換する不要箇所削除部１１と、変換後の削除表記をキーとして削除表記ＤＢ２を検索し、当該削除表記を含む全ての登録削除表記を、前記出現表記に対する登録削除表記の候補として取得する登録削除表記検索部１２と、各登録削除表記の候補に対応するレコードＩＤを削除表記−ＩＤリスト対応表３から取得し、当該各登録削除表記の候補とそのレコードＩＤとの対のリストからなる前記出現表記に対する候補ＩＤリストを生成して出力する候補獲得部１３とを備えている。

図６は候補生成手段８における処理の流れ、即ち図４中のステップｓ３の詳細を示すものである。

まず、不要箇所削除部１１は、入力された出現表記に対して削除規則ＤＢ１中の所定の削除規則を適用して削除表記に変換し、登録削除表記検索部１２に出力する（ｓ３−１）。なお、出現表記が一形態素であれば、当該出現表記をそのまま削除表記とする。

次に、登録削除表記検索部１２は、入力された削除表記をキーとして削除表記ＤＢ２を検索し、当該削除表記を含む全ての登録削除表記を、前記出現表記に対する登録削除表記の候補として取得し、候補獲得部１３に出力する（ｓ３−２）。

最後に、候補獲得部１３は、入力された各登録削除表記の候補に対応するレコードＩＤを削除表記−ＩＤリスト対応表３から取得し、当該各登録削除表記の候補とそのレコードＩＤとの対のリストからなる前記出現表記に対する候補ＩＤリストを生成して出力する（ｓ３−３）。

図７は曖昧性解消手段１０の詳細を示すもので、形態素解析及び固有表現抽出処理済みの入力文章と、処理対象の出現表記と、候補生成手段８で生成された候補ＩＤリスト９とを入力とし、特徴語ＤＢ４を用いて、前記出現表記とこれに対応する実体データベースのレコードＩＤとを出力する（但し、解なしと判定された場合は出現表記のみ出力する。）。

また曖昧性解消手段１０は、処理済み入力文章から特徴語、例えば固有表現や名詞などを抽出して出現表記特徴語リストを生成する出現表記特徴語リスト生成部２１と、候補ＩＤリスト９中の各レコードＩＤをキーとして特徴語ＤＢ４を検索し、ヒットした全ての特徴語とその重み値を取得して登録削除表記の候補毎の（特徴語とそのその重み値の対とからなるリスト）特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度、即ち各登録削除表記の候補と出現表記との類似度をそれぞれ計算する類似度計算部２２と、前記登録削除表記の候補のうち、前記計算された類似度が最も高い候補を選択する解選択部２３と、前記選択された登録削除表記の候補の信頼度を、前記特徴語の重み値及び前記出現表記と当該候補との「表記の近さ」（表記の類似性）に基づいて算出し、この信頼度が所定の閾値以上であれば当該登録削除表記の候補のレコードＩＤを前記出現表記とともに出力し、所定の閾値未満であれば前記出現表記のみを出力する信頼度判定部２４とを備えている。

図８は曖昧性解消手段１０における処理の流れ、即ち図４中のステップｓ４の詳細を示すものである。

まず、出現表記特徴語リスト生成部２１は、形態素解析及び固有表現抽出処理済みの入力文章を入力として、当該処理済み入力文章から特徴語を抽出し、出現表記特徴語リストを生成する（ｓ４−１）。

次に、類似度計算部２２は、候補生成手段８で得られた候補ＩＤリスト及び前記出現表記特徴語リストを入力として、候補ＩＤリスト中の各登録削除表記の候補のレコードＩＤをキーとして特徴語ＤＢ４を検索し、ヒットした全ての特徴語とその重み値を取得して候補毎の（特徴語とその重み値の対とからなるリスト）特徴語リストを生成し（ｓ４−２）、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ計算し、各登録削除表記の候補と前記類似度との対を出力する（ｓ４−３）。

次に、解選択部２３は、各登録削除表記の候補と前記類似度との対を入力として、その中から最も類似度の高い候補を選択し、この際、最も高い類似度を有する候補が一つのみであれば、当該候補を信頼度判定部２４に出力する（ｓ４−４）。一方、最も高い類似度を有する候補が複数存在する場合は、処理対象の出現表記と対応するレコードはないとして、出現表記のみを出力する（ｓ４−８）。

最後に、信頼度判定部２４は、最も類似度の高い登録削除表記の候補と処理対象の出現表記とを入力として、当該登録削除表記の候補を特徴づけた語の重み値の大きさと、出現表記の表記と当該登録削除表記の候補の表記とがどれくらい似ているか、の２つをもとに算出した信頼度を計算し（ｓ４−５）、この信頼度が所定の閾値以上かどうかを判定し（ｓ４−６）、所定の閾値以上であれば前記出現表記と解選択部２３で選択された登録削除表記の候補のレコードＩＤとを出力し（ｓ４−７）、所定の閾値未満であれば、対応するレコードはないとして出現表記のみを出力する（ｓ４−８）。

図９は前述した所定の削除規則を生成する、本発明の削除規則生成装置の実施の形態の一例を示すもので、図中、３１は削除対象外リスト、３２は区切り入り文字列変換部、３３は頻出文字列獲得部、３４は除外リスト適用部である。

本装置は、実体データベースの全てのレコードの登録表記を入力とし、所定の削除規則を生成して出力する。

削除対象外リスト３１は、削除対象外の文字列の集合を登録してなるものである。区切り入り文字列変換部３２は、実体データベースの全てのレコードの登録表記について形態素解析処理を行い、形態素毎に区切りが入った区切り入り文字列に変換する。頻出文字列獲得部３３は、区切り入り文字列の集合から頻出する文字列を獲得する。除外リスト適用部３４は、獲得された頻出文字列の集合のうち、削除対象外リスト３１に登録されている文字列を含む頻出文字列を削除し、残りの頻出文字列の集合を所定の削除規則として出力する。

図１０は図９の装置における処理の流れを示すものである。

まず、区切り入り文字列変換部３２は、実体データベースの全てのレコードの登録表記を入力とし、各登録表記について形態素解析処理を行い、形態素毎に区切りが入った文字列に変換して頻出文字列獲得部３３に出力する（ｓ５−１）。

次に、頻出文字列獲得部３３は、入力された区切り入り文字列の集合から頻出する文字列を獲得し、除外リスト適用部３４に出力する（ｓ５−２）。

最後に、除外リスト適用部３４は、入力された頻出文字列のうち、削除対象外リスト３１に登録されている文字列を含む頻出文字列を削除し、残りの頻出文字列の集合を所定の削除規則として出力、即ち削除規則ＤＢとする（ｓ５−３）。

以下では、店舗の場合を例にとって実施例を説明する。

実体データベースとして、タウンページのような店舗名、住所、電話番号などが収録されたデータベースを仮定し、レコードＩＤとして電話番号を使用する。また、信頼度の閾値は１０と仮定する。

＜削除規則ＤＢの作成＞
まず、図１１を参照して、削除規則ＤＢ１の作成について説明する。

削除規則ＤＢ１は、実体データベース中の登録表記を入力として、前述した削除規則生成装置により作成する。

区切り入り文字列変換部３２では、登録表記のフィールドが入力されると、まず形態素解析を行い、形態素毎に区切り文字（例では“／”）を入れた文字列を作成する。

頻出文字列獲得部３３では、区切り入り文字列の集合から頻出文字列を獲得する。これには、ｐｒｅｆｉｘｓｐａｎなどのパタンマイニング手法を使うことで実現できる。例では、「レストラン」、「フレンチ／レストラン」、「マクドナルド」が頻出文字列として獲得されている。

除外リスト適用部３４では、実体データベース中の一形態素からなる登録名、品詞が固有名詞であるもの、別途獲得したチェーン店の名称などを削除対象外とし、獲得した頻出文字列の集合から、削除対象外リスト３１中の語を含む文字列を除去し、残りの頻出文字列の集合を削除規則ＤＢ１として出力する。例では「マクドナルド」が削除対象外（の文字列）となり、「レストラン」、「フレンチ／レストラン」の２つが削除規則（の文字列）として獲得される。

なお、削除対象外リスト３１は、別途、予め作成しておくものとする。例えば、以下に当てはまる語を収集して作ることができる。

−実体データベースに登録されている一形態素からなる登録名を自動で抽出し、削除対象外リストに追加する。

−形態素解析用の辞書から「名詞−固有」である語を自動で抽出し、削除対象外リストに追加する。

−チェーン店の名前、ブランドの名前など、その分野で固有名として使用されている語を、インターネット上のブランド一覧ページなどを探して獲得し、削除対象外リストに追加する。

＜削除表記ＤＢ及び登録削除表記−ＩＤリスト対応表の作成＞
次に、削除表記ＤＢ２及び登録削除表記−ＩＤリスト対応表３の作成について説明する。

［１］まず、実体データベースから登録表記とＩＤを組で抽出する。

［２］次に、抽出した登録表記に削除規則ＤＢ１中の削除規則を適用して登録削除表記を作成し、当該登録削除表記とＩＤの組を登録削除表記−ＩＤリスト対応表３とする。

［３］最後に、登録削除表記−ＩＤリスト対応表３から登録削除表記のみを抽出して削除表記ＤＢ２を作成する。

＜特徴語ＤＢの作成＞
手がかり語を集めた特徴語ＤＢ４は人手で作成することも可能であるが、数万、数十万の実体それぞれについての特徴語を人手で作ることは実用的ではないため、ここでは以下の方法で自動的に獲得した。

特徴語データベースは、
（ａ）もともとの実体データベースにある情報（店舗データベースであれば住所、電話番号など）、
（ｂ）実体について書かれた文書集合から獲得した特徴語、
の二種類の情報を含む。

（ａ）は、自動的に実体データベースから抽出可能である。どの情報が使用できるかは入手できるデータベースに依存するため、どのフィールドを使用するかは人手で選択し、フィールドの抽出は自動で行う。データベースから抽出した特徴語の重み値は（ｂ）よりも大きい値を仮定する。求め方には様々な方法が考えられるが、例えば、テストデータを用意して、その中で良い値を人手でチューニングする方法がある。

（ｂ）は、まず実体について書かれた文書集合を、実体を一意に決定する語（例えば、店舗であれば電話番号）をキーワードとしてＷｅｂページを検索し、得られたページ集合を形態素解析した後、特徴語を抽出して特徴語データベースを作成する。特徴語として固有名、名詞、名詞連続（複合名詞）、形態素解析器が未知語と出力した語を使用した。この特徴語にどういう重み値を付与するかについては様々な方法があるが、例えば「複数の実体で使われる語は弁別能力が低い」という考えに基づき、１実体を１文書と考えたｉｄｆを使う。ｉｄｆは以下の式で求める。

但し、ｔは単語、Ｎは文書集合を獲得できた実体の総数、ｅｆ（ｔ）は或る語ｔがいくつの実体で出現したかを示す。

＜本発明の出現表記レコード同定装置の動作例＞
次に、図１２を参照して、本発明の出現表記レコード同定装置の動作について説明する。

［１］形態素解析及び固有表現抽出済みの入力文章と出現表記リストが入力である。

当初、出現表記リストが空ではない（ｓ１）ので、候補生成手段８は、出現表記リストから出現表記を一つ、ここでは「中華敦煌」を取り出す（ｓ２）。

［２］候補生成手段８では、取り出した出現表記「中華敦煌」に対し、不要箇所削除部１１で、削除規則ＤＢ１中の削除規則を適用して削除表記を変換する（ｓ３−１）。ここでは削除規則中の「中華」が適用され、出現表記「中華敦煌」から「中華」が削除されて「敦煌」が削除表記として得られる。

登録削除表記検索部１２では、削除表記「敦煌」をキーとして削除表記ＤＢ２を検索し、当該削除表記「敦煌」を含む全ての登録削除表記を、登録削除表記の候補として取得する（ｓ３−２）。ここでは削除表記「敦煌」を含む店舗である「敦煌」、「敦煌江坂店」、「....」が登録削除表記の候補として得られる。

候補獲得部１３は、得られた登録削除表記の候補を入力とし、各登録削除表記をキーとして削除表記−ＩＤリスト対応表３を辞書引きしてレコードＩＤを取得し、取得したレコードＩＤと登録削除表記の候補との対のリストを、候補ＩＤリストとして得る（ｓ３−３）。ここでは「敦煌，０ｘｘ−ｙｙｙ−ｚｚｚｚ」、「敦煌，０ｘ−ｑｑｑｑ−ｗｗｗｗ」、「敦煌江坂店，０ｐ−ｉｉｉｉ−ｕｕｕｕ」の３対を候補ＩＤリストとして獲得する。

［３］曖昧性解消手段１０は、候補生成手段８で生成された候補ＩＤリストと、形態素解析及び固有表現抽出済みの入力文章と、出現表記とを入力とする。

出現表記特徴語リスト生成部２１では、形態素解析及び固有表現抽出処理済みの入力文章を入力とし、この入力文章から特徴語を抽出し、出現表記特徴語リストを生成する（ｓ４−２）。ここでは「中華敦煌」に対して、「菊名、仕事、ランチ」が出現表記特徴語リストとして抽出される。

類似度計算部２２では、候補生成手段８で得られた候補ＩＤリストを入力とし、候補ＩＤリスト中の各候補に対して、候補のＩＤをキーとして特徴語ＤＢ４を検索し、各候補の特徴語と重み値を取得して特徴語リストとする（ｓ４−２）。ここでは「０ｘｘ−ｙｙｙ−ｚｚｚｚ」をキーとして特徴語ＤＢ４を検索し、「菊名」という特徴語とその重み値１０．５、「もやしそば」という特徴語とその重み値８．３などを獲得する。同様に「０ｘ−ｑｑｑｑ−ｗｗｗｗ」及び「０ｐ−ｉｉｉｉ−ｕｕｕｕ」に対しても、それぞれをキーとして特徴語ＤＢ４を検索し、特徴語リストを獲得する。

その後、類似度計算部２２では、各候補の特徴語リストと、出現表記特徴語リスト生成部２１で得た出現表記特徴語リストとの類似度をそれぞれ計算し、各候補とその類似度の対を生成する（ｓ４−３）。類似度を求めるためには、例えば、ｃｏｓｉｎｅ類似度を使用する。ここでは「０ｘｘ−ｙｙｙ−ｚｚｚｚ」との類似度０．８、「０ｘ−ｑｑｑｑ−ｗｗｗｗ」との類似度は０．１となったとする。

解選択部２３では、各候補とその類似度の対を入力とし、各候補とその類似度の対の中から、最も類似度の高い候補を一つ選択して信頼度判定部２４に出力する（ｓ４−４）。最も高い類似度を有する候補が複数存在する場合は、この出現表記と対応するレコードはないとして、出現表記のみを結果として出力する。ここでは「０ｘｘ−ｙｙｙ−ｚｚｚｚ」が選択され、他に０．８の類似度を有する候補はないので信頼度判定に進む。

信頼度判定部２４では、解選択部２３で選択された候補を入力とし、その候補の信頼度を計算する（ｓ４−５）。例えば、類似度計算部２２で類似度を計算する過程で得られる、出現表記特徴語リスト及び各候補の特徴語リストで共通して出現している単語の重み値と、出現表記とその候補の登録削除表記がどれくらい表記として一致しているかにより信頼度を計算する。この場合の信頼度は以下の式になる。

但し、ｗ（ｔ）は単語ｔの重み値、Ｃｉは候補ｉの特徴語リスト、Ｘは出現表記特徴語リストである。

ここで、

但し、ｍは削除表記、ｅは登録削除表記、ＥｄｉｔＤｉｓｔａｎｃｅ（ｍ，ｅ）はｍとｅとの編集距離、ｌｅｎｇｔｈ（ｅ）はｅの文字数である。

ここでは「０ｘｘ−ｙｙｙ−ｚｚｚ」の信頼度は１８．０であったとする。

信頼度判定部２４では、前記求めた信頼度が所定の閾値以上かどうかを判定する（ｓ４−６）。閾値以上であれば出現表記と解選択部２３で選択された候補のレコードＩＤを出力し（ｓ４−７）、そうでなければ出現表記のみを出力する（ｓ４−８）。ここでは閾値１０より高いため、出現表記「中華敦煌」及びＩＤ「０ｘｘ−ｙｙｙ−ｚｚｚｚ」を出力する（ｓ４−７）。

（ｓ１）の処理に戻り、出現表記リストが空かどうかを判定する。この例では、まだ「喜楽」があるため空ではない。以下、同様の処理を繰り返し、出現表記リストが空になった時点で終了する。

１：削除規則データベース、２：削除表記データベース、３：削除表記−ＩＤリスト対応表、４：特徴語データベース、５：処理済み入力文章記憶部、６：出現表記抽出手段、７：抽出済み出現表記リスト、８：候補生成手段、９：候補ＩＤリスト、１０：曖昧性解消手段、１１：不要箇所削除部、１２：登録削除表記検索部、１３：候補獲得部、２１：出現表記特徴語リスト生成部、２２：類似度計算部、２３：解選択部、２４：信頼度判定部、３１：削除対象外リスト、３２：区切り入り文字列変換部、３３：頻出文字列獲得部、３４：除外リスト適用部。

Claims

実体を表す表記のうち入力文章中に出現する出現表記であって当該入力文章に対して形態素解析及び固有表現抽出処理を行うことにより抽出された出現表記を、実体を表す表記のうち当該実体に関する実体データベースに登録されている登録表記に対応付け、当該登録表記を含むレコードを同定する装置であって、
出現表記または登録表記中の不要部分を削除するための所定の削除規則を登録した削除規則データベースと、
一のレコード中に登録表記とレコードＩＤとを少なくとも含む実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記を登録した削除表記データベースと、
前記実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記をそのレコードＩＤとともに登録した削除表記−ＩＤリスト対応表と、
前記実体データベース中の各レコードに対する特徴語の集合をそれぞれの重要度を表す重み値とともに各レコードＩＤに対応付けて登録した特徴語データベースと、
形態素解析及び固有表現抽出処理済みの入力文章から抽出された出現表記に対して前記削除規則データベース中の所定の削除規則を適用して削除表記に変換し、前記削除表記データベースから当該削除表記を含む登録削除表記を検索して前記出現表記に対する登録削除表記の候補として取得し、当該登録削除表記の候補に対応するレコードＩＤを前記削除表記−ＩＤリスト対応表から取得して登録削除表記の候補とそのレコードＩＤとの対のリストからなる前記出現表記に対する候補ＩＤリストを生成する候補生成手段と、
前記形態素解析及び固有表現抽出処理済みの入力文章から特徴語を抽出して出現表記特徴語リストを生成し、前記候補ＩＤリスト中の各レコードＩＤをキーとして前記特徴語データベースを検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ求め、最も高い類似度を有する登録削除表記の候補の信頼度を前記特徴語の重み値及び前記出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードＩＤを前記出現表記とともに出力する曖昧性解消手段とを備えた
ことを特徴とする出現表記レコード同定装置。
請求項１に記載の出現表記レコード同定装置において、
候補生成手段は、
形態素解析及び固有表現抽出処理済みの入力文章から抽出された出現表記に対して削除規則データベース中の所定の削除規則を適用して削除表記に変換する不要箇所削除部と、
変換後の削除表記をキーとして削除表記データベースを検索し、当該削除表記を含む全ての登録削除表記を、前記出現表記に対する登録削除表記の候補として取得する登録削除表記検索部と、
前記登録削除表記の候補に対応するレコードＩＤを削除表記−ＩＤリスト対応表から取得し、当該登録削除表記の候補とそのレコードＩＤとの対のリストからなる前記出現表記に対する候補ＩＤリストを生成する候補獲得部とからなる
ことを特徴とする出現表記レコード同定装置。
請求項１に記載の出現表記レコード同定装置において、
曖昧性解消手段は、
前記形態素解析及び固有表現抽出処理済みの入力文章から特徴語を抽出して出現表記特徴語リストを生成する出現表記特徴語リスト生成部と、
候補ＩＤリスト中の各レコードＩＤをキーとして特徴語データベースを検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ計算する類似度計算部と、
前記登録削除表記の候補のうち類似度が最も高い候補を選択する解選択部と、
前記選択された登録削除表記の候補の信頼度を前記特徴語の重み値及び出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードＩＤを前記出現表記とともに出力する信頼度判定部とからなる
ことを特徴とする出現表記レコード同定装置。
請求項１乃至３のいずれかに記載の出現表記レコード同定装置で使用される所定の削除規則を生成する装置であって、
削除対象外の文字列を登録してなる削除対象外リストと、
実体データベースの全てのレコードの登録表記について形態素解析処理を行い、形態素毎に区切りが入った区切り入り文字列に変換する区切り入り文字列変換部と、
前記区切り入り文字列の集合から頻出する文字列を獲得する頻出文字列獲得部と、
前記獲得された頻出文字列の集合のうち、削除対象外リストに登録されている文字列を含む頻出文字列を削除し、残りの頻出文字列の集合を所定の削除規則として出力する除外リスト適用部とを備えた
ことを特徴とする削除規則生成装置。
実体を表す表記のうち入力文章中に出現する出現表記であって当該入力文章に対して形態素解析及び固有表現抽出処理を行うことにより抽出された出現表記を、実体を表す表記のうち当該実体に関する実体データベースに登録されている登録表記に対応付け、当該登録表記を含むレコードを同定する方法であって、
出現表記または登録表記中の不要部分を削除するための所定の削除規則を登録した削除規則データベースと、
一のレコード中に登録表記とレコードＩＤとを少なくとも含む実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記を登録した削除表記データベースと、
前記実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記をそのレコードＩＤとともに登録した削除表記−ＩＤリスト対応表と、
前記実体データベース中の各レコードに対する特徴語の集合をそれぞれの重要度を表す重み値とともに各レコードＩＤに対応付けて登録した特徴語データベースとを用い、
候補生成手段が、形態素解析及び固有表現抽出処理済みの入力文章から抽出された出現表記に対して前記削除規則データベース中の所定の削除規則を適用して削除表記に変換し、前記削除表記データベースから当該削除表記を含む登録削除表記を検索して前記出現表記に対する登録削除表記の候補として取得し、当該登録削除表記の候補に対応するレコードＩＤを前記削除表記−ＩＤリスト対応表から取得して登録削除表記の候補とそのレコードＩＤとの対のリストからなる前記出現表記に対する候補ＩＤリストを生成する工程と、
曖昧性解消手段が、前記形態素解析及び固有表現抽出処理済みの入力文章から特徴語を抽出して出現表記特徴語リストを生成し、前記候補ＩＤリスト中の各レコードＩＤをキーとして前記特徴語データベースを検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ求め、最も高い類似度を有する登録削除表記の候補の信頼度を前記特徴語の重み値及び前記出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードＩＤを前記出現表記とともに出力する工程とを含む
ことを特徴とする出現表記レコード同定方法。
請求項５に記載の出現表記レコード同定方法において、
候補生成工程は、
不要箇所削除部が、形態素解析及び固有表現抽出処理済みの入力文章から抽出された出現表記に対して削除規則データベース中の所定の削除規則を適用して削除表記に変換する工程と、
登録削除表記検索部が、変換後の削除表記をキーとして削除表記データベースを検索し、当該削除表記を含む全ての登録削除表記を、前記出現表記に対する登録削除表記の候補として取得する工程と、
候補獲得部が、前記登録削除表記の候補に対応するレコードＩＤを削除表記−ＩＤリスト対応表から取得し、当該登録削除表記の候補とそのレコードＩＤとの対のリストからなる前記出現表記に対する候補ＩＤリストを生成する工程とを含む
ことを特徴とする出現表記レコード同定方法。
請求項５に記載の出現表記レコード同定方法において、
曖昧性解消工程は、
出現表記特徴語リスト生成部が、前記形態素解析及び固有表現抽出処理済みの入力文章から特徴語を抽出して出現表記特徴語リストを生成する工程と、
類似度計算部が、候補ＩＤリスト中の各レコードＩＤをキーとして特徴語データベースを検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ計算する工程と、
解選択部が、前記登録削除表記の候補のうち類似度が最も高い候補を選択する工程と、
信頼度判定部が、前記選択された登録削除表記の候補の信頼度を前記特徴語の重み値及び出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードＩＤを前記出現表記とともに出力する工程とを含む
ことを特徴とする出現表記レコード同定方法。
請求項５乃至７のいずれかに記載の出現表記レコード同定方法で使用される所定の削除規則を生成する方法であって、
削除対象外の文字列を登録してなる削除対象外リストを用い、
区切り入り文字列変換部が、実体データベースの全てのレコードの登録表記について形態素解析処理を行い、形態素毎に区切りが入った区切り入り文字列に変換する工程と、
頻出文字列獲得部が、前記区切り入り文字列の集合から頻出する文字列を獲得する工程と、
除外リスト適用部が、前記獲得された頻出文字列の集合のうち、削除対象外リストに登録されている文字列を含む頻出文字列を削除し、残りの頻出文字列の集合を所定の削除規則として出力する工程とを含む
ことを特徴とする削除規則生成方法。
コンピュータを、請求項１乃至４のいずれかに記載の装置の各手段として機能させるためのプログラム。
請求項９に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。