JP5137140B2 - 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 - Google Patents

出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP5137140B2
JP5137140B2 JP2009024891A JP2009024891A JP5137140B2 JP 5137140 B2 JP5137140 B2 JP 5137140B2 JP 2009024891 A JP2009024891 A JP 2009024891A JP 2009024891 A JP2009024891 A JP 2009024891A JP 5137140 B2 JP5137140 B2 JP 5137140B2
Authority
JP
Japan
Prior art keywords
notation
deletion
appearance
candidate
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009024891A
Other languages
English (en)
Other versions
JP2010182082A (ja
Inventor
のぞみ 小林
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009024891A priority Critical patent/JP5137140B2/ja
Publication of JP2010182082A publication Critical patent/JP2010182082A/ja
Application granted granted Critical
Publication of JP5137140B2 publication Critical patent/JP5137140B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、実体を表す表記のうち、入力文章中に出現する出現表記を、実体データベースに登録されている登録表記に対応付け、当該登録表記を含むエントリ(レコード)を同定する技術に関する。本発明は、情報検索システムや情報抽出システムの前処理として利用でき、また、抽出された情報の集約にも使用できる。
まず、本発明で使用する用語の定義について説明する。
「実体」とは、実世界での実在の「モノ」を指すが、本発明では、特に実体に関するデータベースである実体データベース中の「レコード」=「実体」と捉えるものとする。例えば、図1の例では企業の実体データベース中のレコード「名称:日本電信電話株式会社,ID:1234,住所:東京都....」、「名前:電々太郎,ID:001,役職:NTT社長」を実体とみなす。
「出現表記」とは、実体を表す表記のうち、入力文章(入力テキスト)中に出現する表記を指す。例えば、図1の例では「NTT(株)」、「電々社長」が出現表記である。
「登録表記」とは、実体を表す表記のうち、実体データベースに登録されている表記、通常、各レコードの登録名にあたるものを指す。例えば、図1の例では「日本電信電話株式会社」、「電々太郎」が登録表記である。
「削除表記」とは、出現表記から不要部分を削除した表記を指す。例えば、図1の例では入力文章中の出現表記「NTT(株)」、「電々社長」から不要部分「(株)」、「社長」をそれぞれ削除した「NTT」、「電々」が削除表記である。
「登録削除表記」とは、登録表記から不要部分を削除した表記を指す。例えば(図示しないが)、登録表記「日本電信電話株式会社」から不要部分「株式会社」を削除した「日本電信電話」が登録削除表記である。
[従来技術]
従来、この種の技術としては、非特許文献1に記載されたものがある。非特許文献1では、本発明でいう「実体データベース」としてwikipediaを選び、各出現表記がwikipediaのどのページに対応するかを同定する問題を解いている。この手法では、入力文章中の出現表記を対象に、予め自動的にwikipediaから作成しておいたsurface−entity(出現表記−登録表記)のリストから候補を取得し、前記出現表記の周りに出現した特徴語から対応する実体のIDを推定する。
なお、wikipediaとは、インターネット上で誰でも編集できる巨大な事典であり、人物、場所、作品、会社など、多くの情報についての記述がある。
Silviu Cucerzan,"Large−Scale Named Entity Disambiguation Based on Wikipedia Data",Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2007,pp.708−716
前述した非特許文献1の手法では、予め登録表記と実体との対応リストを網羅的に作成しておく必要があるが、網羅的に用意することは容易でない。また、wikipediaに載っていない店舗名などに対してその対応リストを網羅的に作成しておくことは非特許文献1の手法ではできないし、人手で作成することも容易ではない。というのは、例えば店舗名「レストランひばりxxx駅前店」という登録表記とID(例えば電話番号)「0xx−yyy−zzz」との場合、「ひばりxxx駅前店」→「0xx−yyy−zzz」、「ひばり」→「0xx−yyy−zzz」など、出現表記として使用される可能性のあるものを全て登録しておかなければならないためである。
<着眼点>
基本的に、出現表記は登録表記の一部(例えば、「みずほ銀行」では「みずほ」、「いけや食堂」では「いけや」など)、愛称、英語名であればカタカナ表記などであることが多く、愛称やカタカナ表記に関しては、予め対応表(例えば、「マック」→「マクドナルド」)を用意しておき、辞書引きで対応することができる。一方、出現表記が登録表記の一部である場合、既に良く知られている文字列検索の手法により候補を取得できるが、出現表記に修飾語が付与される(例えば、「カナ」という店舗名に「ビストロ」が付く)ことがあり、登録表記のほうが逆に出現表記の一部になることがある。
そこで、これらの修飾語を不要部分として予め削除し、当該削除された出現表記を含む登録表記を候補とする候補生成手段を導入する。
<本装置の特徴>
本装置は、形態素解析及び固有表現抽出処理済みの入力文章と当該処理済みの入力文章から抽出された出現表記のリストとが入力されたときに、出現表記に対して不要部分を削除した削除表記を作成し、この削除表記を含む登録表記を実体データベースから候補として取得する候補生成手段と、当該候補の信頼度を計算して閾値未満であれば棄却する曖昧性解消手段とを備えた、出現表記と実体データベースのレコードとの対応付けを行う装置である。
<前提とする事項>
実体データベースは、一のレコード中に登録表記とレコードIDとを少なくとも含むもので、予め用意されていると仮定する(例えば、タウンページ、企業データベースなど)(なお、ここでいう「レコードID」とは、データベースのレコードを一意に識別可能なものであれば何でも良く、必ずしも連番のものである必要はない。)。但し、実体データベース自体が本装置の中でそのまま使用されることはなく、この実体データベースを基に、各種のデータベースが作成されて使用される。
表記中の不要部分を削除するための所定の削除規則(もしくは削除モデル)は、入力文章から抽出された出現表記に対する削除の場合と、実体データベース中の登録表記に対する削除の場合とで同じものを使用するものとする。
入力は出現表記(ここでは固有表現)が同定された文章とする。
本発明によれば、
・候補生成手段により、出現表記−IDの対応リストがなくても出現表記から可能性のある実体のID集合を生成することができ(従来技術で出来なかった点を本発明で解決した)、
・さらに、候補生成手段を導入することで、データベースに登録されている実体が、どういう表記で実際の文章中に出現するかを予め知らなくても出現表記から実体の候補を獲得でき、
・曖昧性解消手段により、より信頼できる結果を得ることができるようになり、出現表記からデータベースのレコードへの対応づけを高精度で行うことができる。
本発明で使用する用語の定義の説明図 本発明の出現表記レコード同定装置の実施の形態の一例を示す構成図 各データベースの作成の概要を示す説明図 本発明の出現表記レコード同定装置における処理の流れ図 候補生成手段の詳細を示す構成図 候補生成手段における処理の流れ図 曖昧性解消手段の詳細を示す構成図 曖昧性解消手段における処理の流れ図 本発明の削除規則生成装置の実施の形態の一例を示す構成図 本発明の削除規則生成装置における処理の流れ図 本発明の削除規則生成装置による具体的な処理例を示す説明図 本発明の出現表記レコード同定装置による具体的な処理例を示す説明図
本装置では、形態素解析及び固有表現抽出処理済みの入力文章と、当該処理済みの入力文章から抽出された出現表記のリストを入力とし、各出現表記と対応する実体データベース中のレコードIDを出力する(但し、解なしと判定された場合は出現表記のみ出力する。)。
図2は本発明の出現表記レコード同定装置の実施の形態の一例、ここでは処理済み入力文章から出現表記を抽出する部分も含む例を示すもので、図中、1は削除規則データベース(DB)、2は削除表記データベース(DB)、3は削除表記−IDリスト対応表、4は特徴語データベース(DB)、5は処理済み入力文章記憶部、6は出現表記抽出手段、7は抽出済み出現表記リスト、8は候補生成手段、9は候補IDリスト、10は曖昧性解消手段である。
削除規則DB1は、所定の削除規則、ここでは削除すべき文字列の集合を登録してなるもので、出現表記または登録表記中の不要部分を削除するために用いられる。
削除表記DB2は、実体データベースの各レコードの登録表記に対して前記削除規則DB1中の所定の削除規則を適用して作成した登録削除表記を登録してなるものである。
削除表記−IDリスト対応表3は、実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記をそのレコードIDとともに登録してなるものである。
なお、実際には、削除規則DB1は、図3に示すように、実体データベースを基にして後述する如く作成される。また、削除表記−IDリスト対応表3は、図3に示すように、実体データベース中の登録表記を形態素解析し、形態素単位で区切り文字の入った文字列に変換した後、削除規則DB1中の所定の削除規則を適用して登録削除表記とすることで作成され、さらに、削除表記DB2は、図3に示すように、削除表記−IDリスト対応表3から登録削除表記のみ抽出することで作成される。
特徴語DB4は、実体データベース中の各レコード(実体)に対する特徴語の集合をそれぞれの重要度を表す重み値とともに各レコードIDに対応付けて登録してなるものである。
処理済み入力文章記憶部5は、入力文章中の各単語に対し、その読み、品詞等の単語情報と、出現した文番号等の位置情報と、人名、場所名、組織名、人工物名等の固有表現のタイプを表す固有表現タグ(固有表現識別子)とをそれぞれ付与してなる形態素解析及び固有表現抽出処理済み入力文章(以下、処理済み入力文章)を記憶する。なお、処理済み入力文章は、自然言語で記述された入力文章に対し、周知の形態素解析処理と固有表現抽出処理とを行うことによって得られる。
出現表記抽出手段6は、処理済み入力文章記憶部5に記憶された処理済み入力文章から出現表記、ここでは固有表現を抽出、具体的には固有表現タグが付与された単語のみを出現表記として抽出し、抽出済み出現表記リスト(記憶部)7に記憶する。
候補生成手段8は、抽出済み出現表記リスト7から入力文章中の出現表記を入力文章の文頭側より1つずつ取り出し、削除規則DB1中の所定の削除規則を適用して削除表記に変換し、削除表記DB2から当該削除表記を含む登録削除表記を検索して前記出現表記に対する登録削除表記の候補として取得し、当該登録削除表記の候補に対応するレコードIDを削除表記−IDリスト対応表3から取得して登録削除表記の候補とそのレコードIDとの対のリストからなる前記出現表記に対する候補IDリストを生成し、候補IDリスト(記憶部)9に記憶する。
曖昧性解消手段10は、処理済み入力文章記憶部5に記憶された処理済み入力文章から特徴語を抽出して出現表記特徴語リストを生成し、候補IDリスト9中の各レコードIDをキーとして特徴語DB4を検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ求め、最も高い類似度を有する登録削除表記の候補の信頼度を前記特徴語の重み値及び前記出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードIDを前記出現表記とともに出力し、所定の閾値未満であれば前記出現表記のみを出力する。
図4は図2の装置全体における処理の流れの概要を示すものである。
ここで、入力文書に対して周知の形態素解析及び固有表現抽出処理が施され、処理済み入力文章が処理済み入力文章記憶部5に記憶され、さらに処理済み入力文章から出現表記抽出手段6によって抽出された出現表記が抽出済み出現表記リスト7に記憶されているものとする。
まず、候補生成手段8は、抽出済み出現表記リスト7が空かどうかを判定し(s1)、空でなければ、当該リスト7から出現表記を一つ取り出す(s2)。
次に、候補生成手段8は、取り出した出現表記を入力として、後述する如く登録削除表記の候補とそのレコードIDとの対リストからなる候補IDリストを生成し、候補IDリスト9に記憶する。
次に、曖昧性解消手段10は、得られた候補IDリスト9と、処理済み入力文章記憶部5に記憶された処理済み入力文章と、前記取り出された出現表記とを入力として、後述する如く曖昧性の解消を行い、前記取り出された出現表記と、対応するレコードID(解が選択された場合のみ)とを出力する(s4)。
その後、s1に戻り、抽出済み出現表記リスト7が空になるまで前記同様の処理が繰り返され、出現表記リストが空になった時点で終了する。
図5は候補生成手段8の詳細を示すもので、処理済み入力文章から抽出された出現表記を入力とし、削除規則DB1、削除表記DB2及び削除表記−IDリスト対応表3を用いて、削除表記とIDの対のリストからなる候補IDリストを出力する。
また候補生成手段8は、入力された出現表記に対して削除規則DB1中の所定の削除規則を適用して前記出現表記を削除表記に変換する不要箇所削除部11と、変換後の削除表記をキーとして削除表記DB2を検索し、当該削除表記を含む全ての登録削除表記を、前記出現表記に対する登録削除表記の候補として取得する登録削除表記検索部12と、各登録削除表記の候補に対応するレコードIDを削除表記−IDリスト対応表3から取得し、当該各登録削除表記の候補とそのレコードIDとの対のリストからなる前記出現表記に対する候補IDリストを生成して出力する候補獲得部13とを備えている。
図6は候補生成手段8における処理の流れ、即ち図4中のステップs3の詳細を示すものである。
まず、不要箇所削除部11は、入力された出現表記に対して削除規則DB1中の所定の削除規則を適用して削除表記に変換し、登録削除表記検索部12に出力する(s3−1)。なお、出現表記が一形態素であれば、当該出現表記をそのまま削除表記とする。
次に、登録削除表記検索部12は、入力された削除表記をキーとして削除表記DB2を検索し、当該削除表記を含む全ての登録削除表記を、前記出現表記に対する登録削除表記の候補として取得し、候補獲得部13に出力する(s3−2)。
最後に、候補獲得部13は、入力された各登録削除表記の候補に対応するレコードIDを削除表記−IDリスト対応表3から取得し、当該各登録削除表記の候補とそのレコードIDとの対のリストからなる前記出現表記に対する候補IDリストを生成して出力する(s3−3)。
図7は曖昧性解消手段10の詳細を示すもので、形態素解析及び固有表現抽出処理済みの入力文章と、処理対象の出現表記と、候補生成手段8で生成された候補IDリスト9とを入力とし、特徴語DB4を用いて、前記出現表記とこれに対応する実体データベースのレコードIDとを出力する(但し、解なしと判定された場合は出現表記のみ出力する。)。
また曖昧性解消手段10は、処理済み入力文章から特徴語、例えば固有表現や名詞などを抽出して出現表記特徴語リストを生成する出現表記特徴語リスト生成部21と、候補IDリスト9中の各レコードIDをキーとして特徴語DB4を検索し、ヒットした全ての特徴語とその重み値を取得して登録削除表記の候補毎の(特徴語とそのその重み値の対とからなるリスト)特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度、即ち各登録削除表記の候補と出現表記との類似度をそれぞれ計算する類似度計算部22と、前記登録削除表記の候補のうち、前記計算された類似度が最も高い候補を選択する解選択部23と、前記選択された登録削除表記の候補の信頼度を、前記特徴語の重み値及び前記出現表記と当該候補との「表記の近さ」(表記の類似性)に基づいて算出し、この信頼度が所定の閾値以上であれば当該登録削除表記の候補のレコードIDを前記出現表記とともに出力し、所定の閾値未満であれば前記出現表記のみを出力する信頼度判定部24とを備えている。
図8は曖昧性解消手段10における処理の流れ、即ち図4中のステップs4の詳細を示すものである。
まず、出現表記特徴語リスト生成部21は、形態素解析及び固有表現抽出処理済みの入力文章を入力として、当該処理済み入力文章から特徴語を抽出し、出現表記特徴語リストを生成する(s4−1)。
次に、類似度計算部22は、候補生成手段8で得られた候補IDリスト及び前記出現表記特徴語リストを入力として、候補IDリスト中の各登録削除表記の候補のレコードIDをキーとして特徴語DB4を検索し、ヒットした全ての特徴語とその重み値を取得して候補毎の(特徴語とその重み値の対とからなるリスト)特徴語リストを生成し(s4−2)、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ計算し、各登録削除表記の候補と前記類似度との対を出力する(s4−3)。
次に、解選択部23は、各登録削除表記の候補と前記類似度との対を入力として、その中から最も類似度の高い候補を選択し、この際、最も高い類似度を有する候補が一つのみであれば、当該候補を信頼度判定部24に出力する(s4−4)。一方、最も高い類似度を有する候補が複数存在する場合は、処理対象の出現表記と対応するレコードはないとして、出現表記のみを出力する(s4−8)。
最後に、信頼度判定部24は、最も類似度の高い登録削除表記の候補と処理対象の出現表記とを入力として、当該登録削除表記の候補を特徴づけた語の重み値の大きさと、出現表記の表記と当該登録削除表記の候補の表記とがどれくらい似ているか、の2つをもとに算出した信頼度を計算し(s4−5)、この信頼度が所定の閾値以上かどうかを判定し(s4−6)、所定の閾値以上であれば前記出現表記と解選択部23で選択された登録削除表記の候補のレコードIDとを出力し(s4−7)、所定の閾値未満であれば、対応するレコードはないとして出現表記のみを出力する(s4−8)。
図9は前述した所定の削除規則を生成する、本発明の削除規則生成装置の実施の形態の一例を示すもので、図中、31は削除対象外リスト、32は区切り入り文字列変換部、33は頻出文字列獲得部、34は除外リスト適用部である。
本装置は、実体データベースの全てのレコードの登録表記を入力とし、所定の削除規則を生成して出力する。
削除対象外リスト31は、削除対象外の文字列の集合を登録してなるものである。区切り入り文字列変換部32は、実体データベースの全てのレコードの登録表記について形態素解析処理を行い、形態素毎に区切りが入った区切り入り文字列に変換する。頻出文字列獲得部33は、区切り入り文字列の集合から頻出する文字列を獲得する。除外リスト適用部34は、獲得された頻出文字列の集合のうち、削除対象外リスト31に登録されている文字列を含む頻出文字列を削除し、残りの頻出文字列の集合を所定の削除規則として出力する。
図10は図9の装置における処理の流れを示すものである。
まず、区切り入り文字列変換部32は、実体データベースの全てのレコードの登録表記を入力とし、各登録表記について形態素解析処理を行い、形態素毎に区切りが入った文字列に変換して頻出文字列獲得部33に出力する(s5−1)。
次に、頻出文字列獲得部33は、入力された区切り入り文字列の集合から頻出する文字列を獲得し、除外リスト適用部34に出力する(s5−2)。
最後に、除外リスト適用部34は、入力された頻出文字列のうち、削除対象外リスト31に登録されている文字列を含む頻出文字列を削除し、残りの頻出文字列の集合を所定の削除規則として出力、即ち削除規則DBとする(s5−3)。
以下では、店舗の場合を例にとって実施例を説明する。
実体データベースとして、タウンページのような店舗名、住所、電話番号などが収録されたデータベースを仮定し、レコードIDとして電話番号を使用する。また、信頼度の閾値は10と仮定する。
<削除規則DBの作成>
まず、図11を参照して、削除規則DB1の作成について説明する。
削除規則DB1は、実体データベース中の登録表記を入力として、前述した削除規則生成装置により作成する。
区切り入り文字列変換部32では、登録表記のフィールドが入力されると、まず形態素解析を行い、形態素毎に区切り文字(例では“/”)を入れた文字列を作成する。
頻出文字列獲得部33では、区切り入り文字列の集合から頻出文字列を獲得する。これには、prefixspanなどのパタンマイニング手法を使うことで実現できる。例では、「レストラン」、「フレンチ/レストラン」、「マクドナルド」が頻出文字列として獲得されている。
除外リスト適用部34では、実体データベース中の一形態素からなる登録名、品詞が固有名詞であるもの、別途獲得したチェーン店の名称などを削除対象外とし、獲得した頻出文字列の集合から、削除対象外リスト31中の語を含む文字列を除去し、残りの頻出文字列の集合を削除規則DB1として出力する。例では「マクドナルド」が削除対象外(の文字列)となり、「レストラン」、「フレンチ/レストラン」の2つが削除規則(の文字列)として獲得される。
なお、削除対象外リスト31は、別途、予め作成しておくものとする。例えば、以下に当てはまる語を収集して作ることができる。
−実体データベースに登録されている一形態素からなる登録名を自動で抽出し、削除対象外リストに追加する。
−形態素解析用の辞書から「名詞−固有」である語を自動で抽出し、削除対象外リストに追加する。
−チェーン店の名前、ブランドの名前など、その分野で固有名として使用されている語を、インターネット上のブランド一覧ページなどを探して獲得し、削除対象外リストに追加する。
<削除表記DB及び登録削除表記−IDリスト対応表の作成>
次に、削除表記DB2及び登録削除表記−IDリスト対応表3の作成について説明する。
[1]まず、実体データベースから登録表記とIDを組で抽出する。
[2]次に、抽出した登録表記に削除規則DB1中の削除規則を適用して登録削除表記を作成し、当該登録削除表記とIDの組を登録削除表記−IDリスト対応表3とする。
[3]最後に、登録削除表記−IDリスト対応表3から登録削除表記のみを抽出して削除表記DB2を作成する。
<特徴語DBの作成>
手がかり語を集めた特徴語DB4は人手で作成することも可能であるが、数万、数十万の実体それぞれについての特徴語を人手で作ることは実用的ではないため、ここでは以下の方法で自動的に獲得した。
特徴語データベースは、
(a)もともとの実体データベースにある情報(店舗データベースであれば住所、電話番号など)、
(b)実体について書かれた文書集合から獲得した特徴語、
の二種類の情報を含む。
(a)は、自動的に実体データベースから抽出可能である。どの情報が使用できるかは入手できるデータベースに依存するため、どのフィールドを使用するかは人手で選択し、フィールドの抽出は自動で行う。データベースから抽出した特徴語の重み値は(b)よりも大きい値を仮定する。求め方には様々な方法が考えられるが、例えば、テストデータを用意して、その中で良い値を人手でチューニングする方法がある。
(b)は、まず実体について書かれた文書集合を、実体を一意に決定する語(例えば、店舗であれば電話番号)をキーワードとしてWebページを検索し、得られたページ集合を形態素解析した後、特徴語を抽出して特徴語データベースを作成する。特徴語として固有名、名詞、名詞連続(複合名詞)、形態素解析器が未知語と出力した語を使用した。この特徴語にどういう重み値を付与するかについては様々な方法があるが、例えば「複数の実体で使われる語は弁別能力が低い」という考えに基づき、1実体を1文書と考えたidfを使う。idfは以下の式で求める。
Figure 0005137140
但し、tは単語、Nは文書集合を獲得できた実体の総数、ef(t)は或る語tがいくつの実体で出現したかを示す。
<本発明の出現表記レコード同定装置の動作例>
次に、図12を参照して、本発明の出現表記レコード同定装置の動作について説明する。
[1]形態素解析及び固有表現抽出済みの入力文章と出現表記リストが入力である。
当初、出現表記リストが空ではない(s1)ので、候補生成手段8は、出現表記リストから出現表記を一つ、ここでは「中華敦煌」を取り出す(s2)。
[2]候補生成手段8では、取り出した出現表記「中華敦煌」に対し、不要箇所削除部11で、削除規則DB1中の削除規則を適用して削除表記を変換する(s3−1)。ここでは削除規則中の「中華」が適用され、出現表記「中華敦煌」から「中華」が削除されて「敦煌」が削除表記として得られる。
登録削除表記検索部12では、削除表記「敦煌」をキーとして削除表記DB2を検索し、当該削除表記「敦煌」を含む全ての登録削除表記を、登録削除表記の候補として取得する(s3−2)。ここでは削除表記「敦煌」を含む店舗である「敦煌」、「敦煌江坂店」、「....」が登録削除表記の候補として得られる。
候補獲得部13は、得られた登録削除表記の候補を入力とし、各登録削除表記をキーとして削除表記−IDリスト対応表3を辞書引きしてレコードIDを取得し、取得したレコードIDと登録削除表記の候補との対のリストを、候補IDリストとして得る(s3−3)。ここでは「敦煌,0xx−yyy−zzzz」、「敦煌,0x−qqqq−wwww」、「敦煌江坂店,0p−iiii−uuuu」の3対を候補IDリストとして獲得する。
[3]曖昧性解消手段10は、候補生成手段8で生成された候補IDリストと、形態素解析及び固有表現抽出済みの入力文章と、出現表記とを入力とする。
出現表記特徴語リスト生成部21では、形態素解析及び固有表現抽出処理済みの入力文章を入力とし、この入力文章から特徴語を抽出し、出現表記特徴語リストを生成する(s4−2)。ここでは「中華敦煌」に対して、「菊名、仕事、ランチ」が出現表記特徴語リストとして抽出される。
類似度計算部22では、候補生成手段8で得られた候補IDリストを入力とし、候補IDリスト中の各候補に対して、候補のIDをキーとして特徴語DB4を検索し、各候補の特徴語と重み値を取得して特徴語リストとする(s4−2)。ここでは「0xx−yyy−zzzz」をキーとして特徴語DB4を検索し、「菊名」という特徴語とその重み値10.5、「もやしそば」という特徴語とその重み値8.3などを獲得する。同様に「0x−qqqq−wwww」及び「0p−iiii−uuuu」に対しても、それぞれをキーとして特徴語DB4を検索し、特徴語リストを獲得する。
その後、類似度計算部22では、各候補の特徴語リストと、出現表記特徴語リスト生成部21で得た出現表記特徴語リストとの類似度をそれぞれ計算し、各候補とその類似度の対を生成する(s4−3)。類似度を求めるためには、例えば、cosine類似度を使用する。ここでは「0xx−yyy−zzzz」との類似度0.8、「0x−qqqq−wwww」との類似度は0.1となったとする。
解選択部23では、各候補とその類似度の対を入力とし、各候補とその類似度の対の中から、最も類似度の高い候補を一つ選択して信頼度判定部24に出力する(s4−4)。最も高い類似度を有する候補が複数存在する場合は、この出現表記と対応するレコードはないとして、出現表記のみを結果として出力する。ここでは「0xx−yyy−zzzz」が選択され、他に0.8の類似度を有する候補はないので信頼度判定に進む。
信頼度判定部24では、解選択部23で選択された候補を入力とし、その候補の信頼度を計算する(s4−5)。例えば、類似度計算部22で類似度を計算する過程で得られる、出現表記特徴語リスト及び各候補の特徴語リストで共通して出現している単語の重み値と、出現表記とその候補の登録削除表記がどれくらい表記として一致しているかにより信頼度を計算する。この場合の信頼度は以下の式になる。
Figure 0005137140
但し、w(t)は単語tの重み値、Ciは候補iの特徴語リスト、Xは出現表記特徴語リストである。
ここで、
Figure 0005137140
但し、mは削除表記、eは登録削除表記、EditDistance(m,e)はmとeとの編集距離、length(e)はeの文字数である。
ここでは「0xx−yyy−zzz」の信頼度は18.0であったとする。
信頼度判定部24では、前記求めた信頼度が所定の閾値以上かどうかを判定する(s4−6)。閾値以上であれば出現表記と解選択部23で選択された候補のレコードIDを出力し(s4−7)、そうでなければ出現表記のみを出力する(s4−8)。ここでは閾値10より高いため、出現表記「中華敦煌」及びID「0xx−yyy−zzzz」を出力する(s4−7)。
(s1)の処理に戻り、出現表記リストが空かどうかを判定する。この例では、まだ「喜楽」があるため空ではない。以下、同様の処理を繰り返し、出現表記リストが空になった時点で終了する。
1:削除規則データベース、2:削除表記データベース、3:削除表記−IDリスト対応表、4:特徴語データベース、5:処理済み入力文章記憶部、6:出現表記抽出手段、7:抽出済み出現表記リスト、8:候補生成手段、9:候補IDリスト、10:曖昧性解消手段、11:不要箇所削除部、12:登録削除表記検索部、13:候補獲得部、21:出現表記特徴語リスト生成部、22:類似度計算部、23:解選択部、24:信頼度判定部、31:削除対象外リスト、32:区切り入り文字列変換部、33:頻出文字列獲得部、34:除外リスト適用部。

Claims (10)

  1. 実体を表す表記のうち入力文章中に出現する出現表記であって当該入力文章に対して形態素解析及び固有表現抽出処理を行うことにより抽出された出現表記を、実体を表す表記のうち当該実体に関する実体データベースに登録されている登録表記に対応付け、当該登録表記を含むレコードを同定する装置であって、
    出現表記または登録表記中の不要部分を削除するための所定の削除規則を登録した削除規則データベースと、
    一のレコード中に登録表記とレコードIDとを少なくとも含む実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記を登録した削除表記データベースと、
    前記実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記をそのレコードIDとともに登録した削除表記−IDリスト対応表と、
    前記実体データベース中の各レコードに対する特徴語の集合をそれぞれの重要度を表す重み値とともに各レコードIDに対応付けて登録した特徴語データベースと、
    形態素解析及び固有表現抽出処理済みの入力文章から抽出された出現表記に対して前記削除規則データベース中の所定の削除規則を適用して削除表記に変換し、前記削除表記データベースから当該削除表記を含む登録削除表記を検索して前記出現表記に対する登録削除表記の候補として取得し、当該登録削除表記の候補に対応するレコードIDを前記削除表記−IDリスト対応表から取得して登録削除表記の候補とそのレコードIDとの対のリストからなる前記出現表記に対する候補IDリストを生成する候補生成手段と、
    前記形態素解析及び固有表現抽出処理済みの入力文章から特徴語を抽出して出現表記特徴語リストを生成し、前記候補IDリスト中の各レコードIDをキーとして前記特徴語データベースを検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ求め、最も高い類似度を有する登録削除表記の候補の信頼度を前記特徴語の重み値及び前記出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードIDを前記出現表記とともに出力する曖昧性解消手段とを備えた
    ことを特徴とする出現表記レコード同定装置。
  2. 請求項1に記載の出現表記レコード同定装置において、
    候補生成手段は、
    形態素解析及び固有表現抽出処理済みの入力文章から抽出された出現表記に対して削除規則データベース中の所定の削除規則を適用して削除表記に変換する不要箇所削除部と、
    変換後の削除表記をキーとして削除表記データベースを検索し、当該削除表記を含む全ての登録削除表記を、前記出現表記に対する登録削除表記の候補として取得する登録削除表記検索部と、
    前記登録削除表記の候補に対応するレコードIDを削除表記−IDリスト対応表から取得し、当該登録削除表記の候補とそのレコードIDとの対のリストからなる前記出現表記に対する候補IDリストを生成する候補獲得部とからなる
    ことを特徴とする出現表記レコード同定装置。
  3. 請求項1に記載の出現表記レコード同定装置において、
    曖昧性解消手段は、
    前記形態素解析及び固有表現抽出処理済みの入力文章から特徴語を抽出して出現表記特徴語リストを生成する出現表記特徴語リスト生成部と、
    候補IDリスト中の各レコードIDをキーとして特徴語データベースを検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ計算する類似度計算部と、
    前記登録削除表記の候補のうち類似度が最も高い候補を選択する解選択部と、
    前記選択された登録削除表記の候補の信頼度を前記特徴語の重み値及び出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードIDを前記出現表記とともに出力する信頼度判定部とからなる
    ことを特徴とする出現表記レコード同定装置。
  4. 請求項1乃至3のいずれかに記載の出現表記レコード同定装置で使用される所定の削除規則を生成する装置であって、
    削除対象外の文字列を登録してなる削除対象外リストと、
    実体データベースの全てのレコードの登録表記について形態素解析処理を行い、形態素毎に区切りが入った区切り入り文字列に変換する区切り入り文字列変換部と、
    前記区切り入り文字列の集合から頻出する文字列を獲得する頻出文字列獲得部と、
    前記獲得された頻出文字列の集合のうち、削除対象外リストに登録されている文字列を含む頻出文字列を削除し、残りの頻出文字列の集合を所定の削除規則として出力する除外リスト適用部とを備えた
    ことを特徴とする削除規則生成装置。
  5. 実体を表す表記のうち入力文章中に出現する出現表記であって当該入力文章に対して形態素解析及び固有表現抽出処理を行うことにより抽出された出現表記を、実体を表す表記のうち当該実体に関する実体データベースに登録されている登録表記に対応付け、当該登録表記を含むレコードを同定する方法であって、
    出現表記または登録表記中の不要部分を削除するための所定の削除規則を登録した削除規則データベースと、
    一のレコード中に登録表記とレコードIDとを少なくとも含む実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記を登録した削除表記データベースと、
    前記実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記をそのレコードIDとともに登録した削除表記−IDリスト対応表と、
    前記実体データベース中の各レコードに対する特徴語の集合をそれぞれの重要度を表す重み値とともに各レコードIDに対応付けて登録した特徴語データベースとを用い、
    候補生成手段が、形態素解析及び固有表現抽出処理済みの入力文章から抽出された出現表記に対して前記削除規則データベース中の所定の削除規則を適用して削除表記に変換し、前記削除表記データベースから当該削除表記を含む登録削除表記を検索して前記出現表記に対する登録削除表記の候補として取得し、当該登録削除表記の候補に対応するレコードIDを前記削除表記−IDリスト対応表から取得して登録削除表記の候補とそのレコードIDとの対のリストからなる前記出現表記に対する候補IDリストを生成する工程と、
    曖昧性解消手段が、前記形態素解析及び固有表現抽出処理済みの入力文章から特徴語を抽出して出現表記特徴語リストを生成し、前記候補IDリスト中の各レコードIDをキーとして前記特徴語データベースを検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ求め、最も高い類似度を有する登録削除表記の候補の信頼度を前記特徴語の重み値及び前記出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードIDを前記出現表記とともに出力する工程とを含む
    ことを特徴とする出現表記レコード同定方法。
  6. 請求項5に記載の出現表記レコード同定方法において、
    候補生成工程は、
    不要箇所削除部が、形態素解析及び固有表現抽出処理済みの入力文章から抽出された出現表記に対して削除規則データベース中の所定の削除規則を適用して削除表記に変換する工程と、
    登録削除表記検索部が、変換後の削除表記をキーとして削除表記データベースを検索し、当該削除表記を含む全ての登録削除表記を、前記出現表記に対する登録削除表記の候補として取得する工程と、
    候補獲得部が、前記登録削除表記の候補に対応するレコードIDを削除表記−IDリスト対応表から取得し、当該登録削除表記の候補とそのレコードIDとの対のリストからなる前記出現表記に対する候補IDリストを生成する工程とを含む
    ことを特徴とする出現表記レコード同定方法。
  7. 請求項5に記載の出現表記レコード同定方法において、
    曖昧性解消工程は、
    出現表記特徴語リスト生成部が、前記形態素解析及び固有表現抽出処理済みの入力文章から特徴語を抽出して出現表記特徴語リストを生成する工程と、
    類似度計算部が、候補IDリスト中の各レコードIDをキーとして特徴語データベースを検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ計算する工程と、
    解選択部が、前記登録削除表記の候補のうち類似度が最も高い候補を選択する工程と、
    信頼度判定部が、前記選択された登録削除表記の候補の信頼度を前記特徴語の重み値及び出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードIDを前記出現表記とともに出力する工程とを含む
    ことを特徴とする出現表記レコード同定方法。
  8. 請求項5乃至7のいずれかに記載の出現表記レコード同定方法で使用される所定の削除規則を生成する方法であって、
    削除対象外の文字列を登録してなる削除対象外リストを用い、
    区切り入り文字列変換部が、実体データベースの全てのレコードの登録表記について形態素解析処理を行い、形態素毎に区切りが入った区切り入り文字列に変換する工程と、
    頻出文字列獲得部が、前記区切り入り文字列の集合から頻出する文字列を獲得する工程と、
    除外リスト適用部が、前記獲得された頻出文字列の集合のうち、削除対象外リストに登録されている文字列を含む頻出文字列を削除し、残りの頻出文字列の集合を所定の削除規則として出力する工程とを含む
    ことを特徴とする削除規則生成方法。
  9. コンピュータを、請求項1乃至4のいずれかに記載の装置の各手段として機能させるためのプログラム。
  10. 請求項9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2009024891A 2009-02-05 2009-02-05 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 Active JP5137140B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009024891A JP5137140B2 (ja) 2009-02-05 2009-02-05 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009024891A JP5137140B2 (ja) 2009-02-05 2009-02-05 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2010182082A JP2010182082A (ja) 2010-08-19
JP5137140B2 true JP5137140B2 (ja) 2013-02-06

Family

ID=42763638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009024891A Active JP5137140B2 (ja) 2009-02-05 2009-02-05 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5137140B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013220176A1 (de) 2013-10-07 2015-04-23 Robert Bosch Gmbh Vorrichtung und Verfahren zum Bestimmen eines Zustands eines zu überwachenden Objekts

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4900947B2 (ja) * 2007-02-22 2012-03-21 日本電信電話株式会社 略語抽出方法、略語抽出装置およびプログラム

Also Published As

Publication number Publication date
JP2010182082A (ja) 2010-08-19

Similar Documents

Publication Publication Date Title
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
JP2016522524A (ja) 同義表現の探知及び関連コンテンツを検索する方法及び装置
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
WO2008014702A1 (fr) Procédé et système d'extraction de mots nouveaux
CN107102983B (zh) 一种基于网络知识源的中文概念的词向量表示方法
CN111104801A (zh) 基于网址域名的文本分词方法、***、设备及介质
JP2011204225A (ja) 属性抽出装置および方法
CN105404677A (zh) 一种基于树形结构的检索方法
JP2007219620A (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
JP2009205357A (ja) 中国語の品詞を判定する装置、方法およびプログラム
JP2011028379A (ja) データ構造変換プログラムおよびデータ構造変換装置
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
JP5137140B2 (ja) 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体
Thangarasu et al. Design and development of stemmer for Tamil language: cluster analysis
JP2008204399A (ja) 略語抽出方法、略語抽出装置およびプログラム
CN105426490A (zh) 一种基于树形结构的索引方法
JP4693065B2 (ja) 人名表現同定装置、その方法、プログラム及び記録媒体
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5182960B2 (ja) 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
JP2009282903A (ja) 知識抽出・検索装置およびその方法
CN112257408A (zh) 一种文本对比的方法及相关装置
JP6632564B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム
JP2009266110A (ja) 情報処理装置、姓名識別方法、情報処理システム、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100518

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101215

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110615

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121107

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121108

R150 Certificate of patent or registration of utility model

Ref document number: 5137140

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151122

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350