JP5137140B2 - 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 - Google Patents
出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP5137140B2 JP5137140B2 JP2009024891A JP2009024891A JP5137140B2 JP 5137140 B2 JP5137140 B2 JP 5137140B2 JP 2009024891 A JP2009024891 A JP 2009024891A JP 2009024891 A JP2009024891 A JP 2009024891A JP 5137140 B2 JP5137140 B2 JP 5137140B2
- Authority
- JP
- Japan
- Prior art keywords
- notation
- deletion
- appearance
- candidate
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
従来、この種の技術としては、非特許文献1に記載されたものがある。非特許文献1では、本発明でいう「実体データベース」としてwikipediaを選び、各出現表記がwikipediaのどのページに対応するかを同定する問題を解いている。この手法では、入力文章中の出現表記を対象に、予め自動的にwikipediaから作成しておいたsurface−entity(出現表記−登録表記)のリストから候補を取得し、前記出現表記の周りに出現した特徴語から対応する実体のIDを推定する。
基本的に、出現表記は登録表記の一部(例えば、「みずほ銀行」では「みずほ」、「いけや食堂」では「いけや」など)、愛称、英語名であればカタカナ表記などであることが多く、愛称やカタカナ表記に関しては、予め対応表(例えば、「マック」→「マクドナルド」)を用意しておき、辞書引きで対応することができる。一方、出現表記が登録表記の一部である場合、既に良く知られている文字列検索の手法により候補を取得できるが、出現表記に修飾語が付与される(例えば、「カナ」という店舗名に「ビストロ」が付く)ことがあり、登録表記のほうが逆に出現表記の一部になることがある。
本装置は、形態素解析及び固有表現抽出処理済みの入力文章と当該処理済みの入力文章から抽出された出現表記のリストとが入力されたときに、出現表記に対して不要部分を削除した削除表記を作成し、この削除表記を含む登録表記を実体データベースから候補として取得する候補生成手段と、当該候補の信頼度を計算して閾値未満であれば棄却する曖昧性解消手段とを備えた、出現表記と実体データベースのレコードとの対応付けを行う装置である。
実体データベースは、一のレコード中に登録表記とレコードIDとを少なくとも含むもので、予め用意されていると仮定する(例えば、タウンページ、企業データベースなど)(なお、ここでいう「レコードID」とは、データベースのレコードを一意に識別可能なものであれば何でも良く、必ずしも連番のものである必要はない。)。但し、実体データベース自体が本装置の中でそのまま使用されることはなく、この実体データベースを基に、各種のデータベースが作成されて使用される。
・候補生成手段により、出現表記−IDの対応リストがなくても出現表記から可能性のある実体のID集合を生成することができ(従来技術で出来なかった点を本発明で解決した)、
・さらに、候補生成手段を導入することで、データベースに登録されている実体が、どういう表記で実際の文章中に出現するかを予め知らなくても出現表記から実体の候補を獲得でき、
・曖昧性解消手段により、より信頼できる結果を得ることができるようになり、出現表記からデータベースのレコードへの対応づけを高精度で行うことができる。
まず、図11を参照して、削除規則DB1の作成について説明する。
次に、削除表記DB2及び登録削除表記−IDリスト対応表3の作成について説明する。
手がかり語を集めた特徴語DB4は人手で作成することも可能であるが、数万、数十万の実体それぞれについての特徴語を人手で作ることは実用的ではないため、ここでは以下の方法で自動的に獲得した。
(a)もともとの実体データベースにある情報(店舗データベースであれば住所、電話番号など)、
(b)実体について書かれた文書集合から獲得した特徴語、
の二種類の情報を含む。
次に、図12を参照して、本発明の出現表記レコード同定装置の動作について説明する。
Claims (10)
- 実体を表す表記のうち入力文章中に出現する出現表記であって当該入力文章に対して形態素解析及び固有表現抽出処理を行うことにより抽出された出現表記を、実体を表す表記のうち当該実体に関する実体データベースに登録されている登録表記に対応付け、当該登録表記を含むレコードを同定する装置であって、
出現表記または登録表記中の不要部分を削除するための所定の削除規則を登録した削除規則データベースと、
一のレコード中に登録表記とレコードIDとを少なくとも含む実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記を登録した削除表記データベースと、
前記実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記をそのレコードIDとともに登録した削除表記−IDリスト対応表と、
前記実体データベース中の各レコードに対する特徴語の集合をそれぞれの重要度を表す重み値とともに各レコードIDに対応付けて登録した特徴語データベースと、
形態素解析及び固有表現抽出処理済みの入力文章から抽出された出現表記に対して前記削除規則データベース中の所定の削除規則を適用して削除表記に変換し、前記削除表記データベースから当該削除表記を含む登録削除表記を検索して前記出現表記に対する登録削除表記の候補として取得し、当該登録削除表記の候補に対応するレコードIDを前記削除表記−IDリスト対応表から取得して登録削除表記の候補とそのレコードIDとの対のリストからなる前記出現表記に対する候補IDリストを生成する候補生成手段と、
前記形態素解析及び固有表現抽出処理済みの入力文章から特徴語を抽出して出現表記特徴語リストを生成し、前記候補IDリスト中の各レコードIDをキーとして前記特徴語データベースを検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ求め、最も高い類似度を有する登録削除表記の候補の信頼度を前記特徴語の重み値及び前記出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードIDを前記出現表記とともに出力する曖昧性解消手段とを備えた
ことを特徴とする出現表記レコード同定装置。 - 請求項1に記載の出現表記レコード同定装置において、
候補生成手段は、
形態素解析及び固有表現抽出処理済みの入力文章から抽出された出現表記に対して削除規則データベース中の所定の削除規則を適用して削除表記に変換する不要箇所削除部と、
変換後の削除表記をキーとして削除表記データベースを検索し、当該削除表記を含む全ての登録削除表記を、前記出現表記に対する登録削除表記の候補として取得する登録削除表記検索部と、
前記登録削除表記の候補に対応するレコードIDを削除表記−IDリスト対応表から取得し、当該登録削除表記の候補とそのレコードIDとの対のリストからなる前記出現表記に対する候補IDリストを生成する候補獲得部とからなる
ことを特徴とする出現表記レコード同定装置。 - 請求項1に記載の出現表記レコード同定装置において、
曖昧性解消手段は、
前記形態素解析及び固有表現抽出処理済みの入力文章から特徴語を抽出して出現表記特徴語リストを生成する出現表記特徴語リスト生成部と、
候補IDリスト中の各レコードIDをキーとして特徴語データベースを検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ計算する類似度計算部と、
前記登録削除表記の候補のうち類似度が最も高い候補を選択する解選択部と、
前記選択された登録削除表記の候補の信頼度を前記特徴語の重み値及び出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードIDを前記出現表記とともに出力する信頼度判定部とからなる
ことを特徴とする出現表記レコード同定装置。 - 請求項1乃至3のいずれかに記載の出現表記レコード同定装置で使用される所定の削除規則を生成する装置であって、
削除対象外の文字列を登録してなる削除対象外リストと、
実体データベースの全てのレコードの登録表記について形態素解析処理を行い、形態素毎に区切りが入った区切り入り文字列に変換する区切り入り文字列変換部と、
前記区切り入り文字列の集合から頻出する文字列を獲得する頻出文字列獲得部と、
前記獲得された頻出文字列の集合のうち、削除対象外リストに登録されている文字列を含む頻出文字列を削除し、残りの頻出文字列の集合を所定の削除規則として出力する除外リスト適用部とを備えた
ことを特徴とする削除規則生成装置。 - 実体を表す表記のうち入力文章中に出現する出現表記であって当該入力文章に対して形態素解析及び固有表現抽出処理を行うことにより抽出された出現表記を、実体を表す表記のうち当該実体に関する実体データベースに登録されている登録表記に対応付け、当該登録表記を含むレコードを同定する方法であって、
出現表記または登録表記中の不要部分を削除するための所定の削除規則を登録した削除規則データベースと、
一のレコード中に登録表記とレコードIDとを少なくとも含む実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記を登録した削除表記データベースと、
前記実体データベースの各レコードの登録表記に対して前記削除規則データベース中の所定の削除規則を適用して作成した登録削除表記をそのレコードIDとともに登録した削除表記−IDリスト対応表と、
前記実体データベース中の各レコードに対する特徴語の集合をそれぞれの重要度を表す重み値とともに各レコードIDに対応付けて登録した特徴語データベースとを用い、
候補生成手段が、形態素解析及び固有表現抽出処理済みの入力文章から抽出された出現表記に対して前記削除規則データベース中の所定の削除規則を適用して削除表記に変換し、前記削除表記データベースから当該削除表記を含む登録削除表記を検索して前記出現表記に対する登録削除表記の候補として取得し、当該登録削除表記の候補に対応するレコードIDを前記削除表記−IDリスト対応表から取得して登録削除表記の候補とそのレコードIDとの対のリストからなる前記出現表記に対する候補IDリストを生成する工程と、
曖昧性解消手段が、前記形態素解析及び固有表現抽出処理済みの入力文章から特徴語を抽出して出現表記特徴語リストを生成し、前記候補IDリスト中の各レコードIDをキーとして前記特徴語データベースを検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ求め、最も高い類似度を有する登録削除表記の候補の信頼度を前記特徴語の重み値及び前記出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードIDを前記出現表記とともに出力する工程とを含む
ことを特徴とする出現表記レコード同定方法。 - 請求項5に記載の出現表記レコード同定方法において、
候補生成工程は、
不要箇所削除部が、形態素解析及び固有表現抽出処理済みの入力文章から抽出された出現表記に対して削除規則データベース中の所定の削除規則を適用して削除表記に変換する工程と、
登録削除表記検索部が、変換後の削除表記をキーとして削除表記データベースを検索し、当該削除表記を含む全ての登録削除表記を、前記出現表記に対する登録削除表記の候補として取得する工程と、
候補獲得部が、前記登録削除表記の候補に対応するレコードIDを削除表記−IDリスト対応表から取得し、当該登録削除表記の候補とそのレコードIDとの対のリストからなる前記出現表記に対する候補IDリストを生成する工程とを含む
ことを特徴とする出現表記レコード同定方法。 - 請求項5に記載の出現表記レコード同定方法において、
曖昧性解消工程は、
出現表記特徴語リスト生成部が、前記形態素解析及び固有表現抽出処理済みの入力文章から特徴語を抽出して出現表記特徴語リストを生成する工程と、
類似度計算部が、候補IDリスト中の各レコードIDをキーとして特徴語データベースを検索し、特徴語とその重み値を取得して登録削除表記の候補毎の特徴語リストを生成し、当該候補毎の特徴語リストと前記出現表記特徴語リストとの類似度をそれぞれ計算する工程と、
解選択部が、前記登録削除表記の候補のうち類似度が最も高い候補を選択する工程と、
信頼度判定部が、前記選択された登録削除表記の候補の信頼度を前記特徴語の重み値及び出現表記に対する表記の類似性に基づいて算出し、所定の閾値以上であれば当該登録削除表記の候補のレコードIDを前記出現表記とともに出力する工程とを含む
ことを特徴とする出現表記レコード同定方法。 - 請求項5乃至7のいずれかに記載の出現表記レコード同定方法で使用される所定の削除規則を生成する方法であって、
削除対象外の文字列を登録してなる削除対象外リストを用い、
区切り入り文字列変換部が、実体データベースの全てのレコードの登録表記について形態素解析処理を行い、形態素毎に区切りが入った区切り入り文字列に変換する工程と、
頻出文字列獲得部が、前記区切り入り文字列の集合から頻出する文字列を獲得する工程と、
除外リスト適用部が、前記獲得された頻出文字列の集合のうち、削除対象外リストに登録されている文字列を含む頻出文字列を削除し、残りの頻出文字列の集合を所定の削除規則として出力する工程とを含む
ことを特徴とする削除規則生成方法。 - コンピュータを、請求項1乃至4のいずれかに記載の装置の各手段として機能させるためのプログラム。
- 請求項9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009024891A JP5137140B2 (ja) | 2009-02-05 | 2009-02-05 | 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009024891A JP5137140B2 (ja) | 2009-02-05 | 2009-02-05 | 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010182082A JP2010182082A (ja) | 2010-08-19 |
JP5137140B2 true JP5137140B2 (ja) | 2013-02-06 |
Family
ID=42763638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009024891A Active JP5137140B2 (ja) | 2009-02-05 | 2009-02-05 | 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5137140B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013220176A1 (de) | 2013-10-07 | 2015-04-23 | Robert Bosch Gmbh | Vorrichtung und Verfahren zum Bestimmen eines Zustands eines zu überwachenden Objekts |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4900947B2 (ja) * | 2007-02-22 | 2012-03-21 | 日本電信電話株式会社 | 略語抽出方法、略語抽出装置およびプログラム |
-
2009
- 2009-02-05 JP JP2009024891A patent/JP5137140B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010182082A (ja) | 2010-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8055498B2 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
JP2016522524A (ja) | 同義表現の探知及び関連コンテンツを検索する方法及び装置 | |
JP2007257644A (ja) | 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置 | |
WO2008014702A1 (fr) | Procédé et système d'extraction de mots nouveaux | |
CN107102983B (zh) | 一种基于网络知识源的中文概念的词向量表示方法 | |
CN111104801A (zh) | 基于网址域名的文本分词方法、***、设备及介质 | |
JP2011204225A (ja) | 属性抽出装置および方法 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
JP2007219620A (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
JP2009205357A (ja) | 中国語の品詞を判定する装置、方法およびプログラム | |
JP2011028379A (ja) | データ構造変換プログラムおよびデータ構造変換装置 | |
KR101663038B1 (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
JP5137140B2 (ja) | 出現表記レコード同定装置、削除規則生成装置、その方法、プログラム及び記録媒体 | |
Thangarasu et al. | Design and development of stemmer for Tamil language: cluster analysis | |
JP2008204399A (ja) | 略語抽出方法、略語抽出装置およびプログラム | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
JP4693065B2 (ja) | 人名表現同定装置、その方法、プログラム及び記録媒体 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5182960B2 (ja) | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 | |
KR100659370B1 (ko) | 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법 | |
JP2009282903A (ja) | 知識抽出・検索装置およびその方法 | |
CN112257408A (zh) | 一种文本对比的方法及相关装置 | |
JP6632564B2 (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム | |
JP2009266110A (ja) | 情報処理装置、姓名識別方法、情報処理システム、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100518 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101215 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120904 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121107 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5137140 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151122 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |