JP3502537B2 - インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体 - Google Patents

インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体

Info

Publication number
JP3502537B2
JP3502537B2 JP00246498A JP246498A JP3502537B2 JP 3502537 B2 JP3502537 B2 JP 3502537B2 JP 00246498 A JP00246498 A JP 00246498A JP 246498 A JP246498 A JP 246498A JP 3502537 B2 JP3502537 B2 JP 3502537B2
Authority
JP
Japan
Prior art keywords
index
term
derived
record
derivation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP00246498A
Other languages
English (en)
Other versions
JPH11203296A (ja
Inventor
雅博 奥
良輔 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP00246498A priority Critical patent/JP3502537B2/ja
Publication of JPH11203296A publication Critical patent/JPH11203296A/ja
Application granted granted Critical
Publication of JP3502537B2 publication Critical patent/JP3502537B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、予め付与された検
索用インデックスより新たな検索用インデックスを派生
させる際の派生数を抑えることのできるインデックス派
生装置及びその方法並びにインデックス派生プログラム
を記録したコンピュータ読み取り可能な媒体に関するも
のである。
【0002】
【従来の技術】発明者らは、1レコードに対して1つの
用語が検索用インデックスとして予め付与されているデ
ータベース(原データベース)において、この検索用イ
ンデックスより新たなインデックスを派生し、これを新
たな検索用インデックスとして付加することにより、デ
ータベースの検索効率を向上させ得る技術について提案
した(特願平8−331039号)。
【0003】前記技術では、原データベースの各レコー
ドに検索用インデックスとして付与されている用語(原
インデックス用語)を単語単位に区切る形態素解析を行
い、前記解析の結果、得られた各単語を始まりとする用
語(派生インデックス用語)を、前記原インデックス用
語から各始まりの単語以降を抜き出すことによって作成
する階段状レコード派生を行うとともに、前記形態素解
析の結果、得られた各単語のうち、原インデックス用語
において末尾に位置する単語の原データベースの原イン
デックス用語全体に亘る出現頻度を調べ、これら出現頻
度の高い単語と完全に一致する用語を新たな検索用イン
デックスから削除することによって、不要なインデック
スの派生を抑えるようになしていた。
【0004】
【発明が解決しようとする課題】しかしながら、このよ
うな技術では、(1)複数の単語から構成される用語で
あって、そのうちの1つでも出現頻度が低ければ削除さ
れず、検索の際に不要なインデックスも残ってしまう、
(2)出現頻度の高いインデックスを削除するため、同
字異義語(同じ単語が別の意味で使われている場合)を
区別なく削除してしまい、インデックスとして必要なも
のまで削除してしまう恐れがある、という問題点があっ
た。
【0005】本発明の目的は、複数の単語から構成され
る用語も高頻度であれば削除することができ、さらに同
字異義語を区別して削除するか否かを決定でき、不要な
インデックスの派生を効果的に防止し得るインデックス
派生装置及びその方法並びにインデックス派生プログラ
ムを記録したコンピュータ読み取り可能な媒体を提供す
ることにある。
【0006】
【課題を解決するための手段】本発明では、前記課題を
解決するため、原データベースの各レコードに検索用イ
ンデックスとして付与されている用語(原インデックス
用語)を単語単位に区切る形態素解析を行う形態素解析
手段と、前記解析の結果、得られた各単語を始まりとす
る用語(派生インデックス用語)を、前記原インデック
ス用語から各始まりの単語以降を抜き出すことによって
作成する階段状レコード派生手段とを備え、前記作成さ
れた派生インデックス用語のうちの少なくとも1つの派
生インデックス用語を新たな検索用インデックスとして
持つレコードを蓄積して検索対象データベースを作成す
るデータベース作成装置におけるインデックス派生装置
において、階段状レコード派生手段にて派生インデック
ス用語を作成する際、該派生インデックス用語がどの原
インデックス用語から派生されたかを示す派生元情報を
付与する派生元情報付与手段と、前記派生インデックス
用語のデータベース全体に亘る出現頻度を調べる用語集
計手段と、出現頻度の高い用語の前方に位置する単語
(前方位置単語)を派生元情報より得られる原インデッ
クス用語から取得する前方位置単語取得手段と、該前方
位置単語の形態素情報の内容によって該当する派生イン
デックス用語を前記検索用インデックスから削除すべき
か否かを決定し、削除すべき派生インデックス用語を前
記検索用インデックスから削除する不要レコード決定手
段とからなる不要レコード削除手段とを備えたことを特
徴とする。
【0007】 前記構成によれば、単語よりも大きな単
位で出現頻度の高いレコードを削除でき、これによって
複数の単語から構成される用語も高頻度であれば削除す
ることができるとともに、複数の単語から構成される用
語全体の成り立ちに応じて、即ち同字異義語を区別して
削除するか否かを決定できる
【0008】
【0009】
【0010】なお、この際、形態素情報をキーとして有
し、派生インデックス用語の前方位置単語の形態素情報
の内容によって削除条件を表現したルールからなる不要
レコード決定ルール群を参照して、削除すべき派生イン
デックス用語を決定するようにしても良い。
【0011】 [実施の形態1 1は本発明のインデックス派生装置の第1の実施の形
(但し、特許請求の範囲には含まれない。)を示すも
ので、図中、1は原データベース、2は検索用インデッ
クス、3は検索対象データベース、10はインデックス
派生装置である。
【0012】原データベース1は、1レコードに対して
1つの用語が検索用インデックス(検索キー)として付
与されている、インデックス派生対象となるデータベー
スである。検索用インデックス2は、原データベース1
をインデックス派生装置10で処理して発生した、目的
とするインデックスである。検索対象データベース3
は、原データベース1に検索用インデックス2を付加し
たデータベースである。
【0013】インデックス派生装置10は、データ読み
込み部11、形態素解析部12、階段状レコード派生部
13、用語集計部14、頻出用語表15、不要レコード
削除部16及び情報出力部17から構成されている。
【0014】データ読み込み部11は、原データベース
1から情報を1レコードずつを読み込む。形態素解析部
12は、データ読み込み部11で読み込んだ情報、即ち
原データベースの各レコードに検索用インデックスとし
て付与されている用語(原インデックス用語)を単語単
位に区切る。階段状レコード派生部13は、形態素解析
部12で得られた各単語を始まりとする派生インデック
ス用語(階段状のレコード)を、前記原インデックス用
語から各始まりの単語以降を抜き出すことによって作成
する。
【0015】用語集計部14は、階段状レコード派生部
13で得られた各派生インデックス用語(階段状のレコ
ード)のデータベース全体に亘る出現頻度をその字面あ
るいは字面と前記形態素情報とのペアを単位として集計
し、各用語の出現頻度を蓄積した頻出用語表15を作成
する。不要レコード削除部16は、頻出用語表15を参
照し、出現頻度の高い用語と完全に一致する派生インデ
ックス用語あるいは出現頻度の高いペアと完全に一致す
る字面と形態素情報とを有する派生インデックス用語を
前記検索用インデックスから削除する。情報出力部17
は、検索用インデックスを出力する。
【0016】なお、インデックス派生装置10は、CP
U、メモリ、外部記憶装置等のハードウェアとともに、
図2の動作フローチャートに示される手順を備えたソフ
トウェア(プログラム)で実現される。
【0017】以下、図2に従って本装置の動作を説明す
る。
【0018】(ステップs1)データ読み込み部11で
は、原データベース1から1データレコード(原インデ
ックス用語)を読み込む。さらに読み込んだデータレコ
ードを形態素解析部12に送る。
【0019】(ステップs2)形態素解析部12では抽
出されたデータレコードを形態素解析し、構成単語に分
けるとともに各単語に品詞等の形態素情報を付与する。
さらにこの結果を階段状レコード派生部13に送る。
【0020】(ステップs3)階段状レコード派生部1
3では、送られてきた形態素解析結果から現在処理中の
データレコードの単語数を数え、その値をnに設定す
る。さらに初期値として削除単語数kに0を設定する。
【0021】(ステップs4)次に、送られてきたデー
タレコードと形態素解析結果とをもとに、先頭からk個
を取り除いた残りの情報を持つレコード(派生インデッ
クス用語)を派生させ、メモリに蓄積する。
【0022】(ステップs5)削除単語数kがn−1
(全単語数よりも1だけ少ない)に一致するか否かで処
理を分ける。等しくない場合にはステップs6へ、等し
い場合にはステップs7に移る。
【0023】(ステップs6)削除単語数kに1を加え
て(k=k+1)、ステップs4に戻る。
【0024】(ステップs7)原データベース1の全て
のデータレコードを処理したか否かで処理を分ける。未
処理データレコードがある場合には制御をデータ読み込
み部11に移してステップs8へ、全てのデータレコー
ドを処理し終わっている場合には制御を用語集計部14
に移してステップs9へ進む。
【0025】(ステップs8)データ読み込み部11で
は原データベース1から次のデータレコードを読み込
み、さらに読み込んだデータレコードを形態素解析部1
2に送り、ステップs2に戻る。
【0026】(ステップs9) 用語集計部14では、原データベース1全体の処理の
後、ステップs4でメモリに蓄積されている派生レコー
ドを、その字面あるいはその字面と形態素情報とのペ
集計する。
【0027】(ステップs10) さらに用語集計部14では、集計結果をもとに少なくと
も字面、出現頻度の2つの組あるいは字面、形態素情
報、出現頻度の3つの組を持つ頻出用語表15を作成す
る。
【0028】(ステップs11)不要レコード削除部1
6では、頻出用語表15を参照して頻出用語を不要レコ
ードとしてメモリに蓄積されている派生レコード中から
削除し、制御を情報出力部17に移す。情報出力部17
では、メモリに残った派生レコードを検索用インデック
ス2に出力する。
【0029】以上の処理によって、形態素情報まで一致
する頻出用語のみを検索用インデックスから削除するの
で、インデックスとして必要なものを正しく残すことが
できる。また、用語集計を単語単位ではなく用語単位に
行うことによって、2つ以上の単語からなる用語であっ
てもその用語が派生レコード中で頻出すれば不要レコー
ドとして削除することができる。
【0030】 [実施の形態2 3は本発明のインデックス派生装置の第2の実施の形
態を示すもので、図中、図1と同一構成部分は同一符号
をもって表す。即ち、1は原データベース、2は検索用
インデックス、3は検索対象データベース、20はイン
デックス派生装置である。
【0031】インデックス派生装置20は、データ読み
込み部11、形態素解析部12、用語集計部14、頻出
用語表15、情報出力部17、階段状レコード派生部2
1、派生元情報付与部22、不要レコード削除部23及
び不要レコード決定ルール群24から構成されている。
【0032】階段状レコード派生部21は、形態素解析
部12で得られた各単語を始まりとする派生インデック
ス用語(階段状のレコード)を、前記原インデックス用
語から各始まりの単語以降を抜き出すことによって作成
するとともに、派生元情報付与部22を呼び出し、各派
生インデックス用語に対して該派生インデックス用語が
どの原インデックス用語から派生されたかを示す派生元
情報を付与させ、さらに派生インデックス用語とその派
生元情報とをメモリに蓄積する。
【0033】派生元情報付与部22は、派生インデック
ス用語に派生元情報を付与する。
【0034】不要レコード削除部23は、出現頻度の高
い用語の前方に位置する単語(前方位置単語)を派生元
情報より得られる原インデックス用語から取得する前方
位置単語取得部231と、頻出用語表15及び不要レコ
ード決定ルール群24を参照し、前方位置単語の形態素
情報の内容によって該当する派生インデックス用語を前
記検索用インデックスから削除すべきか否かを決定し、
削除すべき派生インデックス用語を前記検索用インデッ
クスから削除する不要レコード決定部232とからなっ
ている。
【0035】不要レコード決定ルール群24は、形態素
情報をキーとして有し、派生インデックス用語の前方位
置単語の形態素情報の内容によって削除条件を表現した
複数のルールからなっている。
【0036】なお、インデックス派生装置20は、CP
U、メモリ、外部記憶装置等のハードウェアとともに、
図4、図5の動作フローチャートに示される手順を備え
たソフトウェア(プログラム)で実現される。
【0037】以下、図4、図5に従って本装置の動作を
説明する。
【0038】(ステップs21)データ読み込み部11
では、原データベース1から1データレコードを読み込
む。さらに読み込んだデータレコードを形態素解析部1
2に送る。
【0039】(ステップs22)形態素解析部12では
抽出されたデータレコードを形態素解析し、構成単語に
分けるとともに各単語に品詞等の形態素情報を付与す
る。さらにこの結果を階段状レコード派生部21に送
る。
【0040】(ステップs23)階段状レコード派生部
21では、送られてきた形態素解析結果から現在処理中
のデータレコードの単語数を数え、その値をnに設定す
る。さらに初期値として削除単語数kに0を設定する。
【0041】(ステップs24)また、階段状レコード
派生部21では、送られてきたデータレコードと形態素
解析結果とをもとに、先頭からk個を取り除いた残りの
情報を持つレコードを派生させる。また、階段状レコー
ド派生部21では、派生元情報付与部22を呼び出し、
派生レコードに対して該派生レコードの派生元情報を付
与する。さらに、階段状レコード派生部21では、派生
レコードとその派生元情報とをメモリに蓄積する。
【0042】(ステップs25)削除単語数kがn−1
(全単語数よりも1だけ少ない)に一致するか否かで処
理を分ける。等しくない場合にはステップs26へ、等
しい場合にはステップs27に移る。
【0043】(ステップs26)削除単語数kに1を加
えて(k=k+1)、ステップs24に戻る。
【0044】(ステップs27)原データベース1の全
てのデータレコードを処理したか否かで処理を分ける。
未処理データレコードがある場合には制御をデータ読み
込み部11に移してステップs28へ、全てのデータレ
コードを処理し終わっている場合には制御を用語集計部
14に移してステップs29へ進む。
【0045】(ステップs28)データ読み込み部11
では原データベース1から次のデータレコードを読み込
み、さらに読み込んだデータレコードを形態素解析部1
2に送り、ステップs22に戻る。
【0046】(ステップs29)用語集計部14では、
原データベース1全体の処理の後、ステップs24でメ
モリに蓄積されている派生レコードを、その字面あるい
はその字面と形態素情報とのペアで集計する。
【0047】(ステップs30)さらに用語集計部14
では、集計結果をもとに少なくとも字面、出現頻度の2
つの組あるいは字面、形態素情報、出現頻度の3つの組
を持つ頻出用語表15を作成する。
【0048】(ステップs31)不要レコード削除部2
3では、頻出用語表15、不要レコード決定ルール群2
4を参照して頻出用語を不要レコードとしてメモリに蓄
積されている派生レコード中から削除し、制御を情報出
力部17に移す。情報出力部17では、メモリに残った
派生レコードを検索用インデックス2に出力する。
【0049】図5は図4中のステップs31(不要レコ
ード削除処理)の詳細な動作フローチャートであり、以
下、これに従って動作を説明する。
【0050】(ステップs41)不要レコード削除部2
3を構成する前方位置単語取得部231では、まず、頻
出用語表15から頻出用語を1つ読み込む。
【0051】(ステップs42)次に、前方位置単語取
得部231では、該頻出用語の字面をキーにして階段状
レコード派生部21(ステップs24)でメモリに蓄積
した派生レコードを検索する。
【0052】(ステップs43)頻出用語の字面に一致
した派生レコードが存在したか否かで処理を分ける。存
在した場合にはステップs44に進み、存在しない場合
には次の頻出用語を処理するためにステップs41に戻
る。
【0053】(ステップs44)頻出用語の字面に一致
した派生レコード全てをそれらの派生元情報とともに読
み込む。
【0054】(ステップs45)ステップs44で読み
込んだ派生レコードのうちの1つを処理対象とする。
【0055】(ステップs46)前方位置単語取得部2
31では、処理対象とした派生レコードの持つ派生元情
報から前方位置単語に関する形態素情報を取得し、制御
を不要レコード決定部232に移す。
【0056】(ステップs47)不要レコード決定部2
32では、現在処理中の頻出用語の形態素情報で不要レ
コード決定ルール群24を検索する。
【0057】(ステップs48)一致した不要レコード
決定ルールが存在するか否かによって処理を分ける。存
在する場合にはステップs49に進み、存在しない場合
には次の派生レコードを処理するためにステップs51
に進む。
【0058】(ステップs49)現在処理対象としてい
る派生レコードの派生元情報から得られた前方位置単語
に関する形態素情報が、ステップs47で得られた不要
レコード決定ルールのいずれかに一致するか否か、即ち
削除すべきレコードであるか否かによって処理を分け
る。一致する、即ち削除すべきレコードである場合には
ステップs50に進み、一致しない、即ち削除すべきで
ないレコードである場合にはステップs51に進む。
【0059】(ステップ50)不要レコード決定部23
2では、不要レコード決定ルール群24に一致した派生
レコードをメモリから削除する。
【0060】(ステップs51)全ての派生レコードを
処理したか否かで処理を分ける。処理している場合には
ステップs52に進み、処理していない場合には次の派
生レコードを処理するために制御を前方位置単語取得部
231に移してステップs45に戻る。
【0061】(ステップs52)全ての頻出用語を処理
したか否かで処理を分ける。処理している場合には制御
を情報出力部17に移してステップs53に進み、処理
していない場合には次の頻出用語を処理するために制御
を前方位置単語取得部231に移してステップs41に
戻る。
【0062】(ステップs53)情報出力部17では、
上記の処理でメモリ上に残っている派生レコードを検索
用インデックス2に出力する。
【0063】以上の処理によって、頻出用語が元のデー
タレコード中でどのような単語の後に出現したか(不要
レコード決定ルール群24の記述)によって検索用イン
デックスから削除するか否かを決定するので、インデッ
クスとして必要なものを正しく残すことができる。ま
た、用語集計を単語単位ではなく用語単位に行うことに
よって、2以上の単語からなる用語であってもその用語
が派生レコード中で頻出すれば不要レコードとして削除
することができる。
【0064】 [具体例1 に、第1の実施の形態の装置の動作を具体例を挙げて
説明する。図6は実際の処理のようすを、また、図7は
頻出用語表15の一例をそれぞれ示すものである。
【0065】データ読み込み部11では、原データベー
ス1から1データレコードを読み込む。ここでは「スナ
ックセンター」を読み込んだとする。データ読み込み部
11では読み込んだデータレコード「スナックセンタ
ー」を形態素解析部12に送る(ステップs1)。
【0066】形態素解析部12では抽出されたデータレ
コード「スナックセンター」を形態素解析し、構成単語
に分けるとともに各単語に品詞等の形態素情報を付与す
る(図6の形態素解析)。さらにこの結果を階段状レコ
ード派生部13に送る(ステップs2)。
【0067】階段状レコード派生部13では、送られて
きた形態素解析結果から現在処理中のデータレコードの
単語数を数え、その値をnに設定する。「スナックセン
ター」は2つの単語から構成されているのでn=2とす
る。さらに初期値として削除単語数kに0を設定する
(ステップs3)。
【0068】次に、送られてきたデータレコード「スナ
ックセンター」と形態素解析結果とをもとに、先頭から
k=0個を取り除いた残りの情報、即ち「スナックセン
ター(冠称名、固有名詞)」を持つレコードを派生さ
せ、メモリに蓄積する(ステップs4)。
【0069】今、削除単語数k=0であって、n=2で
あるのでn−1=1となり、kはn−1に一致しないの
で(ステップs5)、削除単語数kに1を加えてk=1
とする(ステップs6)。
【0070】次に、送られてきたデータレコード「スナ
ックセンター」と形態素解析結果とをもとに、先頭から
k=1個を取り除いた残りの情報、即ち「センター(固
有名詞)」を持つレコードを派生させ、メモリに蓄積す
る(ステップs4)。
【0071】この際、削除単語数k=1であって、n=
2であるのでn−1=1となり、kはn−1に一致する
(ステップs5)。よって、このデータレコード「スナ
ックセンター」の処理を終了する。
【0072】ここまでの処理で、階段状レコード派生結
果として、「スナックセンター(冠称名、固有名詞)」
と「センター(固有名詞)」の2つが形態素情報ととも
にメモリに蓄積される(図6の階段状レコード派生)。
【0073】原データベース1の全てのデータレコード
を処理したか否かで処理を分ける。ここでは未処理デー
タレコードがあるとする(ステップs7)。
【0074】データ読み込み部11では、原データベー
ス1から次の1データレコードを読み込む(ステップs
8)。ここでは「関東不燃建築センター」を読み込んだ
とする。上記と同様にして(ステップs2〜ステップs
8)、階段状レコード派生結果として、「関東不燃建築
センター(地名、普通名詞、サ変名詞、接尾語)」、
「不燃建築センター(普通名詞、サ変名詞、接尾
語)」、「建築センター(サ変名詞、接尾語)」、「セ
ンター(接尾語)」の4つが形態素情報とともにメモリ
に蓄積される。
【0075】ここまでで、原データベース1の全てのデ
ータレコードを処理したとすると、制御は用語集計部1
4に移る(ステップs7)。
【0076】 用語集計部14では、原データベース1
全体の処理の後、ステップs4でメモリに蓄積されてい
る派生レコードを、その字面あるいはその字面と形態素
情報とのペアに対応)で集計する(ステップs9)。さ
らに用語集計部14では、集計結果をもとに、少なくと
も字面、出現頻度の2つの組あるいは字面、形態素情
報、出現頻度の3つの組を持つ頻出用語表15を作成す
る(ステップs10)。ここでは図7に示す頻出用語表
15の内容が得られたとする。
【0077】この際、頻度3000以上を頻出用語であ
るとすると、不要レコード削除部16では、図7の頻出
用語表15を参照して頻出用語「センター(接尾
語)」、「建築センター(サ変名詞、接尾語)」、「会
社(冠称名)」、「株式会社(冠称名)」を不要レコー
ドとしてメモリに蓄積されている派生レコード中から削
除する(ステップs11)。
【0078】ここで、データレコード「スナックセンタ
ー」については、「センター(固有名詞)」と字面が一
致するが、その形態素情報である品詞は『固有名詞』で
あり、前記の不要レコードの「センター(接尾語)」と
一致しないので削除されない。このため、データレコー
ド「スナックセンター」については、そのまま「スナッ
クセンター」と「センター」の2つのレコードが派生レ
コードとなる(図6の不要レコード削除)。
【0079】また、データレコード「関東不燃建築セン
ター」については、「建築センター(サ変名詞、接尾
語)」、「センター(接尾語)」の2つのレコードが、
前記の不要レコード「建築センター(サ変名詞、接尾
語)」、「センター(接尾語)」に形態素情報である品
詞まで一致するので削除され、結果として、「関東不燃
建築センター」については、「関東不燃建築センター」
と「不燃建築センター」の2つのレコードが派生レコー
ドとなる。
【0080】最後に、情報出力部17では、メモリに残
った派生レコード「スナックセンター」、「センタ
ー」、「関東不燃建築センター」、「不燃建築センタ
ー」を検索用インデックス2に出力する(ステップs1
1)。
【0081】以上の説明から明らかなように、本装置に
よれば、「スナックセンター」のように字面は「センタ
ー」と同じでも固有名詞である「センター」と「関東不
燃建築センター」における接尾語「センター」とを区別
することができ、インデックスとして必要なものを正し
く残すことができる。また、用語集計を単語単位ではな
く用語単位に行うことによって、「建築センター」のよ
うに2単語からなる用語であってもその用語が派生レコ
ード中で頻出すればその用語を不要レコードとして削除
することができる。
【0082】 [具体例2 に、第2の実施の形態の装置の動作を具体例を挙げて
説明する。図8は実際の処理のようすを、また、図9に
不要レコード決定ルール群24の一例をそれぞれ示すも
のである。なお、頻出用語表15については図7の例を
そのまま用いるものとする。また、以下の説明では具体
例1と同様な動作の部分の説明は割愛する。
【0083】階段状レコード派生部21では、具体例1
と同様な動作の後、データレコード「関東不燃建築セン
ター」に対して、「関東不燃建築センター(地名、普通
名詞、サ変名詞、接尾語)」、「不燃建築センター(普
通名詞、サ変名詞、接尾語)」、「建築センター(サ変
名詞、接尾語)」、「センター(固有名詞)」の4つの
レコードを、データレコード「株式会社建築センター」
に対して、「株式会社建築センター(冠称名、サ変名
詞、接尾語)」、「建築センター(サ変名詞、接尾
語)」、「センター(接尾語)」の3つのレコードを、
それぞれ派生レコードとして形態素情報とともにメモリ
に蓄積する(図8の形態素解析・階段状レコード派
生)。
【0084】この時、それぞれの派生レコードの派生元
情報を示すポインタも同時に蓄積される(図8の階段状
レコード派生結果に矢印で表示)(ステップs24)。
また、頻出用語表15は具体例1と同様にして図7の如
く得られる(ステップs29、s30)。
【0085】次に、不要レコード削除処理(ステップs
31)について詳細に述べる。
【0086】不要レコード削除部23を構成する前方位
置単語取得部231では、まず、頻出用語表15から頻
出用語を1つ読み込む。ここで、頻度3000以上を頻
出用語であるとすると、頻出用語表15は図7の如くで
あるので「センター(接尾語)」が読み込まれる(ステ
ップs41)。
【0087】次に、前方位置単語取得部231では、該
頻出用語の字面「センター」をキーにして階段状レコー
ド派生部21(ステップs24)で蓄積した派生レコー
ドを検索する(ステップs42)。図8より、「株式会
社建築センター」から派生した「センター(接尾語)」
と「関東不燃建築センター」から派生した「センター
(接尾語)」が得られる(ステップs43、s44)。
【0088】まず、「株式会社建築センター」から派生
した「センター(接尾語)」を処理対象とする(ステッ
プs45)。
【0089】前方位置単語取得部231では、処理対象
とした派生レコード「センター(接尾語)」の持つ派生
元情報から前方位置単語に関する形態素情報「建築(サ
変名詞)」を取得し、制御を不要レコード決定部232
に移す(ステップs46)。
【0090】不要レコード決定部232では、現在処理
中の頻出用語「センター(接尾語)」の形態素情報であ
る品詞(接尾語)で不要レコード決定ルール群24を検
索する(ステップs47)。不要レコード決定ルール群
24は図9の如くであるので、不要レコード決定ルール
として(接尾語、品詞が「冠称名」でない)が得られる
(ステップs47)。
【0091】現在処理対象としている派生レコード「セ
ンター(接尾語)」の派生元情報から得られた前方位置
単語「建築(サ変名詞)」に関する形態素情報である品
詞(サ変名詞)は、ステップs47で得られた不要レコ
ード決定ルール(接尾語、品詞が「冠称名」でない)に
一致する(ステップs48、s49)。よって、不要レ
コード決定部232では、不要レコード決定ルールに一
致した「株式会社建築センター」から派生した派生レコ
ード「センター(接尾語)」をメモリから削除する(ス
テップs50)。
【0092】同様にして、関東不燃建築センター」から
派生した「センター(接尾語)」に対しても処理を行う
ことによって、この派生レコードもメモリから削除され
る。
【0093】ここまでで、頻出用語「センター(接尾
語)」に関する全ての派生レコードを処理したとする
(ステップs51)。さらに未処理の頻出用語が存在す
るので制御を前方位置単語取得部231に移してその処
理に移る(ステップs52、s41)。
【0094】頻出用語表15は図7の如くであるので、
「建築センター(サ変名詞、接尾語)」が読み込まれる
(ステップs41)。
【0095】次に、前方位置単語取得部231では、該
頻出用語の字面「建築センター」をキーにして階段状レ
コード派生部21(ステップs24)で蓄積した派生レ
コードを検索する(ステップs42)。図8より、「株
式会社建築センター」から派生した「建築センター(サ
変名詞、接尾語)」と「関東不燃建築センター」から派
生した「建築センター(サ変名詞、接尾語)」が得られ
る(ステップs43、s44)。
【0096】まず、「株式会社建築センター」から派生
した「建築センター(サ変名詞、接尾語)」を処理対象
とする(ステップs45)。
【0097】前方位置単語取得部231では、処理対象
とした派生レコード「建築センター(サ変名詞、接尾
語)」の持つ派生元情報から前方位置単語に関する形態
素情報「株式会社(冠称名)」を取得し、制御を不要レ
コード決定部232に移す(ステップs46)。
【0098】不要レコード決定部232では、現在処理
中の頻出用語「建築センター(サ変名詞、接尾語)」の
先頭に位置する単語の形態素情報である品詞(サ変名
詞)で不要レコード決定ルール群24を検索する(ステ
ップs47)。不要レコード決定ルール群24は図9の
如くであるので、不要レコード決定ルールとして(サ変
名詞、品詞が「冠称名」でない)が得られる(ステップ
s47)。
【0099】現在処理対象としている派生レコード「建
築センター」の派生元情報から得られた前方位置単語
「株式会社」に関する形態素情報である品詞(冠称名)
は、ステップs47で得られた不要レコード決定ルール
(サ変名詞、品詞が「冠称名」でない)に一致しない。
よって、該派生レコードはメモリから削除されない(ス
テップs49)。
【0100】次に、「株式会社建築センター」から派生
した派生レコード「建築センター(サ変名詞、接尾
語)」の処理を行う。前記と同様にして不要レコード決
定ルールとして(サ変名詞、品詞が「冠称名」でない)
が得られる(ステップs47)。
【0101】現在処理対象としている派生レコード「建
築センター(サ変名詞、接尾語)」の派生元情報から得
られた前方位置単語「不燃」に関する形態素情報である
品詞(普通名詞)は、ステップs47で得られた不要レ
コード決定ルール(サ変名詞、品詞が「冠称名」でな
い)に一致する(ステップs48、s49)。よって、
不要レコード決定部232では、不要レコード決定ルー
ルに一致した「関東不燃建築センター」から派生した派
生レコード「建築センター(サ変名詞、接尾語)」をメ
モリから削除する(ステップs50)。
【0102】ここまでで、頻出用語「建築センター(サ
変名詞、接尾語)」に関する全ての派生レコードを処理
したとする(ステップs51)。さらに未処理の頻出用
語が存在するので制御を前方位置単語取得部231に移
してその処理に移る(ステップs52、s41)。
【0103】次に、頻出用語表15から「会社(冠称
名)」が検索されるが、この頻出用語は派生レコードに
存在しない。同様にして、「株式会社(冠称名)」も派
生レコードに存在しない。
【0104】以上の処理で全ての頻出用語を処理したと
すると、制御は情報出力部17に移る(ステップs5
2)。
【0105】最後に、情報出力部17では、上記の処理
の後、メモリに残った派生レコード「株式会社建築セン
ター」、「建築センター」、「関東不燃建築センタ
ー」、「不燃建築センター」を検索用インデックス2に
出力する(ステップs53)。
【0106】以上の説明から明らかなように、本装置を
用いれば、「株式会社建築センター」のように字面は
「建築センター」と同じでも前方位置単語の形態素情報
が(冠称名)である「建築センター」と「関東不燃建築
センター」から派生された「建築センター」とを区別す
ることができ、インデックスとして必要なものを正しく
残すことができる。
【0107】
【発明の効果】以上説明したように、本発明によれば、
(1)単語単位ではなく用語単位で頻度を集計するの
で、複数の単語から構成される頻出用語であっても高頻
度であれば検索インデックスから削除することができ、
(2)高頻度単語のインデックスを削除する際に、形態
素情報まで一致するものだけあるいは不要レコード決定
ルールに従うものだけを削除するので、同字異義語(同
じ単語が別の意味で使われている場合)を区別して削除
するかしないかを決定でき、インデックスとして必要な
ものを削除する恐れがない、という効果が得られる。
【図面の簡単な説明】
【図1】本発明のインデックス派生装置の第1の実施の
形態を示す構成図
【図2】図1の装置の動作フローチャート
【図3】本発明のインデックス派生装置の第2の実施の
形態を示す構成図
【図4】図2の装置の動作フローチャート
【図5】図4中の不要レコード削除処理の詳細な動作フ
ローチャート
【図6】第1の実施の形態における実際の処理のようす
を示す図
【図7】頻出用語表の一例を示す図
【図8】第2の実施の形態における実際の処理のようす
を示す図
【図9】不要レコード決定ルール群の一例を示す図
【符号の説明】
1…原データベース、2…検索用インデックス、3…検
索対象データベース、10,20…インデックス派生装
置、11…データ読み込み部、12…形態素解析部、1
3,21…階段状レコード派生部、14…用語集計部、
15…頻出用語表、16,23…不要レコード削除部、
17…情報出力部、22…派生情報付与部、231…前
方位置単語取得部、232…不要レコード決定部、24
…不要レコード決定ルール群。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−78182(JP,A) 特開 平6−309366(JP,A) 神尾達夫,新聞記事データベースにお けるキーワード自動抽出,情報管理,日 本,1989年 7月 1日,第32巻第4 号,第283頁乃至第293頁 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 原データベースの各レコードに検索用イ
    ンデックスとして付与されている用語(原インデックス
    用語)を単語単位に区切る形態素解析を行う形態素解析
    手段と、前記解析の結果、得られた各単語を始まりとす
    る用語(派生インデックス用語)を、前記原インデック
    ス用語から各始まりの単語以降を抜き出すことによって
    作成する階段状レコード派生手段とを備え、前記作成さ
    れた派生インデックス用語のうちの少なくとも1つの派
    生インデックス用語を新たな検索用インデックスとして
    持つレコードを蓄積して検索対象データベースを作成す
    るデータベース作成装置におけるインデックス派生装置
    において、階段状レコード派生手段にて派生インデックス用語を作
    成する際、該派生インデックス用語がどの原インデック
    ス用語から派生されたかを示す派生元情報を付与する派
    生元情報付与手段と、 前記派生インデックス用語のデータベース全体に亘る出
    現頻度を調べる用語集計手段と、出現頻度の高い用語の前方に位置する単語(前方位置単
    語)を派生元情報より得られる原インデックス用語から
    取得する前方位置単語取得手段と、該前方位置単語の形
    態素情報の内容によって該当する派生インデックス用語
    を前記検索用インデックスから削除すべきか否かを決定
    し、削除すべき派生インデックス用語を前記検索用イン
    デックスから削除する不要レコード決定手段とからなる
    不要レコード削除手段とを備えたことを特徴とするイン
    デックス派生装置。
  2. 【請求項2】 形態素情報をキーとして有し、派生イン
    デックス用語の前方位置単語の形態素情報の内容によっ
    て削除条件を表現したルールからなる不要レコード決定
    ルール群を参照して、削除すべき派生インデックス用語
    を決定する不要レコード決定手段を備えたことを特徴と
    する請求項記載のインデックス派生装置。
  3. 【請求項3】 原データベースの各レコードに検索用イ
    ンデックスとして付与されている用語(原インデックス
    用語)を単語単位に区切る形態素解析を行い、前記解析
    の結果、得られた各単語を始まりとする用語(派生イン
    デックス用語)を、前記原インデックス用語から各始ま
    りの単語以降を抜き出すことによって作成する階段状レ
    コード派生を行い、前記作成された派生インデックス用
    語のうちの少なくとも1つの派生インデックス用語を新
    たな検索用インデックスとして持つレコードを蓄積して
    検索対象データベースを作成するデータベース作成方法
    におけるインデックス派生方法において、派生インデックス用語を作成する際、該派生インデック
    ス用語がどの原インデックス用語から派生されたかを示
    す派生元情報を付与し、 前記派生インデックス用語のデータベース全体に亘る出
    現頻度を調べ、出現頻度の高い用語の前方に位置する単語(前方位置単
    語)を派生元情報より得られる原インデックス用語から
    取得し、 該前方位置単語の形態素情報の内容によって該当する派
    生インデックス用語を前記検索用インデックスから削除
    すべきか否かを決定し、 削除すべき 派生インデックス用語を前記検索用インデッ
    クスから削除することを特徴とするインデックス派生方
    法。
  4. 【請求項4】 形態素情報をキーとして有し、派生イン
    デックス用語の前方位置単語の形態素情報の内容によっ
    て削除条件を表現したルールからなる不要レコード決定
    ルール群を参照して、削除すべき派生インデックス用語
    を決定することを特徴とする請求項記載のインデック
    ス派生方法。
  5. 【請求項5】 原データベースの各レコードに検索用イ
    ンデックスとして付与されている用語(原インデックス
    用語)を単語単位に区切る形態素解析を行い、前記解析
    の結果、得られた各単語を始まりとする用語(派生イン
    デックス用語)を、前記原インデックス用語から各始ま
    りの単語以降を抜き出すことによって作成する階段状レ
    コード派生を行い、前記作成された派生インデックス用
    語のうちの少なくとも1つの派生インデックス用語を新
    たな検索用インデックスとして持つレコードを蓄積して
    検索対象データベースを作成するデータベース作成にお
    けるインデックス派生プログラムを記録したコンピュー
    タ読み取り可能な媒体において、 前記インデックス派生プログラムはコンピュータに読み
    取られた際、このコンピュータに、派生インデックス用語を作成する際、該派生インデック
    ス用語がどの原インデックス用語から派生されたかを示
    す派生元情報を付与し、 前記派生インデックス用語のデータベース全体に亘る出
    現頻度を調べ、出現頻度の高い用語の前方に位置する単語(前方位置単
    語)を派生元情報より得られる原インデックス用語から
    取得し、 該前方位置単語の形態素情報の内容によって該当する派
    生インデックス用語を前記検索用インデックスから削除
    すべきか否かを決定し、 削除すべき 派生インデックス用語を前記検索用インデッ
    クスから削除する動作を実行させることを特徴とするイ
    ンデックス派生プログラムを記録したコンピュータ読み
    取り可能な媒体。
  6. 【請求項6】 形態素情報をキーとして有し、派生イン
    デックス用語の前方位置単語の形態素情報の内容によっ
    て削除条件を表現したルールからなる不要レコード決定
    ルール群を参照して、削除すべき派生インデックス用語
    を決定する動作を実行させることを特徴とする請求項
    記載のインデックス派生プログラムを記録したコンピュ
    ータ読み取り可能な媒体。
JP00246498A 1998-01-08 1998-01-08 インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体 Expired - Fee Related JP3502537B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00246498A JP3502537B2 (ja) 1998-01-08 1998-01-08 インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00246498A JP3502537B2 (ja) 1998-01-08 1998-01-08 インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体

Publications (2)

Publication Number Publication Date
JPH11203296A JPH11203296A (ja) 1999-07-30
JP3502537B2 true JP3502537B2 (ja) 2004-03-02

Family

ID=11530037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00246498A Expired - Fee Related JP3502537B2 (ja) 1998-01-08 1998-01-08 インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体

Country Status (1)

Country Link
JP (1) JP3502537B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309366A (ja) * 1993-04-21 1994-11-04 Ricoh Co Ltd キーワード抽出方式
JP3220885B2 (ja) * 1993-06-18 2001-10-22 株式会社日立製作所 キーワード付与システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
神尾達夫,新聞記事データベースにおけるキーワード自動抽出,情報管理,日本,1989年 7月 1日,第32巻第4号,第283頁乃至第293頁

Also Published As

Publication number Publication date
JPH11203296A (ja) 1999-07-30

Similar Documents

Publication Publication Date Title
JP2758826B2 (ja) 文書検索装置
JP3178475B2 (ja) データ処理装置
US9195738B2 (en) Tokenization platform
US20210109976A1 (en) System, method and computer program product for protecting derived metadata when updating records within a search engine
JP2011509472A (ja) データをクラスタリングする方法、システム、装置およびその方法を適用するためのコンピュータ・プログラム
US11403266B2 (en) Deleting rows from tables in a database without an index
KR101549220B1 (ko) 데이터베이스 관리 방법, 시스템 및 데이터베이스 트리 구조
JP4237813B2 (ja) 構造化文書管理システム
JP2007286742A (ja) 文書検索装置
JP2001109754A (ja) 索引ファイルを使用した検索方法及びそれに用いる装置
JP3502537B2 (ja) インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体
JPS63244259A (ja) キ−ワ−ド抽出装置
JP2002269139A (ja) 文書検索方法
US7039646B2 (en) Method and system for compressing varying-length columns during index high key generation
JP2925042B2 (ja) 情報リンク生成方法
JP4116434B2 (ja) 計算ユニットにおけるテキスト処理方法及び計算ユニット
JP3343941B2 (ja) 例文検索システム
JPH08190571A (ja) 文書検索方法
JPH04340163A (ja) キーワード検索方式
JP2002108887A (ja) 文書検索装置、その装置へのキーワード追加方法、文書検索方法及びコンピュータ読み取り可能な記憶媒体
KR102013839B1 (ko) 데이터베이스 관리 방법, 시스템 및 데이터베이스 트리 구조
JP2006106907A (ja) 構造化文書管理システム、索引構築方法及びプログラム
JPH1196170A (ja) データベース作成方法および情報検索方法および情報検索装置および記録媒体
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP4304226B2 (ja) 構造化文書管理システム、構造化文書管理方法及びプログラム

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20031202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071212

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081212

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091212

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees