JP3502537B2 - インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体 - Google Patents
インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体Info
- Publication number
- JP3502537B2 JP3502537B2 JP00246498A JP246498A JP3502537B2 JP 3502537 B2 JP3502537 B2 JP 3502537B2 JP 00246498 A JP00246498 A JP 00246498A JP 246498 A JP246498 A JP 246498A JP 3502537 B2 JP3502537 B2 JP 3502537B2
- Authority
- JP
- Japan
- Prior art keywords
- index
- term
- derived
- record
- derivation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
索用インデックスより新たな検索用インデックスを派生
させる際の派生数を抑えることのできるインデックス派
生装置及びその方法並びにインデックス派生プログラム
を記録したコンピュータ読み取り可能な媒体に関するも
のである。
用語が検索用インデックスとして予め付与されているデ
ータベース(原データベース)において、この検索用イ
ンデックスより新たなインデックスを派生し、これを新
たな検索用インデックスとして付加することにより、デ
ータベースの検索効率を向上させ得る技術について提案
した(特願平8−331039号)。
ドに検索用インデックスとして付与されている用語(原
インデックス用語)を単語単位に区切る形態素解析を行
い、前記解析の結果、得られた各単語を始まりとする用
語(派生インデックス用語)を、前記原インデックス用
語から各始まりの単語以降を抜き出すことによって作成
する階段状レコード派生を行うとともに、前記形態素解
析の結果、得られた各単語のうち、原インデックス用語
において末尾に位置する単語の原データベースの原イン
デックス用語全体に亘る出現頻度を調べ、これら出現頻
度の高い単語と完全に一致する用語を新たな検索用イン
デックスから削除することによって、不要なインデック
スの派生を抑えるようになしていた。
うな技術では、(1)複数の単語から構成される用語で
あって、そのうちの1つでも出現頻度が低ければ削除さ
れず、検索の際に不要なインデックスも残ってしまう、
(2)出現頻度の高いインデックスを削除するため、同
字異義語(同じ単語が別の意味で使われている場合)を
区別なく削除してしまい、インデックスとして必要なも
のまで削除してしまう恐れがある、という問題点があっ
た。
る用語も高頻度であれば削除することができ、さらに同
字異義語を区別して削除するか否かを決定でき、不要な
インデックスの派生を効果的に防止し得るインデックス
派生装置及びその方法並びにインデックス派生プログラ
ムを記録したコンピュータ読み取り可能な媒体を提供す
ることにある。
解決するため、原データベースの各レコードに検索用イ
ンデックスとして付与されている用語(原インデックス
用語)を単語単位に区切る形態素解析を行う形態素解析
手段と、前記解析の結果、得られた各単語を始まりとす
る用語(派生インデックス用語)を、前記原インデック
ス用語から各始まりの単語以降を抜き出すことによって
作成する階段状レコード派生手段とを備え、前記作成さ
れた派生インデックス用語のうちの少なくとも1つの派
生インデックス用語を新たな検索用インデックスとして
持つレコードを蓄積して検索対象データベースを作成す
るデータベース作成装置におけるインデックス派生装置
において、階段状レコード派生手段にて派生インデック
ス用語を作成する際、該派生インデックス用語がどの原
インデックス用語から派生されたかを示す派生元情報を
付与する派生元情報付与手段と、前記派生インデックス
用語のデータベース全体に亘る出現頻度を調べる用語集
計手段と、出現頻度の高い用語の前方に位置する単語
(前方位置単語)を派生元情報より得られる原インデッ
クス用語から取得する前方位置単語取得手段と、該前方
位置単語の形態素情報の内容によって該当する派生イン
デックス用語を前記検索用インデックスから削除すべき
か否かを決定し、削除すべき派生インデックス用語を前
記検索用インデックスから削除する不要レコード決定手
段とからなる不要レコード削除手段とを備えたことを特
徴とする。
位で出現頻度の高いレコードを削除でき、これによって
複数の単語から構成される用語も高頻度であれば削除す
ることができるとともに、複数の単語から構成される用
語全体の成り立ちに応じて、即ち同字異義語を区別して
削除するか否かを決定できる。
し、派生インデックス用語の前方位置単語の形態素情報
の内容によって削除条件を表現したルールからなる不要
レコード決定ルール群を参照して、削除すべき派生イン
デックス用語を決定するようにしても良い。
態(但し、特許請求の範囲には含まれない。)を示すも
ので、図中、1は原データベース、2は検索用インデッ
クス、3は検索対象データベース、10はインデックス
派生装置である。
1つの用語が検索用インデックス(検索キー)として付
与されている、インデックス派生対象となるデータベー
スである。検索用インデックス2は、原データベース1
をインデックス派生装置10で処理して発生した、目的
とするインデックスである。検索対象データベース3
は、原データベース1に検索用インデックス2を付加し
たデータベースである。
込み部11、形態素解析部12、階段状レコード派生部
13、用語集計部14、頻出用語表15、不要レコード
削除部16及び情報出力部17から構成されている。
1から情報を1レコードずつを読み込む。形態素解析部
12は、データ読み込み部11で読み込んだ情報、即ち
原データベースの各レコードに検索用インデックスとし
て付与されている用語(原インデックス用語)を単語単
位に区切る。階段状レコード派生部13は、形態素解析
部12で得られた各単語を始まりとする派生インデック
ス用語(階段状のレコード)を、前記原インデックス用
語から各始まりの単語以降を抜き出すことによって作成
する。
13で得られた各派生インデックス用語(階段状のレコ
ード)のデータベース全体に亘る出現頻度をその字面あ
るいは字面と前記形態素情報とのペアを単位として集計
し、各用語の出現頻度を蓄積した頻出用語表15を作成
する。不要レコード削除部16は、頻出用語表15を参
照し、出現頻度の高い用語と完全に一致する派生インデ
ックス用語あるいは出現頻度の高いペアと完全に一致す
る字面と形態素情報とを有する派生インデックス用語を
前記検索用インデックスから削除する。情報出力部17
は、検索用インデックスを出力する。
U、メモリ、外部記憶装置等のハードウェアとともに、
図2の動作フローチャートに示される手順を備えたソフ
トウェア(プログラム)で実現される。
る。
は、原データベース1から1データレコード(原インデ
ックス用語)を読み込む。さらに読み込んだデータレコ
ードを形態素解析部12に送る。
出されたデータレコードを形態素解析し、構成単語に分
けるとともに各単語に品詞等の形態素情報を付与する。
さらにこの結果を階段状レコード派生部13に送る。
3では、送られてきた形態素解析結果から現在処理中の
データレコードの単語数を数え、その値をnに設定す
る。さらに初期値として削除単語数kに0を設定する。
タレコードと形態素解析結果とをもとに、先頭からk個
を取り除いた残りの情報を持つレコード(派生インデッ
クス用語)を派生させ、メモリに蓄積する。
(全単語数よりも1だけ少ない)に一致するか否かで処
理を分ける。等しくない場合にはステップs6へ、等し
い場合にはステップs7に移る。
て(k=k+1)、ステップs4に戻る。
のデータレコードを処理したか否かで処理を分ける。未
処理データレコードがある場合には制御をデータ読み込
み部11に移してステップs8へ、全てのデータレコー
ドを処理し終わっている場合には制御を用語集計部14
に移してステップs9へ進む。
は原データベース1から次のデータレコードを読み込
み、さらに読み込んだデータレコードを形態素解析部1
2に送り、ステップs2に戻る。
後、ステップs4でメモリに蓄積されている派生レコー
ドを、その字面あるいはその字面と形態素情報とのペア
で集計する。
も字面、出現頻度の2つの組あるいは字面、形態素情
報、出現頻度の3つの組を持つ頻出用語表15を作成す
る。
6では、頻出用語表15を参照して頻出用語を不要レコ
ードとしてメモリに蓄積されている派生レコード中から
削除し、制御を情報出力部17に移す。情報出力部17
では、メモリに残った派生レコードを検索用インデック
ス2に出力する。
する頻出用語のみを検索用インデックスから削除するの
で、インデックスとして必要なものを正しく残すことが
できる。また、用語集計を単語単位ではなく用語単位に
行うことによって、2つ以上の単語からなる用語であっ
てもその用語が派生レコード中で頻出すれば不要レコー
ドとして削除することができる。
態を示すもので、図中、図1と同一構成部分は同一符号
をもって表す。即ち、1は原データベース、2は検索用
インデックス、3は検索対象データベース、20はイン
デックス派生装置である。
込み部11、形態素解析部12、用語集計部14、頻出
用語表15、情報出力部17、階段状レコード派生部2
1、派生元情報付与部22、不要レコード削除部23及
び不要レコード決定ルール群24から構成されている。
部12で得られた各単語を始まりとする派生インデック
ス用語(階段状のレコード)を、前記原インデックス用
語から各始まりの単語以降を抜き出すことによって作成
するとともに、派生元情報付与部22を呼び出し、各派
生インデックス用語に対して該派生インデックス用語が
どの原インデックス用語から派生されたかを示す派生元
情報を付与させ、さらに派生インデックス用語とその派
生元情報とをメモリに蓄積する。
ス用語に派生元情報を付与する。
い用語の前方に位置する単語(前方位置単語)を派生元
情報より得られる原インデックス用語から取得する前方
位置単語取得部231と、頻出用語表15及び不要レコ
ード決定ルール群24を参照し、前方位置単語の形態素
情報の内容によって該当する派生インデックス用語を前
記検索用インデックスから削除すべきか否かを決定し、
削除すべき派生インデックス用語を前記検索用インデッ
クスから削除する不要レコード決定部232とからなっ
ている。
情報をキーとして有し、派生インデックス用語の前方位
置単語の形態素情報の内容によって削除条件を表現した
複数のルールからなっている。
U、メモリ、外部記憶装置等のハードウェアとともに、
図4、図5の動作フローチャートに示される手順を備え
たソフトウェア(プログラム)で実現される。
説明する。
では、原データベース1から1データレコードを読み込
む。さらに読み込んだデータレコードを形態素解析部1
2に送る。
抽出されたデータレコードを形態素解析し、構成単語に
分けるとともに各単語に品詞等の形態素情報を付与す
る。さらにこの結果を階段状レコード派生部21に送
る。
21では、送られてきた形態素解析結果から現在処理中
のデータレコードの単語数を数え、その値をnに設定す
る。さらに初期値として削除単語数kに0を設定する。
派生部21では、送られてきたデータレコードと形態素
解析結果とをもとに、先頭からk個を取り除いた残りの
情報を持つレコードを派生させる。また、階段状レコー
ド派生部21では、派生元情報付与部22を呼び出し、
派生レコードに対して該派生レコードの派生元情報を付
与する。さらに、階段状レコード派生部21では、派生
レコードとその派生元情報とをメモリに蓄積する。
(全単語数よりも1だけ少ない)に一致するか否かで処
理を分ける。等しくない場合にはステップs26へ、等
しい場合にはステップs27に移る。
えて(k=k+1)、ステップs24に戻る。
てのデータレコードを処理したか否かで処理を分ける。
未処理データレコードがある場合には制御をデータ読み
込み部11に移してステップs28へ、全てのデータレ
コードを処理し終わっている場合には制御を用語集計部
14に移してステップs29へ進む。
では原データベース1から次のデータレコードを読み込
み、さらに読み込んだデータレコードを形態素解析部1
2に送り、ステップs22に戻る。
原データベース1全体の処理の後、ステップs24でメ
モリに蓄積されている派生レコードを、その字面あるい
はその字面と形態素情報とのペアで集計する。
では、集計結果をもとに少なくとも字面、出現頻度の2
つの組あるいは字面、形態素情報、出現頻度の3つの組
を持つ頻出用語表15を作成する。
3では、頻出用語表15、不要レコード決定ルール群2
4を参照して頻出用語を不要レコードとしてメモリに蓄
積されている派生レコード中から削除し、制御を情報出
力部17に移す。情報出力部17では、メモリに残った
派生レコードを検索用インデックス2に出力する。
ード削除処理)の詳細な動作フローチャートであり、以
下、これに従って動作を説明する。
3を構成する前方位置単語取得部231では、まず、頻
出用語表15から頻出用語を1つ読み込む。
得部231では、該頻出用語の字面をキーにして階段状
レコード派生部21(ステップs24)でメモリに蓄積
した派生レコードを検索する。
した派生レコードが存在したか否かで処理を分ける。存
在した場合にはステップs44に進み、存在しない場合
には次の頻出用語を処理するためにステップs41に戻
る。
した派生レコード全てをそれらの派生元情報とともに読
み込む。
込んだ派生レコードのうちの1つを処理対象とする。
31では、処理対象とした派生レコードの持つ派生元情
報から前方位置単語に関する形態素情報を取得し、制御
を不要レコード決定部232に移す。
32では、現在処理中の頻出用語の形態素情報で不要レ
コード決定ルール群24を検索する。
決定ルールが存在するか否かによって処理を分ける。存
在する場合にはステップs49に進み、存在しない場合
には次の派生レコードを処理するためにステップs51
に進む。
る派生レコードの派生元情報から得られた前方位置単語
に関する形態素情報が、ステップs47で得られた不要
レコード決定ルールのいずれかに一致するか否か、即ち
削除すべきレコードであるか否かによって処理を分け
る。一致する、即ち削除すべきレコードである場合には
ステップs50に進み、一致しない、即ち削除すべきで
ないレコードである場合にはステップs51に進む。
2では、不要レコード決定ルール群24に一致した派生
レコードをメモリから削除する。
処理したか否かで処理を分ける。処理している場合には
ステップs52に進み、処理していない場合には次の派
生レコードを処理するために制御を前方位置単語取得部
231に移してステップs45に戻る。
したか否かで処理を分ける。処理している場合には制御
を情報出力部17に移してステップs53に進み、処理
していない場合には次の頻出用語を処理するために制御
を前方位置単語取得部231に移してステップs41に
戻る。
上記の処理でメモリ上に残っている派生レコードを検索
用インデックス2に出力する。
タレコード中でどのような単語の後に出現したか(不要
レコード決定ルール群24の記述)によって検索用イン
デックスから削除するか否かを決定するので、インデッ
クスとして必要なものを正しく残すことができる。ま
た、用語集計を単語単位ではなく用語単位に行うことに
よって、2以上の単語からなる用語であってもその用語
が派生レコード中で頻出すれば不要レコードとして削除
することができる。
説明する。図6は実際の処理のようすを、また、図7は
頻出用語表15の一例をそれぞれ示すものである。
ス1から1データレコードを読み込む。ここでは「スナ
ックセンター」を読み込んだとする。データ読み込み部
11では読み込んだデータレコード「スナックセンタ
ー」を形態素解析部12に送る(ステップs1)。
コード「スナックセンター」を形態素解析し、構成単語
に分けるとともに各単語に品詞等の形態素情報を付与す
る(図6の形態素解析)。さらにこの結果を階段状レコ
ード派生部13に送る(ステップs2)。
きた形態素解析結果から現在処理中のデータレコードの
単語数を数え、その値をnに設定する。「スナックセン
ター」は2つの単語から構成されているのでn=2とす
る。さらに初期値として削除単語数kに0を設定する
(ステップs3)。
ックセンター」と形態素解析結果とをもとに、先頭から
k=0個を取り除いた残りの情報、即ち「スナックセン
ター(冠称名、固有名詞)」を持つレコードを派生さ
せ、メモリに蓄積する(ステップs4)。
あるのでn−1=1となり、kはn−1に一致しないの
で(ステップs5)、削除単語数kに1を加えてk=1
とする(ステップs6)。
ックセンター」と形態素解析結果とをもとに、先頭から
k=1個を取り除いた残りの情報、即ち「センター(固
有名詞)」を持つレコードを派生させ、メモリに蓄積す
る(ステップs4)。
2であるのでn−1=1となり、kはn−1に一致する
(ステップs5)。よって、このデータレコード「スナ
ックセンター」の処理を終了する。
果として、「スナックセンター(冠称名、固有名詞)」
と「センター(固有名詞)」の2つが形態素情報ととも
にメモリに蓄積される(図6の階段状レコード派生)。
を処理したか否かで処理を分ける。ここでは未処理デー
タレコードがあるとする(ステップs7)。
ス1から次の1データレコードを読み込む(ステップs
8)。ここでは「関東不燃建築センター」を読み込んだ
とする。上記と同様にして(ステップs2〜ステップs
8)、階段状レコード派生結果として、「関東不燃建築
センター(地名、普通名詞、サ変名詞、接尾語)」、
「不燃建築センター(普通名詞、サ変名詞、接尾
語)」、「建築センター(サ変名詞、接尾語)」、「セ
ンター(接尾語)」の4つが形態素情報とともにメモリ
に蓄積される。
ータレコードを処理したとすると、制御は用語集計部1
4に移る(ステップs7)。
全体の処理の後、ステップs4でメモリに蓄積されてい
る派生レコードを、その字面あるいはその字面と形態素
情報とのペアに対応)で集計する(ステップs9)。さ
らに用語集計部14では、集計結果をもとに、少なくと
も字面、出現頻度の2つの組あるいは字面、形態素情
報、出現頻度の3つの組を持つ頻出用語表15を作成す
る(ステップs10)。ここでは図7に示す頻出用語表
15の内容が得られたとする。
るとすると、不要レコード削除部16では、図7の頻出
用語表15を参照して頻出用語「センター(接尾
語)」、「建築センター(サ変名詞、接尾語)」、「会
社(冠称名)」、「株式会社(冠称名)」を不要レコー
ドとしてメモリに蓄積されている派生レコード中から削
除する(ステップs11)。
ー」については、「センター(固有名詞)」と字面が一
致するが、その形態素情報である品詞は『固有名詞』で
あり、前記の不要レコードの「センター(接尾語)」と
一致しないので削除されない。このため、データレコー
ド「スナックセンター」については、そのまま「スナッ
クセンター」と「センター」の2つのレコードが派生レ
コードとなる(図6の不要レコード削除)。
ター」については、「建築センター(サ変名詞、接尾
語)」、「センター(接尾語)」の2つのレコードが、
前記の不要レコード「建築センター(サ変名詞、接尾
語)」、「センター(接尾語)」に形態素情報である品
詞まで一致するので削除され、結果として、「関東不燃
建築センター」については、「関東不燃建築センター」
と「不燃建築センター」の2つのレコードが派生レコー
ドとなる。
った派生レコード「スナックセンター」、「センタ
ー」、「関東不燃建築センター」、「不燃建築センタ
ー」を検索用インデックス2に出力する(ステップs1
1)。
よれば、「スナックセンター」のように字面は「センタ
ー」と同じでも固有名詞である「センター」と「関東不
燃建築センター」における接尾語「センター」とを区別
することができ、インデックスとして必要なものを正し
く残すことができる。また、用語集計を単語単位ではな
く用語単位に行うことによって、「建築センター」のよ
うに2単語からなる用語であってもその用語が派生レコ
ード中で頻出すればその用語を不要レコードとして削除
することができる。
説明する。図8は実際の処理のようすを、また、図9に
不要レコード決定ルール群24の一例をそれぞれ示すも
のである。なお、頻出用語表15については図7の例を
そのまま用いるものとする。また、以下の説明では具体
例1と同様な動作の部分の説明は割愛する。
と同様な動作の後、データレコード「関東不燃建築セン
ター」に対して、「関東不燃建築センター(地名、普通
名詞、サ変名詞、接尾語)」、「不燃建築センター(普
通名詞、サ変名詞、接尾語)」、「建築センター(サ変
名詞、接尾語)」、「センター(固有名詞)」の4つの
レコードを、データレコード「株式会社建築センター」
に対して、「株式会社建築センター(冠称名、サ変名
詞、接尾語)」、「建築センター(サ変名詞、接尾
語)」、「センター(接尾語)」の3つのレコードを、
それぞれ派生レコードとして形態素情報とともにメモリ
に蓄積する(図8の形態素解析・階段状レコード派
生)。
情報を示すポインタも同時に蓄積される(図8の階段状
レコード派生結果に矢印で表示)(ステップs24)。
また、頻出用語表15は具体例1と同様にして図7の如
く得られる(ステップs29、s30)。
31)について詳細に述べる。
置単語取得部231では、まず、頻出用語表15から頻
出用語を1つ読み込む。ここで、頻度3000以上を頻
出用語であるとすると、頻出用語表15は図7の如くで
あるので「センター(接尾語)」が読み込まれる(ステ
ップs41)。
頻出用語の字面「センター」をキーにして階段状レコー
ド派生部21(ステップs24)で蓄積した派生レコー
ドを検索する(ステップs42)。図8より、「株式会
社建築センター」から派生した「センター(接尾語)」
と「関東不燃建築センター」から派生した「センター
(接尾語)」が得られる(ステップs43、s44)。
した「センター(接尾語)」を処理対象とする(ステッ
プs45)。
とした派生レコード「センター(接尾語)」の持つ派生
元情報から前方位置単語に関する形態素情報「建築(サ
変名詞)」を取得し、制御を不要レコード決定部232
に移す(ステップs46)。
中の頻出用語「センター(接尾語)」の形態素情報であ
る品詞(接尾語)で不要レコード決定ルール群24を検
索する(ステップs47)。不要レコード決定ルール群
24は図9の如くであるので、不要レコード決定ルール
として(接尾語、品詞が「冠称名」でない)が得られる
(ステップs47)。
ンター(接尾語)」の派生元情報から得られた前方位置
単語「建築(サ変名詞)」に関する形態素情報である品
詞(サ変名詞)は、ステップs47で得られた不要レコ
ード決定ルール(接尾語、品詞が「冠称名」でない)に
一致する(ステップs48、s49)。よって、不要レ
コード決定部232では、不要レコード決定ルールに一
致した「株式会社建築センター」から派生した派生レコ
ード「センター(接尾語)」をメモリから削除する(ス
テップs50)。
派生した「センター(接尾語)」に対しても処理を行う
ことによって、この派生レコードもメモリから削除され
る。
語)」に関する全ての派生レコードを処理したとする
(ステップs51)。さらに未処理の頻出用語が存在す
るので制御を前方位置単語取得部231に移してその処
理に移る(ステップs52、s41)。
「建築センター(サ変名詞、接尾語)」が読み込まれる
(ステップs41)。
頻出用語の字面「建築センター」をキーにして階段状レ
コード派生部21(ステップs24)で蓄積した派生レ
コードを検索する(ステップs42)。図8より、「株
式会社建築センター」から派生した「建築センター(サ
変名詞、接尾語)」と「関東不燃建築センター」から派
生した「建築センター(サ変名詞、接尾語)」が得られ
る(ステップs43、s44)。
した「建築センター(サ変名詞、接尾語)」を処理対象
とする(ステップs45)。
とした派生レコード「建築センター(サ変名詞、接尾
語)」の持つ派生元情報から前方位置単語に関する形態
素情報「株式会社(冠称名)」を取得し、制御を不要レ
コード決定部232に移す(ステップs46)。
中の頻出用語「建築センター(サ変名詞、接尾語)」の
先頭に位置する単語の形態素情報である品詞(サ変名
詞)で不要レコード決定ルール群24を検索する(ステ
ップs47)。不要レコード決定ルール群24は図9の
如くであるので、不要レコード決定ルールとして(サ変
名詞、品詞が「冠称名」でない)が得られる(ステップ
s47)。
築センター」の派生元情報から得られた前方位置単語
「株式会社」に関する形態素情報である品詞(冠称名)
は、ステップs47で得られた不要レコード決定ルール
(サ変名詞、品詞が「冠称名」でない)に一致しない。
よって、該派生レコードはメモリから削除されない(ス
テップs49)。
した派生レコード「建築センター(サ変名詞、接尾
語)」の処理を行う。前記と同様にして不要レコード決
定ルールとして(サ変名詞、品詞が「冠称名」でない)
が得られる(ステップs47)。
築センター(サ変名詞、接尾語)」の派生元情報から得
られた前方位置単語「不燃」に関する形態素情報である
品詞(普通名詞)は、ステップs47で得られた不要レ
コード決定ルール(サ変名詞、品詞が「冠称名」でな
い)に一致する(ステップs48、s49)。よって、
不要レコード決定部232では、不要レコード決定ルー
ルに一致した「関東不燃建築センター」から派生した派
生レコード「建築センター(サ変名詞、接尾語)」をメ
モリから削除する(ステップs50)。
変名詞、接尾語)」に関する全ての派生レコードを処理
したとする(ステップs51)。さらに未処理の頻出用
語が存在するので制御を前方位置単語取得部231に移
してその処理に移る(ステップs52、s41)。
名)」が検索されるが、この頻出用語は派生レコードに
存在しない。同様にして、「株式会社(冠称名)」も派
生レコードに存在しない。
すると、制御は情報出力部17に移る(ステップs5
2)。
の後、メモリに残った派生レコード「株式会社建築セン
ター」、「建築センター」、「関東不燃建築センタ
ー」、「不燃建築センター」を検索用インデックス2に
出力する(ステップs53)。
用いれば、「株式会社建築センター」のように字面は
「建築センター」と同じでも前方位置単語の形態素情報
が(冠称名)である「建築センター」と「関東不燃建築
センター」から派生された「建築センター」とを区別す
ることができ、インデックスとして必要なものを正しく
残すことができる。
(1)単語単位ではなく用語単位で頻度を集計するの
で、複数の単語から構成される頻出用語であっても高頻
度であれば検索インデックスから削除することができ、
(2)高頻度単語のインデックスを削除する際に、形態
素情報まで一致するものだけあるいは不要レコード決定
ルールに従うものだけを削除するので、同字異義語(同
じ単語が別の意味で使われている場合)を区別して削除
するかしないかを決定でき、インデックスとして必要な
ものを削除する恐れがない、という効果が得られる。
形態を示す構成図
形態を示す構成図
ローチャート
を示す図
を示す図
索対象データベース、10,20…インデックス派生装
置、11…データ読み込み部、12…形態素解析部、1
3,21…階段状レコード派生部、14…用語集計部、
15…頻出用語表、16,23…不要レコード削除部、
17…情報出力部、22…派生情報付与部、231…前
方位置単語取得部、232…不要レコード決定部、24
…不要レコード決定ルール群。
Claims (6)
- 【請求項1】 原データベースの各レコードに検索用イ
ンデックスとして付与されている用語(原インデックス
用語)を単語単位に区切る形態素解析を行う形態素解析
手段と、前記解析の結果、得られた各単語を始まりとす
る用語(派生インデックス用語)を、前記原インデック
ス用語から各始まりの単語以降を抜き出すことによって
作成する階段状レコード派生手段とを備え、前記作成さ
れた派生インデックス用語のうちの少なくとも1つの派
生インデックス用語を新たな検索用インデックスとして
持つレコードを蓄積して検索対象データベースを作成す
るデータベース作成装置におけるインデックス派生装置
において、階段状レコード派生手段にて派生インデックス用語を作
成する際、該派生インデックス用語がどの原インデック
ス用語から派生されたかを示す派生元情報を付与する派
生元情報付与手段と、 前記派生インデックス用語のデータベース全体に亘る出
現頻度を調べる用語集計手段と、出現頻度の高い用語の前方に位置する単語(前方位置単
語)を派生元情報より得られる原インデックス用語から
取得する前方位置単語取得手段と、該前方位置単語の形
態素情報の内容によって該当する派生インデックス用語
を前記検索用インデックスから削除すべきか否かを決定
し、削除すべき派生インデックス用語を前記検索用イン
デックスから削除する不要レコード決定手段とからなる
不要レコード削除手段とを備えたことを特徴とするイン
デックス派生装置。 - 【請求項2】 形態素情報をキーとして有し、派生イン
デックス用語の前方位置単語の形態素情報の内容によっ
て削除条件を表現したルールからなる不要レコード決定
ルール群を参照して、削除すべき派生インデックス用語
を決定する不要レコード決定手段を備えたことを特徴と
する請求項1記載のインデックス派生装置。 - 【請求項3】 原データベースの各レコードに検索用イ
ンデックスとして付与されている用語(原インデックス
用語)を単語単位に区切る形態素解析を行い、前記解析
の結果、得られた各単語を始まりとする用語(派生イン
デックス用語)を、前記原インデックス用語から各始ま
りの単語以降を抜き出すことによって作成する階段状レ
コード派生を行い、前記作成された派生インデックス用
語のうちの少なくとも1つの派生インデックス用語を新
たな検索用インデックスとして持つレコードを蓄積して
検索対象データベースを作成するデータベース作成方法
におけるインデックス派生方法において、派生インデックス用語を作成する際、該派生インデック
ス用語がどの原インデックス用語から派生されたかを示
す派生元情報を付与し、 前記派生インデックス用語のデータベース全体に亘る出
現頻度を調べ、出現頻度の高い用語の前方に位置する単語(前方位置単
語)を派生元情報より得られる原インデックス用語から
取得し、 該前方位置単語の形態素情報の内容によって該当する派
生インデックス用語を前記検索用インデックスから削除
すべきか否かを決定し、 削除すべき 派生インデックス用語を前記検索用インデッ
クスから削除することを特徴とするインデックス派生方
法。 - 【請求項4】 形態素情報をキーとして有し、派生イン
デックス用語の前方位置単語の形態素情報の内容によっ
て削除条件を表現したルールからなる不要レコード決定
ルール群を参照して、削除すべき派生インデックス用語
を決定することを特徴とする請求項3記載のインデック
ス派生方法。 - 【請求項5】 原データベースの各レコードに検索用イ
ンデックスとして付与されている用語(原インデックス
用語)を単語単位に区切る形態素解析を行い、前記解析
の結果、得られた各単語を始まりとする用語(派生イン
デックス用語)を、前記原インデックス用語から各始ま
りの単語以降を抜き出すことによって作成する階段状レ
コード派生を行い、前記作成された派生インデックス用
語のうちの少なくとも1つの派生インデックス用語を新
たな検索用インデックスとして持つレコードを蓄積して
検索対象データベースを作成するデータベース作成にお
けるインデックス派生プログラムを記録したコンピュー
タ読み取り可能な媒体において、 前記インデックス派生プログラムはコンピュータに読み
取られた際、このコンピュータに、派生インデックス用語を作成する際、該派生インデック
ス用語がどの原インデックス用語から派生されたかを示
す派生元情報を付与し、 前記派生インデックス用語のデータベース全体に亘る出
現頻度を調べ、出現頻度の高い用語の前方に位置する単語(前方位置単
語)を派生元情報より得られる原インデックス用語から
取得し、 該前方位置単語の形態素情報の内容によって該当する派
生インデックス用語を前記検索用インデックスから削除
すべきか否かを決定し、 削除すべき 派生インデックス用語を前記検索用インデッ
クスから削除する動作を実行させることを特徴とするイ
ンデックス派生プログラムを記録したコンピュータ読み
取り可能な媒体。 - 【請求項6】 形態素情報をキーとして有し、派生イン
デックス用語の前方位置単語の形態素情報の内容によっ
て削除条件を表現したルールからなる不要レコード決定
ルール群を参照して、削除すべき派生インデックス用語
を決定する動作を実行させることを特徴とする請求項5
記載のインデックス派生プログラムを記録したコンピュ
ータ読み取り可能な媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP00246498A JP3502537B2 (ja) | 1998-01-08 | 1998-01-08 | インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP00246498A JP3502537B2 (ja) | 1998-01-08 | 1998-01-08 | インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11203296A JPH11203296A (ja) | 1999-07-30 |
JP3502537B2 true JP3502537B2 (ja) | 2004-03-02 |
Family
ID=11530037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP00246498A Expired - Fee Related JP3502537B2 (ja) | 1998-01-08 | 1998-01-08 | インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3502537B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06309366A (ja) * | 1993-04-21 | 1994-11-04 | Ricoh Co Ltd | キーワード抽出方式 |
JP3220885B2 (ja) * | 1993-06-18 | 2001-10-22 | 株式会社日立製作所 | キーワード付与システム |
-
1998
- 1998-01-08 JP JP00246498A patent/JP3502537B2/ja not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
神尾達夫,新聞記事データベースにおけるキーワード自動抽出,情報管理,日本,1989年 7月 1日,第32巻第4号,第283頁乃至第293頁 |
Also Published As
Publication number | Publication date |
---|---|
JPH11203296A (ja) | 1999-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2758826B2 (ja) | 文書検索装置 | |
JP3178475B2 (ja) | データ処理装置 | |
US9195738B2 (en) | Tokenization platform | |
US20210109976A1 (en) | System, method and computer program product for protecting derived metadata when updating records within a search engine | |
JP2011509472A (ja) | データをクラスタリングする方法、システム、装置およびその方法を適用するためのコンピュータ・プログラム | |
US11403266B2 (en) | Deleting rows from tables in a database without an index | |
KR101549220B1 (ko) | 데이터베이스 관리 방법, 시스템 및 데이터베이스 트리 구조 | |
JP4237813B2 (ja) | 構造化文書管理システム | |
JP2007286742A (ja) | 文書検索装置 | |
JP2001109754A (ja) | 索引ファイルを使用した検索方法及びそれに用いる装置 | |
JP3502537B2 (ja) | インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体 | |
JPS63244259A (ja) | キ−ワ−ド抽出装置 | |
JP2002269139A (ja) | 文書検索方法 | |
US7039646B2 (en) | Method and system for compressing varying-length columns during index high key generation | |
JP2925042B2 (ja) | 情報リンク生成方法 | |
JP4116434B2 (ja) | 計算ユニットにおけるテキスト処理方法及び計算ユニット | |
JP3343941B2 (ja) | 例文検索システム | |
JPH08190571A (ja) | 文書検索方法 | |
JPH04340163A (ja) | キーワード検索方式 | |
JP2002108887A (ja) | 文書検索装置、その装置へのキーワード追加方法、文書検索方法及びコンピュータ読み取り可能な記憶媒体 | |
KR102013839B1 (ko) | 데이터베이스 관리 방법, 시스템 및 데이터베이스 트리 구조 | |
JP2006106907A (ja) | 構造化文書管理システム、索引構築方法及びプログラム | |
JPH1196170A (ja) | データベース作成方法および情報検索方法および情報検索装置および記録媒体 | |
JP2002117043A (ja) | 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体 | |
JP4304226B2 (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20031202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20031205 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071212 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081212 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091212 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |