JP3502537B2

JP3502537B2 - インデックス派生装置及びその方法並びにインデックス派生プログラムを記録したコンピュータ読み取り可能な媒体

Info

Publication number: JP3502537B2
Application number: JP00246498A
Authority: JP
Inventors: 雅博奥; 良輔野田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-01-08
Filing date: 1998-01-08
Publication date: 2004-03-02
Anticipated expiration: 2018-01-08
Also published as: JPH11203296A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、予め付与された検
索用インデックスより新たな検索用インデックスを派生
させる際の派生数を抑えることのできるインデックス派
生装置及びその方法並びにインデックス派生プログラム
を記録したコンピュータ読み取り可能な媒体に関するも
のである。

【０００２】

【従来の技術】発明者らは、１レコードに対して１つの
用語が検索用インデックスとして予め付与されているデ
ータベース（原データベース）において、この検索用イ
ンデックスより新たなインデックスを派生し、これを新
たな検索用インデックスとして付加することにより、デ
ータベースの検索効率を向上させ得る技術について提案
した（特願平８−３３１０３９号）。

【０００３】前記技術では、原データベースの各レコー
ドに検索用インデックスとして付与されている用語（原
インデックス用語）を単語単位に区切る形態素解析を行
い、前記解析の結果、得られた各単語を始まりとする用
語（派生インデックス用語）を、前記原インデックス用
語から各始まりの単語以降を抜き出すことによって作成
する階段状レコード派生を行うとともに、前記形態素解
析の結果、得られた各単語のうち、原インデックス用語
において末尾に位置する単語の原データベースの原イン
デックス用語全体に亘る出現頻度を調べ、これら出現頻
度の高い単語と完全に一致する用語を新たな検索用イン
デックスから削除することによって、不要なインデック
スの派生を抑えるようになしていた。

【０００４】

【発明が解決しようとする課題】しかしながら、このよ
うな技術では、（１）複数の単語から構成される用語で
あって、そのうちの１つでも出現頻度が低ければ削除さ
れず、検索の際に不要なインデックスも残ってしまう、
（２）出現頻度の高いインデックスを削除するため、同
字異義語（同じ単語が別の意味で使われている場合）を
区別なく削除してしまい、インデックスとして必要なも
のまで削除してしまう恐れがある、という問題点があっ
た。

【０００５】本発明の目的は、複数の単語から構成され
る用語も高頻度であれば削除することができ、さらに同
字異義語を区別して削除するか否かを決定でき、不要な
インデックスの派生を効果的に防止し得るインデックス
派生装置及びその方法並びにインデックス派生プログラ
ムを記録したコンピュータ読み取り可能な媒体を提供す
ることにある。

【０００６】

【課題を解決するための手段】本発明では、前記課題を
解決するため、原データベースの各レコードに検索用イ
ンデックスとして付与されている用語（原インデックス
用語）を単語単位に区切る形態素解析を行う形態素解析
手段と、前記解析の結果、得られた各単語を始まりとす
る用語（派生インデックス用語）を、前記原インデック
ス用語から各始まりの単語以降を抜き出すことによって
作成する階段状レコード派生手段とを備え、前記作成さ
れた派生インデックス用語のうちの少なくとも１つの派
生インデックス用語を新たな検索用インデックスとして
持つレコードを蓄積して検索対象データベースを作成す
るデータベース作成装置におけるインデックス派生装置
において、階段状レコード派生手段にて派生インデック
ス用語を作成する際、該派生インデックス用語がどの原
インデックス用語から派生されたかを示す派生元情報を
付与する派生元情報付与手段と、前記派生インデックス
用語のデータベース全体に亘る出現頻度を調べる用語集
計手段と、出現頻度の高い用語の前方に位置する単語
（前方位置単語）を派生元情報より得られる原インデッ
クス用語から取得する前方位置単語取得手段と、該前方
位置単語の形態素情報の内容によって該当する派生イン
デックス用語を前記検索用インデックスから削除すべき
か否かを決定し、削除すべき派生インデックス用語を前
記検索用インデックスから削除する不要レコード決定手
段とからなる不要レコード削除手段とを備えたことを特
徴とする。

【０００７】前記構成によれば、単語よりも大きな単
位で出現頻度の高いレコードを削除でき、これによって
複数の単語から構成される用語も高頻度であれば削除す
ることができるとともに、複数の単語から構成される用
語全体の成り立ちに応じて、即ち同字異義語を区別して
削除するか否かを決定できる。

【０００８】

【０００９】

【００１０】なお、この際、形態素情報をキーとして有
し、派生インデックス用語の前方位置単語の形態素情報
の内容によって削除条件を表現したルールからなる不要
レコード決定ルール群を参照して、削除すべき派生イン
デックス用語を決定するようにしても良い。

【００１１】［実施の形態１］図１は本発明のインデックス派生装置の第１の実施の形
態（但し、特許請求の範囲には含まれない。）を示すも
ので、図中、１は原データベース、２は検索用インデッ
クス、３は検索対象データベース、１０はインデックス
派生装置である。

【００１２】原データベース１は、１レコードに対して
１つの用語が検索用インデックス（検索キー）として付
与されている、インデックス派生対象となるデータベー
スである。検索用インデックス２は、原データベース１
をインデックス派生装置１０で処理して発生した、目的
とするインデックスである。検索対象データベース３
は、原データベース１に検索用インデックス２を付加し
たデータベースである。

【００１３】インデックス派生装置１０は、データ読み
込み部１１、形態素解析部１２、階段状レコード派生部
１３、用語集計部１４、頻出用語表１５、不要レコード
削除部１６及び情報出力部１７から構成されている。

【００１４】データ読み込み部１１は、原データベース
１から情報を１レコードずつを読み込む。形態素解析部
１２は、データ読み込み部１１で読み込んだ情報、即ち
原データベースの各レコードに検索用インデックスとし
て付与されている用語（原インデックス用語）を単語単
位に区切る。階段状レコード派生部１３は、形態素解析
部１２で得られた各単語を始まりとする派生インデック
ス用語（階段状のレコード）を、前記原インデックス用
語から各始まりの単語以降を抜き出すことによって作成
する。

【００１５】用語集計部１４は、階段状レコード派生部
１３で得られた各派生インデックス用語（階段状のレコ
ード）のデータベース全体に亘る出現頻度をその字面あ
るいは字面と前記形態素情報とのペアを単位として集計
し、各用語の出現頻度を蓄積した頻出用語表１５を作成
する。不要レコード削除部１６は、頻出用語表１５を参
照し、出現頻度の高い用語と完全に一致する派生インデ
ックス用語あるいは出現頻度の高いペアと完全に一致す
る字面と形態素情報とを有する派生インデックス用語を
前記検索用インデックスから削除する。情報出力部１７
は、検索用インデックスを出力する。

【００１６】なお、インデックス派生装置１０は、ＣＰ
Ｕ、メモリ、外部記憶装置等のハードウェアとともに、
図２の動作フローチャートに示される手順を備えたソフ
トウェア（プログラム）で実現される。

【００１７】以下、図２に従って本装置の動作を説明す
る。

【００１８】（ステップｓ１）データ読み込み部１１で
は、原データベース１から１データレコード（原インデ
ックス用語）を読み込む。さらに読み込んだデータレコ
ードを形態素解析部１２に送る。

【００１９】（ステップｓ２）形態素解析部１２では抽
出されたデータレコードを形態素解析し、構成単語に分
けるとともに各単語に品詞等の形態素情報を付与する。
さらにこの結果を階段状レコード派生部１３に送る。

【００２０】（ステップｓ３）階段状レコード派生部１
３では、送られてきた形態素解析結果から現在処理中の
データレコードの単語数を数え、その値をｎに設定す
る。さらに初期値として削除単語数ｋに０を設定する。

【００２１】（ステップｓ４）次に、送られてきたデー
タレコードと形態素解析結果とをもとに、先頭からｋ個
を取り除いた残りの情報を持つレコード（派生インデッ
クス用語）を派生させ、メモリに蓄積する。

【００２２】（ステップｓ５）削除単語数ｋがｎ−１
（全単語数よりも１だけ少ない）に一致するか否かで処
理を分ける。等しくない場合にはステップｓ６へ、等し
い場合にはステップｓ７に移る。

【００２３】（ステップｓ６）削除単語数ｋに１を加え
て（ｋ＝ｋ＋１）、ステップｓ４に戻る。

【００２４】（ステップｓ７）原データベース１の全て
のデータレコードを処理したか否かで処理を分ける。未
処理データレコードがある場合には制御をデータ読み込
み部１１に移してステップｓ８へ、全てのデータレコー
ドを処理し終わっている場合には制御を用語集計部１４
に移してステップｓ９へ進む。

【００２５】（ステップｓ８）データ読み込み部１１で
は原データベース１から次のデータレコードを読み込
み、さらに読み込んだデータレコードを形態素解析部１
２に送り、ステップｓ２に戻る。

【００２６】（ステップｓ９）用語集計部１４では、原データベース１全体の処理の
後、ステップｓ４でメモリに蓄積されている派生レコー
ドを、その字面あるいはその字面と形態素情報とのペア
で集計する。

【００２７】（ステップｓ１０）さらに用語集計部１４では、集計結果をもとに少なくと
も字面、出現頻度の２つの組あるいは字面、形態素情
報、出現頻度の３つの組を持つ頻出用語表１５を作成す
る。

【００２８】（ステップｓ１１）不要レコード削除部１
６では、頻出用語表１５を参照して頻出用語を不要レコ
ードとしてメモリに蓄積されている派生レコード中から
削除し、制御を情報出力部１７に移す。情報出力部１７
では、メモリに残った派生レコードを検索用インデック
ス２に出力する。

【００２９】以上の処理によって、形態素情報まで一致
する頻出用語のみを検索用インデックスから削除するの
で、インデックスとして必要なものを正しく残すことが
できる。また、用語集計を単語単位ではなく用語単位に
行うことによって、２つ以上の単語からなる用語であっ
てもその用語が派生レコード中で頻出すれば不要レコー
ドとして削除することができる。

【００３０】［実施の形態２］図３は本発明のインデックス派生装置の第２の実施の形
態を示すもので、図中、図１と同一構成部分は同一符号
をもって表す。即ち、１は原データベース、２は検索用
インデックス、３は検索対象データベース、２０はイン
デックス派生装置である。

【００３１】インデックス派生装置２０は、データ読み
込み部１１、形態素解析部１２、用語集計部１４、頻出
用語表１５、情報出力部１７、階段状レコード派生部２
１、派生元情報付与部２２、不要レコード削除部２３及
び不要レコード決定ルール群２４から構成されている。

【００３２】階段状レコード派生部２１は、形態素解析
部１２で得られた各単語を始まりとする派生インデック
ス用語（階段状のレコード）を、前記原インデックス用
語から各始まりの単語以降を抜き出すことによって作成
するとともに、派生元情報付与部２２を呼び出し、各派
生インデックス用語に対して該派生インデックス用語が
どの原インデックス用語から派生されたかを示す派生元
情報を付与させ、さらに派生インデックス用語とその派
生元情報とをメモリに蓄積する。

【００３３】派生元情報付与部２２は、派生インデック
ス用語に派生元情報を付与する。

【００３４】不要レコード削除部２３は、出現頻度の高
い用語の前方に位置する単語（前方位置単語）を派生元
情報より得られる原インデックス用語から取得する前方
位置単語取得部２３１と、頻出用語表１５及び不要レコ
ード決定ルール群２４を参照し、前方位置単語の形態素
情報の内容によって該当する派生インデックス用語を前
記検索用インデックスから削除すべきか否かを決定し、
削除すべき派生インデックス用語を前記検索用インデッ
クスから削除する不要レコード決定部２３２とからなっ
ている。

【００３５】不要レコード決定ルール群２４は、形態素
情報をキーとして有し、派生インデックス用語の前方位
置単語の形態素情報の内容によって削除条件を表現した
複数のルールからなっている。

【００３６】なお、インデックス派生装置２０は、ＣＰ
Ｕ、メモリ、外部記憶装置等のハードウェアとともに、
図４、図５の動作フローチャートに示される手順を備え
たソフトウェア（プログラム）で実現される。

【００３７】以下、図４、図５に従って本装置の動作を
説明する。

【００３８】（ステップｓ２１）データ読み込み部１１
では、原データベース１から１データレコードを読み込
む。さらに読み込んだデータレコードを形態素解析部１
２に送る。

【００３９】（ステップｓ２２）形態素解析部１２では
抽出されたデータレコードを形態素解析し、構成単語に
分けるとともに各単語に品詞等の形態素情報を付与す
る。さらにこの結果を階段状レコード派生部２１に送
る。

【００４０】（ステップｓ２３）階段状レコード派生部
２１では、送られてきた形態素解析結果から現在処理中
のデータレコードの単語数を数え、その値をｎに設定す
る。さらに初期値として削除単語数ｋに０を設定する。

【００４１】（ステップｓ２４）また、階段状レコード
派生部２１では、送られてきたデータレコードと形態素
解析結果とをもとに、先頭からｋ個を取り除いた残りの
情報を持つレコードを派生させる。また、階段状レコー
ド派生部２１では、派生元情報付与部２２を呼び出し、
派生レコードに対して該派生レコードの派生元情報を付
与する。さらに、階段状レコード派生部２１では、派生
レコードとその派生元情報とをメモリに蓄積する。

【００４２】（ステップｓ２５）削除単語数ｋがｎ−１
（全単語数よりも１だけ少ない）に一致するか否かで処
理を分ける。等しくない場合にはステップｓ２６へ、等
しい場合にはステップｓ２７に移る。

【００４３】（ステップｓ２６）削除単語数ｋに１を加
えて（ｋ＝ｋ＋１）、ステップｓ２４に戻る。

【００４４】（ステップｓ２７）原データベース１の全
てのデータレコードを処理したか否かで処理を分ける。
未処理データレコードがある場合には制御をデータ読み
込み部１１に移してステップｓ２８へ、全てのデータレ
コードを処理し終わっている場合には制御を用語集計部
１４に移してステップｓ２９へ進む。

【００４５】（ステップｓ２８）データ読み込み部１１
では原データベース１から次のデータレコードを読み込
み、さらに読み込んだデータレコードを形態素解析部１
２に送り、ステップｓ２２に戻る。

【００４６】（ステップｓ２９）用語集計部１４では、
原データベース１全体の処理の後、ステップｓ２４でメ
モリに蓄積されている派生レコードを、その字面あるい
はその字面と形態素情報とのペアで集計する。

【００４７】（ステップｓ３０）さらに用語集計部１４
では、集計結果をもとに少なくとも字面、出現頻度の２
つの組あるいは字面、形態素情報、出現頻度の３つの組
を持つ頻出用語表１５を作成する。

【００４８】（ステップｓ３１）不要レコード削除部２
３では、頻出用語表１５、不要レコード決定ルール群２
４を参照して頻出用語を不要レコードとしてメモリに蓄
積されている派生レコード中から削除し、制御を情報出
力部１７に移す。情報出力部１７では、メモリに残った
派生レコードを検索用インデックス２に出力する。

【００４９】図５は図４中のステップｓ３１（不要レコ
ード削除処理）の詳細な動作フローチャートであり、以
下、これに従って動作を説明する。

【００５０】（ステップｓ４１）不要レコード削除部２
３を構成する前方位置単語取得部２３１では、まず、頻
出用語表１５から頻出用語を１つ読み込む。

【００５１】（ステップｓ４２）次に、前方位置単語取
得部２３１では、該頻出用語の字面をキーにして階段状
レコード派生部２１（ステップｓ２４）でメモリに蓄積
した派生レコードを検索する。

【００５２】（ステップｓ４３）頻出用語の字面に一致
した派生レコードが存在したか否かで処理を分ける。存
在した場合にはステップｓ４４に進み、存在しない場合
には次の頻出用語を処理するためにステップｓ４１に戻
る。

【００５３】（ステップｓ４４）頻出用語の字面に一致
した派生レコード全てをそれらの派生元情報とともに読
み込む。

【００５４】（ステップｓ４５）ステップｓ４４で読み
込んだ派生レコードのうちの１つを処理対象とする。

【００５５】（ステップｓ４６）前方位置単語取得部２
３１では、処理対象とした派生レコードの持つ派生元情
報から前方位置単語に関する形態素情報を取得し、制御
を不要レコード決定部２３２に移す。

【００５６】（ステップｓ４７）不要レコード決定部２
３２では、現在処理中の頻出用語の形態素情報で不要レ
コード決定ルール群２４を検索する。

【００５７】（ステップｓ４８）一致した不要レコード
決定ルールが存在するか否かによって処理を分ける。存
在する場合にはステップｓ４９に進み、存在しない場合
には次の派生レコードを処理するためにステップｓ５１
に進む。

【００５８】（ステップｓ４９）現在処理対象としてい
る派生レコードの派生元情報から得られた前方位置単語
に関する形態素情報が、ステップｓ４７で得られた不要
レコード決定ルールのいずれかに一致するか否か、即ち
削除すべきレコードであるか否かによって処理を分け
る。一致する、即ち削除すべきレコードである場合には
ステップｓ５０に進み、一致しない、即ち削除すべきで
ないレコードである場合にはステップｓ５１に進む。

【００５９】（ステップ５０）不要レコード決定部２３
２では、不要レコード決定ルール群２４に一致した派生
レコードをメモリから削除する。

【００６０】（ステップｓ５１）全ての派生レコードを
処理したか否かで処理を分ける。処理している場合には
ステップｓ５２に進み、処理していない場合には次の派
生レコードを処理するために制御を前方位置単語取得部
２３１に移してステップｓ４５に戻る。

【００６１】（ステップｓ５２）全ての頻出用語を処理
したか否かで処理を分ける。処理している場合には制御
を情報出力部１７に移してステップｓ５３に進み、処理
していない場合には次の頻出用語を処理するために制御
を前方位置単語取得部２３１に移してステップｓ４１に
戻る。

【００６２】（ステップｓ５３）情報出力部１７では、
上記の処理でメモリ上に残っている派生レコードを検索
用インデックス２に出力する。

【００６３】以上の処理によって、頻出用語が元のデー
タレコード中でどのような単語の後に出現したか（不要
レコード決定ルール群２４の記述）によって検索用イン
デックスから削除するか否かを決定するので、インデッ
クスとして必要なものを正しく残すことができる。ま
た、用語集計を単語単位ではなく用語単位に行うことに
よって、２以上の単語からなる用語であってもその用語
が派生レコード中で頻出すれば不要レコードとして削除
することができる。

【００６４】［具体例１］次に、第１の実施の形態の装置の動作を具体例を挙げて
説明する。図６は実際の処理のようすを、また、図７は
頻出用語表１５の一例をそれぞれ示すものである。

【００６５】データ読み込み部１１では、原データベー
ス１から１データレコードを読み込む。ここでは「スナ
ックセンター」を読み込んだとする。データ読み込み部
１１では読み込んだデータレコード「スナックセンタ
ー」を形態素解析部１２に送る（ステップｓ１）。

【００６６】形態素解析部１２では抽出されたデータレ
コード「スナックセンター」を形態素解析し、構成単語
に分けるとともに各単語に品詞等の形態素情報を付与す
る（図６の形態素解析）。さらにこの結果を階段状レコ
ード派生部１３に送る（ステップｓ２）。

【００６７】階段状レコード派生部１３では、送られて
きた形態素解析結果から現在処理中のデータレコードの
単語数を数え、その値をｎに設定する。「スナックセン
ター」は２つの単語から構成されているのでｎ＝２とす
る。さらに初期値として削除単語数ｋに０を設定する
（ステップｓ３）。

【００６８】次に、送られてきたデータレコード「スナ
ックセンター」と形態素解析結果とをもとに、先頭から
ｋ＝０個を取り除いた残りの情報、即ち「スナックセン
ター（冠称名、固有名詞）」を持つレコードを派生さ
せ、メモリに蓄積する（ステップｓ４）。

【００６９】今、削除単語数ｋ＝０であって、ｎ＝２で
あるのでｎ−１＝１となり、ｋはｎ−１に一致しないの
で（ステップｓ５）、削除単語数ｋに１を加えてｋ＝１
とする（ステップｓ６）。

【００７０】次に、送られてきたデータレコード「スナ
ックセンター」と形態素解析結果とをもとに、先頭から
ｋ＝１個を取り除いた残りの情報、即ち「センター（固
有名詞）」を持つレコードを派生させ、メモリに蓄積す
る（ステップｓ４）。

【００７１】この際、削除単語数ｋ＝１であって、ｎ＝
２であるのでｎ−１＝１となり、ｋはｎ−１に一致する
（ステップｓ５）。よって、このデータレコード「スナ
ックセンター」の処理を終了する。

【００７２】ここまでの処理で、階段状レコード派生結
果として、「スナックセンター（冠称名、固有名詞）」
と「センター（固有名詞）」の２つが形態素情報ととも
にメモリに蓄積される（図６の階段状レコード派生）。

【００７３】原データベース１の全てのデータレコード
を処理したか否かで処理を分ける。ここでは未処理デー
タレコードがあるとする（ステップｓ７）。

【００７４】データ読み込み部１１では、原データベー
ス１から次の１データレコードを読み込む（ステップｓ
８）。ここでは「関東不燃建築センター」を読み込んだ
とする。上記と同様にして（ステップｓ２〜ステップｓ
８）、階段状レコード派生結果として、「関東不燃建築
センター（地名、普通名詞、サ変名詞、接尾語）」、
「不燃建築センター（普通名詞、サ変名詞、接尾
語）」、「建築センター（サ変名詞、接尾語）」、「セ
ンター（接尾語）」の４つが形態素情報とともにメモリ
に蓄積される。

【００７５】ここまでで、原データベース１の全てのデ
ータレコードを処理したとすると、制御は用語集計部１
４に移る（ステップｓ７）。

【００７６】用語集計部１４では、原データベース１
全体の処理の後、ステップｓ４でメモリに蓄積されてい
る派生レコードを、その字面あるいはその字面と形態素
情報とのペアに対応）で集計する（ステップｓ９）。さ
らに用語集計部１４では、集計結果をもとに、少なくと
も字面、出現頻度の２つの組あるいは字面、形態素情
報、出現頻度の３つの組を持つ頻出用語表１５を作成す
る（ステップｓ１０）。ここでは図７に示す頻出用語表
１５の内容が得られたとする。

【００７７】この際、頻度３０００以上を頻出用語であ
るとすると、不要レコード削除部１６では、図７の頻出
用語表１５を参照して頻出用語「センター（接尾
語）」、「建築センター（サ変名詞、接尾語）」、「会
社（冠称名）」、「株式会社（冠称名）」を不要レコー
ドとしてメモリに蓄積されている派生レコード中から削
除する（ステップｓ１１）。

【００７８】ここで、データレコード「スナックセンタ
ー」については、「センター（固有名詞）」と字面が一
致するが、その形態素情報である品詞は『固有名詞』で
あり、前記の不要レコードの「センター（接尾語）」と
一致しないので削除されない。このため、データレコー
ド「スナックセンター」については、そのまま「スナッ
クセンター」と「センター」の２つのレコードが派生レ
コードとなる（図６の不要レコード削除）。

【００７９】また、データレコード「関東不燃建築セン
ター」については、「建築センター（サ変名詞、接尾
語）」、「センター（接尾語）」の２つのレコードが、
前記の不要レコード「建築センター（サ変名詞、接尾
語）」、「センター（接尾語）」に形態素情報である品
詞まで一致するので削除され、結果として、「関東不燃
建築センター」については、「関東不燃建築センター」
と「不燃建築センター」の２つのレコードが派生レコー
ドとなる。

【００８０】最後に、情報出力部１７では、メモリに残
った派生レコード「スナックセンター」、「センタ
ー」、「関東不燃建築センター」、「不燃建築センタ
ー」を検索用インデックス２に出力する（ステップｓ１
１）。

【００８１】以上の説明から明らかなように、本装置に
よれば、「スナックセンター」のように字面は「センタ
ー」と同じでも固有名詞である「センター」と「関東不
燃建築センター」における接尾語「センター」とを区別
することができ、インデックスとして必要なものを正し
く残すことができる。また、用語集計を単語単位ではな
く用語単位に行うことによって、「建築センター」のよ
うに２単語からなる用語であってもその用語が派生レコ
ード中で頻出すればその用語を不要レコードとして削除
することができる。

【００８２】［具体例２］次に、第２の実施の形態の装置の動作を具体例を挙げて
説明する。図８は実際の処理のようすを、また、図９に
不要レコード決定ルール群２４の一例をそれぞれ示すも
のである。なお、頻出用語表１５については図７の例を
そのまま用いるものとする。また、以下の説明では具体
例１と同様な動作の部分の説明は割愛する。

【００８３】階段状レコード派生部２１では、具体例１
と同様な動作の後、データレコード「関東不燃建築セン
ター」に対して、「関東不燃建築センター（地名、普通
名詞、サ変名詞、接尾語）」、「不燃建築センター（普
通名詞、サ変名詞、接尾語）」、「建築センター（サ変
名詞、接尾語）」、「センター（固有名詞）」の４つの
レコードを、データレコード「株式会社建築センター」
に対して、「株式会社建築センター（冠称名、サ変名
詞、接尾語）」、「建築センター（サ変名詞、接尾
語）」、「センター（接尾語）」の３つのレコードを、
それぞれ派生レコードとして形態素情報とともにメモリ
に蓄積する（図８の形態素解析・階段状レコード派
生）。

【００８４】この時、それぞれの派生レコードの派生元
情報を示すポインタも同時に蓄積される（図８の階段状
レコード派生結果に矢印で表示）（ステップｓ２４）。
また、頻出用語表１５は具体例１と同様にして図７の如
く得られる（ステップｓ２９、ｓ３０）。

【００８５】次に、不要レコード削除処理（ステップｓ
３１）について詳細に述べる。

【００８６】不要レコード削除部２３を構成する前方位
置単語取得部２３１では、まず、頻出用語表１５から頻
出用語を１つ読み込む。ここで、頻度３０００以上を頻
出用語であるとすると、頻出用語表１５は図７の如くで
あるので「センター（接尾語）」が読み込まれる（ステ
ップｓ４１）。

【００８７】次に、前方位置単語取得部２３１では、該
頻出用語の字面「センター」をキーにして階段状レコー
ド派生部２１（ステップｓ２４）で蓄積した派生レコー
ドを検索する（ステップｓ４２）。図８より、「株式会
社建築センター」から派生した「センター（接尾語）」
と「関東不燃建築センター」から派生した「センター
（接尾語）」が得られる（ステップｓ４３、ｓ４４）。

【００８８】まず、「株式会社建築センター」から派生
した「センター（接尾語）」を処理対象とする（ステッ
プｓ４５）。

【００８９】前方位置単語取得部２３１では、処理対象
とした派生レコード「センター（接尾語）」の持つ派生
元情報から前方位置単語に関する形態素情報「建築（サ
変名詞）」を取得し、制御を不要レコード決定部２３２
に移す（ステップｓ４６）。

【００９０】不要レコード決定部２３２では、現在処理
中の頻出用語「センター（接尾語）」の形態素情報であ
る品詞（接尾語）で不要レコード決定ルール群２４を検
索する（ステップｓ４７）。不要レコード決定ルール群
２４は図９の如くであるので、不要レコード決定ルール
として（接尾語、品詞が「冠称名」でない）が得られる
（ステップｓ４７）。

【００９１】現在処理対象としている派生レコード「セ
ンター（接尾語）」の派生元情報から得られた前方位置
単語「建築（サ変名詞）」に関する形態素情報である品
詞（サ変名詞）は、ステップｓ４７で得られた不要レコ
ード決定ルール（接尾語、品詞が「冠称名」でない）に
一致する（ステップｓ４８、ｓ４９）。よって、不要レ
コード決定部２３２では、不要レコード決定ルールに一
致した「株式会社建築センター」から派生した派生レコ
ード「センター（接尾語）」をメモリから削除する（ス
テップｓ５０）。

【００９２】同様にして、関東不燃建築センター」から
派生した「センター（接尾語）」に対しても処理を行う
ことによって、この派生レコードもメモリから削除され
る。

【００９３】ここまでで、頻出用語「センター（接尾
語）」に関する全ての派生レコードを処理したとする
（ステップｓ５１）。さらに未処理の頻出用語が存在す
るので制御を前方位置単語取得部２３１に移してその処
理に移る（ステップｓ５２、ｓ４１）。

【００９４】頻出用語表１５は図７の如くであるので、
「建築センター（サ変名詞、接尾語）」が読み込まれる
（ステップｓ４１）。

【００９５】次に、前方位置単語取得部２３１では、該
頻出用語の字面「建築センター」をキーにして階段状レ
コード派生部２１（ステップｓ２４）で蓄積した派生レ
コードを検索する（ステップｓ４２）。図８より、「株
式会社建築センター」から派生した「建築センター（サ
変名詞、接尾語）」と「関東不燃建築センター」から派
生した「建築センター（サ変名詞、接尾語）」が得られ
る（ステップｓ４３、ｓ４４）。

【００９６】まず、「株式会社建築センター」から派生
した「建築センター（サ変名詞、接尾語）」を処理対象
とする（ステップｓ４５）。

【００９７】前方位置単語取得部２３１では、処理対象
とした派生レコード「建築センター（サ変名詞、接尾
語）」の持つ派生元情報から前方位置単語に関する形態
素情報「株式会社（冠称名）」を取得し、制御を不要レ
コード決定部２３２に移す（ステップｓ４６）。

【００９８】不要レコード決定部２３２では、現在処理
中の頻出用語「建築センター（サ変名詞、接尾語）」の
先頭に位置する単語の形態素情報である品詞（サ変名
詞）で不要レコード決定ルール群２４を検索する（ステ
ップｓ４７）。不要レコード決定ルール群２４は図９の
如くであるので、不要レコード決定ルールとして（サ変
名詞、品詞が「冠称名」でない）が得られる（ステップ
ｓ４７）。

【００９９】現在処理対象としている派生レコード「建
築センター」の派生元情報から得られた前方位置単語
「株式会社」に関する形態素情報である品詞（冠称名）
は、ステップｓ４７で得られた不要レコード決定ルール
（サ変名詞、品詞が「冠称名」でない）に一致しない。
よって、該派生レコードはメモリから削除されない（ス
テップｓ４９）。

【０１００】次に、「株式会社建築センター」から派生
した派生レコード「建築センター（サ変名詞、接尾
語）」の処理を行う。前記と同様にして不要レコード決
定ルールとして（サ変名詞、品詞が「冠称名」でない）
が得られる（ステップｓ４７）。

【０１０１】現在処理対象としている派生レコード「建
築センター（サ変名詞、接尾語）」の派生元情報から得
られた前方位置単語「不燃」に関する形態素情報である
品詞（普通名詞）は、ステップｓ４７で得られた不要レ
コード決定ルール（サ変名詞、品詞が「冠称名」でな
い）に一致する（ステップｓ４８、ｓ４９）。よって、
不要レコード決定部２３２では、不要レコード決定ルー
ルに一致した「関東不燃建築センター」から派生した派
生レコード「建築センター（サ変名詞、接尾語）」をメ
モリから削除する（ステップｓ５０）。

【０１０２】ここまでで、頻出用語「建築センター（サ
変名詞、接尾語）」に関する全ての派生レコードを処理
したとする（ステップｓ５１）。さらに未処理の頻出用
語が存在するので制御を前方位置単語取得部２３１に移
してその処理に移る（ステップｓ５２、ｓ４１）。

【０１０３】次に、頻出用語表１５から「会社（冠称
名）」が検索されるが、この頻出用語は派生レコードに
存在しない。同様にして、「株式会社（冠称名）」も派
生レコードに存在しない。

【０１０４】以上の処理で全ての頻出用語を処理したと
すると、制御は情報出力部１７に移る（ステップｓ５
２）。

【０１０５】最後に、情報出力部１７では、上記の処理
の後、メモリに残った派生レコード「株式会社建築セン
ター」、「建築センター」、「関東不燃建築センタ
ー」、「不燃建築センター」を検索用インデックス２に
出力する（ステップｓ５３）。

【０１０６】以上の説明から明らかなように、本装置を
用いれば、「株式会社建築センター」のように字面は
「建築センター」と同じでも前方位置単語の形態素情報
が（冠称名）である「建築センター」と「関東不燃建築
センター」から派生された「建築センター」とを区別す
ることができ、インデックスとして必要なものを正しく
残すことができる。

【０１０７】

【発明の効果】以上説明したように、本発明によれば、
（１）単語単位ではなく用語単位で頻度を集計するの
で、複数の単語から構成される頻出用語であっても高頻
度であれば検索インデックスから削除することができ、
（２）高頻度単語のインデックスを削除する際に、形態
素情報まで一致するものだけあるいは不要レコード決定
ルールに従うものだけを削除するので、同字異義語（同
じ単語が別の意味で使われている場合）を区別して削除
するかしないかを決定でき、インデックスとして必要な
ものを削除する恐れがない、という効果が得られる。

【図面の簡単な説明】

【図１】本発明のインデックス派生装置の第１の実施の
形態を示す構成図

【図２】図１の装置の動作フローチャート

【図３】本発明のインデックス派生装置の第２の実施の
形態を示す構成図

【図４】図２の装置の動作フローチャート

【図５】図４中の不要レコード削除処理の詳細な動作フ
ローチャート

【図６】第１の実施の形態における実際の処理のようす
を示す図

【図７】頻出用語表の一例を示す図

【図８】第２の実施の形態における実際の処理のようす
を示す図

【図９】不要レコード決定ルール群の一例を示す図

【符号の説明】

１…原データベース、２…検索用インデックス、３…検
索対象データベース、１０，２０…インデックス派生装
置、１１…データ読み込み部、１２…形態素解析部、１
３，２１…階段状レコード派生部、１４…用語集計部、
１５…頻出用語表、１６，２３…不要レコード削除部、
１７…情報出力部、２２…派生情報付与部、２３１…前
方位置単語取得部、２３２…不要レコード決定部、２４
…不要レコード決定ルール群。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平７−78182（ＪＰ，Ａ) 特開平６−309366（ＪＰ，Ａ) 神尾達夫，新聞記事データベースにおけるキーワード自動抽出，情報管理，日本，1989年７月１日，第32巻第４号，第283頁乃至第293頁 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】原データベースの各レコードに検索用イ
ンデックスとして付与されている用語（原インデックス
用語）を単語単位に区切る形態素解析を行う形態素解析
手段と、前記解析の結果、得られた各単語を始まりとす
る用語（派生インデックス用語）を、前記原インデック
ス用語から各始まりの単語以降を抜き出すことによって
作成する階段状レコード派生手段とを備え、前記作成さ
れた派生インデックス用語のうちの少なくとも１つの派
生インデックス用語を新たな検索用インデックスとして
持つレコードを蓄積して検索対象データベースを作成す
るデータベース作成装置におけるインデックス派生装置
において、階段状レコード派生手段にて派生インデックス用語を作
成する際、該派生インデックス用語がどの原インデック
ス用語から派生されたかを示す派生元情報を付与する派
生元情報付与手段と、前記派生インデックス用語のデータベース全体に亘る出
現頻度を調べる用語集計手段と、出現頻度の高い用語の前方に位置する単語（前方位置単
語）を派生元情報より得られる原インデックス用語から
取得する前方位置単語取得手段と、該前方位置単語の形
態素情報の内容によって該当する派生インデックス用語
を前記検索用インデックスから削除すべきか否かを決定
し、削除すべき派生インデックス用語を前記検索用イン
デックスから削除する不要レコード決定手段とからなる
不要レコード削除手段とを備えたことを特徴とするイン
デックス派生装置。
【請求項２】形態素情報をキーとして有し、派生イン
デックス用語の前方位置単語の形態素情報の内容によっ
て削除条件を表現したルールからなる不要レコード決定
ルール群を参照して、削除すべき派生インデックス用語
を決定する不要レコード決定手段を備えたことを特徴と
する請求項１記載のインデックス派生装置。
【請求項３】原データベースの各レコードに検索用イ
ンデックスとして付与されている用語（原インデックス
用語）を単語単位に区切る形態素解析を行い、前記解析
の結果、得られた各単語を始まりとする用語（派生イン
デックス用語）を、前記原インデックス用語から各始ま
りの単語以降を抜き出すことによって作成する階段状レ
コード派生を行い、前記作成された派生インデックス用
語のうちの少なくとも１つの派生インデックス用語を新
たな検索用インデックスとして持つレコードを蓄積して
検索対象データベースを作成するデータベース作成方法
におけるインデックス派生方法において、派生インデックス用語を作成する際、該派生インデック
ス用語がどの原インデックス用語から派生されたかを示
す派生元情報を付与し、前記派生インデックス用語のデータベース全体に亘る出
現頻度を調べ、出現頻度の高い用語の前方に位置する単語（前方位置単
語）を派生元情報より得られる原インデックス用語から
取得し、該前方位置単語の形態素情報の内容によって該当する派
生インデックス用語を前記検索用インデックスから削除
すべきか否かを決定し、削除すべき派生インデックス用語を前記検索用インデッ
クスから削除することを特徴とするインデックス派生方
法。
【請求項４】形態素情報をキーとして有し、派生イン
デックス用語の前方位置単語の形態素情報の内容によっ
て削除条件を表現したルールからなる不要レコード決定
ルール群を参照して、削除すべき派生インデックス用語
を決定することを特徴とする請求項３記載のインデック
ス派生方法。
【請求項５】原データベースの各レコードに検索用イ
ンデックスとして付与されている用語（原インデックス
用語）を単語単位に区切る形態素解析を行い、前記解析
の結果、得られた各単語を始まりとする用語（派生イン
デックス用語）を、前記原インデックス用語から各始ま
りの単語以降を抜き出すことによって作成する階段状レ
コード派生を行い、前記作成された派生インデックス用
語のうちの少なくとも１つの派生インデックス用語を新
たな検索用インデックスとして持つレコードを蓄積して
検索対象データベースを作成するデータベース作成にお
けるインデックス派生プログラムを記録したコンピュー
タ読み取り可能な媒体において、前記インデックス派生プログラムはコンピュータに読み
取られた際、このコンピュータに、派生インデックス用語を作成する際、該派生インデック
ス用語がどの原インデックス用語から派生されたかを示
す派生元情報を付与し、前記派生インデックス用語のデータベース全体に亘る出
現頻度を調べ、出現頻度の高い用語の前方に位置する単語（前方位置単
語）を派生元情報より得られる原インデックス用語から
取得し、該前方位置単語の形態素情報の内容によって該当する派
生インデックス用語を前記検索用インデックスから削除
すべきか否かを決定し、削除すべき派生インデックス用語を前記検索用インデッ
クスから削除する動作を実行させることを特徴とするイ
ンデックス派生プログラムを記録したコンピュータ読み
取り可能な媒体。
【請求項６】形態素情報をキーとして有し、派生イン
デックス用語の前方位置単語の形態素情報の内容によっ
て削除条件を表現したルールからなる不要レコード決定
ルール群を参照して、削除すべき派生インデックス用語
を決定する動作を実行させることを特徴とする請求項５
記載のインデックス派生プログラムを記録したコンピュ
ータ読み取り可能な媒体。