JP5308786B2

JP5308786B2 - 文書データ検索装置

Info

Publication number: JP5308786B2
Application number: JP2008297387A
Authority: JP
Inventors: ▲シン▼ 徐; 恒夫加藤; 恒河井; 正樹内藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-11-20
Filing date: 2008-11-20
Publication date: 2013-10-09
Anticipated expiration: 2028-11-20
Also published as: JP2010123005A

Description

本発明は、コンテンツ関連用語によるコンテンツの検索システムや、大量の文書データ（テキスト文書）を検索するテキストの検索システムにおいて使用される検索装置に関し、文書データ内に存在する原文と一致しない検索単語を入力した場合にも、類似度を高速に判別して目的のコンテンツや文書データの検索ができるようにした文書データ検索装置に関する。

テキストに対する検索装置においては、キーワードの完全一致検索が行われるが、使い勝手の向上を図るため、例えば「インタフェース」と「インターフェス」のように完全に一致していないものでも一致するというように判断する「あいまい検索」を行うことが要求されている。

例えば特許文献１に記載された類似テキスト検索装置では、テキストに対するＮグラム要素（Ｎ文字の並び）を作成し、複数のテキストに関するＮグラム要素の一致度を演算する。その演算結果において、一致度の高い順で検索対象候補を出力することによって、高速な類似テキスト検索を実現している。

また、特許文献２に記載された音声検索システムでは、音声認識された音声データ中の単語や語句を検索する場合において、検索したい文字列が誤認識されていたり未知語であった場合にも対処するため、入力された検索文字列を音素列に変換し、連続単語音声認識で用いられているサーチアルゴリズムを利用し、検索対象となる音声データの音声認識結果に出現し得る類似単語または類似単語列に展開してから検索することが行われる。
検索単語（文字列）として「ハリーポッター」を入力した場合を例に説明すると、音声データの認識結果には「ハリー」、「ポスター」、「は」、「リポーター」、などの単語候補がピックアップされる。このとき、単語候補を並べることで、検索文字列「ハリーポッター」と音響的に近い「ハリー」＋「ポスター」、「は」＋「リポーター」、などの単語列に展開する。この展開は、検索文字列と音響的な距離が近くなるように行われるため、検索文字列の認識結果となる可能性が高い単語列を誤認識も含めて求めることになる。
特開２００３−２８８３６６号公報特開２００６−３１２７８号公報

歌詞の一部分を検索キーワードとして楽曲を検索する文書データ検索装置において、ユーザが聞き間違えて覚えてしまった歌詞で検索する場合（例えば、歌詞の原文に存在する文字列が「無数の光」であるのに対して、検索文字列を「まっすぐの光」と誤って入力して検索した場合）を想定する。
この場合、特許文献１の類似テキスト装置のように、文字列の編集距離の計算やＮグラムのインデクシングを行っても、「無数」と「まっすぐ」とでは編集距離等が乖離しているため、目的とする楽曲の情報（歌詞文）の検索は不可能である。

また、特許文献２の装置については、検索するたびに、検索文字列を単語列に展開するために、検索文字列と展開する単語候補との音響的な距離の計算を行う必要がある。特に検索クエリの文字列数が多く（２つ以上の非連続歌詞キーワード）、かつ検索対象となる歌詞ファイルが多い（商用検索システムでは数万以上）場合に、オンライン上での計算時間を要して検索が非常に遅くなるという問題点があった。

本発明は上記実情に鑑みて提案されたもので、大量のテキスト文書を検索するテキスト文書検索システムにおいて、検索原文と一致しない検索文字列を入力した場合にも、類似度を高速に判別して目的のコンテンツや文書の検索を可能とする文書データ検索装置を提供することを目的とする。

上記目的を達成するため請求項１の発明は、検索文字列が入力される入力インタフェースを備え、前記検索文字列により複数の検索対象文書データから文書データの検索を行う検索装置であって、次の構成を含むことを特徴としている。
単語抽出手段。この単語抽出手段は、予め複数の文書データを入力し前記文書データを構成する単語を抽出するものである。
キーワード登録手段。このキーワード登録手段は、前記検索文字列に含まれる可能性のある検索単語をキーワードとしてリストに登録するものである。
INDEXファイル作成手段。このINDEXファイル作成手段は、前記単語抽出手段により抽出された抽出単語とキーワードに対して分解された読み仮名又は音素同士の比較から算出される音響類似距離値を用いて検索用INDEXファイルを作成するものである。
類似度演算手段。この類似度演算手段は、入力された検索文字列から得られる検索単語に基づいて、前記INDEXファイルを参照して入力された検索単語による検索対象文書データの類似度を演算するものである。
出力インタフェース。この出力インタフェースは、前記類似度に基づいた文書データの検索結果を出力するものである。

請求項２の発明は、請求項１の文書データ検索装置において、
前記INDEXファイル作成手段の音響類似距離値は、
前記キーワードと抽出単語同士の編集距離を計算する手段によりそれぞれ読み仮名列に変換し、二つ読み仮名列において、音節を単位としたＤＰマッチングを行うことで、音節間の距離（違う音節間同士のペナルティ値），音節の挿入時のペナルティ値，音節の脱落時のペナルティ値それぞれに所望の数値を与える計算手段により計算することを特徴としている。

請求項３の発明は、請求項１の文書データ検索装置において、
前記INDEXファイル作成手段の音響類似距離値は、
前記キーワードと抽出単語同士の二つの音素列の編集距離を計算する手段によりそれぞれの単語の読みを音素列に変換し、二つ音素列において、音素を単位としたＤＰマッチングを行うことで、音素間の距離（違う音素間同士のペナルティ値），音素の挿入時のペナルティ値，音素の脱落時のペナルティ値それぞれに所望の数値を与える計算手段により計算することを特徴としている。

請求項４の発明は、請求項１乃至請求項３のいずれかに記載の文書データ検索装置において、
前記INDEXファイル作成手段は、前記検索対象文書データから抽出された前記抽出単語の文書データ中における位置情報及び登場頻度をパラメータとした重要度情報を登録したファイルを作成することを特徴としている。

請求項５の発明は、請求項１の文書データ検索装置において、
前記出力インタフェースは、音響類似距離値に基づいて適合度を計算し、INDEXファイルによる検索文字列から得られる一つ又は複数の検索単語との適合度の高い順で検索結果を出力する手段を備えることにより、
INDEXファイルによる検索文字列との適合度の高い順で上位Ｎ個の検索対象文書データ候補を絞り、前記Ｎ個候補における検索文字列の音素列と前記検索対象文書データ候補の文字列の音素列とのＤＰマッチングを計算し、その計算結果を類似度として出力順位を決めることを特徴としている。
音響類似距離値に基づいて計算される適合度は、例えば、音響類似距離値に任意の数を加算した数値の逆数を含んだ値とする。

すなわち本発明は、文書データ検索装置において、入力される可能性がある単語を予測し、この単語と文書データ中の検索対象単語との音響類似距離を事前に計算し、文書データ中で検索される可能性がある単語と最も音響的に類似する単語候補に対して、二つの単語間の音響類似距離値、その単語候補の文書データ中の位置、重要度の情報に基づいて検索INDEXファイルを作成する手段を設けることを特徴的な構成としている。

本発明によれば、検索対象単語とは完全一致しない、聞き間違えて覚えた検索文字列で検索する場合でも、検索文字列と音響的に類似する候補を挙げることが出来るため、探したい検索対象テキスト文書（コンテンツ）を検索することが可能となる。
また、本発明のINDEXファイルの作成段階において、事前に検索キーワードと検索対象となる単語の音響類似距離を計算しておくため、検索時に音響類似距離の計算が不要となり、検索の時間を削減することできるので、類似テキスト検索における高速化が可能となる。

以下、本発明の文書データ検索装置の一実施形態について、図１のブロック図を参照しながら説明する。
文書データ検索装置１は、楽曲の歌詞を検索する装置に適用した例であり、歌詞の一部のフレーズ等を検索文字列として入力する入力インタフェース２と、歌詞データ（文書データ）の検索結果を出力する出力インタフェース３と、検索対象となる複数の歌詞データ（歌詞ファイル）が格納された歌詞データベース４と、入力インタフェース２に入力された検索文字列から歌詞データベース４に格納されている歌詞データの検索処理を行う制御部１０を有して構成されている。

制御部１０は、予め複数の歌詞データ（文書データ）を入力し歌詞（文書データ）を構成する単語を抽出する単語抽出手段１１と、検索される可能性のある検索単語（検索文字列に含まれる可能性のある検索単語）をキーワードとしてリストに登録するキーワード登録手段１２と、抽出された前記単語（検索対象単語）と登録されたキーワードに対して音響類似距離値を用いて検索用INDEXファイルを作成するINDEXファイル作成手段１３と、前記INDEXファイルを参照して入力された検索単語による検索対象文書データの類似度を演算する類似度演算手段１４を備えている。

文書データ検索装置１の制御部１０においては、検索時に使用するINDEXファイルが単語抽出手段１１、キーワード登録手段１２、INDEXファイル作成手段１３に対して予め入力される情報により作成される。
以下、制御部１０におけるINDEXファイルの作成手順について、図２を参照しながら説明する。

先ず、単語抽出手段１１により歌詞データベース４に格納されている複数の歌詞ファイルＳ1〜Ｓiの文書データ（歌詞データ）に対して複数の単語を抽出する形態素解析を行い、歌詞ファイル毎に抽出単語（読み付き）リストＬi２０を作成する。ここで用いる形態素解析ツールは、日本語および英語の品詞分類に対応でき、また、外来語や仮名英語における表記の揺れについても対応できるようになっている。

次に、キーワード登録手段１２により、検索するために入力される単語を予想し、キーワードとして登録したキーワードリスト（Ａ1,…,Ａn）２１を作成する。キーワード（検索文字列に含まれる可能性のある検索単語）としては、キーワードリスト２１の単語集合の柔軟性を備えるため（聞き間違えて覚えた単語を対応するため）、歌詞データベースに格納されている歌詞に含まれるすべての単語以外にも、歌詞以外のドメインの言語コーパスから抽出した単語なども登録しておく。

歌詞ファイル毎に作成された抽出単語リストＬi２０中の各単語において、キーワードＡnとの音響類似距離を後述する音響類似距離計算方法で計算し、音響類似距離が一番近い単語Ｗni（歌詞ファイルＳiにおいてＡnと音響的に最も類似する単語）をそれぞれ抽出し、距離値dni（歌詞ファイルＳiにおいて、Ａnと類似する単語ＷniとＡnの音響類似距離値）を登録することでINDEXファイル２２を作成する。

上記INDEXファイル２２における音響類似距離値は、以下の手法で計算することが可能である。
INDEXファイル作成手段の音響類似距離値は、キーワード（検索単語）と抽出単語（検索対象単語）同士の読み仮名の編集距離を計算する手段、又は、単語同士の二つ音素列の編集距離を計算する手段により単語の読みを読み仮名又は音素列に変換し、ＤＰマッチングを行うことで類似距離値を求めるものである。

読み仮名列の比較で編集距離を計算してINDEXファイル作成手段の音響類似距離値を求める場合は、先ず、単語同士の編集距離を計算する手段により単語の読みを読み仮名列に変換する。そして、二つ読み仮名列において、音節を単位としたＤＰマッチングを行うことで、仮名間の距離を各音節を表す音響モデルの分布距離とし、音節の挿入時や脱落時に距離を１とする計算手段により計算する。

また、音素列の比較で編集距離を計算してINDEXファイル作成手段の音響類似距離値を求める場合は、先ず単語同士の二つの音素列の編集距離を計算する手段により単語の読みを音素列に変換する。そして、二つ音素列において、音素を単位としたＤＰマッチングを行うことで、音素間の距離を各音素を表す音響モデルの確率分布間の距離とし、音素の挿入時や脱落時の距離を１とする計算手段により計算する。

すなわち、先ず検索キーワードＡnと検索対象となる単語を両方とも読み仮名又は音素列に変換し、二つの読み仮名又は音素列において、文字又は音素を単位としたＤＰマッチングを行い、ＤＰマッチング計算により算出された距離値が音響類似距離値となる。
ＤＰマッチングは、系列になっているデータ同士の類似度を計算する方法であり、以下、具体的なＤＰマッチング計算例に基づいて説明する。
ＤＰマッチングにおいては、「字が合わなければ1点」、「字が一つずれること（挿入や脱落）で１点」というペナルティを決めておく。

例えば、読み仮名同士で比較する場合、４音の文字から構成される「おおさか」と「おおつか」と比較すると、１箇所で字が相違し３箇所で字が一致するので、相違部分が「１×１＝１」、一致部分が「０」で総ペナルティは１＋０＝１点となる。距離値を０〜１．０の値に正規化するため、正規化後のペナルティは「総ペナルティ／文字列長」の計算とし、１／４＝０．２５となる。正規化を行う場合の分母となる文字列長は、文字列同士の長い方の文字数とする。
また、６文字の「しんおおさか」と、４文字の「おおさか」との比較については、「字が２個ずれた・停滞した」と考えて、「しんおおさか」と「おおおおさか」との比較と考え、字ずれ２個の部分が「１×２＝２」で、不一致２個の部分が「１×２＝２」で、正規化後のペナルティは（２＋２）／６＝０．６６７点になる。ＤＰマッチングでは、ペナルティの値が小さいほど類似性が高いと設定するため、検索単語が「おおさか」である場合、「しんおおさか」よりも「おおつか」の方を似ていると判断する。

また、同じ例で「おおさか」「おおつか」について音素列同士で比較する場合は、「Ｏ」「Ｏ」「Ｓ」「Ａ」「Ｋ」「Ａ」と、「Ｏ」「Ｏ」「ＴＳ」「Ｕ」「Ｋ」「Ａ」との比較となる。［Ｏ」「Ｏ」「Ｓ」「Ａ」「Ｋ」「Ａ」と「Ｏ」「Ｏ」「ＴＳ」「Ｕ」「Ｋ」「Ａ」を考えて、ずれが０個：2×1＝２、相違は２個：２×１＝２、正規化後のペナルティは（０＋２）／８＝０．２５点になる。正規化を行う場合の分母は、長い方の音素列の音素数である。
また、「おおさか」「しんおおさか」について音素列同士で比較する場合は、「Ｏ」「Ｏ」「Ｓ」「Ａ」「Ｋ」「Ａ」と、「Ｓ」「Ｉ」「Ｎ」「Ｏ」「Ｏ」「Ｓ」「Ａ」「Ｋ」「Ａ」との比較となる。「Ｏ」「Ｏ」「Ｏ」「Ｏ」「Ｏ」「Ｓ」「Ａ」「Ｋ」「Ａ」と「Ｓ」「Ｉ」「Ｎ」「Ｏ」「Ｏ」「Ｓ」「Ａ」「Ｋ」「Ａ」と考えて、ずれが３個で３×1＝３、相違は３個で３×１＝３、正規化後のペナルティは（３＋３）／９＝０．６６７点になる。音素レベルでは、検索単語が「おおさか」である場合、「しんおおさか」よりも「おおつか」の方を似ていると判断する。

上述した音響類似距離計算方法では、読み仮名の場合の文字、又は、音素の挿入時や脱落時のペナルティを「１」とし、音節、又は、音素間の距離値（違う音素間のペナルティ値）を「１」としたが、他のペナルティ値を使用して計算しても良い。
例えば、音素間の距離値について、認識時に使用した音素音響モデルのモデル間距離値を使用しても良い。この場合、各音素を表す音響モデルの確率分布間のマハラノビス距離によって音素間の距離値を定義することができる。各音素の音響モデルが１状態かつ単一ガウス分布でモデル化されているとき、２つのモデル間のマハラノビス距離ＡＤij（音素i とj）は、下記の数１で表される。

上記の数１において、
ＫはMFCC (Mel-Frequency Cepstrum Coefficient) ベクトルの次元数（Ｋ＝１２)、
μikおよびσikは、それぞれ音素iの平均および分散MFCCベクトルのk次元目の要素である。

また、音素間混同行列に基づいて音素間距離を計算しても良い。音素間混同行列とは認識実験などにより求め、行列の要素を確率で表したものである。この音素間混同行列を使用した音素間距離の算出例について、表１を参照して説明する。
表１は、入力音素a、i、u、e、o、・・がそれぞれa、i、u、e、o、・・と聞こえる確率を行列で表したものである。例えば、音素aがaと聞こえる確率は０．９、iと聞こえる確率は０．２、uと聞こえる確率は０．３、・・・などのことが示される。音素混同行列の確率の逆数を音素間距離として定義することができる。

INDEXファイル作成手段１３で作成するINDEXファイルには、上記した音響類似距離値の他に、検索単語に対して歌詞データを選択する場合に判断基準となる情報（ランキング要素値）が登録されているものであってもよい。これらの情報としては、例えば、検索単語に類似する単語（歌詞中に存在する検索対象単語）の歌詞データ（文書データ）中における位置情報や、登場頻度をパラメータとして算出する重要度情報が考えられる。

位置情報は、類似単語候補の出現位置pni（ pniは類似単語候補Ｗniが歌詞ファイルＳi中での出現位置：何番目に出現する単語であるかの数値）としてINDEXファイルに保存される。出現位置pniが複数ある場合には、その全てを登録しておく。
重要度情報は、検索対象単語が歌詞データ中でどのくらい重要な指標を持つかを評価する特徴量tf・idfと定義し、tfをある歌詞データの中の検索対象単語の出現頻度、idfをlog (検索対象全文書数／検索対象単語を含む文書の数) とした場合に、特徴量tf・idf はこれらの積であるtf・id fで算出される。
また、特徴量tf・idfの値を０〜１．０の値に正規化するため、以下の計算を行う。歌詞ファイルＳiの単語Ｗniのtf・idf値はtf・ idfni,Σtf・idfiはＳiの全単語のtf・idf値の総和とする。正規化後のＷniのtf・idf’ni=tf・idfni／Σtf・idfi。

そして、キーワードリスト２１に登録されたキーワードＡ1〜Ａnの全ての単語について、音響類似距離が一番近い単語Ｗni、音響類似距離計算による距離値dni、出現位置pni、正規化特徴量tｆ・id f’値を登録したテーブルを作成しておく。INDEXファイル２２のテーブルは、例えば、歌詞ファイルＳ10において、表２のように作成される。

制御部１０の類似度演算手段１４は、前記テーブルに登録された音響類似距離が一番近い単語Ｗni、音響類似距離計算による距離値dni、出現位置pni、特徴量tf・idf’値から類似度を演算する。

出力インタフェース３は、制御部１０の類似度演算手段１４での演算結果に基づいて文書データの検索結果を出力するものであり、INDEXファイルによる検索文字列との類似度（または適合度）の高い順で検索結果を出力するように構成されている。

次に、INDEXファイルが登録された文書データ検索装置を使用して、検索文字列によって歌詞ファイルを検索する場合について、図３のフローチャート及び図２を参照しながら説明する。
先ず、ユーザが聞き覚えのある単語の集合である文字列（歌詞文やフレーズ）を検索文字列として入力インタフェース２に入力する（ステップ１０１）。
入力された検索文字列は、制御部１０において、INDEXファイル作成の際に使用したのと同じ形態素解析が行われ（ステップ１０２）、解析結果となった検索クエリ単語リストＱ1，…，Ｑmの単語列を抽出する（ステップ１０３）。
次に、検索クエリ単語リストをINDEXファイル２２のキーワードリストに照合し（ステップ１０４）、一致とされたキーワードＡ1〜Ａnを抽出する。例えば、検索クエリ単語リストにＱ1、Ｑ2、Ｑ3があり、Ｑ1はＡ5、Ｑ2はＡ7、Ｑ3はＡ9とそれぞれ一致している場合に、Ａ5、Ａ7、Ａ9を抽出する。

抽出されたキーワード単語（または単語列）に対して、INDEXファイル２２を参照し、各歌詞ファイルの中で、キーワード単語（または単語列）と音響的に最も類似する単語候補と、その音響類似距離値と、類似単語候補の位置情報を求めて類似度の演算を行い（ステップ１０５）、歌詞ファイルの選択を行う（ステップ１０６）。
Ｑ1はＡ5、Ｑ2はＡ7、Ｑ3はＡ9とそれぞれ一致しているため、歌詞ファイルＳiに対する検索クエリＱ1、Ｑ2、Ｑ3の音響類似距離Ｄiはd5i＋d7i＋d9iとなり、歌詞ファイルＳiに対する類似単語候補列ＷiはＷ5i、Ｗ7i、Ｗ9iとなる。また、類似単語候補列Ｗ5i、Ｗ7i、Ｗ9iの歌詞ファイルＳi中での出現位置情報Piはp5i、p7i、p9iとなる。

次に、検索文字列と検索にヒットした歌詞ファイルとの適合度を計算し、それに応じてランキングを行う（ステップ１０７）。
適合度の計算については、歌詞ファイルＳiの適合度を１／（Ｄi＋０．１）とする単純な手法で行うことができる（Ｄiは歌詞ファイルＳiの音響類似距離値）。実際には歌詞ファイルの適合度を１／（Ｄi＋β）と定義し、βを０．１に設定することで計算する。
また、キーワード単語列に対する類似単語候補列Ｗiの出現位置情報Piを読み出した上で、類似単語候補列の検索単語列間隣接関係をチェックする。そして、音響類似距離Ｄiの値に単語列間の隣接重みαi（隣接関係強い方は隣接重みαi値が高いと設定する）をつける。計算例を挙げると、Ｑ1はＡ5、Ｑ2はＡ7、Ｑ3はＡ9とそれぞれ一致しており、歌詞ファイルＳiに対する隣接重みαiが、下記の数２により計算できる。また、単語が一つしかない場合には、数２において、αi＝１となる。

（数２）
αi=1／［（p7i-p5i）^2+（p9i-p7i）^2］

歌詞ファイルのランキングを行うランキング用適合度は、音響類似距離値Ｄiに隣接重みαiや特徴量tf・idfを関連づけて算出される。計算例として、ランキング用適合度は、αi／（Ｄi＋０．１）＋tf・idf’によって算出された値となる。また、Ｄiの値は０の場合のみ、適合度にtf・idf’の値を加算する手段としてもよい。
そして、歌詞ファイルのランキングを行うに際に、歌詞データベースに格納された全ての歌詞ファイルのデータとの間で適合度を判断する。
ランキング用適合度値によって歌詞ファイルのランキングを行った後において、適合度の高い順で上位Ｎ位となる歌詞ファイル及びそれらの楽曲情報が検索結果として出力インタフェース３から出力する（ステップ１０８）。

上述した例では、INDEXファイル２２を作成するに際して、歌詞ファイル毎に作成された単語リストＬi２０中の各単語において、キーワードＡnとの音響類似距離を計算し、音響類似距離が一番近い単語Ｗni（歌詞ファイルＳiにおいてＡnと音響的に最も類似する単語）をそれぞれ抽出するようにしたが、音響類似距離が近い上位Ｍ個の単語候補（歌詞ファイルＳiにおいてＡnと音響的に最も類似する上位Ｍ個の単語）も抽出し、それらの音響類似距離値Ｄiと隣接重みαiを保存しておくようにしてもよい。
この場合、歌詞ファイルＳiにおいて、検索単語列を構成する検索単語となるキーワードに対して複数の類似単語が候補となるが、ランキング用適合度を算出する場合に、その候補のαi／（Ｄi＋０．１）＋tf・idf’の値の中で一番高い値を歌詞ファイルＳiに対するランキング用適合度とすればよい。

また、類似度の計算精度を高めるため、INDEXファイルによるランキング用適合度値の高い順で上位Ｎ個の検索対象歌詞ファイル候補を絞りこみ、そのＮ個候補の各歌詞ファイルの文字列と入力された検索文字列（上述した形態素解析前の入力されたフレーズ）を音素列に変換し、ＤＰマッチングを計算する処理を行ってもよい。その計算結果となる距離値に基づいて適合度を計算し高い順にランキングすることで、より類似精度の高いランキング表示を行うことができる。

上記構成によれば、入力した検索文字列を構成する検索単語に類似する若しくは同じ単語がINDEXファイル２２における単語リストＡn（検索対象単語）に存在すれば、類似距離等の数値が既に演算済のデータとして登録されているので、この数値に基づいて類似度の演算の行うことで、類似テキスト検索の高速化が可能となる。
上記例では歌詞データを検索する文書データ検索装置について説明したが、歌詞データに限らず文書データ等のテキストに対しての類似テキスト検索に適用することができる。

なお、入力した単語がキーワードリストにない場合は、リアルタイムでその単語（または単語列）を音素列に変換し、各検索対象歌詞ファイルの音素列とのＤＰマッチングを計算し、その結果となる距離値を類似度として検索する。

本発明の文書データ検索装置の実施形態の一例を示す機能ブロック図である。本発明の文書データ検索装置におけるINDEXファイル作成処理を説明するための説明図である。本発明の文書データ検索装置における検索処理の一例を示すフローチャートである。

符号の説明

１…文書データ検索装置、２…入力インタフェース、３…出力インタフェース、４…歌詞データベース、１０…制御部、１１…単語抽出手段、１２…キーワード登録手段、１３…INDEXファイル作成手段、１４…類似度演算手段、２０…抽出単語リスト、２１…キーワードリスト、２２…INDEXファイル。

Claims

検索文字列が入力される入力インタフェースを備え、前記検索文字列により複数の検索対象文書データから文書データの検索を行う検索装置において、
予め複数の文書データを入力し前記文書データを構成する単語を抽出する単語抽出手段と、
前記検索文字列に含まれる可能性のある検索単語をキーワードとしてリストに登録するキーワード登録手段と、
前記単語抽出手段により抽出された抽出単語とキーワードに対して分解された読み仮名又は音素同士の比較から算出される音響類似距離値を用いて検索用INDEXファイルを作成するINDEXファイル作成手段と、
入力された検索文字列から得られる検索単語に基づいて、前記INDEXファイルを参照して検索対象文書データの類似度を演算する類似度演算手段と、
前記類似度に基づいた文書データの検索結果を出力する出力インタフェースと
を具備したことを特徴とする文書データ検索装置。
前記INDEXファイル作成手段の音響類似距離値は、
前記キーワードと抽出単語同士の編集距離を計算する手段によりそれぞれ読み仮名列に変換し、二つの読み仮名列において、音節を単位としたＤＰマッチングを行うことで、音節間の距離（違う音節間同士のペナルティ値），音節の挿入時のペナルティ値，音節の脱落時のペナルティ値それぞれに所望の数値を与える計算手段により計算する請求項１に記載の文書データ検索装置。
前記INDEXファイル作成手段の音響類似距離値は、
前記キーワードと抽出単語同士の二つの音素列の編集距離を計算する手段によりそれぞれの読みを音素列に変換し、二つの音素列において、音素を単位としたＤＰマッチングを行うことで、音素間の距離（違う音素間同士のペナルティ値），音素の挿入時のペナルティ値，音素の脱落時のペナルティ値それぞれに所望の数値を与える計算手段により計算する請求項１に記載の文書データ検索装置。
前記INDEXファイル作成手段は、前記検索対象文書データから抽出された前記抽出単語の文書データ中における位置情報及び登場頻度をパラメータとした重要度情報を登録した検索用INDEXファイルを作成する請求項１乃至請求項３のいずれか１項に記載の文書データ検索装置。
前記出力インタフェースは、音響類似距離値に基づいて適合度を計算し、INDEXファイルによる検索文字列から得られる一つ又は複数の検索単語との適合度の高い順で検索結果を出力する手段を備えることにより、
INDEXファイルによる検索文字列との適合度の高い順で上位Ｎ個の検索対象文書データ候補を絞り、前記Ｎ個候補における検索文字列の音素列と前記検索対象文書データ候補の文字列の音素列とのＤＰマッチングを計算し、その計算結果となる類似度により出力順位を決める請求項１に記載の文書データ検索装置。